26.08.2013 Views

Euskal WordNet - Euskara - Euskadi.net

Euskal WordNet - Euskara - Euskadi.net

Euskal WordNet - Euskara - Euskadi.net

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Jakintza-arloa: Hizkuntzalaritza<br />

<strong>Euskara</strong>ren<br />

ezagutza-base<br />

lexikala<br />

<strong>Euskal</strong> <strong>WordNet</strong><br />

Egilea: ELISABETE POCIELLO IRIGOIEN<br />

Urtea: 2007<br />

Zuzendariak ENEKO AGIRRE BENGOA, IZASKUN ALDEZABAL ROTETA<br />

Unibertsitatea: UPV/EHU<br />

ISBN: 978-84-8438-195-2


Hitzaurrea<br />

Tesi hau <strong>Euskal</strong> Herriko Unibertsitateko Informatika Fakultateko IXA taldearen<br />

barruan kokatu behar da. IXA taldeak hogei urte inguru daramatza Lengoaia<br />

Naturalaren Prozesamenduan (LNP) lanean. Arlo zabal horren barruan,<br />

euskararen gaineko ikerketa aplikatua da gure xede nagusia, eta helburu<br />

horrekin, orain arte, morfologia, eta sintaxia landu ditugu batez ere. Arlo<br />

hauetan lan handia egiteke dagoen arren, hurrengo aurrerapauso garrantzitsua<br />

semantika jorratzea da.<br />

Hori lortu ahal izateko, hizkuntza horren hiztegiaren ezagutza sakona jasota<br />

duen biltegi baten beharra dago, hots, ezagutza-base lexikal bat informazio<br />

semantikoa jasotzen duena. Horrela, LNPn ezagutza-base lexikalak<br />

hizkuntzaren gordailu nagusi bihurtu dira, eta hauen eraikuntza arlo ho<strong>net</strong>ako<br />

funtsezko ataza dugu, gaur egun. Hauei esker makinek itzulpen automatikoa,<br />

informazio-erauzketa eta hitzen adieren desanbiguazioa bezalako atazak<br />

burutu ditzakete.<br />

Beste hizkuntza askotarako EBLak dagoeneko garatuak izan dira. Hala,<br />

euskarak arlo ho<strong>net</strong>an zuen hutsuneaz jabetuta, tesi-lan honekin euskararen<br />

azterketa semantikoa ahalbidetzeko beharrezkoa den euskararako EBL bat<br />

sortzeari ekin genion, <strong>Euskal</strong> <strong>WordNet</strong> izendatu duguna.


<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />

<strong>Euskal</strong> Filologia Saila<br />

<strong>Euskara</strong>ren<br />

ezagutza-base lexikala:<br />

<strong>Euskal</strong> <strong>WordNet</strong><br />

Elisabete Pociello Irigoyenek<br />

<strong>Euskal</strong> Filologian Doktore titulua eskuratzeko aurkezturiko<br />

Tesia<br />

Donostia, 2.007ko urria.


<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />

<strong>Euskal</strong> Filologia Saila<br />

<strong>Euskara</strong>ren<br />

ezagutza-base lexikala:<br />

<strong>Euskal</strong> <strong>WordNet</strong><br />

Elisabete Pociello Irigoyenek<br />

<strong>Euskal</strong> Filologian Doktore titulua eskuratzeko aurkezturiko<br />

Tesia<br />

Donostia, 2.007ko urria.


<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />

<strong>Euskal</strong> Filologia Saila<br />

<strong>Euskara</strong>ren<br />

ezagutza-base lexikala:<br />

<strong>Euskal</strong> <strong>WordNet</strong><br />

Elisabete Pociello Irigoyenek Eneko<br />

Agirre Bengoaren eta Izaskun<br />

Aldezabal Rotetaren zuzendaritzapean<br />

egindako tesiaren txostena, <strong>Euskal</strong> Herriko<br />

Unibertsitatean <strong>Euskal</strong> Filologian<br />

Doktore titulua eskuratzeko aurkeztua.<br />

Donostia, 2.007ko urria.


Lan hau Eusko Jaurlaritzaren ikertzaileak prestatzeko beka batekin (BFI02.114) egin dut.<br />

iii


Gauza ederra duk hitzak suntsitzea. Jakina, aditzen eta izenondoen artean<br />

zagok zaborrik gehien, baina izenak ere ehunka zeudek baztertzeko modukoak.<br />

Eta ez sinonimoak bakarrik; antonimoak ere bota daitezkek zakarretara.<br />

Azken batean, zertarako behar diagu hitz bat beste baten alderantzizkoa baizik ez bada?<br />

Hitz batek bere baitan zaramak kontrako esanahia. Har ezak “on”, esaterako.<br />

“On” baldin badaukak, zertarako demontre behar duk “txar”? “Ez-on” berak balio izango<br />

likek berdin; eta, hobeki gainera, zeren eta kontrako zehatza baituk, bestea ez bezala.<br />

Edo, bestela, “on”en aldaera indartsuagoa behar baldin baduk, zer zentzu zeukak “bikain”,<br />

“gailen” eta gisako hitz lauso eta alferrekoen soka hori guztia edukitzeak?<br />

“Pluson” hitzak ematen dik esanahia, edo “bikoizpluson” hitzak, are esanahi indartsuagoa<br />

behar baduk. Jakina, dagoeneko erabiltzen dizkiagu forma horiek,<br />

baina hizketaberriaren azken bertsioan forma horiek besterik ez duk izango.<br />

Azkenean, ontasunaren eta txartasunaren eremu osoa sei hitzek bakarrik beteko ditek;<br />

hitz bakar batek egiazki.<br />

[...]<br />

Hala ere, hire bihotzean hizketazaharrari atxikita jarraitzea hobetsi duk, haren<br />

zehaztasun-gabezia eta esanahien abardura alferrekoak gorabehera.<br />

(George Orwell, 1984. Tafalla: Txalaparta, 2007)<br />

“Profirió”, “rezonó”, “masculló”, “remarcó”...Ikusten gaztelaniaren ugaritasuna?<br />

Gu, berriz, hor gabiltza beti “esan zuen” eta “esan zuen”. Aldatu egin nahi,<br />

eta “bota zuen” darabilgu. Edo gehienera ere, “bota zion”.<br />

Horrela nola idatz daiteke bizitasun pixka batez?<br />

Eta abar? Neuk ere botatzen nituen antzekoak. Oker nengoen:<br />

zeure hizkuntzaren ispiluan begiratu behar dituzu zeure ahulezia eta bertute estilistikoak,<br />

ez beste hizkuntza baten ispiluan.<br />

v<br />

Anjel Lertxundi (Berria, 2007-04-28)


vii<br />

Aitari eta Amari


viii


Eskerrik asko!<br />

Tesi hau egin ahal izateko, jende askoren laguntza izan dut, eta hauei guztiei<br />

eskerrak eman nahi nizkieke:<br />

• IXA taldeko kide guztiei, lan hau aurrera eramateko eskaini didazuen<br />

laguntza guztiagatik, eta batez ere, niretzat ezezaguna zen hizkuntzalaritza<br />

konputazionalaren munduan sartzeko aukera emateagatik.<br />

• Zuzendariei, Enekori eta Izaskuni, gauzak izugarri errazteagatik, eta<br />

berez astuna dena arin bihurtzen laguntzeagatik.<br />

• Ehundaka hitzen adierak editatu, etiketatu eta epaitu dituzuenoi (Larraitz,<br />

Karmele, Eli, Mikel, Jone eta Ainara), tesi hau gure eztabaida<br />

“semantiko-filosofiko-soziologikoen” emaitza ere badelako.<br />

• Olatzi, nire erruz egiten ari zarena utzi eta datu-basean gora eta behera<br />

jardun behar izan duzulako; beti laguntzeko prest!<br />

• A German, per respondre amb molta paciència a totes les meves preguntes,<br />

i així fer-me practicar el català.<br />

• Emakunden, nirekin batera, ordu piiiiiila pasa dituzuen bulegokideei<br />

(Aitziber, Olatz, Ruben, Klara, Maxux, Kike, Mikel, landare “bionikoa”...);<br />

urte guzti hauetan, lanaz gain beste mila bizipen partekatu<br />

ditugulako. Aiii, landare “bionikoak” hitz egingo balu. . .<br />

• IXA-bulego nagusiko bulegokideei, tesiko azkeneko txanpan nire txorakeriak<br />

jasateagatik. Ah! eta bulegoan dardoak jartzeagatik!<br />

• Inguruan izan ditudan informatikari gajoei, eta, batez ere, txosten honek<br />

itxura txukuna izateko latexekin lagundu didazuenei (Oier, Gorka,<br />

AitorSoroa, Maite...), nirekin izanduzuen pazientzia handiiiiiiagatik.


x Eskerrik asko!<br />

• Gym taldetxoari (Aitzpea, Bertol, Klara, Larraitz eta Ruben), estresaren<br />

aurkako formula erakusteagatik (kirol pixka bat + bazkari/afari<br />

ugari + “katxondeo” asko = estres gutxiago).<br />

• Nereari eta Montseri; Nereari bere masajitoengatik eta Emakundeko<br />

iskanbilak beheko solairutik “konpartitzeagatik”; eta Montseri per reir<br />

(i fer-me reir) tant (beeeeeh!).<br />

• Tesiaren aldapa gogorra igo nahian zaudeten ixakide guztiei; eutsi goiari!!<br />

nik egin badut, zuek ere egingo duzue-eta!!<br />

• Lagunei, tesia utzi eta garagardo bat zuekin hartzera joateko aitzaki<br />

ezin hobea izan zaretelako. Hurrengo potea nire kontu!<br />

• “Eli, baina zuk unibertsitatean zer egiten duzu?” galdera ehundaka<br />

aldiz egin didazuenei. Hurrengoan, tesia oparituko dizuet, behingoz<br />

uler dezazuen, edo ez. . .<br />

• Senide guztiei, beti hor egoteagatik.<br />

• Etxekoei, nire lana ondo ulertu ez arren, zuek izan zaretelako, hasiera<br />

hasieratik, lan honen bultzatzaile nekaezinak.<br />

• Ilobei, zuekin nagoenean ezinezkoa delako tesiarekin gogoratzea.<br />

• Bertoli, txostentzar hau zuzentzen hartu duzun lanagatik; bide luze ho<strong>net</strong>an,<br />

egunero-egunero, eman dizkidazun animoengatik; eta bereziki,<br />

lanak eta aisialdiak bateragarriak izan BEHAR dutela erakusteagatik.<br />

Eskerrik asko denoi!


Laburtzapenak<br />

<strong>Euskara</strong>z:<br />

DBL: Datu-Base Lexikala<br />

EBL: Ezagutza-Base Lexikala<br />

EDBL: <strong>Euskara</strong>ren Datu-Base Lexikala<br />

ELK: Egitura Lexikal-Kontzeptuala<br />

EusWN: <strong>Euskal</strong> <strong>WordNet</strong><br />

HAE: Hitz Anitzeko Esapidea<br />

HAUL: Hitz Anitzeko Unitate Lexikala<br />

HEB: Hiztegi-Ezagutza Basea<br />

HM: Hautapen-Murriztapena<br />

LNP: Lengoaia Naturalaren Prozesamendua<br />

Ingelesez:<br />

BNC: British Nationa Corpus<br />

c2c: class-to-class<br />

EuroWN: Euro<strong>WordNet</strong><br />

ILI: Inter-Lingual-Index<br />

LCS: Lexical Conceptual Structure<br />

MCR: Multilingual Central Repository<br />

MRD: Machine Readable Dictionary<br />

s2semf: sense-to-semantic field<br />

s2s: sense-to-sense<br />

w2c: word-to-class<br />

w2semf: word-to-semantic field<br />

w2w: word-to-word<br />

WN: <strong>WordNet</strong>


xii Laburtzapenak


Glosategia<br />

analisi semantiko<br />

Analisi semantikoaren helburua esaldiaren esanahia lortzea da, hau da, bere edukiaren<br />

errepresentazio kontzeptuala sortzea. Horretan, esaldiaren esanahia egitura formal baten<br />

bidez adierazi beharko da.<br />

autohiponimia<br />

EBL batean hiperonimoa eta hiponimoa forma berekoak direnean, baina adiera desberdinekoak,<br />

hots, polisemikoak.<br />

datu-base lexikal (DBL)<br />

Lexikoaren gainean biltzen den ezagutza mota gehienbat gramatikala denean (kategoria,<br />

azpikategoria, morfotaktika...), datu-base lexikal (DBL) terminoa erabiltzen da.<br />

desanbiguazio/desanbiguatu<br />

Anbiguotasuna gertatzen denean, testuinguruari begiratzen zaio hitz batek aukeran dituen<br />

interpretazioen artean egokiena zein den jakiteko. Testuinguru jakin horri ez dagokion interpretazioa<br />

kentzea ala dagokiona besterik ez uztea da desanbiguatzea.<br />

Domeinu-ontologia (Domain Ontology)<br />

Euro<strong>WordNet</strong>en eta The Multilingual Central Repositoryn (MCRn),synsetak domeinuen<br />

arabera antolatzen dituen ontologia.<br />

eremu semantiko (semantic field)<br />

Eremu semantikoak <strong>WordNet</strong>en fitxategi batzuk dira, non <strong>WordNet</strong>eko klase semantiko<br />

bakoitza jasota dagoen.<br />

eskuratu/eskurapen<br />

Informazioa eskuratu dugula diogu, metodo automatikoetan oinarrituz, corpuse(ta)tik<br />

behar dugun informazioa lortzen dugunean. Esate baterako, tesi-lan ho<strong>net</strong>an corpusetan<br />

oinarrituz aditz batzuen hautapen-murriztapenak lortu ditugu.


xiv Glosategia<br />

etiketatze<br />

Zenbait markaketa linguistiko, hala nola hitzei kode bereziak atxikitzea haien zenbait ezaugarri<br />

adierazteko; eta ezaugarriei egokitzen zaizkien kodeei etiketa esaten zaie. Etiketatzea<br />

zenbait kontu markatzeko erabiltzen da. Eta horregatik maila desberdi<strong>net</strong>ako etiketatzeak<br />

daude. Tesi-lan ho<strong>net</strong>an etiketatze semantikoaz arituko gara, hau da, etiketa semantikoak<br />

erabilita hitzen adiera zehaztuko dugu, hots, desanbiguatuko dugu.<br />

Euro<strong>WordNet</strong> (EuroWN)<br />

Ezagutza-base eleanitza da (Vossen, 1998), Europako zortzi hizkuntzatara zabaltzen dena<br />

(ingelesa, nederlandera, italiera, gaztelania, alemana, frantsesa, txekiera eta estoniera),<br />

eta <strong>WordNet</strong> (Miller, 1985; Fellbaum 1998a) EBLan oinarritzen dena.<br />

EuSemcor<br />

IXA taldea semantikoki eskuz etiketatzen ari den euskarazko corpusa, <strong>Euskal</strong> <strong>WordNet</strong>eko<br />

synsetetan oinarrituaz.<br />

<strong>Euskal</strong> <strong>WordNet</strong> (EusWN)<br />

IXA taldea garatzen ari den euskarako EBLa, <strong>WordNet</strong>en, Euro<strong>WordNet</strong>en eta The Multilingual<br />

Central Repositoryren (MCR) ildotik sortutakoa.<br />

ezagutza-base lexikal (EBL)<br />

Hitz eta adierei buruzko informazioa duten lexikoia da. EBLen ezaugarri garrantzitsuena<br />

herentzia izaten da, adierak klase/azpiklase hierarkien inguruan antolatzen dira-eta.<br />

Goi-ontologia (Top Ontology)<br />

Euro<strong>WordNet</strong> eta The Multilingual Central Repositoryko (MCRko) word<strong>net</strong> ezberdi<strong>net</strong>an,<br />

gehien erabilitako synsetak oinarrizko ezaugarri semantikoen arabera sailkatzea ahalbidetzen<br />

duen ontologia.<br />

hautapen-murriztapen (HM)<br />

HMak dira hitz baten adiera batek testuinguruan izan ditzakeen agerkidetzak. Zerrenda<br />

hau osatzen dute klase semantiko batean dauden hitzek, hau da, adiera zehatz batekin<br />

osagai gisa ager daitezkeen hitz guztiak. Horrela bada, aditz batek, bere adieraren arabera,<br />

argumentu bezala har ditzakeen izenen klase semantikoa mugatu dezake.<br />

hiperonimia<br />

Unitate lexikoen arteko edukitze-erlazioa, orokorragotik espezifikoagora doana. Honen<br />

kontrakoa hiponimia da. Adib., hegazti hitza txori hitzarekiko hiperonimiako erlazioan<br />

dago.<br />

hiperonimo<br />

Beste hitz batekiko hiperonimiako erlazioan dagoen hitzaz esaten da. Adib., hegazti hitza<br />

txori hitzaren hiperonimoa da.


hiponimia<br />

Unitate lexikoen arteko edukitze-erlazioa, espezifikoagotik orokorragora doana. Honen<br />

kontrakoa hiperonimia da. Adib., txori hitza hegazti hitzarekiko hiponimiako erlazioan<br />

dago.<br />

hiponimo<br />

Beste hitz batekiko hiponimiako erlazioan dagoen hitzaz esaten da. Adib., txori hitza hegazti<br />

hitzaren hiponimoa da.<br />

hitz anitzeko esapide (HAE)<br />

Edozein hitz-konbinazio adierazteko; lexikalizatuak nahiz ez lexikalizatuak (Alegria et al,<br />

2004).<br />

hitz anitzeko unitate lexikal (HAUL)<br />

Lexikalizaturiko hitz anitzekoak (Alegria et al, 2004).<br />

hiztegi ezagutza-base (HEB)<br />

HEBek hiztegietatik erauzitako informazioa jasotzen dute. Erauzitako informazioen artean,<br />

EBLetan bezala, hemen ere, adieren hierarkiak dira aipagarriak.<br />

ikasi/ikasketa automatiko<br />

Makinari emandako datu egokietan oinarrituz eta hauen gainean teknika estatistiko konplexuak<br />

aplikatuz, makinak ikasi egiten du; ikasketa honen ondorioz, gai da datu berriei<br />

buruz erabakiak hartzeko. Erabaki hauen zuzentasuna ikaste-prozesuaren egokitasunaren<br />

araberakoa izango da, noski; ikaste-prozesuaren egokitasuna, era berean, erabiltzen diren<br />

teknika estatistikoen eta ikasteko erabilitako datuen kopuruan eta egokitasunean datza.<br />

informazio-erauzketa<br />

Testuetatik edo hizketatik informazio adierazgarria automatikoki ateratzea.<br />

interfaze<br />

Gizakiaren eta makinaren arteko elkarrekintzan laguntzeko sistema.<br />

Inter-Lingual-Index (ILI)<br />

Inter-Lingual-Index (ILI) honen bitartez, Euro<strong>WordNet</strong>en eta The Multilingual Central<br />

Repositoryn (MCRn) hizkuntza guztietako word<strong>net</strong>ak lotuak daude.<br />

ILI-record<br />

Inter-Lingual-Index ean (ILIan) ILI-recordak daude, eta hauetako bakoitza <strong>WordNet</strong>eko<br />

synset bati dago lotua.<br />

interpretazio semantiko<br />

Testuingurua kontuan hartu gabe, esaldiaren esanahi abstraktua lortzen duen analisi-fasea.<br />

Forma logiko baten bitartez adierazten da esaldiaren esanahia.<br />

xv


xvi Glosategia<br />

Lengoaia Naturalaren Prozesamendua (LNP)<br />

Hizkuntzaren tratamendu automatikoaren inguruko ikerrarloari Lengoaia Naturalaren Prozesamendua<br />

(LNP) esaten zaio, eta, batez ere, erabiliko diren teknika informatikoei erreparatzen<br />

dio: algoritmoak, konpilatzaileak, estrategiak, etab.<br />

lexikalizazio<br />

Morfema-segida bat unitate lexikal bilakatzen den prozesua, eta esanahi eta funtzioaren<br />

ikuspuntutik hitz bakar bat bezala funtzionatzen duena.<br />

lexikoi<br />

LNPren arloan informazio lexikalaren biltegiei edota hiztegiei erreferentzia egiteko erabiltzen<br />

den terminoa.<br />

The Multilingual Central Repository (MCR)<br />

The Multilingual Central Repository (MCR) interfaze eleanitza da, non Europa Batzordeko<br />

MEANING: Developing Multilingual Web-Scale Language Technologies (IST-2001-34460)<br />

proiektuan (Rigau et al., 2003) aztertu den informazio guztia integratzen den. Ezagutzabase<br />

honek Euro<strong>WordNet</strong>en eredua jarraitzen du. Bestalde, MCRk bost hizkuntzetako<br />

word<strong>net</strong>ekin egiten du lan: euskara, katalana, ingelesa (Princetoneko <strong>WordNet</strong>aren 1.5,<br />

1.6, 1.7 eta 1.7.1 bertsioekin), italiera eta gaztelania.<br />

MRD (Machine Readable Dictionary)<br />

Euskarri mag<strong>net</strong>ikoan gordetzen den hiztegia. Hiztegi elektronikoa.<br />

Oinarrizko Kontzeptu (Base Concept)<br />

Euro<strong>WordNet</strong>en eta The Multilingual Central Repositoryn (MCRn) harreman semantikoen<br />

kopuru handiena duten synsetak dira. Gainera, hierarkian goi aldeko synsetak dira,<br />

eta EBL hauek osatzen duten word<strong>net</strong> guztietan agertuko dira.<br />

ontologia<br />

Mundu errealaren kontzeptualizazioak dira, hitzekin izendatzen ditugun kontzeptuak modu<br />

hierarkikoan antolatuta, mundu errealari buruzko inferentziak egiteko gaitasuna dutenak.<br />

SemCor<br />

<strong>WordNet</strong>eko synsetekin eskuz etiketatuko ingeleseko corpusa.<br />

sinonimia<br />

Termino sinonimoen arteko erlazioa.<br />

sinonimo<br />

Esaldi berean, beronen esanahia aldatu gabe, elkartruka daitezkeen terminoez (hau da,<br />

esanahi bera dutenez) esaten da.


xvii<br />

synset (synonym set)<br />

Synset bakoitza kontzeptu lexikal bati dagokio, eta hau osatuko duten hitz-multzoek kategoria<br />

berdinekoak eta testuinguru bereetan truka daitezkeenak dira.<br />

urre-patroi (goldstandard)<br />

Automatikoki eskuratutako emaitzak ebaluatu ahal izateko, eskuz sortzen diren emaitza<br />

prototipikoak.<br />

variant<br />

Synseta osatzen duten ale lexikalei variant deitzen zaie, eta, synset berean dauden variantak<br />

sinonimoak dira.<br />

<strong>WordNet</strong><br />

Kontzeptuen artean hainbat motatako harreman semantikoak ezarriz (hiperonimia, hiponimia,<br />

sinonimoa. . . ) egiten diren ingeleseko sare semantiko ezagune<strong>net</strong>akoa da (Miller,<br />

1985; Fellbaum, 1998a).<br />

word<strong>net</strong><br />

<strong>WordNet</strong>en (Miller 1985; Fellbaum, 1998a) oinarrituta garatu den edozein hizkuntzetako<br />

EBLari buruz hitz egiteko erabiltzen da. Hala, <strong>WordNet</strong> terminoarekin, ingeleseko word<strong>net</strong>ari<br />

egingo zaio erreferentzia, eta word<strong>net</strong> terminoak aurretik zer hizkuntzetakoa den<br />

adierazia izan beharko du.


xviii Glosategia


Gaien aurkibidea<br />

Eskerrik asko! ix<br />

Laburtzapenak xi<br />

Glosategia xiii<br />

Aurkibidea xix<br />

Irudien zerrenda xxv<br />

Taulen zerrenda xxvii<br />

I Tesi-lanaren aurkezpen orokorra 1<br />

I.1 Gaiaren kokapena eta motibazioa . . . . . . . . . . . . . . 1<br />

I.2 Helburuak . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

I.3 Tesi-txostenaren eskema . . . . . . . . . . . . . . . . . . . 6<br />

I.4 Tesiarekin lotutako argitalpenak . . . . . . . . . . . . . . 8<br />

II Lexikoiak 13<br />

II.1 Lexikoiez historia apur bat . . . . . . . . . . . . . . . . . 13<br />

II.2 Lexikoiei buruz . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

II.2.1 Lexikoiak sortzeko hurbilpenak, metodoak eta<br />

iturriak . . . . . . . . . . . . . . . . . . . . . . . 19<br />

II.2.2 Ezagutza-base lexikalak, hiztegi ezagutza-baseak<br />

eta ontologiak. . . . . . . . . . . . . . . . . . . . 23<br />

II.3 Laburbilduz . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

III Ezagutza-base lexikalen azterketa kritikoa 29<br />

III.1 Gure EBLa definitzen . . . . . . . . . . . . . . . . . . . . 30<br />

III.2 Azterketarako aukeratutako formalismoak . . . . . . . . . 33


xx GAIEN AURKIBIDEA<br />

III.2.1 Hizkuntzalaritza teorikoan oinarritutako lanak . . 34<br />

III.2.1.1 Jackendoff (1990) . . . . . . . . . . . . . . . . 34<br />

III.2.1.2 Levin (1993) . . . . . . . . . . . . . . . . . . 37<br />

III.2.1.3 Pustejovsky (1995) . . . . . . . . . . . . . . . 39<br />

III.2.2 Hizkuntzalaritza teoriko eta konputazionalaren<br />

erdibidean dauden lanak . . . . . . . . . . . . . . 41<br />

III.2.2.1 Lexical Functional Grammar . . . . . . . . . 42<br />

III.2.2.2 Head-Driven Phrase Structure Grammar . . . 44<br />

III.2.3 Hizkuntzalaritza konputazionalean oinarritutako<br />

lanak . . . . . . . . . . . . . . . . . . . . . . . . 46<br />

III.2.3.1 FrameNet . . . . . . . . . . . . . . . . . . . . 46<br />

III.2.3.2 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak . . . 51<br />

III.2.3.3 Volem . . . . . . . . . . . . . . . . . . . . . . 55<br />

III.2.4 PropBank . . . . . . . . . . . . . . . . . . . . . . 57<br />

III.2.5 Corpusetan oinarritutako lanak . . . . . . . . . . 60<br />

III.3 Gure aukera eta arrazoiak . . . . . . . . . . . . . . . . . . 61<br />

III.4 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

IV <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR 69<br />

IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak . . . . . . . . . . 69<br />

IV.1.1 Sarrera . . . . . . . . . . . . . . . . . . . . . . . 69<br />

IV.1.2 Aditza eta informazio sintaktiko-semantikoa . . . 73<br />

IV.1.3 Bestelako erlazio semantikoak . . . . . . . . . . . 76<br />

IV.1.4 Erabilera . . . . . . . . . . . . . . . . . . . . . . 78<br />

IV.2 Euro<strong>WordNet</strong> . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />

IV.3 The Multilingual Central Repository (MCR) . . . . . . . 87<br />

IV.4 Laburbilduz . . . . . . . . . . . . . . . . . . . . . . . . . . 91<br />

V <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia 93<br />

V.1 Diseinua eta metodologia . . . . . . . . . . . . . . . . . . 94<br />

V.2 Izenen garapenerako urratsak . . . . . . . . . . . . . . . . 96<br />

V.2.1 Estaldura helburu: garapen automatikoa eta oinarrizko<br />

kontzeptuak . . . . . . . . . . . . . . . . 96<br />

V.2.2 Kalitatea helburu: eskuzko orrazketa eta corpus<br />

baten etiketatzea . . . . . . . . . . . . . . . . . . 97<br />

V.2.2.1 Kontzeptuz kontzeptuko eskuzko orrazketa . . 97<br />

V.2.2.2 Hitzez hitzeko eskuzko orrazketa . . . . . . . 101<br />

V.2.2.3 Corpus baten etiketatze semantikoa . . . . . . 102


GAIEN AURKIBIDEA xxi<br />

V.3 Aditzen garapenerako urratsak . . . . . . . . . . . . . . . 106<br />

V.3.1 Aditzak <strong>WordNet</strong>en . . . . . . . . . . . . . . . . 107<br />

V.3.2 MCRn aditzak txertatzeko azterketa . . . . . . . 110<br />

V.3.2.1 Bost aditzen hitzez hitzeko eskuzko orrazketa 110<br />

V.3.2.2 Aditz-hierarkia baten orrazketa . . . . . . . . 111<br />

V.3.2.3 Hitzez hitzeko orrazketa ala hierarkiaz hierarkiakoa?<br />

. . . . . . . . . . . . . . . . . . . . 112<br />

V.4 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

VI <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era: bereizgarriak eta hobekuntzak<br />

115<br />

VI.1 Lexikalizazioa . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />

VI.1.1 <strong>WordNet</strong>, lexikalizazioa eta hizkuntzen arteko aldeak<br />

. . . . . . . . . . . . . . . . . . . . . . . . . 118<br />

VI.1.2 Zalantzazko lexikalizazioa duten adierazpideen beharra<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . 124<br />

VI.1.3 Terminologiaren azterketa eta gure aukera . . . . 125<br />

VI.1.4 <strong>Euskal</strong> ordainak <strong>Euskal</strong> <strong>WordNet</strong>en sartzeko eta<br />

markatzeko irizpideak . . . . . . . . . . . . . . . 131<br />

VI.1.4.1 Barne-errepresentazio semantikoa <strong>Euskal</strong> Word-<br />

Neten . . . . . . . . . . . . . . . . . . . . . . 133<br />

VI.2 Bereizgarri hierarkikoak . . . . . . . . . . . . . . . . . . . 137<br />

VI.2.1 Kontzeptu antolatzaileak . . . . . . . . . . . . . 138<br />

VI.2.2 Hierarkiak eta espezifikotasun lexikala . . . . . . 139<br />

VI.2.3 Bestelako espezifikotasun lexikalak . . . . . . . . 144<br />

VI.3 Errepresentazioaren hedapena . . . . . . . . . . . . . . . . 147<br />

VI.3.1 Lexikalizazioaren errepresentazioari dagozkion markak<br />

. . . . . . . . . . . . . . . . . . . . . . . . . 147<br />

VI.3.2 HAEen barne-errepresentazio aberatsagoa . . . . 149<br />

VI.4 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . 149<br />

VII <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak 151<br />

VII.1 Sarrera . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151<br />

VII.2 Hautapen-murriztapenak eta hauen eskuratzea . . . . . . 155<br />

VII.2.1 Eskuratze-metodoak . . . . . . . . . . . . . . . . 155<br />

VII.2.1.1 Introspekzioa . . . . . . . . . . . . . . . . . . 155<br />

VII.2.1.2 Eskuratze automatikoa hiztegietatik . . . . . 156<br />

VII.2.1.3 Eskuratze automatikoa corpusetik . . . . . . . 156


xxii GAIEN AURKIBIDEA<br />

VII.2.2 Formalizazioa . . . . . . . . . . . . . . . . . . . . 157<br />

VII.2.2.1 Hitzean oinarritzen diren eskuratze-teknikak . 157<br />

VII.2.2.2 Klase semantikoan oinarritzen diren eskuratze-teknikak<br />

. . . . . . . . . . . . . . . . . . . 159<br />

VII.3 Baliabideak . . . . . . . . . . . . . . . . . . . . . . . . . . 161<br />

VII.3.1 Azterketarako erabili diren corpusak . . . . . . . 163<br />

VII.3.1.1 Ingeleseko corpusak . . . . . . . . . . . . . . 163<br />

VII.3.1.2 <strong>Euskara</strong>ko corpusa . . . . . . . . . . . . . . . 163<br />

VII.3.2 Azterketarako erabili diren eskuratze-teknikak . . 164<br />

VII.3.2.1 Synset batekin adierazitako HMak . . . . . . 164<br />

VII.3.2.2 Domeinu eta eremu semantiko batekin adierazitako<br />

HMak . . . . . . . . . . . . . . . . . 169<br />

VII.3.2.3 Baliabideak laburbilduz . . . . . . . . . . . . 172<br />

VII.4 Ingeleseko HMak . . . . . . . . . . . . . . . . . . . . . . . 172<br />

VII.4.1 Ingeleseko HMetarako irizpideak . . . . . . . . . 175<br />

VII.4.2 HMen azterketa eta ebaluazioa . . . . . . . . . . 179<br />

VII.4.2.1 SemCorretik eskuratutako HMen azterketa eta<br />

ebaluazioa . . . . . . . . . . . . . . . . . . . . 180<br />

VII.4.2.2 BNCtik eskuratutako HMen azterketa eta ebaluazioa<br />

. . . . . . . . . . . . . . . . . . . . . . 190<br />

VII.4.2.3 EFEtik eskuratutako HMen azterketa eta ebaluazioa<br />

. . . . . . . . . . . . . . . . . . . . . . 194<br />

VII.4.3 Erroreen azterketa . . . . . . . . . . . . . . . . . 197<br />

VII.4.3.1 Etiketatze-erroreak . . . . . . . . . . . . . . . 197<br />

VII.4.3.2 Falta diren adierak . . . . . . . . . . . . . . . 198<br />

VII.4.3.3 Anbiguotasuna . . . . . . . . . . . . . . . . . 199<br />

VII.4.3.4 Analizatzaile sintaktikoak eragindako erroreak 200<br />

VII.4.3.5 Izen berezien ezagutza eta anaforaren ebazpena200<br />

VII.4.4 Ebaluazioaren azterketa . . . . . . . . . . . . . . 201<br />

VII.4.4.1 SemCorretik eskuratutako HMak . . . . . . . 203<br />

VII.4.4.2 BNCtik eskuratutako HMak . . . . . . . . . . 204<br />

VII.4.4.3 EFEtik eskuratutako HMak . . . . . . . . . . 205<br />

VII.4.5 HMen erkaketa . . . . . . . . . . . . . . . . . . . 205<br />

VII.4.5.1 Eskuratze-teknikaren arabera . . . . . . . . . 205<br />

VII.4.5.2 Corpusaren arabera . . . . . . . . . . . . . . 206<br />

VII.4.5.3 Ingeleseko HMen emaitzen laburpen orokorra 207<br />

VII.5 <strong>Euskara</strong>ko HMak . . . . . . . . . . . . . . . . . . . . . . . 208<br />

VII.5.1 <strong>Euskara</strong>ko HMetarako irizpideak . . . . . . . . . 209


GAIEN AURKIBIDEA xxiii<br />

VII.5.2 <strong>Euskal</strong>dunon Egunkaritik eskuratutako HMen azterketa<br />

eta ebaluazioa . . . . . . . . . . . . . . . 212<br />

VII.5.2.1 w2semf <strong>Euskal</strong>dunon Egunkaritik . . . . . . . 212<br />

VII.5.3 Ingelesetik itzulitako HMen azterketa eta ebaluazioa<br />

. . . . . . . . . . . . . . . . . . . . . . . . . 217<br />

VII.5.3.1 SemCorreko c2c euskarara itzulita . . . . . . 217<br />

VII.5.3.2 SemCorreko s2semf euskarara itzulita . . . . . 218<br />

VII.5.3.3 EFEko w2semf euskarara itzulita . . . . . . . 220<br />

VII.5.4 Ebaluazioaren azterketa . . . . . . . . . . . . . . 221<br />

VII.5.4.1 <strong>Euskal</strong>dunon Egunkaritik eskuratutako HMak 222<br />

VII.5.4.2 SemCorretik eskuratutako HMak . . . . . . . 223<br />

VII.5.4.3 EFEtik eskuratutako HMak . . . . . . . . . . 224<br />

VII.5.5 <strong>Euskara</strong>ko HMen emaitzen laburpena . . . . . . . 224<br />

VII.6 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . 225<br />

VIII Ondorioak eta etorkizuneko lanak 229<br />

VIII.1 Ondorio nagusiak . . . . . . . . . . . . . . . . . . . . . . . 230<br />

VIII.1.1 EBLen azterketa kritikoa . . . . . . . . . . . . . 230<br />

VIII.1.2 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako diseinua eta<br />

metodologia . . . . . . . . . . . . . . . . . . . . . 231<br />

VIII.1.3 <strong>Euskal</strong> <strong>WordNet</strong> eta kontzeptuen errepresentazioa 232<br />

VIII.1.4 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak . . 233<br />

VIII.2 Ekarpenak . . . . . . . . . . . . . . . . . . . . . . . . . . 233<br />

VIII.3 Etorkizuneko lanak . . . . . . . . . . . . . . . . . . . . . . 234<br />

Bibliografia 236


xxiv GAIEN AURKIBIDEA


Irudien zerrenda<br />

II.1 acknowledge hitzaren hiru adierazpen desberdin, BBN-CFG sistema<br />

(Ingria, 1988), IRUS sistema (Bates et al., 1986) eta ALVEY<br />

sistema (Carroll eta Grover, 1989), hurrenez hurren. . . . . . . . 16<br />

III.1 run aditzaren ELKa. . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

III.2 open aditzaren sarrera lexikala Pustejovskyren teorian. . . . . . . 40<br />

III.3 yawned ale lexikalaren adierazpena LFGn. . . . . . . . . . . . . . 42<br />

III.4 Sintaxi-semantika elkargunea LFGn (Bresnan eta Kaplan, 1982). 43<br />

III.5 gives aditzaren adierazpena HPSGn. . . . . . . . . . . . . . . . . 44<br />

III.6 Revenge framea. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />

III.7 tell.01 sarrera lexikala PropBanken. . . . . . . . . . . . . . . . . 59<br />

IV.1 Euro<strong>WordNet</strong>eko arkitektura. . . . . . . . . . . . . . . . . . . . . 81<br />

IV.2 Run aditzaren synset bat eta bere hiperonimoak EuroWord-<br />

Neteko interfazean. . . . . . . . . . . . . . . . . . . . . . . . . . 86<br />

IV.3 edari izenari dagokion Role patient erlazioa MCR interfazean. . . 89<br />

IV.4 Gaztelaniako pasta izenaren bi synset MCR interfazean. . . . . . 90<br />

V.1 EuSemcorreko etiketatze semantikoaren metodologia. . . . . . . . 104<br />

VI.1 HAEen barne-errepresentazio ezberdinak. . . . . . . . . . . . . . 134<br />

VII.1 jokatu aditzaren bi kirol synsetak. . . . . . . . . . . . . . . . . . 173<br />

VII.2 jokatu aditzaren bi kirol synsetak. . . . . . . . . . . . . . . . . . 198


xxvi IRUDIEN ZERRENDA


Taulen zerrenda<br />

I.1 (1) adibideko hitzen adierak eta itzulpenak. . . . . . . . . . . . 3<br />

I.2 Kapitulu bakoitzarekin lotutako argitalpenak. . . . . . . . . . . 11<br />

III.1 avenge aditzaren egitura sintaktikoak corpuseko agerpe<strong>net</strong>an oinarrituta.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

III.2 PropBankeko argumentu markekin agertzen diren funtzio sintaktikoak<br />

eta VerbNeteko rolak. . . . . . . . . . . . . . . . . . . 58<br />

IV.1 Euro<strong>WordNet</strong>eko Goi-ontologia. . . . . . . . . . . . . . . . . . . 85<br />

V.1 <strong>Euskal</strong> <strong>WordNet</strong>eko izenen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />

oinarrizko kontzeptuak, sorkuntza automatikoa eta kontzeptuz<br />

kontzeptuko orrazketak egin ondoren. . . . . . . . . . . 98<br />

V.2 EuSemcor: izenei dagozkien kopuruak. . . . . . . . . . . . . . . 105<br />

V.3 <strong>Euskal</strong> <strong>WordNet</strong>eko izenen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />

oinarrizko kontzeptuak, sorkuntza automatikoa, kontzeptuz<br />

kontzeptuko orrazketa eta hitzez hitzeko orrazketa egin ondoren.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

V.4 <strong>Euskal</strong> <strong>WordNet</strong>eko aditzen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />

oinarrizko kontzeptuak, hitzez hitzeko orrazketa eta<br />

hierarkiaz hierarkiako orrazketak egin ondoren. . . . . . . . . . 113<br />

VI.1 <strong>Euskal</strong> <strong>WordNet</strong>eko datuak, eta HAE moten kopuruak. . . . . . 136<br />

VI.2 Autohiponimoen kopuruak. . . . . . . . . . . . . . . . . . . . . 143<br />

VII.1 Drink aditzaren objektuak hitzen hurbiltasunean oinarritutako<br />

teknika erabiliaz (Hindle, 1990). . . . . . . . . . . . . . . . . . . 158<br />

VII.2 Drink aditzaren objektu hautapen-murriztapena, <strong>WordNet</strong> eta<br />

klase semantikoan oinarritutako teknika erabiliz (Resnik, 1992). 160<br />

VII.3 jokatu aditzaren kirol synsetak eta beraien domeinuak MCRn. . 173


xxviii TAULEN ZERRENDA<br />

VII.4 play 00605818 synsetaren troponimoak eta bere domeinuak <strong>Euskal</strong><br />

<strong>WordNet</strong>en. . . . . . . . . . . . . . . . . . . . . . . . . . . . 183<br />

VII.5 Corpus ezberdi<strong>net</strong>atik play 00605818rentzat eskuratutako HMen<br />

emaitzak. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202<br />

VII.6 Kirol-aditz guztientzat, corpus eta eskuratze-teknika ezberdinak<br />

erabiliz, lortutako emaitzak. . . . . . . . . . . . . . . . . . . . . 202<br />

VII.7 <strong>Euskara</strong>rako eskuratutako eta ingelesetik itzulitako jokatu 00605818ren<br />

HMen emaitzak. . . . . . . . . . . . . . . . . . . . . . . . . . . 222<br />

VII.8 <strong>Euskara</strong>rako eskuratutako eta ingelesetik itzulitako HMen emaitzen<br />

portzentaiak, MCRtik aukeratutako zortzi synsetentzat. . . 223<br />

VIII.1 <strong>Euskal</strong> <strong>WordNet</strong>: kopuruak . . . . . . . . . . . . . . . . . . . . 233<br />

VIII.2 EuSemcor: kopuruak . . . . . . . . . . . . . . . . . . . . . . . . 234


Tesi-lanaren aurkezpen orokorra<br />

I.1 Gaiaren kokapena eta motibazioa<br />

I. KAPITULUA<br />

Lan hau <strong>Euskal</strong> Herriko Unibertsitateko Informatika Fakultateko IXA taldearen<br />

barruan kokatu behar da. IXA taldeak hogei urte inguru daramatza<br />

Lengoaia Naturalaren Prozesamenduan (aurrerantzean LNP) lanean. Arlo<br />

zabal horren barruan, euskararen gaineko ikerketa aplikatua da gure xede<br />

nagusia, eta helburu horrekin, orain arte, morfologia (Agirre et al., 1992;<br />

Aduriz et al., 1994, besteak beste) eta sintaxia (Aduriz et al., 1998a; Aranzabe<br />

et al., 2003; Aldezabal et al., 2001b, besteren artean) landu ditugu batez<br />

ere. Arlo hauetan lan handia egiteke dagoen arren, hurrengo aurrerapauso<br />

garrantzitsua semantika jorratzea da.<br />

Semantika beharrezkoa da hainbat ataza konputazionaletan aurrera egin<br />

ahal izateko, batez ere, hizkuntzaren ulermena beharrezkoa den atazetan (egitura<br />

sintaktikoen desanbiguazioan, hitzen adieren desanbiguazioan, anaforaren<br />

ebazpenean eta itzulpen automatikoan, adibidez). Arrazoi horregatik,<br />

IXA taldean dagoeneko hasiak gara ezagutza lexiko-semantikoaren ikasketan<br />

murgiltzen. Lan horietako batzuk jadanik doktoretza-tesiak sortu dituzte,<br />

eta beste lan batzuk, berriz, egin bidean dauden doktoretza-tesiak dira:<br />

• <strong>Euskara</strong>ko aditzen azpikategorizazioaren azterketa, hiztegi elebakar batean<br />

(Arriola, 2000; Arriola et al., 1999) edo corpusetan oinarrituta<br />

(Aldezabal et al., 2001b; Agirre et al., 2004).


2 Tesi-lanaren aurkezpen orokorra<br />

• <strong>Euskara</strong>ko aditzen alternantzien eta klase semantikoen azterketa<br />

(Aldezabal, 2004).<br />

• Hitzen adieren desanbiguazioa (Martínez, 2005).<br />

• Erlazio lexiko-semantikoen gauzatze sintaktikoa (Lersundi, 2005).<br />

• Ezagutza lexiko-semantikoa informazio-erauzketan (Ansa et al., 2005).<br />

Lan hauei guztiei etekin handiagoa aterako litzaieke erabilitako baliabide<br />

eta deskribapen linguistiko guztiak lexikoi berean egongo balira. Lexikoiak<br />

informazio lexikala jasotzen duten biltegi egituratuak dira. LNPren helburu<br />

nagusia, zentzu zabalean, hizkuntza automatikoki eskuratzea edo ulertzea<br />

da. Hori lortu ahal izateko, hizkuntza horren hiztegiaren ezagutza sakona<br />

jasota duen biltegi baten beharra dago, hots, lexikoi bat. Horrela, LNPn<br />

lexikoiak hizkuntzaren gordailu nagusi bihurtu dira, eta hauen eraikuntza<br />

arlo ho<strong>net</strong>ako funtsezko ataza dugu, gaur egun. Izan ere, LNPrako sistemek<br />

neurri errealeko testuekin lan egin behar badute, milaka sarrera dituzten baliabide<br />

lexikal aberatsak behar dituzte ezinbestean. Lexikoiei esker makinek<br />

itzulpen automatikoa, informazio-erauzketa eta hitzen adieren desanbiguazioa<br />

bezalako atazak burutu ditzakete.<br />

IXA taldean, dagoeneko badugu informazio lexikala jasotzen duen gordailua:<br />

<strong>Euskara</strong>ren Datu-Base Lexikala (EDBL) deritzoguna (Agirre et al.,<br />

1994a; Aduriz et al., 1998b; Aldezabal et al., 2001a). EDBLn ale lexikal bakoitza<br />

bere kategoria eta azpikategoria lexikal edo morfosintaktikoaren arabera<br />

sailkatuta dago (kategoria morfosintaktikoak direnak, kategoriaz gain,<br />

dagokien informazioaz hornituta daude: kasua, aspektua, numeroa, mugatasuna,<br />

funtzioa...). Esan dezakegu, beraz, EDBLn jasotzen den ezagutza-mota<br />

gramatikala dela. Horrelako informazioa jasotzen duten lexikoiak<br />

izendatzeko datu-base lexikal (DBL) terminoa erabiltzen da.<br />

Esan dugun bezala, IXA taldean dagoeneko morfologia eta sintaxia landu<br />

dira, eta horren fruitu dira, batetik, MORFEUS analizatzaile morfologikoa<br />

(Alegria et al., 1996) —eta hau oinarrian duen XUXEN zuzentzaile ortografikoa<br />

(Agirre et al., 1992)—, eta bestetik, garapenean dagoen euskarako analizatzaile<br />

sintaktikoa (Aranzabe et al., 2004). Bi analizatzaile hauek EDBLn<br />

dute oinarria. Hau da, hitzak morfologikoki segmentatzeko eta analizatzeko<br />

behar den informazio gramatikala EDBLn dago jasota.<br />

Hala ere, itzulpen automatikoa edota adieren desanbiguazioa egiteko informazio<br />

gramatikala ez da nahikoa, informazio semantikoa ere beharrezkoa


I.1 Gaiaren kokapena eta motibazioa 3<br />

baita. Honen adierazgarri hurrengo adibidea dugu, zein itzulpen automatikoaren<br />

eremuan kokatu dugun.<br />

(1) Eskusoinua jotzen dut.<br />

Demagun (1) esaldia dugula, eta honen itzulpen automatikoa lortu nahi<br />

dugula. Horretarako, hasteko, nahitaezkoa izango da lexikoian esaldiko hitz<br />

bakoitzaren adierak zerrendatuta egotea, eta, are gehiago, adiera bakoitza<br />

dagokion erdarako ordainarekin zehaztuta etortzea. I.1 taulan aurreko adibideko<br />

hitzen adierak lexikoi hipotetiko batean aurkezten ditugu, bakoitzaren<br />

gaztelaniako itzulpenekin 1 .<br />

Hitza Adiera Definizioa Itzulpena<br />

eskusoinu A1 musika-tresna, tekla edo botoiduna acordeón<br />

jo A1 gauza batez beste bat halako indarrez ukitu golpear/pegar<br />

jo A2 ukaldiak eman golpear/pegar<br />

jo A3 musika-tresna bati soinua atera tocar<br />

jo A4 tokiren baterantz joan ir/dirigirse<br />

jo A5 kopuruei buruz, zenbatekoa, adierazten dena estimar/calcular<br />

I.1 Taula: (1) adibideko hitzen adierak eta itzulpenak.<br />

Hala, hitzen itzulpena lortzeko tresnak, lehendabizi, esaldiko hitzen adierak<br />

kontsultatu beharko ditu oinarri gisa erabiliko duen lexikoian, eta, ondoren,<br />

hitzak esaldian zein adieratan erabiltzen diren aukeratu, hots, hitzen<br />

adieren artean desanbiguatu. Kasu ho<strong>net</strong>an, lexikoian ditugu jo hitzaren<br />

hainbat adieren artean, ‘musika-tresna bati soinua atera’ (A3) adiera aukeratu<br />

beharko du makinak, horretarako beste guztiak gaitzetsiz. Joren adiera<br />

zuzena lortzeko beharrezkoa izango da esaldiko testuinguruari erreparatzea,<br />

eta jo eta eskusoinu hitzak semantikoki erlazionatzea: jok musika-instrumentuekin<br />

zerikusia du (A3), eta eskusoinua musika-instrumentu bat da (A1).<br />

Beste modu batean esanda, esaldi horretako jo hitzaren adiera desanbiguatzeko,<br />

eta, ondorioz, itzulpen zuzena emateko, jo eta eskusoinu hitzen eta<br />

hauen adieren arteko loturak zehaztuta egon behar dute lexikoian. Horrelako<br />

erlazioak dituzten lexikoiak, ordea, ez dira datu-base lexikalak, hiztegi<br />

ezagutza-baseak (HEB), ezagutza-base lexikalak (EBL) eta ontologiak baizik.<br />

1 Adibiderako <strong>Euskal</strong> Hiztegiko (Sarasola, 1996) adierak erabili ditugu, eta hitzen<br />

adiera-kopurua eta definizioak laburtu egin ditugu.


4 Tesi-lanaren aurkezpen orokorra<br />

Tesi-lan ho<strong>net</strong>an EBLen alde egin dugu, hau da, euskararen informazio<br />

lexiko-semantikoa jasotzen duen lexikoia EBL gisa diseinatu dugu; II. kapituluan<br />

ikusiko dugun bezala, hauek sarrera lexikaletako informazioa egituratu<br />

egiten dute, erredundantzia konponduz, datuen kontrola eta kontsistentzia<br />

gauzatuz eta informazio-atzipena erraztuz. Hortaz, ezagutzaren errepresentaziorako<br />

eta biltegirako oso egokiak dira, eta gaur egun hauexek dira LNPn<br />

lexiko-semantikaren arloan nagusitzen direnak. EBLetan hitzei eta adierei<br />

buruzko informazioa dago, eta hauen ezaugarri garrantzitsuena herentzia<br />

izaten da, hitzak eta adierak klase/azpiklase hierarkien inguruan antolatzen<br />

baitira (Copestake, 1990).<br />

Honenbestez, euskararen ikerketa semantiko aplikatua egiteko, eta datubase<br />

lexikal batek eskaintzen dituen analisi linguistikoetatik haratago joateko,<br />

euskararen informazio semantikoa egituratu eta antolatzen duen EBL baten<br />

beharra dago. Behar horri erantzuna emateko jaio zen tesi-lan hau, balizko<br />

EBL horren hezurdura garatzeko eta definitzeko, hain zuzen ere.<br />

I.2 Helburuak<br />

Hemen aurkezten dugun lanaren helburu nagusia, beraz, euskararen azterketa<br />

semantikoa ahalbidetzeko beharrezkoa den euskararako EBL bat sortzea<br />

da. Helburu hau gauzatzeko, eginkizun zehatzagoak ere bete behar izan<br />

ditugu:<br />

• IXA taldearen beharretara egokitzen den lexikoiaren ezaugarriak<br />

definitu:<br />

Lehenengo urratsa, IXA taldearen beharretara egokitzen den EBLaren<br />

ezaugarriak zerrendatzea izan da. Horretarako, kontuan hartu behar izan<br />

ditugu:<br />

(a) EBLa non eta nola erabili nahi dugun.<br />

Gure kasuan, konputazionalki inplementa daitekeen EBLa izatea nahi<br />

dugu.<br />

(b) Zer informazio mota txertatu behar zaion EBLko sarrera bakoitzari.


I.2 Helburuak 5<br />

Inplementatu beharreko EBLa izaki, geroz eta lexiko aberatsagoa izan, geroz<br />

eta emaitza hobeak izaten dira ataza konputazionaletan. Hala, hizkuntza bere<br />

osotasunean adierazten duen EBLa izan behar genuke, ahalik eta informazio<br />

gehiena jasotzen duena, bai semantikoa eta baita sintaktiko-semantikoa<br />

ere.<br />

(c) EBLaren informazioa adierazteko aukeratzen den ereduak zein baldintza<br />

bete behar dituen.<br />

Ez dago EBLaren eraikuntzarako eredu bakarra; eta, izatez, eredu bakarra<br />

jarraitzen duen EBLra mugatzea arriskutsua izan daiteke. Izan ere, askotan,<br />

EBLetan jasotako informazioa ez da berrerabilgarria eta, ondorioz, aplikazio<br />

berrien sorkuntza baldintza daiteke. Aukeratutako eredu honek ez ditu<br />

gainontzeko lan konputazionalak eragotzi behar, gure EBLa lan horien informazioarekin<br />

ere aberastu ahal izateko. Hala, gure EBLa informazio berrerabilgarria<br />

jasotzen duena izatea nahi dugu, eta bertan egindako deskribapen<br />

linguistikoekin ez baldintzatzea etorkizuneko aplikazioak.<br />

Honekin batera, eleanitza den EBLa interesatzen zaigu, euskarako sarrera<br />

lexikalez gain, beste hizkuntzetako ordainak eskuragarri dituena. Itzulpen<br />

automatikorako, adibidez, ezinbesteko baldintza da hau.<br />

• Erdal hizkuntzetarako dauden ereduak aztertu, eta IXA talderako<br />

baliagarria izango den eredu bat aukeratu:<br />

Gure ereduaren izaera finkatuta, azterketa bibliografikoa egin dugu, aipatutako<br />

ezaugarrietara gehien egokitzen den formalismoaren bila. EBLen eraikuntzarako<br />

ereduak ugariak dira, eta ikerlan honen ezinbesteko muga dela-eta,<br />

azterketaren esparrua murriztu behar izan dugu.<br />

• Gure EBLa aukeratutako ereduari jarraituta garatzeko metodologia<br />

definitu:<br />

<strong>Euskara</strong>ko EBLak jarraituko duen eredua aukeratu ondoren, eta EBLaren<br />

eraikuntzari ekin aurretik, garapenean eragina izango zuten hainbat erabaki<br />

hartu behar izan ditugu; hala nola, zein kategoria landuko genuen lehendabizi,<br />

edota zein ikuspegi erabiliko genuen sarrera lexikalak lantzeko garaian.<br />

Estaldura —sarrera lexikalen kopurua ahalik eta handiena izatea— eta kalitatea<br />

—sarrera lexikalen informazioa zuzena izatea— uztartzen saiatu gara,<br />

eta ezaugarri hauek izango dira, hain zuzen ere, EBLaren garapen-metodologia<br />

definituko dutenak.


6 Tesi-lanaren aurkezpen orokorra<br />

• <strong>Euskara</strong>ko EBLaren garapenean sortutako zailtasunentzat irizpideak<br />

ebatzi:<br />

EBLa garatzeko metodologia zehaztu arren, EBL baten garapenean aurrera<br />

egin ahala, tratamendu berezia behar duten fenomeno linguistikoak<br />

agertzen dira. Hori gertatzean fenomenoa aztertu eta fenomeno linguistiko<br />

horrek EBLan izango duen tratamendua zehazten duen irizpide bat definitu<br />

behar dugu, fenomeno bera EBLko sarrera desberdi<strong>net</strong>an beti modu berean<br />

adierazia izan dadin.<br />

• Aukeratutako eredua informazio gehiagoz hornitu:<br />

Hizkuntza bere osotasunean adierazten duen EBLa izatea nahi dugunez,<br />

ahalik eta informazio gehien behar dugu, horrela, emaitza hobeak lor daitezkeelako.<br />

Hori dela eta, oinarri gisa aukeratutako eredutik jasotako informazioaz<br />

gain, informazio gehiagorekin aberasten saiatu gara gure EBLa;<br />

ingeleseko eta euskarako kirol-arloko aditz batzuen subjektu eta objektu<br />

hautapen-murriztapenekin, hain zuzen ere.<br />

I.3 Tesi-txostenaren eskema<br />

II. kapituluan, lexikoiez jardungo gara luze, hizkuntzalaritzan eta bereziki<br />

hizkuntzalaritza konputazionalean izan duen lekuaz eta berau lantzeko<br />

garaian izan diren gorabeherez. Lehenengo, lexikoiek izandako ibilbidea laburbilduko<br />

dugu. Gero, lexikoien ezaugarriak azaldu, lexikoien garapenean<br />

egungo joerak ikusi eta lexikoi mota desberdinak aztertuko ditugu. Honekin<br />

batera, egin diren hainbat lexikoien berri emango dugu.<br />

III. kapituluan, batetik, egin nahiko genukeen EBLaren ezaugarriak zerrendatuko<br />

ditugu, eta bestetik, EBLen hainbat eredu edo formalismo aztertuko<br />

ditugu, gerora, egokiena iruditzen zaiguna euskarako EBLaren garapenean<br />

erabiltzeko. EBLen eraikuntzarako ereduak ugari daudenez, azterketaren<br />

esparrua murriztu behar izan dugu. Hortaz, lehenik eta behin, azterketarako<br />

aukeratutako formalismoen arrazoiak azalduko ditugu, eta formalismo<br />

bakoitzetik ezaugarri nagusienak ere aipatuko ditugu. Formalismo hauek aztertu<br />

ondoren, IXA taldearen beharretara hobekien egokitzen den EBL formalismoa<br />

zein den arrazoituko dugu, <strong>WordNet</strong> eta honen ildotik abiatuta<br />

garatu diren Euro<strong>WordNet</strong> eta The Multilingual Central Repository<br />

(MCR), hain zuzen ere.


I.3 Tesi-txostenaren eskema 7<br />

IV. kapituluan, <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR ereduen azterketa<br />

sakonagoa egingo dugu.<br />

V. kapituluan, euskarako word<strong>net</strong>aren 2 (<strong>Euskal</strong> <strong>WordNet</strong>) garapenerako<br />

hartutako erabaki metodologikoak deskribatuko ditugu, eta erabaki hauen<br />

arabera, <strong>Euskal</strong> <strong>WordNet</strong>ek izandako garapena ere deskribatuko dugu. Alde<br />

batetik, izenekin egindako azterketa azalduko dugu (garapen-aldiak zehazki<br />

deskribatuz), eta bestetik, oraindik hasiberria dugun aditzen azterketa<br />

eta garapenerako landu ditugun aukera metodologiko ezberdinak aurkeztuko<br />

ditugu.<br />

VI. kapituluan, EBL eleanitz bat sortzeak ekartzen dituen fenomeno linguistiko<br />

batzuk aztertu ditugu. Lexikalizazioarekin zerikusia duten bereizgarriez<br />

eta hierarkiari dagozkion bereizgarriez arituko gara. Kapitulu ho<strong>net</strong>an,<br />

fenomeno hauen adibideak emango ditugu eta hizkuntzen arteko ezberdintasun<br />

horiek nola konpondu ditugun azalduko dugu. Era berean, ereduari<br />

egindako hobekuntzak ere aurkeztuko ditugu.<br />

VII. kapituluan, aukeratutako eredua informazio gehiagorekin hedatzeko<br />

egin dugun lehenengo saiakera azalduko dugu. Ingeleseko eta euskarako<br />

kirol-arloko aditz batzuen objektuen eta subjektuen hautapen-murriztapenen<br />

azterketa deskribatuko dugu. Azterketa ho<strong>net</strong>an, erabilitako corpusei,<br />

eskuratze-tekniken azterketari eta ebaluazio linguistikoari erreparatuko<br />

diegu batez ere. Esan beharra dago azterlan hau eleaniztasunaren hipotesiaren<br />

ikuspegitik egina dagoela. Hots, ingeleserako automatikoki eskuratutako<br />

hautapen-murriztapenak euskaraz ere erabilgarriak izan daitezkeela<br />

frogatu nahi dugu. Horretarako, ingeleserako automatikoki eskuratu diren<br />

hautapen-murriztape<strong>net</strong>an oinarritu gara lehenengo, gero hauek euskararentzat<br />

baliagarriak izan daitezkeen aztertu ahal izateko.<br />

VIII. kapituluan, bukatzeko, zabaldu ditugun ikerlerroak, atera ditugun<br />

ondorio nagusiak eta aurrera begirakoak aipatuko ditugu.<br />

2 <strong>WordNet</strong> (letra larriz) erabiltzen dugu Miller-en taldeak (1985) egindako ingeleseko<br />

EBLa adierazteko; word<strong>net</strong> (letra xehez), aldiz, <strong>WordNet</strong>en oinarrituta garatu den edozein<br />

hizkuntzetako EBLari buruz hitz egiteko erabiltzen dugu. Hala, <strong>WordNet</strong> terminoarekin,<br />

ingeleseko word<strong>net</strong>ari egingo zaio erreferentzia, eta word<strong>net</strong> terminoak aurretik zer hizkuntzetakoa<br />

den adierazia izan beharko du.


8 Tesi-lanaren aurkezpen orokorra<br />

Gainontzean, hiru eranskinek osatzen dute tesi-lan hau:<br />

• A eranskina: <strong>Euskal</strong> <strong>WordNet</strong>eko editorearen eskuliburua.<br />

Eskuliburu ho<strong>net</strong>an <strong>Euskal</strong> <strong>WordNet</strong>eko editoreak synsetak lantzeko<br />

behar dituen argibide guztiak zehazten dira: alde batetik, interfazearen<br />

erabilerari buruzko azalpenak, eta bestetik, eleaniztasunak eragindako<br />

desberdintasun linguistikoetan erabili beharreko irizpideak.<br />

• B eranskina: <strong>Euskal</strong> <strong>WordNet</strong>eko aditzen hierarkiaz hierarkiako<br />

orrazketa. Eranskin ho<strong>net</strong>an {express 2, give tongue 1, utter 1}<br />

klase semantiko osorako egindako hierarkiaz hierarkiako orrazketa aurkezten<br />

dugu. Honekin batera, orrazketa honen ondoren, lortutako ondorio<br />

nagusiak dakartzagu, baita ingelesa eta euskarako hierarkien arteko<br />

alderaketa bat ere.<br />

• C eranskina: Hautapen-murriztapenen azterketa eta ebaluazioa.<br />

Hainbat eskuratze-teknika erabiliz, ingeleseko eta euskarako corpus<br />

ezberdi<strong>net</strong>atik eskuratutako hautapen-murriztapenak aurkezten ditugu,<br />

hauen zuzentasunari buruzko ebaluazioarekin batera. Bestalde,<br />

ebaluazioa egin ahal izateko, lehenengo hautapen-murriztapenen iturria<br />

aztertu dugu. Azterketa honen emaitzak eta ho<strong>net</strong>arako erabilitako baliabideak<br />

ere zehazten dira.<br />

I.4 Tesiarekin lotutako argitalpenak<br />

Sarrera-kapitulu honi bukaera emateko, jarraian, argitalpenen zerrenda aurkezten<br />

dugu, eta I.2 taulan, argitalpen bakoitza zein kapitulurekin lotuta<br />

dagoen zehazten dugu 3 .<br />

• Agirre E., García E., Lersundi M., Martínez D., eta Pociello E. The<br />

Basque task: did systems perform in the upperbound? Proceedings of<br />

the SENSEVAL-2 Workshop, Tolosa (Frantzia), 2001.<br />

3 Hauek guztiak hurrengo web orrian daude atzigarri: http://ixa.si.ehu.es/<br />

Ixa/Argitalpenak/kidearen argitalpenak?kidea=1000809016 (2007-07-02an atzitua).


I.4Tesiarekinlotutakoargitalpenak 9<br />

• Agirre E., Ansa O., Arregi X., Arriola J., Díaz de Ilarraza and E. Pociello<br />

A., eta Uria L. Methodological issues in the building of the Basque<br />

<strong>WordNet</strong>: quantitative and qualitative analysis. Proceedings of First<br />

International <strong>WordNet</strong> Conference, Mysore (India), 2002.<br />

• Agirre E., Aldezabal I., eta Pociello E. A pilot study of English selectional<br />

preferences and their cross-lingual compatibility with Basque.<br />

Proceedings on International Conference on Text Speech and Dialogue<br />

(TSD), Ceske Budejovice (Txekiar Errepublika), 2003a.<br />

• Agirre E., Aldabe I., Lersundi M., Pociello E., eta Uria L. The Basque<br />

lexical-sample task. Proceedings on the 3rd ACL Workshop on the<br />

Evaluation of Systems for the Semantic Analysis of Text (SENSEVAL),<br />

Bartzelona, 2004a.<br />

• Pociello E. Aditzen hautapen-murriztapenak: kirol domeinura mugatutako<br />

ingeleseko hautapen-murriztapenak eta euren baliagarritasuna euskararako.<br />

Hastapeneko lana. Doktoretza-ikastaroetako defentsa-lana,<br />

<strong>Euskal</strong> Herriko Unibertsitatea, 2004a.<br />

• Pociello E. Sintaxi-semantika elkargunea zenbait teoriatan: euskararen<br />

ezagutza-basea lexiko-semantikorantz. Doktoretza-ikastaroetako defentsa-lana,<br />

<strong>Euskal</strong> Herriko Unibertsitatea, 2004b.<br />

• Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />

M., eta Pociello E. EuSemcor: euskarako corpusa semantikoki etiketatzeko<br />

eskuliburua: editatze- etiketatze- eta epaitze-lanak. Lengoaia<br />

eta Sistema Informatikoak Saila, <strong>Euskal</strong> Herriko Unibertsitatea, 2005a.<br />

• Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />

M., eta Pociello E. <strong>Euskal</strong> <strong>WordNet</strong>: euskararako ezagutza-base<br />

lexiko-semantikoa. <strong>Euskal</strong>ingua, (7), 2005b.<br />

• Agirre E., Aldezabal I., eta Pociello E. <strong>Euskara</strong>rako ezagutza-base lexiko-semantikoaren<br />

eredu-hautaketa eta garapena: <strong>Euskal</strong> <strong>WordNet</strong>.<br />

GOGOA: <strong>Euskal</strong> Herriko Unibertsitateko Hizkuntza, Ezagutza, Komunikazio<br />

eta Ekintzari buruzko Aldizkaria, 237–266, 2005c.


10 Tesi-lanaren aurkezpen orokorra<br />

• Civit M., Aldezabal I., Pociello E., Taulé M., Aparicio J., Márquez L.,<br />

Navarro B., Castellví J.,etaMartíM. 3LB-LEX:léxico verbal con<br />

frames sintácticos-semánticos. Revista de la Asociación Española para<br />

el Procesamiento del Lenguaje Natural, Granada, 2005.<br />

• Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />

M., eta Pociello E. Improving the Basque <strong>WordNet</strong> by corpus<br />

annotation. Proceedings of Third International <strong>WordNet</strong> Conference,<br />

Jeju (Korea), 2006a.<br />

• Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />

M., eta Pociello E. A methodology for the joint development of<br />

the Basque Word<strong>net</strong> and Semcor. Proceedings of the 5th International<br />

Conference on Language Resources and Evaluations (LREC), Genoa<br />

(Italia), 2006b.<br />

• Agirre E., Aldezabal I., eta Pociello E. Lexicalization and multiword<br />

expressions in the Basque Word<strong>net</strong>. Proceedings of Third International<br />

<strong>WordNet</strong> Conference, Jeju (Korea), 2006c.<br />

• Agirre E., Aldezabal I., Etxeberria J., eta Pociello E. A preliminary<br />

study for building the Basque PropBank. Proceedings of the 5th International<br />

Conference on Language Resources and Evaluation (LREC),<br />

Genoa (Italia), 2006d.<br />

• Agirre E., Aldezabal I., eta Pociello E. Lexicalization and multiword<br />

expressions in the Basque <strong>WordNet</strong>. In Fernández B. eta Laka I.,<br />

editors, Andolin gogoan: Essays in honour of the Professor Eguzkitza,<br />

51–68. <strong>Euskal</strong> Herriko Unibertsitatea, 2006d.


I.4Tesiarekinlotutakoargitalpenak 11<br />

Kapitulua Argitalpenak<br />

III Pociello (2004b)<br />

Agirre et al. (2005c)<br />

IV Agirre et al. (2005c)<br />

Agirre et al. (2005a)<br />

V Agirre et al. (2002)<br />

Agirre et al. (2005c)<br />

Agirre et al. (2006a)<br />

Agirre et al. (2006b)<br />

VI Agirre et al. (2006e)<br />

Agirre et al. (2006c)<br />

VII Agirre et al. (2003a)<br />

Pociello (2004a)<br />

I.2 Taula: Kapitulu bakoitzarekin lotutako argitalpenak.


12 Tesi-lanaren aurkezpen orokorra


Lexikoiak<br />

II. KAPITULUA<br />

Kapitulu ho<strong>net</strong>an lexikoiei buruz arituko gara eta hauek LNPn duten garrantzia<br />

ikusiko dugu. Lehenengo atalean lexikoiek izandako ibilbidea laburbilduko<br />

dugu. Gero, lexikoien ezaugarriak azalduko ditugu, lexikoien garapenean<br />

egungo joerak ikusiz eta lexikoi motak laburbilduz.<br />

II.1 Lexikoiez historia apur bat<br />

Jadanik aipatu dugu —I.1 atalean— lexikoien garapena funtsezko ataza dugula<br />

LNPn. Ordenagailuek itzulpen automatikoa, testuen-laburpena eta abar<br />

egin ahal izateko, milaka sarreratik gora dituzten biltegi lexikaletan oinarritu<br />

behar dute. Hots, neurri handi batean, esan dezakegu, gaur egun, LNPko<br />

edozein sistemaren muina biltegi lexikalean datzala.<br />

Hala ere, lexikoien garrantzia ez da beti hain handia izan, ez hizkuntzalaritza<br />

teorikoan, ez LNPn. Neurri handi batean, azken hogeita hamar<br />

urteotan zabaldutako fenomenoa izan da. Hizkuntzalaritza teorikoaren zein<br />

konputazionalaren egungo joera hizkuntza-ezagutza gramatikalaren arlotik<br />

lexikoarenera lerratu da.<br />

Hizkuntzalaritza teorikoak lexikoari buruz zuen ikuspegia 1980ko hamarkadatik<br />

aurrera aldatu egin da, sarrera lexikalaren edukiari garrantzi gehiago<br />

emanez. Hizkuntzalaritzako teoria askok eta askok (segur aski Chomskyrengandik<br />

hasita, 1970ean) joera lexikalistago bat hartu zuten. Hizkuntzalaritza<br />

konputazionalean ere lexikoien beharra aitortu zen, hauek guztiz beha-


14 Lexikoiak<br />

rrezkoak baitziren aplikazio errealak garatzeko.<br />

Hizkuntzalaritzaren ibilbidean sintaxia izan da aztergai nagusia, eta lexikoari<br />

ez zaio agian behar beste arretarik jarri, lexikoa hizkuntza bakoitzak<br />

berezkoa duen ataltzat hartu izan baita, erregela edo mekanismo linguistikoez<br />

orokortu ezin dena. Gramatika Sortzailearen hasierako eredua (Chomsky,<br />

1965) eta ondorengo Gobernu eta Uztarduraren Teoria dira aipatutakoaren<br />

adibideak (Chomsky, 1987).<br />

Teoria hauei egiten zaien gaitzespen azpimarragarrie<strong>net</strong>ako bat da beraien<br />

erregelekin hizkuntzaren egitura orokorrenak bakarrik azal daitezkeela.<br />

Gabezia hau eta beste batzuk gainditzeko asmoz, gramatika aztertzeko ikuspuntua<br />

aldatu egingo da denborarekin, eta sintaxiaren arloan aritzen diren<br />

teoriak norabide lexikalistagoa hartuz joango dira (Hale eta Keyser, 1987;<br />

Jackendoff, 1990; Levin, 1993; Pustejovsky, 1995, ...).<br />

“Asistimos desde hace un cierto tiempo a un razonable aminoramiento —<br />

que no es a la aniquilación— de la idea de que no hay explicación gramatical<br />

posible si ésta no se puede formular en reglas estrictas y ordenadas. Con ello<br />

llega también el renacer de campos que, por razones próximas a ese punto<br />

de vista, habían sido relegados durante un largo período. La concepción de<br />

las teorías como sistemas modulares y de principios es buena prueba de lo<br />

primero; el retorno al estudio de las palabras en cuanto elementos portadores<br />

de un significado, de los conjuntos en que se organizan, de sus relaciones y<br />

su papel en la gramática, es signo de lo segundo.” (Demonte, 1991, 24. or.)<br />

Egile hauen ustez, lexikoa salbuespenen zakua izatetik, egitura konplexua<br />

duen atala izatera pasatu da, bertan sintaxi eta semantikaren arteko hartuemanak<br />

islatzen direlarik.<br />

Hizkuntzalaritza konputazionalak teorikoaren antzeko ibilbidea izan du.<br />

Hastape<strong>net</strong>an, 1950 eta 1960ko hamarkadetan, sistema konputazional gehienek<br />

jostailuzko lexikoak lantzen zituzten, oso aplikazio-domeinu zehatzei lotuak<br />

eta sarrera-kopuru murritzekoak. Askotan zerrenda soilak baino ez ziren<br />

izaten. B. Boguraev-ek eta T. Briscoe-k esaterako, hau diote:<br />

“Knowledge of words underlies these tasks, yet until very recently dictionaries<br />

(or lexicons, as linguists usually call them) for natural language<br />

processing systems have by and large been the poor sisters of computational<br />

linguistic research.” (Boguraev eta Briscoe, 1989, 34. or.)<br />

Oro har, ikertzaileak sintaxia eta erregela gramatikaletan jartzen zituzten<br />

beren indarrak.


II.1 Lexikoiez historia apur bat 15<br />

1970 eta 1980ko hamarkadetan, LNPrekiko interesa areagotzeaz gain,<br />

hurbilpen-aldaketa gertatu zen: informazio- erauzketarako sistemek edo itzulpen<br />

automatikoko sistemek, baliabide lexikal sendoak behar zituzten, testu<br />

errealekin lan egitekoak baziren. Hurbilpen-aldaketa horren adierazgarri<br />

1986ko Grosseto-ko mintegia (Automating the Lexicon) dugu, non mintegiaren<br />

bukaeran Manifesto dokumentua osatu zen, lexikoi sendoen beharra<br />

azpimarratuz. Gauzak horrela, 1980ko hamarkadaren bigarren erdian eta<br />

1990eko hamarkadaren hasieran alderdi lexikoan arreta handiagoa jarri zen<br />

—Generalized Phrase Structure Grammar (Gazdar et al., 1985), adibidez—,<br />

eta lexiko konplexu ugari proposatzen hasi ziren; esate baterako, Europan,<br />

lexikoien inguruan, hogei proiektu baino gehiago sortu ziren.<br />

Hala ere, lexikoaren inguruan hainbat ikerketa eta proiektu garatu baziren<br />

ere, proiektu horietako ikerlariek lexikoa aztertzeko eta adierazteko,<br />

modu asko asmatu eta erabili zituzten. Nork berea —eta bere modura—<br />

egiten zuelarik, ordea, azkenean batek egindakoaz beste batek baliatu nahi<br />

zuenean, aurretik egindako lan guztia ez zen nahi litzatekeen bezain lagungarria<br />

suertatzen, eta, maiz, erabili ezina izaten zen ere bai.<br />

B. Boguraevek eta T. Briscoek (1989) adibide baten bidez azaltzen dute<br />

aurrean aipatutako egoera. Hiru sistema desberdinek —BBN-CFG sistema<br />

(Ingria, 1988), IRUS sistema (Bates et al., 1986) eta ALVEY sistema (Carroll<br />

eta Grover, 1989), hurrenez hurren— ingeleseko acknowledge hitzerako duten<br />

adierazpena azaltzen digutenean (ikus II.1 irudia).<br />

II.1 irudiko hiru sarrerek acknowledge hitzari buruzko antzeko informazioa<br />

gordetzen dute: kategoria sintaktikoa, hitzaren azpikategorizazioa eta<br />

abar. Hala ere, informazio hori hain modu desberdinean dago adierazita, ia<br />

ezinezkoa bihurtzen dela hiru formalismo hauen arteko informazioa bateratzea.<br />

Horrela, bada, garatutako lexikoi hauek behar bereziei aurre egiteko soilik<br />

diseinatzen ziren, proiektuen arteko elkarlana kontuan hartu gabe. Egoera<br />

honi aurre egiteko, informazio lexikalaren berrerabilgarritasunaren beharra<br />

azpimarratu zen. Calzolari-ren lanean (1994), egileak berrerabilgarritasunaren<br />

alde egiten du, nabarmen. Bere ustean, komunitate linguistikoak dagoeneko<br />

existitzen diren lexikoien informazioa berrerabiltzen eta estaldura zabala<br />

duten baliabide lexikalak eraikitzen ahalegindu beharko luke. 1990eko<br />

hamarkadaren lehen erdian, Europako Erkidegoko batzorde batek hiru baldintza<br />

aipatzen ditu lexikoiei etekin handiago atera ahal izateko:


16 Lexikoiak<br />

[ACKNOWLEDGE<br />

Category: V<br />

Base: acknowledge<br />

Features: (TRANSITIVE (REALNP) (PASSIVIZES))<br />

(CLAUSE (REALNP) (THATCOMP)<br />

(INDICATIVE: TENSE) (WH-))<br />

(NP-VP :AGR :AGRX (REALNP) :AGRX<br />

(PASSIVIZES) (INF) (WH-))]<br />

[ACKNOWLEDGE<br />

FEATURES (TRANS<br />

PASSIVE<br />

THATCOMP<br />

THATREQUIRED<br />

NPTOCOMP)<br />

VS-D]<br />

(acknowledge<br />

((v +) (n -) (subcat npl)) acknowledge nil)<br />

(acknowledge<br />

((v +) (n -) (subcat sfin)) acknowledge nil)<br />

;acknowledge that they were defeated<br />

(acknowledge<br />

((v +) (n -) (subcat se3)) acknowledge nil)<br />

;acknowledge having been defeated<br />

(acknowledge<br />

((v +) (n -) (subcat or)) acknowledge nil)<br />

;acknowledge him to do the best<br />

II.1 Irudia: acknowledge hitzaren hiru adierazpen desberdin, BBN-CFG sistema<br />

(Ingria, 1988), IRUS sistema (Bates et al., 1986) eta ALVEY sistema<br />

(Carroll eta Grover, 1989), hurrenez hurren.


II.1 Lexikoiez historia apur bat 17<br />

• Baliabide lexikalen eraikuntza zabal onarturiko estandarretan egin beharra.<br />

• Europako Erkidegoko hizkuntza guztietarako baliagarri izango diren<br />

oinarrizko lexikoien eraikuntza, adosturiko diseinu bat erabilita eraikiko<br />

dena.<br />

• Sorturiko baliabide lexikalak komunitateak eskuragarri izan ditzan, distribuziorako<br />

politika baten beharra.<br />

Egun, Europan, arlo ho<strong>net</strong>ako proiektu garrantzitsue<strong>net</strong>akoek — Expert<br />

Advisory Group on Language Engineering Standards (EAGLES) 1 , Preparatory<br />

Action for Linguistic Resources Organization for Language Engineering<br />

(PAROLE), Trans-European Language Resources Infrastructure (TELRI) 2<br />

eta European Language Resources Association (ELRA) 3 — hiru alderdi horiek<br />

lantzea dute helburu nagusi.<br />

Hortaz, lexikoi batek berrerabilgarria izan behar du; hau da, bere informazio<br />

lexikalaz baliatzeko aukera eman behar du, lexikoi berri bat garatu<br />

nahi denean edota dagoen lexikoiren bat aberastu nahi denean. Honekin<br />

batera, lexikoi bat berrerabilgarria izango da baldin eta estandarra bada.<br />

Hau da, baldin eta honen errepresentaziorako eskemak orokorrak eta aplikazioetarik<br />

independenteak badira. Modu horretan, bere baitan biltzen duen<br />

informazioaren adierazpidea formalismo berezi bati lotuegia egotea eragotz<br />

daiteke. Behar honi erantzuteko asmoz, hurrengo ekimenak aipa genitzake:<br />

Text Encoding Initiative (TEI), The ACL Data Collection Initiative eta Consortium<br />

for Lexical Research, besteak beste. Hala ere, tamalez, egun ezin da<br />

esan informazio lexikala kodetzeko formalismo estandar bat dugunik.<br />

Nahiz eta albo batera utzi den hasiera bateko gehiegizko optimismoa,<br />

gaur egun, joera lexikalistak badirau, bai hizkuntzalaritza teorikoan bai konputazionalean.<br />

Lexiko konputazionalaren alorrean lexiko-sistemen azterketa,<br />

errepresentazioa eta erabilera, gero eta garrantzi handiagoa hartzen ari da.<br />

Azken hamarkadan lexikoigintzan aurrera egin da: erredundantziaren arazoa<br />

konponduz, datuen kontrola eta kontsistentzia gauzatuz, eta informazioatzipena<br />

erraztuz. Argi dago, beraz, hizkuntzen industriaren interesa lexikora<br />

lerratu dela, eta ez da harritzekoa, hortaz, lexikoi horien eraikuntza izatea<br />

1 http://www.ilc.pi.cnr.it/EAGLES/home.html (2007-07-02an atzitua).<br />

2 http://www.ids-mannheim.de/telri/html (2007-07-02an atzitua).<br />

3 http://www.icp.gr<strong>net</strong>.fr/ELRA/home.html (2007-07-02an atzitua).


18 Lexikoiak<br />

LNPko gairik landue<strong>net</strong>ako bat. Hala, II.2. atalean lexikoien ezaugarriez<br />

arituko gara.<br />

II.2 Lexikoiei buruz<br />

Lexikoiei buruz hitz egin ahal izateko, lexikoi eta hiztegien artean desberdindu<br />

beharra dago. Bai lexikoiek eta bai hiztegiek hitz baten adierari buruzko<br />

deskribapena eta informazio lexikoa jasotzen dute, baina bakoitzaren erabileraren<br />

arabera, jasotzen den informazio mota eta informazio horren antolaketa<br />

aldatu egiten da.<br />

Esate baterako, hiztegien erabiltzaileak gizakiok garenez, bertako informazioa<br />

gizakiok uler eta erabil dezagun dago antolatuta. Hala, hiztegisarrera<br />

bakoitzeko, orokorrean, hitz horren adierari buruzko azalpen bat eta<br />

adibide batzuk ematen zaizkigu.<br />

Lexikoek, aldiz, informazio lexikala jasotzen duten biltegiak izateaz gain,<br />

aplikazio batekin lotura izan behar dute. Beste hitz batzuekin esanda, lexikoien<br />

erabiltzaileak ordenagailuak dira. Horregatik, lexikoi konputazionaletako<br />

sarrerek informazio linguistiko (morfologiko, sintaktiko eta semantiko)<br />

esplizituarekin hornituta egon behar dute, betiere LNPko sistema batean<br />

integratzeko moduan antolaturik. Hortaz, hiztegietan dugun informazioa<br />

lexikoietan aurkitzen duguna baino mugatuagoa da, hiztegietan hitz baten<br />

adiera ulertzeko behar den informazioa bakarrik eskaintzen baita.<br />

Hurrengo definizioak ondo adierazten du lexikoiaren eta hiztegiaren arteko<br />

desberdintasuna:<br />

“[A lexicon is] a set of formalized entries to be used in conjunction with<br />

computer programs and by dictionary the physical printed text giving lexical<br />

information, including meaning descriptions.” (Wilks et al., 1996, 6. or.)<br />

Wilks et al.-ek (1996), hiztegia testu inprimatu gisa definitzen badu ere,<br />

gaur egun jakina da testu inprimatua izateaz gain, euskarri elektronikoan ere<br />

egiten direla hiztegiak.<br />

Lexikoiak zer diren zehaztu ondoren, aipa ditzagun lexikoak garatzeko<br />

erabiltzen diren hainbat iturri eta metodo.


II.2 Lexikoiei buruz 19<br />

II.2.1 Lexikoiak sortzeko hurbilpenak, metodoak eta iturriak<br />

Lexikoia eskuratzeko bi hurbilpen nagusi erabili izan dira: arauemailea eta<br />

deskriptiboa. Hurbilpen arauemailean, marko zehatza definitzen da, eta informazioa<br />

marko horretan txertatzen da lehenengo. Hurbilpen deskriptiboan,<br />

aldiz, aurrez ez dago definiturik inongo marko zehatzik, eta ezaugarri multzoa<br />

osatuko duten elementuak aztertutako datuetan agertutakoak dira.<br />

Lexikoiak sortzeko berebiziko garrantzia dauka, baita ere, lexikoiaren garapenean<br />

erabilitako metodoak, hau da, gizakiaren eskuratzea zenbaterainokoa<br />

izango den zehazteak. Hiru metodo erabil daitezke: eskuzko metodoa,<br />

metodo automatikoa edo metodo erdiautomatikoa. Metodoa erabakitzerakoan,<br />

kontuan izan behar dira, alde batetik, zeintzuk diren erabiliko diren iturriak,<br />

eta bestetik, helburu den aplikaziorako zein informazio zehaztu edo markatu<br />

behar den. Hala, eskuzko metodoek hurbilpen arauemailea darabilte. Hurbilpen<br />

deskriptiboan, aldiz, metodo automatikoa eta erdiautomatikoa erabil<br />

daitezke.<br />

Hurbilpen arauemaileetan, esan bezala, eskuzko metodoa da nagusi,<br />

eta metodo ho<strong>net</strong>an iturri nagusia introspekzioa da, hots, hizkuntzalariak<br />

munduari buruz duen jakinduria eta ezagutza. Lexikoia osatzeko garaian,<br />

gizakiek munduari buruz eta hizkuntzari buruz duten jakinduria erabiliz gero,<br />

sortutako datuen zuzentasuna bermatuko da. Hurbilpen honekin garatutako<br />

proiektuen arazo nagusienak dira, batetik, jende eta denbora ugari behar<br />

izatea, eta bestetik, jende ezberdin asko garai ezberdi<strong>net</strong>an proiektu batean<br />

lan egiterakoan, koherentzia arazoak sor daitezkeela.<br />

Hemen aipatzen ditugu era ho<strong>net</strong>an sortutako zenbait lexikoi: Word Dictionary,<br />

10.000 sarrera dituen Linguistic String Projecterako (LSP) sortutako<br />

lexikoia (Fox et al., 1988); <strong>WordNet</strong> 4 (Miller, 1985; Fellbaum, 1998a) gaur<br />

egun 3.0 bertsioa da indarrean, eta 155.327 hitz daude bertan errepresentatuta<br />

eta baita euren arteko erlazio semantikoak dituzten 117.617 synset<br />

edo sinonimo-multzo ere; Comlex (Grishman et al., 1994) ingeleseko 38.000<br />

inguru hitzentzako informazio sintaktikoa dakarren lexikoi konputazionala;<br />

CYC ontologia (Lenat, 1995) 100.000 termino baino gehiago ditu. LDOCEren<br />

azken bertsioak, LDOCE3-NLP, 80.000 adiera ditu, eta hizkuntzalaritza<br />

konputazionaleko ikerkuntzarako laguntza gisa sortu dute Longmaneko lexikografoek.<br />

4 http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).


20 Lexikoiak<br />

Era ho<strong>net</strong>an sortutako lexikoietan, hasieran kontzeptuen ontologia sortzen<br />

da, eta ondoren kontzeptu horiei hitzak lotzen zaizkie. Lan egiteko<br />

sistema honi jarraitzen zaizkion proiektuen artean honakoak ditugu: CYC<br />

(Lenat eta Guha, 1990), <strong>WordNet</strong> (Miller, 1985; Fellbaum, 1998a), eta EDR<br />

(Yokoi, 1995), besteak beste.<br />

Hurbilpen deskriptiboa arauemailearen kontrakoa da: lehenik hitzak<br />

sortzen dira, eta ondoren kontzeptuak lotzen zaizkie. Honezaz gain, hurbilpen<br />

deskriptiboetan, oinarri gisa aurretik sortuta dauden testu-baliabideak<br />

erabiltzen dira, eta horietan dagoen informazioa erauzten saiatzen dira metodo<br />

automatikoak edo erdiautomatikoak erabiliz.<br />

II.1. atalean aipatu dugun bezala, LNPn, 1980 hamarkadarainoko sistemetan,<br />

ahaleginen handiena sintaxi-egituretara mugatzen zen. Garai horretan<br />

formalismo sintaktiko batzuk egitura sintaktikoen pisua lexikoira pasatzen<br />

hasi ziren, lexikoiaren egitura konplexuagoa bihurtuz. Garai berean,<br />

konturatu ziren LNPrako sistemen hedakuntzarako arazo nagusiena lexiko<br />

urriegia izatea zela eta lexikoa edukiz betetzea uste baino lan neketsuagoa<br />

zela. Lexiko zabal eta konplexuen eraikuntza eskuz egitea gehiegizko lana<br />

izango zela-eta, aldez aurretik sortuta zeuden testu-baliabideetan zegoen<br />

informazioa ustiatzen ahalegindu ziren, hala nola, egitura gabeko oinarri lexikalak<br />

(corpusak) edo egituratutako oinarri lexikalak (makinak irakurtzeko<br />

moduko hiztegiak (MRD 5 ), thesaurusak eta entziklopediak).<br />

Corpusak egitura gabeko baliabidetzat hartu izan ohi dira, baina erabilerari<br />

buruzko informazio-hitzak errealitatean dituzten maiztasunak, zenbait<br />

egitura sintaktikoek dituzten maiztasunak eta halako informazioa lortzeko<br />

oso erabilgarriak dira. Hitzak berak eta hitzarekin batera agertzen den<br />

testuinguruak informazio baliagarria ematen du askotan.<br />

Honekin batera, makinaz tratatu daitezkeen testuen kopurua etengabe<br />

hazten ari da. Beraz, ho<strong>net</strong>az guztiaz jabetuta, 80ko hamarkadatik aurrera,<br />

baliabide hau geroz eta gehiago erabili izan da, eta egun, lexikoien aberasketan<br />

erabiltzeaz gain, hizkuntzalaritzaren beste alor guztietan ere erabiltzen<br />

da. Aitzindari gisa, milioi bat hitz inguru dituen Brown corpusa (Francis eta<br />

Kucera, 1982) aipatu beharra dago.<br />

Corpusetan, berez, hitzak bakarrik daude (corpus gordina deritzoguna).<br />

Corpusa gordina baldin bada, erabilgarria da; baina are erabilgarriagoa da<br />

corpus berari informazio linguistikoa gehitzen badiogu. Badira lematizatuta-<br />

5MRD, Machine Readable dictionaryren laburdura da. LNPn asko erabiltzen den laburdura<br />

da.


II.2 Lexikoiei buruz 21<br />

ko corpusak, hitzen kategoriak markatuta dituzten corpusak, morfologikoki<br />

analizatuta dauden corpusak, egitura sintaktikoak markatuta dituzten corpusak,<br />

semantikoki markatutako corpusak 6 , eta abar. Beraz, corpus batean,<br />

gero eta informazio gehiago izan, orduan eta erabilgarriagoa izango da LNPn.<br />

Esate baterako, Penn Treebank proiektuari esker, orain arte gehien erabili<br />

izan diren ingeleseko corpusak —jadanik aipatu dugun Brown corpusa<br />

(Francis eta Kucera, 1982), eta bi milioi hitz inguru duen Wall Street Journal<br />

corpusa— maila hauetan markatu dira: hitzaren kategoria (Marcus et al.,<br />

1993) eta azaleko egitura sintaktikoa (Marcus et al., 1994). Aurrekoez gain,<br />

250.000 hitzetako Brown corpusaren testu zati bat hartu dute eta Princetoneko<br />

kategoria-etiketatzaile automatikoarekin etiketatu dute lehenik, eta semantikoki<br />

ondoren (eskuz) <strong>WordNet</strong>eko adierekin (Miller et al., 1994).<br />

<strong>Euskara</strong>z ditugun corpusen artean azpimarratzekoak dira: batetik, UZEIk<br />

<strong>Euskal</strong>tzaindiarentzat sortutako XX. Mendeko <strong>Euskara</strong>ren Corpus Estatistikoa<br />

7 —XX. mendeko testuen laginez osatutako 4.650.000 hitzeko corpus<br />

estatistikoki lematizatua—, eta bestetik, Ereduzko Prosa Gaur 8 . IXA taldean,<br />

bestalde, ikerketarako erabiltzen dira <strong>Euskal</strong>dunon Egunkaria eta Berria<br />

egunkarien hemerotekekin sortutako corpusak, eta egun, informazio linguistiko<br />

aberatsa duen euskarako corpusa garatzen ari gara (Aduriz et al.,<br />

2006).<br />

Hala ere, corpusak ez dira beti elebakarrak, eta corpus elebidunak sarri<br />

erabiltzen dira LNPn. Corpus elebidun batek bi hizkuntza —gutxienez—<br />

parekatzeko aukera ematen du. Corpus elebidun hauek lerrokatuta baldin<br />

badaude, gainera, hizkuntza bateko esaldia beste hizkuntzako esaldi baliokidearekin<br />

parekatzeko aukera ematen digute. Honek, noski, itzulpen automatikorako<br />

eta antzeko aplikazioetarako baliagarri egiten ditu modu ho<strong>net</strong>ako<br />

corpusak.<br />

Corpus elebidunei dagokienez, ikertzaileen artean gehien erabili izan dena<br />

Hansard corpusa izan da. Corpus ho<strong>net</strong>an Canadian Parlamentary Proceedingak<br />

daude, eta ingelesa eta frantsesa dira bertan aurkitzen ditugun hizkuntzak.<br />

Corpusak 3,5 milioi esaldiri dagozkien 97 milioi hitz ditu. Corpus<br />

lerrokatua da, hau da, hizkuntza bateko esaldi bakoitzaren beste hizkuntzako<br />

esaldi baliokidea zein den markatuta dago (Brown et al., 1991).<br />

6 Semantikoki markatutako/etiketatuko corpusean, hitzak dagokien adierarekin desanbiguatuta<br />

daude. Hala, corpus bat (semantikoki) etiketatua dagoela diogunean, (semantikoki)<br />

desanbiguatutako corpus bat dela adierazi nahi dugu.<br />

7 http://www.euskaracorpusa.<strong>net</strong> (2007-07-02an atzitua).<br />

8 http://www.ehu.es/euskara-orria/euskara/ereduzkoa (2007-07-02an atzitua).


22 Lexikoiak<br />

Corpusa egitura gabeko testu gisa definitu ondoren, ikus dezagun egituratutako<br />

baliabide lexikalen artean zer testu mota aurki daitezkeen: makinak<br />

irakurtzeko moduko hiztegi (MRD) elebakarrak eta elebidunak, thesaurusak<br />

eta entziklopediak. Guztiak baliabide egituratuak diren arren, corpus<br />

egituratuekin antzik ez dute, hauetan dagoen informazioa eta egitura oso ezberdinak<br />

direlako. Hiztegi, entziklopedia eta thesaurusetan hitzen kategoria,<br />

azpikategorizazioa, definizioa, erabilera-adibideak, eta abar aurki daitezke.<br />

Gainera, hitzen esanahiak antolatuak daude adieren bidez. Hiztegi elebidunen<br />

informazioa ere ustiatzen da, hizkuntza batetik besterako ordainak<br />

lortzeko adibidez.<br />

Nahiz eta autore batzuk corpusak aztertzearen aldekoak izan —besteak<br />

beste, Grishman eta Sterling (1992)—, MRDak hartu izan dira nagusiki iturri<br />

lexikal aberatsentzat. Halaxe diote, behintzat, Donal Walker-ek eta Antonio<br />

Zampolli-k Computational Lexicography for Natutal Language Processing<br />

liburuaren sarreran:<br />

“The various kinds of existing dictionaries, and in particular the dictionaries<br />

available in machine-readable form, are obviously the richest and most valuable<br />

sources, based as they are on a long lexicographical tradition which<br />

encompass a treassure store of data, information and knowledge.”<br />

(Boguraev eta Briscoe, 1989, xiv or.)<br />

Hiztegietatik informazioa erauzteko metodoa ez da berria LNPn, eta honi<br />

buruzko laburpen interesgarriak ditugu Castellón (1992), Artola (1993),<br />

Agirre (1999), Rigau (1998) eta Arriola (2000) la<strong>net</strong>an. Halako lanak 80ko<br />

hamarkadan hasi ziren. Amsler-en hainbat la<strong>net</strong>an (Amsler eta White, 1979;<br />

Amsler, 1980) dagoeneko aipatzen da halakorik. Ondoren, The Merriam-<br />

Webster New Pocket Dictionary —Chodorow et al. (1985); Binot eta Jensen<br />

(1987), eta abar— eta Longman Dictionary of Contemporary English<br />

(LDOCE) —Michiels eta Nel (1994); Boguraev eta Briscoe (1993), besteak<br />

beste— hiztegien gainean egindako lanak argitaratu ziren. Hala, LNPko<br />

ikertalde askok jardun dute MRDez baliatzen, joan den hamarkadan.<br />

Hiztegietatik ez ezik, badira egituratutako beste baliabide lexikaletatik<br />

informazioa erauzten duten lanak ere: Yarowsky-k (1992) eta Resnik-ek<br />

(1995), beste batzuen artean, Roget’s International Thesaurusa erabili dute.<br />

Grefenstette-k (1993) Macquarie’s thesaurusa erabili du. Sánchez-ek (1991)<br />

Diccionario Ideológico de la lengua Española thesaurus espainiarra erabili du.<br />

Eta Utsuro et al.-ek (1993) Bunrui Goi Hyou thesaurus japoniarra erabiltzen<br />

dute.


II.2 Lexikoiei buruz 23<br />

Entziklopediei dagokienez, berriz, Yarowskyk (1992) lexikoien sorkuntzarako<br />

Grolier’s Encyclopaedia erabili du; eta Gómez et al.-ek (1994) The<br />

World Book Encyclopedia erabili dute.<br />

Baina badira bi motatako metodoak erabiltzen dituzten lanak, eskuzko<br />

erauzteko metodoa eta automatikoa tartekatzea lexikoietako hutsuneak eragozteko<br />

asmoz. Esate baterako, biltegi lexikalak eraikitzerakoan iturri bakartzat<br />

hiztegiak ez direla erabili behar diote Ide eta Veronis autoreek (1993).<br />

Autore hauek ondorioztatzen dutenez, biltegi lexikalak eraikitzeko hiztegiak<br />

oso garrantzitsuak dira, baina, zenbaiten ustearen aurka, ezingo dira erabat<br />

automatikoki sortu, eta pertsonaren lana ezinbestekoa izango da, hainbat<br />

arazo ekiditeko.<br />

Eskuratze-metodoak konbinatzeaz gain, bi iturriak elkarrekin erabili izan<br />

dira. Arrazoi nagusia da hiztegiek ez dutela —corpusek bai ordea— hitzen<br />

maiztasun erlatiboa jasotzen eta ezta hainbat testuingurutan hitzek duten<br />

erabilera ere. Horregatik, askotan bi iturriek emango duten informazioa uztartzea<br />

komeni da. Baliabideak konbinatzen dituzten lanak modu ho<strong>net</strong>an<br />

sailkatzen dira:<br />

• Iturri lexikal egituratuak konbinatzen dituztenak (Knight eta Luk, 1994):<br />

MRDak, ontologiak, thesaurusak, eta abar.<br />

• Iturri egituratuak eta ez-egituratuak baliatzen dituztenak (Klavans eta<br />

Tzoukermann, 1996).<br />

Beraz, lexikoiak sortzeko garaian hurbilpen eta iturri ugari daude, eta<br />

ondorioz, erabilitako hurbilpen eta iturri hauen arabera hainbat lexikoi mota<br />

lor daitezke. Hurrengo atalean, lexikoi mota nagusienak gainbegiratuko<br />

ditugu.<br />

II.2.2 Ezagutza-base lexikalak, hiztegi ezagutza-baseak eta ontologiak<br />

II.1 atalean esan bezala, hizkuntzalaritza konputazionalaren gaur egungo joeraren<br />

arabera hizkuntza-ezagutza gramatikaren arlotik lexikoarenera lerratu<br />

da, eta ikusmolde-aldaketa horrek gramatikak erraztea ekarri du. Baina<br />

informazioa lexikoan pilatzeak sarrera lexikalak informazio erredundanteaz<br />

hornitzea ekar lezake. Informazioaren kopuruak eta konplexutasunak informazioa<br />

bera kontrolatzeko arazoak sor ditzake. Beraz, beharrezkoa izango


24 Lexikoiak<br />

da, sarrera lexikalek zein motatako informazioa behar duten erabakitzeaz<br />

gain, informazio hori guztia nola egituratu erabakitzea, erredundantzia ekiditeko<br />

eta portaera bereko hitz moten arteko pareko ezaugarriak antzemateko.<br />

Arazo horiei erantzuteko ezagutza-base lexikalak (EBLak) 9 garatzen dira.<br />

Hala, EBLak ezagutzari buruzko informazioa gordetzen duten gordailu<br />

egituratuak dira. Amsler eta Walker egileek aipatzen dute EBLaren<br />

kontzeptua estreinako aldiz 1981-1982 tartean. Izan ere, lengoaia naturalen<br />

prozesamendu sintaktiko eta semantikoa egin ahal izateko, lexikoiak<br />

hitz-zerrenda izatetik ezagutza-base lexikal izatera pasatu behar dira, hitzei<br />

eta adierei buruzko informazioa duten ezagutza-base konplexuetara, alegia.<br />

Hala, ezagutza-base hauetan, entitateak eta beraien arteko erlazioak agerikoak<br />

dira, semantika lexikala errepresentatuz.<br />

EBLen ezaugarri garrantzitsuena herentzia izaten da, adierak klaseazpiklase<br />

hierarkietan antolatzen dira-eta (Copestake, 1990). Esate baterako,<br />

<strong>WordNet</strong> —IV.1 atalean aztertuko duguna— hierarkia semantikoaren bidez<br />

antolatua dago. Hortaz, hitz moten hierarkia eta herentziaren nozioa EBLen<br />

ezaugarri garrantzitsue<strong>net</strong>akoa da, eta hauei esker, mota bereko elementuek<br />

ezaugarri berak konpartituko dituzte. Horrela, herentzia-mekanismoak eta<br />

erregela lexikalak baliatuz, informazio lexikalaren erredundantzia ekiditea eta<br />

kontsistentzia bermatzea lortzen da. Esate baterako, ale lexikalak errepresentatzeko<br />

Qualia Structure teoria garatzen du Pustejovskyk (Pustejovsky,<br />

1991). Teoria horren bidez, hitzek dakarten polisemia sistematikoki adierazten<br />

da lexikoian, behar ez den anbiguotasun lexikala ekidinez. Horrez<br />

gain, autore horrek dio egitura lexikal bakanak EBL zabalago batean integra<br />

daitezkeela herentzia lexikalaren teoriari esker. Teoria horrek lexikoiaren antolamendu<br />

orokorrerako behar diren printzipioak ditu, eta gure hizkuntzaren<br />

lexikoia osotasun kontzeptual batean integratzen laguntzen digu.<br />

Bestalde, lexikoietako informazioa adierazteko ezaugarrien bidezko adierazpidea<br />

usu erabiltzen da. Ezaugarriak erabiltzen dituzten lexikoiekin, garai<br />

batean gramatika-erregeletan islatutako informazio kopuru handia maila lexikora<br />

lerratzea lortzen da. Hauen alde egiten dutenek argudiatzen dute informazio<br />

lexikalaren egitura konplexua herentziaren bidez errepresentatzea oso<br />

zaila izan daitekeela eta egokiagoak direla datu lexikalak errepresentatzeko<br />

ezaugarri-egituretan oinarritutakoak. Ematen dituzten arrazoiak hurrengoak<br />

dira (Aldezabal et al., 2005):<br />

9 Ingelesez Lexical Knowledge Base (LKB) terminoa erabiltzen da.


II.2 Lexikoiei buruz 25<br />

• Informazioa atzitzeko eta maneiatzeko bide anitz.<br />

• Hiztegi jakin baten antolaketa gordetzen ahal da, kontsultarako transparente<br />

eginez.<br />

• Oinarri teoriko sendoa.<br />

• Lexikoi konputazionalekiko bateragarritasuna.<br />

Formalizazio ho<strong>net</strong>an oinarritutako formalismo ugari garatu da, hala nola,<br />

LFG (Lexical Functional Grammar), HPSG (Head-Driven Phrase Structure<br />

Grammar), CUG (Categorial Unification Grammar) edoFUG(Functional<br />

Unification Grammar). Hurrengo kapituluan aztertuko ditugu sakonkiago<br />

hauetako batzuk.<br />

Aurreko atalean aipatu dugun bezala, EBLak eskuz eraiki daitezke, adibidez,<br />

<strong>WordNet</strong> (Miller, 1985; Fellbaum, 1998a) eta EDR (Yokoi, 1995), baina<br />

askotan hiztegietatik erauzten dira (Copestake, 1990; Bruce et al., 1992).<br />

EBLak eraikitzeko hiztegietatik erauzi izan den informazioz baliatuz gero,<br />

hiztegi ezagutza-baseez (HEB) hitz egiten da. Hortaz, HEBek hiztegietatik<br />

erauzitako informazioa jasotzen dute (Artola, 1993). EBLetan bezala, erauzitako<br />

informazioaren artean, adieren hierarkiak dira aipagarriak, baina HEB<br />

baten garrantzia hiztegiko informazioan datza. Hala ere, EBL batean dugun<br />

informazioa ez da hiztegi batean dugun bera, hiztegietako informazioaz<br />

gain, bestelako informazioa ere egoten baita; hala nola, sarrera lexikalen arteko<br />

lotura semantikoak, eta sarrera lexikalari buruzko hainbat informazio<br />

semantikoa (eremu semantikoa, adibidez) edo sintaktiko-semantikoa (rol tematikoak,<br />

adibidez).<br />

Ontologiak, munduari buruzko ezagutzaren biltegiak dira, hau da, mundu<br />

errealaren kontzeptualizazioak dira, mundu errealari buruzko inferentziak<br />

egiteko gaitasuna dutenak. Gizakiok ezagutza hori lexikoaren bidez adierazten<br />

dugunez, baliabide lexikalen artean ere sarri aipatzen dira. Ontologiak<br />

aplikazio askotarako eraiki izan dira —softwarearen berrerabilgarritasuna,<br />

medikuntzako sistema adituak, hizkuntzaren sorkuntza, ulermena, itzulpena,<br />

eta abar—, eta normalean eremu espezifikoetarako eraiki ohi dira.<br />

Ontologien izaera ez dago guztiz zehaztuta eta eztabaida handia dago<br />

honen definizioaren inguruan. Gruber (1993), Onyshkevych eta Nirenburg<br />

(1994) eta Guarino (1997) bat datoz ontologiak oso heterogeneoak eta norberearen<br />

beharren arabera eginak direla esaterakoan. Hala ere, ontologia<br />

guztiek dute kontzeptu zerrenda bat, eta kontzeptu horien arteko hierarkia


26 Lexikoiak<br />

klase/azpiklase erlazioak egituratzen du. Hori da ontologien ezaugarririk garrantzitsue<strong>net</strong>akoa.<br />

Ontologien izaeraren inguruko eztabaidak zerikusia dauka EBL eta ontologien<br />

arteko mugak oso garbi ez egotearekin. Autore batzuk EBL eta ontologien<br />

arteko ezberdintasuna azpimarratzen saiatu diren arren, gu Lersundiren<br />

(2005) lanean defendatzen den ikuspegiarekin bat gatoz. Lan ho<strong>net</strong>an,<br />

diferentzia nagusia orientazioan dagoela nabarmentzen da:<br />

“Ontologietan munduari buruzko informazioa dugu, kontzeptuen arteko erlazioek<br />

ez dute zertan motibazio linguistikorik eduki. Bestalde, EBLek hizkuntzaren<br />

ulermenerako eta sormenerako beharrei erantzun nahi diete, baina,<br />

azken finean, jakina da LNPren muturrera iristeko hizkuntzan agertzen diren<br />

arazo guztiak gainditu beharko direla, sen ona barne. Beraz, EBLetan munduari<br />

buruzko informazioak egon behar du. Adibide garbi bat hiperonimia<br />

erlazioa da. Izan ere, ontologietan eta EBLetan gordetzen den informazio semantikoa<br />

gainjarri egiten da; biak egitura isolatu bezala diseinatuko balira,<br />

ezagutza bera bi aldiz errepresentatu beharko litzateke, adibidez, hiperonimiari<br />

dagokion ezagutza.” (Lersundi, 2005, 26. or.)<br />

II.3 Laburbilduz<br />

Kapitulu ho<strong>net</strong>an lexikoien ibilbidea azaldu dugu, LNPn hartu duen garrantzia<br />

azpimarratuz. Horren adierazgarri dira, kapituluan zehar ikusi ahal izan<br />

dugun bezala, azken urte hauetan ho<strong>net</strong>an egin diren lanak.<br />

Bestalde, lexikoien garapenean dauden joerak aurkeztu ditugu (hurbilpen<br />

arauemailea eta deskriptiboa). LNPn bigarrenaren alde egin da, aldez aurretik<br />

sortuta dauden testu-baliabideetan (corpusak, MRDak, thesaurusak eta<br />

entziklopediak) dagoen informazioa ustiatzeko aukera ematen duelako.<br />

Azkenik, hiru lexikoi mota ikusi ditugu: ezagutza-base lexikalak (EBLak),<br />

hiztegi ezagutza-baseak (HEBak) eta ontologiak. Gaur egun EBLa da LNPn<br />

lexiko-semantikaren arloan nagusitzen dena. Honek sarrera lexikaletako informazioa<br />

egituratu egiten du, erredundantzia konponduz, datuen kontrola<br />

eta kontsistentzia gauzatuz eta informazio-atzipena erraztuz. Horretaz gain,<br />

informazioa lexikala EBLetan gordez gero, EBLak eskaintzen dituen aukerei<br />

esker informazioaren mantentzea eta eguneratzea, eta bertsio desberdinen<br />

sorkuntza, besteak beste, oso modu ziurrean egin daitezke. Hortaz, ezagutzaren<br />

errepresentaziorako eta biltegirako oso egokia da<br />

Arrazoi hauek guztiengatik, eta tesi-txosten honen izenburuak adierazten<br />

duen bezala, lan ho<strong>net</strong>an EBLak izango dira aztergai. <strong>Euskara</strong>ren azterketa


II.3 Laburbilduz 27<br />

semantikoa ahalbidetzeko, euskararen informazio lexiko-semantikoa jasotzen<br />

duen lexikoia ezagutza-base gisa diseinatu dugu. Hala ere, esan beharra<br />

dago, IXA taldean honekin batera, paraleloki, euskararako HEB garatzen ari<br />

garela (Lersundi, 2005).


28 Lexikoiak


III. KAPITULUA<br />

Ezagutza-base lexikalen azterketa kritikoa<br />

Behin gure lexikoiak ezagutza-base lexikal (EBL) bat izan behar duela erabaki<br />

ondoren (irakurri berri duzuen atalean), eman beharreko lehenengo urratsa,<br />

erabaki beharreko EBL mota zehaztea da. Horixe egingo dugu kapitulu<br />

ho<strong>net</strong>an: euskararako aukeratu dugun EBLa arrazoitu, eta egin nahiko genukeen<br />

EBLaren ezaugarriak zerrendatu.<br />

II.2. atalean azaldu dugun bezala, informazio linguistikoa eredu edo<br />

formalismo jaki<strong>net</strong>an oinarrituta errepresentatzen da EBLetako sarreretan.<br />

Honenbestez, euskarako EBLa egiten hasi baino lehen, eredu edo formalismo<br />

horiek aztertu ditugu, ondoren guk eredu bat proposatzeko. Ikusiko dugun<br />

bezala, EBLen eraikuntzarako eredua ugari daude, eta ikerlan honen<br />

ezinbesteko muga dela-eta, azterketaren esparrua murriztu egin behar izan<br />

dugu. Hortaz, lehenik eta behin, aukeraketa horren zergatia azalduko dugu,<br />

eta, ondoren, formalismo bakoitzetik ezaugarri nagusienak aipatuko ditugu1 .<br />

Formalismo hauek aztertu ondoren, IXA taldearen beharretara gehien<br />

egokitzen den EBL formalismoak <strong>WordNet</strong> eta honen ildotik garatu diren<br />

Euro<strong>WordNet</strong> eta The Multilingual Central Repository (MCR) direla arrazoituko<br />

dugu (III.3).<br />

1 Tesi-txosten ho<strong>net</strong>an ez dugu formalismo bakoitzaren azalpen sakonik egingo. Eredu<br />

horien azterketa sakona eta azterketarako erabilitako metodologia eta irizpideak ezagutzeko,<br />

jo bedi Pocielloren lanera (2004b).


30 Ezagutza-base lexikalen azterketa kritikoa<br />

III.1 Gure EBLa definitzen<br />

<strong>Euskara</strong>rako nahi dugun EBLaren ezaugarriak definitzeko hainbat erabaki<br />

hartu behar izan ditugu: zein formalismoren arabera jasoko duen informazioa,<br />

zein informazio mota txertatuko dugun sarrera bakoitzean, non erabili<br />

nahi dugun, eta abar. Ataza ho<strong>net</strong>an zenbait zailtasunekin topatu gara.<br />

Batetik, EBLak egiteko eredu edo formalismo asko dago. II.1 atalean<br />

deskribatu dugun bezala, 1980ko eta 1990eko hamarkadetan lexikoien inguruan<br />

garatutako lanen gorakada gertatu zen, aurreikusitako estrategiarik edo<br />

formalismo garbirik izan gabe. Hortaz, lexikoa aztertzeko hamaika era desberdin<br />

erabili ziren. Horren adierazgarri dira bai hizkuntzalaritza teorikoa<br />

eta baita hizkuntzalaritza konputazionala ere. Esate baterako, hizkuntzalaritza<br />

teorikoan eredu ugari proposatu izan dira (Dowty, 1979; Jackendoff,<br />

1990; Talmy, 1985, besteak beste), baina beraien artean ez dago batasunik,<br />

eta batzuetan gainera, bata bestearekin kontraesanean daude. Hizkuntzalaritza<br />

konputazionalean, ere proposamen ugari ditugu (Bresnan eta Kaplan,<br />

1982; Fillmore eta Baker, 2001; Miller, 1985; Kipper et al., 2000, beste batzuen<br />

artean). Horietako asko fenomeno linguistiko zehatz bati mugatuak<br />

daude.<br />

Formalismo-aniztasunari lotuta, aipatu beharra dago EBLetan maiz ez<br />

dagoela adostasunik ez hauek jaso behar duten informazioan, ez informazio<br />

hori errepresentatzeko moduan ere (Ingria, 1988). EBL baten diseinua definitzean,<br />

fenomeno linguistikoak zehaztu behar dira aldez aurretik, baina<br />

hauek ez daude argi. Esaterako, iritzi ezberdinak daude ale lexikalen izaera<br />

semantikoa definitzerakoan: ale lexikalak berezko semantika du ala testuinguru<br />

eraginaren ondorioz jasotzen du semantika hori? Hori horrela izanda,<br />

zein ezaugarri dira ale lexikalean berezkoak eta zeintzuk dira testuinguruarn<br />

eraginaren ondorioz sortutakoak?<br />

Honen adierazgarri, adibidez, aditzen diatesi-alternantziak dira 2 .Demagun<br />

hautsi aditzaren sarrera lexikala lantzen ari garela, eta Leihoa hautsi da<br />

eta Maiderrek leihoa hautsi du bezalako esaldiak ditugula. Aditz honen argumentuak<br />

era ezberdinean azaleratu dira, eta arrazoi horregatik, bi esaldi<br />

hauetako esanahia ezberdina da: lehenengoan ‘norbaitek hausten dut leihoa’<br />

eta bigarrenean ‘leihoa hautsi egiten da’. Honenbestez, hautsi aditza EBL<br />

2 Alternantzia kontzeptua definitzea ere ez da zailtasunik gabeko auzia. Levinek (1993),<br />

esaterako, horrelaxe azaltzen ditu: “Diathesis Alternations: alternations in the expressions<br />

of arguments, sometimes accompanied by changes of meaning.” (Levin, 1993, 2. or.)


III.1 Gure EBLa definitzen 31<br />

batean adierazteko garaian, erabaki beharrekoa litzateke aditz honek berezko<br />

bi adiera dituen; ala berezko adiera bakarra duen, eta beste bi adierak<br />

testuinguru sintaktikoaren eraginez sortu diren. Hau horrela izanda, erabaki<br />

beharreko hurrengo gauza litzateke zein ezaugarri diren ale lexikalean<br />

berezkoak, eta zeintzuk testuinguruaren eraginaren ondorioz sortutakoak.<br />

Ikus daitekeen bezala, semantika eta sintaxiaren arteko bereizketa ez da<br />

hain argia, eta gaur egun gauza onartua da bi atal hauen artean harremanik<br />

izan badela. Dena den, harreman hori nola gauzatzen den oso arazo eztabaidatua<br />

da. Bi maila hauen arteko lotura hori bideratzeko sintaxi-semantika<br />

elkarguneaz hitz egiten da.<br />

“In short, we come to see semantics not as derived from syntax, but as an<br />

independent generative system correlated with syntax through an interface.”<br />

(Jackendoff, 2000, 124. or.)<br />

Semantika eta sintaxiaren arteko harreman hau dela-eta, EBL batzuk ale<br />

lexikalen izaera semantikoa definitzeko, ezaugarri semantikoaz gain, ezaugarri<br />

sintaktiko-semantikoez ere baliatzen dira; hala nola, rol tematikoez, azpikategorizazioaz,<br />

eta hautapen-murriztapenez, besteak beste. Ezaugarri hauek,<br />

gainera, lexikoiko sarreretako informazioa orokortzen lagunatzen dute:<br />

“[...] consideramosquelainterfazsintáctico-semántica abarca conjuntos<br />

de piezas léxicas y que es factible organizar el léxico verbal en función de este<br />

criterio. En concreto, el objetivo final es conseguir determinar toda aquella<br />

información que pueda ser generizabla a un grupo de piezas léxicas verbales<br />

[...] con la intención de minimizar al máximo el contenido de una entrada<br />

léxica.” (Vázquez et al., 2000, 41. or.)<br />

Zailtasun hauez guztiez jabetuta, eta nolabait hauek eragoztearren, euskararako<br />

EBLaren diseinua irizpide batzuetara mugatu dugu eta ereduak<br />

ondorengo baldintzak bete beharko dituela erabaki dugu:<br />

• Ahal dela, teoria edo ikerlan bakar bati lotua ez dagoen eredua<br />

izatea, hau da, beste eredu edo formalismo batzuetatik edan<br />

dezakeen EBLa izatea:<br />

Aipatu dugun legez, EBLaren eraikuntzarako ez dago eredu bakarra, ez<br />

hizkuntzalaritza teorikoan ezta konputazionalean ere; eta izatez, eredu bakarra<br />

jarraitzen duen EBLra mugatzea arriskutsua izan daiteke askotan, EBLan<br />

jasotako informazioa ez delako berrerabilgarria. Ondorioz, aplikazio berrien


32 Ezagutza-base lexikalen azterketa kritikoa<br />

sorkuntza baldintza daiteke. Beraz, ahalik eta irekiena eta deskriptiboena<br />

den eredua interesatzen zaigu. EBLa deskriptiboa bada, bertan jasoko den<br />

informazioa ez da arau-emailea izango eta EBL irekia izaten ahalbidetzen du.<br />

Irekia diogunean hauxe adierazi nahi dugu: aukeratutako eredu horretatik<br />

gertu beste lan konputazionalak egotea, gure EBLa horien informazioarekin<br />

ere aberastu ahal izateko. Hala, gure EBLa informazio berrerabilgarria jasotzen<br />

duena izatean nahi dugu, eta bertan egindako deskribapen linguistikoak<br />

etorkizuneko aplikazioak ez baldintzatzea.<br />

• Hizkuntza bere osotasunean adierazten duen EBLa izan behar<br />

du; ale lexikal bakoitzari dagokion adiera, klase semantikoa<br />

eta informazio sintaktiko-semantikoa zehaztuta dituen EBLa:<br />

Hizkuntzalaritza konputazionalaren ikuspegitik, geroz eta lexiko aberatsagoa<br />

izan, orduan eta emaitza hobeak lortzen dira ataza konputazionaletan.<br />

Guretzat, Pustejovsky-ren (1993) ildoa jarraituz, lexikoa aberatsa da baldin<br />

eta:<br />

(a) Sarrera lexikalaren edukia oso landuta badago; hau da, sarrera horri<br />

dagokion informazio guztia egokiro adierazita badago.<br />

(b) Lexikoaren antolaketa oso landuta badago, hots, lexikoa osatzen duten<br />

sarrerak beraien artean harreman egokiekin lotuta badaude.<br />

Lehenengoak, sarrera lexikal zehatz bati dagokion informazio guztia eskuratzea<br />

ahalbidetzen du. Bigarrenak, berriz, hizkuntza bera ulertzeko behar<br />

diren inferentziak eskaintzen dizkigu, ale lexikalen arteko harremanari esker.<br />

Hortaz, gure EBLak ahalik eta informazio gehiena jasotzea nahi dugu.<br />

• Konputazionalki inplementa daitekeen EBLa izatea, hots,<br />

LNPn erabilgarria. Ho<strong>net</strong>az gain, LNPko aplikazio bat baino<br />

gehiagorako baliagarria izatea, hau da, helburu askotarako<br />

baliagarria izatea.<br />

• Eleanitza den EBLa izatea: <strong>Euskara</strong>ko sarrera lexikalez gain, beste<br />

hizkuntzetako ordainak eskuragarri dituena.Erabilera konputazionalari<br />

begira, oso egokia da ezagutza-baseak eleanitzak izatea, batik bat<br />

informazio-erauzketa elebakar eta elebidunerako, eta baita itzulpen automatikorako<br />

ere.


III.2 Azterketarako aukeratutako formalismoak 33<br />

Laburbilduz, beraz, IXA taldeak nahi duen EBLak:<br />

• euskal hizkuntzako ale lexikalen ahalik eta informazio gehien jaso behar<br />

du<br />

• beste ereduetako informazioarekin bateragarria izan behar du<br />

• IXA taldeko aplikazio ezberdi<strong>net</strong>an erabilgarria izan behar du: itzulpen<br />

automatikoa, sintaxi zuzentzailea, galdera-erantzun sistema, hitzen<br />

adieren desanbiguazioa, edo hizkuntzen arteko informazioaren bilatzailea<br />

• EBL eleanitza izan behar du<br />

III.2 Azterketarako aukeratutako formalismoak<br />

EBL baten diseinurako proposamen ugari daude, eta hizkuntzalaritza konputazionalaren<br />

kasuan, proposamen hauek arloetan (sintaxian, semantikan,<br />

morfologian...) sakabanatzendira. Egoerahonenaurrean,etaikerlanhonen<br />

ezinbesteko muga dela-eta, azterketaren esparrua murriztu behar izan dugu.<br />

Bereziki aztertu nahi ditugu semantika eta sintaxia aztertzen dituzten lanak,<br />

bi hizkuntza maila hauen arteko elkarreragina onartuta. Hala, sintaxia,<br />

semantika eta sintaxi-semantika elkargunea hiztegi baten bitartez azaltzen<br />

saiatu diren lan batzuk aztertuko ditugu. LNPren arloan jorratuak izan direnak<br />

interesatzen zaizkigu bereziki, baina askotan hauek lan teorikoetan<br />

oinarrituak daudenez, garrantzitsua iruditu zaigu lan teoriko hauen ezagutza<br />

ere izatea. Hortaz, hizkuntzalaritza teorikoko eta konputazionaleko formalismoak<br />

sartzen saiatu gara. Hala ere, formalismo batzuk ezin dira argi eta garbi<br />

ikuspegi baten pean kokatu. Hala, lau azpimultzo egin ditugu: Hizkuntzalaritza<br />

teorikoan oinarritutako lanak (III.2.1 atala), Hizkuntzalaritza teoriko<br />

eta konputazionalaren erdibidean dauden lanak (III.2.2 atala), Hizkuntzalaritza<br />

konputazionalean oinarritutako lanak (III.2.3 atala) eta Corpusetan<br />

oinarritutako lanak (III.2.5 atala) 3 . Azter ditzagun azpimultzo bakoitzeko<br />

ikerlanak.<br />

3 Hemen azpimultzo hauei buruzko puntu nabarmenenak azalduko ditugu, azalpen osorako,<br />

jo bedi Pocielloren lanera (2004b).


34 Ezagutza-base lexikalen azterketa kritikoa<br />

III.2.1 Hizkuntzalaritza teorikoan oinarritutako lanak<br />

II.1 atalean aipatu dugun bezala, Gramatika Sortzailean eta Gobernu eta<br />

Uztarduraren Teorian, hizkuntzaren gaitasun sortzailea sintaxiari esker gertatzen<br />

da hein handi batean. Semantika eta fonologia, izan ere, sintaxiaren<br />

menpe dauden interpretazio mailak baino ez dira. Ikuspegi hau sintaktozentrismo<br />

bezala ezagutu izan da.<br />

Beste ikuspegi berri batzuk ere badira lexikoan ere erregulartasunik badela<br />

argudiatzen dutenak. Erregulartasun hauek, hain zuzen ere, semantika<br />

eta sintaxiaren artean elkarreragina dagoen ideiatik etorriko dira. Hortaz,<br />

sintaktozentrismo ideiaren aurkako ikuspegiak dira. Horixe da Jackendoff<br />

(1990), Levin (1993) eta Pustejovsky (1995) autoreen kasua, hementxe aztertuko<br />

ditugunak.<br />

Autore hauen ustez, ale lexikalek ezaugarri mota desberdin ugari dute<br />

beren baitan, eta ezaugarri horien guztien arteko harremanek ale lexikalaren<br />

gauzapen sintaktiko egokia baldintzatzen dute. Ikuspegi honekin, lexikoaren<br />

azterketa bilakatzen da aztergai nagusi, eta prozedura sintaktikoak horien<br />

arabera definitzen dira.<br />

Autore hauen lanek oihartzun handia izan dute (gaur egun ere hala dute)<br />

hizkuntzalaritza konputazionalean, eta hauetatik abiatuta LNPrako lan ugari<br />

egin dira. Esate baterako, Dorr (1997, 1993) eta Fernández et al. (2002)<br />

Jackendoffen (1990) ereduan oinarritu dira; Buitelaar (1998) Pustejovskyrenean<br />

(1995), eta Saint-Dizier (1996) eta Poznanski eta Sanfilippo (1993)<br />

Levinenean (1993). Lan hauei buruz arituko gara autore bakoitzari eskaini<br />

diogun atalean.<br />

Ikus ditzagun, bada, oso labur, autore hauen lexikoaren adierazpen proposamenak.<br />

III.2.1.1 Jackendoff (1990)<br />

Autore honek adierazpen-eredu abstraktu bat proposatzen du: Egitura<br />

Lexikal-Kontzeptuala (ELK) 4 .<br />

Egitura hau, batetik, hainbat egitura primitibo semantikoz osatzen da<br />

(TO, FROM, TOWARD, AWAY-FROM, CAUSE, GO, VIA...) etabestetik,<br />

hainbat kategoria kontzeptualez (Thing, Event, State, Action, Place, Path,<br />

Property, Amount...). Egitura primitibo semantikoak kategoria kontzeptual<br />

horiekin lotzen dira. Adibidez, TO, FROM, TOWARD, AWAY-FROM<br />

4 Lexical Conceptual Structure (LCS).


III.2 Azterketarako aukeratutako formalismoak 35<br />

eta VIA primitiboek Path kategoria kontzeptuala adieraz dezakete; eta GO,<br />

STAY, etaCAUSE primitiboek, berriz, Event kategoria kontzeptuala.<br />

Kategoria sintaktikoak kategoria kontzeptualei lotzen zaizkie. Alegia,<br />

izen-sintagma batek Thing (the dog), Event (the war) edota Property<br />

(redness) kategoria kontzeptualei erreferentzia egin diezaieke, eta ildo beretik,<br />

preposizio-sintagma batek, Place (in the house), Path (to the kitchen)<br />

edota Property (in luck) kategoria kontzeptualei 5 . Primitibo semantikoak,<br />

beraz, aditzaren argumentuei lotzen zaizkie.<br />

⎡<br />

run<br />

⎢<br />

V<br />

⎢ <br />

⎣<br />

⎤<br />

⎥<br />

⎦<br />

Event GO ([Thing ]i [P ath ]j)<br />

III.1 Irudia: run aditzaren ELKa.<br />

III.1 irudian ikus daiteke run aditza Jackendoffen sarrera lexikal gisa 6 .<br />

Sarrera lexikal honek GO primitiboa du, eta Jackendoffek primitibo honekin<br />

definitzen ditu mugimenduzko egitura kontzeptualak 7 . Run mugimenduzko<br />

aditza izaki, bi argumentu eskatzen ditu: batetik, mugitzen den gaia (Thing)<br />

eta bestetik, mugitzen den horrek egin behar duen ibilbidea (Path). Lehenengoa<br />

i azpindize batez markatuko da (subjektua) 8 eta bigarrena, berriz, j<br />

azpindize batez, PSaren (PP) osagarria dela adieraziz. Azken hau, aukerazkoa<br />

izan arren, lexikoan agertzen da.<br />

Esan dezakegu, beraz, lexikoan egitura kontzeptualaren eta sintaktikoaren<br />

arteko korrespondentzia gauzatzen dela, eta korrespondentzia hori ale<br />

lexikalen sarreretan ageri da.<br />

5 Adibideak Jackendoffen la<strong>net</strong>ik (1990) hartu dira.<br />

6 Txostenean aztertuko ditugun adibideak aztergai ditugun la<strong>net</strong>atik hartutakoak dira.<br />

Hauetan autoreek erabiltzen duten terminologia agertzen denez, testuan hauek erabiliko<br />

ditugu. Bestalde, kontuan izanda autore hauen lanak ingelesez daudela, hizkuntzalaritzako<br />

termino arruntak (kategorien izenak-eta bezalakoak) adibidean ere ingelesez agertuko dira.<br />

Hala, nahiz eta azalpenean euskarako baliokideak erabili, adibideen azalpena ulerkorragoa<br />

egin ahal izateko euskarakoaren jarraian, hauen ingeleseko ordaina ere aipatuko dugu.<br />

7 GO primitiboa beti egongo da Event kategoria kontzeptualean: [EVENT] = [Event<br />

GO([Thing],[Path])].<br />

8 Jackendoffek i eta j azpindizeekin subjektu eta objektuen guneak adierazten ditu,<br />

hurrenez hurren (Jackendoff, 1990, 45. or.).


36 Ezagutza-base lexikalen azterketa kritikoa<br />

Jackendoff (1990) sintaxi-semantika elkargunearen adierazpenaz arduratu<br />

zenez, ELKak sortu zituenean arreta berezia jarri zion azpikategorizazioari,<br />

batez ere, aditzei eta preposizioei; beste kategoriak (izenak, adjektiboak eta<br />

adberbioak) alde batera utzi zituen. Adiera bigarren mailan dago lan ho<strong>net</strong>an,<br />

hots, hitzen anbiguotasun semantikoa ez zuen esplizituki kontuan hartu.<br />

Adierarekin bezala, klase semantikoak ere ez ditu esplizituki lantzen,<br />

nahiz eta batzuen berri ematen duen; adibidez, ukipen-aditzak (contact verbs)<br />

aipatzen ditu, baina ez du klase hau osatzen duten aditzen zerrenda ematen.<br />

Horiek horrela, Jackendoffen lexikoaren ezaugarriak (zenbat sarrera dituen,ikusgarridagoenalaez,<br />

...) ezdituguezagutzen; bai,ordea,ho<strong>net</strong>atik<br />

abiatuta egin diren lexikoena. Esaterako, Dorrek (1993, 1997) Jackendoffen<br />

lanean oinarritutako aditzen eta preposizioen EBL bat sortu zuen, eta berarekin<br />

tutore-sistemak eta itzulpengintza automatikoa landu zituen. Aditzak<br />

sailkatzeko Levinen aditz-klaseak (Levin, 1993) erabili zituen eta klase<br />

hauek <strong>WordNet</strong>eko (Miller, 1985; Fellbaum, 1998a) aditzen adieretara lotuak<br />

daude. Bere txoste<strong>net</strong>an adierazten denez, erabilitako lexikoak 4.432 aditz<br />

zituen eta 492 aditz-klase. Preposizioei dagokienez, EBL horretan ingeleseko<br />

eta espainierako preposizioen interpretazioak (ELKak) ematen dituzte 9 .<br />

IXA taldean ere ikerlan batzuk egin dira Dorren la<strong>net</strong>ik abiatuta. Agirre<br />

eta Lersundi-ren lanean (2003) interpretazio berdina duten postposizio<br />

inbentario eleanitza sortu dute. Zerrenda ho<strong>net</strong>ako postposizioak interpretazioaren<br />

arabera multzokatuak daude, hau da, hartzen dituzten rol tematikoen<br />

arabera. Gaztelania eta ingeleseko preposizioen inbentarioa eta interpretazioak<br />

Dorren la<strong>net</strong>ik hartu dira, eta euskarakoak aldiz, Aldezabal-en ikerla<strong>net</strong>ik<br />

(2004). Dorren ELKetako interpretazioak Aldezabalenekin parekatu<br />

ondoren, ingeleseko, gaztelaniako eta euskarako postposizioen inbentario<br />

bakarra lortu dute. Hau oso erabilgarria izan daiteke bai itzulpen automatikorako,<br />

bai hizkuntza ezberdi<strong>net</strong>ako postposizioen informazio sintaktikosemantikoa<br />

aztertzeko.<br />

Ildo beretik, Volem (Fernández et al., 2002) proiektuak (ikus III.2.3.3<br />

atala) garatutako EBLa dago. EBL hau gaztelaniako, frantseseko eta katalaneko<br />

aditz eta preposizioetara mugatzen da, aditz eta preposizio bakoitzaren<br />

izaera sintaktikoaren deskribapena (azpikategorizazioa, hautapen-murriztapenak<br />

eta alternantziak) eta informazio semantikoa (ELKa, rol tematikoak<br />

9 Informazio hau guztia, hurrengo web orrian dago ikusgarri:<br />

http://www.umiacs.umd.edu/−bonnie/LCS/Database/Documentation.html (2007-07-<br />

02an atzitua).


III.2 Azterketarako aukeratutako formalismoak 37<br />

eta aditzen <strong>WordNet</strong>eko klase semantiko nagusiena) ematen duelarik.<br />

Jackendoffen la<strong>net</strong>ik abiatutako bi EBL hauek Jackendoffen lanari alderdi<br />

semantikoa eta beste ikuspuntu teorikoak gehitu arren, aditz eta preposizioetara<br />

murrizten dira, eta, ondorioz, hauek ere ez dute hizkuntza bere<br />

osotasunean adierazten. III.1 atalean esan dugun bezala, euskararako nahi<br />

dugun EBLak, ordea, baldintza hau betetzea nahiko genuke.<br />

III.2.1.2 Levin (1993)<br />

Levinek bere lanean (Levin, 1993) ingeleseko aditzen sintaxia eta semantika<br />

sakonki aztertzen ditu. Liburuan bertan landutako aditzen zerrenda ematen<br />

du, bakoitzari buruzko informazio sintaktiko-semantikoarekin: klase semantikoa<br />

eta diatesi-alternantziak.<br />

Beste teorietatik pixka bat aldendu egingo da, Levinek ez baitu zehazten<br />

sarrera lexikalaren itxurak nolakoa izan behar duen. Horren ordez, Levinek<br />

sarrera lexikal hori osatzeko bideak eskaintzen ditu.<br />

Baina lan hau ez da harremanik gabeko aditzen klase semantiko eta<br />

diatesi-alternantzien zerrenda bat bakarrik; lan honi esker, Levinek aitzindari<br />

den hipotesi bat sortu eta erabili baitu: klase semantiko berean dauden<br />

aditzek, portaera sintaktiko bera dute (diatesi-alternantzia berak), osagai<br />

semantiko berdinak dituztelako. Esaterako, (1) adibideko sing eta chant aditzek,<br />

performance verbs klase semantikoan daudenez, izaera sintaktiko bera<br />

izango dute.<br />

(1) You sing/chant. [IS+A]<br />

You sing/chant a tune. [IS+A+IS]<br />

You sing/chant me a tune. [IS+A+Izord+IS]<br />

You sing/chant a tune to me. [IS+A+IS+PS]<br />

You sing/chant a tune for me. [IS+A+IS+PS]<br />

Teoria honen arabera, beraz, forma bera baina adiera desberdinak (klase<br />

semantiko desberdinak) dituen aditz batek, izaera sintaktiko desberdinak<br />

izango ditu. Adibidez, ingeleseko sing aditza, performance verbs klase semantikoari<br />

dagokionean, (1)eko edozein egitura sintaktikorekin ager daiteke.<br />

Aldiz, sing aditza, verbs of sound emission klase semantikoan dagoenean, beste<br />

adiera bat duenez, izan ditzakeen egitura sintaktikoak hurrengoak izango<br />

dira:


38 Ezagutza-base lexikalen azterketa kritikoa<br />

(2) Abirdsang in the trees. [IS+A+PS]<br />

The trees sang with birds. [IS+A+PS]<br />

In the trees there sang the birds. [PS+Adlg+A+IS]<br />

...<br />

Horrela bada, Levinen teoriaren ardatza alternantziak eta klase semantikoak<br />

dira. Aditz batek bere portaera sintaktikoen arabera definituko ditu<br />

klase semantikoak, eta ondorioz, klase semantiko horri dagozkion osagai semantikoak.<br />

Inplementazioari begira, Levinen lana erabilia izan da lexiko konputazionalak<br />

eraikitzeko, hala nola, Acquilex (Poznanski eta Sanfilippo, 1993).<br />

Poznanskik eta Sanfilippok ingeleseko diatesi-alternantziak definitu zituzten,<br />

ondoren Acquilex ezagutza-basean (Boguraev eta Briscoe, 1989) txertatzeko.<br />

Azterketa horren abiapuntua Levinen lana izan zen.<br />

Bestalde, Levinen lanean oinarrituta itzulpengintza automatikoa ere egin<br />

izan da, esate baterako, UNITRAN (Dorr, 1993) 10 . Dorrek Levinen<br />

diatesi-alternantzietatik eta klase semantikoetatik abiatuz, patroi sintaktikoak<br />

sortzen ditu, eta horietako patroi bakoitzari Jackendoffen (1990) ELK<br />

bat egokitzen dio gutxienez.<br />

Hauetaz gain, aditzen sailkapen automatikoa lortzeko ere erabili da Levinen<br />

lana. Saint-Dizierrek (1996), adibidez, Levinen sailkapen semantikoa<br />

frantsesera itzuli eta klase bakoitzerako diatesi-alternantziak definitzen ditu.<br />

IXA taldean ere Levinen lana erabili da euskal aditzen azpikategorizazioa<br />

jorratzeko (Aldezabal, 2004), nahiz eta lan ho<strong>net</strong>an Levinen teoriak<br />

hutsuneak dituela agerian geratu. Gogora dezagun, Levinen teoriak dioela<br />

diatesi-alternantzia berdinak dituzten aditzekin klase semantikoak egin daitezkeela.<br />

Baina Aldezabalek teoria honen aurka doazen adibideak topatu<br />

ditu; hau da, Levinen aditzen klase semantikoak ez dira beti osatzen konpartitzen<br />

dituzten alternantzien arabera. Adibidez, Levinek put verbs eta remove<br />

verbs klase semantikoak bereizten ditu. Beraz, Levinen teoriaren arabera,<br />

klase semantiko bateko eta besteko aditzek diatesi-alternantzia desberdinak<br />

izan behar dituzte. Levinek, aldiz, bi klase semantiko hauek deskribatzen ditu<br />

diatesi-alternantzia berdinekin. Aldezabalek Levinen diatesi-alternantzian<br />

oinarrituriko teoriaren trinkotasunik eza sakonkiago azaltzen du.<br />

Bestalde, Levinen lanari beste ezaugarri batzuk gehitu bazaizkio ere, aditzen<br />

deskribapena soilik egiten duen eredua da, eta, ondorioz, ez du hizkuntza<br />

10 Argibide gehiagorako ikus Pocielloren lana (2004b).


III.2 Azterketarako aukeratutako formalismoak 39<br />

bere osotasunean adierazten. Hala ere, ingeleseko aditzen deskribapen itzela<br />

da.<br />

III.2.1.3 Pustejovsky (1995)<br />

Pustejovskyk (1995) Lexiko Sortzailea (Generative Lexicon) proposatzen du,<br />

eta bere teoria hurrengo hiru hatsarretan oinarrituta dago:<br />

• Egitura sintaktikoa kontuan hartu gabe, ezinezkoa da semantika lexikalean<br />

aurrera egitea. Adiera ezin da bere egituratik banatu.<br />

• Ale lexikalaren adierazpenak rol tematikoen deskribapena baino zerbait<br />

gehiago izan behar du.<br />

• Semantika lexikalak kategoria guztien adierazpen semantikoak landu<br />

behar ditu, eta ez aditzena bakarrik.<br />

Pustejovskyk deskonposaketan oinarritutako teoria darabil, non sarrera<br />

lexikalaren deskonposaketa hiru adierazpen-mailatan islatzen den 11 :<br />

• Qualia-egituran (qualia structure) ale lexikalaren semantika zehazten<br />

da.<br />

• Gertaera-egituran (event structure) ale lexikalaren aspektua zehazten<br />

da.<br />

• Argumentu-egituran (argument structure) ale lexikalaren azpikategorizazioa<br />

zehazten da.<br />

Lehenago adierazi dugun bezala, Pustejovskyrentzat, egitura sintaktikoa<br />

kontuan hartu gabe ezinezkoa da ale lexikalaren adierazpena egitea. Hortaz,<br />

nahiz eta autore honen ustez ale lexikalaren adieraren muina qualia-egituran<br />

egon, beste egituretako informazioak mugatu egiten du.<br />

Sarrera lexikalek III.2 irudiko itxura dute. Bertan, ingeleseko open aditzaren<br />

sarrera lexikala dugu. Ingeleseko aditz honek bi argumentu eskatzen<br />

ditu (1 eta 2 zenbakiekin markatuak), eta hauek zehaztuak datoz egitura<br />

bakoitzean. Qualia-egiturako (QUALIA) AGENTIVE ezaugarriak adierazten<br />

digu lehenengo argumentuak bigarrena irekitzen duela (open act), eta<br />

11 Alderdi hauetako bakoitza ezaugarri gehiagoz osatua dago Pocielloren lanean (2004b).


40 Ezagutza-base lexikalen azterketa kritikoa<br />

⎡<br />

open<br />

⎢<br />

⎡<br />

⎤<br />

⎢<br />

E1 -e1: process<br />

⎢<br />

⎢<br />

⎥<br />

⎢<br />

⎢EVENTSTR<br />

- ⎢<br />

⎣E2<br />

-e2: state ⎥<br />

⎦<br />

⎢<br />

RESTR -


III.2 Azterketarako aukeratutako formalismoak 41<br />

Pustejovskyren teoriaren klase semantikoak bakarrik erabili baitzituen 12 .<br />

Oro har, hizkuntzaralitza teorikoan oinarritutako hiru ikerlan hauek ordura<br />

arte ez zegoen formalismo berri baten adierazle dira. Beraz, ez daude<br />

beste formalismoetatik gertu; bakarrak dira, eta hauen ondorengo lanek, inplementazioari<br />

begira, formalismo hauek beste formalismo ezberdinekin uztartu<br />

dituzte.<br />

III.2.2 Hizkuntzalaritza teoriko eta konputazionalaren erdibidean<br />

dauden lanak<br />

Aplikazio konputazionaletan baliatzeko helburuaz sortu diren formalismoen<br />

artean, garrantzitsuenak eta erabilienak Lexical Functional Grammar (LFG)<br />

(Bresnan eta Kaplan, 1982), Generalized Phrase Structure Grammar (GPSG)<br />

(Gazdar et al., 1985) eta Head-Driven Phrase Structure Grammar (HPSG)<br />

(Pollard eta Sag, 1994) dira. Teoria hauek hizkuntzalaritza teoriko eta konputazionalaren<br />

artean kokatu ditugu, zeren oinarri teorikoak badarabiltzate<br />

ere, erabilpen konputazionala buruan zuten.<br />

EBL eredu hauek interesgarriak iruditu zaizkigu, sarrera lexikalean informazio<br />

sintaktiko-semantiko ugari dakartelako, eta, gainera, ikuspegi konputazionalaren<br />

hastapenak direlako.<br />

Hiru teoria hauek formalismo lexikalak dira eta Gobernu eta Uztardura<br />

Teoriaren atalkako egituran 13 oinarritzen dira. Dena den, teoria hauek<br />

Gobernu eta Uztardura Teoriarekiko diferentzia nabarmen bat dute: ez dute<br />

mugimendu edo transformaziorik; azaleko egitura adierazteko maila bakarra<br />

proposatzen da 14 .<br />

Hala, formalismo hauek asmo eraikitzaileaz eginak dira, eta testuingururik<br />

gabeko gramatiketan oinarritzen dira, egitura sintaktikoak osatzeko<br />

baterakuntza-erregelak erabiltzen dituztelarik. Baterakuntza-erregelak aplikatu<br />

ahal izateko, sarrera lexikalak ezaugarri-egitura modura planteatzen<br />

12 CORELEXi buruz argibide gehiago Pocielloren lanean (2004b).<br />

13 Gobernu eta Uztarduraren Teoria ez da erregela-multzo batez osatutako sistema, baizik<br />

eta hatsarre batzuen arabera parametrizatu daitekeen atalkako egitura; hots, gramatika<br />

atalka antolatua dago eta hauek hatsarre unibertsalez osatuak daude (Demonte, 1995, 10.<br />

or.).<br />

14 Esan behar da, Programa Minimalista (Chomsky, 1992) ere horretara doala. Eredu<br />

berri honek ekonomiaren baldintza hartuko du printzipio nagusitzat; hau da, gramatikako<br />

mekanismoak ahalik eta sinpleen, errazen (minimalisten) egitearena. Honen adierazle<br />

garbia, errepresentazio sintaktikorako maila bakarra eta bi interfaze-maila (Forma Logikoa<br />

eta Forma Fo<strong>net</strong>ikoa) planteatzearena da (Sakoneko eta Azaleko mailak alboratuz).


42 Ezagutza-base lexikalen azterketa kritikoa<br />

dituzte 15 . Eta ikusiko dugunez, teorien arteko desberdintasun nagusia hautatzen<br />

dituzten ezaugarriak antolatzeko moduan datza.<br />

HPSG GPSGren garapena denez, GPSG zaharkitua geratu da. Arrazoi<br />

horregatik, tesi-txostenean ez dugu honen berri emango.<br />

III.2.2.1 Lexical Functional Grammar<br />

Izenak adierazten duen bezala, teoria funtzioetan (subjektu, objektu eta antzekoetan)<br />

oinarritzen da. Lexikalismoan egin ohi den moduan, LFG esaldian<br />

ager daitezkeen egitura sintaktiko guztiak lexikoan zehazten saiatzen da. Ale<br />

lexikalak, besteak beste, ondoko informazioa izango du: funtzio gramatikala,<br />

kategoria sintaktikoak, eduki semantikoa, azpikategorizazioa, rol tematikoak<br />

eta hautapen-murriztapenak.<br />

⎡<br />

⎤<br />

yawned<br />

⎢<br />

⎥<br />

V → ⎢<br />

⎣(↑<br />

PRED) = ‘YAWN’ ⎥<br />

⎦<br />

(↑ TENSE) = PAST<br />

III.3 Irudia: yawned ale lexikalaren adierazpena LFGn.<br />

III.3 irudian, yawned aditzaren egitura funtzionalaren adierazpena dugu<br />

eta ho<strong>net</strong>an bi ezaugarri daude: adierari dagokiona (PRED), eta denborari<br />

dagokiona (TENSE). Hauen ondoan, bakoitzaren balioa dator zehazturik:<br />

‘YAWN’ yawn aditzetik datorrela adierazteko eta aditzaren azpikategorizazioa<br />

zehazteko; eta PAST balioak, yawned iraganean dagoen adizkia<br />

dela adierazteko 16 . Bestalde, ↑ ikurraren bitartez, egitura sintagmatikoari<br />

buruzko informazioa jasotzen da, ↑ ikurrak ale lexikala menderatzen duen<br />

adabegia adierazten baitu. Yawned ale lexikala menderatzen duen lehen adabegiaaditzada(V<br />

).<br />

Orain arte, LFGren alderdi sintaktikoaz mintzatu gara, egitura sintaktikoei<br />

erreparatzen dien alderdiez, alegia. Baina teoria honek argumentu-<br />

15 Testuingururik gabeko gramatikak (Context Free Grammar ) eta baterakuntzaerregelak<br />

erabiltzen dituzten gramatikei buruzko argibide gehiagorako jo bedi Gojenolaren<br />

(2000) lanera.<br />

16 Atal ho<strong>net</strong>ako adierazpenak Dalrymple (2001) la<strong>net</strong>ik hartutakoak dira. Bestalde,<br />

irudietako laburdurak eta terminologia LFG teorian erabiltzen diren bezala mantendu<br />

ditugu.


III.2 Azterketarako aukeratutako formalismoak 43<br />

egituraren informazioa ere lantzen du. Are gehiago, sintaxiarekin duen harremana<br />

zehazten du rol tematikoak funtzio gramatikalekin lotuaz. Bresnanek<br />

eta Kaplanek (1982) sintaxi-semantika elkargunearen aurkezpena ondorengo<br />

irudian dugu ikusgarri:<br />

⎡<br />

SUBJ<br />

⎢<br />

give ⎢<br />

⎣ — ,<br />

OBJ<br />

— ,<br />

⎤<br />

OBLgoal<br />

⎥<br />

— ⎥<br />

⎦<br />

AGENT THEME GOAL<br />

III.4 Irudia: Sintaxi-semantika elkargunea LFGn (Bresnan eta Kaplan, 1982).<br />

III.4. irudian ikus daitekeen bezala, give aditzak hiru argumentu ditu,<br />

eta bakoitzaren rol tematikoak adierazita datoz. Bestalde, rol tematiko hauei<br />

funtzio gramatikalak esleitzen zaizkie: egileari subjektua, gaiari objektua eta<br />

helburuari zehar objektua. Hortaz, Bresnanek eta Kaplanek funtzio gramatikalak<br />

eta rol tematikoen arteko hartu-emana egitura funtzionaleko PRED<br />

ezaugarrian eransten dute. Beraz, hiztegi-sarreren muina PRED ezaugarria<br />

da, bertan definitzen baita sarreraren adiera. Hala ere, eremu hau xehetasun<br />

gehiagorekin dator aditzaren kasuan, eta, bertan dagoen informazio rol<br />

tematikoetara bakarrik mugatzen da semantika.<br />

LFGk inplementazio batzuk izan ditu. Hemen horietako batzuk aipatuko<br />

ditugu. Alde batetik, LFG formalismoko egitura funtzionalak erabilita<br />

corpus etiketatuak daude, esate baterako Cahill et al.-ek (2002) egitura funtzionaleko<br />

informazioarekin ingeleseko 100.000 ale lexikal eta 50.000 esaldiko<br />

corpusa etiketatu dute erdiautomatikoki. King et al.-ek (2003) ere ingeleseko<br />

corpus etiketatu bat egin dute, LFG analizatzaile sintaktiko (LNPn parser<br />

edo gramatika bezala ere ezagutzen direnak) bat erabilita eta ale lexikalen<br />

dependentziak ere islatzen dituena: PARC 700 Dependency Bank (PARC<br />

700 DEPBANK ) 17 .<br />

Horrelako analizatzaile sintaktikoak erabilita itzulpen automatikorako saiakerak<br />

ere egin dira, Way (2003) adibidez.<br />

Hala ere, ezin da esan formalismo honen semantika aberatsa denik, zeren<br />

eta nahiz eta informazio sintaktiko aberatsa izan, semantika rol tematikoetara<br />

mugatzen da.<br />

17 PARC 700 Dependency Bank http://www2.parc.com/istl/groups/nltt/fsbank/<br />

default.html web orrian dago eskuragarri (2007-07-02 atzitua).


44 Ezagutza-base lexikalen azterketa kritikoa<br />

III.2.2.2 Head-Driven Phrase Structure Grammar<br />

Head-Driven Phrase Structure Grammar (HPSG aurrerantzean) formalismoak,<br />

Lexical Functional Grammar (LFG) eta Generalized Phrase Structure<br />

Grammar (GPSG) teorien eragin handia jaso du. Hortaz, hauetatik abiatutako<br />

teoria da. Hala ere, ezin da HPSG aurreko bi formalismoekin parekatu,<br />

hau aurrekoen garapena baita; alde batetik, hiztegi aberatsagoa du, eta bestetik,<br />

aldarrikapen unibertsalagoak lortzen ditu.<br />

HPGSren adierazpenaren muina zeinuan (sign) datza. Zeinua informazio<br />

fonologikoa, sintaktikoa eta semantikoa jasotzen duen unitatea da. Zeinu<br />

hauek matematikako antzeko matrizeekin adierazten dira (attribute-value<br />

matrix deiturikoekin) non ezaugarri bakoitzak bere balioa duen. Bestalde,<br />

zeinuak ale lexikalak edo sintagmak izan daitezke.<br />

⎡<br />

⎥<br />

SUBCAT ⎥<br />

⎦<br />

⎢ <br />

⎢ HEAD verb[fin]<br />

⎢<br />

⎢CAT<br />

⎢<br />

gives ⎢<br />

⎡<br />

⎤<br />

⎢<br />

RELN give<br />

⎢<br />

⎢<br />

⎥<br />

⎢<br />

⎢GIVER<br />

(1) ⎥<br />

⎢CONTENT<br />

⎢<br />

⎥<br />

⎢<br />

⎢<br />

⎣<br />

⎣GIVEN<br />

(2)<br />

⎥<br />

⎦<br />

GIFT (3)<br />

III.5 Irudia: gives aditzaren adierazpena HPSGn.<br />

Adibide gisa, irudian 18 gives aditzaren sarrera lexikala dakargu III.5. CA-<br />

TEGORY ezaugarriak, hitzaren kategoria adierazteaz gain, honek eskatzen<br />

dituen argumentuak ere zehazten ditu. Gives aditz burutua da (verb[fin]<br />

(finite) balioekin adierazita) eta hiru argumentu hartzen ditu: 3. pertsonan<br />

dagoen izen-sintagma nominatibo bat (irudian NP[nom1[3rd,sing]]) etabi<br />

izen-sintagma akusatibo (irudian NP[acc]2 eta NP[acc]3 ).<br />

CONTENT ezaugarrian ale lexikalaren irakurketa semantikoa zehazten<br />

da. Hemen jasoko da ale lexikalak adierazten duen egoera esaldi osoaren<br />

18 Adierazpen guztiak Pollard eta Sag (1994) la<strong>net</strong>ik hartuak daude. Bestalde, sarrera<br />

lexikal hauek matrize osoen laburpen bat dira. Matrize osoen azalpena ikusteko jo bedi<br />

Pollard eta Sagautoreen (1994) eta Pocielloren lanera (2004b).<br />


III.2 Azterketarako aukeratutako formalismoak 45<br />

osotasu<strong>net</strong>ik ikusita 19 . III.5 irudian CONTENT ezaugarriaren bitartez adierazten<br />

zaigu, batetik, ingeleseko gives aditza give erlazioarekin harrema<strong>net</strong>an<br />

dagoela, honen rolak GIVER, GIVEN eta GIFT direlarik. Eta bestetik, GI-<br />

VER, GIVEN eta GIFT rolak 3. pertsonan dagoen izen-sintagma nominatiboari<br />

(NP[nom1[3rd,sing]]) eta bi izen-sintagma akusatiboei (NP[acc]2 eta<br />

NP[acc]3 ) dagozkiela, hurrenez hurren. Hortaz, azpikategorizazioan dagoen<br />

osagarri bakoitza rol batekin lotuta dago, eta lotura hau azpindize berdinekin<br />

dator adierazita 20 .<br />

HPSG inplementazio handia duen formalismoa da, eta hurrengoak dira<br />

erabilera ezagunenak 21 .<br />

Bestetik, HPSG formalismoak corpus etiketatuak ditu, ingeleserako (Oepen<br />

et al., 2002, edo LinGO Redwoods deiturikoa) eta baita beste hizkuntza<br />

batzuetarako ere, hala nola, bulgarierarako (Osenova eta Simov, 2003).<br />

Eta bestetik, HPSGk analisi sintaktikoak automatikoki egiten dituen analizatzaile<br />

sintaktikoak ere baditu (Minnen, 1999; Nishida et al., 1999; Popowich<br />

eta Vogel, 1990; Copestake eta Flickinger, 2000). Esate baterako,<br />

Copestakek eta Flickingerrek (2000) ingeleserako analizatzaile sintaktiko bat<br />

egin dute, eta honen aplikazioetako bat itzulpen automatikoa izan da. Proiektu<br />

horretan bileren egitaraua eta bidaia-erreserbak ziren itzuli beharreko<br />

gaiak edo domeinuak.<br />

Hala ere, eta LFGri buruz esan dugun bezala, HPSGn, nahiz eta adierazpen<br />

semantikoa eraiki, ale lexikalaren tasun semantikoak rol tematikoetara<br />

bakarrik mugatzen dira.<br />

Honezaz gain, hizkuntzalaritza teorikoaren eta konputazionalaren erdibidean<br />

dauden lan hauen inguruan, hizkuntzalaritza teorikoko lanei buruz<br />

esandako gauza bera errepikatuko dugu: lan hauek ordura arte ez zegoen<br />

formalismo berri baten adierazle dira. Beraz, ez daude gainontzeko formalismoetatik<br />

gertu, eta bertan egindako deskribapen linguistikoak etorkizuneko<br />

aplikazioak baldintzatzen ditu.<br />

19 HPSGko semantika Situation Semantics teorian oinarritua dago (Barwise eta Perry,<br />

1983), eta HPSGko CONTENT ezaugarria Situation Semantics teoriaren ikuspuntuaren<br />

ildotik sortutako ezaugarria da. Teoria honen ideia nagusiena Pocielloren lanean (2004b)<br />

dator azalduta.<br />

20 Rol tematikoak Situation Sematics teoriako egoera horren ikuspegi desberdinak lira-<br />

teke.<br />

21 HPSGren erabileraren berri http://hpsg.stanford.edu web orrian ematen da (2007-<br />

07-02an atzitua).


46 Ezagutza-base lexikalen azterketa kritikoa<br />

III.2.3 Hizkuntzalaritza konputazionalean oinarritutako lanak<br />

FrameNet (Fillmore eta Baker, 2001), <strong>WordNet</strong> (Miller, 1985; Fellbaum,<br />

1998a), Euro<strong>WordNet</strong> (Vossen, 1998), The Multilingual Central Repository<br />

(MCR) (Rigau et al., 2003), Volem (Fernández et al., 2002) eta PropBank<br />

(Palmer eta Kingsbury, 2003), iturri desberdi<strong>net</strong>an oinarrituta sortutako<br />

EBLak dira. Hau da, EBL baterako hiztegi-eredu bat landu beharrean, besteen<br />

ereduetatik abiatuta beraiena sortu dute. Gaur egun, LNPn ikertalde<br />

gehienek (nahiz eta beraien ikuspegi teorikoa askotan guztiz bat ez etorri)<br />

EBL hauek ezagutu eta erabiltzen dituzte.<br />

Hizkuntzalaritza konputazionalean oinarritutako ikerlan gehiago badaude<br />

(Gómez, 1998; Vázquez et al., 2000, eta abar), baina hautatu ditugun<br />

ereduetatik nahiko gertu daudenez, ez ditugu azalduko.<br />

III.2.3.1 FrameNet<br />

FrameNet proiektuan (Fillmore eta Baker, 2001) ingeleserako baliabide lexikografikoa<br />

eraikitzen ari dira, Frame Semantics (Fillmore, 1985) teorian<br />

oinarritua eta corpus errealeko datuekin lagunduta. Frame Semanticsak aldarrikatzen<br />

dituen printzipio nagusienak hauek dira:<br />

• Ale lexikalen semantika eta funtzio gramatikala frameetatik (egitura<br />

kontzeptual aberatsetatik) dator.<br />

• Kontzeptualki erlazionatuak dauden ale lexikalek, frame bereko alderdi<br />

desberdinak erakus ditzakete.<br />

Bi printzipio hauetan oinarrituaz, FrameNeten ale lexikal bakoitza beraiek<br />

sortutako frameetan sailkatzen dute, batetik, ale honen semantika eta<br />

sintaxia definitzeko, eta bestetik, frameko beste osagaiekin duen harremana<br />

zehazteko. Teoria ho<strong>net</strong>an sakontzearren har dezagun (3) adibidea oinarri<br />

gisa:<br />

(3) Hook tries to avenge himself on Peter Pan by becoming a better father.<br />

Esaldi hau, avenge aditzaren eraginez, Mendekuaren esparruari dagokiola<br />

esango genuke; hots, Revenge frameari (ikus III.6 irudia).<br />

Avenger, Injured party, Punishment, Injury...Revenge framearen alderdiak<br />

edo partehartzaileak dira —frame elements (FE hemendik aurrera)


III.2 Azterketarako aukeratutako formalismoak 47<br />

III.6 Irudia: Revenge framea.<br />

deiturikoak—, eta hauek ale lexikal desberdinez egongo dira adierazita. 4.<br />

adibidean ikus daitekeen bezala, Avenger FEa Hook ale lexikalak adierazten


48 Ezagutza-base lexikalen azterketa kritikoa<br />

du, Offender FEa Peter Pan ale lexikalak, eta abar.<br />

(4) [Hook Avenger] tries to avenge [himself Injured party] [on Peter<br />

Pan Offender] [by becoming a better father Punishment].<br />

Bestalde, frame bakoitzak bere FEak zehaztuta izango ditu. III.6 irudian<br />

Revenge framearen alderdi bakoitza definituta dator. Esate baterako, Avenger<br />

FEaren definizioa hurrengoa da: The Avenger exacts revenge from the<br />

Offender for the Injury. Honebestez, frameak dira:<br />

“[. . . ] schematic representations of situations involving various participants,<br />

props, and other conceptual roles, each of which is a frame element<br />

(FE).” (Johnson eta Fillmore, 2000, 56. or.)<br />

Frame bakoitzarekin batera, frame hori onartzen duten ale lexikalen zerrenda<br />

ematen da. Revenge framearen kasuan, hauexek: avenge, avenger,<br />

get back, get even, retaliate, retaliation, retribution, retributive, retributory, revenge,<br />

revenger, sanction, vengeance, revengeful, vengeful eta vindictive. Hala,<br />

frameetan oinarritzeak orokortzeko aukera ematen du, hau da, frame<br />

bera osatzen duten ale lexikalek klase semantiko bat osatzen dute, eta hori<br />

dela eta, framea definitzen duten ezaugarri kontzeptualak klase semantiko<br />

osoari egokitzen zaizkio, baita ezaugarri sintaktiko-semantikoak ere. Klase<br />

semantikoa, beraz, beti dator zehaztua berau onartzen duten ale lexikalen<br />

zerrendarekin.<br />

Hau esanda, FrameNet proiektuan egiten dutena hurrengoa da: ale lexikal<br />

bakoitza bere adieraren arabera sailkatu honi dagokion framean. Hala,<br />

frameen funtsa adieran dago: ale lexikal beraren adieretako bakoitza frame<br />

ezberdin batean egongo da.<br />

“It is not that every word has its own frame, but every sense of every word<br />

has its own frame.” (http://www.icsi.berkeley.edu/frame<strong>net</strong>/book.html)<br />

Frame bakoitzari dagokion informazio guztia zehazteko (framearen alderdiak,<br />

frameko ale lexikalen zerrenda, framearen informazio sintaktikosemantikoa...),<br />

etiketatze semantikoa baliatzen dute. Esaldi bakoitzaren etiketatzea<br />

targeten (esaldiko ale lexikal baten) ikuspuntutik eginda dago. Hau<br />

da, esaldiko ale lexikal baten framea oinarri hartuta 22 , esaldiko beste elementuak<br />

frame horren alderdiei lotuko zatzaizkie. Esaterako, (4) esaldiaren<br />

22Ale lexikal hauek aditzak, objektuak edo adjektiboak izango dira, hots, gobernatzaileak<br />

izan daitezkeen ale lexikalak.


III.2 Azterketarako aukeratutako formalismoak 49<br />

etiketatzean, avenge aditza izan da etiketatzeko abiapuntua (targeta). Beraz,<br />

esaldiko beste ale lexikalak avengeri dagokion framearen alderdiekin etiketatu<br />

dira.<br />

Alderdi semantikoarekin batera, osagaien funtzio eta kategoria sintagmatikoak<br />

ere etiketatzen dira, eta targetaren ikuspuntutik egingo denez,<br />

esaldiko ale guztiek berarekin duten lotura sintaktikoa adieraziko dute.<br />

Ondorioz, esaldien etiketatze semantikoaren emaitza izango da esaldiko<br />

ale lexikal bakoitza etiketatua egotea FE batekin, funtzio sintaktiko batekin<br />

eta kategoria sintaktiko batekin. Hala, bada, esaldiko ale guztiek targetarekiko<br />

duten lotura sintaktiko-semantikoa adieraziko dute.<br />

Honezaz gain, corpus erreal bat etiketatzetik lortzen dituzten datuak erabiltzen<br />

dituzte, frame bakoitzaren egitura sintaktikoak proposatzeko. Esaterako,<br />

corpuseko agerpe<strong>net</strong>an oinarrituaz Revenge framean dagoen avenge<br />

aditzaren azpikategorizazioa III.1 irudikoa litzateke. Hau da, avenge aditzarekin<br />

batera, corpusean agertu diren osagaien zerrenda dugu, hauen FEa,<br />

kategoria eta funtzioa, maiztasunarekin batera, zehazten direlarik.<br />

Informazio sintaktiko-semantikoaren adierazpenaz gain, FrameNeten frameen<br />

arteko harreman semantikoak ere adierazten dira, hau da, frame guztiekin<br />

hierarkia bat osatzen dute, eta hierarkia horretan frame konplexuagoek<br />

zehatzagoak direnak barnean hartzen dituzte. Esate baterako, avenge<br />

aditza Revenge frameari dagokio, eta frame hau Reward and Punishments<br />

framearen subframe bat da. Eta azken hau, aldi berean, Intentionally affect<br />

framearen azpian kokatzen da hierarkian.<br />

Hortaz, formalismo hau, nahiz eta teoria bati lotua egon, corpus errealeko<br />

datuetan oinarritzen da; beraz, inplementa daitekeen EBLa da. EBLa<br />

sortu eta lantzearekin batera, corpus etiketatu bat eratzen ari dira eta horrek<br />

hainbat erabilerari bidea zabaltzen die (baita konputazionalei ere). Horren<br />

adierazgarri da, FrameNet batzuk ari direla garatzen hainbat hizkuntzatan:<br />

alemana (Boas, 2002), gaztelaniakoa (Subirats-Rüggeberg eta Petruck, 2003)<br />

eta japoniarra (Ohara et al., 2003), hain zuzen ere.<br />

Hala ere, esan beharra dago, FrameNeten corpusaren erabilera mugatua<br />

egiten dutela: aldez aurretik aukeratutako corpusaren lagin bat erabiltzen<br />

dute, sortutako frameak zuzenak diren ala ez egiaztatzeko, eta hauei adibideak<br />

lotzeko:


50 Ezagutza-base lexikalen azterketa kritikoa<br />

Number<br />

Annotated<br />

Patterns<br />

2total Avenger<br />

Injured<br />

Party<br />

Injury Offender Punishment<br />

1<br />

NP<br />

Ext<br />

NP<br />

Obj<br />

PP[for]<br />

Comp<br />

–<br />

–<br />

PPing [by]<br />

Comp<br />

1<br />

NP<br />

Ext<br />

NP<br />

Obj<br />

PP[of]<br />

Comp<br />

–<br />

–<br />

PPing [by]<br />

Comp<br />

11 total Avenger<br />

Injured<br />

Party<br />

Injury Offender Punishment<br />

2<br />

–<br />

–<br />

NP<br />

Ext<br />

–<br />

–<br />

–<br />

–<br />

1<br />

–<br />

–<br />

NP<br />

Ext<br />

PP[on]<br />

Comp<br />

–<br />

–<br />

6<br />

NP<br />

Ext<br />

NP<br />

Obj<br />

–<br />

–<br />

–<br />

–<br />

1<br />

NP<br />

Ext<br />

NP<br />

Obj<br />

–<br />

–<br />

PPing[by]<br />

Comp<br />

1<br />

NP<br />

Ext<br />

NP<br />

Obj<br />

PP[on]<br />

Comp<br />

PPing [by]<br />

Comp<br />

19 total Avenger Injured Offender Punishment<br />

3<br />

–<br />

–<br />

NP<br />

Ext<br />

–<br />

–<br />

–<br />

–<br />

1<br />

–<br />

–<br />

NP<br />

Ext<br />

–<br />

–<br />

PP[by]<br />

Comp<br />

10<br />

NP<br />

Ext<br />

NP<br />

Obj<br />

–<br />

–<br />

–<br />

–<br />

2<br />

NP<br />

Ext<br />

NP<br />

Obj<br />

–<br />

–<br />

PP[with]<br />

Comp<br />

2<br />

NP<br />

Ext<br />

NP<br />

Obj<br />

–<br />

–<br />

PPing[by]<br />

Comp<br />

1<br />

Poss<br />

Ext<br />

–<br />

–<br />

PP[against]<br />

Comp<br />

–<br />

–<br />

III.1 Taula: avenge aditzaren egitura sintaktikoak corpuseko agerpe<strong>net</strong>an<br />

oinarrituta.


III.2 Azterketarako aukeratutako formalismoak 51<br />

“Because FrameNet is primarily lexicographic, we are not attempting to<br />

annotate whole texts or even a random sample of sentences which include<br />

each lemma. Rather, we want to annotate a set of sentences which exemplify<br />

the range of combinatorial possibilities of a lexical unit, including all the<br />

types of syntactic constituents which can embody the frame elements.”<br />

(Ruppenhofer et al., 2002, 371. or.)<br />

Beraz, beraien helburua ez da corpus oso bat frameekin etiketatzea.<br />

Aldiz, LNPren ikuspegitik interesgarriagoa litzateke corpusa bere osotasunean<br />

erabiliko balute, honek aplikazio berrietarako aukera handigoak emango<br />

lituzkeelako.<br />

Aztertzen ari garen EBL hau oso interesgarria da batez ere ikuspegi konputazionaletik,<br />

LNPren arlo ezberdinen azterketarako oso baliagarria delako<br />

23 . Baina epe luzerako EBLa da; hau da, eremu batzuetara (komunikazioa,<br />

legedia, hezkuntza...) mugatutako lexikoa da, denborarekin hizkuntza bere<br />

osotasunean adierazteko helburua duena. Gure euskararako EBLa, ordea,<br />

ezin da eremu zehatz horietara mugatu. Aitzitik, hizkuntza bere osotasunean<br />

adierazteko gai izan behar du.<br />

Kopuruez mintzatuz gero, FrameNetek gutxi gorabehera, 450 frame, 6.000<br />

ale lexikal eta 130.000 esaldi etiketatu ditu eta handitzen jarraitzen du.<br />

FrameNet EBL publikoa da 24 .<br />

III.2.3.2 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak<br />

<strong>WordNet</strong> (Miller, 1985; Fellbaum, 1998a) teoria psikolinguistikoetan oinarritua<br />

dagoen ingeleseko ezagutza-base lexikala da.<br />

<strong>WordNet</strong>ek ingeleseko izen, aditz, adjektibo eta adberbioei buruzko informazioa<br />

dauka, eta informazio hau sinonimo-multzo (synonym set edo<br />

synset deiturikoa) ideiaren arabera antolatuta dago. Synset bakoitza kontzeptu<br />

lexikal bati dagokio, eta hau osatuko duten hitz-multzoek kategoria<br />

berdinekoak eta testuinguru bereetan truka daitezkeenak dira.<br />

Esaterako, {car, auto, automobile} hitz-multzoak 25 synset bat osatzen dute,<br />

kontzeptu bera adierazten dutelako. Synsetaren adiera, normalean, glosa<br />

baten bidez adierazten da: a motor vehicle with four wheels.<br />

23FrameNeten erabilera konputazionalari buruzko argibide gehiagorako, jo bedi Pocielloren<br />

lanera (2004b).<br />

24http://www.icsi.berkeley.edu/frame<strong>net</strong> (2007-07-02an atzitua).<br />

25Adierazpen guztiak <strong>WordNet</strong> 3.0 bertsiotik hartu ditugu —<br />

http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua)—, eta gehie<strong>net</strong>an, leku<br />

arazoak direla-eta, adibidearen informazioa laburtu egin dugu.


52 Ezagutza-base lexikalen azterketa kritikoa<br />

(5) {car, auto, automobile} (a motor vehicle with four wheels)<br />

Ildo ho<strong>net</strong>atik, <strong>WordNet</strong>eko erlazio semantiko garrantzitsu bat sinonimia<br />

da; ezagutza-basearen oinarria ale lexikalaren adieran baitago, eta adiera<br />

hori ale lexikal batek baino gehiago duenean, ale lexikalak multzokatu<br />

egiten dituztelako. Honezaz gain, sinonimia ez den beste erlazio semantikoei<br />

esker, synseten arteko harremanak daude. Erlazio semantiko garrantzitsuena<br />

hiperonimia-hiponimia erlazioa da.<br />

Hiperonimia-hiponimia erlazioak synset orokorrenak synset zehatzagoekin<br />

lotzen ditu 26 . (6) eta (7) adibideetan (5)en hiperonimoak eta hiponimoak<br />

ikus ditzakegu, hurrenez hurren:<br />

(6) {car, automobile} (a motor vehicle with four wheels)<br />

=> {self-propelled vehicle} (a wheeled vehicle that carries...)<br />

=> {wheeled vehicle} (a vehicle that moves on wheels. . . )<br />

=> {vehicle} (a conveyance that transports people or. . . )<br />

=> {conveyance, transport} (something that serves...)<br />

=> {instrumentation} (an artifact that is. . . )<br />

=> {artifact} (a man-made object taken as a. . . )<br />

=> {...}<br />

(7) {car, automobile} (a motor vehicle with four wheels)<br />

=> {ambulance} (a vehicle that takes people to and from hospitals)<br />

=> {cab, taxi, hack, taxicab} (a car driven by a person whose. . . )<br />

=> {limousine, limo} (large luxurious car)<br />

=> {jeep, landrover} (a car suitable for traveling over rough. . . )<br />

=> {sedan} (a closed car that has front and rear seats. . . )<br />

=> {...}<br />

(6) adibidean car izenaren hiperonimoak ditugu. Synset hau self-propelled<br />

vehicle bezala definitzen da; self-propelled vehicle, wheeled vehicle mota bat<br />

bezala; wheeled vehicle, aldi berean, vehicle mota bat bezala, eta abar.<br />

Hiponimoak hiperonimoen zehaztapenak dira. Hortaz, (7) adibidean,<br />

car izenaren zehaztapen gisa auto motak agertzen dira (ambulance, taxi. . . ).<br />

Horrela bada, <strong>WordNet</strong> ontologia edo hierarkia bat da, eta hiperonimiahiponimia<br />

harreman semantikoarekin hierarkian gora eta behera egiteko aukera<br />

dugu.<br />

Ontologia hau kategoriaka banatua dago, eta kategoria bakoitzak bere<br />

hierarkia du; hau da, kategoria bakoitzaren hierarkia erlazio semantiko nagusi<br />

baten arabera antolatzen da. Izen eta aditzen kasuan erlazio semantiko<br />

26 Ingelesez IS-A relation bezala ere ezagutzen da, hots, xisakindofy.


III.2 Azterketarako aukeratutako formalismoak 53<br />

nagusia hiperonimia-hiponimia da 27 . Adjektibo eta adberbioek, berriz, sinonimia-antonimia<br />

dute ardatz beraien antolakuntzan.<br />

<strong>WordNet</strong>eko sailkapena, beraz, synsetetan eta beraien erlazio semantikoetan<br />

datza. Erlazio semantiko hauen bidez, synsetak hierarkikoki multzokatzen<br />

dira, edo, beste era batera esanda, klase semantikoak osatzen dira.<br />

Autoen klase semantikoa, adibidez, {car, auto, automobile} synsetaren azpian<br />

egongo da jasota.<br />

<strong>WordNet</strong>en ildotik jarraituta, beste EBL batzuk garatu dira:<br />

Euro<strong>WordNet</strong> (Vossen, 1998) eta The Multilingual Central Repository (MCR)<br />

(Rigau et al., 2003). Oinarri bera erabili arren, bakoitzak aurreko EBLa aberastu<br />

du.<br />

Euro<strong>WordNet</strong><br />

Euro<strong>WordNet</strong> (Vossen, 1998) ezagutza-base eleanitza da, Europako zortzi<br />

hizkuntzatara zabaltzen dena (ingelesa, nederlandera, italiera, gaztelania,<br />

alemana, frantsesa, txekiera eta estoniera), eta <strong>WordNet</strong>en eredua jarraitzen<br />

duena.<br />

Proiektu ho<strong>net</strong>an parte hartu duen hizkuntza bakoitzak word<strong>net</strong><br />

independente bat du, eta Euro<strong>WordNet</strong>en helburua word<strong>net</strong> desberdin hauek<br />

guztiak ezagutza-base eleanitz bakarrean elkartzea da. Beste hitz batzuetan<br />

esanda, synset bera ingelesez, nederlanderaz, italieraz, gaztelaniaz, alemanez,<br />

frantsesez, txekieraz eta estonieraz ikusteko aukera ematen du.<br />

The Multilingual Central Repository<br />

The Multilingual Central Repository (MCR) interfaze eleanitza da, non Europa<br />

Batzordeko MEANING: Developing Multilingual Web-Scale Language<br />

Technologies (IST-2001-34460) proiektuan euskararako, katalanerako, ingeleserako,<br />

italierarako eta gaztelaniarako (Rigau et al., 2003) aztertu den informazio<br />

guztia integratzen den. Ezagutza-base honek Euro<strong>WordNet</strong>en eredua<br />

jarraitzen du. Horregatik, ho<strong>net</strong>an ere, hizkuntza bateko synset batekin beste<br />

hizkuntzetakoa ere ikusgarri dago.<br />

MCR Euro<strong>WordNet</strong>en bertsio aurreratuagoa da, hau da, MCR eta Euro<strong>WordNet</strong><br />

oinarrian gauza bera dira, baina MCR Euro<strong>WordNet</strong> aberatsago<br />

bat da. Honenbestez, MCR <strong>WordNet</strong> eta Euro<strong>WordNet</strong>en informazioaz<br />

27Aditzen kasuan, eta gero IV.1.2 atalean ikusiko dugun bezala, hiperonimia-troponimia<br />

erlazioaz hitz egiten da.


54 Ezagutza-base lexikalen azterketa kritikoa<br />

baliatzen da, eta ho<strong>net</strong>az gain, informazio berria dakar: hautapen-murriztapenak,<br />

The Suggested Upper Merged Ontology (SUMO) delakotik hainbat<br />

informazio, eta abar.<br />

Hurrengo kapituluan, <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCRren azalpen sakonagoa<br />

emango dugu.<br />

Oro har, hiru EBL hauek hizkuntza bere osotasunean adierazi nahi duten<br />

EBL publikoak dira 28 . Esate baterako, <strong>WordNet</strong>ek 117.617 synset ditu<br />

(81.426 izen, 13.650 aditz, 18.877 adjektibo eta 3.664 adberbio). Eta baldintza<br />

honi esker, eta Euro<strong>WordNet</strong> eta MCRk eskaintzen duten eleaniztasuna<br />

kontuan hartuta, hiru EBL hauek oso erabiliak izan dira LNPren arlo oso<br />

ezberdi<strong>net</strong>an: galdera-erantzun sistemetan, informazio-erauzketan, itzulpen<br />

automatikoan, eta abar (argibide gehiago IV. kapituluan).<br />

Dena den, <strong>WordNet</strong>i egin zaion gaitzespen garrantzitsue<strong>net</strong>ako bat informazio<br />

sintaktiko-semantiko urria duela izan da.<br />

“Many users of <strong>WordNet</strong> have lamented the lack of syntactic information<br />

that would match the detail of the semantic treatment in <strong>WordNet</strong>. Indeed,<br />

<strong>WordNet</strong> contains very little syntax, because it was conceived as a semantic<br />

database only.[...] Applications in knowledge engineering and inferencing<br />

especially would benefit from information linking verbs and nouns.”<br />

(Fellbaum, 1998a, 11. or.)<br />

Behar hau ikusita <strong>WordNet</strong>en informazio sintaktiko-semantikoarekin aberasteko<br />

saiakerak egon dira, adibidez, aditzen alternantziak gehitu dira (Kohl<br />

et al., 1998). MCRko interfazeak berak (hurrengo kapituluan ikusiko dugun<br />

bezala), informazio sintaktiko-semantikoaren beharraz jabetuta, informazio<br />

hau txertatzeko baliabideak eskaintzen ditu.<br />

28<br />

<strong>WordNet</strong>: http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).<br />

Euro<strong>WordNet</strong>: http://ixa2.si.ehu.es/mcr/wei.html (2007-07-02an atzitua).<br />

MCR: http://adimen.si.ehu.es/cgi-bin/wei5/public/wei.consult.perl<br />

(2007-07-02an atzitua).


III.2 Azterketarako aukeratutako formalismoak 55<br />

III.2.3.3 Volem<br />

Volem proiektuaren (Fernández et al., 2002) helburua zera da: Pirinio inguruko<br />

hizkuntza batzuetako (gaztelania, katalana eta frantsesa) aditz eta<br />

preposizioen ezaugarriekin EBL bat eraikitzea hurrengo informazioarekin:<br />

• Gaztelania, katalana eta frantseseko aditz eta preposizio bakoitzaren<br />

izaera sintaktikoaren deskribapena: azpikategorizazioa, hautapenmurriztapenak<br />

eta aditzen alternantziak.<br />

• Gaztelania, katalana eta frantseseko aditz eta preposizio bakoitzaren<br />

informazio semantikoa: Egitura Lexikal-Kontzeptuala (ELKa), rol tematikoak<br />

eta aditzen kasuan, <strong>WordNet</strong>eko klase semantiko nagusiena.<br />

Fernández et al.-en la<strong>net</strong>ik (2002) hartutako adibidean ikus daitekeen<br />

bezala 29 , informazio hau guztia adierazteko eta antolatzeko Jackendoffen<br />

(1990) ELKak erabiltzen dituzte.<br />

(8) Common part to the three languages:<br />

thematic grid: [inic(ag, tc), th]<br />

(e.g. agent or causal iniciator, theme)<br />

LCS: Literally: I (subject) caused an object J to undergo a change of state in its<br />

ontological universe, BECOMING (achievement) STATE.<br />

[event CAUSE([thing I ],<br />

[event BECOME+ char,+ident([thing J ],<br />

[state STATE ])]<br />

Spanish lexical database:<br />

Spanish verb: cerrar (to close)<br />

Sense number: 75<br />

Alternations + examples:<br />

caus-2np:<br />

El viento cerró las ventanas de golpe<br />

(the wind closed the windows)<br />

...<br />

29 (8) adibideak ez du sarrera lexikal guztia jasotzen. Sarrera lexikal<br />

osoa, Pocielloren lanean (2004b) edota hurrengo webgunean dago:<br />

http://www.irit.fr/recherches/ILPL/Site-Equipe/demonstrations.html (2007-07-<br />

02an atzitua).


56 Ezagutza-base lexikalen azterketa kritikoa<br />

Catalan lexical database: Catalan verb: tancar (to close)<br />

Sense number: 75<br />

Alternations + examples:<br />

caus-2np:<br />

El vent va tancar les finestres de cop<br />

(the wind closed the windows)<br />

...<br />

French lexical database:<br />

French verb: fermer (to close)<br />

Sense number: 75<br />

Alternations + examples:<br />

caus-2np:<br />

Le vent ferme les feneêtres d’un coup<br />

(the wind closed the windows)<br />

...<br />

Lehenik, adiera bereko ale lexikoek (kasu ho<strong>net</strong>an, cerrar, tancar eta fermer)<br />

hizkuntza guztietan duten antzekotasun semantikoa (Common part to<br />

the three languages) rol tematiko eta ELK baten bidez definitzen dute, eta,<br />

gero, hizkuntza bakoitzean sarrera lexikal horrek (zehaztutako adiera horrekin)<br />

izan ditzakeen alternantziak zerrendatzen dituzte. Ezagutza-base eleanitza<br />

denez, azalpenak eta argibideak ingelesez ematen dituzte.<br />

Hala, Volem proiektuan Levinen (1993) hipotesia jarraitzen dute: adiera<br />

bakoitzeko ezaugarri sintaktikoak aldatzen dira. Aditzen adierak Word-<br />

Neteko klase semantiko nagusienen arabera antolatzen dituzte (verbs of<br />

possession, verbs of movement, verbs of consumtion. . . ). Oso klase orokorrak<br />

direnez, eta hori denez adierari buruz zehazten den informazio semantiko bakarra,<br />

aditzen semantika ez da beti argi ikusten. Volemen, beraz, Jackendoff<br />

(1990), Levin (1993) eta <strong>WordNet</strong>eko informazioa txertatzen da. Hala ere,<br />

aditz eta preposizioetara mugatzen da, eta, hori dela eta, ez du hizkuntza<br />

bere osotasunean adierazten.<br />

Gerora, proiektu honen bigarren zatiari ekin zaio (Volem2 ), zei<strong>net</strong>an Volemeko<br />

aditz eta preposizioei euskara eta okzitanieraren informazioa gehitzen<br />

zaion.<br />

Ezagutza-base hau LNPrako interesgarria izan daitekeen arren, egun oraindik<br />

eraikitze bidean dagoenez, honekin ez dira aplikazio ugari ezagutzen.<br />

Dena den, hasiberria den proiektu bat aipatu dezakegu: SenSem (Sentence<br />

Semantics) (Alonsoet al., 2005) proiektua MCyT (BFF2003-06456). Proiektu<br />

ho<strong>net</strong>an corpus etiketatu bat eraikitzen ari dira erdiautomatikoki eta bere


III.2 Azterketarako aukeratutako formalismoak 57<br />

helburu nagusiena, Volemeko informazioa orraztu eta aberastea da. Horretarako,<br />

corpusean predikatuekin agertzen diren alternantziak Volemen zerrendatuak<br />

dituzten predikatuekin erkatzen dituzte, ezagutza-basean dituztenak<br />

zuzenak diren ala ez egiaztatzeko eta ez dituztenak gehitzeko.<br />

III.2.4 PropBank<br />

PropBank proiektuan (Palmer eta Kingsbury, 2003) Penn Wall Street Journal<br />

Treebank II corpusa —300.000 tokeneko corpusa— etiketatu dituzte<br />

predikatu-argumentu erlazioekin. Horrelako, aditzen adierak eta adiera horien<br />

dependentziak (argumentuak) markatzen dituzte.<br />

PropBank ereduan bi maila bereizten dituzte: batetik, argumentu eta<br />

adjuntuen maila, eta bestetik, rol semantikoen maila. Argumentu gisa etiketatzen<br />

diren ale lexikalak Arg0 tik Arg5 era zenbakitzen dira. Etiketa hauek<br />

ez daude funtzio gramatikal bati lotuak. Aditz desberdin edota aditz beraren<br />

adiera desberdin bakoitzean etiketa hauek informazio desberdina adieraz<br />

dezakete. Adibidez, Johnek leihoa hautsi zuen eta Leihoa hautsi zen esaldietan,<br />

leihoa hitzak argumentu-etiketa bera izango du, bi esaldiak aditz-adiera<br />

beraren alternantziak direlako.<br />

Dena den, oro har, zenbaki baxuenak dituzten argumentuen artean erregulartasun<br />

bat ageri da. Esaterako, aditz iragankorren subjektuek Arg0 marka<br />

izaten dute eta objektu zuzenek Arg1.<br />

Rol semantikoen mailan, PropBankek bi rol mota erabiltzen ditu: aditz<br />

bakoitzari dagozkion rol zehatzak —ingeleseko buy aditzaren rolak buyer eta<br />

thing bought bezalakoak izango dira—, eta rol orokorrak —agent eta theme<br />

bezalakoak. Azken hauek VerbNet (Kipper et al., 2000) lexikoiari lotuta<br />

daude. III.2 taulan PropBankeko argumentu markekin agertzen diren rol eta<br />

funtzio sintaktikoak ikus daitezke.<br />

VerbNet aditzen lexikoi zabala da, non aditzak Levinen (1993) sailkapenaren<br />

arabera antolatuta dauden. Aditzak hierarkikoki antolatzen dira eta<br />

aditz bakoitzean informazio sintaktikoa eta semantikoa egoteaz gain, aditz<br />

horrek <strong>WordNet</strong>en duen adiera ere adierazten da. Hortaz, esan daiteke, Verb-<br />

Net eta <strong>WordNet</strong> osagarriak direla.<br />

Corpus horrekin batera, lexikoia garatzen ari dira, non etiketatutako aditz<br />

bakoitzaren adiera eta argumentuak zerrendatzen diren. Sarrera bakoitza<br />

aditz-adiera bat da, roleset deritzaiona, eta bertan aditzaren alternantziak,<br />

—frame deiturikoak— honek hartzen dituen argumentuekin zehazten dira.<br />

III.7 taulan tell.01 roleseta dugu; aditz-adiera honek lau alternantzia ditu


58 Ezagutza-base lexikalen azterketa kritikoa<br />

Arguments VerbNet roles Syntactic function<br />

Arg0 agent, experiencer subject<br />

Arg1<br />

patient, theme,<br />

attribute, extension<br />

direct object, attribute,<br />

predicative, passive subject<br />

attribute, benficiary, attribute, predicative,<br />

Arg2 instrument, extension, indirect object,<br />

final state adverbial complement<br />

Arg3<br />

benficiary, instrument,<br />

attribute, cause<br />

predicative,<br />

circumstantial complement<br />

Arg4 destination adverbial complement<br />

Adjuncts VerbNet roles<br />

location, extension,<br />

Syntactic function<br />

ArgM<br />

destination, cause,<br />

time, manner, direction<br />

adverbial complement<br />

III.2 Taula: PropBankeko argumentu markekin agertzen diren funtzio sintaktikoak<br />

eta VerbNeteko rolak.<br />

(ditransitive, odd ditransitive, prepositional arg2 eta fronted). Nahiz eta<br />

informazio osoa lehenengo frameari informazio osoa bakarrik jarri, sarrera<br />

bakoitzeko frame guztiek izango dute argumentuen informazioa.<br />

PropBank proiektuko emaitzak publikoak dira 30 , eta LNPn asko erabiltzen<br />

ari den EBLa da, batez ere rolen etiketatze automatikoaren oinarri gisa<br />

(Pradhan et al., 2003; Carreras eta Màrquez, 2004). Erabilera hau dela eta,<br />

egun, beste hizkuntza batzuentzat ere garatzen ari da eredu hau: txinerarako<br />

(Palmer eta Xue, 2003), gaztelania eta katalanerako (Civit et al., 2005a),<br />

errusierarako (Civit et al., 2005b), eta euskararako (Agirre et al., 2006d).<br />

Hala ete guztiz ere, eredu emankorra izan arren, aditzen deskribapena soilik<br />

egiten duen eredua da, eta, ondorioz, ez du euskararako EBLrako zehaztu<br />

dugun baldintzetako bat betetzen, hots, ez du hizkuntza bere osotasunean<br />

adierazten.<br />

30 http://www.cis.upnn.edu/ace (2007-07-02an atzitua).


III.2 Azterketarako aukeratutako formalismoak 59<br />

Roleset tell.01 “pass along information”:<br />

Roles:<br />

Arg0: Speaker<br />

Arg1: Utterance<br />

Arg2: Hearer<br />

Frames:<br />

distransitive (-)<br />

The score tell you what the<br />

characters are thinking and<br />

feeling<br />

Arg0: The score<br />

REL: tell<br />

Arg2: you<br />

Arg1: what the are thinking and<br />

feeling<br />

odd ditransitive (-)<br />

prepositional arg2 (-)<br />

fronted (-)<br />

III.7 Irudia: tell.01 sarrera lexikala PropBanken.


60 Ezagutza-base lexikalen azterketa kritikoa<br />

III.2.5 Corpusetan oinarritutako lanak<br />

Kapitulu ho<strong>net</strong>an zehar, EBLak eraikitzeko hainbat proposamen azaldu ditugu,<br />

hizkuntzalaritza teorikoa eta konputazionalaren ikuspegiak kontuan<br />

hartuz. EBLak garatzean, normalean, corpusak ere erabiltzen direla ikusi<br />

dugu. Atal ho<strong>net</strong>an, aipatutako corpusak bere osotasunean komentatuko<br />

ditugu.<br />

Dagoeneko aipatu dugu II.2.1 atalean, LNPn corpusek hartu duten garrantziaz.<br />

Alde batetik, erabilerari buruzko informazioa, hitzak dituzten<br />

maiztasun errealak, egitura sintaktiko zenbaitek dituzten maiztasunak, eta<br />

halako informazioa lortzeko oso erabilgarriak dira. Bestetik, informazio linguistikoa<br />

baldin badute —esate baterako, corpusak lematizatuta badaude,<br />

kategoriak markatuta badituzte, semantikoki markatuta badaude, eta abar—<br />

hauetatik informazio linguistikoa erauzi eta aberasteko erabil daitezke. Eta,<br />

azkenik, corpusen bidez, hipotesien zuzentasuna froga daiteke; hau da, eredu<br />

baten zuzentasuna egiaztatzeko era bakarra, eredu hori corpus errealean<br />

frogatzea da.<br />

Horren adierazgarri ditugu aurreko ataletan aipatutako ia eredu guztiekin<br />

garatzen ari diren corpusak. Adibidez, LFG formalismoko egitura funtzionalak<br />

erabilita corpus etiketatuak daude, esate baterako Cahill et al.<br />

(2002). HPSG formalismoak corpus etiketatuak ere baditu, ingeleserako<br />

(Oepen et al., 2002, edo LinGO Redwoods deiturikoa) eta baita beste hizkuntza<br />

batzuetarako ere, hala nola bulgarierarako (Osenova eta Simov, 2003).<br />

EBL eta corpusen arteko harremanaren adibide garbia FrameNet proiektuan<br />

ikus daiteke. III.2.3.1 atalean azaldu dugun bezala, FrameNet proiektuan<br />

(Fillmore eta Baker, 2001) ingeleserako baliabide lexikografikoak eraikitzen<br />

ari dira. Frame Semantics (Fillmore, 1985) teorian oinarrituta eta corpus<br />

errealeko datuekin lagunduta. FrameNeten ale lexikal bakoitza beraiek<br />

sortutako frameetan sailkatzen dute (Revenge framea, Commercial Transaction<br />

framea, Criminal Process framea, Perception framea, eta abar,) batetik<br />

ale honen semantika eta sintaxia definitzeko, eta bestetik, frameko gainontzeko<br />

osagaiekin duen harremana zehazteko. Framea, framearen partehartzaileak<br />

(frame elements deiturikoak), eta framea osatzen duten ale lexikalak<br />

sortu ondoren, corpus errealera jotzen dute framearen zuzentasuna egiaztatzeko,<br />

hau da, etiketatze semantikoa baliatzen dute, introspekzioz sortutako<br />

frame horiek egokiak diren ala ez ziurtatzeko. Corpuseko datuak eta framea<br />

bat etorriko ez balira, framearen ezaugarriak corpusaren informazio berri horretara<br />

egokituko lirateke. FrameNeteko corpusak gutxi gorabehera, 130.000


III.3 Gure aukera eta arrazoiak 61<br />

esaldi etiketatu ditu eta handitzen jarraitzen du.<br />

<strong>WordNet</strong>ek ere badu etiketatuko corpus bat: SemCor (Miller et al., 1994;<br />

Fellbaum et al., 2001). Hala ere, FrameNeten ez bezala, <strong>WordNet</strong> eta Sem-<br />

Cor ez dira aldi berean garatu. Lehenengo <strong>WordNet</strong> sortu zen eta gero,<br />

250.000 hitzetako Brown corpusaren testu zati bat hartu, eta Princetoneko<br />

kategoria-etiketatzaile automatikoarekin etiketatu ondoren, eskuz etiketatu<br />

zen <strong>WordNet</strong>eko adierekin (Miller et al., 1994).<br />

Volem proiektuaren jarraipen gisa SenSem (Sentence Semantics) proiektua<br />

garatzen ari dira. Proiektu ho<strong>net</strong>an gaztelaniako corpus etiketatu bat<br />

eraikitzen ari dira erdiautomatikoki eta bere helburu nagusiena, Volem<br />

EBLko gaztelaniako informazioa orraztea eta aberastea da. Horretarako, corpusean<br />

predikatuekin agertzen diren alternantziak Volemen zerrendatuak dituzten<br />

predikatuekin erkatzen dituzte, ezagutza-basean dituztenak zuzenak<br />

diren ala ez egiaztatzeko eta ez dituztenak gehitzeko. Volemetik abiatutako<br />

gaztelaniako EBL berritu honi SenSem deitu diote. SenSem EBLan 788 aditzen<br />

1.092 adiera daude, eta beraien izaera sintaktiko-semantikoa adierazita<br />

dago. Bestalde, aditzen adierak <strong>WordNet</strong>eko synsetekin lotzen ari dira 31 .<br />

Aipatutako PropBank proiektua (Palmer eta Kingsbury, 2003) ere horixe<br />

bera da: Penn Wall Street Journal Treebank II corpusa etiketatzea<br />

predikatu-argumentu egiturekin. Horretarako, aditzen adierak eta adiera horien<br />

dependentziak (argumentuak) markatzen dituzte. Corpus horrekin batera,<br />

lexikoia garatzen dute, non etiketatutako aditz bakoitzaren adiera eta argumentuak<br />

zerrendatzen diren. Inplementazioari begira, PropBank corpusari<br />

VerbNeteko informazioa gehitu zaio (Kipper et al., 2002) 32 .<br />

III.3 Gure aukera eta arrazoiak<br />

III.1 atalean zehaztu ditugu euskararako garatu nahi dugun EBLak izan<br />

beharko lituzkeen baldintzak. Ikusi dugun bezala, zaila da baldintza hauek<br />

guztiak jasotzen dituen EBLa topatzea. Hala ere, baldintza horietan oinarrituta,<br />

hain zuzen ere, arrazoituko dugu IXA taldearen beharretara gehiago<br />

egokitzen den EBL formalismoak <strong>WordNet</strong>, eta honen ildotik abiatuta garatu<br />

diren Euro<strong>WordNet</strong> eta MCR direla.<br />

31SenSem kontsultagarri dago hurrengo web orrian: http://gril.uab.es/demo (2007-<br />

07-02an atzitua).<br />

32PropBank hurrengo web orrian dago ikusgarri (2007-07-02an atzitua):<br />

http://www.rochester.edu/gildea/PropBank/Sort/C.html.


62 Ezagutza-base lexikalen azterketa kritikoa<br />

• Eredu irekia eta deskriptiboa:<br />

<strong>WordNet</strong> ez dago teoria bakar bati lotua; hots, teoria ezberdinek erabil dezaketen<br />

EBLa da. Bestalde, Euro<strong>WordNet</strong> eta MCR <strong>WordNet</strong>en garapenak<br />

dira, <strong>WordNet</strong> beste oinarri eta ikuspuntu teoriko eta konputazionaletatik<br />

informazio gehiagorekin aberastu dutenak.<br />

Aurreko atalean aipatutako formalismo eta lan teoriko askok ere gerora<br />

<strong>WordNet</strong> eta Euro<strong>WordNet</strong> adierekin edo/eta klase semantikoekin aberastu<br />

dituzte 33 ; esate baterako, Dorrek (1997) Jackendoffen lanarekin. Dorrek<br />

Jackendoffen ELKetan oinarritutako EBLa eraiki du. ELK hauek Word-<br />

Neteko adieretara lotuak daude. Lan horretan bertan, Dorrek Levinen aditzklaseetako<br />

aditzak ere <strong>WordNet</strong>eko aditzekin lotzen ditu. Ildo ho<strong>net</strong>atik jarraitu<br />

duen formalismoa Volem izan da: gaztelaniako, frantseseko eta katalaneko<br />

aditzen informazio sintaktiko-semantikoari (azpikategorizazioa,<br />

hautapen-murriztapenak eta alternantziak), ELKa, rol tematikoak eta Word-<br />

Neteko klase semantiko nagusienak eransten dizkiote. Bestalde, Pustejovskyren<br />

lexikoaren ezaugarri batzuk <strong>WordNet</strong>ekoekin lotzeko saiakera ere<br />

egin da (Buitelaar, 1998). Formalismo ezberdin hauen arteko uztardura oso<br />

baliagarria eta aberatsa da. Izan ere, <strong>WordNet</strong>en ildotik euskararako egingo<br />

den EBLa hauetaz guztiez balia daiteke (neurri handi batean behintzat), eta<br />

horrela euskararako EBLa aberastu. Beraz, garbi dago <strong>WordNet</strong> eta Euro-<br />

<strong>WordNet</strong> LNPren arloan baliabide oso erabiliak izan direla, eta egun oraindik<br />

hainbat esperimentu eta ikerla<strong>net</strong>arako iturburu direla.<br />

• Hizkuntzaren ikuspuntu orokorra:<br />

<strong>WordNet</strong> (Euro<strong>WordNet</strong> eta MCR) lexiko zabal eta garatua da. Era berean,<br />

adieran oinarritutako ontologia da, hizkuntzaren lexikoa ezagutza-base batean<br />

jaso nahi duena, ale lexikalak, ale lexikalen adierak, klase semantikoak,<br />

kategoriak, eta hauen guztien arteko erlazio semantikoak kontuan izanda<br />

(III.2.3.2 atalean azaldu dugun bezala). Noski, hizkuntzaren lexikoak ez du<br />

mugarik. Horregatik, etengabe garatzen dauden ezagutza-baseak dira lexikoi<br />

hauek. Hala ere, hizkuntzaren ikuspuntu orokorra eman dezaketen ezagutza-baseak<br />

ditugu. Esate baterako, <strong>WordNet</strong>ek 117.617 synset ditu (81.426<br />

izen, 13.650 aditz, 18.877 adjektibo eta 3.664 adberbio) 34 . MCRk <strong>WordNet</strong><br />

ezagutza-basearen tamaina berdina du, baina erlazio semantiko gehiagorekin<br />

(1.600.000 erlazio inguru).<br />

33 MCR orain dela gutxiko EBLa izanda, oraindik ez da horrela erabili.<br />

34 <strong>WordNet</strong>en azkeneko bertsioaz ari gara, 3.0 bertsioaz, alegia.


III.3 Gure aukera eta arrazoiak 63<br />

• Inplementazioa:<br />

<strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR inplementatutako EBLak dira, hots,<br />

praktikoak direla asko frogatua dago. Gainera, ezagutza-base publikoak dira,<br />

kontsultagarriak, alegia, eta hainbat erabilera izan ditzakete (hiztegi eta<br />

thesaurus gisa adibidez).<br />

Euro<strong>WordNet</strong>en eta MCRren aukerak areago doaz, EBL hauek eleanitzak<br />

direlako, ingeleseko <strong>WordNet</strong>i beste hainbat hizkuntza gehitu baitzaizkio<br />

(nederlandera, italiera, gaztelania, alemana, frantsesa, txekiera, estoniera...),<br />

eta horien artean —tesi ho<strong>net</strong>an arrazoitutakoari jarraiki— euskara<br />

txertatzen hasi garelako (Agirre et al., 2002).<br />

Hiru EBL hauek oso erabiliak izan dira LNPren arlo oso ezberdi<strong>net</strong>an:<br />

galdera-erantzun sistemetan, informazio-erauzketan, itzulpen automatikoan. . .<br />

(argibide gehiago IV.1 ataletan). Honen adierazgarri da <strong>WordNet</strong>en oinarrituta<br />

egin diren publikazioen kopurua. <strong>WordNet</strong>eko web orriak 35 batzuk<br />

jasotzen ditu, eta 422 inguru dira gaur egun.<br />

Azpimarratu beharra dago <strong>WordNet</strong>ek paper garrantzitsua jokatu duela<br />

adiera-desanbiguazioan. Adiera-desanbiguazioko sistemak estaldura handiko<br />

baliabide lexikaletan (lexikoietan, corpusetan, ontologietan, etab.) oinarritu<br />

behar dira, baliabide hauei esker sistema bera garatu eta ebalua daitekeelako.<br />

Geroz eta estaldura handiagoko baliabideak izan, orduan eta emaitza<br />

hobeak lortuko dira. <strong>WordNet</strong> estaldura handiko EBLa izateaz gain (gorago<br />

aipatu ditugu EBL honen kopuruak) bere synsetak baliatuta, eskuz etiketatuta<br />

250.000 hitzeko corpusa dago: SemCor (Miller et al., 1994). <strong>WordNet</strong>ek<br />

SemCorren duen estaldura %96 da. SemCorrek testuinguru egokia eskaintzen<br />

du adiera-desanbiguazioko sistemak bertatik ikasteko 36 eta gero ebaluatzeko.<br />

Hala, semantikoki etiketatutako corpusen arrakasta eta erabilgarritasuna ikusita,<br />

beste hizkuntzetako word<strong>net</strong>ak ere beraien corpus etiketatuak garatzen<br />

ari dira. Honen adibide da MultiSemcor (Bentivolgi eta Pianta, 2005) proiektua,<br />

non ingeleseko SemCor italierara itzultzen ari diren eta ingeleseko corpuseko<br />

hitzen etiketa semantikoak zuzenean italierako hitzei esleitzen dizkieten.<br />

Honen emaitza semantikoki etiketatutako italierako corpusa izango da.<br />

35 http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).<br />

36 Makinari emandako datu egokietan oinarrituz eta hauen gainean teknika estatistiko<br />

konplexuak aplikatuz, makinak ikasi egiten du; ikasketa honen ondorioz, gai da datu berriei<br />

buruz erabakiak hartzeko. Erabaki hauen zuzentasuna ikaste-prozesuaren egokitasunaren<br />

araberakoa izango da, noski; ikaste-prozesuaren egokitasuna, era berean, erabiltzen diren<br />

teknika estatistikoen eta ikasteko erabilitako datuen kopuruan eta egokitasunean datza.


64 Ezagutza-base lexikalen azterketa kritikoa<br />

Honekin batera, tesi-lan ho<strong>net</strong>an aurrerago (V. kapituluan) aurkeztuko dugun<br />

EuSemcor proiektua ere aipa dezakegu: semantikoki etiketatzen ari den<br />

euskarako corpusa.<br />

Beste arrazoi batzuk ere baditugu eredu hauen alde egiteko:<br />

• Euro<strong>WordNet</strong>ek datuak eguneratzeko eskaintzen dituen erraztasunak:<br />

ILIaren bidez lortzen den hizkuntzen arteko lotura horri<br />

esker (argibide gehiago IV.2 ataldean), Euro<strong>WordNet</strong>i lotuta dauden<br />

beste hizkuntzetako word<strong>net</strong>etako batean aldaketaren bat egiten bada<br />

synseten batean, aldaketa hori euskarako word<strong>net</strong>ean ere gertatzen da.<br />

• <strong>WordNet</strong> ereduak EBLaren eta corpusaren garapena aldi berean<br />

egiteko aukera ematea: Hots,ezdaEBLaamaituaizatera<br />

itxaron behar honen informazioarekin corpus bat etiketatzeko.<br />

Atal ho<strong>net</strong>an azaldu ditugun abantailak direla eta, word<strong>net</strong> berrien kopurua<br />

handitzen ari da (katalana, portugesa, grekoa, suediarra, errumaniarra,<br />

bulgariarra, norvegiarra, lituaniarra, errusiarra...). Hala, geroz eta gehiago<br />

dira eredu hau jarraituta EBLak garatzen dituztenak.<br />

Informazio sintaktiko-semantikoa, batez ere aditzetan, mugatua duela,<br />

horixe da <strong>WordNet</strong>i egin zaion gaitzespen nagusiena. Adibidez, ez dituzte<br />

azpikategorizazioa, hautapen-murriztapenak eta rol tematikoak zehazten.<br />

Hau oztopo bat da euskararako EBL bat hauetan oinarrituta egiteko, lanaren<br />

hasieratik esan dugun bezala (III.1 atalean), euskararako EBLan, ale lexikalen<br />

adierez gain, hauen informazio sintaktiko-semantikoa adierazita etortzea<br />

nahiko genukeelako.<br />

Euro<strong>WordNet</strong> <strong>WordNet</strong>en bertsio aurreratua izaki, tankera ho<strong>net</strong>ako informazio<br />

gehiagorekin hornitu da (kategoria ezberdineko synseten loturekin<br />

adibidez) 37 . Are gehiago MCR, Euro<strong>WordNet</strong>en gapapena baita. Azken<br />

ho<strong>net</strong>an, adibidez, hautapen-murriztapenak txertatzeko asmoa dago. IV.3<br />

atalean ikusiko dugun bezala, MCRko interfazeak hautapen-murriztapenak<br />

kontsultatzeko aukera ematen du, baina oraindikezdainformaziohauatzitu<br />

eta EBLan txertatu. Txosten honen VII. kapitulua lan honi dagokio, hain<br />

zuzen ere. Gerora, hautapen-murriztapenez gain, MCRren sintaxi-semantikari<br />

buruzko informazio gehiago txertatu nahi da, hala nola, funtzio gramatikalak.<br />

Beraz, esan daiteke, MCRk <strong>WordNet</strong> eta Euro<strong>WordNet</strong>en hezurdura<br />

duela, baina informazio sintaktiko-semantikoa jasotzeko aukerarekin.<br />

37 IV.2 atalean hitz egingo dugu erlazio semantiko hauei buruz.


III.3 Gure aukera eta arrazoiak 65<br />

Honenbestez, euskararako EBLa MCRren ereduan eraikiz gero, honek<br />

<strong>WordNet</strong> eta Euro<strong>WordNet</strong>en hezurdura izango luke, hots, adieraka antolatutako<br />

EBL semantiko eleanitz baten abantailak izango genituzke, eta,<br />

gainera, bi ezagutza-base hauetan dagoen informazioarekin batera, MCRn<br />

gehituko den informazio sintaktiko-semantikoa eskuragarri izango genuke.<br />

Aipatu diren arrazoi horiek guztiak direla medio, euskararako EBLa<br />

MCRren eredua jarraituz egingo dugu eta, MCRk beste iturrietako informazioa<br />

jasotzeko oinarri sendoa duenez, ikerlan ho<strong>net</strong>an landu ditugun beste<br />

formalismoetatik baliagarri zaigunari probetxua atera ahal izango diogu,<br />

MCRn behar bezala txertatuz gero. Alde batetik, EBLan ale lexikalak sailkatzeko<br />

erabiltzen dituzten ezaugarri batzuk, MCRn ez daudenak aprobetxa<br />

genitzake. Bestetik, MCRn sarrera lexikalak jasotzen ez duen informazioa<br />

jaso genezake 38 .<br />

Jarraian, tesi-lan ho<strong>net</strong>an landutako ikerlan eta formalismoetatik MCRn<br />

sartzeko baliagarri izan daitekeen informazioa dagoen ala ez ere adieraziko<br />

dugu.<br />

Hizkuntzalaritza teorikotik hiru lan aztertu ditugu: Jackendoff (1990),<br />

Levin (1993) eta Pustejovsky (1995).<br />

Jackendoffen kasuan (III.2.1.1 atalean), Dorrek (1997) eta Fernández et al.ek<br />

(2002) Jackendoffen eredua konputazionalki inplementatu (eta aberastu)<br />

dute, aditzen klaseak <strong>WordNet</strong>eko adieretara lotuz. Lotura hau euskarako<br />

aditzen sailkapenerako erabilgarri izan daiteke, noski, lehendabizi bertan<br />

dagoen informazioa euskararen izaera sintaktiko-semantikora egokitzen dela<br />

egiaztatu eta gero. IXA taldean Volem proiektuaren jarraipenean parte hartu<br />

duenez, horrelako esperimentuak egiteko aukera izan dugu. Aldezabalen<br />

(2004) lanean aztertutako ehun aditzak Volemeko eredura egokitu ditugu, eta<br />

aditz hauen adiera bereko frantseseko, gaztelaniako eta katalaneko ordainen<br />

errepresentazioarekin erkatu ditugu. Kasu gehie<strong>net</strong>an, hizkuntza guztietan,<br />

aditz-adiera berak egitura sintaktiko-semantiko bera du. Hala ere, ikerketa<br />

hauek tesi-lan ho<strong>net</strong>atik kanpo geratu dira.<br />

Jackendoffen ereduarekin esan dugun bezala, Dorrek Levinen klase semantikoak<br />

<strong>WordNet</strong>era lotuak ditu. Horrela bada, MCRren ildotik eginda-<br />

38 Kontuan izan behar da lan hauek ingeleserako pentsatuak daudela. Horregatik, EBL<br />

hauen informazioa euskararako EBLari gehitu baino lehen, informazio hori hizkuntzatik<br />

independentea den (unibertsala den), edo behintzat euskararako baliagarria den, frogatu<br />

beharko genuke. VII. kapituluan horrelako saiakera baten berri ematen dugu. Ingeleserako<br />

corpusetatik automatikoki lortutako hautapen-murriztapenak euskaratu, eta euskararako<br />

baliagarriak diren aztertu dugu (Agirre et al., 2003a; Pociello, 2004a).


66 Ezagutza-base lexikalen azterketa kritikoa<br />

ko euskarako EBLrako, Levinen la<strong>net</strong>ik zuzenean informazioa atera ordez,<br />

Dorren la<strong>net</strong>ik abiatzea errazagoa litzaiguke. Horretarako, bete beharreko<br />

lehenengo pausua, Levinen aditz-klaseak eta MCRkoak zer puntutaraino pareka<br />

daitezkeen aztertzea litzateke.<br />

Horrekin batera, Aldezabalen (2004) tesi-lanean Levinen lana erabili da<br />

euskal aditzaren azpikategorizazioa jorratzeko. Hortaz, eredu honen euskararako<br />

egokitzapena balia dezakegu MCR aberasteko.<br />

Betalde, Agirre eta Lersundiren lanean (2003) Dorren ELKetako interpretazioak<br />

Aldezabalenekin parekatu ondoren, ingeleseko, gaztelaniako eta<br />

euskarako postposizioen adiera-inbentario bakarra lortu dute, eta postposizio<br />

bakoitza MCRra lotu dute. MCRn ez dago preposizioen/postposizioen synsetik,<br />

beraz, lotura hau era ho<strong>net</strong>ara egin dute: postposizioa jaso duen eratorriaren<br />

(zilargile) eta oinarriaren (zilar) arteko erlazio semantikoa (‘IZEak<br />

ADIt(z)en dituena’) adierazten dute MCRn. Lan ho<strong>net</strong>ako informazioa dagoeneko<br />

MCRn txertatuta dago.<br />

Hizkuntzalaritza teorikoari dagokion atalean, aztertutako azken lana<br />

Pustejovskyrena (1995) izan da. Ezagutzen den inplementazioetako bat<br />

Buitelaarrena da (1998). Buitelaarrek Pustejovskyren alderdi semantiko batzuk<br />

(alderdi konstitutiboa adibidez) <strong>WordNet</strong>en dauden antzeko harreman<br />

semantikoekin erkatzen ditu. Berriro ere, euskarako EBLari begira, Word-<br />

Neterako lotura hau ondo etor dakiguke Buitelaarren la<strong>net</strong>ik lortutako emaitzak<br />

gure EBLan eransteko.<br />

Hizkuntzalaritza teoriko eta konputazionalaren erdibidean dauden lanek<br />

(LFG, GPSG eta HSPG) ingelesari buruzko informazio sintaktiko-semantikoaren<br />

deskribapen aberatsa dute. LFG, GPSG eta HPSG euskararako<br />

erabiltzeko saiakera bat egin da (Gojenola, 1998), eta hortik baliagarri izan<br />

dakigukeen informazioa lor genezake.<br />

Azkenik, hizkuntzalaritza konputazionaleko lanak izan ditugu aztergai:<br />

FrameNet (Fillmore eta Baker, 2001), <strong>WordNet</strong> eta honen ildotik etorritakoak<br />

(Miller, 1985; Fellbaum, 1998a; Vossen, 1997; Atserias et al., 2004),<br />

Volem eta PropBank proiektua (Palmer eta Kingsbury, 2003) (Fernández<br />

et al., 2002). <strong>WordNet</strong>, Euro<strong>WordNet</strong>, MCR eta Volemi buruzko ondorioak<br />

gorago aipatu ditugunez, zuzenean FrameNet eta PropBanki buruz jardungo<br />

gara.<br />

Esan bezala (III.2.4 atalean), PropBankeko sarrera lexikalak VerbNeten<br />

hauei dagokien sarrerarekin lotuta daude. Aldi berean, VerbNeteko sarrera<br />

hori <strong>WordNet</strong>eko synset batekin (edo gehiagorekin) loturik dago. Hortaz,<br />

lotura honi probetxu atera geniezaioke gure EBLko aditzak VerbNet eta


III.4 Ondorioak 67<br />

PropBankeko informazio sintaktiko-semantikoarekin aberasteko.<br />

FrameNeten kasuan ere antzeko zerbait egin daiteke. LNPn rolen informazio<br />

sintaktiko-semantikoa erauzteko eta markatzeko oso ezagunak dira,<br />

bai PropBank, bai VerbNet eta baita FrameNet ere. Arrazoi honengatik,<br />

hiru baliabideetako informazio bateratua erabiltzeko saiakerak egon dira.<br />

Giuglea eta Moschittiautoreek (2004), adibidez, PropBank eta FrameNeten<br />

arteko lotura egiteko VerbNet erabili dute. Horretarako, VerbNeteko klase<br />

semantikoen eta FrameNeteko frameen mapaketa egin dute. Adibidez, Verb-<br />

Neteko Judgement klase semantikoa FrameNeteko Rewards and punishments,<br />

Judgement communication, Sentencing, Notification of charges, Arrangement,<br />

Court examination, Pardon, Try defendant, Forgiveness, Jury deliberation<br />

eta Judgement direct address frameekin parekatu dituzte. Hala, klase<br />

semantiko bakoitzeko hiru EBLen informazioa dute eskuragarri. Mapaketa<br />

hau corpusean rolak automatikoki ezagutzeko egin da.<br />

Horrela, bada, FrameNet VerbNetekin lotuz gero, VerbNeteko aditzak<br />

<strong>WordNet</strong>eko synsetekin parekatuak daudenez, EBL hauetako guztietako informazioa<br />

izango genukeen eskuragarri.<br />

III.4 Ondorioak<br />

Kapitulu ho<strong>net</strong>an arrazoitzen saiatu gara euskararako EBLa egiteko Word-<br />

Neten eredua (zehazkiago, MCRrena) jarraitzea dela biderik egokiena.<br />

Erabaki hori hartu dugu euskarako EBLrako nahiko genituzkeen ezaugarriak<br />

ondo definitu ondoren —konputazionalki inplementa daitekeena izatea, hizkuntza<br />

bere osotasunean adierazten duena izatea, eleanitza izatea, eta informazio<br />

berrerabilgarria jasotzen duena izatea—, ezaugarri hauen arabera<br />

mugatu dugu gure proposamena:<br />

• <strong>WordNet</strong> eta honen ildotik garatu diren Euro<strong>WordNet</strong> eta MCR ez<br />

daude teoria bakar bati lotuta, bestelako eredu eta teoria ezberdinekin<br />

erabil daitezke. Horren proba da formalismo eta lan teoriko asko, gerora,<br />

<strong>WordNet</strong>en adiera edo/eta klase semantikoekin aberastu dituztela.<br />

• <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR lexiko zabala eta garatua dute;<br />

sarrera bakoitzean ale lexikalaren adiera, klase semantikoa, kategoria<br />

eta beste sarrerekin izan ditzaken erlazio semantikoak jasotzen dituzte.<br />

Esate baterako, <strong>WordNet</strong>en 3.0 bertsioan 117.617 synset daude (81.426<br />

izen, 13.650 aditz, 18.877 adjektibo eta 3.664 adberbio).


68 Ezagutza-base lexikalen azterketa kritikoa<br />

• <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR inplementatutako EBLak dira.<br />

Honen adierazgarri dira <strong>WordNet</strong>en oinarrituta egin diren publikazioen<br />

kopurua (gaur egun, <strong>WordNet</strong>eko web orriak 39 422 inguru jasotzen ditu).<br />

• <strong>WordNet</strong> EBL elebakarra izan arren, honen ildotik sortutako Euro-<br />

<strong>WordNet</strong> eta MCR eleanitzak dira.<br />

Aukeraketa hau, halere, ikerkuntzaren ikuspegian, helburuen edota ematen<br />

zaizkion erabileren mende dago.<br />

Bestalde, behin MCRren aldeko aukera eginda, eredu hau beste lan eta<br />

formalismoetako informazioarekin osa dezakegula ikusi dugu. Hala ere, formalismo<br />

desberdinak direnez eta batzuetan beraien artean kontraesanean<br />

daudenez, hauen artean hautu bat ere egin beharko genuke. Hau da,<br />

MCRren ildotik egingo den euskararako EBLa hauetako zeinekin osatzea<br />

komeniko litzatekeen erabaki beharko genuke.<br />

Dena den, lan hori ez dugu tesi-lan ho<strong>net</strong>an jorratuko; etorkizunerako lan<br />

gisa proposatuko dugu.<br />

39 http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).


<strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

IV. KAPITULUA<br />

Kapitulu ho<strong>net</strong>an <strong>WordNet</strong> (IV.1), Euro<strong>WordNet</strong> (IV.2) eta The Multilingual<br />

Central Repository ereduaren (MCR) (IV.3) azterketa sakonago bat<br />

egingo dugu.<br />

IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak<br />

IV.1.1 Sarrera<br />

<strong>WordNet</strong> (Miller, 1985; Fellbaum, 1998a) teoria psikolinguistikoetan oinarritua<br />

dagoen ingeleseko ezagutza-basea da. Princeton-eko Unibertsitatean<br />

eskuz garatzen ari da —Cognitive Science Laboratory delakoan— George A.<br />

Millerren ardurapean.<br />

Ingeleseko izenak, aditzak, adjektiboak eta adberbioak synonym set<br />

edo synsetetan (sinonimo multzotan) antolatuak daude, hauetako bakoitza<br />

kontzeptu lexikal bati (adiera bati) dagokiolarik. Esaterako, ingeleseko tree<br />

izenak <strong>WordNet</strong>en bi synset 1 ditu 2 :<br />

1Aurrerantzean synset terminoa erabiliko dugu, adiera edo kontzeptu lexikalaren pareko.<br />

2Kapitulu ho<strong>net</strong>ako <strong>WordNet</strong>eko adierazpen guztiak <strong>WordNet</strong> 3.0 bertsiotik hartu ditugu<br />

—http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua)—, eta leku-arazoengatik<br />

adibide batzuk moztu egin ditugu.


70 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

(1) The noun “tree” has 2 senses:<br />

1. {tree} (a tall perennial woody plant having a main trunk and. . . )<br />

2. {tree, tree diagram} (a figure that branches from a single root)<br />

Lehenengoa ‘landare’ (plant) synsetari dagokio, eta bigarrena, berriz, ‘diagrama’<br />

(diagram) synsetari. Synsetak desberdindu ditzakegu hauen ondoan<br />

gehie<strong>net</strong>an datorren glosei esker. (1) adibidean tree izenaren ‘landare’ adieraren<br />

glosa a tall perennial woody plant having a main trunk and branches da.<br />

Lehenengo synset hau ale lexikal bakar batez osatua dago (tree); hots, tree<br />

izenak, synset horretan, ez du sinonimorik. Bigarrenak, ordea, tree ale lexikalaz<br />

gain, beste ale bat ere badu synsetean (tree diagram). Bi ale lexikal horiek<br />

(tree eta tree diagram) sinonimoak dira. Synseta osatzen duten ale lexikalei<br />

variant deitzen zaie, beraz, synset berean dauden variantak sinonimoak<br />

dira.<br />

Hain zuzen ere, sinonimia da <strong>WordNet</strong>eko erlazio semantiko garrantzitsue<strong>net</strong>arikoa.<br />

Izan ere, ezagutza-basearen oinarria ale lexikala izanik, adiera<br />

batek ale lexikal bat baino gehiago dituenean, ale lexikalak multzokatu egiten<br />

ditu sinonimia erlazioak.<br />

<strong>WordNet</strong>eko sinonimiaz hitz egiterakoan, kontuan izan behar da ez dela<br />

gauza bera sinonimia eta hitzak bata bestearekin elkar trukatzea. Hau da,<br />

<strong>WordNet</strong>eko synseta osatzen duten sinonimoak beraien artean truka daitezke,<br />

baina testuinguru batzuetan bakarrik.<br />

“The more modest claim is that <strong>WordNet</strong> synonyms can be interchanged<br />

in some contexts. To be careful, therefore, one should speak of synonymy<br />

relative to a context.” (Fellbaum, 1998a, 24. or.)<br />

<strong>WordNet</strong> ez da synset-zerrenda hutsa; synsetak erlazio semantikoen bidez<br />

antolatuak daude. Esan dugun bezala, sinonimia da erlazio semantiko garrantzitsue<strong>net</strong>akoa,<br />

baina, honekin batera, <strong>WordNet</strong>ek beste hainbat erlazio<br />

landu ditu, hala nola, hiperonimia-hiponimia erlazioa.<br />

Hiperonimia-hiponimia erlazioak synset orokorrenak synset zehatzagoekin<br />

lotzen ditu 3 . (2) eta (3) adibideetan (1)en hiperonimoak eta hiponimoak<br />

ikus ditzakegu hurrenez hurren:<br />

3 Ingelesez IS-A relation bezala ere ezagutzen da, hots, xisakindofy.


IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 71<br />

(2) Sense 1<br />

{tree} (a tall perennial woody plant having a main trunk and. . . )<br />

=> {woody plant, ligneous plant} (a plant having hard lignified. . . )<br />

=> {vascular plant, tracheophyte} (green plant having a. . . )<br />

=> {plant, flora, plant life} (a living organism. . . )<br />

=> {life form, organism, being, living thing}<br />

=> {entity, something} (anything having existence)<br />

Sense 2<br />

{tree , tree diagram} (a figure that branches from a single root)<br />

=> {plane figure, two-dimensional figure} (a 2-dimensional shape)<br />

=> {figure} (a combination of points and lines and planes. . . )<br />

=> {shape, form} (the spatial arrangement of something. . . )<br />

=> {attribute} (abstraction belonging to a. . . )<br />

=> {abstraction} (a general concept formed by . . . )<br />

(3) Sense 1<br />

{tree} (a tall perennial woody plant having a main trunk and. . . )<br />

=> {yellowwood, yellowwood tree} (any of various trees having. . . )<br />

=> {lancewood, lancewood tree} (source of most of the lancewood. . . )<br />

=> {Guinea pepper, negro pepper} (tropical west African tree...)<br />

=> {anise tree} (any of several evergreen shrubs ...)<br />

=> {winter’s bark tree, Drimys winteri} (South American tree...)<br />

=> {zebrawood tree} (any of various trees ...having mottled or ...)<br />

=> {granadilla tree, Brya ebenus} (West Indian tree yielding ...)<br />

=> {acacia} (any of various spiny trees or shrubs of the genus Acacia)<br />

=> {...}<br />

Sense 2<br />

{tree, tree diagram} (a figure that branches from a single root)<br />

=> {cladogram} (a tree diagram used to illustrate phyloge<strong>net</strong>ic. . . )<br />

(2) adibidean tree izenaren hiperonimoak ditugu. Lehenengo synseta<br />

(‘landare’) kontuan hartuz gero, woody plant mota bat bezala definitzen<br />

da; woody plant, vascular plant mota bat bezala; vascular plant, aldi berean,<br />

organism mota bat bezala, eta, azkenik, organism entity mota bat bezala.<br />

Ondorioz, tree, bere lehenengo synsetean, entity, organism, vascular plant, eta<br />

woody plant bat da.<br />

Treeren beste synsetaren (‘diagrama’) sailkapenarekin berdin-berdin gertatzen<br />

da, baina bere hiperonimoak ‘diagrama’ adierari lotuak egongo dira.<br />

Hiponimoak hiperonimoen zehaztapenak dira. Hortaz, (3) adibidean, tree<br />

izenaren lehenengo adieraren zehaztapen gisa zuhaitz motak agertzen dira<br />

(yellowood, acacia. . . ), eta bigarren adieran, aldiz, diagrama motak (kasu


72 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

ho<strong>net</strong>an bakarra, cladogram). Horrela, bada, <strong>WordNet</strong>, ontologia edo hierarkia<br />

bat da, eta hiperonimia-hiponimia harreman semantikoarekin hierarkian<br />

gora eta behera egiteko aukera dugu. Ontologia hau kategoriaka banatua dago,<br />

eta kategoria bakoitzak bere hierarkia du; hau da, kategoria bakoitzaren<br />

hierarkia erlazioa semantiko nagusi baten arabera antolatzen da. Izen eta<br />

aditzen kasuan erlazio semantiko nagusia hiperonimia-hiponimia da 4 . Adjektibo<br />

eta adberbioek, berriz, sinonimia-antonimia dute ardatz gisa beraien<br />

antolakuntzan. (4) adibidean, properly adberbioaren antonimoa ikus dezakegu<br />

(improperly):<br />

(4) Sense 1<br />

{properly , decently, decent, right} (in the right manner)<br />

=> {improperly} (inanimproperway)<br />

<strong>WordNet</strong>eko sailkapena, beraz, synsetetan eta beraiek harrema<strong>net</strong>an jartzen<br />

dituzten erlazio semantikoetan datza. Erlazio semantiko hauen bidez,<br />

synsetak hierarkikoki multzokatzen dira, edo, beste era batera esanda, klase<br />

semantikoak osatzen dira. Horrela, <strong>WordNet</strong>ek izenak hierarkiatan banatzen<br />

ditu, eta hierarkia hauetako bakoitza klase semantiko bati dagokio.<br />

Klase semantiko hauetako bakoitzean, klase horretako izenen antolaketaren<br />

hastapena dago, unique beginner deritzona. Hau izango da klase semantiko<br />

horren hierarkian mailarik altuena eta orokorrena, eta bere ezaugarri guztiak<br />

bere hiponimoek heredatuko dituzte. (5)eko taulan <strong>WordNet</strong>eko izenak<br />

sailkatzen dituzten 25 unique beginnerrak datoz zerrendatuta. Aldi berean,<br />

unique beginner horiek <strong>WordNet</strong>eko izenek osatzen dituzten klase semantikoak<br />

adierazten dituztela esan dezakegu, unique beginner bakoitzaren azpian<br />

klase horri dagozkion izen guztiak jasotzen baitira. Esate baterako, food<br />

unique beginnerraren azpian janariarekin zerikusia duten izenak egongo dira<br />

hierarkikoki antolatuta. Ondorioz, multzo horrek janariari dagokion klase<br />

semantikoa osatzen du.<br />

{act, action, activity} {animal, fauna} {artifact}<br />

{tribute, property} {body, corpus} {cognition, knowledge}<br />

{communication} {event, happening} {feeling, emotion}<br />

{food} {group, collection} {location, place}<br />

(5) {motive} {natural object} {natural phenomenon}<br />

{person, human being} {plant, flora} {possession}<br />

{process} {quantity, amount} {relation}<br />

{shape}<br />

{time}<br />

{state, condition} {substance}<br />

4Aditzen kasuan, eta gero IV.1.2 atalean ikusiko dugun bezala, hiperonimia-troponimia<br />

erlazioaz hitz egiten da.


IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 73<br />

Honezaz gain, izenak klase semantikoetan banatuak egoteak badu beste<br />

arrazoi praktiko bat: klase semantiko bakoitza fitxategi batean jasota dago<br />

(semantic field deiturikoa) 5 . <strong>WordNet</strong> garatzeko lexikografoek hogeita bost<br />

fitxategi hauek beraien artean banatu eta fitxategiz fitxategi ingeleseko Word-<br />

Net osatzen joan ziren 6 . Hala, lexikografo bakoitzak eremu semantiko bereko<br />

kontzeptuak lantzen zituen.<br />

Ondoren (IV.1.2 atalean), ikuspegi sintaktiko-semantikoan sakontzearren,<br />

aditzaren azterketan murgilduko gara.<br />

IV.1.2 Aditza eta informazio sintaktiko-semantikoa<br />

Askotan aipatu dugun bezala, sintaxi-semantika elkargunearen muina aditza<br />

da, esaldiaren antolakuntza hartzen baitu bere baitan. Arrazoi honengatik,<br />

<strong>WordNet</strong>en jasota dagoen informazio sintaktiko-semantikoa aditzari lotua<br />

dago.<br />

<strong>WordNet</strong>en aditzen synsetak, irizpide semantikoan oinarrituz, 14 klase<br />

semantikotan banatuak daude (motion; perception; contact; change; communication;<br />

competition; cognition; consumption; creation; emotion; perception;<br />

possession; bodily care and functions; verbs referring to social behaviour and<br />

interaction). Bestetik, 14 klase semantiko horietan lekurik ez duten aditzen<br />

multzoa dago (verbs denoting states delakoan), eta aditz hauek (be, belong,<br />

resemble...) egoera adierazten dute 7 .<br />

Izenekin ikusi dugun bezala, klase semantiko hauetako bakoitzean aditz<br />

horien antolaketaren hastapena dago, unique beginner deritzona. Esaterako,<br />

communication klase semantikoak unique beginner bezala communicate<br />

synseta du eta ho<strong>net</strong>atik hasten da klase semantiko ho<strong>net</strong>ako aditzen sailkapena.<br />

5 <strong>Euskara</strong>z eremu semantiko deritzogu.<br />

6 Hogeita bost unique beginnerren artean hainbat multzo egin dira. Esate baterako,<br />

horietatik zortzi tangible things bezala sailkatu dituzte, bost abstraction bezala; eta hiru<br />

psychological features bezala. Hala, unique beginnerren kopurua hogeita bostetik hamaikara<br />

murriztu dute.<br />

7 Izenekin bezala, klase semantiko bakoitza fitxategi batean jasota dago.


74 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

Klase semantiko hauek aditzen sailkapenerako aproposak izan arren, euren<br />

arteko muga ez da guztiz hertsia. Hori dela eta, aditz batzuk klase semantiko<br />

bat baino gehiagotan egon daitezke; adibidez, ingeleseko The bullet<br />

whistled past him 8 esaldian, whistle aditza communication klaseari dagokion<br />

synset bat du (make whistling sounds glosaduna), eta motion klase semantikoari<br />

dagokion beste synset bat du (move with, or as with, a whistling sound<br />

glosaduna).<br />

Gorago azaldu dugun bezala (IV.1.1), <strong>WordNet</strong> synseten arabera dago<br />

antolatua, eta, beraz, synseta osatzen duten sinonimoak beraien artean<br />

truka daitezke testuinguru konkretu batzuetan. Aditzen kasuan trukatze<br />

hau bideratzea zaila gertatzen da. Batzuetan aditzek —end/terminate eta<br />

rise/ascend bezalako anglosaxoi/grekolatindar hitz pareek adibidez— adiera<br />

bera izan arren, erregistro ezberdina eskatzen dute. Adibidez, anglosaxoi/grekolatindar<br />

hitz pareen kasuan grekolatindarrek besteak baino erabilera<br />

jasoagoa dute.<br />

Beste batzuetan, ordea, aditzen arteko adiera-aldaketa hautapen-murriztapen<br />

ezberdinekin azaleratzen da. Esaterako, ingeleseko rise eta fall aditzek<br />

entitate abstraktuak (temperature, prices. . . ) har ditzakete argumentu gisa;<br />

aurrekoen adieraren oso antzekoa duten ascend eta descend aditzek, berriz,<br />

ezin dute argumentu mota honekin agertu (Fellbaum, 1998a). Horrelako kasuetan,<br />

<strong>WordNet</strong>en irizpide nagusia aditzak synset desberdi<strong>net</strong>an banatzea<br />

da, hau da, rise eta ascend bi synsetetan kokatzea.<br />

Hortaz, hautapen-murriztapenak kontuan hartzen dituzte hierarkia osatzeko<br />

garaian, baina ontologian oraindik ez dago adierazita zeintzuk diren<br />

aditz bakoitzak hartzen dituen hautapen-murriztapen konkretuak. Hau da,<br />

<strong>WordNet</strong>eko interfaze informatikoak ez du eskaintzen rise eta entitate abstraktuak<br />

(<strong>WordNet</strong>en abstraction ale lexikala daraman synsetaren bitartez<br />

adierazten dena) hautapen-murriztapen gisa lotzeko biderik.<br />

Hautapen-murriztapenekin bezala, ale lexikal baten synsetak ezberdintzerakoan<br />

azpikategorizazioa kontuan hartzen dute, informazio hau aditzaren<br />

adiera bakoitzeko proposatuz, baina rol tematikorik aipatu gabe:<br />

8 Adibidea Fellbaumen la<strong>net</strong>ik (1998a) hartua da.


IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 75<br />

(6) 4 senses of “descend”<br />

Sense 1<br />

{descend, fall, go down} (move downward but not necessarily all the way)<br />

EX: The airplane is sure to descend<br />

Sense 2<br />

{derive, come, descend} (come from; be connected by a blood relationship)<br />

Something is — -ing PP<br />

Somebody — -s PP<br />

Sense 3<br />

{condescend, descend} (do something that one considers to be below. . . )<br />

Somebody — -s to INFINITIVE<br />

Sense 4<br />

{stoop, descend} (to sink in status or dignity, or worsen in condition)<br />

Somebody — -s PP<br />

Horrela, bada, <strong>WordNet</strong>, aurretik ikusi ditugun lanen eredutik banandu<br />

egiten da, semantika deskonposatzailea jarraitzen dute<strong>net</strong>atik alegia.<br />

Jackendoff-ek bere lanean (1990), adibidez, primitiboak baliatuta egiten du<br />

aditzen azterketa (TO, FROM, TOWARD, AWAY-FROM, CAUSE, GO,<br />

VIA...). <strong>WordNet</strong>en ale lexikalak ez daude unitate txikiagoetan deskonposatuak.<br />

<strong>WordNet</strong>ek loturazko semantikaren (relational semantics) ildotik<br />

jorratzen ditu aditzak; hortaz, synsetak hitzekin osatzen dira eta ez tasun<br />

edo primitiboekin. Hala eta guztiz ere, synseten arteko harreman semantikoek<br />

deskonposaketaren alderdi batzuk ere eskain ditzakete. Nahiz eta Word-<br />

Netek primitiboak edo antzeko tasun txikiagoak ez erabili, hauetako batzuk<br />

agerian geratzen dira harreman semantikoen bidez. Adibidez, semantika deskonposatzailean<br />

oihartzun gehien duen tasu<strong>net</strong>ako bat kausa da (CAUSE<br />

primitiboa deitzen duena Jackendoffek). <strong>WordNet</strong>en informazio hau cause<br />

erlazio semantikoarekin ikus dezakegu, eta bere bitartez learn aditza teach<br />

aditzaren ondorioa dela jakin dezakegu:<br />

(7) 1 of 6 senses of “learn”<br />

Sense 5<br />

{teach, learn, instruct} (impart skills or knowledge to)<br />

=> {learn} (acquire or gain knowledge or skills)<br />

Bestetik, mugimendua adierazten duen tasunak (Jackendoffek (1990) GO<br />

deitzen duenak) hierarkiaren hastapen diren unique beginnerrek adieraz ditzakete.<br />

Run aditza adibide gisa hartuz gero, bere hiperonimo garaiena<br />

—motion klase semantikoaren unique beginnerra dena—, {go, move, travel,


76 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

locomote} synsetaz osatzen da 9 , eta honek erakusten digu run mugimenduzko<br />

aditza dela.<br />

(8) Sense 1<br />

{run} (move fast by using one’s feet, with one foot off the ground at any. . . )<br />

=> {travel rapidly, speed, hurry, zip} (move very fast)<br />

=> {travel, go, move, locomote} (change location)<br />

Amaitzeko, aditzen moduaren berri hierarkian bertan dugu. Arestian hitz<br />

egin dugu hiperonimia-hiponimia erlazio semantikoaz. Aditzek erlazio honen<br />

antzekoa duten arren, Fellbaumek (1998b) hiponimiaren ordez troponimia<br />

erabiltzea erabaki zuen. Honen arrazoia da aditzek dutela IS-A erlazioa betetzen.<br />

Honen ordez, to x is to y in some particular manner definitzen da<br />

aditzen hierarkiak osatzeko. Hortaz, aditz hiperonimo baten (walk) troponimoak<br />

aditz hiperonimoak adierazten duena egiteko moduak izango dira<br />

(trot, march...). Hala, <strong>WordNet</strong>ek hitzaren kategoriaren arabera baliabide<br />

semantiko desberdinak erabiltzen ditu ezagutza sintaktiko-semantikoa berri<br />

emateko. Ezagutza-baseko sarrera lexikal bakoitza ez dator zehaztuta tasun<br />

zerrenda batekin; zehaztuta etorri beharrean, bere zehaztapena hierarkiatik<br />

jasotzen dituen tasu<strong>net</strong>atik dator.<br />

IV.1.3 Bestelako erlazio semantikoak<br />

Sinonimia eta hiperonimia-hiponimia/troponimia erlazio semantikoez gain,<br />

<strong>WordNet</strong>ek beste asko landu ditu. Hemen batzuen aipamen laburra egingo<br />

dugu 10 .<br />

Izenak lotuak egon daitezke ondorengo erlazio semantikoen bidez:<br />

• Part-whole relations:<br />

Zatia eta osotasuna harrema<strong>net</strong>an jartzen dituen erlazioak dira. Batetik,<br />

meronimia dago, X is a meronym of Y if Ys are parts of X definizioari<br />

jarraitzen diona; hatzak (9. adibidean, finger) eskuen (adibidean, hand) zati<br />

bat dira, eta eskua, aldi berean, besoarena (adibidean, arm):<br />

9 Motion klase semantikoak bi unique beginner ditu, bata {go, move, travel, locomote}<br />

(change location), eta bestea, {move, displace} (cause to move); lehenengoan ‘norbait/zerbait<br />

mugitzen da’, bigarrenean ‘norbaitek/zerbaitek norbait/zerbait mugitzen du’.<br />

10 Argibide gehiago Fellbaumen (1998a) eta Millerren (1985) la<strong>net</strong>an.


IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 77<br />

(9) 1 of 2 senses of “finger”<br />

Sense 1<br />

{finger} (any of the terminal members of the hand)<br />

PART MERONYM: {hand, manus} (the extremity of the superior limb)<br />

PART MERONYM: {arm} (the part of the superior limb between. . . )<br />

Bestetik, holonimia kontrako erlazioa da, x has a y (as a part) definizioarekin<br />

bat datorrena. Adibidez, eskuek (10. adibidean hand) hatzakdituzte<br />

(10. adibidean, finger):<br />

(10) 2 of 14 senses of “hand”<br />

Sense 1<br />

{hand} (the extremity of the superior limb)<br />

PART HOLONYM: {finger} (any of the terminal members of the hand)<br />

• Antonimia:<br />

Izen batzuek antonimoak dituzte eta erlazio semantiko honek lotzen ditu:<br />

(11) 1 sense of “victory”<br />

Sense 1<br />

{victory, triumph} (a successful ending of a struggle or contest)<br />

ANTONYM: {defeat, licking} (an unsuccessful ending)<br />

• Inplikazioa:<br />

Aditzen hierarkian erlazio semantiko nabarme<strong>net</strong>ako bat inplikazioa (ingelesez<br />

entailment) deritzona da (V1 logically entails V2 edota snore entails<br />

sleeping).<br />

(12) 1sense“snore”<br />

Sense 1<br />

{snore} (breath noisely during one’s sleep)<br />

ENTAILMENT: {sleep} (be asleep)<br />

Esan bezala, erlazio semantiko batzuk baino ez ditugu aipatu. <strong>WordNet</strong>en<br />

gehiago daude eta hauen kopurua handituz joan da.


78 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

IV.1.4 Erabilera<br />

<strong>WordNet</strong>ek 117.617 synset ditu (81.426 izen, 13.650 aditz, 18.877 adjektibo<br />

eta 3.664 adberbio) 11 .<br />

<strong>WordNet</strong>en erabilerak era askotakoak izan dira. Alde batetik, hiztegi eta<br />

thesaurus gisa erabili izan da. Hiztegi tradizionaletan bezala, <strong>WordNet</strong>ek<br />

synset bakoitzeko definizio bat du, gehie<strong>net</strong>an adibide eta guzti. Gainera,<br />

synset bakoitzean ale lexikal bat baino gehiago egon daitezkeenez, thesaurus<br />

bezala balia daiteke, adiera berdina adierazteko sinonimo desberdinak<br />

ditugulako.<br />

Esan beharra dago, <strong>WordNet</strong> ezaugarri psikolinguistikoetan oinarrituta<br />

egon arren, psikolinguistek ez dutela kontu handian hartu eta hizkuntzalari<br />

konputazionalei interesgarriagoa iruditu zaiela. Hala, LNPri begira,<br />

<strong>WordNet</strong>ek erabilera ugari izan ditu. <strong>WordNet</strong>eko web orrian agertzen den<br />

bibliografian 12 hau erakusten duten 2.000 artikulu inguru daude. Guk arlo<br />

bakoitzetik garrantzitsuenak baino ez ditugu aipatuko:<br />

• Hitzen adieren desanbiguazioan: <strong>WordNet</strong> adieran oinarritutako<br />

ontologia denez, <strong>WordNet</strong>eko informazioak, hau da, adierak hierarkikoki<br />

antolatuta egoteak desanbiguazioaren atazan lagundu egiten du.<br />

Hots, hitzaren testuinguruan dauden beste hitzei erreparatuta, eta desanbiguatu<br />

nahi den hitzaren <strong>WordNet</strong>eko erlazio semantikoak ezagututa,<br />

hitzaren adiera zuzen posibleen aukera aukera txikitu egiten da.<br />

Adibidez, This letter has no address esaldian, letter hitzak, gutxienez,<br />

bi adiera izan ditzake: bata, ‘gutun’ adiera, eta bestea ‘hizki’ adiera.<br />

Hiztegi arruntetan, hitz hauen adieraren definizioa izango genuke.<br />

Aldiz, <strong>WordNet</strong>ek bi adiera hauen glosak emateaz gain, hiztegietan ez<br />

dagoen, eta desanbiguaziorako oso erabilgarria den, informazio gehigarria<br />

ematen digu: erlazio semantikoak. Esate baterako, ‘gutun’ adiera<br />

duen synseta address synsetarekin lotua dago meronimia erlazioaren<br />

bitartez. Kasu ho<strong>net</strong>an, desanbiguazio algoritmoak <strong>WordNet</strong>eko erlazioak<br />

eta testuinguruan duen informazioa erabilita, letter hitzari ‘gutun’<br />

adiera egokituko dio. Arlo ho<strong>net</strong>an esperimentu ugari egin dira (Miller<br />

et al., 1994; Banerjee eta Pedersen, 2002; Agirre eta Martínez, 2000;<br />

Matwin et al., 1995).<br />

11 <strong>WordNet</strong>en azkeneko bertsioaz ari gara, 3.0 bertsioaz, alegia:<br />

http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).<br />

12 Ikus http://engr.smu.edu/rada/wnb/web orrian (2007-07-02an atzitua).


IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 79<br />

• Itzulpen automatikoan: Itzulpen automatikorako sistemek hiztegi<br />

edo EBL bat behar dute, batetik, hitzen adieren desanbiguaziorako,<br />

eta bestetik, desanbiguatutako adierari dagokion erdarako ordaina<br />

egokitzeko. Letter adibidearekin ikusi dugun bezala, <strong>WordNet</strong>ek hitzen<br />

adieren desanbiguazioan lagun dezake, baina ingeleseko EBLa izaki,<br />

ezin ditu erdarako ordainak esleitu; hau da, ezin du letter izena gutun<br />

edo carta bezala itzuli. Horretarako, beste hizkuntzetako hiztegi eta<br />

EBLekin bateratu behar da, eta horixe izan da zenbait la<strong>net</strong>an egin<br />

dena: Dorr (1993, 1997) Rigau et al. (1995), Knight (1993), Moon<br />

eta Kim (1995) eta abar. Esate baterako, Knightek (1993) <strong>WordNet</strong>ez<br />

gain, The Harper Collins Spanish-English/English-Spanish Dictionary<br />

(Collins, 1971) eta gaztelaniako ULTRA lexikoia erabili ditu. Hala ere,<br />

itzulpen automatikoko erabilera areagotu egin da, <strong>WordNet</strong>en ondorengo<br />

ereduekin (Euro<strong>WordNet</strong> eta MCR), hauek EBL eleanitzak baitira.<br />

• Informazio-erauzketan: <strong>WordNet</strong> lagungarria izan daiteke erabiltzaileari<br />

beharrezkoa zaion edukia bere barne daukan dokumentua aurkitzeko.<br />

Bilaketan erabilitako hitzek indexatutako dokumentuetan daudenen<br />

berdinak izan behar dute 13 , emaitza egokia lortzeko. Baina, askotan<br />

gertatzen da erabiltzaileak galderan erabilitako hitza ez egotea<br />

indexatua. Kasu horretan, <strong>WordNet</strong>en erlazio semantikoek lagun dezakete,<br />

informazio-erauzketa sistemaren emaitzak hobetuz: sistemak<br />

erabiltzaileak idatzitakoa (demagun, dog dela) hedatu egiten du; hau<br />

da, hitz horren sinonimoak (canis familiaris), hiponimoak (puppy, hunting<br />

dog, dalmatian, Pekinese...) eta hiperonimoak (canine, domestic<br />

animal...) bilatzen ditu. Hala, dog hitzari buruzko galdeketa eginez<br />

gero, sistemak hitz honi lotutako dokumentuak zerrendatzen ditu. Zenbait<br />

saiakera egin dira. Esaterako, Magnini eta Strapparava (2001),<br />

Mandala et al. (1998), Milhacea eta Moldovan (2001), besteak beste.<br />

• Galdera-erantzun sistemetan: <strong>WordNet</strong>eko synseten arteko harremanek<br />

galdera bati dagozkion erantzunak ezagutzen laguntzen dute<br />

(Pasca eta Harabagiu, 2001; Harabagiu eta Moldovan, 1996; Mann,<br />

2002; Ansa et al., 2005, eta abar). Galdera-erantzun sistemek erabiltzaileak<br />

idatzitako galderaren (adibidez, Nor da Kubako gobernuburua?)<br />

erantzuna lortzen dute. Horretarako, informazio-erauzketan<br />

13 Informazio-erauzketa egin ahal izateko, aldez aurretik, dokumentuak egituratu behar<br />

dira, gero sistemari bilaketak errazteko.


80 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

bezala, galderan erabilitako hitzak indexatutako dokumentuetan agertu<br />

behar dute, hauetatik erantzun zehatza lortu ahal izateko. Hala,<br />

galde-erantzunean informazio-erauzketa beharrezkoa da, galderaren<br />

erantzunak indexatutako dokumentuetan bilatzen baitira. Beraz, hemen<br />

ere <strong>WordNet</strong>en erlazio semantikoak erabilita galdera hedatu egiten<br />

da: esate baterako, gobernu-bururen hiponimoak lehendakari eta presidente<br />

dira, eta hiperonimoak ordezkari, pertsona eta abar. Hauei esker,<br />

galderaren erantzuna bilatzeko erabili behar diren dokumentuen esparrua<br />

handitu egiten du. Hau da, Kubako gobernu-burua duten dokumentuak<br />

begiratzeaz gain, sistemak Kubako presidentea edota Kubako<br />

lehendakaria duten dokumentuetan ere begiratuko du erantzunaren bila.<br />

Azkenik, nabarmendu nahi dugu, <strong>WordNet</strong>ekin etiketatutako corpusa<br />

—SemCor (Miller et al., 1994; Fellbaum et al., 2001)— oso lagungarria<br />

gerta daitekeela ataza hauentzat guztientzat. Sistemek corpusetik<br />

ikasi egiten dute. Arestian aipatutako adibidearekin jarraituz,<br />

letter hitza ‘gutun’ adierarekin etiketatutako agerpe<strong>net</strong>an zein testuingurutan<br />

agertu den ikasiko du. Hau da, letter hitza gutun adierarekin<br />

agertu den bakoitzean, bere testuinguruko hitzak (eta hitz horien<br />

adierak) zein diren memorizatu egingo du nolabait makinak. Honela,<br />

letter hitzaren hurrengo agerpe<strong>net</strong>an, memorizatutako informazio ho<strong>net</strong>an<br />

oinarrituko da makina erabaki bat hartzeko. Hau guztia teknika<br />

estatistiko konplexuak erabiliz egiten da.<br />

Aipatu dugun bezala, <strong>WordNet</strong> abiapuntutzat hartuta, beste ezagutzabase<br />

batzuk egin dira: Euro<strong>WordNet</strong> (Vossen, 1998) eta The Multilingual<br />

Central Repository (MCR)(Atserias et al., 2004). Oinarri bera erabili arren,<br />

aberasketa batzurekin hornitu dute <strong>WordNet</strong>. Hurrengo ataletan (IV.2 eta<br />

IV.3) hauen berri emango dugu, oso laburki bada ere. Batez ere, sintaxisemantika<br />

elkarguneari erreparatuko diogu.<br />

IV.2 Euro<strong>WordNet</strong><br />

Euro<strong>WordNet</strong> proiektua (Vossen, 1998) 1996an hasi eta 1999 urteraino luzatu<br />

zen proiektu europarra da. Ezagutza-base eleanitza da, Europako zortzi<br />

hizkuntzatara zabaltzen dena (ingelesa, nederlandera, italiera, gaztelania,<br />

alemana, frantsesa, txekiera eta estoniera).


IV.2 Euro<strong>WordNet</strong> 81<br />

Euro<strong>WordNet</strong>ek Princetoneko <strong>WordNet</strong>aren eredua jarraitzen du (ikus<br />

IV.1 atala); hots, Princetonen ingeleserako egindako <strong>WordNet</strong>aren hierarkiaren<br />

ideia bera darabil honek ere, eta modu berean adierazten dira, bai<br />

synsetak, bai erlazio semantikoak.<br />

Nahiz eta Euro<strong>WordNet</strong>en hizkuntza bakoitzak word<strong>net</strong> “independente”<br />

bat izan, Euro<strong>WordNet</strong>en helburua word<strong>net</strong> desberdin hauek guztiak<br />

ezagutza-base eleanitz bakarrean elkartzea da. Horretarako, hizkuntza guztien<br />

word<strong>net</strong> guztiek elkargune bat dute, Inter-Lingual-Indexa (hemendik<br />

aurrera ILI) deritzona, Princetoneko <strong>WordNet</strong> 1.5 bertsioari lotua dagoena.<br />

ILI honen bitartez, hizkuntza guztietako word<strong>net</strong>ak lotuak daude. Beste hitz<br />

batzuetan esanda, synset bera ingelesez, nederlanderaz, italieraz, gaztelaniaz,<br />

alemanez, frantsesez, txekieraz eta estonieraz agertzen da.<br />

IV.1 Irudia: Euro<strong>WordNet</strong>eko arkitektura.<br />

IV.1 irudiak eskematikoki word<strong>net</strong> desberdinen eta ILIaren arteko harremanak<br />

azalerazten ditu. Erdian ILIa dago, non ILI-records deiturikoak<br />

jasotzen diren. ILI-record bakoitza word<strong>net</strong>etako synset bati lotua dago 14 .<br />

Esate baterako, irudiko ILI-recorda gaztelaniako conducir synsetari lotua da-<br />

14 ILIko adierak Princetoneko <strong>WordNet</strong> 1.5 bertsiotik ateratakoak dira.


82 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

go, eta baita adiera hori bera duten beste hizkuntzetako driveri, rijdeneri eta<br />

guidareri ere. Hala, ILIan ILI-recordak daude, eta hauek hierarkian antolatu<br />

gabeko adieren zerrenda osatzen dute. ILIan adierak antolatu gabe egotean,<br />

ILIaren mantentze-lanak erraztu egiten ditu (bertsioen eguneraketak eta bestelako<br />

aldaketak eragozten dira honela). Hala ere, ILI-recorden egitura erauzi<br />

daiteke word<strong>net</strong> independenteetatik; hots, irudiko ILI-recordaren harreman<br />

semantikoak word<strong>net</strong> bakoitzean zeintzuk diren jakin dezakegu, ILI horrek<br />

word<strong>net</strong> independente guztiekin lotura duelako, eta word<strong>net</strong> independenteetako<br />

synsetak hierarkikoki antolatuta daudelako.<br />

<strong>WordNet</strong>en egitura, erlazio semantikoetan eta synsetetan oinarritu arren,<br />

<strong>WordNet</strong>ek ez zituen ezaugarri batzuk Euro<strong>WordNet</strong>en gaineratu dira.<br />

Aldaketarik aipagarrienak hurrengoak dira 15 :<br />

• Erlazio semantikoen aberasketa:<br />

<strong>WordNet</strong>eko erlazio semantiko batzuk findu egin dituzte eta beste erlazio<br />

semantiko batzuk aberastu. Batez ere, morfologikoki aldatzen diren kategoria<br />

ezberdinen arteko erlazioak ugaritu dituzte (nice eta niceness bezalakoak,<br />

alegia).<br />

Bestalde, Euro<strong>WordNet</strong>ek ez du <strong>WordNet</strong>en interfaze informatikoa;<br />

Euro<strong>WordNet</strong>ena interfaze berria da, hizkuntza bakoitzeko word<strong>net</strong>ak erlazio<br />

berriak gehitzeko aukera duelarik.<br />

• Hierarkiaren aberasketa:<br />

<strong>WordNet</strong>ek zuen hierarkiari, Domeinu-ontologia (Domain ontology) etaGoiontologia<br />

bat (Top ontology) gehitu dizkiote.<br />

Lehenbizikoak, synsetak domeinuen arabera antolatzen ditu: free time,<br />

restaurant, traffic, eta abar. Esate baterako, jokatu aditzak kirola adierazten<br />

duenean (futbolean jokatu diogunean, adibidez), synset horrek free time<br />

domeinuaren marka eramango du; zuzen jokatu esan nahi dugunean, ordea,<br />

adiera horri dagokion synsetak psychology marka izango du 16 .<br />

Bigarrenak, word<strong>net</strong> ezberdi<strong>net</strong>an gehien erabilitako synsetak oinarrizko<br />

ezaugarri semantikoen arabera sailkatzea ahalbidetzen du 17 , eta nolabait<br />

15 Argibide gehiago Vossenen lanean (1998).<br />

16 Domeinuen sailkapena ez da Euro<strong>WordNet</strong>eko interfazean ikusten, beste fitxategi ba-<br />

tzuetan daude.<br />

17 Goi-ontologiak goi aldeko synsetak sailkatu arren, hauen azpian dauden synsetek ere<br />

sailkapen hori mantentzen dute, beraien hiperonimoen ezaugarriak heredatzen dituztelako.


IV.2 Euro<strong>WordNet</strong> 83<br />

esateko, Euro<strong>WordNet</strong>eko domeinuen antza badute ere, hauen garapenean<br />

motibazio linguistiko sakonagoak hartu dira kontuan. Hau da, tasun linguistikoak<br />

([+/- bizidun], [+/- egile] adibidez) kontuan hartzen dituen ontologia<br />

da eta word<strong>net</strong>ak tasun hauen arabera eraikitzen dira. Hortaz, ale lexikal<br />

bat [+biziduna] bada Goi-ontologiaren [+biziduna] adabegiaren azpian kokatuko<br />

da eta [-biziduna] bada, aldiz, [-biziduna] ezaugarriaren azpian. Hala,<br />

<strong>WordNet</strong>en hierarkia mantentzen dute, baina, hierarkia hau ontologia linguistikoago<br />

batekin aberasten dute.<br />

Oinarrizko ezaugarri semantikoak definitzerakoan, Euro<strong>WordNet</strong>en sortzaileak<br />

hizkuntzalaritzan egon diren zenbait sailkapen semantikoen eredutan<br />

oinarritu dira: Vendler (1967), Verkuyl (1972), Dowty (1979), Pustejovsky<br />

(1991), Levin (1993), Lyons (1977) eta Pustejovsky (1995) autoreen ereduetan,<br />

besteak beste.<br />

Guztira, 63 ezaugarri semantikok osatzen dute Goi-ontologia hau, eta<br />

Lyonsen lanari (1977) jarraituz hiru maila bereizi dituzte:<br />

• Lehenengo mailako entitateak (1st Order Entity): Zentzuen<br />

bidez antzeman daitezkeen eta denboran/lekuan antzeman daitekeen<br />

entitateak dira (animalia, objektu, substantzia eta antzeko ale lexikalak).<br />

• Bigarren mailako entitateak (2nd Order Entity): Edozein egoera<br />

estatiko edo dinamiko, zentzuen bidez objektu fisiko bezala ezagutu<br />

ezin daitekeena. Denboran koka daitezke eta gertatu egiten dira existitu<br />

baino gehiago (gertatu, hasi, jarraitu, izan, eduki, amaitu bezalako ale<br />

lexikalak). Beraz, ekintzak, prozesuak eta egoerak adierazten dituzten<br />

ale lexikalak maila honen azpian egongo dira.<br />

• Hirugarren mailako entitateak (3rd Order Entity): Ikus ezin<br />

daitezkeen proposizioak dira, denbora eta lekuan koka ezin daitezkeenak.<br />

Proposizioak direnez, egiatzat edo gezurtzat uler daitezke,<br />

errealtzat edo irrealtzat baino (ideia, pentsamendu, informazio, teoria,<br />

plana bezalakoak).<br />

Goi-ontologiako maila hauen arteko desberdintasuna ageriagoa da hauek<br />

adierazteko erabiltzen diren kategoria sintaktikoei erreparatzen badiegu:<br />

• Lehenengo mailako entitateak (1st Order Entity): izen<br />

konkretuak


84 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

• Bigarren mailako entitateak (2nd Order Entity): izenak<br />

(orotarikoak), aditzak eta adjektiboak<br />

• Hirugarren mailako entitateak (3rd Order Entity): izen<br />

abstraktuak<br />

IV.1 irudian Goi-ontologiaren hierarkia guztia zerrendatua ikus dezakegu.<br />

Goi-ontologiak EBLaren informazioa aberasteaz gain, beste zeregin bat<br />

ere badu: word<strong>net</strong> independenteen bateragarritasuna ziurtatzea. Esan dugun<br />

bezala, gehien erabiltzen diren synsetak oinarrizko ezaugarri semantikoen<br />

arabera sailkatzen ditu goi-ontologiak. Gehien erabiltzen diren synset hauei<br />

oinarrizko kontzeptuak (Base Concepts) deitzen zaie eta beraien ezaugarriak<br />

hurrengoak dira:<br />

• Harreman semantikoen kopuru handiena duten synsetak dira.<br />

• Hierarkian goi aldeko synsetak dira.<br />

• Word<strong>net</strong> guztietan agertuko dira.<br />

Euro<strong>WordNet</strong>eko datu-baseak hizkuntza bakoitzeko word<strong>net</strong> independente<br />

bat egiteko aukera ematen du, baina gutxieneko bateragarritasun bat ziurtatzeko<br />

oinarrizko kontzeptuen zerrenda adostu egin zen, eta word<strong>net</strong> bakoitzaren<br />

garapena synset horiekin hasi zen. Hortaz, word<strong>net</strong> guztiek izango<br />

dituzte oinarrizko kontzeptu berdinak, eta hierarkikoki era berean antolatuak<br />

egongo dira.<br />

IV.1 irudian ikus daitekeen bezala, Goi-ontologia eta Domeinuontologia<br />

word<strong>net</strong>etatik independente dauden moduluak dira. Hauen ezaugarriak<br />

ILI-recordek jasoko dituzte, eta ILI-record horien bitartez word<strong>net</strong>etako<br />

synsetek. Esate baterako, Location eta Dynamic goi-ezaugarriak<br />

drive ILI-recordari daude zuzenean lotuta, eta, ondorioz, ezaugarri hauek<br />

zeharka jasotzen dituzte ILI-record horrekin harrema<strong>net</strong>an dauden word<strong>net</strong><br />

desberdi<strong>net</strong>ako kontzeptuek (guidare, conducir, drive, rijden).<br />

Euro<strong>WordNet</strong> <strong>WordNet</strong>en oinarritutako ezagutza-basea denez, informazio<br />

sintaktiko-semantikoa, <strong>WordNet</strong>en parekoa da (ikus IV.1.2 atala).<br />

Hala eta guztiz ere, Euro<strong>WordNet</strong>eko Goi- eta Domeinu-ontologiari esker,<br />

informazio sintaktiko-semantikoa aberatsagoa du. Hau da, <strong>WordNet</strong>en synset<br />

batek bere tasun sintaktiko-semantikoak hierarkiatik jasotzen ditu;<br />

Euro<strong>WordNet</strong>ek synset hauek guztiak ditu, eta gainera Goi- eta Domeinuontologiatik<br />

datozkionak.


IV.2 Euro<strong>WordNet</strong> 85<br />

Top<br />

1st Order Entity 2nd Order Entity<br />

Origin Situation Type<br />

Natural Dynamic<br />

Living Bounded Event<br />

Plant Unbounded Event<br />

Human Static<br />

Creature Property<br />

Animal Relation<br />

Artifact<br />

Form Situation Component<br />

Substance Cause<br />

Solid Agentive<br />

Liquid Phenomenal<br />

Gas Stimulating<br />

Object Communication<br />

Composition Condition<br />

Part Existence<br />

Group Experience<br />

Function Location<br />

Vehicle Manner<br />

Representation Mental<br />

Money Representation Modal<br />

Language Representation Physical<br />

Image Representation Possession<br />

Sofware Purpose<br />

Place Quantity<br />

Occupation Social<br />

Instrument Time<br />

Garment Usage<br />

Furniture<br />

Covering<br />

Container<br />

Comestible<br />

Building<br />

3rd Order Entity<br />

IV.1 Taula: Euro<strong>WordNet</strong>eko Goi-ontologia.


86 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

IV.1.2. atalean run aditza hartu dugu adibide gisa, <strong>WordNet</strong>en dagokion<br />

unique beginnerrak ({travel, go, move, locomote} synsetak) mugimendu tasuna<br />

ematen diola ikusteko. Euro<strong>WordNet</strong>en run synset honek berak, tasun<br />

hori izango du (IV.2 irudian motion), baina horretaz gain, interfazean bertan<br />

(ikus IV.2 irudia) Goi-ontologiako dynamic eta location tasunak ere ikusten<br />

ditugu 18 .<br />

IV.2 Irudia: Run aditzaren synset bat eta bere hiperonimoak EuroWord-<br />

Neteko interfazean.<br />

IV.2 irudian Euro<strong>WordNet</strong>eko synsetek interfazean duten itxura ikus dezakegu,<br />

eta bertan gorriz dauden Dynamic eta Location dira Goi-ontologiako<br />

markak. Nahiz eta Goi-ontologiako tasunak run aditzaren synsetean bertan<br />

ez egon, bere hiperonimoetatik jasotzen ditu. Euro<strong>WordNet</strong>en tasun hauek<br />

ez dituzte synsetez synset adierazten, defendatzen dutelako hierarkiari esker<br />

herentziaz jaso daitezkeela.<br />

Azalduriko ezaugarriek —eleaniztasunak eta ikerkuntzarako erabilgarria<br />

izateak, alegia— oso egoki bihurtu dute ezagutza-base hau LNPren bar-<br />

18 Aditz honek Goi-ontologiako bi adabegietan du hastapena.


IV.3 The Multilingual Central Repository (MCR) 87<br />

nean erabiltzeko, batik bat, informazio-erauzketa elebakar eta elebidunerako<br />

(Cuypers et al., 1997; Gilarranz et al., 1996; Vossen, 1997). Arrazoi horregatik,<br />

gaur egun, hainbat word<strong>net</strong> berri sortzen ari dira (katalana, portugesa,<br />

grekoa, suediarra, errumaniarra, bulgariarra, norvegiarra, lituaniarra, errusiarra...),<br />

Euro<strong>WordNet</strong>en ezagutza-basean oinarrituta. IXA taldean ere,<br />

tesi ho<strong>net</strong>an arrazoitutakoari jarraiki, euskararako word<strong>net</strong>a garatzen hasi<br />

gara (Agirre et al., 2002). Euro<strong>WordNet</strong> kontsultarako interfazea publikoa<br />

da 19 .<br />

IV.3 The Multilingual Central Repository (MCR)<br />

The Multilingual Central Repository (MCR) interfaze eleanitza da, non Europa<br />

Batzordeko MEANING: Developing Multilingual Web-Scale Language<br />

Technologies (IST-2001-34460) proiektuan (Rigau et al., 2003) aztertu den<br />

informazio guztia integratzen den. Ezagutza-base honek Euro<strong>WordNet</strong>en<br />

eredua jarraitzen du.<br />

MCRk bost hizkuntzetako word<strong>net</strong>ekin egiten du lan: euskara, katalana,<br />

ingelesa (Princetoneko <strong>WordNet</strong>aren 1.5, 1.6, 1.7 eta 1.7.1 bertsioekin), italiera<br />

eta gaztelania. MCR bost hizkuntza horien izen, aditz, adjektibo eta<br />

adberbioen adieren inbentarioa da, eta Euro<strong>WordNet</strong>en ereduari jarraiki, hizkuntza<br />

guztiak lotuta daude. Horregatik, hizkuntza bateko synset batekin<br />

beste hizkuntzetakoa ere ikusgarri dago.<br />

MCR Euro<strong>WordNet</strong>en bertsio aurreratuagoa da. Hortaz, EuroWord-<br />

Neten gisa, MRCn ILIak (kasu ho<strong>net</strong>an <strong>WordNet</strong> 1.6n oinarritutakoa),<br />

Goi-ontologia eta Domeinu-ontologiak erabiltzen ditu. MCR <strong>WordNet</strong> eta<br />

Euro<strong>WordNet</strong>en informazioaz baliatzen da, eta ho<strong>net</strong>az gain, informazio berria<br />

dakar:<br />

• Domeinu-ontologiaren bertsio aberatsago bat:<br />

Euro<strong>WordNet</strong>eko domeinuak ugaritu eta orraztu dituzte 20 , hierarkian egon<br />

zitezkeen irregulartasunak gainditzeko. Bestalde, entitate edo izen bereziei<br />

19http://ixa2.si.ehu.es/mcr/wei.html (2007-07-02an atzitua) web orrian dago eskuragarri.<br />

20Euro<strong>WordNet</strong>eko hainbat domeinu gehiago zehaztu dituzte, “azpidomeinuak” sortuaz.<br />

Esate baterako, jokatu aditzak kirol adiera duenean, Euro<strong>WordNet</strong>eko free time domeinua,<br />

domeinuaren barruko sport azpidomeinuarekin zehaztu dute.


88 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

domeinuak esleitu dizkiete, eta horren ondorioz, domeinuka antolatutako izen<br />

berezi eta entitateen ezagutza-base bat da egitasmo horren emaitza.<br />

• The Suggested Upper Merged Ontology:<br />

The Suggested Upper Merged Ontology (SUMO) (Niles eta Pease, 2001) Terminology<br />

Corporationen sortutako goi-ontologia da, IEEE Standard Upper<br />

Ontology Working taldean abiapuntu gisa erabiltzen dutena. SUMO, ontologia<br />

ezberdinen bilkuraren emaitza da — Sowa-ren (2000) goi-ontologia, Allenen<br />

(1984) denbora-axiomak, Guarino-ren mereotopologia formala (Guarino,<br />

1997; Borgo et al., 1996), <strong>WordNet</strong> 1.6...—, eta termino orokorren definizioak<br />

jasotzen dira.<br />

MCRn, oraingoz, SUMOko hiperonimia erlazioak eta etiketak bakarrik<br />

daude.<br />

• Hautapen-murriztapenak:<br />

MCR ezagutza-baseak aditzen hautapen-murriztapenak kontsultatzeko aukera<br />

ematen du Role erlazio semantikoa erabilita. Zazpi Role mota daude:<br />

agentea (Role agent), norabidea (Role direction), baliabidea (Role instrument),<br />

kokalekua (Role location), gaia (Role patient), abiapuntua (Role<br />

source location) etahelmuga (Role target direction).<br />

Hala ere, nahiz eta interfazeak hautapen-murriztapenak jasotzeko aukera<br />

izan, Role harreman semantiko hauek hutsik daude; hots, oraindik ez da<br />

informazio hau eskuratu eta interfazean txertatu. Dena den, synseten arteko<br />

hautapen-murriztapenak eskuratzeko, dagoeneko saiakera batzuk egin<br />

dira: Carroll et al. (2003) eta tesi-txosten honen VII. kapituluan dakarkiguna.<br />

Bi lan hauetan hautapen-murriztapenen azterketa automatikoa egin<br />

da; hau da, teknika konputazional desberdinak erabiliaz zenbait corpusetatik<br />

(British National Corpus eta SemCorretik, hain zuzen ere) aditzen hautapenmurriztapen<br />

batzuk eskuratu eta ebaluatu dira. Eskuratze automatikorako<br />

baliabide eta teknika konputazional ezberdinak baliatzen dira, konbinazio<br />

ezberdinen emaitzak alderatzeko. Hala, emaitzarik onenak ematen dituen<br />

teknika-baliabideen konbinazioa definitu ondoren, hautapen-murriztapenen<br />

eskuratzea masiboa egingo da, gerora, MCRn txeratzeko.<br />

Hala, corpusetako datuetan oinarrituz, Role erlazio semantikoen bitartez<br />

aditz batekin ager daitezkeen ale lexikoak eta har ditzaketen rol tematikoak<br />

bereizteko gai dira. Ondorioz, MCRn aditzaren rol tematikoen berri ematen<br />

duen erlazio semantikoa genuke.


IV.3 The Multilingual Central Repository (MCR) 89<br />

MCRn, ale lexikalak kategoriaka antolatuta daudenez (<strong>WordNet</strong> eta<br />

Euro<strong>WordNet</strong>en bezala) Role erlazioak inplizituki azpikategorizazioaren berri<br />

ere eman dezake. Esate baterako, eta IV.3 irudian adierazten den bezala,<br />

Role patient erlazioaren bidez jakin genezake edari izena edan aditzaren<br />

hautapen-murriztapena dela 21 , izena dela bere kategoria eta gaia bere rol tematikoa.<br />

IV.3 irudiak Role patient erlazioa MCRn nola adieraziko litzatekeen<br />

erakusten du.<br />

IV.3 Irudia: edari izenari dagokion Role patient erlazioa MCR interfazean.<br />

21 Edan aditzaren hautapen-murriztapena edari eta honen hiponimo guztiak ere badira.


90 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />

IV.4 Irudia: Gaztelaniako pasta izenaren bi synset MCR interfazean.<br />

MCRren kontsultarako interfazea publikoa da 22 . IV.4 irudian, MCRko<br />

synsetek duten itxura ikus dezakegu. Euro<strong>WordNet</strong>eko interfazearen oso antzekoa<br />

izan arren, interfaze hau informazio gehiagorekin aberastu da (Goiontologia,<br />

Domeinu-ontologia, SUMO, etab.). Kasu ho<strong>net</strong>an, gaztelaniako<br />

pasta izenaren bi synset ditugu: bata ‘jaki’ adierari dagokiona (shaped and<br />

dried dough made from flour and water and sometimes egg glosaduna), eta<br />

bestea ‘diru’ adierari dagokiona (informal terms for money). Kontzeptu hauek<br />

guztiak ingelesez, katalanez, euskaraz eta italianoz ere ikus daitezke.<br />

Goi-ontologia, Domeinu-ontologia eta SUMOk synset hauen adiera ezberdintasuna<br />

hobeto ulertzen laguntzen dute. Euro<strong>WordNet</strong>en bezala, interfazearen<br />

ezkerretara eta gorriz Goi-ontologiako ezaugarriak adierazten dira:<br />

Comestible, Natural eta Substance ‘jaki’ari dagokion synsetarentzat; eta<br />

22 http://adimen.si.ehu.es/cgi-bin/wei5/public/wei.consult.perl (2007-07-<br />

02an atzitua).


IV.4 Laburbilduz 91<br />

Artifact, Function eta Money Representation ‘diru’ari dagokion synsetarentzat.<br />

Aipatu dugun bezala, Euro<strong>WordNet</strong>en tasun hauek ez dituzte synsetez<br />

synset adierazten, hierarkiari esker herentziaz jaso baitaitezke. MCRn, ordea,<br />

tasun hauek synset guztietan ikus daitezke. Horrela, informazio hori jakiteko<br />

ez dago hiperonimoetara jo beharrik. Lila kolorea baliatuz, SUMOren<br />

tasunak azaltzen dira: Food, ‘jaki’ari dagokion synsetarentzat; eta Currency<br />

Measure, ‘diru’ari dagokionarentzat. Beltzez, Domeinu-ontologiari dagozkion<br />

tasunak adierazten dira: gastronomy, ‘jaki’ari dagokion synsetarentzat,<br />

eta money ‘diru’ari dagokionarentzat. Adibide ho<strong>net</strong>an ez dago hautapenmurriztapenei<br />

buruzko informaziorik, baina hauen berri IV.3 irudian eman<br />

dugu.<br />

Horrela bada, <strong>WordNet</strong> eta Euro<strong>WordNet</strong> ezagutza-baseen ildotik jarraituz,<br />

MCRk erakutsi du hasieran egitasmo semantiko eta psikolinguistiko<br />

soilekin burutu zen ezagutza-basea baliagarria izan daitekeela informazio<br />

sintaktiko-semantikoa jasotzeko ere. Proiektu honen hurrengo urratsetan<br />

MCR informazio sintaktiko-semantiko gehiagorekin (azpikategorizazioa, erlazio<br />

semantiko konplexuagoak diatesi-alternantziak, Dorren ELKak (1997),<br />

eta abar) osatzeko asmoa dago.<br />

IV.4 Laburbilduz<br />

Kapitulu ho<strong>net</strong>an <strong>WordNet</strong> ereduaren azterketa sakonago bat aurkeztu dugu.<br />

<strong>WordNet</strong>en ardatza synseta eta hiperonimia-hiponimia harremana dela<br />

azaltzeaz gain, eredu honek dituen beste harreman semantiko eta ezaugarri<br />

batzuk ere aipatu ditugu. Euro<strong>WordNet</strong> eta MCR <strong>WordNet</strong>en hedapen<br />

eleanitzak izaki, eredu batetik bestera zer aberasketa egon diren deskribatu<br />

dugu.


92 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR


<strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako<br />

metodologia<br />

V. KAPITULUA<br />

IXA taldearen beharretara gehien egokitzen den EBL formalismoa <strong>WordNet</strong>,<br />

Euro<strong>WordNet</strong> eta The Multilingual Central Repositoryren (MCR) ildotik sortutako<br />

euskal EBLa <strong>Euskal</strong> <strong>WordNet</strong> deitu dugu.<br />

Kapitulu ho<strong>net</strong>an, <strong>Euskal</strong> <strong>WordNet</strong>en garapenean hartutako erabaki metodologikoak<br />

deskribatuko ditugu, eta, erabaki hauen arabera, <strong>Euskal</strong> Word-<br />

Neten garapenak izandako urratsak ere azalduko ditugu.<br />

Lehenik eta behin, <strong>Euskal</strong> <strong>WordNet</strong> nola garatu behar zen erabaki behar<br />

genuen. Izan ere, nahiz eta <strong>WordNet</strong>en egitura eta oinarriak izan, hainbat<br />

ikuspegi eta metodologia erabil zitezkeen garapenerako:<br />

• <strong>WordNet</strong>en hierarkia jarraitzea eta bertako synsetei zuzenean esleitzea<br />

euskarako ordainak.<br />

• Guk geuk sortzea euskarako adieren inbentarioa eta hierarkia, eta gero<br />

Inter-Lingual-Indexari (ILIari) (ikus IV.2 atala) lotzea.<br />

Bi aukera hauek aztertu ditugu, eta lehenengoaren alde egin dugu.<br />

Erabaki horren berri V.1 atalean emango dugu.<br />

Bestetik, <strong>Euskal</strong> <strong>WordNet</strong> garatzeko diseinatu dugun metodologiak irizpide<br />

batzuk behar zituen. Alde batetik, eta aurrerago aipatu izan dugun bezala<br />

(ikus III.1), <strong>Euskal</strong> <strong>WordNet</strong> estaldura handikoa izan behar zuen, hots, lexiko<br />

zabalekoa eta ikuspegi orokorrekoa. Bestetik, kalitate onekoa. Bi irizpide


94 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

hauen arabera, <strong>Euskal</strong> <strong>WordNet</strong>en garapena aldi eta modu ezberdi<strong>net</strong>an burututako<br />

prozesua izan da: aberasketa automatikoa eta eskuzkoa konbinatuz;<br />

eta hainbat hiztegi elebakar eta elebidunenez baliatuz eta corpusetik jasotako<br />

informazioa baliatuz.<br />

Metodologia hauek izenen aberasketarako erabili dira, <strong>Euskal</strong> Word-<br />

Neten garapenaren lehenengo urratsak ize<strong>net</strong>an oinarritu baitziren.<br />

V.2 atalean sakonduko dugu fase hauetako bakoitzean. Izenen aberasketarekin<br />

amaitu ondoren 1 , orain aditzen aberasketarekin hasteko garaia da.<br />

Hala ere, aditzek duten informazio aberatsa dela-eta (azpikategorizazioa,<br />

hautapen-murriztapenak...), hauen orrazketarako eta aberasketarako hainbat<br />

metodologia aztertu ditugu.<br />

V.3 atalean, batetik, aditzen lanketak arreta berezia zergatik merezi duen<br />

azalduko dugu; eta bestetik, aditzak garatzeko zer metodologia probatu ditugun<br />

deskribatuko dugu, hauetatik zein aukeratu dugun ondorioztatuko dugularik.<br />

Beraz, kapitulu ho<strong>net</strong>an, <strong>Euskal</strong> <strong>WordNet</strong>en hastapenaren nondik norakoak<br />

azalduko ditugu. Azken urteotan izenen garapenean izandako faseak<br />

zehazki deskribatuko ditugu, eta oraindik hasi gabe dugun aditzen garapenerako<br />

landu ditugun metodologia ezberdinak aurkeztuko ditugu.<br />

Azkenik, esan beharra dago, adjektiboen eta adberbioen lanketa tesi-lan<br />

honen etorkizunerako lan bezala utzi dela.<br />

V.1 Diseinua eta metodologia<br />

<strong>Euskara</strong>ko EBLa egiteko oinarrituko garen eredua erabaki ondoren, eta EBL<br />

hori —aztertutako EBL gehienak bezala— ingeleserako sortuta dagoela ikusita,<br />

beste erabaki berri baten aurrean gaude: euskaraz dauden corpusetatik<br />

eta hiztegietatik abiatuta euskarako word<strong>net</strong>a sortzea, ala euskararako EBLa<br />

egitea, erdaretarako egin diren word<strong>net</strong>ez baliatuta.<br />

Lehenengo aukeran, sortu beharreko adierak eta hierarkiak Word-<br />

Neteko hierarkiekiko independenteak izango lirateke, eta horrek adieren inbentarioa<br />

eta hierarki bera gure irizpideen arabera garatzeko eta kontrolatzeko<br />

askatasun guztia emango liguke. Baina, bestalde, hurbilpen horrek<br />

1 Lan lexikografikoen antzera, EBLen aberasketa-lanak ez dira inoiz amaitzen. Hala ere,<br />

egindako orrazketa guztien ondoren, <strong>Euskal</strong> <strong>WordNet</strong>ek euskarako izen gehienak jasotzen<br />

dituela esan dezakegu.


V.1 Diseinua eta metodologia 95<br />

lan lexikografiko handia eskatuko luke, eta, horrez gain, hizkuntzen arteko<br />

adieren loturak adierazteko ILIra lotzeko bideak sortu beharko lirateke.<br />

Vossen-ek (1999) merge approach deitu du metodologia hau.<br />

Bigarren aukeran, MCRko hizkuntza bateko word<strong>net</strong>a abiapuntu gisa hartuz<br />

gero, nahiz eta guk ez kontrolatu adieren sorkuntza eta antolamendu<br />

hierarkikoa, lan lexikografikoa beste aukeran baino askoz ere txikiagoa da.<br />

Izan ere, askotan, lana euskarako hitzak ILIari lotzera mugatzen da; hots,<br />

euskarako ordainak zuzenean synset egokiei esleitzea litzateke egin beharreko<br />

lana. Honezaz gain, MCRko ILIari esker, euskarako ordainak ingeleseko<br />

kontzeptuei lotuta geratuko lirateke. Gainera, modu ho<strong>net</strong>an hizkuntzen arteko<br />

adieren loturak egiteko bidea ere ematen zaigu. Vossenek (1999) expand<br />

approach bezala izendatu du metodologia hau.<br />

Tesi-lan ho<strong>net</strong>an, bigarren aukeraren alde egin dugu; hau da, <strong>Euskal</strong><br />

<strong>WordNet</strong>en garapena MCRn oinarritu dugu, eta bertako ingeleseko kontzeptuak<br />

abiapuntutzat harturik, euskarako ordainak lotzen ditugu, eta ez dauden<br />

euskarako kontzeptuak (sagardoa, trikitixa eta abar) txertatzen ditugu 2 .Hala<br />

ere, IXA taldean lehenengo aukerarekin saiakerak egin dira (Agirre et al.,<br />

2003c; Lersundi, 2005), etorkizunean bi hurbilpenen abantailak baliatzeko<br />

asmoa baitago. Ho<strong>net</strong>az gain, beste euskarako hiztegietatik erauzitako hierarkiak<br />

eta erlazio semantikoak ere txertatuko zirela erabaki zen, eta, egun,<br />

egin dira horren inguruko hainbat saiakera IXA taldean (Agirre et al., 2003c),<br />

baina hori ez da tesi honen eremuan sartuko.<br />

Hizkuntza askotako word<strong>net</strong>ak egonik (katalanez, gaztelaniaz, frantsesez,<br />

ingelesez, italieraz, estonieraz, nederlanderaz, txekieraz, estonieraz...),<br />

<strong>Euskal</strong> <strong>WordNet</strong> sortzeko hauetako edozei<strong>net</strong>an oinarritu gintezkeen. Ulermenari<br />

begira, lan lexikografiko urriagoa litzateke synseten adierak gaztelaniaz<br />

ulertzea ingelesez baino. Bestalde, gaztelania-euskarako hiztegi elebidun<br />

gehiago daude ingelesa-euskarakoak baino. Baina ezin da ahaztu, MCRk<br />

ILI-recordak <strong>WordNet</strong> 1.6tik hartu dituela, eta hizkuntzen arteko bateragarritasunari<br />

begira, <strong>WordNet</strong> 1.6eko hierarkian oinarritu zirela proiektuan<br />

parte hartutako hizkuntza guztiak. Arrazoi hauengatik, <strong>Euskal</strong> <strong>WordNet</strong><br />

Princetoneko <strong>WordNet</strong> 1.6 bertsioaren gainean garatzea erabaki genuen,<br />

<strong>WordNet</strong>eko ingeleseko kontzeptuak abiapuntutzat hartuz, euskarako ordainak<br />

hauei lotuz, eta ez dauden euskarako kontzeptuak txertatuz.<br />

<strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzan metodologia aldatuz joan da. Metodo-<br />

2 MCRn ez dauden euskarako kontzeptuak (trikitixa, ikastola eta abar), momentuz, zerrendatzen<br />

ditugu etorkizunean lantzeko.


96 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

logian egondako aldaketa hauek estaldura eta kalitatea uztartzearren izan<br />

dira. Estalduraz hitz egiterakoan, kontzeptu, sarrera lexikal, kategoria, hitzadiera<br />

eta sinonimoen kopuruaz ari gara. Kalitateaz hitz egiterakoan, synset<br />

eta varianten zuzentasunari, osotasunari eta egokitasunari buruz ari gara.<br />

Laburbilduz:<br />

• Zuzentasuna: synsetean dauden variant eta hitz-adierak zuzenak<br />

izatea.<br />

• Osotasuna: synsetari dagozkion variant eta hitz-adiera guztiak<br />

egotea.<br />

• Egokitasuna: synsetean dauden variant eta hitz-adiera guztiek<br />

espezifikotasun maila bera izatea.<br />

Badago faktore bat batzuetan eragina izan duena estaldurari edo kalitateari<br />

garrantzia emateko garaian: baliabide gutxiko eta abiadura handiko<br />

garapenaren beharra. Hau dela eta, hasieran estaldurari garrantzia eman<br />

genion eta kalitatea bermatzea bigarren urrats gisa definitu genuen.<br />

Kategoriei begira, <strong>WordNet</strong>eko lau kategorietatik (izenak, aditzak, adjektiboak<br />

eta adberbioak) lehenengo izenak eta gero aditzak landuko genituela<br />

erabaki zen, hauek informazio lexiko oso garrantzitsua jasotzen dutelako, eta,<br />

ondorioz, LNPn gehien landu direnak direlako.<br />

Hala, hartutako erabakiei jarraituz, <strong>Euskal</strong> <strong>WordNet</strong> eraikitzen joan gara.<br />

Jarraian bereizitako fase bakoitza sakonkiago aztertuko ditugu.<br />

V.2 Izenen garapenerako urratsak<br />

V.2.1 Estaldura helburu: garapen automatikoa eta oinarrizko kontzeptuak<br />

Lehenengo urratsak oinarrizko <strong>Euskal</strong> <strong>WordNet</strong> eraikitzea izan zuen xede,<br />

eta, horregatik, estaldura izan genuen helburu nagusi. Hala, garapenaren<br />

lehenengo urratsean bi bide jorratu genituen:<br />

• Oinarrizko kontzeptuei (Base Concepts izenekoei) euskarako ordainak<br />

eskuz lotu.


V.2 Izenen garapenerako urratsak 97<br />

• Ingeleseko synseten euskal ordainak hiztegi elebidunak baliatuz<br />

—euskara-ingelesa Morris (1998); Aulestia eta White (1990)— automatikoki<br />

sortzea. Garapen automatikoa zer teknika informatikoekin egin<br />

zen eta zer nolako kalitatea lortu zen ikusteko, jo bedi Agirre et al.-era<br />

(2002).<br />

V.2.2 Kalitatea helburu: eskuzko orrazketa eta corpus baten etiketatzea<br />

Hurrengo urratsetan, kalitateari eman zitzaion garrantzi handiago. Kalitatea<br />

lantzeko ere metodologia ezberdinak erabili dira. Hasieran, automatikoki<br />

sortu ziren euskarako synset horien eskuzko orrazketa egin genuen hizkuntzalariok.<br />

Gero, beste orrazketa bat egin genuen Elhuyar Hiztegi Txikia<br />

(Elhuyar, 1998) hiztegiko adierak <strong>Euskal</strong> <strong>WordNet</strong>en zeudela ziurtatzeko eta<br />

synsetean zeuden ordainak egokiak zirela egiaztatzeko. Gaur egun, <strong>Euskal</strong><br />

<strong>WordNet</strong>eko synsetekin eskuz etiketatzen (desanbiguatzen) ari garen euskarako<br />

corpus baten (EuSemcor) informazioa baliatzen ari gara EBLa orrazteko<br />

3 .<br />

V.2.2.1 Kontzeptuz kontzeptuko eskuzko orrazketa<br />

Orrazketa ho<strong>net</strong>an hizkuntzalariok, alde batetik, synsetaren euskarako ordaina<br />

egokia zen ala ez berrikusten genuen; bestetik, synsetean euskarako<br />

beste ordainik behar zen egiaztatzen genuen.<br />

Prozesu hau guztia erraztearren hurrengo pausoak jarraitu ziren:<br />

• Hizkuntzalariontzat lan egiteko erabilerraza den interfazea sortu:<br />

EBLari lotutako interfaze bat sortu zen (Benítez et al., 1998), batetik,<br />

hizkuntzalarioi adierazpide intuitiboa eskaintzeko eta bestetik, aldi berean<br />

hizkuntzalari batek baino gehiagok lan egin ahal izan zezan.<br />

3A eranskinean <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak editatzeko jarraitzen ditugun irizpideak<br />

datoz.


98 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

• Orraztu beharreko synsetak tratatzeko ordena antolatu:<br />

Synseten orrazketa nolabait antolatu beharra zegoen. Nondik hasi behar genuen<br />

hizkuntzalariok synsetak orrazten? Aukera ugari zeuden: hierarkiak<br />

goitik behera jarraituta edota alderantziz (behetik gora), oinarrizko kontzeptuak<br />

lehenengo eta ondoren bestelakoak, ingeleseko edo euskarako ordainaren<br />

arabera, eta abar. Gure ustetan, orrazketaren abiadura azkartuko zen, baldin<br />

eta hizkuntzalariak antzeko synsetak jarraian berrikusten bazituen. Hau<br />

da, berrikusitako synset baten ondoren, berrikusi beharreko hurrengo synseta<br />

klase berekoa bazen, prozesua azkartuko litzatekeela iruditzen zitzaigun.<br />

Hala, synseten orrazketa hiperonimo kateak jarraituta antolatu zen: hierarkia<br />

bakoitzeko synset altue<strong>net</strong>atik —orokorre<strong>net</strong>atik— hasi (unique beginner<br />

deritzona) eta azkeneko hiponimoraino. Orrazketa mota hau ahalbidetzeko,<br />

interfazean aparteko botoi bat gehitu zen, eta hau sakatuz gero, hiperonimo<br />

katean behera jarraituta, orraztu gabe zegoen hurrengo synseta agertzen zen<br />

interfazean.<br />

Orrazketarekin hasi ahala, interfazean beste botoi batzuk gehitu ziren,<br />

interfazea hizkuntzalarion beharretara egokitzeko. Esate baterako, hasiera<br />

batean, hizkuntzalariok zalantzazko synsetei buruzko oharrak eskuz idazten<br />

genituen. Gerora, interfazean botoi bat txertatu zen zalantzazko synsetak<br />

markatzeko. Era ho<strong>net</strong>ara, errazagoa zen zalantzazko synsetak berrikusteko<br />

garaian hauek aurkitzea. Botoi hauen guztien berri A eranski<strong>net</strong>an ematen<br />

da.<br />

Izenak Synset Variant Variant<br />

Lema Variant<br />

synseteko lemako<br />

EusWN 0.1 BC eskuz 228 - - - -<br />

auto. 27.641 291.011 10,5 46.164 6,3<br />

Kontz. eskuz 23.486 41.107 1,7 22.166 1,8<br />

WN 1.6 eskuz 66.025 116.364 1,7 95.135 1,2<br />

V.1 Taula: <strong>Euskal</strong> <strong>WordNet</strong>eko izenen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />

oinarrizko kontzeptuak, sorkuntza automatikoa eta kontzeptuz kontzeptuko<br />

orrazketak egin ondoren.<br />

Kontzeptuz kontzeptuko orrazketarekin amaitzean, aurreko urratsetako<br />

emaitzen ebaluazioa (V.2.1 atalean aipatutakoena) egin genuen. V.1 taulan,<br />

orain arte aipatutako garapen-urratsetan —garapen automatikoa (auto. taulan)<br />

eta kontzeptuz kontzeptuko eskuzko orrazketa (Kontz. eskuz taulan) ize-


V.2 Izenen garapenerako urratsak 99<br />

<strong>net</strong>arako lortu diren kopuruak daude: synsetak, variantak, lemak, synseteko<br />

dauden varianten batezbestekoa, eta lemako dauden varianen batezbestekoa.<br />

Hauekin batera, <strong>WordNet</strong> 1.6 bertsioaren kopuruak ere aurkezten dira<br />

(<strong>Euskal</strong> <strong>WordNet</strong> garatzen hasi ginenean bertsio honekin hasi baikinen).<br />

Alderdi kuantitatiboari begira, kontzeptuz kontzeptuko orrazketaren ondoren<br />

<strong>Euskal</strong> <strong>WordNet</strong> 0.1 bertsioan dauden izenen synseten kopurua (ikus<br />

EusWN 0.1 Kontz. eskuz errenkada V.1 taulan) ez da <strong>WordNet</strong> 1.6 bertsioan<br />

daudenen kopuruaren erdira iristen (ikus WN 1.6 errenkada). Kontzeptuen<br />

estaldura % 38koa izan zen, eta lemena, 22.166 lemekin, % 25ekoa.<br />

Garapen automatikoan synset bakoitzeko dauden varianten eta lemako<br />

dauden adieren batezbestekoa oso handia da (ikus V.1 taulako EusWN 0.1<br />

auto. errenkadan: 10,5 variant synseteko eta 6,3 adiera lemako). Hau sorkuntza<br />

automatikoan arrunta bada ere, honen beste arrazoi bat hauxe izan<br />

daiteke: garapen automatikorako erabilitako hiztegietako batek (Aulestia<br />

eta White, 1990) aldaera ortografiko eta dialektal ugari jasotzen ditu, asko<br />

eta asko azken urteotan <strong>Euskal</strong>tzaindiak onartutako arauekin bat ez datozenak.<br />

Kontzeptuz kontzeptuko orrazketaren ondoren, batezbesteko hauek 1,7<br />

eta 1,8ra jaitsi dira (ikus EusWN 0.1 Kontz. eskuz errenkada), eta Word-<br />

Netekoekin ia berdindu (ikus WN 1.6 errenkadan: 1,7 eta 1,2).<br />

Bestalde, aipatu beharra dago eskuzko orrazketaren ondoren synset, lema<br />

eta variant kopuruak jaitsi direla nabarmen, eta bereziki azken hauena.<br />

Honek adierazten du garapen automatikoan, estaldura handia lortu arren,<br />

forma desegoki asko sartzen dela kalitatearen kaltetan. Kapitulu ho<strong>net</strong>an<br />

zehar aipatu izan dugun bezala, eskuzko orrazketarekin arazo hau konpondu<br />

nahi izan dugu.<br />

Hala ere, hobetu beharreko zenbait puntu antzeman genituen:<br />

• Nahiz eta <strong>Euskal</strong> <strong>WordNet</strong>en hitz bat egon, horrek ez zuen ziurtatzen<br />

hitz honen adiera guztiak EBLan zeudenik. Kontzeptuz kontzeptuko<br />

orrazketa amaitzean, <strong>Euskal</strong> <strong>WordNet</strong>en ez zeuden hitz-adieren kopurua<br />

% 20koa zen. Kalkulu hori egiteko <strong>Euskal</strong> Hiztegia (Sarasola, 1996)<br />

eta <strong>Euskal</strong> <strong>WordNet</strong>en arteko konparaketa bat egin zen (Agirre et al.,<br />

2002).<br />

• Synset barruko varianten espezifikotasun-maila ez zen guztiz egokia.<br />

Askotan, euskarako variantak hierarkiaren maila desegokian zeuden.<br />

Adibidez, religious kontzeptuak (a member of a religious order glosaduna),<br />

euskaraz erlijioso, serora eta lekaide ordainak zituen. Bai serorak eta


100 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

bai lekaidek adiera hori izan dezakete (erlijio-talde baten kide baitira),<br />

baina erlijioso mota bat direnez —bata gizonezko erlijiosoa eta bestea<br />

emakumezkoa—, hierarkian ez dagokie leku hori. Aitzitik, erlijioso<br />

synsetaren hiponimo bana beharko lukete.<br />

• <strong>Euskal</strong> <strong>WordNet</strong>eko hitzen adieren espezifikotasun-maila erreferentzia<br />

gisa erabilitako hiztegiena baino finagoa da. Esate baterako, Hiztegi<br />

Modernoak (Elhuyar, 2000) lantegi izenarentzat hiru adiera ematen<br />

ditu:<br />

(a) Eskuzko lanen bat egiten den tokia, tailerra; Zurgin-lantegia.<br />

(b) Fabrika; Hegazkin-lantegi batean.<br />

(c) Lana, egitekoa, lanbidea; Lantegi gogorra baso-mutilarena.<br />

Eta <strong>Euskal</strong> <strong>WordNet</strong>en hitz horrek sei synset ditu:<br />

(a) Industria-lana egiteko eraikina; Beraiek autoak produzitzeko lantegi bat eraiki<br />

zuten.<br />

(b) Eskulanak edo fabrikazioa egiten den eraikin txikia; Osaba bere lantegian espartigintzan<br />

ari da.<br />

(c) Jarduera profesionala egiten den tokia; Bere lantegira eraman behar duzu mezua.<br />

(d) Talde txiki batentzako ikastaro labur eta trinkoa; arazo bat konpontzera bideraturik;<br />

Gorputz adierazpeneko lantegi.<br />

(e) Ahalegina eginiko lanaren parteetako bat. Haur eta gazte literatura zituen beste<br />

zenbait lantegi.<br />

(f) Pertsona baten bizitzako aktibitate nagusia, zeinek dirua irabazteko aukera ematen<br />

duen; Aurrez ezagutzen zuten lantegiari lotu ziren: ardiari, alegia.<br />

Orrazketa honen emaitzak eta ondorioak ikusita, ondoren azalduko dugun<br />

eskuzko orrazketari ekin genion.


V.2 Izenen garapenerako urratsak 101<br />

V.2.2.2 Hitzez hitzeko eskuzko orrazketa<br />

Hitzak Elhuyar Hiztegi Txikian (Elhuyar, 1998) zituen adiera guztiak <strong>Euskal</strong><br />

<strong>WordNet</strong>en zituela ziurtatzea zen urrats honen helburua, eta, era berean,<br />

synsetean zeuden ordainak egokiak zirela egiaztatzea. Azken finean, aurreko<br />

urratseko lan berbera egiten genuen, baina beste ikuspegi osagarri batetik<br />

begiratuz.<br />

Garapen-urrats ho<strong>net</strong>arako, lehenengo Elhuyar Hiztegi Txikiko izenen<br />

sarrerak corpuseko (<strong>Euskal</strong>dunon Egunkaria 4 eta XX. mendeko euskararen<br />

corpus estatistikoa 5 ) maiztasunaren arabera ordenatu ziren: maiztasun handie<strong>net</strong>ik<br />

txikienera. Hala, euskaraz gehien erabiltzen ziren izenak EBLan<br />

landuta zeudela ziurtatzen genuen. Ondoren, zerrendako izen bakoitzarekin<br />

hurrengoa izan zen hizkuntzalarion lana:<br />

• Adieren estaldura ziurtatzea: hitzaren adiera arruntenak <strong>Euskal</strong><br />

<strong>WordNet</strong>en sartu.<br />

• Varianten estaldura ziurtatzea: Sinonimoen Hiztegia baliatuz<br />

(UZEI, 1999), synsetean variant/sinonimo guztiak daudela ziurtatu.<br />

• Hitzaren adieren zuzentasuna bermatzea: <strong>Euskal</strong> <strong>WordNet</strong>en<br />

dauden adiera guztiak zuzenak direla ziurtatzea.<br />

• Hitzaren adieren estaldura bermatzea: hitzaren adiera guztiak<br />

<strong>Euskal</strong> <strong>WordNet</strong>en daudela ziurtatzea.<br />

• Synset barruko varianten espezifikotasun-maila egokia ziurtatzea:<br />

euskarakovariantak hierarkiaren maila egokian egon daitezen,<br />

honen hiperonimo eta hiponimoei begiratzea. Hala, religious kontzeptuarekin<br />

aipatutako arazo mota hori eragozten da.<br />

• Hitzen adieren espezifikotasun-maila: lantegi adibidearekin ikusi<br />

dugun bezala, askotan <strong>Euskal</strong> <strong>WordNet</strong>eko hitzen adieren espezifikotasun-maila<br />

erreferentzia gisa erabilitako hiztegiena baino finagoa da.<br />

Hiztegietan ez dauden adiera edo synset horiei euskarako ordaina sartuko<br />

zaie, baldin eta egiaztatzen badugu adiera horiek euskaraz ezagunak<br />

direla, eta LNPko atazetarako beharrezkoak direla. Adibidez, <strong>Euskal</strong><br />

4 http://www.egunero.info (2007-07-02an atzitua).<br />

5 http://www.euskaracorpusa.<strong>net</strong> (2007-07-02an atzitua).


102 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

<strong>WordNet</strong>eko lantegiren (c) eta (d) adierak (‘jarduera profesionala egiten<br />

den tokia’ eta ‘talde txiki batentzako ikastaro labur eta trinkoa;<br />

arazo bat konpontzera bideraturik’) ez daude Hiztegi Modernoan, ezta<br />

Elhuyar Hiztegi Txikian ere. Hala ere, adiera hauen erabilera egiaztatzen<br />

dugu corpusetan —hala nola, XX. mendeko euskararen corpus<br />

estatistikoan eta Ereduzko Prosa Gaur corpusean 6 — eta beste hiztegietan<br />

—Elhuyar Hiztegia: euskara-gaztelania 7 (Elhuyar, 1996) hiztegian,<br />

eta <strong>Euskal</strong> Hiztegian, adibidez. Kasu ho<strong>net</strong>an, bi adiera hauek Elhuyar<br />

Hiztegi elebidunean agertzen direnez, zuzentzat jo ditugu eta <strong>Euskal</strong><br />

<strong>WordNet</strong> txertatu ditugu.<br />

Orrazketa honen erdibidean ginela, eta <strong>WordNet</strong> eta LNP komunitatean<br />

corpus desanbiguatuak hartzen ari ziren indarra ikusita (Fellbaum et al.,<br />

2001; Palmer eta Kingsbury, 2003; Marcus et al., 1993), hitzez hitzeko eskuzko<br />

orrazketa metodologia corpus baten etiketatze semantikoarekin osatzea<br />

erabaki genuen. Erabaki hau IXA taldean jorratzen ari den lan-ildo batekin<br />

bat etortzearren hartu zen. Izan ere, IXA taldean maila linguistiko desberdi<strong>net</strong>an<br />

etiketatuko den erreferentziazko corpusa garatzen ari gara (Aduriz et<br />

al., 2006): <strong>Euskara</strong>ren Prozesamendurako Erreferentziazko Corpusa (EPEC).<br />

Corpus hau 300.000 hitzekoa da; heren bat XX. mendeko euskararen corpus<br />

estatistiko hartua dago, eta beste guztia <strong>Euskal</strong>dunon Egunkaria corpusetik.<br />

EPEC corpusen morfosintaxia, sintaxia, <strong>Euskal</strong> <strong>WordNet</strong>eko adierak eta<br />

PropBankeko rolak (Agirre et al., 2006d) etiketatuko dira eskuz.<br />

Lan-ildo ho<strong>net</strong>atik abiatuta, <strong>Euskal</strong> <strong>WordNet</strong>en ondorengo garapen-fase<br />

berrian hasi ginen: corpus baten etiketatze semantikoan.<br />

V.2.2.3 Corpus baten etiketatze semantikoa<br />

Orrazketa eta etiketatzea uztartuz, corpuseko informazioa erabil dezakegu<br />

<strong>Euskal</strong> <strong>WordNet</strong> garatzeko eta aberasteko. Aldi berean, eskuz etiketatutako<br />

euskarako corpus semantikoa sortzen ari gara: EuSemcor (Agirre et al.,<br />

2006a). Alegia, EPEC corpusa maila semantikoan, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak<br />

erabilita, etiketatzen ari gara.<br />

Beraz, lan honen helburua 300.000 hitzeko corpusa etiketatzea da, eta<br />

hauxe da gaur egun egiten ari garena. Izenak, adjektiboak eta aditzak etiketatu<br />

nahi dira. Aldi berean, eta corpusetik lortzen den informazioan oina-<br />

6 http://www.ehu.es/euskara-orria/euskara/ereduzkoa (2007-07-02an atzitua).<br />

7 http://www1.euskadi.<strong>net</strong>/hizt el/indice e.htm (2007-07-02an atzitua).


V.2 Izenen garapenerako urratsak 103<br />

rrituz, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak orraztuko dira; hau da, 300.000 hitzeko<br />

corpusaren etiketatze semantikoa amaitu ondoren, <strong>Euskal</strong> <strong>WordNet</strong>ek corpusean<br />

agertu diren adiera horiek guztiak izan beharko ditu.<br />

Lan-taldea bost hizkuntzalariz osatua dago: gainbegirale bat, editore<br />

bat, bi etiketatzaile eta epaile bat. Editorea <strong>Euskal</strong> <strong>WordNet</strong> editatzen<br />

duena da, hots, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak lantzen dituena. Etiketatzaileek<br />

etiketatu beharreko hitzaren agerpen berak corpus berean etiketatzen<br />

dute (bakoitzak bere aldetik). Azkenik, epaileak bi etiketatzaileen lana erkatuko<br />

du eta ezberdin etiketatuta dauden agerpen horiek ebatziko ditu.<br />

Laburki esanda, lan-talde honek jarraitzen duen metodologia hurrengoa<br />

da: editoreak landu beharreko hitzak aukeratzen ditu, eta hitz hauen <strong>Euskal</strong><br />

<strong>WordNet</strong>eko synsetak lantzen eta berrikusten ditu hitzez hitzeko metodologian<br />

oinarrituz (ikus V.2.2.2 atala). Hitzak orraztu ondoren, editorea,<br />

etiketatzaileak eta epailea elkartuko dira hitz horien synseten esanahia ulertzeko.<br />

Editoreak, epaileak eta etiketatzaileek hitzen synsetak zeintzuk diren<br />

ulertu eta adostu dutenean, hitzei dagozkien agerpenak etiketatzen hasiko<br />

dira etiketatzaileak. Etiketatze-lana amaitzean, synseten glosak 8 ere ingelesetik<br />

euskarara itzultzen dituzte. Lan hauek guztiak bukatu ondoren, editorearekin<br />

eta epailearekin egindako bilera batean etiketatzean izan dituzten<br />

gorabeherak azaltzen dituzte. Gero, epaileak programa informatiko baten<br />

laguntzarekin, bi etiketatzaileen lana erkatzen du, eta ezberdin etiketatuta<br />

dauden agerpen horiek ebazten ditu. Gainera, corpusean adiera berriren bat<br />

agertzen bada, horren berri ematen dio editoreari. Azkenik, editoreak corpusean<br />

agerturiko adiera berri horien egokitasuna aztertzen du hauek <strong>Euskal</strong><br />

<strong>WordNet</strong>en sartzea erabaki baino lehen. V.1. irudian adierazten den bezala,<br />

metodologia ziklikoa da.<br />

8 III. kapituluan azaldu dugun bezala, synsetaren adiera, normalean, glosa edo azalpen<br />

txiki baten bidez adierazten da. Glosa hauen itzulpe<strong>net</strong>arako jarraitzen diren irizpideak<br />

Agirre et al. lanean (2005b) daude.


104 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

Hitz berriak<br />

Editatze-lana Etiketatze-lana<br />

Adiera berriak<br />

Iruzkinak<br />

Epaitze-lana<br />

V.1 Irudia: EuSemcorreko etiketatze semantikoaren metodologia.<br />

Editoreak, etiketatzaileak eta epaileak metodologia honen urrats bakoitzean<br />

bere zeregina zehaztuta dute eskuliburu batean (Agirre et al., 2005b).<br />

V.2 taulan EuSemcorren kopuruak ageri dira. Alde batetik, dagoeneko<br />

landu diren izenen kopuruak, eta bestetik, corpuseko izen guztien kopuruak.<br />

Azken ho<strong>net</strong>an (guztira zutabean) agertzen diren kopuruak, corpuseko izenak<br />

<strong>Euskal</strong> <strong>WordNet</strong>ekin parekatuta lortu dira. Esate baterako, corpusean 1.810<br />

izen monosemiko daudela diogunean, corpuseko 1.810 izenek <strong>Euskal</strong> Word-<br />

Neten synset bakarra dutelako da, eta corpusean, izen hauek guztien agerpen<br />

kopurua 16.606 da. Hala ere, 1.810 izen hauetatik, 192 bakarrik, berrikusi<br />

dira <strong>Euskal</strong> <strong>WordNet</strong>en eta etiketatu EuSemcorren. Beraz, lantzeko dauden<br />

1.618 izenak <strong>Euskal</strong> <strong>WordNet</strong>en berrikusi ondoren, baliteke izen horietatik<br />

batzuk polisemikoak izatea (<strong>Euskal</strong> <strong>WordNet</strong>en garapenaren aurreko faseren<br />

batean izen horri ez zuen adiera bat egokitu zitzaiolako 9 ). Hala, guztira<br />

zutabeko hitzei dagozkien kopuruak ez dira guztiz zehatzak, baina corpusa<br />

etiketatzeko geratzen zaigun lanaren balioespena egiteko oso erabilgarria<br />

zaigu.<br />

Bestalde, V.2 taulan ikus daitekeen bezala, 442 izen polisemiko etiketatu<br />

ditugu dagoeneko, eta, agerpen-kopuru handikoak direla egiaztatu dugu.<br />

Hauek corpusean 39.208 aldiz agertu dira (izen polisemiko guztien agerpenen<br />

% 56a). Monosemikoei dagokienez, oraingoz, 192 izen sailkatu dira synset<br />

bakarrekoak bezala, eta izen hauen agerpenak automatikoki etiketatu dira<br />

(izen monosemiko guztien agerpenenen % 45a). Orain arte, corpusean 83<br />

izen agertu dira <strong>Euskal</strong> <strong>WordNet</strong>en ez daudenak, eta gehitu egin behar izan<br />

ditugu. 83 izen hauek corpuseko 487 agerpeni dagozkie. Guztira errenkadan,<br />

9 Adieren lanketari buruzko argibide gehiago A eranskinean.


V.2 Izenen garapenerako urratsak 105<br />

Eginak Guztira<br />

Hitz Agerpen Hitz Agerpen<br />

Polisemikoak 442 39.208 3.330 68.871<br />

Monosemikoak 192 7.281 1.810 16.606<br />

EusWNen ez daude 83 487 11.070 39.936<br />

Guztira 717 46.976 16.210 125.413<br />

V.2 Taula: EuSemcor: izenei dagozkien kopuruak.<br />

deigarria da 16.210 ize<strong>net</strong>atik 11.070 ez egotea <strong>Euskal</strong> <strong>WordNet</strong>en. Honen<br />

arrazoia corpusean agertzen diren izen berezietan datza, eta horiek, oraingoz,<br />

ez ditugu <strong>Euskal</strong> <strong>WordNet</strong>en gehituko.<br />

Izenen garapen-urratsekin amaitzeko, V.1 taula dakargu berriro, orain<br />

arte aipatutako garapen-urratsak —garapen automatikoa (auto. taulan),<br />

kontzeptuz kontzeptuko eskuzko orrazketa (Kontz. eskuz taulan) eta hitzez<br />

hitzeko orrazketa eta corpus baten etiketatze semantikoa (Hitzez. eskuz<br />

taulan)— erabilita <strong>Euskal</strong> <strong>WordNet</strong>eko egungo kopuruak aurkezteko (ikus<br />

V.3 taula: synsetak, variantak, lemak, synseteko dauden varianten batezbestekoa<br />

eta lemako dauden varianten batezbestekoa). Hauekin batera, Word-<br />

Net 1.6 bertsioaren kopuruak ere aurkezten dira.<br />

<strong>Euskal</strong> <strong>WordNet</strong> 0.1 bertsioaren estaldurarekin erkatuz gero (23.486 synset<br />

eta 41.107 adiera), egungo <strong>Euskal</strong> <strong>WordNet</strong> 0.2 handitu den arren<br />

(28.943 synset eta 40.848 variant), oraindik <strong>WordNet</strong> 1.6n synset eta variant<br />

kopurua ia <strong>Euskal</strong> <strong>WordNet</strong>en bikoitza baino gehiago da (66.025 synset<br />

eta 116.364 variant).<br />

Bestalde, kapitulu ho<strong>net</strong>an zehar aipatu izan dugun bezala, eskuzko orrazketarekin<br />

kalitatearen alde egin nahi izan dugu. Baina kalitatearen alde eginez<br />

gero, oso mantso egiten dugu aurrera: astean hamabi synset editatzen<br />

ditugu batezbeste.<br />

Synset eta lema bakoitzeko dauden varianten batezbestekoa antzekoa da<br />

euskarako eta ingeleseko eskuzko orrazketetan. Automatikoan, aldiz, desegokia<br />

diren variant asko sartzen dira. Hala, eskuzko orrazketak kalitate<br />

handiagokoak direla garbi ikusten da taula ho<strong>net</strong>an, variant synseteko eta<br />

variant lemako zutabeei erreparatuz gero.


106 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

Izenak Synset Variant Variant<br />

Lema Variant<br />

synseteko lemako<br />

EusWN 0.1 BC eskuz 228 - - - -<br />

auto. 27.641 291.011 10,5 46.164 6,3<br />

Kontz. eskuz 23.486 41.107 1,7 22.166 1,8<br />

EusWN 0.2 Hitzez. eskuz 28.943 40.848 1,4 23.137 1,7<br />

WN 1.6 eskuz 66.025 116.364 1,7 95.135 1,2<br />

V.3 Taula: <strong>Euskal</strong> <strong>WordNet</strong>eko izenen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />

oinarrizko kontzeptuak, sorkuntza automatikoa, kontzeptuz kontzeptuko<br />

orrazketa eta hitzez hitzeko orrazketa egin ondoren.<br />

V.3 Aditzen garapenerako urratsak<br />

EuSemcorren maiztasun handieneko izenak lantzen joan ahala, aditzen aberasketari<br />

ere ekin zaio, baina neurri txikiagoan.<br />

Esan daiteke aditza dela hizkuntzako kategoria lexiko eta sintaktiko garrantzitsuena.<br />

Esaldi gehienek aditz bat badute gutxienez, eta aditza da<br />

esaldia semantikoki eta sintaktikoki antolatzen duena. Aditzean zehazten dira:<br />

esaldian egon daitezkeen egitura sintaktiko posibleak (azpikategorizazio<br />

hertsia); argumentuak rol tematikoekin lotzean, esaldian adierazten diren<br />

ekintza edo egoeren adierak; hautapen-murriztapenak (aditz horrekin ager<br />

daitezkeen izen-klaseen ezaugarriak).<br />

Hiztunok geure baitako lexikoian informazio sintaktiko eta semantiko hau<br />

guztia jasota dugunez, hau guztia aditzaren sarrera lexikalean gorde beharreko<br />

informazioa dela pentsatu izan da. LNPren ikuspegitik begiratuta,<br />

aditzekin batera datorren informazio hori guztia EBL batean jasota izanez<br />

gero, hainbat atazatan oso baliagarria izango litzateke.<br />

Baina, nahiz eta aditzak informazio ugari eraman, informazio hori oso<br />

konplexua da, eta arrazoi horregatik da horren zaila aditza aztertzea eta<br />

bere informazioa adieraztea.<br />

“This syntactic and semantic information is generally thought to be part<br />

of the verb’s lexical entry, that is to say, part of the information about the<br />

verb that is stored in a speaker’s mental lexicon. Because of the complexity of<br />

this information, verbs are probably the lexical category that is most difficult<br />

to study.” (Miller et al., 1993, 40. or.)<br />

III.2.3.2 atalean esan dugun bezala, <strong>WordNet</strong>eko aditzek informazio sintaktiko-semantiko<br />

mugatua dute:


V.3 Aditzen garapenerako urratsak 107<br />

“<strong>WordNet</strong> was designed to model lexical memory rather than represent<br />

lexical knowledge, so it excludes much of a speaker’s knowledge about both<br />

semantic and syntactic properties of verbs. There is no evidence that the<br />

syntacitc behavior of verbs [...] serves to organize lexical memory.”<br />

(Miller et al., 1993, 55. or.)<br />

Hori dela eta, izenak lantzeko eta aditzak lantzeko jarraitutako urratsak<br />

desberdinak izan dira.<br />

Estaldurari dagokionez, izenen oinarrizko kontzeptuekin (Base Concept<br />

delakoekin) batera, ingeleseko aditzen oinarrizko kontzeptuei ere euskarako<br />

ordainak eskuz lotu zitzaizkien. Izan ere, V.2 atalean esan dugun bezala,<br />

<strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzaren lehenengo urratsetan oinarrizko estaldurari<br />

eman zitzaion garrantzia.<br />

Kalitateari begira jarri ginenean, hainbat gauza zeuden kontuan hartzeko<br />

modukoak. Tesi-txosten honen hasieratik esan dugun bezala (III.1 atalean),<br />

euskarako EBLan ale lexikalen adierez gain, hauen informazio sintaktikosemantikoa<br />

adierazita etortzea nahiko genuke. MCRn horrelako informazioa<br />

esplizitu egiten saiatzen badira ere, aditzen antolaketa eta hierarkia<br />

<strong>WordNet</strong>erako egindakoa da. Honela, aditzen lanketa masiboarekin hasi baino<br />

lehen, hauxe da egin dugun azterketa:<br />

• Aditzak <strong>WordNet</strong>en landuta nola dauden ikustea: adiera-bereizketak<br />

eta hierarkiaren nondik norakoak.<br />

• <strong>Euskara</strong>ko aditzak MCRn txertatzeko erarik egokiena eta azkarrena<br />

aztertzea.<br />

V.3.1 Aditzak <strong>WordNet</strong>en<br />

Aditzen lanketarako, ize<strong>net</strong>an kontuan hartu ez zen baldintza bat guztiz<br />

beharrezkoa da: informazio sintaktiko-semantikoa (azpikategorizazioa, rol<br />

tematikoak, hautapen-murriztapenak...). Aditzensemantikaaztertzekosintaxia<br />

kontuan hartu behar da zalantzarik gabe. Esate baterako, Levin (1993)<br />

eta Pustejovskyren (1995) lanak (ikus III. kapitulua) argi erakusten dute<br />

adiera ezin dela aditzaren egituratik banatu. Hau da, egitura sintaktikoa<br />

kontuan hartu gabe, hauen ustez ezinezkoa da ale lexikalaren adierazpena<br />

egitea. Hortaz, forma bera baina adiera desberdinak dituen aditz batek,<br />

izaera sintaktiko desberdina ere izango du.


108 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

<strong>WordNet</strong>ek ere informazio sintaktiko-semantikoa erabiltzen du synsetak<br />

osatzeko: synseteko osagaiek hautapen-murriztapen eta azpikategorizazio bera<br />

izan behar dute. Hori ez bada betetzen, aditzak synset desberdi<strong>net</strong>an<br />

banatzen dira.<br />

(1) Mary ate an apple.<br />

(2) Mary ate.<br />

Adibide ho<strong>net</strong>an ikus daitekeen bezala, ingeleseko eat aditza iragankor<br />

edota iragangaitz gisa erabil daiteke. Nahiz eta bi adibideetan aditz-forma<br />

bera izan, izaera sintaktiko desberdina izanda, eat aditzak mota bakoitzeko<br />

synset bat izango du, eat 1 eta eat 2:<br />

(3) {eat 1} (take solid food; ”She was eating a banana”)<br />

{eat 2} (eat a meal; ”We did not eat until 10 P.M.”)<br />

Informazio sintaktiko-semantikoak ez du synset mailan bakarrik eragiten.<br />

Synseta jasotzen duen hierarkian edo klase semantikoan ere badu eragina: ingeleseko<br />

eat aditza bi klase semantikotan banatua dago, bata iragankorra eta<br />

bestea iragangaitza. Hortaz, eat 1 klase semantikoa osatzen duten troponimoak<br />

iragankorrak izango dira (gobble, gulp, devour eta abar bezalakoak,<br />

euskaraz irentsi aditzaren parekoak direnak), eta eat 2renak iragangaitzak<br />

(dine, breakfast eta abar bezalakoak, euskaraz afaldu, gosaldu direnak hurrenez<br />

hurren).<br />

Fellbaum eta Kegleren ustez, (1989) izaera sintaktiko ezberdin hau ez<br />

da iragankor-iragangaitz alternantziagatik bakarrik: semantikak ere badu<br />

eragina. Beste hitz batzuetan esanda, Fellbaum eta Keglek defendatzen dute<br />

bi aditz hauek leku desberdi<strong>net</strong>an daudela taxonomian: (2) adibidean, eat<br />

iragangaitzak ‘otordu bat jan’ adiera du. Hala, aditz honen aditz-troponimok<br />

asko (dine, breakfast, snack, picnic...) bere baitan daramate otordua:<br />

(4) They breakfasted hurriedly.<br />

I hate dining alone.<br />

I have been snacking all day.<br />

There were several families picnicking on the river bank.<br />

Bestalde, (1) adibidean bezala eat iragankorra denean, bere adiera ‘nolabait<br />

irentsi’ litzateke. Horregatik, bere troponimo guztiek ‘jateko erak’<br />

adierazten dituzte (gobble, gulp, devour...bezalakoak).<br />

Vázquez et al.-ek (2000) fenomeno honi infraespezifikazioa deitzen diote:


V.3 Aditzen garapenerako urratsak 109<br />

“La infraespecificación consiste en la no expresión sintagmática de un<br />

miembro de la valencia combinatoria del verbo, produciéndose una oposición<br />

semántica entre una contrucción más específica y otra más general, [...]<br />

donde los elementos infraespecificados son aquellos que contienen menos información,<br />

es decir, los más generales.” (Vázquez et al., 2000, 126. or.)<br />

Fenomeno ho<strong>net</strong>az gain, synset-mailan eta hierarkia-mailan eragina duten<br />

beste fenomeno batzuk ere jasotzen dituzte <strong>WordNet</strong>en. Esate baterako,<br />

alternantzia kausatibo/inkoatiboa.<br />

“<strong>WordNet</strong> contains CAUSE pointers from causative, transitive verbs to<br />

the corresponding antiacusative (inchoative), intransitive sense of the same<br />

word.” (Fellbaum, 1998a, 83. or.)<br />

Hala, (5) adibideko aditzak nahiz eta forma berekoak izan, polisemikotzat<br />

joko dira, eta ondorioz, hierarkian synset ezberdi<strong>net</strong>an kokatuko dira,<br />

semantikoki eta sintaktikoki ezberdinak direlako. Gainera, break 2 synsetaren<br />

troponimoek inkoatibo izaera izango dute (The plastic bottle crushed/<br />

cracked) eta break 5 kontzeptuarenek, aldiz, kausatiboak (He smashed/<br />

shattered a plate).<br />

(5) {break 2} (become separated into pieces; ”The figurine broke”)<br />

{break 5} (cause to separate into pieces; ”He broke the plate”)<br />

Honela bada, Fellbaum eta Keglek — Levinek (1993) eta Pustejovskyek<br />

(1995) bezala— adiera hartzen dute oinarri gisa ezaugarri sintaktikoak definitzeko:<br />

“Thus, the semantics of the troponyms in each case provide a classification<br />

in terms of two distinct hierarchies matching the syntactic distinction<br />

between the two verb groups.” (Fellbaum eta Kegl, 1989, 97. or.)<br />

Hala, <strong>Euskal</strong> <strong>WordNet</strong>eko aditzen adierak zehazteko hiztegietako adierek<br />

bakarrik ez dute balio, izaera sintaktikoa ere guztiz beharrezkoa da synseten<br />

arteko desberdintasunak egiteko. Hautsi eta jan aditzen kasuan, esate baterako,<br />

gorago aipatu dugun eat eta break aditzen fenomeno bera gertatzen<br />

da: forma iragankorra eta forma iragangaitza bi synset desberdi<strong>net</strong>an daude.<br />

Ondorioz, hautsi 1 iragankorra denez (Platera puskatu zuen esaldian, adibidez),<br />

honen azpian dauden troponimoak iragankorrak izango dira (birrindu<br />

eta txikitu bezalakoak). Aldiz, hautsi 2 iragangaitza denez (Platera berotzean<br />

hautsi zen), honen troponimoak iragangaitzak dira (esate baterako, zaratatu).


110 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

V.3.2 MCRn aditzak txertatzeko azterketa<br />

Argi dago, beraz, aditzak <strong>Euskal</strong> <strong>WordNet</strong>en lantzean adiera-banaketan eta<br />

hierarkian zerikusia duten ezaugarri sintaktiko-semantiko hauek guztiak kontuan<br />

hartu behar ditugula. Hori dela eta, izenekin egun erabiltzen ari garen<br />

orrazketa motaz (hitzez hitzekoa) gain, beste orrazketa mota bat ere probatu<br />

nahi izan dugu aditzekin: hierarkiaz hierarkiakoa. Hala, bost aditz<br />

(hitzez hitzeko eskuzko orrazketaren kasuan) eta hierarkia bat (hierarkiaz hierarkiako<br />

eskuzko orrazketaren kasuan) aukeratu eta landu ondoren, aditzen<br />

lanketa masiborako zein orrazketa mota den egokiena ondoriozta dezakegu.<br />

Lehendabizi, ordea, bost aditzen hitzez hitzeko eskuzko orrazketa zertan<br />

izan den azalduko dugu.<br />

V.3.2.1 Bost aditzen hitzez hitzeko eskuzko orrazketa<br />

Izenekin egindako orrazketa mota bera da: aditz batek hiztegietan dituen<br />

adierak <strong>Euskal</strong> <strong>WordNet</strong>en daudela ziurtatzea eta synsetean dauden beste<br />

ordainak egokiak direla egiaztatzen saiatzea. Orrazketan erabilitako baliabide<br />

eta iturriak ez dira izenekin erabilitako berdinak izan, eta metodologia<br />

aldetik ere aldaketa batzuk egon dira. Hasteko, orrazketa mota hau aditz<br />

batzuekin bakarrik probatu da. Hau da, orrazketa mota hau aditzen lanketarako<br />

baliagarria den aztertzeko, bost aditz bakarrik landu ditugu (esan,<br />

banandu, banatu, abestu eta ekarri), gero ondorio batzuk atera ahal izateko.<br />

Azterketarako hautatutako aditzen artean, ezaugarri eta jokaera guztietako<br />

aditzak sartzen saiatu gara: maiztasun handikoak eta txikikoak, eta<br />

joera sintaktiko desberdinekoak (iragankorrak eta iragangaitzak, adibidez).<br />

Aditzak aukeratzeko beste irizpide garrantzitsua Volem2 proiekturako<br />

aztertutako euskal aditzen artean egotea zen. Proiektu ho<strong>net</strong>an Volemeko<br />

(III.2.3.3) aditz eta preposizioei euskara eta okzitanieraren informazioa gehitu<br />

zaie, beti ere Volemerako definitutako formalismoari jarraituz. <strong>Euskara</strong>ko<br />

aditzei dagokionez, Aldezabalek (2004) aztertutako aditzen informazioa txertatu<br />

zen. Hala, Aldezabalek bere ikerlanerako aukeratutako ehun aditzetatik<br />

berrogei Volem EBLan zeudenez, horietatik abiatu gara hitzez hitzeko orrazketaren<br />

azterketarako.<br />

Bestalde, aukeratutako aditzak Aldezabalen lanean eta Volemen aztertutakoak<br />

izanik, <strong>Euskal</strong> <strong>WordNet</strong>eko, Aldezabalen laneko eta Volemeko EBLak<br />

lotzea ekarri du erabaki honek, bakoitza bestearen informazioarekin aberastuz.


V.3 Aditzen garapenerako urratsak 111<br />

Adierak zehazteko erabilitako baliabideen artean, Elhuyar Hiztegia —<br />

elebiduna— (Elhuyar, 1996) eta Elhuyar Hiztegi Modernoa (Elhuyar, 2000)<br />

—elebakarra— erabili dira. Hauek dakarten aditzei buruzko informazio sintaktikoa<br />

murritza da gure lanerako. Hori dela eta, Aldezabalek (2004) egindako<br />

aditz horien sailkapenean oinarritzea erabaki dugu, non aditzaren adiera<br />

bakoitzeko azpikategorizazio zehatza definitzen den.<br />

V.3.2.2 Aditz-hierarkia baten orrazketa<br />

Hitzez hitz lantzean lortzen duguna da orrazten ari garen hitzaren adiera<br />

guztiak finkatzea eta zehaztea. Hala, hitz horren adiera guztiak orraztuak<br />

geratzen dira. Baina, bestalde, beste huts egite bat egin daiteke metodologia<br />

horrekin: hierarkiaren egokitasunari nahikoa ez erreparatzea; hierarkia<br />

desorekatua gera daiteke kasuren batean, metodologia horrekin ez baita funtsezkoa<br />

hierarkia lantzea, landu beharreko hitza baizik. Hortaz, ematen du<br />

menderatu beharreko eremua murritzagoa dela.<br />

Horretaz gain, synset mailan arituta, synset horiek adierazten dutena<br />

ulertu ahal izateko, hizkuntzalarioi nahitaezkoa izan zaigu hauek beraien<br />

hierarkian kokatzea. Hau da, synsetaren hiperonimoak eta hiponimoak aztertzea.<br />

Hala, synsetaren klase semantikoari buruzko informazioa lor daiteke,<br />

eta, ondorioz, orraztu beharreko variantak klase semantiko horretan egokiak<br />

diren ere jakin dezakegu. Hain zuzen ere, horixe egin behar izan dugu (4)<br />

eta (5) adibideetan aipatu ditugun eat eta break aditzen kasuan; bere hiperonimoetara<br />

eta troponimoetara jo bi synset hauen arteko desberdintasuna<br />

zertan datzan jakiteko.<br />

Desoreka hauetaz jabetuta, orrazketa era berri batekin saia gintezkeela<br />

iruditu zitzaigun: hierarkiaz hierarkiako orrazketa. IV. kapitulua esan<br />

bezala, <strong>WordNet</strong>eko aditzak 15 klase semantiko nagusitan banatuak daude.<br />

Hauetako bakoitzean aditz horien antolaketaren hastapena dago, unique<br />

beginner deiturikoak, hain zuzen. Hierarkiaz hierarkiako orrazketarekin hierarkia<br />

osoak orraztu ditugu unique beginnerretatik hasita, hierarkiako azken<br />

troponimora arte.<br />

Orrazketa mota hau probatzeko {express 2, give tongue 1, utter 1}<br />

unique beginnerra aukeratu genuen hierarkia honen troponimo kopurua, beste<br />

hierarkienarekin parekatuz gero, tartekoa zelako. Unique beginner askok<br />

berrehun troponimo baino gutxiago dituzte, eta beste batzuk, aldiz, bostehun<br />

baino gehiago. Guk aukeratutako hau, 198 troponimoekin, erdibidean<br />

kokatzen denez, egokia iruditu zaitzaigun orrazketa mota honen lehenengo


112 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

ondorioak ateratzeko.<br />

Hurrengo atalean, azterketa ho<strong>net</strong>atik lortutako ondorio nagusienak dakartzagu.<br />

Dena den, hierarkiaz hierarkiako orrazketa hau guztia B eranskinean<br />

dator, baita ingeleseko eta euskarako hierarkien arteko alderaketa bat<br />

ere.<br />

V.3.2.3 Hitzez hitzeko orrazketa ala hierarkiaz hierarkiakoa?<br />

Azterketa honen ondorioz, esan dezakegu hierarkiaz hierarkiako orrazketa,<br />

hitzez hitzeko orrazketa baino lan zabalagoa dela. Izan ere, hierarkiaz hierarkiako<br />

orrazketan, hitz horrek dituen hiperomino eta troponimo guztiak<br />

aztertu behar dira, eta bakoitzaren adiera hierarkia horretan egokia den ala<br />

ez egiaztatu. Gainera, hierarkia orekatua eta logikoa den ere aztertu behar<br />

da. Troponimo baten ordaina ezin da hiperonimo batena baino orokorragoa<br />

izan, adibidez. Orduan, hierarkia osoaren ikuspegia edukitzea oso mesedegarria<br />

da. Hala ere, gerta daiteke synset bakoitzean dagoen hitzaren zein<br />

adiera den ondo ez menderatzea, beharrezkoa baita horretarako hitz horrek<br />

dituen gainontzeko adierak ezagutzea. Hortaz, hierarkiaz hierarkiako metodologia<br />

egokiagoa dirudi eremu zabalagoa orraztea lortzen delako, baina ez<br />

dira, ahal den neurrian, hitz bakoitzak dituen adiera desberdinak alde batera<br />

utzi behar.<br />

Hala, ez dirudi erraza erabakitzea zein orrazketa mota den aditzen lanketarako<br />

mesedegarriena. Bien artean erabaki ordez, hitzez hitzeko orrazketa<br />

eta hierarkiaz hierarkiakoa aldi berean egitea dirudi egokiena. Baina horrek<br />

eskuzko lan ugari eskatzeaz gain, aditzen EBLaren garapena mantsotuko luke.<br />

Aztertzeko dugun beste aukera bat da <strong>WordNet</strong>eko aditzak<br />

PropBankeko aditzekin (Civit et al., 2005a) batera garatzea. Arestian<br />

aipatu bezala (V.2.2.2 atalean), EPEC corpusa morfosintaktikoki, sintaktikoki,<br />

<strong>Euskal</strong> <strong>WordNet</strong>eko adierekin eta PropBankeko rolekin etiketatzen<br />

ari gara IXA taldean. PropBanken aditz-adiera bakoitza sarrera bat da, eta<br />

VerbNet (Kipper et al., 2000) EBLko sarrara bati lotuta dago 10 . VerbNeteko<br />

sarrera hori, aldi berean, <strong>WordNet</strong>eko synset batekin lotuta dago. Hala, euskarako<br />

PropBankeko aditzak garatzean (gerora hauen rolekin EPEC corpusa<br />

etiketatzeko), VerbNeteko informazioa erabilita, aditz hauen <strong>WordNet</strong>eko<br />

baliokideak izango genituzke zuzenean.<br />

10 PropBanki eta VerbNeti buruz III. kapituluan aritu gara.


V.4 Ondorioak 113<br />

Lehenago aipatu izan dugun <strong>Euskal</strong> <strong>WordNet</strong>ekin batera euskarako corpusa<br />

semantikoki ere etiketatzen ari gara: EuSemcor (Agirre et al., 2006a).<br />

<strong>Euskal</strong> <strong>WordNet</strong>en landutako hitza corpusean etiketatzeaz gain, corpusetik<br />

ere <strong>Euskal</strong> <strong>WordNet</strong>en ez dagoen adiera berriren bat lor daiteke, eta,<br />

ondorioz, <strong>Euskal</strong> <strong>WordNet</strong> corpus errealeko adiera berriekin aberastu.<br />

EuSemcor proiektuan, izenen etiketatzea amaitzean aditzekin hasiko gara.<br />

Hortaz, corpuseko aditzen agerpenak <strong>Euskal</strong> <strong>WordNet</strong>eko synsetekin etiketatu<br />

ahal izateko, aldez aurretik, aditzen synsetak orraztu egin beharko dira<br />

<strong>Euskal</strong> <strong>WordNet</strong>en. Hori dela eta, arrazoi praktikoengatik, aditzen hitzez<br />

hitzeko orrazketarekin hasiko ginateke, nahiz eta hurrengo faseren batean<br />

hierarkiaz hierarkiako orrazketa erabiltzea ez dugun baztertzen.<br />

Azterketarako bi orrazketa hauek kontuan izanda, V.4 taulan <strong>Euskal</strong><br />

<strong>WordNet</strong>ek dituen aditzen kopuruak ekartzen ditugu.<br />

Aditzak Synset Variant Variant<br />

Lema Variant<br />

synseteko lemako<br />

EusWN 0.1 BC eskuz 792 - - - -<br />

EusWN 0.2 eskuz 3.751 9.510 2,5 3.496 2,7<br />

WN 1.6 eskuz 12.127 22.073 1,8 10.326 2,1<br />

V.4 Taula: <strong>Euskal</strong> <strong>WordNet</strong>eko aditzen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />

oinarrizko kontzeptuak, hitzez hitzeko orrazketa eta hierarkiaz hierarkiako<br />

orrazketak egin ondoren.<br />

Kopuruetan ikus daitekeen bezala, oraindik oso urruti gaude ingeleseko<br />

<strong>WordNet</strong>etik (<strong>WordNet</strong> 1.6 bertsioak 12.127 synset, 22.073 variant eta 10.326<br />

lema dituen bitartean, <strong>Euskal</strong> <strong>WordNet</strong>ek 3.751 synset, 9.510 variant eta<br />

3.496 lema ditu, bakarrik).<br />

V.4 Ondorioak<br />

Kapitulu ho<strong>net</strong>an, <strong>Euskal</strong> <strong>WordNet</strong>en garapenerako zein metodologia erabili<br />

eta nola diseinatu dugun azaldu dugu. Estaldura eta kalitatea izan dira metodologiaren<br />

diseinuaren ardatzak, eta hauen arabera banatu ditugu <strong>Euskal</strong><br />

<strong>WordNet</strong>eko izen eta aditzen garapena, fase ezberdi<strong>net</strong>an. Izenen garapenean,<br />

esate baterako, lau fase nagusi aipatu ditugu: garapen automatikoa eta<br />

oinarrizko kontzeptuen eskuzko aberasketa, kontzeptuz kontzeptuko orrazketa,<br />

hitzez hitzeko orrazketa, eta azkenik, hitzez hitzeko orrazketa EuSemcor


114 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />

corpusaren etiketatze semantikoarekin bateratuta. Hasierako urratsetan estaldura<br />

hartu bagenuen abiapuntu gisa, gerora kalitatearen alde jo dugu,<br />

eta arrazoi hori dela eta <strong>Euskal</strong> <strong>WordNet</strong>en aberasketa mantsotu egiten dela<br />

ikusi dugu.<br />

Aditzen kasuan ez gara mintzatu hauen garapenaz —ez baikara oraindik<br />

aditzen lanketa masiboarekin hasi—, baizik eta nahiko genukeen garapenaren<br />

azterketaz. Aditzen lanketarekin hasi aurretik, aditzen konplexutasuna delaeta<br />

—hauek daramaten informazio sintaktiko-semantikoagatik—, hauen garapenerako<br />

metodologia proposatu dugu. Horretarako, saiakera batzuk egin<br />

ditugu bi orrazketa motekin: izenekin erabilitako hitzez hitzeko orrazketarekin<br />

eta hierarkiaz hierarkiako orrazketarekin. Hitzez hitzeko orrazketak<br />

ez du hierarkiaren ikuspegia, eta, aldiz, hierarkiaz hierarkiako orrazketak ez<br />

ditu hitzaren adierak kontuan hartzen. Dirudienez, bata bestearen osagarria<br />

da. Hala, epe laburrean EuSemcor proiektuan aditzen etiketatzea hasiko<br />

garenez, aditzen hitzez hitzeko orrazketarekin hasiko ginateke, nahiz eta hurrengo<br />

faseren batean hierarkiaz hierarkiako orrazketa erabiltzea ez dugun<br />

baztertzen.


<strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era:<br />

bereizgarriak eta hobekuntzak<br />

VI. KAPITULUA<br />

<strong>Euskal</strong> <strong>WordNet</strong>en egon diren orrazketetan, eta kontuan izanda euskarako<br />

word<strong>net</strong>a ingelesekoaren gainean garatzen ari garela, ingelesaren eta euskararen<br />

arteko hainbat bereizgarri linguistiko azaleratu dira. Kapitulu ho<strong>net</strong>an<br />

hauen berri emateaz gain, hizkuntzen arteko ezberdintasun horiek nola<br />

kodetu ditugun ere azalduko dugu, kasu batzuetan ereduaren hobekuntzak<br />

aurkeztuaz.<br />

Hasteko, lexikalizazioari dagozkion bereizgarriak azalduko ditugu (VI.1<br />

atalean). Ingeleseko kontzeptuak antolatzen dituen EBLa izaki, hainbat kontzeptu<br />

ez dira lexikalizatuak euskaraz, gure kulturan ez ditugulako erabiltzen.<br />

Alderantziz ere gertatzen da; euskal kulturari dagozkion kontzeptu batzuk ez<br />

dira ingeleseko hierarkian agertzen. Ho<strong>net</strong>az gain, maiz gertatzen da ingeleseko<br />

kontzeptu bat euskaraz flexio-atzizkidun hitz batekin edota hitz anitzeko<br />

esapide batekin adieraztea, eta askotan ez dago garbi horiek euskaraz lexikalizatuak<br />

dauden ala ez. Hala, hauen lexikalizazioaren inguruan zalantzak<br />

sortzen dira, eta hauei aurre egiteko irizpideak behar dira.<br />

Beste bereizgarri nagusia hierarkiari dagokio (VI.2 atalean). Gure euskarako<br />

word<strong>net</strong>a ingeleseko hierarkiaren gainean garatzen ari garenez, bi hierarkien<br />

arteko aldeak agertzen dira. Esate baterako, ingeleseko hierarkiak oso<br />

zehaztapen aberatsa du: synset orokorre<strong>net</strong>ik zehatzeneraino, synset kopuru<br />

ugari aurkitzen dira (askotan hamar eta hamasei). Horien euskal ordainen<br />

bila jotzen dugunean, ordea, askotan ez dugu hitz desberdinik topatzen, eta


116 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

horregatik, askotan, ingeleseko hierarkiako synset ugari hiperonimoaren ordain<br />

bera erabilita, edota hiperonimoarekin batera beste izen, adberbio edota<br />

adjektibo bat gehituta itzultzen dira.<br />

Bi bereizgarriz ari bagara ere, esan beharra dago hierarkia-bereizgarrietan<br />

ere lexikalizazioaz ari garela, baina hierarkiaren egituraren ikuspegitik.<br />

VI.2 atalean, fenomeno honen adibideak emango ditugu eta honen inguruan<br />

erabakitako hainbat irizpide azalduko ditugu.<br />

Bi fenomeno hauei heltzeko definitutako irizpideek The Multilingual Central<br />

Repositoryk (MCRk) duen errepresentazioaren hedapena eskatzen dute.<br />

Hori dela eta, MCRn hobekuntza batzuk proposatu ditugu ingeleseko<br />

eta euskarako word<strong>net</strong>ak bateratu ahal izateko. Hala, bereizgarri linguistikoen<br />

azalpenarekin batera, bereizgarri hauek eragin dituzten errepresentaziohobekuntzak<br />

ere aipatuko ditugu VI.1, VI.2 ataletan zehar eta VI.3 ataletan.<br />

VI.1 Lexikalizazioa<br />

Lexikalizazioa zer den hobeto ulertzeko Lewandowski-ren hitzetara (1992) jo<br />

dugu:<br />

“El término lexicalización se refiere a la transformación de un elemento,<br />

o una unión de elementos, en un elemento léxico o conceptual único, p. ej.<br />

camino de hierro/ferrocarril.” (Lewandowski, 1992, 208. or.)<br />

Hortaz, lexikalizazioaren transformazioaren ondorioa elementu bat (guk<br />

hitz bat esango dugu 1 : ferrocarril) izan daiteke, edota aleen multzo bat (hitz<br />

bat baino gehiago), hots, hitz anitzeko esapide bat (camino de hierro).<br />

Autore batzuek diotenez (Calzolari et al., 2002), lexikalizazioa continuum<br />

gisa ulertu behar da: batetik, produktiboak eta konposizionalak diren egiturak<br />

daude, bestetik, finko eta izoztuta dauden egiturak. Honen arrazoia<br />

da lexikalizazioa faktore desberdinen emaitza dela. Batzuetan faktore hauek<br />

guztiak gerta badaitezke ere, beste batzuetan ez dute inolako eraginik.<br />

Faktore hauen kopurua adostuta ez dagoen arren, faktore garrantzitsuenak<br />

continuum horretan ondoko ordenan gertatzen dela esaten da: kolokazioa<br />

> fijazioa > espezializazio semantikoa > idiomatizazioa. Faktore guztiak<br />

zeharo betetzen direnean —hots, lexikalizatu beharreko adierazpideak<br />

1Hitza ulertuta zuriguneen artean dagoen karaktere multzo gisa (Fontenelle et al.,<br />

1994).


VI.1 Lexikalizazioa 117<br />

faktore guztien eragina jaso badu—, orduan, adierazpide izoztu bat (edo frozen<br />

expression delakoa) izango genuke (adarra jo eta larru bizirik, adibidez).<br />

Aldiz, faktore guztiak ez direnean gertatzen —hots, lexikalizatu beharreko<br />

sekuentziak faktore guztien eragina jasotzen ez duenean—, adierazpide hori<br />

continuumaren edozein puntutan gera daiteke (adibidez, janaria egin eta<br />

sakelako telefonoa). Hala, adierazpide hauek continuumaren puntu batean<br />

ala bestean geldituz gero, ezaugarri desberdinak izango dituzte, adierazpide<br />

mota desberdinak sortuz.<br />

Lexikalizaturiko hitz anitzekoen kasuan, hurrengo ezaugarriak dituztela<br />

esaten da (Calzolari et al., 2002):<br />

• sintaktikoki eta semantikoki guztiz gardenak ez izatea<br />

• konposizionaltasun mugatua izatea<br />

• gutxi gorabeherako esapide finkoak izatea<br />

• arau sintaktikoak guztiz ez betetzea<br />

• lexikalizazio-maila handia izatea<br />

• konbentzionalitate-maila handia izatea<br />

Datu errealekin lan egitean, ordea, lexikografoek ezaugarri hauekiko duten<br />

iritzia ez da bateratua. Batzuetan oso lan zaila da hitz bat edo hitz<br />

segida bat continuum horretako zein puntutan dagoen erabakitzea, hots, lexikalizatuta<br />

dagoen ala ez zehaztea. Eta zailtasun hau agerian geratzen da bi<br />

hizkuntza konparatzerakoan, edota, gure kasuan bezala, hizkuntza baterako<br />

egindako EBLtik abiatuz (<strong>WordNet</strong>), beste hizkuntza bateko lexikoia garatu<br />

behar denean (<strong>Euskal</strong> <strong>WordNet</strong>).


118 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

VI.1.1 <strong>WordNet</strong>, lexikalizazioa eta hizkuntzen arteko aldeak<br />

Askotan aipatu izan dugu <strong>WordNet</strong> (Fellbaum, 1998a) teoria psikolinguistikoetan<br />

oinarritutako lexikoia dela:<br />

“<strong>WordNet</strong> is a semantic dictionary that was designed as a <strong>net</strong>work, partly<br />

because representing words and concepts as an interrelated system seems<br />

to be consistent with evidence for the way speakers organize their mental<br />

lexicons.” (Fellbaum, 1998a, 7. or.)<br />

Horrela bada, <strong>WordNet</strong>en kontzeptuak eta hitzak erlazionatzen dira, hau<br />

da, kontzeptuen hierarkia bat da eta kontzeptu horien esanahia adierazteko<br />

hitzak erabiltzen dituzte. Jatorrizko <strong>WordNet</strong>ek, lexikoi gehienek bezala,<br />

kontzeptu eta sarrera lexikalizatuak bakarrik jasotzen ditu, direla hitz bakarrekoak,<br />

direla hitz anitzekoak 2 :<br />

(1) {girlfriend, girl} (a woman with whom a man is involved. . . )<br />

{house} (a dwelling that serves as living quarters)<br />

{scissors} (a cutting implement having two crossed blades)<br />

{sleep} (be asleep)<br />

{simnel} (eaten at mid-Lent or Easter or Christmas)<br />

{forties, mid-foties} (the time of life between 40 and 50)<br />

{cook} (prepare a hot meal)<br />

{pet} (a domesticated animal kept for companionship or. . . )<br />

{lyrics, words, language}(the text of a popular song)<br />

{furnishing} (the instrumentalities that make a home livable)<br />

{parent} (a father or mother)<br />

{cold} (feeling a sensation of coldness)<br />

{commodity, goods} (articles of commerce)<br />

{waif} (a homeless child especially one forsaken)<br />

{Alps} (a large mountain in south-central Europe)<br />

{military man, serviceman}(someone who serves the forces)<br />

Salbuespen bakarrak hierarkia antolatzen laguntzen duten kontzeptu orokorrak<br />

dira, esate baterako, body of water edota visual property. Asmaturiko<br />

kontzeptu hauek ez daude lexikalizatuak, baina oso baliagarriak dira klase semantiko<br />

bat multzokatzeko eta izendatzeko. Hauei buruzko azalpen gehiago<br />

VI.2.1 atalean emango dugu.<br />

2 Kapitulu ho<strong>net</strong>an aurkezten diren adibideetan, espazio-arazoak direla-eta, synsetetako<br />

variant kopurua txikitu edota glosak murriztu ditugu, eman beharreko azalpenak nahikoak<br />

iruditu zaizkigunak soilik utziz.


VI.1 Lexikalizazioa 119<br />

V.1 atalean azaldu dugun bezala, <strong>Euskal</strong> <strong>WordNet</strong> <strong>WordNet</strong>aren gainean<br />

garatzen ari gara, Vossen-en (1998) expand approacha jarraituz; hots,<br />

ingeleseko variantak –(1) adibidekoen moduak— euskarakoekin ordezkatzen<br />

ditugu.<br />

Lan hori egiterakoan, editoreak lexikalizazio-arazoak maiz topatzen ditu,<br />

bi hizkuntzen artean kontzeptu-mailako desorekak eta adierazpidemailako<br />

desorekak baitaude.<br />

Desoreka kontzeptualen artean kontzeptu kulturalak deritzotenak daude:<br />

kultura bati loturik agertzen diren kontzeptuak, beste hizkuntzetan existitzen<br />

ez direnak. Adibidez, simnel ‘Ingalaterran Eguberrietan jaten den gozokia’<br />

da, edota off-sales ‘edari alkoholikoak sal ditzaketen Ingalaterrako dendak,<br />

non hauek edatea debekatua dagoen’. Hauek Ingalaterrako kontzeptu kulturalak<br />

lirateke. <strong>Euskara</strong>z ere gertatzen da hori jakina: trikitixa, ikastola,<br />

txakolina eta abar <strong>Euskal</strong> Herriko kontzeptu kulturalak dira. Horrelako kontzeptu<br />

kulturalak ditugunean, hizkuntza batean ez da egongo hori adierazteko<br />

hitzik. Kasu hauek hutsune kultural (cultural gaps) bezala izendatzen<br />

ditu Vossenek (1999).<br />

“A cultural gap is a concept not known in [another] culture.”<br />

(Vossen, 1999, 39. or.)<br />

Hutsune kulturalak ezin dira hitz bat edo hitz anitzeko esapide baten<br />

bidez adierazi; hauek azalpen edo definizio gisa adierazten dira edo bere horretan<br />

itzultzen dira (abiapuntuko hizkuntzaren hitz bera erabilita). Horregatik,<br />

editoreak hutsune kulturalen lexikalizazioa ez du zalantzatan jarriko,<br />

horrelakoak lexikalizatu gabeko kontzeptuak baitira. Hala ere, gero ikusiko<br />

dugun bezala, kasu hauek <strong>Euskal</strong> <strong>WordNet</strong>en nola landu behar diren erabaki<br />

behar izan dugu (ikus VI.1.4).<br />

Adierazpide-mailako desoreka gertatzen da, berriz, bi hizkuntzatan kontzeptua<br />

ezagutzen denean, baina bata eta bestean adierazpide desberdinak<br />

erabiltzen direnean. Esate baterako, batzuetan ingeleseko synsetak euskaraz<br />

hitz anitzeko esapideen bidez itzultzen dira:<br />

(2) pet → konpainia-animalia<br />

sleep → lo egin<br />

cook → janaria egin<br />

Alderantziz ere gerta daiteke, hots, euskarako synset bat ingelesez hitz anitzeko<br />

batekin adieraz daiteke:


120 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

(3) polizia → police officer, policeman<br />

abeltzaintza → livestock farming<br />

soinujole → accordion player<br />

Vossenek (1999) horrelakoei hutsune pragmatikoak (pragmatic gaps) deitzen<br />

die:<br />

“Pragmatic gaps are caused by lexicalization differences between<br />

languages, in the sense that in this case the concept is known but not<br />

expressed by a single lexicalized form in English:<br />

Dutch: doodschoppen (to kick to death)<br />

Spanish: alevin (young fish)<br />

Italian rincasare (to go back home)”<br />

(Vossen, 1999, 39. or.)<br />

Vossenek, ikusten dugun bezala, hutsune pragmatikotzat jotzen du kontzeptua<br />

bi hizkuntzetan egon eta adierazpide-mailan desoreka egotea.<br />

Dena den, ez da erraza hutsune pragmatiko hauen lexikalizazioa ebaztea,<br />

batez ere hiztegietan oinarriatuz gero: lo egin hiztegi-sarrera da, aldiz, janaria<br />

egin ez; etxe-abere hiztegi-sarrera da, konpainia-animalia, ordea, ez. Hizkuntza<br />

sortzailea den heinean, hitz-konbinazio berriak sortzen doaz, eta ulertzen<br />

ditugun arren, zaila da esaten lexikalizatuak dauden ala ez. Honek, noski<br />

zailtasunak dakartza hitz hori <strong>Euskal</strong> <strong>WordNet</strong>en sartu ala ez erabakitzeko.<br />

Zailtasun hau areagotu egiten da aldi berean semantikoki etiketatutako<br />

(desanbiguatutako) corpusa sortzen ari bagara (gogoratu V. kapituluan aipaturiko<br />

EuSemcor). Bertan hitz anitzeko esapide lexikalizatu baten osagai<br />

diren corpuseko agerpen guztiak markatu egiten dira. Adibidez, mutil izenaren<br />

agerpenak etiketatzen egonez gero, eta corpusean honi lagun izenak<br />

jarraitzen badio, mutil, agerpen horretan, hitz anitzeko baten osagarri gisa<br />

markatzen da 3 . Hala ere, etiketatzaileak maiz ez daude ados hitz anitzeko<br />

esapide lexikalizatua zer den erabakitzeko orduan.<br />

Horregatik, gure ustez bada beste desoreka mota bat: kontzeptu bat<br />

existitzea hizkuntza batean (bere adierazpen lexikalarekin; gehie<strong>net</strong>an hitz<br />

bakarrekoa), eta beste hizkuntzan zalantzan egotea kontzeptu hori bereziki<br />

bereizten dugun (hots, lexikalizatua dagoen), edo, besterik gabe, sintaxi askeko<br />

beste edozein adierazpide gisa ulertzen dugun. Aurreko adibideez gain<br />

(konpainia-animalia, janaria egin), horrelakoak izaten dira flexio-atzizkia edo<br />

numeroaren marka daramaten ordainak:<br />

3 Etiketatze semantikoari buruzko argibide gehiago Agirre et al.-en lanean (2005b).


VI.1 Lexikalizazioa 121<br />

(4) words → hitzak<br />

furnishing → altzariak<br />

goods → salgaiak<br />

cold → hotzez<br />

<strong>WordNet</strong>en hitz hauen adiera flexio-atzizkian edo pluraltasunean oinarritzen<br />

da. Hau da, flexio-atzizkia dutenean edota pluralean erabiltzen direnean<br />

adiera bat dute, eta gainontzean beste bat edo beste batzuk. Esate baterako,<br />

editoreak, <strong>WordNet</strong>etik abiatuta, singularreko synsetak euskaratzean<br />

(furniture → altzari, adibidez), ez du lexikalizazio-zalantzarik izaten euskarako<br />

ordain hori (altzari) hiztegi-sarrera denean hiztegi elebakar edo elebidu<strong>net</strong>an.<br />

Baina bestela gertatzen da hiztegietan sarrerarik ez dagoenean eta gainera<br />

adiera bereizketa argia ez denean. Azken hau (adiera-bereizketa eza) gertatzea<br />

arruntagoa da etiketatze semantikoan jardutean <strong>WordNet</strong>en hitzak editatzen<br />

jardutean baino. Editorearen ikuspegitik, errepresentazio-arazoa da<br />

gehiago gertatzen dena. Adibidez, furnishing kontzeptua adierazteko, altzari<br />

formaren adieretako bat balitza bezala landuko dugu, pluralean erabiltzen<br />

dela nolabait markatuz? edo altzariak hitz desberdina erabiliko dugu, horrekin<br />

ulertaraziz hitz hori (adiera horrekin) beti pluralean erabiltzen dela?<br />

Horrelakoetan editoreak kontzeptuaren lexikalizazioari buruzko zalantzak ditu.<br />

Ondorioz, ez daki synset horiek nola landu.<br />

Etiketatze semantikoarekin arazo hau areagotu egiten da, testuetako adibideen<br />

aurrean ez delako argi ikusten bi formen arteko bereizketaren beharra.<br />

Demagun, altzariak (furnishing adierazteko) lexikalizatutzat jotzen dugula.<br />

Orduan, altzari eta altzariak adiera desberdineko bi synset direla adierazten<br />

egongo ginateke eta hori corpusean ere halaxe izan beharko litzateke. Baina<br />

etiketatzaileek (5) adibideko agerpenen aurrean zalantzak dituzte. Hau da,<br />

ez dakite horrelako agerpenei altzari kontzeptua, altzariak kontzeptua, edo<br />

biak dagozkien. Gauza bera hitz eta hitzak, salgai eta salgaiak eta hotz eta<br />

hotzez kontzeptuekin.<br />

(5) Etxeko altzariak saldu behar izan ditut.<br />

Ez dira nik idatzitako hitzak.<br />

Salgaiez beteriko dendak.<br />

Hotzez hil dela salatu dute.<br />

Ingelesetik euskarara itzuli beharrean, alderantziz egingo bagenu arazo<br />

bera izango genuke; esate baterako, euskarako guraso hitzak hiztegietan bi


122 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

adiera ditu: bata, ‘aita edo ama’ (gurasoetako bat, alegia) adierazten duena,<br />

eta bestea ‘aita eta ama’ (bi gurasoak, alegia). Bigarrenean, <strong>WordNet</strong>eko<br />

words eta goods kontzeptuekin gertatzen den bera gertatzen zaigu: ‘aita eta<br />

ama’ adiera adierazteko beti plurala erabili behar da, eta honek bereizten<br />

ditu bi adierak, hain zuzen ere. Ingelesez, ‘aita edo ama’ adierazteko parent<br />

hitza darabilte. ‘Aita eta ama’ adiera, aldiz, ez dute hiztegietan jasota eta<br />

hiztunak hori adierazteko modua parents da, beste edozein izenekin bezala<br />

plurala erabiltzen dute. Guraso ‘aita eta ama’ adierazten duen synsetean, zer<br />

beharko luke parent ala parents? Gauza bera euskarako gazteria hitzarekin;<br />

ingelesez, kontzeptu hori adierazteko youngs edo young people bezalako bat<br />

beharko litzateke, baina synsetean young edo youngs jartzea erabaki beharko<br />

litzakete.<br />

(6) Parents are asked not to come.<br />

Youngs are the victims of the war on drugs.<br />

Hiztegietan oinarrituz, pluralaren kasuan, hiztegi-sarrera bezala izen bereziak<br />

daude (Alpeak, Estatu Batuak eta antzekoak). Izen bereziak ez diren<br />

beste pluraletan, hiztegiak askotan ez datoz bat. Hiztegi Batuak 4 , esate<br />

baterako, seme-alabak, senar-emazteak eta damak (‘dama-joko’a adierazteko)<br />

hiztegi-sarrera gisa proposatzen ditu.<br />

(7) Hiztegi Batua<br />

seme-alabak: seme-alabak<br />

senar-emazteak: senar-emazteak<br />

damak: (joko-izena)<br />

Guraizeak, aiton-amonak eta prakak formak, aldiz, ez dira hiztegi-sarrera,<br />

hots, dagokien hiztegi-sarrera singularrean dago (guraize, aiton-amona eta<br />

praka); baina flexioaren erabilerari buruzko nolabaiteko azalpena dator.<br />

(8) Hiztegi Batua<br />

guraize: pl.<br />

aiton-amona: pl.<br />

praka: pl., praka-pare bat<br />

Azkenik, mobiliario eta mercancía bezalakoak adierazten dituzten euskal<br />

ordain pluralak (altzariak eta salgaiak), hiztegi-sarrera singularrean dute<br />

(salgai eta altzari) inolako beste azalpenik gabe. Beraz, dirudienez, Hiztegi<br />

Batuak hitz hauen erabilera plurala ez du bereziki markatzen.<br />

4 http://www.euskaltzaindia.<strong>net</strong>/hiztegibatua (2007-07-02an atzitua).


VI.1 Lexikalizazioa 123<br />

(9) Hiztegi Batua<br />

salgai: 1. pred.: salgai dagoen liburua<br />

2. iz: Europa guztiko salgaiak itsasoz zabaltzen zituen<br />

altzari: altzari<br />

(9)ko adibide hauek berak beste hiztegietan era ezberdinean datoz adierazita.<br />

Hala ere, esan beharra dago gehie<strong>net</strong>an hiztegi-sarrera gisa lema soilik<br />

erabiltzen dutela. (8) adibidekoak bezalako azalpenak ere oso era aldakorrean<br />

ematen dira hiztegi batetik bestera. Horren adierazgarri (10) eta (11) ditugu,<br />

non Hiztegi Modernoak (Elhuyar, 2000) eta Elhuyar Hiztegi elebidunak<br />

(Elhuyar, 1998) 5 (hurrenez hurren) (9)ko adibide berdinak nola adierazten<br />

dituzten ikus dezakegun 6 :<br />

(10) Hiztegi Modernoa<br />

seme-alaba: Gizonezkoa edo emakumezkoa bere gurasoekiko<br />

senar-emazte: Elkarrekin ezkondurik dauden gizon eta emakumea<br />

dama: ez dago horrelako sarrerarik joko-izena adierazteko 7<br />

guraize: Erdialdean giltzatzen diren eta alde batean ahoa eta punta. . .<br />

aiton-amona: ez dago horrelako sarrerarik<br />

praka: galtzak<br />

salgai: 1. Saltzeko dagoen gauza. 2. Saltzeko<br />

altzari: [. . . ] hainbat zeregi<strong>net</strong>arako erabiltzen den objektu higigarria<br />

(11) Elhuyar Hiztegia<br />

seme-alaba: ez sing.; Hijos [hijos e hijas]<br />

senar-emazte: ez sing.; Marido y mujer, esposos, cónyugues<br />

dama: ez dago horrelako sarrerarik joko-izena adierazteko 8<br />

guraize: pl.; tijera(s)<br />

aiton-amona: ez dago horrelako sarrerarik<br />

praka: pl. pantalones<br />

salgai: batez ere pl.; mercancía, género<br />

altzari: mueble; (pl.) mobiliario, enseres<br />

Flexio-atzizkidun hitzetan ere gertatzen dira halako zalantzak: hotzik<br />

hiztegi-sarrera da, baina hotzez ez; edota buruz hiztegi-sarrera da, baina eskuz<br />

ez.<br />

5 http://www1.euskadi.<strong>net</strong>/hitz e/indice e.html (2007-07-02an atzitua).<br />

6 Hiztegietako definizioak eta azalpenak laburtu egin dira.<br />

7 ‘Joko-izena’ adierazteko dama-joko sarrera dago.<br />

8 Ikus 6. oin-oharra.


124 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

<strong>WordNet</strong>ek eta hiztegiek lexikalizaturiko kontzeptuak jasotzen badituzte<br />

ere, eta <strong>Euskal</strong> <strong>WordNet</strong>eko hasierako helburua horixe bazen ere, argi dago<br />

kasuistika honen aurrean, kontzeptuen lexikalizazioa ebaztea zaila dela, are<br />

gehiago, corpusarekin lan egitean. Horregatik, eta lexikalizazioaren zailtasunaz<br />

jabetuta, lana ahalik eta modu erosoenean egiteko irizpideak lantzea<br />

erabaki genuen.<br />

VI.1.2 Zalantzazko lexikalizazioa duten adierazpideen beharra<br />

Zerk erabakitzen du kontzeptu bat lexikalizatua dagoen ala ez; hiztegietako<br />

hiztegi-sarrera izateak ala ez izateak? Normalean, ordain batzuk lexikoian<br />

sartzeko edo ez erabakitzeko erabiltzen diren irizpideak beste faktore eta baldintzen<br />

arabera zehazten dira; gehie<strong>net</strong>an, lexikoiari eman nahi zaion erabilerak<br />

erabakitzen du zer ordain mota behar diren lexikoian. Gure kasuan,<br />

<strong>Euskal</strong> <strong>WordNet</strong>ek euskararen interpretazio semantikoa eskaintzen duen<br />

EBLa izatea nahi dugu, LNPko hainbat atazetan lagungarria izan dadin.<br />

Hori dela eta, lexikalizaturiko ordainez gain, zalantzazko lexikalizazioa duten<br />

ordainak ere <strong>Euskal</strong> <strong>WordNet</strong>en gehitzea beharrezkoa iruditu zaigu. Arrazoietan<br />

sakonduko dugu segidan.<br />

Arrazoi nagusiena da gure lanaren helburuen artean ez dagoela lexikalizaziori<br />

buruzko hausnarketa sakona egitea, baizik eta <strong>Euskal</strong> <strong>WordNet</strong> ahalik<br />

eta ordain kopuru handienarekin aberastea. Gainera, ordain bakoitzaren lexikalizazioa<br />

erabakitzen gehiegi luzatuz gero <strong>Euskal</strong> <strong>WordNet</strong>en garapena<br />

izugarri motelduko genuke.<br />

Bestalde, ingeleseko variantak euskarakoekin ordezkatzeko hiztegiak bakarrik<br />

kontuan hartuko bagenitu, (hots, hiztegi-sarrera direnak ordain gisa<br />

eman eta hiztegi-sarrera ez direnak ez) aipatutako synset horiek guztiak<br />

(furnishing → altzariak; pet → konpainia-animalia eta abar) euskaraz hutsik<br />

geratuko lirateke. Aldiz, ordain horiek <strong>Euskal</strong> <strong>WordNet</strong>en egonez gero, oso<br />

erabilgarriak izan daitezke, adibidez, itzulpengintza automatikorako.<br />

Bestalde, interpretazio semantikoa eta adieraren desanbiguazioa egiteko<br />

ere oso baliagarriak dira: zenbat eta ordain gehiago egon <strong>Euskal</strong> <strong>WordNet</strong>en,<br />

orduan eta errazagoa izango zaio programa bati adierak desanbiguatzea.<br />

Hitz anitzeko esapideen kasuan, zalantzazko lexikalizazioa dutenak EBLan<br />

txertatzeko ikuspegi hau dagoeneko erabilia izan da Bentivogli eta Piantaren<br />

lanean (2002). Autore hauek maiz errepikatzen diren konbinazio askeak<br />

deitzen dituztenak italierako word<strong>net</strong>ean txertatzen dituzte.


VI.1 Lexikalizazioa 125<br />

(12) a. <strong>WordNet</strong> {toilet roll}<br />

Italierako <strong>WordNet</strong> {rotolo di carta igienica}<br />

b. <strong>WordNet</strong> {bike}<br />

Italierako <strong>WordNet</strong> {andare in bicicletta}<br />

Hortaz, Bentivogli eta Piantak (2002) maiz errepikatzen diren konbinazio<br />

askeak sartzen dituzte bakarrik italierako word<strong>net</strong>ean. Hitz anitzeko bat<br />

maiz errepikatzen den konbinazio askea den ala ez jakiteko, aldez aurretik<br />

neurtu behar dira hitz anitzeko esapide horrek corpus orekatu batean dituen<br />

agerpenak eta hitz anitzekoen osagaien arteko asoziazio-maila.<br />

<strong>Euskal</strong> <strong>WordNet</strong>en sartuko ditugun zalantzazko hitz anitzekoak, aldiz,<br />

ez dira bakarrik maiztasun handikoak izango. VI.1.4 atalean azalduko dugun<br />

bezala, hauek <strong>Euskal</strong> <strong>WordNet</strong>en sartzeko, beste ezaugarri batzuk ere<br />

hartuko ditugu kontuan.<br />

<strong>Euskal</strong> <strong>WordNet</strong>eko variant lexikalizatu, zalantzazko lexikalizatu, eta ezlexikalizatuak<br />

koherenteki lantzeko, hauei buruzko terminologia zehaztu behar<br />

izan dugu, eta baita hainbat irizpidetan oinarritutako metodologia bat definitu<br />

ere.<br />

VI.1.3 Terminologiaren azterketa eta gure aukera<br />

VI.1 atalean esan dugun bezala, adierazpideek, continuumaren puntu batean<br />

ala bestean geldituz gero, ezaugarri desberdinak dituzte, eta horrek literaturan<br />

hainbat sailkapen egitea ekarri du. Horietako batzuen berri emango<br />

dugu hemen.<br />

Segidan aurkeztuko dugun sailkapena hitz anitzekoei dagokie. Hitz bakarren<br />

eta hitz anitzekoen lexikalizazioaz aritu bagara ere, lexikalizazioarazoak<br />

gehie<strong>net</strong>an hitz anitzekoekin aztertzen dira, hauetan konplexuagoa<br />

baita lexikalizazio-mugak zehaztea.<br />

Sag et al.-en (2002) ustez, bi hitz anitzeko mota daude: hitz anitzeko<br />

esapide lexikalizatuak (lexicalized phrases) etahitz anitzeko esapide instituzionalizatuak<br />

(institutionalized phrases). Hitz anitzeko esapide lexikalizatuak<br />

horrela deskribatzen dituzte:<br />

“Lexicalized phrases have at least partially idiosyncratic syntax or<br />

semantics, or containing “words” which do not occur in isolation.”<br />

(Sag et al., 2002, 3. or.)


126 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

Ezaugarri hauek betetzen dituzten hitz anitzeko lexikalizatuen artean hurrengoak<br />

daude: lokuzioak (proper idioms) (13. adibidean), bana daitezkeen<br />

lokuzioak (decomposable idioms) (14. adibidean), hitz elkartuak<br />

eta hitz anitzeko esapide terminologikoak (compound nominals and terminological<br />

multiword expressions) (15. adibidean), izen bereziak proper<br />

names (16. adibidean), aditz-partikula egiturak (verb-particle constructions)<br />

(17. adibidean) eta aditz arin egiturak (light verb constructions)<br />

(18. adibidean) 9 .<br />

(13) a. to kick the bucket<br />

‘hil’; lit: ‘ontziari ostikada eman’<br />

b. to pull somebody’s leg<br />

‘adarra jo’; lit: ‘norbaiten hankatik tira egin’<br />

c. adarra jo<br />

‘to pull somebody’s leg’; lit: ‘to play the horn’<br />

d. larru bizirik<br />

‘stark naked’; lit: ‘raw-skinned’<br />

(14) a. to spill the beans<br />

‘agerian utzi’; lit: ‘sekretuak ezaguturazi’<br />

b. to sweep something under the carpet<br />

‘ezkutatu’; lit: ‘alfonbra azpira erraztatu’<br />

c. burua jan<br />

‘to brainwash’; lit: ‘to eat the head’<br />

d. muturra sartu<br />

‘to stick somebody’s nose’; lit: ‘to put the muzzle in’<br />

(15) a. car park<br />

‘aparkaleku’; lit: ‘auto parke’<br />

b. central processing unit<br />

‘prozesatzeko unitate zentral’; lit: ‘prozesatzeko unitate zentral’<br />

c. buruhauste<br />

‘problem’; lit: ‘broken head’<br />

d. sudur-zapi<br />

‘handkerchief’; lit: ‘nose-cloth’<br />

9 Ingelesko adibideak Sag et al.-etik (2002) hartutakoak dira, baina hauekin batera<br />

euskarako batzuk ere proposatzen ditugu.


VI.1 Lexikalizazioa 127<br />

(16) a. Los Angeles<br />

b. Chicago Bulls<br />

c. <strong>Euskal</strong> Herri<br />

‘Basque Country’<br />

d. Europako Banku Zentrala<br />

‘European Central Bank’<br />

(17) a. do without<br />

‘moldatu’; lit: ‘gabe moldatu’<br />

b. go after<br />

‘-en atzetik joan’; lit: ‘-en atzetik joan’<br />

c. -tzat hartu<br />

‘to take someone for’; lit: ‘to take as’<br />

d. -i eutsi<br />

’defend’; lit: ‘to hold to something’<br />

(18) a. make a mistake<br />

‘akats bat egin’; lit: ‘akats bat egin’<br />

b. fall asleep<br />

‘lo hartu’; lit: ‘lo hartu’<br />

c. hitz eman / berba eman<br />

‘to promise’; lit: ‘to give the word’<br />

d. min hartu<br />

‘to hurt’; lit: ‘to take hurt’<br />

Lokuzioak egitura izoztuak dira. Beraz, beraien adiera ezin da konposizionalki<br />

osatu hitz anitzekoaren osagai bakoitzetik. Gainera, hitz anitzeko<br />

osagai bakoitza ezin da beste sinonimo batengatik ordezkatu. Esate baterako,<br />

(13c) adibideko adarra jo lokuzioa ezin da ulertu konposizionalki, kasu<br />

horretan adarra hitzak ez baitu zerikusirik hiztegietan duen adierekin (animaliarena,<br />

zuhaitzarena...). Honen adierazgarri dugu, hitz anitzeko adarra<br />

osagaia ezin dela hiztegietan duen adiera horietako baten sinonimoarengatik<br />

ordezkatu: *adarkia jo.<br />

Bana daitezkeen lokuzioak, ordea, maiz elkarrekin agertzen edo erabiltzen<br />

diren hitz multzoak dira, eta beraien adiera konposizionaltzat jotzen dute.<br />

Esate baterako, berari ez dagokion arazo batean muturra sartu du esaterakoan,<br />

hitz anitzekoaren adiera konposizionalki uler daiteke, nahiz eta muturra sartu<br />

ekintza fisikoaren adiera metaforikoa izan (koldarrak amaitzearren muturra katiluan<br />

sartu zuen). Hala ere, mota ho<strong>net</strong>ako hitz anitzekoen osagaiek badute<br />

halako ezaugarri semantiko bat euren sinonimoengatik ordezkaezinak egiten


128 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

dituena. Hala nola, berari ez dagokion arazo batean muturra sartu du esan<br />

badezakegu ere, arraroa litzateke berari ez dagokion arazo batean musua sartu<br />

du erabiltzea. Antzeko fenomenoa ikus daiteke aipatutako beste hitz anitzeko<br />

motetan ere. Adibidez, hitz eman eta berba eman sinonimoak dira, biek<br />

promes egin adierazten dute. Aldiz, ele izena hitz eta berbaren sinonimoa izan<br />

arren, ezin da ele eman erabili hitz eman edo berba emanen sinonimo gisa, ele<br />

eman hitz anitzekoak beste adiera bat baitu: ‘hizpidea eman’.<br />

Sag et al.-ek (2002) hitz anitzeko esapide instituzionalak sintaxiaren erregelak<br />

jarraitzen dituzten hitz konbinazioak baino ez direla argudiatzen dute.<br />

Hala ere, osagaien adierak konposizionalki elkartzen badira ere, ezin dira<br />

beti sinonimo batengatik ordezkatu (ikus 19. adibidea). Dirudienez, konbentzionalizatutako<br />

egiturak dira, eta, horregatik, gauza bera adierazteko<br />

erabil litezkeen beste hitz anitzeko batzuk baino maiztasun handiagoa dute.<br />

Esate baterako, euskaraz nortasun-agiri erabiltzen da ‘norbaiten identitatea<br />

ziurtatu ahal izateko balio duen txartela/agiria’ adierazteko. Honen ordez,<br />

identitate-agiri berdin-berdin erabil zitekeen. Are gehiago, hala beharko luke,<br />

‘pertsona bat nor den adierazten duen datu multzoa’ adierazteko hobetsitako<br />

ordaina identitate baita, eta ez nortasun. Hala eta guztiz ere, nortasun-agiri<br />

izan da gure artean zabaldu dena, nahiz eta nortasun hitzaren adiera hori hobetsia<br />

ez egon. Antzekoa gertatzen da telefono mugikor hitz anitzekoarekin:<br />

telefono higikor, telefono higigarri edo sakelako telefono erabiliz gero, edonork<br />

ulertuko baligu ere, konbentzionalizatutako forma telefono mugikor izan da.<br />

(19) a. traffic light<br />

‘semaforo’; lit: ‘trafiko argi’<br />

b. telephone box<br />

‘telefono-kabina’; lit: ‘telefono-kabina’<br />

c. telefono mugikor<br />

‘cellphone’; lit: ‘mobile phone’<br />

d. nortasun-agiri<br />

‘identity card’; lit: ‘identity document’<br />

Horrela, bada, Sag et al.-en (2002) ustetan, hitz anitzeko esapide instituzionalizatuak<br />

semantikoki eta sintaktikoki konposizionalak dira, baina estatistikoki<br />

instituzionalak.<br />

Bentivogli eta Piantak (2002) hitz anitzeko esapide lexikalizatuak (lexicalized<br />

multiword expression) etamaiz errepikatzen diren konbinazio askeak<br />

(recurrent free combination) bereizten dituzte.


VI.1 Lexikalizazioa 129<br />

Sag et al.-en (2002) hitz anitzeko esapide lexikalizatuak eta Bentivogli<br />

eta Piantarenak (2002) bat datoz. Hala ere, Bentivogli eta Piantak (2002)<br />

hauen azpian bi azpimultzo bakarrik egiten dituzte: lokuzioak (idioms) eta<br />

kolokazio mugatuak (restricted collocations). Azken hauek Sag et al.-en<br />

(2002) hitz anitzeko esapide lexikalizatu izenaren azpian multzokatutako guztiak<br />

onartzen dituzte. Bentivogli eta Piantaren ustetan (2002), lokuzioek eta<br />

kolokazio mugatuek analisi linguistikoaren mailaren batean unitate gisa jokatzen<br />

dute eta hitz anitzeko esapide lexikalizatuak dira. Hala ere, beraien<br />

artean badago nolabaiteko desberdintasuna. Lokuzioak egitura izoztuak dira,<br />

eta beraien adiera ez da konposizionala (ikus 13. adibideko kasuak). Kolokazio<br />

mugatuak, aldiz, maiz elkarrekin agertzen edo erabiltzen diren hitz<br />

multzoak dira, eta beraien adiera konposizionala da (14. adibideko kasuekin<br />

azaldu dugun bezala).<br />

Bestalde, maiz errepikatzen diren konbinazio askeek sintaxiaren erregelak<br />

jarraitzeaz gain, adiera konposizionala dute eta osagai bat sinonimo batez<br />

ordezkatzea onartzen dute. Adibidez, ingeleseko toilet roll hitza euskaraz<br />

komuneko paper-erroilu itzultzen da <strong>Euskal</strong>termen 10 arabera (ikus (20b) adibidea),<br />

eta italieraz rotolo di carta igienica. Dena den, erroilu izenaren sinonimo<br />

bat erabil dezakegu gauza bera adierazteko: biribilki. Eta aldi berean italieraz,<br />

rotolo osagaiaren sinonimo bat ere erabil dezakegu: bobina. Hori dela<br />

eta, Bentivogli eta Piantak (2002) horrelako formak ez-lexikalizatu bezala<br />

deskribatzen dituzte, eta, ondorioz, hauek ez dira hiztegi-sarrerak izango.<br />

(20) a. bizikletan ibili/joan<br />

andare in bicicletta<br />

‘to bike’; lit: ‘to go on a bicycle’<br />

b. komuneko paper-erroliu, komuneko paper-biribilki<br />

rotolo di carta igienica, bobina di carta igienica<br />

‘toilet roll’; lit: ‘toilet paper roll’<br />

Azkenik, Alegria et al.-ek (2004) hitz anitzeko esapidea terminoa erabiltzen<br />

dute edozein hitz-konbinazio adierazteko; lexikalizatuak nahiz ez<br />

lexikalizatuak. Bestetik, hitz anitzeko unitate lexikal darabilte lexikalizaturiko<br />

hitz anitzekoei buruz bakarrik hitz egiteko, hau da, semantikoki ezkonposizionalak<br />

eta sintaktikoki idiosinkratikoak diren hitz anitzeko horiek<br />

izendatzeko; hala nola, (13)tik (18)ra aipatutako adibide guztiak. Ikuspegi<br />

hau, hain zuzen ere, IXA taldean garatzen ari den tesi-lan batean hartu da<br />

10 http://www1.euskadi.<strong>net</strong>/euskalterm (2007-07-02an atzitua).


130 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

(Urizar, Kolokazioak euskaraz), non hitz anitzekoen azterketa sakona egiten<br />

den, gero LNPko hainbat atazetan automatikoki ezagutu ahal izateko.<br />

Gurean, hitz anitzeko esapideez hitz egiterakoan, Alegria et al.-en (2004)<br />

terminologia erabiltzearen alde egin dugu, orokorra izanik erabilerrazagoa<br />

zaigulako, eta berean, IXA taldekoarenarekin bat egiten genuelako.<br />

Hala, aurrerantzean, hitz anitzeko esapideak (HAEak) etahitz anitzeko<br />

unitate lexikalak (HAULak) bereiztuko ditugu. Beste hitz batzuetan<br />

esanda, HAE adierazpidea lexikalizatu nahiz ez-lexikalizatuentzako termino<br />

orokor gisa erabiliko dugu, eta, aldiz, zehazki lexikalizatutakoei erreferentzia<br />

egiterakoan, HAUL. Hortaz, (21)eko guztiak HAEak dira, baina horietako<br />

batzuk bakarrik dira HAULak.<br />

Dena den, eta aipatutako tesi-lan horren emaitzak iritsi bitartean, beste<br />

hainbat terminologiaren beharra izan dugu.<br />

Esan dugun bezala, simnel eta off-sales bezalakoak hutsune kulturalak dira,<br />

eta hutsune kulturalak ezin dira hitz bat edo HAE batez adierazi (behintzat<br />

jatorrizkoa ez den hizkuntzan). Aitzitik, azalpen antzeko bat behar dute.<br />

Beraz, HAEen artean, beste maila bateko bereizketa behar dugu: abiapuntu<br />

den hizkuntzako hitzaren ordaina kategoria sintaktiko berarekin itzulitakoak,<br />

eta, lexikalizatzeko modurik ez daukatenez, azalpen batekin itzuli behar direnak.<br />

Kategoria sintaktiko berdinarekin itzultzen direnen artean, berriz, bi motakoak<br />

egongo dira:<br />

• Lexikalizatuak, HAULak deritzogunak.<br />

• Zalantzazko lexikalizazioa dutenak.<br />

Azken hauei adierazpide sintagmatiko (phrasal concepts) deitu diegu:<br />

“Phrasal concepts constitute the representation of phrase structures<br />

that are composed by several concepts with semantic content.”<br />

(Agirre et al., 1994b, 1.394. or.)<br />

Hona hemen adierazpide sintagmatikoen adibide batzuk:<br />

(21) a. <strong>WordNet</strong>: {corkscrew}<br />

<strong>Euskal</strong> <strong>WordNet</strong>: {kortxo-kentzeko}<br />

b. <strong>WordNet</strong> {bike}<br />

<strong>Euskal</strong> <strong>WordNet</strong>: {bizikletan ibili}


VI.1 Lexikalizazioa 131<br />

Beraz, dagoeneko badakigu zein kasuistika izango dugun. Baina nola<br />

jakingo dugu, kasuan kasu, variant bat HAUL gisa, adierazpide sintagmatiko<br />

gisa, hutsune kultural gisa, hitz bakar lexikalizatu gisa ala ez-lexikalizatutako<br />

hitz gisa landu behar den? Horretarako, hurrengo ataleko irizpideak definitu<br />

behar izan ditugu.<br />

VI.1.4 <strong>Euskal</strong> ordainak <strong>Euskal</strong> <strong>WordNet</strong>en sartzeko eta markatzeko<br />

irizpideak<br />

VI.1.1 atalean lexikalizazioaren inguruko arazoak aurkeztu ditugu, baita hauen<br />

hiztegietako adierazpideei buruzkoak ere. Atal ho<strong>net</strong>an, forma hauek <strong>Euskal</strong><br />

<strong>WordNet</strong>en sartzeko eta errepresentatzeko finkatu ditugun irizpideak azalduko<br />

ditugu.<br />

<strong>Euskal</strong> <strong>WordNet</strong>eko editoreak hiztegi-sarrera den beste ordain batekin<br />

itzultzen badu synseta, ez du inolako zalantzarik ez bere lexikalizazioaz, ez<br />

EBLan adierazteko moduaz. Aldiz, hiztegi-sarrera ez denean, orduan sortzen<br />

dira lexikalizazioari buruzko zalantzak. Beraz, lehenengo irizpide argia horixe<br />

dugu:<br />

• Lehenengo iripizdea: <strong>Euskara</strong>ko adierazpidea Elhuyar Hiztegian,<br />

Hiztegi Modernoan, <strong>Euskal</strong> Hiztegian, <strong>Euskal</strong>termen edota Hiztegi Batuan<br />

11 hiztegi-sarrera bada, orduan, editoreak adierazpide hori lexikalizatutzat<br />

hartuko du eta synsetean sartuko du. Adibidez, ingeleseko<br />

sleep aditza euskaraz lo egin esaten da. Forma hau gutxienez aipatutako<br />

hiztegi batean hiztegi-sarrera bada, editoreak synsetean sartuko du<br />

variant gisa eta lexikalizatu gisa markatuko du (LEX markarekin):<br />

(22) Synset-zenbakia: 00009805<br />

=> Synsetaren lexikalizazio-egoera: LEX<br />

=> Glosa: Lo-egoeran egon<br />

=> Sinonimoak:<br />

=> lo egin<br />

Lehenengo irizpideak hiztegi-sarrera diren HAEei egiten die erreferentzia.<br />

Beste guztientzat ere irizpide batzuk behar ditugu nolabait kodetzeko eta<br />

bereizteko.<br />

11 Aipatu beharra dago, hiztegi hauek hautatu izanaren arrazoia. Alde batetik, IXA<br />

taldeak hiztegigileekin duen harreman estuarengatik, euren hiztegiak euskarri elektronikoan<br />

erabiltzeko aukera ematen digutelako. Bestetik, hiztegi espezializatu (<strong>Euskal</strong>term)<br />

eta orokor gisa erabilera handia duten hiztegiak direlako.


132 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

• Bigarren irizpidea: <strong>Euskara</strong>ko adierazpidea HAE bat bada, eta<br />

Elhuyar Hiztegian, Hiztegi Modernoan, <strong>Euskal</strong> Hiztegian, <strong>Euskal</strong>termen<br />

edota Hiztegi Batuan hiztegi-sarrera ez bada:<br />

(a) kontzeptu hori euskaraz kategoria sintaktiko berarekin itzul<br />

badaiteke, orduan, editoreak adierazpide hori variant gisa sartuko<br />

du, eta lexikalizatu (LEX )etaadierazpide sintagmatiko<br />

gisa (IXALEX ) markatuko du. 23. adibidean, ingeleseko to<br />

cook synsetari lotutako euskarako variantak ditugu (janaria prestatu<br />

eta janaria egin). <strong>Euskara</strong>z, to cook adierazteko hiztegi-sarrera<br />

ez den, baina ingeleseko kontzeptuaren kategoria sintaktiko bera<br />

duen HAE bat darabilgu.<br />

(b) kontzeptu hori adierazteko kategoria sintaktiko desberdineko<br />

HAE konplexu bat —definizio edo azalpen gisakoa— erabili behar<br />

badugu, orduan, editoreak HAE hori ez du variant gisa txertatuko<br />

baizik glosa gisa. Hauek hutsune lexikal —lexical gaps (Vossen,<br />

1999)— izendatu ditugu, eta ez-lexikalizatu gisa markatu ditugu<br />

(NOLEX ) (ikus 24. adibidea).<br />

(23) Synset-zenbakia: 01143604<br />

=> Synsetaren lexikalizazio-egoera: LEX<br />

=> Glosa: elikagaiak jateko prestatu<br />

=> Sinonimoak:<br />

=> janaria prestatu (IXALEX)<br />

=> janaria egin (IXALEX)<br />

(24) Synset-zenbakia: 05678078<br />

=> Synsetaren lexikalizazio-egoera: NOLEX<br />

=> Glosa: Ingalaterran Eguberrietan jaten den gozokia<br />

=> Sinonimoak:<br />

=> -<br />

• Hirugarren irizpidea: Kontzeptu bat adierazteko plurala edo<br />

flexio-atzizkia duen forma erabili behar bada, orduan, editoreak<br />

varianta pluralaren edota flexioaren atzizkirik gabe sartuko du, eta<br />

alboan interfazeak eskaintzen duen PLU marka (ikus 25. adibidea)<br />

edo FLEX marka (ikus 26. adibidea) aukeratuko du, kontzeptu horrek<br />

pluraleko tasuna edo flexio-atzizkia, hurrenez hurren, hartzen duela<br />

adierazteko.


VI.1 Lexikalizazioa 133<br />

(25) Synset-zenbakia: 02729592<br />

=> Synsetaren lexikalizazio-egoera: LEX<br />

=> Glosa: Hainbat zeregi<strong>net</strong>arako erabiltzen diren objektu higigarriak.<br />

=> Sinonimoak:<br />

=> altzari (PLU)<br />

(26) Synset-zenbakia: 01199751<br />

=> Synsetaren lexikalizazio-egoera: LEX<br />

=> Glosa: Bero-gabeziak gorputzean eragiten duen sentsazioa.<br />

=> Sinonimoak:<br />

=> hotz (FLEX)<br />

Hala, ez gara forma pluralaren lexikalizazioari buruzko eztabaidetan sartzen.<br />

Ingeleseko kontzeptu bat euskaraz adierazteko plurala behar dugula<br />

bakarrik adierazten dugu, eta horretarako darabilgu PLU etiketa.<br />

Nahiz eta oraingoz izen eta aditzekin lan egin dugun, dagoeneko aurreikusten<br />

dugu, hirugarren iripizpide honek etorkizunean landuko ditugun beste<br />

kategorien (adjektibo eta adberbioen) adierazpe<strong>net</strong>arako ere balioko digula,<br />

hotzik/hotzez bezalakoak adierazteko, adibidez.<br />

VI.1.4.1 Barne-errepresentazio semantikoa <strong>Euskal</strong> <strong>WordNet</strong>en<br />

HAEak <strong>Euskal</strong> <strong>WordNet</strong>en lantzeko irizpideak hauen lexikalizaziora bakarrik<br />

mugatzen dira. Irizpide hauek ez dute HAEei buruzko bestelako informaziorik<br />

ematen, hala nola, HAEa osatzen duten osagaien arteko harreman<br />

semantikoei buruzkoa. Sag et al.-en ustez, (2002) HAEen analisi sintaktikoa<br />

eta interpretazio semantikoa lotu ahal izateko, HAEen barne-errepresentazio<br />

semantikoa beharrezkoa da; batez ere, konposizionalki uler daitezkeen<br />

HAE horiena, edota, Sag et al.-en (2002) terminologiari jarraituz, bana daitezkeen<br />

esapideena (decomposable idioms) (14. adibidean), hitz elkartuak eta<br />

hitz anitzeko esapide terminologikoena (compound nominals and terminological<br />

multiword expressions) (15. adibidean), aditz arin egiturena (light verb<br />

constructions) (18. adibidean) eta hitz anitzeko esapide instituzionalizatuena<br />

(institutionalized phrases) (19. adibidean).<br />

Bentivogli eta Piantak (2002), italierako word<strong>net</strong>eko HAEetan oinarrituta,<br />

barne-errepresentazio eredu bat proposatzen dute. Autore hauek<br />

composed-of lotura erabiltzen dute HAEa den synseta eta honen osagaien<br />

artean (ikus VI.1 irudiko c) atala). Beste hitz batzuetan esanda, synseta<br />

HAE bat bada, HAE hau bere osagaiei dagokion synsetekin lotuta egongo<br />

da composed-of harremanaren bitartez. 3. irudiko c) atalean, adibide gisa,


134 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

lo egin HAEa dugu. Synset hau, beste edozein synset bezala, bere hiperonimo<br />

(deskantsatu) eta troponimoei (siesta egin, kuluxka bat egin, hibernatu...)<br />

lotuta egongo da. Baina, ho<strong>net</strong>az gain, synseteko HAEa osatzen duen osagai<br />

bakoitzari (lo eta egin) dagokion synsetarekin composed-of lotura bat izango<br />

du, HAEa den synseta bestebisynsetez osatua dagoela adieraziz.<br />

A<br />

C<br />

Ing. - to travel<br />

Eus. - bidaiatu<br />

hiperonimoa<br />

Ing. - to bike<br />

Eus. - HUTSUNE LEX. (NOLEX)<br />

Ing. - to rest<br />

Eus. - deskantsatu<br />

hiperonimoa<br />

Ing. - to do<br />

Eus. - egin<br />

Ing. - to sleep<br />

Eus. - lo egin<br />

composed-of<br />

Ing. - to sleep<br />

Eus. - lo<br />

B<br />

D<br />

Ing. - to rest<br />

Eus. - deskantsatu<br />

hiperonimoa<br />

Ing. - to travel<br />

Eus. - bidaiatu<br />

hiperonimoa<br />

Ing. - to bike<br />

Eus. - bizikletan ibili (IXALEX)<br />

Ing. - to do<br />

Eus. - egin<br />

Ing. - to sleep<br />

Eus. - lo egin<br />

composed-of<br />

VI.1 Irudia: HAEen barne-errepresentazio ezberdinak.<br />

Ing. - to sleep<br />

Eus. - lo<br />

involved_theme<br />

<strong>Euskal</strong> <strong>WordNet</strong>en composed-of harreman semantikoa erabiliko dugu,<br />

konposizionalki osatzen diren HAEen osagaiak errepresentatzeko aproposak<br />

iruditzen zaizkigulako. Hala ere, harreman ho<strong>net</strong>az gain, HAEa osatzen duten<br />

osagaien barne-errepresentazioa gehiago zehaz daiteke. Esate baterako,<br />

composed-of harreman semantiko honek ez du HAEen osagaien arteko harreman<br />

sintaktiko-semantikoa adierazten. Har dezagun umeak lo egin zuen esaldia<br />

adibide gisa, non aditz arineko egitura bat dugun: lo egin. Semantikoki,<br />

esaldi ho<strong>net</strong>an composed-of harremanak ez du adierazten lo egin ekintzaren<br />

azpian lo egotearen egoera dagoenik. Sintaktikoki ere ez du adierazten HAUL<br />

honen osagai nominala (lo) hitz anitzeko aditz-esapidearen (lo egin) objektu


VI.1 Lexikalizazioa 135<br />

sintaktikoa denik. Hala, HAEko lo osagaia lo egin aditzaren objektua bada,<br />

honek rol tematiko bat hartuko du. Rol hau bi osagaien arteko harreman<br />

semantikoen bidez adierazita etorriko balitz, umeak lo egin zuen esaldiaren<br />

interpretazio sintaktiko-semantiko osoa genuke.<br />

Nahiz eta <strong>WordNet</strong>en erlazio gutxi egon, Euro<strong>WordNet</strong>en orain erabilgarriak<br />

izan daitezkeen erlazioak definitu ziren (ikus IV.2 atala). Horien<br />

artean, kategoria desberdi<strong>net</strong>ako synsetak lotzen dituzten harreman semantikoak<br />

zeuden: involved relation deiturikoak, hain zuzen ere.<br />

“The INVOLVED relation is used to encode data on arguments<br />

or adjuncts lexicalized within the meaning of a 2nd order entity.”<br />

(Alonge et al., 1998, 29. or.)<br />

Harreman hauek lehenengo, bigarren eta hirugarren mailako entitateen<br />

arteko harremanak bideratzen dituzte. IV.2 atalean azaldu bezala, lehenengo<br />

mailako entitateak izen konkretuak dira; bigarren mailakoak ekintzak,<br />

prozesuak eta egoerak adierazten dituzten izen, aditz eta adjektiboak; eta<br />

azkenik, hirugarren mailakoak izen abstraktuak dira. Involved harremana<br />

aditz edo ekintza bat adierazten duen izen batetik abiatzen da, izen konkretu<br />

edo abstraktu batekin lotzeko. Adibidez, ingeleseko to hammer aditza<br />

hammer izenari lotuko zaio involved instrument harremanaren bidez.<br />

Zortzi involved harreman mota daude: agent, patient, instrument, result,<br />

location, direction, source direction eta target direction.<br />

Gure ustez, involved relation harremana barne-egiturak errepresentatzeko<br />

oso egokia da. VI.1 irudiko d) atalean, lo egin HAEaren errepresentazioa dugu<br />

non composed-of harremanaz gain, involved relation harremana ere erabiltzen<br />

dugun: lo HAEaren gaia (involved patient) da, eta honi esker jakin dezakegu<br />

lo egiteko, lo egotea beharrezkoa dela.<br />

Harreman semantiko hauei esker, <strong>Euskal</strong> <strong>WordNet</strong>en ezagutza aberas daitekes:<br />

HAEaren osagaietako bakoitzari adiera emateaz gain, HAEak berak<br />

daraman informazio sintaktiko-semantikoari buruzko argibideak ere adierazten<br />

dira. Informazio hau guztia oso baliagarria zaigu LNPko hainbat atazatan,<br />

hala nola, itzulpen automatikoan eta adieraren desanbiguazioan.<br />

Orain arte, <strong>Euskal</strong> <strong>WordNet</strong>eko HAEak diren izen eta aditzak dagozkien<br />

lexikalizazio-estatusarekin markatu ditugu; hots, lexikalizatu edo HAUL gisa,<br />

adierazpide sintagmatiko gisa eta hutsune lexikal gisa. Sailkapen hau VI.1<br />

irudiko b) atalean dator adierazita. Kasu ho<strong>net</strong>an, adierazpide sintagmatiko<br />

baten errepresentazioa dugu (IXALEX ); ingeleseko to bike aditza euskaraz<br />

bizikletan ibili HAEaren bitartez adierazten dugu. HAE hau ez denez


136 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

hiztegi-sarrera eta ingelesekoren kategoria sintaktiko berarekin itzul daitekeenez,<br />

<strong>Euskal</strong> <strong>WordNet</strong>en adierazpide sintagmatiko gisa sartu dugu.<br />

Gerora begira, ordea, HAEen barne-errepresentazioa adierazteari ekin<br />

nahi diogu VI.1 irudiko d) eredua jarraituta. Horretarako, dagoeneko eratorpenarekin<br />

erabili diren (Agirre eta Lersundi, 2001) metodo erdiautomatikoak<br />

erabiltzea pentsatzen dugu. Horrela, barne-egiturako synsetak eta beraien<br />

arteko harreman semantikoak automatikoki desanbiguatu ahal izango ditugu.<br />

Harreman berri hauei esker, MCRa informazio gehiagorekin aberastu<br />

ahal izango dugu. Gainera, kategoria desberdineko osagaiak dituzten HAEez<br />

gain, kategoria berdineko osagaiak dituzten HAEen osagaien arteko harremanak<br />

ere adierazi ahal izango ditugu.<br />

VI.1 taulan <strong>Euskal</strong> <strong>WordNet</strong>eko datuez gain, <strong>Euskal</strong> <strong>WordNet</strong>en HAE<br />

mota bakoitzak dituen kopuruak ikus daitezke. Orain arte, izenek eta aditzek<br />

HAE kopuru antzekoa dute (2.935 eta 2.439, hurrenez hurren). Hala ere,<br />

gogoratu beharra dago aditzen garapena hasi baino ez dugula egin: <strong>Euskal</strong><br />

<strong>WordNet</strong>eko izenen synsetak 28.705 dira, eta aditzena, berriz, 3.751. Hala,<br />

aditzekin HAE gehiago behar ditugula dirudi. Gauza bera esan dezakegu<br />

hutsune lexikal eta adierazpide sintagmatikoei buruz. Honen arrazoia ingeleseko<br />

hierarkiaren espezifikazio-maila izan daiteke, baina fenomeno honen<br />

berri VI.2.2 atalean emango dugu.<br />

Guztira Izenak Aditzak<br />

Variant 50.670 41.160 9.510<br />

Lema 26.565 23.069 3.496<br />

Synset 32.456 28.705 3.751<br />

Hutsune lexikal 2.499 2.198 301<br />

Izen berezi 722 722 0<br />

HAE 5.374 2.935 2.439<br />

Adierazpide sintagmatiko 352 79 273<br />

VI.1 Taula: <strong>Euskal</strong> <strong>WordNet</strong>eko datuak, eta HAE moten kopuruak.


VI.2 Bereizgarri hierarkikoak 137<br />

VI.2 Bereizgarri hierarkikoak<br />

V. kapituluan aipatu dugun bezala, Euro<strong>WordNet</strong>en garapena den MCR<br />

eredua aukeratuta, <strong>Euskal</strong> <strong>WordNet</strong>en garapena expand approach eta merge<br />

approach metodologietan oinarrituta egin zitekeen. Lehenengoan, euskarako<br />

ordainak, <strong>WordNet</strong>eko hierarkiari jarraituz, bertako synsetei zuzenean<br />

esleitzen zaizkie. Bigarrenean, aldiz, guk geuk sortu behar dugu euskarako<br />

adieren inbentarioa eta hierarkia, eta Inter-Lingual-Indexari (ILIari) lotu<br />

ondoren. Gure kasuan expand approach erabiltzearen alde egin genuen.<br />

Bide bat ala bestea aukeratzeak kasuistika ezberdina ekar dezake. Merge<br />

approachean oinarritutako word<strong>net</strong>eko kontzeptuak ILIarekin lotzean,<br />

kontzeptualizazio-mailako arazoak ekar ditzake, hizkuntza horretarako egindako<br />

kontzeptuen sailkapena beste word<strong>net</strong>etako sailkapenarekin bat ez etortzea<br />

gerta daiteke, hau da, kontzeptuen diseinua era ezberdinean egin delako.<br />

Esate baterako, <strong>WordNet</strong>en dog izena ugaztun gisa adierazten da, hots,<br />

mammal synsetaren hiponimo gisa sailkatua dago. Italierako word<strong>net</strong>ak ere<br />

sailkapen hau egiten du cane izenarekin. Baina nederlanderako word<strong>net</strong>ean<br />

hond izena, ugaztun gisa sailkatzeaz gain, konpainiako animalia gisa ere sailkatzen<br />

dute. Bai Euro<strong>WordNet</strong>ek eta bai MCRk ezberdintasun hierarkiko<br />

hauek konpontzeko aukera eskaintzen dute. Hala, EBL eleanitzak izan<br />

arren, hizkuntza ezberdinen informazio elebakarrari ere garrantzia ematen<br />

diote, eleaniztasuna eta elebakartasuna uztartuz.<br />

Expand approachean oinarrituz gero, gertatzen diren hierarkia-bereizgarriak<br />

beste batzuk dira. Kasu ho<strong>net</strong>an, <strong>WordNet</strong>aren sailkapen hierarkikoa<br />

jarraitzen denez, ingelesetik datorren hierarkia onartu egiten da, euskarako<br />

ordainak bertan txertatuz. Hala ere, euskarako ordainak ezin dira synset<br />

batean sartu synset horretako ingeleseko variant baten itzulpena izateagatik<br />

bakarrik; hasteko, adiera bera izan behar dute, eta gainera koherentzia bat<br />

mantendu behar da hierarkian. Horren adierazgarri (27) adibidea dugu.<br />

(27) {associate} / {adiskide, lagun, kide} (who joins with others in an activity)<br />

=> {ally, friend} / {aliatu, adiskide, lagun} (an associate who provides. . . )<br />

Kasu ho<strong>net</strong>an, {adiskide, kide, lagun} synsetaren hiponimo gisa {aliatu,<br />

lagun, adiskide} ordainak ditugu. Lehenengo begiratuan, {aliatu, lagun, adiskide}<br />

variantek synset horretan zuzenak dirudite, ingeleseko ally eta frienden<br />

baliokideak baitira. Baina hiru variantak ez dira maila berekoak, lagun<br />

eta adiskide, aliatu baino orokorragoak dira. Hiperonimoari erreparatuz gero


138 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

({lagun, adiskide, kide}) {aliatu, lagun, adiskide} kontzeptuaren hiperonimoa<br />

dela ikusten dugu. Hala, gure susmoa egiaztatzen da: lagun, adiskide eta<br />

aliatu ez dira maila berekoak eta euskarako synsetak ez da hierarkiaren ordenarekin<br />

koherentea. Hiperonimia-hiponimian oinarritutako hierarkia izaki,<br />

honi ere erreparatu behar zaio euskarako variantak itzultzeko momentuan,<br />

euskarako synseten sailkapena koherentea dela ziurtatuz. Hala, (27)ko<br />

hiperonimo-hiponimoaren adierazpen egokia (28) adibidean dakarkigu:<br />

(28) {associate} / {adiskide, lagun, kide} (who joins with others in an activity)<br />

=> {ally, friend} / {aliatu} (an associta who provides assistance)<br />

Ikuspegi ho<strong>net</strong>atik abiatuta, hierarkia euskaratzeak eragin ditzakeen bi<br />

kasu nagusienak aztertuko ditugu: hierarkia antolatzeko lexikalizaturik ez<br />

dagoen ordain bat asmatu behar denean (kontzeptu antolatzaileak deituko<br />

duguna), eta ingeleseko hiperonimo-hiponimo variantak euskarako ordain<br />

berarekin lexikalizatzen direnean (autohiponimia bezala (Cruse, 2000) ezagutzen<br />

dena). Hala, bereizgarri hierarkikoak izan arren, lexikalizazioarekin<br />

oso lotuta daude: aurreko atalean (VI.1) synset-mailako lexikalizazioaz aritu<br />

gara, eta oraingoan <strong>WordNet</strong>eko antolakuntza hierarkikoak eragindako<br />

lexikalizazio-bereizgarriez.<br />

VI.2.1 Kontzeptu antolatzaileak<br />

Esan dugun bezala, kontzeptu antolatzaile deitzen diegu hierarkia antolatzeko<br />

asmatu diren kontzeptu orokorrei. Hierarkiaren goi-aldean egon ohi dira, eta<br />

beharrezkoak dira klase semantikoen sailkapenerako.<br />

“Unlike dictionaries in book format, <strong>WordNet</strong> contains short phrases,<br />

such as bad person, that are not paraphrasable by a single word. These phrases<br />

reflect lexical gaps and are a product of <strong>WordNet</strong>’s relational structure,<br />

[. . . ] that happens not to be lexicalized in English.” (Fellbaum, 1998a, 6. or.)<br />

Esate baterako, ikusmenaren bidez bereizten ditugun ezaugarri motak<br />

(kolorea, iluntasuna, ehundura...) multzokatzen dituen ingeleseko synseta<br />

visual property dugu. Kontzeptu hau ez dago lexikalizatuta; artifiziala da.<br />

Ikusmenezko ezaugarri motak adierazten duten synset guztiak batera jasotzen<br />

dituen klase-semantikoari izena emateko balio du (guztira 150 hiponimo).


VI.2 Bereizgarri hierarkikoak 139<br />

(29) {color property} (an attribute of vision)<br />

=> {texture} (the characteristic appearance of a...)<br />

=> {lightness} (the visual effect of illumination on objects as. . . )<br />

=> {dulness} (a lack of visual brightness)<br />

=> {color} (a visual attribute of things that results from the. . . )<br />

=> {achromatism} (the visual property of being without color)<br />

=> {color property} (an attribute of color)<br />

=> {...}<br />

<strong>WordNet</strong>ean salbuespen gisa zerrendatzen dira, EBL ho<strong>net</strong>an hauek baitira<br />

ez-lexikalizatutako synset bakarrak, eta HAE bat behar dute hauen adiera<br />

adierazteko. Lexikalizazioari buruz aritzean, ikusi dugu <strong>Euskal</strong> <strong>WordNet</strong>eko<br />

hutsune pragmatikoak adierazpide sintagmatiko gisa (IXALEX gisa) ebatzi<br />

ditugula. Kasu ho<strong>net</strong>an, nahiz eta ez-lexikalizatutako kontzeptuak izan,<br />

beste marka bat erabiliko dugu, hierarkiari dagokiola bereizteko: kontzeptu<br />

antolatzailean asmaturiko euskarako variant bat sartuko dugu eta OROKO-<br />

RRA marka jarriko diogu.<br />

(30) Synset-zenbakia: 03871460<br />

=> Synsetaren lexikalizazio-egoera: lexikalizatugabea<br />

=> Glosa: ikusmenak duen ezaugarria<br />

=> Sinonimoak:<br />

=> ikusmenezko ezaugarri (OROKORRA)<br />

Horrela, kotzeptu sintagmatikoetatik bereizten ditugu. (30) adibidean<br />

ikusmenezko ezaugarri varianta dugu, eta OROKORRA markak adierazten<br />

du synset hori kontzeptu antolatzaile bat dela. Kontzeptu antolatzaileak<br />

lexikalizaturik ez dauden kontzeptuak direnez, NOLEX marka ere jarriko<br />

zaio. (31) adibidean kontzeptu antolatzaileen adibide gehiago dakartzagu:<br />

(31) a. {psychological feature} →{ezaugarri psikologiko}<br />

b. {representational process} →{irudikapen-prozesu}<br />

c. {natural phenomenon} →{gertakari natural}<br />

VI.2.2 Hierarkiak eta espezifikotasun lexikala<br />

Ale lexikal polisemiko baten adierak elkarren hiperonimo/hiponimo izan daitezke,<br />

edota, beste hitz batzuetan esanda, hiperonimo-hiponimo harremana<br />

ale lexikal berarekin adieraz daiteke. <strong>Euskal</strong> <strong>WordNet</strong>en, esate baterako,<br />

hurrengo adibibidea dugu:


140 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

(32) {pertsona 1, gizabanako 1, lagun 15} (gizon-emakumeen multzoko bakoitza)<br />

=> {adiskide 7, lagun 10} (ondo ezagutzen den pertsona)<br />

Lagun 15 hiperonimoa da, adiera zabalagoa duena: ‘pertsona’ adiera duena;<br />

eta lagun 10 hiponimoa ‘adiskide’ adierarekin bakarrik erabiltzen da.<br />

Hala, ale lexikal berak bi adiera desberdin ditu, eta, gainera, bata bestearen<br />

hiperonimo-hiponimoak dira. Crusek (2000) polisemia mota honi autohiponimia<br />

deritzo:<br />

“Autohyponymy occurs when a word has a default general sense, and<br />

a contextually restricted sense which is more specific in that it denotes a<br />

subvariety of the general sense.” (Cruse, 2000, 110. or.)<br />

Aditzetan ere autohiponimia gerta daiteke: hiperonimoa eta hiponimoa<br />

diren bi synset forma berekoak izan daitezke, baina adiera desberdinekoak,<br />

hots, polisemikoak. Gainera, adiera ezberdintasuna azpikategorizazioan ere<br />

azalera daiteke:<br />

(33) {abestu 4, kantatu 5} (“Jonek ondo abesten du”)<br />

=> {abestu 5, kantatu 7] (“Bertsoak abestu ditu”)<br />

Hiperonimoak (abestu 4) adiera orokorragoa du: ‘ahotsez musika-soinuak<br />

egin’. ‘Ahotsez musika-soinuak’ abestu aditzaren barruan dagoen abesti izen<br />

orokorrak adierazten dituela dirudi (abestu aditzaren barruan dagoela, alegia),<br />

eta, ondorioz, oso arrunta da objekturik gabe geratzea sintaxian (Jonek<br />

ondo abesten du). Aldiz, bere hiponimoa ‘abesti motak’ edo ‘abesti espezifikoak’<br />

onartuko dituen abestu izango da, ‘musika-konposizioa’ adieraziko<br />

duten objektuak (bertsoak, umetako abestiak, Eguberritako kantak...) hartzen<br />

dituena, alegia (Jonekbertsoakabestuditu).<br />

Hortaz, nahiz eta forma bereko hitzak izan, semantikoki desberdinak dira,<br />

eta hori hierarkiaren puntu desberdinean jarriz adierazten da.<br />

Hala ere, <strong>Euskal</strong> <strong>WordNet</strong> ingeleseko hierarkian oinarrituta eraikitzen denez,<br />

autohiponimia faltsua sor dezakegu; alegia, gehiegizko autohiponimia.<br />

Egondako orrazketetan synsetak itzultzen joan ahala, ingeleseko bi adiera<br />

(edo gehiago) bazeuden eta euskaraz horietarako hitz bera erabiltzen bazen,<br />

autohiponimia baliatzen genuen beti (hiponimoak hiperonimoaren ordain bera),<br />

euskaraz adiera horiek be<strong>net</strong>an bereizten ziren kontuan hartu gabe.<br />

Aldiz, euskarako adierei erreparatuta, askotan, ez zegoen desberdintasun<br />

semantikorik. Hitzez hitzeko eskuzko orrazketarekin hastean (ikus V.2.2.2


VI.2 Bereizgarri hierarkikoak 141<br />

atala), synsetak lantzeko garaian hierarkiari gehiago erreparatzen hasi ginen,<br />

eta orduan konturatu ginen euskarako hierarkian synset autohiponimoen<br />

kopurua ingelesekoan baino askoz ere handiago zela (euskaraz 4.500<br />

autohiponimo genituen eta ingelesez 26 bakarrik). Desoreka honen arrazoiak<br />

aztertzerakoan, ingeleseko word<strong>net</strong>ak duen espezifikotasun-maila xeheagatik<br />

zela konturatu ginen. (34) adibidean {merrymaking} variantaren hiponimoak<br />

ditugu:<br />

(34) {celebration, festivity} (any festival or other celebration)<br />

=> {merrymaking} (boisterous celebration)<br />

=> {revel, revelry} (noisy partying)<br />

=> {bout, spree} (a drunken revel)<br />

=> {bender, bust} (an occasion for heavy drinking)<br />

=> {carouse} (a merry drinking party)<br />

=> {orgy} (a wild gathering involving drinking and promiscuity)<br />

=> {whoopee} (noisy and boisterous revelry)<br />

(35) adibidean <strong>Euskal</strong> <strong>WordNet</strong>eko editoreak emandako ordainak ditugu:<br />

(35) {festa, jai} (zerbait ospatzeko antolatzen den ekitaldia edo jaia)<br />

=> {parranda} (jai zaratatsua)<br />

=> {parranda} (jai zaratatsua)<br />

=> {parranda} (asko edanez egiten den jaia)<br />

=> {parranda} (asko edanez egiten den jaia)<br />

=> {parranda} (asko edanez egiten den jaia)<br />

=> {orgia} (gehiegikeriak egiten diren jaia)<br />

=> {parranda} (jai zaratatsu)<br />

=> {...}<br />

Hierarkia hauek erkatuz gero, ikusten dugu ingelesez, synset orokorre<strong>net</strong>ik<br />

zehatzenerainoko bidean, synset guztiak hiperonimoa ez den beste hitz<br />

batez lexikalizaturik daudela (merrymaking, bout, bender eta abar) 12 .<br />

Ingelesa ama-hizkuntza izan gabe, etengabe hiztegi elebidu<strong>net</strong>ara — euskara-ingelesa<br />

(Morris, 1998) eta gaztelania-ingelesa (Oxford, 2003; Collins,<br />

1998)— jo behar dugu synseten lanketarako. Kasu ho<strong>net</strong>an celebration kontzeptuak<br />

edozein ospakizun adierazten du, horregatik egokitu zaizkio festa<br />

eta jai ordainak. Jai-moten artean ‘jai zaratatsuak’ ditugu, ingelesez<br />

merrymaking deritzona. Morris Hiztegiaren arabera, kontzeptu hau euskaraz<br />

parranda itzultzen da; gaztelania-ingelesa hiztegien arabera juerga edo<br />

12 Adibideko klase semantiko osoak 22 hiponimo ditu, baina adibidean merrymaking hiponimoaren<br />

hiponimo zuzenak bakarrik jarri ditugu. Gainera, espazio-arazoak direla-eta,<br />

synsetetako variant kopurua ere txikitu dugu.


142 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

jolgorio gisa. Merrymakingek hiponimo bat dauka eta hiperonimoa bezalaxe<br />

(parranda) itzultzen da Morris Hiztegiaren arabera, eta juerga edo jolgorio<br />

gaztelania-ingelesa hiztegien arabera. Gauza bera gertatzen da revelen hiponimo<br />

gehienekin.<br />

Hala, espezifikazio-maila xehea dela-eta, askotan, ingeleseko hierarkiako<br />

synset ugari hiperonimoaren ordain bera erabilita itzultzen dira. (34) eta<br />

(35) adibideetan argi eta garbi ikus daiteke fenomeno hau. Beraien hiperonimoa<br />

bezala itzultzen diren hiponimoak (revel, bout, bender, carouse, whoope<br />

eta abarri dagozkien itzulpenak) autohiponimotzat har genitzake: euskaraz<br />

hirurak hitz berarekin (parranda) adierazten ditugulako. Baina, euskaraz parranda<br />

ordainak kontzeptu hauetan guztietan adiera bera du.<br />

Horrelako kasuetan, be<strong>net</strong>ako autohiponimia autohiponimoa faltsutik bereizteko,<br />

hiponimo baxuenak (hiperonimoarekin itzultzen diren neurrian)<br />

variant gabe utziko ditugula erabaki dugu, hots, hutsune lexikal gisa utziko<br />

ditugu. Aipatu izan dugu, hutsune lexikal gisa uzten ditugula euskaraz ez<br />

ditugun kontzeptu kultural horiek (forties, simnel eta abar). Azaldu berri dugun<br />

kasu hau, antzekoa da baina kontzeptua adierazteko hiperonimoa dugu<br />

(eta ez azalpen bat): ingelesez hiperonimoaren espezifikazio bat da, baina<br />

euskaraz hiperonimoa eta bere hiponimoa maila berean ulertu eta itzultzen<br />

ditugu. Autohiponimo faltsuak hutsune kulturaletatik bereizteko, ingeleseko<br />

hitz hiponimoaren synsetean ESPEZIFIKOA HIPERONIMOAZ marka ezartzen<br />

dugu, eta era berean, lexikalizatugabea bezala (NOLEX ). (36) adibidea<br />

ingeleseko revel synsetaren euskarako baliokidea dugu:<br />

(36) Synset-zenbakia: 00328944<br />

=> Synsetaren lexikalizazio-egoera: NOLEX<br />

=> Glosa: jai zaratatsua<br />

=> Sinonimoak:<br />

=> - (ESPEZIFIKOA HIPERONIMOAZ)<br />

Ingelesearen eta euskararen arteko espezifikotasun-mailen arteko aldea<br />

ikustearren, beste adibide bat aurkezten dugu:<br />

(37) {vesell}/ {ontzi} (an object used as a container (especially for liquids)<br />

=> {barrel} / {upel} (a cylindric container that holds liquids)<br />

=> {butt} / ESPEZIFIKOA HIPERONIMOAZ<br />

=> {hogshead} / {bukoi} (a large cask especially one. . . )<br />

=> {keg} / {barrika} (small cask or barrel)<br />

=> {firkin} / ESPEZIFIKOA HIPERONIMOAZ (a small barrel)<br />

=> {tun} / ESPEZIFIKOA HIPERONIMOAZ (a large cask. . . )


VI.2 Bereizgarri hierarkikoak 143<br />

(37) adibidean, upel moten sailkapen bat dugu. Berriro ere, ingelesez<br />

synset bakoitzeko lexikalizaturiko ordain bat dago, eta euskaraz, berriz, hiperonimoak<br />

(upel) balio digu kontzeptu horietako asko adierazteko. Hots,<br />

termino orokorrarekin nahikoa dugu termino espezifikoagoak adierazteko.<br />

Beti ere, kontuan izan beharrekoa da, synset batek ESPEZIFIKOA<br />

HIPERONIMOAZ marka duen ala ez erabakitzeko, hiztegiak hartzen ditugula<br />

oinarri gisa. <strong>Euskara</strong> estandarizazio-bidean dagoen hizkuntza izanik,<br />

baliteke hiztegietatik kanpo kontzeptu hauentzat ordainen bat egotea, hainbat<br />

euskalki eta domeinuetako hitzak gure hiztegietara ez baitira heldu.<br />

Bestalde, oroitu beharra dago <strong>Euskal</strong> <strong>WordNet</strong> aberasteko prozesua ingeleseko<br />

synseteta oinarrituz egin dela. Aztertu behar litzateke alderantzizko<br />

prozesua egingo bagenu zer neurritan gertatuko liratekeen antzeko kasuak<br />

ingeleserako. Dena den, gai honek azterketa sakonagoa mereziko lukeela iruditzen<br />

zaigun, eta beste tesi-lan bat izan daitekeela uste dugu.<br />

Irizpide hau erabili ondoren, autohiponimo faltsuen kopurua 4.500etik<br />

3.378ra murriztu da. Ingeleseko <strong>WordNet</strong> 1.6 bertsioan 41 autohiponimo<br />

daude, eta gaztelaniako word<strong>net</strong> 1.6 bertsioan 971. Lanean jarraitu ahala,<br />

kopuru hauek etengabe aldatuz doaz (ikus VI.2 taula).<br />

0.1 bertsioa 0.2 bertsioa<br />

<strong>Euskal</strong> <strong>WordNet</strong> 4.500 3.378<br />

<strong>WordNet</strong> - 41<br />

Spanish <strong>WordNet</strong> - 971<br />

VI.2 Taula: Autohiponimoen kopuruak.<br />

Bestalde, <strong>WordNet</strong>en espezifikazio-mailak beste ondorio bat izan dezake<br />

euskarako hierarkietan: batzuetan, euskarako hiperonimoaren ordainarekin<br />

batera beste izen, adberbio, edota adjektibo bat ere hartzen dute synsetek<br />

kontzeptu hori adierazteko. (38) adibidean, vintage kontzeptua euskaratzeko<br />

hiperonimoari (ardo) izenlagun bat (erreserbako) gehitu behar izan zaio.<br />

(38) {wine, vino} / {ardo} (fermented juice (of grapes especilly))<br />

=> {vintage} / {erreserbako ardo} (a season’s yield of wine from a vineyard)<br />

Fenomeno hau, aditzetan oso nabaria da. Hauetan, hiperonimoa eta hiponimoa<br />

ordain bera izan ordez, gehiagotan gertatzen da hiponimoak hiperonimoaren<br />

ordainaz gain beste osagai baten beharra izatea, ingeleseko unitateak


144 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

barneraturik duen osagaia euskaraz aditzetik aparte adierazten delako. Aditzen<br />

hiperonimia-hiponimia erlazio hau zehatzago adierazteko, hiperonimiatroponimia<br />

terminoa erabiltzen da (ikus IV. kapitulua). Hau da, A1 aditza<br />

(hiponimoa) A2 aditza (hiperonimoa) era berezi batean egitea da. Esate baterako,<br />

‘herrenka ibiltzea’ ibiltzeko era berezi bat da. (39) adibidean ikus<br />

dezakegu, ingeleseko troponimoentzat lexikalizatutako hitz bakarreko ordain<br />

bat dutela eta euskaraz HAE baten beharra dugula, askotan ez-lexikalizatua<br />

dirudiena (eta hiztegietan agertzen ez dena).<br />

(39) {walk}/ {ibili} (advance by steps)<br />

=> {lollop} / {baldar ibili} (walk clumsily and with a bounce)<br />

=> {bumble} / {estropezu eginez ibili} (walk unsteadly)<br />

=> {perambulate} / {noraezean ibili} (stroll)<br />

=> {creep} / {behatz puntetan ibili} (togostealthily)<br />

=> {wade} / {uretan ibili} (walk through relatively shallow water)<br />

=> {sleepwalk} / {lotan ibili} (walk in one’s sleep)<br />

=> {slink} / {isilean ibili} (walk stealthily)<br />

=> {hitch} / {herrenka ibili} (walk impeded by some physical injury)<br />

=> {skulk} / {inguruan ibili} (move stealthily)<br />

=> {...}<br />

HAE mota hauen errepresentazioa VI.1.4 atalean aipatu dugu, eta bertan<br />

esandakoari jarraituz, HAE hauek adierazpide sintagmatiko bezala lantzen<br />

ditugu. Hots, herrenka ibili <strong>Euskal</strong> <strong>WordNet</strong>en sartu egingo dugu adierazpide<br />

sintagmatiko gisa, nahiz eta hiztegi-sarrera bat ez izan.<br />

Honenbestez, eta orain artekoa laburbilduz, argi dago <strong>Euskal</strong> <strong>WordNet</strong><br />

garatzeko ingeleserako egindako hierarkia kontzeptuala jarraitzeak eraginak<br />

dituela: bi hizkuntzetako kontzeptuen sailkapena ez dator beti bat, ezta<br />

kontzeptu horiek lexikalizatzeko modua ere.<br />

VI.2.3 Bestelako espezifikotasun lexikalak<br />

Batzuetan <strong>WordNet</strong>eko espezifikazio-mailaren xehetasuna, hiperonimohiponimo<br />

ez diren synseten artean ere agertzen da, hots, hierarkiko harremanik<br />

ez duten synseten artean.<br />

V. kapituluan aipatu dugu dagoeneko, <strong>WordNet</strong> granularitate xeheko<br />

EBLa dela. Hau da, <strong>WordNet</strong>en hiztegietan baino adiera gehiago agertzen<br />

dira, edo beste hitz batzuetan esanda, hiztegietako adierak adiera espezifikoagoetan<br />

banatzen dira. Adibide gisa, herri hitzaren adiera bat dakarkigu,<br />

‘jende multzoari’ dagokiona. Adiera honek Hiztegi Modernoan hurrengo definizioak<br />

ditu:


VI.2 Bereizgarri hierarkikoak 145<br />

• Hainbat ohitura eta erakunde komun dituzten gizon-emakumeen multzoa, gehie<strong>net</strong>an<br />

taldean eta lurralde jakin batean bizi dena. Munduko herri eta etniak.<br />

Herri kurdua.<br />

• Herri bateko kideen gehiengoa (maiz goi-klaseei, eliteari edo agintariei kontrajarririk<br />

erabilia).<br />

• Unitate politiko bateko biztanleen osotasuna, botere politikoa datzaneko multzotzat<br />

hartua. Herriak aukeratutako parlamentariak.<br />

Eta <strong>Euskal</strong> <strong>WordNet</strong>en herri hitzaren adiera horrek sei synset ditu. (40)<br />

adibidean sei synsetak aurkezten ditugu, beraien ingeleseko, gaztelaniako eta<br />

euskarako ordainekin:<br />

(40)<br />

Ing: {common people, folk}<br />

Gazt: {plebe, vulgo, pueblo}<br />

Eus: {herri, populu}<br />

Glosa: biztanleen gehiengoa osatzen duen gizaki multzoa<br />

Ing: {country, land, nation, nationality}<br />

Gazt: {pueblo, nación}<br />

Eus: {herri, nazio}<br />

Glosa: jatorri bera duten nazio edo herrialde bateko biztanleak<br />

Ing: {res publica, country, land, nation}<br />

Gazt: {estado, país}<br />

Eus: {herri, estatu, nazio, erresuma}<br />

Glosa: enitate politiko bakarraren baitan dagoen gizaki multzoa<br />

Ing: {public, world, populace}<br />

Gazt: {pueblo, mundo}<br />

Eus: {herri, mundu}<br />

Glosa: pertsona multzoa osotasun gisa harturik


146 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

Ing: {people, multitude, mass}<br />

Gazt: {masa, gente}<br />

Eus: {herri, jende, masa, populu}<br />

Glosa: herri xeheak osatzen duen multzo handia<br />

Ing: {town,townsfolk,townspeople}<br />

Gazt: {pueblo}<br />

Eus: {herri}<br />

Glosa: hiria baino txikiagoa den udalerri bateko biztanleria<br />

Ing: {villate, settlement}<br />

Gazt: {pueblo}<br />

Eus: {herri}<br />

Glosa: hiria baino txikiagoa den udalerri bateko biztanleria<br />

Espezifikazio-maila dela-eta, batzuetan zaila egiten da synseten arteko<br />

desberdintasuna ikustea, batez ere, corpuseko agerpen errealak hauekin etiketatu<br />

behar direnean:<br />

(41) Pinochetek eskualde ho<strong>net</strong>ako herriei egin dien kaltea konpontzen hasi da.<br />

Herria nekatuta dago bete gabeko promesekin.<br />

Herriak elkarrizketa eskatzen digu alderdiei.<br />

Europako sindikatuek herrietan oinarritutako Europa soziala aldarrikatu dute.<br />

Presoen auziari herri gisa eman behar zaio aterabidea.<br />

Agerpen hauei (40)ko synset bakarra egokitzea lan zaila da, adiera askoren<br />

arteko muga lausoa delako. Gainera, testuinguruak ez badu laguntzen,<br />

synset bat baino gehiagorekin etiketatu daitezke, eta, ondorioz, anbiguoak<br />

izaten jarrai dezakete.<br />

<strong>WordNet</strong>en granularitate finak ez du laguntzen LNPren hainbat atazetan,<br />

eta, batez ere, adieraren desanbiguazioan.<br />

“The granularity of word senses in current general purpose sense inventories<br />

is often too fine-grained, with narrow sense distinctions that are<br />

irrelevant for many NLP applications. This has particularly been a problem<br />

with <strong>WordNet</strong> which is widely used for word sense disambiguation (WSD).”<br />

(McCarthy, 2006, 17. or.)


VI.3 Errepresentazioaren hedapena 147<br />

Arrazoi horregatik, <strong>WordNet</strong>eko adierak elkartzeko hainbat saiakera egon<br />

dira: Milhacea eta Moldovan (2001), Tomuro (2001), Agirre eta Lopez de la<br />

Calle (2003). Guk ere bide hau jarraitzea erabaki dugu: antzeko adiera<br />

duten synsetak multzokatu ditugu eta corpuseko agerpenak synset horiekin<br />

guztiekin etiketatzen ditugu 13 .<br />

VI.3 Errepresentazioaren hedapena<br />

Kapitulu ho<strong>net</strong>an zehar, hainbat lexikalizazio-arazo aurkeztu ditugu eta hauei<br />

aurre egiteko irizpide batzuk proposatu ditugu. Irizpide hauek eraginda synseten<br />

errepresentaziorako EBLan marka edo ezaugarri berriak sortu ditugu.<br />

Hots, EBLa informazio gehiagorekin aberastu dugu. VI.3.1 atalean, marka<br />

hauek guztiak laburbilduta dakartzagu.<br />

Bestalde, VI.1.4.1 atalean ikusi dugun bezala, HAEen barne-errepresentazio<br />

aberatsago baten proposamena ere egin dugu, non HAEaren barneosagaiak<br />

harreman semantikoen bidez erlazionatzen diren. Hau VI.3 atalean<br />

laburki gogoraraziko dugu.<br />

VI.3.1 Lexikalizazioaren errepresentazioari dagozkion markak<br />

Euro<strong>WordNet</strong>en ereduari jarraituta, synset bat lexikalizatua dagoen ala ez<br />

markatu egiten dugu. Adibidez, (42) lexikalizaturiko kontzeptu bat da eta<br />

(43) ez.<br />

(42) Synset-zenbakia: 06079949<br />

=> Synsetaren lexikalizazio-egoera: LEX<br />

=> Glosa: pertsona multzoa osotasun gisa harturik<br />

=> Sinonimoak:<br />

=> mundu<br />

=> herri<br />

(43) Synset-zenbakia: 03871460<br />

=> Synsetaren lexikalizazio-egoera: NOLEX<br />

=> Glosa: ikusmenak duen ezaugarria<br />

=> Sinonimoak:<br />

=> ikusmenezko ezaugarri (OROKORRA)<br />

13Etiketatze semantikoari buruzko argibide gehiagorako jo bedi Agirre et al.-en lanera<br />

(2005b).


148 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

Euro<strong>WordNet</strong>ek sortutako marka hauei, guk beste batzuk gehitu dizkiogu:<br />

• PLU marka: kontzeptu bat adierazteko pluralezko ordaina erabiltzen<br />

denean, variant horri PLU marka erantsiko zaio.<br />

(44) Synset-zenbakia: 03773162<br />

=> Synsetaren lexikalizazio-egoera: LEX<br />

=> Glosa: Ebakitzeko tresna, erdialdean giltzatzen diren eta alde. . .<br />

=> Sinonimoak:<br />

=> guraize (PLU)<br />

• FLEX marka: kontzeptu bat adierazteko flexio-atzizkia erabiltzen<br />

denean, variant horri FLEX marka erantsiko zaio.<br />

(45) Synset-zenbakia: 01199751<br />

=> Synsetaren lexikalizazio-egoera: lexikalizatua<br />

=> Glosa: Bero-gabeziak gorputzean eragiten duen sentsazioa.<br />

=> Sinonimoak:<br />

=> hotz (FLEX)<br />

• IXALEX marka: Adierazpide sintagmatiko deitu ditugun HAEak<br />

markatzeko sortutako marka da. Honekin hiztegietako hiztegi-sarrerak<br />

ez diren HAEak baina <strong>Euskal</strong> <strong>WordNet</strong>en sarrera gisa sartu ditugunak<br />

markatzen ditugu. Horrela, hiztegi-sarrera diren HAEak hiztegi-sarrera<br />

ez dire<strong>net</strong>atik ezberdintzen ditugu.<br />

(46) Synset-zenbakia: 01143604<br />

=> Synsetaren lexikalizazio-egoera: LEX<br />

=> Glosa: elikagaiak jateko prestatu<br />

=> Sinonimoak:<br />

=> janaria prestatu (IXALEX)<br />

• OROKORRA marka: kontzeptu antolatzaileei ezartzen zaien marka,<br />

hutsune kulturaletatik ezberdintzeko (ikus (43) adibidea).<br />

• ESPEZIFIKOA HIPERONIMOAZ marka: Autohiponimo faltsuak<br />

hutsune kulturaletatik bereizteko sortutako marka da. Ingeleseko<br />

hitz hiponimoaren synsetean ESPEZIFIKOA HIPERONIMOAZ marka<br />

ezartzen dugu, hiperonimoa bezala lexikalizatzen dela adierazteko.<br />

Marka honekin batera, derrigorrezkoa da synseta ez-lexikalizatu bezala<br />

markatzea.


VI.4 Ondorioak 149<br />

(47) Synset-zenbakia: 00328944<br />

=> Synsetaren lexikalizazio-egoera: NOLEX<br />

=> Glosa: jai zaratatsua<br />

=> Sinonimoak:<br />

=> - (ESPEZIFIKOA HIPERONIMOAZ)<br />

VI.3.2 HAEen barne-errepresentazio aberatsagoa<br />

Bentivogli eta Piantak (2002), italierako word<strong>net</strong>eko HAEetan oinarrituta,<br />

HAEen barne-errepresentazio eredu bat proposatzen dute: composed-of deiturikoa.<br />

Lotura hau erabiltzen dugu HAEa den synseta eta honen osagaiak<br />

lotzeko (ikus VI.1 irudiko c) atala).<br />

Kategoria desberdinez osatutako HAEen osagaien arteko synsetak lotzeko<br />

Euro<strong>WordNet</strong>en involved relation erabiltzea proposatzen dugu: VI.1 irudiko<br />

d) atalean, lo egin HAEren errepresentazioa dugu non composed-of harremanaz<br />

gain, involved relation harremana ere erabiltzen dugun: lo (izena)<br />

HAEaren gaia (involved patient) da, eta honi esker jakin dezakegu lo egiteko<br />

lo egotea beharrezkoa dela.<br />

PLU, IXALEX,OROKORRA eta ESPEZIFIKOA HIPERONIMOAZ markak<br />

ez bezala, HAEen barne-errepresentazioa adierazteko modu hau proposamena<br />

baino ez da. Hau da, oraindik ez dugu proposamen hau erabili, baina<br />

VI.1.4.1 esan bezala, etorkizunean Agirre eta Lersundiren (2001) metodo<br />

erdiautomatikoak erabiltzea pentsatzen dugu, barne-egiturako synsetak eta<br />

beraien arteko harreman semantikoak automatikoki desanbiguatu ahal izateko.<br />

VI.4 Ondorioak<br />

Kapitulu ho<strong>net</strong>an, word<strong>net</strong> eleanitzekin lan egiteak hizkuntzen arteko ezberdintasunak<br />

gainditu beharra dakarrela erakutsi dugu. Gure kasuan, ingeleseko<br />

word<strong>net</strong>aren gainean lan egiteak ekartzen dituen ondorio batzuk aurkeztu<br />

ditugu. Alde batetik, lexikalizazioarekin zerikusia duten bereizgarriak ikusi<br />

ditugu, eta hitz-mailan eta hitz anitzeko esapideen mailan lexikalizatu eta<br />

ez-lexikalizatuen kasuistika zabala aztertu dugu. Azterketa horretan, argi<br />

geratu da lexikalizazioaren mugak lausoak direla, eta askotan lan zaila dela<br />

hitz bat edo hitz anitzeko bat lexikalizatua dagoen ala ez ebaztea. Lexikalizazioaren<br />

eztabaidak eragoztearren, eta LNPko atazen erabilgarritasunari


150 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />

begira, VI.1.4 atalean zehaztu dugu <strong>Euskal</strong> <strong>WordNet</strong>en zer adierazpen mota<br />

txertatu behar genuen: lexikalizaturiko adierazpideez gain, adierazpide<br />

sintagmatiko deitu ditugunak <strong>Euskal</strong> <strong>WordNet</strong>en ere txertatzearen alde egin<br />

dugu, ho<strong>net</strong>arako, hainbat irizpide eta marka proposatuz. Etorkizunean,<br />

landuko ditugun beste kategorien (adjektibo eta adberbioen) errepresentaziorako<br />

ere (hotzik/hotzez bezalakoak) balioko digu irizpide honek.<br />

Ho<strong>net</strong>az gain, HAEen kasuan errepresentazio hau aberastu dugu HAEen<br />

osagaien barne-errepresentazio bat proposatuz: alde batetik, Bentivogli eta<br />

Piantaren (2002) composed-of harremana, eta bestetik, Euro<strong>WordNet</strong>eko involved<br />

relation harremana erabilita.<br />

Bestalde, ingeleseko hierarkiak duen espezifikotasun maila handia dela<br />

eta, synsetak euskaratzean sortzen diren arazoei (hala nola, autohiponimia<br />

faltsua deitu duguna) aurre egiteko irizpideak eta markak ere definitu ditugu.<br />

Honenbestez, abiapuntu gisa hartu dugun EBLa irizpide, marka eta errepresentazio<br />

berriekin aberastu dugula esan dezakegu.


VII. KAPITULUA<br />

<strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Kapitulu ho<strong>net</strong>an, MCR eredua informazio gehiagorekin hedatzeko egin<br />

dugun lehenengo saiakera azalduko dugu. Ingeleseko eta euskarako kirolarloko<br />

aditz batzuen objektuen eta subjektuen hautapen-murriztapenen<br />

azterketa deskribatuko dugu. Azterketa ho<strong>net</strong>an, erabilitako corpusei,<br />

eskuratze-tekniken azterketari eta ebaluazio linguistikoari erreparatuko diegu<br />

batez ere. Esan beharra dago azterlan hau eleaniztasunaren hipotesiaren<br />

ikuspegitik egina dagoela. Hots, ingeleserako eskuratutako hautapenmurriztapenak<br />

euskaraz ere erabilgarriak izan daitezkeela frogatu nahi dugu.<br />

Horretarako, ingeleserako automatikoki eskuratu diren hautapen-murriztape<strong>net</strong>an<br />

oinarritu gara lehenengo, gero hauek euskararentzat baliagarriak izan<br />

daitezkeen aztertu ahal izateko.<br />

VII.1 Sarrera<br />

III.1 atalean zehaztu dugun bezala, argi genuen gure EBLak hizkuntza bere<br />

osotasunean hartu behar zuela. Horretarako, ale lexikal bakoitza dagokion<br />

adierarekin, klase semantikoarekin eta informazio sintaktiko-semantikoarekin<br />

(rol tematikoak, azpikategorizazioa, hautapen-murriztapenak, funtzio gramatikalak,<br />

kategoriak, besteak beste) hornitzea da gure asmoa. Baldintza hauek<br />

kontuan hartuta, <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta The Multilingual Central Repository<br />

(MCR) aukeratu ditugu eredu gisa (ikus III.3), eta ho<strong>net</strong>an oinarrituta<br />

<strong>Euskal</strong> <strong>WordNet</strong> garatzeari ekin genion (lehendabizi izenak eta ondoren


152 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

aditzak). Izenen EBLen artean, <strong>WordNet</strong>en eredua ezaguna da eskaintzen<br />

duen informazio aberatsarengatik. Aditzen adierazpena, aldiz, behin baino<br />

gehiagotan esan dugun bezala, mugatua da, <strong>WordNet</strong>en azpikategorizazioa,<br />

hautapen-murriztapenak eta rol tematikoak bezalako informazio sintaktikosemantikoa<br />

ez baita zehazten.<br />

Gabezia ho<strong>net</strong>az ohartuta, <strong>WordNet</strong>en oinarritutako hurrengo ereduek<br />

(batez ere, MCRk) informazio sintaktiko-semantikoa txertatzeko aukera<br />

gehiago eskaintzen dituzte. IV.3 atalean esan dugun bezala, MCR ezagutzabaseak<br />

aditzen hautapen-murriztapenak kontsultatzeko aukera ematen du<br />

Role erlazio semantikoa erabilita. Hala ere, nahiz eta interfazeak hautapenmurriztapenak<br />

jasotzeko aukera izan, Role harreman semantiko hauek hutsik<br />

daude; hots, oraindik ez da informazio hau eskuratu eta EBLan txertatu.<br />

Ikuspegi ho<strong>net</strong>atik abiatuz, aditzen objektu/subjektuen hautapenmurriztapenen<br />

azterketan murgildu gara, <strong>Euskal</strong> <strong>WordNet</strong> informazio<br />

sintaktiko-semantikoarekin aberasteko asmoarekin. Hautapen-murriztapenak<br />

lortzeko abiapuntu gisa, beste batzuk egindako lana balia genezakeen<br />

—esate baterako, tesi-lan ho<strong>net</strong>an aipatu ditugun hainbat lan eta formalismo<br />

(ikus III.3)—, edota euskarako corpusetan eta bestelako baliabide informatikoetan<br />

oinarrituz, guk geuk eskura genitzakeen.<br />

Lehenengo aukeraren kasuan, kontuan izan beharrekoa da lan gehienak<br />

ingeleserako pentsatuak daudela, eta hauetan dagoen informazioa euskararako<br />

EBLan gehitu baino lehen, informazio hori hizkuntzatik independentea<br />

den (unibertsala den) edo behintzat euskararako baliagarria den frogatu<br />

beharko genukeela. Aukera ho<strong>net</strong>an eskuzko lana ikaragarria litzateke.<br />

LONGMAN Dictionary of Contemporanean English (LDOCE) 1 lexikoian<br />

gehitutako hautapen-murriztapenak dira honen adibide. Baina esan beharra<br />

dago maila orokorreko hautapen-murriztapenak direla.<br />

Bigarren aukera egingarriagoa da, eta hauxe izan da azken urteotan LNPn<br />

suspertu dena, hizkuntzen egitura eta ezaugarri asko eta asko corpusetatik<br />

eskura baititzake makinak. Baina, horretarako, garrantzitsua da corpus handiak<br />

izatea; zenbat eta corpus handiagoa izan, orduan eta informazio gehiago<br />

eta zehatzagoa lor daitekeelako. Hedapen urriko hizkuntzek (euskarak,<br />

esate baterako), aldiz, informatikoki balia daitezkeen corpus txikia dituzte;<br />

batzuetan txikiegiak horietatik emaitza zuzenak lortzeko. Hori dela eta,<br />

1 http://pewebdic2.cw.idm.fr (2007-07-02an atzitua).


VII.1 Sarrera 153<br />

beste hizkuntzetan dauden la<strong>net</strong>ako informazioa berrerabiltzeko eta hedapen<br />

urriko hizkuntzen baliabide falta konpontzearren, berriki, MEANING:<br />

Developing Multilingual Web-Scale Language Technologies (IST-2001-34460)<br />

proiektuarekin (Rigau et al., 2003), ezagutza lexiko-semantikoaren eskuratzeari<br />

buruzko ikuspuntu berri bat sortu da: ezagutza lexiko eleanitzaren<br />

aberasketan oinarritzen dena. Hots, hizkuntza ezberdi<strong>net</strong>arako eskuratutakoa<br />

bata bestearekin parekatu eta hizkuntza batekin bestea aberastea ahalbidetzen<br />

duena 2 . Izan ere, hizkuntza batentzat eskuratutakoa beste hizkuntza<br />

batentzat baliagarria izan daiteke; eta, normalean, abiapuntu gisa, konputazionalki<br />

baliabide gehiago dituen hizkuntza bat hartzen da. Gaur egun,<br />

ukaezina da ingelesak arlo guztietan duen indarraz, eta arrazoi horregatik,<br />

hizkuntza honek euskarri informatikoan ere corpus handiena (edo handie<strong>net</strong>akoa)<br />

du. Hala, LNPren ikuspegitik, ingelesak oso baliabide aberatsak<br />

ditu, eta, ondorioz, aurrerapen gehienak ere hizkuntza ho<strong>net</strong>arako garatzen<br />

dira. Hortaz, aipatutako eleaniztasunaren hipotesi berri honen arabera, jokabide<br />

linguistiko batzuk eleanitzak dira, eta, ondorioz, hizkuntza batentzat<br />

automatikoki eskuratutako datuak beste batzuentzat ere erabilgarriak izan<br />

daitezke. Adibidez, ingeleseko play aditzak (‘instrumentu bat jo’ adieran)<br />

objektu gisa musika-instrumentua adierazten duten izenak hartzen baditu<br />

(I play the piano), aditz horren euskarako ordainak ere (jo) izen mota horiek<br />

hartuko ditu objektu gisa (Nik pianoa jotzen dut). Hori horrela balitz —<br />

aztertu egin beharko da zenbateraino betetzen den fenomeno hau—, nahikoa<br />

litzateke makinak corpus aberatse<strong>net</strong>atik informazioa eskuratzea (kasu ho<strong>net</strong>an,<br />

play aditzaren adiera batek objektu gisa musika-instrumentuak hartzen<br />

dituela automatikoki eskuratzea). Honela, itzulpen-automatikoa egiterakoan<br />

adibidez, play aditza musika-instrumentuekin doanean, euskaraz jo bezala<br />

itzultzea lortuko genuke, bere hautapen-murriztapenean oinarrituz, hain zuzen<br />

ere.<br />

MEANINGeko ikuspuntuari jarraituz, aditzen objektu/subjektuen<br />

hautapen-murriztapenen azterketarekin batera, eleaniztasunaren hipotesia<br />

aztertzeari ekin diogu, hizkuntzen artean egon daitezkeen aldaera eta parametroak<br />

kontuan hartuaz. Horrela, kapitulu ho<strong>net</strong>an hautapen-murriztapenen<br />

azterketa automatikoaz arituko gara. Horretarako, ingeleserako automatikoki<br />

eskuratu diren hautapen-murriztape<strong>net</strong>an oinarritu gara lehenengo,<br />

gero hauek euskararentzat baliagarriak izan daitezkeen aztertu ahal izateko.<br />

Hau da, ingeleseko hautapen-murriztapenak eskuratzeko erabili diren tekni-<br />

2 Proiektu honi buruzko informazio gehiago, Pocielloren lanean (2004b).


154 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

ka ezberdinak aurkeztu eta ebaluatu ditugu, hauen aplikazioa eleanitza izan<br />

daitekeela frogatu nahian, gerora, <strong>Euskal</strong> <strong>WordNet</strong>en txertatu ahal izateko.<br />

Azterketa honen ondoren, ingeleserako erabilitako eskuratze-teknika bat<br />

euskarako corpus batean erabili dugu, ingeleseko emaitzekin erkatzeko.<br />

Azterketa hau mugatzearren, gure ustez kirol-domeinuan gehien agertzen<br />

diren aditz batzuetan oinarritu gara (jokatu, entrenatu, irabazi, galdu eta berdindu).<br />

Bestalde, MCR adiera-inbentario gisa erabili dugu, bertan ingeleseko<br />

eta euskarako aditz-adierak lotuak datozelako. Beraz, aditz hauen MCRko<br />

kirol-adieratik abiatuz ingeleseko itzulpenak lortu ditugu. Horrela bada,<br />

azterketa honen parametro nagusiak domeinua eta adierak dira, kirol-domeinuarekin<br />

bat datozen aditzen adieren hautapen-murriztapenak aztertu eta<br />

eskuratu ditugulako.<br />

Hala, laburbilduz, kapitulu ho<strong>net</strong>an azalduko dugun azterketaren helburuak<br />

hurrengoak dira:<br />

• Hainbat eskuratze-teknika erabiliz ingeleseko eta euskarako corpus<br />

ezberdi<strong>net</strong>atik eskuratutako hautapen-murriztapenak aztertzea eta konparatzea.<br />

• Hautapen-murriztapenak eleanitzak izan daitezkeen aztertzea.<br />

Azterketa hau hastapenekoa da; emaitzak ez dira behin betikoak. Lan ho<strong>net</strong>atik<br />

abiatuta, euskararako jorratzen hasiberriak garen hautapen-murriztapenen<br />

arlo hau garatu nahi dugu, emaitzarik egokienak eskaintzen dizkigun<br />

bidea aurkituz.<br />

Azkenik, esan behar dugu azterlan ho<strong>net</strong>an eskuratze-tekniketatik lortutako<br />

emaitzekin egin dugula lan, hau da, emaitzen ebaluazio linguistikoan<br />

aritu gara. Horregatik, txosten ho<strong>net</strong>an ez dugu sakonduko eskuratzeteknika<br />

hauek garatzeko erabili diren hainbat prozesu eta algoritmo informatikoetan<br />

3 . Alderantziz, azterketa honen ondorioz, informatikariek aditzen<br />

informazio lexikoa aztertzeko baliabideak hobetzeko aukera izango dute.<br />

Tesi-txosten honen sarreran (VII.1 atalean) hautapen-murriztapenen ezaugarri<br />

eta erabilerari buruzko informazioa eman dugunez, kapitulu ho<strong>net</strong>an<br />

eskuratze-automatikoaz jardungo gara. Dena den, hautapen-murriztapenen<br />

izaera eta erabilerari buruzko azterketa sakonagoa Pocielloren (2004a) lanean<br />

dago ikusgai. Kapitulu hau sei atal nagusitan banatzen da. Sarrera honen<br />

3 Horien berri izateko jo bedi hurrengo lanera: Agirre eta Martínez (2002).


VII.2 Hautapen-murriztapenak eta hauen eskuratzea 155<br />

ondoren, VII.2 atalean, hautapen-murriztapenen eskuratzearen inguruan jardungo<br />

gara. VII.3 atalean, azterlan ho<strong>net</strong>an erabili diren baliabideen berri<br />

emango dugu (corpusak eta eskuratze-teknikak). VII.4 eta VII.5 ataletan<br />

ingeleseko eta euskarako hautapen-murriztapenen azterketan sakonduko dugu.<br />

Eta, azkenik, VII.6 atalean, lanaren ondorioak eta etorkizuneko lanak<br />

aipatuko ditugu.<br />

Kapitulu ho<strong>net</strong>an zehar, jokatu/play aditzak erabiliko ditugu adibide gisa<br />

saiakera honen xehetasun guztiak emateko, baina C eranskinean aditz guztien<br />

hautapen-murriztapenak eta beraien ebaluazioa zehaztuta datoz.<br />

VII.2 Hautapen-murriztapenak eta hauen eskuratzea<br />

Hitz batek, honek duen adieraren arabera, testuinguruan har ditzakeen osagai<br />

linguistikoak murrizten ditu hautapen-murriztapenak (aurrerantzean, HM).<br />

Beste hitz batzuetan esanda, HMak dira hitz baten adiera batek testuinguruan<br />

izan ditzakeen agerkidetzak. Zerrenda hau osatzen dute klase<br />

semantiko batean dauden hitzek, hau da, adiera zehatz batekin osagai gisa<br />

ager daitezkeen hitz guztiak.<br />

Horrela bada, aditz batek, bere adieraren arabera, argumentu bezala har<br />

ditzakeen izenen klase semantikoa mugatu dezake. Adibidez, idatzi aditzak,<br />

subjektu gisa [+gizaki] tasuna eskatzen du; [+gizaki] izango da bere subjektu<br />

HMa, alegia 4 .<br />

VII.2.1 Eskuratze-metodoak<br />

LNPn, HMak eskuratzeko garaian, hiru metodo dira aipagarrienak: lehenengoa,<br />

introspekzioa; bigarrena, hiztegietan oinarrituriko eskuratze automatikoa<br />

5 ; eta, azkenik, corpusetan oinarrituriko eskuratze automatikoa.<br />

VII.2.1.1 Introspekzioa<br />

HMak eskuratzeko introspekzioa erabiliz gero, HMak eskuz sortzen dira, hizkuntzalariaren<br />

iritzi eta intuizio linguistikoen arabera. Eskuratze-metodo<br />

hau izan da erabiliena orain dela hamarkada bat arte (Lenat eta Guha,<br />

4 HMei buruzko argibide gehiagorako jo bedi Pocielloren lanera (2004a).<br />

5 Ingelesez automatic acquisition from machine-readable versions of dictionaries<br />

(MRD).


156 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

1990). Pertsonen intuizioetan oinarritzeak baditu bere arriskuak: egindako<br />

lana hizkuntzalariaren subjektibotasunaren mende egongo da, baita honen<br />

akats, ahazte, eta kontraesanen mende ere. Bestalde, eskuratze-mota honek<br />

eskuzko lan handia eskatzen du, eta datu-kopuru bera edo handiagoa lortzeko<br />

badaude beste metodo azkarrago batzuk.<br />

Arrazoi hauengatik, gaur egun, LNPn metodo hau alde batera geratu da.<br />

Haatik, introspekzioa eskuratze-metodo gisa guztiz fidagarria izan ez arren,<br />

automatikoki eskuratutako HMak ebaluatzeko erabiltzen da. Gu geu, saiakera<br />

ho<strong>net</strong>an, introspekzioaz baliatu gara eskuratutako emaitzak ebaluatzeko 6 .<br />

VII.2.1.2 Eskuratze automatikoa hiztegietatik<br />

Lexikografikoak hiztegian hiztegi-sarrera bat definitzerakoan, sarrera horrek<br />

hartzen dituen HMen azterketa eta adierazpena egiten du. Hiztegi hauek<br />

informatikoki baliagarriak direnean, makinak hiztegi hauetatik bertatik<br />

erauz ditzake lexikografoak hiztegi-sarrera bakoitzari egokitu dion HMa<br />

(Montemagni, 1994).<br />

Hala ere, metodo honen bidez lortutako HMak ez dira guztiz fidagarriak,<br />

pertsonen intuizioetan oinarritutako hiztegiak baitira hauek ere, eta gorago<br />

esan dugun bezala, honek bere alde txarrak dauzka: objektibotasun falta eta<br />

eskuzko lan handia, adibidez.<br />

Bestalde, hiztegietatik informazio interesgarria lor daitekeen arren, hiztegietako<br />

sarrera guztiek ez dute HMak erauzteko adina informazio ematen,<br />

informazio hori ez delako esplizituki agertzen hiztegi-sarrera guztietan.<br />

VII.2.1.3 Eskuratze automatikoa corpusetik<br />

Metodo honen bitartez makinak automatikoki eskura ditzake hitz bati dagozkion<br />

HMak, hitz horrek corpusean dituen agerpen guztien testuinguruan<br />

oinarrituz.<br />

Metodo hau da eskuratze automatikorako adostasun handiena lortu duena,<br />

ondoko arrazoiengatik:<br />

• Corpusen tamaina handiari esker, aztertu beharreko hitzaren adibide<br />

nahikoak eskuratu ahal izango ditugu.<br />

• Corpusa domeinuka dagoenean, domeinu zehatz bati dagokion informazio<br />

linguistikoa eskuratzeko aukera izango dugu.<br />

6 Honi buruz, VII.4.1 eta VII.5.1 ataletan mintzatuko gara.


VII.2 Hautapen-murriztapenak eta hauen eskuratzea 157<br />

• Hiztegiek ez bezala, eskuratutako datuen maiztasuna ere eskaintzen<br />

digu.<br />

Guk egindako saiakerak ere corpusak hartu ditu ardatz gisa.<br />

VII.2.2 Formalizazioa<br />

Atal ho<strong>net</strong>an, corpusean oinarritutako eskuratze-metodoan erabiltzen diren<br />

eskuratze-teknika nabarmenenei buruz jardungo gara: hitzean oinarritzen<br />

direnak eta, klase semantikoan oinarritzen direnak 7 .<br />

VII.2.2.1 Hitzean oinarritzen diren eskuratze-teknikak<br />

Ikerlari batzuk (Hindle, 1990; Church et al., 1991; Hindle eta Rooth, 1991;<br />

Pereira et al., 1993, esate baterako) predikatu eta argumentu baten arteko<br />

harreman semantikoak atzitzeko, hitzean bertan oinarrituriko saiakuntzak<br />

egin dituzte. Hurbilpen hau semantika berdintsua duten hitzek testuinguru<br />

berdintsuetan agertzeko duten joeraz baliatzen da.<br />

“[...] the lexical relationships between given words are modeled by<br />

analogy with other words that present a similar distribution in the training<br />

corpus.” (Ribas, 1995, 7. or.)<br />

Harreman linguistiko askok semantikoki parekoak diren hitzak eskatzen<br />

dituzte. Hala, adjektibo batek ezin ditu nahi adina izen modifikatu, izenaren<br />

klase semantikoaren arabera murriztuko baititu bere osagaiak. Adibidez,<br />

goxo adjektiboak, bere adiera hedatuenean (‘zapore onekoa’, hain zuzen ere),<br />

bere ondoan, osagai gisa janaria edo edaria izango du beti. Horrela bada,<br />

teknika hauek hizkuntzak eskaintzen dizkigun distribuzioaz baliatuko dira<br />

HMak eskuratu ahal izateko.<br />

Hindlek (1990), adibidez, izenen arteko antzekotasuna neurtzeko teknika<br />

hau landu zuen, corpuseko aditz, subjektu eta objektuen distribuzioari<br />

begiratuz. Aditz baten subjektu/aditza eta objektu/aditza bikote-agerkidetzak<br />

estatistikaren arabera neurtu zituen, co-occurrence score delakoarekin<br />

(mutual informationen parekoa) 8 . Honela, izenen arteko antzekotasuna neurtzeaz<br />

gain, aditz baten argumentu gisa agertzen diren izenen zerrenda lortzen<br />

du agerkidetza altue<strong>net</strong>ik baxuenera.<br />

7 Ingelesez, word-based eta class-based, hurrenez hurren.<br />

8 “Mutual information, I(x; y), compares the probability of observing word x and word y<br />

together (the joint probability) with the probabilities of observing x and y independently.”<br />

(Church et al., 1991, 118. or.).


158 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Co-occurrence score verb object<br />

11.75 drink tea<br />

11.75 drink Pepsi<br />

11.75 drink champagne<br />

10.53 drink liquid<br />

10.20 drink beer<br />

9.34 drink wine<br />

7.65 drink water<br />

VII.1 Taula: Drink aditzaren objektuak hitzen hurbiltasunean oinarritutako<br />

teknika erabiliaz (Hindle, 1990).<br />

VII.1. taulak, drink aditzarekin maizen gertatzen diren objektu/aditz bikoteetako<br />

batzuk erakusten ditu, co-occurrence scorearen arabera zerrendatuta.<br />

Hain zuzen ere, objektu/aditz bikote hauexek dira “zer edan daiteke?”<br />

galdera erantzuten dutenak.<br />

Hala eta guztiz ere, Hindlek lortutako HMak oraindik mugatuak dira.<br />

Azken batean, aztertzen ari garen hitzaren ezaugarri lexikoak, hitz-zerrenda<br />

batek adieraziko ditu; hau da, ez ditu inolako etiketa edo tasun semantikoren<br />

bidez biltzen. Horrela bada, hitzaren agerkidetzan oinarritzeari jarri<br />

zaion eragozpe<strong>net</strong>ako bat, honen zorroztasun falta izan da. Ribas-ek halaxe<br />

azaltzen du:<br />

“[. . . ] it is by no means obvious that the distribution of words<br />

will directly provide a useful semantic classification, at least in the<br />

absence of considerable human intervention, and especially for low-frequency<br />

words.” (Ribas, 1995, 17. or.)<br />

Haatik, hurbilpen honek beste bi arazo ekartzen ditu:<br />

• Hitzean oinarritutako teknikek lortzen dutena hitz-formak dira eta ez<br />

hitz-adierak, azken hauek direlarik semantikan hautapenak zehazten<br />

dituztenak. Hitzen adieren desanbiguazioa, adibidez, ezinezkoa litzateke<br />

hitz-formetan bakarrik oinarrituz gero.<br />

• Lortutako HMak corpusean gertatu diren agerpe<strong>net</strong>ara bakarrik mugatuko<br />

dira: hau da, corpusetik at dauden antzeko adibideentzako ezingo<br />

dira orokortu.<br />

VII.4.2.1. atalean ikusiko dugun bezala, gure azterketan honen antzeko<br />

teknika bat erabili dugu, baina ez eskuratze-teknika bezala, baizik eta<br />

eskuzko lanerako baliabide bezala.


VII.2 Hautapen-murriztapenak eta hauen eskuratzea 159<br />

VII.2.2.2 Klase semantikoan oinarritzen diren eskuratze-teknikak<br />

Teknika hauek klase semantikoak baliatzen dituzte bi hitzen arteko HMa<br />

adierazteko. Klase semantiko bat ezaugarri komunak dituzten hitzek osatzen<br />

dute, eta, normalean, hierarkikoki antolatuta daude. Zenbait autorek,<br />

Grishman eta Sterling-ek (1992) esaterako, eskuz egin dituzte klase semantikoak;<br />

beste zenbaitek, berriz, zailtasunak ikusita, egina dagoen ezagutza<br />

semantiko bat hartzen dute oinarri gisa: Resnik-ek (1993), esate baterako,<br />

<strong>WordNet</strong> darabil. Azterlan ho<strong>net</strong>an guk ere horixe egingo dugu: MCR<br />

edo <strong>Euskal</strong> <strong>WordNet</strong> erabiliko dugu eskuratze-teknika mota hau aplikatzeko.<br />

Hala, eskuratze-teknika honen azalpenerako, <strong>WordNet</strong> ereduak eskaintzen<br />

dituen klase semantikoetan oinarrituko gara.<br />

Behin hitz batek (adibidez, drink aditzak) corpusean dituen osagai posibleak<br />

lortu ondoren (ikus VII.1. taula), osagai horiei dagozkien synsetak<br />

bilatzen dira <strong>WordNet</strong>en, gerora, synset horiek guztiak multzokatzen dituen<br />

hiperonimo synseta (klase semantikoa) eskuratzeko. Eta hiperonimo horixe<br />

izango da aditz horren hautapen-murriztapena.VII.1. taulako synseten klase<br />

semantikoa (1) adibidean dator:<br />

(1) => {liquid}<br />

=> {beverage}<br />

=> {milk}<br />

=> {alcohol}<br />

=> {wine}<br />

=> {beer}<br />

=> champagne}<br />

=> {...}<br />

=> {soft drink}<br />

=> {Pepsi}<br />

=> {...}<br />

=> {juice}<br />

=> {tea}<br />

=> {...}<br />

Ikus daitekeen bezala, alcohol synsetak wine, champagne eta beer multzokatzen<br />

ditu, edari alkoholdunen klasea sortuz; Pepsi, aldiz, soft drink<br />

synsetaren azpian dago, freskagarriak diren edarien klasearen azpian 9 .Baina<br />

ez alcohol synsetak, eta ezta soft drink synsetak ez dituzte VII.1. taulako<br />

9 Adibide ho<strong>net</strong>ako edarien hierarkia ez dago bere osotasunean. Hierarkia osoa Word-<br />

Neten dago ikusgarri: http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).


160 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Association score verb object classes<br />

3.58 drink beverage [beverage, drink, drinkable, potable]<br />

VII.2 Taula: Drink aditzaren objektu hautapen-murriztapena, <strong>WordNet</strong> eta<br />

klase semantikoan oinarritutako teknika erabiliz (Resnik, 1992).<br />

edari mota guztiak multzokatzen, eta denak multzokatzen dituena behar dugu:<br />

beverage, alegia. Beste hitz batzuetan esanda, beverageren azpian dauden<br />

synset guztiak (hauei dagozkien hitz guztiekin, noski) ezaugarri semantiko<br />

komunak izango dituzte ([+edangarri]), eta, ondorioz, agerkidetza sintaktiko<br />

bera izango dutela suposatzen da; adibidearekin jarraituz, guztiak drink<br />

aditzarekin ager daitezke. Honenbestez, [+edangarri] tasuna edo klase semantikoa<br />

(beverage) izangodadrink aditzaren HMa.<br />

Resnikek (1993) teknika hau erabiltzen du, <strong>WordNet</strong>en hierarkia kontzeptualean<br />

eta association score 10 neurri estatistikoan oinarrituaz. Ondorioz, bere<br />

hautapen-murriztapenek VII.2. taulakoen antza dute. Hitzean oinarritzen<br />

diren teknikekin ez bezala, klase semantikoa ez da adierazten hitz-zerrenda<br />

baten bidez (ikus VII.1. taula), baizik eta klase semantiko horren azpian<br />

dauden hitz guztiak multzokatzen dituen synsetaren bidez: VII.2 taulako<br />

beveragen bidez, adibidez.<br />

Klase semantikoan oinarritutako teknikek dituzten abantailak, aurkeztutako<br />

beste hurbilpenarekin erkatuz gero, hurrengoak dira:<br />

• Nahiz eta corpus txikia izan, esanguratsuak izan daitezkeen datu estatistikoak<br />

lor daitezke.<br />

• Corpusean lortutako HMek, bertan azaltzen ez diren adibideentzako<br />

ere balio dute.<br />

• Klase semantikoek eskuratutako HMen interpretazioa errazten dute.<br />

• Klase semantikoak hierarkikoki antolatuta egoteak HM orokorrak lortzen<br />

laguntzen du.<br />

10 “The association score takes the mutual information between the verb and a class,<br />

and scales it according to the likelihood that a member of that class will actually appear<br />

as the object of the verb.” (Resnik, 1992, 328. or.)


VII.3 Baliabideak 161<br />

Dena den, eskuratze-teknika mota honek desabantailak ere baditu:<br />

1. Klase semantikoen bidez tasun semantikoak adieraztea ez da beti zuzena,<br />

batzuetan ez baitatoz bat. Adibidez, [+edangarri] tasunak modu<br />

egokian adierazten du <strong>WordNet</strong>eko beverageri dagokion klasea. Baina<br />

ez da beti posible tasun semantikoari dagokion klase semantikoa topatzea.<br />

Esate baterako, ireki aditzak irekitzen diren gauzak behar ditu<br />

argumentu gisa (kaxak, paketeak, poteak eta abar). Eta irekitzen diren<br />

gauzak zer klase semantikoren barnean daude? Horrelakoentzat, tasun<br />

zehatz bat ezartzea nahiko zaila da; irekitzen diren gauzen kasuan,<br />

<strong>WordNet</strong>en container (something that holds things) synseta jodaiteke,<br />

behar bada, klase semantiko aproposena bezala.<br />

2. Batzuetan, klase semantikoaren barnean tasun semantiko hori ez duten<br />

synsetak ager daitezke. Esaterako, hegazti klase semantikoak gehie<strong>net</strong>an<br />

[+hegan] tasuna eskatzen du, baina klase ho<strong>net</strong>an hegan egin ezin<br />

dutenak ere badaude: pinguinoa eta oiloa, adibidez, hegan egin ez arren,<br />

hegaztiak dira. Horrelako salbuespenen errepresentazioa arazo bat da,<br />

eta arazo hau adimen artifizialean ezaguna den arren, ez du berehalako<br />

ebazpenik. Konponbide posible bat klase semantikoaren tasun bera<br />

daramaten kontzeptu guztiak multzokatzea izan daiteke.<br />

VII.3 Baliabideak<br />

Sarreran aipatu dugun bezala, azterlan honen helburu nagusiena honako hau<br />

da: corpus eta eskuratze-teknika desberdinak erabiliz, ingeleseko kirol-aditz<br />

batzuentzat automatikoki eskuratutako HMak aztertzea, gero hauek euskararentzat<br />

baliagarriak izan daitezkeen ikusi ahal izateko. Horrela, ikerlan<br />

ho<strong>net</strong>an ondorengo ataza hauek egin ditugu:<br />

• Ingeleseko aditz batzuen HMenak lortzeko erabili diren<br />

eskuratze-teknika automatikoen emaitzak hartuta, hauen azterketa<br />

eta ebaluazioa egin teknika bakoitzaren alderdi on eta<br />

txarrak aipatuz.<br />

Beste era batera esanda, HMen eskuratze-teknika desberdinen ebaluazio<br />

bat egin dugu, eta, ho<strong>net</strong>arako, bi parametro hartu ditugu kontuan: domeinua<br />

eta adiera.


162 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Domeinuak azken urte hauetan garrantzi handia hartu du. Hasieran<br />

HMak aditzen adierentzat definitu baziren ere (Wilks, 1973), lehenengo ahalegin<br />

automatikoetan aditz formetara mugatu ziren (Resnik, 1993). Geroago,<br />

aditzen adierak kontuan hartzen dituzten eskuratze-teknikak proposatu dira<br />

(Agirre eta Martínez, 2002; McCarthy, 2001). Gaur egun, HMen eskuratzea<br />

domeinu zehatz bati buruz aritzen diren corpusetara mugatzen hasi dira, aditzaren<br />

adiera eta bere HMena corpusaren domeinutik lortu daitekeela ikusi<br />

dugu (Agirre et al., 2003b; McCarthy, 2001).<br />

Gure azterketan ere bide hau jarraitu dugu, eta bi corpus mota erabili<br />

ditugu: kirol-domeinuarekin harrema<strong>net</strong>an daudenak eta domeinu zehatzik<br />

ez dutenak; hauetatik lortutako HMak parekatzea interesgarria iruditu zaigulako.<br />

Adierari dagokionez, eskuratze-teknika batzuk aditzaren HMak eskuratzen<br />

dituzte aditz-adiera kontuan izanda, eta beste batzuk, aldiz, aditzforman<br />

oinarritzen dira. Eskuratze-teknika hauen arteko aldean ere sakonduko<br />

dugu.<br />

• Ingeleseko aditzentzat eskuratze-teknika bakoitzetik lorturiko<br />

HMak euskarako ordainen HMak izan daitezkeen aztertzea, bi<br />

hizkuntzetarako egokiak diren ala ez, hots, HMak eleanitzak<br />

izan daitezkeen ala ez egiaztatzeko.<br />

Beraz, ingeleserako lortu diren datuak euskaraz berrerabili ditugu, eta<br />

berrerabilera hau egokia den ala ez aztertu dugu. Ho<strong>net</strong>arako, MCRz baliatu<br />

gara, bertan ingeleseko ordain bakoitza euskarakoarekin lotua baitator.<br />

• Ingeleserako erabilitako eskuratze-teknika batzuk euskarako<br />

corpus batean erabili (a) eta (b)ko emaitzekin erkatzeko.<br />

Ingeleseko corpusetik lortutako HMak eta euskarako corpusetik lortutakoak<br />

konparatzea, alegia. Hemen ere, kirol-domeinuari dagozkion corpusak<br />

eta corpus orekatuak erabili ditugu, beraien artean zer desberdintasun agertzen<br />

diren aztertzeko.<br />

Kapitulu ho<strong>net</strong>an jokatu aditza erabiliko dugu saiakeraren metodologia<br />

eta garapena azaltzeko 11 , baina aipatutako aditz guztiekin egin dugu azterlan<br />

bera 12 .<br />

11 VII.4 eta VII.5 ataletan saiakera hau urratsez urrats aipatzen badugu ere, Pociello<br />

(2004a) lanean urrats bakoitzari buruzko xehetasun gehiago datoz.<br />

12 Aditz guztiekin jasotako emaitzak C eranskinean datoz.


VII.3 Baliabideak 163<br />

Hurrengo ataletan saiakera hau egiteko beharrezkoak izan diren corpusez<br />

(VII.3.1 atala) eta eskuratze-teknikez (VII.3.2 atala) jardungo gara.<br />

VII.3.1 Azterketarako erabili diren corpusak<br />

HMak ondorengo corpusetatik lortu ditugu:<br />

VII.3.1.1 Ingeleseko corpusak<br />

• SemCor: Ingeleseko corpus hau (Fellbaum et al., 2001) semantikoki<br />

eskuz etiketatutako corpusik handiena da. Semantikoki etiketatuko<br />

corpusa dela adierazten dugunean, hitzen adierak dagokien adierarekin<br />

desanbiguatuta daudela esan nahi dugu. Hala, corpus bat (semantikoki)<br />

etiketatua dagoela diogunean, (semantikoki) desanbiguatutako<br />

corpus bat dela adierazi nahi dugu. Brown Corpusaren zati batez eta<br />

Stephen Craig-en The Red Badge of Courage eleberriaz osatuta dago<br />

eta 350.000 hitz inguru ditu. Corpuseko hitz bakoitza <strong>WordNet</strong>eko<br />

synset batekin desanbiguatuta dago, eta arrazoi honengatik LNPn oso<br />

erabilia izan da.<br />

• The British National Corpus (BNC): BNC 100 milioi hitzetako<br />

corpus orekatua da, hots, jatorri ezberdi<strong>net</strong>ako corpusekin osatutakoa,<br />

baina eskuz etiketatu gabea.<br />

• EFE: EFE agentziaren corpusa da, 70 milioi hitz baino gehiago dituena.<br />

Kazetaritzari dagokion corpusa da eta kazetaritzaren gaien edo<br />

domeinuen arabera antolatua dago. Horregatik, domeinu zehatz bateko<br />

agerpenenak kontsultatzeko oso lagungarria da, baina ez dago eskuz<br />

etiketatuta.<br />

VII.3.1.2 <strong>Euskara</strong>ko corpusa<br />

• <strong>Euskal</strong>dunon Egunkaria: Egunkari ho<strong>net</strong>ako berriekin osatutako corpusa<br />

da, 7 milioi hitz inguru dituena. EFEren antzera, corpus domeinuka<br />

antolatuta dago. Hala, euskarako hitz baten testuingurua corpus osoan<br />

zehar ala domeinu zehatz batean kontsulta daiteke. Orain ari gara,<br />

EuSemcor proiektuaren baitan (Agirre et al., 2006a), corpus hau eskuz<br />

desanbiguatzen <strong>Euskal</strong> <strong>WordNet</strong>eko synsetetan oinarrituta. Proiektu


164 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

hori amaitu gabe dagoenez, saiakera ho<strong>net</strong>an eskuz etiketatu gabeko<br />

bertsioa erabili dugu.<br />

VII.3.2 Azterketarako erabili diren eskuratze-teknikak<br />

Azterlan ho<strong>net</strong>an klase semantikoan oinarritzen diren eskuratze-teknikak<br />

erabili dira (ikus VII.2.2.2. atala) eta MCR baliatu dugu klase semantiko<br />

horiek adierazteko. Horrela bada, eskuratze-teknika hauek aditzen objektu/subjektuen<br />

HMak adierazteko MCRko klase semantikoak darabiltzate.<br />

Hala ere, teknika honen barruan aldaerak egon daitezke. Gu lau eskuratzeteknika<br />

ezberdinez jardungo gara, bi multzo nagusitan banatu ditugunak<br />

hauen azalpena ulergarriagoa egin ahal izateko:<br />

• Synset batekin adierazitako HMak.<br />

• Domeinu-eremu semantiko bikote batekin adierazitako HMak.<br />

VII.3.2.1 Synset batekin adierazitako HMak<br />

Mota ho<strong>net</strong>ako eskuratze-teknikek aditz baten HMak synset batez adierazten<br />

dituzte, synset hau klase bezala kontsideratzen dutelarik; hau da,<br />

synseta bera eta honen hiponimo guztiak izango dira aditz horren objektu/subjektuen<br />

HMak.<br />

Aditzari dagokionez, ikuspuntu ezberdi<strong>net</strong>ik landu daiteke, eta hori izango<br />

da multzo ho<strong>net</strong>ako eskuratze-teknikak ezberdinduko dituena.<br />

Aditzaren HMak eskuratzean, HM hauek aditzaren adiera guztientzako<br />

izan daitezke, aditz-formarentzat, alegia. Demagun irabazi aditz-forma<br />

dugula. Aditz honek adiera ezberdinak ditu (‘lehiaketa irabazi’, ‘dirua irabazi’<br />

eta abar). Kontuan izanda eskuratze-teknikak irabazi aditzaren HMak<br />

eskuratzean aditz horrek izan ditzakeen adiera guztietan oinarritzen dela,<br />

aditz horren edozein adierari dagokion HMak eskura ditzake: objektuaren<br />

kasuan, [+lehiaketa] edo [+jabetza], esate baterako.<br />

HMak aditzaren adiera bakarrarentzat ere lor daitezke, aditz-adierarentzat,<br />

alegia. Adibidez, irabazi aditzaren objektu HMak eskuratzerakoan,<br />

eskuratze-teknikak aditz-forma honen adiera bakarra har dezake kontuan 13<br />

13 Corpusa etiketatua badago, eskuratze-teknikak zuzenean hartzen du corpusetik adiera<br />

hori. Bestela, hitzen adieren desanbiguazioan erabiltzen diren teknikak erabili behar dira.<br />

Argibide gehiagorako jo bedi Agirre eta Martínezen lanera (2002).


VII.3 Baliabideak 165<br />

(adibidez, ‘lehiaketa irabazi’ kirol-adiera). Hala, eskuratze-teknika honek<br />

adiera horri bakarrik dagozkion objektuen HMak eskuratuko ditu: [+lehiaketa],<br />

[+kirola], eta abar.<br />

Aditz-forman oinarritzen den eskuratze-teknikari word-to-class (aurrerantzean,<br />

w2c) deritzo, eta aditz-adieran oinarritzen denari class-to-class<br />

(aurrerantzean, c2c) 14 . Izenak adierazten duen bezala, w2c teknikak hitzetik<br />

abiatuta (aditz-formatik) klaseak diren HMak lortzen ditu; c2c-ek, aldiz,<br />

aditz-klase batetik abiatuta klaseak diren HMak lortzen ditu.<br />

HMak adierazteko synseta darabilten eskuratze-teknika hauen ezberdintasun<br />

nagusiena azaldu ondoren, HM hauek eskuratzeko jarraitzen diren<br />

urratsak eta irizpideak aipatuko ditugu. Nahiz eta w2c-en eta c2c-en eskuratze<br />

prozesua oso antzekoa izan, nahiago izan ditugu banandurik azaldu.<br />

Berriro ere, azpimarratu beharra dago lan ho<strong>net</strong>an ez garela eskuratzeteknika<br />

hauen azterketa sakonean murgilduko. Ikerlana hauetatik abiatuta<br />

egin dugu eta hauei buruzko azalpen labur bat bakarrik emango dugu 15 .<br />

Class-to-class (c2c)<br />

HM mota hau zertan datzan ulertu ahal izateko, lehendabizi nola lortzen den<br />

ulertzea garrantzitsua da.<br />

Aditz baten c2c HMak eskuratzeko, lehenengo corpusaren gainean<br />

Minipar analizatzaile sintaktikoa (Lin, 1993) erabili behar da, aditz horren<br />

corpuseko agerpen bakoitza [IZENA, (izena eta aditzaren arteko)ERLAZIOSIN-<br />

TAKTIKOA, ADITZA] hirukote modukoetan adierazteko. Adibidez, Miniparrek<br />

corpusean irabazi aditzaren (2)ko agerpena, (3) adibideko hirukotean<br />

bilakatuko luke:<br />

(2) Futbol-taldeak irabazi zuen.<br />

(3) ⎡<br />

⎤<br />

Futbol-talde (Izena)<br />

⎢<br />

⎥<br />

⎣Subjektua<br />

(Erlazio sintaktikoa) ⎦<br />

Irabazi (Aditza)<br />

14 Eskuratze-tekniken laburdurak ingelesez mantendu ditugu, hizkuntzalaritza konputazionalean<br />

horrela ezagutzen direlako. Esaterakoan, ordea, hauek euskaraz hitza-klase eta<br />

klase-klase bezala aipa daitezke.<br />

15 Argibide gehiagorako jo bedi hurrengo la<strong>net</strong>ara: Agirre eta Martínez (2001, 2002);<br />

Pociello (2004a).


166 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Ondoren, hirukote bakoitzean dauden izenak MCRn kontsultatzen dira.<br />

Horrela, aditza bera, eta aditz horrekin agertu den izen bakoitzaren adiera<br />

(bere synset-zenbakiarekin) desanbiguatuko da automatikoki (Agirre eta<br />

Martínez, 2002). SemCor corpusaren gainean ari bagara, hirukote hau corpusetik<br />

zuzenean datorkigu, corpusa bera <strong>WordNet</strong>eko synset-zenbakiekin<br />

eskuz etiketatuta baitago. Hortaz, orain hirukotea [IZENA eta bere SYNSET-<br />

ZENBAKIA, ERLAZIO SINTAKTIKOA, ADITZA eta bere SYNSET-ZENBAKIA] motakoa<br />

izango da.<br />

(4) ⎡<br />

⎤<br />

Futbol-talde/05167683 (Izena/Synset-zenbakia)<br />

⎢<br />

⎥<br />

⎣Subjektua<br />

(Erlazio sintaktikoa)<br />

⎦<br />

Irabazi/00620486 (Aditza/Synset-zenbakia)<br />

Azkenik, hirukote bakoitzaren probabilitatea kalkulatzen da, corpusean<br />

duten maiztasunaren arabera 16 . Hirukoteak daraman kopuru hau 1 zenbakitik<br />

geroz eta gertuago egon, orduan eta ziurrago egon gaitezke hirukoteak<br />

aditzarekiko adierazten duen harremana egokia dela.<br />

Beraz, [IZENA/SYNSET-ZENBAKIA, ERLAZIO SINTAKTIKOA, ADITZA/<br />

SYNSET-ZENBAKIA] motako hirukoteak dauzkagu, ondoan HMaren egokitasuna<br />

markatzen duen probabilitatearekin. (5) adibidean (2), (3) eta (4)ko<br />

hirukote bera dakargu, baina probabilitatea gehituta (kasu ho<strong>net</strong>an, 0.085)<br />

eta prozesuaren ondorioz ikus ahal izango dugun itxurarekin 17 :<br />

(5) c2c.subj (Eskuratze-teknika eta erlazio sintaktikoa)<br />

irabazi 00620486 (Aditza eta bere synset-zenbakia)<br />

05167683 0.085 futbol-talde “Futbolean jokatzen duen taldea”<br />

(Synset-zenbakia, probabilitatea, synseteko sinonimoak eta definizioa)<br />

Esan bezala, eskuratze-teknika ho<strong>net</strong>an HMak izen klaseen bidez datoz<br />

adierazita. Eskuratze-eredu ho<strong>net</strong>ako algoritmoak corpusetik jasotzen<br />

dituen objektu/subjektuen izenak MCRn kontsultatzen ditu, gerora izen horiek<br />

guztiak multzokatzen dituen klase semantikoa aukeratzeko; normalean<br />

hauen hiperonimo bat. Horrela, corpuseko izen hori orokor dezakeen beste<br />

izen bat lortzen da, aditz batekin joan daitekeen izen multzo bat mugatzen<br />

duena, hain zuzen ere. (2) adibidearekin jarraituz, ezin da ukatu futboltalde<br />

izena irabazi aditzaren subjektua izan daitekeela, baina era berean esan<br />

dezakegu:<br />

16 Argibide gehiago hurrengo la<strong>net</strong>an: Agirre eta Martínez (2001, 2002).<br />

17 Azalpena ulergarriagoa izan dadin, atal ho<strong>net</strong>ako HMen adibide, glosa eta synset<br />

asmatuak euskaraz jarri ditugu. Hala ere, hurrengo ataletan ingelesez aurkeztuko ditugu,<br />

azterlan ho<strong>net</strong>an eskuratze-tekniken emaitza guztiak ingelesez daudelako.


VII.3 Baliabideak 167<br />

(6) Saskibaloi-taldeak irabazi zuen.<br />

(7) Errealak irabazi zuen.<br />

Esandakoaren arabera, (5) ez da eskuratze-prozesuaren azken emaitza,<br />

futbol-talde izenaren ordez, hau orokortzen duen hiperonimo bat agertuko<br />

zaigulako:<br />

(8) c2c.subj<br />

irabazi 00620486<br />

04771851 0.101 0.145 gizatalde “Mota bereko izaki bizidunen multzoa”<br />

HM ho<strong>net</strong>atik abiatuta badakigu, irabazi 0062486 aditzaren subjektu mota<br />

batek gizakia izan behar duela ([+gizakia]), eta gainera gizaki horiek talde<br />

bat osatu behar dutela ([+talde]). Horrela bada, eskuratze-eredu honekin<br />

HMak izen klaseak izango dira.<br />

Bestalde, esan dugun bezala, eskuratze-teknika honek aditzaren adiera<br />

ere kontuan hartzen du. c2c eskuratze-teknikak lortzen dituen HMak aditzaren<br />

adiera jakin baterako dira. Beraz, MCR kontsultatzean irabazi aditzari<br />

00620486 synset-zenbakia egokitu bazaio (‘lehiaketa baten irabazlea izan’),<br />

automatikoki eskuratutako HMak irabazi aditzaren adiera horrentzat bakarrik<br />

izango dira, eta inolaz ere aditzaren beste adierentzat. Arrazoi horregatik,<br />

(5) eta (8) adibideetan aditzaren ondoren honen synset-zenbakia dator<br />

zehaztuta: 00620486 synsetari dagokion adieraren (‘lehiaketa baten irabazlea<br />

izan’) HMak direla adierazteko.<br />

(9) adibidean irabazi aditzaren objektu HMen adibide bat dugu, 00620486<br />

synsetari dagokion adierarekin, hots, kirol-adierarekin (‘lehiaketa baten irabazlea<br />

izan’).<br />

(9) c2c.subj<br />

irabazi 00620486<br />

04771851 0.101 lehiaketa “Sari bat irabazteko elkarren lehian egiten den jarduna”<br />

00597858 0.066 talde-ekintza “Talde batek aurrera daraman ekintza”<br />

Gainera, eskuratze-teknika honek aditza klase bezala ere ulertzen du, hau<br />

da, lortutako HMak baliagarriak dira aditz horrentzat, bere synsetean dituen<br />

sinonimo guztientzat, eta bere troponimoentzat. (8)ren kasuan, HM horiek<br />

irabazi 0060486 synsetari eta honen azpian dauden beste synset guztiei dagozkio.<br />

Horrela, bada, eskuratze-teknika honen HMak aditz-klase oso bati<br />

dagozkie. SemCor semantikoki etiketatutako corpus bat izaki, eskuratze-


168 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

teknika honek, corpusean irabazi 0060486 synsetaren troponimo bat agertuko<br />

balitz, bere hiperonimoarekin erlazionatzeko gai izango litzateke, eta klase<br />

guztiari HM berdinak egokituko lizkioke 18 .<br />

Azkenik, aipatu beharra dago, eskuratze-teknika honekin (eta besteekin)<br />

ez dela aditz bakoitzarentzat HM bakarra lortzen, aditz bakoitzak probabilitate<br />

kopuru altue<strong>net</strong>ik baxuenera ordenaturiko HMen zerrenda bat izango<br />

baitu. Horrela, aditz baten objektu/subjektu argumentu gisa agertzen diren<br />

izenen zerrenda izango dugu probabilitate altue<strong>net</strong>ik baxuenera.<br />

Zerrenda hau oso luzea izan daiteke, eta hamar HM baino gehiagok osatzen<br />

dutenean lehenengo hamarretara bakarrik mugatzen gara lan ho<strong>net</strong>an.<br />

Irizpide hau azterlan ho<strong>net</strong>ako eskuratze-teknika guztiekin erabili dugu.<br />

Word-to-class (w2c)<br />

Eskuratze-teknika honen prozesua aurrekoaren oso antzekoa da. Ezberdintasun<br />

bakarra da w2c ereduan aditzaren adiera guztiak kontuan hartzen direla.<br />

Hala, lehenik, Minipar analizatzaile sintaktikoaren bitartez [IZENA, (izena eta<br />

aditzaren arteko) ERLAZIO SINTAKTIKOA, ADITZA] hirukote modukoak ateratzen<br />

dira; bigarren pausoa MCRn kontsulta egitea da, baina oraingo ho<strong>net</strong>an,<br />

hirukoteko izenak bakarrik begiratzen dira MCRn, aditza bere adiera<br />

guztiekin kontuan hartzen baita. Hala, izen horiek adierarekin edo synsetzenbakiarekin<br />

desanbiguatuta izango ditugu. Beraz, orain hirukotea [IZE-<br />

NA/SYNSET-ZENBAKIA, ERLAZIO SINTAKTIKOA, ADITZA] motakoaizangoda.<br />

(10) ⎡<br />

⎤<br />

Futbol-talde (Izena)<br />

⎢<br />

⎥<br />

⎣Subjektua<br />

(Erlazio sintaktikoa) ⎦<br />

Irabazi (Aditza)<br />

c2c eskuratze-teknikarekin ikusi dugun bezala, SemCor <strong>WordNet</strong>eko<br />

synsetekin etiketatutako corpusa izaki, honen gainean aritzean, hirukoteko<br />

izenen synsetak corpusetik zuzenean datozkigu.<br />

Azkenik, c2c eskuratze-teknikan bezala, hirukote bakoitzaren probabilitatea<br />

kalkulatu egiten da, corpusean duten maiztasunaren arabera 19 .<br />

Horrela bada, HM hauek duten itxura c2c teknikarekin lortutakoaren oso<br />

antzekoa da:<br />

18 Honen adibideak VII.4 atalean ikusiko ditugu.<br />

19 Argibide gehiago hurrengo la<strong>net</strong>an: Agirre eta Martínez (2002, 2001).


VII.3 Baliabideak 169<br />

(11) w2c.subj (Eskuratze-teknika eta erlazio sintaktikoa)<br />

irabazi (Aditza)<br />

05167683 0.070 futbol-talde “Futbolean jokatzen duen taldea”<br />

(Synset-zenbakia, probabilitatea, synseteko sinonimoak eta definizioa)<br />

w2c eskuratze-teknikan, c2c-en gertatzen den bezala, izenen HMak izen<br />

klaseen bidez datoz adierazita, hots, corpusean irabazi aditzak subjektu edo<br />

objektu gisa hartzen dituen izenak, algoritmoak automatikoki dagokien hiperonimoarekin<br />

multzokatzen ditu.<br />

(12), (13) eta (14) adibideetan irabazi aditz-formarekin objektu gisa agertu<br />

diren izen klaseen zerrenda dugu (15) adibidean, probabilitate altue<strong>net</strong>ik<br />

baxuenera ordenaturik. Bertan ikus daiteke oso garbi w2c eskuratze-teknika<br />

honek eskaintzen dituen HMak aditzaren adiera guztiei erreparatzen dietela.<br />

Honela bada, lehiaketa izen-klasea kirol-adierari dagokio, eta jabegoa, aldiz,<br />

finantza adierari.<br />

(12) partidua irabazi (hiperonimoa: lehiaketa)<br />

(13) futbolean irabazi (hiperonimoa: talde-ekintza)<br />

(14) dirua irabazi (hiperonimoa: jabego)<br />

(15) w2c.obj<br />

irabazi<br />

04771851 0.101 lehiaketa “Sari bat irabazteko elkarren lehian egiten den jarduna”<br />

00597858 0.066 talde-ekintza “Talde batek aurrera daraman ekintza”<br />

00017394 0.037 jabego “Norbaitek berea duen zerbaitekiko duen eskubidea”<br />

VII.3.2.2 Domeinu eta eremu semantiko batekin adierazitako HMak<br />

Mota ho<strong>net</strong>ako eskuratze-teknikek aditz baten HMak domeinu-eremu semantiko<br />

bikote batez adierazten dituzte, bikote hau klase bezala kontsideratzen<br />

dutelarik, hau da, domeinu hori eta eremu semantiko hori dituzten izen guztiak<br />

izango dira aditz horren objektu/subjektuen HMak.<br />

IV. kapituluan azaldu dugun bezala, synsetarekin domeinua eta eremu<br />

semantikoari buruzko informazioa dator. Alde batetik, MCRko klase semantiko<br />

bakoitza fitxategi batean jasota dago, eremu semantiko deritzogun<br />

fitxategia, hain zuzen (ingelesez, semantic field): gertaera, jabetza, taldea,


170 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

pertsona, ekonomia, lekua eta abar bezalakoak. Bestalde, domeinu-ontologia<br />

dugu, eta honekin synsetak domeinuen arabera antolatzen dira: kirola,<br />

jatetxea, edotrafikoa, esate baterako 20 .<br />

Synset batekin adierazitako HMetan barruan w2c eta c2c eskuratzeteknikekin<br />

gertatzen zen bezala, hemen ere eskuratze-teknikak ezberdintzen<br />

dira HMak aditz-formatik edo aditz-adieratik abiatuta eskuratzearen arabera.<br />

Aditzaren HMak eskuratzean, HM hauek aditzaren adiera guztientzako<br />

izan badaitezke, (aditz-formarentzat, alegia) word-to-semantic-field<br />

(aurrerantzean, w2semf 21 ) eskuratze-teknikaz hitz egingo dugu, hots, hitzetik<br />

abiatuta domeinu-eremu semantiko bikoteak lortzen dituenaz.<br />

HMak aditzaren adieraren arabera ere lor badaitezke (aditz-adierarentzat,<br />

alegia), orduan, sense-to-semantic-field (aurrerantzean, s2semf)<br />

eskuratze-teknikaz baliatu garela esango dugu, hau da, aditz-adieratik 22 abiatuta<br />

domeinu-eremu semantiko bikoteak lortzen dituenaz.<br />

Har ditzagun, berriro ere, irabazi aditza eta (12), (13) eta (14) adibideak.<br />

Aditz honen w2semf objektu HMak aditzaren adiera guztientzat lirateke.<br />

(16) w2semf.obj (Eskuratze-teknika eta erlazio sintaktikoa)<br />

irabazi (Aditza)<br />

obj ekonomia-jabetza 33<br />

obj kirola-gertaera 28<br />

(Erlazio sintaktikoa, domeinu-eremu semantiko bikotea eta probabilitatea)<br />

(16)ko HMak (15)ekoen berdinak dira; adierazpidea da aldatzen dena.<br />

(15)ekoak synset bidez adierazten ditu klase semantikoak, eta (16)koak, berriz,<br />

domeinu-eremu semantiko bikotearen bitartez. Adibidean ikus daitekeen<br />

bezala, gauza bera adierazteko, (15)ekoak hiru synset behar izan ditu<br />

eta (16)koak bi domeinu-eremu semantiko.<br />

Aditz horren kirol-adieran oinarrituz gero (irabazi 00620486), s2semf<br />

eskuratze-teknikak aditz-adiera horren kirol domeinuarekin harrema<strong>net</strong>an<br />

20 Azalpena ulergarriagoa izan dadin, adibideko eremu semantikoak eta domeinuak euskaraz<br />

jarri ditugu. Hala ere, hurrengo ataletan ingelesez aurkeztuko ditugu, azterlan<br />

ho<strong>net</strong>an eskuratze-tekniken emaitza guztiak ingelesez daudelako.<br />

21 Eskuratze-tekniken terminologia ingelesez mantendu dugu, hizkuntzalaritza konputazionalean<br />

horrela ezagutzen direlako. Hala ere, hauek euskaraz hitza-domeinu-eremu<br />

semantiko bikotea eta adiera-domeinu-eremu semantiko bikotea esan daitezke.<br />

22 c2c eta s2semf ezberdintzen dira, aditzaren izaeran. Lehenengoak aditzaren synseteko<br />

sinonimoak eta troponimoak kontuan hartzen ditu; eta bigarrenak, aditzaren synseteko<br />

sinonimoak bakarrik.


VII.3 Baliabideak 171<br />

dauden objektuen HMak bakarrik eskuratuko lituzke 23 :<br />

(17) s2semf.obj (Eskuratze-teknika eta erlazio sintaktikoa)<br />

irabazi 00620486 (Aditza eta bere synset-zenbakia)<br />

obj joko-ekintza 33<br />

obj kirola-gertaera 28<br />

(Erlazio sintaktikoa, domeinu-eremu semantiko bikotea eta probabilitatea)<br />

(17)ko HMak (9)koen berdinak dira baina lehenengoak domeinu-eremu<br />

semantiko bikoteekin adieraziak, eta bigarrenak synsetekin.<br />

Atal honen hasieran esan bezala, bikote hauek klase semantikoak dira:<br />

kirola domeinua eta gertaera eremu semantikoa duten izen guztiak izan daitezke<br />

irabazi aditzaren objektuak.<br />

Domeinu-eremu semantiko bikoteen bidez adierazitako izen klase hauek<br />

corpusetatik erauzteko, w2c eta c2c eskuratze-tekniketan erabilitako aurreprozesu<br />

bera erabiliko da w2semf-ekin eta s2semf-ekin ere. Lehenengo, corpusaren<br />

gainean Minipar analizatzaile sintaktikoa (Lin, 1993) erabili behar<br />

da, aditz horren corpuseko agerpen bakoitza [IZENA, (izena eta aditzaren arteko)<br />

ERLAZIO SINTAKTIKOA, ADITZA] hirukote modukoetan adierazteko. (2)<br />

adibidearen hirukotea (3)koa litzakete.<br />

Ondoren, hirukote bakoitzean dauden izenen MCRko eremu semantikoak<br />

eta domeinuak kontsultatzen dira. Hortaz, orain hirukotea [IZENA eta bere<br />

DOMEINUA/EREMU SEMANTIKOA, ERLAZIO SINTAKTIKOA, ADITZA] motakoa<br />

izango da. Adibidez, (12)ko irabazi aditzaren agerpena, (18) adibideko<br />

hirukotean bilakatuko litzateke:<br />

(18) ⎡<br />

⎤<br />

Futbol-talde/football/group (Izena/Domeinua/Eremu semantikoa)<br />

⎢<br />

⎥<br />

⎣Subjektua<br />

(Erlazio sintaktikoa)<br />

⎦<br />

Irabazi (Aditza)<br />

HMa aditzaren adiera bakarrarentzat lortzen denean, hirukote hau aditzaren<br />

synsetarekin zehaztuta dator.<br />

Azkenik, hirukote bakoitzaren pisua kalkulatzen da corpusean duten maiztasunaren<br />

arabera 24 . Hirukoteak daraman pisua geroz eta handiagoa izan,<br />

orduan eta fidagarritasun handiagoa. Azkeneko emaitza (16) eta (17)koen<br />

itxurakoa da.<br />

23 Corpusa semantikoki etiketatua badago, eskuratze-teknikak zuzenean hartzen du corpusetik<br />

adiera hori. Bestela, hitzen adieren desanbiguazioan erabiltzen diren teknikak<br />

erabili behar dira. Argibide gehiagorako jo bedi Agirre eta Martínezen lanera (2002).<br />

24 Argibide gehiago hurrengo la<strong>net</strong>an: Agirre eta Martínez (2002, 2001).


172 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

VII.3.2.3 Baliabideak laburbilduz<br />

Ikusi dugun bezala, saiakera ho<strong>net</strong>an ingeleseko lau corpus ditugu (ingeleserako<br />

SemCor, BNC eta EFE eta euskararako <strong>Euskal</strong>dunon Egunkaria), eta<br />

lau eskuratze-teknika erabili ditugu.<br />

Eskuratze-teknika hauek guztiak ez dira corpus guztietan aplikatu. c2c<br />

eta w2c tekniken emaitzak Martínezen (2005) lanari lotutakoak dira; bi teknika<br />

hauekin landu zuen berak HMen eskuratze automatikoa. Martínezek<br />

teknika hauek SemCorren eta BNCn bakarrik erabili zituen.<br />

s2semf eta w2semf teknikako emaitzak MEANING proiektuari dagozkionak<br />

dira. Proiektu ho<strong>net</strong>an ingeleserako SemCor eta EFE corpusak baliatu<br />

ziren, eta euskararako <strong>Euskal</strong>dunon Egunkaria. Eskuratze-teknikari dagokienean,<br />

s2semf eta w2semf erabiltzea erabaki zen, hasiera batean (etorkizunean<br />

gainontzeko teknikak probatzeko asmoarekin). s2semf-ek desanbiguatutako<br />

corpusa behar duenez, SemCorren bakarrik erabili ahal izan zen. Aldiz,<br />

EFEn eta <strong>Euskal</strong>dunon Egunkarian w2semf erabiltzea erabaki zen.<br />

Hala, saiakera honen emaitzak behin-behinekoak dira, eskuratze-teknika<br />

guztiak ezin izan direlako corpus guztien gainean erabili. Hortaz, honako<br />

hau hastapeneko lana dugu, eta hemen aurkeztutako emaitzetatik eta ondorioetatik<br />

abiatuta, azterketa honen esparrua zabaltzeko asmoa dugu.<br />

VII.4 Ingeleseko HMak<br />

Aipatu izan dugun bezala (ikus VII.3. atala), azterketa ho<strong>net</strong>arako, kiroldomeinuko<br />

bost aditz aukeratu ditugu: jokatu, galdu, irabazi, entrenatu eta<br />

berdindu. Hala ere, aditz hauek kirol-adieraz gain beste adiera batzuk izan<br />

ditzakete (‘zuzen jokatu, dirua irabazi/galdu...’). Hauetako bakoitzak dituen<br />

adierez jabetzeko, MCRra jo dugu, eta adiera horietatik guztietatik<br />

kirolarekin zerikusia zute<strong>net</strong>an bakarrik oinarritu gara.<br />

Nola jakin synset bat kirol-adierari dagokiola? Batetik, synsetarekin batera<br />

datorren glosari eta eremu semantikoari esker, eta bestetik, synset horri<br />

dagokion domeinua begiratuta. Kirol-adiera duten synset guztiek sport domeinua<br />

izan behar dute.<br />

Har dezagun jokatu aditza. MCRn kirolarekin harrema<strong>net</strong>an dauden bi<br />

synset ditu; batek, ‘zerbaitetan jokatu’ adierazten du (jokatu 00605818), eta,<br />

besteak, ‘-ren aurka jokatu’ (jokatu 00610422). VII.1. irudian jokatu aditzaren<br />

bi kirol synsetak ditugu, eta adiera-ezberdintasun hau glosan adierazia


VII.4 Ingeleseko HMak 173<br />

Synset-eko hitza(k) Kategoria Synset-zenbakia Domeinua Domeinua<br />

jokatu, jokoan jardun Aditza 00605818 play sport<br />

jokatu Aditza 00610422 play sport<br />

VII.3 Taula: jokatu aditzaren kirol synsetak eta beraien domeinuak MCRn.<br />

dator. Bestalde, irudian ikus daitekeen bezala, bi synseten eremu semantikoak<br />

(competition) agertzen dira.<br />

VII.1 Irudia: jokatu aditzaren bi kirol synsetak.<br />

Domeinuari erreparatuz (ikus VII.3 taula), bi synset hauek sport domeinuaren<br />

marka daramate 25 . Dena den, synsetek domeinu bat baino gehiago<br />

izan ditzakete, bi synset hauen kasuan ikus daitekeen bezala 26 . Ikusiko dugun<br />

bezala, honek HMetan ondorioak izango ditu.<br />

<strong>Euskara</strong>ko aditz-formen kirol-adierak mugatu ondoren, aukeratutako bost<br />

aditzen kirol-adierei honako zortzi synset hauek dagozkie (bai euskararako<br />

eta bai ingeleserako), eta hauetan oinarritu gara HMen azterketarako:<br />

25 Domeinuen sailkapena ez da MCR interfazean ikusten, beste fitxategi batzuetan daude.<br />

Hala ere, aurki jarriko dira interfazean.<br />

26 Play eta Sport domeinuek antzekoak diruditen arren, gauza ezberdinak adierazten<br />

dituzte. Sport domeinuak ekintza fisikoarekin edota joko konpetitiboekin zerikusia duenari<br />

egiten dio erreferentzia; play domeinuak, ordea, apustua edota jokoarekin zerikusia duen<br />

edozeri. <strong>Euskara</strong>ko itzulpenak jokoa eta kirola izan daitezke.


174 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

• 00605818 {play 1/jokatu 2}; “play games, play sports” 27<br />

• 00610422 {encounter5, meet10, play24, take on5/jokatu3}; “contend against<br />

an opponent in a sport or game”<br />

• 00468052 {coach 2, train 7/entrenatu 1}; “teach and supervise, as in sports or<br />

acting”<br />

• 00059698 {train 8/entrenatu 3}; “exercise in order to prepare for an event or<br />

competition”<br />

• 00630097 {equalize 1, get even 1/berdindu 16}; “compensate; make the score<br />

equal”<br />

• 00630097 {draw 25, tie 2/berdindu 15}; “finish a game with an equal number<br />

of points, goals. . . ”<br />

• 00620486 {win 1/irabazi 3}; “be the winner in a contest or competition”<br />

• 00620218 {lose 2/galdu 9}; “failtowin”<br />

Atal ho<strong>net</strong>an, corpus eta teknika desberdinak erabiliz, ingeleserako eskuratutako<br />

HMak aztertu eta ebaluatuko ditugu, hau da, MCRko synset horietan<br />

dauden ingeleseko variantak hartuko ditugu ingeleseko HMen azterketa<br />

eta ebaluazioa egiteko 28 . Baina, atal ho<strong>net</strong>an, synset hauetatik play 00605818<br />

synseta baliatuko dugu adibide gisa ingeleseko aditz hauekin guztiekin erabilitako<br />

metodologia ulergarriago egitearren. Honenbestez, atal ho<strong>net</strong>an jokatu<br />

00605818 synsetaren azterketaz arituko gara; beraz, hemendik aurrera, bere<br />

ingeleseko varianta (play 00605818) hartuko dugu oinarri gisa. Hala ere,<br />

aditz guztien azterketa eta emaitzak C eranskinean daude.<br />

27 MCRn synsetek zenbaki bat daramate (00605818), baita synset barruko ordainek ere<br />

(play 1). Lehenengoa synset osoari dagokio, osatzen duten ordainak barne. Bigarrenak hitzaren<br />

adiera zehazten du, hau da, hitz polisemikoen adierak zenbakituak datoz. Bigarren<br />

hauei variant deitzen zaie (ikus IV.1.1 atala). Hala ere, biekin gauza bera adieraz daiteke:<br />

play 1ek MCRko play hitzaren lehenengo adiera adierazten du; eta play 00605818k, play<br />

hitzak 00605818 synseteko adiera duela, hots, play 1.<br />

28 Jokatu 00605818 synsetak ingelesez variant bakarra duenez (play), variant horren<br />

HMak aztertuko ditugu bakarrik. Baina, Jokatu 00610422ren kasuan, adibidez, bere ingeleseko<br />

variantak lau dira ({encounter, meet, play, take on}), hau da, kontzeptu hori<br />

adierazteko ingelesez sinonimo horiek erabil daitezke. Azterlan ho<strong>net</strong>an synset berean<br />

dauden ingeleseko variant guztien HMak aztertu ditugu.


VII.4 Ingeleseko HMak 175<br />

VII.4.1 Ingeleseko HMetarako irizpideak<br />

Eskuratze-teknika desberdinen HMak ebaluatzeko, synset bakoitzeko eskuratze-teknika<br />

bakoitzaren emaitza prototipikoak eskuz sortu ditugu (urre-patroi<br />

deitu duguna 29 ), eta kasu ho<strong>net</strong>an, play 00605818 synsetarentzat.<br />

Urre-patroiak eskuratze-teknika bakoitzaren ereduan sortuko dira. Hau<br />

da, guk sortutako urre-patroiek teknika hauen emaitzek hartzen duten itxura<br />

hartuko dute: alde batetik, HMak adierazteko synsetean oinarritzen direnenak<br />

(w2c eta c2c), eta bestetik, domeinu-eremu semantikoetan oinarritzen<br />

direnenak (w2semf eta s2semf). Hala, urre-patroiak ere bi azpimultzo hauetan<br />

banatu ditugu; patroi batzuk synset bidez adieraziko ditugu w2c eta c2c<br />

tekniketatik lortutako HMak ebaluatzeko, eta beste patroiak domeinu-eremu<br />

semantiko bikoteen bidez definituko ditugu, w2semf tekniketatik lortutako<br />

HMak ebaluatu ahal izateko.<br />

Hortaz, argi dago urre-patroi hauek proposatu ahal izateko MCR erabili<br />

behar izan dugula, VII.2 atalean ikusi dugun bezala, bertan oinarritzen<br />

baitira eskuratze-teknikak HMak adierazteko (synset, eremu eta domeinu semantikoen<br />

bidez).<br />

Honezaz gain, erabilitako corpusetan ere oinarritu gara saiakeran. Corpus<br />

hauetatik hartutako esaldietatik, aztertu beharreko aditz-adiera bakoitzaren<br />

jokaera linguistikoa orokortzen saiatu gara, gerora, orokortasun horiek<br />

(HMak, alegia) MCRko synset eta domeinu-eremu semantiko batzuen<br />

bidez adierazteko. Corpuseko izen bat HM batean orokortzeko, gehie<strong>net</strong>an<br />

izen horrek MCRn duen hiperonimoetara jo dugu. Azken finean, makinak<br />

eskuratze-tekniken bidez egin beharko lukeena egiten saiatu gara eskuz. Esan<br />

dezakegu, beraz, MCRko synset eta domeinu-eremu semantikoetan oinarrituta,<br />

introspekzioaz baliatu garela urre-patroiak sortzeko.<br />

(19)n ditugu play 00605818 aditz-adieraren urre-patroiak eta (20)n patroien<br />

adibideak 30 :<br />

29 Izen hau ingeleseko goldstandardetik itzuli dugu.<br />

30 Eskuratze-teknikek ematen dituzten emaitzak ingelesez daude, MCRko informazioa<br />

ingelesez dagoelako. Hau da, MCRko euskarri informatikoa ingelesez dago; ingelesez ez<br />

dagoen bakarra beste hizkuntzetako variantak eta glosak dira. <strong>Euskara</strong>ko glosak oraindik<br />

ez daude guztiz itzulita, horregatik, ingelesekoetan oinarritzen gara.


176 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

(19) play 00605818 Objektuak<br />

w2c, c2c:<br />

00240760 {sport, athletics} “an active diversion requiring physical exertion and...”<br />

00254052 {game} “a contest with rules to determine a winner”<br />

04771851 {contest, competition} “an occasion on which a winner is selected from...”<br />

09065837 {amount of time, period, period of time} “time period a length of time”<br />

s2semf, w2semf:<br />

sport-event<br />

time-period time<br />

sport-act<br />

play-act<br />

play 00605818 Subjektuak<br />

w2c, c2c:<br />

00004865 {person, individual, someone, somebody, human soul} “a human being”<br />

00017008 {group, grouping} “any number of entities (members)considered. . . ”<br />

s2semf, w2semf:<br />

person-person<br />

factotum-group 31<br />

(20) Objektuak:<br />

John played football.<br />

John played amatch.<br />

John played five minutes.<br />

John played agame.<br />

Subjektuak:<br />

John played football.<br />

The football-team played a match.<br />

Kontuan izan beharrekoa da MCR hierarkia bat dela eta batzuetan ez<br />

dela horren erraza HMa adierazten duen synset egokia aukeratzea, gerta litekeelako<br />

synset hori orokorregia izatea (hierarkian goregi egotea) edo zehatzegia<br />

izatea (hierarkian beheregi egotea). Esate baterako, play aditzarentzat<br />

{contest, competition} 32 HMa proposatu ordez, MCRko bere hiponimoa<br />

31 Adiera batek domeinurik ez duenean factotum markarekin adierazten da.<br />

32 Synset berean ordain bat baino gehiago agertzen direnean, azalpe<strong>net</strong>an synseta adierazteko<br />

bi variantak giltzen artean adieraziko ditugu.


VII.4 Ingeleseko HMak 177<br />

(match “a formal contest in which two or more persons or teams compete”) proposatuz<br />

gero, aditz horren objektuen aukeraketa gehiagi mugatuko genuke,<br />

eta {contest, competition} bezalakoak ezingo genituzke zuzentzat jo. Alderantziz<br />

ere berdin: {contest, competition} HMaren ordez, bere hiperonimoa<br />

social event (“an event characteristic of persons forming groups”) proposatu<br />

izan bagenu, aukera gehiegi izango genituzke eta zuzenak ez diren HMak ere<br />

agertuko lirateke (adibidez, play 00605818 aditzak social event horren hiponimoa<br />

den ballet HMa onartuko luke).<br />

Arazo hau bera areagotu egiten da domeinu-eremu semantiko bikoteen<br />

bidez adierazitako HMak ebaluatzean. Domeinu-eremu semantiko bikote<br />

hauek synsetak baino orokorragoak dira. Adibidez, Errealak partidua jokatu<br />

zuen esaldian, subjektuaren HMa sport-group bikote gisa adieraz daiteke.<br />

Baina kirol-aditzak ez dira kirolarekin harrema<strong>net</strong>an dauden ize<strong>net</strong>ara bakarrik<br />

mugatzen (Donostiarrek partidua jokatu zuten). Horregatik domeinueremu<br />

semantiko bikote orokorragoak onar daitezke (factotum-group, adibidez).<br />

HMak adierazteko arazo hau dela eta, hauek ebaluatzeko maila desberdineko<br />

markak erabili ditugu:<br />

• Zuzena: Urre-patroiarekin bat datorrenean.<br />

• Onargarria: Urre-patroiaren hiperonimoa edo hiponimoa denean.<br />

Domeinu-eremu semantiko bikoteen bidez adierazitako HM kasuan,<br />

onargarri bezala kontsideratu ditugu urre-patroia baino orokorrago edota<br />

zehatzago direnak.<br />

• Okerra: Urre-patroiarekin bat ez datorrenean eta MCRko hierarkian<br />

ere loturarik ez dutenean.<br />

Marka hauek ez digute inolako arazorik eman synsetekin adierazitako<br />

HMak ebaluatzerakoan. Haatik, domeinu-eremu semantiko bikoteekin adierazitakoak<br />

ebaluatzeko, batzuetan onargarriak ala okerrak diren erabakitzeko<br />

zailtasunak izan ditugu. Esate baterako, play 00605818 synsetak [+gizaki]<br />

motako subjektuak har ditzake; synsetekin adierazita, 00004865 {person,<br />

individual, human} “a human being” 33 HMa litzateke, eta domeinu-eremu<br />

semantiko bikoteekin adierazita, person-person. Eskuratze-tekniken emaitzetan<br />

hauexek agertuz gero, play 00605818ren urre-patroietan definituak<br />

33Batzuetan, toki-arazoak direla-eta, synsetak laburtu egin ditugu, variant kopurua<br />

edota glosa txikituz.


178 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

daudenez, ez legoke inolako arazorik, eta zuzentzat joko genituzke. Hala<br />

ere, emaitzetan hauen aldaerak ager daitezke, hau da, urre-patroiaren hiperonimo/hiponimoak<br />

diren synsetak (06441015 young man “an adolescent<br />

male”, adibidez) edo urre-patroiko domeinu-eremu semantiko bikotea baino<br />

orokorrago/zehatzago 34 diren bestelako bikoteak (transport-person, administration-person,<br />

basketball-person. . . ). Demagun, eskuratze-teknika baten emaitza<br />

06441015 young man “an adolescent male” dela, orduan, onargarri gisa<br />

ebaluatutako dugu hau urre-patroiko 00004865 {person, individual, human}<br />

“a human being” synsetaren hiponimo bat delako. Aldiz, eskuratzeteknikaren<br />

emaitza transport-person, administration-person, basketball-person. . .<br />

denean, zenbaitetan zalantza dugu. Lehenengo begiratuan, basketballperson<br />

domeinu-eremu semantikoa play 00605818ren kirol adierarekin zerikusia<br />

duenez 35 , onargarritzat joko genuke, eta transport-person eta administrationperson,<br />

berriz, okertzat —play 00605818ren adierarekin bateragarriak ez direlako<br />

(?Administrators played football), eta transport eta administration ez<br />

direlako sport domeinuaren hiponimoak edo hiperonimoak MCRn. Hala ere,<br />

datuak eta corpusak aztertuz, konturatu gara hauek Brazilians, cyclist eta gisa<br />

horretako agerpe<strong>net</strong>atik datozela, eta play 00605818rekin onargarriak direla<br />

(Brazilians played football). Baina, Brazilians bezalako kasu hauek gutxienekoak<br />

dira, eta hauek sortutako administration HMa onargarritzat joz gero<br />

administration domeinuaren azpian dauden beste hitz guztiak ere (chairman,<br />

chancellor. . . ) jokatu aditzaren (kirol-adieraren) subjektu/objektu prototipiko<br />

gisa ager daitezkeela baieztatzen ariko ginateke. Hori, bistan da, ez<br />

litzateke oso egokia.<br />

Ikus daitekeen bezala, domeinu-eremu semantiko bikoteekin synsetekin<br />

baino arazo gehiago sortu zaizkigu, eta horren ondorioa izan da ebaluaziorako<br />

irizpide zehatzagoen beharra:<br />

• Domeinu-eremu semantiko bikote bat onargarritzat hartuko dugu, urrepatroia<br />

baino orokorrago edota zehatzago bada, eta domeinuko beste<br />

izen gehienak aditz horren argumentu izan badaitezke. Irizpide<br />

honen arabera, zuzentzat hartuko ditugu, urre-patroia baino orokorrago<br />

edota zehatzago diren HMak, baldin eta domeinuko beste izen<br />

gehienak aditz horren argumentu izan badaitezke. Aurreko adibidearen<br />

kasuan, administration domeinuaren azpian MCRko chairman, adminis-<br />

34Domeinu hierarkia izanik, domeinuak hiperonimia/hiponimiaren arabera antolatuak<br />

daude.<br />

35MCRko domeinu hierarkian basketball domeinua sport domeinuaren hiponimoa da.


VII.4 Ingeleseko HMak 179<br />

trator, chancellor eta abar bezalakoak daude sailkatuak; hauek ezin dute<br />

play 00605818ren HMak izan (ez testuinguru arruntetan behintzat). Beraz,<br />

domeinu-eremu semantiko bat onargarria den erabakitzeko, lehendabizi<br />

domeinu horrek hartzen dituen izenak aditz horren argumentu<br />

gisa ager daitezkeen aztertu beharko dugu.<br />

• Izen-bereziak (x baten bidez adieraziak datozenak), pronominalak (pro<br />

baten bidez adieraziak datozenak), eta factotum-Tops bikoteak erreferente<br />

orokorregia dute, eta ezinezkoa da jakitea beraien jatorria corpusean.<br />

Arrazoi horregatik nahiz eta onargarri bezala ebaluatu, ez dira<br />

estatistiketan kontuan hartuko. Esate baterako, factotum-Tops bikote<br />

honek ia edozer gauza adieraz dezake, factotumekin domeinurik ez duten<br />

hitzak adierazten direlako, eta Tops eremuak MCRko hierarkian<br />

oso goian dauden synsetak jasotzen dituelako. Beraz, oso orokorra diren<br />

kontzeptuak dira.<br />

• Zuzen/onargarri bezala ebaluatutako HM batekin, bi urre-patroi eskuratu<br />

daitezke, baldin eta eremu semantikoa bera duten. Esate baterako,<br />

factotum-act HMarekin play-act eta sport-act urre-patroiak eskuratzen<br />

dira, adibidez.<br />

VII.4.2 HMen azterketa eta ebaluazioa<br />

Corpus desberdi<strong>net</strong>atik eskuratutako HMen azterketa egin aurretik, orain<br />

arte jarraitutako pausoak laburbilduko ditugu. Gogora dezagun azalpenerako<br />

jokatu 00605818 synsetean oinarritu garela adibide gisa:<br />

• <strong>Euskara</strong>ko jokatu aditz-formatik abiatu gara eta honek dituen kiroladierak<br />

(synsetak) bilatu ditugu MCRn (jokatu 00605818 eta jokatu<br />

00610422).<br />

• Synset hauek kirol-adiera dutela egiaztatzeko beraien domeinua sport<br />

dela egiaztatu dugu.<br />

• Synset bat hartu dugu –gure kasuan jokatu 00605818 eta bere ingeleseko<br />

ordaina hartu dugu (play 00605818)– aditz-adiera honen HMak<br />

ingeleseko corpusetatik lortzeko.<br />

• Eskuratze-tekniken emaitzak ebaluatu ahal izateko, ingeleseko corpusetan<br />

oinarrituta aditz-adiera horrek hartzen dituen HMen urre-patroiak<br />

eskuz sortu ditugu landutako eskuratze-teknika mota guztientzako.


180 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Emandako urrats hauekin, eskuratze-teknika mota bakoitzaren emaitza<br />

ebaluatzeko gai gara. Eskuratze-teknika hauek programa informatikoak dira,<br />

eta jarraian, eskuratze-teknika hauek automatikoki lortutako emaitzen<br />

(HMen) ebaluazio linguistikoa egingo dugu. Hurrengo ataletan lan honen<br />

azalpenari ekingo diogu, eta, horretarako, azalpena corpusen arabera antolatu<br />

dugu. Horrela, VII.4.2.1. atalean SemCor corpusetik eskuratutako HMen<br />

azterketa egingo dugu, VII.4.2.2. atalean BNCtik eskuratutakoena, eta, azkenik,<br />

VII.4.2.3. atalean EFEtik eskuratutakoena.<br />

VII.4.2.1 SemCorretik eskuratutako HMen azterketa eta ebaluazioa<br />

Corpus ho<strong>net</strong>an c2c, w2c eta s2semf eskuratze-teknikak erabili dira. Hauekin<br />

irizpide metodologiko berdintsuak baliatu ditugun arren, beraien artean bada<br />

berezitasunik.<br />

c2c SemCorretik<br />

c2c eskuratze-teknikak lortzen dituen objektuen edo subjektuen HMak aditzaren<br />

adiera jakin baterako dira: play 00605818. Eskuratze-teknika ho<strong>net</strong>an<br />

HMak aditz-adiera horrentzat baliagarri diren neurrian, synsetean dituen<br />

sinonimoentzat eta bere troponimoentzat ere baliagarri dira.<br />

Eskuratze-teknika honen emaitza ebaluatzeko, hurrengo urratsak jarraitu<br />

ditugu:<br />

• HM bakoitzaren jatorria ezagutu: HMak lortzeko corpusaren agerpen<br />

zehatzetan oinarritzen garenez —zehazkiago esanda, corpusean<br />

aditzarekin batera agertu diren ize<strong>net</strong>an (objektu eta subjektu<br />

dire<strong>net</strong>an)—, gure lehenengo lana corpuseko jatorria zein den jakitea<br />

da. Hala, eskuratze-teknikaren lana oinarritik ebaluatu dezakegu, gerta<br />

baitaiteke corpuseko objektu/subjektu izen horri okerreko HMa egokitzea<br />

(geroago ikusiko dugun bezala). Horretarako, corpusean aditz<br />

horrekin subjektu edo objektu gisa agertu diren izenen zerrenda oso baliagarria<br />

litzaiguke. Arrazoi horregatik bi tresnatxo sortu dira lan hau<br />

guztia erraztearren: w2w eta s2s deiturikoak (w2c eta c2c teknikentzat,<br />

hurrenez hurren). Corpusetik agerpen horiek guztiak eskuz ateratzen<br />

jardun ordez, w2w eta s2s baliabideen bidez automatikoki ematen<br />

zaizkigu fitxategi batean (fitxategi hauek jasotzen duten informazioa


VII.4 Ingeleseko HMak 181<br />

C eranskinean dago ikusgarri) 36 .<br />

• Izena corpuseko testuinguruan kokatu: Aditzaren agerpen zehatzak<br />

ezagutu ondoren, corpusean hauen testuingurua bilatzen dugu,<br />

hauek guztiak aztertzen ari garen kirol aditzarekin bateragarriak diren<br />

ala ez eskuz egiaztatzeko.<br />

• HMen ebaluazioa: Eskuratze-tekniken HMen eta hauen corpuseko<br />

jatorria aurrean izanda, ebaluazioa egiten has gaitezke.<br />

Pauso hauek jarraituta, play 00605818 synsetaren objektu eta subjektu<br />

HMak ditugu (21)en; s2s zerrendako37 ize<strong>net</strong>atik abiatutako HMak letra lodiz<br />

adierazi ditugu, dagokien corpuseko agerpenak (izenak) ere zehaztuz:<br />

(21) c2c.obj<br />

play 00605818<br />

002289900.215 {activity} “any specific activity or pursuit”<br />

PLAY: football, basketball, golf, game3. . .<br />

00004865 0.117 {person, individual, human} “a human being”<br />

00017008 0.102 {group, grouping} “any number of entities considered as. . . ”<br />

PLAY: The Owls<br />

00009469 0.071 {object, physical object} “a physical entity”<br />

PLAY: ball, card, rightfield<br />

04771851 0.035 {contest, competition}“an occasion on which a winner is. . . ”<br />

PLAY: game<br />

03875944 0.029 {interest, involvement} “a sense of concern with curiosity about. . . ”<br />

08162378 0.014 {cost} “thetotalspentforgoods [...] includingmoneyandtime...” 01691640 0.011 {horse} “solid-hoofed herbivorous quadruped domesticated. . . ”<br />

c2c.subj<br />

play 00605818<br />

00017008 0.517 {group, grouping} “any number of entities considered as. . . ”<br />

PLAY: The Mustangs, Texans, line. . .<br />

00004865 0.507 {person, individual, human} “a human being”<br />

PLAY: mate, Bill Kunkel, Nelson, youngman. . .<br />

00009469 0.079 {object, physical object} “a physical (tangible and visible) entity”<br />

36 Hitzean oinarritzen den eskuratze-teknikaren antza handia dute (ikus VII.2.2.1. atala),<br />

baina hauek corpuseko agerpenak zuzenean hartzen ditu, inolako probabilitaterik eskaini<br />

gabe. Ez dira eskuratze-teknikak, hizkuntzalariaren lana errazten duten baliabideak<br />

baizik. Hauei buruzko argibide gehiago Agirre eta Martínez (2001, 2002) la<strong>net</strong>an.<br />

37 Fitxategi hauek jasotzen duten informazioa C eranskinean dago.


182 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

08413915 0.032 {digit} “one of the elements that form a system of. . . ”<br />

PLAY: nine<br />

03953834 0.032 idea, thought “the content of cognition”<br />

Letra lodiz markatu gabe HM ugari geratu dira. Gogoratu beharra dago<br />

c2c eskuratze-teknika aditz synset horren HMak eskuratzeaz gain, bere troponimoenak<br />

ere eskuratzen dituela. SemCor, semantikoki etiketatutako corpus<br />

bat izaki, eskuratze-teknika honek corpusean play 00605818 synsetaren<br />

troponimo bat agertuko balitz, bere hiperonimoarekin (play 00605818) erlazionatzeko<br />

gai izango litzateke, eta klase guztiari HM berdinak egokituko<br />

lizkioke. Hortaz, pentsa daiteke jatorria zehaztu gabe geratu diren horiek;<br />

play 00605818ren troponimoetatik datozela. Hipotesi hau egiaztatzeko, s2s<br />

datuen aldaera diren s2s-hype fitxategiko datuak erabiliko ditugu. Honek<br />

corpusean agertu diren play 00605818 synsetaren troponimoak zehaztuko dizkigu,<br />

hauekin agertu diren izenekin batera. Hala, play 00605818rekin orain<br />

arte jarraitu dugun metodologia bera erabiliko dugu troponimo hauekin ere.<br />

Lehenengo, troponimoak eta beraien domeinuak ezagutu behar ditugu<br />

(ikus VII.4. taula). Ondoren, s2s-hype erabilita troponimoen agerpenak corpusean<br />

zehaztu eta hauen testuinguruak aztertu behar ditugu, kirol-adiera<br />

dutela egiaztatzeko eta gero ebaluatzeko. (22)n letra lodiz markatu ditugu<br />

corpuseko ize<strong>net</strong>atik eratorritako HMak eta beraien azpian zerrendatuak<br />

datoz corpuseko agerpenak (bai play 00605818renak eta bai honen troponimoenak).<br />

(22) c2c.obj<br />

play 00605818<br />

00228990 0.215 {activity} “any specific activity or pursuit”<br />

PLAY: football, basketball, golf, game3. . .<br />

STAKE: career<br />

00004865 0.117 {person, individual, human} “a human being”<br />

START: mate<br />

00017008 0.102 {group, grouping} “any number of entities considered as. . . ”<br />

PLAY: The Owls<br />

FIELD: team<br />

00009469 0.071 {object, physical object} “a physical entity”<br />

PLAY: ball, card, rightfield<br />

04771851 0.035 {contest, competition} “an occasion on which a winner. . . ”<br />

PLAY: game2<br />

03875944 0.029 {interest, involvement} “a sense of concern with curiosity about. . . ”


VII.4 Ingeleseko HMak 183<br />

Synset-eko hitza(k) Synset-zenbakia Domeinua Domeinua<br />

start 00607112 play sport<br />

field 00611046 play sport<br />

bet on 00646526 baseball sport<br />

stake 00646526 play sport<br />

parlay 00646865 play sport<br />

VII.4 Taula: play 00605818 synsetaren troponimoak eta bere domeinuak <strong>Euskal</strong><br />

<strong>WordNet</strong>en.<br />

08162378 0.014 {cost} “the total spent for goods [. . . ] including money and. . . ”<br />

PARLAY: earnings<br />

01691640 0.011 {horse} “solid-hoofed herbivorous quadruped domesticated. . . ”<br />

BET ON: pony<br />

c2c.subj<br />

play 00605818<br />

00017008 0.517 {group, grouping} “any number of entities considered as. . . ”<br />

PLAY: The Mustangs, Texans, line. . .<br />

FIELD: The Oriols<br />

textbf00004865 0.507 {person, individual, human} “a human being”<br />

PLAY:mate, Bill Kunkel, Nelson, youngman. . .<br />

START: Haddix<br />

BET ON: Berry<br />

00009469 0.079 {object, physical object} “a physical (tangible and visible) entity”<br />

08413915 0.032 {digit} “one of the elements that form a system of numbers”<br />

PLAY: nine<br />

03953834 0.032 {idea, thought} “the content of cognition. . . ”<br />

Horrela, bada, troponimoak kontuan izanda, ia HM guztien jatorria lor<br />

dezakegu. Hau da, uler dezakegu makinak zein pauso jarraitu dituen HM horiek<br />

eskuratzeko. Dena den, oraindik geratu dira HM batzuk jatorria zehaztu<br />

gabe, letra lodiz ez dauden horiek, hain zuzen ere. Horiek nondik eskuratu<br />

diren ikertzeke dugu oraindik.<br />

Orain arte, eskuratze automatikoan ematen diren pausoak azaldu ditugu.<br />

Hemendik aurrera eskuratze-teknika honen ebaluazio linguistikoaz jardungo<br />

gara. Zenbateraino fida gaitezke metodo honek egin duen eskuratzeaz?<br />

Ebaluazio honekin hasi baino lehen, ekar dezagun gogora hasieratik<br />

eskuratze-teknika mota hauentzako proposatutako urre-patroiak, hauekin parekatu<br />

behar baititugu c2c HM hauek:


184 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

(23) play 00605818 Objektuak<br />

w2c, c2c:<br />

00240760 {sport, athletics} “an active diversion requiring physical exertion and...”<br />

04771851 {contest, competition} “an occasion on which a winner is selected from...”<br />

00254052 {game} “a contest with rules to determine a winner”<br />

09065837 {amount of time, period, period of time} “time period a length of time”<br />

play 00605818 Subjektuak<br />

w2c, c2c:<br />

00004865 {person, individual, someone, somebody, human soul} “a human being”<br />

00017008 {group, grouping} “any number of entities (members) considered as a unit”<br />

(24)n letra lodiz markatu ditugu zuzentzat jo ditugun HMak; beste guztiak<br />

okertzat jo ditugu:<br />

(24) c2c.obj<br />

play 00605818<br />

00228990 0.215 activity “any specific activity” ONARGARRIA<br />

00004865 0.117 person, individual, human “a human being”<br />

00017008 0.102 group, grouping “any number of entities considered. . . ”<br />

00009469 0.071 object, physical object “a physical entity”<br />

04771851 0.035 contest, competition “an occasion on. . . ” ZUZENA<br />

03875944 0.029 interest, involvement “a sense of concern with curiosity. . . ”<br />

08162378 0.014 cost “the total spent for goods [. . . ] including money...”<br />

01691640 0.011 horse “solid-hoofed herbivorous quadruped. . . ”<br />

c2c.subj<br />

play 00605818<br />

00017008 0.517 {group, grouping} “any number of entities. . . ” ZUZENA<br />

00004865 0.507 {person, individual, human} “a human being” ZUZENA<br />

00009469 0.079 {object, physical object} “a physical entity”<br />

08413915 0.032 {digit} “one of the elements that form a system of numbers”<br />

03953834 0.032 {idea, thought} “the content of cognition”<br />

Onargarri marka daraman bakarra activity objektu HMa da, eta hauxe da<br />

probabilitate-neurri handieneko HMa (0.215), berez, eskuratze-teknikak egokitzat<br />

proposatzen duena. Synset hau football, basketball eta abarren hiperonimoa<br />

da, baina tartean badaude HM gisa egokiagoak direnak, urre-patroian<br />

proposaturiko {sport, athletics}, adibidez. Hizkuntzalaritzari begira, activity<br />

klase semantikoa ezin da beti izan play 00605818ren objektua: ezin da edozein<br />

ekintzetan jokatu, baina bai, ordea, ekintza batzuetan (kirola adierazten<br />

duten ekintzetan, hain zuzen ere).


VII.4 Ingeleseko HMak 185<br />

Objektuen artean zuzena den bakarra {contest, competition} objektu HMa<br />

da, eta hau probabilitate-neurriaren zerrendan ez da lehenengoetakoa (bosgarrena<br />

da).<br />

Beste HM guztien jatorria ez da aditz-adiera honentzat egokia. Esate baterako,<br />

person HMa ez dagokio play 00605818ri baizik eta play 00610422ri. Azken<br />

synset honek objektu gisa [+pertsona] tasuna daramatenak hartzen ditu<br />

bere MCRko glosan adierazten den bezala (contest against an opponent). Zergatik<br />

azaltzen dira play 00610422ren HMak play 00605818koekin nahastuta?<br />

SemCorren etiketatze-erroreak daudelako, eta horren adibide play 00605818<br />

eta play 00610422ren arteko nahasketa delako. Hau da, play kirol-adierarekin<br />

agertzen denean, SemCorren hau play 00605818 bezala etiketatu dute. Hortaz,<br />

SemCorreko play 00605818 synseteko HMetan play 00610422renak ere<br />

azaldu dira. VII.4.3 atalean azalduko ditugu errore hauen arrazoia sakonkiago.<br />

Okerrak diren object eta digit HMen azalpena VII.4.3 atalean dago.<br />

Azkenik, esan beharra dago troponimoetatik etorritako HM gehienak okerrak<br />

direla. Zuzenak direnak troponimo gabe lortu dira; play 00605818ren<br />

kasuan bet on, parlay eta stake bezalako troponimoak ditu, hots, apustua domeinuarekin<br />

zerikusia dutenak. Honenbestez, play domeinua dute, sportekin<br />

batera. Play domeinuak indar gehiago duela dirudi eta honek HMetan eragina<br />

izan du. Hauen HMak play 00605818renekin zeharo ezberdinak dira. Esate<br />

baterako, aditz hauen objektu arrunte<strong>net</strong>ako bat ‘dirua’ izango da (cost<br />

HMetan). Horse HMa, adibidez, bet on a pony testuingurutik dator. Beraz,<br />

ez dirudi aditz batek eta bere troponimoek HM berak dituztenik (behintzat<br />

MCR hierarkian oinarritzen bagara).<br />

w2c SemCorretik<br />

VII.3.2.1. atalean adierazi dugun bezala, eredu honekin aditz-formaren<br />

(hitzak izan ditzakeen adiera guztiak kontuan hartuta) objektu edo subjektu<br />

HMak lortzen dira. Beraz, gure adibidearekin jarraituz, HM hauekin play<br />

aditzaren adiera guztiak izan beharko ditugu kontuan. Hala ere, behin eta<br />

berriro esan dugun bezala, ikerlan hau kirol-domeinuko aditzetara mugatu<br />

dugu. Horregatik, nahiz eta w2c eskuratze-teknikan adiera guztiak kontuan<br />

hartu, adiera guzti horien artean guk kirol-adiera dutenak soilik hartuko<br />

ditugu kontuan. Horrela, eskuratze-teknika hau HMak kirol-adierarentzat<br />

bakarrik eskuratzen dituztenekin (c2c-ekin, adibidez) erkatu ahal izango dugu.


186 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

HM hauen ebaluazioa egin baino lehen, bakoitzaren jatorria ezagutzen<br />

saiatu gara, eta, berriro, s2s-ko datuak erabili ditugu 38 .<br />

Hala eta guztiz ere, w2c eskuratze-teknika honekin zaila da lotzea HM bakoitza<br />

bere jatorriarekin, ez baitakigu HM hori zein adierari dagokion. Esaterako,<br />

(26) adibidean begiratzen badugu, play 00605818ren subjektua izateko<br />

probabilitate handiena duen HM, {person, individual, human} synsetak<br />

adierazten duena da, [+pertsona] alegia. Hortaz, badakigu play 00605818k<br />

orokorrean subjektu gisa [+pertsona] adierazten duen izen bat hartuko duela.<br />

Baina, guk badakigu, play aditz-formaren adiera gehienek hartzen dutela<br />

subjektu mota hau: I play the piano, I play football, I play cards, I play Hamlet,<br />

eta abar.<br />

SemCorreko s2s izen-zerrendari esker, HM bakoitzaren jatorria zehazteko<br />

gai izan gaitezke. s2s zerrendan dauden izen guztien hiperonimoak begiratuta<br />

zer HMetan bilakatu diren asma genezake. Baina lan honek gure saiakerari ez<br />

lioke abantaila handirik ekarriko, eta, gainera, erabilera konputazional mugatua<br />

lortuko genuke. Itzulpen automatikoan edo adiera desanbiguazioan, adibidez,<br />

w2c ez litzateke horren erabilgarria, aditz-forma baten aurrean ezingo<br />

genukeelako honen HMetatik bere adiera mugatu. Horregatik adiera batean<br />

oinarritzearen garrantzia.<br />

HM hauetan adiera guztiak nahasturik daudenez, ezinezkoa zaigu aditzadiera<br />

baten HMak ebaluatzea, aditz horren adiera posible guztiak kontuan<br />

hartuta daudelako. Horregatik, w2c motako HMak aztertzerakoan,<br />

play 00605818rekin zerikusia duten HMak ezberdintzen saiatu gara, gerora<br />

play 00605818rekin egindako beste eskuratze-tekniken emaitzekin bat datozen<br />

ikusteko. Hala, (26) adibidean play aditz-formaren w2c objektu/subjektu<br />

HMak ditugu. Letra lodiz markatu ditugu gure ustez play aditzaren kirol-adieraren<br />

objektu/subjektuak izan daitezkeenak, (25)eko urre-patroiekin<br />

bat datozenak, alegia. Urre-patroia bera edo antzekoa denean (hiperonimo<br />

edo hiponimo bat, adibidez), zuzen edo onargarri bezala kontsideratu dugu;<br />

baina bat ez datozenak ez ditugu okertzat hartu, hauek, berez, beste<br />

aditz-adiera baten HMak izan daitezkeen heinean, zuzenak izan daitezkeelako.<br />

Bestalde, HMen azpian SemCorreko play 00605818rekin batera corpusean<br />

agertu diren objektu/subjektu izenak zerrendatuak datoz.<br />

38 Ikus s2sko datuak C eranskinean.


VII.4 Ingeleseko HMak 187<br />

(25) play 00605818 Objektuak<br />

w2c, c2c:<br />

00240760 {sport, athletics} “an active diversion requiring physical exertion and. . . ”<br />

00254052 {game} “a contest with rules to determine a winner”<br />

04771851 {contest, competition} “an occasion on which a winner is selected from. . . ”<br />

09065837 {amount of time, period, period of time} “time period a length of time”<br />

play 00605818 Subjektuak<br />

w2c, c2c:<br />

00004865 {person, individual, human} “a human being”<br />

00017008 {group, grouping} “any number of entities (members) considered as...”<br />

(26) w2c.obj<br />

play<br />

002289900.148 {activity} “any specific activity or. . . ” ONARGARRIA<br />

PLAY 00605818: football, basketball,golf, game3. . .<br />

00004865 0.105 {person, individual, human} “a human being”<br />

00009469 0.040 {object, physical object} “a physical (tangible and visible) entity”<br />

00017008 0.031 {group, grouping} “any number of entities (members) considered. . . ”<br />

00018599 0.029 {communication} “something that is communicated between people. . . ”<br />

00021098 0.028 {action} “something done (usually as opposed to something said)”<br />

00018966 0.008 {measure, quantity} “how much there is of something that you can...”<br />

00015437 0.007 {state} “the way something is with respect to its main attributes”<br />

00017586 0.007 {attribute} “an abstraction belonging to or characteristic of an entity”<br />

04771851 0.006 {contest, competition} “an occasion on. . . ” ZUZENA<br />

PLAY: game<br />

w2c.subj<br />

play<br />

00004865 0.308 {person, individual, human} “a human being” ZUZENA<br />

PLAY: mate, Bill Kunkel, Nelson, youngman. . .<br />

00017008 0.125 {group, grouping} “any number of entities. . . ” ZUZENA<br />

PLAY: The Mustangs, Texans, line. . .<br />

00009469 0.059 {object, physical object} “a physical (tangible and visible) entity”<br />

00012670 0.043 {abstraction} “a general concept formed by extracting common. . . ”<br />

06467898 0.029 {physical phenomenon} “a natural phenomenon involving the physics. . . ”<br />

08522741 0.016 {situation, state of affairs} “the general state of things”<br />

08125923 0.011 {community} “common ownership”<br />

00012878 0.008 {cognition knowledge} “the psychological result of perception. . . ”


188 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Ikus daitekeen bezala, urre-patroiko HM gehienak azaldu egiten dira.<br />

Subjektuen kasuan ez da harritzekoa, beste adieren subjektuek ere HM horiek<br />

onar baititzakete. Arrazoi horregatik daude probabilitate altueneko postuetan.<br />

Objektuen artean, kirolari bakarrik dagokion HMa {contest, competition}<br />

da, eskuratze-tekniken proposamenean azkena, probabilitate baxuenarekin<br />

agertu dena, alegia. Bestalde, objektuetan probabilitate handiena<br />

activityk du. Play 00605818k ekintza bat har dezake objektu gisa (activityk<br />

jasotzen dituen football, basketball, eta abar), baina aditz honen beste adieretan<br />

ere HM hau ager daiteke (play cards, adibidez).<br />

s2semf SemCorretik<br />

Eskuratze-teknika honek aditzaren adiera bakoitzarentzat HMak domeinueremu<br />

semantiko bikoteekin adierazten ditu. Honek orain arte erabilitako<br />

metodologia baldintzatzen du, ezin jakin baitezakegu zeintzuk diren HM<br />

zehatzak. Honen arrazoi nagusiena izen berak domeinu eta eremu semantiko<br />

bat baino gehiago har ditzakeela da. Esaterako, football izenaren domeinuak<br />

bi dira: play eta sport; eta bere eremu semantikoa act da. Hortaz, play-act<br />

eta sport-act bikoteak agertuz gero, HM desberdin hauek izen beretik abiatutakoak<br />

izan daitezke. Hala, gehie<strong>net</strong>an ezinezkoa zaigu ziurtasunez jakitea<br />

HM hauen corpuseko jatorri zehatza zein den.<br />

Bestalde, bikote hauek adierazten dutena ulertzea ez da begibistakoa.<br />

Domeinuaren eta eremu semantikoen informazioa synsetena baino orokorragoa<br />

da eta gehie<strong>net</strong>an MCRra jo behar dugu hauen azpian zer dagoen ulertu<br />

ahal izateko.<br />

Beraz, ezin dugu eskuratze-teknika honen ebaluazio sakon bat egin, baina<br />

s2s datuak aurrean izanda 39 , subjektiboki bada ere, horietatik zuzenak zein<br />

diren aipa dezakegu.<br />

Ebaluazioarekin hasi baino lehen, komeni da gogora ekartzea zeintzuk<br />

diren eskuratze-teknika mota honentzat proposatutako urre-patroiak:<br />

(27) play 00605818 Objektuak<br />

s2semf, w2semf:<br />

sport-event<br />

time period-time<br />

sport-act<br />

play-act<br />

39 Fitxategi honek jasotzen duen informazioa C eranskinean dago.


VII.4 Ingeleseko HMak 189<br />

play 00605818 Subjektuak<br />

s2semf, w2semf:<br />

person-person<br />

factotum-group<br />

(28)n letra lodiz markatu ditugu zuzenak/onargarriak iruditu zaizkigun<br />

HMak:<br />

(28) s2semf.obj<br />

play 00605818<br />

obj play-act 3.5 ZUZENA<br />

obj sport-act 1.5 ZUZENA<br />

obj baseball-artifact 1<br />

obj factotum-Tops 1<br />

obj card-artifact 1<br />

obj play-artifact 0.5<br />

obj golf-act 0.5 ONARGARRIA<br />

obj anthropology-Tops 0.5<br />

obj basketball-act 0.5 ONARGARRIA<br />

obj sport-artifact 0.5<br />

s2semf.subj<br />

play 00605818<br />

subj number-quantity 1<br />

subj sport-person 1 ONARGARRIA<br />

subj factotum-group 1 ZUZENA<br />

subj factotum-Tops 1 ONARGARRIA<br />

subj person-person 1 ZUZENA<br />

subj biology-Tops 0.5<br />

subj anthropology-Tops 1<br />

Objektuen HMetako play-act, sport-act urre-patroietan daudenez ez dugu<br />

inolako zalantzarik zuzen bezala ebaluatzeko. Hauen zehaztapen gisa har<br />

daitezke golf-act eta basketball-act, domeinuen hierarkian golf eta basketball,<br />

sport domeinuen jasota baitaude. Arrazoi horregatik onargarri bezala hartu<br />

ditugu, urre-patroia baino zehatzagoak direlako. Urre-patroiko beste bi<br />

objektuen HMak ez dira s2semf HM hauetan agertu. Zuzen bezala ebaluatu<br />

ditugunak zerrendako lehenengo bi postuetan daude, onargarri gisa ebaluatutakoek,<br />

berriz, probabilitate gutxiago dute.<br />

Azkenik, artifact eremu semantikoa daramatenen artean, nondik etorri<br />

diren susmatzen dugu; card-artifacten kasuan, play 00605818 aditzaren glosari<br />

erreparatuz gero, play cards bezalakoak onartzen dituela badakigu. Hortaz,


190 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

synset berean ‘kartetan jokatu’ eta ‘futbolean jokatu’ elkarrekin daudela dirudi.<br />

Card izenaren eremu semantikoa MCRn artifact da, eta arrazoi horregatik<br />

agertu da HM hori.<br />

Beste HM bat play ball (play-artifact) dugu. Oraingo ho<strong>net</strong>an ball izena<br />

football, basketball. . . bezala ulertu beharko genukeen, hots, ekintza bat<br />

bezala. Hala, act eremu semantikoa izan beharko luke eta ez artifact. MCRn<br />

kontsultatuz gero, ball synset ugaritan dago baina horietako batek ere ez du<br />

ekintza-adiera hori 40 . Beraz, eskuratze-teknikak horren ordez beste bat hartu<br />

du ausaz, artifact eremu semantiko duena, hain zuzen ere.<br />

Subjektuei dagokionez, s2semf eskuratze-teknikak urre-patroian proposaturiko<br />

bi HMak lortu ditu. Horietaz gain, onargarri bezala ebaluatu ditugun<br />

sport-person eta factotum-Tops ere baditu. Lehenengoa, person-person<br />

horren zehaztapena da, eta honen jatorria mate izenaren agerpena izan daiteke,<br />

honen domeinua sport delako. Hala ere, errepikatu beharra dago HM<br />

hauen jatorria zehaztea ez dela lan batere erraza. Bigarrena, oso HM orokorra<br />

da 41 eta honen jatorria edozer izan daiteke.<br />

Probabilitate altueneko subjektua, number-quantity HMa, ez da zuzena,<br />

baina honek c2c eskuratze-teknikako digit HMenarekin zerikusia duela uste<br />

dugu (azalpen zehatzagoa VII.4.3 atalean).<br />

VII.4.2.2 BNCtik eskuratutako HMen azterketa eta ebaluazioa<br />

Corpus ho<strong>net</strong>an c2c eta w2c eskuratze-teknikak erabili dira. Erabilitako<br />

irizpide metodologikoa orain artekoaren ezberdina izan da. BNC corpusa<br />

ez dago adierekin etiketatua, hots, desanbiguatuta, ezta domeinuka antolatuta<br />

ere. Honek guztiak HMak nondik datozen zehaztea ezinezkoa egiten<br />

du. SemCorrekin eskuratze-teknikak aztertzerakoan, s2s (eta s2s-hype)<br />

fitxategiak genituen non aditzaren adierak (synset-zenbakia) zehaztuak<br />

zeuden eta baita izenenak ere. BNC semantikoki etiketatu gabeko corpusa<br />

da eta nahiz eta w2w fitxategi bat izan, bertan play aditz-formarekin<br />

objektu/subjektu gisa agertu diren hitzen zerrenda luze bat besterik<br />

ez zaigu ematen 42 . Mila hitzetik gora osatutako zerrendak dira, eta izugarrizko<br />

eskuzko lana litzateke bakoitzaren testuinguruak aztertu eta ki-<br />

40 Kontuan izan beharrekoa da, <strong>WordNet</strong> eta MCR etengabe eguneratzen dauden ezagutza-baseak<br />

direla, eta batzuetan horrelako hutsuneak aurki daitezkeela.<br />

41 Bikote honek ia edozer adieraz dezake, factotumekin domeinurik ez duten hitzak adierazten<br />

direlako, eta Tops eremuak MCRko hierarkian oso goian dauden synsetak jasotzen<br />

dituelako. Beraz, oso orokorra den kontzeptu baten aurrean gaude.<br />

42 Ikus C eranskina.


VII.4 Ingeleseko HMak 191<br />

rolaren domeinuari dagozkionak aukeratzea, gero horren arabera beraien<br />

MCRko synset eta hiperonimo posibleak zehazteko. Arrazoi horregatik,<br />

eta datu enpirikoetan oinarritu gabe, BNC gainean aplikatutako eskuratzeteknika<br />

hauen HMak zuzenean gure urre-patroiekin erkatu ditugu.<br />

w2c BNCtik<br />

Teknika honekin playren adiera guztien objektuen edo subjektuen HMak lortzen<br />

dira. Eskuratze-teknika honen HMak gure urre-patroiekin erkatu ditugu<br />

(ikus (29) adibidea), kirol-adierarekin bat datozenak nabarmentzeko –letra<br />

lodiz (30) adibidean. Urre-patroia bera edo antzekoa (hiperonimo edo hiponimo<br />

bat adibidez) denean zuzen edo onargarri bezala kontsideratu dugu<br />

hurrenez hurren; baina bat ez datozenak ez ditugu okertzat hartu. Izan ere,<br />

hauek, berez, beste aditz-adiera baten HMak izan daitezkeen heinean, zuzenak<br />

izan daitezke.<br />

(29) play 00605818 Objektuak<br />

w2c, c2c:<br />

00240760 {sport, athletics} “an active diversion requiring physical exertion...”<br />

04771851 {contest, competition} “an occasion on which a winner is selected from. . . ”<br />

00254052 {game} “a contest with rules to determine a winner”<br />

09065837 {amount of time, period, period of time} “time period a length of time”<br />

play 00605818 Subjektuak<br />

w2c, c2c:<br />

00004865 {person, individual, human} “a human being”<br />

00017008 {group, grouping} “any number of entities (members) considered as a unit”<br />

(30) w2c.obj<br />

play<br />

00228990 0.082 activity “any specific activity or. . . ” ONARGARRIA<br />

00009469 0.077 object, physical object “a physical (tangible and visible) entity”<br />

00004865 0.070 person, individual, human “a human being”<br />

00012670 0.028 abstraction “a general concept formed by ...”<br />

00021098 0.020 action “something done (usually opposed to something said”<br />

00597858 0.012 group action “action taken by a group of people”<br />

00012878 0.012 cognition, knowledge “the psychological result of perception. . . ”<br />

04771851 0.009 contest, competition “an occasion on. . . ” ZUZENA<br />

05650477 0.009 part, piece “a portion of a natural object”<br />

04690182 0.008 happening, occurrence, natural event “an event that happens”


192 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

w2c.subj<br />

play<br />

08813320 0.16 helium “a very light colorless element that. . . ”<br />

00004865 0.12 person, individual, human “a human being” ZUZENA<br />

04455766 0.06 he “the 5th letter of the Hebrew alphabet”<br />

00011607 0.04 artifact, artefact “a man-made object”<br />

05149489 0.03 organization, organisation “a group of. . . ’ ONARGARRIA<br />

04313427 0.02 message, content, subject “what a communication that is about. . . ”<br />

00016649 0.01 act, human action,“something that people do or cause to happen”<br />

00018966 0.01 measure, quantity, “how much there is of something that...”<br />

00014314 0.01 location “a point or extent in space”<br />

00012878 0.01 cognition, knowledge “the psychological result of perception. . . ”<br />

Ikus daitekeen bezala, urre-patroiko HM gehienak azaltzen dira.<br />

Objektuen artean, kirolari dagokion HM bakarra {contest, competition} da.<br />

Onargarri marka daraman HMa (activity) urre-patroiko {sport, athletics}en<br />

hiperonimoa da. Nahiz eta play 00605818k ekintza bat har dezakeen objektu<br />

gisa (activityk jasotzen dituen football, basketball eta abar), beste adieretan<br />

ere HM hau ager daiteke (He played Hamlet esaldian, adibidez), eta<br />

horregatik du probabilitate-neurri altuena.<br />

Subjektuen kasuan, {organisation, organization} onargarritzat jo dugu,<br />

{group, grouping} synsetaren hiponimo bat delako, talde mota zehatzagoa,<br />

alegia. Zuzentzat hartu dugun bakarra (eta probabilitate-neurri altue<strong>net</strong>akoa<br />

duena) person HMa da. Hau baino probabilitate-neurri handiagoa he izenordainak<br />

du, baina honi egotzi zaizkion synsetak ez dira izenordainak. Aurreprozesu<br />

la<strong>net</strong>an ez zirenez izenordainak markatu, analizatzaile sintaktikoak<br />

ez ditu detektatzen, eta, gainera, MCRn izenordainik ez dagoenez, makinak<br />

he izenordainaren idazkera antzekoa duten beste bi synsetekin parekatu ditu<br />

—helium (‘elementu kimikoa’) eta he (‘hebrear alfabetoko bosgarren letra’).<br />

Arrazoi horregatik dira probabilitate handiena dituzten HMak. Honi buruz,<br />

VII.4.3 atalean mintzatuko gara.<br />

Bestalde, location bezalako subjektu HMak agertzen direnean, eta w2w<br />

fitxategietan begiratuta, leku izen berezietatik etor daitezkeen (Argentina,<br />

Madril...) susmoa dugu. Horrelakoekin corpusean kirol taldeak adierazi<br />

nahi dira eta MCRn leku-izen berezi bezala daude. Hori dela eta, location<br />

bezalako HMak ditugu play aditzarekin.<br />

Beraz, kirol-adierari dagokion HM bakarra {contest, competition} dela<br />

dirudi.


VII.4 Ingeleseko HMak 193<br />

c2c BNCtik<br />

Eskuratze-teknika honek lortzen dituen objektu edo subjektuen HMak play<br />

00605818 adierarako dira (ikus VII.4.2.1. atala).<br />

(31)n dugun urre-patroiekin erkatuta, (32)n letra lodiz markatu ditugu<br />

zuzenak iruditu zaizkigun HMak; beste guztiak okerrak dira:<br />

(31) play 00605818 Objektuak<br />

w2c, c2c:<br />

00240760 {sport, athletics} “an active diversion requiring physical exertion...”<br />

04771851 {contest, competition} “an occasion on which a winner is selected from. . . ”<br />

00254052 {game} “a contest with rules to determine a winner”<br />

09065837 {amount of time, period, period of time} “time period a length of time”<br />

play 00605818 Subjektuak<br />

w2c, c2c:<br />

00004865 {person, individual, someone, somebody, human soul} “a human being”<br />

00017008 {group, grouping} “any number of entities (members) considered as a unit”<br />

(32) c2c.obj<br />

play 00605818<br />

09065837 0.006 {period, amount of time} “an indefinite length. . . ” ZUZENA<br />

08813320 0.004 {helium} “a very light colorless element that. . . ”<br />

08520394 0.004 {condition, status} “a condition or state at a particular time”<br />

08534455 0.001 {status, position} “the relative position of persons in a society”<br />

08745609 0.001 {opportunity, chance} “a possibility due to a favorable. . . ”<br />

08522741 0.001 {situation, state of affairs} “the general state of things”<br />

08781633 0.001 {material, stuff} “the tangible substance that goes into. . . ”<br />

08523811 0.0007 {relationship} “a state involving mutual dealings. . . ”<br />

09164158 0.0006 {playing period, play} “time during. . . ” ONARGARRIA<br />

c2c.subj<br />

play 00605818<br />

08813320 0.14 {helium} “averylightcolorlesselementthat...” 09065837 0.005 {period, amount of time} “an indefinite length of time”<br />

08520394 0.003 {condition, status} “a condition or state at a particular time”<br />

09069911 0.002 {now} “the momentary present”<br />

08807415 0.001 {metal} “any of several chemical elements that. . . ”<br />

08534455 0.001 {status, position} “the relative position of persons in a society”<br />

08525534 0.001 {friendship, friendly, relationship} “the state of being friends”<br />

08781633 0.001 {material, stuff} “the tangible substance that goes into. . . ”<br />

08522741 0.001 {situation, state of affairs} “the general state of things”<br />

Objektuaren HMetan denborazkoak bakarrik harrapatu ditu, bata zuzena<br />

(zerrendatik probabilitate-neurri handiena duena, gainera) eta bestea onargarria<br />

(aurrekoaren hiponimo bat). Eta subjektuaren HMetan ez du bat bera


194 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

ere harrapatu. Berriro ere, aipatu behar dugu, subjektuaren HMetako helium<br />

synseta ingeleseko he izenordainari dagokiola, eta hauxe dela subjektu HMen<br />

artean probabilitate-neurri altuena duena.<br />

Horrela bada, eskuratze-teknika honen emaitzak ez dira batere onak izan.<br />

Corpusarengatik izan daiteke (etiketatua ez egotea, kirol domeinukoa bakarrik<br />

ez izatea...), baina, hala ere, harritzekoa da subjektuetan HM zuzen<br />

bat bera ere ez lortzea, subjektuen HMen eskuratzean aukerak askoz gutxiago<br />

izanik (aditzen objektuak mota askotakoak izan daitezke; aditzen subjektuak,<br />

aldiz, askotan [+pertsona] dira). Objektuekin ere harritzekoa da kirol<br />

domeinuan arruntak diren {contest, competition} edo {sport, athletics}<br />

objektu HMen ordez denborazkoak bakarrik eskuratu izana. Arrazoi posible<br />

bat izan daiteke, kirol-domeinuari buruz aritzean, kirol-ekintzari buruzko<br />

informazioa inplizitua egotea, irakurleak informazio hori ez duelako behar<br />

testua ulertzeko. Hala, nahiz eta testuan bertan ez zehaztu (Liverpool will<br />

play next match on Wednesday), irakurleak badaki “zertan” jokatzen duten<br />

albisteko protagonistek (kasu ho<strong>net</strong>an, irakurleak badaki Liverpool futboltalde<br />

bat dela, eta ondorioz, futbolean jokatuko dutela).<br />

Bestalde, troponimoen eraginak zerikusirik baduela pentsa dezakegu. Baina<br />

SemCor ez bezala, BNC etiketatu gabeko corpusa denez, oso zaila egiten<br />

zaigu hipotesi hori zehatz-mehatz egiaztatzea.<br />

VII.4.2.3 EFEtik eskuratutako HMen azterketa eta ebaluazioa<br />

EFE domeinuka antolatutako corpusa da, eta guk kirol-domeinuari dagokion<br />

atala erabili dugu saiakera ho<strong>net</strong>arako. Corpus ho<strong>net</strong>an w2semf eskuratzeteknika<br />

aplikatu dugu. Aipatu dugun bezala, teknika honek eskuratzen dituen<br />

HMak aditz-forma osoarentzat dira, aditzaren adiera guztientzat, alegia.<br />

Gogoratu probabilitate kopuru altue<strong>net</strong>ik baxuenera ordenaturiko domeinueremu<br />

semantikoen bikoteak direla.<br />

BNCren antzera, corpus hau ez dago semantikoki etiketatuta, eta horrek<br />

HMen jatorria zehaztea zaildu egiten du. Corpus ho<strong>net</strong>arako ere w2w tresnatxoa<br />

sortu da. Honi esker fitxategi batean EFE corpuseko kirol domeinuan<br />

play aditz-formarekin agertu diren hitzen zerrenda dugu, hauen maiztasunaren<br />

arabera ordenaturik 43 .<br />

Hirurehun hitzetik gorako zerrendak dira, eta izugarrizko eskuzko lana<br />

litzateke bakoitzaren testuinguruak aztertu eta kirolaren domeinuari dagoz-<br />

43 Fitxategi honek jasotzen duten informazioa C eranskinean dago.


VII.4 Ingeleseko HMak 195<br />

kionak aukeratzea, gero horren arabera beraien MCRko synset, eremusemantiko<br />

eta domeinu posibleak zehazteko.<br />

Honekin batera, corpus honekin erabili dugun w2semf eskuratze-teknikak<br />

ematen dituen HMek ez dute laguntzen HMen jatorria bilatzen. Izan ere,<br />

ez dira ulerterrazak, hau da, domeinuak eta eremu semantikoen informazioa<br />

synsetena baino orokorragoa da, eta gehie<strong>net</strong>an MCRra jo behar dugu hauen<br />

azpian zer synset jasotzen diren jakiteko. Gainera, hitz berak domeinu eta<br />

eremu semantiko bat baino gehiago har ditzake (VII.3.2.2 atalean ikusi dugun<br />

bezala). Honezaz gain, EFE corpusean erabilitako eskuratze-teknikak aditzforma<br />

osoa hartzen du kontuan.<br />

Arrazoi hauengatik guztiengatik, eta datu enpirikoetan oinarritu gabe,<br />

zuzenean EFE gainean aplikatutako eskuratze-teknika hauen HMak gure<br />

urre-patroiekin erkatu ditugu.<br />

w2semf EFEtik<br />

Eskuratze-teknika honentzat proposatu ditugun urre-patroiak daude (32)n,<br />

eta (33)n play aditzaren w2semf objektu/subjektu HMak ditugu (letra lodiz<br />

gure ustez play 00605818 aditzari dagozkionak):<br />

(32) play Objektuak<br />

w2semf:<br />

sport-event<br />

time period-time<br />

sport-act<br />

play-act<br />

play Subjektuak<br />

w2semf:<br />

person-person<br />

factotum-group<br />

(33) w2semf.play.kirola.obj<br />

obj x 100<br />

obj play-act 50.013 ZUZENA<br />

obj factotum-act 30.390 ONARGARRIA<br />

obj time period-time 29.009 ZUZENA<br />

obj zoology-animal 25.2<br />

obj factotum-artifact 25.026<br />

obj sport-event 23.514 ZUZENA<br />

obj sport-act 23.038 ZUZENA<br />

obj number-quantity 22.957<br />

obj geography-location 16.918


196 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

w2semf.play.kirola.subj<br />

subj x 372 ONARGARRIA<br />

subj administration-group 168.64<br />

subj chemistry-substance 52.66<br />

subj sport-group 44.01 ONARGARRIA<br />

subj zoology-group 40.5<br />

subj linguistics-communication 38.72<br />

subj physics-substance 34.66<br />

subj geography-location 33.35<br />

subj administration-location 32.31<br />

subj number-quantity 26.64<br />

Urre-patroiaren antzekoa (domeinu edo eremu semantiko orokorrago edo<br />

zehatzago bat edo urre-patroi bera duenean, adibidez) denean zuzen edo<br />

onargarri bezala kontsideratu dugu (esaterako, sport-group). HM batzuk zalantzan<br />

jar daitezke. Sport-groupen kasuan ez dago dudarik kirol-adierarekin<br />

zerikusia duela; administration-groupen kasuan, nahiz eta lehenengo begiratuan<br />

okerra zela iruditu, w2w zerrendak eta corpusak aztertuz, konturatu<br />

ginen Colombians, Brazilians eta abar bezalako agerpe<strong>net</strong>atik zetorrela. Izen<br />

hauen domeinua MCRn administration da. Horregatik dugu administrationgroup<br />

bezalako HM bat. Hala ere, okertzat jo dugu, VII.4.1 atalean finkatutako<br />

irizpidearengatik: domeinu-eremu semantiko bikote bat onargarritzat<br />

hartuko dugu, urre-patroia baino orokorrago edota zehatzago bada, eta<br />

domeinuko beste izen gehienak aditz horren argumentu izan badaitezke.<br />

Argi dago administration-group HMak ez duela azken baldintza hau<br />

betetzen. Administration-group HMa onargarritzat joz gero administration<br />

domeinuaren azpian dauden beste hitz guztiak ere (chairman, chancellor. . . )<br />

jokatu aditzaren (kirol-adieraren) subjektu/objektu prototipiko gisa ager daitezkeela<br />

baieztatzen ariko ginateke. Hori, bistan da, ez litzateke oso egokia.<br />

Bestalde, gogorazi beharra dago eskuratze-teknika honek izen bereziak x<br />

batez adierazten dituela.<br />

Aditzaren adiera guztiak kontuan hartzen dituen eskuratze-teknika izateko,<br />

kirolari dagozkion HM ugari daude. Urre-patroiko objektu HM guztiak<br />

daude eta oso probabilitate-neurri altuekin, gainera. Dirudienez, eta aditzforman<br />

oinarritutako beste eskuratze-tekniken emaitzekin erkatuz gero, kirol<br />

domeinuan oinarritutako corpus baten gainean aritzeak badu eraginik. Izan<br />

ere, neurri txikiagoan agertuko dira kirol-domeinukoak ez diren adierak.<br />

Orain arteko eskuratze-teknikekin aipatu ditugun erroreak ikus daitezke<br />

w2semf ho<strong>net</strong>an ere (gero VII.4.3 atalean azalduko ditugunak). Esate<br />

baterako, ingeleseko he eta heliumen arteko nahasketa. Subjektu HMetan


VII.4 Ingeleseko HMak 197<br />

chemistry-substance eta physics-substance bezala ageri da. Beste adibide bat,<br />

leku-izen bereziak (Argentina, Madril. . . ) –geography-location bezala eskuratzen<br />

direnak– eta kirol taldeen izen berezien arteko nahasketa da (Argentina<br />

played well).<br />

Hala eta guztiz ere, eskuratze-teknika honekin aurrekoekin detektatu ez<br />

dugun errore mota bat aurkitu dugu (anbiguotasuna), hurrengo atalean azalduko<br />

duguna.<br />

VII.4.3 Erroreen azterketa<br />

Eskuratzean erroreak badaudela ikusi dugu, eta hauek, batez ere, etiketatu<br />

gabe dauden corpusetatik datoz. Errore hauek kontuan izan beharrekoak<br />

dira eskuratze-teknikak findu ahal izateko. Horregatik, horien guztien berri<br />

emango dugu atal ho<strong>net</strong>an.<br />

Atal ho<strong>net</strong>an ez gara troponimiaz eta aditzaren adiera guztietan oinarritzen<br />

diren eskuratze-teknikez (c2c, w2c eta w2semf) jardungo, azterketan<br />

zehar hauek sortzen dituzten arazoak aipatu ditugulako.<br />

VII.4.3.1 Etiketatze-erroreak<br />

Errore mota hau SemCor corpusean bakarrik gertatu da, hau baita erabili<br />

dugun corpus etiketatu bakarra. Eskuz etiketatutako corpusa izan arren,<br />

etiketatze-erroreak gertatzen direla nabarmendu beharra dago. Esate baterako,<br />

arraroa badirudi ere, SemCorren play 00605818 eta play 00610422 (ikus<br />

VII.2 irudiko glosak) ez dituzte bereizi, hau da, play aditzaren agerpen guztiak<br />

play 00605818 synsetarekin etiketatuak daude. Hortaz, (34) bezalako<br />

esaldiak, nahiz eta berez play 00610422ren adibide bat izan, play 00605818<br />

gisa hartzen dira.<br />

(34) SMU will play the Owls at Rice Stadium in Houston.<br />

Nahasketa horrek objektuaren HMetan ondorioak izan ditu. Hala nola,<br />

play 00605818ren objektuen arten person eta group ageri zaizkigu, [+gizaki]<br />

tasuna daramatenak, hain zuzen ere. Objektu mota hauek play 00610422ren<br />

HMak izan beharko lukete.<br />

Etiketatze-erroreak ez dira aditzekin bakarrik gertatzen, izenenekin ere<br />

gertatzen dira.<br />

(35) Our interior line and out linebackers played exceptionally well.


198 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

VII.2 Irudia: jokatu aditzaren bi kirol synsetak.<br />

(36) For a serious young man who plays golf with a serious intensity.<br />

(35)en kasuan line linebacker izenaren (futbol jokalaria) laburdura bat da,<br />

eta a formation of people (pertsonen errenkada, multzoa) adierarekin etiketatua<br />

dago.<br />

(36)ko young man “a man who is the lover of a girl or young woman” bezala<br />

etiketatu dute, hots, euskarako ‘mutil-lagun’ adierarekin, “an adolescent<br />

male” adierarekin etiketatu ordez.<br />

Hala ere, bi adibide hauek, subjektuaren HMetan ez dute eragin handirik<br />

izan. Beraien hiperonimoak group eta person direnez, makinak HM horietan<br />

bilakatu ditu; urre-patroian zuzentzat definitu ditugunak.<br />

VII.4.3.2 Falta diren adierak<br />

HMak MCRn oinarrituta adierazi ditugu (corpuseko izenen synseten hiperonimoak<br />

edota domeinu eta eremu semantikoak erabilita). Gerta liteke MCRn<br />

adiera-inbentarioan baten bat ez egotea. Esate baterako, football, basketball...<br />

bezala uler daiteke ball ingelesez, ekintza bat bezala, alegia:<br />

(37) I play football/basketball/ball. . .<br />

MCRn kontsultatuz gero, synset ugaritan dago ball, baina horietako batek<br />

ere ez du ekintza-adiera hori. SemCor etiketatzerakoan, antzekoena izan<br />

zitekeen beste synset batekin etiketatu behar izan zuten.<br />

(38) 02103632 ball “round object that is hit or thrown or kicked in games”


VII.4 Ingeleseko HMak 199<br />

Makinak corpusean ball izena 02103632 bezala (ikus (38) adibidea) topatzen<br />

badu play 00605818 horren objektu gisa, honen HMa eskuratzeko zuzenean<br />

hiperonimora joko du, eta {sport, recreation}en (edo sport-act domeinu-eremu<br />

semantikoaren) ordez, object synseta (play-artifact domeinu-eremu<br />

semantikoa) lortzen du objektu HM gisa.<br />

EFE eta BNCn, semantikoki etiketaturik ez dauden corpusetan, antzeko<br />

prozesua gertatzen da. Makinak corpusean ball izena topatzen duenean play<br />

00605818ren objektu gisa, eta honen HMa eskuratu behar duenean, MCRtik<br />

ball ‘ekintza’ adierazten duen horren ordezko bat hartzen du, ‘objektu’ adiera<br />

duena hain zuzen ere. Hala, honen hiperonimotik abiatuta object synseta<br />

(edo artifact eremu semantikoa) lortzen du objektu HM gisa, berez dagokion<br />

{sport, recreation} synsetaren (edo sport-act domeinu-eremu semantikoaren)<br />

ordez.<br />

Antzeko beste adibide bat, leku-izen bereziak dira (Argentina, Madril<br />

eta abar). MCRn leku-izen berezi bezala bakarrik daude, baina corpusean<br />

hauekin kirol-taldeak adierazi nahi dira. Hori dela eta, location edo geographylocation<br />

bezalako HM okerrak ditugu play 00605818 aditzarekin.<br />

VII.4.3.3 Anbiguotasuna<br />

Gure ustez, hau izan daiteke HMen eskuratzean gehie<strong>net</strong>an gerta daitekeen<br />

fenomenoa; semantikoki etiketatu gabeko corpusen gainean aritzean, noski.<br />

Baina, errore hau antzematen zaile<strong>net</strong>akoa da.<br />

Corpuseko izenek adiera bat baino gehiago izan dezakete, eta semantikoki<br />

etiketatu gabe daudenean, eskuratze-teknikak adiera horietako bat aukeratu<br />

behar du MCRtik. Gerta daiteke ez dagokion adiera aukeratzea, eta, ondorioz,<br />

zuzena ez den HMa sortzea. Esate baterako, ingeleseko game izenak<br />

bost adiera ditu MCRn:<br />

a. 00254052 {game 1} “a contest with rules to determine a winner”<br />

b. 00254326 {game 2} “a single play of a game; the game lasted 2 hours”<br />

c. 00256308 {game 3} “an amusement or pastime”<br />

d. 01485683 {game 4} “animal hunted for food or sport”<br />

e. 00341531 {game 5} “informal terms for your occupation”


200 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Kirol-adierak lehenengo biak izan daitezke (a eta b). VII.4.2.3 atalean<br />

aztertutako HMen artean zoology-group eta zoology-animal bezalakoak genituen,<br />

eta okerrak bezala ebaluatu ditugu. Horien atzean anbiguotasunaren<br />

arazoa dago, makinak game izena game 4 bezala etiketatu du (‘animalia’ bezala,<br />

alegia), eta ondorioz, synset horren HM gisa lortu dira HM okerrak<br />

(ikus 21. eta 26. adibideak).<br />

VII.4.3.4 Analizatzaile sintaktikoak eragindako erroreak<br />

VII.3.2.1. atalean ikusi dugun bezala, aditz baten HMak eskuratzeko, lehenengo<br />

corpusaren gainean Minipar analizatzailea edo analizatzaile sintaktikoa<br />

(Lin, 1993) erabili dugu. Analizatzaile sintaktikoak errore batzuk izan<br />

ditzake, eta ondorioz, honek HMetan eragina izan du. Honen adibide argi<br />

bat da play 00605818ren (39)ko subjektuaren HMa; (40) adibidean honi<br />

dagokion SemCorreko jatorria dugu:<br />

(39) 08413915 0.032 {digit} “one of the elements that collectively forms. . . ”<br />

(40) Nine of the league’s teams play in baseball parks and therefore. . .<br />

Subjektuaren burua ez da nine, baiziketateams, baina analizatzaile sintaktikoak<br />

nine zenbakia hartu du burutzat, eta horregatik dugu honen hiperonimoa<br />

subjektuaren HM gisa.<br />

VII.4.3.5 Izen berezien ezagutza eta anaforaren ebazpena<br />

Bi errore hauek eragotziko lirateke hauen ezagutzarako prozesu informatikoren<br />

bat erabili izanez gero. Esate baterako, entitateen ebazpenarekin corpuseko<br />

izen bereziak pertsona-izen, erakunde-izen edo talde-izen bezala sailkatuko<br />

lirateke, hauetatik MCRko lotura egin daitekeelarik.<br />

Anaforak berarekin informazio linguistiko asko darama, baina hau ezin da<br />

eskuratu baldin eta corpus batean semantikoki etiketaturik ez dagoen. Aipatu<br />

dugu subjektuaren HM batzuetan agertutako helium (‘elementu kimikoa’)<br />

eta he (‘hebrear alfabetoaren bosgarren letra’), ingeleseko he izenordainarekin<br />

nahasten direla. MCRn ez daudenez izenordainak, makinak izenordain horren<br />

antzekoak diren beste bi synsetak aukeratzen ditu. Hortik, HM okerrak<br />

izatea. Anafora automatikoki landu izanez gero, anaforaren aurrekariaren<br />

informazioa jaso ahal izango genuke, eta honela, horrelako erroreak desagertuko<br />

lirateke.


VII.4 Ingeleseko HMak 201<br />

VII.4.4 Ebaluazioaren azterketa<br />

Play 00605818n oinarrituta, pausoz pausoz azaldu dugu ingeleseko aditzekin<br />

egindako ikerlana. Hainbat eskuratze-teknika aipatu ditugu, eta hauetako askok<br />

corpus ezberdi<strong>net</strong>an (SemCor, BNC eta EFE) objektu eta subjektuentzat<br />

zer nolako HMak eman dituzten ere aztertu dugu. Ebaluazio honen laburpenaren<br />

berri VII.5 taulan ematen dugu, hau da, corpus bakoitzean erabili den<br />

eskuratze-teknika bakoitzetik play 00605818ren zenbat objektu/subjektuen<br />

HM diren zuzenak (urre-patroiarekin bat datozenak), zenbat diren onargarriak<br />

(urre-patroiaren hiperonimo edo hiponimoak direnak) eta urre-patroietatik<br />

zenbat ez diren eskuratu (eskuratu gabe bezala izendatu ditugunak) 44 .<br />

Datu hauek kopuru zehatzak erabiliz adierazi ditugu; esaterako, eskuratzeteknika<br />

bakoitzaren objektu/subjektuen HMetatik (gehienez hamar) zenbat<br />

diren zuzenak edo onargarriak zenbakitu ditugu; eta baita eskuratzeteknika<br />

bakoitzarentzat proposatutako urre-patroietatik zenbat geratu diren<br />

eskuratu gabe ere. Taula bat egin dugu saiakera ho<strong>net</strong>an erabilitako<br />

kirol-aditz bakoitzarentzat, hots, MCRtik aukeratutako zortzi synsetentzat<br />

(00605818 {play 1/jokatu 2}; 00610422 {encounter5, meet10, play24,take on5/<br />

jokatu3}; 00468052 {coach 2, train 7/entrenatu 1}; 00059698 {train 8/entrenatu<br />

3}; 00630097 {equalize 1, get even 1/berdindu 16}; 00630097 {draw 25,<br />

tie 2/berdindu 15}; 00620486 {win 1/irabazi 3}; 00620218 {lose 2/galdu 9}) 45 .<br />

VII.5 taularen antzeko eredua jarraituta, ingeleseko aditz guztiak kontuan<br />

hartuta lortu diren emaitzak ditugu VII.6 taulan, oraingoan ehunekotan adierazita.<br />

VII.6 taulan eskuratu gabeen zerrendan datu azpimarragarriena % 0 zenbakira<br />

hurbiltzen dena da, honek eskuratze-teknikak urre-patroiko HM guztiak<br />

lortu dituela esan nahi duelako. Emaitzek adierazten dutena ulerterra-<br />

44 Domeinu-eremu semantiko bikoteen ebaluazioan erabilitako irizpide nagusia VII.4.1<br />

atalean aipatu dugu. Honekin batera, eskuratu gabeak diren ala ez neurtzeko, beste irizpide<br />

batzuk finkatu ditugu: batetik, zuzen/onargarri bezala ebaluatutako HM batekin, bi<br />

urre-patroi eskuratu daitezke. Adibidez, play 00605818ren objektuen urre-patroiak (domeinu-eremu<br />

semantiko bikoteentzako) play-act, sport-act, sport-event eta time period-time<br />

badira, eta eskuratze-teknikaren emaitza sport-act bada, aurreko lau urre-patroietatik bi<br />

(sport-act eta play-act) eskuratu direla esaten dugu, act eremu semantikoa daramaten biak,<br />

hain zuzen ere. Gauza bera, factotum-act HMarekin. Eta bestetik, alderantziz ere gerta<br />

daiteke, onargarritzat jo dugun HMa eskuratu gabea bezala ebaluatzea; esate baterako,<br />

izen bereziak (x baten bidez adieraziak datozenak), pronominalak (pro baten bidez adieraziak<br />

datozenak), eta factotum-Tops bikotea.<br />

45 Taula hauek guztiak C eranskinean daude ikusgarri.


202 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

zagoa egitearren, zuzenak/onargarriak kopuruen batura ere adierazi dugu eta<br />

taulan Batura z/o bezala izendatu dugu. Zuzen eta onargarrien zerrendan,<br />

aldiz, datu nabarmenenak % 100era gerturatzen direnak dira, eskuratzeteknikak<br />

eskuratutako HM guztiak zuzenak/onargarriak direla adierazten<br />

duelako. Taula hauek aurrean izanda, hurrengo atalean, hauetatik ondoriozta<br />

ditzakegun emaitzak komentatuko ditugu.<br />

Objektua Subjektua<br />

Jatorria Teknika Zuzena Onargarria Eskuratu<br />

gabe<br />

Zuzena Onargarria Eskuratu<br />

gabe<br />

SemCor w2c 10etik 1 10etik 1 4tik 1 5etik 2 0 0<br />

SemCor c2c 8tik 1 8tik 1 4tik 1 5etik 2 0 0<br />

SemCor s2semf 10etik 2 10etik 3 4tik 2 7tik 2 7tik 2 0<br />

BNC w2c 10etik 1 10etik 1 4tik 1 10etik 1 10etik 1 0<br />

BNC c2c 10etik 1 10etik 1 4tik 3 0 0 2tik 2<br />

EFE<br />

(kirola)<br />

w2semf 10etik 4 10etik 1 0 0 10etik 1 2tik 1<br />

VII.5 Taula: Corpus ezberdi<strong>net</strong>atik play 00605818rentzat eskuratutako HMen<br />

emaitzak.<br />

Objektuak Subjektuak<br />

Jatorria Tek. Zuz. Onarga. Batura<br />

z/o<br />

Eskuratu<br />

gabe<br />

Zuz. Onarga. Batura<br />

z/o<br />

Eskuratu<br />

gabe<br />

SemCor w2c % 16,3 % 18,5 % 34,8 % 29,5 % 26,6 %9 % 35,6 % 18,1<br />

SemCor c2c %6,9 % 26,4 % 33,3 %44 %38 %7,1 % 45,1 %3,5<br />

SemCor s2semf % 14,2 % 42,8 %57 % 64,2 %7 % 37,6 % 44,6 %60<br />

BNC w2c %9 % 13,6 % 22,6 % 15,9 % 11,1 %6,3 % 17,4 % 13,6<br />

BNC c2c %1,4 %0 %1,4 % 96,4 %0 %0 %0 % 100<br />

EFE<br />

(kir.)<br />

w2semf % 14,1 %10 % 24,1 % 45,4 %2,7 % 21,8 % 24,5 %41<br />

VII.6 Taula: Kirol-aditz guztientzat, corpus eta eskuratze-teknika ezberdinak<br />

erabiliz, lortutako emaitzak.


VII.4 Ingeleseko HMak 203<br />

VII.4.4.1 SemCorretik eskuratutako HMak<br />

Corpus ho<strong>net</strong>atik hiru HM mota jaso ditugu:<br />

• w2c: Eskuratze-teknika honek aditz-forma osoa kontuan hartzen duenez,<br />

zehazten zaila da zein HM diren kirolaren domeinuari dagozkionak.<br />

Urre-patroiarekin bat etorri direnak kontsideratu ditugu domeinu horretakoak.<br />

Horregatik, urre-patroietatik gutxi geratzen dira eskuratu<br />

gabe, baina zuzen eta onargarrien kopurua ez da oso handia.<br />

• c2c: Teknika honen emaitzak w2c-en antzekoak badira ere (esate baterako,<br />

c2c-en Batura z/o objektuen kasuan,% 33,3a da eta w2c-en<br />

% 34,8a), eta kontuan izanda eskuz etiketatutako (desanbiguatutako)<br />

corpusa dela, ez dira espero bezain emaitza onak, lortutako HM gehienak<br />

okerrak baitira. Dena den, w2c-ek baino zuzen eta onargarri gehiago<br />

lortzen ditu eta eskuratu gabeen kopurua antzekoa da, objektuen<br />

eta subjektuen kopuruen batura kontuan hartzen badugu. HM okerrak<br />

lortzearen arrazoia corpuseko etiketatze-erroreetan, analizatzaile sintaktikoaren<br />

analisi okerrean, eta corpusean agertu diren baina MCRn<br />

ez dauden adieretan egon daiteke.<br />

Bestalde, errore asko troponimoetatik datoz. Zuzentzat jo ditugunak<br />

troponimoak kontuan izan gabe lortu dira. Troponimia kontuan<br />

hartuta domeinu eta ezaugarri desberdinak hartzen dituzten aditzak<br />

nahasten direla ikusi dugu. Esate baterako, aztergai izan dugun play<br />

00605818ren kasuan, honek bet on, parlay eta stake bezalako troponimoak<br />

ditu, hots, apustua domeinuarekin zerikusia dutenak. Hauen<br />

HMak play 00605818-rekin zeharo ezberdinak dira. Esate baterako,<br />

aditz hauen objektu arrunte<strong>net</strong>ako bat ‘dirua’ izango da (cost HMetan).<br />

Beraz, ez dirudi aditz batek eta bere troponimoek HM berdinak<br />

dituztenik (behintzat, MCR hierarkian oinarritzen bagara).<br />

Bestalde, aipagarria da eskuratze-teknika honek subjektuekin eman dituen<br />

emaitza onak, eskuratu gabe % 3,5a bakarrik utzi baitu. Honen<br />

arrazoia corpus etiketatua izatea da. Hau da, entitateak landuta eta<br />

semantikoki etiketatuta daude, eta eskuratze-teknikak ez ditu desanbiguatu<br />

behar.<br />

Objektuetan ez dira emaitza hain onak lortzen eskuratu gabeei dagokienez,<br />

objektu HMen kopurua subjektuen HMena baino handiagoa<br />

delako. Honen erakusle garbia da bakoitzaren urre-patroien kopurua


204 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

(playren kasuan, subjektuek, oro har, bi HM dituzte, eta objektuek,<br />

aldiz, lau).<br />

• s2semf: HM hauek domeinu-eremu semantiko bikoteekin definitua datozenez,<br />

eta hitzak domeinu edo eremu semantiko bat baino gehiago<br />

izan ditzakeenez, batzuetan zaila da zehazten corpuseko zein agerpe<strong>net</strong>an<br />

dagoen HM hauen jatorria, eta, ondorioz, ezinezkoa zaigu zuzenak<br />

diren ala ez jakitea. Hori dela eta, eskuratze-teknika honen ebaluazio<br />

subjektiboago bat egin dugu. VII.5 taulako emaitzei erreparatuz,<br />

aurreko biak baino HM hobexeak lortzen dituela esan genezake. VII.6<br />

taulan, aditz guztiak kontuan hartuta, ezberdintasuna ez da horrenbestekoa:<br />

zuzen eta onargarrien batura altua (% 57 eta % 44,6) da, baina<br />

baita eskuratu gabeena ere (% 64,2 eta % 60).<br />

VII.4.4.2 BNCtik eskuratutako HMak<br />

Semantikoki etiketatu gabeko corpus honen gainean w2c eta c2c eskuratzeteknikak<br />

erabili ditugu.<br />

• w2c: Teknika honen HMak, aditzaren adiera guztietan oinarritzen<br />

direnez, zein adierari dagozkion asmatzen oso zaila da, baita hauen jatorria<br />

aurkitzea ere. Honenbestez, BNCren gainean aplikatuta HM batzuk<br />

lortu ditu (objektuen Batura z/o % 22,6a eta subjektuena<br />

% 17,4a), baina hauek SemCorren gainean lortutakoak baino kalitate<br />

baxuagoa dutela nabarmendu behar da. Izan ere, aipatu dugunez, w2c<br />

teknikek adiera guztiak hartzen dituzte kontuan. Bestalde, eskuratu<br />

gabeen kopuru txikiena honek du.<br />

• c2c: Teknika honek espero baino emaitza okerragoak eman ditu, play<br />

00605818ren HM bakarra asmatu baitu, eta beste aditz guztiekin ere<br />

hala-moduzko emaitzak izan ditu (ikus VII.6 taula). Corpusaren osaerak<br />

izan dezake eraginik ho<strong>net</strong>an. Izan ere, gogora dezagun corpus hau<br />

ez dagoela etiketatua eta kirol domeinuarena bakarrik ez dela, besteak<br />

beste. Bestalde, troponimoen eraginak zerikusirik duela pentsa dezakegu,<br />

baina SemCor ez bezala, BNC etiketatu gabeko corpusa denez,<br />

oso zaila egiten zaigu hipotesi hori zehatz-mehatz egiaztatzea. Teknika<br />

hau, berez, corpus ez-etiketatuekin edo domeinu batera mugatua ez<br />

dauden corpusekin ez dela oso erabilgarria esan daiteke.


VII.4 Ingeleseko HMak 205<br />

VII.4.4.3 EFEtik eskuratutako HMak<br />

Kirol-domeinuko eta semantikoki etiketatu gabeko corpus ho<strong>net</strong>an w2semf<br />

eskuratze-teknika erabili da.<br />

• w2semf: Nahiz eta HM hauek aditzaren adiera guztientzat izan, teknika<br />

honekin emaitza onak lortu dira. SemCorreko w2c eta c2c-ekin<br />

alderatuz, corpus ho<strong>net</strong>an w2semf-en zuzen/onargarrien batura txikiagoa<br />

bada ere (% 24,1 eta % 24,5, objektu eta subjektuei dagozkienak,<br />

hurrenez hurren), kontuan izanda eskuz etiketatu gabeko corpusa dela,<br />

azpimarratu beharreko emaitzak dira. Corpusaren domeinuak (kirola)<br />

beste adierak baztertzen lagundu duela dirudi. Dena dela, esan beharra<br />

dago, eskuratu gabeen kopurua ere handi xamarra dela.<br />

VII.4.5 HMen erkaketa<br />

VII.5 eta VII.6 tauletatik abiatuta, batetik eskuratze-teknikak erkatuko ditugu,<br />

eta bestetik corpusak.<br />

VII.4.5.1 Eskuratze-teknikaren arabera<br />

• w2c eta c2c: Emaitzei erreparatuz, c2c-ek HM zuzen/onargarri gehiago<br />

eskuratu ditu SemCorren (objektuen Batura z/o % 33,3a da, eta<br />

subjektuena % 45,1a); BNCn, aldiz, w2c-ek gehiago lortu ditu (objektuen<br />

Batura z/o % 22,6a da, eta subjektuena % 17,4a), c2c-ek baino<br />

(SemCorren objektuen Batura z/o % 33,3a da eta subjektuena % 45,1;<br />

BNCn objektuen Batura z/o % 1,4a eta subjektuena % 0 da). Hala<br />

ere, w2c teknikak ez du informazio gehiegirik ematen, HM hauek aditzformarentzat<br />

baitira, eta erabilera konputazionalerako (hala nola, adieren<br />

desanbiguaziorako edota itzulpen automatikorako) aditz-adierari<br />

buruzko informazioa lagungarria baitzaigu.<br />

c2c-ek, ordea, w2c-ek baino emaitza hobeak eman ditu SemCorreko<br />

subjektuen eskuratzean, eskuratu gabe % 3,5a bakarrik utzi baitu.<br />

Honen arrazoia corpus etiketatua izatea da. Hau da, entitateak landuta<br />

eta etiketatuta daude, eta eskuratze-teknikak ez ditu desanbiguatu<br />

behar. w2c teknikak ez du abantaila hau guztia aprobetxatzen. Izan<br />

ere, hitzaren adiera guztiak hartzen ditu kontuan.


206 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Ondorioz, esan daiteke, c2c dela teknikarik egokiena corpus etiketatua<br />

erabiltzen den kasuetan. Dena dela, gerta daiteke desanbiguaturiko<br />

corpusik ez izatea. Kasu horretarako, egokiago da w2c teknika.<br />

• w2semf/s2semf eta c2c/w2c: s2semf eta w2semf-en HMak zailak<br />

dira beste biekin erkatzeko, batean klasean eta bestean domeinueremu<br />

semantikoak erabiltzen direlako. SemCorreko corpusean s2semfek<br />

beste bi eskuratze-tekniken emaitzak baino hobeak eskaintzen dizkigu<br />

(objektuen Batura z/o % 57a da, eta subjektuena % 44,6a).<br />

Baina, esan dugun bezala, eskuratu gabekoen ehunekoa oso altua da<br />

(% 64,2 eta % 60) eta beste eskuratze-teknikena baino okerragoa. Bestalde,<br />

EFEko corpusaren gainean, kontuan izanda etiketatu gabeko corpusa<br />

dela, w2semf HMak nahiko onak dira. Baliteke, corpusari esker<br />

izatea, EFE corpusa kirol-domeinuari baitagokio. Hala ere, w2c-ekin<br />

gertatzen den antzera, HM hauek ez dute informazio gehiegirik eskaintzen,<br />

aditz-formarentzat baitira.<br />

VII.4.5.2 Corpusaren arabera<br />

• BNC eta SemCor corpusen erkaketa: SemCorren gainean erabilitako<br />

w2c eta c2c eskuratze-teknikek, BNCn baino emaitza hobeak<br />

lortu dituzte. Hala ere, desberdintasun handiagoa espero genuen, Sem-<br />

Cor semantikoki etiketatutako corpusa dela kontuan hartuz. Honen<br />

arrazoia corpusen tamaina izan daiteke; hau da, SemCor corpus txikia<br />

da BNCkin parekatuta, eta hori dela eta:<br />

(a) SemCorren aditz bakoitzeko agerpen gutxiago daude, eta ondorioz,<br />

eskuratze-teknikek ezin dituzte HM batzuk eskuratu; hau<br />

da, urre-patroi batzuk eskuratu gabe geratzen dira.<br />

(b) BNCn eskuratze-teknikak agerpen gehiagotan oinarritu daitezke.<br />

Horrela, urre-patroi gehiago eskuratzen dira. Dena den, BNC<br />

etiketatu gabeko corpusa izaki, HM hauen kalitatea ez da Sem-<br />

Correkoa bezain ona.<br />

Ondorioz, desanbiguatutako corpus handiagoa beharko litzatekeela esan<br />

dezakegu, emaitza hobeak lortu ahal izateko.


VII.4 Ingeleseko HMak 207<br />

• EFE: Corpus ho<strong>net</strong>atik emaitza onak lortu dira. Baliteke, corpusari<br />

esker izatea, EFE corpuseko kirol-domeinuari bakarrik baitagokio.<br />

Domeinu jakin batekin lan eginda, aditzaren adiera eta bere HMena<br />

corpusaren domeinutik lortu daitekeela deritzogu. Dena den, hau<br />

gehiago aztertu beharrekoa litzateke, kasuistika handia baitago. Aditz<br />

batzuek domeinu batekiko harreman gehiago dute beste batzuek baino.<br />

Horren adierazgarri, saiakera ho<strong>net</strong>ako ingeleseko meet eta equalize<br />

aditzekin lortutako emaitzak dira 46 . Nahiz eta EFEko kirol corpusera<br />

mugatu, badirudi aditz hauen beste adierek —kirol-arlokoak ez<br />

direnak— indar edo erabilera handiagoa dutela. Beraz, ikusteko dago<br />

domeinua aditz jakin batzuekin bakarrik den baliagarria ala aditz<br />

guztietara orokortu daitekeen.<br />

VII.4.5.3 Ingeleseko HMen emaitzen laburpen orokorra<br />

SemCor eta BNCren gainean erabilitako teknikak (c2c eta w2c, hurrenez<br />

hurren) dira HM gutxien eskuratu gabe utzi dituztenak: objektuen HMetan<br />

BNCko w2c (% 15,9) eta SemCorreko w2c (% 29,5) teknikek lortutakoak<br />

dira emaitzarik onenak, eta subjektuen HMetan SemCorreko c2c (% 3,5)<br />

eta BNCko w2c (% 13,6) teknikenak. Datu hauek hasierako susmoekin bat<br />

egiten dute:<br />

• SemCor corpus desanbiguatua izanda, besteak baino emaitza hobeak<br />

izan behar zituela (hala ere, espero baino emaitza kaxkarragoak lortu<br />

dira).<br />

• BNC corpus handiena izaki, eskuratu gabe oso HM gutxi geratu behar<br />

zirela.<br />

Corpus desberdinen erabilerari dagokionez, argi geratu da, beraz, geroz<br />

eta corpus etiketatu handiagoa izan, orduan eta emaitza hobeak lortuko direla.<br />

Esan beharra dago, domeinu-eremu semantiko bikoteekin adierazitako<br />

HMen emaitzak oso aldakorrak direla ebaluatzeko irizpideen arabera. Hauetatik<br />

jasotako emaitzak kuantitatiboki nahiko onak izan arren, neurketa<br />

hauek modu objektibo batean egiteko erraztasun falta, eta synsetekin parekatzeko<br />

duten zailtasuna kontuan izanda, saiakera ho<strong>net</strong>atik abiatuta au-<br />

46 C eranskinean aditz guztien emaitzak daude.


208 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

rrerantzean egingo diren beste la<strong>net</strong>an, domeinu-eremu semantiko bikoteekin<br />

adierazitako HMak alde batera utziko direla erabaki dugu.<br />

VII.5 <strong>Euskara</strong>ko HMak<br />

Ingelesekoez gain, euskarako HMak eskuratzeko saiakera bat ere egin dugu.<br />

Bi bide erabili ditugu ho<strong>net</strong>arako:<br />

Batetik, ingeleseko zortzi synset horientzat eskuratutako HMak synset<br />

horietako euskarako ordainentzat berrerabiliko ditugu, euskararentzat erabilgarriak<br />

diren ala ez ikusteko. Berrerabilpenerako ez dira eskuratze-teknika<br />

guztietako HMak hartu. Azterketa hau hastapenekoa izaki, honen emaitzak<br />

ikusteko lagin bat erabiltzearekin nahikoa dela iruditu zaigu. Ingelesetik<br />

euskarara zuzenean itzuli behar genituen HMak aukeratzerakoan bi irizpide<br />

hauetan oinarritu gara:<br />

• SemCorretik eskuratutako HMak izatea, eta, gainera, aditzadiera<br />

bakarrari egokitzea. Horrela, MCR baliatuta, zuzenean itzul<br />

ditzakegu euskarara bai ingeleseko corpuseko hitzak (synsetekin etiketatutakoak),<br />

eta bai HMak (synsetekin adieraziak). Izan ere, MCRko<br />

synseta abiapuntu izanda, zuzenean beraien euskarako ordainera pasa<br />

gaitezke eta horrek itzulpen lana errazten. SemCor da erabili dugun<br />

corpus etiketatu bakarra, eta honen gainean aditza-adiera hautapenak<br />

eskuratzeko, c2c eta s2semf eskuratze-teknikak aplikatu dira.<br />

• Domeinu konkretu bateko corpus bateko HMak erabiltzea (gure<br />

kasuan, EFE). Ho<strong>net</strong>atik lortutako HMak beste corpus orekatuetakoekin<br />

parekatzea interesgarria iruditzen zaigulako. EFE gainean<br />

w2semf eskuratze-teknika erabili dugu.<br />

Hala, guztira, ingeleseko c2c, s2semf eta w2semf HMak berrerabili ditugu<br />

euskararako.<br />

Bestetik, w2semf eskuratze-teknika euskarako corpus batean erabili dugu.<br />

Eskuratze-teknika hau aukeratu dugu, inplementatzeko sinpleena zelako.<br />

Horrela, teknika honen ingeleseko eta euskarako emaitzak baliatuz, euskarari<br />

zein bide (ingelesetik itzultzea ala euskarako corpusetan oinarritzea) egokitzen<br />

zaion hobeto ondoriozta dezakegu.<br />

Erabili dugun corpusa <strong>Euskal</strong>dunon Egunkaria da. Domeinuka antolatutako<br />

corpusa denez (kirolak, ekonomia, kultura, eta abar), kirol-domeinutik


VII.5 <strong>Euskara</strong>ko HMak 209<br />

eskuratzeko aukera ematen digu. Hortaz, euskarako HMak kirol-domeinuan<br />

oinarritutako corpusetik lortu ditugu. Hala ere, kirol domeinuarekin erabilitako<br />

eskuratze-teknika bera erabili dugu corpus osoaren gainean, hau da,<br />

domeinurik zehaztu gabe. Emaitzek domeinuaren eragina zenbaterainokoa<br />

izan daitekeen aztertzea ahalbidetuko digute.<br />

<strong>Euskara</strong>ko HM hauen guztien azalpenerako, ingelesekoekin bezala,<br />

00605818 play1/jokatu2; “play games, play sports” synseteko euskarako ordainean<br />

(jokatu 00605818n) oinarrituko gara.<br />

VII.5.1 <strong>Euskara</strong>ko HMetarako irizpideak<br />

Ingeleseko urre-patroiak (VII.4.3 atala) sortzeko metodologia bera jarraitu<br />

dugu:<br />

• Kirol-aditz bakoitzeko urre-patroi batzuk zehaztu dira, kasu ho<strong>net</strong>an jokatu<br />

00605818rentzat. Bestalde, urre-patroiak eskuratze-teknika bakoitzaren<br />

ereduan sortuko dira. Hala, euskarako azterketan, alde batetik,<br />

HMak adierazteko synsetean oinarritzen den teknika dugu (c2c), eta<br />

bestetik, domeinu-eremu semantikoetan oinarritzen direnak (w2semf<br />

eta s2semf).<br />

• Urre-patroiak proposatu ahal izateko corpusetan oinarritu gara, aditzadiera<br />

bakoitzaren jokaera linguistikoa orokortzeko. Corpuseko izen<br />

bat HM batean orokortzeko, gehie<strong>net</strong>an izen horrek MCRn duen hiperonimoetara<br />

jo dugu, eta, hala, HMak MCRko synset eta domeinueremu<br />

semantiko batzuen bidez adierazi ditugu.<br />

Corpusean ikusitakoaren arabera, jokatu 00605818 aditzak lehiaketa, txapelketa<br />

eta abar bezalako objektuak hartzen ditu, orain arte HMetan {contest,<br />

competition} bezala agertutakoak 47 :<br />

(41) Objektua:<br />

Sidneyko Joko Olinpikoak jokatuko baitira irailaren.<br />

Aste Santuan jokatuko da <strong>Euskal</strong> Herriko txapelketa.<br />

Klub Arteko Munduko Txapelketa jokatuko da Brasilen.<br />

<strong>Euskadi</strong>ko Kopako finalerdia jokatuko du Zarautzen.<br />

47 04771851 synsetean {contest, competition} izenak daude, eta synset bereko euskarako<br />

ordainak {lehiaketa, txapelketa} dira. Orain arte HMak ingelesez eman ditugu, eskuratzetekniken<br />

emaitzak hizkuntza horretan ematen direlako. <strong>Euskara</strong>z ere, eskuratze-tekniken<br />

emaitzak ingelesez daudenez, bere horretan mantenduko ditugu.


210 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Joko Olinpikoak eta finalerdia izenak {contest, competition} synsetaren hiponimoak<br />

dira. Beraz, hiperonimoaz baliatu gara jokatu 00605818ren objektuak<br />

orokortu ahal izateko.<br />

Subjektuen kasuan, taldeak eta pertsonak izan dira nagusi:<br />

(42) Subjektua (taldea):<br />

Realak datorren asteazkenean jokatu behar duten partidua. . .<br />

textbfKataluniako Eskubaloi Selekzioa jokatu gabe geratu zen. . .<br />

Adiskidantzazko partidu gehiago jokatuko ditu Bidasoak.<br />

Bestalde, hilak 14ean, hiruko torneoa jokatuko du Bidasoak Bermeon.<br />

(43) Subjektua (pertsona):<br />

Gutxienez bi partidu egongo da Rider jokatu gabe.<br />

Agirresarobe - Iriatek jokatuko dute.<br />

Iruk jokatuko du hasieratik.<br />

Dmitri Khokhlov errusiarrak hasieratik jokatutako partidu nagusia.<br />

Ingeleseko play 00605818k ez bezala, euskarako jokatu 00605818 aditzak ez<br />

ditu futbol, golf eta abar bezalako objektuak hartzen, ez behintzat absolutibo<br />

kasuan. Berez, jokatu 00605818k argumentu bezala onartzen ditu, baina<br />

beste kasu batekin: inesiboarekin.<br />

(44) Objektua (inesiboa):<br />

FutboleaN jokatzen badakitela erakutsi zuten Lotinaren jokalariek.<br />

Banekien han dena ezberdina zela, futboleaN ere han jokatuta bainengoen.<br />

Rafa Alkortak [...] golfeaN jokatuko duela dio irribartsu.<br />

<strong>Euskara</strong>ko subjektuen eta objektuen argumentuak, ergatiboarekin eta absolutiboarekin<br />

agertzeaz gain, beste kasu-marka batzuekin ere ager daitezkeela<br />

ikusita (jokaturen kasuan objektua inesiboa izan daiteke), euskarako<br />

HMen eskuratzea funtzio gramatikaletan oinarritu ordez —ingeleserako egin<br />

dugun bezala—, kasu-marketan oinarrituta egitea erabaki dugu. Hala,<br />

ergatiboen, absoltuiboen, inesiboen eta bestelako kasu-marken HMei buruz<br />

jardungo gara.<br />

(45)en ditugu jokatu 00605818 aditzaren c2c-rako urre-patroiak eta (46)n<br />

w2semf eta s2semf teknikentzako lortutakoak:


VII.5 <strong>Euskara</strong>ko HMak 211<br />

(45) jokatu 00605818 Absolutiboa<br />

c2c:<br />

04771851 contest, competition “an occasion on which a winner is selected. . . ”<br />

00254052 game “a contest with rules to determine a winner”<br />

09065837 amount of time, period, period of time “time period a length of time”<br />

jokatu 00605818 Ergatiboa<br />

c2c:<br />

00004865 individual, someone, somebody, mortal, human soul “a human being”<br />

00017008 group, grouping “any number of entities (members) considered as a unit”<br />

jokatu 00605818 Inesiboa<br />

c2c:<br />

00240760 sport, athletics “an active diversion requiring physical exertion and ...”<br />

(46) jokatu 00605818 Absolutiboa<br />

s2semf, w2semf:<br />

sport-event<br />

time period-time<br />

jokatu 00605818 Ergatiboa<br />

s2semf, w2semf:<br />

factotum-group<br />

person-person<br />

jokatu 00605818 Inesiboa<br />

s2semf, w2semf:<br />

sport-act<br />

play-act<br />

Beraz, ikus dezakegun bezala, ez ditugu objektu/subjektuen HMak eskuratu,<br />

deklinabide kasuan oinarritzen diren HMak baizik. Ingeleseko eta<br />

euskarako “funtzio-kasu” desoreka hau aditz bat baino gehiagorekin gertatu<br />

zaigu. Esate baterako, play 00610422rekin (ikus VII.1 irudia): ingeleseko<br />

Princeton plays Yale, euskaraz,Princetonek Yaleren aurka jokatzen du itzuliko<br />

genuke. Ingeleseko objektua (Yale), euskaraz -en kontra postposizioarekin<br />

adierazten dugu. Horregatik, play 00610422ren HMak eskuratzerakoan, ingelesarekin<br />

egin bezala objektuen eta subjektuen HMak lortu ordez, euskararako<br />

ergatiboaren eta -en kontra postposizioaren HMetan oinarritu gara.<br />

Desoreka honek ingeleseko HMak euskarara itzultzeko zailtasunak sortu<br />

ditu. Hau da, ingeleseko argumentuak ezin dira zuzenean euskara itzuli,<br />

ingelesez funtzio gramatikalei dagozkien HMak baitauzkagu eta euskaraz deklinabide<br />

kasu-markei dagozkienak. Hortaz, ingeleseko argumentuak ezin


212 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

dira zuzenean euskarara itzuli. Horregatik, HMen erkaketa egin ahal izateko,<br />

bi hizkuntzetako aditzen argumentuak parekatu behar izan ditugu lehendabizi,<br />

aditz bakoitzaren izaera sintaktiko-semantikoa definituz. Oro har,<br />

esan dezakegu ingeleseko subjektuen HMak euskarako ergatibo eta absolutibo<br />

HMak izango direla — aditz iragankor eta iragangaitzei dagozkienak, hurrenez<br />

hurren—, eta ingeleseko objektu HMak euskarako absolutiboak emango<br />

digula. Hala ere, aditz bakoitzaren izaera sintaktiko-semantikoa kontuan<br />

izanda objektuen artean bestelako kasu-markak ere egon daitezke: esate baterako,<br />

inesiboa.<br />

Bestalde, ingeleseko HMekin bezala, urre-patroi hauen arabera HMak<br />

ebaluatzeko maila desberdinak definitu ditugu:<br />

• Zuzena: Urre-patroiarekin bat datorrenean.<br />

• Onargarria: Urre-patroiaren hiperonimoa edo hiponimoa denean. Domeinu-eremu<br />

semantiko bikoteen bidez adierazitako HM kasuan, onargarri<br />

bezala kontsideratu ditugu urre-patroia baino orokorrago edota<br />

zehatzago direnak.<br />

• Okerra: Urre-patroiarekin bat ez datorrenean eta MCRko hierarkian<br />

ere loturarik ez dutenean.<br />

<strong>Euskara</strong>rako eskuratutako HMak domeinu-eremu semantiko bikoteetan<br />

oinarrituak dira, eta hauen ebaluazioa irizpide batzuen arabera egin dugu; ingelesekoekin<br />

erabilitako berdinak direnez ez ditugu errepikatuko (ikus VII.4.4<br />

atala).<br />

VII.5.2 <strong>Euskal</strong>dunon Egunkaritik eskuratutako HMen azterketa eta<br />

ebaluazioa<br />

Atal ho<strong>net</strong>an eskuratze-teknika batek (w2semf) euskarako corpus batetik<br />

(<strong>Euskal</strong>dunon Egunkaria) eskuratutako HMak aztertu eta ebaluatuko ditugu.<br />

VII.5.2.1 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />

Eskuratze-teknika hau VII.3.2.2 atalean azaldu dugu. Aditz-forma osoaren<br />

HMak erauzten dituen eskuratze-teknika da eta HMak domeinu-eremu semantiko<br />

bikote batez adieraziak datoz, bikote hau klase bezala kontsideratzen<br />

delarik. Bi proba desberdin egin ditugu. Batetik, teknika hau corpus<br />

osoan (domeinuak kontuan hartu gabe) aplikatu dugu. Bestetik, kirol-


VII.5 <strong>Euskara</strong>ko HMak 213<br />

domeinuari bakarrik dagokion zatian erabili da. Horrela, domeinuaren eragina<br />

zenbaterainokoa den ikusteko aukera izan dugu.<br />

Nahiz eta ingeleserako eskuratze-teknika bera erabili, euskararako aldatu<br />

egin behar izan dugu pixka bat: objektu eta subjektu funtzio sintaktikoen<br />

HMen ordez, inesibo, absolutibo eta ergatibo deklinabide kasuen HMak eskuratu<br />

ditugu.<br />

Abiapuntuko metodologia orain arte erabilitakoaren parekoa izan arren<br />

(HMaren jatorria eta corpuseko testuinguruak bilatu, HMa bera ebaluatzen<br />

hasi baino lehen), arestian gertatu zaigun bezala (VII.3.2.2), eskuratzeteknika<br />

honekin zaila da jatorria zein den zehaztea. Batetik, HMak aditzformarentzat<br />

direlako eta hauen jatorria aztertzeko agerpenak bananbanan<br />

berrikusi beharko genituzkeelako. Bestetik, HMak adierazteko domeinueremu<br />

semantiko bikoteak erabiltzen dituen eskuratze-teknika izaki, eredu<br />

honen informaziotik jatorrira iristeko, nahitaez MCRra jo behar dugu domeinu<br />

eta eremu semantiko bakoitzaren azpian zein synset dagoen jakiteko.<br />

Hala ere, w2w moduko zerrendak ditugu, non jokatu aditz-formarekin<br />

agertu diren hitzen zerrenda (maiztasunaren eta kasu-marken arabera ordenaturik)<br />

eskaintzen zaigun; fitxategi batean corpus osoko agerpenak daude<br />

eta bestean kirol-domeinukoak bakarrik48 .<br />

Oso zerrenda luzeak dira, eta lan handia litzateke bakoitzaren testuinguruak<br />

aztertu eta kirolaren domeinuari dagozkionak aukeratzea, gero horren<br />

arabera beraien MCRko synset, eremu semantiko eta domeinu posibleak<br />

zehazteko.<br />

Arrazoi hauengatik guztiengatik, eta datu enpirikoetan oinarritu gabe,<br />

zuzenean <strong>Euskal</strong>dunon Egunkariaren gainean aplikatutako eskuratze-teknika<br />

hauen HMak gure urre-patroiekin (ikus (46)) erkatu ditugu.<br />

(47)n jokatu aditzaren w2semf absolutibo (abs), inesibo (ine) eta ergatibo<br />

(erg) deklinabide kasuen kirol-domeinuko corpuseko HMak ditugu (letra lodiz<br />

gure ustez jokatu 00605818 aditzari dagozkienak) 49 .<br />

Bestalde, esan beharra dago eskuratze-teknika honek izen bereziak x batez<br />

adierazten ditu, anafora pronominalak pro batez eta elipsiak 0 batez.<br />

48 Ikus C eranskina.<br />

49 Ingelesekoekin gertatzen zen bezala, HMen zerrenda oso luzea izan daiteke, eta aditz<br />

baten HMak hamar baino gehiago direnean, lehenengo hamarrak (probabilitate-neurri<br />

handienekoak) bakarrik aztertu ditugu.


214 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

(47) w2semf.jokatu.kirola<br />

abs x 33<br />

abs sport-event 18.933 ZUZENA<br />

abs anthropology-group 6.6<br />

abs number-quantity 6.515<br />

abs politics-group 6.504<br />

abs sociology-group 5.671<br />

abs history-group 5.6<br />

abs factotum-act 2.853<br />

abs sport-act 2.646<br />

abs 0 2<br />

ine x 28<br />

ine time period-time 7.062<br />

ine tourism-time 4<br />

ine buliding industry-artifact 3.009<br />

ine factotum-act 2.3 ONARGARRIA<br />

ine number-quantity 2.272<br />

ine factotum-location 2.138<br />

ine 0 2<br />

ine play-act 1.983 ZUZENA<br />

ine sport-act 1.900 ZUZENA<br />

erg pro 128 ONARGARRIA<br />

erg x 25 ONARGARRIA<br />

erg number-quantity 7<br />

erg03<br />

erg transport-person 1.5<br />

erg geography-person 1<br />

erg administration-person 1<br />

erg basketball-person 1 ONARGARRIA<br />

erg time period-time 0.6<br />

erg cycling-person 0.25 ONARGARRIA<br />

(48)n corpus osoa erabilita lortutako HMak ditugu:<br />

(48) w2semf.jokatu.corpus osoa<br />

abs x 40<br />

abs sport-event 31.933 ZUZENA<br />

abs sport-act 13.646<br />

abs number-quantity 8.515<br />

abs anthropology-group 8.131<br />

abs politics-group 7.004<br />

abs sociology-group 6.671<br />

abs history-group 5.6


VII.5 <strong>Euskara</strong>ko HMak 215<br />

abs time period-time 4.632 ZUZENA<br />

abs factotum-act 3.907<br />

ine x 32<br />

ine time period-time 7.437<br />

ine factotum-act 4.020 ONARGARRIA<br />

ine tourism-time 4<br />

ine 0 4<br />

ine building industry-artifact 3.609<br />

ine factotum-location 2.361<br />

ine number-quantity 2.272<br />

ine factotum-state 2.081<br />

ine factotum-group 2.068<br />

erg pro 204 ONARGARRIA<br />

erg x 33 ONARGARRIA<br />

erg number-quantity 7<br />

erg 0 3<br />

erg linguistics-communication 2<br />

erg politics-person 1.601<br />

erg person-person 1.53 ZUZENA<br />

erg transport-person 1.5<br />

erg administration-person 1.365<br />

erg basketball-person 1 ONARGARRIA<br />

Ingelesekoekin bezala, urre-patroiaren berdina edo antzekoa (domeinu edo<br />

eremu semantiko orokorrago edo zehatzago bat adibidez) denean zuzen edo<br />

onargarri bezala kontsideratu dugu; baina bat ez datozenak ez ditugu okertzat<br />

hartu, hauek berez, beste aditz-adiera baten HMak izan daitezkeen heinean,<br />

zuzenak izan daitezkeelako.<br />

Aditzaren adiera guztiak kontuan hartzen dituen eskuratze-teknika izateko,<br />

kirolari dagozkion HM ugari daude bi corpusetan. Urre-patroiko objektuen<br />

HM guztiak daude eta nahiko probabilitate-neurri altuekin, gainera.<br />

Corpus osoko eta kirol-domeinuko HMak erkatuz gero, ez dago horrenbesteko<br />

alderik bata eta bestearen artean; desberdintasun nabarmenena inesibo<br />

deklinabide kasuko HMek erakusten dute. Kirol-domeinutik eskuratutako<br />

inesiboaren HMetan urre-patroian proposaturiko HM guztiak daude:<br />

sport-act, play-act. Corpus osotik eskuratutakoetan hauek baino orokorragoa<br />

den factotum-act bakarrik dago. Bestalde, kirol-domeinuko corpuseko inesiboen<br />

HMetan, deigarria da sport-act, play-act HMak probabilitate-neurri<br />

txikienarekin agertzea; probabilitate-neurri handienarekin izen bereziak edo<br />

x (Anoetan jokatu dute adibidez) eta time period-time (Bigarrenzatianjokatu


216 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

du; Igandean jokatuko dute eta abar) daude, jokatu 00605818ren adjuntuak direnak.<br />

Kirol-domeinuko albisteak izanda (ez ahaztu <strong>Euskal</strong>dunon Egunkaria<br />

egunkari bat dela), berez, baliteke informazio asko inplizitu egotea, irakurleak<br />

testua ulertzeko ez dituelako behar. Hau da, nahiz eta albistean bertan<br />

ez zehaztu, irakurleak badaki “zertan” jokatzen duten albisteko protagonistek,<br />

egunkariko atal berezi batean, izenburu eta guzti, zehaztuta datorrelako<br />

(futbola, adibidez), edota pertsonak ezagutzen dituelako (Errealak Madrilen<br />

jokatuko du eta ez Errealak Madrilen futbolean jokatuko du).<br />

Ergatibo HMetako (corpus osoko eta kirol domeinukoak) probabilitateneurri<br />

handienak izen bereziek (x) eta anafora pronominalek (pro) dute. Esan<br />

beharra dago, transport/administration/geography-person HMekin zalantzak<br />

izan ditugula. Nahiz eta lehenengo begiratuan okerrak iruditu, w2w zerrendak<br />

eta corpusak aztertuz, konturatu ginen hauek ondorengo agerpe<strong>net</strong>atik<br />

zetozela:<br />

(49) Italiarrek bi jokalari gutxiagorekin jokatu dute.<br />

5 kilometroko erlojupekoa jokatu dute txirrindulariek.<br />

Italiar izenaren domeinuak MCRn administration eta geography dira; eta<br />

txirrindulari izenarena, transport. Horregatik ditugu geography-person,<br />

administration-person eta transport-person bezalako HMak. Hala ere, arestian<br />

aipatutako irizpideari jarraituz, transport, geography eta administration<br />

domeinuetako izen gehienak jokatu aditzaren argumentu ezin dutenez izan,<br />

okertzat jo ditugu. Horrela, domeinu hauetako hitzak (salbuespenak salbuespen)<br />

ez direla jokatu aditzarekin agertzen adierazten dugu.<br />

Haatik, politics-person okertzat jo dugu ergatiboko w2w zerrenda aztertuta<br />

errore bat dela ikusi dugulako; w2w zerrendako ergatiboen artean, politics<br />

domeinua har dezakeen bakarra defentsa baita:<br />

(50) Defentsak ondo jokatu zuen.<br />

Testuingurua zuzena da eta esaldiko defentsa izenaren domeinua sport<br />

da. Hortaz, honen HMa sport-person izan beharko litzateke. Nondik lortu<br />

da politics-person HMa? Izen horrek MCRn hamar synset inguru ditu, eta<br />

horietako bat politics domeinuari dagokio. Beraz, anbiguotasun errore bat<br />

egon da.<br />

Hala, badirudi ingeleseko eskuratze-teknikekin aipatu ditugun erroreak<br />

euskarako w2semf teknikarekin ere gertatzen direla (ikus VII.4.3 atala).


VII.5 <strong>Euskara</strong>ko HMak 217<br />

VII.5.3 Ingelesetik itzulitako HMen azterketa eta ebaluazioa<br />

Ingeleserako erabilitako eskuratze-teknika batzuekin eskuratutako HMak euskarara<br />

itzuli ditugu, HMak eleanitzak izan daitezkeen frogatzeko asmoz. Horretarako,<br />

eta VII.5 atalean azaldu ditugun irizpideak jarraituta, SemCorreko<br />

c2c eta s2semf eskuratze-tekniken emaitzak euskaratu ditugu, EFEko s2semfekoekin<br />

batera.<br />

VII.5.3.1 SemCorreko c2c euskarara itzulita<br />

VII.4.2.1 atalean azaldutako c2c objektu/subjektuen HMak (51) adibidean<br />

ipini ditugu (zuzentzat eta onargarritzat jo ditugunak bakarrik, beraien ebaluazio<br />

eta guzti), euskarako jokatu 00605818 aditzarentzat ere baliagarriak<br />

diren egiaztatzeko. Buruan izan, c2c eskuratze-teknikak lortzen dituen objektuen<br />

edo subjektuen HMak aditzaren adiera jakin baterako direla. Beraz,<br />

gure kasuan, HM hauekin play 00605818 aditza bakarrik izan beharko dugu<br />

kontuan. HM hauek euskaratzerakoan, beraz, jokatu 00605818 aditz-adierarentzat<br />

bakarrik izango dira.<br />

(51) c2c.obj<br />

play 00605818<br />

00228990 0.215 {activity} “any specific activity or pursuit” ONARGARRIA<br />

04771851 0.035 {contest, competition} “an occasion on which. . . ” ZUZENA<br />

c2c.subj<br />

play 00605818<br />

00017008 0.517 {group, grouping} “any number of entities. . . ” ZUZENA<br />

00004865 0.507 {person, individual, human} “a human being” ZUZENA<br />

Atal honen sarreran esan dugun bezala, ingeleseko argumentuak ezin dira<br />

zuzenean euskarara itzuli. Horregatik, HMen erkaketa egin ahal izateko, bi<br />

hizkuntzetako argumentuak parekatu behar izan ditugu: ingeleseko subjektu<br />

HMak euskarako ergatibo HMak izango dira, eta ingeleseko objektu HMak<br />

euskarako absolutibo eta inesibo HMak izango dira 50 . (52)n, deklinabide<br />

kasuak kontuan hartuta egindako urre-patroiak dakartzagu:<br />

50 Jakina, parekatze hau aditzaren izaera sintaktiko-semantikoaren araberakoa da.


218 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

(52) Objektua:<br />

jokatu 00605818 Absolutiboa<br />

c2c:<br />

04771851 {contest, competition} “an occasion on which a winner is selected from...”<br />

00254052 {game} “a contest with rules to determine a winner”<br />

09065837 {amount of time, period, period of time} “time period a length of time”<br />

jokatu 00605818 Inesiboa<br />

c2c:<br />

00240760 {sport, athletics} “an active diversion requiring physical exertion and...”<br />

Subjektua:<br />

jokatu 00605818 Ergatiboa<br />

c2c:<br />

00004865 {person, individual, someone, somebody, human soul} “a human being”<br />

00017008 {group, grouping} “any number of entities (members) considered as a unit”<br />

<strong>Euskara</strong>ko jokatu 00605818rentzat proposaturiko urre-patroiak (ikus (52)),<br />

ingeleseko HMekin guztiz bateragarriak dira (ikus (53)):<br />

(53) c2c.obj<br />

jokatu 00605818<br />

00228990 0.215 {activity} “any specific activity or pursuit” ONARGARRIA<br />

04771851 0.035 {contest, competition} “an occasion on which. . . ” ZUZENA<br />

c2c.subj<br />

jokatu 00605818<br />

00017008 0.517 {group, grouping} “any number of entities. . . ” ZUZENA<br />

00004865 0.507 {person, individual, human} “a human being” ZUZENA<br />

VII.5.3.2 SemCorreko s2semf euskarara itzulita<br />

VII.4.2.1 atalean azaldutako s2semf objektu/subjektu HMak (54)n ipini ditugu<br />

(bakarrik zuzentzat eta onargarritzat jo ditugunak, beraien ebaluazio<br />

eta guzti), euskarako jokatu 00605818 aditzarentzat ere baliagarriak diren<br />

egiaztatzeko.<br />

Eskuratze-teknika honek aditzaren adiera bakoitzarentzat HMak domeinu-eremu<br />

semantiko bikoteekin adierazten ditu.


VII.5 <strong>Euskara</strong>ko HMak 219<br />

(54) s2semf.obj<br />

play 00605818<br />

obj play-act 3.5 ZUZENA<br />

obj sport-act 1.5 ZUZENA<br />

obj golf-act 0.5 ONARGARRIA<br />

obj basketball-act 0.5 ONARGARRIA<br />

s2semf.subj<br />

play 00605818<br />

subj sport-person 1 ONARGARRIA<br />

subj factotum-group 1 ZUZENA<br />

subj factotum-Tops 1 ONARGARRIA<br />

subj person-person 1 ZUZENA<br />

<strong>Euskara</strong>ko jokatu 00605818rentzat proposaturiko urre-patroiak (ikus (55)),<br />

ingeleseko HMekin guztiz bateragarriak dira (ikus (56)):<br />

(55) Objektua:<br />

jokatu 00605818 Absolutiboa<br />

sport-event<br />

time period-time<br />

jokatu 00605818 Inesiboa<br />

sport-act<br />

play-act<br />

Subjektua:<br />

jokatu 00605818 Ergatiboa<br />

factotum-group<br />

person-person<br />

(56) s2semf.obj<br />

jokatu 00605818<br />

obj play-act 3.5 ZUZENA<br />

obj sport-act 1.5 ZUZENA<br />

obj golf-act 0.5 ONARGARRIA<br />

obj basketball-act 0.5 ONARGARRIA<br />

s2semf.subj<br />

jokatu 00605818<br />

subj sport-person 1 ONARGARRIA<br />

subj factotum-group 1 ZUZENA<br />

subj factotum-Tops 1 ONARGARRIA<br />

subj person-person 1 ZUZENA


220 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

VII.5.3.3 EFEko w2semf euskarara itzulita<br />

VII.4.2.1 atalean azaldutako w2semf objektu/subjektu HMak (ebaluazio eta<br />

guzti) (57)n ipini ditugu (bakarrik zuzentzat eta onargarritzat jo ditugunak),<br />

euskarako jokatu 00605818 aditzarentzat ere baliagarriak diren egiaztatzeko.<br />

EFE domeinuka antolatutako corpusa da, eta guk kirol-domeinuari dagokiona<br />

erabili dugu saiakera ho<strong>net</strong>arako. Corpus ho<strong>net</strong>an w2semf eskuratze-teknika<br />

aplikatu dugu, euskarako HMak eskuratzeko erabili duguna.<br />

Teknika honek eskuratzen dituen HMak aditz-formarentzat dira, aditzaren<br />

adiera guztientzat, alegia. Gainera, probabilitate kopuru altue<strong>net</strong>ik baxuenera<br />

ordenaturiko domeinu-eremu semantiko bikoteak dira.<br />

(57) w2semf.play.kirola.obj<br />

obj play-act 50.013 ZUZENA<br />

obj factotum-act 30.390 ONARGARRIA<br />

obj time period-time 29.009 ZUZENA<br />

obj sport-event 23.514 ZUZENA<br />

obj sport-act 23.038 ZUZENA<br />

w2semf.play.kirola.subj<br />

subj x 372 ONARGARRIA<br />

subj sport-group 44.01 ONARGARRIA<br />

<strong>Euskara</strong>ko jokatu 00605818rentzat proposaturiko urre-patroiak (ikus (58)),<br />

ingeleseko HMekin guztiz bateragarriak (ikus (59)) dira:<br />

(58) Objektua:<br />

jokatu 00605818 Absolutiboa<br />

sport-event<br />

time period-time<br />

jokatu 00605818 Inesiboa<br />

sport-act<br />

play-act<br />

Subjektua:<br />

jokatu 00605818 Ergatiboa<br />

factotum-group<br />

person-person


VII.5 <strong>Euskara</strong>ko HMak 221<br />

(59) w2semf.jokatu.kirola.obj<br />

obj play-act 50.013 ZUZENA<br />

obj factotum-act 30.390 ONARGARRIA<br />

obj time period-time 29.009 ZUZENA<br />

obj sport-event 23.514 ZUZENA<br />

obj sport-act 23.038 ZUZENA<br />

w2semf.jokatu.kirola.subj<br />

subj x 372 ZUZENA<br />

subj sport-group 44.01 ONARGARRIA<br />

VII.5.4 Ebaluazioaren azterketa<br />

VII.7 taulak laburbiltzen du euskararako jokatu 00605818rentzat eskuratutako<br />

edo itzulitako HMen emaitzen kalitatea. Corpus bakoitzean erabili den<br />

eskuratze-teknika bakoitzetik, zenbat objektu/subjektuen edo absolutibo/<br />

ergatibo/inesiboen HM diren zuzenak (urre-patroiarekin bat datozenak),<br />

zenbat diren onargarriak (urre-patroiaren hiperonimo edo hiponimo bat direnak)<br />

eta urre-patroietatik zenbat ez diren eskuratu (eskuratu gabeak deitu<br />

duguna) erakusten du taulak. Datu hauek kopuru zehatzak erabiliz adierazi<br />

ditugu; esaterako, eskuratze-teknika bakoitzaren objektu/subjektuen HMetatik<br />

(gehienez hamar) zenbat diren zuzenak eta onargarriak zenbakitu ditugu;<br />

eta baita eskuratze-teknika bakoitzarentzat proposatutako urre-patroietatik<br />

zenbat geratu diren eskuratu gabe ere. Horrelako taula bana egin dugu<br />

saiakera ho<strong>net</strong>an erabilitako kirol-aditz bakoitzarentzat, hots, MCRtik aukeratutako<br />

zortzi synsetentzat 51 .<br />

VII.8 taulan euskararako zortzi aditzentzat eskuratutako edo itzulitako<br />

HMen emaitzak laburbildu ditugu, oraingoan ehunekotan adierazi ditugularik<br />

52 . Taula ho<strong>net</strong>an zuzenen eta onargarrien kopuruak batu ditugu (Batura<br />

z/o zutabean).<br />

Eskuratu gabeen zerrendan datu azpimarragarriena % 0 zenbakira hurbiltzen<br />

dena da, honek eskuratze-teknikak urre-patroiko HM guztiak lortu<br />

dituela esan nahi duelako. Zuzen eta onargarrien zerrendan, aldiz, datu nabarmenenak<br />

% 100era gerturatzen direnak dira, noski. % 100 lortzeak eskuratze-teknikak<br />

eskuratutako HM guztiak zuzenak/onargarriak direla adieraziko<br />

51 Taula hauek guztiak C eranski<strong>net</strong>an daude ikusgai.<br />

52 Taula ho<strong>net</strong>an absolutiboaren eta ergatiboaren datuak bakarrik adierazi ditugu, aditz<br />

guztiekin agertu zaizkigunak, hain zuzen ere.


222 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Corpusa HMak Kasua Zuzena Onargarria Eskuratu gabea<br />

Egunkaria osoa w2semf<br />

Egunkaria<br />

kirola<br />

w2semf<br />

SemCor c2c<br />

SemCor s2semf<br />

EFE<br />

kirola<br />

w2semf<br />

abs 10etik 2 0 0<br />

ine 0 10etik 1 0<br />

erg 10etik 1 10etik 3 2tik 1<br />

abs 10etik 1 0 2tik 1<br />

ine 10etik 2 10etik 1 0<br />

erg 0 10etik 4 2tik 1<br />

obj 8tik 1 8tik 1 4tik 1<br />

subj 5etik 2 0 0<br />

obj 10etik 2 10etik 3 4tik 2<br />

subj 7tik 2 7tik 2 0<br />

obj 10etik 4 10etik 1 0<br />

subj 0 10etik 4 2tik 1<br />

VII.7 Taula: <strong>Euskara</strong>rako eskuratutako eta ingelesetik itzulitako jokatu<br />

00605818ren HMen emaitzak.<br />

luke.<br />

Taula hauek aurrean izanda, hurrengo atalean, hauetatik ondoriozta ditzakegun<br />

emaitzak komentatuko ditugu.<br />

VII.5.4.1 <strong>Euskal</strong>dunon Egunkaritik eskuratutako HMak<br />

<strong>Euskal</strong>dunon Egunkaritik, w2semf teknikarekin, eskuratutako objektuen (euskarako<br />

kasuan, absolutiboen) HMak ingelesekoenak baino hobexeak dira,<br />

urre-patroi gehienak eskuratu direlako (% 3,5 dira eskuratu gabeak). Dena<br />

den, datu hau aztertu beharrekoa da, susmoa baitugu euskarako objektua<br />

beste kasu-markekin adierazita datorrenean, emaitzak ez direla horren onak<br />

(adibidez, entrenatu aditzaren kasuan inesibo HMen emaitzak oso txarrak<br />

dira 53 ). Baliteke honen arrazoia hauek inplizituki adieraziak datozela izatea.<br />

Hau da, irakurleak testua ulertzeko beraien beharrik ez duenez, baliteke<br />

testuan argumentu hauek ez azaltzea. Hala balitz, eskuratu gabeko urrepatroien<br />

kopurua handiagoa litzateke 54 .<br />

Hala ere, <strong>Euskal</strong>dunon Egunkaritik eskuratutako HM asko onargarriak<br />

diren arren, subjektuen kasuan, gehienak (% 75) eskuratu gabe geratu di-<br />

53 Ikus C eranskina.<br />

54 Honi buruz VII.5.2.1 atalean mintzatu gara.


VII.5 <strong>Euskara</strong>ko HMak 223<br />

Corpusa HMak Kasua Zuzena Onargar. Batura z/o Eskuratu gabea<br />

Egunkaria abs % 25,7 % 25,7 % 51,4 %3,5<br />

w2semf<br />

osoa erg %3,7 % 62,5 % 66,2 % 81,2<br />

Egunkaria abs % 25,7 % 31,4 % 57,1 %3,5<br />

w2semf<br />

kirola erg %2,8 % 62,5 % 65,3 %75<br />

SemCor c2c<br />

SemCor s2semf<br />

EFE<br />

kirola<br />

w2semf<br />

obj %6,9 % 26,4 % 33,3 %44<br />

subj %38 %7,1 % 45,1 %3,5<br />

obj % 14,2 % 42,8 %57 % 64,2<br />

subj %7 % 37,6 % 44,6 %60<br />

obj % 14,1 %10 % 24,1 % 45,4<br />

subj %2,7 % 21,8 % 24,5 %41<br />

VII.8 Taula: <strong>Euskara</strong>rako eskuratutako eta ingelesetik itzulitako HMen emaitzen<br />

portzentaiak, MCRtik aukeratutako zortzi synsetentzat.<br />

ra. Zergatia ez dugu sakonki aztertu baina susmoa dugu hurrengo arrazoiek<br />

zerikusia dutela: euskarako corpusaren tamaina txikiegia dela eta euskarako<br />

analizatzaile sintaktikoa ez deka ingelesekoa bezain ona. Bestalde, aurreprozesuan<br />

entitateak ez lantzeak ere izan du eraginik. Ergatiboen HMetako<br />

gehienak izen bereziak (x) edo pronominalak (pro) dira. Hauek onargarritzat<br />

jo ditugun arren, ezin dira urre-patroiekin parekatu, eta, ondorioz, ezin<br />

ditugu eskuratu gisa kontsideratu. Arrazoi horregatik, euskarako HMetan,<br />

ergatiboaren kasuan, eskuratu gabeen kopurua asko handitu da.<br />

Bestalde, ingeleseko HMekin gertatu ez den bezala, euskararen kasuan,<br />

corpusa domeinu zehatz batean egoteak ez du aditzaren adiera desanbiguatzen.<br />

Corpus osoko eta kirol-domeinuko euskarako HMen emaitzak oso antzekoak<br />

dira. Are gehiago, kasu askotan, kirol corpusean eta corpus osoan,<br />

HMak berdin-berdinak dira. Hots, aztergai dugun aditz horren agerpenak<br />

kirol-domeinuko corpusean bakarrik daudenez, corpus osoko datuak kirol atalaren<br />

berdinak dira. Hala ere, euskarako corpus handiago batean saiatuz gero,<br />

corpusaren domeinuaren eragina nabarituko litzatekeela pentsatzen dugu.<br />

VII.5.4.2 SemCorretik eskuratutako HMak<br />

Corpus ho<strong>net</strong>an bi eskuratze-teknika erabili ditugu: c2c eta s2semf. Bi<br />

eskuratze-teknikek eskuratutako HMak euskararentzat baliagarriak dira (HM<br />

zuzenak eta onargarrietaz ari gara, noski).


224 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

Ikus daitekeen bezala, teknika hauen emaitzak berdin-berdinak dira ingeleserako<br />

eta euskararako. Hortaz, eleaniztasunaren hipotesia egiaztatu egiten<br />

da; hau da, saiakera ho<strong>net</strong>arako aukeratutako ingeleseko aditzen HMak berberak<br />

dira euskararako aditz homologoentzat. Hala eta guztiz ere, itzulpena<br />

egiterakoan, kontuan izan beharrekoa da bi hizkuntzetan argumentuak ez<br />

direla deklinabide kasu berarekin gauzatzen. Aipagarriak dira ingeleseko c2c<br />

eskuratze-teknikak lortutako subjektuentzako emaitza onak. Honen arrazoia<br />

corpusean entitateak markatuak egotea izan daiteke. Hala, entitate horiek<br />

person, group, location eta abar bezalako synsetekin adierazten dira.<br />

Ingeleseko emaitzak azaltzerakoan esan dugun bezala, kontuan izanda<br />

SemCor semantikoki etiketatutako corpusa dela, emaitza hobeak espero genituen.<br />

Corpusaren tamaina (erabilitako corpus txikiena dugu hau) eta etiketatze-erroreak<br />

izan daitezke zergatiak. kasu ho<strong>net</strong>an.<br />

VII.5.4.3 EFEtik eskuratutako HMak<br />

Corpus ho<strong>net</strong>an eskuratze-teknika bakarra erabili dugu: w2semf. Bai ingelesez<br />

eta bai euskaraz, emaitza nahiko onak lortu ditugu. SemCorreko c2c-ekin<br />

alderatuz, EFEren w2semf-en zuzen/onargarrien batura txikiagoa da. Baina<br />

kontuan izanda semantikoki etiketatu gabeko corpusa dela, azpimarratu<br />

beharreko emaitzak dira. Corpusaren domeinuak (kirola) beste adierak baztertzen<br />

lagundu duela dirudi. Aipatu bezala, euskarako kirol-aditzen agerpen<br />

gehienak kirol-domeinuari dagokion corpus-atalean bakarrik azaldu dira.<br />

VII.5.5 <strong>Euskara</strong>ko HMen emaitzen laburpena<br />

Oro har, emaitzei erreparatuz, <strong>Euskal</strong>dunon Egunkaria corpusaren gainean<br />

aplikatutako w2semf teknikak eskaintzen dizkigu emaitzarik onenak, batez<br />

ere, objektuei dagozkienak. SemCorreko c2c eskuratze-teknikaren subjektuen<br />

HMak azpimarragarriak dira, % 3,5a soilik uzten baitu eskuratu gabe. Hala,<br />

badirudi teknika hauen arteko ebakidura eginez gero, lortuko genituzkeela<br />

emaitzarik onenak.<br />

Amaitzeko, esan dezakegu ingeleserako HMak euskarara itzul daitezkeela.<br />

Izan ere, ikusi dugu kirol-domeinuko aditzekin, synset berean dauden<br />

aditzek argumentu mota berdinak hartzen dituztela, hots, aditzen argumentuen<br />

tasunak eleanitzak direla. Hala ere, hizkuntza bakoitzak tasun hauek<br />

era ezberdi<strong>net</strong>an azaleratzen ditu. Gogoratu, jokatu aditzak, adibidez, objektua<br />

inesiboarekin adierazten duela. Argumentuen tasunak parekatzeko


VII.6 Ondorioak 225<br />

garaian, beraz, ezberdintasun hauek kontuan izan beharko dira.<br />

VII.6 Ondorioak<br />

Kapitulu ho<strong>net</strong>an azaldu dugun azterlanak bi helburu nagusi zituen:<br />

• Hainbat eskuratze-teknika erabiliz ingeleseko eta euskarako corpus ezberdi<strong>net</strong>atik<br />

eskuratutako HMak aztertzea eta konparatzea.<br />

• Ingeleserako eskuratutako HMak euskararako baliagarriak diren aztertzea.<br />

Azterketa ugari egin dira HMen eskuratze automatikoari buruz, baina<br />

ez hainbeste eskuratze automatiko horren ebaluazio linguistikoari buruz; are<br />

gutxiago euskarari dagozkionak. Lan honen ekarpen garrantzitsu bat horretan<br />

datza, hain zuzen ere. Egun erabiltzen diren hainbat eskuratze-tekniken<br />

azterketa eta ebaluazio linguistikoa egin ondoren, lan honen bidez, euskarako<br />

HMen eskuratze automatikoa garatzeko aukera eta proposamen berriak<br />

eskaintzen dira.<br />

Azterlan honek dakarren beste ekarpen nagusia eleaniztasunaren hipotesiaren<br />

bideragarritasunari buruzkoa da; hots, ingeleserako eskuratutako<br />

HMak euskararako erabilgarriak izan daitezkeela frogatu dugu. Honenbestez,<br />

hizkuntza batentzat eskuratutako HMak beste edozein hizkuntzatarako<br />

baliagarriak direla esatera ausartzen gara, nahiz eta baieztapen hau guztiz<br />

frogatzeko azterketa osoago bat egitea komeni den. Izan ere, aztertu ditugun<br />

aditzak kirol-domeinukoak dira eta beste domeinuetan begiratu beharko<br />

litzateke hipotesi hau baieztatzeko. Gainera, hizkuntza desberdinekin portaera<br />

hori errepikatzen den egiaztatu beharko litzateke. Hala ere, badirudi<br />

ingelesak eta euskarak konpartitzen duten portaera hau, errazago beteko dela<br />

elkarren antza handiagoa (edo gutxienez jatorri bera) duten bi hizkuntzen<br />

artean; adibidez, frantsesa eta ingelesa edota gaztelania eta frantsesa.<br />

<strong>Euskara</strong>ren LNPrako ekarpen garrantzitsua dugu hau, euskarak corpus<br />

eta baliabide kopuru txikiagoak dituelako, eta hipotesi ho<strong>net</strong>az baliatuz gero,<br />

baliabide gehiago dituzten hizkuntzenak erabiltzeko aukera eskaintzen<br />

zaigulako.<br />

Saiakera honen emaitzak behin-behinekoak dira, aditz-adiera batzuk bakarrik<br />

aztertu baititugu, eta eskuratze-teknika guztiak ezin izan direlako corpus<br />

guztien gainean erabili. Hortaz, honako hau hastapeneko lana dugu,


226 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

eta hemen aurkeztutako emaitzetatik eta ondorioetatik abiatuta, azterketa<br />

honen esparrua zabaltzeko asmoa dugu.<br />

Ingeleseko HMetatik, bestalde, honako hauek ondorioztatu ditugu:<br />

• Corpus bakoitzak bere idiosinkrasia du eta hori emaitzetan<br />

islatzen da. SemCor eta BNCn eskuratze-teknika berak erabili dira,<br />

eta SemCorretik eskuratutakoak BNCkoak baino hobeak dira, SemCor<br />

semantikoki etiketatutako corpusa delako. Hala ere, emaitza hobeak<br />

espero ziren. Corpus txikiagoa izatea, etiketatze-erroreak izatea eta<br />

corpuseko adiera batzuk MCRn ez egotea izan daitezke arrazoiak. Azkenik,<br />

EFE corpusa domeinu zehatz batekin erabiltzeak emaitza nahiko<br />

onak eman ditu.<br />

• c2c eskuratze-teknikak ez dira w2c-renak baino askoz hobeak.<br />

Lehenengoaren kasuan, c2c, aditza klase bezala kontsideratzeak (troponimoaz<br />

baliatuz) ez dirudi emaitza hobeak lortzen laguntzen duenik.<br />

Eskuratze-teknika hau oinarri egokia iruditzen zitzaigun HMen eskuratze<br />

eleanitza egiteko, hau da, hizkuntza bateko HMak zuzenean beste<br />

batera itzultzeko. Emaitza ikusita, bide ho<strong>net</strong>atik jarraitu aurretik,<br />

honek ikerkuntza gehiago behar duela argi dago. Bigarrenaren kasuan,<br />

aldiz, w2c, HMen kalitatea nahiko ona izan arren, hauek aditzaren adiera<br />

guztientzat dira, eta erabilera konputazional mugatua dute. Eskuratze-teknika<br />

hau domeinu konkretu bateko corpusean erabilita emango<br />

lituzkeen emaitzak ikustea interesgarria izan daiteke.<br />

• Domeinu-eremu semantiko bikoteekin adierazitako HMak interpretatzeko<br />

zailagoak dira, synsetekin adierazitakoak baino.<br />

Hala ere, baliabide gutxien eskatzen duten eskuratze-teknikak dira, eta<br />

hauek EFE corpusaren gainean (kirol-domeinuaren gainean), emaitza<br />

nahiko onak lortu dituzte.<br />

• Domeinu batean oinarritutako eskuratze-teknikek HM hobeak<br />

eskuratu dituzte, eta domeinuaren arabera aditz horren adiera<br />

mugatu daiteke. Hala ere, beste aditzekin frogatu beharko litzateke;<br />

dirudienez, aditz batzuk domeinu batekin beste batzuek baino lotura<br />

gehiago izan baitezakete.


VII.6 Ondorioak 227<br />

• Izenen anbiguotasuna arazo bat da. Ikusiditugugame eta defentsa<br />

bezalako izenekin gertatu diren nahasketak. Beraien MCRko synset<br />

edo domeinu-eremu semantiko egokia hartu ordez, makinak beste synset<br />

edo domeinu-eremu semantiko bat aukeratu du, eta ondorioz, HM<br />

okerra lortu du.<br />

• Erroreen azterketatik ondoriozta dezakegu, prozesaketa linguistiko<br />

hobe batekin, HM hobeak lortuko genituzkeela. Hau<br />

da, analizatzaile sintaktikoan aurkitutako erroreak konponduz gero, eta<br />

anafora eta izen berezien tratamendua landuz gero, okerrak ziren HM<br />

asko eragotziko genituzkeela uste dugu.<br />

Ingeleseko eta euskarako HMen konparaketari dagokionez:<br />

• <strong>Euskara</strong>ko HMen kalitatea ingelesekoena baino zertxobait handiagoa<br />

da. Baliteke argumentuak kasu-marketan banatu izanak eraginik<br />

izatea. Susmoa dugu euskarako objektua beste kasu-markekin<br />

adierazita datorrenean, emaitzak ez direla horren onak.<br />

• Ingeleseko aditzen HMak euskarara zuzenean itzul daitezke.<br />

Hala ere, gerta daiteke ingeleseko objektua euskarako kasu ezberdinekin<br />

agertzea (inesiboan adibidez). Beraz, moldaketaren bat beharrezkoa<br />

litzateke.<br />

Oro har, domeinuetaz baliatuz gero, aditz-adieraren HM hobeak lortuko<br />

ditugu. Bestalde, emaitzek erakusten dute HMak hizkuntza batetik bestera<br />

itzul daitezkeela. Horrela, baliabide gehiago dituen hizkuntzaz baliatu<br />

gaitezke euskararen eskuratze automatikorako. Dena den, hizkuntzen argumentuen<br />

ezaugarri linguistikoak batzuetan ez datoz bat eta moldatu egin<br />

behar dira.<br />

Etorkizuneko lanari begira, eta honako hau hastapeneko lan bat izaki, badaude<br />

sakonago lantzeko hainbat puntu. Hasteko, kirolaren domeinuaz gain<br />

beste domeinu batzuetako aditzak ere aztertu nahiko genituzke (finantzaren<br />

domeinukoak, adibidez). Bestalde, domeinu bakarreko corpusean erabili ez<br />

diren eskuratze-teknikak (w2c eta c2c) mota horretako corpusekin probatu<br />

nahiko genituzke. Hori egin baino lehen, ordea, eskuratze-teknika hauen algoritmoak<br />

hobetzen saiatuko gara. Izan ere, SemCorren oinarrituta izandako<br />

emaitzak ikusita, eskuratze-teknika hauek berriro erabili baino lehen, antzemandako<br />

erroreak gainditzea komeni da (analizatzaile sintaktikoaren akatsak


228 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

konpondu, anafora eta izen berezien tratamendua egin, aditz klaseetan troponimia<br />

kontuan ez hartu, eta abar).<br />

Hurrengo saiakeretan, domeinu-eremu semantiko bikoteekin adierazitako<br />

HMak alde batera utziko dira. Hauek lortutako emaitzak oso aldakorrak dira<br />

ebaluatzeko irizpideen arabera. Gainera, ebaluatzean izandako arazoetaz<br />

jabetu gara, baita synsetekin parekatzeko duten zailtasunez ere. Horiengatik<br />

guztiengatik, beste eskuratze-tekniketan oinarritzea erabaki dugu.<br />

Bestalde, ingeleserako eta euskararako eskuratutako HMen ebakidura eginez<br />

gero, errore ugari desagertuko liratekeela uste dugu, eta hipotesi hau<br />

egiaztatu nahiko genuke.<br />

<strong>Euskara</strong>rako HMei dagokienez, w2semf eskuratze-teknikatik lortutakoetaz<br />

gain, mota gehiago probatu nahi ditugu. Hasiera batean, w2c eta c2c<br />

teknikekin hastea pentsatu dugu. Horrela, euskarako datu gehiago izango<br />

dugu ingelesekoekin erkatzeko. Honekin batera, euskarako eskuratze-teknikak<br />

hobetzeko, semantikoki etiketatzen ari garen corpusa (EuSemcor) erabiltzea<br />

pentsatu dugu. Azkeneko helburua eskuratze-teknika egokiarekin jo<br />

ondoren, eskuratzen diren HMak <strong>Euskal</strong> <strong>WordNet</strong>en txertatzea da.


Ondorioak eta etorkizuneko lanak<br />

VIII. KAPITULUA<br />

Ikerlan honen emaitza gisa euskararen semantikaren azterketa aplikaturako<br />

oinarrizkoa den EBL eleanitza diseinatu eta garatu dugu: <strong>Euskal</strong> Word-<br />

Net.<br />

EBL hau, IXA taldeak garatutako gainerako tresnak bezalaxe, euskararen<br />

azterketa aplikaturako egitasmo orokor baten barruan kokatzen da, eta bide<br />

horretan aurrera egiteko oinarrizko baliabidetzat jo daiteke, batez ere, hizkuntzaren<br />

ulermena beharrezkoa duten atazetan; hala nola, hitzen adieren<br />

desanbiguazioan, itzulpen automatikoan, egitura sintaktikoen desanbiguazioan,<br />

informazioaren erauzketan eta galdera-erantzun automatikoan.<br />

Erabilera konputazionalez gain, <strong>Euskal</strong> <strong>WordNet</strong>en kontsultarako interfazea<br />

publikoa denez 1 , hiztegi eta thesaurus gisa ere erabil daiteke; batetik,<br />

hiztegi elebakar gisa, hitzen adierak kontsultatzeko, hiztegi tradizionalen<br />

antzera, <strong>Euskal</strong> <strong>WordNet</strong>ek synset bakoitzeko definizio edo glosa bat baitu<br />

(gehie<strong>net</strong>an adibide eta guzti 2 ); eta bestetik, hiztegi elebidun gisa, synset bakoitzak<br />

dagokion ingeleseko, gaztelaniako, katalaneko eta italierako ordainak<br />

baititu. Ho<strong>net</strong>az gain, synset bakoitzean hizkuntza bakoitzeko ale lexikal<br />

bat baino gehiago egon daitezkeenez, thesaurus bezala balia daiteke, adiera<br />

berdina adierazteko sinonimo desberdinak ditugulako. Hala, erabilera orokorreko<br />

baliabidea garatu dugula esan daiteke.<br />

1 http://ixa2.si.ehu.es/mcr/wei.html (2007-07-02an atzitua).<br />

2 Glosak EuSemcor proiektuaren barruan lantzen ari gara; synseta editatu, eta honen<br />

agerpenak etiketatu ondoren, synsetaren glosa gehitzen dugu.


230 Ondorioak eta etorkizuneko lanak<br />

VIII.1 Ondorio nagusiak<br />

Tesi-lan ho<strong>net</strong>an, <strong>Euskal</strong> <strong>WordNet</strong> sortzeko eta garatzeko jarraitu dugun ibilbidearen<br />

berri eman dugu, eta bertatik zenbait ondorio atera ditugu, hurrengo<br />

ataletan laburbildu ditugunak.<br />

VIII.1.1 EBLen azterketa kritikoa<br />

EBLen ereduei dagokionez, ez dago eredurik, oraindik, hizkuntzaren ulermenerako<br />

beharrezkoa den informazio guztia duenik. Arrazoi horregatik,<br />

guretzat garrantzitsua izan da orotariko informazioa bil dezakeen EBL bat<br />

egitea. Horretarako, urrats hauek eman ditugu:<br />

• Batetik, IXA taldearen beharretara egokitzen den lexikoiaren ezaugarriak<br />

zerrendatu ditugu: non eta nola erabili nahi dugun, horretarako<br />

zer informazio-mota txertatuko dugun sarrera bakoitzean, eta zein eredu<br />

edo formalismoren arabera jasoko duen informazio hori.<br />

• Bestetik, erdal hizkuntzetako LNPren arloan oihartzuna izan duten<br />

hainbat EBLen ereduak aztertu ditugu, aipatutako ezaugarrietara gehien<br />

egokitzen den formalismoaren bila. Horretarako, eredu hauen arteko<br />

azterketa konparatiboa egin dugu.<br />

• Azkenik, IXA talderako baliagarria izango den eredu bat aukeratu dugu<br />

—<strong>WordNet</strong>, eta honen ildotik sortutako Euro<strong>WordNet</strong> eta The<br />

Multilingual Central Repository (MCR)—, eta hartutako erabaki<br />

honen arrazoiak azaldu ditugu:<br />

(a) Eredu hauek ez daude teoria bakar bati lotuta, bestelako eredu<br />

eta teoria ezberdinekin erabil daitezke. Horren proba da formalismo<br />

eta lan teoriko asko, gerora, <strong>WordNet</strong>en adiera edo/eta klase<br />

semantikoekin aberastu dituztela.<br />

(b) Eredu hauek lexiko zabala eta garatua dute; sarrera bakoitzean ale<br />

lexikalaren adiera, klase semantikoa, kategoria eta beste sarrerekin<br />

izan ditzaken erlazio semantikoak jasotzen dituzte.<br />

(c) Inplementatutako EBLak dira. Honen adierazgarri dira Word-<br />

Neten oinarrituta egin diren publikazioen kopurua (gaur egun,<br />

<strong>WordNet</strong>eko web orriak3 422 inguru jasotzen ditu).<br />

3 http://www.cogsci.princeton.edu/cgi-bin/webwn (2007-07-02an atzitua).


VIII.1 Ondorio nagusiak 231<br />

(d) <strong>WordNet</strong> EBL elebakarra izan arren, honen ildotik sortutako<br />

Euro<strong>WordNet</strong> eta MCR eleanitzak dira.<br />

VIII.1.2 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako diseinua eta metodologia<br />

<strong>WordNet</strong>, eta honen ildotik sortutako Euro<strong>WordNet</strong> eta MCR ereduei lotutako<br />

euskal EBLari <strong>Euskal</strong> <strong>WordNet</strong> deitu diogu. <strong>Euskal</strong> <strong>WordNet</strong>ek hauen<br />

egitura eta oinarriak izan arren, honen garapena metodologia eta ikuspegi<br />

ezberdinak baliatuta egin zitekeen. Hauek guztiak aztertu ditugu, eta hauexek<br />

dira, orain arte, <strong>Euskal</strong> <strong>WordNet</strong>en garapenean hartu ditugun erabaki<br />

metodologikoak:<br />

• Alde batetik, <strong>Euskal</strong> <strong>WordNet</strong> sortzeko diseinua definitu dugu: euskarako<br />

adieren inbentarioa eta hierarkia guk geuk sortu ordez, Word-<br />

Neteko hierarkiari jarraitu eta bertako synsetei zuzenean esleitu dizkiegu<br />

euskarako ordainak.<br />

• Bestetik, synsetei euskarako ordainak esleitzeko garaian, estaldura —<br />

sarrera lexikalen kopurua ahalik eta handiena izatea— eta kalitatea<br />

—sarrera lexikalen informazioa zuzena izatea— uztartzeko garrantzia<br />

nabarmendu dugu. Ezaugarri hauek izan dira, hain zuzen ere, EBLaren<br />

garapen-metodologia definitu dutenak, eta <strong>Euskal</strong> <strong>WordNet</strong>en garapenaldi<br />

eta orrazketa ezberdinak eragin dituztenak.<br />

Beste ereduetan egindakotik ondorioztatu dugu, EBLa sortzearekin batera,<br />

corpus bat etiketatzea beharrezkoa dela EBL hori aberasten joateko.<br />

Izan ere, corpusean adibide, adiera eta erabilera errealak agertzen dira. Hala,<br />

EBLaren garapenari lotuta, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak erabiliz eskuz<br />

etiketatzen dugun euskarako corpus semantikoa aurkeztu dugu: EuSemcor.<br />

<strong>Euskara</strong>ko corpus semantiko bat izate hutsak berez daukan garrantziaz gain,<br />

corpus honek <strong>Euskal</strong> <strong>WordNet</strong> etengabe orrazteko, garatzeko eta aberasteko<br />

balio digu.


232 Ondorioak eta etorkizuneko lanak<br />

VIII.1.3 <strong>Euskal</strong> <strong>WordNet</strong> eta kontzeptuen errepresentazioa<br />

Word<strong>net</strong> eleanitzekin lan egiteak hizkuntzen arteko ezberdintasunak gainditu<br />

beharra dakarrela erakutsi dugu. Gure kasuan, ingeleseko word<strong>net</strong>aren gainean<br />

lan egiteak tratamendu berezia behar duten eta synseten adierazpenean<br />

eragina duten bi fenomeno linguistiko azaldu ditugu:<br />

• Lexikalizazioa: Ikusi dugun legez, hizkuntzen arteko lexikalizazioa<br />

ez dator beti bat; hau da, hizkuntza bateko kontzeptuak ez dira beti<br />

era berdinean lexikalizatzen beste hizkuntzetan. Honi aurre egin ahal<br />

izateko, lexikalizazioaren eta fenomeno honen kasuistikaren adibideak<br />

aurkeztu eta aztertu ditugu. Azterketa horretan, argi geratu da lexikalizazioaren<br />

mugak lausoak direla, eta askotan lan zaila dela hitz bat edo<br />

hitz anitzeko bat lexikalizatua dagoen ala ez ebaztea. Lexikalizazioaren<br />

eztabaidak eragoztearren, eta LNPko atazen erabilgarritasunari begira,<br />

<strong>Euskal</strong> <strong>WordNet</strong>en zer adierazpen mota txertatu behar genituen zehaztu<br />

dugu. Laburbilduz, irizpide hauen bitartez, honako hau arrazoitu<br />

dugu: lexikalizaturiko ordainez gain, zalantzazko lexikalizazioa duten<br />

ordainak ere <strong>Euskal</strong> <strong>WordNet</strong>en gehitzea beharrezkoa dela.<br />

• Hierarkia kontzeptualen antolaketa: Hizkuntza ezberdi<strong>net</strong>ako<br />

EBLak bateratzean, bi hierarkien artean aldeak daudela ere azpimarratu<br />

dugu. Honen adierazgarri, <strong>Euskal</strong> <strong>WordNet</strong>en gertatzen den<br />

auto-hiponimia faltsua dugu: hizkuntza batean bi hitz desberdinekin<br />

adierazten den desberdintasun hierarkikoa, bete hizkuntzetan ez da<br />

hain argia hitz bera erabiltzen delako. Hierarkiaren eraginez ematen<br />

diren fenomenoak eta kasuistika aztertu ditugu, eta hauek guztiek <strong>Euskal</strong><br />

<strong>WordNet</strong>en izango duten tratamendurako irizpideak ere definitu<br />

ditugu, fenomeno bera beti era berean adierazia izan dadin EBLan.<br />

• Irizpide hauek eraginda, synseten errepresentaziorako <strong>Euskal</strong> Word-<br />

Neten marka edo ezaugarri berriak sortu ditugu. Horrekin batera, hitz<br />

anitzeko esapideen (HAEen) barne-errepresentazio aberatsago baten<br />

proposamena ere egin dugu, non HAEaren barne-osagaiak harreman<br />

semantikoen bidez erlazionatzen diren. Honenbestez, abiapuntu gisa<br />

hartu dugun EBLaren errepresentazioa hedatu eta aberastu dugula<br />

esan dezakegu.


VIII.2 Ekarpenak 233<br />

VIII.1.4 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />

<strong>Euskal</strong> <strong>WordNet</strong> hautapen-murriztapenen informazioarekin hedatu ahal izateko<br />

egin dugun ikerketa azaldu dugu. Ingeleseko eta euskarako kirol-arloko<br />

aditz batzuen objektuen eta subjektuen hautapen-murriztapenen azterketa<br />

deskribatu dugu, eta honako emaitza hauek lortu ditugu:<br />

• Hainbat eskuratze-teknika erabiliz, ingeleseko eta euskarako corpus ezberdi<strong>net</strong>atik<br />

eskuratutako hautapen-murriztapenen ebaluazioa eta azterketa<br />

konparatiboa.<br />

• Hautapen-murriztapenak eleanitzak direnaren zantzuak topatu ditugu;<br />

zehazkiago esanda, ingeleserako eskuratutako hautapen-murriztapenak<br />

euskaraz ere erabilgarriak izan daitezkeela egiaztatu dugu.<br />

VIII.2 Ekarpenak<br />

Tesi-lan honen ekarpen nagusienak euskararen semantika lantzeko EBL eleanitza<br />

(<strong>Euskal</strong> <strong>WordNet</strong>) eta honen corpus osagarria (EuSemcor) dira. VIII.1<br />

taulan, gaur egun, <strong>Euskal</strong> <strong>WordNet</strong>en dauden izenen eta aditzen kopuruak<br />

aurkezten ditugu; VIII.2 taulan EuSemcorrekoak.<br />

Guztira Izenak Aditzak<br />

Adierak 50.670 41.160 9.510<br />

Lemak 26.565 23.069 3.496<br />

Synsetak 32.456 28.705 3.751<br />

Hutsune lexikalak 2.499 2.198 301<br />

Izen bereziak 722 722 0<br />

VIII.1 Taula: <strong>Euskal</strong> <strong>WordNet</strong>: kopuruak<br />

Bestalde, EBLen garapenaren arloan lagungarri izan daitezkeen hurrengo<br />

ekarpenak ere aurkezten ditugu:<br />

• EBLen azterketa kritikorako bibliografia-bilketa eta azterketa konparatiboa<br />

egin dugu, non egun LNPren arloan oihartzuna duten<br />

EBL-ereduen ezaugarri nagusiak aurkeztu ditugun.


234 Ondorioak eta etorkizuneko lanak<br />

Eginak Egingabeak Guztira<br />

Hitz Agerpen Hitz Agerpen Hitz Agerpen<br />

Polisemikoak 442 39.208 2.888 29.663 3.330 68.871<br />

Monosemikoak 192 7.281 1.618 9.325 1.810 16.606<br />

EusWNen ez daude 83 487 10.987 39.449 11.070 39.936<br />

Guztira 717 46.976 15.493 78.437 16.210 125.413<br />

VIII.2 Taula: EuSemcor: kopuruak<br />

• <strong>Euskal</strong> <strong>WordNet</strong>en diseinuaren deskribapenarekin batera, estaldura eta<br />

kalitatea uztatzea helburu duen eraikuntza-metodologia proposatu dugu.<br />

• EBL eleanitz bat sortzean azaltzen diren fenomeno linguistikoen deskribapena<br />

egin dugu, eta, gainera, hauek EBLan lantzeko eta adierazteko<br />

irizpideak zehaztu ditugu.<br />

• EBL baten eta semantikoki etiketatutako corpus baten garapenak bateratzeko<br />

bideak erakutsi ditugu.<br />

• MCRren ereduaren aberasketa: HAEen osagaiak semantikoki erlazionatzen<br />

dituen errepresantazio-eredu bat proposatu dugu.<br />

• Hautapen-murriztapenen eskuratze automatikoaren ebaluazio linguistikoa<br />

egin dugu. Honi esker, hautapen-murriztapenen eskuratze automatikoa<br />

garatzeko aukera eta proposamen berriak eskaini ahal izan<br />

ditugu, gerora, lortuko dugun informazio hori EBLan txertatzeko asmoarekin.<br />

VIII.3 Etorkizuneko lanak<br />

<strong>Euskal</strong> <strong>WordNet</strong> egunez egun handitzen eta eguneratzen ari da, eta horrekin<br />

batera, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetekin eskuz etiketatzen ari garen euskarako<br />

corpusa (EuSemcor). Egun, maiztasun handieneko izenen lanketa amaitzen<br />

ari gara, eta, dagoeneko, aditzen aberasketari ere ekin zaio. Etorkizunean,<br />

gure asmoa aditzak, adjektiboak eta adberbioak (ordena horretan) lantzea<br />

da.


VIII.3 Etorkizuneko lanak 235<br />

Bestalde, <strong>Euskal</strong> <strong>WordNet</strong>en aberasteko hurrengo ikerlerroak proposatzen<br />

ditugu:<br />

• <strong>Euskal</strong> <strong>WordNet</strong> kontzeptu berriekin aberastea:<br />

<strong>WordNet</strong>en ez dauden eta zerrendatuta ditugun, euskarako kontzeptuak<br />

(trikitixa, ikastola...bezalakoak) EBLan sartu nahi ditugu. Egitasmo hau<br />

betetzeko, bestelako word<strong>net</strong>etan ataza hau nola egiten duten ezagutu eta<br />

gure metodologia definitu beharko dugu, sortzen diren zailtasun berriei aurre<br />

eginez.<br />

• HAEen barne-errepresentazioa zehaztea:<br />

HAEen barne-errepresentazioaren proposamena EBLan gauzatu nahi dugu.<br />

Horretarako, Agirre eta Lersundiren (2001) metodo erdiautomatikoak erabiltzea<br />

pentsatzen dugu, barne-egiturako synsetak eta beraien arteko harreman<br />

semantikoak automatikoki desanbiguatu ahal izateko. Eratorpenaren azterketarako<br />

sortutako metodo erdiautomatiko horrek, hiztegietako definizioetan<br />

oinarrituta, eratorritako hitza eta bere erroaren arteko harreman semantikoa<br />

zehazten laguntzen du. Hala, metodo hau HAEen osagaien arteko harremanak<br />

zehazteko erabili aurretik, metodoaren berrikuspena egin beharko genuke,<br />

hau da, HAEen azterketarako egokitu beharko genuke.<br />

• <strong>Euskal</strong> <strong>WordNet</strong> informazio gehiagorekin aberastea:<br />

Aipatu izan dugun bezala, nahiz eta gure EBLaren garapena <strong>WordNet</strong>en<br />

egitura eta oinarriak izan, ikuspegi eta metodologia ezberdinak erabilita egin<br />

zitekeen:<br />

(a) <strong>WordNet</strong>en hierarkian jarraituta eta bertako synsetei zuzenean esleituta<br />

euskarako ordainak.<br />

(b) Guk geuk sortuta euskarako adieren inbentarioa eta hierarkia.<br />

Tesi-lan ho<strong>net</strong>an <strong>Euskal</strong> <strong>WordNet</strong>en garapena lehenengoan oinarritu dugu,<br />

eta ingeleseko kontzeptuak abiapuntutzat harturik, euskarako ordainak<br />

lotu ditugu. Hala ere, (b) hurbilpena ez dugu baztertu. Izan ere, azken<br />

helburu gisa, bi hurbilpenen abantailak baliatzea erabaki dugu; beste euskarako<br />

hiztegietatik erauzitako hierarkiak eta erlazio semantikoak ere <strong>Euskal</strong><br />

<strong>WordNet</strong>en txertatu nahi ditugu. Dagoeneko <strong>Euskal</strong> Hiztegitik (Sarasola,


236 Ondorioak eta etorkizuneko lanak<br />

1996) hierarkiak eta erlazio semantikoak erauzi dira (Agirre et al., 2003c),<br />

eta emaitza horietako batzuk <strong>Euskal</strong> <strong>WordNet</strong>en txertatzen hasiak bagara<br />

ere, etorkizunean lan hori masiboki egin nahiko genuke.<br />

Ho<strong>net</strong>az gain, ez dugu baztertzen <strong>Euskal</strong> <strong>WordNet</strong>en euskarako edo erdarako<br />

beste lan eta formalismoetako informazioa gehitzea; esate baterako,<br />

dagoeneko IXA taldean ezagutza lexiko-semantikoaren arloan lortutako emaitzak<br />

(Arriola, 2000; Aldezabal, 2004; Martínez, 2005; Lersundi, 2005; Ansa<br />

et al., 2005), edota <strong>WordNet</strong>en eredutik gertu dauden beste lan konputazionaletako<br />

informazioa —azterketa bibliografikoan aipatutakoena, adibidez—<br />

oso baliagarria izan dakiguke.<br />

Aditzen kasuan, esate baterako, ia eredu guztiak bat datoz multzokatze<br />

semantiko zabalagoak egitearekin, adiera oso zehatzak izanda corpus bat<br />

etiketatzea oso zail izaten baita. Ildo ho<strong>net</strong>atik, III.2.4 atalean azaldu dugun<br />

PropBank aipa dezakegu. EBL ho<strong>net</strong>ako sarrera lexikalak VerbNeten<br />

(Kipper et al., 2000) dagozkien sarrerekin lotuta daude. Aldi berean, Verb-<br />

Neteko sarrera bakoitza <strong>WordNet</strong>eko synset batekin (edo gehiagorekin) loturik<br />

dago. Hortaz, lotura honi probetxua atera geniezaioke gure EBLko<br />

aditzak VerbNeteko eta PropBankeko informazio sintaktiko-semantikoarekin<br />

aberasteko. Arrazoi honengatik eta LNPn rolen etiketatze automatikoak hartu<br />

duen indarrarengatik, IXA taldea ere aditzentzat eredu hau garatzen hasi<br />

da euskararako (Agirre et al., 2006d), eta etorkizunean <strong>Euskal</strong> <strong>WordNet</strong>ekin<br />

lotzeko asmoa dago.<br />

• Hautapen-murriztapenen aztertzea:<br />

<strong>Euskal</strong> <strong>WordNet</strong>en aberasketan zabaldutako beste ikerlerroa hautapenmurriztapenena<br />

da. IXA taldean arlo honen inguruan lortutako emaitzak<br />

(Martínez, 2005) <strong>Euskal</strong> <strong>WordNet</strong>en txertatu aurretik ebaluatu ditugu. Azterketa<br />

hau hastape<strong>net</strong>an dago eta etorkizunean gehiago sakondu nahi dugu.<br />

Alde batetik, kirolaren domeinuaz gain, beste domeinu batzuetako aditzak<br />

ere aztertu nahiko genituzke (finantzaren domeinukoak, adibidez). Bestalde,<br />

eskuratze-tekniken algoritmoak hobetzen saiatuko gara, eta eskuratzeteknika<br />

mota gehiagorekin ere probatu nahi dugu.<br />

<strong>Euskara</strong>ren hautapen-murriztapenei dagokienez, euskarako eskuratzeteknikak<br />

hobetzeko semantikoki etiketatzen ari garen corpusa (EuSemcor)<br />

erabiltzea pentsatua dugu. Azken helburua, eskuratze-teknika egokiarekin jo<br />

ondoren, eskuratzen diren hautapen-murriztapenak <strong>Euskal</strong> <strong>WordNet</strong>en txertatzea<br />

da.


Bibliografia<br />

Aduriz I., Agirre E., Aldezabal I., Alegria I., Ansa O., Arregi X., Arriola<br />

J.,ArtolaX.,Díaz de Ilarraza A., Ezeiza N., Gojenola K., Maritxalar A.,<br />

Maritxalar M., Oronoz M., Sarasola K., Soroa A., Urizar R., eta Urkia<br />

M. A framework for the automatic processing of Basque. Proceedings of<br />

Workshop on Lexical Resources for Minority Languages, Granada, 1998a.<br />

Aduriz I., Aldezabal I., Ansa O., Artola X., eta Díaz de Illarraza A. EDBL: a<br />

multi-purposed lexical support for the treatment of Basque. Proceedings of<br />

the First International Conference on Language Resources and Evaluation<br />

(LREC), Granada, 1998b.<br />

Aduriz I., Alegria I., Arriola J., Artola X., Díaz de Ilarraza A., Ezeiza N.,<br />

eta Urkia M. EUSLEM: un lematizador/etiquetador de textos en euskera.<br />

Actas del X congreso de la Sociedad Española para el Procesamiento del<br />

Lenguaje Natural (SEPLN), Kordoba, 1994.<br />

Aduriz I., Aranzabe M., Arriola J., Atutxa A., Díaz de Illarraza A., Ezeiza<br />

N., Gojenola K., Oronoz M., Soroa A., eta Urizar R. Methodology and<br />

steps towards the construction of EPEC, a corpus of written Basque taggen<br />

at morphological and syntactic levels fot the automatic processing. In Wilson<br />

A., Rayson P., eta Archer D., editors, Corpus Linguistics Around the<br />

World, Book series: Language and Computers, 1–15, Rodopi (Holanda),<br />

2006.<br />

Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K.,<br />

Quintian M., eta Pociello E. <strong>Euskal</strong> <strong>WordNet</strong>: euskararako<br />

ezagutza-base lexiko-semantikoa. <strong>Euskal</strong>ingua, (7), 2005a. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).


238 BIBLIOGRAFIA<br />

Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal<br />

K., Quintian M., eta Pociello E. Improving the Basque<br />

<strong>WordNet</strong> by corpus annotation. Proceedings of Third International<br />

<strong>WordNet</strong> Conference, Jeju (Korea), 2006a. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).<br />

Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />

M., eta Pociello E. A methodology for the joint development of the Basque<br />

<strong>WordNet</strong> and Semcor. Proceedings of the 5th International Conference on<br />

Language Resources and Evaluations (LREC), Genoa (Italia), 2006b. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).<br />

Agirre E., Aldezabal I., eta Pociello E. A pilot study of English selectional<br />

preferences and their cross-lingual compatibility with Basque.<br />

Proceedings on International Conference on Text Speech and Dialogue<br />

(TSD), Ceske Budejovice (Txekiar Errepublika), 2003a. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).<br />

Agirre E., Aldezabal I., eta Pociello E. Lexicalization and multiword<br />

expressions in the Basque <strong>WordNet</strong>. Proceedings of Third<br />

International <strong>WordNet</strong> Conference, Jeju (Korea), 2006c. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).<br />

Agirre E., Alegria I., Arregi X., Artola X., Díaz de Ilarraza A., Maritxalar M.,<br />

Sarasola K., eta Urkia M. Xuxen: a spelling checker/corrector for Basque<br />

based in two-level morphology. Proceedings of ANLP’92, Povo (Trento),<br />

1992.<br />

Agirre E., Ansa O., Arregi X., Arriola J., Díaz de Ilarraza A., Pociello<br />

E., eta Uria L. Methodological issues in the building of the Basque<br />

<strong>WordNet</strong>: quantitative and qualitative analysis. Proceedings of<br />

First International <strong>WordNet</strong> Conference, Mysore (India), 2002. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).


BIBLIOGRAFIA 239<br />

Agirre E., Arregi X., Arriola J., eta Artola X. EDBL: euskararen datu-base<br />

lexikala. Barne-txostena (LSI/TR 8-94), <strong>Euskal</strong> Herriko Unibertsitatea,<br />

1994a.<br />

Agirre E., Atserias J., McCarthy D., Real F., Rigau G., eta Rodríguez H.<br />

MEANING: developing multilingual web-scale language technologies. Working<br />

paper 5.2a. Barne-txostena, 2003b.<br />

Agirre E., Atutxa A., Gojenola K., eta Sarasola K. Exploring portability<br />

of syntactic information from English to Basque. Proceedings of the 4rd<br />

International Conference on Language Resources and Evaluation (LREC),<br />

Lisboa (Portugal), 2004.<br />

Agirre E. eta Lersundi M. Extracción de relaciones léxico-semánticas a partir<br />

de palabras derivadas usando patrones de definición. Proceedings of the<br />

Annual SEPLN Meeting, 2001.<br />

Agirre E. eta Lersundi M. Semantic interpretations of postpositions and<br />

prepositions: a multilingual inventory for Basque, English and Spanish.<br />

Workshop on The linguistic dimensions of prepositions and their use in<br />

computational linguistics formalisms and applications, Tolouse, France,<br />

2003.<br />

Agirre E. eta Martínez D. Learning class-to-class selectional preferences.<br />

Proceedings of the Workshop “Computational Natural Language Learning”,<br />

Tolosa (Frantzia), 2001.<br />

Agirre E. eta Martínez D. Integrating selectional preferences in <strong>WordNet</strong>.<br />

Proceedings of First International <strong>WordNet</strong> Conference, Mysore (India),<br />

2002.<br />

Agirre E. Kontzeptuen arteko erlazio-izaeraren formalizazioa ontologiak erabiliaz:<br />

Dentsitate Kontzeptuala. Doktoretza-tesia, <strong>Euskal</strong> Herriko Unibertsitatea,<br />

Donostia, 1999.<br />

Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />

M., eta Pociello E. Eusemcor: euskarako corpusa semantikoki etiketatzeko<br />

eskuliburua: editatze- etiketatze- eta epaitze-lanak. Barne-txostena,<br />

<strong>Euskal</strong> Herriko Unibertsitatea, 2005b.


240 BIBLIOGRAFIA<br />

Agirre E., Aldezabal I., Etxeberria J., eta Pociello E. A preliminary<br />

study for building the Basque Propbank. Proceedings<br />

of the 5th International Conference on Language Resources<br />

and Evaluation (LREC), Genoa (Italia), 2006d. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).<br />

Agirre E., Aldezabal I., eta Pociello E. <strong>Euskara</strong>rako ezagutza-base lexiko-semantikoaren<br />

eredu-hautaketa eta garapena: <strong>Euskal</strong> <strong>WordNet</strong>.<br />

GOGOA: <strong>Euskal</strong> Herriko Unibertsitateko Hizkuntza, Ezagutza, Komunikazio<br />

eta Ekintzari buruzko Aldizkaria, V-2:237–266, 2005c. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).<br />

Agirre E., Aldezabal I., eta Pociello E. Lexicalization and multiword<br />

expressions in the Basque <strong>WordNet</strong>. In Fernández B. eta<br />

Laka I., editors, Andolin gogoan: Essays in honour of the Professor<br />

Eguzkitza, 51–68. <strong>Euskal</strong> Herriko Unibertsitatea, 2006e. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).<br />

Agirre E., Ansa O., Arregi X., Artola X., Zubillaga X., Díaz de Ilarraza<br />

A., eta Lersundi M. A conceptual schema for a Basque lexical-semantic<br />

framework. Conference on Computational Lexicography and Text Research,<br />

Budapest (Hungaria), 2003c.<br />

Agirre E., Arregi X., Artola X., Díaz de Ilarraza A., Edvard F., eta Sarasola<br />

K. Lexical knowledge representation in an intelligent dictionary help<br />

system. Proceedings of COLING’94, 544–550, Kyoto (Japonia), 1994b.<br />

Agirre E. eta Lopez de la Calle O. Clustering <strong>WordNet</strong> word senses. Proceedings<br />

of the conference of Recent Advances in Natural Laguage Processing,<br />

Borovets (Bulgaria), 2003.<br />

Agirre E. eta Martínez D. Exploring automatic word sense disambiguation<br />

with decision lists and the Web. Proceedings of the Semantic Annotation<br />

And Intelligent Annotation Workshop organized by COLING, Luxenburgo,<br />

2000. URL http://arXiv.org/abs/cs/0010024. (2007-07-02an atzitua).


BIBLIOGRAFIA 241<br />

Aldezabal A., Ansa O., Arrieta B., Artola X., Ezeiza N., Hernández G., eta<br />

Lersundi M. EDBL: a general lexical basis for the automatic processing<br />

of Basque. Proceedings of the IRCS Workshop on Linguistic Databases,<br />

Filadelfia (EEBB), 2001a.<br />

Aldezabal I. Aditz-azpikategorizazioaren azterketa sintaxi partzialetik sintaxi<br />

osorako bidean. 100 aditzen azterketa. Levin-en (1993) lana oinarri hartuta<br />

eta metodo informatikoak baliatuz. Doktoretza-tesia, <strong>Euskal</strong> Herriko<br />

Unibertsitatea, 2004.<br />

Aldezabal I., Aranzabe M., Atutxa A., Gojenola K., Sarasola K., eta Goenaga<br />

P. Extracción masiva de información sobre subcategorización verbal vasca<br />

a partir de corpus. Actas del XVII Congreso de la SEPLN Universidad de<br />

Jaén, Jaén, 2001b.<br />

Aldezabal I., Arriola J.M., Díaz de Ilarraza A., eta Sarasola K. Hizkuntzalaritza<br />

Konputazionala. Udako <strong>Euskal</strong> Unibertsitatea, 2005.<br />

Alegria I., Ansa O., Artola X., Ezeiza N., Gojenola K., eta Urizar R. Representation<br />

and treatment of multiword expressions in basque. Proceedings<br />

of the ACL on Multiword Expressions, 48–55, Bartzelona, 2004.<br />

Alegria I., Artola I., Sarasola K., eta Urkia M. Automatic morphological<br />

analysis of Basque. Proceedings of the Annual SEPLN Meeting, Sevilla,<br />

1996.<br />

Allen J. Towards a general theory of action and time. Artificial Intelligence,<br />

23:123–154, 1984.<br />

Alonge A., Calzolari N., Vossen P., Bloksman L., Irene Castellón T.M., eta<br />

Peters W. The linguistic design of the Euro<strong>WordNet</strong> database. Computers<br />

and the Humanities, 32 lib., 91–115. 1998.<br />

Alonso L., Capilla J., Castellón I., Fernández A., eta Vázquez G. The Sensem<br />

project: syntactic-semantic annotation of sentences in Spanish. Proceedings<br />

of the International Conference RANLP, Borovets (Bulgaria), 2005.<br />

Amsler R. The Structure of the Merriam-Webster Pocket Dictionary.<br />

Doktoretza-tesia, University of Texas, 1980.


242 BIBLIOGRAFIA<br />

Amsler R. eta White J. Development of a computational methodology for<br />

deriving natural language semantic structures via analysis of machinereadable<br />

dictionaries. Barne-txostena, National Science Foundation, University<br />

of Texas, 1979.<br />

Ansa O., Arregi X., Esparza I., eta Valverde A. Un entorno para el desarrollo<br />

y la evaluación de un sistema de búsqueda de respuestas en euskera.<br />

Proceedings of the Annual SEPLN Meeting, Granada, 2005.<br />

Aranzabe M., Arriola J., Atutxa A., Balza I., eta Uria L. Guía para la<br />

anotación sintáctica manual de Eus3LB (corpus del euskera anotado a<br />

nivel sintáctico, semántico y pragmático). Barne-txostena, Eukal Herriko<br />

Unibertsitatea, 2003.<br />

Aranzabe M., Arriola J.M., eta Díaz de Illaraza A. Towards a dependency<br />

parser of Basque. Proceedings of the Coling 2004 Workshop on Recent<br />

Advances in Dependency Grammar, Geneva (Suitza), 2004.<br />

Arriola J. EUSKAL HIZTEGIAren azterketa eta egituratzea ezagutza lexikalaren<br />

eskuratze automatikoari begira. Aditz-adibideen analisia Murriztapen-<br />

Gramatika baliatuz, azpikategorizazioaren bidean. Doktoretza-tesia, <strong>Euskal</strong><br />

Herriko Unibertsitatea, 2000.<br />

Arriola J., Artola X., Maritxalar A., eta Soroa A. A methodology for the<br />

analysis of verb usage examples in a context of lexical knowledge acquisition<br />

from dictionary entries. Proceedings of EACL’99, Linguistically Interpreted<br />

Corpora, Bergen (Norvegia), 1999.<br />

Artola X. HIZTSUA: Hiztegi-sistema urgazle adimenduaren sorkuntza eta<br />

eraikuntza. Doktoretza-tesia, <strong>Euskal</strong> Herriko Unibertsitatea, 1993.<br />

Atserias J., Villarejo L., Rigau G., Agirre E., Carroll J., Magnini B., eta<br />

Vossen P. The MEANING Multilingual Central Repository. Proceedings<br />

of the 2nd Global <strong>WordNet</strong> Conference, Brno (Txekiar Errepublika), 2004.<br />

Aulestia G. eta White L. English-Basque Dictionary. University of Nevada<br />

Press, 1990.<br />

Banerjee S. eta Pedersen T. An adapted lesk algorithm for word sense<br />

disambiguation using <strong>WordNet</strong>. Proceedings of the Third International


BIBLIOGRAFIA 243<br />

Conference on Intelligent Text Processing and Computational Linguistics<br />

(CICLING-02), Mexiko, 2002.<br />

Barwise J. eta Perry J. Situations and Attitudes. Bradford Books. MIT Press,<br />

1983.<br />

Bates M., Moser M., eta Stallard D. The IRUS transportable natural language<br />

database interface. In Kershberg L., editor, Expert Database Systems.<br />

Benjaming/Cummings, Menlo Park (Kalifornia), 1986.<br />

Benítez L., Escudero G., Farreras J., eta Rigau G. WWI: a multilingual<br />

<strong>WordNet</strong> interface using the web. Barne-txostena, Departament de LSI,<br />

Universitat Politécnica de Catalunya, 1998.<br />

Bentivogli L. eta Pianta E. Extending <strong>WordNet</strong> with syntagmatic information.<br />

Proceedings of Second Global <strong>WordNet</strong> Conference, 47–53, Brno<br />

(Txekiar Errepublika), 2002.<br />

Bentivolgi L. eta Pianta E. Expliting parallel texts in the creation of multilingual<br />

semantically annotated resources: The Multisemcor Corpus. Natural<br />

Language Engineering, 11:247–261, 2005.<br />

Binot J. eta Jensen K. A semantic expert using an on-line standard dictionary.<br />

Proceedings of the 10th International Joint Conference on Artificial<br />

Intelligence (IJCAI), 709–714, Milan (Italia), 1987.<br />

Boas H.C. Bilingual FrameNet Dictionaries for Machine Translation. Proceedings<br />

of the Third International Conference on Language Resources and<br />

Evaluation, Las Palmas, 2002.<br />

Boguraev B. eta Briscoe T. Computational Lexicography for Natural Language<br />

Processing. Longman - John Wiley and Sons, London - New York,<br />

1989.<br />

Boguraev B. eta Briscoe T. Large lexicons for Natural Language Processing.<br />

Computational Linguistics, 13(3-4):203–218, 1993.<br />

Borgo S., Guarino N., eta Masolo C. A pointless theory of space based on<br />

strong connection and congruence. In Aiello L.C. eta Doyle J., editors,<br />

Principles of Knowledge Representation and Reasoning. Morgan Kauffman,<br />

1996.


244 BIBLIOGRAFIA<br />

Bresnan J. eta Kaplan R.M. Introduction: grammars as mental representations<br />

of language. In Bresnan J., editor, The Mental Representation of<br />

Grammatical Relations. MIT Press, Cambridge (Massachussetts), 1982.<br />

Brown P., Lai J., eta Mercer R. Aligning sentences in parallel corpora. Proceedings<br />

of the 29th Annual Meeting of the Association for Computational<br />

Linguistics (ACL), 169–176, Berkeley (Kalifornia), 1991.<br />

Bruce R., Wilks Y., Guthrie L., Slator B., eta Dunning T. NounSense – a<br />

disambiguated noun taxonomy with a sense of humour. Barne-txostena,<br />

Computer Research Laboratory, New Mexico State University, Las Cruces,<br />

NM, 1992.<br />

Buitelaar P. Systematic Polysemy and Underspecification. Doktoretza-tesia,<br />

Brandeis University, 1998.<br />

Cahill A., McCarthy M., Genabith J., eta Way A. Parsing with PCFGs and<br />

automatic F-structure annotation. Proceedings of the LFG02 Conference,<br />

2002.<br />

Calzolari N. Issues for lexicon building. In Zampolli A., Calzolari N., eta<br />

Palmer M., editors, Current Issues in Computational Linguistics: Essays<br />

in Honour of Don Walker, 267–281. Giardini Editori e Stampatori - Kluwer<br />

Academic Publishers, Pisa - Dordrecht, 1994.<br />

Calzolari N., Charles J.F., Grishman R., Ide N., Lenci A., MacLeod C.,<br />

eta Zampolli A. Towards best practice for multiword expressions in computational<br />

lexicons. Proceedings of the 3rd International Conference on<br />

Language Resources and Evaluation, 1934–1940, 2002.<br />

Carreras X. eta Màrquez L. Introduction to the CoNLL-2004 shared task:<br />

semantic role labeling. HLT-NAACL 2004 Workshop: Eighth Conference<br />

on Computational Natural Language Learning, Boston, 2004.<br />

Carroll J., Rigau G., Magnini B., Agirre E., Rodríguez H., eta Atserias J.<br />

MEANING: cycle 1: Acquisition. Barne-txostena, 2003.<br />

Castellón I. Lexicografía computacional: adquisición automática de conocimiento<br />

léxico. Doktoretza-tesia, Universitat de Barcelona, 1992.


BIBLIOGRAFIA 245<br />

Chodorow M., Byrd R., eta Heidorn G. Extracting semantic hierarchies from<br />

a large on-line dictionary. Proceedings of the 23rd Annual Meeting Association<br />

for Computational Linguistics (ACL), 299–304, Chicago (Illinois),<br />

1985.<br />

Chomsky N. Aspects of the Theory of Syntax. MIT Press, Cambridge (Massachussetts),<br />

1965.<br />

Chomsky N. Lectures on Government and Binding. The Pisa Lectures. Mounton<br />

de Gruyter, Berlin - New York, 1987.<br />

Chomsky N. A minimalist program for linguistic theory. MIT Occasional<br />

Papers in Lingusitics, (1), 1992.<br />

Church K., Gale W., Hanks P., eta Hindle D. Using statistics in lexical<br />

analysis. Lexical Acquisition: Exploting On-Line Resources to Build a<br />

Lexicon, 115–164. Lawrence Erlbaum Associates, Hillsdale (New Jersey),<br />

1991.<br />

Civit M., Aldezabal I., Pociello E., Taulé M., Aparicio J., Màrquez<br />

L., Navarro B., Castellví J., eta Martí M. 3LB-LEX: léxico verbal<br />

con frames sintácticos-semánticos. Revista de la Asociación Española<br />

para el Procesamiento del Lenguaje Natural, Granada, 2005a. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).<br />

Civit M., Castellví J., Morante R., Oliver A., eta Aparicio J. 4LEX: A multilingual<br />

lexical resource. Cross- Language Knowledge Induction Workshop,<br />

Errumania, 2005b.<br />

Collins. The Harper Collins Spanish-English/English-Spanish Dictionary.<br />

William Collins Sons and Co. Ltd., 1971.<br />

Collins. Collins Master. Grijalbo, 1998.<br />

Copestake A. An approach to building the hierarchical element of a lexical<br />

knowledge base from a machine readable dictionary. Proceedings of the<br />

First International Workshop Inheritance in NLP, 19–29, Tilburg (Holanda),<br />

1990.


246 BIBLIOGRAFIA<br />

Copestake A. eta Flickinger D. An open source grammar development environment<br />

and broad-coverage English grammar using HPSG. International<br />

Conference on Language Resources and Evaluation (LREC), Atenas, 2000.<br />

Cruse A. Meaning in Language: An Introduction to Semantics and Pragmatics.<br />

Oxford University Press, 2000.<br />

Cuypers I., Sánchez A., Schippers L., Adriaens G., Louw M., eta Forest P.<br />

Test specifications for Euro<strong>WordNet</strong>: internal data quiality and application<br />

in multilingual information retrieval. Barne-txostena, University of<br />

Amsterdam, 1997.<br />

Dalrymple M. Lexical Functional Grammar, 34. lib. of Syntax and Semantics.<br />

Academic Press, Londres (Ingalaterra), 2001.<br />

Demonte V. Detrás de la palabra. Estudios de gramática del español. Alianza<br />

Editorial, Madril, 1991.<br />

Demonte V. Teoría sintáctica: de las estructuras a la rección. Colección<br />

Lingüística. Síntesis, 1995.<br />

Dorr B. Machine translation. A view from the lexicon. Computational Linguistics,<br />

20(4), 1993.<br />

Dorr B. Large-scale acquisition of LCS-based lexicons for foreign language<br />

tutoring. Proceedings of the ACL Fifth Conference on Applied Natural<br />

Language Processing (ANLP), Washington, 1997.<br />

Dowty D. Word Meaning and Montague Grammar. Reidel, Dordrecht, 1979.<br />

Elhuyar. Elhuyar Hiztegia: euskara-gaztelania. Elhuyar Kultur Elkartea,<br />

1996.<br />

Elhuyar. Elhuyar Hiztegi Txikia. Elhuyar Kultur Elkartea, 1998.<br />

Elhuyar. Hiztegi Modernoa. Elhuyar Kultur Elkartea, 2000.<br />

Fellbaum C. <strong>WordNet</strong>. An Electronic Lexical Database. MIT Press, Cambridge<br />

(Massachussetts), 1998a.<br />

Fellbaum C. eta Kegl J. Taxonomic structures and cross-category linking in<br />

the lexicon. Proceedings of the Sixth Eastern States Conference on Linguistics,<br />

93–104, Columbus, 1989.


BIBLIOGRAFIA 247<br />

Fellbaum C. A semantic <strong>net</strong>work of English verbs. In Fellbaum C., editor,<br />

<strong>WordNet</strong>: An Electronic Lexicak Data-base. MIT Press, 1998b.<br />

Fellbaum C., Palmer M., Dang H.T., Delfs L., eta Wolf S. Manual and automatic<br />

semantic annotation with <strong>WordNet</strong>. Proceedings of the NAACL 2001<br />

Workshop on <strong>WordNet</strong> and Other Lexical Resources, Pittsburgh, 2001.<br />

Fernández A., Saint-Dizier P., Vázquez G., Kamel M., eta Benamara F. The<br />

Volem Project: a framework for the construction of advanced multilingual<br />

lexicons. Proceedings of Language Engineering Conference (LEC’02),<br />

Hyderabad (India), 2002.<br />

Fillmore C.J. Frames and the semantics of understanding. Quaderni di<br />

Semantica, 6.2 lib. 1985.<br />

Fillmore C.J. eta Baker C.F. FrameNet: Frame semantics meets the corpus.<br />

Proceedings of <strong>WordNet</strong> and Other Lexical Resources Workshop, Pittsburgh,<br />

2001.<br />

Fontenelle T., Adriaens G., eta de Brackeleer G. The lexical unit in the metal<br />

MT system. MT, 9:1–19, 1994.<br />

Fox E., Nutter T., Ahlswede T., Evens M., eta Marcowitz J. Building a large<br />

thesaurus for information retrieval. Proceedings of the 2nd Conference on<br />

Applied Natural Language Processing (ANLP), 101–108, Austin (Texas),<br />

1988.<br />

Francis W. eta Kucera H. Frequency Analysis of English Usage. Houghton<br />

Mifflin Company, Boston (Massachusetts), 1982.<br />

Gazdar G., Klein E., Pullum G., eta Sag I. Generalized Phrase Structure<br />

Grammar. Harvard University Press, Cambridge (Massachussetts), 1985.<br />

Gilarranz J., Gonzalo J., eta Verdejo F. An approach to conceptual text<br />

retrieval using the Euro<strong>WordNet</strong> multilingual semantic database. Proceedings<br />

of AAAI-96 Spring Symposium Cross-Language Text and Speech<br />

Retrieval, 1996.<br />

Giuglea A.M. eta Moschitti A. Knowledge discovergin using FrameNet, Verb-<br />

Net and PropBank. Proceedings of the Workshop on Ontology and Knowledge<br />

Discovering at ECML, Pisa (Italia), 2004.


248 BIBLIOGRAFIA<br />

Gojenola K. Guneak zuzendutako egitura sintagmatikoen gramatika (HPSG)<br />

eta euskararako aplikazioa. Barne-txostena, <strong>Euskal</strong> Herriko Unibertsitatea,<br />

1998.<br />

Gojenola K. <strong>Euskara</strong>ren sintaxi konputazionalerantz. Oinarrizko baliabideak<br />

eta beren aplikazioa aditzen azpikategorizazio-informazioaren erauzketan<br />

eta erroreen tratamenduan. Doktoretza-tesia, <strong>Euskal</strong> Herriko Unibertsitatea,<br />

2000.<br />

Gómez F., Hull R., eta Segami C. Acquiring knowledge from encyclopedic<br />

texts. Proceedings of the 4th Conference Applied Natural Language Processing<br />

(ANLP), 84–90, Sttugart (Alemania), 1994.<br />

Gómez F. Linking <strong>WordNet</strong> verb classes to semantic interpretation. In Harabagiu<br />

S., editor, Use of <strong>WordNet</strong> in Natural Language Processing Systems:<br />

Proceedings of the Conference, 58–64. Association for Computational Linguistics,<br />

Somerset (New Jersey), 1998.<br />

Grefenstette G. Evaluation techniques for automatic semantic extraction:<br />

comparing syntactic and window based approaches. Proceedings of SI-<br />

GLEX Workshop on Acquisition of lexical knowledge from text, Columbus,<br />

1993.<br />

Grishman R., Macleod C., eta Reyers A. Complex syntax: building a computational<br />

lexicon. Proceedings of the 15th annual meeting of the Association<br />

for the Computational Linguistics (COLING), 268–272, Kyoto (Japonia),<br />

1994.<br />

Grishman R. eta Sterling J. Acquisition of selectional patterns. Proceedings<br />

of COLLING-92, Nantes (Frantzia), 1992.<br />

Gruber T.R. Towards principles for the design of ontologies for knowledge<br />

sharing. Proceedings of the International Workshop on Formal Ontology,<br />

Padova (Italia), 1993.<br />

Guarino N. Semantic matching: formal ontological distinctions for information<br />

organization, extraction and integration. Information Extraction,<br />

139–170. Springer, Berlin (Alemania), 1997.<br />

Hale K.L. eta Keyser S.J. A view from the middle. Barne-txostena, Center<br />

of Cognitive Science, Cambridge, Massachussetts, 1987.


BIBLIOGRAFIA 249<br />

Harabagiu S.M. eta Moldovan D.I. An intelligent system for question answering.<br />

Proceedings of the 5th Conference on Intelligent Systems, Reno,<br />

1996.<br />

Hindle D. Noun classification from predicate-argument structures. Proceedings<br />

of the 28th Annual Meeting of the Association for Computational<br />

Linguistics, 327–329, 1990.<br />

Hindle D. eta Rooth M. Structural ambiguity and lexical relations. Proceedings<br />

of the 29th Annual Meeting of the Association for Computational<br />

Linguistics, 229–236, 1991.<br />

Ide N. eta Veronis J. Extracting knowledge bases from machine-readable<br />

dictionaries: have we wasted our time? Proceedings of the International<br />

Conference on Building and Sharing of Very Large-Scale Knowledge Bases,<br />

257–266, Japonia, 1993.<br />

Ingria R. Lexical information for parsing systems: points of convergence and<br />

divergence. In Walker D., Zampolli A., eta Calzolari N., editors, Automating<br />

the Lexicon: research and Practice in a Multilingual Environment.<br />

Cambrigde University Press, Cambridge, 1988.<br />

Jackendoff R.S. Semantic Structure. MIT Press, Cambridge (Massachussetts),<br />

1990.<br />

Jackendoff R.S. Brain, Meaning, Grammar, Evolution. Oxford University<br />

Press, 2000.<br />

Johnson C.R. eta Fillmore C.J. The FrameNet tagset for frame-semantic and<br />

syntactic coding of predicate-argument structure. Proceedings of the 1st<br />

Meeting of the North American Chapter of the Association for Computational<br />

Linguistics (ANLP-NAACL 2000), Seattle (Washington), 2000.<br />

King T.H., Crouch R., Riezler S., Dalrymple M., eta Kaplan R.M. The PARC<br />

700 Dependency Bank. Proceedings of the 4th International Workshop on<br />

Linguistically Interpreted Corpora, held at the 10th Conference of the European<br />

Chapter of the Association for Computational Linguistics (EACL’03),<br />

Budapest (Hungaria), 2003.


250 BIBLIOGRAFIA<br />

Kipper K., Dang H.T., eta Palmer M. Class-based construction of a verb<br />

lexicon. Proceedings of the Seventh National Conference on Artificial Intelligence,<br />

691–696, 2000.<br />

Kipper K., Palmer M., eta Rambow O. Extending PropBank with VerbNet<br />

semantic predicates. Workshop on Applied Interlinguas, Tiburon (Kalifornia),<br />

2002.<br />

Klavans J. eta Tzoukermann E. Dictionaries and corpora: combining corpus<br />

and machine-readable dictionary for building lexicons. Journal of Machine<br />

Translation, 10(3-4):185–218, 1996.<br />

Knight K. Building a large ontology for machine translation. Proceedings of<br />

the ARPA Human Language Technology Workshop, Princeton, 1993.<br />

Knight K. eta Luk S. Building a large-scale knowledge base for machine<br />

translation. Proceedings of the 12th American Association for artificial<br />

intelligence (AAAI), 773–778, Seatle (Washington), 1994.<br />

Kohl K.T., Jones D.A., Berwick R.C., eta Nomura N. Representing verb<br />

alternations in <strong>WordNet</strong>. In Fellbaum C., editor, <strong>WordNet</strong>: an Electronic<br />

Lexicak Data-base. MIT Press, 1998.<br />

Lenat D. Steps to sharing knowlegde. Toward very large knowledge bases,<br />

1995.<br />

Lenat D.B. eta Guha R.V. Building Large Knowledge-Based Systems. Addison<br />

Wesley, 1990.<br />

Lersundi M. Ezagutza-base lexikala eraikitzeko <strong>Euskal</strong> Hiztegiko definizioen<br />

azterketa sintaktiko-semantikoa. Hitzen arteko erlazio lexiko-semantikoak:<br />

definizio-patroiak, eratorpena eta postposizioak. Doktoretza-tesia, <strong>Euskal</strong><br />

Herriko Unibertsitatea, 2005.<br />

Levin B. English Verb Classes and Alternations. A Preliminary Investigation.<br />

The University of Chicago Press, Chicago - London, 1993.<br />

Lewandowski T. Diccionario de la Lingüística. Cátedra, 1992.<br />

Lin D. Principle based parsing without overgeneration. 31st Annual Meeting<br />

of the Association for Computational Linguistics, Columbus (Ohio), 1993.


BIBLIOGRAFIA 251<br />

Lyons J. Semantics. Cambridge University Press, 1977.<br />

Magnini B. eta Strapparava C. Using <strong>WordNet</strong> to improve user modelling<br />

in a web document recommender system. Proceedings of the NAACL 2001<br />

Workshop on <strong>WordNet</strong> and Other Lexical Resources, Pittsburgh, 2001.<br />

Mandala R., Takenobu T., eta Hozumi T. The use of <strong>WordNet</strong> in information<br />

retrieval. Proceedings of the COLING/ACL Workshop on Usage of<br />

<strong>WordNet</strong> in Natural Language Processing Systems, Montreal, 1998.<br />

Mann G. Building proper noun ontologies for question answering. Proceedings<br />

of the Coling 2002 Workshop ”SemaNet’02: Building and Using Semantic<br />

Networks”, 2002.<br />

Marcus M., Kim G., Marcinkiewicz M., MacIntyre R., Bies A., Ferguson M.,<br />

Katza K., eta Schasberger B. The Penn Treebank: annotating predicate<br />

argument structure. Proceedings of ARPA Workshop on Human language<br />

technology, San Frantzisko, 1994.<br />

Marcus M., Santorini B., eta Marcinkiewicz M. Building a large annotated<br />

corpus of English: The Penn TreeBank. Computational Linguistics, (19):<br />

313–330, 1993.<br />

Martínez D. Supervised Word Sense Disambiguation: facing Current Challenges.<br />

Doktoretza-tesia, <strong>Euskal</strong> Herriko Unibertsitatea, 2005.<br />

Matwin S., Szpakowicz S., eta Li X. A <strong>WordNet</strong>-based algorithm<br />

for word sense disambiguation. 1995. URL<br />

http://citeseer.ist.psu.edu/155268.html. (2007-07-02an atzitua).<br />

McCarthy D. Lexical Acquisition at the Syntax-Semantics Interface: Diathesis<br />

Alternations, Subcategorization Frames and Selectional Preferences.<br />

Doktoretza-tesia, University of Sussex, 2001.<br />

McCarthy D. Relating word<strong>net</strong> senses for word sense disambiguation. Proceedings<br />

of the EACL2006 Wordkshop Making Senses of Sense - Bringing<br />

Computational Linguistics and Psycholinguistics Together, 17–24, Trento<br />

(Italia), 2006.<br />

Michiels A. eta Nel J. Approaches to thesaurus production. Proceedings of<br />

the Ninth International Conference on Computational Linguistic, 227–232,<br />

Amsterdam, 1994.


252 BIBLIOGRAFIA<br />

Milhacea R. eta Moldovan D.I. Word Semantics for Information Retrieval:<br />

moving one step closer to the semantic web. International Conference on<br />

Tools in Artificial Intelligence, 2001.<br />

Miller G.A. <strong>WordNet</strong>: a dictionary browser. Proceedings of the First International<br />

Conference on Information in Data, Waterloo, 1985.<br />

Miller G.A., Chodorow M., Landes S., Leacock C., eta Thomas R.G. Using<br />

a semantic concordance for sense identification. Proceedings of the ARPA<br />

Human Language Technology Workshop, San Frantzisko, 1994.<br />

Miller G.A., Fellbaum C., eta Katherine J.M. Five papers on <strong>WordNet</strong>.<br />

URL ftp://ftp.cogsci.princeton.edu/pub/word<strong>net</strong>/5papers.ps. (2007-<br />

07-02an atzitua), 1993.<br />

Minnen G. Selective magic HPSG parsing, 1999. URL<br />

http://citeseer.ist.psu.edu/minnen99selective.html. (2007-07-02an<br />

atzitua).<br />

Montemagni S. Extracting typical subjects and objects of verbs from monoand<br />

bi-lingual dictionaries. Barne-txostena, ESPRIT BRA-7315 Acquilex-<br />

II, 1994.<br />

Moon Y.J. eta Kim Y.T. Concept-based verb translation in the Korean-<br />

English machine translation system. Journal of the Korea Information<br />

Science Society, 1995.<br />

Morris M. Morris Student. Klaudio Harluxet Fundazioa, 1998.<br />

Niles I. eta Pease A. Towards a standard upper ontology. Proceedings of the<br />

2nd International Conference on Formal Ontology in Information Systems,<br />

17–19, 2001.<br />

Nishida K., Torisawa K., eta Tsujii J. Efficient HPSG parsing algorithm with<br />

array unification, 1999. URL http://citeseer.ist.psu.edu/408471.html.<br />

(2007-07-02an atzitua).<br />

Oepen S., Flickinger D., Toutanova K., eta Manning C.D. A rich and dynamic<br />

Treebank for HPSG. In Proceedings of The First Workshop on Treebanks<br />

and Linguistic Theories (TLT2002), Sozopol (Bulgaria), 2002.


BIBLIOGRAFIA 253<br />

Ohara K.H., Fujii S., Saito H., Ishizaki S., Ohori T., eta Suzuki R. The<br />

Japanese FrameNet project: a preliminary report. Proceedings of Pacific<br />

Association for Computational Linguistics (PACLING03), 2003.<br />

Onyshkevych B. eta Nirenburg S. The lexicon in the scheme of KBMT<br />

things. Barne-txostena, Computing Research Laboratory, New Mexico<br />

State Laboratory, 1994.<br />

Osenova P. eta Simov K. The Bulgarian HPSG Treebank: specialization of<br />

the annotation scheme. Proceedings of the Second Workshop on Treebanks<br />

and Linguistic Theories (TLT2003), Växjö, 2003.<br />

Oxford. The Oxford Spanish Dictionary. Oxford University Press, 2003.<br />

Palmer M. eta Xue N. Annotating the propositions in the Penn Chinese<br />

Treebank. Proceedings of the Second Sighan Workshop, Sapporo (Japonia),<br />

2003.<br />

Palmer M. eta Kingsbury P. From TreeBank to PropBank. 2003. URL<br />

http://citeseer.ist.psu.edu/574953.html. (2007-07-02an atzitua).<br />

Pasca M. eta Harabagiu S.M. The informative role of <strong>WordNet</strong> in opendomain<br />

question answering. Proceedings of the NAACL 2001 Workshop<br />

on <strong>WordNet</strong> and Other Lexical Resources, Pittsburgh, 2001.<br />

Pereira F., Tisgby N., eta Lee L. Distributional clustering of English words.<br />

In Proceedings of the 31st Annual Meeting of the Association for Computational<br />

Linguistics, 183–19, 1993.<br />

Pociello E. Aditzen hautapen-murriztapenak: kirol domeinura mugatutako<br />

ingeleseko hautapen-murriztapenak eta euren baliagarritasuna<br />

euskararako. Hastapeneko lana. Doktoretza-ikastaroetako<br />

defentsa-lana, <strong>Euskal</strong> Herriko Unibertsitatea, 2004a. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).<br />

Pociello E. Sintaxi-semantika elkargunea zenbait teoriatan: euskararen<br />

ezagutza-basea lexiko-semantikorantz. Doktoretza-ikastaroetako<br />

defentsa-lana, <strong>Euskal</strong> Herriko Unibertsitatea, 2004b. URL<br />

http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />

1000809016. (2007-07-02an atzitua).


254 BIBLIOGRAFIA<br />

Pollard C. eta Sag I. Head-Driven Phrase Structure Grammar. TheUniversity<br />

of Chicago Press, 1994.<br />

Popowich F. eta Vogel C. Chart parsing Head-Driven Phrase Structure<br />

Grammar. Barne-txostena 90-1, 1990.<br />

Poznanski V. eta Sanfilippo A. Detecting dependencies between semantic<br />

verb subclasses and subcategorization frame in text corpora. Procceedings<br />

of the ACL-SIGLEX WSHP on Extracting Lexical Knowledge from Text,<br />

1993.<br />

Pradhan S., Hacioglu K., Ward W., Martin J., eta Jurafsky D. Semantic role<br />

parsing: adding semantic structure to unstructured text. Proceedings of<br />

the International Conference on Data Mining (ICDM-2003), Melbourne,<br />

2003.<br />

Pustejovsky J. The generative lexicon. Computational Linguistics, 17(4),<br />

1991.<br />

Pustejovsky J. The Generative Lexicon. MIT Press, Cambridge (Massachussetts),<br />

1995.<br />

Pustejovsky J., editor. Semantics and the Lexicon. Kluwer Academic Publishers,<br />

1993.<br />

Resnik P. A class-based approach to lexical discovery. Prooceedings of the<br />

30th Annual Meeting of the Association for Computational Linguistics,<br />

1992.<br />

Resnik P. Selection and Information: A Class-Based Approach to Lexical<br />

Relationships. Doktoretza-tesia, University of Pennsylvania, 1993.<br />

Resnik P. Disambiguating noun groupings with respect to <strong>WordNet</strong> senses.<br />

Proceedings of the 3rd Workshop on Very Large Corpora, MIT, 1995.<br />

Ribas F. On Acquiring Appropriate Selectional Restrictions from Corpora<br />

Using a Semantic Taxonomy. Doktoretza-tesia, Universitat Politècnica de<br />

Catalunya, 1995.<br />

Rigau G., Agirre E., eta Atserias J. The MEANING project. Proceedings<br />

of the XIX Congreso de la Sociedad Española para el Procesamiento del<br />

Lenguaje Natural (SEPLN), Alcala de Henares (Madril), 2003.


BIBLIOGRAFIA 255<br />

Rigau G., Rodríguez H., eta Turmo J. Automatically extracting translation<br />

links using a wide coverage semantic taxonomy. Proceedings of the<br />

15th International Conference in Language Engineering, IA-95, Montpelier<br />

(Frantzia), 1995.<br />

Rigau G. Automatic Acquisition of Lexical Knowledge from MRDs.<br />

Doktoretza-tesia, Universitat Politècnica de Catalunya, 1998.<br />

Ruppenhofer J., Baker C., eta Fillmore C. The FrameNet database and<br />

software tools. Proceedings of the Tenth Euralex International Congress,<br />

1. lib., 371–375, Copenhage, 2002.<br />

Sag I., Baldwin T., Bond F., Copestake A., eta Flickinger D. Multiword<br />

Expressions: A pain in the neck for NLP. Proceedings of the Third International<br />

Conference on Intelligent Text Processing and Computational<br />

Linguistics, 1–15, Mexiko, 2002.<br />

Saint-Dizier P. Constructing verb semantic classes for French: methods and<br />

evaluation. Proceedings of the COLING, 1996.<br />

Sánchez A. Informatización de diccionarios convencionales: un sistema de<br />

consulta para el ”Diccionario Ideológico de la lengua española”de J. Casares.<br />

Proceedings fo the 7th Annual Meeting de la Sociedad Española del<br />

Procesamiento del Lenguale Natural (SEPLN), Valentzia, 1991.<br />

Sarasola I. <strong>Euskal</strong> Hiztegia. Kutxa Fundazioa, 1996.<br />

Sowa J. Kwoledge Representation. Brooks/Cole - Pacific Grove, 2000.<br />

Subirats-Rüggeberg C. eta Petruck M.R.L. Surprise: Spanish FrameNet!<br />

Workshop on Frame Semantics, International Congress of Linguists, Praga<br />

(Txekiar Errepublika), 2003.<br />

Talmy L. Lexicalization patterns: semantic structure in lexical forms. Language<br />

Typology and Syntactic Description, 3. lib. Cambridge University<br />

Press, 1985.<br />

Tomuro N. Tree-cut and a lexicon based on systematic polysemy. Proceedings<br />

of the Second Meeting of the North American Chapter of the Association<br />

for Computational Linguistics, Pittsburg, 2001.


256 BIBLIOGRAFIA<br />

Utsuro T., Matsumoto Y., eta Nagao M. Verbal case frame acquisition from<br />

bilingual corpora. Proceedings of International Joint Conference of Artificial<br />

Intelligence (IJCAI), Chambery (Frantzia), 1993.<br />

UZEI. Sinonimoen Hiztegia. UZEI, 1999.<br />

Vázquez G., Fernández A., eta MartíM.A.Clasificación Verbal. Alternancias<br />

de diátesis. Quaderns de Sintagma 3. Edicions de la Universitat de Lleida,<br />

2000.<br />

Vendler Z. Linguistics in Philosophy. Cornell University Press, Ithaca (New<br />

York), 1967.<br />

Verkuyl H. On the Compositional Nature of the Aspects. Reidel, Dordrecht,<br />

1972.<br />

Vossen P., editor. Euro<strong>WordNet</strong>: A Multilingual Database with Lexical Semantic<br />

Networks. Kluwer Academic Publishers, 1998.<br />

Vossen P. Euro<strong>WordNet</strong>: a multilingual database for information retrieval.<br />

Proceedings of the DELOS Workshop on Cross-language Information Retrieval,<br />

Zurich, 1997.<br />

Vossen P. Euro<strong>WordNet</strong> general document. URL<br />

http://www.illc.uva.nl/Euro<strong>WordNet</strong>/docs.html. (2007-07-02an atzitua),<br />

1999.<br />

Way A. Translating with examples: the LFG-DOT models of translation. Recent<br />

Advances in Example-Based Machine Translation. KluwerAcademic<br />

Publishers, 2003.<br />

Wilks Y. Preference semantics. In Keenan E., editor, The Formal Semantics<br />

of Natural Language. Cambridge University Press, 1973.<br />

Wilks Y., Slator B., eta Guthrie L. Electric words: dictionaries, computers<br />

and meanings. The MIT Press, 1996.<br />

Yarowsky D. Word sense disambiguation using statistical models of Rogets<br />

categories trained on large corpora. Proceedings of the 14th International<br />

Conference on Computational Linguistics (COLING), 454–460, Nantes<br />

(Frantzia), 1992.


BIBLIOGRAFIA 257<br />

Yokoi T. The impact of the EDR electronic dictionary on very large knowledge<br />

bases. Toward very large knowledge bases, 1995.


<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />

<strong>Euskal</strong> Filologia Saila<br />

<strong>Euskara</strong>ren<br />

ezagutza-base lexikala:<br />

<strong>Euskal</strong> <strong>WordNet</strong><br />

ERANSKINAK<br />

Elisabete Pociello Irigoyen<br />

Donostia, 2.007ko urria.


<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />

<strong>Euskal</strong> Filologia Saila<br />

<strong>Euskara</strong>ren<br />

ezagutza-base lexikala:<br />

<strong>Euskal</strong> <strong>WordNet</strong><br />

ERANSKINAK<br />

Elisabete Pociello Irigoyen<br />

Donostia, 2.007ko urria.


<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />

<strong>Euskal</strong> Filologia Saila<br />

<strong>Euskara</strong>ren<br />

ezagutza-base lexikala:<br />

<strong>Euskal</strong> <strong>WordNet</strong><br />

ERANSKINAK<br />

Elisabete Pociello Irigoiyenek Eneko<br />

Agirre Bengoaren eta Izaskun<br />

Aldezabal Rotetaren zuzendaritzapean<br />

egindako tesiaren txostena, <strong>Euskal</strong> Herriko<br />

Unibertsitatean <strong>Euskal</strong> Filologian<br />

Doktore titulua eskuratzeko aurkeztua.<br />

Donostia, 2.007ko urria.


Eranskinen aurkibidea<br />

A ERANSKINA............................................................................................................. 1<br />

A.1 <strong>Euskal</strong> <strong>WordNet</strong> ............................................................................................. 1<br />

A.1.1 Kokapena............................................................................................................1<br />

A.1.2 <strong>Euskal</strong> <strong>WordNet</strong>: interfazea................................................................................2<br />

A.1.2.1 Oinarrizko kontzeptuak ..................................................................................2<br />

A.1.2.2 Nola egin bilaketa...........................................................................................9<br />

A.1.2.3 Nola interpretatu bilaketaren emaitza...........................................................12<br />

A.2 Editore-lana................................................................................................... 14<br />

A.2.1 Baliabideak .......................................................................................................14<br />

A.2.1.1 <strong>Euskal</strong> <strong>WordNet</strong> ...........................................................................................14<br />

A.2.1.2 <strong>Euskara</strong>ko hiztegiak......................................................................................14<br />

A.2.1.3 <strong>Euskara</strong>ren Datu-Base Lexikala (EDBL) .....................................................15<br />

A.2.1.4 Gaztelaniako hiztegiak .................................................................................15<br />

A.2.1.5 Ingeleseko hiztegiak .....................................................................................15<br />

A.2.1.6 Corpusak.......................................................................................................15<br />

A.2.1.7 IXA taldeko Hiztegixa..................................................................................16<br />

A.2.2 Hitz baten orrazketarako prozesua ...................................................................16<br />

A.2.2.1 Synseten ulermena........................................................................................17<br />

A.2.2.2 Synseten egokitasuna....................................................................................19<br />

A.2.2.2.1 Hiztegien erabilera.................................................................................19<br />

A.2.2.2.2 Nola sartu euskal ordaina synset batean ................................................19<br />

A.2.2.2.3 Nola ezabatu euskarako ordaina synset batean......................................24<br />

A.2.2.2.4 Variant guztien orrazketa ......................................................................26<br />

A.2.2.2.5 Hiperonimo eta hiponimoen orrazketa ..................................................27<br />

A.2.3 Orrazketaren zalantzak eta arazoak: irizpideak................................................27<br />

A.2.3.1 Synsetei dagozkien markak ..........................................................................28<br />

A.2.3.1.1 Nolex markak.........................................................................................28<br />

A.2.3.1.1.1 Nolex arrunta ..................................................................................28<br />

A.2.3.1.1.2 Espezifikoa Nolex...........................................................................29<br />

A.2.3.1.1.3 Orokorra Nolex...............................................................................30<br />

A.2.3.1.1.4 Espezifikoa Hipe Nolex..................................................................30<br />

A.2.3.1.1.5 Bestelako kasuak ............................................................................32<br />

A.2.3.2 Variantei dagozkien kasuak..........................................................................33<br />

A.2.3.2.1 RARE marka ..........................................................................................33<br />

A.2.3.2.2 PLU marka.............................................................................................34<br />

A.2.3.2.3 HAEak eta IXALEX marka ....................................................................35<br />

A.2.3.3 Idazkera zalantzak ........................................................................................36<br />

A.2.3.3.1 Marratxodun hitzak................................................................................36<br />

A.2.3.3.2 Artikulua daramaten hitzak....................................................................37<br />

A.2.3.3.3 HAEak idazteko era desberdinak...........................................................37<br />

A.2.3.3.4 Hizki larriak eta xeheak.........................................................................38<br />

i


ii<br />

A.2.3.4 Bestelako zalantzak...................................................................................... 39<br />

A.2.3.4.1 Atzizki sinonimoak ............................................................................... 39<br />

A.2.3.4.2 Hiztegiak bat ez datozenean.................................................................. 39<br />

A.2.3.4.3 Antzeko synsetak bereizteko zailtasuna................................................ 39<br />

A.2.3.4.4 Adieren egokitasuna.............................................................................. 40<br />

A.2.3.4.5 Figuratiboak .......................................................................................... 41<br />

A.2.3.4.6 HAEak................................................................................................... 42<br />

A.2.3.4.7 Generoa ................................................................................................. 43<br />

A.2.3.5 Aurrerago lantzekoak................................................................................... 44<br />

A.2.3.5.1 Kategoria bateraezinak.......................................................................... 44<br />

A.2.3.5.2 Falta diren adierak................................................................................. 45<br />

A.2.3.5.3 Kontzeptu kulturalak............................................................................. 45<br />

A.2.3.5.4 Postposizioak......................................................................................... 46<br />

A.2.3.5.5 Aditz perifrastikoak............................................................................... 46<br />

A.2.3.5.6 Unlock uzten direnak............................................................................. 46<br />

A.3 Ondorioak......................................................................................................46<br />

B ERANSKINA.........................................................................................................49<br />

B.1 Lanaren kokapena ........................................................................................49<br />

B.2 Metodologia ...................................................................................................49<br />

B.3 Azterketa........................................................................................................50<br />

B.3.1 Ingeleseko aditzen hierarkia............................................................................. 50<br />

B.3.1.1 “Manner” erlazio semantikoa....................................................................... 50<br />

B.3.1.2 Ingeleseko hierarkiaren aberastasuna........................................................... 51<br />

B.3.1.3 Sintaxia......................................................................................................... 51<br />

B.3.1.4 Aurrizkiak hierarkian ................................................................................... 52<br />

B.3.2 <strong>Euskara</strong>ko aditzen hierarkia............................................................................. 53<br />

B.3.2.1 Orokortasun maila........................................................................................ 53<br />

B.3.2.2 Zehaztasun maila.......................................................................................... 53<br />

B.3.2.3 Troponimo eta HAULak .............................................................................. 54<br />

B.3.2.4 Arazoak ........................................................................................................ 55<br />

B.4 Ondorioak......................................................................................................58<br />

B.5 00636716 synsetaren troponimoak, ingelesez eta euskaraz .......................59<br />

C ERANSKINA.........................................................................................................93<br />

C.1 coach_2 / train_7 ...........................................................................................95<br />

C.1.1 Synseta MCRn.................................................................................................. 95<br />

C.1.2 Urre patroiak .................................................................................................... 95<br />

C.1.3 c2c SemCorretik............................................................................................... 95<br />

C.1.4 w2c SemCorretik.............................................................................................. 97<br />

C.1.5 s2semf SemCorretik......................................................................................... 97<br />

C.1.6 w2c BNCtik ..................................................................................................... 98


C.1.7 c2c BNCtik .....................................................................................................102<br />

C.1.8 w2semf EFEtik ...............................................................................................103<br />

C.1.9 Ondorioak .......................................................................................................104<br />

C.2 entrenatu_1 ................................................................................................. 105<br />

C.2.1 Synseta MCRn ................................................................................................105<br />

C.2.2 Urre patroiak...................................................................................................105<br />

C.2.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................106<br />

C.2.4 SemCorreko c2c euskarara itzulita.................................................................107<br />

C.2.5 SemCorreko s2semf euskarara itzulita ...........................................................107<br />

C.2.6 EFEko w2semf euskarara itzulita...................................................................108<br />

C.2.7 Ondorioak .......................................................................................................109<br />

C.3 draw_25 / tie_2............................................................................................ 110<br />

C.3.1 Synseta MCRn ................................................................................................110<br />

C.3.2 Urre patroiak...................................................................................................110<br />

C.3.3 c2c SemCorretik .............................................................................................111<br />

C.3.4 w2c SemCorretik ............................................................................................113<br />

C.3.5 s2semf SemCorretik .......................................................................................113<br />

C.3.6 w2c BNCtik ....................................................................................................114<br />

C.3.7 c2c BNCtik .....................................................................................................122<br />

C.3.8 w2semf EFEtik ...............................................................................................122<br />

C.3.9 Ondorioak .......................................................................................................123<br />

C.4 berdindu_15 ................................................................................................ 124<br />

C.4.1 Synseta MCRn ................................................................................................124<br />

C.4.2 Urre patroiak...................................................................................................124<br />

C.4.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................125<br />

C.4.4 SemCorreko c2c euskarara itzulita.................................................................125<br />

C.4.5 SemCorreko s2semf euskarara itzulita ...........................................................126<br />

C.4.6 EFEko w2semf euskarara itzulita...................................................................126<br />

C.4.7 Ondorioak .......................................................................................................127<br />

C.5 equalize_1 .................................................................................................... 128<br />

C.5.1 Synseta MCRn ................................................................................................128<br />

C.5.2 Urre patroiak...................................................................................................128<br />

C.5.3 c2c SemCorretik .............................................................................................128<br />

C.5.4 w2c SemCorretik ............................................................................................129<br />

C.5.5 s2semf SemCorretik .......................................................................................129<br />

C.5.6 w2c BNCtik ....................................................................................................129<br />

C.5.7 c2c BNCtik .....................................................................................................130<br />

C.5.8 w2semf EFEtik ...............................................................................................130<br />

C.5.9 Ondorioak .......................................................................................................131<br />

C.6 berdindu_16 ................................................................................................ 132<br />

C.6.1 Synseta MCRn ................................................................................................132<br />

C.6.2 Urre patroiak...................................................................................................132<br />

C.6.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................133<br />

C.6.4 SemCorreko c2c euskarara itzulita.................................................................133<br />

iii


iv<br />

C.6.5 SemCorreko s2semf euskarara itzulita........................................................... 134<br />

C.6.6 EFEko w2semf euskarara itzulita .................................................................. 134<br />

C.6.7 Ondorioak....................................................................................................... 134<br />

C.7 lose_2 ............................................................................................................135<br />

C.7.1 Synseta MCRn................................................................................................ 135<br />

C.7.2 Urre patroiak .................................................................................................. 135<br />

C.7.3 c2c SemCorretik............................................................................................. 136<br />

C.7.4 w2c SemCorretik............................................................................................ 136<br />

C.7.5 s2semf SemCorretik....................................................................................... 137<br />

C.7.6 w2c BNCtik ................................................................................................... 137<br />

C.7.7 c2c BNCtik..................................................................................................... 148<br />

C.7.8 w2semf EFEtik............................................................................................... 149<br />

C.7.9 Ondorioak....................................................................................................... 149<br />

C.8 galdu_9 .........................................................................................................150<br />

C.8.1 Synseta MCRn................................................................................................ 150<br />

C.8.2 Urre patroiak .................................................................................................. 150<br />

C.8.3 w2semf <strong>Euskal</strong>dunon Egunkaritik................................................................. 151<br />

C.8.4 SemCorreko c2c euskarara itzulita ................................................................ 156<br />

C.8.5 SemCorreko s2semf euskarara itzulita........................................................... 156<br />

C.8.6 EFEko w2semf euskarara itzulita .................................................................. 157<br />

C.8.7 Ondorioak....................................................................................................... 157<br />

C.9 play_1 ...........................................................................................................158<br />

C.9.1 Synseta MCRn................................................................................................ 158<br />

C.9.2 Urre patroiak .................................................................................................. 158<br />

C.9.3 c2c SemCorretik............................................................................................. 159<br />

C.9.4 w2c SemCorretik............................................................................................ 160<br />

C.9.5 s2semf SemCorretik....................................................................................... 160<br />

C.9.6 w2c BNCtik ................................................................................................... 161<br />

C.9.7 c2c BNCtik..................................................................................................... 172<br />

C.9.8 w2semf EFEtik............................................................................................... 173<br />

C.9.9 Ondorioak....................................................................................................... 178<br />

C.10 jokatu_2 .......................................................................................................179<br />

C.10.1 Synseta MCRn................................................................................................ 179<br />

C.10.2 Urre patroiak .................................................................................................. 179<br />

C.10.3 w2semf <strong>Euskal</strong>dunon Egunkaritik................................................................. 180<br />

C.10.4 SemCorreko c2c euskarara itzulita ................................................................ 185<br />

C.10.5 SemCorreko s2semf euskarara itzulita........................................................... 185<br />

C.10.6 EFEtik w2semf euskarara itzulita .................................................................. 186<br />

C.10.7 Ondorioak....................................................................................................... 186<br />

C.11 play_24 .........................................................................................................187<br />

C.11.1 Synseta MCRn................................................................................................ 187<br />

C.11.2 Urre patroiak .................................................................................................. 187<br />

C.11.3 c2c SemCorretik............................................................................................. 188<br />

C.11.4 w2c SemCorretik............................................................................................ 189


C.11.5 s2semf SemCorretik .......................................................................................191<br />

C.11.6 w2c BNCtik ....................................................................................................191<br />

C.11.7 c2c BNCtik .....................................................................................................213<br />

C.11.8 w2semf EFEtik ...............................................................................................213<br />

C.11.9 Ondorioak .......................................................................................................215<br />

C.12 jokatu_3 ....................................................................................................... 216<br />

C.12.1 Synseta MCRn ................................................................................................216<br />

C.12.2 Urre patroiak...................................................................................................216<br />

C.12.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................217<br />

C.12.4 SemCorreko c2c euskarara itzulita.................................................................222<br />

C.12.5 SemCorreko s2semf euskarara itzulita ...........................................................222<br />

C.12.6 EFEtik w2semf euskarara itzulita...................................................................222<br />

C.12.7 Ondorioak .......................................................................................................224<br />

C.13 train_8.......................................................................................................... 225<br />

C.13.1 Synseta MCRn ................................................................................................225<br />

C.13.2 Urre patroiak...................................................................................................225<br />

C.13.3 c2c SemCorretik .............................................................................................225<br />

C.13.4 w2c SemCorretik ............................................................................................226<br />

C.13.5 s2semf SemCorretik .......................................................................................226<br />

C.13.6 w2c BNCtik ....................................................................................................226<br />

C.13.7 c2c BNCtik .....................................................................................................229<br />

C.13.8 w2semf EFEtik ...............................................................................................230<br />

C.13.9 Ondorioak .......................................................................................................230<br />

C.14 entrenatu_3 ................................................................................................. 231<br />

C.14.1 Synseta MCRn ................................................................................................231<br />

C.14.2 Urre patroiak...................................................................................................231<br />

C.14.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................232<br />

C.14.4 SemCorreko c2c euskarara itzulita.................................................................233<br />

C.14.5 SemCor s2semf euskarara itzulita ..................................................................233<br />

C.14.6 EFEko w2semf euskarara itzulita...................................................................233<br />

C.14.7 Ondorioak .......................................................................................................234<br />

C.15 win_1............................................................................................................ 235<br />

C.15.1 Synseta MCRn ................................................................................................235<br />

C.15.2 Urre patroiak...................................................................................................235<br />

C.15.3 c2c SemCorretik .............................................................................................236<br />

C.15.4 w2c SemCorretik ............................................................................................237<br />

C.15.5 s2semf SemCorretik .......................................................................................237<br />

C.15.6 w2c BNCtik ....................................................................................................238<br />

C.15.7 c2c BNCtik .....................................................................................................250<br />

C.15.8 w2semf EFEtik ...............................................................................................251<br />

C.15.9 Ondorioak .......................................................................................................251<br />

C.16 irabazi_3 ...................................................................................................... 252<br />

C.16.1 Synseta MCRn ................................................................................................252<br />

C.16.2 Urre patroiak...................................................................................................252<br />

v


vi<br />

C.16.3 w2semf <strong>Euskal</strong>dunon Egunkaritik................................................................. 253<br />

C.16.4 SemCorreko c2c euskarara itzulita ................................................................ 257<br />

C.16.5 SemCorreko s2semf euskarara itzulita........................................................... 257<br />

C.16.6 EFEko w2semf euskarara itzulita .................................................................. 258<br />

C.16.7 Ondorioak....................................................................................................... 258


<strong>Euskal</strong> <strong>WordNet</strong> : editorearen eskuliburua<br />

1<br />

A ERANSKINA<br />

Eskuliburu ho<strong>net</strong>an <strong>Euskal</strong> <strong>WordNet</strong>eko editoreak synseten lanketarako behar dituen<br />

argibide guztiak zehaztuta ditugu, hala nola, <strong>Euskal</strong> <strong>WordNet</strong> bera aurkeztu, honen erabilera<br />

deskribatu, orrazketarako urratsak eta baliabideak zehaztu, eta arazoei eta zalantzei aurre<br />

egiteko irizpideak azaltzen ditugu.<br />

A.1 <strong>Euskal</strong> <strong>WordNet</strong><br />

A.1.1 Kokapena<br />

Donostiako Informatika Fakultateko Lengoaia Naturalaren Prozesamendurako (LNPrako)<br />

IXA taldea, beste zenbait lanen artean, <strong>Euskal</strong> <strong>WordNet</strong>en proiektua lantzen ari da. <strong>Euskal</strong><br />

<strong>WordNet</strong> euskarako ezagutza-base lexikal bat da (EBL). Bertan hitzei eta adierei buruzko<br />

informazioa jasotzen da eta hierarkikoki antolatuta daude. Antolamendua sinonimian<br />

oinarrituta dago: sinonimo multzo bakoitza, synset (synonym set) deritzona, hitzen adierez<br />

eratuta dago. Gainera, synseten artean erlazio lexikal anitz daude; hierarkiaren oinarria<br />

hiperonimia eta hiponimia dira, eta hauek dira, batez ere, orain arte landu ditugunak.<br />

<strong>Euskal</strong> <strong>WordNet</strong>en eraikuntza, hasieran Euro<strong>WordNet</strong>en, eta orain The Multilingual<br />

Central Repositoryn (MCR) oinarritzen da. Eraikuntzarako bertako ingeleseko kontzeptuak<br />

(<strong>WordNet</strong> 1.5ekoak, hain zuzen ere) abiapuntutzat hartu genituen, hauei euskarako ordainak<br />

lotuz, eta ez dauden euskarako kontzeptuak txertatuz. Baina 1.5 bertsioaren ondotik<br />

ingeleseko 1.6 bertsioa kaleratu zen, eta gaur egun, <strong>Euskal</strong> <strong>WordNet</strong> garatzeko bertsio<br />

horretan oinarritzen gara 1 .<br />

Esan beharra dago, eskuliburu ho<strong>net</strong>an <strong>Euskal</strong> <strong>WordNet</strong> 1.6 bertsioaz arituko garela,<br />

hauxe baita memento ho<strong>net</strong>an erabilgarri dagoena, bai kontsultarako, bai orrazketarako 2 . 1.6<br />

bertsioan izenak daude landuta; aditzekin orain dela gutxi hasi gara, eta etorkizunean,<br />

adjektiboak eta adberbioak ere lantzeko asmoa dago. Hortaz, eskuliburu ho<strong>net</strong>ako irizpideak<br />

izenen edizioari bakarrik dagokio. Hala ere, beste kategorien orrazketarekin hastean, irizpide<br />

1 <strong>WordNet</strong>ek dagoeneko 3.0 bertsioa du: http://word<strong>net</strong>.princeton.edu/perl/webwn (2007-06-18an atzitua).<br />

2 http://ixa2.si.ehu.es/mcr/wei.html (2007-06-18an atzitua).


2<br />

berriak sortuko direla aurreikusten dugun arren, eskuliburu ho<strong>net</strong>an agertzen diren irizpide<br />

asko eta asko kategoria guztientzat erabilgarriak izan daitezkeela susmatzen dugu.<br />

A.1.2 <strong>Euskal</strong> <strong>WordNet</strong>: interfazea<br />

A.1.2.1 Oinarrizko kontzeptuak<br />

Adiera, synseta eta variantaren arteko desberdintasuna:<br />

SYNSET :<br />

• Kontsultatu nahi dugun hitzaren adiera ezberdin bakoitzari synset bat dagokio, eta<br />

interfazean marra batez bereizirik agertzen da. 1. irudian ikus daitekeen bezala, zuhaitz<br />

hitzak bi synset ditu, hau da, bi adiera: ‘arbola’ eta ‘diagrama’.<br />

• Bestalde, synset bakoitzak synset-zenbaki bat izango du (1. irudian 09396070 eta<br />

10025462, hurrenez hurren).<br />

VARIANT :<br />

• Synset bakoitzean hizkuntza bakoitzeko dagoen ordaina.<br />

• Ordain bakoitzak adiera-zenbaki bat du. Beheko irudian adibidez, lehenengo synsetean,<br />

variantak hurrengoak dira: ingelesekoa, tree_1, gaztelaniakoa árbol_1 eta euskarakoak<br />

zuhaitz_1 eta arbola_1, beraz, guztien adiera-zenbakia “_1” da.<br />

09396070n<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

10025462n<br />

-geometry-<br />

shape<br />

ContentBearingObject+<br />

ImageRepresentation=<br />

Tops=<br />

09396070n 1008 tree_1<br />

09396070n 993 árbol_1<br />

09396070n 137 zuhaitz_1<br />

arbola_1<br />

10025462n 2 tree_2<br />

tree_diagram_1<br />

10025462n 0 árbol_2<br />

10025462n 0 zuhaitz_2<br />

a tall perennial woody plant having a main trunk and<br />

branches forming a distinct elevated crown; includes both<br />

gymnosperms and angiosperms<br />

planta perenne de unos cinco metros de altura que se<br />

ramifica a partir de un tronco leñoso y elevado<br />

zurezko landare bizikorra, altuera aldakorrekoa, baina<br />

sarritan handia<br />

a figure that branches from a single root<br />

estructura conceptual que consta de varias<br />

ramificaciones y una única raíz<br />

elkarrekiko erlazionaturik dauden edo sistema bat<br />

osatzen duten hainbat elementuren arteko mailaz<br />

mailako hierarkia-erlazioa grafikoki adierazten duen<br />

egitura adarkatua.<br />

1. irudia<br />

HITZA – ADIERA – SYNSET terminoen arteko erlazioa hurrengo eskemaren bidez azaltzen<br />

dugu:<br />

SYNSET<br />

SYNSET


HITZA ADIERA/VARIANT SYNSET<br />

zuhaitz zuhaitz_1 S1<br />

diagrama diagrama_1<br />

zuhaitz_2 S2<br />

2. irudia<br />

Ezkerretik eskuinera begiratuz gero (hots, synseten ikuspegitik), zuhaitz_1, zuhaitz_2 eta<br />

diagrama_1 variantak lirateke. Alderantziz begiratuz gero, hau da eskui<strong>net</strong>ik ezkerrera, edo<br />

hitzaren ikuspegitik, horiek adierak lirateke.<br />

09396070n<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

•<br />

09396070n 1008 tree_1<br />

09396070n 993 árbol_1<br />

09396070n 137 zuhaitz_1<br />

arbola_1<br />

09395329n mn 99<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

09395329n 1860 woody_plant_1<br />

ligneous_plant_1<br />

09395329n 1858 planta_leñosa_1<br />

09395329n 236<br />

zurezko_landare_1<br />

Harreman semantiko nagusienak:<br />

a tall perennial woody plant having a main trunk and<br />

branches forming a distinct elevated crown; includes both<br />

gymnosperms and angiosperms<br />

planta perenne de unos cinco metros de altura que se<br />

ramifica a partir de un tronco leñoso y elevado<br />

zurezko landare bizikorra, altuera aldakorrekoa, baina<br />

sarritan handia<br />

3. irudia<br />

a plant having hard lignified tissues or woody<br />

parts especially stems<br />

Planta dotada de haces lignificados que la<br />

hacen muy resistente<br />

SINONIMIA:<br />

• Hitz, synset edota variant baten sinonimoak, synset bakoitzean dauden variantak<br />

izango dira, eta ez agertzen diren synsetak (hauek adiera ezberdinak baitira). Adibidez,<br />

zuhaitz hitzak bi adiera ezberdin ditu (bi synset), eta zuhaitz hitzaren sinonimoak, adiera<br />

horietako bakoitzean dauden euskal variantak izango dira. Esate baterako, zuhaitz_1en<br />

sinonimoa arbola_1 da, eta zuhaitz_2k ez du sinonimorik (ikus 1. irudia).<br />

3


4<br />

HIPERONIMIA:<br />

• Hitz, synset edota variant baten hiperonimoak eskatzen ditugunean, hauek baino<br />

orokorrago edo generikoagoak diren terminoak eskatzen ari gara. Adibidez, zuhaitzaren<br />

hiperonimoa zurezko landare izan daiteke, eta zurezko landarerena landare.<br />

• Hiperonimo hurbilak vs Hiperonimo kate osoa: Hiperonimo hurbila deritzogu synset<br />

baten lehenengo hiperonimoari edo hiperonimo zuzenari. 3. adibidean ikus daitekeen<br />

bezala, zuhaitz_1en hiperonimo hurbilena zurezko_landare_1 da 3 . Aldiz, hiperonimo-kate<br />

osoaz ari bagara, synset batek dituen hiperonimo guztiez ari gara, hau da, synset hori<br />

jasotzen duten hiperonimo-zerrendaz. 4. irudaian ditugu zuhaitz_1en hiperonimo-kate<br />

osoa.<br />

3 MCRko interfazean hiperonimoak eta hiponimoak galdeketako synsetaren azpian adierazten dira.


09396070n<br />

-botanybase<br />

concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

09395329n mn 99<br />

-botanybase<br />

concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Plant=<br />

Tops=<br />

09396070n 1008 tree_1<br />

09396070n 993 árbol_1<br />

09396070n 137 zuhaitz_1 arbola_1<br />

09378438n mn<br />

99<br />

-botany-<br />

base concept<br />

plant<br />

Plant+<br />

Group=<br />

Living=<br />

Plant=<br />

Tops=<br />

09395329n 1860 woody_plant_1<br />

ligneous_plant_1<br />

09395329n 1858 planta_leñosa_1<br />

09395329n 236 zurezko_landare_1<br />

00008864n mn 99<br />

-botany-<br />

base concept<br />

Tops<br />

Plant=<br />

Group=<br />

Living=<br />

Plant=<br />

Tops=<br />

09378438n 4368 vascular_plant_1<br />

tracheophyte_1<br />

<br />

09378438n 4365 planta_vascular_1<br />

09378438n 567 landare_baskular_1<br />

a tall perennial woody plant having a main trunk and branches<br />

forming a distinct elevated crown; includes both gymnosperms and<br />

angiosperms<br />

Planta perenne de unos cinco metros de altura que se ramifica a<br />

partir de un tronco leñoso y elevado<br />

zurezko landare bizikorra, altuera aldakorrekoa, baina sarritan<br />

handia<br />

00008864n 4754 plant_2<br />

flora_2 plant_life_1<br />

00008864n 4770 flora_1<br />

planta_1<br />

00008864n 599 flora_1<br />

landare_1<br />

00002086n mn 99<br />

-biology-<br />

base concept<br />

Tops<br />

Organism=<br />

Living=<br />

Tops=<br />

00001740n mn 99<br />

-factotum-<br />

base concept<br />

Tops<br />

Physical=<br />

Tops=<br />

a plant having hard lignified tissues or woody parts especially<br />

stems<br />

Planta dotada de haces lignificados que la hacen muy<br />

resistente<br />

5<br />

green plant having a vascular system: ferns, gymnosperms,<br />

angiosperms<br />

Planta dotada de un sistema de vasos<br />

a living organism lacking the power of<br />

locomotion<br />

Vida vegetal<br />

berez ezin higi daitekeen eta sentiberatasunik ez<br />

duen izaki bizia<br />

00002086n 14706 life_form_1 organism_1 being_2<br />

living_thing_1<br />

00002086n 14147 ser_vivo_1 ser_1 organismo_1<br />

00002086n 4877 bizidun_1 organismo_1 izaki_bizidun_2<br />

00001740n 35598 entity_1<br />

something_1<br />

00001740n 32836 entidad_1<br />

00001740n 13560 izaki_1 entitate_1<br />

sorkari_1<br />

4. irudia<br />

any living<br />

entity<br />

Forma de vida<br />

anything having existence (living or<br />

nonliving)<br />

Realidad con o sin vida


6<br />

HIPONIMIA:<br />

• Hitz, synset edota variant baten hiponimoak eskatzen ditugunean, termino orokor honek<br />

bere baitan hartzen dituen termino espezifikoak eskatzen ari gara. Adibidez, zuhaitz_1en<br />

hiponimoak ‘zuhaitz motak’ izango dira (pago_1, haritz_1 eta abar).<br />

• Hiponimo hurbilak vs Hiponimo zuhaitz osoa: Hiponimo hurbila deitzen diogu synset<br />

baten hiponimo zuzen bakoitzari, hiponimo hurbil horien hiponimoak kontuan hartu<br />

gabe. 5. irudian ikus daitekeen bezala, zuhaitz_1en hiponimo hurbilak, pago_1,<br />

hurrondo_1, haritz_1, eta abar dira 4 .<br />

Bestalde, hiponimo-zuhaitz osoa deitzen diogu synset baten hiponimo guztiei, hau da,<br />

synsetaren hiponimo hurbilei eta hiponimo hurbilek jasotzen dituzten beste hiponimoei.<br />

6. irudian zuhaitz_1en hiponimo-zuhaitz osoa 5 dugu. Bertan ikus daitekeen bezala, zuhaitz<br />

mota ezberdinak daude (hiponimo hurbilak): esate baterako, hurrondo_1, haritz_1 eta abar.<br />

Eta hiponimo hurbil hauek, aldi berean, beste hiponimo batzuk izan ditzakete, esate<br />

baterako 6. irudian pago mota ezberdinak ikus daitezke: arte_5, artelatz_1, eta abar. Hala,<br />

hiponimo-zuhaitz osoa eskatuz gero, synset baten hiponimo hurbilak ikus ditzakegu,<br />

hiponimo hurbil hauen hiponimoekin batera.<br />

4 Adibidean, leku arazoak direla-eta, hiponimoen kopurua murriztu behar izan dugu: zuhaitz_1en 175 hiponimo<br />

hurbiletatik hiru baino ez ditugu aipatu. Denak ikusteko, jo bedi interfazera.<br />

5 Aurrekoa adibidean bezalaxe, kasu ho<strong>net</strong>an ere zuhaitz_1en hiponimo zuhaitza (1.008 hiponimo dituena) murriztu dugu.


09396070n<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

•<br />

•<br />

•<br />

• …<br />

09431812n mn 99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

08565213n mn 99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

08572627n mn 99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

09396070n 1008 tree_1<br />

09396070n 993 árbol_1<br />

09396070n 137 zuhaitz_1 arbola_1<br />

09431812n 0 hazel_1 hazel_tree_1<br />

Pomaderris_apetala_1<br />

09431812n 0 avellanero_1 avellano_3<br />

09431812n 0 hurrondo_3 hurritz_3<br />

08565213n 6 beech_1<br />

beech_tree_1<br />

08565213n 5 haya_1<br />

08565213n 0 pago_1<br />

08572627n 48 oak_2 oak_tree_1<br />

08572627n 47 roble_1<br />

08572627n 3 haritz_1<br />

a tall perennial woody plant having a main trunk and branches<br />

forming a distinct elevated crown; includes both gymnosperms and<br />

angiosperms<br />

Planta perenne de unos cinco metros de altura que se ramifica a<br />

partir de un tronco leñoso y elevado<br />

zurezko landare bizikorra, altuera aldakorrekoa, baina sarritan<br />

handia<br />

tree grown especially for ornament and its fine-grained wood<br />

and bearing edible nuts<br />

any of several large deciduous trees with rounded spreading crowns and smooth gray<br />

bark and small sweet edible triangular nuts enclosed in burs; north temperate regions<br />

a deciduous tree of the genus Quercus; has acorns<br />

and lobed leaves<br />

5. irudia<br />

7


8<br />

09396070n<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

•<br />

•<br />

08565213n mn 99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

o<br />

09396070n 1008 tree_1<br />

09396070n 993 árbol_1<br />

09396070n 137 zuhaitz_1 arbola_1<br />

o …<br />

08572627n mn 99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

o<br />

o<br />

08565213n 6 beech_1<br />

beech_tree_1<br />

08565213n 5 haya_1<br />

08565213n 0 pago_1<br />

08792874n mn 99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

08582991n mn 99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

08576794n mn 99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

08792874n 5 cassia_1<br />

a tall perennial woody plant having a main trunk and branches forming<br />

a distinct elevated crown; includes both gymnosperms and angiosperms<br />

Planta perenne de unos cinco metros de altura que se ramifica a partir<br />

de un tronco leñoso y elevado<br />

zurezko landare bizikorra, altuera aldakorrekoa, baina sarritan handia<br />

any of several large deciduous trees with rounded spreading crowns and smooth gray bark<br />

and small sweet edible triangular nuts enclosed in burs; north temperate regions<br />

08792874n 4 cañafístola_1 cañafístula_1<br />

08792874n 4 kanelondo_3<br />

08572627n 48 oak_2 oak_tree_1<br />

08572627n 47 roble_1<br />

08572627n 3 haritz_1<br />

8582991n 0 cork_oak_1 Quercus_suber_1<br />

08582991n 0 alcornoque_3<br />

08582991n 0 artelatz_1<br />

08576794n 0 holm_oak_2 holm_tree_1 hollyleaved_oak_1<br />

evergreen_oak_1 Quercus_ilex_1<br />

08576794n 0 encina_1<br />

08576794n 0 arte_5<br />

6. irudia<br />

any of various trees or shrubs of the<br />

genus Cassia having pinnately<br />

compound leaves and usually yellow<br />

flowers followed by long seedpods<br />

a deciduous tree of the genus Quercus; has acorns and<br />

lobed leaves<br />

prickly coral tree having soft spongy wood<br />

evergreen oak of southern Europe<br />

having leaves somewhat<br />

resembling those of holly; yields a<br />

hard wood


A.1.2.2 Nola egin bilaketa<br />

Ondoren, <strong>Euskal</strong> <strong>WordNet</strong>en kontsultak egiteko argibideak ematen ditugu, hau da, bilaketak<br />

nola egin eta informazio mota desberdinak nola lortu. Hurrengo irudian interfazearen funtzio<br />

garrantzitsuenen azalpenak zehazten ditugu:<br />

A<br />

[A] : Bilaketarako testu-kutxa.<br />

C J D<br />

7. irudia<br />

B E K<br />

F<br />

[B] : [A] testu-kutxan idatzitako kontsulta, hitza, synset edo variant den zehazten da:<br />

Word (zuhaitz), Synset (09396070) edo Variant (zuhaitz_1) bezala.<br />

[C] : [A] testu-kutxan idatzitakoaren kategoria zehazteko balio du:<br />

Noun / Verb / Adjective / Adverb<br />

[D] : [A] testu-kutxan idatzitakoa zer word<strong>net</strong>en 6 bilatu nahi dugun adierazten du:<br />

English_1.6/Spanish_1.6/Basque_1.6/Catalan_1.6/Italian_1.6 / English_1.7.1<br />

6 <strong>WordNet</strong> (letra larriz) erabiltzen dugu Princeton-en egindako ingeleseko EBLa adierazteko; word<strong>net</strong> (letra xehez),<br />

aldiz, <strong>WordNet</strong>en ereduan oinarrituta garatu den edozein hizkuntzetako EBLari buruz hitz egiteko erabiltzen dugu. Hala.<br />

<strong>WordNet</strong> terminoarekin, ingeleseko word<strong>net</strong>ari egingo zaio beti erreferentzia, eta word<strong>net</strong> terminoak aurretik zer<br />

hizkuntzetakoa den adierazia izan beharko du.<br />

H<br />

G<br />

9<br />

I


10<br />

[E] : [A] testu-kutxan idatzitako hitz, synset edo variant horren, zer harreman semantiko<br />

bilatu nahi dugun zehazten du. Oraingoz, guk lehenengo hirurak bakarrik erabiliko<br />

ditugu :<br />

Synonyms / Hyponyms / Hyperonyms / Meronyms / Antonyms / Holonyms /<br />

Fuzzynyms / Roles / Involveds / Subevents / Causes / States<br />

[F] : Nahiz eta [E]n aukeratutakoaren arabera [F] automatikoki aldatu egiten den,<br />

[F]k [E]ren zehaztapenerako aukera batzuk ematen ditu (ikus 8. irudia). Hala ere,<br />

oraingoz ez ditugu erabiltzen.<br />

8. irudia<br />

[G] : Zehaztutako harreman semantikoa zein word<strong>net</strong>en ikusi nahi den adierazten du.<br />

[H] : Kontrol-lauki hauei eraginda, pantailan informazio gehiago edo gutxiago ikusteko<br />

aukera ematen zaigu:<br />

• Gloss: Synsetaren adibide edo definizio laburra ikusteko aukera ematen du.<br />

• Score: Konfiantza-neurria ikusteko aukera ematen du.<br />

• Rels: Synsetak izan ditzakeen harreman semantiko mota guztiak ikusteko<br />

aukera ematen du.<br />

• Full: Honi sakatuta, synseten harreman semantikoen agerpena era<br />

ezberdi<strong>net</strong>ara eska daiteke:<br />

beraien osotasunean (hiperonimo kate/hiponimo-zuhaitz osoa<br />

adibidez)<br />

harreman hurbilenak bakarrik (hiperonimo/hiponimo zuzenak<br />

adibidez)<br />

[I] : Hauen bitartez kontsultaren emaitza zein word<strong>net</strong>etan ikusi nahi dugun erabaki<br />

dezakegu: English 1.6, Spanish 1.6, Catalan 1.6, Italian 1.6, Basque 1.6 eta/edo<br />

English 1.7.1ean.<br />

[J] : Behin hautaketa eginda, botoi honi sakatu behar zaio bilaketari hasiera emateko.


[K]: Hizkuntza ezberdi<strong>net</strong>ako word<strong>net</strong>etako synsetak aldatzeko, sortzeko eta informazioa<br />

gehitzeko/kentzeko aukerak ematen dituzte. Gure kasuan, euskarari dagozkion<br />

erabiliko ditugu (ikus 9. irudia), eta hurrengoak dira:<br />

• Basque_1.6 Synset: euskal synsetetan aldaketak egin daitezke, hala nola,<br />

variant berriak gehitu edota variantak ezabatu.<br />

• Basque_1.6 Relations: synsetek besteekiko dituzten erlazio semantikoen<br />

berri ematen du.<br />

• Create Basque_1.6 Synset: euskaraz synset berri bat sortzeko balio du.<br />

9. irudia<br />

11


12<br />

A.1.2.3 Nola interpretatu bilaketaren emaitza<br />

L M<br />

N O P<br />

10. irudia<br />

[L]: Synset-zenbakia.<br />

[M]: Synsetaren informazio semantiko desberdina 7 :<br />

• Oinarrizko kontzeptuak (Base Concepts): oinarrizko kontzeptu bat denean<br />

agertuko da bakarrik (beti urdinez).<br />

• Banaketa semantiko sinplea (Semantic Fields): sailkapen semantiko mota<br />

bat (beti berdez), 10. irudian adibidez, artifact, plant eta shape.<br />

7<br />

Eskuliburu ho<strong>net</strong>an, informazio mota honi ez dugu azalpenik emango. Honi buruzko informazioa tesi-txosteneko IV.<br />

kapituluan dago.


• Banaketa semantiko aberatsa (Top Ontology): sailkapen semantiko<br />

aberatsagoa (beti gorriz), 10. irudian adibidez, Artifact, Plant eta Object.<br />

• The Suggested Upper Merged Ontology (SUMO): ontologia ho<strong>net</strong>ako<br />

informazioa (beti lilaz), 10. irudian adibidez, ContenBearingObject eta<br />

FloweringPlant.<br />

[N]: Synset horri dagozkion variant multzoa, [I] eremuan egindako aukeren arabera<br />

(ingelesekoak urdinez, gaztelaniakoak berdez, euskarakoak laranjaz, katalanekoak<br />

gorriz eta italierakoak grisez). Honekin batera, hurrengo informazioa ere eskaintzen<br />

zaigu:<br />

• Lock: Eskuz landua izan dela adierazten du; landugabeek ez dute marka<br />

hau eta Unlock deitzen zaie 8 .<br />

• Lock-en ondoan dagoen zenbakia: Hizkuntza horretako synsetak dituen<br />

hiponimo kopurua adierazten du. Adibidez, zuhaitzek, ‘landare’ adierarekin<br />

137 hiponimo ditu:<br />

lock 137 arbola_1 [99%] zuhaitz_1 [99%]<br />

11. irudia<br />

• Adiera-zenbakia: Hitzaren adiera ezberdinak zenbakien bidez<br />

desberdintzen dira. Zuhaitzek bi adiera ditu, ‘landare’ adierarena eta<br />

‘diagrama’ adierarena. Beraz, adiera-zenbaki desberdina beharko dute,<br />

lehenengoak “1” adiera-zenbakia du, eta bigarrenak, aldiz, “2” adierazenbakia.<br />

• Konfidantza-neurria: Eskuz landu direnak eman daitekeen ehunekorik<br />

altuena izango dute, eta MCRn kopuru hori % 99a da.<br />

lock 137 arbola_1 [99%] zuhaitz_1 [99%]<br />

12. irudia<br />

[O]: Hizkuntza bakoitzeko word<strong>net</strong>eko synsetek dituzten harreman semantikoen kopuruak<br />

erakusten ditu. Esate baterako, zuhaitz_1ek <strong>Euskal</strong> <strong>WordNet</strong>en honako harreman<br />

semantikoak ditu (ikus 10. irudia):<br />

1 is_derived_from, 24 role_agent, 5 has_mero_part, 2 has_mero_madeof, 1<br />

has_hyperonym, 175 has_hyponym, 29 role_patient.<br />

[P]: Synsetaren azalpen laburra, bere adiera ulertzeko baliagarria dena.<br />

8<br />

Interfaze publikoan, Lock dauden synsetak bakarrik ikus daitezke. Unlock edo landugabe daudenak, interfaze<br />

pribatuan bakarrik daude atzigarri.<br />

13


14<br />

A.2 Editore-lana<br />

A.2.1 Baliabideak<br />

Editoreak hainbat baliabide ditu <strong>Euskal</strong> <strong>WordNet</strong>en orrazketarako, eta atal ho<strong>net</strong>an<br />

zerrendatuko ditugu.<br />

A.2.1.1 <strong>Euskal</strong> <strong>WordNet</strong><br />

Txosten honen hasieran esan bezala, gaur egun <strong>Euskal</strong> <strong>WordNet</strong> 1.6 bertsioarekin egiten<br />

dugu lan 9 .<br />

Honekin batera, askotan oso baliagarria izango zaio editoreari browserreko Word<strong>net</strong><br />

1.6ra jotzea, <strong>Euskal</strong> <strong>WordNet</strong> 1.6 bertsioan dagoen informazioa beste ho<strong>net</strong>an<br />

kontrastatzeko. Gainera, MCRko interfazean ingeleseko synsetentzat ikusgarri ez dauden<br />

adibideak bertan aurki daitezke; eta bilaketak egiteko askoz azkarragoa dela ere esan<br />

daiteke. <strong>WordNet</strong> 1.6 browserra exekutatzeko sisx01 10 makinan idatzi wn16, lehendabizi,<br />

sakatu enter, eta ondoren idatzi wnb &.<br />

Esan beharra dago, ingelesez <strong>WordNet</strong> 3.0 bertsioan ari direla lanean dagoeneko.<br />

Editorea bertsio horretara jo dezake 1.6 bertsioan aurkitzen ez duen zerbait kontsultatzeko,<br />

batetik bestera aldaketak egon baitaitezke 11 .<br />

A.2.1.2 <strong>Euskara</strong>ko hiztegiak<br />

Hauek elebakarrak eta elebidunak izan daitezke:<br />

• Elhuyar Hiztegi Txikia (paperean)<br />

• Elhuyar Hiztegia (euskara-gaztelania) 12<br />

• <strong>Euskal</strong> Hiztegi Modernoa (paperean)<br />

• <strong>Euskal</strong> Hiztegia (paperean)<br />

• Hiztegi Batua 13<br />

• <strong>Euskal</strong>term Hiztegi Terminologikoa 14<br />

• Sinonimoen Hiztegia 15<br />

9 http://ixa2.si.ehu.es/mcr/wei.html (2007-06-18an atzitua).<br />

10 sisx01 makina erabiltzeko shella behar da. Horretarako, SSH Secure Shell Client programaren exekutagarria edo<br />

honen mahai-gaineko lasterbidea sakatu behar da. Kontuan izan, SSH Secure Shell Client erabili ahal izateko<br />

beharrezkoa dela X-win aplikazioa martxan egotea. Behin SSH Secure Shell Client programaren interfazean gaudela<br />

Quick Connect sakatu behar da, eta bertan Host name eremua eta User name eremua bete beharko dira. Ondoren,<br />

konektatzeko sakatu Connect eta pasahitza eskatuko du.<br />

11 http://www.cogsci.princeton.edu/cgi-bin/webwn (2007-06-18an atzitua).<br />

12 http://www1.euskadi.<strong>net</strong>/hizt_el/indice_c.htm (2007-06-18an atzitua).<br />

13 http://www.erabili.com/lantresnak/hiztegiak/euskaltzaindia (2007-06-18an atzitua).<br />

14 http://www1.euskadi.<strong>net</strong>/euskalterm/indice_c.htm (2007-06-18an atzitua).


A.2.1.3 <strong>Euskara</strong>ren Datu-Base Lexikala (EDBL)<br />

EDBLn 16 ale lexikal bakoitza bere kategoria eta azpikategoria lexikal edo<br />

morfosintaktikoaren arabera sailkatuta dago (kategoria morfosintaktikoak direnak,<br />

kategoriaz gain, dagokien informazioaz hornituta daude: kasua, aspektua, numeroa,<br />

mugatasuna, funtzioa...). Informazio hori baliagarria izan daiteke synsetak lantzeko garaian.<br />

A.2.1.4 Gaztelaniako hiztegiak<br />

Gaztelaniako hiztegi ugari dauden arren, orokorroean, erabiltzen duguna hurrengoa da:<br />

• Diccionario de la Lengua Española 17<br />

A.2.1.5 Ingeleseko hiztegiak<br />

Hauek elebakarrak eta elebidunak izan daitezke. Ondoren erabiltzen ditugun hiztegi batzuk<br />

zerrendatuko ditugu:<br />

• Collins Master (paperean; gaztelania-ingelesa)<br />

• Gran Diccionario Oxford (paperean; gaztelania-ingelesa)<br />

• Wordreference 18 (gaztelania-ingelesa)<br />

• Cambridge Dictionaries Online 19 (gaztelania-ingelesa)<br />

• Morris Hiztegia 20 (euskara-ingelesa)<br />

• Onelook Dictionary Search 21 (gaztelania-ingelesa)<br />

A.2.1.6 Corpusak<br />

Hitz baten erabilera kontsultatzeko garaian, hurrengo corpusak erabil ditzakegu:<br />

• XX. mendeko <strong>Euskara</strong>ren Corpus Estatistika 22<br />

• Ereduzko prosa gaur 23<br />

• EuSemcor euskara corpusa 24<br />

15<br />

http://www.erabili.com/lantresnak/hiztegiak/uzei_sinonim (2007-06-18an atzitua).<br />

16<br />

http://ixa2.si.ehu.es/edbl (2007-06-18an atzitua).<br />

17<br />

http://www.rae.es (2007-06-18an atzitua).<br />

18<br />

http://www.wordreference.com (2007-06-18an atzitua).<br />

19<br />

http://dictionary.cambridge.org (2007-06-18an atzitua).<br />

20<br />

http://www.hiztegia.<strong>net</strong> (2007-06-18an atzitua).<br />

21<br />

http://www.onelook.com (2007-06-18an atzitua).<br />

22<br />

http://euskaracorpusa.<strong>net</strong> (2007-06-18an atzitua).<br />

23<br />

http://www.erabili.com/lantresnak/aztergailuak/prosa (2007-06-18an atzitua).<br />

24<br />

http://sisx04.si.ehu.es:8080/eusemcor (2007-06-18an atzitua).<br />

15


16<br />

A.2.1.7 IXA taldeko Hiztegixa<br />

Hiztegixa IXA taldeak sortutako tresna bat da; bertan taldeko la<strong>net</strong>arako oso erabilgarriak<br />

diren hiztegi garrantzitsue<strong>net</strong>akoak jasotzen dira interfaze informatiko berean. Beraz,<br />

arestian aipatutako hiztegi batzuk bertan izango ditugu 25 :<br />

• <strong>Euskal</strong> Hiztegia<br />

• Hiztegi Batua<br />

• Sinonimoen Hiztegia<br />

• <strong>Euskal</strong> Hiztegi Modernoa<br />

• Elhuyar Hiztegia (euskara-gaztelania)<br />

• Morris Hiztegia<br />

A.2.2 Hitz baten orrazketarako prozesua<br />

Sarreran aipatu bezala, orain arte izenak dira <strong>Euskal</strong> <strong>WordNet</strong>en landuta ditugunak. Izen eta<br />

adiera horiek gutxienez, Elhuyar Hiztegi Txikiak jasotzen dituenak dira, arruntenak horiek<br />

direla uste baita. Ondoren, adjektibo, adberbio eta aditzen lanketari ekingo diogu.<br />

Atal ho<strong>net</strong>an hitz baten orrazketan eta lanketan editoreak jarraitu behar dituen pausoen<br />

azalpena dator. Adibide gisa erabiliko dugun hitza zuhaitz izango da.<br />

Lehenengo eta behin, hitz hori <strong>Euskal</strong> <strong>WordNet</strong>en landuta dagoen ala ez jakin behar<br />

dugu. Horretarako, bertara joko dugu, eta zuhaitz hitzaren bilaketa egingo dugu. Bi gauza<br />

gerta daitezke: <strong>Euskal</strong> <strong>WordNet</strong>en egotea, edota <strong>Euskal</strong> <strong>WordNet</strong>en ez egotea. Demagun,<br />

zuhaitz hitza landuta dagoela, eta <strong>Euskal</strong> <strong>WordNet</strong>en 13. irudian bezala ageri dela:<br />

09396070n<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

09396070n 1008 tree_1<br />

09396070n 993 árbol_1<br />

09396070n 137 zuhaitz_1<br />

arbola_1<br />

a tall perennial woody plant having a main trunk and<br />

branches forming a distinct elevated crown; includes both<br />

gymnosperms and angiosperms<br />

planta perenne de unos cinco metros de altura que se<br />

ramifica a partir de un tronco leñoso y elevado<br />

zurezko landare bizikorra, altuera aldakorrekoa, baina<br />

sarritan handia<br />

13. irudia<br />

25 Hiztegixa IXAko web orrian (pribatuan) eskuragarri dago: http://ixa2.si.ehu.es/hiztegixa (2007-06-18an<br />

atzitua).


A.2.2.1 Synseten ulermena<br />

Lehenengo pausoa agertzen diren synsetak ulertzea da. 13. irudian ikus daitekeenez, <strong>Euskal</strong><br />

<strong>WordNet</strong>en zuhaitz hitzak synset bakarra du, ‘landare’ adiera duena. Kasu ho<strong>net</strong>an,<br />

ulerterraza gertatzen da zuhaitz hitzaren synseta. Baina, batzuetan mota desberdi<strong>net</strong>ako<br />

zailtasunak sor daitezke: synsetak ilunak izatea, zenbait synseten artean bereizketarik ez<br />

ikustea, hiperonimo eta hiponimoetan hitz bera agertzea, besteak beste. Honelako kasuak<br />

aurrerago azalduko ditugu (A.2.3 atalean), hartutako erabakiak eta irizpide nagusiak bananbanan<br />

azalduz.<br />

Hala eta guztiz ere, oso lagungarria izaten da bilaketan bere hiperonimorik hurbilena,<br />

edota hiperonimo-kate osoa jasotzea. Honela:<br />

•<br />

09396070n<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

09395329n mn 99<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

09396070n 1008 tree_1<br />

09396070n 993 árbol_1<br />

09396070n 137 zuhaitz_1<br />

arbola_1<br />

09395329n 1860 woody_plant_1<br />

ligneous_plant_1<br />

09395329n 1858 planta_leñosa_1<br />

09395329n 236<br />

zurezko_landare_1<br />

a tall perennial woody plant having a main trunk and<br />

branches forming a distinct elevated crown; includes both<br />

gymnosperms and angiosperms<br />

planta perenne de unos cinco metros de altura que se<br />

ramifica a partir de un tronco leñoso y elevado<br />

zurezko landare bizikorra, altuera aldakorrekoa, baina<br />

sarritan handia<br />

14. irudia<br />

a plant having hard lignified tissues or woody<br />

parts especially stems<br />

Planta dotada de haces lignificados que la<br />

hacen muy resistente<br />

Irudi ho<strong>net</strong>an, zuhaitz_1en hiperonimorik hurbilena ikus daiteke, eta adiera hobeto<br />

ulertzen lagun dezake: zuhaitz_1 ‘zurezko landare’ bat da.<br />

Beste aukera bat da ulertu nahi dugun synsetaren hiponimoak ikustea, adiera ulertzen<br />

laguntzeko.<br />

17


18<br />

09396070n<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

•<br />

•<br />

•<br />

09431812n mn<br />

99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

08565213n mn<br />

99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

08572627n mn<br />

99<br />

-botany-<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

• …<br />

09396070n 1008 tree_1<br />

09396070n 993 árbol_1<br />

09396070n 137 zuhaitz_1<br />

arbola_1<br />

09431812n 0 hazel_1 hazel_tree_1<br />

Pomaderris_apetala_1<br />

09431812n 0 avellanero_1 avellano_3<br />

09431812n 0 hurrondo_3 hurritz_3<br />

08565213n 6 beech_1<br />

beech_tree_1<br />

08565213n 5 haya_1<br />

08565213n 0 pago_1<br />

08572627n 48 oak_2 oak_tree_1<br />

08572627n 47 roble_1<br />

08572627n 3 haritz_1<br />

a tall perennial woody plant having a main trunk and<br />

branches forming a distinct elevated crown; includes both<br />

gymnosperms and angiosperms<br />

Planta perenne de unos cinco metros de altura que se<br />

ramifica a partir de un tronco leñoso y elevado<br />

zurezko landare bizikorra, altuera aldakorrekoa, baina<br />

sarritan handia<br />

tree grown especially for ornament and its finegrained<br />

wood and bearing edible nuts<br />

any of several large deciduous trees with rounded spreading crowns and<br />

smooth gray bark and small sweet edible triangular nuts enclosed in burs;<br />

north temperate regions<br />

15. irudia<br />

a deciduous tree of the genus Quercus; has<br />

acorns and lobed leaves


15. irudiko hiponimoei esker, badakigu, haritz_1, pago_1 eta hurrondo_3, beste batzuen<br />

artean, ‘zuhaitz motak’ direla. Beraz, osatu dugu lehenengo urratsa: synsetek adierazten<br />

duten adieren ulermena.<br />

A.2.2.2 Synseten egokitasuna<br />

<strong>Euskal</strong> <strong>WordNet</strong>eko adierak ulertu ondoren, hauen egokitasuna aztertu behar dugu.<br />

A.2.2.2.1 Hiztegien erabilera<br />

Lehenik, euskarako hiztegietara joko dugu zuhaitz hitzak dituen adierak aztertzeko.<br />

Adibidez, Elhuyar Hiztegi Txikian begiratuz gero, (arestian esan bezala, bertan dauden izen<br />

eta adierak gutxienez agertu behar dute <strong>Euskal</strong> <strong>WordNet</strong>en) honako emaitza hau agertzen da:<br />

Elhuyar Hiztegi Txikia: zuhaitz<br />

1. Árbol. “Zuhaitz ugariz jantziriko lurraldea”<br />

2. (egitura, eskema) Árbol. “Zuhaitz genealogikoa”<br />

Ikus daiteke, gure adibideak bi adiera dituela Elhuyar Hiztegi Txikian. Lehenengoak<br />

‘landare’ adierari egiten dio erreferentzia. Beraz, hau da <strong>Euskal</strong> <strong>WordNet</strong>ek jasotzen duen<br />

adiera. Bigarrena, berriz, ‘eskema’ edota ‘egitura’ adierazteko balio duena da. Eta hau ez du<br />

<strong>Euskal</strong> <strong>WordNet</strong>ek jasotzen. Hala, egokitasuna aztertzen denean, bi puntu lantzen dira:<br />

• <strong>Euskal</strong> <strong>WordNet</strong>en dauden synsetak ea egokiak diren; eta zuhaitz_1 halaxe<br />

gertatzen da, Elhuyar Hiztegi Txikiko 1. adierarekin bat baitator.<br />

• Adiera edota synseten bat faltan edo soberan dagoen; eta kasu ho<strong>net</strong>an, Elhuyar<br />

Hiztegi Txikiko bigarren adiera falta da <strong>Euskal</strong> <strong>WordNet</strong>en (‘diagrama’).<br />

Baliabideen atalean (A.2.1) aipaturiko hiztegiek lagun gaitzake zuhaitz hitzak dituen<br />

adierak egiaztatzeko: <strong>Euskal</strong> Hiztegia, <strong>Euskal</strong>term, EDBL, besteak beste. Beraz, euskarako<br />

hiztegiak kontsultatu ondoren, baiezta daiteke zuhaitz hitzak bi adiera dituela. Eta, aurreko<br />

atalean ikusi ahal izan dugun bezala, <strong>Euskal</strong> <strong>WordNet</strong>en zuhaitzen adiera bat agertzen da,<br />

baina bestea ez. Hala, editoreak eman behar dugun hurrengo pausoa hauxe da: adiera hori<br />

<strong>Euskal</strong> <strong>WordNet</strong>en sartzeko synset egokia aurkitu, eta bertan txertatu. Ondorengo atalean<br />

datoz horretarako argibideak.<br />

A.2.2.2.2 Nola sartu euskal ordaina synset batean<br />

Lehendabizi, hiztegi elebidu<strong>net</strong>ara jo behar dugu zuhaitz hitzaren itzulpena jasotzera (ikus<br />

A.2.1.2 eta A.2.1.5 atalak). Bilaketa egin ondoren, zuhaitzen itzulpenak ditugu: tree eta árbol.<br />

Ondoren, ingeleseko tree eta gaztelaniako árbol aztertu behar ditugu, euskarako eta beste<br />

19


20<br />

hizkuntzetako kontzeptuek gauza bera adierazten dutela ziurtatzeko. Horretarako, ingeles eta<br />

gaztelaniako hiztegi elebakarretan begiratu behar dugu, hitz hauen adiera desberdinen<br />

definizioak euskarako definizioekin parekatzeko. Esate baterako <strong>Euskal</strong> Hiztegi Modernoak<br />

zuhaitz hitzarentzat bi adiera ditu:<br />

1. Zurezko landare bizikorra, altuera aldakorrekoa, baina sarritan handia. Zurtoina (enborra) lurretik<br />

urruti samar adarkatzen da eta espezie bakoitzaren bereizgarri den adaburua eratzen du.<br />

2. Elkarrekiko erlazionaturik dauden edo sistema bat osatzen duten hainbat elementuren arteko<br />

mailaz mailako hierarkia-erlazioa grafikoki adierazten duen egitura adarkatua (bereziki<br />

hizkuntzalaritzan eta informatikan erabiltzen da).<br />

Wordreference hiztegiko definizioak tree hitzarentzat hurrengoak dira:<br />

1. Any large woody perennial plant with a distinct trunk giving rise to branches or leaves at some<br />

distance from the ground.<br />

2. A branching diagrammatic representation of something, such as the grammatical structure of a<br />

sentence.<br />

Eta azkenik, árbol hitzaren definizioak Diccionario de la Lengua Españolen ondorengoak<br />

dira:<br />

1. Planta perenne, de tronco leñoso y elevado, que se ramifica a cierta altura del suelo.<br />

2. Cuadro descriptivo, la mayoría de las veces en forma de árbol.<br />

Ikus daitekeen bezala, hizkuntza guztietako ordainen adierak bateragarriak dira, hau da<br />

zuhaitzek eta honen itzulpenak diren tree eta árbolek, berdinak diren bi adiera dituzte. Hortaz,<br />

bi adiera horiek dituzten erdal ordain horien (árbol eta tree) synsetetan euskarako zuhaitz<br />

hitza txerta daiteke.<br />

Hala ere, zuhaitz hitzaren kasuan, bi adiera adierazteko ordain bakarra dago bai euskaraz,<br />

bai gaztelaniaz eta bai ingelesez. Baina, badira kasu konplexuagoak, non euskal hitz batek<br />

adiera bat baino gehiago dituen, eta hitz eta adiera hauen itzulpenak ingelesez eta<br />

gaztelaniaz, ordain bat baino gehiago diren. Esate batareko, lur hitzaren kasuan, hurrengoak<br />

lirateke hitz hau ingelesez eta gaztelaniaz itzultzeko formarik arruntenak:<br />

Morris Hiztegia: lur<br />

1. (Astron.) Earth.<br />

2. (Kristau.) earth, world.<br />

3. (ez airean) land.<br />

4. (behekoa) ground.<br />

5. (etxe barrukoa) floor.<br />

Elhuyar Hiztegia: lur<br />

1. tierra<br />

2. suelo, tierra


Lur hitza lantzeko garaian, itzulpen hauek guztiak dagokien hizkuntzako hiztegi<br />

elebakarretan aztertu beharko genituzke, erdal ordain horien synsetetan euskarako lur hitza<br />

erabilgarria izan daitekeela egiaztatzeko.<br />

Behin lantzen ari garen hitzaren (orain arteko adibidearekin jarraituta, zuhaitz) eta<br />

dagozkion erdal ordainak (árbol eta tree) ezagututa, erdal ordain hauen synsetak hizkuntza<br />

hauetako word<strong>net</strong>etan kontsultu behar ditugu, euskarako hitzari falta zaizkion adierak<br />

txertatzeko; zuhaitz hitzaren kasuan, adiera berri bat sartu behar dugu (‘diagrama’ adierari<br />

dagokiona, hain zuzen ere). Horretarako, esan dugun bezala, lehendabizi tree edo árbol hitzak<br />

bilatu behar ditugu ingeleseko eta gaztelaniako word<strong>net</strong>etan. Bai batean, eta bai bestean,<br />

bilaketa honen emaitza 16. irudikoa da. Bai tree hitzak, bai árbolek bi adiera dituzte MCRn:<br />

‘landare’ (09396070 synseta) eta ‘diagrama’, ‘egitura’, ‘eskema’ (10025462 synseta).<br />

Esan bezala, <strong>Euskal</strong> <strong>WordNet</strong> Euro<strong>WordNet</strong>en hasieran, eta egun MCRn oinarrituta<br />

dago. Bertan hainbat hizkuntza daude (ingelesa, gaztelania, katalana, italiera...), baina,<br />

azpimarratu beharra dago, oinarri gisa ingelesa hartzen dugula, nahiz eta beste hizkuntzak<br />

(batez ere, gaztelania) lagungarriak izan daitezkeen.<br />

09396070n<br />

-botany-<br />

base concept<br />

plant<br />

FloweringPlant+<br />

Group=<br />

Living=<br />

Object=<br />

Plant=<br />

Tops=<br />

10025462n<br />

-geometry-<br />

shape<br />

ContentBearingObject+<br />

ImageRepresentation=<br />

Tops=<br />

09396070n 1008 tree_1<br />

09396070n 993 árbol_1<br />

09396070n 137 zuhaitz_1<br />

arbola_1<br />

10025462n 2 tree_2<br />

tree_diagram_1<br />

10025462n 0 árbol_2<br />

a tall perennial woody plant having a main trunk and<br />

branches forming a distinct elevated crown; includes both<br />

gymnosperms and angiosperms<br />

planta perenne de unos cinco metros de altura que se<br />

ramifica a partir de un tronco leñoso y elevado<br />

zurezko landare bizikorra, altuera aldakorrekoa, baina<br />

sarritan handia<br />

a figure that branches from a single root<br />

estructura conceptual que consta de varias<br />

ramificaciones y una única raíz<br />

16. irudia<br />

Zuhaitz hitzaren bigarren adiera hori (‘diagrama’) non txertatu baduela jakinda, synset<br />

horretan euskal ordaina sartuko dugu. Horretarako, synset-zenbakiaren gainean klikatu<br />

behar dugu (kasu ho<strong>net</strong>a, 10025462 idatzia duen botoiaren gainean (ikus 17. irudia).<br />

Horrekin batera, kontuan izan behar dugu, synset horretan lehendik euskarako ordainen bat<br />

zegoen ala ez. Aurretik synsetean euskarako ordainik egongo ez balitz, 17. irudian laukian<br />

markaturik agertzen den kutxatilan Create Basque_1.6 Synset aukeratu behar dugu euskal<br />

21


22<br />

ordaina sartzeko. Aldiz, aurretik synsetean euskarako ordainen bat egongo balitz,<br />

Basque_1.6 Synset aukeratu behar dugu 26 .<br />

17. irudia<br />

Aukeraketa hori eginda eta synset-zenbakiaren gainean klikatu ondoren, synsetaren<br />

barruan gaude, eta honek 18. irudiko itxura izango du. Bertan, New word botoi horretan<br />

klikatu behar dugu hitz berri bat synsetean sartzeko (ikus 18. irudian):<br />

26 Aurretik euskal ordainen bat badago, hau egokia izan daiteke, eta egin nahi dena sinonimo bat gehitzea baino ez da.<br />

Horretarako, atal ho<strong>net</strong>an aipatutako pausoak jarraituko ditugu. Dagoen ordaina okerra balitz, ezabatu beharko genuke,<br />

eta hori A.2.2.2.3 atalalean dator azalduta.


18. irudia<br />

Ondoren, leihoak beste itxura bat hartuko du, eta zuhaitz hitza sartu ahal izango dugu.<br />

Word eremuan zuhaitz hitza idatzi behar dugu. 19. irudian ikusten den bezala zuhaitz<br />

sartuta dago, eta eragiketa bukatzeko Lock marka jarri (eskuz landuta dagoela adierazteko)<br />

eta Update botoia sakatu behar ditugu (synsetean egindako azkeneko aldaketak<br />

eguneratzeko).<br />

19. irudia<br />

23


24<br />

Beraz, eragiketa hauen ondoren, <strong>Euskal</strong> <strong>WordNet</strong>en zuhaitz hitzaren bilaketa eginez gero<br />

(Lookup botoia sakatuz gero), 20. irudiko emaitza jasoko genuke; hots, zuhaitz hitzak bi<br />

synset dituela:<br />

20. irudia<br />

Esan beharra dago, variantak ale lexikalez gain hitz anitzeko esapideak (aurrerantzean<br />

HAE) ere izan daitezkeela. Hauek marratxorik ez badute (polizi agente, adibidez), bi osagaien<br />

artean “_” ikurra gehitu behar zaie: polizi_agente. Bestela, sistemak ez du hitz hori<br />

ezagutuko.<br />

A.2.2.2.3 Nola ezabatu euskarako ordaina synset batean<br />

Alderantzizko kasua gerta liteke: hitz bat <strong>Euskal</strong> <strong>WordNet</strong>en orrazten ari denean, ikus<br />

genezake ageri diren synseten artean baten bat egokia ez izatea. Honek esan nahi du adiera<br />

hori ez dagokiola lantzen ari garen hitzari. Bestela esanda, hitzaren adiera zuzenen artean ez<br />

dagoela synset horrek adierazten duena. Beraz, hitza ezabatu behar dugu synset horretatik.<br />

Berriro ere zuhaitz hitza erabiliko dugu adibide gisa.<br />

Demagun, <strong>Euskal</strong> <strong>WordNet</strong>en zuhaitz hitzaren kontsulta egitean, ondorengo emaitza<br />

agertzen dela:


21. irudia<br />

Irudi ho<strong>net</strong>an zuhaitz hitzak hiru synset dituela ikusten dugu. Lehenengo biak aurreko<br />

ataletan landu ditugu, baina hirugarrena berria da. Aurreko ataletan (A.2.2.2.2 atalean zehar)<br />

ikusiriko pauso guztiak jarraitu ondoren, ondorio ho<strong>net</strong>ara iritsiko gara: zuhaitz hitzak ez du<br />

bere adieren artean gaztelaniaz arbusto edo mata dutenak, eta ingelesez shrub edo bush<br />

hitzek dutena. Adiera horretarako egokia da synset berean dagoen beste varianta:<br />

zuhamuxka. Beraz, editoreak zuhaitz_3 ezabatuko du synset horretatik. Horretarako, euskal<br />

ordain bat sartzeko bezala (A.2.2.2.2 atalean azalduta dagoen bezala), synsetaren barruan<br />

egin behar ditugu aldaketak. Horretarako, synset-zenbakiaren gainean klikatu behar dugu,<br />

adibide ho<strong>net</strong>an 09403820 synset-zenbakian. Gainera, kasu ho<strong>net</strong>an, synsetak badu euskarako<br />

ordainen bat, beraz, A.2.2.2.2 atalean esan bezala, Basque_1.6 Synset aukeratu beharko<br />

dugu (ikus 17. irudia). Ondoren, berriro, leiho hau agertuko da:<br />

25


26<br />

22. irudia<br />

Synset horrek dituen bi variantetatik bat ezabatu nahi dugu, eta horretarako, variantaren<br />

ondoan eta Deleteren azpian dagoen laukitxoa markatu behar dugu. Aurrekoan bezala, Lock<br />

laukitxoa markatu behar dugu (eskuz landuta dagoela adierazteko) eta ondoren Update (egin<br />

den aldaketa eguneratzeko). Azkenik, Lookup botoia sakatzen badugu, <strong>Euskal</strong> <strong>WordNet</strong>ek<br />

zuhaitz hitzaren bilaketa egingo du, eta bi synsetekin geratu dela ikusiko dugu.<br />

A.2.2.2.4 Variant guztien orrazketa<br />

Orrazketaren beste zeregi<strong>net</strong>ako bat synseteko beste variantak aztertzea da. Bide batez,<br />

gainontzeko euskal variantak (baleude) zuzenak diren ere aztertu behar du editoreak:<br />

zuhaitz_1en kasuan, ageri da beste variant bat: arbola_1. Eta hiztegiek erakusten digute arbola<br />

hitza zuhaitzen sinonimoa dela, eta berdin erabil daitezkeela. Beraz, synsetean utziko<br />

litzateke. Bigarren synsetaren kasuan, ez da beste variantik agertzen, beraz, ez dago<br />

variantik aztertzeko.<br />

Zeregin ho<strong>net</strong>arako euskal hiztegietara jo beharko dugu (elebakar eta elebidu<strong>net</strong>ara),<br />

synset horretan agertzen diren variant guztiak sinonimoak diren egiaztatzeko. Baten bat<br />

egokia ez balitz, ezabatu beharko genuke (ikus A.2.2.2.3 atala). Eta alderantziz, beste<br />

aukeraren bat aurkituko bagenu, gehitu beharko genuke (ikus A.2.2.2.2 atala).


A.2.2.2.5 Hiperonimo eta hiponimoen orrazketa<br />

Azkenik, synset bakoitzaren euskal hiperonimo eta hiponimoen hierarkia egokia den<br />

berrikusi beharko dugu.<br />

23. irudia<br />

Beste zenbait gauzen artean, arretaz aztertu behar dugu hitz batean hiperonimoan eta<br />

hiponimoan hitz bera (variant bera) ez agertzea. 23. irudian ez da gertatzen, baina oso<br />

arrunta izango da beste hitz batzuen kasuan. Horrelako kasuak hurrengo atalean<br />

(A.2.2.3.1.4) landuko ditugu, eta bertan nola jokatu jakiteko irizpideak aurkitu ahal izango<br />

ditugu.<br />

A.2.3 Orrazketaren zalantzak eta arazoak: irizpideak<br />

Aurreko atalean azaldu dugun prozesuan, hau da, hitz baten lanketan, askotan sortu dira<br />

hainbat arazo eta kasu berezi: euskaraz lexikalizatu gabeko synsetak, kategoria bateraezinak,<br />

bereziki landu beharreko hitzak, adiera orokorregiak edo espezifikoegiak, eta beste zenbait<br />

zalantza eta arazo. Orain arte, zalantza hauek guztiak editoreak zerrenda batzuetan sailkatzen<br />

zituen, baina zalantza sortzen duten hitz hauek <strong>Euskal</strong> <strong>WordNet</strong>en landu ahal izateko,<br />

zerrendetako zalantzak bildu eta aztertu ditugu, erabaki batzuk hartuz, eta irizpide batzuk<br />

finkatuz. Horrekin batera, editorearentzako beharrezkoak ziren marka berriak gehitu ditugu<br />

interfazean (MCRko interfazea aldatuz), eta horiek azalduko ditugu ondoko irizpide eta<br />

adibideetan.<br />

27


28<br />

A.2.3.1 Synsetei dagozkien markak<br />

Synsetek bost marka ezberdin izan ditzakete, eta horiek guztiak ez-lexikalizatu –No<br />

lexicalize (Nolex aurreratzean)– gisa tratatu ditugu.<br />

A.2.3.1.1 Nolex markak<br />

Atal ho<strong>net</strong>an, euskaraz lexikalizaturik gabeko kasuak aztertuko ditugu. Noiz gertatzen da?<br />

Beste hizkuntza batean lexikalizaturik dagoen synset batek euskaraz ordainik ez duenean;<br />

hau da, gure hizkuntzan synset hori adierazteko esamolde edo esapide batera jo behar<br />

dugunean. Orduan, synset hori Nolex dela esaten dugu, eta ikusiko dugun bezala, marka hori<br />

jartzen diogu 27 . Ondoren, Nolex kasu desberdinak aztertuko ditugu.<br />

A.2.3.1.1.1 Nolex arrunta<br />

Nolex arrunta ingeleseko 28 synsetak euskaraz ordainik ez duenean gertatzen da, hau da,<br />

synset horren adiera euskaraz lexikalizatuta ez dagoenean. Esate baterako, ingeleseko forties<br />

kontzeptua euskaraz ezin da hitz bat edo HAE baten bidez adierazi, azalpen edo definizio<br />

gisa adierazi behar dugu (‘berrogei urte inguru izan’ bezalako zerbait).<br />

Fenomeno hau kontzeptu kultural deritzotenekin gertatzen da batez ere: kultura bati<br />

loturik agertzen diren kontzeptuak, beste hizkuntzetan existitzen ez direnak. Adibidez, simnel<br />

‘Ingalaterran Eguberrietan jaten den gozokia’ da, edota off-sales ‘edari alkoholikoak sal<br />

ditzaketen Ingalaterrako dendak, non hauek edatea debekatua dagoen’. Hauek Ingalaterrako<br />

kontzeptu kulturalak lirateke. Aldiz, trikitixa, ikastola, txakolina eta abar <strong>Euskal</strong> Herrikoak.<br />

Honenbestez, hizkuntza batean edo bestean ez dira egongo horien ordain lexikoak, eta Nolex<br />

arrunta gisa landuko genituzke 29 .<br />

Hala, horrelako kasuetan synset horren barruko interfazean Nolex eta Lock marka jarriko<br />

dizkiogu, eta synset hori euskal variantik gabe utziko dugu:<br />

27<br />

Nolex marka daramaten synseten <strong>Euskal</strong> <strong>WordNet</strong>en interfaze publikoan ez daude ikusgarri, hau da, interfaze<br />

pribatutik bakarrik hel daiteke hauetara.<br />

28<br />

Gogoratu beharra dago, <strong>Euskal</strong> <strong>WordNet</strong> garatzeko, oinarri gisa ingelesa hartzen dugula, nahiz eta beste hizkuntzak<br />

(batez ere, gaztelania) lagungarriak izan daitezkeen.<br />

29<br />

Tesi-txosteneko VI. kapituluan azaldu bezala, horrelako kasuak hutsune kultural (cultural gaps) bezala izendatzen<br />

dira.


A.2.3.1.1.2 Espezifikoa Nolex<br />

24. irudia<br />

Badira beste hizkuntzetako zenbait synset oso adiera espezifikoa dutenak, eta nahiz eta,<br />

behar bada, euskaraz ordainen bat izan, ordain hori topatzea zaila gerta daiteke, batzuetan<br />

eskura ez ditugun hiztegi espezializatuetara jotzea behartzen gaituelako. Adibidez false<br />

mistletoe (‘mihura mota bat’). Horrelakoetan ahal dugun neurrian euskarako ordaina bilatzen<br />

saiatu behar dugu, orain arte aipatutako hiztegietan (ikus A.2.1 atala). Aurkituko bagenu,<br />

dagokion synsetean sartuko genuke. Baina ordainik topatuko ez bagenu, Espezifikoa eta<br />

Nolex markak jarriko dizkiogu. Gainera, synsetaren Oharra eremuan eman dituen pausoak<br />

idatzi behar ditugu. Azkenean Lock markatuko dugu landu dugula adierazteko 30 (ikus 25.<br />

irudia).<br />

25. irudia<br />

30 Izen berezi batzuk (bataila batzuen izenak, besteak beste) era ho<strong>net</strong>ara marka daitezke.<br />

29


30<br />

A.2.3.1.1.3 Orokorra Nolex<br />

<strong>WordNet</strong>en kontzeptu orokor batzuk izendatzeko terminoak asmatu-edo egin dira. Adibidez,<br />

entity azpian daudenean imaginary place, body of water, unpleasant woman, eta halakoak, hauen<br />

baitan dauden hiponimoen sailkapena errazteko sortu dira. Beste hitz batzuetan esanda,<br />

synset hauek antolatzaileak direla esan daiteke, hiponimo sorta bat izendatzeko<br />

beharrezkoak. Horregatik, nahiz eta kontzeptu hori berez lexikalizatua ez egon, adierazi<br />

egiten da hierarkia ulergarriagoa egitearren.<br />

Horrelakoak euskaratzean, saiatu behar dugu ahal dugun neurrian euskarako ordaina<br />

topatzen. Aurkitzen badugu, synsetari lotuko diogu. Baina aurkitzen ez badugu, Orokorra<br />

eta Nolex bezala markatu ditugu; eta Oharra eremuan hartutako erabakiaren berria emango<br />

dugu (zer hiztegietan begiratu dugun eta abar). Bukatzeko Lock marka ere jarriko dugu. 26.<br />

irudian imaginary_place_1eri dagokion synseta dugu adibide gisa:<br />

A.2.3.1.1.4 Espezifikoa Hipe Nolex<br />

26. irudia<br />

Esan bezala (ikus A.1.2.1 atala), hiponimoak hiperonimoen zehaztapenak dira. Ingeleseko<br />

word<strong>net</strong>ak duen espezifikotasun-maila oso xehea da, eta honen ondorioz, maiz, ingeleseko<br />

hierarkiako synset ugari euskaraz hiperonimoaren ordain bera erabilita itzultzen dira; bestela<br />

esanda, ingeleseko hiperonimo baten hiponimo bakoitzarentzat ordain desberdin bat<br />

dagoenean, euskaraz hiperonimo eta hiponimo horiek hitz bera izango dute. Adibideetako<br />

bat parranda hitza da:


00328689n mn 99<br />

-free_time-<br />

act<br />

RecreationOrExercise+<br />

Agentive=<br />

Cause=<br />

Dynamic=<br />

Purpose=<br />

Recreation=<br />

Social=<br />

UnboundedEvent=<br />

•<br />

00328944n mn 99<br />

-free_time-<br />

act<br />

RecreationOrExercise+<br />

Agentive=<br />

Cause=<br />

Dynamic=<br />

Purpose=<br />

Recreation=<br />

Social=<br />

UnboundedEvent=<br />

o<br />

o<br />

o<br />

00328689n 8 merrymaking_1 conviviality_2 jollification_1<br />

00328689n 7 juerga_1 jolgorio_1<br />

00328689n 7 parranda_1<br />

00329202n mn 99<br />

-free_time-<br />

act<br />

RecreationOrExercise+<br />

Agentive=<br />

Cause=<br />

Dynamic=<br />

Purpose=<br />

Recreation=<br />

Social=<br />

UnboundedEvent=<br />

00329304n mn 99<br />

-free_time-<br />

act<br />

RecreationOrExercise+<br />

Agentive=<br />

Cause=<br />

Dynamic=<br />

Purpose=<br />

Recreation=<br />

Social=<br />

UnboundedEvent=<br />

00329473n mn 99<br />

-free_time-<br />

act<br />

RecreationOrExercise+<br />

Agentive=<br />

Cause=<br />

Dynamic=<br />

Purpose=<br />

Recreation=<br />

Social=<br />

UnboundedEvent=<br />

00328944n 6 revel_1 revelry_1<br />

00328944n 5 alborozo_1 holgorio_1 embullo_1 algazara_1<br />

00328944n parranda_1<br />

00329202n 0 spree_1 bout_3 fling_2<br />

00329202n 0 borrachera_1 parranda_1<br />

melopea_1 francachela_1 cuchipanda_1<br />

00329202n parranda_2<br />

00329304n 0 bust_3 tear_3 bender_1<br />

binge_1 toot_2 booze-up_1<br />

00329304n 0 castaña_2 turca_1 tranca_1<br />

00329304n parranda_3<br />

00329473n carouse_1 carousal_1<br />

00329473n 0 farra_1<br />

00329473n parranda_34<br />

27. irudia<br />

boisterous celebration<br />

unrestrained<br />

merrymaking<br />

a brief indulgence of<br />

your impulses<br />

an occasion for<br />

heavy drinking<br />

a merry drinking party<br />

31


32<br />

Ikus daitekeen bezala, parranda_1 hiperonimoaren azpiko lau hiponimoen variantak<br />

berdinak dira, hau da, denak parranda, gisa adierazita daude, euskaraz ez dira bereizten 31 .<br />

Horrelakoetan, jarraitu beharreko irizpidea honako hau da: hiponimoei Nolex marka jarri eta<br />

hiperonimoa bere horretan utzi. Hala ere, hiperonimoaren ordain bera jasotzen duela<br />

adierazteko hiponimoei marka bat jarriko diegu: Espezifikoa HIPE. Hala, horrelako<br />

synsetak Nolex, Lock eta Espezifikoa HIPE bezala markatuko dira.<br />

28. irudia<br />

Oharra:<br />

Kasu ho<strong>net</strong>az ohartu ahal izateko, <strong>Euskal</strong> <strong>WordNet</strong>en synset edo hitz baten kontsulta egitean, honen<br />

hiperonimoak eta hiponimoak beti eskatzea gomendagarria da. Bestalde, irizpide hau hiperonimohiponimo<br />

hurbilen artean bakarrik erabiliko dugu.<br />

A.2.3.1.1.5 Bestelako kasuak<br />

Batzuetan, <strong>Euskal</strong> <strong>WordNet</strong>en interfazea kontsultatzean, Nolex marka, varianta eta orain<br />

arte aipaturiko beste markarik gabeko synsetak topa ditzakegu (normalean, Lock markarik<br />

gabekoak dira). Adibidez:<br />

31 Espezifikazio-mailari buruzko azalpen gehiagorako jo bedi tesi-txosteneko VI. kapitulura.


07690797n<br />

-merchant_navy-<br />

person<br />

hasSkill+<br />

Function=<br />

Human=<br />

Living=<br />

Object=<br />

Occupation=<br />

Tops=<br />

07690797n 0 yachtsman_1 yachtswoman_1<br />

07690797n 0 yatista_1<br />

07690797n nolex 0 yatelari_1<br />

29. irudia<br />

sails a yacht<br />

Hauek orrazketaren beste fase batean egindakoak dira, gehienak; <strong>Euskal</strong> <strong>WordNet</strong><br />

editatzeko irizpideak garatu gabe zeudenekoak dira. Egungo metodologia dela-eta, horrelako<br />

kasuak ez dira sortzen, baina horrelakoren bat topatuz gero, synset hori eskuliburu ho<strong>net</strong>an<br />

zehaztutako irizpideen arabera moldatu beharko genuke (nahiz eta synseta Lock marka<br />

izan 32 ). Hurrengo kasuistika gerta daiteke:<br />

• Varianta hitz bat bada (ikus 29. irudia), normalean, Nolex arrunta eta<br />

Espezifikoa Nolex gisa tratatuko da (ikus A.2.3.1.1.1 eta A.2.3.1.1.2 atalak).<br />

Hala ere, kasuan kasu, irizpidea ezberdina izan daiteke –adibidez, hiperonimoan<br />

ordain bera agertzea (ikus ikus A.2.3.1.1.4 atala), edota synset horrentzat<br />

euskarako ordain apropos bat topatzea, eta abar.<br />

• Varianta HAE bat bada, orduan jo bedi A.2.3.2.3ko irizpidera.<br />

A.2.3.2 Variantei dagozkien kasuak<br />

A.2.3.2.1 RARE marka<br />

<strong>Euskal</strong>kietako aldaera desberdinekin arazoak sortzen dira zenbaitetan. Honako adibidea<br />

argia da egunkari izena. Hiztegietan gaztelaniako ‘periódico’ adieraz gain, iparraldean badu<br />

beste adiera bat: ‘jornalero’. Hala, editoreak jornalari kontzeptua lantzean, baliteke synseten<br />

batean egunkari hitza topatzea edota txertatzeko zalantza izatea. Horrelakoetan, jarraitu<br />

beharreko irizpideak hauexek dira:<br />

• Hitz horiek ez ditugu <strong>Euskal</strong> <strong>WordNet</strong>en sartuko:<br />

EDBLn RARE markadunak direnean<br />

Elhuyar Hiztegietan, <strong>Euskal</strong> Hiztegi Modernoan, Hiztegi Batuan eta <strong>Euskal</strong><br />

Hiztegian gutxi erabiliak eta zaharkituak bezala agertzen direnean.<br />

• Dagoeneko horrelako hitzen bat <strong>Euskal</strong> <strong>WordNet</strong>en badago, RARE marka<br />

jarriko diegu variantei, eta synseta Lock geratuko da.<br />

32 Nahiz eta synset hori landuta egon, baliteke aurreko orrazketako erabaki horrek txosten ho<strong>net</strong>an azalduriko<br />

irizpideekin bat ez etortzea. Horregatik, errepasatzea komenigarria da.<br />

33


34<br />

A.2.3.2.2 PLU marka<br />

30. irudia<br />

Zenbait synsetetan gerta liteke euskal ordainaren erabilera beti plurala izatea. Adibidez,<br />

paper hitzaren adieretako bat hurrengoa da 33 :<br />

Elhuyar Hiztegi Txikia: paper<br />

1. pl. (abestiarena) Letra; “Musika M. Laboarena eta hitzak Hartzabalenak”.<br />

Kasu hauetan pluraleko forma horien lema (kasu hoentan, paper) synsetean lotuko ditugu<br />

eta PLU marka jarriko diegu. Ondoren, Lock geratuko da synseta.<br />

31. irudia<br />

33 Tesi-txosteneko VI. kapituluan pluralaren fenomenoari buruzko azalpen sakonagoa dator.


A.2.3.2.3 HAEak eta IXALEX marka<br />

Variantak <strong>Euskal</strong> <strong>WordNet</strong>en sartzeko hiztegietan oinarritzen gara, hau da, ordain bat hiztegi-sarrera<br />

den heinean izan daiteke <strong>Euskal</strong> <strong>WordNet</strong>eko varianta. Dagoeneko esan dugu variantak ale<br />

lexikalez gain HAEak ere izan daitezkeela, baina HAEen lanketa –lexikalizazioren ebazpenari<br />

begira 34 – konplexuagoa da, batez ere hiztegietan oinarriatuz gero: lo egin hiztegi-sarrera da, aldiz,<br />

janaria egin ez; etxe-abere hiztegi-sarrera da, konpainia-animalia, ordea, ez. Hizkuntza sortzailea<br />

den heinean, hitz-konbinazio berriak sortzen doaz, eta ulertzen ditugun arren, zaila da esaten<br />

lexikalizatuak dauden ala ez; ondorioz, zalantzak ditugu <strong>Euskal</strong> <strong>WordNet</strong>en sartu ala ez. Horrelako<br />

zalantzak eragozteko hurrengo irizpideak definitu ditugu:<br />

• Lehenengo iripizdea:<br />

<strong>Euskara</strong>ko adierazpidea Elhuyar Hiztegietan, <strong>Euskal</strong> Hiztegian, <strong>Euskal</strong>termen edota<br />

Hiztegi Batuan hiztegi-sarrera bada, orduan, adierazpide hori lexikalizatutzat<br />

hartuko dugu eta synsetean sartuko dugu. Adibidez, ingeleseko sleep aditza euskaraz<br />

lo egin esaten da. Forma hau gutxienez aipatutako hiztegi batean hiztegi-sarrera bada,<br />

bestelako hitz baten antzera landuko dugu, hau da, HAEa synsetean sartuko dugu<br />

variant gisa, eta beti bezala, amaitzeko Lock marka erabiliko dugu:<br />

32. irudia<br />

34 Tesi-txosteneko VI. kapituluan HAEen eta lexikalizazioaren fenomenoari buruzko azalpen sakonagoa dator.<br />

35


36<br />

• Bigarren irizpidea:<br />

<strong>Euskara</strong>ko adierazpidea HAE bat bada, eta Elhuyar Hiztegietan, <strong>Euskal</strong> Hiztegian,<br />

<strong>Euskal</strong>termen edota Hiztegi Batuan hiztegi-sarrera ez bada:<br />

eta kontzeptu hori euskaraz kategoria sintagmatiko berarekin itzul badaiteke,<br />

orduan, adierazpide hori variant gisa sartuko dugu, IXALEX emango diogu. Beti<br />

bezala, amaitzeko Lock marka erabiliko dugu. Adibidez, ingeleseko pet izena<br />

euskaraz konpainia-animalia esaten da. Forma hau ez dago inongo hiztegitan<br />

hiztegi-sarrera gisa, baina editoreari erabilera hau egokia iruditzen zaio. Hala, eta<br />

corpusetan-eta begiratu ondoren, HAE hau synsetean sartuko dugu variant gisa,<br />

eta IXALEX eta Lock markekin:<br />

33. irudia<br />

eta kontzeptu hori adierazteko kategoria sintagmatiko desberdineko HAE<br />

konplexu bat —definizio edo azalpen gisakoa— erabili behar badugu, orduan,<br />

HAE hori ez dugu variant gisa txertatuko baizik glosa gisa. Horrelakoak A.2.3.1.1.1<br />

atalean aipatu ditugu: Nolex eta Lock marka jarriko dizkiogu, eta synset hori euskal<br />

variantik gabe utziko dugu (ikus 24. irudia).<br />

A.2.3.3 Idazkera zalantzak<br />

A.2.3.3.1 Marratxodun hitzak<br />

Herri-, haur- eta bezalako izenek marratxoa daramatenean, hau mantendu egingo da, hau da,<br />

hitz batek berarekin beti marratxoa eskatzen badu, orduan, hitzarekin batera marratxoa<br />

txertatuko dugu <strong>Euskal</strong> <strong>WordNet</strong>en 35 .<br />

35 Atal hau adjektiboekin harrema<strong>net</strong>an dago. Oraindik adjektiboak txertatzen hasi ez arren, izenak lantzean horrelako<br />

arazoak aurreikusi egin ditugu. Hala ere, honi buruz A.2.3.5.1 atalean mintzatuko gara.


A.2.3.3.2 Artikulua daramaten hitzak<br />

34. irudia<br />

Kasu hauetan, jarraitu behar duen irizpidea –a kentzea da. Beraz, hiztegietan atseginik ez(a)<br />

bezalakoak aurkitu arren, <strong>Euskal</strong> <strong>WordNet</strong>en atseginik ez txertatuko dugu. Hala ere,<br />

horrelako HAEekin kontuz ibili beharra dago, ikus A.2.3.2.3 atala.<br />

A.2.3.3.3 HAEak idazteko era desberdinak<br />

Batzuetan, hitz berak aukera bat baino gehiago du idazteko garaian, eta hauek guztiak<br />

hiztegietan jasota egon daitezke. Adibidez, ingeleseko policeman euskaraz polizi agente eta<br />

polizia-agente esan daiteke 36 . <strong>Euskal</strong> <strong>WordNet</strong>en idazteko era guztiak sartuko ditugu eta<br />

synseta landu ondoren Lock marka jarriko diogu.<br />

36<br />

Atal honek HAEekin (geroago datorren A.2.3.4.6 atalarekin) harrema<strong>net</strong>an dago. Beraz, HAEak lantzean idazkera<br />

kontuan izan beharrekoa da.<br />

37


38<br />

A.2.3.3.4 Hizki larriak eta xeheak<br />

35. irudia<br />

Gerta daiteke, hitz bera batzuetan hitz larriz eta besteetan letra xehez agertzea hiztegi eta<br />

dokumentu desberdi<strong>net</strong>an. Orduan, hiztegietara eta EDBL datu-base lexikalera joko dugu,<br />

eta bertan agertzen dena izango da irizpide erabakia hartzeko. Esate baterako, Jainko ala<br />

jainko? Kasu ho<strong>net</strong>an EDBLk biak jasotzen ditu eta biei buruzko informazio zehatza ematen<br />

du, eta hori jarraituta hurrengo synsetak desberdindu ditugu:<br />

06888992n<br />

-religion-<br />

person<br />

Agent+<br />

Function=<br />

Living=<br />

Tops=<br />

06861622n<br />

-religion-<br />

base concept<br />

person<br />

Agent+<br />

Creature=<br />

Function=<br />

Living=<br />

Tops=<br />

06888992n 11 God_1 Supreme_Being_1<br />

06888992n 10 dios_3 deidad_2 divinidad_3<br />

06888992n 8 Jaun_1 Jainko_1 izaki_goren_1<br />

06861622n 390 deity_1 divinity_1 god_2<br />

immortal_2<br />

06861622n 374 dios_2 deidad_1 divinidad_2<br />

06861622n 60 jainko_3<br />

the supernatural being conceived as the perfect<br />

and omnipotent and omniscient originator and<br />

ruler of the universe; the object of worship in<br />

monotheistic religions<br />

Ser supremo que en las religiones monoteístas es<br />

objeto de culto<br />

any supernatural being worshipped as<br />

controlling some part of the world or some<br />

aspect of life or who is the personification of a<br />

force<br />

ser supremo que en las religiones monoteístas es<br />

objeto de culto<br />

gizakiaz gaineko izakia, ahalmen eta botere<br />

bereziz hornitua, errealitatearen alderdi edo<br />

fenomeno batzuen aginpidea esleitzen zaiona<br />

36. irudia


A.2.3.4 Bestelako zalantzak<br />

A.2.3.4.1 Atzizki sinonimoak<br />

-keta, -kuntza, -mendu eta abar bezalako atzizkiak dituzten hitzen artean sinonimia gertatzen<br />

da sarritan. Honen adibide dira antolaketa, antolakuntza eta antolamendu. Hauen irizpidea<br />

honakoa da: Elhuyar Hiztegi Txikiko hiztegi-sarrera gisa agertzen diren neurrian sartuko<br />

dira, hau da, synset batean antolaketa gehitu nahi badugu, eta Elhuyar Hiztegi Txikian<br />

hiztegi-sarrera gisa antolakuntza ere badago, orduan biak gehituko dira synset horretan.<br />

Elhuyar Hiztegi Txikian antolakuntza egongo ez balitz, ez genuke gehituko.<br />

A.2.3.4.2 Hiztegiak bat ez datozenean<br />

Batzuetan hiztegi desberdi<strong>net</strong>ara jotzean, bateragarria ez den informazioarekin topa gaitezke.<br />

Adibidez, gaztelaniako salsera txertatu nahi dugu <strong>Euskal</strong> <strong>WordNet</strong>en. <strong>Euskal</strong> Hiztegi<br />

Modernoan eta Elhuyar Hiztegian begiratuz gero, itzulpen gisa saltsaontzi ematen du eta,<br />

<strong>Euskal</strong>termek aldiz, saltsontzi. <strong>Euskal</strong>tzaindiak ez badu horri buruzko araurik, orduan,<br />

<strong>Euskal</strong> Hiztegi Modernoak eta Elhuyar Hiztegiak dioena jarraituko dugu.<br />

A.2.3.4.3 Antzeko synsetak bereizteko zailtasuna<br />

Batzuetan oso antzekoak diren synseten artean bereiztea oso zaila gertatzen da. Adibidez,<br />

ilara hitzaren kasuan, hurrengo bi synsetak ditu, eta euskaraz horiek nekez bereiz daitezke:<br />

06235683n<br />

-factotum-<br />

group<br />

Collection+<br />

Group=<br />

06235973n<br />

-factotum-<br />

group<br />

Collection+<br />

Group=<br />

06235683n 17 line_3<br />

06235683n 17 fila_2 línea_5<br />

06235683n 6 ilara_4 errenkada_10 lerro_6<br />

zerrenda_16 errenka_3<br />

06235973n 9 line_1<br />

06235973n 7 línea_6<br />

06235973n 6 errenkada_2 ilara_9<br />

a formation of people or things one after another<br />

bata bestearen atzean bertikalki jarritako gauzen edo<br />

pertsonen multzoa<br />

a formation of people or things beside one<br />

another<br />

bata bestearen ondoan jarritako gauzen<br />

edo pertsonen multzoa<br />

37. irudia<br />

39


40<br />

Kasu ho<strong>net</strong>an bi synsetak ingeleseko formation synsetetik datoz, hots, hiperonimoa<br />

formation da. Ingeleseko formation euskaraz ilara itzuli ahal izango balitz, A.2.3.1.1.4 ataleko<br />

kasuaren (parrandarena, alegia) berdina litzateke; baina, oraingoan, ezin dira bi synset hauek<br />

Nolex utzi hiperonimoari ilara jarriz (formation ez baita euskarako ilara). Hortaz, horrelako<br />

synsetak lantzean, maila bereko synsetak direnak, polisemikotzat joko ditugu, hots, ilara<br />

hitzak gutxienez <strong>Euskal</strong> <strong>WordNet</strong>en bi synset horiek izango ditu 37 .<br />

Bestalde, horrelako arazoen aurrean, <strong>WordNet</strong> 3.0 bertsioa kontsultatzea komenigarria<br />

da, 1.6 bertsiotik 3.0 bertsiora zuzenketak/aldaketak egon daitezkeelako.<br />

A.2.3.4.4 Adieren egokitasuna<br />

Gerta daiteke ingeleseko synseta eta euskarakoa erabat baliokideak ez izatea. Adibide argia<br />

hauxe dugu: zerrenda-buru.<br />

07561913n<br />

-play-<br />

person<br />

SocialRole+<br />

Function=<br />

Human=<br />

Living=<br />

Object=<br />

Tops=<br />

lock 07561913n seed_3 seeded_player_1<br />

lock 07561913n 0 cabeza_de_serie_1<br />

lock 07561913n 0 zerrenda-buru_1<br />

38. irudia<br />

one of the outstanding players in a<br />

tournament<br />

<strong>Euskara</strong>ko zerrenda-buruk esanahia zabalagoa du, ez du bakarrik kiroleko adiera<br />

ingelesez bezala; esaterako, politikan hauteskundeetarako zerrendetan zerrenda-buru hitza ere<br />

maiz erabiltzen da. Ingelesez, berriz, seed eta seed player kiroletarako erabiltzen dute soilik.<br />

Beraz, adierak ez dira erabat baliokideak.<br />

Kasu hauetan honela jokatu beharko dugu: hauen guztien hiperonimoa zerrenda-buru<br />

balitz, hiperonimoari gehituko litzaioke variant hau eta hiponimoak Nolex bezala utziko<br />

genuke (ikus eranskinaren A.2.3.1.1.4 atala). Baina, hau ez da kasua, eta <strong>WordNet</strong>en ez dago<br />

zerrenda-buru orokor hori adierazten duen kontzepturik. Beraz, euskarako zerrenda-buru<br />

polisemiko bezala landuko dugu, hau da, adiera bat baino gehiago dituen hitz baten gisa.<br />

Bestalde, horrelako arazoen aurrean, <strong>WordNet</strong> 3.0 bertsioa kontsultatzea komenigarria<br />

da, 1.6 bertsiotik 3.0 bertsiora zuzenketak/aldaketak egon daitezkeelako.<br />

37 EuSemcor etiketatzean, horrelako synsetak bateratu daitezke, hau da, agerpen bati bi etiketa (ilara_4 eta ilara_9)<br />

ematea badago, hauek testuinguruan bereiz ezinak baitira.


A.2.3.4.5 Figuratiboak<br />

Zenbait kasutan izen batek adiera figuratibo/metaforikoren bat izan dezake.<br />

04507240n<br />

-factotumcognition<br />

Mental<br />

Static<br />

04507240n 0 teacher_2<br />

39. irudia<br />

a personified abstraction that<br />

teaches "books were his teachers"<br />

Horrelakoak, batzuetan euskarara itzuli daitezke eta beste batzuetan, ordea, ez. Hau da,<br />

gerta daiteke, ingeleseko hitz horrek (teacher) duen adiera figuratiboa euskarako ordainak<br />

(irakasle) ere horixe bera izatea. Horrela bada, synset horretan euskarako ordaina txertatuko<br />

dugu 38 :<br />

04507240n<br />

-factotum-<br />

cognition<br />

Mental<br />

Static<br />

lock 04507240n teacher_2<br />

lock 04507240n 0 irakasle_5<br />

personified abstraction that teaches; "books were his<br />

teachers"<br />

irakasten duen abstrakzio pertsonifikatua; “nire<br />

irakasleak liburuak izan ziren”<br />

40. irudia<br />

Aldiz, euskarak ordain hori figuratibo gisa izango ez balu, synset hori Nolex eta Lock<br />

utziko genuke. Esate baterako, ingeleseko honeymoon izenak beheko synseteko adiera<br />

figuratiboa du. Baina, euskaraz itzulpen zuzena den eztei-bidai izenak ez du adiera hori.<br />

Horregatik, beheko synsetean ez dago euskarako variantik, eta synseta Nolex eta Lock gisa<br />

utzi dugu.<br />

10986189n<br />

time_period-<br />

time<br />

BoundedEvent<br />

Quantity<br />

Time<br />

Tops<br />

0 10986189n honeymoon_2<br />

lock 10986189n nolex 0<br />

the early usually calm and harmonious period of a<br />

relationship; business or political<br />

41. irudia<br />

38<br />

Erabaki hori hartzeko, euskaraz izen bat figuratibo gisa erabiltzen dela egiaztatzeko, hiztegi eta corpusetara jo beharko<br />

dugu.<br />

41


42<br />

A.2.3.4.6 HAEak<br />

Batzuetan HAE batek adierazten duen adiera bera, HAEko osagai bakar batek ere adieraz<br />

dezake (elipsiaren antzeko zerbait gertatzea, alegia):<br />

Partidu politiko guztiek uka dezatela...<br />

Partidu guztiek uka dezatela...<br />

06131180n<br />

-anthropology-<br />

-history-<br />

-politics-<br />

-sociology-<br />

base concept<br />

group<br />

PoliticalOrganization+<br />

Function=<br />

Group=<br />

Human=<br />

06131180n 29 party_1 political_party_1<br />

06131180n 42 partido_2 partido_político_1<br />

06131180n 0 partidu_politiko_1<br />

alderdi_politiko_1<br />

42. irudia<br />

an organization to gain<br />

political power<br />

Organización política<br />

cuyos miembros<br />

comparten la misma<br />

ideología<br />

botere politikoa<br />

erdiestea helburu duen<br />

erakundea<br />

Synset ho<strong>net</strong>an partidu politiko eta alderdi politiko hiztegi-sarrera diren heinean, EBLan<br />

txertatuko genituzke. Baina gainera, partidu eta alderdi hitzek HAE hori adieraz dezaketen ala<br />

ez egiaztatu beharko genuke. Horretarako, hiztegi eta corpusetara jo beharko dugu. Egoera<br />

horren aurrean bi aukera egon daitezke:<br />

Hiztegi edota corpusetan hori egiaztatzen bada, partidu eta alderdi hitzak ere synset<br />

horretan sartuko ditugu.<br />

Hiztegi edota corpusetan hori egiaztatuko ez balitz, partidu politiko eta alderdi<br />

politiko HAEak bakarrik utziko genituzke.<br />

Adibide ho<strong>net</strong>an, partidu eta alderdi hiztegi-sarrerak direnez, <strong>Euskal</strong> <strong>WordNet</strong>en sartuta<br />

daude:<br />

06131180n<br />

-anthropology-<br />

-history-<br />

-politics-<br />

-sociology-<br />

base concept<br />

group<br />

PoliticalOrganization+<br />

Function=<br />

Group=<br />

Human=<br />

06131180n 29 party_1 political_party_1<br />

06131180n 42 partido_2 partido_político_1<br />

06131180n 0 partidu_politiko_1<br />

alderdi_politiko_1 partidu_4 alderdi_2<br />

43. irudia<br />

an organization to gain<br />

political power<br />

Organización política<br />

cuyos miembros<br />

comparten la misma<br />

ideología<br />

botere politikoa<br />

erdiestea helburu duen<br />

erakundea


Bestalde, HAEekin beste irizpide batzuk izan behar dira kontuan, A.2.3.2.3 eta A.2.3.3.3<br />

ataletan aipatutakoak, hain zuzen ere.<br />

A.2.3.4.7 Generoa<br />

<strong>WordNet</strong>en, generoa adierazteko hiponimia erabiltzen dute, hots, hiperonimoa gizonezkoari<br />

dagokion synseta da, eta hiponimoa emakumezkoari dagokiona:<br />

07508377n<br />

-politics-<br />

person<br />

SocialRole+<br />

Function=<br />

Human=<br />

Living=<br />

Object=<br />

Tops=<br />

07508554n mn 99<br />

-person-<br />

person<br />

Female+<br />

Function=<br />

Human=<br />

Living=<br />

Object=<br />

Tops=<br />

07508377n 2 protege_1<br />

07508377n 1 protegido_1<br />

07508554n 0 protegee_1<br />

07508554n 0 protegida_2<br />

a person who receives support and protection from an influential<br />

patron who furthers the protege's career<br />

a woman protege<br />

44. irudia<br />

<strong>Euskara</strong>z bi synsetek ordain ezberdina badute, synset bakoitzean dagokion ordaina<br />

gehituko litzateke. Arazoa, ordea, ordaina bera denean dator. Kasu ho<strong>net</strong>an, bi synsetetan<br />

begiko erabiliko litzateke euskaraz, eta horrelakoetan, emakumezkoari dagokion synseta<br />

Espezifikoa Hipe, Nolex eta Lock gisa (ikus A.2.3.1.1.4 atala) markatuko litzateke, eta<br />

oharrean Generoa idatzi.<br />

45. irudia<br />

43


44<br />

Alderantziz gertatuz gero, hots, kontzeptu baten generoa adierazteko ingelesez ordain<br />

bakarra izatea (brother) eta euskaraz bat baino gehiago (anaia/neba), <strong>WordNet</strong>en ez dagoen<br />

ordain hori <strong>Euskal</strong> <strong>WordNet</strong>en aurkitu ez diren hitzak zerrendan apuntatuko dugu. Hala ere,<br />

kasu hau gutxitan gertatu(ko) da.<br />

A.2.3.5 Aurrerago lantzekoak<br />

Editorearen eskuliburu hau <strong>Euskal</strong> <strong>WordNet</strong>eko izenak orraztean sortutako zalantzetan<br />

oinarrituta dago. Hala ere, zalantza guztiei ezin izan zaie konponbidea aurkitu, eta hurrengo<br />

orrazketa baterako utziko dira. Hori egin ahal izateko, zalantzazkoak diren kasu horiek<br />

guztiak aparteko txosten edo zerrendetan gehitzen ditugu. Ikusiko dugun bezala, arazo edo<br />

zalantza bakoitzari zerrenda bat dagokio 39 .<br />

A.2.3.5.1 Kategoria bateraezinak<br />

Batzuetan ingeleseko kontzeptu bat euskaratzean, euskaraz beste kategoria bat duela<br />

gertatzen da. Esate baterako, ingeleseko butterfingers izena euskaraz baldar, dorpe eta<br />

antzeko adjektiboekin itzultzenda; ingeleseko light izena euskaraz kaleratu aditzarekin eta<br />

ingeleseko now izena euskaraz adberbio bat da: orain.<br />

Editoreak horrelako kasuak Unlock utziko ditu, eta Kategoria bateraezinak/postposizio<br />

deituriko zerrendan apuntatuko ditu. <strong>Euskal</strong> <strong>WordNet</strong>eko adjektiboak, adberbioak eta<br />

aditzak lantzean aztertuko dira. Hala ere, horrelako kasuetarako egun pentsatua dagoen<br />

proposamena da, kategoria ezberdineko synsetak EQ-synonymy erlazioaren bitartez lotzea:<br />

EusWN ILI<br />

baldar, dorpe (ADJ) EQ-SYN butterfinger (IZE)<br />

46. irudia<br />

Hitz elkarketan ere kategoria bateraezinekin arazoak gerta daitezke, hala nola, ingeleseko<br />

public adjektiboa euskaraz herri- izenarekin itzultzen da; infantile adjektiboak ere euskaraz<br />

izen bat hartzen du (haur-). Hauek guztiak euskaraz hitz-elkarketan erabiltzen dira (marratxo<br />

eta guzti 40 ).<br />

Editoreak oraingoz Unlock utzi, eta dagokien Kategoria bateraezinak/postposizio<br />

deituriko zerrendan apuntatuko ditu. Aurreko kasuan bezala <strong>Euskal</strong> <strong>WordNet</strong>eko<br />

39 Berez, eskuliburu ho<strong>net</strong>an azaldu diren erabaki guztiak, horrelako zerrendetatik eratorriak dira, hots, eskuliburu hau<br />

sortu arte, editoreak zalantzak guztiak zerrenden bitartez sailkatuak zituen. Beraz, A.2.3.5 atalean agertuko diren kasuak,<br />

egunean batean, zerrenda hutsa izatetik eskuliburu ho<strong>net</strong>ako irizpide bat izatera pasako dira.<br />

40 Horrelako marratxodun hitzek marratxo eta guzti sartzen ditugu EBLan. A.2.3.3.1 atalean hauei buruz mintzatu gara.


adjektiboak, adberbioak eta aditzak lantzean aztertuko dira. Hala ere, oraingoan ere, aukera<br />

bat Xpos_near_synonym erlazioaren bitartez, euskarako hitza (47. irudiaren kasuan izena)<br />

ingelesez dagokion itzulpenarekin lotzea (kasu ho<strong>net</strong>an adjektibo bat); eta aldi berean,<br />

euskaraz sinonimoa izan daitekeen beste adjektiboarekin ere lotzea (kasu ho<strong>net</strong>an publiko).<br />

publiko (ADJ) public (ADJ)<br />

herri- (IZE)<br />

XPOS<br />

SYN<br />

A.2.3.5.2 Falta diren adierak<br />

47. irudia<br />

Zenbaitetan <strong>WordNet</strong>en hutsuneak topa ditzakegu, batetik euskaraz eta beste hizkuntzetan<br />

lexikalizatuta dauden kontzeptuak ingelesez ez daudelako; eta bestetik, <strong>WordNet</strong> kontzeptu<br />

hori sartzea pasa egin zaielako. Adibidez liga eta kanal <strong>Euskal</strong> <strong>WordNet</strong>en daude, baina ez<br />

ordea liga ‘txapelketa’ adierarekin eta kanal ‘telebista katea’ adierarekin; hau da, adiera<br />

zehatz horiek ez daude <strong>WordNet</strong>en. Beste hitz batzutan esanda, EBLan liga izenaren<br />

galdeketa egin nahiko bagenu, hitz honen beste adierak jasoko genituzke emaitza gisa, baina<br />

ez ordea ‘txapelketa’ adierari dagokiona.<br />

Oraingoz, horrelakoak <strong>Euskal</strong> <strong>WordNet</strong>en aurkitu ez diren adierak zerrendan jasoko<br />

ditugu, geroago hauek <strong>Euskal</strong> <strong>WordNet</strong>en sartzen hasteko asmoa baitago. Hala zerrenda<br />

ho<strong>net</strong>an apuntatuko diren hitzak izango dira <strong>Euskal</strong><strong>WordNet</strong>en dagoeneko daudenak,<br />

baina dagokion adiera ingeleseko synsetik ez duenean.<br />

Bestalde, horrelako arazoen aurrean, <strong>WordNet</strong> 3.0 bertsioa kontsultatzea komenigarria<br />

da, 1.6 bertsiotik 3.0 bertsiora adiera berri hori txertatua egon daitekeelako.<br />

A.2.3.5.3 Kontzeptu kulturalak<br />

Atal ho<strong>net</strong>an kontzeptu kulturalak deritzogunak sartzen dira. Kasu ho<strong>net</strong>an <strong>WordNet</strong>en ez<br />

dauden adierak dira, euskal kulturarekin loturik daudelako. Aurreko atalean ez bezala, hitz<br />

hauek ez daude <strong>WordNet</strong>en eta ez <strong>Euskal</strong><strong>WordNet</strong>en beste adiera batzuekin, ingelesez<br />

kontzeptu horiek ez direlako existitzen, hain zuzen ere. Beste hitz batzutan esanda, EBLan<br />

bertsolaritza izenaren galdeketa egin nahiko bagenu ez genuke emaitzik lortuko. Beste<br />

adibidea batzuk dira: pilotari, kalimotxo, sagardotegi, euro eta abar. Honelako kasuen aurrean,<br />

45


46<br />

oraingoz dagokien zerrendan (<strong>Euskal</strong> <strong>WordNet</strong>en aurkitu ez diren hitzak) jarriko ditugu<br />

aurrerago lantzeko asmoz.<br />

A.2.3.5.4 Postposizioak<br />

Postposizio baten aurrean aurkitzen denean, momentuz Kategoria bateraezinak/postposizio<br />

zerrendan jarriko dugu, adjektibo, adberbio eta aditzetara iristean landuko baita; esate<br />

baterako, -re(n) ondora/ondoan eta –re(n) albora/aloban bezalakoak.<br />

A.2.3.5.5 Aditz perifrastikoak<br />

Behar, uste, ahal eta abar bezalako formak, oraingoz, ez ditu landuko eta EuSemcorreko<br />

~jirhizts/Corpus/PROFIT2/koordinazioa katalogoan Hutsak marka ezarriko diegu. Hauek<br />

hurrengo fase batean landuko ditugu.<br />

A.2.3.5.6 Unlock uzten direnak<br />

Irizpide hauekin nahikoa ez bada eta synset bat Unlock utzi nahi bada, synset hori zalantzazerrenda<br />

batean apuntatu egin behar da, zalantzaren zergatiarekin batera, gero lantaldearekin<br />

komentatzeko eta zalantza mota horri konponbideren bat topatzeko. Hala ere,<br />

hau gutxitan gertatu behar da, eta gertatuko balitz, garrantzizkoa da Unlock uzten ditugunak,<br />

zalantza garrantzitsuenak izatea.<br />

A.3 Ondorioak<br />

Lan honen helburu nagusiena eskuliburu bat sortzea izan denez, kezkarik nagusiena<br />

ulergarria eta erabilgarria gertatzea izan. Abiapuntua honako hau izan da: editore la<strong>net</strong>an<br />

aritzeko hizkuntzalari hasi berriarentzako informazioa jasotzea; besteak beste, interfaze<br />

desberdinen erabilera, beharrezko tresna guztien argibideak eta orrazketarako irizpideak<br />

jasotzen ditu.<br />

Bestalde, eskuliburu hau ez da hemen itxita geratzen. Eguneratuz joango den zerbait da,<br />

aurreko erabakiak berritu eta sortu berriak txertatu beharko dira. Honela, ondoren datorren<br />

taulan adierazi nahi dugu zein erabaki diren finko edo zein dauden oraindik eztabaidapean,<br />

eta dagoeneko zeintzuk aplikatzen diren eta zeintzuk ez.


IRIZPIDE<br />

MOTAK<br />

SYNSET<br />

mailakoak<br />

(NOLEX)<br />

VARIANT<br />

mailakoak<br />

IDAZKERA<br />

arazoak<br />

BESTELAKOAK<br />

AURRERAGO<br />

lantzeko<br />

IRIZPIDEAK<br />

FINKOAK<br />

BAI<br />

FINKOAK<br />

EZ<br />

APLIKATZEN<br />

DIRA<br />

Nolex arrunta X X<br />

Espezifikoa<br />

Nolex<br />

X X<br />

Orokorra Nolex X X<br />

Espezifikoa<br />

Hipe (Nolex)<br />

X X<br />

-TU/-T(z)E X X<br />

Bestelako<br />

kasuak<br />

X X<br />

RARE X X<br />

PLU X X<br />

HAEak & IXALEX X<br />

Marratxoak X X<br />

Artikulua<br />

daramatenak<br />

HAULak<br />

idazteko era<br />

desberdinak<br />

Hizki larriak<br />

eta xeheak<br />

Atzizki<br />

sinomimoak<br />

Hiztegiak bat<br />

ez datozenean<br />

Antzeko<br />

synsetak<br />

Adieren<br />

egokitasuna<br />

X X<br />

X X<br />

X X<br />

X X<br />

X X<br />

X X<br />

X X<br />

Figuratiboak X X<br />

Generoa X X<br />

Kategoria<br />

bateraezinak<br />

Falta diren<br />

adierak<br />

Kontzeptu<br />

kulturalak<br />

47<br />

EZ DIRA<br />

APLIKATZEN<br />

X X<br />

X X<br />

X X<br />

Postposizioak X X<br />

Aditz<br />

perifrastikoak<br />

Unlock uzten<br />

direnak<br />

X X<br />

X X


49<br />

B ERANSKINA<br />

<strong>Euskal</strong> <strong>WordNet</strong>eko aditzen hierarkiaz hierarkiako<br />

orrazketa<br />

Eranskin ho<strong>net</strong>an {00636716v express 2, give tongue 1, utter 1} klase semantiko osoaren<br />

hierarkiaz hierarkiako orrazketaren ondoren, lortutako ondorio nagusiak dakartzagu, baita<br />

ingelesa eta euskarako hierarkien arteko alderaketa bat ere.<br />

B.1 Lanaren kokapena<br />

<strong>Euskal</strong> <strong>WordNet</strong>eko euskarako izenen orrazketa nahiko aurreratua dago eta aditzen<br />

lanketarekin hasteko unea iritsi da. Izenak hitzez hitzeko eskuzko orrazketaren arabera landu<br />

badira ere 41 , aditzen ezaugarri sintaktiko-semantikoek aditzen adiran duten eragina dela-eta,<br />

beste orrazketa mota bat ere probatu nahi izan dugu aditzekin: hierarkiaz hierarkiakoa.<br />

Orrazketa honen ondorioz, <strong>WordNet</strong>eko (Miller, 1985, Fellbaum, 1998a) aditzen aurreazterketa<br />

bat egin ahal izan dugu; aditzek <strong>WordNet</strong>en duten portaeraren eta hierarkiaren<br />

berri izanik. Horregatik, eskuliburu honen helburu nagusia <strong>WordNet</strong>eko ingeleseko eta<br />

euskarako aditzen hierarkiak aztertu, erkatu eta ondorioak ateratzea izan da.<br />

B.2 Metodologia<br />

Lan hau burutzeko metodologia honako hau izan da:<br />

• {express 2, give tongue 1, utter 1} 42 variantek osatzen duten synsetak (00636716v) bere<br />

azpian dituen 198 troponimoak landu ditugu. Lanketa honek hartzen du batetik,<br />

jadanik zeuden euskarako variantak orraztea, eta bestetik, ordainik ez zutenak, hau<br />

da landu gabe zeudenak lantzea eta euskarako ordainak txertatzea.<br />

• Aurreko puntuan aipatutako synseta oinarritzat hartuz, ingeleseko hierarkia eta<br />

euskarakoa deskribatu, erkatu eta ondorioak ateratzea.<br />

41 Ikus tesi-txostenean,V.3.2.1 atala.<br />

42 <strong>WordNet</strong> 1.6 bertsioa da une ho<strong>net</strong>an erabiltzen dena.


50<br />

B.3 Azterketa<br />

Sarreran aipatu bezala, ondorengo ataletan {express 2, give tongue 1, utter 1} variantek osatzen<br />

duten synsetaren (00636716v) hierarkiaren azterketaren berri ematen da. Synset honen<br />

hierarkian 198 troponimo daude, orokorre<strong>net</strong>ik (aipatutako synseta) zehatzenera, tartean adar<br />

desberdinak sortuz.<br />

Hierarkien lanketa hizkuntzaren arabera banatuta dago. Lehenengo eta behin hizkuntza<br />

bakoitzaren hierarkiaren deskribapena egin da. Eta azkenean zenbait ondorio ateratzen dira.<br />

B.3.1 Ingeleseko aditzen hierarkia<br />

B.3.1.1 “Manner” erlazio semantikoa<br />

Lan honen sarreran aipatu denez <strong>WordNet</strong> synseten arabera dago antolatuta, eta<br />

hierarkian zehar (gora eta behera) mugitzean aditzen kasuan troponimia erlazioa topatzen<br />

dugu. Honela definitzen da: to x is to y in some particular manner. Hortaz, aditz hiperonimo<br />

baten (walk) troponimoak (trot, march,...) hiperonimoak adierazten duenaren egiteko moduak<br />

izango dira.<br />

Hala, esan liteke zehaztapen hierarkia ematen dela manner erlazioan oinarrituz.<br />

Adibidez:<br />

{express, utter, give tongue to} (articulate; either verbally or with a cry, shout, or noise)<br />

{state, say, tell} (express in words)<br />

{answer, reply, respond} (reply or respond to)<br />

{field} (answer adequately or successfully)<br />

Adibide hauetan ikusten da hiperonimotik hasita hierarkian beherantz goazela ‘egiteko<br />

moduak’ zehazten direla. Azpimarratzekoa da lan ho<strong>net</strong>arako aukeratutako synsetak<br />

({express 2, give tongue 1, utter 1}) 18 troponimo hurbil (direct troponym) dituela (ikus B.5<br />

atala). Honek esan nahi du, <strong>WordNet</strong>en kontzeptu honen adiera ‘egiteko’ 18 modutan<br />

banatu dutela.


B.3.1.2 Ingeleseko hierarkiaren aberastasuna<br />

Esan behar da <strong>WordNet</strong>eko ingeleseko aditzen hierarkiak oso aberatsak direla, (<strong>Euskal</strong><br />

<strong>WordNet</strong>ekoekin konparatuz). Zer esan nahi da honekin? Bada, kasu batzuetan oso<br />

zehaztapen aberatsa dutela, eta orokorre<strong>net</strong>ik hasita zehatzenera joanda bidean synset kopuru<br />

dezente aurkitzen direla. Adibidez:<br />

{express, utter, give tongue to} (articulate; either verbally or with a cry, shout, or noise)<br />

{state, say, tell} (express in words)<br />

{declare} (state clearly)<br />

{promise, assure} (make a promise or commitment)<br />

{contract, undertake} (enter into a contractual arrangement)<br />

{sign} (be engaged by a written agreement)<br />

{endorse} (of documents or cheques)<br />

{visa} (provide (a passport) with a visa)<br />

Esan daiteke azterketa ho<strong>net</strong>an erabilitako synset nagusiaren ({express 2, give tongue 1,<br />

utter 1}) adarrik luzeenak 7 troponimo dituela. Eta txikienak, ze badira hierarkian adar oso<br />

motzak, troponimo bat du. Adibidez:<br />

B.3.1.3 Sintaxia<br />

{express, utter, give tongue to} (articulate; either verbally or with a cry, shout, or noise)<br />

{wish} (make or express a wish)<br />

Synsetak desberdintzerakoan eta troponimo desberdinak sortzerakoan aditzen<br />

azpikategorizazioa ere kontuan hartzen da. Hartara, synset baten troponimoek (hierarkian<br />

beherantz joanda) normalean sintaktikoki antzekoak diren patroiak jarraitzen dituzte.<br />

Synsetaren adiera iragankorra bada, troponimoak ere hala izango dira. Gauza bera: synseta<br />

iragangaitza bada, bere troponimoak ere bai. Adibidez, hurrengo adibidean aditza<br />

iragankorra da:<br />

{represent} (serve as a means of expressing something)<br />

• Somebody ----s something<br />

• Somebody ----s somebody<br />

• Something ----s somebody<br />

• Something ----s something<br />

51


52<br />

Hala ere, normalean gertatzen dena zera da: synset baten bere troponimoek gero eta patroi<br />

zehatzagoak dituztela. Logikoa denez, zenbat eta adiera zehatzagoa izan, orduan eta<br />

murriztuagoak dira sintaktikoki dituen aukera desberdinak Hona hemen adibide bat:<br />

{state, say, tell} (express in words)<br />

• Somebody ----s something<br />

• Something ----s something<br />

• Somebody ----s that CLAUSE<br />

{present, lay out} (bring forward and present to the mind)<br />

• Somebody ----s something<br />

• Somebody ----s something to somebody<br />

{argue, reason} (present reasons and arguments)<br />

• Somebody ----s that CLAUSE<br />

Ikus daiteke adiera bakoitzaren azpikategorizazio-aukerak (<strong>WordNet</strong>en sentence-frame<br />

deiturikoak) murriztuz doazela.<br />

Atal honekin bukatzeko aipatu beharra dago synsetak horizontalki aztertzen baditugu –<br />

hau da, maila berean dauden synsetak—, eta beren sentence frameak ikusten baditugu,<br />

orduan ‘egiteko modua’rekin batera desberdintasun sintaktikoak ere nabarmenak direla.<br />

Adibide gisa {express 2, give tongue 1, utter 1} synsetaren hainbat troponimo hurbil ikusiko<br />

ditugu:<br />

{express 2, give tongue 1, utter 1} : Somebody ----s something<br />

{blaspheme_1, curse_1 , cuss_1, imprecate_2, swear_1} : Somebody ----s<br />

{wish_4} : Somebody ----s that CLAUSE<br />

{clamor_2, clamour_1} : Somebody ----s<br />

Somebody ----s something<br />

voice_1 : Somebody ----s something<br />

Something ----s something<br />

drop_6: Something ----s something<br />

B.3.1.4 Aurrizkiak hierarkian<br />

Varianten lanketan aipatu bezala, ingeleseko synseten hierarkian ikusten da adiera bat<br />

sortzeko aurrizkiak baliatzen dituztenean (re-, mis- over-, under-,...) hauek beti troponimoak<br />

direla. Adibidez:<br />

{represent} (serve as a means of expressing something)<br />

{MISrepresent} (represent falsely)


B.3.2 <strong>Euskara</strong>ko aditzen hierarkia<br />

Atal ho<strong>net</strong>an, euskarako aditzen hierarkiaren deskribapena egiten da; zehazki ingeleseko<br />

{express 2, give tongue 1, utter 1} synsetaren hierarkia osoa euskaraz landu eta geroko<br />

ondorioak dira.<br />

B.3.2.1 Orokortasun maila<br />

Aurreko ataletan ikusi ahal izan dugun bezala, <strong>WordNet</strong>eko synseten hierarkia oso zabala<br />

da: oso kontzeptu orokorretik hasita oso kontzeptu zehatzetara iristen da. Zer gertatzen da<br />

<strong>Euskal</strong> <strong>WordNet</strong>en? Oso arrunta da hierarkiaren goikaldeko synsetak lexikalizaturik ez<br />

egotea. <strong>Euskara</strong>k askotan ez ditu lexikalizaturik dauden aditz formak hierarkiaren goiko<br />

synsetak betetzeko. Beti ere, kontuan hartu beharreko da, ingelesa abiapuntuko hizkuntza<br />

hartzen dugula. Adibide gisa, behin eta berriko aipatu dugun synset nagusia da:<br />

{express, utter, give tongue to} (articulate; either verbally or with a cry, shout, or noise)<br />

<strong>Euskara</strong>z ez dago lexikalizatutatko ordainik synset horrek adierazten duen kontzeptu<br />

orokorrarentzat.<br />

B.3.2.2 Zehaztasun maila<br />

Zehaztasun mailari dagokionez, gauza bera gertatzen da euskaraz kasu askotan. Ingelesezko<br />

word<strong>net</strong>a oso hierarkia aberatsa izatean, zehaztasun maila batzuetan oso handia da, eta<br />

euskarak ez ditu lexikalizaturik dauden ordainak synset horientzat. Honen ondorioz, zer<br />

aurkituko dugu euskarazko aditzen hierarkiak aztertzean? Bada, kasu askotan <strong>Euskal</strong><br />

<strong>WordNet</strong>eko aditzen synsetak hutsik egongo direla. Beraz, nabarmena da <strong>Euskal</strong> <strong>WordNet</strong>en<br />

ez dugula hain lexikalizazio maila handia hierarkian beherantz joatean. Adibidez:<br />

53


54<br />

00661842v<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00661842v proclaim_2 exclaim_2 promulgate_1<br />

00661842v proclamar_3<br />

00661842v promulgatu_2 aldarrikatu_4<br />

00662067v mn 99<br />

-factotum-<br />

communication Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00662233v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00662233v clarion_2<br />

00662233v nolex 0<br />

00662233v nolex 0<br />

00662067v trumpet_1<br />

00662067v nolex 0<br />

00662067v nolex 0<br />

state or announce<br />

proclaim on, or as if on, a clarion<br />

2. irudia<br />

proclaim on, or as if on, a trumpet<br />

Ikusten denez trumpet_1 eta clarion_2 synsetak hutsik (euskarako ordainaik gabe) geratu<br />

dira euskaraz, eta hala gertatzen da askotan.<br />

B.3.2.3 Troponimo eta HAULak<br />

<strong>Euskara</strong>ko synseten hierarkia aztertzean oso azpimarragarria dena da hitz anitzeko unitate<br />

lexikalen (HAULen) ugaritasuna. Hierarkian beherantz joatean, euskarak adiera zehatzago<br />

horiek adierazteko (‘egiteko moduak’) HAULak baliatu behar ditu. HAUL horiek bi<br />

motatakoak izango dira :<br />

• ADLG + ADI:<br />

00585700v<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00585700v whang_3<br />

00585700v nolex 0<br />

00585700v 0 bortizki_eraso_1 gogor_eraso_1 gogorkiro_eraso_1<br />

3. irudia<br />

attack forcefully


• OBJ + ADI:<br />

01529966v<br />

-factotum-<br />

possession<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

01529966v name_6 list_3<br />

01529966v nombrar_6<br />

01529966v izena_esan_3 izena_eman_6<br />

4. irudia<br />

give the names of<br />

Gainera, esan beharra dago bigarren mota ho<strong>net</strong>ako HAULen artean asko eta asko aditz<br />

arin (light verbs) deritzenak izango direla. Honek esan nahi du HAUL horietan berez aditza<br />

dena (egin, eman...) ez dela adierari esanahi nagusia ematen diona, berekin daraman objektua<br />

baizik. Adibidez, hurrengo kasuan {deiadar_egin_9, garrasi_egin_9, oihu_egin_10} aditz<br />

horietan deiadar, garrasi, eta oihu dira adierari ia esanahi guztia ematen diotenak:<br />

00619568v<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

B.3.2.4 Arazoak<br />

00619568v vociferate_1 shout_out_2<br />

00619568v deiadar_egin_9 garrasi_egin_9 oihu_egin_10<br />

5. irudia<br />

utter in a very loud voice<br />

<strong>Euskara</strong>ko aditzen hierarkietan topatuko dugun beste fenomeno bat honako hau da:<br />

hiperonimo baten troponimo hurbila (edo hurbilak, bat baino gehiago izan daitekeelako)<br />

ordain berarekin adieraztea euskaraz; hau da; ingelesez egindako bereizketa troponimo hori<br />

zintzilikatzean, euskaraz lexikalizaturik ez egotea. Adibidez:<br />

55


56<br />

00598975v<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00599443v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00598975v promise_1 assure_6<br />

00598975v asegurar_4 prometer_1<br />

00598975v hitzeman_1 promes_egin_1 agindu_5<br />

00601123v mn 99<br />

-factotum-<br />

ommunication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00599443v pledge_1 plight_2<br />

00599443v prometer_2<br />

00599443v nolex 12<br />

00601123v vow_1<br />

00601123v nolex 4<br />

00601123v nolex 3<br />

6. irudia<br />

make a promise or commitment<br />

promise solemnly and formally<br />

make a vow; promise<br />

Ikus daitekeenez {agindu_5, hitzeman_1, promes_egin_1, ziurtatu_7} variantek osatzen<br />

duten synsetaren troponimo hurbila hutsik dago; eta troponimo honen troponimoa ere bai<br />

({vow_1}), euskaraz kasu horretan hiperonimoan dauden variant berberak erabiliko<br />

liratekeelako.<br />

Baina, gerta liteke hiperonimo baten troponimoren batean ordain bera erabiltzea baina<br />

adiera desberdina izatea, eta gainera hiztegietan adiera hori ere jasota egotea. Adibidez:


00598975v<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01604463v mn 99<br />

-economy-<br />

possession<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00598975v promise_1 assure_6<br />

00598975v asegurar_4 prometer_1<br />

00598975v hitzeman_1 promes_egin_1 agindu_5<br />

ziurtatu_7<br />

01604463v 0 certify_2<br />

01604463v certificar_5<br />

01604463v ziurtatu_8<br />

guarantee payment on; of checks<br />

57<br />

make a promise or commitment<br />

7. irudia<br />

Hierarkia ho<strong>net</strong>an lehenengo synsetean dagoen {ziurtatu_7} variantak eta zuhaitzaren<br />

azken synseteko {ziurtatu_8} variantak oso adiera desberdina dute (hauen glosetan ikus<br />

daitekeen bezala), eta gainera hiztegiek azken honen adiera ere jasotzen dute. Beraz, kasu<br />

ho<strong>net</strong>an, hierarkian ez litzateke hutsunerik izango. Horrela geratuko litzateke.<br />

Azkenik aipatu, gerta daitekeela <strong>Euskal</strong> <strong>WordNet</strong>en maila bereko bi synsetetan (edo<br />

gehiagotan) ordain bera egotea. Hau gertatzen da <strong>Euskal</strong> <strong>WordNet</strong>en ez ditugulako bi adiera<br />

desberdin horientzat bi ordain desberdin. Orduan, besterik gabe, hierarkiaren maila berean<br />

ordain bera (edo berberak, variant bat baino gehiago bada) agertuko dira. Adibidez:<br />

HIPERONIMOA: {express_2}<br />

00619568v<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00617311v<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00619568v vociferate_1 shout_out_2<br />

00619568v deiadar_egin_9 garrasi_egin_9 oihu_egin_10<br />

00617311v exclaim_1 cry_3 cry_out_1 outcry_2 call_out_1 shout_3<br />

00617311v oihu_egin_9 garrasi_egin_8 deiadar_egin_8<br />

8. irudia<br />

utter in a very loud voice<br />

utter aloud; often with<br />

surprise, horror, or joy


58<br />

B.4 Ondorioak<br />

Aurreko ataletan hierarkia bakoitza aztertu den bezala, oraingoan bien erkaketatik atera<br />

daitezkeen ondorioak aipatuko dira.<br />

Lehenik eta behin, aipatu behar da hierarkiaz hierarkia lan egiteko metodologia, hitzez<br />

hitz aritzearekin konparatuz, ikuspegi zabalagoa eskaintzen duela. Zer esan nahi du honek?<br />

Hitzez hitz lantzean lortzen duguna da orrazten ari garen hitzaren adiera guztiak finkatzea<br />

eta zehaztea. Hala, hitz horren adiera guztiak orraztuak geratzen dira, eta abantaila da ez<br />

dugula adierarik kanpoan utziko. Baina, gerta litekeen hutsegitea izan daiteke metodologia<br />

horrekin hierarkiaren egokitasunari ez zaiola nahikoa erreparatzen; eta hierarkia desorekatua<br />

gera daiteke kasuren batean, metodologia horrekin ez baita funtsezkoa hierarkia lantzea,<br />

landu beharreko hitza baizik. Hortaz, ematen du menperatu beharreko eremua murritzagoa<br />

dela.<br />

Hierarkiaz hierarkia aritzean, ordea, lehen esan bezala eremua zabalagoa bihurtzen da.<br />

Zergatik? Hitz horrek dituen hiperomino eta troponimo guztiak aztertu behar direlako, eta<br />

bakoitzaren adiera egokia den ala ez egiaztatu. Gainera, hierarkia orekatua eta logikoa den<br />

ere aztertu behar da. Ezin da troponimo bat hiperonimo baten gai<strong>net</strong>ik egon, adibidez.<br />

Orduan, hierarkia osoaren ikuspegia edukitzea oso mesedegarria da, baina gerta daiteke<br />

synset bakoitzean dagoen hitzaren zein adiera den ondo ez menperatzea, zeren beharrezkoa<br />

baita horretarako hitz horrek dituen gainontzeko adierak ezagutzea.<br />

Orduan, hierarkiaz hierarkiako metodologia egokiagoa dirudi eremu zabalagoa orraztea<br />

lortzen delako, baina ez dira, ahal den neurrian, hitz bakoitzak dituen adiera desberdinak<br />

alde batera utzi behar.<br />

Bestalde, ingelesezko aditzen hierarkia eta euskarazkoena alderatzean zera aipatu behar<br />

da:<br />

• Aurreko ataletan aipatu bezala, ingelesaren kasuan aditzen hierarkia oso<br />

aberatsa da. Honekin esan nahi duguna da, oso orokorrak diren synsetetatik<br />

hasita zehaztapen maila handia duela ingelesak. Ahalmen handia dute adiera<br />

zehatz bakoitzeko ordain bat erabiltzeko. <strong>Euskara</strong>z, ordea, bai oso synset<br />

orokorretan, bai zehatze<strong>net</strong>an ez da askotan lexikalizatutako ordainik topatzen.<br />

Esan liteke euskaraz lexikalizazioa mugatuagoa dela, bestela esanda, ez dela<br />

hain zabala.<br />

• Bestalde, hiperonimia/troponimia erlazioa dela eta, euskaraz oso nabarmena<br />

den fenomenoa da HAULena. Hierarkian beherantz joanda orokorretik<br />

zehatzera) euskarak hitz anitzeko unitate lexikalak sortzen ditu adiera<br />

askorentzat. Orduan, ingelesaren aldean, euskarak horien behar handiagoa du.<br />

Honek, batez ere lexikalizioan arazoak sortzen dizkio euskarari; HAUL asko<br />

eta asko beren erabileran lexikalizatuta egon arren, ez dira hiztegi-sarrera<br />

izaten.


B.5 00636716 synsetaren troponimoak, ingelesez eta euskaraz<br />

00636716v<br />

-factotum-<br />

base concept<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

•<br />

•<br />

•<br />

00636716v 198 express_2 utter_1 give_tongue_to_1<br />

00636716v nolex 85 azaldu_13 adierazi_9 aditzera_eman_7<br />

00586673v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00721823v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00682542v mn 99<br />

-factotum-<br />

base concept<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

o<br />

00586673v0 curse_1 cuss_1 blaspheme_1 swear_1 imprecate_2<br />

00586673v 0 biraoa_bota_1 biraoa_esan_1 birao_egin_1 blasfematu_1<br />

00721823v 0 pooh-pooh_1<br />

00721823v nolex 0<br />

00682542v 159 state_1 say_1 tell_1<br />

00682542v 69 erran_4 esan_15<br />

00525080v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

express contempt about<br />

00525080v 12 present_2 lay_out_3<br />

00525080v 4 agertu_20 aurkeztu_5<br />

00524590v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

articulate; either verbally or with a cry, shout, or noise<br />

express an idea, etc. in words<br />

bring forward<br />

00524590v 10 argue_1 reason_2<br />

00524590v 13 arrazoitu_1 argudiatu_1<br />

utter obscenities<br />

present reasons and arguments<br />

59


60<br />

<br />

<br />

<br />

00524745v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00525249v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00606523v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

00524745v 0 re-argue_1<br />

00524745v 0 berriro_arrazoitu_1 berriro_argudiatu_1<br />

00525249v 0<br />

expostulate_1<br />

00525249v nolex 0<br />

00606523v 7 defend_1 support_8 fend_for_1<br />

00606523v 8 eutsi_18 defendatu_3<br />

00606341v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

<br />

argue again<br />

reason with (somebody) for the purpose of<br />

dissuasion<br />

argue in defense of<br />

00606341v 4 apologize_2 apologise_1 excuse_4<br />

justify_3 rationalize_1<br />

00606341v 4 justifikatu_1 zuritu_9<br />

00567365v mn 99<br />

-factotum-<br />

communication<br />

IntentionalProcess+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00605968v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00613501v mn 99<br />

-factotum-<br />

communication<br />

Process+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00567365v 0 color_6 gloss_4<br />

00567365v nolex 0<br />

00605968v 0 plead_2<br />

00605968v 0 aitzakia_jarri_1<br />

aitzakia_ipini_1 desenkusatu_4<br />

00613501v 0 extenuate_1<br />

palliate_1 mitigate_1<br />

00613501v 0 arindu_11<br />

indargabetu_8 ematu_5<br />

gozatu_16 leundu_12<br />

gloss or excuse<br />

make excuses<br />

for<br />

offer as an<br />

excuse or plea<br />

lessen or to try to lessen<br />

the seriousness or extent<br />

of


o<br />

o<br />

<br />

00722994v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00695091v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

<br />

00524897v mn 99<br />

-factotum-<br />

communication<br />

Process+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00606705v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00607177v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00606705v 0<br />

stand_up_5<br />

00606705v 0<br />

babestu_11<br />

lagundu_12<br />

00607177v 0<br />

uphold_2<br />

00607177v nolex 0<br />

00524897v 0 argue_3 indicate_4<br />

00524897v 0 agerian_ipini_1 erakutsi_15<br />

00722994v 0 explain_2<br />

00722994v 0 argitu_9 azaldu_14 esplikatu_2<br />

00695091v 4 add_2 append_3 supply_4<br />

00695091v 5 erantsi_7 gaineratu_3 gehitu_9<br />

00693735v mn 99<br />

-factotum-<br />

communication<br />

IntentionalProcess+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

61<br />

defend against attack or criticism;"He stood<br />

up to the committee and defended the<br />

contract"<br />

stand up for; stick up for; of causes, principles,<br />

or ideals<br />

give evidence of<br />

state by way of explanation<br />

state or say further<br />

00693735v 2 slip_in_1 stick_in_1 sneak_in_2 insert_4<br />

00693735v nolex 2<br />

01125857v mn 99<br />

-literature-<br />

creation<br />

ContentDevelopment+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

01125857v 0<br />

spatchcock_2<br />

01125857v 0<br />

tartekatu_4<br />

insert casually<br />

interpolate or insert into a sentence or story, as<br />

of words


62<br />

o<br />

<br />

00689564v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

00695281v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00695281v 0 toss_in_1<br />

00695281v nolex 0<br />

add casually to a conversation<br />

00689564v 39 note_1 observe_2 mention_2 remark_1<br />

00689564v 13 aipatu_5<br />

00717396v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

00717396v 38 comment_1 notice_3 remark_2<br />

point_out_1<br />

00717396v 50 nabarmendu_6 azpimarratu_1<br />

00560756v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

<br />

00560756v 35 criticize_1 criticise_1<br />

pick_apart_1<br />

00560756v 24 kritikatu_1<br />

00558872v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00573753v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00573480v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

make mention of<br />

make or write comment to make a<br />

comment on<br />

express criticism of; point out real or<br />

perceived flaws<br />

00558872v 0 reprimand_1 censure_1 criminate_2<br />

00558872v 0 gaitzetsi_3 aurpegiratu_3<br />

erantzuki_egin_3 kontra_egin_3<br />

00573753v 0 nitpick_1<br />

00573753v nolex 0<br />

rebuke<br />

formally<br />

be overly critical; criticize minor details<br />

00573480v 7 disparage_1 belittle_2 pick_at_3<br />

find_fault_with_1<br />

00573480v 3 destaina_egin_6 mespretxatu_1<br />

aintzat_ez_hartu_4 erdeinatu_6 arbuiatu_14<br />

gutxietsi_2<br />

express a<br />

negative<br />

opinion of


00573861v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00574499v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00580569v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

00586279v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

00571252v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00573861v 0 pan_3 tear_apart_1 trash_2<br />

00573861v 0 bereak_eta_bi_esan__1<br />

bereak_eta_asto_beltzarenak_esan_1<br />

kristorenak_esan_1 sekulakoak_esan_1<br />

00574499v 0 discredit_2 disgrace_3<br />

00574499v 0 ospea_kendu_1<br />

ospea_zikindu_1 izena_zikindu_1<br />

aipua_kendu_1 entzutea_zikindu_1<br />

entzutea_belztu_1 izena_belztu_1<br />

entzutea_kendu_1 aipua_belztu_1<br />

sona_belztu_1 ospea_belztu_1<br />

sona_zikindu_1 sona_kendu_1<br />

aipua_zikindu_1 izena_kendu_1<br />

00580569v 2 deprecate_2 depreciate_1<br />

00580569v nolex 0<br />

00580733v mn 99<br />

-factotum-<br />

communication<br />

Decreasing+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00580733v 0<br />

deflate_3 puncture_3<br />

00580733v nolex 0<br />

belittle<br />

63<br />

express a<br />

totally<br />

negative<br />

opinion of<br />

damage the<br />

reputation<br />

of<br />

reduce or lessen the size<br />

or importance of<br />

00586279v 2 minimize_3 belittle_1 denigrate_1<br />

derogate_1<br />

00586279v nolex 1<br />

00586445v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00586445v 0 talk_down_1<br />

00586445v nolex 0<br />

00571252v 0 blame_2 find_fault_1<br />

pick_3<br />

00571252v 0 errua_egotzi_2<br />

errua_bota_1<br />

belittle<br />

belittle through talk<br />

harass with constant<br />

criticism


64<br />

<br />

<br />

<br />

<br />

00570314v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

00561375v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00561219v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00560580v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

00570314v 3 denounce_1<br />

00570314v 2 salatu_2<br />

00570483v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00586096v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

speak out against<br />

00570483v 0 fulminate_1 rail_3<br />

00570483v nolex 0<br />

00586096v 0 condemn_1 decry_1<br />

objurgate_1 excoriate_1<br />

00586096v 0 kondenatu_2<br />

00561375v 0 come_down_5<br />

00561375v nolex 0<br />

00561219v 0 belabor_2<br />

belabour_3<br />

00561219v nolex 0<br />

00560580v 2 deplore_1<br />

00560580v 1 deitoratu_1<br />

00586541v mn 99<br />

-religion-<br />

communication<br />

Stating+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

criticize severely<br />

express strong<br />

disapproval of<br />

criticize or reprimand harshly<br />

attack verbally with harsh<br />

criticism<br />

express strong disapproval of<br />

00586541v 0 execrate_2<br />

anathemize_2 anathematize_1<br />

00586541v 0 anatematizatu_1<br />

eskumikatu_1<br />

declare to be evil or<br />

anathema


00560484v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00559552v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

00560484v 0 reprehend_1<br />

00560484v 0 agirakatu_3 atelekatu_3<br />

larderiatu_5 agira(ka)_egin_3 errieta_egin_5<br />

demanda_egin_3<br />

00559552v 4 rebuke_1 lambaste_2 have_words_1<br />

chew_up_1 chew_out_1 remonstrate_3 bawl_out_1<br />

berate_1 chide_1 scold_1 dress_down_1 jaw_4<br />

reprimand_2 lecture_2 reproof_1 rag_5 check_22<br />

lambast_2<br />

00559552v 2 agira(ka)_egin_1 agirakatu_1 atelekatu_1<br />

demanda_egin_1 errieta_egin_2 larderiatu_1<br />

00559253v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

00559117v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00558976v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00560060v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00559253v 2 chastize_1 chastise_1<br />

castigate_1 objurgate_2 chasten_1 correct_3<br />

00559253v 0 punitu_1 zehatu_2 zigortu_2<br />

00559457v mn 99<br />

-<br />

computer_sciencecommunication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00559457v 0 flame_3<br />

00559457v nolex 0<br />

00560060v 0 tell_off_1 brush_down_1<br />

00560060v nolex 0<br />

00559117v 0 admonish_3 reprove_1<br />

00559117v 0 agirakatu_2 demanda_egin_2 atelekatu_2<br />

errieta_egin_4 larderiatu_4 agira(ka)_egin_2<br />

00558976v 0 savage_1<br />

00558976v 0 gogorkiro_kritikatu_1<br />

gogor_kritikatu_1 gogorki_kritikatu_1<br />

65<br />

express strong<br />

disapproval of<br />

censure<br />

severely or<br />

angrily<br />

censure<br />

severely<br />

criticize harshly,<br />

on the e-mail<br />

reprimand<br />

take to<br />

task<br />

criticize harshly<br />

or violently


66<br />

<br />

00585325v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

<br />

00585325v 10 attack_2 round_5 assail_3<br />

lash_out_1 snipe_4 assault_2<br />

00585325v 13 eraso_5<br />

00572942v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

<br />

00573336v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00585700v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00572942v 4 abuse_3 clapperclaw_2<br />

blackguard_2 shout_4<br />

00572942v 2 laido_egin_1 erdeinatu_7<br />

arbuiatu_15 iraindu_1 ahapaldi_egin_1<br />

laidotu_1 laidoztatu_1<br />

00573247v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00574815v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00587063v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00573247v 0<br />

slang_3<br />

00573247v nolex 0<br />

00573336v 0 claw_4<br />

00573336v nolex 0<br />

00574815v 0 vilify_1<br />

revile_1 vituperate_1<br />

rail_2<br />

00574815v nolex 0<br />

00587063v 0 curse_2<br />

00587063v nolex 0<br />

attack verbally, in<br />

speech or writing<br />

use foul or<br />

abusive<br />

language<br />

towards<br />

abuse with coarse<br />

language<br />

attack as if with claws<br />

00585700v 0 whang_3<br />

00585700v 0 bortizki_eraso_1<br />

gogor_eraso_1 gogorkiro_eraso_1<br />

gogorki_eraso_1<br />

spread negative<br />

information about<br />

heap obscenities upon<br />

attack<br />

forcefully


o<br />

<br />

<br />

00683704v mn 99<br />

-law-<br />

communication<br />

Declaring+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

<br />

00717603v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00717701v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00683704v 0 declare_7<br />

00683704v 0 aitortu_20<br />

00585828v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00585963v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00720215v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00585828v 0 barrage_1<br />

00585828v nolex 0<br />

attack with a barrage<br />

00585963v 0 blister_2 whip_6<br />

00585963v 0 astindu_36<br />

zigortu_10 jipoitu_9<br />

00720215v 0 rubbish_1<br />

00720215v nolex 0<br />

attack strongly<br />

00717603v 0 wisecrack_1<br />

00717603v 0 brometan_aritu_2 adarra_jotzen_ibili_2<br />

txantxetan_aritu_2<br />

00717701v 0 kibitz_1 kibbitz_1<br />

00717701v nolex 0<br />

67<br />

scorch with<br />

words<br />

make a comment,<br />

usually ironic<br />

make unwanted and intrusive comments<br />

make a declaration (of dutiable goods) to a customs official


68<br />

o<br />

00683308v mn 99<br />

factotum-<br />

base concept<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

00683308v 81 declare_1<br />

00683308v 38 garbi_erran_1 garbi_esan_1 argi_erran_1 argi_esan_1<br />

00581023v mn 99<br />

-factotum-<br />

communication<br />

Declaring+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

00695551v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00581023v 3 condemn_2<br />

00581023v 3 kondenatu_4 gaitzetsi_14<br />

00584957v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00585109v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

declare or judge unfit<br />

00584957v 0 boo_1 hiss_4<br />

00584957v 0 txistu_jo_5 txistu_egin_7<br />

oihuka_eraso_3 txistukatu_3 oihukatu_4<br />

00585109v 0 explode_8<br />

00585109v 0 izorratu_2 leherrarazi_1<br />

lehertu_12<br />

00695551v 2 opine_1 speak_up_1 animadvert_1<br />

sound_off_1<br />

00695551v 1 iritzia_eman_1 iritzia_azaldu_1<br />

iritzia_izan_1 iritzia_agertu_1<br />

state clearly<br />

show displeasure, as after a<br />

performance or speech<br />

drive from the stage by noisy<br />

disapproval<br />

speak one's opinion without fear<br />

or hesitation


00695426v mn 99<br />

-factotum-<br />

communication<br />

Declaring+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00695746v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00695746v 0 editorialize_1<br />

00695746v nolex 0<br />

00695426v 8 decree_1<br />

00695426v 8 atera_25 dekretuz_agindu_1 dekretatu_1<br />

00505872v mn 99<br />

-factotum-<br />

communication<br />

Ordering+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

<br />

00505872v 4 ordain_5<br />

00505872v nolex 1<br />

00506012v mn 99<br />

-factotum-<br />

communication<br />

Ordering+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00506118v mn 99<br />

-factotum-<br />

communication<br />

Ordering+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00506231v mn 99<br />

-factotum-<br />

communication<br />

Ordering+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

69<br />

insert personal opinions into an objective statement<br />

issue an order<br />

00506012v 0 predestine_1<br />

00506012v 0 aurretik_aukeratu_1<br />

aurretik_hautatu_1 predestinatu_1<br />

00506118v 0 will_2<br />

00506118v 0 kontrolatu_5 zuzendu_19<br />

00506231v 0 destine_1 fate_1 doom_1<br />

designate_3<br />

00506231v 0 jaio_7<br />

issue or demand by decree<br />

decree or determine<br />

beforehand<br />

decree or ordain<br />

decree or designate<br />

beforehand


70<br />

<br />

<br />

<br />

01653223v mn 99<br />

-factotum-<br />

social<br />

Declaring+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

00686265v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00685210v mn 99<br />

-law-<br />

communication<br />

Declaring+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01653223v 3 ordain_1 enact_1<br />

01653223v 2 promulgatu_3<br />

01653447v mn 99<br />

-factotum-<br />

social<br />

RegulatoryProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01680633v mn 99<br />

-politics-<br />

social<br />

RegulatoryProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01653447v 0 reenact_2<br />

01653447v 0 berriro_promulgatu_1<br />

order by virtue of superior authority; decree<br />

enact again<br />

01680633v 0 legislate_1 pass_3<br />

01680633v 0 legea_egin_1 legea_atera_1 onartu_24<br />

legeak_atera_1 legeak_egin_1<br />

00686265v 2 testify_1 attest_3 take_the_stand_1<br />

bear_witness_2<br />

00686265v 1 testigantza_eman_1 lekukotasuna_egin_1<br />

lekukotasuna_eman_1<br />

00686421v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00686421v 0 vouch_1<br />

00686421v nolex 0<br />

00685210v 0 swear_4 depose_2 depone_1<br />

00685210v 0 deklaratu_2<br />

give personal assurance; guarantee<br />

make laws,<br />

bills, etc.<br />

give testimony in a court<br />

of law<br />

make a deposition; declare under oath


00683865v mn 99<br />

-factotum-<br />

communication<br />

Stating+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

<br />

<br />

00683865v 9 affirm_2 assert_2 avow_1 aver_2 swan_1<br />

swear_2<br />

00683865v 3 zin_egin_1 ziurtatu_6 eutsi_17 baieztatu_6<br />

baietsi_8<br />

00461087v mn 99<br />

-factotum-<br />

cognition<br />

Process+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00515522v mn 99<br />

-factotum-<br />

communication<br />

Stating+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00556981v mn 99<br />

-factotum-<br />

communication<br />

Stating+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00557342v mn 99<br />

-factotum-<br />

communication<br />

Stating+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00461087v 0 hold_13<br />

00461087v nolex 0<br />

00515522v 0 claim_4 take_36<br />

00515522v nolex 0<br />

00556981v 0 attest_2<br />

00556981v 0<br />

fede_eman_1<br />

00557342v 3 declare_3<br />

00557342v 0 jo_52<br />

00516869v mn 99<br />

-factotum-<br />

communication<br />

Declaring+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

assert or affirm<br />

lay claim to; as of an idea<br />

71<br />

to declare or affirm as<br />

true<br />

affirm to be true,genuine, or correct, asin an official<br />

capacity<br />

state firmly<br />

00516869v 0 plead_3<br />

00516869v nolex 0<br />

enter a plea, as in courts of law


72<br />

<br />

<br />

<br />

<br />

00661842v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00684148v mn 99<br />

-factotum-<br />

communication<br />

Stating+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00689221v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00516991v mn 99<br />

-politics-<br />

-religion-<br />

communication<br />

Stating+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00516991v 0 profess_2<br />

00516991v 0 agertu_19 aitortu_21<br />

izan_29<br />

00684148v 0 protest_3<br />

00684148v nolex 0<br />

00689221v 0 assure_2 tell_6<br />

00689221v nolex 0<br />

00661842v 3 proclaim_2 exclaim_2 promulgate_1<br />

00661842v 3 promulgatu_2 aldarrikatu_4<br />

00662067v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00662067v 0 trumpet_1<br />

00662067v nolex 0<br />

confess one's faith in, or<br />

allegiance to<br />

affirm or avow formally or solemnly<br />

state positively and with certainty and confidence<br />

state or announce<br />

proclaim on, or as if on, a trumpet


00662233v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00613914v mn 99<br />

-law-<br />

communication<br />

RegulatoryProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

00614144v mn 99<br />

-law-<br />

communication<br />

Process+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01703096v mn 99<br />

-law-<br />

-military-<br />

social<br />

RegulatoryProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00606102v mn 99<br />

-law-<br />

communication<br />

RegulatoryProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00662233v 0 clarion_2<br />

00662233v nolex 0<br />

00613914v 3 sentence_1 condemn_5 doom_2<br />

00613914v 4 zigorra_ezarri_1 kondenatu_3<br />

zigortu_9<br />

proclaim on, or as if on, a clarion<br />

00614144v 0 foredoom_1<br />

00614144v 0 aurretik_juzgatu_1 aurrez_juzgatu_1<br />

01703096v 0 court-martial_2<br />

01703096v nolex 0<br />

00606102v 0 take_the_Fifth_1<br />

take_the_Fifth_Amendment_1<br />

00606102v nolex 0<br />

73<br />

pronounce a sentence on, in a court<br />

of law<br />

condemn in a military court<br />

doom beforehand<br />

refuse to testify by invoking the Fifth<br />

Amendment, which states that nobody may be<br />

forced to testify as a witness against himself or<br />

herself


74<br />

<br />

<br />

<br />

00604928v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00599173v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00598975v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00604928v 0 acknowledge_3 receipt_1<br />

00604928v 0 hartu_izana_adierazi_1<br />

00599173v 2 promise_2<br />

00599173v 2 agindu_6<br />

00599324v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00599324v 0 vouchsafe_2<br />

00599324v nolex 0<br />

acknowledge the receipt of<br />

promise to undertake or give<br />

00598975v 34 promise_1 assure_6<br />

00598975v 40 promestu_1 hitzeman_1 segurtatu_6<br />

promes_egin_1 ziurtatu_7 prometatu_1 agindu_5<br />

00599443v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00599443v 12 pledge_1 plight_2<br />

00599443v nolex 12<br />

00601123v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00601123v 4 vow_1<br />

00601123v nolex 3<br />

promise or agree condescendingly, as a special favor<br />

promise solemnly and formally<br />

make a vow; promise<br />

make a promise or<br />

commitment


00603280v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

00601001v mn 99<br />

-factotum-<br />

communication<br />

OrganizationalProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00602303v mn 99<br />

-religion-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00603145v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00601001v 0 betroth_1 engage_5<br />

affiance_1 plight_1<br />

00601001v 0 ezkon-hitza_eman_1<br />

ezkontzeko_hitza_eman_1<br />

00602303v 0 profess_4<br />

00602303v 0 zin-hitzak_esan_1<br />

boto_egin_1<br />

00603145v 0 swear_3<br />

00603145v 0 zin_egin_2<br />

00603280v 4 guarantee_1 vouch_2<br />

00603280v 3 bermatu_6<br />

berme_eman_3<br />

00689127v mn 99<br />

-factotum-<br />

communication<br />

Stating+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01604356v mn 99<br />

-factotum-<br />

possession<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00689127v 0 stipulate_2<br />

00689127v 0 hitzartu_1 erabaki_4<br />

01604356v 2 secure_3<br />

01604356v 1 abalatu_1<br />

75<br />

give to, in<br />

marriage<br />

as in religious orders;<br />

take a vow<br />

promise solemnly; take an oath<br />

give surety or assume<br />

responsibility<br />

assure payment of<br />

give a guarantee of


76<br />

<br />

<br />

<br />

<br />

00697966v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

00599607v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00602402v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01604463v mn 99<br />

-economy-<br />

possession<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01604463v 0<br />

certify_2<br />

01604463v 0<br />

ziurtatu_8<br />

00697966v 3 covenant_2<br />

00697966v 2 ituna_egin_1 itundu_1<br />

00516749v mn 99<br />

-religion-<br />

communication<br />

ReligiousProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00697848v mn 99<br />

-religion-<br />

communication<br />

ReligiousProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00599607v 0 swear_off_1<br />

00599607v nolex 0<br />

00516749v 0 commune_2<br />

communicate_6<br />

00516749v 0 Jauna_hartu_1<br />

komuniatu_1 komulgatu_1<br />

00697848v 0<br />

communicate_5<br />

00697848v 0<br />

Jauna_eman_1<br />

00602402v 18 contract_1 undertake_4<br />

00602402v 23 kontratatu_2<br />

promise to abstain from<br />

guarantee payment on; of<br />

checks<br />

enter into a covenant<br />

receive Communion, in<br />

the Catholic church<br />

administer communion; in<br />

church<br />

enter into a contractual arrangement


00602606v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

<br />

<br />

<br />

00602606v 9 sign_3<br />

00602606v 11 sinatu_3<br />

izenpetu_3<br />

00674004v mn 99<br />

-factotum-<br />

communication<br />

Writing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00674118v mn 99<br />

-factotum-<br />

communication<br />

Writing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00674231v mn 99<br />

-factotum-<br />

communication<br />

Writing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00674369v mn 99<br />

-factotum-<br />

communication<br />

Writing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00674476v mn 99<br />

-factotum-<br />

communication<br />

Writing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00674004v 0<br />

undersign_1<br />

00674004v 0<br />

behean_sinatu_1<br />

00674118v 0 ink_1<br />

00674118v nolex 0<br />

be engaged by a written<br />

agreement<br />

sign at the bottom of (a<br />

document, for example)<br />

append one's signature to<br />

00674231v 0 autograph_1 inscribe_5<br />

00674231v 0 autografoa_eman_1<br />

autografoa_idatzi_1<br />

00674369v 0 initial_1<br />

00674369v nolex 0<br />

00674476v 0<br />

countersign_1<br />

00674476v 0 berretsi_5<br />

berriro_sinatu_1<br />

mark with one's initials<br />

77<br />

mark with one's<br />

signature<br />

add one's signature to after<br />

another's to attest<br />

authenticity


78<br />

<br />

<br />

<br />

00674666v mn 99<br />

-factotum-<br />

communication<br />

OrganizationalProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00674764v mn 99<br />

-economy-<br />

communication<br />

OrganizationalProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00688901v mn 99<br />

-factotum-<br />

communication<br />

Stating+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00674870v mn 99<br />

-administration-<br />

-economy-<br />

communication<br />

RegulatoryProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00674666v 0<br />

execute_7<br />

00674666v nolex 0<br />

00674764v 2 endorse_4<br />

00674764v 2 endosatu_1<br />

00674870v 0 visa_1<br />

00674870v 0<br />

bisa_ipini_1<br />

bisa_jarri_1<br />

00688901v 2 stipulate_1 qualify_5 condition_3<br />

specify_1<br />

00688901v 1 zehaztu_7<br />

00721124v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00721124v 0<br />

provide_3<br />

00721124v<br />

nolex 0<br />

sign in the presence of<br />

witnesses<br />

of documents or cheques<br />

provide (a<br />

passport) with a<br />

visa<br />

specify as a<br />

condition<br />

determine (what is to happen in certain<br />

contingencies), esp. by including a proviso<br />

condition


01676348v mn 99<br />

-factotum-<br />

social<br />

FinancialTransaction+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01676541v mn 99<br />

-factotum-<br />

social<br />

FinancialTransaction+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01676962v mn 99<br />

-factotum-<br />

social<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

<br />

01676348v 0 rent_1 lease_1<br />

01676348v 0 akuratu_3 alogeratu_3 alokatu_3<br />

errentan_eman_3 errentan_hartu_3<br />

errentan_utzi_3<br />

01676541v 0 rent_4 hire_2 charter_1<br />

lease_2<br />

01676541v 0 erentan_utzi_1<br />

errentan_hartu_4 alogeratu_4<br />

akuratu_4 alokatu_4<br />

errentan_eman_4<br />

01676962v 4 covenant_1<br />

01676962v 5 hitzartu_2 itundu_2 ituna_egin_2<br />

01686124v mn 99<br />

-factotum-<br />

social<br />

ReligiousProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01686230v mn 99<br />

-factotum-<br />

social<br />

ReligiousProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01686326v mn 99<br />

-factotum-<br />

social<br />

ReligiousProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

01686124v 0 confirm_5<br />

01686124v 0 konfirmatu_1<br />

sendotza_eman_1<br />

01686230v 0 bar_mitzvah_1<br />

01686230v nolex 0<br />

01686326v 0 bat_mitzvah_1<br />

01686326v nolex 0<br />

79<br />

let for money;<br />

of housing<br />

hold under a lease or<br />

rental agreement; of<br />

goods and services<br />

agree to a covenant<br />

administer<br />

confirmation to; a<br />

church rite<br />

of boys in the Jewish faith<br />

of girls in the Jewish faith


80<br />

<br />

<br />

00602914v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00592804v mn 99<br />

-factotum-<br />

communication<br />

Stating+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

<br />

<br />

00602914v 2 undertake_3 guarantee_3<br />

00602914v 1 engaiatu_1 konpromisoa_hartu_1<br />

00603039v mn 99<br />

-factotum-<br />

communication<br />

Committing+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00592804v 7 propose_1 suggest_1 advise_3<br />

00592804v 8 gomendatu_5 iradoki_1<br />

proposatu_1<br />

00592685v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00593041v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00593186v mn 99<br />

-sexuality-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00603039v 0 underwrite_1<br />

00603039v 0 dirulaguntza_eman_1<br />

00592685v 0 recommend_1 urge_2 advocate_1<br />

00592685v nolex 0<br />

00593041v 0 advance_2<br />

throw_out_5<br />

00593041v nolex 0<br />

00593186v 0 proposition_1<br />

00593186v 0 intsinuatu_1 limurtu_nahian_ibili_2<br />

promise or guarantee<br />

guarantee financial<br />

support of<br />

make a proposal, declare a plan for<br />

something<br />

push for something<br />

bring forward for consideration or<br />

acceptance<br />

suggest sex to


00588138v mn 99<br />

-factotum-<br />

communication<br />

Reasoning+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00587298v mn 99<br />

-religion-<br />

communication<br />

ReligiousProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

<br />

00593428v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00594839v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00595862v mn 99<br />

-politics-<br />

communication<br />

OrganizationalProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00593428v 0 feed_back_2<br />

00593428v 0 argibideak_eman_1<br />

00594839v 0 submit_2 state_2 put_forward_1<br />

00594839v nolex 0<br />

00595862v 0 move_16<br />

make_a_motion_1<br />

00595862v 0<br />

mozioa_aurkeztu_1<br />

00588138v 0 account_for_4 answer_for_1<br />

00588138v 0 frogatu_7 justifikatu_2<br />

00587298v 2 consecrate_3 bless_4 hallow_1 sanctify_1<br />

00587298v 2 kontsakratu_1 sagaratu_1 santutu_2<br />

bedeinkatu_1<br />

00587477v mn 99<br />

-religion-<br />

communication<br />

ReligiousProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00587477v 0 reconsecrate_1<br />

00587477v 0 berriro_kontsakratu_1<br />

berriro_bedeinkatu_1 berriro_santutu_1<br />

berriro_sagaratu_1<br />

give feedback to somebody<br />

put before<br />

propose formally; in a debate or<br />

parliamentary meeting<br />

81<br />

furnish a justifying analysis or explanation<br />

render holy by means of<br />

religious rites<br />

consecrate anew, as<br />

after a desecration


82<br />

o<br />

o<br />

o<br />

o<br />

<br />

00683175v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00662493v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00654101v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

00745102v mn 99<br />

-boxing-<br />

competition<br />

Sport+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Purpose=<br />

00745102v 0 count_out_1<br />

00745102v nolex 0<br />

declare the loser, in boxing<br />

00683175v 0 get_out_4<br />

00683175v 0 zailtasunez_esan_1 zailtasunez_adierazi_1 zailtasunez_erran_1<br />

00662493v 0 articulate_4 enunciate_2 vocalize_4<br />

00662493v 0 bokalizatu_1 ahoskatu_2 ebaki_15 artikulatu_1<br />

00654101v 3 announce_2 declare_2<br />

00654101v 1 deklaratu_1<br />

00584514v mn 99<br />

-factotum-<br />

communication<br />

Declaring+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00654262v mn 99<br />

-factotum-<br />

communication<br />

LegalAction+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00611179v mn 99<br />

-factotum-<br />

communication<br />

ContentDevelopment+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

announce officially<br />

00584514v 0 promulgate_2<br />

00584514v 0 aldarrikatu_3 promulgatu_1<br />

00654262v 0 nolle_prosequi_1 nolle_pros_1<br />

nol._pros._1<br />

00654262v nolex 0<br />

00611179v 3 preface_1 premise_2 introduce_9<br />

00611179v 4 sarrera_egin_1<br />

express or state clearly<br />

express with difficulty<br />

put a law into effect by formal declaration<br />

declare that a legal case will not be<br />

prosecuted<br />

furnish with a preface


o<br />

o<br />

<br />

<br />

00569337v mn 99<br />

-factotum-<br />

communication<br />

Pretending+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00554194v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

<br />

00611324v mn 99<br />

-factotum-<br />

communication<br />

ContentDevelopment+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00611405v mn 99<br />

-factotum-<br />

communication<br />

ContentDevelopment+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00611324v 0 preamble_1<br />

00611324v nolex 0<br />

make a preamble<br />

00611405v 0 prologize_1<br />

00611405v 0 hitzaurrea_egin_1 aitzinsolasa_egin_1<br />

sarrera_idatzi_1 aitzinsolasa_idatzi_1 hitzaurrea_idatzi_1<br />

00569337v 0 play_down_1 soft-pedal_1<br />

00569337v 0 garrantzia_kendu_2<br />

00554194v 5 answer_1 reply_1 respond_2<br />

00554194v 5 ihardetsi_1 erantzun_2<br />

00553905v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00554047v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00554494v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

play down or obscure<br />

reply or respond to<br />

00553905v 0 counter_1<br />

00553905v 0 aurka_egin_3 iharduki_1 buru_egin_1 kontra_egin_4<br />

00554047v 0 field_3<br />

00554047v 0 ondo_ihardetsi_1 zuzen_ihardetsi_1 ongi_ihardetsi_1<br />

zuzen_erantzun_1 ongi_erantzun_1 ondo_erantzun_1<br />

00554494v 0 retort_1 come_back_5 repay_4 return_8 riposte_1<br />

rejoin_2<br />

00554494v nolex 0<br />

83<br />

write or speak a<br />

prologue<br />

speak in response<br />

answer adequately or<br />

successfully<br />

answer<br />

back


84<br />

o<br />

o<br />

<br />

00543138v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

01529684v mn 99<br />

-factotum-<br />

possession<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

<br />

<br />

00716650v mn 99<br />

-zoology-<br />

communication<br />

RadiatingSound+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00716650v 0 bridle_2<br />

00716650v nolex 0<br />

respond to the reins, as of horses<br />

00543138v 0 misstate_1<br />

00543138v 0 oker_esan_1 oker_erran_1 gaizki_erran_1 gaizki_esan_1<br />

01529684v 5 give_4<br />

01529684v 5 eman_49<br />

00692314v mn 99<br />

-commerce-<br />

-economy-<br />

communication<br />

Committing+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

<br />

01529865v mn 99<br />

-factotum-<br />

possession<br />

Selecting+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

01529966v mn 99<br />

-factotum-<br />

possession<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

convey or reveal information<br />

00692314v 2 quote_2<br />

00692314v 2 prezioa_eman_1 salneurria_eman_1 prezioak_eman_1<br />

salneurriak_eman_1<br />

00692437v mn 99<br />

-commerce-<br />

-economy-<br />

communication<br />

Committing+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00692437v 0<br />

underquote_2<br />

00692437v nolex 0<br />

01529865v 0 cast_2<br />

01529865v nolex 0 deposit<br />

01529966v 0 name_6 list_3<br />

01529966v 0 izena_esan_3 izena_eman_6<br />

state something incorrectly<br />

name the<br />

price of<br />

quote a price lower than that quoted by (another<br />

seller)<br />

give the names of


•<br />

00668411v mn 99<br />

-factotum-<br />

base concept<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

o<br />

00668411v 20 represent_5<br />

00668411v 8 itxuratu_3 adierazi_17<br />

00566991v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

<br />

<br />

<br />

serve as a means of expressing something<br />

00566991v 11 misrepresent_1 belie_2<br />

00566991v 14 aizundu_1 faltsutu_2 itxuragabetu_4 desitxuratu_2<br />

00372048v mn 99<br />

-psychology-<br />

change<br />

IntentionalPsychologicalProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00372228v mn 99<br />

-psychology-<br />

change<br />

IntentionalPsychologicalProcess+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00566613v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00372048v 0 romanticize_3 romanticise_2<br />

glamorize_1<br />

00372048v nolex 0<br />

00372228v 0 sentimentalize_1<br />

00372228v nolex 0<br />

00566613v 0 falsify_1 distort_1<br />

garble_1 warp_1<br />

00566613v nolex 0<br />

represent falsely<br />

look at with sentimentality<br />

interpret<br />

romantically<br />

85<br />

make false by mutilation or addition; as of a<br />

message or story


86<br />

<br />

<br />

00567230v mn 99<br />

-factotum-<br />

communication<br />

Process+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00568049v mn 99<br />

-factotum-<br />

communication<br />

Pretending+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

<br />

<br />

<br />

00567230v 0 color_2 distort_4<br />

00567230v nolex 0<br />

distort<br />

00568049v 6 feign_1 sham_2 pretend_1 affect_4 dissemble_1<br />

00568049v 5 plantak_egin_1 itxurak_egin_1 alegiak_egin_1 alegia_egin_1<br />

itxura_egin_2<br />

00568418v mn 99<br />

-factotum-<br />

communication<br />

Pretending+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00568508v mn 99<br />

-boxing-<br />

communication<br />

Pretending+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00568905v mn 99<br />

-factotum-<br />

communication<br />

Pretending+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00568418v 0 play_possum_1<br />

00568418v nolex 0<br />

00568508v 0 take_a_dive_1<br />

00568508v nolex 0<br />

to pretend to be dead<br />

00568905v 0 waffle_1 bullshit_1 bull_3 fake_3<br />

00568905v nolex 0<br />

of a boxer: pretend to be knocked out<br />

talk through one's hat<br />

make<br />

believe


o<br />

<br />

00668209v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

<br />

<br />

00704572v mn 99<br />

-factotum-<br />

communication<br />

BodyMotion+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

<br />

00704572v 2 mouth_2<br />

00704572v 2 isilpean_ebaki_1<br />

isilpean_ahoskatu_1 isilpean_artikulatu_1<br />

00704732v mn 99<br />

-factotum-<br />

communication<br />

BodyMotion+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00704732v 0 lip-synch_1<br />

lip-sync_1<br />

00704732v nolex 0<br />

00668209v 4 describe_1 depict_2 draw_9<br />

00668209v 1 deskribatu_3 deskribapena_egin_1<br />

00669100v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00680510v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

87<br />

articulate silently; form<br />

words with the lips only<br />

move the lips in synchronization (with<br />

recorded speech or song)<br />

give a description of<br />

00669100v 0 delineate_5<br />

00669100v 0 zehatz-mehatz_deskribatu_1 zehazki_deskribatu_1<br />

00680510v 2 sketch_2 outline_1 adumbrate_1<br />

00680510v 2 gai<strong>net</strong>ik_deskribatu_1 laburki_deskribatu_1<br />

describe in vivid detail<br />

describe roughly or briefly


88<br />

o<br />

o<br />

o<br />

<br />

00668632v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

<br />

00668960v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

01876322v mn 99<br />

-factotum-<br />

stative<br />

represents+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00680675v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00668632v 2 dramatize_2<br />

00668632v 2 dramatizatu_1<br />

00668845v mn 99<br />

-factotum-<br />

consumption<br />

Communication+<br />

Agentive=<br />

BoundedEvent=<br />

Communication=<br />

Dynamic=<br />

Existence=<br />

Physical=<br />

00680675v 0 block_out_4<br />

00680675v nolex 0<br />

00668845v 0 overdramatize_1<br />

00668845v 0 gehiegi_dramatizatu_1<br />

00668960v 0 portray_1<br />

00668960v 0 deskribatu_6 irudikatu_1<br />

01876322v 0 embody_3<br />

01876322v 0 irudikatu_8 agertu_21<br />

indicate roughly<br />

represent something in a dramatic manner<br />

present in an overly dramatic manner<br />

portray in words<br />

represent or express something abstract in tangible form


•<br />

•<br />

•<br />

•<br />

•<br />

•<br />

00663192v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00637974v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00637720v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00637628v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00637528v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00637348v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

o<br />

00663192v 0 say_6<br />

00663192v 0 esan_21<br />

00637974v 0 get_off_11<br />

00637974v nolex 0<br />

utter aloud<br />

deliver verbally<br />

00637720v 0 pour_out_1<br />

00637720v 0 hustu_14 kanporatu_10 asaskatu_2<br />

00637628v 0 drop_6<br />

00637628v 0 bota_36 jaurti_17<br />

00637528v 0 breathe_4<br />

00637528v 0 esan_27<br />

00637348v 2 raise_3<br />

00637348v nolex 1<br />

00693588v mn 99<br />

-factotum-<br />

communication<br />

IntentionalProcess+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

utter or tell<br />

utter casually<br />

express without restraint<br />

cause to be heard or known; express or utter<br />

00693588v 0 call_up_1 bring_forward_2<br />

00693588v nolex 0<br />

bring forward for consideration<br />

89


90<br />

•<br />

•<br />

•<br />

•<br />

•<br />

•<br />

00631861v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00626364v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00620914v mn 99<br />

-factotum-<br />

competition<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00619568v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00619398v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00617311v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

o<br />

00631861v 0 voice_1<br />

00631861v 0 berri_eman_6 jakinarazi_16<br />

give voice to<br />

00626364v 0 marvel_2<br />

00626364v 0 harritu_7 liluratu_2 miraz_egon_1 miretsi_1<br />

txunditu_7<br />

00620914v 0 venture_3<br />

00620914v 0 aurretik_esan_1 aurreratu_9 iragarri_7<br />

00619568v 0 vociferate_1 shout_out_2<br />

00619568v 0 aldarrikatu_5 oihuztatu_1 aldarri_egin_2<br />

00619398v 0 clamor_2 clamour_1<br />

00619398v nolex 0<br />

express astonishment or surprise about<br />

something<br />

express in spite of possible refutation<br />

utter in a very loud voice<br />

utter or proclaim insistently and noisily<br />

00617311v 2 exclaim_1 cry_3 cry_out_1 outcry_2 call_out_1<br />

shout_3<br />

00617311v 2 oihu_egin_9 garrasi_egin_8 deiadar_egin_8<br />

00586792v mn 99<br />

-zoology-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00586792v 0 gee_2<br />

00586792v nolex 0<br />

as to a horse<br />

utter aloud; often with surprise, horror, or<br />

joy


•<br />

•<br />

00612000v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00724756v mn 99<br />

-factotum-<br />

communication<br />

Communication+<br />

Agentive=<br />

Communication=<br />

Dynamic=<br />

00612000v 0 wish_4<br />

00612000v 0 opa_izan_2<br />

00724756v 0 hurl_3 throw_10<br />

00724756v nolex 0<br />

make or express a wish<br />

utter with force; utter vehemently<br />

91


Kirol-arloko aditzen hautapen-murriztapenak<br />

93<br />

C ERANSKINA<br />

Eskuliburu ho<strong>net</strong>an hainbat eskuratze-teknika erabiliz, ingeleseko eta euskarako corpus<br />

ezberdi<strong>net</strong>atik ikasitako hautapen-murriztapenak (HMak) aurkezten ditugu, hauen<br />

zuzentasunari buruzko ebaluazioarekin batera.<br />

Azterketarako erabilitako zortzi synsetak behekoak dira, eta banan banan aurkeztuko<br />

ditugu, beraien azterketaren urrats bakoitzean lortutako emaitzak eta ho<strong>net</strong>arako erabilitako<br />

baliabideekin batera 43 :<br />

1. 00605818 play_1 /jokatu_2; “play games, play sports”<br />

2. 00610422 encounter_5, meet_10, play_24, take_on_5/jokatu_3<br />

3. 00468052 coach_2, train_7 / entrenatu_1; “teach and supervise, as…”<br />

4. 00059698 train_8 /entrenatu_3; “exercise in order to prepare for…”<br />

5. 00630097 equalize_1, get_even_1 / berdindu_16; “compensate…”<br />

6. 00630097 draw_25, tie_2 / berdindu_15; “finish a game with an…”<br />

7. 00620486 win_1/irabazi_3; “be the winner in a contest or competition”<br />

8. 00620218 lose_2 / galdu_9; “fail to win”<br />

Synset bakoitzaren ingeleseko eta euskarako varianten HMen azterketa egin dugunez,<br />

eranskinen antolaketari begira, synset bereko ingeleseko eta euskarako emaitzak atal<br />

ezberdi<strong>net</strong>an banatu ditugu. Hala, eranskin honek hurrengo atalak izango ditu:<br />

C.1 00468052 coach_2, train_7 “teach and supervise, as in sports…”<br />

C.2 00468052 entrenatu_1 “teach and supervise, as in sports…”<br />

C.3 00630097 draw_25, tie_2 “finish a game with an equal number…”<br />

C.4 00630097 berdindu_15; “finish a game with an equal number…”<br />

C.5 00630097 equalize_1, get_even_1 “compensate; make the score equal”<br />

C.6 00630097 berdindu_16; “compensate; make the score equal”<br />

C.7 00620218 lose_2 “fail to win”<br />

C.8 00620218 galdu_9 “fail to win”<br />

C.9 00605818 play_1 “play games, play sports”<br />

C.10 00605818 jokatu_2 “play games, play sports”<br />

C.11 00610422 play_24, encounter_5, meet_10, take_on_5 “contend…”<br />

C.12 00610422 jokatu_3; “contend against…”<br />

C.13 00059698 train_8 “exercise in order to prepare for an event…”<br />

C.14 00059698 entrenatu_3; “exercise in order to prepare for an event…”<br />

C.15 00620486 win_1 “be the winner in a contest or competition”<br />

C.16 00059698 entrenatu_3 “exercise in order to prepare for an event…”<br />

43 HMei buruzko argibide gehiago tesi-txosteneko VII. kapituluan.


94<br />

Emaitzetan zehar, HM bakoitzaren probabilitate-neurriez gain, letra lodiz markatu ditugu<br />

kirol-arloarekin erabil daitezkeen HMak, eta hauek jarraian ONARGARRIA edo ZUZENA<br />

markak izango dituzute. Gogora ditzagun marka hauen esanahia 44 :<br />

• ZUZENA: Urre-patroiarekin bat datorrenean.<br />

• ONARGARRIA: Urre-patroiaren hiperonimoa edo hiponimoa denean. Domeinueremu<br />

semantiko bikoteen bidez adierazitako HM kasuan, onargarri bezala<br />

kontsideratu ditugu urre-patroia baino orokorrago edota zehatzago direnak.<br />

Markarik ez duten HMak okertzat joko ditugu, hau da, marka horrek urre-patroiarekin bat ez<br />

datozela.<br />

Bestalde, SemCorretik ikasitako HMen kasuan, batzuetan, jarraian zehaztu dugu<br />

corpuseko zer agerpe<strong>net</strong>atik eratorri diren.<br />

Honekin batera, eskuratze-teknika batzuentzat corpusean aditz horrekin subjektu edo<br />

objektu gisa agertu diren izenen zerrenda eskaintzen dugu: w2w eta s2s (w2c eta c2c<br />

teknikentzat, hurrenez hurren). Lehenengoan ez dira adierak kontuan hartzen, hau da,<br />

fitxategi ho<strong>net</strong>an aditzaren edozein adierarekin corpusean agertutako hitzen (adiera zehaztu<br />

gabe) zerrenda da. s2s fitxategietan, aldiz, eskuz etiketatutako SemCor corpusean oinarritzen<br />

denez, aditzaren adiera eta aditz horrek corpusean izan dituen objektuen/subjektuen adierak<br />

synset-zenbakiarekin zehaztuta datoz.<br />

s2s-hype fitxategiak s2s deitu dugunaren aldaera bat da, non aditzaren hiperonimoek<br />

edota troponimoek corpusean hartu dituzten subjektu/objektu agerpenak ere zehazten diren,<br />

bien adierak zehaztuz. s2s-hype zerrenda hauetan “” ikurrak darabiltzagu<br />

aditzaren hiperonimoari edota troponimoari buruz ari garen zehazteko. Lehenengoak<br />

ezkerreko kontzeptua eskuinekoaren hiponimoa dela adierazten du; bigarrenak, aldiz,<br />

ezkerreko kontzeptua eskuinekoaren hiperonimoa dela. Azkenik, ikur hauek aditzek<br />

corpusean hartu duten izenen ondoan ere erabil daitezke, izen horren hiperonimoa zehaztuta<br />

ager daitekeelako, hau da, hiperonimo hori agerpen horren HM gisa agertuko dela<br />

adierazteko.<br />

Amaitzeko aipatu beharra dago, maiz, leku arazoak direla-eta, HMen adibideak laburtu<br />

egin ditugu.<br />

44 HMen azterketari buruzko argibide gehiagorako jo bedi tesi-txosteneko VII. kapitulura.


C.1 coach_2 / train_7<br />

C.1.1 Synseta MCRn<br />

00468052v<br />

communication<br />

DOMEINUAK:<br />

lock 00468052v 1 coach_2 train_7<br />

lock 00468052v 0 entrenatu_1<br />

teach and supervise, as in sports or acting<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />

coach, train A 00468052 pedagogy sport<br />

C.1.2 Urre patroiak<br />

coach, train 00468052: objektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

coach, train 00468052: subjektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

C.1.3 c2c SemCorretik<br />

OBJEKTUAK s2s eta s2s-hype:<br />

coach 00468052<br />

staff 05277272 the body of teachers and administrators at a school


96<br />

trouble 08740973<br />

coach


coach, train 00468052: c2c subjektu hautapen-murriztapenak<br />

00004865 0.009 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.001 object physical_object "a physical entity"<br />

00012878 0.001 cognition knowledge "the psychological result of…"<br />

00018599 0.0004 communication "something that is communicated between…"<br />

05650477 0.0001 part piece "a portion of a natural object"<br />

00008030 0.0001 animal animate_being beast brute creature fauna "a living…"<br />

00017008 0.0001 group grouping "any number of entities as…" ZUZENA<br />

00013522 0.0001 feeling "the psychological feature of experiencing…"<br />

00018966 0.0001 measure quantity amount quantum "how much there is of…"<br />

03444246 0.0001 property "a basic or essential attribute shared by all…"<br />

C.1.4 w2c SemCorretik<br />

s2s: (B.1.3 atala)<br />

coach: w2c objektu hautapen-murriztapenak<br />

05127029 0.269 body "a group of persons associated by some common tie or…"<br />

ONARGARRIA<br />

coach: w2c subjektu hautapen-murriztapenak<br />

Daturik ez.<br />

train: w2c objektu hautapen-murriztapenak<br />

00004865 0.334 person individual someone somebody mortal human soul. ZUZENA<br />

00017008 0.049 group grouping "any number of entities considered…" ZUZENA<br />

00012878 0.045 cognition knowledge "the psychological result of…"<br />

03553723 0.021 number figure "the property possessed by a sum or total or…"<br />

train: w2c subjektu hautapen-murriztapenak<br />

00004865 0.236 person individual someone somebody mortal human soul ZUZENA<br />

05127029 0.168 body "a group of persons associated by some…" ONARGARRIA<br />

C.1.5 s2semf SemCorretik<br />

coach 00468052: s2semf objektu hautapen-murriztapenak<br />

coach 00468052<br />

school-group 1 ONARGARRIA<br />

coach 00468052: s2semf subjektu hautapen-murriztapenak<br />

Daturik ez.<br />

train 00468052: s2semf objektu hautapen-murriztapenak<br />

Daturik ez.<br />

train 00468052: s2semf subjektu hautapen-murriztapenak<br />

Daturik ez.<br />

97


98<br />

C.1.6 w2c BNCtik<br />

coach: w2c objektu hautapen-murriztapenak<br />

00004865 0.140 person individual someone somebody mortal human soul" ZUZENA<br />

00009469 0.069 object physical_object "a physical entity"<br />

05119847 0.034 social_group "people sharing some social relation" ONARGARRIA<br />

00016649 0.030 act human_action human_activity "something that people do…"<br />

09065837 0.016 time_period period period_of_time amount_of_time<br />

00018599 0.013 communication "something that is communicated between…"<br />

00012878 0.009 cognition knowledge "the psychological result of…"<br />

05116476 0.008 people "(plural) any group of human beings…" ONARGARRIA<br />

03610098 0.007 body_part "any part of an organism such as an organ or…"<br />

00017586 0.005 attribute "an abstraction belonging to or characteristic of…"<br />

coach: w2c subjektu hautapen-murriztapenak<br />

00004865 0.237 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.066 object physical_object "a physical entity"<br />

05285793 0.025 World_Health_Organization WHO "a United Nations agency to…"<br />

00016649 0.022 act human_action human_activity "something that people do…"<br />

00012670 0.018 abstraction "a general concept formed by extracting common…"<br />

00012878 0.014 cognition knowledge "the psychological result of…"<br />

03610098 0.011 body_part "any part of an organism such as an organ or…"<br />

04690182 0.008 happening occurrence natural_event "an event that happens"<br />

00015437 0.007 state "the way something is with respect to its main…"<br />

04771851 0.007 contest competition "an occasion on which a winner is… "<br />

train: w2c objektu hautapen-murriztapenak<br />

00004865 0.150 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.071 object physical_object "a physical entity"<br />

05119847 0.039 social_group "people sharing some social relation" ONARGARRIA<br />

00018599 0.028 communication "something that is communicated between…"<br />

00016649 0.021 act human_action human_activity "something that people do…"<br />

00012878 0.019 cognition knowledge "the psychological result of…"<br />

00018966 0.014 measure quantity amount quantum "how much there is of…"<br />

00017586 0.010 attribute "an abstraction belonging to or characteristic…"<br />

03610098 0.009 body_part "any part of an organism such as an organ or…"<br />

05116476 0.008 people "(plural) any group of human beings…" ONARGARRIA<br />

train: w2c subjektu hautapen-murriztapenak<br />

08813320 0.111 helium He atomic_number_2<br />

00004865 0.087 person individual someone somebody mortal human soul ZUZENA<br />

00011607 0.049 artifact artefact "a man-made object"<br />

05285793 0.045 World_Health_Organization WHO "a United Nations agency to…”<br />

04455766 0.045 he "the 5th letter of the Hebrew alphabet"<br />

00018966 0.023 measure quantity amount quantum "how much there is of…"<br />

00012878 0.020 cognition knowledge "the psychological result of…"<br />

04313427 0.019 message content subject_matter substance "what a…"<br />

00016649 0.018 act human_action human_activity "something that people do…"<br />

00014314 0.014 location "a point or extent in space"


99<br />

w2w: coach: w2w objektuak<br />

And<br />

Arsene_Wenger<br />

Auckland<br />

Bora_Milutinovic<br />

Carlos_Bilardo<br />

Chalky_White<br />

David_Tillotson<br />

Doug_Collins<br />

England<br />

Harvey_Slater<br />

Jacques_Fouroux<br />

Middlesex<br />

Mike_Shanahan<br />

New_Zealanders<br />

Now<br />

Under-12s<br />

Waikato<br />

arch<br />

authority_-_he<br />

basketball<br />

batsmen<br />

central<br />

comfort<br />

company<br />

contract<br />

crew<br />

deb<br />

director<br />

duty<br />

fullback<br />

fundamentals<br />

her<br />

him<br />

holiday<br />

house<br />

inn<br />

inquest<br />

junior<br />

livery<br />

man<br />

member<br />

others<br />

patient<br />

people<br />

recruit<br />

regular<br />

route<br />

run<br />

session<br />

singer<br />

stock<br />

system<br />

team<br />

thing<br />

tour<br />

trade<br />

trip<br />

umbrella<br />

vehicle<br />

veteran<br />

whom<br />

you<br />

youngster<br />

coach: w2w subjektuak<br />

Argentinian<br />

Bobby_Robson<br />

Bridgend<br />

British<br />

British_Rail<br />

Cambridge<br />

Club<br />

Courtesy<br />

Dublin<br />

Englishman<br />

French<br />

Geoff_Boycott<br />

Great_Britain<br />

Having<br />

He<br />

Hull<br />

I<br />

Jackman<br />

Joanne<br />

Kingston<br />

Leicester<br />

Luxury<br />

MIKE_SPRACKLEN<br />

Maesteg<br />

Mk1<br />

Monaco<br />

National<br />

New_Zealand<br />

Orrell<br />

Oxford<br />

Prince<br />

ROBERT_NORSTER<br />

Sydney<br />

The_Chicago_Bulls<br />

Their_Australian<br />

This<br />

Unless<br />

Wales<br />

Welsh<br />

addition<br />

adviser<br />

assistant<br />

athletics<br />

beginning<br />

chief<br />

club<br />

competition<br />

double<br />

former<br />

genius<br />

head<br />

inter-city<br />

joint<br />

major<br />

media<br />

musician<br />

national<br />

nobody<br />

passenger<br />

permanent<br />

pilgrim<br />

press<br />

principal<br />

private<br />

rowing<br />

second<br />

senior<br />

she<br />

size<br />

small<br />

standard<br />

successor<br />

unit<br />

who<br />

whose<br />

train: w2w objektuak<br />

-_attended<br />

A-To-Z<br />

Airborne_Division<br />

Ali<br />

Along<br />

Among<br />

Andy_Sutton<br />

Anne<br />

As<br />

Atlaal<br />

Aureole<br />

Baillamont<br />

Barnbrook_Again<br />

Barry<br />

Both_Miss_Chalk<br />

Cargo_Fleet<br />

Carroll_House<br />

Champion_Hurdle<br />

Church_-_and_that<br />

Commanche_Run<br />

David_Livingstone<br />

Dawn_Run


100<br />

Did<br />

Foinavon<br />

Greeks<br />

Greenham<br />

Gregor_Mendel<br />

Halloween<br />

He<br />

Here<br />

Huntworth<br />

I<br />

Ilse<br />

In<br />

In-Keeping<br />

Lawrence<br />

Market_Leader<br />

Nabeel_Dancer<br />

Now<br />

Old_Vic<br />

Pinewood_Stables<br />

Pisk<br />

Prague<br />

Ramblers<br />

Robson<br />

Rottweiler<br />

Royal_Cedar<br />

SLOA<br />

Sales_Booster_Interna<br />

tional<br />

Star_City<br />

TA_NCOs<br />

Theatrical<br />

They<br />

Tsektran<br />

Two<br />

We<br />

With<br />

absence<br />

academic<br />

accident<br />

accountant<br />

acres<br />

actor<br />

adult<br />

adviser<br />

agency<br />

aides<br />

ammunition<br />

apprentice<br />

area<br />

aspiration<br />

assistance<br />

basis<br />

biceps<br />

body<br />

body_part<br />

bodyguard<br />

bound<br />

branch<br />

break<br />

buff<br />

calf<br />

camp<br />

can<br />

catering<br />

chaser<br />

chef<br />

chest<br />

christian<br />

clergy<br />

clergymen<br />

colt<br />

compartment<br />

competition<br />

complementary_medicin<br />

e<br />

complex<br />

computer<br />

concept<br />

contender<br />

counterpart<br />

course<br />

creeper<br />

crew<br />

cycle<br />

daily<br />

dancer<br />

daughter<br />

deltoid<br />

department<br />

depot<br />

device<br />

director<br />

disaster<br />

dog<br />

drop<br />

espalier<br />

essential<br />

establishment<br />

event<br />

executive<br />

exercises<br />

extension<br />

farmer<br />

fatty_tissue<br />

feat<br />

feeding<br />

fighter<br />

firm<br />

first<br />

fitness<br />

force<br />

forward<br />

friendship<br />

fruit<br />

gallop<br />

glider<br />

graduate<br />

group<br />

guard<br />

guide<br />

handler<br />

he<br />

head<br />

heating<br />

her<br />

him<br />

home<br />

hopefuls<br />

horse<br />

horses_-_as<br />

hurdler<br />

husband<br />

impression<br />

infantrymen<br />

information_system<br />

initiative<br />

inspector<br />

institution<br />

it<br />

itself<br />

journey<br />

king<br />

last<br />

lateral<br />

local<br />

male<br />

man<br />

manager<br />

matches<br />

material<br />

me<br />

middle_class<br />

mind<br />

minister<br />

missionary<br />

mixing<br />

mother<br />

motive_power<br />

movement<br />

muscle<br />

musician<br />

myself<br />

nation<br />

nonstop<br />

number<br />

objective<br />

officer<br />

orchestra


101<br />

organisation<br />

others<br />

owner/manager<br />

part<br />

participant<br />

peak<br />

people<br />

personnel<br />

pianist<br />

pilot<br />

player<br />

police<br />

population<br />

post<br />

priest<br />

profession<br />

programme<br />

progressive<br />

pup<br />

purpose<br />

race<br />

racehorse<br />

range<br />

reformer<br />

refurbishment<br />

reinforcement<br />

replacement<br />

restaurant<br />

role<br />

roof<br />

routine<br />

runs_-_perhaps<br />

sailor<br />

schedule<br />

scheme<br />

scientist<br />

searchlight<br />

sector<br />

self-defence<br />

seminar<br />

service<br />

servicewomen<br />

session<br />

set<br />

sharing<br />

she<br />

shirt<br />

shoe<br />

side<br />

sir<br />

six-year-old<br />

skill<br />

something<br />

speed<br />

sport<br />

spotter<br />

squad<br />

staff<br />

stall<br />

standard<br />

station<br />

statistics<br />

step-up<br />

student<br />

succession<br />

successor<br />

suit<br />

surveillance<br />

tape<br />

teacher<br />

team<br />

team-mate<br />

technique<br />

telescope<br />

term<br />

terrorist<br />

that<br />

that_-<br />

_notwithstanding<br />

them<br />

they<br />

thinking<br />

this<br />

time<br />

tour<br />

train<br />

transcendentalist<br />

travel<br />

tree<br />

troop<br />

troops<br />

two-seater<br />

uncle<br />

unit<br />

version<br />

voice<br />

volunteer<br />

warden<br />

warfare<br />

we<br />

west<br />

which<br />

who<br />

whom<br />

whose<br />

winner<br />

worker<br />

workforce<br />

workshop<br />

wreck<br />

writer<br />

yard<br />

you<br />

young<br />

young_man<br />

youngster<br />

train: w2w subjektuak<br />

BR<br />

BRC<br />

Barnardo<br />

Basingstoke<br />

Blackpool_North-<br />

Euston<br />

British_Rail<br />

Cross<br />

Cup_-_he<br />

Dundee<br />

East_German<br />

England<br />

Exercises<br />

Fontainebleu<br />

Glover<br />

Goods<br />

Grania_Furness<br />

Griffiths<br />

He<br />

His<br />

I<br />

In_Kenya<br />

It<br />

Kitchen<br />

Martin_Pipe<br />

Michael_Stoute<br />

Newton_Abbot<br />

No<br />

Paddington<br />

Penmaenmawr<br />

Peterborough_HAH<br />

Pullman<br />

Richard_Lee<br />

Ruth<br />

Security<br />

Spaniard<br />

The<br />

This<br />

Training<br />

Trans-Pennine<br />

VIP<br />

WWF<br />

Whether<br />

Wooderson<br />

You<br />

annual<br />

architect<br />

bitterness<br />

case<br />

client


102<br />

coach<br />

course<br />

cry<br />

diesel<br />

dinghy<br />

electric<br />

excursion<br />

first<br />

foundations<br />

government<br />

guest<br />

guide<br />

hard_work-outs<br />

he<br />

his<br />

horse<br />

hours<br />

it<br />

last<br />

launch<br />

mile<br />

military<br />

my<br />

C.1.7 c2c BNCtik<br />

Denak ez zuzenak dira.<br />

nephew<br />

newly-qualified<br />

newspaper<br />

number<br />

of<br />

our<br />

people<br />

pilot<br />

point<br />

pound<br />

principle<br />

programme<br />

prototype<br />

regular<br />

researcher<br />

return<br />

role<br />

same<br />

school<br />

seat<br />

series<br />

service<br />

session<br />

she<br />

society<br />

soldier<br />

special<br />

speed_-_we<br />

suddenly<br />

system<br />

talent<br />

technique<br />

that<br />

their<br />

them<br />

they<br />

train<br />

transit<br />

turn<br />

unit<br />

usage<br />

we<br />

who<br />

woman<br />

you<br />

your<br />

coach, train 00468052: c2c objektu hautapen-murriztapenak<br />

08813320 0.009 helium He atomic_number_2<br />

09065837 0.006 time_period period period_of_time amount_of_time<br />

08520394 0.002 condition status "a condition or state at a particular time"<br />

08525534 0.001 friendship friendly_relationship "the state of being…"<br />

08522741 0.0005 situation state_of_affairs "the general state of things"<br />

08804621 0.0004 group radical "two or more atoms bound together as a…"<br />

08534455 0.0004 status position "the relative position or standing of…"<br />

08498677 0.0003 arch "a curved shape in the vertical plane that spans an…"<br />

08865432 0.0002 leather "an animal skin made smooth and flexible by…"<br />

coach, train 00468052: c2c subjektu hautapen-murriztapenak<br />

08813320 0.036 helium He atomic_number_2<br />

08717824 0.0051 rank "relative status;<br />

09065837 0.003 time_period period period_of_time amount_of_time<br />

08781633 0.001 material stuff "the tangible substance that goes into the…"<br />

08522741 0.001 situation state_of_affairs "the general state of things"<br />

08535667 0.001 standing "social or financial or professional status or…"<br />

08732165 0.0007 imperativeness insistence insistency press pressure<br />

08514292 0.0006 articulation join joint juncture junction "the shape or…"<br />

08524514 0.0004 company comradeship companionship good_fellowship…"<br />

09092294 0.0004 time_unit unit_of_time "a unit for measuring time periods"


C.1.8 w2semf EFEtik<br />

coach: w2semf objektu hautapen-murriztapenak<br />

obj x 53 ONARGARRIA<br />

obj sport-group 28.5 ONARGARRIA<br />

obj zoology-group 25<br />

obj military-group 3.5<br />

obj number-quantity 3.214<br />

obj zoology-animal 2.333<br />

obj money-quantity 2<br />

obj geography-location 1.583<br />

obj administration-location 1.583<br />

obj administration-person 1.5<br />

coach: w2semf subjektu hautapen-murriztapenak<br />

subj x 41 ONARGARRIA<br />

subj administration-group 26<br />

subj chemistry-substance 4.666<br />

subj linguistics-communication 3.166<br />

subj physics-substance 2.666<br />

subj number-quantity 2<br />

subj sport-group 2 ONARGARRIA<br />

subj zoology-group 2<br />

subj person-person 1.666 ZUZENA<br />

subj factotum-communication 1.624<br />

train: w2semf objektu hautapen-murriztapenak<br />

obj zoology-group 2<br />

obj sport-group 2 ONARGARRIA<br />

obj sport-person 1.611 ONARGARRIA<br />

obj x 1 ONARGARRIA<br />

obj time_period-time 0.5<br />

obj publishing-person 0.5<br />

obj transport-artifact 0.333<br />

obj town_planning-artifact 0.222<br />

obj metrology-time 0.2<br />

obj tourism-artifact 0.111<br />

train: w2semf subjektu hautapen-murriztapenak<br />

subj x 13 ONARGARRIA<br />

subj chemistry-substance 5<br />

subj administration-group 3<br />

subj linguistics-communication 2.666<br />

subj physics-substance 2.666<br />

subj sport-group 2.5 ONARGARRIA<br />

subj number-quantity 2.083<br />

subj zoology-group 2<br />

subj wrestling-person 1<br />

subj geography-location 0.5<br />

103


104<br />

C.1.9 Ondorioak<br />

Objektuak Subjektuak<br />

Iturria Teknika Zuzena Onargarria Eskuratu<br />

gabe<br />

Zuzena Onargarria Eskuratu<br />

gabe<br />

c2c 0 10etik 3 2tik 1 10etik 2 0 0<br />

w2c COACH 0 1etik 1 2tik 1 Daturik ez<br />

SemCor<br />

w2c TRAIN<br />

s2semf<br />

COACH<br />

4tik 2<br />

0<br />

0<br />

1etik 1<br />

0<br />

2tik 1<br />

2tik 1 2tik 1<br />

Daturik ez<br />

0<br />

s2semf TRAIN Daturik ez<br />

w2c COACH 10etik 1 10etik 2 0 10etik 1 0 2tik 1<br />

BNC w2c TRAIN 10etik 1 10etik 2 0 10etik 1 0 2tik 1<br />

c2c 0 0 2tik 2 0 0 2tik 2<br />

EFE<br />

w2semf<br />

COACH<br />

w2semf<br />

TRAIN<br />

0<br />

0<br />

10etik 2<br />

10etik 3<br />

2tik 1<br />

0<br />

10etik 1<br />

0<br />

10etik 2<br />

10etik 2<br />

0<br />

2tik 1


C.2 entrenatu_1<br />

C.2.1 Synseta MCRn<br />

00468052v<br />

communication<br />

DOMEINUAK:<br />

lock 00468052v 1 coach_2 train_7<br />

lock 00468052v 0 entrenatu_1<br />

teach and supervise, as in<br />

sports or acting<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />

entrenatu A 00468052 pedagogy sport<br />

C.2.2 Urre patroiak<br />

entrenatu 00468052: Absolutiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities (members) considered as a<br />

unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

entrenatu 00468052: Ergatiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

entrenatu 00468052: Inesiboa<br />

c2c, w2c:<br />

00240760 sport, athletics "an active diversion requiring physical …"<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

105


106<br />

C.2.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />

entrenatu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa)<br />

abs x 8 ONARGARRIA<br />

abs number-quantity 1<br />

abs sport-person 1 ONARGARRIA<br />

abs betting-person 0.6<br />

abs factotum-group 0.5 ZUZENA<br />

abs play-person 0.3 ONARGARRIA<br />

abs military-group 0.28<br />

abs sport-group 0.21 ONARGARRIA<br />

abs zoology-group 0.14<br />

abs politics-group 0.07<br />

erg x 8 ONARGARRIA<br />

erg pro 7 ONARGARRIA<br />

ine factotum-artifact 3<br />

ine factotum-state 3<br />

ine number-quantity 1<br />

ine x 1<br />

ine time_period-time 0.6<br />

ine building_industry-artifact 0.38<br />

ine anthropology-group 0.38<br />

ine sport-person 0.33<br />

ine sociology-person 0.33<br />

ine metrology-time 0.27<br />

entrenatu.kontuakhitzak.ALL/kirolak<br />

abs x 4<br />

abs gehiegi 2<br />

abs talde 2<br />

abs entrenatzaile 1<br />

abs gutxiago 1<br />

abs beste 1<br />

abs jokalari 1<br />

abs sestao 1<br />

adb barik 1<br />

adb oso 1<br />

adj gogor 2<br />

ala katalunia 1<br />

erg pro 7<br />

erg gurrutxaga 6<br />

erg alonso 1<br />

erg x 1<br />

ine bete 6<br />

ine lau 1<br />

ine x 1<br />

ine etxe 1<br />

ine taldekide 1<br />

ine egun 1<br />

ins marko 1<br />

konp menpekoa 3<br />

soz talde 6<br />

soz taldekide 1


entrenatu: w2semf hautapen-murriztapenak (corpus osoa)<br />

kirol domeinuko corpuseko berdinak<br />

C.2.4 SemCorreko c2c euskarara itzulita<br />

coach, train 00468052: c2c objektu hautapen-murriztapenak<br />

05127029 0.269 body "a group of persons associated by some…" ONARGARRIA<br />

05149489 0.152 organization organisation "a group of people …" ONARGARRIA<br />

05206625 0.028 assembly "a group of persons gathered together for a…"<br />

05234560 0.024 audience "a gathering of spectators or listeners at a…"<br />

05288049 0.019 meeting "a formally arranged gathering"<br />

05116476 0.017 people "any group of human beings collectively" ONARGARRIA<br />

05254847 0.016 social_gathering social_affair "a gathering for the…"<br />

05216370 0.015 crowd "a large number of things or people considered…"<br />

05120211 0.012 collection aggregation accumulation assemblage<br />

05129466 0.009 kin kin_group kinship_group kindred clan tribe "group of…"<br />

coach, train 00468052: c2c subjektu hautapen-murriztapenak<br />

00004865 0.009 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.001 object physical_object "a physical entity"<br />

00012878 0.001 cognition knowledge "the psychological result of…"<br />

00018599 0.0004 communication "something that is communicated between…"<br />

05650477 0.0001 part piece "a portion of a natural object"<br />

00008030 0.0001 animal animate_being beast brute creature fauna "a living…"<br />

00017008 0.0001 group grouping "any number of entities as…" ZUZENA<br />

00013522 0.0001 feeling "the psychological feature of experiencing…"<br />

00018966 0.0001 measure quantity amount quantum "how much there is of…"<br />

03444246 0.0001 property "a basic or essential attribute shared by all…"<br />

C.2.5 SemCorreko s2semf euskarara itzulita<br />

coach 00468052: s2semf objektu hautapen-murriztapenak<br />

coach 00468052<br />

school-group 1 ONARGARRIA<br />

coach 00468052: s2semf subjektu hautapen-murriztapenak<br />

Daturik ez<br />

train 00468052: s2semf objektu hautapen-murriztapenak<br />

Daturik ez<br />

train 00468052: s2semf subjektu hautapen-murriztapenak<br />

Daturik ez<br />

107


108<br />

C.2.6 EFEko w2semf euskarara itzulita<br />

coach: w2semf objektu hautapen-murriztapenak<br />

obj x 53 ONARGARRIA<br />

obj sport-group 28.5 ONARGARRIA<br />

obj zoology-group 25<br />

obj military-group 3.5<br />

obj number-quantity 3.214<br />

obj zoology-animal 2.333<br />

obj money-quantity 2<br />

obj geography-location 1.583<br />

obj administration-location 1.583<br />

obj administration-person 1.5<br />

coach: w2semf subjektu hautapen-murriztapenak<br />

subj x 41 ONARGARRIA<br />

subj administration-group 26<br />

subj chemistry-substance 4.666<br />

subj linguistics-communication 3.166<br />

subj physics-substance 2.666<br />

subj number-quantity 2<br />

subj sport-group 2 ONARGARRIA<br />

subj zoology-group 2<br />

subj person-person 1.666 ZUZENA<br />

subj factotum-communication 1.624<br />

train: w2semf objektu hautapen-murriztapenak<br />

obj zoology-group 2<br />

obj sport-group 2 ONARGARRIA<br />

obj sport-person 1.611 ONARGARRIA<br />

obj x 1 ONARGARRIA<br />

obj time_period-time 0.5<br />

obj publishing-person 0.5<br />

obj transport-artifact 0.333<br />

obj town_planning-artifact 0.222<br />

obj metrology-time 0.2<br />

obj tourism-artifact 0.111<br />

train: w2semf subjektu hautapen-murriztapenak<br />

subj x 13 ONARGARRIA<br />

subj chemistry-substance 5<br />

subj administration-group 3<br />

subj linguistics-communication 2.666<br />

subj physics-substance 2.666<br />

subj sport-group 2.5 ONARGARRIA<br />

subj number-quantity 2.083<br />

subj zoology-group 2<br />

subj wrestling-person 1<br />

subj geography-location 0.5


C.2.7 Ondorioak<br />

Iturria Teknika Kasua Zuzena Onargarria Eskuratu<br />

gabea<br />

Egunkaria<br />

osoa<br />

Egunkaria<br />

kirolak<br />

SemCor<br />

EFE kirolak<br />

w2semf<br />

w2semf<br />

c2c<br />

s2semf<br />

w2semf COACH<br />

w2semf TRAIN<br />

abs 10etik 1 10etik 4 0<br />

ine 0 0 2tik 2<br />

erg 0 2tik 2 2tik 2<br />

abs 10etik 1 10etik 4 0<br />

ine 0 0 2tik 2<br />

erg 0 2tik 2 2tik 2<br />

obj 0 10etik 3 2tik 1<br />

subj 10etik 2 0 0<br />

obj 0 1tik 1 2tik 1<br />

Datuak coach objektuentzat bakarrik<br />

obj 0 10etik 2 2tik 1<br />

subj 10etik 1 10etik 2 0<br />

obj 0 10etik 3 0<br />

subj 0 10etik 2 2tik 1<br />

109


110<br />

C.3 draw_25 / tie_2<br />

C.3.1 Synseta MCRn<br />

00630097v<br />

competition<br />

DOMEINUAK:<br />

lock 00630097v 1 draw_25 tie_2<br />

lock 00630097v 0 berdindu_15<br />

finish a game with an equal number of<br />

points, goals, etc.; "The teams drew a tie"<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />

draw, tie A 00630097 play sport<br />

C.3.2 Urre patroiak<br />

draw, tie 00630097: objektu hautapen-murriztapenak<br />

c2c, w2c:<br />

04771851 competition contest “an occasion on which a winner is selected…”<br />

(hipe. EVENT)<br />

00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />

08310444 definite quantity “a specific measure of amount”<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

sport-event<br />

number-quantity<br />

draw, tie 00630097: subjektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities (members) considered as a<br />

unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group


C.3.3 c2c SemCorretik<br />

TROPONIMOAK ETA DOMEINUAK:<br />

s2s eta s2s-hype:<br />

OBJEKTUAK s2s:<br />

draw: Daturik ez<br />

tie 00630097<br />

game 00256308<br />

score 08319883<br />

tie


112<br />

report 04655513<br />

speaker<br />

02739473<br />

stress 08721632<br />

system 02036726<br />

tension<br />

08772413<br />

thermocouple<br />

03183875<br />

tie 02132287<br />

transducer<br />

03206888<br />

tray 03209978<br />

trial_and_error<br />

00375657<br />

trust 03883770<br />

trust 03432270<br />

values 04015667<br />

tie


C.3.4 w2c SemCorretik<br />

s2s: (ikusi B.3.3 atala)<br />

draw: w2c objektu hautapen-murriztapena<br />

00009469 0.089 object physical_object "a physical entity"<br />

00018599 0.051 communication "something that is communicated between…"<br />

00004865 0.037 person individual someone somebody mortal human soul<br />

00017586 0.028 attribute "an abstraction belonging to or characteristic…"<br />

00012878 0.028 cognition knowledge "the psychological result of…"<br />

00016649 0.023 act human_action human_activity "something that…" ONARGARRIA<br />

00017008 0.017 group grouping "any number of entities considered as a unit"<br />

00019295 0.016 phenomenon "any state or process known through the senses…"<br />

08450839 0.013 part portion component_part component<br />

draw: w2c subjektu hautapen-murriztapena<br />

00004865 0.387 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.087 object physical_object "a physical entity"<br />

09065837 0.043 time_period period period_of_time amount_of_time<br />

06365208 0.029 spirit "the vital principle or animating force within…"<br />

08551922 0.023 disturbance disruption commotion turmoil stir hurly_burly<br />

05132844 0.019 gathering assemblage "a group of persons together in one…"<br />

tie: w2c objektu hautapen-murriztapena<br />

00011607 0.155 artifact artefact "a man-made object"<br />

00228990 0.073 activity "any specific activity or pursuit;" ONARGARRIA<br />

08317731 0.068 number "a concept of quantity derived from zero and units"<br />

tie: w2c subjektu hautapen-murriztapena<br />

00017008 0.2 group grouping "any number of entities considered as…" ZUZENA<br />

00004865 0.12 person individual someone somebody mortal human soul ZUZENA<br />

09065837 0.087 time_period period period_of_time amount_of_time<br />

00075234 0.054 homer home_run "a base hit on which the batter scores a run"<br />

00009469 0.051 object physical_object "a physical entity"<br />

C.3.5 s2semf SemCorretik<br />

tie 00630097: s2semf object seletcional preferences (drawrentzat daturik ez)<br />

tie 00630097<br />

sport-quantity 1 ONARGARRIA<br />

play-act 1 ZUZENA<br />

tie 00630097: s2semf subjektu hautapen-murriztapena (drawrentzat daturik ez)<br />

tie 00630097<br />

baseball-act 1<br />

factotum-Tops 1 ONARGARRIA<br />

113


114<br />

C.3.6 w2c BNCtik<br />

draw: w2c objektu hautapen-murriztapena<br />

00009469 0.067 object physical_object "a physical entity"<br />

00004865 0.052 person individual someone somebody mortal human soul<br />

00012878 0.043 cognition knowledge "the psychological result of…"<br />

00018599 0.040 communication "something that is communicated between…"<br />

00016649 0.025 act human_action human_activity "something that…” ONARGARRIA<br />

00017586 0.025 attribute "an abstraction belonging to or characteristic…"<br />

05119847 0.022 social_group "people sharing some social relation"<br />

00018966 0.019 measure quantity amount quantum "how much there…” ONARGARRIA<br />

00015437 0.009 state "the way something is with respect to its main…"<br />

03610098 0.008 body_part "any part of an organism such as an organ or…"<br />

draw: w2c subjektu hautapen-murriztapena<br />

00004865 0.112 person individual someone somebody mortal human soul ZUZENA<br />

08813320 0.091 helium He atomic_number_2 "a very light colorless element…"<br />

00018599 0.050 communication "something that is communicated between…"<br />

00011607 0.044 artifact artefact "a man-made object"<br />

05119847 0.026 social_group "people sharing some social relation" ONARGARRIA<br />

00016649 0.021 act human_action human_activity "something that people do…"<br />

00012878 0.019 cognition knowledge "the psychological result of…"<br />

00018966 0.0157 measure quantity amount quantum "how much there is of…"<br />

00017586 0.015 attribute "an abstraction belonging to or characteristic…"<br />

00014314 0.014 location "a point or extent in space"<br />

tie: w2c objektu hautapen-murriztapena<br />

00009469 0.098 object physical_object "a physical entity"<br />

00004865 0.082 person individual someone somebody mortal human soul<br />

00017008 0.026 group grouping "any number of entities considered as a unit"<br />

00012670 0.024 abstraction "a general concept formed by…” ONARGARRIA<br />

00016649 0.015 act human_action human_activity ONARGARRIA<br />

03815161 0.014 finger "any of the terminal members of the hand…"<br />

00012878 0.011 cognition knowledge "the psychological result of…"<br />

00015437 0.011 state "the way something is with respect to its main…"<br />

00017394 0.008 possession "anything owned or possessed"<br />

04690182 0.008 happening occurrence natural_event "an event that happens"<br />

tie: w2c subjektu hautapen-murriztapena<br />

00004865 0.114 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.074object physical_object "a physical entity"<br />

05119847 0.0309 social_group "people sharing some social… " ONARGARRIA<br />

00012670 0.023 abstraction "a general concept formed by extracting common…"<br />

00016649 0.0209 act human_action human_activity "something that people do…"<br />

00012878 0.017 cognition knowledge "the psychological result of…"<br />

03610098 0.012 body_part "any part of an organism such as an organ or…"<br />

01237932 0.010 placental placental_mammal eutherian eutherian_mammal…"<br />

00015437 0.010 state "the way something is with respect to its main…"<br />

05120211 0.007 collection aggregation accumulation assemblage


115<br />

w2w:<br />

draw: w2w objektuak<br />

-_then<br />

20_per_cent<br />

ACET<br />

AD<br />

After<br />

And<br />

And_John_Henry<br />

As<br />

Ascendancy<br />

Asian_country<br />

Attention<br />

Australian_dollar<br />

Birmingham<br />

Britain<br />

But<br />

By_1981<br />

Congregational_Chur<br />

ch<br />

Conservative<br />

Despite<br />

Dick_Hern<br />

Elder<br />

Elisabeth<br />

Ellen<br />

Emily<br />

Emperor<br />

England<br />

Eurocrats<br />

FD<br />

FQP<br />

German<br />

Giselle<br />

Great<br />

H<br />

He<br />

I<br />

Inspiration<br />

Irishman<br />

It<br />

LLANELLI<br />

Labour<br />

Levi<br />

Lise<br />

London<br />

Lotus<br />

MONEY<br />

Margarete<br />

Marx<br />

Metge<br />

Mickey_Mice<br />

Mickey_mouse<br />

Mid-Term_Wave<br />

Miles<br />

Noble<br />

One<br />

Over<br />

Pam_Harris<br />

Party<br />

Pound<br />

RRF<br />

Red_Paddy<br />

Ridley<br />

Royal_Court<br />

Sammut<br />

Santander<br />

Sarapu<br />

She<br />

Since<br />

Spitfire<br />

Taylor<br />

The_Deterrers<br />

They<br />

Though<br />

US<br />

Unfortunately<br />

Walton<br />

Water<br />

We<br />

West<br />

While<br />

With<br />

Wright<br />

adviser<br />

aeroplane<br />

agreement<br />

air<br />

amount<br />

analogy<br />

anything<br />

applause<br />

appointment<br />

arc<br />

arm<br />

arms<br />

attendance<br />

attention<br />

audience<br />

back<br />

bait<br />

ball<br />

ballet<br />

baton<br />

battle_line<br />

bedclothes<br />

beer<br />

behaviour<br />

bend<br />

black<br />

blank<br />

blanket<br />

blind<br />

block<br />

blood<br />

board_of_directors<br />

boat<br />

body<br />

book<br />

border<br />

boundary<br />

box<br />

breath<br />

brow<br />

brush<br />

car<br />

cartoon<br />

case<br />

cast<br />

category<br />

catenary<br />

cellulose<br />

centred<br />

chair<br />

character<br />

charter<br />

child<br />

circle<br />

claw<br />

club<br />

code<br />

coercion<br />

coin<br />

comfort<br />

commentator<br />

comparison<br />

competition<br />

conchoid<br />

conchoids<br />

connection<br />

consequence<br />

consolation<br />

contest<br />

contrast<br />

convenors<br />

countryside<br />

crowd<br />

currency<br />

curtain<br />

debate<br />

decorator_-_at<br />

description<br />

details<br />

development<br />

diagram<br />

distinction


116<br />

dividing_line<br />

division<br />

door<br />

draft<br />

draw<br />

duct<br />

due<br />

economist<br />

edge<br />

eighth<br />

elements<br />

ellipse<br />

encouragement<br />

endgame<br />

energy<br />

entry<br />

essay<br />

ethic<br />

ex-employees<br />

example<br />

exchange<br />

explosive<br />

expression<br />

eye<br />

eyes<br />

face<br />

fan<br />

fee<br />

fiddle<br />

fieldwork<br />

fighter<br />

figure<br />

file<br />

filly<br />

final<br />

finger<br />

fingertip<br />

fire<br />

first<br />

flag<br />

flesh<br />

flood<br />

fold<br />

foot<br />

footballer<br />

force<br />

form<br />

forth<br />

fragment<br />

frontier<br />

gale<br />

game<br />

good-standing<br />

graffiti<br />

graph<br />

group<br />

gun<br />

hair<br />

handkerchief<br />

he<br />

head<br />

heart<br />

hem<br />

her<br />

herself<br />

him<br />

himself<br />

his<br />

hole<br />

horde<br />

horn<br />

house<br />

housewife<br />

howl<br />

hyperbola<br />

image<br />

immigrant<br />

impression<br />

income<br />

industry<br />

innocent<br />

inspiration<br />

investment<br />

it<br />

item<br />

itself<br />

juice<br />

kit<br />

knife<br />

labour<br />

land_reform<br />

laughter<br />

leadership<br />

leg<br />

lesson<br />

level<br />

life<br />

line<br />

lip<br />

list<br />

local<br />

look<br />

lot<br />

lots<br />

lung<br />

man<br />

map<br />

match<br />

material<br />

matter<br />

me<br />

meaning<br />

measure<br />

meat<br />

member<br />

membership<br />

memorandum<br />

midge<br />

minority<br />

mix<br />

money<br />

moral<br />

mould<br />

moustache<br />

mouth<br />

movement<br />

moving_picture<br />

myself<br />

neck<br />

newcomer<br />

noodle<br />

note<br />

number<br />

object<br />

odds<br />

officer<br />

official<br />

opposition<br />

ordeal<br />

outer_boundary<br />

outline<br />

packet<br />

pad<br />

painter<br />

parabola<br />

parallel<br />

part<br />

party<br />

passenger<br />

peg<br />

pencil<br />

people<br />

performance<br />

petition<br />

philosophy<br />

pick<br />

picture<br />

piece<br />

place<br />

playing<br />

pleasure<br />

plough<br />

point<br />

pole<br />

polymer<br />

population<br />

portrait<br />

praise


117<br />

presence<br />

pressure_-_produced<br />

prick<br />

principal<br />

proceedings<br />

product<br />

profile<br />

program<br />

programme<br />

protest<br />

public<br />

punch<br />

quadrant<br />

rabbit<br />

range<br />

rank<br />

rationale<br />

reader<br />

rectangle<br />

relationship<br />

remains<br />

remittance<br />

rent<br />

reprimand<br />

reservoir<br />

resonance<br />

rest<br />

retort<br />

rifle<br />

right_hand<br />

riot-cladding<br />

rival<br />

rod<br />

rope<br />

rubber_stamp<br />

sabre<br />

salary<br />

sample<br />

satisfaction<br />

save<br />

scarf<br />

scheme<br />

school<br />

screen<br />

self-portrait<br />

semicircle.<br />

series<br />

session<br />

set<br />

shape<br />

she<br />

ship<br />

shopper<br />

short_list<br />

shot<br />

shoulder<br />

showing<br />

shutter<br />

side<br />

single<br />

sitter<br />

size<br />

sketch<br />

skill<br />

sleeve<br />

smooth<br />

society<br />

something<br />

song<br />

soul<br />

spitfire<br />

sports_fan<br />

staff<br />

star_chart<br />

station<br />

sting<br />

story<br />

straight<br />

straight_line<br />

straw<br />

stream<br />

strength<br />

string<br />

structure<br />

student<br />

stump<br />

subject<br />

support<br />

sustenance<br />

sword<br />

sword/phallus<br />

talent<br />

tangent<br />

team<br />

teeth<br />

them<br />

these<br />

they<br />

this<br />

thread<br />

to_be<br />

tourist<br />

tractrix<br />

trade_union<br />

tradition<br />

tree<br />

triangle<br />

troops<br />

trump<br />

typewriter<br />

union<br />

us<br />

veil<br />

viewer<br />

vigour<br />

vision<br />

visitor<br />

wage<br />

water<br />

we<br />

wealth<br />

wedding<br />

weight<br />

well<br />

what<br />

which<br />

whip<br />

who<br />

whole<br />

window<br />

wine<br />

winner<br />

wire<br />

woman<br />

wood<br />

work<br />

worker<br />

wrath<br />

writer<br />

you<br />

young_man<br />

zone<br />

draw: w2w subjektuak<br />

Albrecht<br />

Allen<br />

America<br />

And<br />

Andrew_Jones<br />

Angela_Morgan<br />

Annie<br />

Art<br />

As<br />

As_Christmas<br />

Beeching<br />

Bell<br />

Bengal<br />

Berkeley<br />

Brazil<br />

Browning<br />

Buick<br />

But<br />

Castro<br />

Chancellor<br />

Chandler<br />

Charles<br />

Charlotte_Bronte<br />

Chris_Patten


118<br />

Clarke<br />

Clay<br />

Colberg<br />

Conlon<br />

Contrary<br />

Cooney<br />

Count_Tolstoy<br />

County<br />

Coventry<br />

Cradley<br />

Critics<br />

D<br />

Data<br />

Demobilization<br />

Derby<br />

Dixon<br />

ENGLAND<br />

Eagles<br />

East_Berlin<br />

Eintracht_Frankfurt<br />

Eliot<br />

Erika<br />

Europe<br />

Evelyn<br />

Even<br />

Everton<br />

Eyre<br />

Fifties<br />

Fisher<br />

Ford<br />

Gaminara<br />

Gassendi<br />

General_Council<br />

Gloucester<br />

Goldberg<br />

Greenpeace<br />

Halifax<br />

Hall<br />

Hartlepool<br />

Hauptmann<br />

Having<br />

He<br />

Heatpipes<br />

Henderson<br />

Here_Locke<br />

Highlander<br />

Hong_Kong_Chinese<br />

I<br />

IM_Gelfer<br />

IM_Svidler<br />

Inland_Revenue<br />

It<br />

Italian<br />

Ivor_Crewe<br />

Jay<br />

John_Wesley<br />

Joy<br />

Kingdon<br />

Kinnock<br />

Law<br />

Lean<br />

Lee<br />

Leicester<br />

Leona_Helmsley<br />

Lewis<br />

Life<br />

Littlewoods<br />

Lucy<br />

Maidenhead<br />

Major<br />

Manzano<br />

Mark_Ermler<br />

Marx<br />

Masha<br />

McLeish<br />

Michael_Heseltine<br />

Milena_Jesenska<br />

Miss_Harker<br />

Miss_Lawley<br />

Mr_Loveluck-Edwards<br />

Mrs_Feather<br />

Mrs_Venables<br />

Much<br />

Mukddaam<br />

Mum<br />

Mungo<br />

Murdoch<br />

No_25303<br />

Noble<br />

Nobody<br />

Nostalgia<br />

Nyers<br />

Odette<br />

Officer<br />

Ogilvy<br />

Orpheus<br />

Our_Dean<br />

Oxford<br />

Paul_Cannon<br />

Perhaps<br />

Philip_Williams<br />

Pilkington<br />

Pope<br />

Portsmouth<br />

President<br />

Prince<br />

Reynard<br />

Rogers<br />

STEVE_DAVIS<br />

Sam<br />

Scots_Presbyterians<br />

Sergei<br />

She<br />

Shirli-Ann_Siddall<br />

Sian_Edwards<br />

Siren<br />

Small<br />

So<br />

Some<br />

State<br />

Steinberg<br />

Stephen_Greenblatt<br />

Steve_Dawson<br />

Supreme_Court<br />

Swede<br />

THINKING<br />

Test<br />

Thatcherism<br />

The_Dutch<br />

The_Four_Just_Men<br />

The_National<br />

The_Vichy_French<br />

They<br />

This<br />

Timman<br />

To<br />

Tony<br />

Tottenham<br />

Travers<br />

Universities<br />

University<br />

Vic<br />

Vincent_Taylor<br />

Walton<br />

Watford<br />

We<br />

When<br />

Willey<br />

Wilson<br />

World_Cup<br />

Wycombe<br />

Yeltsin<br />

Yet<br />

You<br />

abductees<br />

action<br />

admirer<br />

advertising<br />

advertising_campaign<br />

adviser<br />

another<br />

apology<br />

appearance<br />

area<br />

armistice<br />

arts<br />

aspect<br />

assortment


119<br />

astronomer<br />

attention<br />

availability<br />

bankers_-_who<br />

basketball<br />

beauty<br />

best<br />

bit<br />

book<br />

box_office<br />

boy<br />

broadcast<br />

cadre<br />

camera<br />

captain<br />

car<br />

carp<br />

carriage<br />

cellist<br />

century<br />

chair<br />

change<br />

chemist<br />

child<br />

circle<br />

circumstances<br />

closure<br />

club<br />

coin<br />

cold<br />

collapse<br />

commentator<br />

committee<br />

competition<br />

confusion<br />

conjuror<br />

constituency<br />

country<br />

courtesy<br />

crate<br />

creed<br />

critic<br />

critique<br />

crowd<br />

curtain<br />

curve<br />

customer<br />

dancer<br />

dead_body<br />

delicacy<br />

department<br />

deportation<br />

design<br />

designer<br />

detective<br />

director<br />

discontinuity<br />

discussion<br />

dish<br />

distinction<br />

document<br />

dog<br />

dolphin<br />

driver<br />

duty<br />

economy<br />

editorial<br />

egotism<br />

election<br />

elements<br />

enigma<br />

enrichment<br />

enthusiasm<br />

entry<br />

event<br />

exhibition<br />

exploiting<br />

express<br />

extension<br />

fan<br />

farmer<br />

feel<br />

feminist<br />

fiasco<br />

film<br />

filmmakers<br />

final<br />

fineness<br />

fire<br />

flexion<br />

follow-up<br />

foot<br />

forum<br />

function<br />

gait<br />

game<br />

girl<br />

god<br />

government<br />

group<br />

guard<br />

hand<br />

he<br />

header<br />

him<br />

himself<br />

history<br />

hood<br />

horse<br />

house<br />

iconography<br />

image<br />

impact<br />

incident<br />

influence<br />

inquiry<br />

instance<br />

intelligence<br />

interest<br />

it<br />

itself<br />

joke<br />

kingdom<br />

kitchen<br />

labour<br />

latter<br />

law<br />

lead<br />

leader<br />

leadership<br />

leap<br />

lecture<br />

lesson<br />

letter<br />

life<br />

line<br />

lip<br />

list<br />

logic<br />

man<br />

market<br />

match<br />

me<br />

measurement<br />

meeting<br />

member<br />

men's<br />

mind<br />

minuet<br />

model<br />

modern<br />

moment<br />

moth<br />

moving_picture<br />

muscle<br />

neck<br />

new_criticism<br />

ninth<br />

novel<br />

officer<br />

ones<br />

opening<br />

opponent<br />

others<br />

pad<br />

panel<br />

parable<br />

parallel


120<br />

participant<br />

party<br />

performance<br />

performer<br />

play<br />

pleasure<br />

poet<br />

point<br />

policy<br />

precedent<br />

precept<br />

president<br />

press<br />

pressure_group<br />

producer<br />

profile<br />

project<br />

proportion<br />

prospect<br />

public<br />

pump<br />

quarterfinal<br />

race<br />

recession<br />

record<br />

red<br />

reporter<br />

representative<br />

rite<br />

roar<br />

scene<br />

school<br />

sculpture<br />

seedling<br />

semifinal<br />

she<br />

side<br />

simpleton<br />

singles<br />

smoke<br />

society<br />

solicitor<br />

someone<br />

speaker<br />

speed<br />

squirrel<br />

stalwart<br />

story<br />

straight<br />

string<br />

study<br />

stuffing<br />

suffering<br />

support<br />

surface_tension<br />

swinger<br />

takeover<br />

tan<br />

taxpayer<br />

team<br />

tension<br />

tent_flap<br />

term<br />

that<br />

them<br />

they<br />

this<br />

those<br />

time<br />

trailer<br />

train<br />

trouble<br />

twig<br />

typification<br />

uncertainty<br />

union<br />

unit<br />

urn<br />

variety<br />

visit<br />

visitor<br />

water<br />

we<br />

what<br />

which<br />

which_the_historica<br />

l_development_of_th<br />

e_law<br />

whiff<br />

white<br />

who<br />

winner<br />

woman<br />

word<br />

worker<br />

workshop<br />

world<br />

yard<br />

you<br />

tie: w2w objektuak<br />

Alps<br />

And<br />

Chris_Pitt<br />

Let<br />

Lovat<br />

Michael<br />

Provolone<br />

Short<br />

While<br />

abolition<br />

apron<br />

baby<br />

bag<br />

blackboard<br />

churchmen<br />

class<br />

control<br />

cord<br />

cottage<br />

cotton<br />

employee<br />

estate<br />

facility<br />

family_unit<br />

felt_hat<br />

finger<br />

flutter<br />

front<br />

game<br />

gypsy-fashion<br />

hair<br />

hand<br />

handful<br />

her<br />

him<br />

horse<br />

housecoat<br />

it<br />

itself<br />

knot<br />

krone<br />

lace<br />

legal_profession<br />

leitmotif<br />

length<br />

life<br />

make<br />

music<br />

opponent<br />

package<br />

party<br />

people<br />

pinafore<br />

player<br />

playoff<br />

pool<br />

punk-pop<br />

religion<br />

ribbon<br />

rope<br />

sack<br />

scene<br />

score<br />

sector<br />

service<br />

she<br />

sheaf


121<br />

shirt<br />

shoe_lace<br />

shoot<br />

side<br />

status<br />

sterling<br />

stone<br />

strand<br />

string<br />

studio<br />

survey<br />

them<br />

themselves<br />

they<br />

this<br />

thread<br />

thumb<br />

tongue<br />

top<br />

type<br />

v<br />

whatsoever<br />

which<br />

white_flag<br />

worker<br />

you<br />

tie: w2w subjektuak<br />

-_are<br />

After<br />

Brent_Walker<br />

Buddie<br />

But<br />

David_Plange<br />

Designer<br />

Even<br />

Faldo<br />

Gloria<br />

Hands<br />

Hawks<br />

He<br />

I<br />

If_Midland<br />

It<br />

Joshua_Kangombe<br />

Just<br />

Kaifu<br />

Lane<br />

Lise<br />

Norway<br />

Odd-Knut<br />

Pucci<br />

Rose<br />

Rugeley_MG_All_Star<br />

s<br />

She<br />

Short<br />

Southampton<br />

Soviet_Union<br />

They<br />

Watney_Truman<br />

We<br />

Wrap<br />

Zoeller<br />

anything<br />

approach<br />

bag<br />

balloon<br />

bout<br />

brewery<br />

broker<br />

business<br />

challenge<br />

chancellor<br />

choice<br />

colleague<br />

colonial<br />

community<br />

court<br />

design<br />

eagle<br />

end<br />

engine<br />

face<br />

family<br />

fashions<br />

flatfoot<br />

gentlemen<br />

hand<br />

he<br />

healer<br />

her<br />

himself<br />

history<br />

leather<br />

leg<br />

link<br />

nanny<br />

natural<br />

nothing<br />

party<br />

piece<br />

player<br />

predominance<br />

pub<br />

quarterfinal<br />

red<br />

retriever<br />

rootstock<br />

row<br />

saffron<br />

scarf<br />

sector<br />

self-dramatisation<br />

set<br />

she<br />

sheaf<br />

sorting<br />

stammer<br />

stay<br />

string<br />

system<br />

talking_head<br />

that<br />

they<br />

this<br />

those<br />

ti<br />

try<br />

tyranny<br />

umbilical_cord<br />

value<br />

version<br />

visitor<br />

we<br />

weakening<br />

what<br />

which<br />

who<br />

you


122<br />

C.3.7 c2c BNCtik<br />

Denak ez zuzenak dira.<br />

draw, tie 00630097: c2c objektu hautapen-murriztapena<br />

08813320 0.015 helium He atomic_number_2<br />

08534455 0.007 status position "the relative position or standing of…"<br />

08520394 0.006 condition status "a condition or state at a particular time"<br />

08781633 0.002 material stuff "the tangible substance that goes into the…"<br />

08531278 0.001 degree level stage point "a specific identifiable position…"<br />

00015245 0.001 space "an empty area (usually bounded in some way between…)"<br />

09065837 0.001 time_period period period_of_time amount_of_time<br />

09170951 0.001 time_interval interval "a definite length of time marked…"<br />

draw, tie 00630097: c2c subjektu hautapen-murriztapena<br />

08813320 0.087 helium He atomic_number_2<br />

08520394 0.007 condition status "a condition or state at a particular time"<br />

08499179 0.004 angle "the space between two lines or planes that…"<br />

08865432 0.002 leather "an animal skin made smooth and flexible by…”<br />

09065837 0.002 time_period period period_of_time amount_of_time<br />

08534455 0.002 status position "the relative position or standing of…"<br />

08807415 0.001metallic_element metal "any of several chemical elements…"<br />

08522741 0.001 situation state_of_affairs "the general state of things"<br />

08531636 0.001 acme height elevation peak pinnacle summit superlative top<br />

C.3.8 w2semf EFEtik<br />

draw: w2semf objektu hautapen-murriztapena<br />

obj tourism-time 3<br />

obj factotum-group 2.166<br />

obj time_period-time 2.111<br />

obj number-quantity 1.309 ZUZENA<br />

obj enterprise-cognition 1<br />

obj factotum-artifact 0.952<br />

obj quality-attribute 0.8333<br />

obj factotum-event 0.611 ONARGARRIA<br />

obj geography-location 0.5<br />

obj furniture-artifact 0.476<br />

draw: w2semf subjektu hautapen-murriztapena<br />

subj number-quantity 3<br />

subj x 1 ONARGARRIA<br />

subj time_period-time 1<br />

subj basketball-group 1 ONARGARRIA<br />

subj sport-act 1<br />

subj quality-attribute 0.541<br />

subj sport-event 0.428<br />

subj factotum-artifact 0.428<br />

subj factotum-act 0.410<br />

subj metrology-quantity 0.4


tie: w2semf objektu hautapen-murriztapena<br />

obj x 42<br />

obj play-act 11.2 ZUZENA<br />

obj number-quantity 10 ZUZENA<br />

obj geography-location 8.811<br />

obj administration-location 8.811<br />

obj sport-act 6.543 ZUZENA<br />

obj factotum-act 5.725 ONARGARRIA<br />

obj zoology-animal 5.725<br />

obj sport-group 4<br />

obj factotum-artifact 3.553<br />

tie: w2semf subjektu hautapen-murriztapena<br />

subj x 98 ONARGARRIA<br />

subj geography-location 7.233<br />

subj administration-location 7.133<br />

subj sport-group 6 ONARGARRIA<br />

subj zoology-group 5.5<br />

subj person-person 3.333 ZUZENA<br />

subj factotum-communication 2.555<br />

subj telephony-artifac 2<br />

subj administration-group 2<br />

subj time_period-time 1.666<br />

C.3.9 Ondorioak<br />

Iturria Teknika Zuzena Onargarria<br />

SemCor<br />

BNC<br />

EFE<br />

Objektuak Subjektuak<br />

Ez<br />

eskuratua<br />

Zuzena Onargarria<br />

Ez<br />

eskuratu<br />

a<br />

c2c 0 10etik 5 3tik 1 10etik 2 0 0<br />

w2c DRAW 0 9tik 1 3tik 2 6tik 1 0 2tik 1<br />

w2c TIE 0 3tik 1 3tik 2 5etik 2 0 0<br />

s2semf TIE 2tik 1 2tik 1 4tik 3 0 2tik 1 2tik 2<br />

s2semf<br />

DRAW<br />

Daturik ez<br />

w2c DRAW 0 10etik 2 3tik 1 10etik 1 10etik 1 0<br />

w2c TIE 0 10etik 2 3tik 1 10etik 1 10etik 1 0<br />

c2c 0 0 3tik 3 0 0 2tik 2<br />

w2semf<br />

DRAW<br />

10etik 1 10etik 1 4tik 2 0 10etik 2 2tik 1<br />

w2semf TIE 10etik 3 10etik 1 4tik 1 10etik 1 10etik 2 0<br />

123


124<br />

C.4 berdindu_15<br />

C.4.1 Synseta MCRn<br />

00630097v<br />

competition<br />

DOMEINUAK:<br />

C.4.2 Urre patroiak<br />

lock 00630097v 1 draw_25 tie_2<br />

lock 00630097v 0 berdindu_15<br />

finish a game with an equal number of points,<br />

goals, etc.; "The teams drew a tie"<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />

berdindu A 00630097 play sport<br />

berdindu 00630097: Absolutiboa<br />

c2c, w2c:<br />

04771851 competition contest “an occasion on which a winner is selected<br />

from among two or contestants” (hipe. EVENT)<br />

00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />

08310444 definite quantity “a specific measure of amount”<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

sport-event<br />

number-quantity<br />

berdindu 00630097: Ergatiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group


C.4.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />

berdindu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa eta corpus_osoa)<br />

ABSdu<br />

abs sport-event 1.25 ZUZENA<br />

abs 0 1<br />

abs number-quantity 1 ZUZENA<br />

abs factotum-act 0.25 ONARGARRIA<br />

abs play-act 0.25 ZUZENA<br />

abs baseball-act 0.25 ONARGARRIA<br />

en_kontra x 1<br />

ine factotum-act 0.30<br />

ine factotum-communication 0.15<br />

ine factotum-state 0.15<br />

ine factotum-event 0.15<br />

ine number-cognition 0.07<br />

ine time_period-time 0.07<br />

ine factotum-location 0.07<br />

erg pro 1 ONARGARRIA<br />

erg x 1 ONARGARRIA<br />

berdindu.kontuakhitzak.ALL/kirolak:<br />

abs egoera 2<br />

abs 0 1<br />

abs kanporaketa 1<br />

abs hamabi 1<br />

abs final 1<br />

abs x 1<br />

abs indar 1<br />

ala puntu 1<br />

en_kontra x 1<br />

erg pro 1<br />

erg fernando 1<br />

ine bukaera 1<br />

ine arte 1<br />

C.4.4 SemCorreko c2c euskarara itzulita<br />

berdindu 00630097: c2c objektu hautapen-murriztapena<br />

00228990 0.551 activity "any specific activity or pursuit" ONARGARRIA<br />

08317731 0.512 number "a concept of quantity derived from zero…" ONARGARRIA<br />

09065837 0.227 time_period period period_of_time amount_of_time<br />

08313335 0.142 unit_of_measurement unit "any division of …” ONARGARRIA<br />

00017862 0.097 relation "an abstraction belonging to or characteristic of…"<br />

00021098 0.093 action "something done (usually as opposed to …)" ONARGARRIA<br />

00017586 0.086 attribute "an abstraction belonging to or characteristic…"<br />

00597858 0.054 group_action "action taken by a group of…" ONARGARRIA<br />

08310433 0.0281 indefinite_quantity "an estimated quantity"<br />

04625000 0.0214 speech_act "the use of language to perform some act"<br />

125


126<br />

berdindu 00630097: c2c subjektu hautapen-murriztapena<br />

00017008 1.503 group grouping "any number of entities considered…" ZUZENA<br />

00075234 0.412 homer home_run "a base hit on which the batter scores a run"<br />

00108829 0.102 change "the act of changing something"<br />

00228990 0.1002 activity "any specific activity or pursuit"<br />

00041613 0.038 acquiring getting "the act of acquiring something"<br />

00597858 0.0309 group_action "action taken by a group of people"<br />

00033173 0.027 attainment "the act of achieving an aim"<br />

04625000 0.012 speech_act "the use of language to perform some act"<br />

00071682 0.00646357963431988 base_on_balls walk pass<br />

00004865 0.005 person individual someone somebody mortal human soul ZUZENA<br />

C.4.5 SemCorreko s2semf euskarara itzulita<br />

berdindu 00630097: s2semf object seletcional preferences<br />

tie 00630097<br />

sport-quantity 1 ONARGARRIA<br />

play-act 1 ZUZENA<br />

berdindu 00630097: s2semf subjektu hautapen-murriztapena<br />

tie 00630097<br />

baseball-act 1<br />

factotum-Tops 1 ONARGARRIA<br />

C.4.6 EFEko w2semf euskarara itzulita<br />

draw: w2semf objektu hautapen-murriztapena<br />

obj tourism-time 3<br />

obj factotum-group 2.166<br />

obj time_period-time 2.111<br />

obj number-quantity 1.309 ZUZENA<br />

obj enterprise-cognition 1<br />

obj factotum-artifact 0.952<br />

obj quality-attribute 0.8333<br />

obj factotum-event 0.611 ONARGARRIA<br />

obj geography-location 0.5<br />

obj furniture-artifact 0.476<br />

draw: w2semf subjektu hautapen-murriztapena<br />

subj number-quantity 3<br />

subj x 1 ONARGARRIA<br />

subj time_period-time 1<br />

subj basketball-group 1 ONARGARRIA<br />

subj sport-act 1<br />

subj quality-attribute 0.541<br />

subj sport-event 0.428<br />

subj factotum-artifact 0.428<br />

subj factotum-act 0.410<br />

subj metrology-quantity 0.4


tie: w2semf objektu hautapen-murriztapena<br />

obj x 2<br />

obj play-act 1.2 ZUZENA<br />

obj number-quantity 0 ZUZENA<br />

obj geography-location 8.811<br />

obj administration-location 8.811<br />

obj sport-act 6.543 ZUZENA<br />

obj factotum-act 5.725 ONARGARRIA<br />

obj zoology-animal 5.725<br />

obj sport-group 4<br />

obj factotum-artifact 3.553<br />

tie: w2semf subjektu hautapen-murriztapena<br />

subj x 98 ONARGARRIA<br />

subj geography-location 7.233<br />

subj administration-location 7.133<br />

subj sport-group 6 ONARGARRIA<br />

subj zoology-group 5.5<br />

subj person-person 3.333 ZUZENA<br />

subj factotum-communication 2.555<br />

subj telephony-artifact 2<br />

subj administration-group 2<br />

subj time_period-time 1.666<br />

C.4.7 Ondorioak<br />

Iturria Teknika Kasua Zuzena Onargarria<br />

Eskuratu<br />

gabe<br />

Egunkaria<br />

osoa<br />

w2semf<br />

abs<br />

erg<br />

6tik 3<br />

0<br />

6tik 2<br />

2tik 2<br />

0<br />

2tik 2<br />

Egunkaria<br />

kirolak<br />

w2semf<br />

abs<br />

erg<br />

6tik 3<br />

0<br />

6tik 2<br />

2tik 2<br />

0<br />

2tik 2<br />

c2c<br />

SemCor<br />

s2semf TIE<br />

obj<br />

subj<br />

obj<br />

subj<br />

0<br />

10etik 2<br />

2tik 1<br />

0<br />

10etik 5<br />

0<br />

2tik 1<br />

2tik 1<br />

3tik 1<br />

0<br />

4tik 3<br />

2tik 2<br />

w2semf obj 10etik 1 10etik 1 4tik 2<br />

EFE kirolak<br />

DRAW<br />

w2semf TIE<br />

subj<br />

obj<br />

subj<br />

0<br />

10etik 3<br />

10etik 1<br />

10etik 2<br />

10etik 1<br />

10etik 2<br />

2tik 1<br />

4tik 1<br />

0<br />

127


128<br />

C.5 equalize_1<br />

C.5.1 Synseta MCRn<br />

DOMEINUAK:<br />

C.5.2 Urre patroiak<br />

00630264v<br />

competition<br />

lock 00630264v 1 equalize_1 get_even_1<br />

lock 00630264v 0 berdindu_16<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />

equalize A 00630264 play sport<br />

equalize 00630264: objektu hautapen-murriztapenak<br />

c2c, w2c:<br />

04771851 competition contest “an occasion on which a winner is selected…”<br />

(hipe. EVENT)<br />

00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />

08310444 definite quantity “a specific measure of amount”<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

sport-event<br />

number-quantity<br />

equalize 00630264: subjektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

C.5.3 c2c SemCorretik<br />

s2s eta s2s-hype: Daturik ez<br />

TROPONIMOAK ETA DOMEINUAK: Daturik ez<br />

train: Daturik ez


equalize 00630264: c2c objektu hautapen-murriztapenak<br />

00020244 0.004 deed feat effort exploit "a notable achievement"<br />

00004865 0.003 person individual someone somebody mortal human soul<br />

08405716 0.003 integer whole_number "any of the natural numbers or zero"<br />

00017008 0.002 group grouping "any number of entities considered as a unit"<br />

08325457 0.001 linear_unit "a unit of measurement of length"<br />

00033585 0.001 success "an attainment that is successful"<br />

00009469 0.0009 object physical_object "a physical entity"<br />

08320927 0.0005 record "the number of wins versus losses and ties a team…"<br />

equalize 00630264: c2c subjektu hautapen-murriztapenak<br />

00004865 0.018 person individual someone somebody mortal human soul ZUZENA<br />

00017008 0.007 group grouping "any number of entities as…" ZUZENA<br />

00009469 0.003 object physical_object "a physical entity"<br />

C.5.4 w2c SemCorretik<br />

s2s: Daturik ez<br />

equalize/get even: w2c objektu hautapen-murriztapenak<br />

Daturik ez<br />

equalize/get even: w2c subjektu hautapen-murriztapenak<br />

Daturik ez<br />

C.5.5 s2semf SemCorretik<br />

equalize/get even: s2semf objektu hautapen-murriztapenak<br />

Daturik ez<br />

equalize/get even: s2semf subjektu hautapen-murriztapenak<br />

Daturik ez<br />

C.5.6 w2c BNCtik<br />

equalize/get even: w2c objektu hautapen-murriztapenak<br />

Daturik ez<br />

w2w: Daturik ez get_evenentzat<br />

equalize: w2w objektuak<br />

equalize<br />

wth.???<br />

equalize: w2w subjektuak<br />

equalize<br />

above/Would???<br />

129


130<br />

C.5.7 c2c BNCtik<br />

Daturik ez get_evenentzat<br />

Denak ez zuzenak.<br />

equalize 00630264 : c2c objektu hautapen-murriztapenak<br />

08520394 4.903e-06 condition status "a condition or state at a particular…"<br />

09065837 3.583e-06 time_period period period_of_time amount_of_time<br />

08534455 2.462e-06 status position "the relative position or standing of…”<br />

08745609 2.414e-06 opportunity chance "a possibility due to a favorable…"<br />

08813320 1.960e-06 helium He atomic_number_2<br />

08522741 9.253e-07 situation state_of_affairs "the general state of…”<br />

08744574 6.788e-07 potential potentiality potency "the inherent capacity…"<br />

08781633 6.570e-07 material stuff "the tangible substance that goes into…”<br />

08523811 6.182e-07 relationship "a state involving mutual dealings…"<br />

equalize 00630264 : c2c subjektu hautapen-murriztapenak<br />

08813320 0.0001 helium He atomic_number_2<br />

09065837 2.006e-06 time_period period period_of_time amount_of_time<br />

08520394 1.734e-06 condition status "a condition or state at a particular…"<br />

08807415 1.208e-06 metallic_element metal "any of several chemical…”<br />

08534455 8.005e-07 status position "the relative position or standing of…"<br />

08524514 6.994e-07 company comradeship companionship good_fellowship…"<br />

08781633 6.355e-07 material stuff "the tangible substance that goes into…"<br />

08522741 5.803e-07 situation state_of_affairs "the general state of…"<br />

08745609 4.672e-07 opportunity chance "a possibility due to a favorable…"<br />

09069911 4.522e-07 now "the momentary present"<br />

C.5.8 w2semf EFEtik<br />

equalize: w2semf objektu hautapen-murriztapenak<br />

obj factotum-artifact 0.28<br />

obj factotum-cognition 0.14<br />

obj sport-event 0.14 ZUZENA<br />

obj sociology-group 0.14<br />

obj anthropology-group 0.14<br />

obj history-person 0.14<br />

equalize: w2semf subjektu hautapen-murriztapenak<br />

subj x 1 ONARGARRIA<br />

subj geography-location 1<br />

subj administration-location 1<br />

get_evenentzat daturik ez


C.5.9 Ondorioak<br />

Iturria Teknika Zuzena Onargarria Eskuratu<br />

gabe<br />

SemC<br />

or<br />

BNC<br />

EFE<br />

Objektuak Subjektuak<br />

Zuzena Onargarria Eskuratu<br />

gabe<br />

c2c 0 0 3tik 3 3tik 2 0 0<br />

w2c Daturik ez<br />

s2semf Daturik ez<br />

w2c Daturik ez<br />

c2c 0 0 3tik 3 0 0 2tik 2<br />

w2semf<br />

EQUALIZE 6tik 1 0 4tik 3 0 3tik 1 2tik 2<br />

w2semf<br />

GET EVEN<br />

Daturik ez<br />

131


132<br />

C.6 berdindu_16<br />

C.6.1 Synseta MCRn<br />

DOMEINUAK:<br />

00630264v<br />

competition<br />

lock 00630264v 1 equalize_1 get_even_1<br />

lock 00630264v 0 berdindu_16<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />

berdindu A 00630097 play sport<br />

C.6.2 Urre patroiak<br />

berdindu 00630097: Absolutiboa<br />

c2c, w2c:<br />

04771851 competition contest “an occasion on which a winner is selected…”<br />

(hipe. EVENT)<br />

00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />

08310444 definite quantity “a specific measure of amount”<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

sport-event<br />

number-quantity<br />

berdindu v 00630097: Ergatiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being"<br />

00017008 group grouping "any number of entities (members) considered as a<br />

unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group


C.6.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />

berdindu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa eta corpus_osoa)<br />

ABSdu<br />

abs sport-event 1.25 ZUZENA<br />

abs 0 1<br />

abs number-quantity 1 ZUZENA<br />

abs factotum-act 0.25 ONARGARRIA<br />

abs play-act 0.25 ZUZENA<br />

abs baseball-act 0.25 ONARGARRIA<br />

en_kontra x 1<br />

ine factotum-act 0.3<br />

ine factotum-communication 0.15<br />

ine factotum-state 0.15<br />

ine factotum-event 0.15<br />

ine number-cognition 0.07<br />

ine time_period-time 0.07<br />

ine factotum-location 0.07<br />

erg pro 1 ONARGARRIA<br />

erg x 1 ONARGARRIA<br />

berdindu.kontuakhitzak.ALL/kirolak<br />

abs egoera 2<br />

abs 0 1<br />

abs kanporaketa 1<br />

abs hamabi 1<br />

abs final 1<br />

abs x 1<br />

abs indar 1<br />

ala puntu 1<br />

en_kontra x 1<br />

erg pro 1<br />

erg Fernando 1<br />

ine bukaera 1<br />

ine arte 1<br />

C.6.4 SemCorreko c2c euskarara itzulita<br />

Get_even: Daturik ez<br />

equalize 00630264: c2c objektu hautapen-murriztapenak<br />

00020244 0.004 deed feat effort exploit "a notable achievement"<br />

00004865 0.003 person individual someone somebody mortal human soul<br />

08405716 0.003 integer whole_number "any of the natural numbers or zero"<br />

00017008 0.002 group grouping "any number of entities considered as a unit"<br />

08325457 0.001 linear_unit "a unit of measurement of length"<br />

00033585 0.001 success "an attainment that is successful"<br />

00009469 0.0009 object physical_object "a physical entity"<br />

08320927 0.0005 record "the number of wins versus losses and ties a team…"<br />

133


134<br />

equalize 00630264: c2c subjektu hautapen-murriztapenak<br />

00004865 0.018 person individual someone somebody mortal human soul ZUZENA<br />

00017008 0.007 group grouping "any number of entities considered…" ZUZENA<br />

00009469 0.003 object physical_object "a physical entity"<br />

C.6.5 SemCorreko s2semf euskarara itzulita<br />

equalize/get even: s2semf objektu hautapen-murriztapenak<br />

Daturik ez<br />

equalize/get even: s2semf subjektu hautapen-murriztapenak<br />

Daturik ez<br />

C.6.6 EFEko w2semf euskarara itzulita<br />

equalize: w2semf objektu hautapen-murriztapenak<br />

obj factotum-artifact 0.28<br />

obj factotum-cognition 0.14<br />

obj sport-event 0.14 ZUZENA<br />

obj sociology-group 0.14<br />

obj anthropology-group 0.14<br />

obj history-person 0.14<br />

equalize: w2semf subjektu hautapen-murriztapenak<br />

subj x 1 ONARGARRIA<br />

subj geography-location 1<br />

subj administration-location 1<br />

get_evenentzat daturik ez<br />

C.6.7 Ondorioak<br />

Iturria Teknika Kasua Zuzena Onargarria<br />

Eskuratu<br />

gabe<br />

Egunkaria<br />

osoa<br />

w2semf<br />

abs<br />

erg<br />

6tik 3<br />

0<br />

6tik 2<br />

2tik 2<br />

0<br />

2tik 2<br />

Egunkaria<br />

kirolak<br />

w2semf<br />

abs<br />

erg<br />

6tik 3<br />

0<br />

6tik 2<br />

2tik 2<br />

0<br />

2tik 2<br />

SemCor<br />

c2c<br />

obj<br />

subj<br />

0<br />

3tik 2<br />

0<br />

0<br />

3tik 3<br />

0<br />

s2semf Daturik ez<br />

w2semf obj 6tik 1 0 4tik 3<br />

EFE EQUALIZE subj 0 3tik 1 2tik 2<br />

kirolak w2semf GET<br />

EVEN<br />

Daturik ez


C.7 lose_2<br />

C.7.1 Synseta MCRn<br />

00620218v<br />

competition<br />

DOMEINUAK:<br />

C.7.2 Urre patroiak<br />

lock 00620218v 5 lose_2<br />

lock 00620218v 0 galdu_9<br />

fail to win; "We lost the battle but we<br />

won the war"<br />

HITZA KATEGORIA SYNSET DOMEINUA<br />

lose A 00620218 sport<br />

lose 00620218: objektu hautapen-murriztapenak<br />

w2c, c2c:<br />

04771851 competition contest “an occasion on which a winner is selected…”<br />

(hipe EVENT)<br />

00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />

08310444 definite quantity “a specific measure of amount”<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

sport-event<br />

number-quantity<br />

lose 00620218: subjektu hautapen-murriztapenak<br />

w2c, c2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

135


136<br />

C.7.3 c2c SemCorretik<br />

OBJEKTUAK s2s:<br />

lose 00620218:<br />

battle 00440117<br />

debate 04668121<br />

SUBJEKTUAK s2s:<br />

lose 00620218:<br />

lose 00620218<br />

group 00017008<br />

location 00014314<br />

TROPONIMOAK ETA DOMEINUAK:<br />

HITZA KATEGORIA SYNSET DOMEINUA<br />

drop A 00620362 sport<br />

s2s eta s2s-hype (SUBJEKTUAK): Objektuentzat daturik ez<br />

lose >> drop 00620362<br />

group 00017008<br />

lose 00620218: c2c objektu hautapen-murriztapenak<br />

00228990 0.229 activity "any specific activity or pursuit" ONARGARRIA<br />

(baina battletik)<br />

04668121 0.210 debate disputation public_debate "the formal presentation…"<br />

debate)<br />

lose 00620218: c2c subjektu hautapen-murriztapenak<br />

00017008 0.6 group grouping "any number of entities considered as a unit"<br />

ZUZENA<br />

00009469 0.194 object physical_object "a physical entity"<br />

C.7.4 w2c SemCorretik<br />

s2s: (B.7.3 atala)<br />

lose: w2c objektu hautapen-murriztapenak<br />

00012878 0.0699 cognition knowledge "the psychological result of …"<br />

00012670 0.0666 abstraction "a general concept formed by …” ONARGARRIA<br />

00228990 0.039 activity "any specific activity or pursuit" ONARGARRIA<br />

00004865 0.036 person individual someone somebody mortal human soul<br />

08520394 0.023 condition status "a condition or state at a particular time"<br />

00009469 0.021 object physical_object "a physical entity"<br />

05149489 0.015 organization organisation "a group of people who work…"<br />

00013522 0.013 feeling "the psychological feature of experiencing…"<br />

08179398 0.013 asset "anything of material value or usefulness"<br />

04668121 0.008 debate disputation public_debate "the formal presentation…"


lose: w2c subjektu hautapen-murriztapenak<br />

00004865 0.221 person individual someone somebody mortal human soul ZUZENA<br />

00017008 0.126 group grouping "any number of entities considered…" ZUZENA<br />

00009469 0.090 object physical_object "a physical entity"<br />

03940357 0.030 content cognitive_content mental_object "the sum or range…"<br />

03610098 0.026 body_part "any part of an organism such as an organ or…"<br />

01977607 0.017 horror "something that inspires horror; something horrible"<br />

00264797 0.016 baseball baseball_game ball_game "a game played with a bat…"<br />

00018599 0.0144 communication "something that is communicated between…"<br />

03421321 0.014 loyalty "the quality of being loyal"<br />

C.7.5 s2semf SemCorretik<br />

lose 00620218: s2semf objektu hautapen-murriztapenak<br />

factotum-act 1 ONARGARRIA<br />

politics-communication 1<br />

lose 00620218: s2semf subjektu hautapen-murriztapenak<br />

factotum-Tops 2 ONARGARRIA<br />

C.7.6 w2c BNCtik<br />

lose: w2c objektu hautapen-murriztapenak<br />

00004865 0.065 person individual someone somebody mortal human soul<br />

00009469 0.059 object physical_object "a physical entity"<br />

00012670 0.045 abstraction "a general concept formed by…" ONARGARRIA<br />

00016649 0.033 act human_action human_activity "something that…" ONARGARRIA<br />

00012878 0.024 cognition knowledge "the psychological result of…"<br />

00015437 0.016 state "the way something is with respect to its main"<br />

08179398 0.015 asset "anything of material value or usefulness"<br />

05119847 0.009 social_group "people sharing some social relation"<br />

03610098 0.008 body_part "any part of an organism such as an organ or…"<br />

04690182 0.007 happening occurrence natural_event "an event that happens"<br />

lose: w2c subjektu hautapen-murriztapenak<br />

08813320 0.137 helium He atomic_number_2<br />

00004865 0.135 person individual someone somebody mortal human soul ZUZENA<br />

04455766 0.055 he "the 5th letter of the Hebrew alphabet"<br />

00011607 0.039 artifact artefact "a man-made object"<br />

05119847 0.038 social_group "people sharing some social relation" ONARGARRIA<br />

04313427 0.021 message content subjektu_matter substance<br />

00018966 0.018 measure quantity amount quantum "how much there is of…"<br />

00014314 0.015 location "a point or extent in space"<br />

00016649 0.015 act human_action human_activity "something that people do…"<br />

00012878 0.014 cognition knowledge "the psychological result of…"<br />

137


138<br />

w2w:<br />

lose: w2w objektuak<br />

$1.2_billion<br />

$10m<br />

$140m<br />

$2.6m<br />

$200m<br />

$24_million<br />

$250m<br />

$300m<br />

$350m<br />

$35m<br />

$39m<br />

$40million<br />

$48.5m<br />

$7.75<br />

'er<br />

-_as<br />

-_which<br />

0.41_per_cent<br />

1.1%<br />

1.1_%.<br />

10_per_cent<br />

15_per_cent<br />

2.0%<br />

25_per_cent<br />

3%<br />

30%<br />

30_per_cent<br />

40_per_cent<br />

44_per_cent<br />

5.6%.<br />

50_per_cent<br />

56%<br />

After<br />

Although<br />

American<br />

And<br />

Andrea_de_Cesaris<br />

As<br />

Austria<br />

Bath<br />

Beatles<br />

Broad<br />

Bruce<br />

But<br />

Calais<br />

Cambridge_Boat_Club<br />

Cardiff<br />

Chris_Eubank<br />

Crown_Immunity<br />

Cup_Final<br />

D<br />

DC<br />

DM205m<br />

Darlington<br />

Dave_Gardner<br />

Defending_Champions<br />

_Red_Star<br />

Election<br />

Ellerman<br />

Ellery_Hanley<br />

Empire<br />

England<br />

Englishness_-_it<br />

Evelyn<br />

Foulds_15<br />

Francis_Maude<br />

GETTING<br />

Gatting<br />

Gooch<br />

Greater_London_Coun<br />

cil<br />

Harry<br />

Haynes<br />

He<br />

Hendry<br />

Hockaday<br />

However<br />

I<br />

ITV<br />

Ian_Williams<br />

If<br />

In<br />

In_London<br />

It<br />

Ivano_Bo<strong>net</strong>ti<br />

Jackman<br />

Jag<br />

Jim_Kelly<br />

John_Hastings<br />

John_Sessions<br />

Labour<br />

Leinster<br />

Lewisham_East<br />

Lise<br />

Livingstone<br />

Lizzie<br />

MPs<br />

Macartney<br />

Magda<br />

Manoj_Prabhakar<br />

Marie<br />

Much<br />

Nicaragua<br />

Nick_Price<br />

North_Eastern<br />

Nuneaton<br />

O'Leary<br />

O'Neill<br />

O_level<br />

One<br />

Our<br />

Oxford<br />

Pendle<br />

Philippa<br />

Pilkington<br />

Prince<br />

Queen<br />

Radio_3.<br />

Rajasthan<br />

Ribble_Valley<br />

Rotsagno<br />

Rottweiler<br />

Russia<br />

Ruud_Gullit<br />

SMP<br />

Sharon_Mills<br />

She<br />

Sheasby<br />

Shops_Bill<br />

Since<br />

So<br />

Some<br />

Son<br />

Southampton<br />

Southampton_Itchen<br />

Sovereignty<br />

Stuart_Ruckledge<br />

Suddenly<br />

TV<br />

Test<br />

That<br />

The<br />

The_PFA<br />

These<br />

They<br />

Thomas<br />

Thompson<br />

Time<br />

Up<br />

VW<br />

Veale<br />

Vietnam<br />

Volunteers<br />

Wallasey<br />

We<br />

Weight<br />

What<br />

When<br />

Willis<br />

With<br />

Yet


139<br />

about_10_per_cent<br />

about_25%<br />

accent<br />

acres<br />

action<br />

adherent<br />

adhesion<br />

admiration<br />

advantage<br />

advocate<br />

affection<br />

agency<br />

aid<br />

air<br />

aircraft<br />

airmen<br />

allowance<br />

amenity<br />

amount<br />

another<br />

anything<br />

appeal<br />

appendix<br />

appetite<br />

application<br />

approach<br />

approbation<br />

arm<br />

arms<br />

army<br />

art<br />

artefact<br />

artist<br />

aspect<br />

assembly<br />

asset<br />

attraction<br />

attractiveness<br />

audience<br />

aura<br />

authority<br />

autonomy<br />

baby<br />

background<br />

bag<br />

balance<br />

ball<br />

bar<br />

barrack<br />

base<br />

batsman<br />

battle<br />

bearing<br />

beauty<br />

because<br />

bed<br />

beginning<br />

benefit<br />

beret<br />

best<br />

best_friend<br />

bet<br />

billion_-_is<br />

bit<br />

blonde<br />

blood<br />

booking<br />

boss<br />

bottle<br />

bounce<br />

bout<br />

brain<br />

breadwinner<br />

breakfast<br />

breast<br />

brewery<br />

bt<br />

bulk<br />

bus<br />

business<br />

capital<br />

captain<br />

captaincy<br />

car<br />

card<br />

carp<br />

case<br />

cash<br />

caste<br />

cent<br />

center<br />

central<br />

century<br />

challenge<br />

championship<br />

chance<br />

charisma<br />

charm<br />

charter<br />

chase<br />

cheese<br />

chicken<br />

child<br />

childhood<br />

choice<br />

choreography<br />

church_member<br />

citizen<br />

citizenship<br />

city<br />

civil_war<br />

clash<br />

client<br />

club<br />

cohesiveness<br />

coin<br />

colony<br />

colour<br />

commander<br />

commercial<br />

commission<br />

companion<br />

company<br />

component<br />

composure<br />

concentration<br />

confidence<br />

connection<br />

conquest<br />

conservative<br />

consolation<br />

contact<br />

control<br />

cool<br />

corner<br />

count<br />

country<br />

courage<br />

cover<br />

craving<br />

creativity<br />

credibility<br />

crispness<br />

crop<br />

cross<br />

crown<br />

cup_final<br />

currency<br />

custody<br />

data<br />

daughter<br />

debate<br />

decisiveness<br />

degree<br />

delicacy<br />

delivery<br />

demon<br />

deposit<br />

desire<br />

detail<br />

difference<br />

direction<br />

discipline<br />

district<br />

division<br />

dog<br />

dome<br />

domicile


140<br />

dramatist<br />

drum<br />

ear<br />

edge<br />

effect<br />

effectiveness<br />

efficiency<br />

elasticity<br />

election<br />

electrical_resistan<br />

ce<br />

elegance<br />

elements<br />

empire<br />

employee<br />

encounter<br />

energy<br />

engine<br />

enjoyment<br />

enthusiasm<br />

entry<br />

equipment<br />

era<br />

erection<br />

esteem<br />

event<br />

everything<br />

example<br />

eye<br />

face<br />

faculty<br />

fan<br />

fanaticism<br />

fang<br />

fat<br />

father<br />

favour<br />

feather<br />

feathers<br />

feature<br />

fee<br />

feet<br />

fiancee<br />

fifth<br />

fight<br />

figure<br />

final<br />

finger<br />

fish<br />

flash<br />

float<br />

flounder<br />

flow<br />

focus<br />

foliage<br />

food<br />

foothold<br />

forever<br />

form<br />

formula<br />

fortune<br />

frame<br />

franchise<br />

friend<br />

friendly<br />

function<br />

gaiety<br />

gain<br />

gamble<br />

game<br />

garden<br />

gas<br />

gaze<br />

gem<br />

general_election<br />

gentry<br />

gift<br />

glamour<br />

glasses<br />

gleam<br />

glider<br />

glitter<br />

gloss<br />

gloves<br />

goal<br />

government<br />

graduate<br />

grass<br />

greenery<br />

greyhound<br />

grip<br />

ground<br />

growth<br />

guide<br />

habit<br />

hair<br />

hang<br />

hat-trick<br />

he<br />

head<br />

headquarters<br />

health<br />

heart<br />

heartland<br />

heat<br />

height<br />

her<br />

her_parents_and<br />

hers<br />

herself<br />

him<br />

himself<br />

hindquarter<br />

hir<br />

his<br />

hold<br />

hole<br />

holiday<br />

holidaymaker<br />

home<br />

hooker<br />

hours<br />

house<br />

how_much<br />

humour<br />

husband<br />

hyphen<br />

hypnotics<br />

identity<br />

ideology<br />

immunity<br />

impact<br />

impetus<br />

in_-_but<br />

inch<br />

income<br />

increase<br />

independence<br />

individuality<br />

infant<br />

influence<br />

inhibition<br />

initiative<br />

inn<br />

innocence<br />

intellectual<br />

interest<br />

interest_-_they<br />

irony<br />

it<br />

item<br />

its<br />

itself<br />

ivy<br />

jewellery<br />

job<br />

key<br />

kingdom<br />

knack<br />

kudos<br />

labour<br />

lacing<br />

lady<br />

lamb<br />

land<br />

language<br />

language_-_rapidly<br />

large_number


141<br />

last<br />

lb<br />

lead<br />

leadership<br />

leg<br />

legitimacy<br />

length<br />

lesbian<br />

lesson<br />

liberty<br />

licence<br />

lien<br />

life<br />

light<br />

line<br />

line-out<br />

lineout<br />

listener<br />

listing<br />

liveliness<br />

load<br />

loft<br />

logic<br />

look<br />

loser<br />

lot<br />

lots<br />

love<br />

lover<br />

lustre<br />

magic<br />

mag<strong>net</strong>ism<br />

maidenhood<br />

maidenliness<br />

majority<br />

man<br />

man-days<br />

manager<br />

marbles<br />

market<br />

match<br />

matches<br />

material<br />

matter<br />

me<br />

meaning<br />

medal<br />

member<br />

memory<br />

mentality<br />

mind<br />

mine<br />

minister<br />

mischief<br />

miss<br />

mitten<br />

moisture<br />

moment<br />

momentum<br />

money<br />

money_-_$200m-plus<br />

monopoly<br />

mother<br />

my<br />

myself<br />

myth<br />

name<br />

needle<br />

nerve<br />

<strong>net</strong>work<br />

nicety<br />

nine-and-a-half<br />

noise<br />

nomination<br />

north<br />

nothing<br />

novelty<br />

number<br />

object<br />

obsession<br />

office<br />

oil<br />

old<br />

one-third<br />

ones<br />

oodles<br />

opener<br />

opening<br />

operation<br />

other<br />

out_-_if<br />

output<br />

overall<br />

p.c.<br />

package<br />

pain<br />

pants<br />

paradise<br />

paragraph<br />

parent<br />

partner<br />

parts<br />

party<br />

passenger<br />

path<br />

patience<br />

pay<br />

peace<br />

people<br />

perfection<br />

period<br />

person<br />

personal<br />

perspective<br />

pet<br />

pfennig<br />

pfennings<br />

photo<br />

piece<br />

place<br />

play<br />

play_-_and_still<br />

player<br />

playoff<br />

poem<br />

point<br />

politics<br />

popularity<br />

possession_-<br />

_and_control_-_in<br />

post<br />

potency<br />

pound<br />

pride<br />

principle<br />

privilege<br />

prize<br />

prop<br />

property<br />

proportion<br />

protest<br />

province<br />

pub<br />

public<br />

purity<br />

purpose<br />

qualifier<br />

quality<br />

quarry<br />

quarter<br />

quotation<br />

race<br />

racecourse<br />

rag<br />

rally<br />

reader<br />

reality<br />

reconquer<br />

record<br />

recording<br />

reduction<br />

reference<br />

regular<br />

rehearsal<br />

relationship<br />

relevance<br />

replay<br />

rescue


142<br />

research_worker<br />

reselection<br />

resentment<br />

reserves<br />

respect<br />

rest<br />

result<br />

rev<br />

revenue<br />

ride<br />

rider<br />

risk<br />

role<br />

roof<br />

root<br />

rubber<br />

rugby<br />

s<br />

safe<br />

salt<br />

saving<br />

savings<br />

savour<br />

scene<br />

scramble<br />

scrum<br />

season<br />

season_-_to<br />

seat<br />

second<br />

section<br />

sector<br />

sectorisation<br />

seed<br />

self<br />

self-consciousness<br />

self-control<br />

self-respect<br />

semblance<br />

semifinal<br />

sense_of_direction<br />

sense_of_purpose<br />

separateness<br />

serenity<br />

series<br />

serve<br />

service<br />

set<br />

settling<br />

shadow<br />

shame<br />

shape<br />

share<br />

she<br />

sheen<br />

sheep<br />

shilling<br />

ship<br />

shirt<br />

shoe<br />

side<br />

sight<br />

significance<br />

single<br />

singles<br />

sister<br />

sleep<br />

slumber<br />

small_town<br />

smile<br />

smoothness<br />

snarl<br />

soldier<br />

somebody<br />

someone<br />

something<br />

son<br />

song<br />

soul<br />

source<br />

space<br />

spaciousness<br />

sparkle<br />

speech<br />

speed<br />

spice<br />

spirit<br />

sport<br />

stability<br />

staff<br />

statue<br />

status<br />

sting<br />

stone<br />

strategy<br />

strength<br />

strike<br />

structure<br />

struggle<br />

student<br />

stump<br />

subjektu<br />

subsidy<br />

subtlety<br />

sum_of_money<br />

summat<br />

supply<br />

support<br />

surprise<br />

sweat<br />

symbol<br />

sympathy<br />

taboo<br />

tail<br />

talent<br />

tape_recording<br />

taste<br />

tax_shelter<br />

team<br />

telephone_system<br />

temper<br />

territory<br />

test<br />

texture<br />

thanks<br />

that<br />

their<br />

theirs<br />

them<br />

themselves<br />

they<br />

thing<br />

third<br />

thirds<br />

thread<br />

thrust<br />

ticket<br />

time<br />

tissue<br />

title<br />

toe<br />

tone<br />

touch<br />

tourist<br />

tournament<br />

town<br />

track<br />

trade<br />

tradition<br />

traffic<br />

train<br />

training<br />

travelling<br />

tree<br />

trouble<br />

trousers<br />

tussle<br />

umbrella<br />

unease<br />

unity<br />

urgency<br />

us<br />

use<br />

valuable<br />

value<br />

variety<br />

verdict<br />

version


143<br />

virginity<br />

vocation<br />

voice<br />

voltage<br />

volume<br />

vote<br />

voter<br />

war<br />

wardenship<br />

water<br />

weight<br />

west<br />

what<br />

which<br />

whisper<br />

who<br />

wicket<br />

wife<br />

window<br />

windshield<br />

wing<br />

work<br />

working_day<br />

world<br />

worth<br />

worth_-_then<br />

yard<br />

yellow_green<br />

you<br />

young<br />

your<br />

yourself<br />

youth<br />

zloty<br />

lose: w2w subjektuak<br />

-_she<br />

-_was<br />

20_per_cent<br />

43_per_cent<br />

71_per_cent<br />

AEG<br />

AIRLINES<br />

A_HINT<br />

Adam<br />

After<br />

Alex_Farries<br />

Alex_Ferguson<br />

Alexander<br />

Althorp<br />

America<br />

And<br />

Andrew<br />

Anglo-Scots_XV<br />

Anne_Simpkin<br />

As<br />

Asquith<br />

Association<br />

Attlee<br />

Auckland<br />

Aylesbury<br />

BBC<br />

BR<br />

BRITAIN<br />

Bailey<br />

Banker<br />

Banks<br />

Barratt_Development<br />

s<br />

Barrie<br />

Battersea<br />

Bedfordshire<br />

Bell_Group<br />

Benny<br />

Bentalls<br />

Bill_Saxby<br />

Blackheath<br />

Blaize<br />

Bolger<br />

Borja<br />

Boucher<br />

Brazil<br />

Bricklayers_Trevor<br />

Brien<br />

Bristow<br />

Britain<br />

British_Aerospace<br />

British_Airways_Con<br />

corde<br />

Briton<br />

Brixton_Estate<br />

Bruno<br />

Buick<br />

Bury<br />

But<br />

But_Eleanor<br />

But_Simon<br />

But_Wall_Street<br />

CAMBRIDGE<br />

CPS<br />

Callaghan<br />

Cameroun<br />

Canizales<br />

Castleford<br />

Casuals<br />

Central_America<br />

Chamberlain<br />

Chancellor<br />

Chang<br />

Charles<br />

Cheshire<br />

Chris_Patten<br />

Chris_Wilkinson<br />

Christian_Democrats<br />

Christians_-_never<br />

Christopher_Chope<br />

Citroens<br />

Clayton<br />

Clinton<br />

Colette_Jones<br />

Colin_Montgomerie<br />

Colin_Moynihan<br />

Commandos<br />

Commercial_Union_Buildin<br />

g<br />

Companies<br />

Conner<br />

Conservatives<br />

Cook<br />

Craig<br />

Crisp<br />

D<br />

DUP<br />

Darwen<br />

David<br />

David_Southby<br />

Dein<br />

Delta<br />

Democracy<br />

Democrats<br />

Department<br />

Despite<br />

Detroit_Lions<br />

Diderot<br />

Dilip_Vengsarkar<br />

Dixons<br />

Docklands_Express<br />

Dorset<br />

Douglas<br />

Dowding<br />

EDWARD<br />

ENGLAND<br />

East_Germany<br />

Edelman<br />

Edgley<br />

Elinor<br />

Elizabeth_Ben<strong>net</strong>t<br />

Emma_Nicholson<br />

England<br />

Eurotunnel<br />

Even<br />

Ever_Ready<br />

FORGOTTEN_BREWERIES_How_<br />

East_Enders<br />

FT_30<br />

Faldo<br />

Ferdinando<br />

Fiat


144<br />

Fido<br />

Field<br />

Fitzgerald<br />

Football<br />

Francis_Maude<br />

Friends<br />

Frost<br />

Fuhrer<br />

GM<br />

GP<br />

Gayane<br />

Germany<br />

Gide<br />

Glennie<br />

Gloucester<br />

Gold<br />

Government<br />

Graham_Rogers<br />

Granada<br />

Graziano<br />

Great_Britain<br />

Greyfriars<br />

Gronberg<br />

HYWEL_Davies<br />

Hammersmith<br />

Harris<br />

Having<br />

Hay<br />

He<br />

Heath<br />

Hibernian<br />

Holland<br />

Holmes<br />

Hong_Kong<br />

Houston_Oilers<br />

Hugh_Morris<br />

Hungary<br />

Hussein<br />

I<br />

IDG<br />

If<br />

If_Debbie<br />

If_Lee<br />

If_Mr_Major<br />

In_Europe_Madrid<br />

India<br />

Insurers<br />

It<br />

JAMES_Neill<br />

James<br />

Jane_Morris<br />

Jansher<br />

Jim_Pugh<br />

Jim_Sillars<br />

Juno_IV<br />

Just<br />

Justin<br />

Juventus<br />

KRISTI_YAMAGUCHI<br />

Kanza<br />

Kent_Opera<br />

Khan<br />

Kilfedder<br />

King<br />

Kinnock<br />

Kylie<br />

LONDON_Monarchs<br />

Labour<br />

Labour_Party<br />

Lady_Edisbury<br />

Lamb<br />

Lancashire_Fusilier<br />

s<br />

Lee<br />

Leicester_South<br />

Leigh<br />

Leipzig<br />

Lendl<br />

Lewis<br />

Littlejohn<br />

Liverpool<br />

Livingstone<br />

Liz_Smylie<br />

London_Scottish<br />

Loughborough<br />

Lowndes_Queensway<br />

Luftwaffe<br />

Luton<br />

Lyle<br />

MANY<br />

MPs<br />

Maggie<br />

Malcolm_Foulkes-<br />

Arnold<br />

Malinga<br />

Malvern<br />

Manawatu<br />

Mandarin<br />

Marie<br />

Marine_Midland<br />

Martin<br />

Mary<br />

Mary_Tudor<br />

Matlock<br />

Mazowiecki<br />

Meanwhile_Jansher_K<br />

han<br />

Merrivale<br />

Michael_Fallon<br />

Michael_Heseltine<br />

Middlesborough<br />

Milligan<br />

Mills<br />

Miss_Green<br />

Miss_Harker<br />

Montpellier<br />

Most<br />

Most_British_Prime_Minis<br />

ters<br />

Mr_Gerry_Adams<br />

Mrs_Chalker<br />

Mrs_Lynda_Chalker<br />

Mrs_McLaren<br />

Mrs_Pyg<br />

Mrs_Stavrogin<br />

Mrs_Thatcher<br />

Mueller<br />

Mungo<br />

Murdoch<br />

Murrayfield_Racers<br />

Mutch<br />

NUM<br />

Najibullah<br />

Napoleon<br />

NatWest_Bancorp<br />

National_Trust<br />

Nazism<br />

Never<br />

Neville<br />

New_Zealand<br />

Newport<br />

Nick_Faldo<br />

Nigel<br />

No_2<br />

Nobody<br />

Norman<br />

North_East<br />

Norwich<br />

Norwood<br />

Nottingham_Forest<br />

Now<br />

O'Reilly<br />

Of<br />

Old_English_sheepdog<br />

Oldham<br />

Olsen<br />

On_Thursday_Boris_Becker<br />

One<br />

Orrell<br />

Overseas_Development_Min<br />

ister<br />

Panama_Canal<br />

Paradise<br />

Patten<br />

People<br />

Peter<br />

Peter_de_Neville<br />

Petite_Rosanna


145<br />

Phillips<br />

Pilot_Mohammed_El_S<br />

hamey<br />

Pisa<br />

Plan<br />

Poland<br />

Pounder<br />

Prince<br />

Privatization<br />

Profit_Freight_Syst<br />

ems<br />

Protestant<br />

Pru-Bache<br />

Queens_Park_Rangers<br />

Qxb6<br />

R_A_Owens<br />

R_Simmons<br />

Ramsey<br />

Reid<br />

Remy<br />

Richardson<br />

Rijeka<br />

Robertson<br />

Rose<br />

SDP<br />

SDP_MPs<br />

STEVE_DAVIS<br />

Salford<br />

Sanders<br />

Schools_Minister<br />

Services<br />

Severiano_Ballester<br />

os<br />

Shares<br />

She<br />

Sheff_Wed_Arsenal<br />

Short<br />

Signor_Guido_Carli<br />

Since_England<br />

Situationists<br />

Some<br />

Something<br />

Sometimes<br />

Sonia_Sutcliffe<br />

Soon<br />

South_East<br />

Southern<br />

St_Austell<br />

St_Helens<br />

Stanley_Baldwin<br />

Steffi<br />

Sterling<br />

Stevan_Flannigan<br />

Steve_Davis<br />

Strauss<br />

Sun_Life_Assurance<br />

Sutton_Borough_Coun<br />

cil<br />

Sweet<br />

Swindon<br />

THE_Los_Angeles_Rai<br />

ders<br />

THE_Royal_Liverpool<br />

_Philharmonic_Socie<br />

ty<br />

THE_South_African_R<br />

ugby_Board<br />

TUC<br />

Tarmac<br />

Ted<br />

Tendulkar<br />

The<br />

The_Aral<br />

The_Association<br />

The_Conservatives<br />

The_Department<br />

The_Establishment<br />

The_Furus<br />

The_Pru<br />

The_Singaporean<br />

Then<br />

They<br />

This<br />

Those<br />

Tich<br />

Timman<br />

To<br />

Tokyo<br />

Tony<br />

Tories<br />

Tory_MP<br />

Toscanini<br />

Tragedy<br />

Tranmere<br />

Trollope<br />

Turkey<br />

Two<br />

United<br />

Virginia_Wade<br />

Vladek<br />

WASP<br />

WEA<br />

WHO<br />

WIGAN<br />

WILF_O'REILLY<br />

Wales<br />

Walker<br />

Warrington<br />

Waterers<br />

We<br />

West_Germany<br />

West_Indies<br />

Wharton<br />

What<br />

When_Gooch<br />

When_Sir_Alec<br />

When_Wales<br />

While<br />

White<br />

Who<br />

Wigan<br />

Wildlife<br />

Wimbledon<br />

Win<br />

With<br />

With_Clare_Wood<br />

Wolverhampton<br />

Woman<br />

Woodcarver<br />

Woosnam<br />

Workers<br />

World<br />

Worst<br />

Wycombe<br />

YOUNG_Group<br />

Yannick_Noah<br />

Yeltsin<br />

You<br />

Young<br />

Yugoslavia<br />

Zebra<br />

accident<br />

act<br />

action<br />

administration<br />

affairs<br />

agreement<br />

aircrew<br />

airline<br />

airport<br />

ale<br />

amount<br />

anchovy_sauce<br />

angler<br />

another<br />

area<br />

arrangement<br />

arrival<br />

article<br />

artisan<br />

atom<br />

attack<br />

average<br />

baker<br />

ballet<br />

ballet_dancer<br />

bank<br />

banker


146<br />

barbarian<br />

battle<br />

behaviouristic<br />

beneficiary<br />

black<br />

bloc<br />

body<br />

book<br />

boy<br />

breeder<br />

brewery<br />

bt<br />

business<br />

buyout_-_and_would<br />

cabbage<br />

case<br />

castle<br />

category<br />

centre-left<br />

chains<br />

chairman<br />

champagne<br />

champion<br />

channel<br />

chap<br />

character<br />

charm<br />

child<br />

city<br />

civilization<br />

claimant<br />

climate<br />

clock<br />

club<br />

coat<br />

colleague<br />

communist<br />

community<br />

company<br />

compound<br />

concept<br />

contest<br />

convention<br />

cooper<br />

copy<br />

councillor<br />

country<br />

couple<br />

course<br />

coverage<br />

culture<br />

dancer<br />

defeat<br />

denomination<br />

department<br />

depositor<br />

descendants<br />

design<br />

designer<br />

details<br />

disappointment<br />

discretionary_trust<br />

district<br />

doctor<br />

doctrine<br />

dollar<br />

driver<br />

duo<br />

election<br />

else_-_they<br />

employee<br />

employer<br />

enemy<br />

engine<br />

engineer<br />

enterprise<br />

entry<br />

episode<br />

equity<br />

evil_spirit<br />

ewe<br />

eye<br />

eyes<br />

factor<br />

false_teeth_-_he<br />

family<br />

farmer<br />

father<br />

favourite<br />

fee<br />

field<br />

film<br />

filmmakers<br />

final<br />

finalist<br />

fire<br />

firm<br />

flyer<br />

forest<br />

forester<br />

forward<br />

front-runner<br />

frost<br />

full_time<br />

future<br />

game<br />

gelding<br />

generation<br />

giant<br />

girl<br />

git<br />

glider<br />

goods<br />

gorilla<br />

government<br />

ground<br />

group<br />

guard<br />

guide<br />

guy<br />

habit<br />

hair<br />

he<br />

hedgehog<br />

helicopter<br />

her<br />

herself<br />

him<br />

his<br />

hole<br />

home<br />

hospital<br />

hours<br />

house<br />

householder<br />

husband<br />

ice_cream<br />

if_we<br />

impetus<br />

improvisation<br />

index<br />

individual<br />

industry<br />

infantry<br />

infatuation<br />

inning<br />

institute<br />

insurers<br />

interpretation<br />

investor<br />

island<br />

issue<br />

it<br />

jeweller<br />

job<br />

joy<br />

krona<br />

land<br />

latter<br />

laurel<br />

leader<br />

leadership<br />

left-winger<br />

liberal<br />

life<br />

lifetime<br />

light_heavyweight<br />

line


147<br />

little_girl<br />

lot<br />

love<br />

low<br />

magazine<br />

majority<br />

maker<br />

man<br />

management<br />

manager<br />

mandarin<br />

market<br />

markets_-_it<br />

master<br />

match<br />

me<br />

member<br />

metal<br />

metre<br />

middle-ranking<br />

middle_class<br />

mind<br />

minister<br />

misery<br />

moment<br />

money<br />

monopoly<br />

month<br />

mother<br />

mourning<br />

music<br />

mustard<br />

myself<br />

name<br />

nan<br />

negotiator<br />

neighbourhood<br />

<strong>net</strong>ting<br />

news_story<br />

newspaper<br />

night_time<br />

nobody<br />

nonconformist<br />

nostrum<br />

notebook<br />

nothing<br />

number<br />

office<br />

officer<br />

official<br />

old_lady<br />

on-song<br />

opera<br />

operation<br />

opposition<br />

orca<br />

orchestra<br />

organisation<br />

originality<br />

others<br />

ourselves<br />

outset<br />

painter<br />

paper<br />

parent<br />

parliamentarian<br />

part<br />

party<br />

pass<br />

patient<br />

pattern<br />

payer<br />

peak<br />

penalty<br />

people<br />

performance<br />

person<br />

phallus<br />

picture<br />

piece<br />

pilot<br />

plane<br />

plant<br />

player<br />

ploughman<br />

pocket<br />

poet<br />

point<br />

policy<br />

politician<br />

pop<br />

pound<br />

presence<br />

president<br />

profession<br />

programme<br />

promoter<br />

proportion<br />

pub<br />

public<br />

public_service<br />

publican<br />

punter<br />

quarter<br />

quote<br />

racer<br />

radiation<br />

radical<br />

raider<br />

ranking<br />

rate<br />

reader<br />

rebel<br />

recovery<br />

reform<br />

refugee<br />

repetition<br />

republican<br />

resentment<br />

result<br />

risk<br />

ritual<br />

rose_0.5%<br />

rugby<br />

run-up<br />

safe<br />

sailor<br />

sale<br />

saver<br />

scalper<br />

scheme<br />

school<br />

seat<br />

seed<br />

series<br />

share<br />

shareholder<br />

she<br />

ship<br />

side<br />

since_-_depending<br />

singer<br />

singles<br />

skin_colour<br />

socialism<br />

society<br />

software_-_he<br />

soldier<br />

solicitor<br />

someone<br />

something<br />

son<br />

song<br />

spare_time<br />

spasm<br />

speech<br />

squad<br />

stand<br />

star<br />

station<br />

statistics<br />

step<br />

sterling<br />

stockmarkets<br />

story<br />

strain<br />

student<br />

study


148<br />

subjektu<br />

subsidiary<br />

support<br />

swim<br />

tax<br />

taxpayer<br />

teacher<br />

team<br />

tears<br />

them<br />

themselves<br />

they<br />

this<br />

this_was_the_centre<br />

_that_he<br />

those<br />

thrust<br />

time<br />

touchstone<br />

tour<br />

town<br />

C.7.7 c2c BNCtik<br />

Denak ez zuzenak dira.<br />

trader<br />

treatment<br />

tree<br />

turn<br />

two-thirds<br />

tyre<br />

unemployment<br />

union<br />

upper_side<br />

us<br />

variety<br />

version<br />

vessel<br />

videotape<br />

viewer<br />

village<br />

vision<br />

voice<br />

volunteer<br />

vote<br />

voter<br />

wage<br />

war<br />

we<br />

week<br />

weight<br />

wheel<br />

which<br />

white<br />

who<br />

wine<br />

woman<br />

worker<br />

works<br />

writer<br />

year<br />

years_ago<br />

yes<br />

you<br />

young<br />

lose 00620218: c2c objektu hautapen-murriztapenak<br />

08520394 0.005 condition status "a condition or state at a particular time"<br />

09065837 0.003 time_period period period_of_time amount_of_time<br />

08813320 0.002 helium He atomic_number_2<br />

03582954 0.001 status position "the relative position or standing of…"<br />

08560710 0.001 freedom "the condition of being free; the power to act or…"<br />

08745609 0.001 opportunity chance "a possibility due to a favorable…"<br />

08781633 0.0007 material stuff "the tangible substance that goes into the…"<br />

08525534 0.0006 friendship friendly_relationship "the state of being…"<br />

08544706 0.0006 rest eternal_rest sleep eternal_sleep quietus<br />

08522741 0.0005situation state_of_affairs "the general state of things…"<br />

lose 00620218: c2c subjektu hautapen-murriztapenak<br />

08813320 0.112 helium He atomic_number_2<br />

09065837 0.003 time_period period period_of_time amount_of_time<br />

08534455 0.001 status position "the relative position or standing of…"<br />

08807415 0.001 metallic_element metal "any of several chemical elements…"<br />

08520394 0.0009 condition status "a condition or state at a particular…"<br />

08524514 0.0006 company comradeship companionship good_fellowship<br />

08547726 0.0005 unemployment "the state of being unemployed or not having…"<br />

08804621 0.0005 group radical "two or more atoms bound together as a…"<br />

08522741 0.0003 situation state_of_affairs "the general state of things…"<br />

08976498 0.0003 liquid "a substance that is liquid at room temperature…"


C.7.8 w2semf EFEtik<br />

lose: w2semf objektu hautapen-murriztapenak<br />

obj number-quantity 17.666 ZUZENA<br />

obj x 16<br />

obj factotum-state 8.09<br />

obj factotum-act 7.19 ONARGARRIA<br />

obj play-act 5.26 ZUZENA<br />

obj factotum-artifact 5.04<br />

obj quality-attribute 4.96<br />

obj sport-event 4.05 ZUZENA<br />

obj zoology-animal 3.6<br />

obj factotum-cognition 3.20<br />

lose: w2semf subjektu hautapen-murriztapenak<br />

subj x 102 ONARGARRIA<br />

subj administration-group 15.33<br />

subj sport-group 13 ONARGARRIA<br />

subj zoology-group 12.5<br />

subj geography-location 6.83<br />

subj administration-location 6.16<br />

subj number-quantity 5.28<br />

subj chemistry-substance 4.16<br />

subj geography-object 4<br />

subj gastronomy-food 2.40<br />

C.7.9 Ondorioak<br />

Objektu Subjektu<br />

Iturria Teknika Zuzena Onargarria<br />

Eskuratu<br />

gabe<br />

Zuzen Onargarria Eskuratu gabe<br />

c2c 0 2tik 1 3tik 2 2tik 1 0 2tik 1<br />

SemCor w2c 0 10etik 2 3tik 1 10etik 2 0 0<br />

s2semf 0 2tik 1 4tik 2 0 1etik 1 2tik 2<br />

BNC<br />

w2c<br />

c2c<br />

0<br />

0<br />

10etik 2<br />

0<br />

3tik 1<br />

3tik 3<br />

10etik 1<br />

0<br />

10etik 1<br />

0<br />

0<br />

2tik 2<br />

EFE w2semf<br />

10etik 3 10etik 1 0 0 10etik 2 2tik 1<br />

149


150<br />

C.8 galdu_9<br />

C.8.1 Synseta MCRn<br />

00620218v<br />

competition<br />

DOMEINUAK:<br />

C.8.2 Urre patroiak<br />

lock 00620218v 5 lose_2<br />

lock 00620218v 0 galdu_9<br />

fail to win; "We lost the battle but we<br />

won the war"<br />

HITZA KATEGORIA SYNSET DOMEINUA<br />

galdu A 00620218 sport<br />

galdu 00620218: Absolutiboa<br />

c2c, w2c:<br />

04771851 competition contest an occasion on which a winner is selected from<br />

among two or +contestants (EVENT)<br />

00254052 game a contest with rules to determine a winner (ACTIVITY)<br />

08310444 definite quantity “a specific measure of amount”<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

sport-event<br />

number-quantity<br />

galdu 00620218: Ergatiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities (members) considered as a<br />

unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group


C.8.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />

galdu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa)<br />

abs x 10<br />

abs factotum-state 3.922<br />

abs number-quantity 3.75 ZUZENA<br />

abs quality-attribute 3.681<br />

abs sport-event 3.011 ZUZENA<br />

abs factotum-group 2.937<br />

abs factotum-cognition 2.600<br />

abs anthropology-group 2.130<br />

abs factotum-event 2.055 ONARGARRIA<br />

abs factotum-act 1.913 ONARGARRIA<br />

erg pro 46 ONARGARRIA<br />

erg x 6 ONARGARRIA<br />

erg number-quantity 1.125<br />

erg 0 1<br />

erg person-person 0.533 ZUZENA<br />

erg color-attribute 0.5<br />

erg quality-attribute 0.5<br />

erg geography-location 0.5<br />

erg administration-location 0.5<br />

erg factotum-act 0.473<br />

ine sport-event 1.2<br />

ine number-quantity 1.09<br />

ine x 1<br />

ine building_industry-artifact 0.77<br />

ine enterprise-group 0.61<br />

ine play-artifact 0.5<br />

ine factotum-act 0.5<br />

ine law-artifact 0.5<br />

ine botany-plant 0.5<br />

ine quality-attribute 0.3<br />

ine anthropology-group 0.3<br />

en_kontra factotum-state 0.33<br />

en_kontra number-cognition 0.16<br />

en_kontra factotum-location 0.16<br />

en_kontra time_period-time 0.16<br />

en_kontra metrology-quantity 0.16<br />

galdu.kontuakhitzak.kirolak<br />

abs aukera 11<br />

abs partidu 7<br />

abs talde 5<br />

abs x 4<br />

abs itzuli 3<br />

abs lau 3<br />

abs maila 2<br />

abs indar 2<br />

abs buru 2<br />

abs inozentzia 1<br />

abs gidoi 1<br />

151


152<br />

abs kanporaketa 1<br />

abs guzti 1<br />

abs bisitaldi 1<br />

abs bera 1<br />

abs puntu 1<br />

abs sentimendu 1<br />

abs pixka 1<br />

abs grazia 1<br />

abs bikote 1<br />

abs kontzentrazio 1<br />

abs valencia 1<br />

abs sentsibilitate 1<br />

abs konorte 1<br />

abs lehia 1<br />

abs jende 1<br />

abs itsaspen 1<br />

abs baloi 1<br />

abs kolore 1<br />

abs klasiko 1<br />

abs estadio 1<br />

abs norgehiagoka 1<br />

abs 0 1<br />

abs garrantzi 1<br />

abs segundo 1<br />

abs alde 1<br />

abs ezer 1<br />

abs final 1<br />

abs denbora 1<br />

abs olana 1<br />

adb alferrik 1<br />

adj x 1<br />

ala lantegi 1<br />

dat bala 1<br />

dat klub 1<br />

en_kontra azken 1<br />

erg pro 46<br />

erg x 2<br />

erg gu 2<br />

erg hori 1<br />

erg jabe 1<br />

erg portland 1<br />

erg miarriztar 1<br />

erg bi 1<br />

erg azterketa 1<br />

erg 0 1<br />

erg atezain 1<br />

erg gasteiztar 1<br />

erg bikote 1<br />

ine etxe 2<br />

ine tarte 1<br />

ine hanka 1<br />

ine txapelketa 1<br />

ine x 1<br />

ine baloi 1<br />

ine zati 1<br />

ine partidu 1


ine bi 1<br />

ine usta 1<br />

ine jardunaldi 1<br />

ins ondorio 1<br />

konp menpekoa 5<br />

mot akats 2<br />

mot 0 1<br />

soz sistema 1z<br />

menpekoa 1<br />

galdu: w2semf hautapen-murriztapenak (corpus osoa)<br />

abs quality-attribute 20.120<br />

abs factotum-cognition 17.199<br />

abs number-quantity 16.709 ZUZENA<br />

abs time_period-time 16.695<br />

abs factotum-state 16.551<br />

abs factotum-act 13.352 ONARGARRIA<br />

abs psychology-attribute 8.930<br />

abs metrology-quantity 7.145 ONARGARRIA<br />

abs psychology-cognition 7.110<br />

abs factotum-communication 6.722<br />

erg pro 158 ONARGARRIA<br />

erg x 27 ONARGARRIA<br />

erg factotum-cognition 6.269<br />

erg factotum-artifact 6<br />

erg politics-person 3.25<br />

erg person-person 3.164 ZUZENA<br />

erg quality-attribute 1.722<br />

erg number-quantity 1.458<br />

erg geography-location 1.111<br />

erg law-person 1.05<br />

erg botany-group 1<br />

ine x 18<br />

ine factotum-act 7.891<br />

ine time_period-time 4.376<br />

ine factotum-artifact 2.946<br />

ine sport-event 2.311<br />

ine factotum-state 2.262<br />

ine number-quantity 2.090<br />

ine factotum-communication 1.836<br />

ine metrology-time 1.6<br />

ine military-act 1.388<br />

en_kontra factotum-state 0.333<br />

en_kontra number-cognition 0.166<br />

en_kontra factotum-location 0.166<br />

en_kontra time_period-time 0.166<br />

en_kontra metrology-quantity 0.166<br />

153


154<br />

galdu.kontuakhitzak.ALL<br />

abl ondo 1<br />

abs aukera 32<br />

abs denbora 24<br />

abs x 13<br />

abs balio 13<br />

abs herri 12<br />

abs tanto 11<br />

abs araba 11<br />

abs kilo 10<br />

abs bizi 8<br />

abs partidu 7<br />

abs indar 6<br />

abs talde 5<br />

abs itxaropen 5<br />

abs zentzu 5<br />

abs nortasun 5<br />

abs enplegu 4<br />

abs moral 4<br />

abs 0 3<br />

abs beldur 3<br />

abs itzuli 3<br />

abs lege 3<br />

abs hauteskunde 3<br />

abs esperantza 3<br />

abs gudalburu 3<br />

abs gogo 3<br />

abs lanpostu 3<br />

abs lau 3<br />

abs diru 3<br />

abs hori 3<br />

abs buru 3<br />

abs pazientzia 3<br />

abs garaikide 2<br />

abs boto 2<br />

abs zati 2<br />

abs gehiago 2<br />

abs konorte 2<br />

abs pertsona 2<br />

abs txapel 2<br />

abs ohitura 2<br />

abs bizitza 2<br />

abs kontrol 2<br />

abs milioi 2<br />

abs dolar 2<br />

abs bat 2<br />

abs garrantzi 2<br />

abs distira 2<br />

abs puntu 2<br />

abs gehiengo 2<br />

abs ahalmen 2<br />

abs errespetu 2<br />

abs guzti 2<br />

abs kausa 2<br />

abs gaitasun 2<br />

abs maila 2<br />

abs boz 2<br />

abs zerbait 2<br />

abs lan 1<br />

abs eraikuntza 1<br />

abs pisu 1<br />

abs sinesgarritasun 1<br />

abs valencia 1<br />

abs itsaspen 1<br />

abs kolore 1<br />

abs norgehiagoka 1<br />

abs esperientzia 1<br />

abs alde 1<br />

abs artxibo 1<br />

abs aparta 1<br />

abs idazle 1<br />

abs entitate 1<br />

abs kolektibo 1<br />

abs buruzagi 1<br />

abs autonomia 1<br />

abs dantza 1<br />

abs lehia 1<br />

abs fede 1<br />

abs norabide 1<br />

abs etxe 1<br />

abs xarma 1<br />

abs estadio 1<br />

abs bikote 1<br />

abs autobus 1<br />

abs final 1<br />

abs sentsibilitate 1<br />

abs ezaugarri 1<br />

abs bozketa 1<br />

abs gobernuburu 1<br />

abs olana 1<br />

abs bi 1<br />

abs gobernu 1<br />

abs bista 1<br />

abs bilbotar 1<br />

abs bala 1<br />

abs ikuspuntu 1<br />

abs segundo 1<br />

abs ezer 1<br />

abs ikusmen 1<br />

abs kontzentrazio 1<br />

abs kurtso 1<br />

abs ipar 1<br />

abs eraginkortasun 1<br />

abs aita 1<br />

abs osasun 1<br />

abs ezker 1<br />

abs protagonismo 1<br />

abs minutu 1<br />

abs hipotesi 1<br />

abs litro 1<br />

abs orkestra 1


abs eskubide 1<br />

abs gidoi 1<br />

abs enpresa 1<br />

abs leku 1<br />

abs hanka 1<br />

abs hortz 1<br />

abs saindu 1<br />

abs auto 1<br />

abs kapital 1<br />

abs bera 1<br />

abs erantzukizun 1<br />

abs baloi 1<br />

abs langile 1<br />

abs sentimendu 1<br />

abs pixka 1<br />

abs horrelako 1<br />

abs grazia 1<br />

abs irudipen 1<br />

abs jaurlaritza 1<br />

abs jende 1<br />

abs inozentzia 1<br />

abs ordezkari 1<br />

abs hutsune 1<br />

abs datu 1<br />

abs hauek 1<br />

abs mozio 1<br />

abs klasiko 1<br />

abs egun 1<br />

abs lasterketa 1<br />

abs bake 1<br />

abs errekurtso 1<br />

abs kanporaketa 1<br />

abs ikasturte 1<br />

abs nagusitasun 1<br />

abs bisitaldi 1<br />

adb alferrik 2<br />

adb ia 2<br />

adb atzo 1<br />

adj berezko 2<br />

adj x 1<br />

adj polar 1<br />

ala ospitale 1<br />

ala lantegi 1<br />

dat gizarte 2<br />

dat bala 1<br />

dat pro 1<br />

dat kontzertu 1<br />

dat klub 1<br />

denb menpekoa 2<br />

en_jabe buru 11<br />

en_kontra azken 1<br />

erg pro 158<br />

erg metodo 12<br />

erg ea 10<br />

erg langile 3<br />

erg x 3<br />

erg agintari 2<br />

erg hori 2<br />

erg bizkaia 2<br />

erg gu 2<br />

erg atezain 1<br />

erg jaialdi 1<br />

erg jabe 1<br />

erg upn 1<br />

erg garate 1<br />

erg ni 1<br />

erg adin 1<br />

erg dantzari 1<br />

erg eraikuntza 1<br />

erg bikote 1<br />

erg behargin 1<br />

erg herritar 1<br />

erg portland 1<br />

erg miarriztar 1<br />

erg dibisio 1<br />

erg gehiengo 1<br />

erg emakume 1<br />

erg erregistro 1<br />

erg preso 1<br />

erg nafarroa 1<br />

erg gerrillari 1<br />

erg zu 1<br />

erg gorostiaga 1<br />

erg 0 1<br />

erg hb 1<br />

erg alderdi 1<br />

erg atxaga 1<br />

erg abertzale 1<br />

erg bi 1<br />

erg errusia 1<br />

erg azterketa 1<br />

erg gasteiztar 1<br />

erg mediku 1<br />

gisa kooperatiba 1<br />

ine gasteiz 11<br />

ine lehia 10<br />

ine behar 10<br />

ine taula 4<br />

ine x 3<br />

ine hilabete 3<br />

ine etxe 2<br />

ine bide 2<br />

ine jaurlaritza 1<br />

ine eae 1<br />

ine bi 1<br />

ine atera 1<br />

ine kilo 1<br />

ine fabrika 1<br />

ine txapelketa 1<br />

ine bat 1<br />

ine partidu 1<br />

ine ordu 1<br />

155


156<br />

ine usta 1<br />

ine aspaldi 1<br />

ine jardunaldi 1<br />

ine gizonezko 1<br />

ine ospakizun 1<br />

ine tarte 1<br />

ine espainia 1<br />

ine hiri 1<br />

ine nazioarte 1<br />

ine istripu 1<br />

ine borroka 1<br />

ine hauteskunde 1<br />

ine hanka 1<br />

ine zati 1<br />

ine goiz 1<br />

ine larunbat 1<br />

ine blokeo 1<br />

ine baloi 1<br />

C.8.4 SemCorreko c2c euskarara itzulita<br />

ine eremu 1<br />

ine ez 1<br />

ine eskola 1<br />

ins ondorio 4<br />

ins 0 1<br />

ins falta 1<br />

ins zoritxar 1<br />

ins momentu 1<br />

ins kilo 1<br />

konp menpekoa 26<br />

mot akats 2<br />

mot 0 1<br />

ra_ko hori 1<br />

soz denbora 1<br />

soz sistema 1<br />

teko menpekoa 13<br />

z menpekoa 1<br />

lose 00620218: c2c objektu hautapen-murriztapenak<br />

00228990 0.229 activity "any specific activity or pursuit;" ONARGARRIA<br />

04668121 0.210 debate disputation public_debate "the formal presentation…"<br />

lose 00620218: c2c subjektu hautapen-murriztapenak<br />

00017008 0.6 group grouping "any number of entities considered as a unit"<br />

ZUZENA<br />

00009469 0.194 object physical_object "a physical entity"<br />

C.8.5 SemCorreko s2semf euskarara itzulita<br />

lose 00620218: s2semf objektu hautapen-murriztapenakseletcional preferences:<br />

factotum-act 1 ONARGARRIA<br />

politics-communication 1<br />

lose 00620218: s2semf subjektu hautapen-murriztapenak<br />

factotum-Tops 2 ONARGARRIA


C.8.6 EFEko w2semf euskarara itzulita<br />

lose: w2semf objektu hautapen-murriztapenak<br />

obj number-quantity 17.666 ZUZENA<br />

obj x 16<br />

obj factotum-state 8.09<br />

obj factotum-act 7.19 ONARGARRIA<br />

obj play-act 5.26 ZUZENA<br />

obj factotum-artifact 5.04<br />

obj quality-attribute 4.96<br />

obj sport-event 4.05 ZUZENA<br />

obj zoology-animal 3.6<br />

obj factotum-cognition 3.2<br />

lose: w2semf subjektu hautapen-murriztapenak<br />

subj x 102 ONARGARRIA<br />

subj administration-group 15.3<br />

subj sport-group 13 ONARGARRIA<br />

subj zoology-group 12.5<br />

subj geography-location 6.83<br />

subj administration-location 6.16<br />

subj number-quantity 5.28<br />

subj chemistry-substance 4.16<br />

subj geography-object 4<br />

subj gastronomy-food 2.40<br />

C.8.7 Ondorioak<br />

Iturria Teknika Kasua Zuzena Onargarria<br />

Eskuratu<br />

gabe<br />

Egunkaria osoa w2semf<br />

abs<br />

erg<br />

10etik 1<br />

10etik 1<br />

10etik 2<br />

10etik 2<br />

4tik 1<br />

2tik 1<br />

Egunkaria<br />

kirolak<br />

w2semf<br />

abs<br />

erg<br />

10etik 2<br />

10etik 1<br />

10etik 2<br />

10etik 2<br />

0<br />

2tik 1<br />

Semcor<br />

c2c<br />

s2semf<br />

obj<br />

subj<br />

obj<br />

subj<br />

0<br />

2tik 1<br />

0<br />

0<br />

2tik 1<br />

0<br />

1tik 1<br />

2tik 1<br />

3tik 2<br />

2tik 1<br />

4tik 2<br />

2tik 2<br />

EFE kirolak w2semf<br />

obj<br />

subj<br />

10etik 3<br />

0<br />

10etik 1<br />

10etik 2<br />

0<br />

2tik 1<br />

157


158<br />

C.9 play_1<br />

C.9.1 Synseta MCRn<br />

00605818v<br />

base concept<br />

competition<br />

Dynamic<br />

Agentive<br />

Purpose<br />

Social<br />

DOMEINUAK:<br />

lock 00605818v 82 play_1 [99%]<br />

lock 00605818v 1 jokatu_2 [99%]<br />

play games, play sports; "We played hockey<br />

all afternoon"; "play cards"<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />

play A 00605818 play sport<br />

C.9.2 Urre patroiak<br />

play 00605818: objektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00240760 sport, athletics "an active diversion requiring physical… "<br />

04771851 contest competition "an occasion on which a winner is selected…"<br />

00254052 game a contest with rules to determine a winner; "you need four…"<br />

09065837 amount of time period period of time time period “a length of…”<br />

w2semf, s2semf:<br />

sport-event<br />

time_period-time<br />

sport-act<br />

play-act<br />

play 00605818: subjektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group


C.9.3 c2c SemCorretik<br />

OBJEKTUAK s2s:<br />

ball 02103632 round object that is hit or thrown or kicked in games.<br />

basketball 00270464 a game played on a court by two opposing teams of 5…<br />

card 02245777 one of a set of small pieces of stiff paper marked in…<br />

football 00263159 any of various games played with a ball in which two…<br />

game 00254326 a single play of a game; "the game lasted 2 hours"<br />

game 00256308 an amusement or pastime<br />

golf 00261291 a game played on a large open course with 9 or 18 holes.<br />

group 00017008 any number of entities (members) considered as a unit<br />

person 00004865 a human being; "there was too much for one person to do"<br />

pinball 00256739 a game played on a sloping board.<br />

rightfield 02836043 the part of the outfield on the catcher's right.<br />

SUBJEKTUAK s2s:<br />

group 00017008 any number of entities (members) considered as a unit<br />

line 05351374 a formation of people or things one after another.<br />

mate 06390424 a fellow member of a team; "it was his first start against…"<br />

nine 08416391 the cardinal number that is the sum of eight and one<br />

person 00004865 a human being; "there was too much for one person to do"<br />

young_man 05971919 a man who is the lover of a girl or young woman<br />

TROPONIMOAK ETA DOMEINUAK:<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />

start A 00607112 Play sport<br />

field A 00611046 Play sport<br />

bet_on A 00646526 Baseball sport<br />

stake A 00646526 Play sport<br />

parlay A 00646865 Play sport<br />

play 00605818: c2c objektu hautapen-murriztapenak<br />

00228990 0.215 activity "any specific activity or pursuit"<br />

STAKE: career (PLAY: football, basketball, geme_3, pinball) ONARGARRIA<br />

00004865 0.117 person individual someone somebody mortal human soul<br />

START: mate<br />

00017008 0.102 group grouping "any number of entities considered as a unit"<br />

FIELD: team (PLAY: The Owls)<br />

00009469 0.071 object physical_object "a physical entity"<br />

(PLAY: card, ball, rightfield)<br />

04771851 0.035 contest competition "an occasion on which a winner is<br />

selected from…" (PLAY: geme_2) ZUZENA<br />

03875944 0.029 interest involvement "a sense of concern with and…"<br />

08162378 0.014 cost "the total spent for goods or services including…"<br />

PARLAY: earnings<br />

01691640 0.011 horse Equus_caballus "solid-hoofed herbivorous quadruped…"<br />

BET_ON: pony<br />

159


160<br />

play 00605818: c2c subjektu hautapen-murriztapenak<br />

00017008 0.517 group grouping "any number of entities considered as a unit"<br />

FIELD: group (“The Orioles”) (PLAY: “The Mustangs, SMU, line) ZUZENA<br />

00004865 0.507 person individual someone somebody mortal human soul<br />

START: H. Haddix eta BET_ON: celebrants (PLAY: mate, youngman…) ZUZENA<br />

00009469 0.079 object physical_object "a physical entity"<br />

08413915 0.032 digit "one of the elements that collectively form a system…"<br />

(PLAY: nine)<br />

03953834 0.032 idea thought "the content of cognition"<br />

C.9.4 w2c SemCorretik<br />

s2s: (ikus B.9.3 atala)<br />

play 00605818: w2c objektu hautapen-murriztapenak<br />

00228990 0.148 activity "any specific activity or pursuit;" ONARGARRIA<br />

00004865 0.105 person individual someone somebody mortal human soul<br />

00009469 0.040 object physical_object "a physical entity"<br />

00017008 0.031 group grouping "any number of entities considered as a unit"<br />

00018599 0.029 communication "something that is communicated between…"<br />

00021098 0.028 action "something done (usually as opposed to something…)"<br />

00018966 0.008 measure quantity amount quantum "how much there is of…"<br />

00015437 0.007 state "the way something is with respect to its main…"<br />

00017586 0.007 attribute "an abstraction belonging to or characteristic…"<br />

04771851 0.006 contest competition "an occasion on which a winner…" ZUZENA<br />

play 00605818: w2c subjektu hautapen-murriztapenak<br />

00004865 0.308 person individual someone somebody mortal human soul ZUZENA<br />

00017008 0.125 group grouping "any number of entities considered…" ZUZENA<br />

00009469 0.059 object physical_object "a physical entity"<br />

00012670 0.043 abstraction "a general concept formed by extracting…"<br />

06467898 0.029 physical_phenomenon "a natural phenomenon involving the…"<br />

08522741 0.016 situation state_of_affairs "the general state of things…"<br />

08125923 0.011 community "common ownership"<br />

00012878 0.008 cognition knowledge "the psychological result of…"<br />

C.9.5 s2semf SemCorretik<br />

play 00605818: s2semf objektu hautapen-murriztapenak<br />

play-act 3.5 ZUZENA<br />

sport-act 1.5 ZUZENA<br />

baseball-artifact 1<br />

factotum-Tops 1 ONARGARRIA<br />

card-artifact 1<br />

play-artifact 0.5<br />

golf-act 0.5 ONARGARRIA<br />

anthropology-Tops 0.5<br />

basketball-act 0.5 ONARGARRIA<br />

sport-artifact 0.5<br />

biology-Tops 0.5


play 00605818: s2semf subjektu hautapen-murriztapenak<br />

number-quantity 1<br />

sport-person 1 ONARGARRIA<br />

factotum-group 1 ZUZENA<br />

factotum-Tops 1 ONARGARRIA<br />

person-person 1 ZUZENA<br />

biology-Tops 0.5<br />

anthropology-Tops 0.5<br />

C.9.6 w2c BNCtik<br />

play: w2c objektu hautapen-murriztapenak<br />

00228990 0.082 activity "any specific activity or pursuit" ONARGARRIA<br />

00009469 0.077 object physical_object "a physical entity"<br />

00004865 0.070 person individual someone somebody mortal human soul<br />

00012670 0.028 abstraction "a general concept formed by extracting…"<br />

00021098 0.020 action "something done (usually as opposed to something…)"<br />

00597858 0.012 group_action "action taken by a group of people"<br />

00012878 0.012 cognition knowledge "the psychological result of…"<br />

04771851 0.009 contest competition "an occasion on which a winner…" ZUZENA<br />

05650477 0.00972182120188812 part piece "a portion of a natural object"<br />

04690182 0.0087730222390469 happening occurrence natural_event<br />

play: w2c subjektu hautapen-murriztapenak<br />

08813320 0.160 helium He atomic_number_2<br />

00004865 0.121 person individual someone somebody mortal human soul ZUZENA<br />

04455766 0.064 he "the 5th letter of the Hebrew alphabet"<br />

00011607 0.043 artifact artefact "a man-made object"<br />

05149489 0.035 organization organisation "a group of people who…" ONARGARRIA<br />

04313427 0.021 message content subject_matter substance<br />

00016649 0.017 act human_action human_activity "something that people do…"<br />

00018966 0.016 measure quantity amount quantum "how much there is of…"<br />

00014314 0.016 location "a point or extent in space"<br />

00012878 0.014 cognition knowledge "the psychological result of…"<br />

w2w:<br />

play: w2w objektuak<br />

play<br />

'cos<br />

After_Wentworth<br />

Afterwards<br />

Alain<br />

Albert_Hall<br />

Albrecht<br />

Alfred<br />

All_Blacks<br />

Allcock<br />

Although<br />

American<br />

Americans<br />

And<br />

Anderlecht<br />

Andy_Lloyd<br />

Anglicised<br />

Argentina<br />

Arsenal<br />

As<br />

At<br />

Australian<br />

Australian_Open<br />

Austria<br />

B<br />

BB<br />

Bach<br />

161<br />

Bach_Brandenburg_Concert<br />

o<br />

Back<br />

Baliol<br />

Ballesteros<br />

Baresi<br />

Because<br />

Becker<br />

Bet<br />

Billy<br />

Blackeyes<br />

Boswell<br />

Botvinnik<br />

Bountiful


162<br />

Brazil<br />

Brownie_Hansen<br />

But<br />

Byron<br />

Cambridge<br />

Canada<br />

Canadian<br />

Captain<br />

Cardiff<br />

Celia<br />

Chariots_Of_Fire<br />

Charlene<br />

Charles_Chaplin<br />

Chile<br />

Chilterns<br />

Chopin<br />

Cinderella<br />

Clark_Kellog<br />

Claudius<br />

Colonel_North<br />

Concerto<br />

Continental<br />

Cork_Constitution<br />

Coventry_City<br />

Cup<br />

Cups_-_is<br />

Czechoslovakia<br />

Dale_Cooper<br />

Dame<br />

David<br />

Davies<br />

Decadence<br />

Del_Harris<br />

Did<br />

Do<br />

Does<br />

Don_Juan<br />

Durham_Wasps<br />

Dutch<br />

East<br />

Eliza<br />

Elvira_Madigan_Moza<br />

rt<br />

England<br />

Equivalent<br />

Essie<br />

Eugene_Marchbanks<br />

Every<br />

Exmouth<br />

Ferdinand<br />

Fife_Flyers<br />

Fiji<br />

Fleance<br />

Football<br />

For<br />

For_McOwan<br />

Four_Nations_Once_A<br />

gain<br />

France<br />

Frankenstein<br />

Fred<br />

Fred_Flintstone<br />

French_Open<br />

Gatsby<br />

Geoff_Williams<br />

Gigi<br />

God<br />

Guatemela<br />

Hamlet<br />

Hana_Mandlikova<br />

Harold_Bishop<br />

He<br />

Herodias<br />

Highland_Laddie<br />

Hodge<br />

Holland<br />

Hotspur<br />

Houston_Astros<br />

I<br />

Iago<br />

If<br />

Ignatius<br />

In<br />

In_Now_Voyager<br />

India<br />

Irish<br />

Irma<br />

Isabella<br />

Israel<br />

Italy<br />

James<br />

James_Bond<br />

Jane<br />

January<br />

Jay_Sigel<br />

Jeff_Tarango<br />

Jerry_Lee<br />

Jessica<br />

Jimmy_Connors<br />

Joe_Orton<br />

John_Ireland<br />

John_Paul_II<br />

Jugoplastika_Split<br />

Juliet<br />

Just<br />

Karpov<br />

Keys<br />

La_Fille_Mal_Gardee<br />

Lady_MacDuff<br />

Lear_-_or_for<br />

Leeds_Town_Centre<br />

Leicester<br />

Let<br />

Lilian<br />

Lithuania<br />

Littlechap<br />

Lola_Lovell<br />

Madge<br />

Malcolm<br />

Marchbanks<br />

Martin<br />

Masters<br />

Max_Davidson<br />

Medea<br />

Mess<br />

Mick_Langley<br />

Mike<br />

Miloslav_Mecir<br />

Monaco<br />

Mother_Simone<br />

Mozart<br />

Mrs_Pearce<br />

Murder<br />

Neath<br />

New_Zealand<br />

Newport<br />

Next_Friday<br />

Nick<br />

Nina_Simone<br />

Northern_Ireland<br />

Norwich<br />

Not<br />

Now<br />

Nowhere<br />

On<br />

On_Sunday<br />

Ophelia<br />

Opo<br />

Oral_Roberts_University<br />

Othello<br />

PE<br />

Pakistan<br />

Part<br />

Partizan<br />

Patience<br />

Peeping_Tom<br />

Peter<br />

Pizza_Express_National_L<br />

eague<br />

Platt<br />

Poulenc<br />

Prelude<br />

Prentice<br />

Prussian<br />

Punjab_XI<br />

Queen<br />

Randall<br />

Randy_Bodek


163<br />

Real_Madrid<br />

Recently<br />

Robbie_Krieger<br />

Robin_Hood<br />

Ronald_Reagan<br />

Rosie_Tickletoe<br />

Rowan_Tree<br />

Roy_Castle<br />

Royal_Albert_Hall<br />

Rugby<br />

Rummidge_University<br />

Sami_Elopuro<br />

Sampdoria<br />

Sarcophagus<br />

Satie<br />

Scot<br />

Scotland<br />

Scott<br />

Shilton<br />

Shylock<br />

Sibelius<br />

Slater<br />

Smiths<br />

Snodin<br />

So<br />

Soma_Singh<br />

Sometimes<br />

South_African<br />

Soviet_Union<br />

Spain<br />

Stars<br />

Stax/Atlantic<br />

Steffi<br />

Sunderland<br />

Surrey<br />

Swansea<br />

Sweden<br />

Tears<br />

Tenth_Symphony<br />

Test<br />

The<br />

The_Elder_Statesman<br />

The_Faces<br />

The_Fool<br />

The_Marquee<br />

The_Olympics<br />

Theatre<br />

Then<br />

Thief<br />

This<br />

This_Lightning_Alwa<br />

ys_Strikes_Twice<br />

Thomas_Indermuhle<br />

Thus<br />

To<br />

Tony_Hancock<br />

Topsy<br />

Torino<br />

Toto<br />

Tourism<br />

Trumpet_Concerto<br />

Twenty_Questions<br />

Undiscovered_Countr<br />

y<br />

United_States<br />

Up_Jenkins<br />

Urbane_Slava<br />

Uruguay<br />

V<br />

Victor_Laszlo<br />

Vincent_Van_Gogh<br />

Viola<br />

Volumnia<br />

We<br />

Wearin<br />

Wendy_Darling<br />

West_Germany<br />

West_Indies<br />

When<br />

While<br />

Wigan<br />

Wimbledon<br />

World_Cup<br />

World_International<br />

_Club_<br />

Championships<br />

Yet<br />

Yugoslavia<br />

accompaniment<br />

accordion<br />

ace<br />

ace_of_clubs<br />

act<br />

adore<br />

agent<br />

air<br />

airs<br />

album<br />

alto-saxophone<br />

antic<br />

anything<br />

anyway_-_probably<br />

area<br />

audio<br />

author<br />

back<br />

backgammon<br />

baddy<br />

badminton<br />

bagpipe<br />

baker<br />

ball<br />

ball-games<br />

ball_game<br />

ballerina<br />

band<br />

banjo<br />

bar<br />

barber<br />

bars<br />

baseball<br />

basketball<br />

bass<br />

batsman<br />

benefit_concert<br />

billing<br />

bit<br />

bitch-goddesses<br />

black<br />

blindfold<br />

bongo<br />

bopeep<br />

boule<br />

bowling<br />

bowls<br />

boy<br />

bridge<br />

brother<br />

bucket-base<br />

bulldozer<br />

bunker<br />

cameo<br />

card<br />

card_game<br />

career<br />

cat<br />

catch<br />

cello<br />

centenary<br />

chamber_music<br />

champion<br />

championship<br />

chanter<br />

char<br />

character<br />

chase<br />

chauffeur<br />

chess<br />

chicken<br />

child<br />

chip<br />

chord<br />

cinderella<br />

circuses<br />

clari<strong>net</strong><br />

classical_music<br />

clown<br />

club


164<br />

cockney<br />

cold<br />

comedy<br />

comic<br />

company<br />

competition<br />

concert<br />

concerto<br />

consul<br />

contest<br />

copy<br />

cornemuse<br />

couple<br />

course<br />

cousin<br />

cowboy<br />

creation<br />

cricket<br />

cup_final<br />

dad<br />

dart<br />

darts<br />

daughter<br />

debut<br />

deep<br />

defeat<br />

defence<br />

designation<br />

detective<br />

dice<br />

dirge<br />

doctor<br />

double<br />

doubles<br />

drama<br />

draw<br />

drawing_room<br />

drop<br />

drug_addict<br />

drum<br />

drummer<br />

drunk<br />

dulcimer<br />

each_other<br />

editor<br />

emigre<br />

enough<br />

environs<br />

equaliser<br />

event<br />

everybody<br />

everything<br />

evil<br />

ex-lovers<br />

ex-policeman<br />

exhibition<br />

explosive<br />

facility<br />

faction<br />

fair<br />

father<br />

favourite<br />

feminist<br />

fermata<br />

fiddle<br />

field<br />

film<br />

final<br />

first<br />

fish<br />

flirt<br />

flute<br />

fly-half<br />

folk_music<br />

football<br />

footsy<br />

for_-_but<br />

forehand_shot<br />

formation<br />

forte<br />

forward<br />

foxtrot<br />

friendlies<br />

full_time<br />

game<br />

game_-_sorry<br />

garden<br />

gear<br />

gig<br />

girl<br />

going_ashore<br />

gold_digger<br />

golf<br />

good_deal<br />

goody<br />

government<br />

great_care<br />

great_power<br />

ground<br />

guitar<br />

guitar_-_without<br />

gunfighters<br />

guy<br />

hall<br />

hand<br />

handful<br />

hard-to-get<br />

havoc<br />

he<br />

head<br />

hearts<br />

heavy<br />

her<br />

hide<br />

him<br />

himself<br />

his<br />

hisown<br />

history<br />

hockey<br />

holder<br />

hole<br />

hook<br />

hooker<br />

host<br />

house<br />

hunch<br />

husband<br />

hymn<br />

importance<br />

increase<br />

information<br />

infrastructure<br />

inning<br />

instrument<br />

instrument_-_even<br />

internationals<br />

interview<br />

issue<br />

it<br />

its<br />

itself<br />

jazz<br />

jazz_band<br />

joke<br />

key<br />

keyboard<br />

kick<br />

knight<br />

knucklebones<br />

labrador<br />

lady<br />

lament<br />

lead<br />

leader<br />

league<br />

leg<br />

length<br />

liking<br />

line<br />

links<br />

lob<br />

local<br />

location<br />

look_-_in<br />

lot<br />

love<br />

lover


165<br />

low<br />

lute<br />

lyre<br />

major<br />

make<br />

man<br />

manner<br />

market<br />

match<br />

matches<br />

material<br />

me<br />

melody<br />

member<br />

minor_role<br />

mogul<br />

moment<br />

mother<br />

move<br />

movement<br />

movie<br />

moving<br />

music<br />

music_-_recorded<br />

musical_chairs<br />

musical_instrument<br />

muzak<br />

nation<br />

national_anthem<br />

negative<br />

nine_iron<br />

nobodies<br />

note<br />

note_-_without<br />

nurse<br />

oboe<br />

officer<br />

official<br />

one-two<br />

opponent<br />

opposite<br />

opposite_number<br />

opposition<br />

oppositon<br />

organ<br />

pachinko<br />

part<br />

partner<br />

parts<br />

pass<br />

passage<br />

patience<br />

people<br />

people_-_he<br />

performance<br />

performer<br />

personnel<br />

phoney<br />

piano<br />

picture<br />

piece<br />

piece_of_music<br />

ping-pong<br />

pipe<br />

place<br />

plastic<br />

player<br />

pleasure<br />

point<br />

poker<br />

police_officer<br />

policeman<br />

policy<br />

politics<br />

poll<br />

polo<br />

pool<br />

pop<br />

power-games<br />

power_politics<br />

ppp<br />

practical_joke<br />

practice<br />

present<br />

prince<br />

princess<br />

private_eye<br />

producer<br />

qualification<br />

quarterback<br />

quotation<br />

racketball<br />

radio<br />

range<br />

realisation<br />

record<br />

recorder<br />

records_-_all<br />

refinement<br />

rehearsal<br />

renegade<br />

repertory<br />

replay<br />

resource<br />

rest<br />

review<br />

revival<br />

rhythm-guitar<br />

role<br />

role_-_that<br />

round<br />

routine<br />

rugby<br />

runners-up<br />

sacrifice<br />

safe<br />

safety<br />

salute<br />

savage<br />

sax<br />

scene<br />

schedule<br />

season<br />

second<br />

second_fiddle<br />

seeded_player<br />

senior<br />

sequence<br />

series<br />

serve-and-volley<br />

set<br />

seventeen-year-olds<br />

shadow<br />

she<br />

shit<br />

shop<br />

shot<br />

show<br />

showcase<br />

side<br />

siege<br />

significance<br />

silly<br />

singer<br />

singles<br />

siren<br />

sniffers<br />

soccer<br />

solo<br />

someone<br />

something<br />

sonata<br />

song<br />

soothsayer<br />

sort<br />

soul<br />

sound<br />

spectacular<br />

spectator<br />

speech<br />

spinner<br />

sport<br />

squash<br />

squawk_-_actually<br />

squeeze_box<br />

stage<br />

standard<br />

standing


166<br />

star<br />

start<br />

stock_market<br />

straight<br />

straight_man<br />

string<br />

stroke<br />

stuff<br />

style<br />

subject<br />

success<br />

support<br />

surface<br />

sweeper<br />

symphonies_-_and_so<br />

symphony<br />

system<br />

table_tennis<br />

tackle<br />

talker<br />

tape<br />

tape_recording<br />

tea<br />

team<br />

team-mate<br />

television<br />

tennis<br />

tenor<br />

term<br />

test<br />

text<br />

that<br />

their<br />

them<br />

theme<br />

themselves<br />

these<br />

thing<br />

third<br />

this<br />

those<br />

thrust<br />

thumb<br />

time<br />

tour<br />

tournament<br />

town<br />

toyboy<br />

traitor<br />

tremolo<br />

trick<br />

trickster<br />

troupe<br />

truant<br />

trump_card<br />

try<br />

tune<br />

tune_-_he<br />

twenty-one<br />

twist<br />

type<br />

tzigane<br />

ukulele<br />

union<br />

unknown<br />

us<br />

vamp<br />

variation<br />

variety<br />

venue<br />

verse<br />

version<br />

victory<br />

video<br />

villain<br />

violin<br />

vote<br />

waiting_game<br />

war<br />

we<br />

well<br />

well_-_doing<br />

well_-_that<br />

what<br />

when_-_as<br />

which<br />

whist<br />

white<br />

who<br />

whole<br />

whom<br />

wife<br />

winner<br />

witch<br />

woman<br />

word<br />

word_game<br />

work<br />

works<br />

workshop<br />

worse<br />

writing<br />

you<br />

your<br />

zzzsssss-on<br />

play:w2w subjektuak<br />

tung<br />

ACET-link<br />

Advertising<br />

Africa<br />

Africans<br />

Ajax<br />

Alan<br />

Alan_Duffy<br />

Alan_Tait<br />

Alec_Guinness<br />

Alexandra_Mathie<br />

Alison_Fiske<br />

Alison_Ramsay<br />

All<br />

All_Leeds<br />

Alto_Ego<br />

Alun_Armstrong<br />

Amadu_Bamba<br />

Amanda_Harris<br />

Americans<br />

And_Evelyn<br />

And_Jerry_Lewis<br />

Anja<br />

Ann_Charleston<br />

Annesley<br />

Annie_Jones<br />

Anthropology<br />

Apoptosis<br />

Arashi<br />

Argentina<br />

Argentinian<br />

As<br />

Asian<br />

Association<br />

At<br />

Audrey<br />

Australia<br />

Australian<br />

BARCELONA<br />

BRIAN_ANDREW<br />

Baa-Baas<br />

Ballesteros<br />

Barcelona<br />

Becker<br />

Berry<br />

Bill<br />

Billie_Jean_King<br />

Birmingham_City<br />

Bobby_Abel<br />

Bogarde<br />

Bolton<br />

Boosey<br />

Both<br />

Bread<br />

Brentford<br />

Brian_O'Donnell<br />

Bridgend<br />

Britain<br />

British_people<br />

Briton<br />

Bruce_Alexander<br />

Bull


167<br />

Bully<br />

Bunce<br />

Busaco<br />

But<br />

But_Olechea<br />

CHEN_XINHUA<br />

Cadet_Diana_Grant<br />

Cambridge_Universit<br />

y<br />

Campbell<br />

Caniggia<br />

Cardiff<br />

Casey<br />

Cash<br />

Certainly_American<br />

Channel_3<br />

Charles<br />

Chen<br />

Chilcott<br />

Children<br />

Chile<br />

Christianity<br />

Christopher_B.<br />

City<br />

Clark_Lectures<br />

Clasper<br />

Coins<br />

Companies<br />

Cordwell<br />

Cross<br />

Crossman<br />

DAVID_FEHERT<br />

DJ<br />

DM<br />

DUP<br />

Daly<br />

Dave_Stringer<br />

Dave_Whelan<br />

David<br />

David_Creasser<br />

David_Feherty<br />

David_Titterington<br />

Davies<br />

Davos<br />

Davy_Spillane<br />

Dennis<br />

Derek<br />

Diana<br />

Diego_Maradona<br />

Dignam<br />

Dittmar<br />

Dominique_Abel<br />

Dorothy<br />

Driver_Oliver<br />

Duke<br />

Dutch<br />

Dwight_York<br />

Dziekanowski<br />

EC<br />

ELLERY_HANLE<br />

East<br />

Eban<br />

Echolocation<br />

Edberg<br />

Elizabeth_Ben<strong>net</strong>t<br />

Ellison<br />

Emma_Bernard<br />

Emo_Philips<br />

England<br />

English<br />

Essex<br />

Evelyn<br />

Events<br />

Evert<br />

Except<br />

Faldo<br />

Fame/It<br />

Family_Day-<br />

_Families<br />

Farmers<br />

Federal_Chancellor<br />

Ferdinand<br />

Fernandel<br />

Fido<br />

Fiji<br />

Five<br />

Flare<br />

Flowered_Up<br />

Forest<br />

Fouroux<br />

Fowl<br />

France<br />

Frank_Bruno<br />

Frankie<br />

Further<br />

GARRY_HARVEY<br />

GARRY_SCHOFIE<br />

GRIMSBY<br />

Gareth_Edwards<br />

Gary_Armstrong<br />

Gen_Beg<br />

General_Noriega<br />

Geoff_Cooke<br />

George<br />

German<br />

German_Democratic_R<br />

epublic<br />

Gerry<br />

Gilchrist<br />

Gloria<br />

Goldoni<br />

Gooch<br />

Government<br />

Graham_Gooch<br />

Grayson<br />

Great_Britain<br />

Greenidge<br />

Grobbelaar<br />

Gullit<br />

Had_Hagi<br />

Had_Liverpool<br />

Hagi<br />

Hakan_Hardenbege<br />

Hale_Irwin<br />

Hamp<br />

Hanley<br />

Hansford<br />

Harriet<br />

Harriet_Walter<br />

Harrison<br />

Harry_de_Tunja<br />

Having<br />

He<br />

Helen_Mirren<br />

Hemmings<br />

Her_Yorkshire_Terrier<br />

Highlander<br />

Hispanic<br />

Hobbs<br />

Hoffmann<br />

Hollywood<br />

Home_Unions_XV<br />

Hopkins<br />

Horace<br />

Horse<br />

Howard_Clark<br />

However<br />

Hudson<br />

Humphries<br />

Hunter<br />

Hussain<br />

I<br />

IAN_SHERRATT<br />

ILLNESS<br />

IRA<br />

ITALY<br />

If<br />

If_Steve<br />

Ilona<br />

Immigration<br />

In<br />

In_London<br />

Ipswich<br />

Irwin<br />

Isla<br />

It<br />

Ivan_Lendl<br />

Jack_Good


168<br />

Jack_Nicholson<br />

Jackman<br />

Jan_Russ<br />

Jane<br />

Janssen<br />

Jason_Strange<br />

Jay<br />

Jazz_FM<br />

Jews<br />

Jez_Harris<br />

Jim_Pugh<br />

Jimmy<br />

Jimmy_Connors<br />

Jo<br />

John_Kirwan<br />

Johnson<br />

Jonathan_Griffiths<br />

Joolz<br />

Just<br />

Karpov<br />

Keen<br />

Kennedy<br />

Kevin_Simms<br />

Kimmins<br />

King<br />

Klepner<br />

Knott<br />

Konitz<br />

Kylie<br />

Labour_Britain<br />

Lamb<br />

Lara<br />

Later<br />

Lawson<br />

Leagues<br />

Lech_Walesa<br />

Lee<br />

Leeds<br />

Len_Shackleton<br />

Lenin<br />

Leonard<br />

Leonel_Alvarez<br />

Lew_Stone_Band<br />

Lewis<br />

Li<br />

Liam_Neeson<br />

Liberal_Democrats<br />

Life<br />

Lionel_Stander<br />

Lisa<br />

Liv_Ullman<br />

Liverpool<br />

Livingston<br />

Llanelli<br />

Lockwood<br />

Louis_Stanley<br />

Lucy<br />

MILLWALL_Football_C<br />

lub<br />

Madonna<br />

Major<br />

Major_Jaromir_Necha<br />

nsky<br />

Mandy_Wainwright<br />

Many<br />

Margaret_Lockwoo<br />

Marshall<br />

Masters_Ballesteros<br />

Mathews<br />

Matthews<br />

Maxim_Vengerov<br />

Mayall<br />

McBurney<br />

McEwan_Younger<br />

McPherson<br />

Meg_Ryan<br />

Mein_Kampf<br />

Mel_Gibson<br />

Merson<br />

Mervyn_King<br />

Mets<br />

Michael_Caine<br />

Michael_Gambon<br />

Michael_Kitchen<br />

Mick<br />

Mike_Kenrick<br />

Miss_Sanchez<br />

Mogilny<br />

Monaco<br />

Moore<br />

Morgan<br />

Morton<br />

Motorfair<br />

Mrs_Thatcher<br />

Murray_Howell<br />

Music<br />

Musicians<br />

NECHAEV<br />

Neath<br />

Neil_Puckering<br />

Nicola_Buxton<br />

Nigel_Terry<br />

No_27<br />

Norman<br />

Northampton<br />

Now<br />

O<br />

ON_A_London_Saturda<br />

y<br />

Obesity<br />

Oh<br />

Old_Testament<br />

On<br />

One<br />

Only_Harris<br />

Only_Willey<br />

Orlando_Thunder<br />

Owen<br />

PPBs<br />

PWL<br />

Paddy_Ashdown<br />

Paisley<br />

Panathinaikos<br />

Parker<br />

Patrick<br />

Patrick_Dempsey<br />

Patrick_Patterson<br />

Patten<br />

Paul<br />

Paul_Loughlin<br />

Paul_Merson<br />

Peers<br />

People<br />

Peter<br />

Phil<br />

Philbert_Jones<br />

Philip<br />

Pilade<br />

Pitt<br />

Porfiry<br />

Pornography<br />

Pound<br />

Press_Council<br />

Prince<br />

Queen_Elizabeth<br />

RAF<br />

Rabin<br />

Rachmaninov<br />

Rafferty<br />

Ralph_Richardson<br />

Ramsey<br />

Ray_McAnally<br />

Realistically<br />

Regimental_Band<br />

Relations<br />

Republic<br />

Richard<br />

Richards<br />

Rick_Wakeman<br />

Rijkaard<br />

Ringo_Starr<br />

Rob_Andrew<br />

Roberto_Donadoni<br />

Robin_Williams<br />

Robson<br />

Rocastle<br />

Rodney_Martin<br />

Roger_Harper


169<br />

Romanians<br />

Rose<br />

Roy_Powell<br />

Rudd<br />

Russian<br />

Sanchez<br />

Sanchez-Vicario<br />

Sandy_Lister<br />

Sasha<br />

Saver<br />

Semillon<br />

Sergei<br />

Shakespeare<br />

Shamir<br />

Shaw<br />

She<br />

Sheffield<br />

Shelford<br />

Shelley_Willetts<br />

Shelton<br />

Short<br />

Shriver<br />

Sibelius_Violin_Con<br />

certo<br />

Silviu_Brucan<br />

Since<br />

Sinton<br />

So<br />

Some<br />

Soon<br />

Southampton<br />

Soviet_Union<br />

Soviets<br />

Spain<br />

Sponsorship<br />

St_Stephen<br />

Stanley_Baxter<br />

Statham<br />

Steffi<br />

Steve<br />

Steve_Stoutt<br />

Stewart<br />

Sunderland<br />

Sylvester_Stallone<br />

The_London_Metal_Ex<br />

change<br />

THE_SLIDE<br />

The_Soviet_Union<br />

Tammuz<br />

Technology<br />

Tendulkar<br />

Terry<br />

Terry_Griffiths<br />

Thames<br />

The<br />

The_Ambrose_Or<br />

chestra<br />

The_Army<br />

The_British<br />

The_British_Prime_M<br />

inister<br />

The_Doors<br />

The_Esk_Valley<br />

The_Festival<br />

The_Gaullist_RPR<br />

The_Grifters_Anjeli<br />

ca_Huston<br />

The_Pakistani<br />

The_Poles<br />

The_Slavia<br />

The_Style_Council<br />

Then<br />

They<br />

This<br />

Thomas<br />

Those<br />

Todd<br />

Tomorrow<br />

Tonight_England<br />

Tony_Blackburn<br />

Torrijos<br />

Treitel<br />

Truman<br />

Trust<br />

Two<br />

UN_High_Commission<br />

Ugly_Sisters<br />

Unlike_Holland<br />

Val_Robinson<br />

Vicini<br />

Viktoria_Mullova<br />

Vivien<br />

Volunteers<br />

Wainwright<br />

Wallace<br />

We<br />

Wendy_Hiller<br />

Werder_Bremen<br />

West_End_Leo_McKern<br />

West_Ham<br />

When<br />

When_Jack_Nickla<br />

When_Kent<br />

When_Lamb<br />

When_Prince<br />

White<br />

Williams<br />

Winter_Gardens<br />

With<br />

Wolstenholme<br />

Women<br />

Woods<br />

Woody<br />

World_Cup<br />

Worrall<br />

Wright<br />

Wyllie<br />

Yet_Binyon<br />

Yet_England<br />

Yorkshire_Asians<br />

You<br />

Yudishthira<br />

Yusupov<br />

Zsuzsa<br />

Zvornik<br />

act<br />

actor<br />

actor-dancers<br />

actors_-_in<br />

actress<br />

adaptation<br />

admirer<br />

affiliation<br />

age<br />

agriculture<br />

air<br />

air_pollution<br />

airstrip<br />

album<br />

anthropology<br />

anybody<br />

arbour<br />

army<br />

art<br />

artist<br />

aspect<br />

assiduity<br />

atmosphere<br />

atom<br />

audition<br />

authority<br />

back<br />

bagpipe<br />

balance<br />

ball<br />

band<br />

bandsmen<br />

bank<br />

base<br />

batsmen<br />

best<br />

bigwig<br />

bimbo<br />

bloke<br />

book<br />

boredom<br />

bottom


170<br />

boy<br />

breeze<br />

brother<br />

busker<br />

buyer<br />

cabi<strong>net</strong>_minister<br />

capitalism<br />

captain<br />

car_park<br />

cassette<br />

cast<br />

cello<br />

challenge<br />

chance<br />

chancellery<br />

character<br />

chief<br />

child<br />

chord<br />

choreographer<br />

church<br />

circuit<br />

city<br />

civil_servant<br />

class<br />

clergy<br />

clock<br />

close_support<br />

club<br />

cog<br />

coinage<br />

combination<br />

company<br />

computer<br />

conductor<br />

conflict<br />

consistency<br />

constituent<br />

consultation<br />

coordination<br />

corruption<br />

costs_-_and_this<br />

council<br />

country<br />

court<br />

coverage<br />

crew<br />

culture<br />

dark_glasses<br />

declarer<br />

defence_policy<br />

defensive<br />

department<br />

design<br />

development<br />

devil<br />

devotee<br />

devotion<br />

donation<br />

drug<br />

economy<br />

election<br />

element<br />

entire<br />

episode<br />

escalation<br />

established_church<br />

event<br />

everybody<br />

experience<br />

facility<br />

factor<br />

factory<br />

familiar<br />

family<br />

fanatic<br />

farmer<br />

father<br />

favourite<br />

federation<br />

fiddler<br />

fighter<br />

figure<br />

finishing<br />

foal<br />

football<br />

force<br />

foreign_office<br />

foremen<br />

friend<br />

fullback<br />

game<br />

general<br />

girl<br />

girlfriend<br />

go<br />

goal<br />

goalkeeper<br />

golfer<br />

gotta<br />

governing<br />

government<br />

grain<br />

gramophone<br />

grandchildren<br />

grazing<br />

group<br />

growth<br />

guitarist<br />

guy<br />

ha-kohen<br />

hand<br />

hath<br />

he<br />

he/she<br />

head<br />

headmaster<br />

her<br />

heroine<br />

him<br />

himself<br />

his<br />

history<br />

homecare<br />

homosexuality<br />

honorarium<br />

house<br />

human<br />

humour<br />

ideal<br />

ideologue<br />

ii<br />

increase<br />

inhibition<br />

inning<br />

intellectual<br />

interest_-_may<br />

internationals<br />

interstice<br />

intricacy<br />

investment<br />

it<br />

joke<br />

joke-tie<br />

key<br />

king<br />

last<br />

lawyer<br />

leader<br />

leg<br />

legend<br />

life<br />

literature<br />

logjam<br />

look<br />

lot<br />

love<br />

majority_rule<br />

majors<br />

man<br />

manager<br />

manufacturer<br />

masochism<br />

match<br />

match_point<br />

matches<br />

materialised_-_that<br />

materialises


171<br />

me<br />

media<br />

melodic_phrase<br />

member<br />

memory<br />

mid-thirties<br />

midfield<br />

mime<br />

mind<br />

moment<br />

money<br />

money_market<br />

monkey<br />

mortality_rate<br />

mother<br />

move<br />

muscle<br />

music<br />

musician<br />

name<br />

nationalization<br />

nativity<br />

negative<br />

neutrino<br />

normal<br />

note<br />

noticeboard<br />

notion<br />

now<br />

number<br />

ocean<br />

office<br />

official<br />

old_man<br />

ones<br />

opener<br />

orchestra<br />

organisers<br />

organization<br />

others<br />

pair<br />

papacy<br />

parent<br />

parliament<br />

parrot<br />

part<br />

participant<br />

party<br />

pastor<br />

patriarch<br />

people<br />

performance<br />

performer<br />

period<br />

person<br />

personality<br />

phone<br />

piece<br />

pitch<br />

place<br />

planning<br />

player<br />

policemen<br />

policy<br />

political_prisoner<br />

premier<br />

premiere<br />

presence<br />

press<br />

pretence<br />

pretending<br />

priest<br />

primitive<br />

pro<br />

problem<br />

process<br />

production<br />

professional<br />

programme<br />

project<br />

projection<br />

proliferation<br />

prop<br />

protest<br />

quantity<br />

radio<br />

radio_station<br />

raid<br />

rank<br />

rebirth<br />

recipient<br />

reconstruction<br />

record<br />

recording<br />

recruit<br />

refuse<br />

regeneration<br />

religion<br />

religious_leader<br />

replay<br />

repression<br />

resource<br />

rest<br />

result<br />

rhapsody<br />

ribbon<br />

risk<br />

rock_group<br />

role<br />

round<br />

routine<br />

rugbymans<br />

runners-up<br />

salesman<br />

satellite<br />

satire<br />

saw<br />

scene<br />

schizoid_-_he<br />

school<br />

script<br />

sculptor<br />

section<br />

sector<br />

self-interest<br />

series<br />

she<br />

shedding<br />

show<br />

side<br />

signing<br />

sitar<br />

size<br />

skill<br />

smile<br />

soccer<br />

someone<br />

son<br />

sponsor<br />

squad<br />

stage<br />

standing<br />

standoff<br />

star<br />

state<br />

station<br />

step<br />

stimulus<br />

storyteller<br />

straight<br />

strait<br />

street<br />

stress<br />

stretch<br />

string<br />

string_orchestra<br />

stroke<br />

student<br />

studio<br />

support<br />

tackling<br />

tails<br />

talent<br />

tax_advantage<br />

taxation<br />

teacher<br />

team<br />

technology


172<br />

television<br />

terrace<br />

that<br />

theatre<br />

their<br />

them<br />

then<br />

they<br />

thing<br />

this<br />

those<br />

time<br />

time_being<br />

tourist<br />

trade_union<br />

train<br />

training<br />

tram<br />

treatment<br />

trio<br />

try<br />

tuna<br />

C.9.7 c2c BNCtik<br />

tune<br />

typification<br />

uncertainty<br />

unconscious<br />

us<br />

user<br />

valley<br />

varicose_vein<br />

venture<br />

volunteer<br />

wanna<br />

want<br />

watershed<br />

we<br />

weapon<br />

what<br />

which<br />

white<br />

who<br />

whole<br />

whom<br />

wife<br />

wind<br />

wing<br />

winner<br />

winning<br />

wolf<br />

woman<br />

work<br />

workmate<br />

workshop<br />

world<br />

worth<br />

writing<br />

wrought<br />

yacht<br />

year_-_he<br />

you<br />

young_man<br />

youngster<br />

your<br />

youth<br />

play 00605818: c2c objektu hautapen-murriztapenak<br />

09065837 0.006 time_period period period_of_time amount_of_time." ZUZENA<br />

08813320 0.004 helium He atomic_number_2…<br />

08520394 0.004 condition status "a condition or state at a particular time"<br />

08534455 0.001 status position "the relative position or standing of…"<br />

08745609 0.001 opportunity chance "a possibility due to a favorable…"<br />

08522741 0.0014897204248221 situation state_of_affairs "the general state…"<br />

08781633 0.001 material stuff "the tangible substance that goes into the…"<br />

08523811 0.0007 relationship "a state involving mutual dealings between…"<br />

09164158 0.0006 playing_period period_of_play play "in games or plays…"<br />

play 00605818: c2c subjektu hautapen-murriztapenak<br />

08813320 0.149 helium He atomic_number_2<br />

09065837 0.005 time_period period period_of_time amount_of_time<br />

08520394 0.003 condition status "a condition or state at a particular time"<br />

09069911 0.002 now "the momentary present"<br />

08807415 0.001 metallic_element metal "any of several chemical elements…"<br />

08534455 0.001 status position "the relative position or standing of…"<br />

08525534 0.001 friendship friendly_relationship "the state of being…"<br />

08781633 0.001 material stuff "the tangible substance that goes into the…"<br />

08522741 0.001 situation state_of_affairs "the general state of things…"


C.9.8 w2semf EFEtik<br />

play: w2semf objektu hautapen-murriztapenak<br />

obj x 100<br />

obj play-act 50.013 ZUZENA<br />

obj factotum-act 30.390 ONARGARRIA<br />

obj time_period-time 29.009 ZUZENA<br />

obj zoology-animal 25.2<br />

obj factotum-artifact 25.026<br />

obj sport-event 23.514 ZUZENA<br />

obj sport-act 23.038 ZUZENA<br />

obj number-quantity 22.957<br />

obj geography-location 16.918<br />

play: w2semf subjektu hautapen-murriztapenak<br />

subj x 372 ONARGARRIA<br />

subj administration-group 168.64<br />

subj chemistry-substance 52.666<br />

subj sport-group 44.010 ONARGARRIA<br />

subj zoology-group 40.5<br />

subj linguistics-communication 38.720<br />

subj physics-substance 34.666<br />

subj geography-location 33.353<br />

subj administration-location 32.315<br />

subj number-quantity 26.642<br />

w2w:<br />

w2w.play.sports.obj<br />

103 game<br />

75 match<br />

30 which<br />

21 team<br />

14 host<br />

13 soccer<br />

10 role<br />

8 Wednesday<br />

7 tournament<br />

7 season<br />

7 man<br />

7 Cup<br />

6 who<br />

6 two<br />

6 Sunday<br />

5 fan<br />

5 defense<br />

5 Juniors<br />

4 year<br />

4 sport<br />

4 series<br />

4 one<br />

4 half<br />

4 Thursday<br />

4 Saturday<br />

4 Bolivar<br />

3 weekend<br />

3 week<br />

3 time<br />

3 three<br />

3 position<br />

3 leader<br />

3 it<br />

3 four<br />

3 final<br />

3 field<br />

3 city<br />

3 championship<br />

3 basketball<br />

3 Peru<br />

3 Madrid<br />

3 Catolica<br />

3 Argentine<br />

2 train<br />

2 round<br />

2 qualifier<br />

2 next<br />

2 midfielder<br />

2 eight<br />

2 each<br />

173


174<br />

2 cup<br />

2 contract<br />

2 club<br />

2 career<br />

2 Uruguay<br />

2 Trinidad<br />

2 Plata<br />

2 Open<br />

2 Nacional<br />

2 Monday<br />

2 Mercosur<br />

2 Lorenzo<br />

2 Lanus<br />

2 July<br />

2 Huracan<br />

2 Guatemala<br />

2 Game<br />

2 Friday<br />

2 Cumparsita<br />

2 Cruz<br />

2 Canada<br />

1 winner<br />

1 wing<br />

1 tie<br />

1 they<br />

1 tennis<br />

1 stadium<br />

1 spectator<br />

1 some<br />

1 six<br />

1 set<br />

1 semifinal<br />

1 result<br />

1 rest<br />

1 rematch<br />

1 playoff<br />

1 play<br />

1 period<br />

1 part<br />

1 organization<br />

1 nine<br />

1 movement<br />

1 more<br />

1 many<br />

1 left<br />

1 league<br />

1 heart<br />

1 guidance<br />

1 goalie<br />

1 goal<br />

1 factor<br />

1 exhibition<br />

1 either<br />

1 defender<br />

1 deal<br />

1 de<br />

1 day<br />

1 da<br />

1 crowd<br />

1 country<br />

1 champ<br />

1 card<br />

1 cannot<br />

1 anyone<br />

1 all<br />

1 Zamorano<br />

1 Union<br />

1 Under<br />

1 Tournament<br />

1 Tobago<br />

1 Tiger<br />

1 Tecnico<br />

1 State<br />

1 South<br />

1 Solano<br />

1 Sept<br />

1 Sarsfield<br />

1 Russell<br />

1 Ronaldo<br />

1 Rica<br />

1 Quito<br />

1 Pueblum<br />

1 Potosi<br />

1 Plate<br />

1 Petrolero<br />

1 Paraguay<br />

1 Palmeiras<br />

1 Olimpia<br />

1 Oeste<br />

1 Oct<br />

1 Oceania<br />

1 Nov<br />

1 Norway<br />

1 National<br />

1 Mexico<br />

1 Maracana<br />

1 Lleida<br />

1 Libertadores<br />

1 La<br />

1 Korea<br />

1 Juventud<br />

1 June<br />

1 Independiente<br />

1 Huachipato<br />

1 Fluminense<br />

1 Flor<br />

1 Dupuis<br />

1 Cruzeiro<br />

1 Confederation<br />

1 Columbus<br />

1 Colon<br />

1 Colombia


1 Colegiales<br />

1 Chile<br />

1 Championship<br />

1 Central<br />

1 Caetano<br />

1 Barbados<br />

1 Bahia<br />

1 Azul<br />

1 Aztec<br />

1 Australia<br />

1 Atlante<br />

1 America<br />

w2w.play.sports.subj<br />

168 who<br />

91 he<br />

81 team<br />

34 I<br />

33 which<br />

30 it<br />

19 they<br />

19 player<br />

18 match<br />

14 we<br />

13 He<br />

11 game<br />

9 club<br />

9 Juniors<br />

8 Boca<br />

7 week<br />

7 Ecuador<br />

7 Brazil<br />

6 squad<br />

6 We<br />

6 Romario<br />

6 Penarol<br />

6 Colombia<br />

6 Chile<br />

5 Plate<br />

5 Paraguay<br />

5 Diego<br />

5 Bolivia<br />

5 America<br />

4 both<br />

4 State<br />

4 Sanchez<br />

4 Rodriguez<br />

4 Peru<br />

4 Pele<br />

4 Mexican<br />

4 Match<br />

4 Maradona<br />

4 Luxemburgo<br />

4 Game<br />

3 three<br />

3 midfielder<br />

3 legend<br />

3 dream<br />

3 Yanes<br />

3 Vasco<br />

3 Uruguay<br />

3 Universitario<br />

3 Ronaldo<br />

3 Plata<br />

3 Petrolero<br />

3 Nacional<br />

3 Moreno<br />

3 Martino<br />

3 Marquez<br />

3 Lorenzo<br />

3 Guadalajara<br />

3 Florentin<br />

3 Danubio<br />

3 Corretja<br />

3 Chivas<br />

3 Canada<br />

3 Caetano<br />

3 Barcelona<br />

3 Azul<br />

3 Armas<br />

3 Argentina<br />

3 Angel<br />

2 win<br />

2 travel<br />

2 tournament<br />

2 time<br />

2 star<br />

2 season<br />

2 point<br />

2 plan<br />

2 offer<br />

2 minute<br />

2 leg<br />

2 goalie<br />

2 five<br />

2 final<br />

2 field<br />

2 end<br />

2 eligibility<br />

2 all<br />

2 Zamorano<br />

2 Venezuelan<br />

2 Union<br />

2 Toluca<br />

2 Tecos<br />

2 Spain<br />

2 Soria<br />

2 Sierra<br />

2 Serna<br />

2 Saturday<br />

2 Safin<br />

2 Ruiz<br />

175


176<br />

2 Rivaldo<br />

2 Rica<br />

2 Ramirez<br />

2 Rafter<br />

2 Porteno<br />

2 Pavon<br />

2 Panama<br />

2 Mexico<br />

2 McGwire<br />

2 It<br />

2 Independiente<br />

2 Huracan<br />

2 Herrera<br />

2 Hernandez<br />

2 Guarani<br />

2 Gama<br />

2 Federation<br />

2 Emelec<br />

2 Edu<br />

2 Defensor<br />

2 Cup<br />

2 Crespo<br />

2 Chilavert<br />

2 Central<br />

2 Caniggia<br />

2 Cameroon<br />

2 Boy<br />

2 Balcell<br />

2 Atlante<br />

2 Argentine<br />

1 year<br />

1 workshop<br />

1 woman<br />

1 wish<br />

1 winner<br />

1 will<br />

1 venue<br />

1 tie<br />

1 this<br />

1 thing<br />

1 then<br />

1 teammate<br />

1 son<br />

1 soccer<br />

1 so<br />

1 she<br />

1 second<br />

1 scoring<br />

1 scorer<br />

1 runner<br />

1 round<br />

1 roster<br />

1 role<br />

1 rival<br />

1 rest<br />

1 respect<br />

1 refusal<br />

1 qualifier<br />

1 promise<br />

1 president<br />

1 practice<br />

1 par<br />

1 pain<br />

1 overall<br />

1 opportunity<br />

1 one<br />

1 number<br />

1 northwest<br />

1 nine<br />

1 most<br />

1 member<br />

1 measure<br />

1 loss<br />

1 line<br />

1 league<br />

1 leader<br />

1 kilometer<br />

1 jersey<br />

1 injury<br />

1 host<br />

1 half<br />

1 goods<br />

1 goaltender<br />

1 goal<br />

1 glory<br />

1 four<br />

1 forward<br />

1 finalist<br />

1 father<br />

1 fate<br />

1 everyone<br />

1 downs<br />

1 difficulty<br />

1 desire<br />

1 defenseman<br />

1 defense<br />

1 country<br />

1 competition<br />

1 coach<br />

1 clasico<br />

1 chance<br />

1 career<br />

1 boy<br />

1 action<br />

1 You<br />

1 Yorke<br />

1 Yegros<br />

1 Vincent<br />

1 Vida<br />

1 Venus<br />

1 Valencia<br />

1 Tuesday


1 Torreon<br />

1 Tolima<br />

1 They<br />

1 Talleres<br />

1 Takeda<br />

1 Suarez<br />

1 Spadea<br />

1 Souza<br />

1 South<br />

1 Sorin<br />

1 Silva<br />

1 Saviola<br />

1 Sarsfield<br />

1 Santos<br />

1 Saenz<br />

1 Ronaldinho<br />

1 Roman<br />

1 Rojas<br />

1 River<br />

1 Riquelme<br />

1 Rios<br />

1 Revenge<br />

1 Raguzza<br />

1 Potosi<br />

1 Pompeya<br />

1 Pocho<br />

1 Platini<br />

1 Perez<br />

1 Ostolaza<br />

1 Oriente<br />

1 Oliveira<br />

1 Oliseh<br />

1 Olimpia<br />

1 Okocha<br />

1 Nike<br />

1 Necaxa<br />

1 Navia<br />

1 Morelia<br />

1 Moran<br />

1 Morales<br />

1 Monterrey<br />

1 Millonarios<br />

1 Meza<br />

1 Melgar<br />

1 Mazzioli<br />

1 Mayo<br />

1 Martinez<br />

1 Marathon<br />

1 Manusovic<br />

1 Madrid<br />

1 Luxembourg<br />

1 Luna<br />

1 Lopez<br />

1 Leao<br />

1 Larsson<br />

1 Lanus<br />

1 Kempes<br />

1 Junior<br />

1 Japan<br />

1 Italiano<br />

1 Honduras<br />

1 Hispanics<br />

1 Guabira<br />

1 Giovagnoli<br />

1 Gimnasia<br />

1 Garbey<br />

1 Gamarra<br />

1 Galaxy<br />

1 Friday<br />

1 Five<br />

1 First<br />

1 Fe<br />

1 Estay<br />

1 Eriksson<br />

1 Enciso<br />

1 Dudamel<br />

1 Devil<br />

1 Delgado<br />

1 Deleva<br />

1 Debhs<br />

1 Cubans<br />

1 Cruz<br />

1 Costa<br />

1 Cordoba<br />

1 Colon<br />

1 Colombians<br />

1 Coach<br />

1 Club<br />

1 Chilean<br />

1 Cesar<br />

1 Celaya<br />

1 Campos<br />

1 Caldete<br />

1 Cabuto<br />

1 Buenos<br />

1 Brazilian<br />

1 Bonano<br />

1 Bellavista<br />

1 Beckles<br />

1 Bebeto<br />

1 Batistuta<br />

1 Bati<br />

1 Atlas<br />

1 Association<br />

1 Arantes<br />

1 American<br />

1 Alvarengo<br />

1 Almagro<br />

1 Alex<br />

1 Aguirrez<br />

1 Afyer<br />

1 Adame<br />

177


178<br />

C.9.9 Ondorioak<br />

Objektuak Subjektuak<br />

Iturria Teknika Zuzena Onargarria Eskuratu Zuzena Onargarria Eskuratu<br />

gabe<br />

gabe<br />

c2c 8tik 1 8tik 1 4tik 1 5etik 2 0 0<br />

SemCor w2c 10etik 1 10etik 1 4tik 1 5etik 2 0 0<br />

s2semf 10etik 2 10etik 3 4tik 2 7tik 2 7tik 2 0<br />

BNC<br />

w2c<br />

10etik 1 10etik 1 4tik 1<br />

10etik<br />

1<br />

10etik 1 0<br />

c2c 10etik 1 0 4tik 3 0 0 2tik 2<br />

EFE w2semf 10etik 4 10etik 1 0 0 10etik 4 2tik 1


C.10 jokatu_2<br />

C.10.1 Synseta MCRn<br />

00605818v<br />

base concept<br />

competition<br />

Dynamic<br />

Agentive<br />

Purpose<br />

Social<br />

DOMEINUAK:<br />

lock 00605818v 82 play_1 [99%]<br />

lock 00605818v 1 jokatu_2 [99%]<br />

179<br />

play games, play sports; "We played hockey<br />

all afternoon"; "play cards"<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />

jokatu A 00605818 play sport<br />

C.10.2 Urre patroiak<br />

jokatu 00605818: Absolutiboa (ABSdu)<br />

c2c, w2c:<br />

04771851 contest competition "an occasion on which a winner is selected…"<br />

09065837 amount of time period period of time time period “a length of…”<br />

00254052 game a contest with rules to determine a winner; "you need four…"<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

sport-event<br />

time_period-time<br />

jokatu 00605818: Ergatiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

jokatu 00605818: Inesiboa<br />

c2c, w2c:<br />

00240760 sport, athletics "an active diversion requiring physical…"<br />

w2semf, s2semf:<br />

sport-act<br />

play-act


180<br />

C.10.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />

jokatu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa)<br />

abs x 33<br />

abs sport-event 18.933 ZUZENA<br />

abs anthropology-group 6.6<br />

abs number-quantity 6.515<br />

abs politics-group 6.504<br />

abs sociology-group 5.671<br />

abs history-group 5.6<br />

abs factotum-act 2.853 ONARGARRIA<br />

abs sport-act 2.646 ZUZENA<br />

abs 0 2<br />

ine x 28<br />

ine time_period-time 7.062<br />

ine tourism-time 4<br />

ine building_industry-artifact 3.009<br />

ine factotum-act 2.3 ONARGARRIA<br />

ine number-quantity 2.272<br />

ine factotum-location 2.138<br />

ine 0 2<br />

ine play-act 1.983 ZUZENA<br />

ine sport-act 1.900 ZUZENA<br />

erg pro 128 ONARGARRIA<br />

erg x 25 ONARGARRIA<br />

erg number-quantity 7<br />

erg 0 3<br />

erg transport-person 1.5<br />

erg geography-person 1<br />

erg administration-person 1<br />

erg basketball-person 1 ONARGARRIA<br />

erg time_period-time 0.6<br />

erg cycling-person 0.25 ONARGARRIA<br />

jokatu.kontuakhitzak.kirolak<br />

abl furgo<strong>net</strong>a 1<br />

abs hagin 2<br />

abs maila 1<br />

abs pixka 1<br />

abs kopuru 1<br />

abs mendate 1<br />

abs alde 1<br />

abs behera 1<br />

abs bizikleta 1<br />

abs hamabost 1<br />

abs apur 1<br />

abu kanpamendu 1<br />

adj x 2<br />

adj lehiari 1<br />

adj behera 1<br />

erg pro 2<br />

erg alberto 1<br />

ine urte 1


ine partidu 1<br />

ins maila 1<br />

soz harrobi 1<br />

jokatu: w2semf hautapen-murriztapenak (corpus osoa)<br />

abs x 40<br />

abs sport-event 31.933 ZUZENA<br />

abs sport-act 13.646 ZUZENA<br />

abs number-quantity 8.515<br />

abs anthropology-group 8.131<br />

abs politics-group 7.004<br />

abs sociology-group 6.671<br />

abs history-group 5.6<br />

abs time_period-time 4.632 ZUZENA<br />

abs factotum-act 3.907 ONARGARRIA<br />

ine x 32<br />

ine time_period-time 7.437<br />

ine factotum-act 4.020 ONARGARRIA<br />

ine tourism-time 4<br />

ine 0 4<br />

ine building_industry-artifact 3.609<br />

ine factotum-location 2.361<br />

ine number-quantity 2.272<br />

ine factotum-state 2.081<br />

ine factotum-group 2.068<br />

erg pro 204 ONARGARRIA<br />

erg x 33 ONARGARRIA<br />

erg number-quantity 7<br />

erg 0 3<br />

erg linguistics-communication 2<br />

erg politics-person 1.601<br />

erg person-person 1.53 ZUZENA<br />

erg transport-person 1.5<br />

erg administration-person 1.365<br />

erg basketball-person 1 ONARGARRIA<br />

jokatu.kontuakhitzak.ALL<br />

abl orain 2<br />

abl hasiera 2<br />

abl ikuspegi 1<br />

abl ezker 1<br />

abl behe 1<br />

abl x 1<br />

abl aurre 1<br />

abl gain 1<br />

abs partidu 28<br />

abs partida 26<br />

abs x 19<br />

abs final 12<br />

abs bider 3<br />

abs paper 3<br />

abs uefa 3<br />

abs izan 3<br />

abs jende 3<br />

abs hamabost 2<br />

abs zati 2<br />

abs egoera 2<br />

abs jokalari 2<br />

abs behar 2<br />

abs berri 2<br />

abs gehiago 2<br />

abs ruben 2<br />

abs liga 2<br />

abs 0 2<br />

abs bat 2<br />

abs gobernu 2<br />

abs gizarte 2<br />

abs talde 2<br />

abs txapelketa 1<br />

abs lagos 1<br />

abs seguru 1<br />

abs antolakuntza 1<br />

181


182<br />

abs jardunaldi 1<br />

abs nahi 1<br />

abs planifikazio 1<br />

abs kontseilari 1<br />

abs eugi 1<br />

abs gurrutxaga 1<br />

abs eraginkortasun 1<br />

abs erabaki 1<br />

abs irabazte 1<br />

abs zabaltzaile 1<br />

abs azkaindar 1<br />

abs txapeldun 1<br />

abs ezer 1<br />

abs soil 1<br />

abs izar 1<br />

abs azken 1<br />

abs abiadura 1<br />

abs garai 1<br />

abs on 1<br />

abs itzuli 1<br />

abs patxi 1<br />

abs baloi 1<br />

abs jaurlaritza 1<br />

abs erakargarri 1<br />

abs amerikar 1<br />

abs elgoibartar 1<br />

abs atezain 1<br />

abs aste 1<br />

abs hegaldi 1<br />

abs lasterketa 1<br />

abs behar_izan 1<br />

abs tanto 1<br />

abs bateratu 1<br />

abs bi 1<br />

abs zuzendari 1<br />

abs hasiera 1<br />

abs arazo 1<br />

abs beldur 1<br />

abs pibot 1<br />

abs patronal 1<br />

abs portland 1<br />

abs lider 1<br />

abs garaipen 1<br />

abs aurrelari 1<br />

abs deus 1<br />

abs txanpa 1<br />

abs garrantzitsu 1<br />

abs asmo 1<br />

abs garrantzi 1<br />

abs akats 1<br />

abs zerikusi 1<br />

abs alde 1<br />

abs abertzale 1<br />

abs oposizio 1<br />

abs mendate 1<br />

adb orain 1<br />

adb nola 1<br />

adb lasai 1<br />

adb maltzurki 1<br />

adb zuzen 1<br />

adb horrela 1<br />

adb bezala 1<br />

adb legez 1<br />

adb honela 1<br />

adb gaur 1<br />

adj zuhur 4<br />

adj berdin 3<br />

adj baikor 3<br />

adj epel 2<br />

adj x 2<br />

adj ahul 1<br />

adj indartsu 1<br />

adj zorrotz 1<br />

adj bizi 1<br />

adj zintzo 1<br />

adj gutxi 1<br />

adj oker 1<br />

adj eskuzabal 1<br />

adj irmo 1<br />

adj axolagabe 1<br />

adj borondatetsu 1<br />

adj gogor 1<br />

adj hotz 1<br />

ala kiniela 11<br />

ala esan 6<br />

ala modu 2<br />

ala era 1<br />

ala kontraeraso 1<br />

ala bote 1<br />

ala eraso 1<br />

ala bi 1<br />

ala bat 1<br />

dat pro 4<br />

dat alderdi 3<br />

dat eh 3<br />

dat politikari 2<br />

dat jaurlaritza 2<br />

dat gobernu 1<br />

dat x 1<br />

dat eaj 1<br />

dat herritar 1<br />

dat alderdikide 1<br />

dat mediku 1<br />

denb menpekoa 4


en_arabera arautegi 2<br />

en_arabera irizpide 1<br />

en_arabera interes 1<br />

en_arabera kode 1<br />

en_arabera zigor 1<br />

en_kontra x 8<br />

en_kontra elkar 3<br />

en_kontra guzti 2<br />

en_kontra goñi 2<br />

en_kontra bartzelon 1<br />

en_kontra izar 1<br />

en_kontra akordio 1<br />

en_kontra talde 1<br />

en_kontra eta 1<br />

en_kontra eugi 1<br />

en_kontra gutxitu 1<br />

en_kontra modernizazio<br />

1<br />

en_kontra politiko 1<br />

en_kontra frantzia 1<br />

en_kontra sevilla 1<br />

en_orde x 1<br />

erg pro 204<br />

erg x 9<br />

erg batzuk 7<br />

erg eugi 4<br />

erg 0 3<br />

erg guzti 3<br />

erg beloki 3<br />

erg pibot 2<br />

erg agintari 2<br />

erg eta 2<br />

erg gu 2<br />

erg galera 1<br />

erg lehen 1<br />

erg kontu 1<br />

erg militar 1<br />

erg presidente 1<br />

erg irundar 1<br />

erg telebista 1<br />

erg sektore 1<br />

erg arrate 1<br />

erg pilotari 1<br />

erg udal 1<br />

erg gizon 1<br />

erg defentsa 1<br />

erg ehu 1<br />

erg iker 1<br />

erg argentinar 1<br />

erg eh 1<br />

erg indar 1<br />

erg aspa 1<br />

erg txirrindulari 1<br />

erg italiar 1<br />

erg imaz 1<br />

erg gobernu 1<br />

erg inor 1<br />

erg antonio 1<br />

erg eragile 1<br />

erg pedro 1<br />

erg martin 1<br />

erg errusia 1<br />

erg ordezkari 1<br />

gisa profesional 1<br />

gisa mezenas 1<br />

gisa subjektu 1<br />

gisa independentista1<br />

helb menpekoa 2<br />

ine x 23<br />

ine postu 7<br />

ine 0 4<br />

ine talde 4<br />

ine eraso 4<br />

ine zati 3<br />

ine igande 3<br />

ine futbol 2<br />

ine etxe 2<br />

ine adar 2<br />

ine maila 2<br />

ine liga 2<br />

ine aste 2<br />

ine partidu 2<br />

ine azaro 2<br />

ine anoa 2<br />

ine behar 2<br />

ine gasteiz 2<br />

ine laurden 2<br />

ine erdi 2<br />

ine guzti 1<br />

ine denboraldi 1<br />

ine area 1<br />

ine auzi 1<br />

ine plano 1<br />

ine jardunaldi 1<br />

ine sasoi 1<br />

ine donosita 1<br />

ine arratsalde 1<br />

ine epaiketa 1<br />

ine asteazken 1<br />

ine hamahiru 1<br />

ine makina 1<br />

ine hori 1<br />

ine biltzar 1<br />

ine prozesu 1<br />

ine goiz 1<br />

ine indarkeria 1<br />

183


184<br />

ine irlanda 1<br />

ine lege 1<br />

ine politika 1<br />

ine erritmo 1<br />

ine hamabi 1<br />

ine minutu 1<br />

ine kontraeraso 1<br />

ine asteburu 1<br />

ine gertaera 1<br />

ine eskubide 1<br />

ine garai 1<br />

ine kanporaketa 1<br />

ine modu 1<br />

ine selekzio 1<br />

ine bera 1<br />

ine golf 1<br />

ine hasiera 1<br />

ine hau 1<br />

ine eraikuntza 1<br />

ine final 1<br />

ine frontoi 1<br />

ine jende 1<br />

ine iruñea 1<br />

ine arte 1<br />

ine defentsa 1<br />

ine ofizial 1<br />

ine merida 1<br />

ine klub 1<br />

ine testuinguru 1<br />

ine karta 1<br />

ine alderdi 1<br />

ine ekipo 1<br />

ine abiada 1<br />

ins erantzukizun 8<br />

ins zentzu 6<br />

ins x 6<br />

ins ardura 4<br />

ins arduragabekeria 3<br />

ins alderdikeria 2<br />

ins fede 2<br />

ins kontu 2<br />

ins zuhurtzia 2<br />

ins malgutasun 1<br />

ins urduritasun 1<br />

ins gizalege 1<br />

ins harrokeria 1<br />

ins seriotasun 1<br />

ins bereizkeria 1<br />

ins segurtasun 1<br />

ins krudelkeria 1<br />

ins ankerkeria 1<br />

ins pragmatismo 1<br />

ins koherentzia 1<br />

ins bat 1<br />

ins inpartzialtasun 1<br />

ins zuhurtasun 1<br />

ins ausardia 1<br />

ins profesionaltasun 1<br />

ins asko 1<br />

ins indar 1<br />

ins ziurtasun 1<br />

ins independentzia 1<br />

ins lasaitasun 1<br />

ins inteligentzia 1<br />

ins aldi 1<br />

ins buru 1<br />

ins errespetu 1<br />

kaus menpekoa 4<br />

konp menpekoa 25<br />

soz gogo 2<br />

soz talde 2<br />

soz x 2<br />

soz selekzio 2<br />

soz erantzukizun 2<br />

soz buru 2<br />

soz gehiengo 1<br />

soz sorta 1<br />

soz moderazio 1<br />

soz defentsa 1<br />

soz politikagintza 1<br />

soz zenbait 1<br />

soz jokalari 1<br />

soz autonomia 1<br />

soz elkar 1<br />

soz kamiseta 1<br />

soz mamu 1<br />

soz putin 1<br />

soz anbiguotasun 1<br />

soz asmo 1<br />

soz errenta 1<br />

soz bibote 1<br />

soz eskema 1<br />

soz izen 1<br />

soz aldagai 1<br />

soz babes 1<br />

soz abantaila 1<br />

soz teoria 1<br />

teko menpekoa 6<br />

z menpekoa 3<br />

zhg menpekoa 1


C.10.4 SemCorreko c2c euskarara itzulita<br />

jokatu 00605818: c2c objektu hautapen-murriztapenak<br />

00228990 0.215 activity "any specific activity or pursuit" ONARGARRIA<br />

00004865 0.117 person individual someone somebody mortal human soul<br />

00017008 0.102 group grouping "any number of entities considered as a unit"<br />

00009469 0.071 object physical_object "a physical entity"<br />

04771851 0.035 contest competition "an occasion on which a winner…" ZUZENA<br />

03875944 0.029 interest involvement "a sense of concern with and…"<br />

08162378 0.014 cost "the total spent for goods or services including…"<br />

01691640 0.011 horse Equus_caballus "solid-hoofed herbivorous quadruped…"<br />

jokatu 00605818: c2c subjektu hautapen-murriztapenak<br />

00017008 0.517 group grouping "any number of entities considered…" ZUZENA<br />

00004865 0.507 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.079 object physical_object "a physical entity"<br />

08413915 0.032 digit "one of the elements that collectively form a system…"<br />

03953834 0.032 idea thought "the content of cognition"<br />

C.10.5 SemCorreko s2semf euskarara itzulita<br />

jokatu 00605818: s2semf objektu hautapen-murriztapenak<br />

play-act 3.5 ZUZENA<br />

sport-act 1.5 ZUZENA<br />

baseball-artifact 1<br />

factotum-Tops 1 ONARGARRIA<br />

card-artifact 1<br />

play-artifact 0.5<br />

golf-act 0.5 ONARGARRIA<br />

anthropology-Tops 0.5<br />

basketball-act 0.5 ONARGARRIA<br />

sport-artifact 0.5<br />

biology-Tops 0.5<br />

jokatu 00605818: s2semf subjektu hautapen-murriztapenak<br />

number-quantity 1<br />

sport-person 1 ONARGARRIA<br />

factotum-group 1 ZUZENA<br />

factotum-Tops 1 ONARGARRIA<br />

person-person 5 ZUZENA<br />

anthropology-Tops 0.5<br />

185


186<br />

C.10.6 EFEtik w2semf euskarara itzulita<br />

play: w2semf objektu hautapen-murriztapenak<br />

obj x 100<br />

obj play-act 50.013 ZUZENA<br />

obj factotum-act 30.390 ONARGARRIA<br />

obj time_period-time 29.009 ZUZENA<br />

obj zoology-animal 25.2<br />

obj factotum-artifact 25.026<br />

obj sport-event 23.514 ZUZENA<br />

obj sport-act 23.038 ZUZENA<br />

obj number-quantity 22.957<br />

obj geography-location 16.918<br />

play: w2semf objektu hautapen-murriztapenak<br />

subj x 372 ONARGARRIA<br />

subj administration-group 168.64<br />

subj chemistry-substance 52.666<br />

subj sport-group 44.010 ONARGARRIA<br />

subj zoology-group 40.5<br />

subj linguistics-communication 38.720<br />

subj physics-substance 34.666<br />

subj geography-location 33.353<br />

subj administration-location 32.315<br />

subj number-quantity 26.642<br />

C.10.7 Ondorioak<br />

Eskuratu<br />

Gabe<br />

abs 10etik 3 10etik 1 0<br />

Iturria Teknika Kasua Zuzena Onargarria<br />

Egunkaria<br />

osoa<br />

Egunkaria<br />

kirola<br />

SemCor<br />

w2semf<br />

w2semf<br />

c2c<br />

s2semf<br />

EFE kirola w2semf<br />

ine 0 10etik 1 0<br />

erg 10etik 1 10etik 3 2tik 1<br />

abs 10etik 2 10etik 1 4tik 1<br />

ine 10etik 2 10etik 1 0<br />

erg 0 10etik 4 2tik 1<br />

obj 8tik 1 8tik 1 4tik 1<br />

subj 5etik 2 0 0<br />

obj 10etik 2 10etik 3 4tik 2<br />

subj 7tik 2 7tik 2 0<br />

obj 10etik 4 10etik 1 0<br />

subj 0 10etik 4 2tik 1


C.11 play_24<br />

C.11.1 Synseta MCRn<br />

00610422v<br />

competition<br />

DOMEINUAK:<br />

lock 00610422v 14 encounter_5 [99%] meet_10 [99%]<br />

play_24 [99%]<br />

lock 00610422v 0 jokatu_3 [99%]<br />

contend against an<br />

opponent in a sport or<br />

game; "Princeton plays<br />

Yale this weekend<br />

HITZA<br />

play,<br />

KATEGORIA SYNSET DOMEINUA DOMEINUA DOMEINUA<br />

encounter,<br />

take_on, meet<br />

A 00610422 play sport military<br />

C.11.2 Urre patroiak<br />

play 00605818: objektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

play 00605818: subjektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities (members) considered as a<br />

unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

187


188<br />

C.11.3 c2c SemCorretik<br />

OBJEKTUAK s2s:<br />

encounter 00610422<br />

difficulty 08705942: a situation or condition almost beyond one's<br />

ability to deal with and requiring great effort to bear or overcome:<br />

"grappling with financial difficulties"<br />

meet 00610422<br />

group 00017008 any number of entities (members) considered as a unit<br />

situation 08522741 the general state of things; the combination of<br />

circumstances at a given time; "the present international situation<br />

is dangerous"; "wondered how such a state of affairs had come about"<br />

SUBJEKTUAK s2s:<br />

meet 00610422<br />

men 05228538 the force of workers available<br />

TROPONIMOAK ETA DOMEINUAK:<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA DOMEINUA<br />

confront A 00609871 play sport military<br />

face A 00609871 play sport military<br />

oppose A 00610795 play sport military<br />

OBJEKTUAK s2s eta s2s-hype:<br />

encounter/meet >><br />

confront 00609871 oppose in hostility; "confront an opponent"<br />

cat 01457160 feline mammal usu. having thick soft fur and being…<br />

entity 00002403 something having concrete existence…<br />

person 00004865 a human being; "there was too much for one person…"<br />

encounter/meet >><br />

face 00609871 oppose in hostility<br />

person 00004865 a human being; "there was too much for one person…"<br />

inquisitor 06150734 a questioner who is excessively harsh<br />

industry 05158405 the people engaged in a particular kind of…<br />

mystery 03877128 something that baffles understanding; "how it got…"<br />

conflict 03334874 an incompatibility of dates or events<br />

fact 04338930 a statement or assertion of verified information about…<br />

hurdle 02639559 a light movable barrier that competitors must leap…<br />

task 00398968 a specific piece of work required to be done as a duty<br />

terror 04810560 an overwhelming feeling of fear and anxiety<br />

encounter/meet >> oppose 00610795 set into opposition or rivalry<br />

champion 05991011 someone who has won first place in a competition


SUBJEKTUAK s2s eta s2s-hype:<br />

meet >> confront 00609871<br />

person 00004865 person individual someone somebody mortal human soul<br />

meet >> face 00609871<br />

fate 04714117 an event that will happen in the future<br />

nine 08416391 the cardinal number that is the sum of eight and one<br />

resolution 04265758 a formal expression by a meeting; agreed to by a…<br />

union 05242031 an organization of employees formed to bargain with…<br />

meet >> oppose 00610795<br />

person 00004865 person individual someone somebody mortal human soul<br />

play, encounter, take_on, meet 00610422: c2c objektu hautapen-murriztapenak<br />

00004865 0.194 person individual someone somebody mortal human soul ZUZENA<br />

00017008 0.11 group grouping "any number of entities considered as…" ZUZENA<br />

00015437 0.0949 state "the way something is with respect to its main…"<br />

00009469 0.0585 object physical_object "a physical entity"<br />

00018599 0.022 communication "something that is communicated between…"<br />

01237932 0.018 placental placental_mammal eutherian eutherian_mammal<br />

00228990 0.014 activity "any specific activity or pursuit"<br />

04785784 0.014emotion "any strong feeling"<br />

03338771 0.013 quality "an essential and distinguishing attribute of…"<br />

play, encounter, take_on, meet 00610422: c2c subjektu hautapen-murriztapenak<br />

00004865 0.254 person individual someone somebody mortal human soul ZUZENA<br />

05149489 0.131 organization organisation "a group of people…" ONARGARRIA<br />

04690182 0.069 happening occurrence natural_event "an event that happens"<br />

00018599 0.043 communication "something that is communicated between…"<br />

08413915 0.037 digit "one of the elements that collectively form a system…"<br />

C.11.4 w2c SemCorretik<br />

s2s: (ikus B.11.3 atala)<br />

play: w2c objektu hautapen-murriztapenak<br />

00228990 0.148 activity "any specific activity or pursuit"<br />

00004865 0.105 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.040 object physical_object "a physical entity"<br />

00017008 0.031 group grouping "any number of entities considered…" ZUZENA<br />

00018599 0.029 communication "something that is communicated between…"<br />

00021098 0.028 action "something done (usually as opposed to something…)"<br />

00018966 0.008 measure quantity amount quantum "how much there is of…"<br />

00015437 0.007 state "the way something is with respect to its main…"<br />

00017586 0.007 attribute "an abstraction belonging to or characteristic…"<br />

04771851 0.006 contest competition "an occasion on which a winner is<br />

selected from…"<br />

189


190<br />

play: w2c subjektu hautapen-murriztapenak<br />

00004865 0.308 person individual someone somebody mortal human soul ZUZENA<br />

00017008 0.125 group grouping "any number of entities considered…" ZUZENA<br />

00009469 0.059 object physical_object "a physical entity"<br />

00012670 0.043 abstraction "a general concept formed by extracting common…"<br />

06467898 0.029 physical_phenomenon "a natural phenomenon involving the…"<br />

08522741 0.016 situation state_of_affairs "the general state of things…"<br />

08125923 0.011 community "common ownership"<br />

00012878 0.008 cognition knowledge "the psychological result of…"<br />

meet: w2c objektu hautapen-murriztapenak<br />

00004865 0.291 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.090 object physical_object "a physical entity"<br />

05763289 0.037 necessity essential requirement requisite necessary<br />

00015437 0.0299 state "the way something is with respect to its main…"<br />

00017008 0.024 group grouping "any number of entities considered…" ZUZENA<br />

00012878 0.022 cognition knowledge "the psychological result of…"<br />

00597858 0.018 group_action "action taken by a group of people"<br />

00012670 0.017 abstraction "a general concept formed by extracting common…"<br />

08284222 0.008 demand "the ability and desire to purchase goods and…"<br />

00013522 0.007 feeling "the psychological feature of experiencing…"<br />

meet : w2c subjektu hautapen-murriztapenak<br />

00004865 0.184 person individual someone somebody mortal human soul ZUZENA<br />

00018599 0.061 communication "something that is communicated between…"<br />

00009469 0.046 object physical_object "a physical entity"<br />

00012878 0.040 cognition knowledge "the psychological result of…"<br />

03659531 0.037 eye oculus optic peeper "the organ of sight (`peeper' is…)"<br />

00017586 0.026 attribute "an abstraction belonging to or characteristic…"<br />

00228990 0.023 activity "any specific activity or pursuit"<br />

00018966 0.021 measure quantity amount quantum "how much there is of…"<br />

01237932 0.017 placental placental_mammal eutherian eutherian_mammal<br />

encounter: w2c objektu hautapen-murriztapenak<br />

00004865 0.284 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.115 object physical_object "a physical entity"<br />

08520394 0.055 condition status "a condition or state at a particular time"<br />

04734123 0.051 blend "an occurrence of thorough mixing"<br />

01237932 0.045 placental placental_mammal eutherian eutherian_mammal<br />

encounter: w2c subjektu hautapen-murriztapenak<br />

00647048 0.184 blow "a powerful stroke with the fist or a weapon"<br />

05132844 0.162 gathering assemblage "a group of persons together in one<br />

place"


C.11.5 s2semf SemCorretik<br />

encounter, meet 00610422: s2semf objektu hautapen-murriztapenak<br />

encounter 00610422<br />

factotum-state 1<br />

meet 00610422<br />

factotum-Tops 1 ONARGARRIA<br />

factotum-state 1<br />

encounter, meet 00610422: s2semf subjektu hautapen-murriztapenak<br />

meet 00610422<br />

economy-group 1<br />

C.11.6 w2c BNCtik<br />

play: w2c objektu hautapen-murriztapenak<br />

00228990 0.082 activity "any specific activity or pursuit"<br />

00009469 0.077 object physical_object "a physical entity"<br />

00004865 0.070 person individual someone somebody mortal human soul ZUZENA<br />

00012670 0.028 abstraction "a general concept formed by extracting…"<br />

00021098 0.020 action "something done (usually as opposed to something…)"<br />

00597858 0.012 group_action "action taken by a group of people"<br />

00012878 0.012 cognition knowledge "the psychological result of…"<br />

04771851 0.009 contest competition "an occasion on which a winner is…"<br />

05650477 0.00972182120188812 part piece "a portion of a natural object"<br />

04690182 0.0087730222390469 happening occurrence natural_event<br />

play: w2c subjektu hautapen-murriztapenak<br />

08813320 0.160 helium He atomic_number_2<br />

00004865 0.121 person individual someone somebody mortal human soul. ZUZENA<br />

04455766 0.064 he "the 5th letter of the Hebrew alphabet"<br />

00011607 0.043 artifact artefact "a man-made object"<br />

05149489 0.035 organization organisation "a group of people who…" ONARGARRIA<br />

04313427 0.021 message content subject_matter substance<br />

00016649 0.017 act human_action human_activity "something that people do…"<br />

00018966 0.016 measure quantity amount quantum "how much there is of…"<br />

00014314 0.016 location "a point or extent in space"<br />

00012878 0.014 cognition knowledge "the psychological result of…"<br />

encounter: w2c objektu hautapen-murriztapenak<br />

00004865 0.096 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.061 object physical_object "a physical entity"<br />

00018599 0.046 communication "something that is communicated between…"<br />

00012878 0.041 cognition knowledge "the psychological result of…"<br />

00015437 0.033 state "the way something is with respect to its main…"<br />

00016649 0.025 act human_action human_activity "something that people do…"<br />

00017586 0.020 attribute "an abstraction belonging to or characteristic…"<br />

00018966 0.018 measure quantity amount quantum "how much there is of…"<br />

00017008 0.017 group grouping "any number of entities considered…" ZUZENA<br />

04690182 0.008 happening occurrence natural_event "an event that happens"<br />

191


192<br />

encounter: w2c subjektu hautapen-murriztapenak<br />

08813320 0.249 helium He atomic_number_2<br />

04455766 0.100he "the 5th letter of the Hebrew alphabet"<br />

00004865 0.083 person individual someone somebody mortal human soul ZUZENA<br />

00011607 0.034 artifact message content subject_matter substance<br />

00017008 0.029 group grouping "any number of entities considered as…" ZUZENA<br />

04195435 0.018 writing written_material "reading matter…"<br />

00012878 0.017 cognition knowledge "the psychological result of…"<br />

00016649 0.016 act human_action human_activity "something that people do…"<br />

00018966 0.015 measure quantity amount quantum "how much there is of…"<br />

meet: w2c objektu hautapen-murriztapenak<br />

00004865 0.185 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.054 object physical_object "a physical entity"<br />

00017008 0.040 group grouping "any number of entities considered as…" ZUZENA<br />

00012670 0.027 abstraction "a general concept formed by extracting common…"<br />

08162378 0.0193 cost "the total spent for goods or services including…"<br />

00012878 0.0182 cognition knowledge "the psychological result of…"<br />

00016649 0.016 act human_action human_activity "something that people do…"<br />

00015437 0.012 state "the way something is with respect to its main…"<br />

00008030 0.006 animal animate_being beast brute creature fauna<br />

08179398 0.005 asset "anything of material value or usefulness"<br />

meet: w2c subjektu hautapen-murriztapenak<br />

08813320 0.163 helium He atomic_number_2<br />

00004865 0.149 person individual someone somebody mortal human soul ZUZENA<br />

04455766 0.064 he "the 5th letter of the Hebrew alphabet"<br />

00011607 0.048 artifact artefact "a man-made object"<br />

05119847 0.037 social_group "people sharing some social relation" ONARGARRIA<br />

00014314 0.019 location "a point or extent in space"<br />

04313427 0.018 message content subject_matter substance<br />

00012878 0.013 cognition knowledge "the psychological result of…"<br />

00018966 0.011 measure quantity amount quantum "how much there is of…"<br />

00016649 0.009 act human_action human_activity "something that people do…"<br />

w2w:<br />

play: w2w objektuak<br />

play<br />

'cos<br />

After_Wentworth<br />

Afterwards<br />

Alain<br />

Albert_Hall<br />

Albrecht<br />

Alfred<br />

All_Blacks<br />

Allcock<br />

Although<br />

American<br />

Americans<br />

And<br />

Anderlecht<br />

Andy_Lloyd<br />

Anglicised<br />

Argentina<br />

Arsenal<br />

As<br />

At<br />

Australian<br />

Australian_Open<br />

Austria<br />

B<br />

BB<br />

Bach<br />

Bach_Brandenburg_Conc<br />

erto<br />

Back<br />

Baliol<br />

Ballesteros<br />

Baresi<br />

Because<br />

Becker<br />

Bet<br />

Billy<br />

Blackeyes<br />

Boswell<br />

Botvinnik<br />

Bountiful<br />

Brazil<br />

Brownie_Hansen<br />

But<br />

Byron<br />

Cambridge<br />

Canada<br />

Canadian<br />

Captain<br />

Cardiff<br />

Celia<br />

Chariots_Of_Fire<br />

Charlene


193<br />

Charles_Chaplin<br />

Chile<br />

Chilterns<br />

Chopin<br />

Cinderella<br />

Clark_Kellog<br />

Claudius<br />

Colonel_North<br />

Concerto<br />

Continental<br />

Cork_Constitution<br />

Coventry_City<br />

Cup<br />

Cups_-_is<br />

Czechoslovakia<br />

Dale_Cooper<br />

Dame<br />

David<br />

Davies<br />

Decadence<br />

Del_Harris<br />

Did<br />

Do<br />

Does<br />

Don_Juan<br />

Durham_Wasps<br />

Dutch<br />

East<br />

Eliza<br />

Elvira_Madigan_Mozart<br />

England<br />

Equivalent<br />

Essie<br />

Eugene_Marchbank<br />

Every<br />

Exmouth<br />

Ferdinand<br />

Fife_Flyers<br />

Fiji<br />

Fleance<br />

Football<br />

For<br />

For_McOwan<br />

Four_Nations_Once_Aga<br />

in<br />

France<br />

Frankenstein<br />

Fred<br />

Fred_Flintstone<br />

French_Open<br />

Gatsby<br />

Geoff_Williams<br />

Gigi<br />

God<br />

Guatemela<br />

Hamlet<br />

Hana_Mandlikova<br />

Harold_Bishop<br />

He<br />

Herodias<br />

Highland_Laddie<br />

Hodge<br />

Holland<br />

Hotspur<br />

Houston_Astros<br />

I<br />

Iago<br />

If<br />

Ignatius<br />

In<br />

In_Now_Voyager<br />

India<br />

Irish<br />

Irma<br />

Isabella<br />

Israel<br />

Italy<br />

James<br />

James_Bond<br />

Jane<br />

January<br />

Jay_Sigel<br />

Jeff_Tarango<br />

Jerry_Lee<br />

Jessica<br />

Jimmy_Connors<br />

Joe_Orton<br />

John_Ireland<br />

John_Paul_II<br />

Jugoplastika_Split<br />

Juliet<br />

Just<br />

Karpov<br />

Keys<br />

La_Fille_Mal_Gardee<br />

Lady_MacDuff<br />

Lear_-_or_for<br />

Leeds_Town_Centre<br />

Leicester<br />

Let<br />

Lilian<br />

Lithuania<br />

Littlechap<br />

Lola_Lovell<br />

Madge<br />

Malcolm<br />

Marchbanks<br />

Martin<br />

Masters<br />

Max_Davidson<br />

Medea<br />

Mess<br />

Mick_Langley<br />

Mike<br />

Miloslav_Mecir<br />

Monaco<br />

Mother_Simone<br />

Mozart<br />

Mrs_Pearce<br />

Murder<br />

Neath<br />

New_Zealand<br />

Newport<br />

Next_Friday<br />

Nick<br />

Nina_Simone<br />

Northern_Ireland<br />

Norwich<br />

Not<br />

Now<br />

Nowhere<br />

On<br />

On_Sunday<br />

Ophelia<br />

Opo<br />

Oral_Roberts_Universi<br />

ty<br />

Othello<br />

PE<br />

Pakistan<br />

Part<br />

Partizan<br />

Patience<br />

Peeping_Tom<br />

Peter<br />

Pizza_Express_Nationa<br />

l_League<br />

Platt<br />

Poulenc<br />

Prelude<br />

Prentice<br />

Prussian<br />

Punjab_XI<br />

Queen<br />

Randall<br />

Randy_Bodek<br />

Real_Madrid<br />

Recently<br />

Robbie_Krieger<br />

Robin_Hood<br />

Ronald_Reagan<br />

Rosie_Tickletoe<br />

Rowan_Tree<br />

Roy_Castle<br />

Royal_Albert_Hall<br />

Rugby<br />

Rummidge_University<br />

Sami_Elopuro


194<br />

Sampdoria<br />

Sarcophagus<br />

Satie<br />

Scot<br />

Scotland<br />

Scott<br />

Shilton<br />

Shylock<br />

Sibelius<br />

Slater<br />

Smiths<br />

Snodin<br />

So<br />

Soma_Singh<br />

Sometimes<br />

South_African<br />

Soviet_Union<br />

Spain<br />

Stars<br />

Stax/Atlantic<br />

Steffi<br />

Sunderland<br />

Surrey<br />

Swansea<br />

Sweden<br />

Tears<br />

Tenth_Symphony<br />

Test<br />

The<br />

The_Elder_Statesman<br />

The_Faces<br />

The_Fool<br />

The_Marquee<br />

The_Olympics<br />

Theatre<br />

Then<br />

Thief<br />

This<br />

This_Lightning_Always<br />

_Strikes_Twice<br />

Thomas_Indermuhle<br />

Thus<br />

To<br />

Tony_Hancock<br />

Topsy<br />

Torino<br />

Toto<br />

Tourism<br />

Trumpet_Concerto<br />

Twenty_Questions<br />

Undiscovered_Country<br />

United_States<br />

Up_Jenkins<br />

Urbane_Slava<br />

Uruguay<br />

V<br />

Victor_Laszlo<br />

Vincent_Van_Gogh<br />

Viola<br />

Volumnia<br />

We<br />

Wearin<br />

Wendy_Darling<br />

West_Germany<br />

West_Indies<br />

When<br />

While<br />

Wigan<br />

Wimbledon<br />

World_Cup<br />

World_International_C<br />

lub_Championships<br />

Yet<br />

Yugoslavia<br />

accompaniment<br />

accordion<br />

ace<br />

ace_of_clubs<br />

act<br />

adore<br />

agent<br />

air<br />

airs<br />

album<br />

alto-saxophone<br />

antic<br />

anything<br />

anyway_-_probably<br />

area<br />

audio<br />

author<br />

back<br />

backgammon<br />

baddy<br />

badminton<br />

bagpipe<br />

baker<br />

ball<br />

ball-games<br />

ball_game<br />

ballerina<br />

band<br />

banjo<br />

bar<br />

barber<br />

bars<br />

baseball<br />

basketball<br />

bass<br />

batsman<br />

benefit_concert<br />

billing<br />

bit<br />

bitch-goddesses<br />

black<br />

blindfold<br />

bongo<br />

bopeep<br />

boule<br />

bowling<br />

bowls<br />

boy<br />

bridge<br />

brother<br />

bucket-base<br />

bulldozer<br />

bunker<br />

cameo<br />

card<br />

card_game<br />

career<br />

cat<br />

catch<br />

cello<br />

centenary<br />

chamber_music<br />

champion<br />

championship<br />

chanter<br />

char<br />

character<br />

chase<br />

chauffeur<br />

chess<br />

chicken<br />

child<br />

chip<br />

chord<br />

cinderella<br />

circuses<br />

clari<strong>net</strong><br />

classical_music<br />

clown<br />

club<br />

cockney<br />

cold<br />

comedy<br />

comic<br />

company<br />

competition<br />

concert<br />

concerto<br />

consul<br />

contest<br />

copy<br />

cornemuse<br />

couple<br />

course


195<br />

cousin<br />

cowboy<br />

creation<br />

cricket<br />

cup_final<br />

dad<br />

dart<br />

darts<br />

daughter<br />

debut<br />

deep<br />

defeat<br />

defence<br />

designation<br />

detective<br />

dice<br />

dirge<br />

doctor<br />

double<br />

doubles<br />

drama<br />

draw<br />

drawing_room<br />

drop<br />

drug_addict<br />

drum<br />

drummer<br />

drunk<br />

dulcimer<br />

each_other<br />

editor<br />

emigre<br />

enough<br />

environs<br />

equaliser<br />

event<br />

everybody<br />

everything<br />

evil<br />

ex-lovers<br />

ex-policeman<br />

exhibition<br />

explosive<br />

facility<br />

faction<br />

fair<br />

father<br />

favourite<br />

feminist<br />

fermata<br />

fiddle<br />

field<br />

film<br />

final<br />

first<br />

fish<br />

flirt<br />

flute<br />

fly-half<br />

folk_music<br />

football<br />

footsy<br />

for_-_but<br />

forehand_shot<br />

formation<br />

forte<br />

forward<br />

foxtrot<br />

friendlies<br />

full_time<br />

game<br />

game_-_sorry<br />

garden<br />

gear<br />

gig<br />

girl<br />

going_ashore<br />

gold_digger<br />

golf<br />

good_deal<br />

goody<br />

government<br />

great_care<br />

great_power<br />

ground<br />

guitar<br />

guitar_-_without<br />

gunfighters<br />

guy<br />

hall<br />

hand<br />

handful<br />

hard-to-get<br />

havoc<br />

he<br />

head<br />

hearts<br />

heavy<br />

her<br />

hide<br />

him<br />

himself<br />

his<br />

hisown<br />

history<br />

hockey<br />

holder<br />

hole<br />

hook<br />

hooker<br />

host<br />

house<br />

hunch<br />

husband<br />

hymn<br />

importance<br />

increase<br />

information<br />

infrastructure<br />

inning<br />

instrument<br />

instrument_-_even<br />

internationals<br />

interview<br />

issue<br />

it<br />

its<br />

itself<br />

jazz<br />

jazz_band<br />

joke<br />

key<br />

keyboard<br />

kick<br />

knight<br />

knucklebones<br />

labrador<br />

lady<br />

lament<br />

lead<br />

leader<br />

league<br />

leg<br />

length<br />

liking<br />

line<br />

links<br />

lob<br />

local<br />

location<br />

look_-_in<br />

lot<br />

love<br />

lover<br />

low<br />

lute<br />

lyre<br />

major<br />

make<br />

man<br />

manner<br />

market<br />

match<br />

matches<br />

material<br />

me<br />

melody<br />

member


196<br />

minor_role<br />

mogul<br />

moment<br />

mother<br />

move<br />

movement<br />

movie<br />

moving<br />

music<br />

music_-_recorded<br />

musical_chairs<br />

musical_instrument<br />

muzak<br />

nation<br />

national_anthem<br />

negative<br />

nine_iron<br />

nobodies<br />

note<br />

note_-_without<br />

nurse<br />

oboe<br />

officer<br />

official<br />

one-two<br />

opponent<br />

opposite<br />

opposite_number<br />

opposition<br />

oppositon<br />

organ<br />

pachinko<br />

part<br />

partner<br />

parts<br />

pass<br />

passage<br />

patience<br />

people<br />

people_-_he<br />

performance<br />

performer<br />

personnel<br />

phoney<br />

piano<br />

picture<br />

piece<br />

piece_of_music<br />

ping-pong<br />

pipe<br />

place<br />

plastic<br />

player<br />

pleasure<br />

point<br />

poker<br />

police_officer<br />

policeman<br />

policy<br />

politics<br />

poll<br />

polo<br />

pool<br />

pop<br />

power-games<br />

power_politics<br />

ppp<br />

practical_joke<br />

practice<br />

present<br />

prince<br />

princess<br />

private_eye<br />

producer<br />

qualification<br />

quarterback<br />

quotation<br />

racketball<br />

radio<br />

range<br />

realisation<br />

record<br />

recorder<br />

records_-_all<br />

refinement<br />

rehearsal<br />

renegade<br />

repertory<br />

replay<br />

resource<br />

rest<br />

review<br />

revival<br />

rhythm-guitar<br />

role<br />

role_-_that<br />

round<br />

routine<br />

rugby<br />

runners-up<br />

sacrifice<br />

safe<br />

safety<br />

salute<br />

savage<br />

sax<br />

scene<br />

schedule<br />

season<br />

second<br />

second_fiddle<br />

seeded_player<br />

senior<br />

sequence<br />

series<br />

serve-and-volley<br />

set<br />

seventeen-year-olds<br />

shadow<br />

she<br />

shit<br />

shop<br />

shot<br />

show<br />

showcase<br />

side<br />

siege<br />

significance<br />

silly<br />

singer<br />

singles<br />

siren<br />

sniffers<br />

soccer<br />

solo<br />

someone<br />

something<br />

sonata<br />

song<br />

soothsayer<br />

sort<br />

soul<br />

sound<br />

spectacular<br />

spectator<br />

speech<br />

spinner<br />

sport<br />

squash<br />

squawk_-_actually<br />

squeeze_box<br />

stage<br />

standard<br />

standing<br />

star<br />

start<br />

stock_market<br />

straight<br />

straight_man<br />

string<br />

stroke<br />

stuff<br />

style<br />

subject<br />

success<br />

support<br />

surface<br />

sweeper


197<br />

symphonies_-_and_so<br />

symphony<br />

system<br />

table_tennis<br />

tackle<br />

talker<br />

tape<br />

tape_recording<br />

tea<br />

team<br />

team-mate<br />

television<br />

tennis<br />

tenor<br />

term<br />

test<br />

text<br />

that<br />

their<br />

them<br />

theme<br />

themselves<br />

these<br />

thing<br />

third<br />

this<br />

those<br />

thrust<br />

thumb<br />

time<br />

tour<br />

tournament<br />

town<br />

toyboy<br />

traitor<br />

tremolo<br />

trick<br />

trickster<br />

troupe<br />

truant<br />

trump_card<br />

try<br />

tune<br />

tune_-_he<br />

twenty-one<br />

twist<br />

type<br />

tzigane<br />

ukulele<br />

union<br />

unknown<br />

us<br />

vamp<br />

variation<br />

variety<br />

venue<br />

verse<br />

version<br />

victory<br />

video<br />

villain<br />

violin<br />

vote<br />

waiting_game<br />

war<br />

we<br />

well<br />

well_-_doing<br />

well_-_that<br />

what<br />

when_-_as<br />

which<br />

whist<br />

white<br />

who<br />

whole<br />

whom<br />

wife<br />

winner<br />

witch<br />

woman<br />

word<br />

word_game<br />

work<br />

works<br />

workshop<br />

worse<br />

writing<br />

you<br />

your<br />

zzzsssss-on<br />

play: w2w subjektuak<br />

-tung<br />

ACET-link<br />

Advertising<br />

Africa<br />

Africans<br />

Ajax<br />

Alan<br />

Alan_Duffy<br />

Alan_Tait<br />

Alec_Guinness<br />

Alexandra_Mathie<br />

Alison_Fiske<br />

Alison_Ramsay<br />

All<br />

All_Leeds<br />

Alto_Ego<br />

Alun_Armstrong<br />

Amadu_Bamba<br />

Amanda_Harris<br />

Americans<br />

And_Evelyn<br />

And_Jerry_Lewis<br />

Anja<br />

Ann_Charleston<br />

Annesley<br />

Annie_Jones<br />

Anthropology<br />

Apoptosis<br />

Arashi<br />

Argentina<br />

Argentinian<br />

As<br />

Asian<br />

Association<br />

At<br />

Audrey<br />

Australia<br />

Australian<br />

BARCELONA<br />

BRIAN_ANDREW<br />

Baa-Baas<br />

Ballesteros<br />

Barcelona<br />

Becker<br />

Berry<br />

Bill<br />

Billie_Jean_King<br />

Birmingham_City<br />

Bobby_Abel<br />

Bogarde<br />

Bolton<br />

Boosey<br />

Both<br />

Bread<br />

Brentford<br />

Brian_O'Donnell<br />

Bridgend<br />

Britain<br />

British_people<br />

Briton<br />

Bruce_Alexander<br />

Bull<br />

Bully<br />

Bunce<br />

Busaco<br />

But<br />

But_Olechea<br />

CHEN_XINHUA<br />

Cadet_Diana_Grant<br />

Cambridge_University<br />

Campbell<br />

Caniggia


198<br />

Cardiff<br />

Casey<br />

Cash<br />

Certainly_American<br />

Channel_3<br />

Charles<br />

Chen<br />

Chilcott<br />

Children<br />

Chile<br />

Christianity<br />

Christopher_B.<br />

City<br />

Clark_Lectures<br />

Clasper<br />

Coins<br />

Companies<br />

Cordwell<br />

Cross<br />

Crossman<br />

DAVID_FEHERT<br />

DJ<br />

DM<br />

DUP<br />

Daly<br />

Dave_Stringer<br />

Dave_Whelan<br />

David<br />

David_Creasser<br />

David_Feherty<br />

David_Titterington<br />

Davies<br />

Davos<br />

Davy_Spillane<br />

Dennis<br />

Derek<br />

Diana<br />

Diego_Maradona<br />

Dignam<br />

Dittmar<br />

Dominique_Abel<br />

Dorothy<br />

Driver_Oliver<br />

Duke<br />

Dutch<br />

Dwight_York<br />

Dziekanowski<br />

EC<br />

ELLERY_HANLE<br />

East<br />

Eban<br />

Echolocation<br />

Edberg<br />

Elizabeth_Ben<strong>net</strong>t<br />

Ellison<br />

Emma_Bernard<br />

Emo_Philips<br />

England<br />

English<br />

Essex<br />

Evelyn<br />

Events<br />

Evert<br />

Except<br />

Faldo<br />

Fame/It<br />

Family_Day-_Families<br />

Farmers<br />

Federal_Chancellor<br />

Ferdinand<br />

Fernandel<br />

Fido<br />

Fiji<br />

Five<br />

Flare<br />

Flowered_Up<br />

Forest<br />

Fouroux<br />

Fowl<br />

France<br />

Frank_Bruno<br />

Frankie<br />

Further<br />

GARRY_HARVEY<br />

GARRY_SCHOFIE<br />

GRIMSBY<br />

Gareth_Edwards<br />

Gary_Armstrong<br />

Gen_Beg<br />

General_Noriega<br />

Geoff_Cooke<br />

George<br />

German<br />

German_Democratic_Rep<br />

ublic<br />

Gerry<br />

Gilchrist<br />

Gloria<br />

Goldoni<br />

Gooch<br />

Government<br />

Graham_Gooch<br />

Grayson<br />

Great_Britain<br />

Greenidge<br />

Grobbelaar<br />

Gullit<br />

Had_Hagi<br />

Had_Liverpool<br />

Hagi<br />

Hakan_Hardenbege<br />

Hale_Irwin<br />

Hamp<br />

Hanley<br />

Hansford<br />

Harriet<br />

Harriet_Walter<br />

Harrison<br />

Harry_de_Tunja<br />

Having<br />

He<br />

Helen_Mirren<br />

Hemmings<br />

Her_Yorkshire_Terrier<br />

Highlander<br />

Hispanic<br />

Hobbs<br />

Hoffmann<br />

Hollywood<br />

Home_Unions_XV<br />

Hopkins<br />

Horace<br />

Horse<br />

Howard_Clark<br />

However<br />

Hudson<br />

Humphries<br />

Hunter<br />

Hussain<br />

I<br />

IAN_SHERRATT<br />

ILLNESS<br />

IRA<br />

ITALY<br />

If<br />

If_Steve<br />

Ilona<br />

Immigration<br />

In<br />

In_London<br />

Ipswich<br />

Irwin<br />

Isla<br />

It<br />

Ivan_Lendl<br />

Jack_Good<br />

Jack_Nicholson<br />

Jackman<br />

Jan_Russ<br />

Jane<br />

Janssen<br />

Jason_Strange<br />

Jay<br />

Jazz_FM<br />

Jews<br />

Jez_Harris<br />

Jim_Pugh<br />

Jimmy


199<br />

Jimmy_Connors<br />

Jo<br />

John_Kirwan<br />

Johnson<br />

Jonathan_Griffiths<br />

Joolz<br />

Just<br />

Karpov<br />

Keen<br />

Kennedy<br />

Kevin_Simms<br />

Kimmins<br />

King<br />

Klepner<br />

Knott<br />

Konitz<br />

Kylie<br />

Labour_Britain<br />

Lamb<br />

Lara<br />

Later<br />

Lawson<br />

Leagues<br />

Lech_Walesa<br />

Lee<br />

Leeds<br />

Len_Shackleton<br />

Lenin<br />

Leonard<br />

Leonel_Alvarez<br />

Lew_Stone_Band<br />

Lewis<br />

Li<br />

Liam_Neeson<br />

Liberal_Democrats<br />

Life<br />

Lionel_Stander<br />

Lisa<br />

Liv_Ullman<br />

Liverpool<br />

Livingston<br />

Llanelli<br />

Lockwood<br />

Louis_Stanley<br />

Lucy<br />

MILLWALL_Football_Clu<br />

b<br />

Madonna<br />

Major<br />

Major_Jaromir_Nechans<br />

ky<br />

Mandy_Wainwright<br />

Many<br />

Margaret_Lockwoo<br />

Marshall<br />

Masters_Ballesteros<br />

Mathews<br />

Matthews<br />

Maxim_Vengerov<br />

Mayall<br />

McBurney<br />

McEwan_Younger<br />

McPherson<br />

Meg_Ryan<br />

Mein_Kampf<br />

Mel_Gibson<br />

Merson<br />

Mervyn_King<br />

Mets<br />

Michael_Caine<br />

Michael_Gambon<br />

Michael_Kitchen<br />

Mick<br />

Mike_Kenrick<br />

Miss_Sanchez<br />

Mogilny<br />

Monaco<br />

Moore<br />

Morgan<br />

Morton<br />

Motorfair<br />

Mrs_Thatcher<br />

Murray_Howell<br />

Music<br />

Musicians<br />

NECHAEV<br />

Neath<br />

Neil_Puckering<br />

Nicola_Buxton<br />

Nigel_Terry<br />

No_27<br />

Norman<br />

Northampton<br />

Now<br />

O<br />

ON_A_London_Saturday<br />

Obesity<br />

Oh<br />

Old_Testament<br />

On<br />

One<br />

Only_Harris<br />

Only_Willey<br />

Orlando_Thunder<br />

Owen<br />

PPBs<br />

PWL<br />

Paddy_Ashdown<br />

Paisley<br />

Panathinaikos<br />

Parker<br />

Patrick<br />

Patrick_Dempsey<br />

Patrick_Patterson<br />

Patten<br />

Paul<br />

Paul_Loughlin<br />

Paul_Merson<br />

Peers<br />

People<br />

Peter<br />

Phil<br />

Philbert_Jones<br />

Philip<br />

Pilade<br />

Pitt<br />

Porfiry<br />

Pornography<br />

Pound<br />

Press_Council<br />

Prince<br />

Queen_Elizabeth<br />

RAF<br />

Rabin<br />

Rachmaninov<br />

Rafferty<br />

Ralph_Richardson<br />

Ramsey<br />

Ray_McAnally<br />

Realistically<br />

Regimental_Band<br />

Relations<br />

Republic<br />

Richard<br />

Richards<br />

Rick_Wakeman<br />

Rijkaard<br />

Ringo_Starr<br />

Rob_Andrew<br />

Roberto_Donadoni<br />

Robin_Williams<br />

Robson<br />

Rocastle<br />

Rodney_Martin<br />

Roger_Harper<br />

Romanians<br />

Rose<br />

Roy_Powell<br />

Rudd<br />

Russian<br />

Sanchez<br />

Sanchez-Vicario<br />

Sandy_Lister<br />

Sasha<br />

Saver<br />

Semillon<br />

Sergei<br />

Shakespeare


200<br />

Shamir<br />

Shaw<br />

She<br />

Sheffield<br />

Shelford<br />

Shelley_Willetts<br />

Shelton<br />

Short<br />

Shriver<br />

Sibelius_Violin_Conce<br />

rto<br />

Silviu_Brucan<br />

Since<br />

Sinton<br />

So<br />

Some<br />

Soon<br />

Southampton<br />

Soviet_Union<br />

Soviets<br />

Spain<br />

Sponsorship<br />

St_Stephen<br />

Stanley_Baxter<br />

Statham<br />

Steffi<br />

Steve<br />

Steve_Stoutt<br />

Stewart<br />

Sunderland<br />

Sylvester_Stallone<br />

The_London_Metal_Exch<br />

ange<br />

THE_SLIDE<br />

The_Soviet_Union<br />

Tammuz<br />

Technology<br />

Tendulkar<br />

Terry<br />

Terry_Griffiths<br />

Thames<br />

The<br />

The_Ambrose_Or<br />

chestra<br />

The_Army<br />

The_British<br />

The_British_Prime_Min<br />

ister<br />

The_Doors<br />

The_Esk_Valley<br />

The_Festival<br />

The_Gaullist_RPR<br />

The_Grifters_Anjelica<br />

_Huston<br />

The_Pakistani<br />

The_Poles<br />

The_Slavia<br />

The_Style_Council<br />

Then<br />

They<br />

This<br />

Thomas<br />

Those<br />

Todd<br />

Tomorrow<br />

Tonight_England<br />

Tony_Blackburn<br />

Torrijos<br />

Treitel<br />

Truman<br />

Trust<br />

Two<br />

UN_High_Commission<br />

Ugly_Sisters<br />

Unlike_Holland<br />

Val_Robinson<br />

Vicini<br />

Viktoria_Mullova<br />

Vivien<br />

Volunteers<br />

Wainwright<br />

Wallace<br />

We<br />

Wendy_Hiller<br />

Werder_Bremen<br />

West_End_Leo_McKern<br />

West_Ham<br />

When<br />

When_Jack_Nickla<br />

When_Kent<br />

When_Lamb<br />

When_Prince<br />

White<br />

Williams<br />

Winter_Gardens<br />

With<br />

Wolstenholme<br />

Women<br />

Woods<br />

Woody<br />

World_Cup<br />

Worrall<br />

Wright<br />

Wyllie<br />

Yet_Binyon<br />

Yet_England<br />

Yorkshire_Asians<br />

You<br />

Yudishthira<br />

Yusupov<br />

Zsuzsa<br />

Zvornik<br />

act<br />

actor<br />

actor-dancers<br />

actors_-_in<br />

actress<br />

adaptation<br />

admirer<br />

affiliation<br />

age<br />

agriculture<br />

air<br />

air_pollution<br />

airstrip<br />

album<br />

anthropology<br />

anybody<br />

arbour<br />

army<br />

art<br />

artist<br />

aspect<br />

assiduity<br />

atmosphere<br />

atom<br />

audition<br />

authority<br />

back<br />

bagpipe<br />

balance<br />

ball<br />

band<br />

bandsmen<br />

bank<br />

base<br />

batsmen<br />

best<br />

bigwig<br />

bimbo<br />

bloke<br />

book<br />

boredom<br />

bottom<br />

boy<br />

breeze<br />

brother<br />

busker<br />

buyer<br />

cabi<strong>net</strong>_minister<br />

capitalism<br />

captain<br />

car_park<br />

cassette<br />

cast<br />

cello<br />

challenge<br />

chance


201<br />

chancellery<br />

character<br />

chief<br />

child<br />

chord<br />

choreographer<br />

church<br />

circuit<br />

city<br />

civil_servant<br />

class<br />

clergy<br />

clock<br />

close_support<br />

club<br />

cog<br />

coinage<br />

combination<br />

company<br />

computer<br />

conductor<br />

conflict<br />

consistency<br />

constituent<br />

consultation<br />

coordination<br />

corruption<br />

costs_-_and_this<br />

council<br />

country<br />

court<br />

coverage<br />

crew<br />

culture<br />

dark_glasses<br />

declarer<br />

defence_policy<br />

defensive<br />

department<br />

design<br />

development<br />

devil<br />

devotee<br />

devotion<br />

donation<br />

drug<br />

economy<br />

election<br />

element<br />

entire<br />

episode<br />

escalation<br />

established_church<br />

event<br />

everybody<br />

experience<br />

facility<br />

factor<br />

factory<br />

familiar<br />

family<br />

fanatic<br />

farmer<br />

father<br />

favourite<br />

federation<br />

fiddler<br />

fighter<br />

figure<br />

finishing<br />

foal<br />

football<br />

force<br />

foreign_office<br />

foremen<br />

friend<br />

fullback<br />

game<br />

general<br />

girl<br />

girlfriend<br />

go<br />

goal<br />

goalkeeper<br />

golfer<br />

gotta<br />

governing<br />

government<br />

grain<br />

gramophone<br />

grandchildren<br />

grazing<br />

group<br />

growth<br />

guitarist<br />

guy<br />

ha-kohen<br />

hand<br />

hath<br />

he<br />

he/she<br />

head<br />

headmaster<br />

her<br />

heroine<br />

him<br />

himself<br />

his<br />

history<br />

homecare<br />

homosexuality<br />

honorarium<br />

house<br />

human<br />

humour<br />

ideal<br />

ideologue<br />

ii<br />

increase<br />

inhibition<br />

inning<br />

intellectual<br />

interest_-_may<br />

internationals<br />

interstice<br />

intricacy<br />

investment<br />

it<br />

joke<br />

joke-tie<br />

key<br />

king<br />

last<br />

lawyer<br />

leader<br />

leg<br />

legend<br />

life<br />

literature<br />

logjam<br />

look<br />

lot<br />

love<br />

majority_rule<br />

majors<br />

man<br />

manager<br />

manufacturer<br />

masochism<br />

match<br />

match_point<br />

matches<br />

materialised_-_that<br />

materialises<br />

me<br />

media<br />

melodic_phrase<br />

member<br />

memory<br />

mid-thirties<br />

midfield<br />

mime<br />

mind<br />

moment<br />

money<br />

money_market<br />

monkey<br />

mortality_rate


202<br />

mother<br />

move<br />

muscle<br />

music<br />

musician<br />

name<br />

nationalization<br />

nativity<br />

negative<br />

neutrino<br />

normal<br />

note<br />

noticeboard<br />

notion<br />

now<br />

number<br />

ocean<br />

office<br />

official<br />

old_man<br />

ones<br />

opener<br />

orchestra<br />

organisers<br />

organization<br />

others<br />

pair<br />

papacy<br />

parent<br />

parliament<br />

parrot<br />

part<br />

participant<br />

party<br />

pastor<br />

patriarch<br />

people<br />

performance<br />

performer<br />

period<br />

person<br />

personality<br />

phone<br />

piece<br />

pitch<br />

place<br />

planning<br />

player<br />

policemen<br />

policy<br />

political_prisoner<br />

premier<br />

premiere<br />

presence<br />

press<br />

pretence<br />

pretending<br />

priest<br />

primitive<br />

pro<br />

problem<br />

process<br />

production<br />

professional<br />

programme<br />

project<br />

projection<br />

proliferation<br />

prop<br />

protest<br />

quantity<br />

radio<br />

radio_station<br />

raid<br />

rank<br />

rebirth<br />

recipient<br />

reconstruction<br />

record<br />

recording<br />

recruit<br />

refuse<br />

regeneration<br />

religion<br />

religious_leader<br />

replay<br />

repression<br />

resource<br />

rest<br />

result<br />

rhapsody<br />

ribbon<br />

risk<br />

rock_group<br />

role<br />

round<br />

routine<br />

rugbymans<br />

runners-up<br />

salesman<br />

satellite<br />

satire<br />

saw<br />

scene<br />

schizoid_-_he<br />

school<br />

script<br />

sculptor<br />

section<br />

sector<br />

self-interest<br />

series<br />

she<br />

shedding<br />

show<br />

side<br />

signing<br />

sitar<br />

size<br />

skill<br />

smile<br />

soccer<br />

someone<br />

son<br />

sponsor<br />

squad<br />

stage<br />

standing<br />

standoff<br />

star<br />

state<br />

station<br />

step<br />

stimulus<br />

storyteller<br />

straight<br />

strait<br />

street<br />

stress<br />

stretch<br />

string<br />

string_orchestra<br />

stroke<br />

student<br />

studio<br />

support<br />

tackling<br />

tails<br />

talent<br />

tax_advantage<br />

taxation<br />

teacher<br />

team<br />

technology<br />

television<br />

terrace<br />

that<br />

theatre<br />

their<br />

them<br />

then<br />

they<br />

thing<br />

this<br />

those<br />

time<br />

time_being<br />

tourist


203<br />

trade_union<br />

train<br />

training<br />

tram<br />

treatment<br />

trio<br />

try<br />

tuna<br />

tune<br />

typification<br />

uncertainty<br />

unconscious<br />

us<br />

user<br />

valley<br />

varicose_vein<br />

venture<br />

volunteer<br />

wanna<br />

want<br />

watershed<br />

we<br />

weapon<br />

what<br />

which<br />

white<br />

who<br />

whole<br />

whom<br />

wife<br />

wind<br />

wing<br />

winner<br />

winning<br />

wolf<br />

woman<br />

work<br />

workmate<br />

workshop<br />

world<br />

worth<br />

writing<br />

wrought<br />

yacht<br />

year_-_he<br />

you<br />

young_man<br />

youngster<br />

your<br />

youth<br />

encounter: w2w objektuak<br />

Caliban<br />

Charity_Rainham<br />

Community_Relations_B<br />

ranch<br />

Company_Commander<br />

Crocker<br />

Even<br />

Ever<br />

Features<br />

Galileo<br />

God<br />

Hispanic<br />

In_Hawksmoor_Ned<br />

Isolde<br />

Karajan<br />

Keepin<br />

Ken<strong>net</strong>h_Allsop<br />

Lawson<br />

Lilliput<br />

Luthien<br />

Malgosia<br />

Ministry<br />

RUC<br />

Romeo<br />

Spirit<br />

Swede<br />

Those<br />

Young_Conservatives<br />

age<br />

anger<br />

anything<br />

baby<br />

bat<br />

bear-garden<br />

beer<br />

binary<br />

bottleneck<br />

bottom<br />

consciousness<br />

constable<br />

conversation<br />

course<br />

creator<br />

creature<br />

crisis<br />

critique<br />

degree<br />

difference_of_opinion<br />

difficulty<br />

disapproval<br />

door<br />

event<br />

fatalism<br />

father<br />

fit<br />

friendship<br />

garden<br />

god<br />

gradient<br />

grandmother<br />

ground<br />

her<br />

him<br />

horror<br />

image<br />

in<br />

incontinence<br />

instrument_of_torture<br />

isolation<br />

issue<br />

kindness<br />

landscape<br />

longifolia<br />

look<br />

lot<br />

mess<br />

nature<br />

number<br />

nylon<br />

obstacle<br />

offender<br />

opponent<br />

opposition<br />

orchestra<br />

organization<br />

ourselves<br />

outsider<br />

paper<br />

party<br />

people<br />

person<br />

phenomena<br />

plate<br />

poem<br />

police<br />

policemen<br />

pottery<br />

press<br />

problem<br />

project<br />

rejection<br />

resistance<br />

road<br />

rock<br />

root<br />

sales_resistance<br />

scene<br />

she<br />

show<br />

sight<br />

situation<br />

solution<br />

someone


204<br />

something<br />

sort<br />

sound<br />

spirit<br />

straits<br />

taxidriver<br />

them<br />

they<br />

trading<br />

traffic<br />

us<br />

violence<br />

wagon<br />

whale<br />

what<br />

which<br />

whom<br />

woman<br />

word<br />

work<br />

young_woman<br />

zone<br />

encounter: w2w subjektuak<br />

Asylum-seekers<br />

Beren<br />

Brown_-_which<br />

Charles<br />

Christ<br />

Close<br />

England<br />

GEC<br />

I<br />

If<br />

It<br />

Jane<br />

Kemp<br />

Klaus_Steilmann<br />

May_Be<br />

Prince<br />

Silver_Jubilee_Year<br />

Swiss<br />

They<br />

Van_Breukelen<br />

We<br />

West_Indies<br />

World_Cup<br />

academic<br />

analysis<br />

aspiration<br />

athlete<br />

audience<br />

brief<br />

builder<br />

class<br />

critic<br />

difficulty<br />

driveline<br />

economics<br />

fight<br />

finger<br />

focus<br />

glider<br />

he<br />

it<br />

labour<br />

loss<br />

machine<br />

main<br />

meeting<br />

missionary<br />

name<br />

office<br />

official<br />

organisation<br />

passenger<br />

people<br />

police<br />

problem<br />

progress<br />

rugby<br />

share<br />

she<br />

spokesmen<br />

teachings<br />

they<br />

top<br />

tramp<br />

we<br />

what<br />

which<br />

who<br />

whole<br />

whom<br />

you<br />

meet: w2w objektuak:<br />

"&_Guilds'_new_ethnic<br />

_element."<br />

-will<br />

82_per_cent<br />

90%<br />

AMP<br />

Abe_Moses<br />

Acas<br />

After<br />

Air<br />

Ajax<br />

Alec_Harvey-Bailey<br />

American<br />

Americans<br />

And<br />

Anderson<br />

Andy<br />

Andy_Barton<br />

Andy_Warhol<br />

Angela<br />

Apap<br />

Arab<br />

Archbishop_Desmond<br />

Ari<br />

Army<br />

As<br />

At<br />

Australian<br />

Australian_Mutual<br />

BS5665<br />

Balanchine<br />

Beaton<br />

Bernard_Buffet<br />

Bernie_Taupin<br />

Binyon<br />

Blueharts<br />

Brazil<br />

Brecht<br />

Brian_Stacey<br />

Broederbond<br />

Brooklands<br />

Browne<br />

Bush<br />

But<br />

Cabi<strong>net</strong><br />

Cambridge<br />

Canadian<br />

Caravaggio<br />

Caribs<br />

Carmine_Sabatini<br />

Chapman<br />

Charity<br />

Charles<br />

Charles_Fiterman<br />

Charles_Williams<br />

Chicagoan<br />

Children_Fund_Industr<br />

y_and_Commerce_Group<br />

Chile<br />

Chinaman<br />

Chip_Beck<br />

Chris<br />

Chris_Dittmar<br />

Chris_Eubank<br />

Christ<br />

Christian<br />

Claud_Cockburn<br />

Club<br />

Coary<br />

Colberg


205<br />

Colette<br />

Colin<br />

Colonel_Bumface<br />

Conference<br />

Cool_Ground<br />

Cork_Harlequins<br />

Cornwall<br />

Costa_Rica<br />

Council<br />

Dalai_Lama<br />

Dana<br />

David<br />

David_Eccles<br />

David_Graveney<br />

David_Hockney<br />

David_Morgan<br />

Davos<br />

DeFries<br />

Death<br />

Derek_Bryceson<br />

Derek_Williams<br />

Devoy<br />

Director<br />

Dot<br />

Duncan_McIntyre<br />

Durham<br />

Dusty_Britches<br />

Dzerzhinsky<br />

ERS-2<br />

Earlier<br />

Edouards<br />

Edward_Heath<br />

Egypt<br />

Eleanor<br />

Eliette<br />

Ely<br />

Emperor_Charles_IV<br />

Erica_Upton<br />

Erika<br />

Ernest_Owen<br />

Esau<br />

Esquire_Editors<br />

Estelle_Gevers<br />

Even<br />

Everybody<br />

Ezra<br />

F.W._de_Klerk<br />

Faith<br />

Family_Centre<br />

February<br />

Feebles<br />

Female_Brat_Pack<br />

Fergie<br />

Florence_Ames<br />

For<br />

France<br />

Francois_Mitterrand<br />

Frankie_Dettori<br />

French<br />

Freud<br />

G.F._Bodley<br />

GP<br />

Gaidar<br />

Galileo<br />

Gene_Carroll<br />

General_Manuel_Antoni<br />

o_Noriega<br />

George_Bush<br />

George_Underwood<br />

German<br />

Giles<br />

Giles_Hawick<br />

Giorgio_Armani<br />

Giselle<br />

God<br />

Gorbachev<br />

Green<br />

Gregor_Gysi<br />

Gregory<br />

Guide<br />

Gustafsson<br />

Gypsy<br />

Halifax<br />

Harker<br />

Hashemi<br />

Hawick<br />

Hazel_Key<br />

He<br />

Helen_Noble<br />

Hendry<br />

Here<br />

Hermione<br />

Hermione_Farthingale<br />

Heseltine<br />

Hesse<br />

Him<br />

Hiralal<br />

Holland<br />

Home_Secretary<br />

Honour<br />

Hugh_Neill<br />

Hull<br />

I<br />

IFG_Hallamshire<br />

Ian_Woosnam<br />

In<br />

In_1899<br />

In_1978<br />

Jack<br />

Jacob<br />

Jake<br />

Jamie<br />

Jane<br />

Jane_Toler<br />

Jansher_Khan<br />

Jay<br />

Jeffrey_Sachs<br />

Jenny<br />

Jerry<br />

Jew<br />

Joe_Ackerley<br />

John<br />

John_Cage<br />

John_Evans<br />

John_Pizey<br />

John_Virgo<br />

Joseph_Parker<br />

July<br />

Justin<br />

Karajan<br />

Kathleen<br />

Kennedy<br />

Kinnock<br />

Klara<br />

Kohl<br />

Korean<br />

Kraftwerk<br />

Kylie<br />

Laci<br />

Land_Rover<br />

Lee<br />

Lester<br />

Let<br />

Lilley<br />

Lise<br />

Lord<br />

Lord_Elton<br />

Lot<br />

Lucy<br />

Luke_Rittner<br />

Lyamshin<br />

MP<br />

Maggie<br />

Maker<br />

Malcolm_McLaren<br />

Malta<br />

Mandela<br />

Manfred_Gerlach<br />

Mannheim<br />

Many_Frenchmen<br />

Margaret_Thatcher<br />

Marianne<br />

Marlon_Brando<br />

Martine_Le_Moignan<br />

Mary_Finnigan<br />

Maureen_O'Sullivan<br />

Max_Schmeling<br />

Mbeki


206<br />

Melinda<br />

Michael_Wright<br />

Mick<br />

Miklos<br />

Miss_Fanshawe<br />

Miss_Freedman<br />

Mitzi<br />

Mobutu<br />

Mobutu_Sese_Seko<br />

Mohandas_K._Gandhi<br />

Morris<br />

Morrissey<br />

Morton_Rosengarten<br />

Most<br />

Mother_Kirk<br />

Mountjoy<br />

Mrs_Browning<br />

Mrs_Jones<br />

Mrs_Knelle<br />

Mrs_Matthews<br />

Mrs_Moore<br />

Mrs_Reagan<br />

Mrs_Wright<br />

Mubarak<br />

Mulhooleys<br />

Mullova<br />

Mum<br />

Murder<br />

NATO<br />

Needwood_Poppy<br />

Nelson_Mandela<br />

New_Zealand<br />

Nigel<br />

Nikiya<br />

Noel_Edmonds<br />

Now<br />

O<br />

Odd-Knut<br />

Oldham<br />

On_April_28<br />

On_Friday<br />

On_May_1<br />

Organisers<br />

Oscar_Wilde<br />

Ostertag<br />

Others<br />

Paisley<br />

Parliament<br />

Part_1<br />

Patten<br />

Pete<br />

Peter_Blake<br />

Peter_Cannon<br />

Peter_Lilley<br />

Phil<br />

Pollock<br />

Polypheme<br />

Pontypridd<br />

Pope<br />

Prime_Minister<br />

Princess<br />

Queen<br />

Rangers<br />

Ray_Manzarek<br />

Reagan<br />

Red_Star_Southampton<br />

Richard<br />

Rob_Andrew<br />

Robert<br />

Robert_Liljequist<br />

Robert_Mugabe<br />

Rodrigo_de_Triano<br />

Roh_Tae_Woo<br />

Romania<br />

Sabata<br />

Sabeth<br />

Salcey_Forests<br />

Sally_Television<br />

Salomon_Markus<br />

Sami_Elopuro<br />

Sarah_Ferguson<br />

Scotland<br />

Sean<br />

Sergei<br />

Sergio_Galeotti<br />

Shanaz<br />

Shelley<br />

Shevardnadze<br />

Sibelius<br />

Simon<br />

Slava<br />

Snow_White<br />

Solidarity_Prime_Mini<br />

ster<br />

Solidasarock<br />

Soviets<br />

St_Augustine<br />

Stephen_Hendry<br />

Steve_Eusebe<br />

Stock<br />

Stockport_County<br />

Stravinsky<br />

Sue_Lloyd_Jones<br />

Suharto<br />

Superman<br />

Susan_Schilling<br />

Swire_Sugden<br />

Talb<br />

Tanit<br />

Terminator<br />

That<br />

The<br />

The_Hound<br />

The_Long_Distance_Run<br />

ner<br />

The_Second_Sex<br />

Tim_Waters<br />

Tom<br />

Tony<br />

Tony_Chapman<br />

Toronto_Conference<br />

Toshack<br />

Touzel<br />

Tracy<br />

Travolta<br />

Trollope<br />

Tutu<br />

US<br />

US_Defence_Secretary<br />

Ulstermen<br />

Uppal<br />

VIP<br />

Vic<br />

Viola<br />

Virginia_Woolf<br />

Waldheim<br />

Ward<br />

Wehrmacht<br />

When<br />

Where<br />

Which<br />

Who<br />

Wigan<br />

William_Godwin<br />

Williams<br />

Witton_Albion<br />

Yeats<br />

Yeltsin<br />

You<br />

Yves_Saint_Laurent<br />

abandonment<br />

acceptance<br />

accountant<br />

act<br />

address<br />

adviser<br />

age<br />

agent<br />

aim<br />

airflow<br />

analyst<br />

angst<br />

animal<br />

another<br />

anybody<br />

application<br />

approval<br />

arrival


207<br />

asbestos<br />

asking_price<br />

aspiration<br />

atheist<br />

attack<br />

attitude<br />

aunt<br />

author<br />

average<br />

baby<br />

bailiff<br />

ball<br />

ballot<br />

band<br />

bank_clerk<br />

banker<br />

beast<br />

bed<br />

bewilderment<br />

bill<br />

bishop<br />

blame<br />

bloke<br />

boat<br />

bomber<br />

boy<br />

brewery<br />

brother<br />

budget<br />

building<br />

butcher<br />

cabi<strong>net</strong>_minister<br />

can<br />

captain<br />

captaincy<br />

case<br />

cat<br />

central<br />

chairman<br />

challenge<br />

champion<br />

child<br />

childminders<br />

church<br />

churchmen<br />

circle<br />

circumstances<br />

client<br />

collapse<br />

collarbone<br />

colonel<br />

comedian<br />

commander<br />

committee<br />

common_dolphin<br />

companion<br />

competition<br />

compromise<br />

consumer<br />

consumption<br />

contact<br />

corner<br />

cost<br />

counterpart<br />

couple<br />

course<br />

crime<br />

crises<br />

crisis<br />

criteria<br />

criterion<br />

cross<br />

crowd<br />

cunt<br />

customer<br />

cut<br />

daughter<br />

de_Klerk<br />

dead_end<br />

deadline<br />

death<br />

death_duty<br />

debt<br />

decisionmaking<br />

decorator<br />

defeat<br />

deficit<br />

delegate<br />

delegation<br />

descendants<br />

destiny<br />

deux<br />

dialogue<br />

difference<br />

difficulty<br />

dilemma<br />

directive<br />

discontent<br />

diving<br />

doctor<br />

doctor's_bill<br />

dog<br />

domination<br />

downpayment<br />

driver<br />

each_other<br />

eccentric<br />

economic_crisis<br />

editor<br />

egg<br />

electorate<br />

elements<br />

emergency<br />

emission<br />

employee<br />

end<br />

enemy<br />

engineer<br />

environmentalist<br />

everybody<br />

ex-member<br />

executive<br />

exile<br />

existence<br />

expenditure<br />

expense<br />

eye<br />

eyes<br />

face<br />

faction<br />

family<br />

fan<br />

farm<br />

fate<br />

father<br />

favourite<br />

fee<br />

fiction<br />

fighter<br />

figure<br />

film-makers<br />

final<br />

finalist<br />

financier<br />

first<br />

first_person<br />

flats<br />

foreign_minister<br />

form<br />

former<br />

fortnight<br />

friend<br />

fugures<br />

function<br />

gang<br />

gauge<br />

gaze<br />

general<br />

girl<br />

glance<br />

goal<br />

goodness<br />

government<br />

government_officials<br />

graduate<br />

group<br />

guest<br />

guide


208<br />

guideline<br />

guy<br />

hair<br />

hall<br />

he<br />

head<br />

headmaster<br />

health<br />

her<br />

her_-_it<br />

her_-_you<br />

hero<br />

hers<br />

herself<br />

him<br />

hippy<br />

his<br />

horse<br />

host<br />

hostility<br />

hotel<br />

hours<br />

house<br />

household<br />

husband<br />

idealist<br />

image<br />

immigrant<br />

injustice<br />

inquiry<br />

instalment<br />

institution<br />

intellectual<br />

interest_rate<br />

invasion<br />

it<br />

its<br />

itself<br />

journalist<br />

junk_bond<br />

king<br />

kiss<br />

lack<br />

lady<br />

landlady<br />

law<br />

lawyer<br />

layoff<br />

leader<br />

leg<br />

legal_fee<br />

level<br />

liability<br />

life_form<br />

light<br />

little_brother<br />

longing<br />

look<br />

losses<br />

lots<br />

lovemaking<br />

lover<br />

maker<br />

mammoth<br />

man<br />

man_of_action<br />

margin_call<br />

market<br />

material<br />

maximum<br />

me<br />

means<br />

medium_-_how<br />

member<br />

middleweight<br />

minimum<br />

minister<br />

mogul<br />

moment<br />

money<br />

mother<br />

mothers-to-be<br />

mule<br />

murderer<br />

mutt<br />

name<br />

nemesis<br />

<strong>net</strong><br />

no_one<br />

nobody<br />

nogging<br />

nothing<br />

number<br />

objective<br />

obligations_-_Zuwaya<br />

offering<br />

officer<br />

official<br />

old_man<br />

one_-_is<br />

one_another<br />

ones<br />

opponent<br />

opposition<br />

organisers<br />

other<br />

others<br />

owner<br />

paper<br />

parent<br />

part<br />

partner<br />

pass<br />

patient<br />

payment<br />

people<br />

people.I<br />

person<br />

person_-_also<br />

pinnacle<br />

place<br />

plane<br />

planner<br />

player<br />

pleasure<br />

plugger<br />

point<br />

pole<br />

policeman<br />

policy<br />

politician<br />

potential<br />

practice<br />

prelate<br />

president<br />

press<br />

pressure<br />

priest<br />

principle<br />

priority<br />

prisoner<br />

problem<br />

project<br />

projection<br />

promissory_note<br />

protester<br />

public<br />

quayside<br />

quin<br />

quota<br />

race<br />

rate<br />

rattler<br />

raving<br />

reader<br />

real<br />

realism<br />

reality<br />

reception<br />

receptionist<br />

recruit<br />

regulation<br />

rejection<br />

relative<br />

remittance<br />

representative<br />

resident<br />

resistance


209<br />

rest<br />

rival<br />

river<br />

river_Jordan<br />

road<br />

rooms<br />

safe<br />

schoolgirl<br />

secretary<br />

sentry<br />

sergeant<br />

service<br />

set<br />

settings_-_at<br />

share<br />

shareholder<br />

shark<br />

she<br />

shore<br />

shove<br />

side<br />

sister<br />

situation<br />

skin<br />

snag<br />

solicitor<br />

somebody<br />

someone<br />

something<br />

son<br />

songwriter<br />

sort<br />

sperm<br />

spokesman<br />

squad<br />

standard<br />

star<br />

start<br />

state<br />

steamer<br />

steward<br />

story<br />

street<br />

suburb<br />

supporter<br />

surf<br />

surgeon<br />

table<br />

talker<br />

target<br />

target_-_more<br />

task<br />

taste<br />

teacher<br />

team<br />

term<br />

test<br />

that<br />

the_like<br />

their<br />

them<br />

therapist<br />

these<br />

they<br />

thing<br />

things<br />

third<br />

this<br />

those<br />

time<br />

timetable<br />

tinker<br />

tolerance<br />

topic<br />

tourist<br />

track<br />

train<br />

trainee<br />

trainer<br />

traveller<br />

trinity<br />

troops<br />

turbulence<br />

undergraduate<br />

union<br />

upper_class<br />

us<br />

vehicle<br />

vice_chancellor<br />

volume<br />

wall<br />

wanderer<br />

war<br />

waters<br />

we<br />

weeping_widow<br />

weevil<br />

what<br />

which<br />

whisper<br />

who<br />

whom<br />

widow<br />

wife<br />

wife-to-be<br />

woman<br />

worker<br />

works<br />

wren<br />

writer<br />

yellow<br />

you<br />

you_-_we<br />

young_girl<br />

young_man<br />

young_woman<br />

meet: w2w subjektuak<br />

's<br />

'wester<br />

'you<br />

Abba<br />

Abraham<br />

Albertina_Sisulu<br />

Albrecht<br />

Ali<br />

Alison<br />

All<br />

And<br />

Anthea_Hall<br />

Arens<br />

Arkle<br />

Arthur_Ramsey<br />

As_Mr_Urbanec<br />

Association<br />

At<br />

BR<br />

Babangida<br />

Barth<br />

Bath<br />

Bell_Resources<br />

Benn<br />

Berle<br />

Bertie_Somme<br />

Bill_Watts<br />

Boesky<br />

Bonnie<br />

Brewery_Liaison_Offic<br />

er<br />

Bristol<br />

Britaincan<br />

British_Select<br />

Brown_Windsor<br />

Browning<br />

But_Lisa<br />

Cabi<strong>net</strong><br />

Cambridge<br />

Cardiff_Devils<br />

Caroline<br />

Central_Committee<br />

Charles<br />

Charlton<br />

Club<br />

Colonel<br />

Congress<br />

Council<br />

Cousin<br />

Cumbria


210<br />

DLV<br />

Dane_Ole_Olsen<br />

Danny<br />

David<br />

De_Klerk<br />

Death<br />

Desperate_Dan<br />

Diana<br />

Dionne<br />

District<br />

EPC<br />

East<br />

Eddie<br />

Eddie_Barlow<br />

Eduard_Shevardnadze<br />

Edward<br />

Eliot<br />

Elisabeth<br />

England<br />

English<br />

Erika<br />

Ernest<br />

Escort<br />

Even_Barcelona<br />

Ever<br />

Falklands_Veterans<br />

Fields<br />

Five<br />

G7<br />

GaAs<br />

Gaily<br />

General_Yazov<br />

Gerald_Ronson<br />

Gloria<br />

God<br />

Golden_Friend<br />

Gorbachev<br />

Gordon_Pill<br />

Government<br />

Graham_Rice<br />

Great_Britain<br />

Group<br />

HEALTH_MINISTERS<br />

Half<br />

Hall<br />

Hambros<br />

Hamilton<br />

Harry_Cairns<br />

Hatton<br />

Having<br />

He<br />

Helen<br />

Here_Yakovlev<br />

Hickson<br />

Hitler<br />

Hobbes<br />

Holly<br />

Holy_Family<br />

House<br />

I<br />

ICC<br />

ICL<br />

ICO<br />

IN_JANUARY_1988<br />

In<br />

In_June<br />

In_Moscow_Mr_Yavlinsk<br />

y<br />

In_New_Orleans<br />

In_October<br />

International_Amateur<br />

_Athletics_Federation<br />

International_Congreg<br />

ational_Conference<br />

It<br />

Italy<br />

Jackie<br />

Jacob<br />

Jacques<br />

Jahangir<br />

Jane<br />

Jansher<br />

Jinny<br />

John<br />

John_Rodda<br />

John_Windsor<br />

Just<br />

Kevin_Turvey<br />

King_Hassan<br />

Kinnock<br />

Knighton<br />

Knox<br />

Kufra_Assembly<br />

Lancashire<br />

Last_December_Mr_Maur<br />

ice_Saatchi<br />

Late<br />

Leila<br />

Leonard<br />

Lewis<br />

Luke<br />

Magic_Ring<br />

Major-<br />

General_Holomisa<br />

Mandela<br />

Martin<br />

Martin_Aston<br />

Mary_Pat_Kelly<br />

McQuaid<br />

Mendoza<br />

Michael<br />

Mick_Brown<br />

Mike_Fibbens<br />

Mireille<br />

Mona<br />

Morrison<br />

Mrs_Hollidaye<br />

Mrs_Knelle<br />

NATO_Council<br />

Najibullah<br />

Nancarrow<br />

Nato<br />

Nazi<br />

Neddy<br />

Nibs_McGovern<br />

Nielsen<br />

Nigel_Benn<br />

Norman<br />

Norwich<br />

Nurse_Rose<br />

Olazabal<br />

Old_Etonians<br />

On<br />

On_Monday<br />

Only_The_Lonely<br />

Open_Market_Committee<br />

Owen<br />

PLCND<br />

P_J_Ferry<br />

Pacific_Rim<br />

Pakistan<br />

Parliament<br />

Penelope_Huntley<br />

People<br />

Peter_Cairns<br />

Peter_Lilley_MP<br />

Petipa<br />

Petrarch<br />

Philip_Nicksan<br />

Polgar<br />

Policemen<br />

Polish<br />

Pope<br />

Pound<br />

Prince<br />

Princess<br />

Producers<br />

Protestant<br />

Queen_Elizabeth<br />

RAF<br />

Rachel<br />

Rafferty<br />

Ramsey<br />

Ray<br />

Reagan<br />

Rifle<br />

River_Eske<br />

Robert_Chalmers


211<br />

Roscoe_Boy<br />

Russian<br />

SCOTLAND<br />

Sampdoria<br />

Sarah_Hemming<br />

Savimbi<br />

Scandinavian_country<br />

Sergeant<br />

She<br />

Sheffield_City_Counci<br />

l<br />

Social_Fund<br />

Social_Security_Commi<br />

ttee<br />

Some<br />

Sonique<br />

St_Margaret<br />

Susannah_Herbert<br />

Talb<br />

Television<br />

The_Cabi<strong>net</strong><br />

The_Civil_Aviation_Co<br />

mmittee<br />

The_Defence_Minister<br />

The_House<br />

The_International_Ass<br />

ociation<br />

The_Lloyds<br />

The_National_Council<br />

The_Pope<br />

The_Vice_Chancellors<br />

The_Volkskammer<br />

Then<br />

There<br />

They<br />

This<br />

Thomas<br />

Those<br />

Three_Burgundians<br />

To<br />

Town_Hall<br />

Treasury<br />

Trevor_Barnes<br />

Tribalism<br />

Urban_Development_Gra<br />

nt<br />

Ursula<br />

Vo<strong>net</strong>ta<br />

W._H._Auden<br />

WEA<br />

WICBC<br />

Washingtonian<br />

We<br />

Wexford<br />

When_Moby<br />

When_Mr_Bush<br />

When_Mr_James_Baker<br />

When_Nausicaa<br />

When_Thomas<br />

When_Yasmin<br />

While<br />

Yaeger<br />

Yes<br />

You<br />

Zuwaya<br />

activity<br />

adaptation<br />

adviser<br />

agreement<br />

aides<br />

aircraft<br />

airport<br />

alley<br />

allocation<br />

angel<br />

angst<br />

annual<br />

approach<br />

arm<br />

artisan<br />

artist<br />

association<br />

authority<br />

band<br />

bank<br />

bank-clerkcum-Greek-<br />

galley-slave<br />

bastard<br />

beauty<br />

bisectors<br />

bishop<br />

blues<br />

board<br />

boards<br />

body<br />

boiler<br />

book<br />

boy<br />

branch<br />

brass_band<br />

breast<br />

brewer<br />

brother<br />

burial<br />

business<br />

cafe<br />

cash<br />

chairman<br />

chauffeur<br />

club<br />

coffee<br />

colleague<br />

collection<br />

comittee<br />

commission<br />

commissioner<br />

committee<br />

community<br />

concentration_camp<br />

conference<br />

conservative<br />

council<br />

country<br />

couple<br />

creditor<br />

critic<br />

cutter<br />

cyberpunk<br />

damage<br />

daughter<br />

debt<br />

delegate<br />

delegation<br />

deputy<br />

detective<br />

development<br />

director<br />

discouraging_-_they<br />

dog<br />

door<br />

driver<br />

egg<br />

emission<br />

emphasis<br />

empire<br />

end<br />

engine<br />

ex<br />

expert<br />

exwife<br />

eye<br />

eyes<br />

factory<br />

faithful<br />

farmer<br />

fashion<br />

father<br />

figure<br />

finance_minister<br />

finery<br />

finger<br />

food<br />

fop<br />

foreign_minister<br />

forward<br />

freak<br />

fund<br />

funds


212<br />

gentleman<br />

girl<br />

glob<br />

going_away<br />

government<br />

governor<br />

group<br />

guardian<br />

hand<br />

he<br />

head<br />

hero<br />

hierarchy<br />

him<br />

his<br />

idol<br />

inaugural<br />

innovation<br />

installation<br />

instance<br />

interviewer<br />

issue<br />

it<br />

its<br />

jockey<br />

journalist<br />

knight<br />

know-all<br />

land<br />

last<br />

leader<br />

leg<br />

light-middleweights<br />

line<br />

lip<br />

listener<br />

loan<br />

lover<br />

luck<br />

maker<br />

man<br />

management<br />

manager<br />

manufacturer<br />

material<br />

me<br />

meat<br />

meeting<br />

member<br />

membership<br />

merchant<br />

minister<br />

mobility<br />

money<br />

mood<br />

moral_hazard<br />

mother<br />

mothers-to-be<br />

music<br />

my<br />

nation<br />

national_leader<br />

neighbourhood<br />

newsletter<br />

officer<br />

official<br />

open_air<br />

opening<br />

others<br />

our<br />

package<br />

page<br />

pair<br />

panel<br />

parallel<br />

parent<br />

parliament<br />

part<br />

party<br />

path<br />

peasant<br />

pension<br />

people<br />

period<br />

person<br />

piece<br />

plant<br />

playwright<br />

police<br />

politician<br />

population<br />

presentation<br />

process<br />

product<br />

property<br />

public<br />

punch<br />

quality<br />

quarters<br />

ray<br />

reader<br />

reality<br />

reform<br />

regime<br />

regulator<br />

relative<br />

representative<br />

repression<br />

research<br />

resource<br />

rising<br />

rival<br />

river<br />

road<br />

rogue<br />

run<br />

sea<br />

second<br />

secretary_of_state<br />

section<br />

selector<br />

service<br />

set<br />

shaikhs<br />

shareholder<br />

she<br />

shipowner<br />

side<br />

signatory<br />

society<br />

soldier<br />

squad<br />

stone<br />

stripes<br />

structure<br />

studio<br />

style<br />

success<br />

supply<br />

supporter<br />

surface<br />

team<br />

technique<br />

teenager<br />

text<br />

that<br />

their<br />

them<br />

they<br />

third<br />

this<br />

those<br />

thrill<br />

toy<br />

tradition<br />

training<br />

travelogue<br />

truck<br />

trustee<br />

union<br />

university<br />

us<br />

version<br />

video<br />

visitor<br />

wadi<br />

walk<br />

wall


we<br />

which<br />

who<br />

widow<br />

wing<br />

C.11.7 c2c BNCtik<br />

Denak ez zuzenak dira.<br />

winner<br />

woman<br />

word<br />

work<br />

world<br />

writ<br />

writer<br />

you<br />

your<br />

youth<br />

play, encounter, meet 00610422: c2c objektu hautapen-murriztapenak<br />

08520394 0.009 condition status "a condition or state at a particular time"<br />

08813320 0.003 helium He atomic_number_2<br />

09065837 0.003 time_period period period_of_time amount_of_time<br />

08522741 0.002 situation state_of_affairs "the general state of things…"<br />

08534455 0.0009 status position "the relative position or standing of…"<br />

08539416 0.00083 being beingness existence "the state or fact of existing"<br />

08547726 0.0006 unemployment "the state of being unemployed or not having…"<br />

08781633 0.0005 material stuff "the tangible substance that goes into the…"<br />

08525534 0.0005 friendship friendly_relationship "the state of being…"<br />

08771452 0.000347552843771051 hazard jeopardy peril risk "a source of…"<br />

play, encounter, meet 00610422: c2c subjektu hautapen-murriztapenak<br />

08813320 0.149 helium He atomic_number_2<br />

09065837 0.005 time_period period period_of_time amount_of_time<br />

08520394 0.003 condition status "a condition or state at a particular time"<br />

09069911 0.002 now "the momentary present"<br />

08807415 0.001 metallic_element metal "any of several chemical elements…"<br />

08534455 0.001 status position "the relative position or standing of…"<br />

08525534 0.001 friendship friendly_relationship "the state of being…"<br />

08781633 0.001 material stuff "the tangible substance that goes into the…"<br />

08522741 0.001 situation state_of_affairs "the general state of things…"<br />

C.11.8 w2semf EFEtik<br />

play: w2semf objektu hautapen-murriztapenak<br />

obj x 100 ONARGARRIA<br />

obj play-act 50.013<br />

obj factotum-act 30.390<br />

obj time_period-time 29.009<br />

obj zoology-animal 25.2<br />

obj factotum-artifact 25.026<br />

obj sport-event 23.514<br />

obj sport-act 23.038<br />

obj number-quantity 22.957<br />

obj geography-location 16.918<br />

213


214<br />

play: w2semf subjektu hautapen-murriztapenak<br />

subj x 372 ONARGARRIA<br />

subj administration-group 168.64<br />

subj chemistry-substance 52.666<br />

subj sport-group 44.010 ONARGARRIA<br />

subj zoology-group 40.5<br />

subj linguistics-communication 38.720<br />

subj physics-substance 34.666<br />

subj geography-location 33.353<br />

subj administration-location 32.315<br />

subj number-quantity 26.642<br />

encounter: w2semf objektu hautapen-murriztapenak<br />

obj factotum-state 0.833<br />

obj geography-location 0.5<br />

obj factotum-communication 0.333<br />

obj psychology-cognition 0.3333<br />

encounter: w2semf subjektu hautapen-murriztapenak<br />

subj x 3 ONARGARRIA<br />

subj linguistics-communication 0.333<br />

subj physics-substance 0.333<br />

subj chemistry-substance 0.3333<br />

subj baseball-group 0.142 ONARGARRIA<br />

subj free_time-group 0.142<br />

subj enterprise-group 0.142<br />

subj building_industry-artifact 0.142<br />

subj golf-artifact 0.142<br />

subj factotum-artifact 0.142<br />

meet: w2semf objektu hautapen-murriztapenak<br />

obj time_period-time 16.642<br />

obj x 5 ONARGARRIA<br />

obj factotum-cognition 3.22<br />

obj factotum-state 1.955<br />

obj geography-location 1.608<br />

obj factotum-object 1.583<br />

obj administration-location 1.555<br />

obj factotum-communication 1.037<br />

obj tourism-time 1<br />

meet: w2semf subjektu hautapen-murriztapenak<br />

subj x 35 ONARGARRIA<br />

subj administration-group 7.85<br />

subj sport-group 4.885 ONARGARRIA<br />

subj number-quantity 4.714<br />

subj zoology-group 4.5<br />

subj chemistry-substance 2.833<br />

subj geography-location 2.802<br />

subj administration-location 2.75<br />

subj person-person 2.333 ZUZENA<br />

subj sport-person 2 ONARGARRIA


C.11.9 Ondorioak<br />

Objektuak Subjektuak<br />

Iturria Teknika Zuzena Onargarria Eskuratu gabe Zuzena Onargarria Eskuratu<br />

gabe<br />

c2c 9tik 2 0 0 5etik 1 5etik 1 0<br />

w2c PLAY 10etik 2 0 0 8tik 2 0 0<br />

w2c MEET 10etik 2 0 0 9tik 1 0 2tik 1<br />

SemCor<br />

w2c<br />

ENCOUNTER<br />

s2semf MEET<br />

5etik 1 0 2tik 1 0 0 2tik 2<br />

PLAYk<br />

daturik ez<br />

0 2tik 1 2tik 2 0 0 2tik 2<br />

s2semf<br />

ENCOUNTER<br />

0 0 2tik 2 Daturik ez Daturik ez Daturik ez<br />

BNC<br />

EFE<br />

w2c PLAY 10etik 1 0 2tik 1 10etik 1 10etik 1 0<br />

w2c<br />

ENCOUNTER<br />

10etik 2 0 0 9tik 2 0 0<br />

w2c MEET 10etik 2 0 0 10etik 1 10etik 1 0<br />

c2c 0 0 2tik 2 0 0 2tik 2<br />

w2semf PLAY 0 10etik 1 2tik 2 0 10etik 2 2tik 1<br />

w2semf<br />

MEET<br />

0 9tik 1 2tik 2 10etik 1 10etik 3 0<br />

w2semf<br />

ENCOUNTER<br />

0 0 2tik 2 0 10etik 2 2tik 1<br />

215


216<br />

C.12 jokatu_3<br />

C.12.1 Synseta MCRn<br />

00610422v<br />

competition<br />

DOMEINUAK:<br />

lock 00610422v 14 encounter_5 [99%] meet_10<br />

[99%] play_24 [99%]<br />

lock 00610422v 0 jokatu_3 [99%]<br />

contend against an opponent in<br />

a sport or game; "Princeton<br />

plays Yale this weekend"<br />

HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA DOMEINUA<br />

jokatu A 00610422 play sport military<br />

C.12.2 Urre patroiak<br />

jokatu 00605818v: –en kontra<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

jokatu 00605818: Soziatiboa<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

jokatu 00605818: Ergatiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities (members) considered as a<br />

unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group


C.12.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />

jokatu: : w2semf hautapen-murriztapenak (kirol domeinuko corpusa): AbsDU<br />

en_kontra x 18 ONARGARRIA<br />

en_kontra geography-location 0.5<br />

en_kontra administration-location 0.5<br />

en_kontra astronomy-object 0.333<br />

en_kontra physics-object 0.111<br />

en_kontra meteorology-object 0.111<br />

en_kontra geometry-shape 0.111<br />

en_kontra person-person 0.111 ZUZENA<br />

en_kontra theatre-person 0.111<br />

en_kontra architecture-attribute 0.111<br />

soz x 6 ONARGARRIA<br />

soz quality-attribute 0.687<br />

soz betting-person 0.666<br />

soz factotum-group 0.571 ZUZENA<br />

soz anatomy-animal 0.5<br />

soz fashion-body 0.5<br />

soz factotum-cognition 0.4<br />

soz insurance-possession 0.333<br />

soz town_planning-possession 0.333<br />

soz economy-act 0.333<br />

erg pro 128 ONARGARRIA<br />

erg x 25 ONARGARRIA<br />

erg number-quantity 7<br />

erg 0 3<br />

erg transport-person 1.5<br />

erg geography-person 1<br />

erg administration-person 1<br />

erg basketball-person 1 ONARGARRIA<br />

erg time_period-time 0.6<br />

erg cycling-person 0.25 ONARGARRIA<br />

jokatu.kontuakhitzak.kirolak<br />

abl furgo<strong>net</strong>a 1<br />

abs hagin 2<br />

abs maila 1<br />

abs pixka 1<br />

abs kopuru 1<br />

abs mendate 1<br />

abs alde 1<br />

abs behera 1<br />

abs bizikleta 1<br />

abs hamabost 1<br />

abs apur 1<br />

abu kanpamendu 1<br />

adj x 2<br />

adj lehiari 1<br />

adj behera 1<br />

ala auto 1<br />

ala minutu 1<br />

ala maila 1<br />

ala metro 1<br />

217


218<br />

erg pro 2<br />

erg alberto 1<br />

ine urte 1<br />

ine partidu 1<br />

ins maila 1<br />

soz harrobi 1<br />

jokatu: w2semf hautapen-murriztapenak (corpus osoa)<br />

en_kontra x 20 ONARGARRIA<br />

en_kontra linguistics-communication 1<br />

en_kontra factotum-act 1<br />

en_kontra geography-location 0.5<br />

en_kontra administration-location 0.5<br />

en_kontra factotum-communication 0.363<br />

en_kontra astronomy-object 0.333<br />

en_kontra factotum-group 0.285 ZUZENA<br />

en_kontra administration-communication 0.181<br />

en_kontra law-communication 0.181<br />

soz x 8 ONARGARRIA<br />

soz factotum-cognition 2.666<br />

soz quality-attribute 2.187<br />

soz psychology-attribute 1.066<br />

soz fashion-artifact 1<br />

soz politics-state 1<br />

soz factotum-group 0.844 ZUZENA<br />

soz metrology-attribute 0.833<br />

soz person-person 0.722 ZUZENA<br />

soz factotum-act 0.712<br />

erg pro 204 ONARGARRIA<br />

erg x 33 ONARGARRIA<br />

erg number-quantity 7<br />

erg 0 3<br />

erg linguistics-communication 2<br />

erg politics-person 1.601<br />

erg person-person 1.53 ZUZENA<br />

erg transport-person 1.5<br />

erg administration-person 1.365<br />

erg basketball-person 1 ONARGARRIA<br />

jokatu.kontuakhitzak.ALL<br />

abl orain 2<br />

abl hasiera 2<br />

abl ikuspegi 1<br />

abl ezker 1<br />

abl behe 1<br />

abl x 1<br />

abl aurre 1<br />

abl gain 1<br />

abs partidu 28<br />

abs partida 26<br />

abs x 19<br />

abs final 12<br />

abs bider 3<br />

abs paper 3<br />

abs uefa 3<br />

abs izan 3<br />

abs jende 3<br />

abs hamabost 2<br />

abs zati 2<br />

abs egoera 2<br />

abs jokalari 2<br />

abs behar 2<br />

abs berri 2<br />

abs gehiago 2<br />

abs ruben 2<br />

abs liga 2


abs 0 2<br />

abs bat 2<br />

abs gobernu 2<br />

abs gizarte 2<br />

abs talde 2<br />

abs txapelketa 1<br />

abs lagos 1<br />

abs seguru 1<br />

abs antolakuntza 1<br />

abs jardunaldi 1<br />

abs nahi 1<br />

abs planifikazio1<br />

abs kontseilari 1<br />

abs eugi 1<br />

abs gurrutxaga 1<br />

abs eraginkortasun 1<br />

abs erabaki 1<br />

abs irabazte 1<br />

abs zabaltzaile 1<br />

abs azkaindar 1<br />

abs txapeldun 1<br />

abs ezer 1<br />

abs soil 1<br />

abs izar 1<br />

abs azken 1<br />

abs abiadura 1<br />

abs garai 1<br />

abs on 1<br />

abs itzuli 1<br />

abs patxi 1<br />

abs baloi 1<br />

abs jaurlaritza 1<br />

abs erakargarri 1<br />

abs amerikar 1<br />

abs elgoibartar 1<br />

abs atezain 1<br />

abs aste 1<br />

abs hegaldi 1<br />

abs lasterketa 1<br />

abs behar_izan 1<br />

abs tanto 1<br />

abs bateratu 1<br />

abs bi 1<br />

abs zuzendari 1<br />

abs hasiera 1<br />

abs arazo 1<br />

abs beldur 1<br />

abs pibot 1<br />

abs patronal 1<br />

abs portland 1<br />

abs lider 1<br />

abs garaipen 1<br />

abs aurrelari 1<br />

abs deus 1<br />

abs txanpa 1<br />

abs garrantzitsu 1<br />

abs asmo 1<br />

abs garrantzi 1<br />

abs akats 1<br />

abs zerikusi 1<br />

abs alde 1<br />

abs abertzale 1<br />

abs oposizio 1<br />

abs mendate 1<br />

adb orain 1<br />

adb nola 1<br />

adb lasai 1<br />

adb maltzurki 1<br />

adb zuzen 1<br />

adb horrela 1<br />

adb bezala 1<br />

adb legez 1<br />

adb honela 1<br />

adb gaur 1<br />

adj zuhur 4<br />

adj berdin 3<br />

adj baikor 3<br />

adj epel 2<br />

adj x 2<br />

adj ahul 1<br />

adj indartsu 1<br />

adj zorrotz 1<br />

adj bizi 1<br />

adj zintzo 1<br />

adj gutxi 1<br />

adj oker 1<br />

adj eskuzabal 1<br />

adj irmo 1<br />

adj axolagabe 1<br />

adj borondatetsu 1<br />

adj gogor 1<br />

adj hotz 1<br />

ala kiniela 11<br />

ala esan 6<br />

ala modu 2<br />

ala era 1<br />

ala kontraeraso 1<br />

ala bote 1<br />

ala eraso 1<br />

ala bi 1<br />

ala bat 1<br />

dat pro 4<br />

dat alderdi 3<br />

dat eh 3<br />

dat politikari 2<br />

dat jaurlaritza 2<br />

dat gobernu 1<br />

dat x 1<br />

dat eaj 1<br />

dat herritar 1<br />

dat alderdikide 1<br />

dat mediku 1<br />

219


220<br />

denb menpekoa 4<br />

en_arabera arautegi 2<br />

en_arabera irizpide 1<br />

en_arabera interes 1<br />

en_arabera kode 1<br />

en_arabera zigor 1<br />

en_kontra x 8<br />

en_kontra elkar 3<br />

en_kontra guzti 2<br />

en_kontra goñi 2<br />

en_kontra bartzelona 1<br />

en_kontra izar 1<br />

en_kontra akordio 1<br />

en_kontra talde 1<br />

en_kontra eta 1<br />

en_kontra eugi 1<br />

en_kontra gutxitu 1<br />

en_kontra modernizazio<br />

1<br />

en_kontra politiko 1<br />

en_kontra frantzia 1<br />

en_kontra sevilla 1<br />

en_orde x 1<br />

erg pro 204<br />

erg x 9<br />

erg batzuk 7<br />

erg eugi 4<br />

erg 0 3<br />

erg guzti 3<br />

erg beloki 3<br />

erg pibot 2<br />

erg agintari 2<br />

erg eta 2<br />

erg gu 2<br />

erg galera 1<br />

erg lehen 1<br />

erg kontu 1<br />

erg militar 1<br />

erg presidente 1<br />

erg irundar 1<br />

erg telebista 1<br />

erg sektore 1<br />

erg arrate 1<br />

erg pilotari 1<br />

erg udal 1<br />

erg gizon 1<br />

erg defentsa 1<br />

erg ehu 1<br />

erg iker 1<br />

erg argentinar 1<br />

erg eh 1<br />

erg indar 1<br />

erg aspa 1<br />

erg txirrindulari 1<br />

erg italiar 1<br />

erg imaz 1<br />

erg gobernu 1<br />

erg inor 1<br />

erg antonio 1<br />

erg eragile 1<br />

erg pedro 1<br />

erg errusia 1<br />

erg ordezkari 1<br />

gisa profesional 1<br />

gisa mezenas 1<br />

gisa subjektu 1<br />

gisa independentista 1<br />

helb menpekoa 2<br />

ine x 23<br />

ine postu 7<br />

ine 0 4<br />

ine talde 4<br />

ine eraso 4<br />

ine zati 3<br />

ine igande 3<br />

ine futbol 2<br />

ine etxe 2<br />

ine adar 2<br />

ine maila 2<br />

ine liga 2<br />

ine aste 2<br />

ine partidu 2<br />

ine azaro 2<br />

ine anoa 2<br />

ine behar 2<br />

ine gasteiz 2<br />

ine laurden 2<br />

ine erdi 2<br />

ine guzti 1<br />

ine denboraldi 1<br />

ine area 1<br />

ine auzi 1<br />

ine plano 1<br />

ine jardunaldi 1<br />

ine sasoi 1<br />

ine donostia 1<br />

ine arratsalde 1<br />

ine epaiketa 1<br />

ine asteazken 1<br />

ine hamahiru 1<br />

ine makina 1<br />

ine hori 1<br />

ine biltzar 1<br />

ine prozesu 1<br />

ine goiz 1<br />

ine indarkeria 1<br />

ine irlanda 1<br />

ine lege 1<br />

ine politika 1<br />

ine erritmo 1<br />

ine hamabi 1<br />

ine minutu 1


ine kontraeraso 1<br />

ine asteburu 1<br />

ine gertaera 1<br />

ine eskubide 1<br />

ine garai 1<br />

ine kanporaketa 1<br />

ine modu 1<br />

ine selekzio 1<br />

ine bera 1<br />

ine golf 1<br />

ine hasiera 1<br />

ine hau 1<br />

ine eraikuntza 1<br />

ine final 1<br />

ine frontoi 1<br />

ine jende 1<br />

ine iruñea 1<br />

ine arte 1<br />

ine defentsa 1<br />

ine ofizial 1<br />

ine merida 1<br />

ine klub 1<br />

ine testuinguru 1<br />

ine karta 1<br />

ine alderdi 1<br />

ine ekipo 1<br />

ine abiada 1<br />

ins erantzukizun 8<br />

ins zentzu 6<br />

ins x 6<br />

ins ardura 4<br />

ins arduragabekeria 3<br />

ins alderdikeria 2<br />

ins fede 2<br />

ins kontu 2<br />

ins zuhurtzia 2<br />

ins malgutasun 1<br />

ins urduritasun 1<br />

ins gizalege 1<br />

ins harrokeria 1<br />

ins seriotasun 1<br />

ins bereizkeria 1<br />

ins segurtasun 1<br />

ins krudelkeria 1<br />

ins ankerkeria 1<br />

ins pragmatismo 1<br />

ins koherentzia 1<br />

ins bat 1<br />

ins inpartzialtasun 1<br />

ins zuhurtasun 1<br />

ins ausardia 1<br />

ins profesionaltasun 1<br />

ins asko 1<br />

ins indar 1<br />

ins ziurtasun 1<br />

ins independentzia 1<br />

ins lasaitasun 1<br />

ins inteligentzia 1<br />

ins aldi 1<br />

ins buru 1<br />

ins errespetu 1<br />

kaus menpekoa 4<br />

konp menpekoa 25<br />

soz gogo 2<br />

soz talde 2<br />

soz x 2<br />

soz selekzio 2<br />

soz erantzukizun 2<br />

soz buru<br />

soz gehiengo 1<br />

soz sorta 1<br />

soz moderazio 1<br />

soz defentsa 1<br />

soz politikagintza 1<br />

soz zenbait 1<br />

soz jokalari 1<br />

soz autonomia 1<br />

soz elkar 1<br />

soz kamiseta 1<br />

soz mamu 1<br />

soz putin 1<br />

soz anbiguotasun 1<br />

soz asmo 1<br />

soz errenta 1<br />

soz bibote 1<br />

soz eskema 1<br />

soz aldagai 1<br />

soz babes 1<br />

soz abantaila 1<br />

soz teoria 1<br />

teko menpekoa 6<br />

z menpekoa 3<br />

zhg menpekoa 1<br />

221


222<br />

C.12.4 SemCorreko c2c euskarara itzulita<br />

play, encounter, take_on, meet 00610422: c2c objektu hautapen-murriztapenak<br />

00004865 0.194 person individual someone somebody mortal human soul ZUZENA<br />

00017008 0.11 group grouping "any number of entities considered …" ZUZENA<br />

00015437 0.0949 state "the way something is with respect to its main…"<br />

00009469 0.0585 object physical_object "a physical entity"<br />

00018599 0.022 communication "something that is communicated between…"<br />

01237932 0.018 placental placental_mammal eutherian eutherian_mammal<br />

00228990 0.014 activity "any specific activity or pursuit"<br />

04785784 0.014emotion "any strong feeling"<br />

03338771 0.013 quality "an essential and distinguishing attribute of…"<br />

play, encounter, take_on, meet 00610422: c2c subjektu hautapen-murriztapenak<br />

00004865 0.254 person individual someone somebody mortal human soul ZUZENA<br />

05149489 0.131 organization organisation "a group of people…" ONARGARRIA<br />

04690182 0.069 happening occurrence natural_event "an event that happens"<br />

00018599 0.043 communication "something that is communicated between…"<br />

08413915 0.037 digit "one of the elements that collectively form a system…"<br />

C.12.5 SemCorreko s2semf euskarara itzulita<br />

encounter, meet 00610422: s2semf objektu hautapen-murriztapenak<br />

encounter 00610422<br />

factotum-state 1<br />

meet 00610422<br />

factotum-Tops 1 ONARGARRIA<br />

factotum-state 1<br />

encounter, meet 00610422: s2semf subjektu hautapen-murriztapenak<br />

meet 00610422<br />

economy-group 1<br />

C.12.6 EFEtik w2semf euskarara itzulita<br />

play: w2semf objektu hautapen-murriztapenak<br />

<strong>Euskara</strong>z ez.<br />

play: w2semf subjektu hautapen-murriztapenak<br />

subj x 372 ONARGARRIA<br />

subj administration-group 168.64<br />

subj chemistry-substance 52.666<br />

subj sport-group 44.010 ONARGARRIA<br />

subj zoology-group 40.5<br />

subj linguistics-communication 38.720<br />

subj physics-substance 34.666<br />

subj geography-location 33.353<br />

subj administration-location 32.315<br />

subj number-quantity 26.642


encounter: w2semf objektu hautapen-murriztapenak<br />

<strong>Euskara</strong>z ez<br />

encounter: w2semf subjektu hautapen-murriztapenak<br />

subj x 3 ONARGARRIA<br />

subj linguistics-communication 0.333<br />

subj physics-substance 0.333<br />

subj chemistry-substance 0.3333<br />

subj baseball-group 0.142 ONARGARRIA<br />

subj free_time-group 0.142<br />

subj enterprise-group 0.142<br />

subj building_industry-artifact 0.142<br />

subj golf-artifact 0.142<br />

subj factotum-artifact 0.142<br />

meet: w2semf objektu hautapen-murriztapenak<br />

<strong>Euskara</strong>z ez<br />

meet: w2semf subjektu hautapen-murriztapenak<br />

subj x 35 ONARGARRIA<br />

subj administration-group 7.85<br />

subj sport-group 4.885 ONARGARRIA<br />

subj number-quantity 4.714<br />

subj zoology-group 4.5<br />

subj chemistry-substance 2.833<br />

subj geography-location 2.802<br />

subj administration-location 2.75<br />

subj person-person 2.333 ZUZENA<br />

subj sport-person 2 ONARGARRIA<br />

223


224<br />

C.12.7 Ondorioak<br />

Iturria Teknika Kasua Zuzena Onargarria Eskuratu gabe<br />

Egunkaria<br />

osoa<br />

Egunkaria<br />

kirolak<br />

SemCor<br />

EFE<br />

kirolak<br />

-en<br />

kontra<br />

10etik 1 10etik 1 2tik 1<br />

erg 10etik 1 10etik 3 2tik 1<br />

w2semf<br />

soz<br />

-en<br />

kontra<br />

10etik 2<br />

10etik 1<br />

10etik 1<br />

10etik 1<br />

0<br />

2tik 1<br />

erg 0 10etik 4 2tik 1<br />

soz 10etik 1 10etik 1 2tik 1<br />

c2c<br />

obj<br />

subj<br />

-<br />

5etik 1<br />

-<br />

5etik 1<br />

-<br />

0<br />

s2semf obj - - -<br />

MEET subj 0 0 2tik 2<br />

obj<br />

s2semf<br />

ENCOUNTER subj<br />

-<br />

Daturik<br />

ez<br />

-<br />

Daturik ez<br />

-<br />

Daturik ez<br />

PLAYk daturik ez<br />

w2semf obj - - -<br />

PLAY subj 0 10etik 2 2tik 1<br />

w2semf obj - - -<br />

MEET subj 10etik 1 10etik 3 0<br />

w2semf obj - - -<br />

ENCOUNTER subj 0 10etik 2 2tik 1


C.13 train_8<br />

C.13.1 Synseta MCRn<br />

00059698v<br />

body<br />

DOMEINUAK:<br />

lock 00059698v 0 train_8<br />

C.13.2 Urre patroiak<br />

lock 00059698v 0 entrenatu_3<br />

exercise in order to prepare for an event<br />

or competition; "She is training for the<br />

Olympics"<br />

HITZA KATEGORIA SYNSET DOMEINUA<br />

train A 00059698 sport<br />

train 00059698: objektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities (members) considered as a<br />

unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

train 00059698: subjektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being;"<br />

00017008 group grouping "any number of entities (members) considered as a<br />

unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

C.13.3 c2c SemCorretik<br />

train v 00059698: c2c objektu hautapen-murriztapenak<br />

Daturik ez<br />

train v 00059698: c2c subjektu hautapen-murriztapenak<br />

Daturik ez<br />

train v 00059698-s2s<br />

Daturik ez<br />

225


226<br />

C.13.4 w2c SemCorretik<br />

s2s: Daturik ez<br />

train: w2c objektu hautapen-murriztapenak<br />

00004865 0.334 person individual someone somebody mortal human soul ZUZENA<br />

00017008 0.049 group grouping "any number of entities considered…" ZUZENA<br />

00012878 0.045 cognition knowledge "the psychological result of…"<br />

03553723 0.021 number figure "the property possessed by a sum or total or…"<br />

train: w2c subjektu hautapen-murriztapenak<br />

00004865 0.236 person individual someone somebody mortal human soul ZUZENA<br />

05127029 0.168 body "a group of persons associated by some…" ONARGARRIA<br />

C.13.5 s2semf SemCorretik<br />

train00059698: s2semf objektu hautapen-murriztapenak<br />

Daturik ez<br />

train00059698: s2semf subjektu hautapen-murriztapenak<br />

Daturik ez<br />

C.13.6 w2c BNCtik<br />

train: w2c objektu hautapen-murriztapenak<br />

00004865 0.150 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.071 object physical_object "a physical entity"<br />

05119847 0.039 social_group "people sharing some social relation" ONARGARRIA<br />

00018599 0.028 communication "something that is communicated between…"<br />

00016649 0.021 act human_action human_activity "something that people do…"<br />

00012878 0.019 cognition knowledge "the psychological result of…"<br />

00018966 0.014 measure quantity amount quantum "how much there is of…"<br />

00017586 0.010 attribute "an abstraction belonging to or characteristic…"<br />

03610098 0.009 body_part "any part of an organism such as an organ or…"<br />

05116476 0.008 people "(plural) any group of human beings…" ONARGARRIA<br />

train: w2c subjektu hautapen-murriztapenak<br />

08813320 0.111 helium He atomic_number_2<br />

00004865 0.087 person individual someone somebody mortal human soul ZUZENA<br />

00011607 0.049 artifact artefact "a man-made object"<br />

05285793 0.045 World_Health_Organization WHO "a United Nations agency to…”<br />

04455766 0.045 he "the 5th letter of the Hebrew alphabet"<br />

00018966 0.023 measure quantity amount quantum "how much there is of…"<br />

00012878 0.020 cognition knowledge "the psychological result of…"<br />

04313427 0.019 message content subject_matter substance<br />

00016649 0.018 act human_action human_activity "something that people do…"<br />

00014314 0.014 location "a point or extent in space"


227<br />

w2w:<br />

train: w2w objektuak<br />

_attended<br />

A-To-Z<br />

Airborne_Division<br />

Ali<br />

Along<br />

Among<br />

Andy_Sutton<br />

Anne<br />

As<br />

Atlaal<br />

Aureole<br />

Baillamont<br />

Barnbrook_Again<br />

Barry<br />

Both_Miss_Chalk<br />

Cargo_Fleet<br />

Carroll_House<br />

Champion_Hurdle<br />

Church_-_and_that<br />

Commanche_Run<br />

David_Livingstone<br />

Dawn_Run<br />

Did<br />

Foinavon<br />

Greeks<br />

Greenham<br />

Gregor_Mendel<br />

Halloween<br />

He<br />

Here<br />

Huntworth<br />

I<br />

Ilse<br />

In<br />

In-Keeping<br />

Lawrence<br />

Market_Leader<br />

Nabeel_Dancer<br />

Now<br />

Old_Vic<br />

Pinewood_Stables<br />

Pisk<br />

Prague<br />

Ramblers<br />

Robson<br />

Rottweiler<br />

Royal_Cedar<br />

SLOA<br />

Sales_Booster_Interna<br />

tional<br />

Star_City<br />

TA_NCOs<br />

Theatrical<br />

They<br />

Tsektran<br />

Two<br />

We<br />

With<br />

absence<br />

academic<br />

accident<br />

accountant<br />

acres<br />

actor<br />

adult<br />

adviser<br />

agency<br />

aides<br />

ammunition<br />

apprentice<br />

area<br />

aspiration<br />

assistance<br />

basis<br />

biceps<br />

body<br />

body_part<br />

bodyguard<br />

bound<br />

branch<br />

break<br />

buff<br />

calf<br />

camp<br />

can<br />

catering<br />

chaser<br />

chef<br />

chest<br />

christian<br />

clergy<br />

clergymen<br />

colt<br />

compartment<br />

competition<br />

complementary_medicin<br />

e<br />

complex<br />

computer<br />

concept<br />

contender<br />

counterpart<br />

course<br />

creeper<br />

crew<br />

cycle<br />

daily<br />

dancer<br />

daughter<br />

deltoid<br />

department<br />

depot<br />

device<br />

director<br />

disaster<br />

dog<br />

drop<br />

espalier<br />

essential<br />

establishment<br />

event<br />

executive<br />

exercises<br />

extension<br />

farmer<br />

fatty_tissue<br />

feat<br />

feeding<br />

fighter<br />

firm<br />

first<br />

fitness<br />

force<br />

forward<br />

friendship<br />

fruit<br />

gallop<br />

glider<br />

graduate<br />

group<br />

guard<br />

guide<br />

handler<br />

he<br />

head<br />

heating<br />

her<br />

him<br />

home<br />

hopefuls<br />

horse<br />

horses_-_as<br />

hurdler<br />

husband<br />

impression<br />

infantrymen<br />

information_system<br />

initiative<br />

inspector<br />

institution<br />

it<br />

itself<br />

journey<br />

king


228<br />

last<br />

lateral<br />

local<br />

male<br />

man<br />

manager<br />

matches<br />

material<br />

me<br />

middle_class<br />

mind<br />

minister<br />

missionary<br />

mixing<br />

mother<br />

motive_power<br />

movement<br />

muscle<br />

musician<br />

myself<br />

nation<br />

nonstop<br />

number<br />

objective<br />

officer<br />

orchestra<br />

organisation<br />

others<br />

owner/manager<br />

part<br />

participant<br />

peak<br />

people<br />

personnel<br />

pianist<br />

pilot<br />

player<br />

police<br />

population<br />

post<br />

priest<br />

profession<br />

programme<br />

progressive<br />

pup<br />

purpose<br />

race<br />

racehorse<br />

range<br />

reformer<br />

refurbishment<br />

reinforcement<br />

replacement<br />

restaurant<br />

role<br />

roof<br />

routine<br />

runs_-_perhaps<br />

sailor<br />

schedule<br />

scheme<br />

scientist<br />

searchlight<br />

sector<br />

self-defence<br />

seminar<br />

service<br />

servicewomen<br />

session<br />

set<br />

sharing<br />

she<br />

shirt<br />

shoe<br />

side<br />

sir<br />

six-year-old<br />

skill<br />

something<br />

speed<br />

sport<br />

spotter<br />

squad<br />

staff<br />

stall<br />

standard<br />

station<br />

statistics<br />

step-up<br />

student<br />

succession<br />

successor<br />

suit<br />

surveillance<br />

tape<br />

teacher<br />

team<br />

team-mate<br />

technique<br />

telescope<br />

term<br />

terrorist<br />

that<br />

that_-<br />

_notwithstanding<br />

them<br />

they<br />

thinking<br />

this<br />

time<br />

tour<br />

train<br />

transcendentalist<br />

travel<br />

tree<br />

troop<br />

troops<br />

two-seater<br />

uncle<br />

unit<br />

version<br />

voice<br />

volunteer<br />

warden<br />

warfare<br />

we<br />

west<br />

which<br />

who<br />

whom<br />

whose<br />

winner<br />

worker<br />

workforce<br />

workshop<br />

wreck<br />

writer<br />

yard<br />

you<br />

young<br />

young_man<br />

youngster<br />

train: w2w subjektuak:<br />

BR<br />

BRC<br />

Barnardo<br />

Basingstoke<br />

Blackpool_North-<br />

Euston<br />

British_Rail<br />

Cross<br />

Cup_-_he<br />

Dundee<br />

East_German<br />

England<br />

Exercises<br />

Fontainebleu<br />

Glover<br />

Goods<br />

Grania_Furness<br />

Griffiths<br />

He<br />

His<br />

I<br />

In_Kenya<br />

It<br />

Kitchen


Martin_Pipe<br />

Michael_Stoute<br />

Newton_Abbot<br />

No<br />

Paddington<br />

Penmaenmawr<br />

Peterborough_HAH<br />

Pullman<br />

Richard_Lee<br />

Ruth<br />

Security<br />

Spaniard<br />

The<br />

This<br />

Training<br />

Trans-Pennine<br />

VIP<br />

WWF<br />

Whether<br />

Wooderson<br />

You<br />

annual<br />

architect<br />

bitterness<br />

case<br />

client<br />

coach<br />

course<br />

cry<br />

diesel<br />

dinghy<br />

electric<br />

C.13.7 c2c BNCtik<br />

excursion<br />

first<br />

foundations<br />

government<br />

guest<br />

guide<br />

hard_work-outs<br />

he<br />

his<br />

horse<br />

hours<br />

it<br />

last<br />

launch<br />

mile<br />

military<br />

my<br />

nephew<br />

newly-qualified<br />

newspaper<br />

number<br />

of<br />

our<br />

people<br />

pilot<br />

point<br />

pound<br />

principle<br />

programme<br />

prototype<br />

regular<br />

researcher<br />

train 00059698: c2c objektu hautapen-murriztapenak<br />

Daturik ez<br />

train 00059698: c2c subjektu hautapen-murriztapenak<br />

Daturik ez<br />

return<br />

role<br />

same<br />

school<br />

seat<br />

series<br />

service<br />

session<br />

she<br />

society<br />

soldier<br />

special<br />

speed_-_we<br />

suddenly<br />

system<br />

talent<br />

technique<br />

that<br />

their<br />

them<br />

they<br />

train<br />

transit<br />

turn<br />

unit<br />

usage<br />

we<br />

who<br />

woman<br />

you<br />

your<br />

229


230<br />

C.13.8 w2semf EFEtik<br />

train: w2semf objektu hautapen-murriztapenak<br />

obj zoology-group 2<br />

obj sport-group 2 ONARGARRIA<br />

obj sport-person 1.611 ONARGARRIA<br />

obj x 1 ONARGARRIA<br />

obj time_period-time 0.5<br />

obj publishing-person 0.5<br />

obj transport-artifact 0.333<br />

obj town_planning-artifact 0.222<br />

obj metrology-time 0.2<br />

obj tourism-artifact 0.111<br />

train: w2semf subjektu hautapen-murriztapenak<br />

subj x 13 ONARGARRIA<br />

subj chemistry-substance 5<br />

subj administration-group 3<br />

subj linguistics-communication 2.666<br />

subj physics-substance 2.666<br />

subj sport-group 2.5 ONARGARRIA<br />

subj number-quantity 2.083<br />

subj zoology-group 2<br />

subj wrestling-person 1<br />

subj geography-location 0.5<br />

C.13.9 Ondorioak<br />

Objektuak Subjektuak<br />

Iturria Teknika Zuzena Onargarria Eskuratu gabe Zuzena Onargarria Eskuratu gabe<br />

SemCor<br />

c2c Daturik ez<br />

w2c 4tik 2 0 0 2tik 1 2tik 1 0<br />

s2semf<br />

Daturik ez<br />

BNC<br />

w2c<br />

c2c<br />

10etik 1 10etik 2 0 10etik 1<br />

Daturik ez<br />

0 2tik 1<br />

EFE w2semf 0 10etik 3 0 0 10etik 2 2tik 1


C.14 entrenatu_3<br />

C.14.1 Synseta MCRn<br />

00059698v<br />

body<br />

DOMEINUAK:<br />

lock 00059698v 0 train_8<br />

lock 00059698v 0 entrenatu_3<br />

C.14.2 Urre patroiak<br />

exercise in order to prepare for an event or<br />

competition; "She is training for the Olympics"<br />

HITZA KATEGORIA SYNSET DOMEINUA<br />

entrenatu A 00059698 sport<br />

entrenatu 00059698: Absolutiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

entrenatu 00059698: Ergatiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

entrenatu 00059698: Inesiboa<br />

c2c, w2c:<br />

00240760<br />

sport, athletics "an active diversion requiring physical exertion and…"<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

231


232<br />

C.14.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />

entrenatu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa = corpus osoa)<br />

abs x 8 ONARGARRIA<br />

abs number-quantity 1<br />

abs sport-person 1 ONARGARRIA<br />

abs betting-person 0.66<br />

abs factotum-group 0.57 ZUZENA<br />

abs play-person 0.33 ONARGARRIA<br />

abs military-group 0.28<br />

abs sport-group 0.21 ONARGARRIA<br />

abs zoology-group 0.14<br />

abs politics-group 0.07<br />

ala geography-location 0.5<br />

ala administration-location 0.5<br />

erg x 8 ONARGARRIA<br />

erg pro 7 ONARGARRIA<br />

ine factotum-artifact 3<br />

ine factotum-state 3<br />

ine number-quantity 1<br />

ine x 1<br />

ine time_period-time 0.63<br />

ine building_industry-artifact 0.38<br />

ine anthropology-group 0.38<br />

ine sport-person 0.33<br />

ine sociology-person 0.33<br />

ine metrology-time 0.27<br />

entrenatu.kontuakhitzak.ALL/kirolak<br />

abs x 4<br />

abs gehiegi 2<br />

abs talde 2<br />

abs entrenatzaile 1<br />

abs gutxiago 1<br />

abs beste 1<br />

abs jokalari 1<br />

abs sestao 1<br />

adb barik 1<br />

adb oso 1<br />

adj gogor 2<br />

ala katalunia 1<br />

erg pro 7<br />

erg gurrutxaga 6<br />

erg alonso 1<br />

erg x 1<br />

ine bete 6<br />

ine lau 1<br />

ine x 1<br />

ine etxe 1<br />

ine taldekide 1<br />

ine egun 1


ins marko 1<br />

konp menpekoa 3<br />

soz talde 6<br />

soz taldekide 1<br />

C.14.4 SemCorreko c2c euskarara itzulita<br />

train 00059698: c2c objektu hautapen-murriztapenak<br />

Daturik ez<br />

train 00059698: c2c subjektu hautapen-murriztapenak<br />

Daturik ez<br />

C.14.5 SemCor s2semf euskarara itzulita<br />

train00059698: s2semf objektu hautapen-murriztapenak<br />

Daturik ez<br />

train00059698: s2semf subjektu hautapen-murriztapenak<br />

Daturik ez<br />

C.14.6 EFEko w2semf euskarara itzulita<br />

train: w2semf objektu hautapen-murriztapenak<br />

obj zoology-group 2 ONARGARRIA<br />

obj sport-group 2 ONARGARRIA<br />

obj sport-person 1.611 ONARGARRIA<br />

obj x 1 ONARGARRIA<br />

obj time_period-time 0.5<br />

obj publishing-person 0.5 ONARGARRIA<br />

obj transport-artifact 0.333<br />

obj town_planning-artifact 0.222<br />

obj metrology-time 0.2<br />

obj tourism-artifact 0.111<br />

train: w2semf subjektu hautapen-murriztapenak<br />

subj x 13 ONARGARRIA<br />

subj chemistry-substance 5<br />

subj administration-group 3 ONARGARRIA<br />

subj linguistics-communication 2.666<br />

subj physics-substance 2.666<br />

subj sport-group 2.5 ONARGARRIA<br />

subj number-quantity 2.083<br />

subj zoology-group 2 ONARGARRIA<br />

subj wrestling-person 1 ONARGARRIA<br />

subj geography-location 0.5<br />

233


234<br />

C.14.7 Ondorioak<br />

Iturria Teknika Kasua Zuzena Onargarria Eskuratu<br />

gabe<br />

Egunkaria<br />

osoa<br />

Egunkaria<br />

kirolak<br />

Semcor<br />

EFE<br />

kirolak<br />

abs 10etik 1 10etik 4 0<br />

w2semf ine 0 0 2tik 2<br />

erg 0 2tik 2 2tik 2<br />

abs 10etik 1 10etik 4 0<br />

w2semf ine 0 0 2tik 2<br />

erg 0 2tik 2 2tik 2<br />

c2c Daturik ez<br />

s2semf Daturik ez<br />

w2semf<br />

obj<br />

subj<br />

0<br />

0<br />

10etik 3<br />

10etik 2<br />

0<br />

2tik 1


C.15 win_1<br />

C.15.1 Synseta MCRn<br />

00620486v<br />

competition<br />

DOMEINUAK:<br />

lock 00620486v 7 win_1<br />

lock 00620486v 0 irabazi_3<br />

C.15.2 Urre patroiak<br />

be the winner in a contest or competition;<br />

be victorious; "He won the Gold Medal in<br />

skating"; "Our home team won"<br />

HITZA KATEGORIA SYNSET DOMEINUA<br />

win A 00620486 sport<br />

win 00630097: objektu hautapen-murriztapenak<br />

c2c, w2c:<br />

04771851 competition contest “an occasion on which a winner is selected…”<br />

(hipe. EVENT)<br />

00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />

08310444 definite quantity “a specific measure of amount”<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

sport-event<br />

number-quantity<br />

win 00630097: subjektu hautapen-murriztapenak<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being"<br />

00017008 group grouping "any number of entities considered as a unit"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group<br />

235


236<br />

C.15.3 c2c SemCorretik<br />

OBJEKTUAK s2s:<br />

win 00620486:<br />

baseball_game 00264797<br />

battle 00440117<br />

championship 08536246<br />

contest 04771851<br />

game 00254052<br />

game 00254326<br />

group 00017008<br />

pennant 04379052<br />

popularity_contest 00644720<br />

primary 00103176<br />

rodeo 00299055<br />

war 00540597<br />

west 05478091<br />

SUBJEKTUAK s2s:<br />

win 00620486:<br />

chest 03805248<br />

force 05226551<br />

group 00017008<br />

north 05603360<br />

person 00004865<br />

s2s eta s2s-hype: Daturik ez<br />

win 00620486: c2c objektu hautapen-murriztapenak<br />

04771851 0.101 contest competition (contest, game, popularity_contest)<br />

ZUZENA<br />

00228990 0.100 activity (baseball_game, game, rodeo, batlle...) ONARGARRIA<br />

00017008 0.066 group grouping "any number of entities considered…" (group)<br />

00597858 0.0574 group_action "action taken by a group of people" ONARGARRIA<br />

baina datuak ez dira zuzenak (primary, popularity_contest, war)<br />

00018599 0.037 communication "something that is communicated between…"<br />

(pennant)<br />

05450515 0.020 region "a large indefinite location on the surface of the…"<br />

(west)<br />

08536246 0.020 championship title "the status of being a champion"<br />

ONARGARRIA (nondik?)


win 00620486: c2c subjektu hautapen-murriztapenak<br />

00017008 0.525 group grouping "any number of entities considered as a unit"<br />

ONARGARRIA (group, force)<br />

00004865 0.180 person individual someone somebody mortal human soul<br />

ONARGARRIA (person)<br />

03610098 0.052 body_part "any part of an organism such as an organ or…"<br />

(chest)<br />

00009469 0.048 object physical_object "a physical entity;"<br />

C.15.4 w2c SemCorretik<br />

s2s: (ikusi B.15.3 atala)<br />

win: w2c objektu hautapen-murriztapenak<br />

00228990 0.087 activity "any specific activity or pursuit;" ONARGARRIA<br />

00017008 0.070 group grouping "any number of entities considered as a unit"<br />

04771851 0.058 contest competition "an occasion on which a winner…" ZUZENA<br />

00597858 0.037 group_action "action taken by a group of people" ONARGARRIA<br />

00018599 0.033 communication "something that is communicated between…"<br />

00021098 0.030 action "something done (usually as opposed to something…)"<br />

ONARGARRIA (> 00024260 playing (taking part in a game or sport…)<br />

00015437 0.026 state "the way something is with respect to its main…"<br />

00012878 0.021 cognition knowledge "the psychological result of…"<br />

08141079 0.016 gift "something acquired without compensation"<br />

05450515 0.011 region "a large indefinite location on the surface of…"<br />

win: w2c subjektu hautapen-murriztapenak<br />

00017008 0.375 group grouping "any number of entities considered…" ZUZENA<br />

00004865 0.294 person individual someone somebody mortal human soul ZUZENA<br />

00009469 0.057 object physical_object "a physical entity"<br />

03610098 0.040 body_part "any part of an organism such as an organ or…"<br />

08258903 0.027 organic_process biological_process "a process occurring in…"<br />

C.15.5 s2semf SemCorretik<br />

win 00620486: s2semf objektu hautapen-murriztapenak<br />

politics-act 2<br />

play-act 1.5 ZUZENA<br />

sport-act 1.5 ZUZENA<br />

free_time-act 1<br />

sport-event 1 ZUZENA<br />

geography-location 1<br />

factotum-act 1 ONARGARRIA<br />

factotum-communication 1<br />

factotum-Tops 1 ONARGARRIA<br />

history-act 0.5<br />

237


238<br />

win 00620486: s2semf subjektu hautapen-murriztapenak<br />

factotum-Tops 1 ONARGARRIA<br />

zoology-body 0.5<br />

law-group 0.5<br />

anthropology-Tops 0.5<br />

anatomy-body 0.5<br />

administration-group 0.5<br />

biology-Tops 0.5<br />

geography-location 0.333<br />

history-location 0.333<br />

administration-location 0.333<br />

C.15.6 w2c BNCtik<br />

win: w2c objektu hautapen-murriztapenak<br />

00016649 0.055 act human_action human_activity "something that…" ONARGARRIA<br />

00009469 0.044 object physical_object "a physical entity"<br />

00004865 0.041 person individual someone somebody mortal human soul<br />

00018599 0.035 communication "something that is communicated between…"<br />

04690182 0.023 happening occurrence natural_event "an event that happens"<br />

04771851 0.022 contest competition "an occasion on which a winner…" ZUZENA<br />

00018966 0.020 measure quantity amount quantum "how much there…" ONARGARRIA<br />

00017008 0.017 group grouping "any number of entities considered as a unit"<br />

00012878 0.016 cognition knowledge "the psychological result of…"<br />

00015437 0.013 state "the way something is with respect to its main…"<br />

win: w2c subjektu hautapen-murriztapenak<br />

08813320 0.194 helium He atomic_number_2<br />

00004865 0.107 person individual someone somebody mortal human soul ZUZENA<br />

04455766 0.078 he "the 5th letter of the Hebrew alphabet"<br />

05149489 0.044 organization organisation "a group of people…" ONARGARRIA<br />

00011607 0.038 artifact artefact "a man-made object"<br />

04313427 0.023 message content subject_matter substance<br />

05132844 0.015 gathering assemblage "a group of persons together in one…"<br />

00014314 0.014 location "a point or extent in space"<br />

00018966 0.014 measure quantity amount quantum "how much there is of…"<br />

00016649 0.013 act human_action human_activity "something that people do…"<br />

w2w:<br />

win: w2w objektuak<br />

$100,000<br />

$270,000<br />

$55,000<br />

$7_million<br />

'Or<br />

*Input<br />

1,267_-_just<br />

17_per_cent<br />

1_per_cent<br />

22_per_cent<br />

30%<br />

3_per_cent<br />

40%<br />

40_per_cent<br />

41_percent<br />

42.9_per_cent<br />

45_per_cent<br />

49.7%<br />

50.7_per_cent<br />

50_per_cent<br />

54_per_cent<br />

55%<br />

6.3_per_cent<br />

61%<br />

63_per_cent<br />

70_per_cent<br />

74_per_cent<br />

7_per_cent<br />

82_per_cent<br />

9_per_cent<br />

ADAS<br />

African<br />

All<br />

Although<br />

Amateur_Championship<br />

Amateur_Class_II<br />

American<br />

American_Derby<br />

American_football<br />

And<br />

Anna_Neagle_Trophy<br />

Arbortech_Carving_Awa<br />

rd<br />

Arc


239<br />

Archer_Grand_Prix<br />

Arsenal<br />

At_Kelso<br />

Athletics_Blue<br />

Australian<br />

Australian_Classic<br />

Australian_Open<br />

Aviemore<br />

Ayr_Gold_Cup<br />

Ayresome_Park<br />

B<br />

Badminton<br />

Battle<br />

Before<br />

Belgian_Classic<br />

Berkhamsted<br />

Best<br />

Best_Actor<br />

Best_Actress<br />

Best_Picture<br />

Bharatpur<br />

Birkenhead<br />

Birmingham_League<br />

Blue<br />

Blue_Ribband<br />

Boat_Race<br />

Bob_Champion<br />

Bollinger_Champagne_N<br />

ovice_Chase<br />

Booker<br />

Booker_Prize<br />

Brentford<br />

Brigadier_Gerard_Stak<br />

es<br />

British<br />

British_Open<br />

Bruges<br />

Bundesliga<br />

But<br />

COMPETITION<br />

Cabochon<br />

Cadran<br />

Cake_Competition<br />

Calgary_Grand_Prix<br />

California_State_Sena<br />

te<br />

Cambridgeshire_Handic<br />

ap<br />

Camus_Masters<br />

Cannes_Palme<br />

Caribbean<br />

Carlsberg_Selling_Hur<br />

dle<br />

Cartier_Million<br />

Chair<br />

Champion_Hurdle<br />

Championship<br />

Charles_Heidsieck_Cha<br />

mpagne_Bula_Hurdle<br />

Chase<br />

Cheltenham<br />

Cheltenham_Gold_Cup<br />

Class_One<br />

Classic<br />

Classics<br />

Coate<br />

Coin<br />

Commonwealth<br />

Constantine_Mitsotaki<br />

s<br />

Coombe_Hill_Novice_Ch<br />

ase<br />

Coral-Eclipse_Stakes<br />

Coronation_Cup<br />

Courage_First_Divisio<br />

n<br />

Coventry_Stakes<br />

Cup<br />

Cup_Juvenile<br />

D._Carman<br />

DSO<br />

D_Alban_Davies_Award<br />

Democratic_Russia<br />

Democrats<br />

Derby<br />

Derby_Italiano<br />

Deuchar<br />

Dewar_Trophy<br />

Dewhurst_Stakes<br />

Duchess<br />

Earl<br />

Earl_Ruby<br />

Eclipse_Award<br />

Eclipse_Stakes<br />

Economics_Prize<br />

Eisenhower_Trophy<br />

Either<br />

Elibank_Handicap_Chas<br />

e<br />

Empire<br />

Enfield<br />

England<br />

Epsom<br />

European_Championship<br />

European_Cup<br />

Europeans<br />

Even<br />

Everest_Grand_Prix<br />

F<br />

FA_Amateur_Cup<br />

FA_Cup<br />

FA_Trophy<br />

FINAL<br />

Falklands_War<br />

Father<br />

February<br />

For<br />

Four<br />

Frankfurt_Grand_Prix<br />

French_Open<br />

French_Open_Champions<br />

hip<br />

Fujicolor<br />

German<br />

German_Bundesliga<br />

German_Grand_Prix<br />

Girobank_Scullers_Hea<br />

d<br />

Glamorgan<br />

Glasgow_Govan<br />

Glasgow_Hillhead<br />

Gold_Cup<br />

Gold_Medal<br />

Golden_Bone_Award<br />

Golden_Dick_Award<br />

Gooch<br />

Gordon<br />

Government<br />

Grammy_Award<br />

Grand_National<br />

Grand_Prix<br />

Guineas<br />

Handicap_Chase<br />

Hardwicke_Stakes<br />

Has<br />

Having<br />

Hayling_Island<br />

He<br />

Heartbeat_Awards<br />

Heisman_Trophy<br />

Hennessy_Cognac_Cup<br />

Hennessy_Gold_Cup<br />

Hertfordshire<br />

Hi_British_Open_Champ<br />

ionships<br />

High_Court<br />

Hilton_Young_Chef<br />

If<br />

In<br />

In_1929<br />

In_1960<br />

In_1979<br />

In_France<br />

In_Iran<br />

Irish_Derby<br />

Irish_National_Lotter<br />

y<br />

It


240<br />

Ivor_Novello_Award<br />

Jack_Fletcher_Trophy<br />

Jamaica<br />

Japanese<br />

Jawaharlal_Nehru<br />

John_Moores<br />

John_Ottaway<br />

Juno_IV<br />

Kentucky_Derby<br />

Kim_Muir<br />

King_George_V1_Chase<br />

King_George_VI_Chase<br />

King_George_V_Coronat<br />

ion_Challenge_Cup<br />

Koch<br />

Labour<br />

Labour_Party<br />

Lady_Keystone_Open<br />

Land_Rover<br />

Langley_Park<br />

Later<br />

Lauberhorn<br />

League<br />

League_Cup<br />

League_One<br />

Lego<br />

Liberal_Democrat<br />

Liverpool<br />

Lombard_RAC_Rally<br />

London<br />

London_Irish<br />

London_Marathon<br />

Los_Angeles<br />

MC<br />

Macartney<br />

Madrid_Open<br />

Malcolm_Thomas<br />

Man<br />

Mandarin_Chase<br />

Martin<br />

Martine_Le_Moignan<br />

Masters<br />

Meat_Trades_Journal_C<br />

hampion<br />

Melbourne_Cup<br />

Middle_Park_Stakes<br />

Midlands_County_Chess<br />

_Championships<br />

Milan<br />

Mildmay<br />

Ministry<br />

Miss_Bikini<br />

Miss_Clark_Award<br />

Modern_Alarms_Cup<br />

Monte_Carlo_Rally<br />

Much<br />

NM_Financial_Internat<br />

ional<br />

NatWest_Trophy<br />

National<br />

National_Australian_C<br />

ollegiate_Athletic_As<br />

sociation<br />

National_League<br />

Nations_Cup<br />

Nazi<br />

Nell_Gwyn_Stakes<br />

Newbury_Sales_Trophy<br />

Newmarket<br />

No.2_Audra_Keller<br />

Nobel_Peace_Prize<br />

Nobel_Prize<br />

Nobel_prize<br />

Nomura_Challenge_Trop<br />

hies<br />

Norfolk_South_West<br />

Northampton<br />

Norwich_Union_County_<br />

Championship<br />

Not<br />

Of<br />

Ole-<br />

Christian_Furuseth<br />

Olympic<br />

Olympic_Talent_Spotte<br />

rs_Championship<br />

Olympics<br />

Olympus<br />

On<br />

Open<br />

Orphy_Robinson<br />

Oscar<br />

PGA_Tournament<br />

Pacific_League<br />

Paduca_Classic<br />

Paris<br />

Parliamentary<br />

Pendle<br />

Perhaps<br />

Perrier_Best_Restaura<br />

nt<br />

Peter_Pears_Award_Fir<br />

st<br />

_Prize<br />

Phoenix<br />

Pirelli_International<br />

Portsmouth<br />

Portuguese_Grand_Prix<br />

Pound<br />

Premiership<br />

Presbyterian<br />

Princess<br />

Prix<br />

Prix_De<br />

Prix_Dollar<br />

Prix_Ganay<br />

Prix_Royal-Oak<br />

Prudential_World_Cup<br />

Qualifying_School<br />

RECENTLY_Jonathon_Kha<br />

irule<br />

Racing_Post_Chase<br />

Radio_Award<br />

Rather<br />

Real<br />

Renault_Clio_RT_1.4<br />

Restricted<br />

River_Hill<br />

Rome_Classic<br />

Rose<br />

Rosehill_Guineas<br />

Royal_Berkshire<br />

Rumbelows_Cup<br />

Russia<br />

Ryder_Cup<br />

SGB_Chase<br />

Salvation<br />

San_Remo_Rally<br />

Sandeman_Hurdle<br />

Sean_Kelly<br />

Share<br />

Show_Hunter<br />

Silver_Leopard<br />

Since<br />

Son<br />

Sophia_Loren<br />

South_African_Open<br />

South_American_Champi<br />

onship<br />

Southampton_Having<br />

Special<br />

Special_Jury_Prize<br />

Sport<br />

St_Leger<br />

Stefan_Edberg<br />

Stella<br />

Stetchworth_Maiden_St<br />

akes<br />

Sun_Alliance_Chase<br />

Sunday_League<br />

Sutton_Coldfield<br />

Swindon<br />

Sword_Dancer_Stakes<br />

Sydney<br />

THE_Victoria_Cross<br />

TWI<br />

Tampa<br />

Tamworth


241<br />

Tatyana<br />

Tchaikovsky_Competiti<br />

on<br />

Test<br />

That<br />

The_Cheltenham_Gold_C<br />

up<br />

The_Daily_Trophy<br />

The_Good_Skiing_Guide<br />

The_National_Westmins<br />

ter_Bank_Sevens<br />

The_Players_Champions<br />

hip<br />

The_Sir_Douglas_Bader<br />

_Trophy<br />

Then<br />

Tiny<br />

Tories<br />

Tory<br />

Tottenham<br />

Tour<br />

Tour_de_France<br />

Trophy<br />

Tropicarr<br />

Trusthouse_Forte_Prix<br />

_Vermeille<br />

Turner<br />

Two<br />

Two_Thousand_Guineas<br />

UEFA_Cup<br />

US_Championship<br />

US_Masters<br />

US_Open<br />

United_States_Open<br />

University_Match<br />

Up<br />

VC<br />

Vale<br />

Vauxhall_FA_Trophy<br />

Victoria_Cross<br />

Vincent_O'Brien_Irish<br />

_Gold_Cup<br />

Volvo_Masters<br />

Volvo_PGA_Championshi<br />

p<br />

Walker_Cup<br />

Washington_Internatio<br />

nal<br />

Watford<br />

Weembledon<br />

Welsh<br />

West_Ham<br />

Western_Open<br />

When<br />

When_England<br />

Whitbread_Biography<br />

Whitbread_Gold_Cup<br />

Whitbread_Prize<br />

White_House<br />

Wimbledon<br />

Wolverhampton_West<br />

Wood_Ditton_Stakes<br />

Working_Hunter_Champi<br />

onship<br />

World_Championship<br />

World_Club_Championsh<br />

ip<br />

World_Cup<br />

World_Cups<br />

World_Series<br />

Yet<br />

Yorkshire_Cup<br />

absolute_majority<br />

abundance<br />

acceptance<br />

acclaim<br />

accolade<br />

accommodation<br />

action<br />

actor<br />

admiration<br />

admission<br />

affection<br />

age_group<br />

agreement<br />

air_power<br />

ally<br />

amateur<br />

amount<br />

another<br />

anything<br />

appeal<br />

approval<br />

arm<br />

attention<br />

audience<br />

award<br />

backing<br />

ball<br />

ballot<br />

ban<br />

bank<br />

base<br />

battle<br />

bet<br />

bidder<br />

bonus<br />

borough<br />

bout<br />

boxing_match<br />

break<br />

breathing_space<br />

business<br />

but<br />

by-election<br />

camera<br />

cap<br />

capital<br />

car<br />

card<br />

case<br />

cash<br />

category<br />

chairman<br />

championship<br />

chance<br />

change_-_but<br />

chase<br />

cheer<br />

child<br />

chocolate<br />

class<br />

classic<br />

club<br />

colleague<br />

combination<br />

company<br />

compensation<br />

competition<br />

competitor<br />

concept<br />

concession<br />

conference<br />

confidence<br />

constituency<br />

contest<br />

contract<br />

control<br />

convert<br />

cost<br />

country<br />

couple<br />

course<br />

court<br />

coveted<br />

credibility<br />

cricket<br />

crown<br />

cup<br />

custody<br />

customer<br />

cut<br />

damages<br />

deal<br />

debate<br />

debut<br />

defendant<br />

degree


242<br />

democracy<br />

des<br />

development<br />

distance<br />

division<br />

dole<br />

dollar<br />

domestic<br />

drama<br />

du<br />

either<br />

election<br />

elite<br />

encounter<br />

end<br />

endorsement<br />

enough<br />

entry<br />

equal<br />

equivalent<br />

event<br />

everything<br />

extraordinary<br />

eyes<br />

fame<br />

favour<br />

feature<br />

fight<br />

figure<br />

final<br />

first<br />

first_half<br />

flag<br />

food<br />

football<br />

forever<br />

fortune<br />

foursome<br />

fourth<br />

frame<br />

franchise<br />

franchiser<br />

freestyle<br />

friend<br />

friendship<br />

funding<br />

future<br />

game<br />

garden<br />

general_election<br />

go-ahead<br />

goal<br />

gold<br />

governorship<br />

grade<br />

grand_slam<br />

greyhound<br />

ground<br />

hand<br />

handful<br />

handicap<br />

he<br />

heaps<br />

heart<br />

hearts<br />

heat<br />

hegemony<br />

help<br />

her<br />

him<br />

himself<br />

his<br />

hole_-_at<br />

holiday<br />

home_game<br />

honesty<br />

host<br />

hurdle<br />

hurdler<br />

incident<br />

independence<br />

independent<br />

indulgence<br />

insertion<br />

insurance_company<br />

international<br />

investment<br />

issue<br />

it<br />

jacket<br />

job<br />

junior<br />

kerfuffle<br />

kingdom<br />

kudos<br />

landslide<br />

leadership<br />

league<br />

lease<br />

leg<br />

length<br />

letter<br />

licence<br />

line-out<br />

look<br />

maiden<br />

major<br />

majority<br />

majority_-_though<br />

majors<br />

makeover<br />

manager<br />

marathon<br />

mark<br />

marksman<br />

match<br />

matches<br />

matches_-_more<br />

matter<br />

me<br />

medal<br />

media<br />

meeting<br />

membership<br />

men's<br />

mere<br />

method<br />

metre<br />

mile<br />

mind<br />

miner<br />

mini-drama<br />

minister<br />

model<br />

modern<br />

money<br />

mortgage<br />

musical<br />

name<br />

newspaper<br />

nomination<br />

nothing<br />

notion<br />

number<br />

office<br />

ofthe<br />

omen_-_I<br />

opposite<br />

organisers<br />

ourselves<br />

ovation<br />

overall<br />

pardon<br />

parent<br />

party<br />

patio<br />

paving<br />

pawn<br />

payout<br />

peace<br />

pebble<br />

peg<br />

penalty<br />

people<br />

per_cent<br />

percent<br />

percentage<br />

person


243<br />

place<br />

plaudits<br />

player<br />

playoff<br />

plight<br />

plurality<br />

point<br />

poll<br />

pool<br />

popularity<br />

port<br />

portfolio<br />

possession<br />

post<br />

pot<br />

praise<br />

prediction<br />

premiership<br />

presidency<br />

primary<br />

prince<br />

privilege<br />

prize<br />

problem<br />

project<br />

promotion<br />

protest<br />

prototype<br />

public<br />

publicity<br />

pumpkin<br />

qualifier<br />

quarter<br />

quarterfinal<br />

quota<br />

race<br />

racehorse<br />

racket<br />

rally<br />

ranking<br />

rating<br />

recipe<br />

record<br />

recruit<br />

reduction<br />

renown<br />

replay<br />

reprieve<br />

reputation<br />

resource<br />

respect<br />

respite<br />

retrial<br />

return<br />

review<br />

revolution<br />

riband<br />

riches<br />

ride<br />

rise<br />

rises_-<br />

_about_12.6_per_cent_<br />

-_are<br />

rival<br />

role<br />

rosette<br />

round<br />

ruck<br />

run<br />

runner<br />

safari<br />

salvation<br />

scholarship<br />

school<br />

scrum<br />

season<br />

seat<br />

second<br />

section<br />

sector<br />

seed<br />

selection<br />

semifinal<br />

series<br />

set<br />

settlement<br />

share<br />

shoe<br />

shot<br />

showjumping<br />

side<br />

sign<br />

signature<br />

silver<br />

single<br />

singles<br />

skirmish<br />

small<br />

something<br />

sort<br />

spectacular<br />

speech<br />

speed<br />

spoils<br />

sponsorship<br />

spoon<br />

spur<br />

squad<br />

stage<br />

standing_ovation<br />

start<br />

state<br />

statuette<br />

status<br />

steeplechase<br />

strain<br />

street<br />

strength<br />

strike<br />

struggle<br />

studio<br />

stylish<br />

success<br />

summary_judgment<br />

suport<br />

support<br />

supporter<br />

sweep<br />

sweet<br />

sympathy<br />

talent<br />

tankard<br />

tassel_-_and_he<br />

team<br />

tenth<br />

term<br />

term_-_unprecedented<br />

term_of_office<br />

test<br />

test_case<br />

test_match<br />

thanks<br />

that<br />

their<br />

them<br />

these<br />

they<br />

thing<br />

things<br />

third<br />

thirds<br />

thirty-nine<br />

this<br />

those<br />

throne<br />

tie<br />

time<br />

tin<br />

title<br />

tool<br />

top<br />

toss<br />

total<br />

tournament<br />

toy<br />

track<br />

treasurer<br />

trial


244<br />

trip<br />

triple<br />

triple_crown<br />

trophy<br />

trousers<br />

turkey<br />

twenty-one<br />

two-thirds<br />

unchurched<br />

under-25<br />

us<br />

valuable<br />

value<br />

vaulting<br />

version<br />

victory<br />

violin_section<br />

vote<br />

voter<br />

voucher<br />

wager<br />

walk<br />

wallaby<br />

war<br />

wardrobe<br />

warm-up<br />

waverer<br />

ways<br />

weight<br />

well<br />

what<br />

which<br />

whileFife<br />

who<br />

wicket<br />

winner<br />

woman<br />

work<br />

world<br />

worth<br />

wristwatch<br />

writer<br />

yacht_race<br />

you<br />

yourself<br />

win: w2w subjektuak<br />

-_he<br />

-glamorization<br />

29-year-old<br />

AARON_KRICKSTEIN<br />

AD<br />

ANGLO_UNITED<br />

AN_OWNER<br />

A_CONSORTIUM<br />

A_W_Carr<br />

Abbey_National<br />

Adams<br />

Adrian_Edmondson<br />

After<br />

After_Dot<br />

After_Gower<br />

After_Labour<br />

After_The_White_Lion<br />

Airdrie<br />

Alabama<br />

Albers<br />

Albert_Geldard<br />

Alexander<br />

Alison_Dare<br />

All<br />

All_20<br />

Alliance<br />

Alliance_Party<br />

Alner<br />

Although_Canada<br />

Although_Mr_Nakayama<br />

Although_Mr_Smith<br />

Although_Warwickshire<br />

America<br />

Americans<br />

And_Palin<br />

Andrew_Baxter<br />

Angler<br />

Angolan<br />

Another_Kurd<br />

Arazi<br />

Argentina<br />

Arkle<br />

Arran<br />

As<br />

Asparagus_Triptych<br />

At_Talaq<br />

Audrey<br />

Aurora_Cunha<br />

Australia<br />

Australian<br />

Australian_John_Fahey<br />

Austria<br />

Austrian_Hugo_Simon<br />

BBC<br />

BILL_BRITTON<br />

BILL_CLINTON<br />

BRITISH_Nuclear_Fuels<br />

BRM<br />

BUCKINGHAMSHIRE<br />

BY<br />

Baby_Turk<br />

Back<br />

Baggio<br />

Ballesteros<br />

Banque_Indosuez<br />

Bantamweight_Karen_Br<br />

iggs<br />

Barnes<br />

Barnsley<br />

Basildon<br />

Basingstoke<br />

Bathams_Best_Bitter<br />

Battling_Barry_Neal<br />

Bayern<br />

Beaton<br />

Beavers<br />

Becker<br />

Beckett<br />

Beerbaum<br />

Bell<br />

Bette_Davis<br />

Biasion<br />

Biggs<br />

Bill_Bullock<br />

Birchfield_Harrier<br />

Birmingham<br />

Bistro<br />

Black<br />

Blackburn<br />

Bonanza_Boy<br />

Bond<br />

Booker<br />

Bosnia<br />

Boss_Man<br />

Botham<br />

Brazil<br />

Brazilian<br />

Brazilian_Paolo_Carca<br />

sci<br />

Brearley<br />

Bregawn<br />

Bremen<br />

Brians_Dark<br />

Bridgend4_BRIDGEND<br />

Brigitte_Newbury<br />

Britain<br />

British<br />

British_Aerospace<br />

Briton<br />

Brixton<br />

Brondby<br />

Bueno<br />

Buick<br />

Bunce<br />

Burgundians<br />

Bush<br />

But<br />

But_Corden<br />

But_Graham<br />

But_London<br />

But_Oxford_Hawks


245<br />

But_River_Bounty<br />

But_St_Ives<br />

C<br />

C2s<br />

CVP<br />

Cabra<br />

Cagliari<br />

Calder<br />

Callaghan<br />

Calzaghe<br />

Cambridge<br />

Capriati<br />

Cardiff6_LLANELLI<br />

Careca<br />

Carl_Smith<br />

Carter<br />

Cauthen<br />

Cecil<br />

Certainly_Mrs_Thatche<br />

r<br />

Champions_Roland_King<br />

ston<br />

Chapman<br />

Charlton<br />

Charterhouse<br />

Chelsea<br />

Chen<br />

Chick<br />

Chub<br />

Churchill<br />

Cicero<br />

City<br />

Clarke<br />

Clasper<br />

Clinton<br />

Coin<br />

Commission<br />

Conner<br />

Conservative<br />

Conservative_Party<br />

Conservatives<br />

Consultants<br />

Cooper<br />

Copsey<br />

Cork_Gully<br />

Corrado<br />

Couples<br />

Coventry<br />

Craig<br />

Cram<br />

DENNIS_SKINNER<br />

Da_Silva<br />

Daisy_Miller<br />

Daniel_Wesley<br />

Darara<br />

Dave_Amber<br />

David_Chapman<br />

David_Duke<br />

David_Jamieson<br />

David_Land<br />

Davis<br />

Dawn_Run<br />

Democratic_Party<br />

Desert_Orchid<br />

Dewsbury<br />

Diana<br />

Digression<br />

Docklands_Express<br />

Don<br />

Don_Edwards<br />

Don_John<br />

Donna<br />

Doyle<br />

Drake<br />

Duff<br />

Dukakis<br />

Dutchman_Marcel_Alber<br />

s<br />

EDS<br />

East<br />

Eastbourne<br />

Eisenhower<br />

Eliot<br />

Embla<br />

EmmaJane_Mac<br />

England<br />

English<br />

English_No_1<br />

Enoch_Powell<br />

Enrico_Berlinguer<br />

Entertainer<br />

Ernest_Bevin<br />

Ernest_Saunders<br />

Europe<br />

Europeans<br />

Euwe<br />

Evangelical<br />

FET<br />

FOURTEEN_NUNS<br />

Faldo<br />

Farges<br />

Field<br />

Fignon<br />

Fiji<br />

Firm<br />

Fleet/Norstar<br />

Foinavon<br />

For_Guy<br />

Forest<br />

Forget<br />

Fort_Marcy<br />

Fortunately_Britain<br />

Foster<br />

Fourth_Division<br />

Frank<br />

Frederick_Hartt<br />

GARY_DRAKE<br />

GBH<br />

GREAT_BRITAIN<br />

GREG_HARLOW<br />

GUY_POOLEY<br />

Garry_Hay<br />

Gary_Player<br />

Gatting<br />

General_Humbert<br />

Genevieve<br />

Gennadi_Progoda<br />

Geoffrey_Bone<br />

George_McCartney<br />

George_Ward<br />

Ghofar<br />

Gold_Medal<br />

Gorbachev<br />

Gordon_Richards<br />

Goth<br />

Government<br />

Gower<br />

Graziano<br />

Greig<br />

Guineas<br />

Gyles_Brandreth<br />

HAD_Labour<br />

HAWTHORN<br />

HOLD<br />

HONG_KONG<br />

Had_Wapnick<br />

Hall<br />

Ham<strong>net</strong>t<br />

Handicap_Hurdle<br />

Harlston_YFC<br />

Harold<br />

Harris<br />

Having<br />

He<br />

Healey<br />

Heath<br />

Heddle<br />

Henderson<br />

Hendry<br />

Hennessy<br />

Henrik_Gustafsson<br />

Henry_Cotton<br />

Hertfordshire<br />

Hindmarch<br />

Holland<br />

Hospital_Corporation_<br />

International<br />

Hounslow


246<br />

Hoylake<br />

Hurd<br />

I<br />

IF_LABOUR<br />

IT_IS_IMPOSSIBLE<br />

Iades<br />

Identity_Parade<br />

If_Labour<br />

If_London<br />

If_Mr_Major<br />

If_Prost<br />

If_Senna<br />

Il_Moro<br />

Ile_De_Nisky<br />

Ilona<br />

In<br />

In_1961<br />

In_Leningrad<br />

Infant_Minds<br />

Ipswich<br />

Iraq<br />

Ireland<br />

Islamic_Salvation_Fro<br />

nt<br />

Israel<br />

It<br />

Ivor<br />

JANIE_EICKHOFF<br />

JEFFERSON_SMURFIT<br />

JESUS_ROJAS<br />

JIMMY_McCRAE<br />

JOHN_PARROTT<br />

JUAN_MOLINA<br />

Jack_Lemmon<br />

Jansher<br />

Japan<br />

Jarryd<br />

Jason<br />

Jason_Nicolle<br />

Jimmy<br />

Jimmy_Connors<br />

Jimmy_White<br />

Joanne<br />

Joanne_Atkins<br />

Joe_Screen<br />

John<br />

John_Ford<br />

John_Henry<br />

John_Smith<br />

John_Tugwell<br />

Joint_Sovereignty<br />

Jones<br />

Jonjo_O'Neill<br />

Josie_Horton<br />

Julie_Pullin<br />

Just<br />

Kaifu<br />

Kaiser<br />

Kate_Howey<br />

Katharine_Hepburn<br />

Kawasaki_Heavy_Indust<br />

ries<br />

Ken_Matthews<br />

Ken<strong>net</strong>h_Clarke<br />

Kerekou<br />

Kerrith_Brown<br />

Ki_Hoon_Kim<br />

Kim<br />

King_Credo<br />

Kingstonians<br />

Kinnock<br />

Kurds<br />

Kylie<br />

L'Escargot<br />

Labour<br />

Lachie_Deuchar<br />

Laings<br />

Lamb<br />

Later<br />

Laura_Davies<br />

Lawrie_Smith<br />

Lawson<br />

League<br />

Leavis<br />

Lee_Chapman<br />

Leeds<br />

Leicester<br />

Leicestershire<br />

Leonard<br />

Liberals<br />

Liverpool<br />

Llanelli<br />

Llewellyn<br />

Lloyd<br />

London<br />

London_Scottish<br />

Loose_Tubes<br />

Lotus_Esprit_Turbos<br />

Lowe_International<br />

Ludger_Beerbaum<br />

Luton<br />

Lyle<br />

MAIL_Newspapers<br />

MASSIMO_BIASION<br />

Major<br />

Malcolm_Pyrah<br />

Man<br />

Manchester_United<br />

Mario_Andretti<br />

Markovic<br />

Martin<br />

Martin_Haag<br />

Martin_Luther_King<br />

Mary<br />

Master_Craftsman<br />

Matchboard<br />

Matlock<br />

McCormack<br />

Me<br />

Mendip_Express<br />

Mersey<br />

Merthyr_Tydfil<br />

Michael<br />

Michael_Bishop<br />

Michael_Heseltine<br />

Midlands<br />

Mika_Hakkinen<br />

Milan<br />

Mill_House<br />

Ministry<br />

Mitsotakis<br />

Mize<br />

Monie<br />

Mont_Basile<br />

Moran<br />

Morrell<br />

Morris_Dees<br />

Mother<br />

Mr_Hamilton-Renwick<br />

Mr_Loveluck-Edwards<br />

Mrs_Clancy<br />

Mrs_Jones<br />

Mrs_Molina<br />

Mrs_Thatcher<br />

Muhayaa<br />

NEIL_KINNOCK<br />

NIGEL_LAWSON<br />

Nasa<br />

Nashwan<br />

Nationalists<br />

Neath<br />

New_Zealand<br />

New_Zealander<br />

Newcastle<br />

Nicholas_Mosley<br />

Nicholson<br />

Nick_Skelton<br />

Nicol_Stephen<br />

Nigel_Jones<br />

Nigel_Lawson<br />

Night_Raid<br />

Nijinsky<br />

Nippon<br />

Nobel_Prize<br />

Nobody<br />

Nolte<br />

Noone<br />

Norman


247<br />

Northampton<br />

Northern_Ireland<br />

Norwegian<br />

Nottingham<br />

Nottinghamshire<br />

Oldham<br />

Oliver_Gillie<br />

On<br />

One<br />

One_For_All<br />

Open_Championship<br />

Optiebeurs_Felix<br />

Orlando<br />

Oxford<br />

Oxford_University_Aus<br />

tralian<br />

PAI<br />

PNG<br />

PS<br />

Page<br />

Paisley<br />

Pajot<br />

Pakistan<br />

Palace<br />

Parliament<br />

Party_Politics<br />

Pd<br />

Peter_Harris<br />

Peter_McDaid<br />

Phar_Lap<br />

Phoenix<br />

Pierre_Balmain<br />

Pirmin_Zurbriggen<br />

Pole<br />

Pompey<br />

Portsmouth_Northsea<br />

Postmaster<br />

Premium_Bond<br />

Premonition<br />

Prontaprint<br />

Prost<br />

Puttnam<br />

RECOLLECTIONS_OF_THE_<br />

YELLOW_HOUSE<br />

RICHARD_Deacon<br />

Ra<br />

Ramsin<br />

Ray<br />

Raymond_Robertson<br />

Reagan<br />

Real<br />

Red_Rum<br />

Reform<br />

Republicans<br />

Reshevsky<br />

Reveille_Boy<br />

Reykjavik<br />

Reynard<br />

Reynolds<br />

Richards<br />

Roadshows<br />

Robert_Watts<br />

Robin_Smith<br />

Roe<br />

Roebuck<br />

Roscoe_Boy<br />

Roy_Jenkins<br />

Royal_Bank<br />

Runners-up<br />

SED<br />

SINCE_Michael_Chang<br />

SLD<br />

Sally<br />

Salter<br />

Sandy_Lyle<br />

Sara_Saddoo<br />

Sarah_Loosemore<br />

Saunders<br />

Scarborough<br />

Schluter<br />

Scotland<br />

Seabrook<br />

Senior<br />

Sergeant_Elliott<br />

Sergeev<br />

Seventh_Symphony<br />

Severiano_Ballesteros<br />

Share<br />

Sharp_Prince<br />

She<br />

Sheikh_Mohammed<br />

Sherwood<br />

Short<br />

Short_-_who<br />

Short_Brothers<br />

Should_Labour<br />

Should_Major<br />

Sierra_Cosworth_4x4<br />

Sigel<br />

Silke_Hoerner<br />

Silva<br />

Silver_Buck<br />

Simon<br />

Skybolt<br />

Smith<br />

So<br />

So_West_Indies<br />

Social_Democrats<br />

Socialist_League<br />

Solidasarock<br />

Sonilla<br />

Soon_Graham<br />

Sophie_Mitchell<br />

South_African<br />

Spain<br />

Spanish_Play<br />

Speelman<br />

St_Helens<br />

Staffordshire<br />

Star_Player<br />

Stars<br />

Statue<br />

Steffi<br />

Steffi_Graf<br />

Stephen_Akers<br />

Stephens<br />

Steve_Gazzard<br />

Stock_Exchange<br />

Stoke<br />

Strett<br />

Stuart_Childerley<br />

Subsequently_Pasterna<br />

k<br />

Sugar_Ray_Leonard<br />

Sure_Sharp<br />

Surrey<br />

Swede<br />

Sweden<br />

TEAM<br />

THE_CASE_FOR_NOT_MEDD<br />

LING_WITH_THE_NHS_Who<br />

ever<br />

THE_POUND<br />

THE_Press_Council<br />

TO_BE<br />

Tanni_Grey<br />

Tebitto<br />

Ted_Heath<br />

Television_Sales<br />

Terrible<br />

Terry_Blamey<br />

Test<br />

That_Dihistan<br />

The_Andover_Branch<br />

The_Australians<br />

The_Baxters<br />

The_Campaign<br />

The_Caretaker<br />

The_Catalans<br />

The_Chancellor<br />

The_Conservative_Part<br />

y<br />

The_Conservatives<br />

The_DUP<br />

The_Democrats<br />

The_East<br />

The_FIS<br />

The_Government


248<br />

The_Kawasaki_Mule_201<br />

0<br />

The_Labour_Opposition<br />

The_League<br />

The_Liberal_Democrats<br />

The_Lloyds<br />

The_Navy<br />

The_Ozals<br />

The_Portuguese_Social<br />

_Democrats<br />

The_Prime_Minister<br />

The_Queenslander<br />

The_Renault_Clio<br />

The_SDP<br />

The_South_Africans<br />

The_Spaniards<br />

The_Tories<br />

The_Tribune_Company<br />

The_Two_Solitudes<br />

The_USSR<br />

The_Western_Region<br />

Their<br />

These<br />

They<br />

This<br />

Thomas_Burgler<br />

Timman<br />

To<br />

Tolstikov<br />

Tony_Copsey<br />

Tony_Rominger<br />

Tooheys<br />

Top_Spin_Lob<br />

Tories<br />

Tory<br />

Tory_MEPs<br />

Tottenham<br />

Tranmere<br />

Treleaven<br />

Troke<br />

True_Bloom<br />

Truman<br />

Twitbread<br />

Tzan<strong>net</strong>akis<br />

UPP<br />

Under-21<br />

United<br />

United_Democrats<br />

United_States<br />

Valiant_Boy<br />

Vardon<br />

Victor_Sassoon<br />

Victor_Saunders<br />

Vietnamese<br />

Villa<br />

Volvo<br />

WALSALL_KIPPING<br />

WHEN_Rangers<br />

WHOEVER<br />

Walker<br />

Walter_Hagen<br />

Wanless<br />

We<br />

Welch<br />

Welshman<br />

Werth<br />

West_Ham<br />

West_Indies<br />

West_Middlesex<br />

What<br />

When_Bath<br />

When_Beerbaum<br />

When_Bovet<br />

When_England<br />

When_Kylie<br />

When_Lyle<br />

When_Millar<br />

When_Richards<br />

When_Woosnam<br />

Whether_Darrel_McHarg<br />

ue<br />

While_Kirdoff<br />

Who<br />

Wigan<br />

Wilder<br />

Williams<br />

With<br />

Wont_Be_Gone_Long<br />

Would_Jennifer_Jones<br />

X_Windows<br />

YF-22<br />

Yeltsin<br />

Yet<br />

Yohji<br />

York<br />

You<br />

Young_Pokey<br />

Youth_Cup<br />

Yugoslavia<br />

Zsuzsa<br />

abortion<br />

act<br />

activist<br />

addition<br />

age<br />

amount<br />

angler<br />

another<br />

appeal<br />

arm<br />

arrival<br />

article<br />

attention<br />

attitude<br />

audience<br />

authority<br />

bachelor's_button<br />

back<br />

banality<br />

band<br />

baron<br />

batallion<br />

best_man<br />

bloc<br />

blood<br />

bluntness<br />

bomb<br />

book<br />

brace_and_bit<br />

brigade<br />

brother<br />

bus<br />

captain<br />

caption<br />

car<br />

car_park<br />

case<br />

caterer<br />

chairmen<br />

challenger<br />

champion<br />

chance<br />

chaser<br />

chef<br />

chemist<br />

chess_player<br />

chief<br />

church<br />

civil_servant<br />

club<br />

coating<br />

college<br />

combination<br />

comfort<br />

comforts<br />

company<br />

conductor<br />

confidence<br />

conservative<br />

conservativism<br />

consortia<br />

consortium<br />

consultant<br />

containment<br />

contestant<br />

correctly<br />

country<br />

course


249<br />

coverage<br />

cox<br />

cream<br />

cricketer<br />

critique<br />

cup<br />

cutback<br />

debt<br />

declarer<br />

defender<br />

defensiveness<br />

delegate<br />

derby<br />

design<br />

desire<br />

development<br />

device<br />

diamond<br />

diploma<br />

directness<br />

division<br />

dollar<br />

double<br />

dragon<br />

drama<br />

drill<br />

driver<br />

earth<br />

edge<br />

effect<br />

egg<br />

either<br />

election<br />

employee<br />

employer<br />

enemy<br />

energy<br />

engineer<br />

enthusiast<br />

entrant<br />

entry<br />

equivalent<br />

establishment<br />

event<br />

expert<br />

explosive<br />

faction<br />

fairmindedness<br />

farm<br />

father<br />

feature<br />

fifth<br />

fighter<br />

fillip<br />

film<br />

final<br />

firm<br />

fit<br />

five-year-old<br />

following<br />

foot<br />

footpath<br />

footwork<br />

foreigner<br />

four-year-old<br />

front<br />

fund<br />

gamble<br />

game<br />

gardening<br />

gelding<br />

gesture<br />

gift<br />

glue<br />

goal<br />

golden_boy<br />

golfer<br />

government<br />

grading<br />

grey<br />

group<br />

guy<br />

h5<br />

he<br />

headquarters<br />

heifer<br />

her<br />

him<br />

himself<br />

hitter<br />

holder<br />

hole<br />

hopefuls<br />

horse<br />

horse_-_recently<br />

horse_race_-_he<br />

house<br />

housecoat<br />

human<br />

hunter-chaser<br />

hurdler<br />

independent<br />

industry<br />

injury<br />

interest<br />

intervention<br />

interviewer<br />

investor<br />

involvement<br />

it<br />

journalist<br />

ketch<br />

last<br />

leadership<br />

league<br />

left<br />

length<br />

letter<br />

liberal<br />

life<br />

line<br />

liquidator<br />

litigant<br />

local<br />

losses<br />

man<br />

manager<br />

manner<br />

marathon<br />

marketeers<br />

marque<br />

marquetarians<br />

match<br />

mayor<br />

me<br />

measure<br />

medallist<br />

member<br />

militant<br />

militia<br />

minister<br />

moment<br />

mood<br />

move<br />

name<br />

nature<br />

neutrality<br />

newcomer<br />

no_one<br />

nonconformist<br />

note<br />

notion<br />

novel<br />

opponent<br />

opposition<br />

other<br />

others<br />

outfit<br />

outsider<br />

owner<br />

ownership<br />

par<br />

partnership<br />

party<br />

people<br />

performance<br />

personality<br />

philosophy


250<br />

physiologist<br />

picker<br />

picking<br />

picture<br />

pilot<br />

planning<br />

player<br />

police<br />

policy<br />

poll_tax<br />

pool<br />

population<br />

practitioner<br />

pragmatist<br />

pressure<br />

programme<br />

proportional_represen<br />

tation<br />

punch<br />

pupil<br />

quality<br />

race<br />

ranger<br />

reader<br />

realpolitik<br />

reception<br />

religion<br />

rematch<br />

repeat<br />

representative<br />

restaurant<br />

revenue<br />

ride<br />

rider<br />

router<br />

run<br />

runaway<br />

runner<br />

runners-up<br />

sack<br />

scene<br />

C.15.7 c2c BNCtik<br />

Denak ez zuzenak dira.<br />

school<br />

seamers<br />

seat<br />

second<br />

seed<br />

selfbuilders<br />

series<br />

serve<br />

service<br />

share<br />

she<br />

shoulda<br />

side<br />

sixth<br />

skill<br />

slate<br />

smoothing_plane<br />

social_work<br />

socialist<br />

someone<br />

somnolence<br />

son<br />

speaker<br />

speech<br />

squad<br />

stable<br />

stance<br />

standoff<br />

striker<br />

student<br />

study<br />

success<br />

supermarket<br />

support<br />

supporter<br />

system<br />

tactic<br />

taskforce<br />

tax<br />

team<br />

technology<br />

that<br />

them<br />

they<br />

third<br />

this<br />

those<br />

throw<br />

ticket<br />

tide<br />

tiger<br />

time<br />

tip<br />

tipple<br />

title<br />

toff<br />

tour<br />

tourist<br />

tournament<br />

trading<br />

twenty-one<br />

unit<br />

unmistakably_-_has<br />

us<br />

veto<br />

victory<br />

we<br />

weaver<br />

welder<br />

which<br />

who<br />

whoever<br />

wife<br />

win<br />

withers<br />

woman<br />

worker<br />

year<br />

you<br />

younger_-_who<br />

win 00620486: c2c objektu hautapen-murriztapenak<br />

08534455 0.005 status position "the relative position or standing of…"<br />

09065837 0.003 time_period period period_of_time amount_of_time<br />

08520394 0.002 condition status "a condition or state at a particular time"<br />

08813320 0.002 helium He atomic_number_2<br />

08553594 0.001 war state_of_war "a legal state created by a declaration…"<br />

08562692 0.0009 license licence "freedom to deviate deliberately from…"<br />

08522741 0.0008 situation state_of_affairs "the general state of things…"


09164158 0.0007 playing_period period_of_play play "(in games or plays…)"<br />

08745609 0.0005 opportunity chance "a possibility due to a favorable…"<br />

win 00620486: c2c subjektu hautapen-murriztapenak<br />

08813320 0.157 helium He atomic_number_2<br />

08520394 0.001 condition status "a condition or state at a particular time"<br />

09065837 0.001 time_period period period_of_time amount_of_time<br />

08807415 0.001 metallic_element metal "any of several chemical elements…"<br />

08534455 0.001status position "the relative position or standing of…"<br />

08745609 0.0008 opportunity chance "a possibility due to a favorable…"<br />

08781633 0.0007 material stuff "the tangible substance that goes into the…"<br />

08522741 0.0004 situation state_of_affairs "the general state of things"<br />

08804621 0.0003 group radical "two or more atoms bound together as a…"<br />

C.15.8 w2semf EFEtik<br />

win: w2semf objektu hautapen-murriztapenak<br />

obj x 60<br />

obj military-communication 50<br />

obj number-quantity 34.98 ZUZENA<br />

obj sport-event 34.15 ZUZENA<br />

obj factotum-artifact 18.02<br />

obj sociology-state 16.57<br />

obj sport-state 16.03<br />

obj time_period-time 13.31<br />

obj politics-act 13.17<br />

obj play-act 12.36 ZUZENA<br />

win: w2semf subjektu hautapen-murriztapenak<br />

subj x 297 ONARGARRIA<br />

subj sport-group 33.16 ONARGARRIA<br />

subj geography-location 33<br />

subj administration-location 30.73<br />

subj zoology-group 30<br />

subj administration-group 29.2<br />

subj number-quantity 13.58<br />

subj chemistry-substance 9.5<br />

subj time_period-time 8.94<br />

subj linguistics-communication 8.19<br />

C.15.9 Ondorioak<br />

Objektuak Subjektuak<br />

Iturria Teknika Zuzena Onargarria Eskuratu gabe Zuzena Onargarria Eskuratu<br />

gabe<br />

c2c 7tik 1 7tik 3 3tik 1 4tik 2 0 0<br />

SemCor w2c 10etik 1 10etik 3 3tik 1 5etik 2 0 0<br />

s2semf 10etik 3 10etik 2 4tik 1 0 10etik 1 2tik 2<br />

BNC<br />

w2c<br />

c2c<br />

10etik 1<br />

0<br />

10etik 2<br />

0<br />

0<br />

3tik 3<br />

10etik 1<br />

0<br />

10etik 1<br />

0<br />

0<br />

2tik 2<br />

EFE w2semf 10etik 3 0 0 0 10etik 2 2tik 1<br />

251


252<br />

C.16 irabazi_3<br />

C.16.1 Synseta MCRn<br />

00620486v<br />

competition<br />

DOMEINUAK:<br />

lock 00620486v 7 win_1<br />

lock 00620486v 0 irabazi_3<br />

C.16.2 Urre patroiak<br />

be the winner in a contest or competition;<br />

be victorious; "He won the Gold Medal in<br />

skating"; "Our home team won"<br />

HITZA KATEGORIA SYNSET DOMEINUA<br />

irabazi A 00620486 sport<br />

irabazi 00630097: Absolutiboa (ABSdu)<br />

c2c, w2c:<br />

04771851 competition contest “an occasion on which a winner is selected…”<br />

(hipe. EVENT)<br />

00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />

08310444 definite quantity “a specific measure of amount”<br />

w2semf, s2semf:<br />

sport-act<br />

play-act<br />

sport-event<br />

number-quantity<br />

irabazi 00630097: Ergatiboa<br />

c2c, w2c:<br />

00004865 individual someone somebody mortal human soul "a human being"<br />

00017008 group grouping "any number of entities (members) considered as…"<br />

w2semf, s2semf:<br />

person-person<br />

factotum-group


C.16.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />

irabazi: hautapen-murriztapenak (kirol domeinuko corpusa) (“-en kontra” ez dago)<br />

abs sport-event 14.86 ZUZENA<br />

abs factotum-act 4.446 ONARGARRIA<br />

abs politics-group 4.057<br />

abs geography-object 3.5<br />

abs number-quantity 3 ZUZENA<br />

abs sociology-group 2.307<br />

abs history-group 2.2<br />

abs anthropology-group 2.2<br />

abs factotum-artifact 2.106<br />

abs sport-group 2.071<br />

erg pro 54 ONARGARRIA<br />

erg x 14 ONARGARRIA<br />

erg psychology-cognition 1<br />

erg number-quantity 1<br />

erg 0 1<br />

erg politics-person 0.911<br />

erg person-person 0.777 ZUZENA<br />

erg theatre-person 0.666<br />

erg history-person 0.6<br />

erg quality-attribute 0.5333<br />

erg geography-location 0.5<br />

ine time_period-time 1.666<br />

ine factotum-state 0.733<br />

ine factotum-event 0.705<br />

ine factotum-location 0.666<br />

ine factotum-act 0.543<br />

ine enterprise-group 0.5<br />

ine sport-time 0.425<br />

ine play-time 0.425<br />

ine factotum-artifact 0.424<br />

ine geography-location 0.4173<br />

ine politics-group 0.373<br />

irabazi.kontuakhitzak.kirola:<br />

abl partidu 1<br />

abl bera 1<br />

abs x 18<br />

abs partidu 11<br />

abs liga 7<br />

abs final 6<br />

abs txapelketa 5<br />

abs etapa 4<br />

abs kopa 3<br />

abs helburu 3<br />

abs portland 3<br />

abs behar 3<br />

abs talde 3<br />

abs itzuli 3<br />

abs txapel 2<br />

abs lasterketa 2<br />

abs bera 2<br />

abs zerbait 2<br />

abs ezer 2<br />

abs san 2<br />

abs korrikalari 1<br />

abs lau 1<br />

abs hamabi 1<br />

abs partida 1<br />

abs bm 1<br />

abs titulu 1<br />

253


254<br />

abs giro 1<br />

abs klasiko 1<br />

abs norgehiagoka 1<br />

abs 0 1<br />

abs gehien 1<br />

abs kanporaketa 1<br />

abs atletismo 1<br />

abs izan 1<br />

abs diru 1<br />

abs entrenatzaile 1<br />

abs osasun 1<br />

abs gu 1<br />

abs bat 1<br />

adb atzo 1<br />

ala talde 1<br />

dat pro 7<br />

dat madril 1<br />

dat koska 1<br />

dat bartzelona 1<br />

dat kantabria 1<br />

dat irudi 1<br />

dat zaragoza 1<br />

dat edonor 1<br />

des talde 1<br />

en_bide joko 2<br />

erg pro 54<br />

erg gorri 2<br />

erg x 2<br />

erg bartzelona 2<br />

erg bakoitz 2<br />

erg beloki 2<br />

erg antonio 2<br />

erg gu 2<br />

erg talde 1<br />

erg ingalaterra 1<br />

irabazi: hautapen-murriztapenak (corpus osoa)<br />

abs x 43<br />

abs sport-event 16.049 ZUZENA<br />

abs politics-act 5.532<br />

abs factotum-act 5.335 ONARGARRIA<br />

abs money-quantity 5<br />

abs number-quantity 5 ZUZENA<br />

abs politics-group 4.923<br />

abs time_period-time 3.9696<br />

abs history-act 3.928<br />

abs military-act 3.611<br />

erg zale 1<br />

erg hura 1<br />

erg 0 1<br />

erg gazta 1<br />

erg ni 1<br />

erg protagonista 1<br />

erg garaiera 1<br />

erg txuri 1<br />

erg bat 1<br />

erg etiopiar 1<br />

ine x 7<br />

ine 0 2<br />

ine itzuli 2<br />

ine zati 2<br />

ine giro 1<br />

ine denboraldi 1<br />

ine lizarra 1<br />

ine gastéis 1<br />

ine hiru 1<br />

ine une 1<br />

ine partidu 1<br />

ine abiapuntu 1<br />

ine azken 1<br />

ine hamalau 1<br />

ine herri 1<br />

ine laurden 1<br />

ine jardunaldi 1<br />

ins bost 1<br />

ins puntu 1<br />

ins merezimendu 1<br />

konp menpekoa 4<br />

soz x 2<br />

soz jokalari 1<br />

soz bara 1<br />

zhg menpekoa 1


erg pro 94 ONARGARRIA<br />

erg x 22 ONARGARRIA<br />

erg politics-person 1.57<br />

erg geography-location 1.5<br />

erg administration-location1.5<br />

erg psychology-cognition 1<br />

erg number-quantity 1<br />

erg 0 1<br />

erg politics-act 1<br />

erg history-person 0.933<br />

ine x 11<br />

ine time_period-time 5.88<br />

ine factotum-act 4.86<br />

ine factotum-artifact 4.18<br />

ine number-quantity 4.18<br />

ine factotum-state 2.66<br />

ine 0 2<br />

ine politics-act 1.75<br />

ine metrology-time 1.32<br />

ine physics-phenomenon 1.04<br />

irabazi.kontuakhitzak.ALL:<br />

abl partidu 1<br />

abl bera 1<br />

abs x 28<br />

abs partidu 11<br />

abs liga 7<br />

abs final 6<br />

abs pezeta 5<br />

abs txapelketa 5<br />

abs gerra 4<br />

abs etapa 4<br />

abs denbora 4<br />

abs kopa 3<br />

abs bataila 3<br />

abs itzuli 3<br />

abs diru 3<br />

abs behar 3<br />

abs helburu 3<br />

abs hauteskunde 3<br />

abs ezer 3<br />

abs talde 3<br />

abs sari 3<br />

abs portland 3<br />

abs zerbait 2<br />

abs beste 2<br />

abs boto 2<br />

abs dirutza 2<br />

abs partida 2<br />

abs txapel 2<br />

abs lasterketa 2<br />

abs sariketa 2<br />

abs bat 2<br />

abs prezio 2<br />

abs bera 2<br />

abs san 2<br />

abs boz 2<br />

abs guduka 1<br />

abs gatazka 1<br />

abs lehia 1<br />

abs bezero 1<br />

abs lehiaketa 1<br />

abs bm 1<br />

abs hiritar 1<br />

abs entrenatzaile 1<br />

abs korrikalari 1<br />

abs izan 1<br />

abs bakar 1<br />

abs 0 1<br />

abs hamabi 1<br />

abs arrazoi 1<br />

abs osasun 1<br />

abs gutxiago 1<br />

abs bozketa 1<br />

abs gehien 1<br />

abs indarkeria 1<br />

abs kanporaketa 1<br />

abs giro 1<br />

abs atletismo 1<br />

abs gu 1<br />

abs jole 1<br />

abs estrategia 1<br />

abs gobernu 1<br />

abs konpainia 1<br />

abs lau 1<br />

abs epaiketa 1<br />

abs titulu 1<br />

abs aska 1<br />

255


256<br />

abs etorkizun 1<br />

abs mozio 1<br />

abs klasiko 1<br />

abs norgehiagoka 1<br />

abs idazkari 1<br />

abs egun 1<br />

abs dabid 1<br />

abs zerrenda 1<br />

adb lehen 1<br />

adb aurki 1<br />

adb atzo 1<br />

ala talde 1<br />

dat pro 7<br />

dat bartzelona 1<br />

dat edonor 1<br />

dat madril 1<br />

dat koska 1<br />

dat abertzale 1<br />

dat irudi 1<br />

dat arazo 1<br />

dat kantabria 1<br />

dat zaragoza 1<br />

denb menpekoa 2<br />

des talde 1<br />

en_bide joko 2<br />

erg pro 94<br />

erg x 5<br />

erg beloki 2<br />

erg banku 2<br />

erg gorri 2<br />

erg bartzelona 2<br />

erg antonio 2<br />

erg gu 2<br />

erg bakoitz 2<br />

erg hauteskunde 1<br />

erg frankista 1<br />

erg talde 1<br />

erg ingalaterra 1<br />

erg zale 1<br />

erg 0 1<br />

erg hura 1<br />

erg upn 1<br />

erg vietnam 1<br />

erg araba 1<br />

erg gazta 1<br />

erg ni 1<br />

erg bat 1<br />

erg zein 1<br />

erg demokrata 1<br />

erg protagonista 1<br />

erg errusia 1<br />

erg gizarte 1<br />

erg txuri 1<br />

erg garaiera 1<br />

erg etiopiar 1<br />

erg iu 1<br />

erg zerbitzu 1<br />

ine lan 11<br />

ine x 7<br />

ine itzuli 3<br />

ine babes 3<br />

ine hamabi 2<br />

ine 0 2<br />

ine araba 2<br />

ine zati 2<br />

ine egun 2<br />

ine urte 2<br />

ine lehiaketa 1<br />

ine abiapuntu 1<br />

ine laurden 1<br />

ine arte 1<br />

ine giro 1<br />

ine denboraldi 1<br />

ine lizarra 1<br />

ine txanda 1<br />

ine biharamun 1<br />

ine gasteiz 1<br />

ine hauteskunde 1<br />

ine hiru 1<br />

ine partidu 1<br />

ine azken 1<br />

ine hamalau 1<br />

ine herri 1<br />

ine aldi 1<br />

ine enkante 1<br />

ine martxo 1<br />

ine peru 1<br />

ine une 1<br />

ine jardunaldi 1<br />

ins bost 1<br />

ins bi 1<br />

ins puntu 1<br />

ins merezimendu 1<br />

kaus menpekoa 1<br />

konp menpekoa 6<br />

soz x 2<br />

soz jarri 1<br />

soz jokalari 1<br />

soz bara 1<br />

z menpekoa 1<br />

zhg menpekoa 1


C.16.4 SemCorreko c2c euskarara itzulita<br />

win 00620486: c2c objektu hautapen-murriztapenak:<br />

04771851 0.101 contest competition "an occasion on which a winner…" ZUZENA<br />

00228990 0.100 activity "any specific activity or pursuit" ONARGARRIA<br />

00017008 0.066 group grouping "any number of entities considered as a unit"<br />

00597858 0.0574 group_action "action taken by a group of people" ONARGARRIA<br />

00018599 0.037 communication "something that is communicated between…"<br />

05450515 0.020 region "a large indefinite location on the surface of the…"<br />

08536246 0.020 championship title "the status of being a…" ONARGARRIA<br />

win 00620486: c2c objektu hautapen-murriztapenak<br />

00017008 0.525 group grouping "any number of entities considered…" ZUZENA<br />

00004865 0.180 person individual someone somebody mortal human soul ZUZENA<br />

03610098 0.052 body_part "any part of an organism such as an organ or…"<br />

00009469 0.048 object physical_object "a physical (tangible and visible)…"<br />

C.16.5 SemCorreko s2semf euskarara itzulita<br />

win 00620486: s2semf obejektu hautapen-murriztapenak<br />

politics-act 2<br />

play-act 1.5 ZUZENA<br />

sport-act 1.5 ZUZENA<br />

free_time-act 1<br />

sport-event 1 ZUZENA<br />

geography-location 1<br />

factotum-act 1 ONARGARRIA<br />

factotum-communication 1<br />

factotum-Tops 1 ONARGARRIA<br />

history-act 0.5<br />

win 00620486: s2semf subjektu hautapen-murriztapenak<br />

factotum-Tops 1 ONARGARRIA<br />

zoology-body 0.5<br />

law-group 0.5<br />

anthropology-Tops 0.5<br />

anatomy-body 0.5<br />

administration-group 0.5<br />

biology-Tops 0.5<br />

geography-location 0.333<br />

history-location 0.333<br />

administration-location 0.333<br />

257


258<br />

C.16.6 EFEko w2semf euskarara itzulita<br />

win: w2semf objektu hautapen-murriztapenak<br />

obj x 60<br />

obj military-communication 50<br />

obj number-quantity 34.98 ZUZENA<br />

obj sport-event 34.15 ZUZENA<br />

obj factotum-artifact 18.02<br />

obj sociology-state 16.57<br />

obj sport-state 16.03<br />

obj time_period-time 13.31<br />

obj politics-act 13.17<br />

obj play-act 12.36 ZUZENA<br />

win: w2semf subjektu hautapen-murriztapenak<br />

subj x 297 ONARGARRIA<br />

subj sport-group 33.16 ONARGARRIA<br />

subj geography-location 33<br />

subj administration-location 30.73<br />

subj zoology-group 30<br />

subj administration-group 29.4<br />

subj number-quantity 13.58<br />

subj chemistry-substance 9.5<br />

subj time_period-time 8.94<br />

subj linguistics-communication 8.19<br />

C.16.7 Ondorioak<br />

Iturria Teknika Kasua Zuzena Onargarria Eskuratu<br />

gabe<br />

Egunkaria<br />

osoa<br />

w2semf<br />

abs<br />

erg<br />

10etik 2<br />

0<br />

10etik 1<br />

10etik 2<br />

0<br />

2tik 2<br />

Egunkaria<br />

kirola<br />

w2semf<br />

abs<br />

erg<br />

10etik 2<br />

10etik 1<br />

10etik 1<br />

10etik 2<br />

0<br />

2tik 1<br />

SemCor<br />

c2c<br />

s2semf<br />

obj<br />

subj<br />

obj<br />

subj<br />

7tik 1<br />

4tik 2<br />

10etik 3<br />

0<br />

7tik 3<br />

0<br />

10etik 2<br />

10etik 1<br />

3tik 1<br />

0<br />

4tik 1<br />

2tik 2<br />

EFE kirola w2semf<br />

obj<br />

subj<br />

10etik 3<br />

0<br />

0<br />

10etik 2<br />

0<br />

2tik 1

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!