Euskal WordNet - Euskara - Euskadi.net
Euskal WordNet - Euskara - Euskadi.net
Euskal WordNet - Euskara - Euskadi.net
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Jakintza-arloa: Hizkuntzalaritza<br />
<strong>Euskara</strong>ren<br />
ezagutza-base<br />
lexikala<br />
<strong>Euskal</strong> <strong>WordNet</strong><br />
Egilea: ELISABETE POCIELLO IRIGOIEN<br />
Urtea: 2007<br />
Zuzendariak ENEKO AGIRRE BENGOA, IZASKUN ALDEZABAL ROTETA<br />
Unibertsitatea: UPV/EHU<br />
ISBN: 978-84-8438-195-2
Hitzaurrea<br />
Tesi hau <strong>Euskal</strong> Herriko Unibertsitateko Informatika Fakultateko IXA taldearen<br />
barruan kokatu behar da. IXA taldeak hogei urte inguru daramatza Lengoaia<br />
Naturalaren Prozesamenduan (LNP) lanean. Arlo zabal horren barruan,<br />
euskararen gaineko ikerketa aplikatua da gure xede nagusia, eta helburu<br />
horrekin, orain arte, morfologia, eta sintaxia landu ditugu batez ere. Arlo<br />
hauetan lan handia egiteke dagoen arren, hurrengo aurrerapauso garrantzitsua<br />
semantika jorratzea da.<br />
Hori lortu ahal izateko, hizkuntza horren hiztegiaren ezagutza sakona jasota<br />
duen biltegi baten beharra dago, hots, ezagutza-base lexikal bat informazio<br />
semantikoa jasotzen duena. Horrela, LNPn ezagutza-base lexikalak<br />
hizkuntzaren gordailu nagusi bihurtu dira, eta hauen eraikuntza arlo ho<strong>net</strong>ako<br />
funtsezko ataza dugu, gaur egun. Hauei esker makinek itzulpen automatikoa,<br />
informazio-erauzketa eta hitzen adieren desanbiguazioa bezalako atazak<br />
burutu ditzakete.<br />
Beste hizkuntza askotarako EBLak dagoeneko garatuak izan dira. Hala,<br />
euskarak arlo ho<strong>net</strong>an zuen hutsuneaz jabetuta, tesi-lan honekin euskararen<br />
azterketa semantikoa ahalbidetzeko beharrezkoa den euskararako EBL bat<br />
sortzeari ekin genion, <strong>Euskal</strong> <strong>WordNet</strong> izendatu duguna.
<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />
<strong>Euskal</strong> Filologia Saila<br />
<strong>Euskara</strong>ren<br />
ezagutza-base lexikala:<br />
<strong>Euskal</strong> <strong>WordNet</strong><br />
Elisabete Pociello Irigoyenek<br />
<strong>Euskal</strong> Filologian Doktore titulua eskuratzeko aurkezturiko<br />
Tesia<br />
Donostia, 2.007ko urria.
<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />
<strong>Euskal</strong> Filologia Saila<br />
<strong>Euskara</strong>ren<br />
ezagutza-base lexikala:<br />
<strong>Euskal</strong> <strong>WordNet</strong><br />
Elisabete Pociello Irigoyenek<br />
<strong>Euskal</strong> Filologian Doktore titulua eskuratzeko aurkezturiko<br />
Tesia<br />
Donostia, 2.007ko urria.
<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />
<strong>Euskal</strong> Filologia Saila<br />
<strong>Euskara</strong>ren<br />
ezagutza-base lexikala:<br />
<strong>Euskal</strong> <strong>WordNet</strong><br />
Elisabete Pociello Irigoyenek Eneko<br />
Agirre Bengoaren eta Izaskun<br />
Aldezabal Rotetaren zuzendaritzapean<br />
egindako tesiaren txostena, <strong>Euskal</strong> Herriko<br />
Unibertsitatean <strong>Euskal</strong> Filologian<br />
Doktore titulua eskuratzeko aurkeztua.<br />
Donostia, 2.007ko urria.
Lan hau Eusko Jaurlaritzaren ikertzaileak prestatzeko beka batekin (BFI02.114) egin dut.<br />
iii
Gauza ederra duk hitzak suntsitzea. Jakina, aditzen eta izenondoen artean<br />
zagok zaborrik gehien, baina izenak ere ehunka zeudek baztertzeko modukoak.<br />
Eta ez sinonimoak bakarrik; antonimoak ere bota daitezkek zakarretara.<br />
Azken batean, zertarako behar diagu hitz bat beste baten alderantzizkoa baizik ez bada?<br />
Hitz batek bere baitan zaramak kontrako esanahia. Har ezak “on”, esaterako.<br />
“On” baldin badaukak, zertarako demontre behar duk “txar”? “Ez-on” berak balio izango<br />
likek berdin; eta, hobeki gainera, zeren eta kontrako zehatza baituk, bestea ez bezala.<br />
Edo, bestela, “on”en aldaera indartsuagoa behar baldin baduk, zer zentzu zeukak “bikain”,<br />
“gailen” eta gisako hitz lauso eta alferrekoen soka hori guztia edukitzeak?<br />
“Pluson” hitzak ematen dik esanahia, edo “bikoizpluson” hitzak, are esanahi indartsuagoa<br />
behar baduk. Jakina, dagoeneko erabiltzen dizkiagu forma horiek,<br />
baina hizketaberriaren azken bertsioan forma horiek besterik ez duk izango.<br />
Azkenean, ontasunaren eta txartasunaren eremu osoa sei hitzek bakarrik beteko ditek;<br />
hitz bakar batek egiazki.<br />
[...]<br />
Hala ere, hire bihotzean hizketazaharrari atxikita jarraitzea hobetsi duk, haren<br />
zehaztasun-gabezia eta esanahien abardura alferrekoak gorabehera.<br />
(George Orwell, 1984. Tafalla: Txalaparta, 2007)<br />
“Profirió”, “rezonó”, “masculló”, “remarcó”...Ikusten gaztelaniaren ugaritasuna?<br />
Gu, berriz, hor gabiltza beti “esan zuen” eta “esan zuen”. Aldatu egin nahi,<br />
eta “bota zuen” darabilgu. Edo gehienera ere, “bota zion”.<br />
Horrela nola idatz daiteke bizitasun pixka batez?<br />
Eta abar? Neuk ere botatzen nituen antzekoak. Oker nengoen:<br />
zeure hizkuntzaren ispiluan begiratu behar dituzu zeure ahulezia eta bertute estilistikoak,<br />
ez beste hizkuntza baten ispiluan.<br />
v<br />
Anjel Lertxundi (Berria, 2007-04-28)
vii<br />
Aitari eta Amari
viii
Eskerrik asko!<br />
Tesi hau egin ahal izateko, jende askoren laguntza izan dut, eta hauei guztiei<br />
eskerrak eman nahi nizkieke:<br />
• IXA taldeko kide guztiei, lan hau aurrera eramateko eskaini didazuen<br />
laguntza guztiagatik, eta batez ere, niretzat ezezaguna zen hizkuntzalaritza<br />
konputazionalaren munduan sartzeko aukera emateagatik.<br />
• Zuzendariei, Enekori eta Izaskuni, gauzak izugarri errazteagatik, eta<br />
berez astuna dena arin bihurtzen laguntzeagatik.<br />
• Ehundaka hitzen adierak editatu, etiketatu eta epaitu dituzuenoi (Larraitz,<br />
Karmele, Eli, Mikel, Jone eta Ainara), tesi hau gure eztabaida<br />
“semantiko-filosofiko-soziologikoen” emaitza ere badelako.<br />
• Olatzi, nire erruz egiten ari zarena utzi eta datu-basean gora eta behera<br />
jardun behar izan duzulako; beti laguntzeko prest!<br />
• A German, per respondre amb molta paciència a totes les meves preguntes,<br />
i així fer-me practicar el català.<br />
• Emakunden, nirekin batera, ordu piiiiiila pasa dituzuen bulegokideei<br />
(Aitziber, Olatz, Ruben, Klara, Maxux, Kike, Mikel, landare “bionikoa”...);<br />
urte guzti hauetan, lanaz gain beste mila bizipen partekatu<br />
ditugulako. Aiii, landare “bionikoak” hitz egingo balu. . .<br />
• IXA-bulego nagusiko bulegokideei, tesiko azkeneko txanpan nire txorakeriak<br />
jasateagatik. Ah! eta bulegoan dardoak jartzeagatik!<br />
• Inguruan izan ditudan informatikari gajoei, eta, batez ere, txosten honek<br />
itxura txukuna izateko latexekin lagundu didazuenei (Oier, Gorka,<br />
AitorSoroa, Maite...), nirekin izanduzuen pazientzia handiiiiiiagatik.
x Eskerrik asko!<br />
• Gym taldetxoari (Aitzpea, Bertol, Klara, Larraitz eta Ruben), estresaren<br />
aurkako formula erakusteagatik (kirol pixka bat + bazkari/afari<br />
ugari + “katxondeo” asko = estres gutxiago).<br />
• Nereari eta Montseri; Nereari bere masajitoengatik eta Emakundeko<br />
iskanbilak beheko solairutik “konpartitzeagatik”; eta Montseri per reir<br />
(i fer-me reir) tant (beeeeeh!).<br />
• Tesiaren aldapa gogorra igo nahian zaudeten ixakide guztiei; eutsi goiari!!<br />
nik egin badut, zuek ere egingo duzue-eta!!<br />
• Lagunei, tesia utzi eta garagardo bat zuekin hartzera joateko aitzaki<br />
ezin hobea izan zaretelako. Hurrengo potea nire kontu!<br />
• “Eli, baina zuk unibertsitatean zer egiten duzu?” galdera ehundaka<br />
aldiz egin didazuenei. Hurrengoan, tesia oparituko dizuet, behingoz<br />
uler dezazuen, edo ez. . .<br />
• Senide guztiei, beti hor egoteagatik.<br />
• Etxekoei, nire lana ondo ulertu ez arren, zuek izan zaretelako, hasiera<br />
hasieratik, lan honen bultzatzaile nekaezinak.<br />
• Ilobei, zuekin nagoenean ezinezkoa delako tesiarekin gogoratzea.<br />
• Bertoli, txostentzar hau zuzentzen hartu duzun lanagatik; bide luze ho<strong>net</strong>an,<br />
egunero-egunero, eman dizkidazun animoengatik; eta bereziki,<br />
lanak eta aisialdiak bateragarriak izan BEHAR dutela erakusteagatik.<br />
Eskerrik asko denoi!
Laburtzapenak<br />
<strong>Euskara</strong>z:<br />
DBL: Datu-Base Lexikala<br />
EBL: Ezagutza-Base Lexikala<br />
EDBL: <strong>Euskara</strong>ren Datu-Base Lexikala<br />
ELK: Egitura Lexikal-Kontzeptuala<br />
EusWN: <strong>Euskal</strong> <strong>WordNet</strong><br />
HAE: Hitz Anitzeko Esapidea<br />
HAUL: Hitz Anitzeko Unitate Lexikala<br />
HEB: Hiztegi-Ezagutza Basea<br />
HM: Hautapen-Murriztapena<br />
LNP: Lengoaia Naturalaren Prozesamendua<br />
Ingelesez:<br />
BNC: British Nationa Corpus<br />
c2c: class-to-class<br />
EuroWN: Euro<strong>WordNet</strong><br />
ILI: Inter-Lingual-Index<br />
LCS: Lexical Conceptual Structure<br />
MCR: Multilingual Central Repository<br />
MRD: Machine Readable Dictionary<br />
s2semf: sense-to-semantic field<br />
s2s: sense-to-sense<br />
w2c: word-to-class<br />
w2semf: word-to-semantic field<br />
w2w: word-to-word<br />
WN: <strong>WordNet</strong>
xii Laburtzapenak
Glosategia<br />
analisi semantiko<br />
Analisi semantikoaren helburua esaldiaren esanahia lortzea da, hau da, bere edukiaren<br />
errepresentazio kontzeptuala sortzea. Horretan, esaldiaren esanahia egitura formal baten<br />
bidez adierazi beharko da.<br />
autohiponimia<br />
EBL batean hiperonimoa eta hiponimoa forma berekoak direnean, baina adiera desberdinekoak,<br />
hots, polisemikoak.<br />
datu-base lexikal (DBL)<br />
Lexikoaren gainean biltzen den ezagutza mota gehienbat gramatikala denean (kategoria,<br />
azpikategoria, morfotaktika...), datu-base lexikal (DBL) terminoa erabiltzen da.<br />
desanbiguazio/desanbiguatu<br />
Anbiguotasuna gertatzen denean, testuinguruari begiratzen zaio hitz batek aukeran dituen<br />
interpretazioen artean egokiena zein den jakiteko. Testuinguru jakin horri ez dagokion interpretazioa<br />
kentzea ala dagokiona besterik ez uztea da desanbiguatzea.<br />
Domeinu-ontologia (Domain Ontology)<br />
Euro<strong>WordNet</strong>en eta The Multilingual Central Repositoryn (MCRn),synsetak domeinuen<br />
arabera antolatzen dituen ontologia.<br />
eremu semantiko (semantic field)<br />
Eremu semantikoak <strong>WordNet</strong>en fitxategi batzuk dira, non <strong>WordNet</strong>eko klase semantiko<br />
bakoitza jasota dagoen.<br />
eskuratu/eskurapen<br />
Informazioa eskuratu dugula diogu, metodo automatikoetan oinarrituz, corpuse(ta)tik<br />
behar dugun informazioa lortzen dugunean. Esate baterako, tesi-lan ho<strong>net</strong>an corpusetan<br />
oinarrituz aditz batzuen hautapen-murriztapenak lortu ditugu.
xiv Glosategia<br />
etiketatze<br />
Zenbait markaketa linguistiko, hala nola hitzei kode bereziak atxikitzea haien zenbait ezaugarri<br />
adierazteko; eta ezaugarriei egokitzen zaizkien kodeei etiketa esaten zaie. Etiketatzea<br />
zenbait kontu markatzeko erabiltzen da. Eta horregatik maila desberdi<strong>net</strong>ako etiketatzeak<br />
daude. Tesi-lan ho<strong>net</strong>an etiketatze semantikoaz arituko gara, hau da, etiketa semantikoak<br />
erabilita hitzen adiera zehaztuko dugu, hots, desanbiguatuko dugu.<br />
Euro<strong>WordNet</strong> (EuroWN)<br />
Ezagutza-base eleanitza da (Vossen, 1998), Europako zortzi hizkuntzatara zabaltzen dena<br />
(ingelesa, nederlandera, italiera, gaztelania, alemana, frantsesa, txekiera eta estoniera),<br />
eta <strong>WordNet</strong> (Miller, 1985; Fellbaum 1998a) EBLan oinarritzen dena.<br />
EuSemcor<br />
IXA taldea semantikoki eskuz etiketatzen ari den euskarazko corpusa, <strong>Euskal</strong> <strong>WordNet</strong>eko<br />
synsetetan oinarrituaz.<br />
<strong>Euskal</strong> <strong>WordNet</strong> (EusWN)<br />
IXA taldea garatzen ari den euskarako EBLa, <strong>WordNet</strong>en, Euro<strong>WordNet</strong>en eta The Multilingual<br />
Central Repositoryren (MCR) ildotik sortutakoa.<br />
ezagutza-base lexikal (EBL)<br />
Hitz eta adierei buruzko informazioa duten lexikoia da. EBLen ezaugarri garrantzitsuena<br />
herentzia izaten da, adierak klase/azpiklase hierarkien inguruan antolatzen dira-eta.<br />
Goi-ontologia (Top Ontology)<br />
Euro<strong>WordNet</strong> eta The Multilingual Central Repositoryko (MCRko) word<strong>net</strong> ezberdi<strong>net</strong>an,<br />
gehien erabilitako synsetak oinarrizko ezaugarri semantikoen arabera sailkatzea ahalbidetzen<br />
duen ontologia.<br />
hautapen-murriztapen (HM)<br />
HMak dira hitz baten adiera batek testuinguruan izan ditzakeen agerkidetzak. Zerrenda<br />
hau osatzen dute klase semantiko batean dauden hitzek, hau da, adiera zehatz batekin<br />
osagai gisa ager daitezkeen hitz guztiak. Horrela bada, aditz batek, bere adieraren arabera,<br />
argumentu bezala har ditzakeen izenen klase semantikoa mugatu dezake.<br />
hiperonimia<br />
Unitate lexikoen arteko edukitze-erlazioa, orokorragotik espezifikoagora doana. Honen<br />
kontrakoa hiponimia da. Adib., hegazti hitza txori hitzarekiko hiperonimiako erlazioan<br />
dago.<br />
hiperonimo<br />
Beste hitz batekiko hiperonimiako erlazioan dagoen hitzaz esaten da. Adib., hegazti hitza<br />
txori hitzaren hiperonimoa da.
hiponimia<br />
Unitate lexikoen arteko edukitze-erlazioa, espezifikoagotik orokorragora doana. Honen<br />
kontrakoa hiperonimia da. Adib., txori hitza hegazti hitzarekiko hiponimiako erlazioan<br />
dago.<br />
hiponimo<br />
Beste hitz batekiko hiponimiako erlazioan dagoen hitzaz esaten da. Adib., txori hitza hegazti<br />
hitzaren hiponimoa da.<br />
hitz anitzeko esapide (HAE)<br />
Edozein hitz-konbinazio adierazteko; lexikalizatuak nahiz ez lexikalizatuak (Alegria et al,<br />
2004).<br />
hitz anitzeko unitate lexikal (HAUL)<br />
Lexikalizaturiko hitz anitzekoak (Alegria et al, 2004).<br />
hiztegi ezagutza-base (HEB)<br />
HEBek hiztegietatik erauzitako informazioa jasotzen dute. Erauzitako informazioen artean,<br />
EBLetan bezala, hemen ere, adieren hierarkiak dira aipagarriak.<br />
ikasi/ikasketa automatiko<br />
Makinari emandako datu egokietan oinarrituz eta hauen gainean teknika estatistiko konplexuak<br />
aplikatuz, makinak ikasi egiten du; ikasketa honen ondorioz, gai da datu berriei<br />
buruz erabakiak hartzeko. Erabaki hauen zuzentasuna ikaste-prozesuaren egokitasunaren<br />
araberakoa izango da, noski; ikaste-prozesuaren egokitasuna, era berean, erabiltzen diren<br />
teknika estatistikoen eta ikasteko erabilitako datuen kopuruan eta egokitasunean datza.<br />
informazio-erauzketa<br />
Testuetatik edo hizketatik informazio adierazgarria automatikoki ateratzea.<br />
interfaze<br />
Gizakiaren eta makinaren arteko elkarrekintzan laguntzeko sistema.<br />
Inter-Lingual-Index (ILI)<br />
Inter-Lingual-Index (ILI) honen bitartez, Euro<strong>WordNet</strong>en eta The Multilingual Central<br />
Repositoryn (MCRn) hizkuntza guztietako word<strong>net</strong>ak lotuak daude.<br />
ILI-record<br />
Inter-Lingual-Index ean (ILIan) ILI-recordak daude, eta hauetako bakoitza <strong>WordNet</strong>eko<br />
synset bati dago lotua.<br />
interpretazio semantiko<br />
Testuingurua kontuan hartu gabe, esaldiaren esanahi abstraktua lortzen duen analisi-fasea.<br />
Forma logiko baten bitartez adierazten da esaldiaren esanahia.<br />
xv
xvi Glosategia<br />
Lengoaia Naturalaren Prozesamendua (LNP)<br />
Hizkuntzaren tratamendu automatikoaren inguruko ikerrarloari Lengoaia Naturalaren Prozesamendua<br />
(LNP) esaten zaio, eta, batez ere, erabiliko diren teknika informatikoei erreparatzen<br />
dio: algoritmoak, konpilatzaileak, estrategiak, etab.<br />
lexikalizazio<br />
Morfema-segida bat unitate lexikal bilakatzen den prozesua, eta esanahi eta funtzioaren<br />
ikuspuntutik hitz bakar bat bezala funtzionatzen duena.<br />
lexikoi<br />
LNPren arloan informazio lexikalaren biltegiei edota hiztegiei erreferentzia egiteko erabiltzen<br />
den terminoa.<br />
The Multilingual Central Repository (MCR)<br />
The Multilingual Central Repository (MCR) interfaze eleanitza da, non Europa Batzordeko<br />
MEANING: Developing Multilingual Web-Scale Language Technologies (IST-2001-34460)<br />
proiektuan (Rigau et al., 2003) aztertu den informazio guztia integratzen den. Ezagutzabase<br />
honek Euro<strong>WordNet</strong>en eredua jarraitzen du. Bestalde, MCRk bost hizkuntzetako<br />
word<strong>net</strong>ekin egiten du lan: euskara, katalana, ingelesa (Princetoneko <strong>WordNet</strong>aren 1.5,<br />
1.6, 1.7 eta 1.7.1 bertsioekin), italiera eta gaztelania.<br />
MRD (Machine Readable Dictionary)<br />
Euskarri mag<strong>net</strong>ikoan gordetzen den hiztegia. Hiztegi elektronikoa.<br />
Oinarrizko Kontzeptu (Base Concept)<br />
Euro<strong>WordNet</strong>en eta The Multilingual Central Repositoryn (MCRn) harreman semantikoen<br />
kopuru handiena duten synsetak dira. Gainera, hierarkian goi aldeko synsetak dira,<br />
eta EBL hauek osatzen duten word<strong>net</strong> guztietan agertuko dira.<br />
ontologia<br />
Mundu errealaren kontzeptualizazioak dira, hitzekin izendatzen ditugun kontzeptuak modu<br />
hierarkikoan antolatuta, mundu errealari buruzko inferentziak egiteko gaitasuna dutenak.<br />
SemCor<br />
<strong>WordNet</strong>eko synsetekin eskuz etiketatuko ingeleseko corpusa.<br />
sinonimia<br />
Termino sinonimoen arteko erlazioa.<br />
sinonimo<br />
Esaldi berean, beronen esanahia aldatu gabe, elkartruka daitezkeen terminoez (hau da,<br />
esanahi bera dutenez) esaten da.
xvii<br />
synset (synonym set)<br />
Synset bakoitza kontzeptu lexikal bati dagokio, eta hau osatuko duten hitz-multzoek kategoria<br />
berdinekoak eta testuinguru bereetan truka daitezkeenak dira.<br />
urre-patroi (goldstandard)<br />
Automatikoki eskuratutako emaitzak ebaluatu ahal izateko, eskuz sortzen diren emaitza<br />
prototipikoak.<br />
variant<br />
Synseta osatzen duten ale lexikalei variant deitzen zaie, eta, synset berean dauden variantak<br />
sinonimoak dira.<br />
<strong>WordNet</strong><br />
Kontzeptuen artean hainbat motatako harreman semantikoak ezarriz (hiperonimia, hiponimia,<br />
sinonimoa. . . ) egiten diren ingeleseko sare semantiko ezagune<strong>net</strong>akoa da (Miller,<br />
1985; Fellbaum, 1998a).<br />
word<strong>net</strong><br />
<strong>WordNet</strong>en (Miller 1985; Fellbaum, 1998a) oinarrituta garatu den edozein hizkuntzetako<br />
EBLari buruz hitz egiteko erabiltzen da. Hala, <strong>WordNet</strong> terminoarekin, ingeleseko word<strong>net</strong>ari<br />
egingo zaio erreferentzia, eta word<strong>net</strong> terminoak aurretik zer hizkuntzetakoa den<br />
adierazia izan beharko du.
xviii Glosategia
Gaien aurkibidea<br />
Eskerrik asko! ix<br />
Laburtzapenak xi<br />
Glosategia xiii<br />
Aurkibidea xix<br />
Irudien zerrenda xxv<br />
Taulen zerrenda xxvii<br />
I Tesi-lanaren aurkezpen orokorra 1<br />
I.1 Gaiaren kokapena eta motibazioa . . . . . . . . . . . . . . 1<br />
I.2 Helburuak . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
I.3 Tesi-txostenaren eskema . . . . . . . . . . . . . . . . . . . 6<br />
I.4 Tesiarekin lotutako argitalpenak . . . . . . . . . . . . . . 8<br />
II Lexikoiak 13<br />
II.1 Lexikoiez historia apur bat . . . . . . . . . . . . . . . . . 13<br />
II.2 Lexikoiei buruz . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
II.2.1 Lexikoiak sortzeko hurbilpenak, metodoak eta<br />
iturriak . . . . . . . . . . . . . . . . . . . . . . . 19<br />
II.2.2 Ezagutza-base lexikalak, hiztegi ezagutza-baseak<br />
eta ontologiak. . . . . . . . . . . . . . . . . . . . 23<br />
II.3 Laburbilduz . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
III Ezagutza-base lexikalen azterketa kritikoa 29<br />
III.1 Gure EBLa definitzen . . . . . . . . . . . . . . . . . . . . 30<br />
III.2 Azterketarako aukeratutako formalismoak . . . . . . . . . 33
xx GAIEN AURKIBIDEA<br />
III.2.1 Hizkuntzalaritza teorikoan oinarritutako lanak . . 34<br />
III.2.1.1 Jackendoff (1990) . . . . . . . . . . . . . . . . 34<br />
III.2.1.2 Levin (1993) . . . . . . . . . . . . . . . . . . 37<br />
III.2.1.3 Pustejovsky (1995) . . . . . . . . . . . . . . . 39<br />
III.2.2 Hizkuntzalaritza teoriko eta konputazionalaren<br />
erdibidean dauden lanak . . . . . . . . . . . . . . 41<br />
III.2.2.1 Lexical Functional Grammar . . . . . . . . . 42<br />
III.2.2.2 Head-Driven Phrase Structure Grammar . . . 44<br />
III.2.3 Hizkuntzalaritza konputazionalean oinarritutako<br />
lanak . . . . . . . . . . . . . . . . . . . . . . . . 46<br />
III.2.3.1 FrameNet . . . . . . . . . . . . . . . . . . . . 46<br />
III.2.3.2 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak . . . 51<br />
III.2.3.3 Volem . . . . . . . . . . . . . . . . . . . . . . 55<br />
III.2.4 PropBank . . . . . . . . . . . . . . . . . . . . . . 57<br />
III.2.5 Corpusetan oinarritutako lanak . . . . . . . . . . 60<br />
III.3 Gure aukera eta arrazoiak . . . . . . . . . . . . . . . . . . 61<br />
III.4 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />
IV <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR 69<br />
IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak . . . . . . . . . . 69<br />
IV.1.1 Sarrera . . . . . . . . . . . . . . . . . . . . . . . 69<br />
IV.1.2 Aditza eta informazio sintaktiko-semantikoa . . . 73<br />
IV.1.3 Bestelako erlazio semantikoak . . . . . . . . . . . 76<br />
IV.1.4 Erabilera . . . . . . . . . . . . . . . . . . . . . . 78<br />
IV.2 Euro<strong>WordNet</strong> . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />
IV.3 The Multilingual Central Repository (MCR) . . . . . . . 87<br />
IV.4 Laburbilduz . . . . . . . . . . . . . . . . . . . . . . . . . . 91<br />
V <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia 93<br />
V.1 Diseinua eta metodologia . . . . . . . . . . . . . . . . . . 94<br />
V.2 Izenen garapenerako urratsak . . . . . . . . . . . . . . . . 96<br />
V.2.1 Estaldura helburu: garapen automatikoa eta oinarrizko<br />
kontzeptuak . . . . . . . . . . . . . . . . 96<br />
V.2.2 Kalitatea helburu: eskuzko orrazketa eta corpus<br />
baten etiketatzea . . . . . . . . . . . . . . . . . . 97<br />
V.2.2.1 Kontzeptuz kontzeptuko eskuzko orrazketa . . 97<br />
V.2.2.2 Hitzez hitzeko eskuzko orrazketa . . . . . . . 101<br />
V.2.2.3 Corpus baten etiketatze semantikoa . . . . . . 102
GAIEN AURKIBIDEA xxi<br />
V.3 Aditzen garapenerako urratsak . . . . . . . . . . . . . . . 106<br />
V.3.1 Aditzak <strong>WordNet</strong>en . . . . . . . . . . . . . . . . 107<br />
V.3.2 MCRn aditzak txertatzeko azterketa . . . . . . . 110<br />
V.3.2.1 Bost aditzen hitzez hitzeko eskuzko orrazketa 110<br />
V.3.2.2 Aditz-hierarkia baten orrazketa . . . . . . . . 111<br />
V.3.2.3 Hitzez hitzeko orrazketa ala hierarkiaz hierarkiakoa?<br />
. . . . . . . . . . . . . . . . . . . . 112<br />
V.4 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />
VI <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era: bereizgarriak eta hobekuntzak<br />
115<br />
VI.1 Lexikalizazioa . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />
VI.1.1 <strong>WordNet</strong>, lexikalizazioa eta hizkuntzen arteko aldeak<br />
. . . . . . . . . . . . . . . . . . . . . . . . . 118<br />
VI.1.2 Zalantzazko lexikalizazioa duten adierazpideen beharra<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . 124<br />
VI.1.3 Terminologiaren azterketa eta gure aukera . . . . 125<br />
VI.1.4 <strong>Euskal</strong> ordainak <strong>Euskal</strong> <strong>WordNet</strong>en sartzeko eta<br />
markatzeko irizpideak . . . . . . . . . . . . . . . 131<br />
VI.1.4.1 Barne-errepresentazio semantikoa <strong>Euskal</strong> Word-<br />
Neten . . . . . . . . . . . . . . . . . . . . . . 133<br />
VI.2 Bereizgarri hierarkikoak . . . . . . . . . . . . . . . . . . . 137<br />
VI.2.1 Kontzeptu antolatzaileak . . . . . . . . . . . . . 138<br />
VI.2.2 Hierarkiak eta espezifikotasun lexikala . . . . . . 139<br />
VI.2.3 Bestelako espezifikotasun lexikalak . . . . . . . . 144<br />
VI.3 Errepresentazioaren hedapena . . . . . . . . . . . . . . . . 147<br />
VI.3.1 Lexikalizazioaren errepresentazioari dagozkion markak<br />
. . . . . . . . . . . . . . . . . . . . . . . . . 147<br />
VI.3.2 HAEen barne-errepresentazio aberatsagoa . . . . 149<br />
VI.4 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . 149<br />
VII <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak 151<br />
VII.1 Sarrera . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151<br />
VII.2 Hautapen-murriztapenak eta hauen eskuratzea . . . . . . 155<br />
VII.2.1 Eskuratze-metodoak . . . . . . . . . . . . . . . . 155<br />
VII.2.1.1 Introspekzioa . . . . . . . . . . . . . . . . . . 155<br />
VII.2.1.2 Eskuratze automatikoa hiztegietatik . . . . . 156<br />
VII.2.1.3 Eskuratze automatikoa corpusetik . . . . . . . 156
xxii GAIEN AURKIBIDEA<br />
VII.2.2 Formalizazioa . . . . . . . . . . . . . . . . . . . . 157<br />
VII.2.2.1 Hitzean oinarritzen diren eskuratze-teknikak . 157<br />
VII.2.2.2 Klase semantikoan oinarritzen diren eskuratze-teknikak<br />
. . . . . . . . . . . . . . . . . . . 159<br />
VII.3 Baliabideak . . . . . . . . . . . . . . . . . . . . . . . . . . 161<br />
VII.3.1 Azterketarako erabili diren corpusak . . . . . . . 163<br />
VII.3.1.1 Ingeleseko corpusak . . . . . . . . . . . . . . 163<br />
VII.3.1.2 <strong>Euskara</strong>ko corpusa . . . . . . . . . . . . . . . 163<br />
VII.3.2 Azterketarako erabili diren eskuratze-teknikak . . 164<br />
VII.3.2.1 Synset batekin adierazitako HMak . . . . . . 164<br />
VII.3.2.2 Domeinu eta eremu semantiko batekin adierazitako<br />
HMak . . . . . . . . . . . . . . . . . 169<br />
VII.3.2.3 Baliabideak laburbilduz . . . . . . . . . . . . 172<br />
VII.4 Ingeleseko HMak . . . . . . . . . . . . . . . . . . . . . . . 172<br />
VII.4.1 Ingeleseko HMetarako irizpideak . . . . . . . . . 175<br />
VII.4.2 HMen azterketa eta ebaluazioa . . . . . . . . . . 179<br />
VII.4.2.1 SemCorretik eskuratutako HMen azterketa eta<br />
ebaluazioa . . . . . . . . . . . . . . . . . . . . 180<br />
VII.4.2.2 BNCtik eskuratutako HMen azterketa eta ebaluazioa<br />
. . . . . . . . . . . . . . . . . . . . . . 190<br />
VII.4.2.3 EFEtik eskuratutako HMen azterketa eta ebaluazioa<br />
. . . . . . . . . . . . . . . . . . . . . . 194<br />
VII.4.3 Erroreen azterketa . . . . . . . . . . . . . . . . . 197<br />
VII.4.3.1 Etiketatze-erroreak . . . . . . . . . . . . . . . 197<br />
VII.4.3.2 Falta diren adierak . . . . . . . . . . . . . . . 198<br />
VII.4.3.3 Anbiguotasuna . . . . . . . . . . . . . . . . . 199<br />
VII.4.3.4 Analizatzaile sintaktikoak eragindako erroreak 200<br />
VII.4.3.5 Izen berezien ezagutza eta anaforaren ebazpena200<br />
VII.4.4 Ebaluazioaren azterketa . . . . . . . . . . . . . . 201<br />
VII.4.4.1 SemCorretik eskuratutako HMak . . . . . . . 203<br />
VII.4.4.2 BNCtik eskuratutako HMak . . . . . . . . . . 204<br />
VII.4.4.3 EFEtik eskuratutako HMak . . . . . . . . . . 205<br />
VII.4.5 HMen erkaketa . . . . . . . . . . . . . . . . . . . 205<br />
VII.4.5.1 Eskuratze-teknikaren arabera . . . . . . . . . 205<br />
VII.4.5.2 Corpusaren arabera . . . . . . . . . . . . . . 206<br />
VII.4.5.3 Ingeleseko HMen emaitzen laburpen orokorra 207<br />
VII.5 <strong>Euskara</strong>ko HMak . . . . . . . . . . . . . . . . . . . . . . . 208<br />
VII.5.1 <strong>Euskara</strong>ko HMetarako irizpideak . . . . . . . . . 209
GAIEN AURKIBIDEA xxiii<br />
VII.5.2 <strong>Euskal</strong>dunon Egunkaritik eskuratutako HMen azterketa<br />
eta ebaluazioa . . . . . . . . . . . . . . . 212<br />
VII.5.2.1 w2semf <strong>Euskal</strong>dunon Egunkaritik . . . . . . . 212<br />
VII.5.3 Ingelesetik itzulitako HMen azterketa eta ebaluazioa<br />
. . . . . . . . . . . . . . . . . . . . . . . . . 217<br />
VII.5.3.1 SemCorreko c2c euskarara itzulita . . . . . . 217<br />
VII.5.3.2 SemCorreko s2semf euskarara itzulita . . . . . 218<br />
VII.5.3.3 EFEko w2semf euskarara itzulita . . . . . . . 220<br />
VII.5.4 Ebaluazioaren azterketa . . . . . . . . . . . . . . 221<br />
VII.5.4.1 <strong>Euskal</strong>dunon Egunkaritik eskuratutako HMak 222<br />
VII.5.4.2 SemCorretik eskuratutako HMak . . . . . . . 223<br />
VII.5.4.3 EFEtik eskuratutako HMak . . . . . . . . . . 224<br />
VII.5.5 <strong>Euskara</strong>ko HMen emaitzen laburpena . . . . . . . 224<br />
VII.6 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . 225<br />
VIII Ondorioak eta etorkizuneko lanak 229<br />
VIII.1 Ondorio nagusiak . . . . . . . . . . . . . . . . . . . . . . . 230<br />
VIII.1.1 EBLen azterketa kritikoa . . . . . . . . . . . . . 230<br />
VIII.1.2 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako diseinua eta<br />
metodologia . . . . . . . . . . . . . . . . . . . . . 231<br />
VIII.1.3 <strong>Euskal</strong> <strong>WordNet</strong> eta kontzeptuen errepresentazioa 232<br />
VIII.1.4 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak . . 233<br />
VIII.2 Ekarpenak . . . . . . . . . . . . . . . . . . . . . . . . . . 233<br />
VIII.3 Etorkizuneko lanak . . . . . . . . . . . . . . . . . . . . . . 234<br />
Bibliografia 236
xxiv GAIEN AURKIBIDEA
Irudien zerrenda<br />
II.1 acknowledge hitzaren hiru adierazpen desberdin, BBN-CFG sistema<br />
(Ingria, 1988), IRUS sistema (Bates et al., 1986) eta ALVEY<br />
sistema (Carroll eta Grover, 1989), hurrenez hurren. . . . . . . . 16<br />
III.1 run aditzaren ELKa. . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />
III.2 open aditzaren sarrera lexikala Pustejovskyren teorian. . . . . . . 40<br />
III.3 yawned ale lexikalaren adierazpena LFGn. . . . . . . . . . . . . . 42<br />
III.4 Sintaxi-semantika elkargunea LFGn (Bresnan eta Kaplan, 1982). 43<br />
III.5 gives aditzaren adierazpena HPSGn. . . . . . . . . . . . . . . . . 44<br />
III.6 Revenge framea. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />
III.7 tell.01 sarrera lexikala PropBanken. . . . . . . . . . . . . . . . . 59<br />
IV.1 Euro<strong>WordNet</strong>eko arkitektura. . . . . . . . . . . . . . . . . . . . . 81<br />
IV.2 Run aditzaren synset bat eta bere hiperonimoak EuroWord-<br />
Neteko interfazean. . . . . . . . . . . . . . . . . . . . . . . . . . 86<br />
IV.3 edari izenari dagokion Role patient erlazioa MCR interfazean. . . 89<br />
IV.4 Gaztelaniako pasta izenaren bi synset MCR interfazean. . . . . . 90<br />
V.1 EuSemcorreko etiketatze semantikoaren metodologia. . . . . . . . 104<br />
VI.1 HAEen barne-errepresentazio ezberdinak. . . . . . . . . . . . . . 134<br />
VII.1 jokatu aditzaren bi kirol synsetak. . . . . . . . . . . . . . . . . . 173<br />
VII.2 jokatu aditzaren bi kirol synsetak. . . . . . . . . . . . . . . . . . 198
xxvi IRUDIEN ZERRENDA
Taulen zerrenda<br />
I.1 (1) adibideko hitzen adierak eta itzulpenak. . . . . . . . . . . . 3<br />
I.2 Kapitulu bakoitzarekin lotutako argitalpenak. . . . . . . . . . . 11<br />
III.1 avenge aditzaren egitura sintaktikoak corpuseko agerpe<strong>net</strong>an oinarrituta.<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
III.2 PropBankeko argumentu markekin agertzen diren funtzio sintaktikoak<br />
eta VerbNeteko rolak. . . . . . . . . . . . . . . . . . . 58<br />
IV.1 Euro<strong>WordNet</strong>eko Goi-ontologia. . . . . . . . . . . . . . . . . . . 85<br />
V.1 <strong>Euskal</strong> <strong>WordNet</strong>eko izenen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />
oinarrizko kontzeptuak, sorkuntza automatikoa eta kontzeptuz<br />
kontzeptuko orrazketak egin ondoren. . . . . . . . . . . 98<br />
V.2 EuSemcor: izenei dagozkien kopuruak. . . . . . . . . . . . . . . 105<br />
V.3 <strong>Euskal</strong> <strong>WordNet</strong>eko izenen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />
oinarrizko kontzeptuak, sorkuntza automatikoa, kontzeptuz<br />
kontzeptuko orrazketa eta hitzez hitzeko orrazketa egin ondoren.<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
V.4 <strong>Euskal</strong> <strong>WordNet</strong>eko aditzen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />
oinarrizko kontzeptuak, hitzez hitzeko orrazketa eta<br />
hierarkiaz hierarkiako orrazketak egin ondoren. . . . . . . . . . 113<br />
VI.1 <strong>Euskal</strong> <strong>WordNet</strong>eko datuak, eta HAE moten kopuruak. . . . . . 136<br />
VI.2 Autohiponimoen kopuruak. . . . . . . . . . . . . . . . . . . . . 143<br />
VII.1 Drink aditzaren objektuak hitzen hurbiltasunean oinarritutako<br />
teknika erabiliaz (Hindle, 1990). . . . . . . . . . . . . . . . . . . 158<br />
VII.2 Drink aditzaren objektu hautapen-murriztapena, <strong>WordNet</strong> eta<br />
klase semantikoan oinarritutako teknika erabiliz (Resnik, 1992). 160<br />
VII.3 jokatu aditzaren kirol synsetak eta beraien domeinuak MCRn. . 173
xxviii TAULEN ZERRENDA<br />
VII.4 play 00605818 synsetaren troponimoak eta bere domeinuak <strong>Euskal</strong><br />
<strong>WordNet</strong>en. . . . . . . . . . . . . . . . . . . . . . . . . . . . 183<br />
VII.5 Corpus ezberdi<strong>net</strong>atik play 00605818rentzat eskuratutako HMen<br />
emaitzak. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202<br />
VII.6 Kirol-aditz guztientzat, corpus eta eskuratze-teknika ezberdinak<br />
erabiliz, lortutako emaitzak. . . . . . . . . . . . . . . . . . . . . 202<br />
VII.7 <strong>Euskara</strong>rako eskuratutako eta ingelesetik itzulitako jokatu 00605818ren<br />
HMen emaitzak. . . . . . . . . . . . . . . . . . . . . . . . . . . 222<br />
VII.8 <strong>Euskara</strong>rako eskuratutako eta ingelesetik itzulitako HMen emaitzen<br />
portzentaiak, MCRtik aukeratutako zortzi synsetentzat. . . 223<br />
VIII.1 <strong>Euskal</strong> <strong>WordNet</strong>: kopuruak . . . . . . . . . . . . . . . . . . . . 233<br />
VIII.2 EuSemcor: kopuruak . . . . . . . . . . . . . . . . . . . . . . . . 234
Tesi-lanaren aurkezpen orokorra<br />
I.1 Gaiaren kokapena eta motibazioa<br />
I. KAPITULUA<br />
Lan hau <strong>Euskal</strong> Herriko Unibertsitateko Informatika Fakultateko IXA taldearen<br />
barruan kokatu behar da. IXA taldeak hogei urte inguru daramatza<br />
Lengoaia Naturalaren Prozesamenduan (aurrerantzean LNP) lanean. Arlo<br />
zabal horren barruan, euskararen gaineko ikerketa aplikatua da gure xede<br />
nagusia, eta helburu horrekin, orain arte, morfologia (Agirre et al., 1992;<br />
Aduriz et al., 1994, besteak beste) eta sintaxia (Aduriz et al., 1998a; Aranzabe<br />
et al., 2003; Aldezabal et al., 2001b, besteren artean) landu ditugu batez<br />
ere. Arlo hauetan lan handia egiteke dagoen arren, hurrengo aurrerapauso<br />
garrantzitsua semantika jorratzea da.<br />
Semantika beharrezkoa da hainbat ataza konputazionaletan aurrera egin<br />
ahal izateko, batez ere, hizkuntzaren ulermena beharrezkoa den atazetan (egitura<br />
sintaktikoen desanbiguazioan, hitzen adieren desanbiguazioan, anaforaren<br />
ebazpenean eta itzulpen automatikoan, adibidez). Arrazoi horregatik,<br />
IXA taldean dagoeneko hasiak gara ezagutza lexiko-semantikoaren ikasketan<br />
murgiltzen. Lan horietako batzuk jadanik doktoretza-tesiak sortu dituzte,<br />
eta beste lan batzuk, berriz, egin bidean dauden doktoretza-tesiak dira:<br />
• <strong>Euskara</strong>ko aditzen azpikategorizazioaren azterketa, hiztegi elebakar batean<br />
(Arriola, 2000; Arriola et al., 1999) edo corpusetan oinarrituta<br />
(Aldezabal et al., 2001b; Agirre et al., 2004).
2 Tesi-lanaren aurkezpen orokorra<br />
• <strong>Euskara</strong>ko aditzen alternantzien eta klase semantikoen azterketa<br />
(Aldezabal, 2004).<br />
• Hitzen adieren desanbiguazioa (Martínez, 2005).<br />
• Erlazio lexiko-semantikoen gauzatze sintaktikoa (Lersundi, 2005).<br />
• Ezagutza lexiko-semantikoa informazio-erauzketan (Ansa et al., 2005).<br />
Lan hauei guztiei etekin handiagoa aterako litzaieke erabilitako baliabide<br />
eta deskribapen linguistiko guztiak lexikoi berean egongo balira. Lexikoiak<br />
informazio lexikala jasotzen duten biltegi egituratuak dira. LNPren helburu<br />
nagusia, zentzu zabalean, hizkuntza automatikoki eskuratzea edo ulertzea<br />
da. Hori lortu ahal izateko, hizkuntza horren hiztegiaren ezagutza sakona<br />
jasota duen biltegi baten beharra dago, hots, lexikoi bat. Horrela, LNPn<br />
lexikoiak hizkuntzaren gordailu nagusi bihurtu dira, eta hauen eraikuntza<br />
arlo ho<strong>net</strong>ako funtsezko ataza dugu, gaur egun. Izan ere, LNPrako sistemek<br />
neurri errealeko testuekin lan egin behar badute, milaka sarrera dituzten baliabide<br />
lexikal aberatsak behar dituzte ezinbestean. Lexikoiei esker makinek<br />
itzulpen automatikoa, informazio-erauzketa eta hitzen adieren desanbiguazioa<br />
bezalako atazak burutu ditzakete.<br />
IXA taldean, dagoeneko badugu informazio lexikala jasotzen duen gordailua:<br />
<strong>Euskara</strong>ren Datu-Base Lexikala (EDBL) deritzoguna (Agirre et al.,<br />
1994a; Aduriz et al., 1998b; Aldezabal et al., 2001a). EDBLn ale lexikal bakoitza<br />
bere kategoria eta azpikategoria lexikal edo morfosintaktikoaren arabera<br />
sailkatuta dago (kategoria morfosintaktikoak direnak, kategoriaz gain,<br />
dagokien informazioaz hornituta daude: kasua, aspektua, numeroa, mugatasuna,<br />
funtzioa...). Esan dezakegu, beraz, EDBLn jasotzen den ezagutza-mota<br />
gramatikala dela. Horrelako informazioa jasotzen duten lexikoiak<br />
izendatzeko datu-base lexikal (DBL) terminoa erabiltzen da.<br />
Esan dugun bezala, IXA taldean dagoeneko morfologia eta sintaxia landu<br />
dira, eta horren fruitu dira, batetik, MORFEUS analizatzaile morfologikoa<br />
(Alegria et al., 1996) —eta hau oinarrian duen XUXEN zuzentzaile ortografikoa<br />
(Agirre et al., 1992)—, eta bestetik, garapenean dagoen euskarako analizatzaile<br />
sintaktikoa (Aranzabe et al., 2004). Bi analizatzaile hauek EDBLn<br />
dute oinarria. Hau da, hitzak morfologikoki segmentatzeko eta analizatzeko<br />
behar den informazio gramatikala EDBLn dago jasota.<br />
Hala ere, itzulpen automatikoa edota adieren desanbiguazioa egiteko informazio<br />
gramatikala ez da nahikoa, informazio semantikoa ere beharrezkoa
I.1 Gaiaren kokapena eta motibazioa 3<br />
baita. Honen adierazgarri hurrengo adibidea dugu, zein itzulpen automatikoaren<br />
eremuan kokatu dugun.<br />
(1) Eskusoinua jotzen dut.<br />
Demagun (1) esaldia dugula, eta honen itzulpen automatikoa lortu nahi<br />
dugula. Horretarako, hasteko, nahitaezkoa izango da lexikoian esaldiko hitz<br />
bakoitzaren adierak zerrendatuta egotea, eta, are gehiago, adiera bakoitza<br />
dagokion erdarako ordainarekin zehaztuta etortzea. I.1 taulan aurreko adibideko<br />
hitzen adierak lexikoi hipotetiko batean aurkezten ditugu, bakoitzaren<br />
gaztelaniako itzulpenekin 1 .<br />
Hitza Adiera Definizioa Itzulpena<br />
eskusoinu A1 musika-tresna, tekla edo botoiduna acordeón<br />
jo A1 gauza batez beste bat halako indarrez ukitu golpear/pegar<br />
jo A2 ukaldiak eman golpear/pegar<br />
jo A3 musika-tresna bati soinua atera tocar<br />
jo A4 tokiren baterantz joan ir/dirigirse<br />
jo A5 kopuruei buruz, zenbatekoa, adierazten dena estimar/calcular<br />
I.1 Taula: (1) adibideko hitzen adierak eta itzulpenak.<br />
Hala, hitzen itzulpena lortzeko tresnak, lehendabizi, esaldiko hitzen adierak<br />
kontsultatu beharko ditu oinarri gisa erabiliko duen lexikoian, eta, ondoren,<br />
hitzak esaldian zein adieratan erabiltzen diren aukeratu, hots, hitzen<br />
adieren artean desanbiguatu. Kasu ho<strong>net</strong>an, lexikoian ditugu jo hitzaren<br />
hainbat adieren artean, ‘musika-tresna bati soinua atera’ (A3) adiera aukeratu<br />
beharko du makinak, horretarako beste guztiak gaitzetsiz. Joren adiera<br />
zuzena lortzeko beharrezkoa izango da esaldiko testuinguruari erreparatzea,<br />
eta jo eta eskusoinu hitzak semantikoki erlazionatzea: jok musika-instrumentuekin<br />
zerikusia du (A3), eta eskusoinua musika-instrumentu bat da (A1).<br />
Beste modu batean esanda, esaldi horretako jo hitzaren adiera desanbiguatzeko,<br />
eta, ondorioz, itzulpen zuzena emateko, jo eta eskusoinu hitzen eta<br />
hauen adieren arteko loturak zehaztuta egon behar dute lexikoian. Horrelako<br />
erlazioak dituzten lexikoiak, ordea, ez dira datu-base lexikalak, hiztegi<br />
ezagutza-baseak (HEB), ezagutza-base lexikalak (EBL) eta ontologiak baizik.<br />
1 Adibiderako <strong>Euskal</strong> Hiztegiko (Sarasola, 1996) adierak erabili ditugu, eta hitzen<br />
adiera-kopurua eta definizioak laburtu egin ditugu.
4 Tesi-lanaren aurkezpen orokorra<br />
Tesi-lan ho<strong>net</strong>an EBLen alde egin dugu, hau da, euskararen informazio<br />
lexiko-semantikoa jasotzen duen lexikoia EBL gisa diseinatu dugu; II. kapituluan<br />
ikusiko dugun bezala, hauek sarrera lexikaletako informazioa egituratu<br />
egiten dute, erredundantzia konponduz, datuen kontrola eta kontsistentzia<br />
gauzatuz eta informazio-atzipena erraztuz. Hortaz, ezagutzaren errepresentaziorako<br />
eta biltegirako oso egokiak dira, eta gaur egun hauexek dira LNPn<br />
lexiko-semantikaren arloan nagusitzen direnak. EBLetan hitzei eta adierei<br />
buruzko informazioa dago, eta hauen ezaugarri garrantzitsuena herentzia<br />
izaten da, hitzak eta adierak klase/azpiklase hierarkien inguruan antolatzen<br />
baitira (Copestake, 1990).<br />
Honenbestez, euskararen ikerketa semantiko aplikatua egiteko, eta datubase<br />
lexikal batek eskaintzen dituen analisi linguistikoetatik haratago joateko,<br />
euskararen informazio semantikoa egituratu eta antolatzen duen EBL baten<br />
beharra dago. Behar horri erantzuna emateko jaio zen tesi-lan hau, balizko<br />
EBL horren hezurdura garatzeko eta definitzeko, hain zuzen ere.<br />
I.2 Helburuak<br />
Hemen aurkezten dugun lanaren helburu nagusia, beraz, euskararen azterketa<br />
semantikoa ahalbidetzeko beharrezkoa den euskararako EBL bat sortzea<br />
da. Helburu hau gauzatzeko, eginkizun zehatzagoak ere bete behar izan<br />
ditugu:<br />
• IXA taldearen beharretara egokitzen den lexikoiaren ezaugarriak<br />
definitu:<br />
Lehenengo urratsa, IXA taldearen beharretara egokitzen den EBLaren<br />
ezaugarriak zerrendatzea izan da. Horretarako, kontuan hartu behar izan<br />
ditugu:<br />
(a) EBLa non eta nola erabili nahi dugun.<br />
Gure kasuan, konputazionalki inplementa daitekeen EBLa izatea nahi<br />
dugu.<br />
(b) Zer informazio mota txertatu behar zaion EBLko sarrera bakoitzari.
I.2 Helburuak 5<br />
Inplementatu beharreko EBLa izaki, geroz eta lexiko aberatsagoa izan, geroz<br />
eta emaitza hobeak izaten dira ataza konputazionaletan. Hala, hizkuntza bere<br />
osotasunean adierazten duen EBLa izan behar genuke, ahalik eta informazio<br />
gehiena jasotzen duena, bai semantikoa eta baita sintaktiko-semantikoa<br />
ere.<br />
(c) EBLaren informazioa adierazteko aukeratzen den ereduak zein baldintza<br />
bete behar dituen.<br />
Ez dago EBLaren eraikuntzarako eredu bakarra; eta, izatez, eredu bakarra<br />
jarraitzen duen EBLra mugatzea arriskutsua izan daiteke. Izan ere, askotan,<br />
EBLetan jasotako informazioa ez da berrerabilgarria eta, ondorioz, aplikazio<br />
berrien sorkuntza baldintza daiteke. Aukeratutako eredu honek ez ditu<br />
gainontzeko lan konputazionalak eragotzi behar, gure EBLa lan horien informazioarekin<br />
ere aberastu ahal izateko. Hala, gure EBLa informazio berrerabilgarria<br />
jasotzen duena izatea nahi dugu, eta bertan egindako deskribapen<br />
linguistikoekin ez baldintzatzea etorkizuneko aplikazioak.<br />
Honekin batera, eleanitza den EBLa interesatzen zaigu, euskarako sarrera<br />
lexikalez gain, beste hizkuntzetako ordainak eskuragarri dituena. Itzulpen<br />
automatikorako, adibidez, ezinbesteko baldintza da hau.<br />
• Erdal hizkuntzetarako dauden ereduak aztertu, eta IXA talderako<br />
baliagarria izango den eredu bat aukeratu:<br />
Gure ereduaren izaera finkatuta, azterketa bibliografikoa egin dugu, aipatutako<br />
ezaugarrietara gehien egokitzen den formalismoaren bila. EBLen eraikuntzarako<br />
ereduak ugariak dira, eta ikerlan honen ezinbesteko muga dela-eta,<br />
azterketaren esparrua murriztu behar izan dugu.<br />
• Gure EBLa aukeratutako ereduari jarraituta garatzeko metodologia<br />
definitu:<br />
<strong>Euskara</strong>ko EBLak jarraituko duen eredua aukeratu ondoren, eta EBLaren<br />
eraikuntzari ekin aurretik, garapenean eragina izango zuten hainbat erabaki<br />
hartu behar izan ditugu; hala nola, zein kategoria landuko genuen lehendabizi,<br />
edota zein ikuspegi erabiliko genuen sarrera lexikalak lantzeko garaian.<br />
Estaldura —sarrera lexikalen kopurua ahalik eta handiena izatea— eta kalitatea<br />
—sarrera lexikalen informazioa zuzena izatea— uztartzen saiatu gara,<br />
eta ezaugarri hauek izango dira, hain zuzen ere, EBLaren garapen-metodologia<br />
definituko dutenak.
6 Tesi-lanaren aurkezpen orokorra<br />
• <strong>Euskara</strong>ko EBLaren garapenean sortutako zailtasunentzat irizpideak<br />
ebatzi:<br />
EBLa garatzeko metodologia zehaztu arren, EBL baten garapenean aurrera<br />
egin ahala, tratamendu berezia behar duten fenomeno linguistikoak<br />
agertzen dira. Hori gertatzean fenomenoa aztertu eta fenomeno linguistiko<br />
horrek EBLan izango duen tratamendua zehazten duen irizpide bat definitu<br />
behar dugu, fenomeno bera EBLko sarrera desberdi<strong>net</strong>an beti modu berean<br />
adierazia izan dadin.<br />
• Aukeratutako eredua informazio gehiagoz hornitu:<br />
Hizkuntza bere osotasunean adierazten duen EBLa izatea nahi dugunez,<br />
ahalik eta informazio gehien behar dugu, horrela, emaitza hobeak lor daitezkeelako.<br />
Hori dela eta, oinarri gisa aukeratutako eredutik jasotako informazioaz<br />
gain, informazio gehiagorekin aberasten saiatu gara gure EBLa;<br />
ingeleseko eta euskarako kirol-arloko aditz batzuen subjektu eta objektu<br />
hautapen-murriztapenekin, hain zuzen ere.<br />
I.3 Tesi-txostenaren eskema<br />
II. kapituluan, lexikoiez jardungo gara luze, hizkuntzalaritzan eta bereziki<br />
hizkuntzalaritza konputazionalean izan duen lekuaz eta berau lantzeko<br />
garaian izan diren gorabeherez. Lehenengo, lexikoiek izandako ibilbidea laburbilduko<br />
dugu. Gero, lexikoien ezaugarriak azaldu, lexikoien garapenean<br />
egungo joerak ikusi eta lexikoi mota desberdinak aztertuko ditugu. Honekin<br />
batera, egin diren hainbat lexikoien berri emango dugu.<br />
III. kapituluan, batetik, egin nahiko genukeen EBLaren ezaugarriak zerrendatuko<br />
ditugu, eta bestetik, EBLen hainbat eredu edo formalismo aztertuko<br />
ditugu, gerora, egokiena iruditzen zaiguna euskarako EBLaren garapenean<br />
erabiltzeko. EBLen eraikuntzarako ereduak ugari daudenez, azterketaren<br />
esparrua murriztu behar izan dugu. Hortaz, lehenik eta behin, azterketarako<br />
aukeratutako formalismoen arrazoiak azalduko ditugu, eta formalismo<br />
bakoitzetik ezaugarri nagusienak ere aipatuko ditugu. Formalismo hauek aztertu<br />
ondoren, IXA taldearen beharretara hobekien egokitzen den EBL formalismoa<br />
zein den arrazoituko dugu, <strong>WordNet</strong> eta honen ildotik abiatuta<br />
garatu diren Euro<strong>WordNet</strong> eta The Multilingual Central Repository<br />
(MCR), hain zuzen ere.
I.3 Tesi-txostenaren eskema 7<br />
IV. kapituluan, <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR ereduen azterketa<br />
sakonagoa egingo dugu.<br />
V. kapituluan, euskarako word<strong>net</strong>aren 2 (<strong>Euskal</strong> <strong>WordNet</strong>) garapenerako<br />
hartutako erabaki metodologikoak deskribatuko ditugu, eta erabaki hauen<br />
arabera, <strong>Euskal</strong> <strong>WordNet</strong>ek izandako garapena ere deskribatuko dugu. Alde<br />
batetik, izenekin egindako azterketa azalduko dugu (garapen-aldiak zehazki<br />
deskribatuz), eta bestetik, oraindik hasiberria dugun aditzen azterketa<br />
eta garapenerako landu ditugun aukera metodologiko ezberdinak aurkeztuko<br />
ditugu.<br />
VI. kapituluan, EBL eleanitz bat sortzeak ekartzen dituen fenomeno linguistiko<br />
batzuk aztertu ditugu. Lexikalizazioarekin zerikusia duten bereizgarriez<br />
eta hierarkiari dagozkion bereizgarriez arituko gara. Kapitulu ho<strong>net</strong>an,<br />
fenomeno hauen adibideak emango ditugu eta hizkuntzen arteko ezberdintasun<br />
horiek nola konpondu ditugun azalduko dugu. Era berean, ereduari<br />
egindako hobekuntzak ere aurkeztuko ditugu.<br />
VII. kapituluan, aukeratutako eredua informazio gehiagorekin hedatzeko<br />
egin dugun lehenengo saiakera azalduko dugu. Ingeleseko eta euskarako<br />
kirol-arloko aditz batzuen objektuen eta subjektuen hautapen-murriztapenen<br />
azterketa deskribatuko dugu. Azterketa ho<strong>net</strong>an, erabilitako corpusei,<br />
eskuratze-tekniken azterketari eta ebaluazio linguistikoari erreparatuko<br />
diegu batez ere. Esan beharra dago azterlan hau eleaniztasunaren hipotesiaren<br />
ikuspegitik egina dagoela. Hots, ingeleserako automatikoki eskuratutako<br />
hautapen-murriztapenak euskaraz ere erabilgarriak izan daitezkeela<br />
frogatu nahi dugu. Horretarako, ingeleserako automatikoki eskuratu diren<br />
hautapen-murriztape<strong>net</strong>an oinarritu gara lehenengo, gero hauek euskararentzat<br />
baliagarriak izan daitezkeen aztertu ahal izateko.<br />
VIII. kapituluan, bukatzeko, zabaldu ditugun ikerlerroak, atera ditugun<br />
ondorio nagusiak eta aurrera begirakoak aipatuko ditugu.<br />
2 <strong>WordNet</strong> (letra larriz) erabiltzen dugu Miller-en taldeak (1985) egindako ingeleseko<br />
EBLa adierazteko; word<strong>net</strong> (letra xehez), aldiz, <strong>WordNet</strong>en oinarrituta garatu den edozein<br />
hizkuntzetako EBLari buruz hitz egiteko erabiltzen dugu. Hala, <strong>WordNet</strong> terminoarekin,<br />
ingeleseko word<strong>net</strong>ari egingo zaio erreferentzia, eta word<strong>net</strong> terminoak aurretik zer hizkuntzetakoa<br />
den adierazia izan beharko du.
8 Tesi-lanaren aurkezpen orokorra<br />
Gainontzean, hiru eranskinek osatzen dute tesi-lan hau:<br />
• A eranskina: <strong>Euskal</strong> <strong>WordNet</strong>eko editorearen eskuliburua.<br />
Eskuliburu ho<strong>net</strong>an <strong>Euskal</strong> <strong>WordNet</strong>eko editoreak synsetak lantzeko<br />
behar dituen argibide guztiak zehazten dira: alde batetik, interfazearen<br />
erabilerari buruzko azalpenak, eta bestetik, eleaniztasunak eragindako<br />
desberdintasun linguistikoetan erabili beharreko irizpideak.<br />
• B eranskina: <strong>Euskal</strong> <strong>WordNet</strong>eko aditzen hierarkiaz hierarkiako<br />
orrazketa. Eranskin ho<strong>net</strong>an {express 2, give tongue 1, utter 1}<br />
klase semantiko osorako egindako hierarkiaz hierarkiako orrazketa aurkezten<br />
dugu. Honekin batera, orrazketa honen ondoren, lortutako ondorio<br />
nagusiak dakartzagu, baita ingelesa eta euskarako hierarkien arteko<br />
alderaketa bat ere.<br />
• C eranskina: Hautapen-murriztapenen azterketa eta ebaluazioa.<br />
Hainbat eskuratze-teknika erabiliz, ingeleseko eta euskarako corpus<br />
ezberdi<strong>net</strong>atik eskuratutako hautapen-murriztapenak aurkezten ditugu,<br />
hauen zuzentasunari buruzko ebaluazioarekin batera. Bestalde,<br />
ebaluazioa egin ahal izateko, lehenengo hautapen-murriztapenen iturria<br />
aztertu dugu. Azterketa honen emaitzak eta ho<strong>net</strong>arako erabilitako baliabideak<br />
ere zehazten dira.<br />
I.4 Tesiarekin lotutako argitalpenak<br />
Sarrera-kapitulu honi bukaera emateko, jarraian, argitalpenen zerrenda aurkezten<br />
dugu, eta I.2 taulan, argitalpen bakoitza zein kapitulurekin lotuta<br />
dagoen zehazten dugu 3 .<br />
• Agirre E., García E., Lersundi M., Martínez D., eta Pociello E. The<br />
Basque task: did systems perform in the upperbound? Proceedings of<br />
the SENSEVAL-2 Workshop, Tolosa (Frantzia), 2001.<br />
3 Hauek guztiak hurrengo web orrian daude atzigarri: http://ixa.si.ehu.es/<br />
Ixa/Argitalpenak/kidearen argitalpenak?kidea=1000809016 (2007-07-02an atzitua).
I.4Tesiarekinlotutakoargitalpenak 9<br />
• Agirre E., Ansa O., Arregi X., Arriola J., Díaz de Ilarraza and E. Pociello<br />
A., eta Uria L. Methodological issues in the building of the Basque<br />
<strong>WordNet</strong>: quantitative and qualitative analysis. Proceedings of First<br />
International <strong>WordNet</strong> Conference, Mysore (India), 2002.<br />
• Agirre E., Aldezabal I., eta Pociello E. A pilot study of English selectional<br />
preferences and their cross-lingual compatibility with Basque.<br />
Proceedings on International Conference on Text Speech and Dialogue<br />
(TSD), Ceske Budejovice (Txekiar Errepublika), 2003a.<br />
• Agirre E., Aldabe I., Lersundi M., Pociello E., eta Uria L. The Basque<br />
lexical-sample task. Proceedings on the 3rd ACL Workshop on the<br />
Evaluation of Systems for the Semantic Analysis of Text (SENSEVAL),<br />
Bartzelona, 2004a.<br />
• Pociello E. Aditzen hautapen-murriztapenak: kirol domeinura mugatutako<br />
ingeleseko hautapen-murriztapenak eta euren baliagarritasuna euskararako.<br />
Hastapeneko lana. Doktoretza-ikastaroetako defentsa-lana,<br />
<strong>Euskal</strong> Herriko Unibertsitatea, 2004a.<br />
• Pociello E. Sintaxi-semantika elkargunea zenbait teoriatan: euskararen<br />
ezagutza-basea lexiko-semantikorantz. Doktoretza-ikastaroetako defentsa-lana,<br />
<strong>Euskal</strong> Herriko Unibertsitatea, 2004b.<br />
• Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />
M., eta Pociello E. EuSemcor: euskarako corpusa semantikoki etiketatzeko<br />
eskuliburua: editatze- etiketatze- eta epaitze-lanak. Lengoaia<br />
eta Sistema Informatikoak Saila, <strong>Euskal</strong> Herriko Unibertsitatea, 2005a.<br />
• Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />
M., eta Pociello E. <strong>Euskal</strong> <strong>WordNet</strong>: euskararako ezagutza-base<br />
lexiko-semantikoa. <strong>Euskal</strong>ingua, (7), 2005b.<br />
• Agirre E., Aldezabal I., eta Pociello E. <strong>Euskara</strong>rako ezagutza-base lexiko-semantikoaren<br />
eredu-hautaketa eta garapena: <strong>Euskal</strong> <strong>WordNet</strong>.<br />
GOGOA: <strong>Euskal</strong> Herriko Unibertsitateko Hizkuntza, Ezagutza, Komunikazio<br />
eta Ekintzari buruzko Aldizkaria, 237–266, 2005c.
10 Tesi-lanaren aurkezpen orokorra<br />
• Civit M., Aldezabal I., Pociello E., Taulé M., Aparicio J., Márquez L.,<br />
Navarro B., Castellví J.,etaMartíM. 3LB-LEX:léxico verbal con<br />
frames sintácticos-semánticos. Revista de la Asociación Española para<br />
el Procesamiento del Lenguaje Natural, Granada, 2005.<br />
• Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />
M., eta Pociello E. Improving the Basque <strong>WordNet</strong> by corpus<br />
annotation. Proceedings of Third International <strong>WordNet</strong> Conference,<br />
Jeju (Korea), 2006a.<br />
• Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />
M., eta Pociello E. A methodology for the joint development of<br />
the Basque Word<strong>net</strong> and Semcor. Proceedings of the 5th International<br />
Conference on Language Resources and Evaluations (LREC), Genoa<br />
(Italia), 2006b.<br />
• Agirre E., Aldezabal I., eta Pociello E. Lexicalization and multiword<br />
expressions in the Basque Word<strong>net</strong>. Proceedings of Third International<br />
<strong>WordNet</strong> Conference, Jeju (Korea), 2006c.<br />
• Agirre E., Aldezabal I., Etxeberria J., eta Pociello E. A preliminary<br />
study for building the Basque PropBank. Proceedings of the 5th International<br />
Conference on Language Resources and Evaluation (LREC),<br />
Genoa (Italia), 2006d.<br />
• Agirre E., Aldezabal I., eta Pociello E. Lexicalization and multiword<br />
expressions in the Basque <strong>WordNet</strong>. In Fernández B. eta Laka I.,<br />
editors, Andolin gogoan: Essays in honour of the Professor Eguzkitza,<br />
51–68. <strong>Euskal</strong> Herriko Unibertsitatea, 2006d.
I.4Tesiarekinlotutakoargitalpenak 11<br />
Kapitulua Argitalpenak<br />
III Pociello (2004b)<br />
Agirre et al. (2005c)<br />
IV Agirre et al. (2005c)<br />
Agirre et al. (2005a)<br />
V Agirre et al. (2002)<br />
Agirre et al. (2005c)<br />
Agirre et al. (2006a)<br />
Agirre et al. (2006b)<br />
VI Agirre et al. (2006e)<br />
Agirre et al. (2006c)<br />
VII Agirre et al. (2003a)<br />
Pociello (2004a)<br />
I.2 Taula: Kapitulu bakoitzarekin lotutako argitalpenak.
12 Tesi-lanaren aurkezpen orokorra
Lexikoiak<br />
II. KAPITULUA<br />
Kapitulu ho<strong>net</strong>an lexikoiei buruz arituko gara eta hauek LNPn duten garrantzia<br />
ikusiko dugu. Lehenengo atalean lexikoiek izandako ibilbidea laburbilduko<br />
dugu. Gero, lexikoien ezaugarriak azalduko ditugu, lexikoien garapenean<br />
egungo joerak ikusiz eta lexikoi motak laburbilduz.<br />
II.1 Lexikoiez historia apur bat<br />
Jadanik aipatu dugu —I.1 atalean— lexikoien garapena funtsezko ataza dugula<br />
LNPn. Ordenagailuek itzulpen automatikoa, testuen-laburpena eta abar<br />
egin ahal izateko, milaka sarreratik gora dituzten biltegi lexikaletan oinarritu<br />
behar dute. Hots, neurri handi batean, esan dezakegu, gaur egun, LNPko<br />
edozein sistemaren muina biltegi lexikalean datzala.<br />
Hala ere, lexikoien garrantzia ez da beti hain handia izan, ez hizkuntzalaritza<br />
teorikoan, ez LNPn. Neurri handi batean, azken hogeita hamar<br />
urteotan zabaldutako fenomenoa izan da. Hizkuntzalaritza teorikoaren zein<br />
konputazionalaren egungo joera hizkuntza-ezagutza gramatikalaren arlotik<br />
lexikoarenera lerratu da.<br />
Hizkuntzalaritza teorikoak lexikoari buruz zuen ikuspegia 1980ko hamarkadatik<br />
aurrera aldatu egin da, sarrera lexikalaren edukiari garrantzi gehiago<br />
emanez. Hizkuntzalaritzako teoria askok eta askok (segur aski Chomskyrengandik<br />
hasita, 1970ean) joera lexikalistago bat hartu zuten. Hizkuntzalaritza<br />
konputazionalean ere lexikoien beharra aitortu zen, hauek guztiz beha-
14 Lexikoiak<br />
rrezkoak baitziren aplikazio errealak garatzeko.<br />
Hizkuntzalaritzaren ibilbidean sintaxia izan da aztergai nagusia, eta lexikoari<br />
ez zaio agian behar beste arretarik jarri, lexikoa hizkuntza bakoitzak<br />
berezkoa duen ataltzat hartu izan baita, erregela edo mekanismo linguistikoez<br />
orokortu ezin dena. Gramatika Sortzailearen hasierako eredua (Chomsky,<br />
1965) eta ondorengo Gobernu eta Uztarduraren Teoria dira aipatutakoaren<br />
adibideak (Chomsky, 1987).<br />
Teoria hauei egiten zaien gaitzespen azpimarragarrie<strong>net</strong>ako bat da beraien<br />
erregelekin hizkuntzaren egitura orokorrenak bakarrik azal daitezkeela.<br />
Gabezia hau eta beste batzuk gainditzeko asmoz, gramatika aztertzeko ikuspuntua<br />
aldatu egingo da denborarekin, eta sintaxiaren arloan aritzen diren<br />
teoriak norabide lexikalistagoa hartuz joango dira (Hale eta Keyser, 1987;<br />
Jackendoff, 1990; Levin, 1993; Pustejovsky, 1995, ...).<br />
“Asistimos desde hace un cierto tiempo a un razonable aminoramiento —<br />
que no es a la aniquilación— de la idea de que no hay explicación gramatical<br />
posible si ésta no se puede formular en reglas estrictas y ordenadas. Con ello<br />
llega también el renacer de campos que, por razones próximas a ese punto<br />
de vista, habían sido relegados durante un largo período. La concepción de<br />
las teorías como sistemas modulares y de principios es buena prueba de lo<br />
primero; el retorno al estudio de las palabras en cuanto elementos portadores<br />
de un significado, de los conjuntos en que se organizan, de sus relaciones y<br />
su papel en la gramática, es signo de lo segundo.” (Demonte, 1991, 24. or.)<br />
Egile hauen ustez, lexikoa salbuespenen zakua izatetik, egitura konplexua<br />
duen atala izatera pasatu da, bertan sintaxi eta semantikaren arteko hartuemanak<br />
islatzen direlarik.<br />
Hizkuntzalaritza konputazionalak teorikoaren antzeko ibilbidea izan du.<br />
Hastape<strong>net</strong>an, 1950 eta 1960ko hamarkadetan, sistema konputazional gehienek<br />
jostailuzko lexikoak lantzen zituzten, oso aplikazio-domeinu zehatzei lotuak<br />
eta sarrera-kopuru murritzekoak. Askotan zerrenda soilak baino ez ziren<br />
izaten. B. Boguraev-ek eta T. Briscoe-k esaterako, hau diote:<br />
“Knowledge of words underlies these tasks, yet until very recently dictionaries<br />
(or lexicons, as linguists usually call them) for natural language<br />
processing systems have by and large been the poor sisters of computational<br />
linguistic research.” (Boguraev eta Briscoe, 1989, 34. or.)<br />
Oro har, ikertzaileak sintaxia eta erregela gramatikaletan jartzen zituzten<br />
beren indarrak.
II.1 Lexikoiez historia apur bat 15<br />
1970 eta 1980ko hamarkadetan, LNPrekiko interesa areagotzeaz gain,<br />
hurbilpen-aldaketa gertatu zen: informazio- erauzketarako sistemek edo itzulpen<br />
automatikoko sistemek, baliabide lexikal sendoak behar zituzten, testu<br />
errealekin lan egitekoak baziren. Hurbilpen-aldaketa horren adierazgarri<br />
1986ko Grosseto-ko mintegia (Automating the Lexicon) dugu, non mintegiaren<br />
bukaeran Manifesto dokumentua osatu zen, lexikoi sendoen beharra<br />
azpimarratuz. Gauzak horrela, 1980ko hamarkadaren bigarren erdian eta<br />
1990eko hamarkadaren hasieran alderdi lexikoan arreta handiagoa jarri zen<br />
—Generalized Phrase Structure Grammar (Gazdar et al., 1985), adibidez—,<br />
eta lexiko konplexu ugari proposatzen hasi ziren; esate baterako, Europan,<br />
lexikoien inguruan, hogei proiektu baino gehiago sortu ziren.<br />
Hala ere, lexikoaren inguruan hainbat ikerketa eta proiektu garatu baziren<br />
ere, proiektu horietako ikerlariek lexikoa aztertzeko eta adierazteko,<br />
modu asko asmatu eta erabili zituzten. Nork berea —eta bere modura—<br />
egiten zuelarik, ordea, azkenean batek egindakoaz beste batek baliatu nahi<br />
zuenean, aurretik egindako lan guztia ez zen nahi litzatekeen bezain lagungarria<br />
suertatzen, eta, maiz, erabili ezina izaten zen ere bai.<br />
B. Boguraevek eta T. Briscoek (1989) adibide baten bidez azaltzen dute<br />
aurrean aipatutako egoera. Hiru sistema desberdinek —BBN-CFG sistema<br />
(Ingria, 1988), IRUS sistema (Bates et al., 1986) eta ALVEY sistema (Carroll<br />
eta Grover, 1989), hurrenez hurren— ingeleseko acknowledge hitzerako duten<br />
adierazpena azaltzen digutenean (ikus II.1 irudia).<br />
II.1 irudiko hiru sarrerek acknowledge hitzari buruzko antzeko informazioa<br />
gordetzen dute: kategoria sintaktikoa, hitzaren azpikategorizazioa eta<br />
abar. Hala ere, informazio hori hain modu desberdinean dago adierazita, ia<br />
ezinezkoa bihurtzen dela hiru formalismo hauen arteko informazioa bateratzea.<br />
Horrela, bada, garatutako lexikoi hauek behar bereziei aurre egiteko soilik<br />
diseinatzen ziren, proiektuen arteko elkarlana kontuan hartu gabe. Egoera<br />
honi aurre egiteko, informazio lexikalaren berrerabilgarritasunaren beharra<br />
azpimarratu zen. Calzolari-ren lanean (1994), egileak berrerabilgarritasunaren<br />
alde egiten du, nabarmen. Bere ustean, komunitate linguistikoak dagoeneko<br />
existitzen diren lexikoien informazioa berrerabiltzen eta estaldura zabala<br />
duten baliabide lexikalak eraikitzen ahalegindu beharko luke. 1990eko<br />
hamarkadaren lehen erdian, Europako Erkidegoko batzorde batek hiru baldintza<br />
aipatzen ditu lexikoiei etekin handiago atera ahal izateko:
16 Lexikoiak<br />
[ACKNOWLEDGE<br />
Category: V<br />
Base: acknowledge<br />
Features: (TRANSITIVE (REALNP) (PASSIVIZES))<br />
(CLAUSE (REALNP) (THATCOMP)<br />
(INDICATIVE: TENSE) (WH-))<br />
(NP-VP :AGR :AGRX (REALNP) :AGRX<br />
(PASSIVIZES) (INF) (WH-))]<br />
[ACKNOWLEDGE<br />
FEATURES (TRANS<br />
PASSIVE<br />
THATCOMP<br />
THATREQUIRED<br />
NPTOCOMP)<br />
VS-D]<br />
(acknowledge<br />
((v +) (n -) (subcat npl)) acknowledge nil)<br />
(acknowledge<br />
((v +) (n -) (subcat sfin)) acknowledge nil)<br />
;acknowledge that they were defeated<br />
(acknowledge<br />
((v +) (n -) (subcat se3)) acknowledge nil)<br />
;acknowledge having been defeated<br />
(acknowledge<br />
((v +) (n -) (subcat or)) acknowledge nil)<br />
;acknowledge him to do the best<br />
II.1 Irudia: acknowledge hitzaren hiru adierazpen desberdin, BBN-CFG sistema<br />
(Ingria, 1988), IRUS sistema (Bates et al., 1986) eta ALVEY sistema<br />
(Carroll eta Grover, 1989), hurrenez hurren.
II.1 Lexikoiez historia apur bat 17<br />
• Baliabide lexikalen eraikuntza zabal onarturiko estandarretan egin beharra.<br />
• Europako Erkidegoko hizkuntza guztietarako baliagarri izango diren<br />
oinarrizko lexikoien eraikuntza, adosturiko diseinu bat erabilita eraikiko<br />
dena.<br />
• Sorturiko baliabide lexikalak komunitateak eskuragarri izan ditzan, distribuziorako<br />
politika baten beharra.<br />
Egun, Europan, arlo ho<strong>net</strong>ako proiektu garrantzitsue<strong>net</strong>akoek — Expert<br />
Advisory Group on Language Engineering Standards (EAGLES) 1 , Preparatory<br />
Action for Linguistic Resources Organization for Language Engineering<br />
(PAROLE), Trans-European Language Resources Infrastructure (TELRI) 2<br />
eta European Language Resources Association (ELRA) 3 — hiru alderdi horiek<br />
lantzea dute helburu nagusi.<br />
Hortaz, lexikoi batek berrerabilgarria izan behar du; hau da, bere informazio<br />
lexikalaz baliatzeko aukera eman behar du, lexikoi berri bat garatu<br />
nahi denean edota dagoen lexikoiren bat aberastu nahi denean. Honekin<br />
batera, lexikoi bat berrerabilgarria izango da baldin eta estandarra bada.<br />
Hau da, baldin eta honen errepresentaziorako eskemak orokorrak eta aplikazioetarik<br />
independenteak badira. Modu horretan, bere baitan biltzen duen<br />
informazioaren adierazpidea formalismo berezi bati lotuegia egotea eragotz<br />
daiteke. Behar honi erantzuteko asmoz, hurrengo ekimenak aipa genitzake:<br />
Text Encoding Initiative (TEI), The ACL Data Collection Initiative eta Consortium<br />
for Lexical Research, besteak beste. Hala ere, tamalez, egun ezin da<br />
esan informazio lexikala kodetzeko formalismo estandar bat dugunik.<br />
Nahiz eta albo batera utzi den hasiera bateko gehiegizko optimismoa,<br />
gaur egun, joera lexikalistak badirau, bai hizkuntzalaritza teorikoan bai konputazionalean.<br />
Lexiko konputazionalaren alorrean lexiko-sistemen azterketa,<br />
errepresentazioa eta erabilera, gero eta garrantzi handiagoa hartzen ari da.<br />
Azken hamarkadan lexikoigintzan aurrera egin da: erredundantziaren arazoa<br />
konponduz, datuen kontrola eta kontsistentzia gauzatuz, eta informazioatzipena<br />
erraztuz. Argi dago, beraz, hizkuntzen industriaren interesa lexikora<br />
lerratu dela, eta ez da harritzekoa, hortaz, lexikoi horien eraikuntza izatea<br />
1 http://www.ilc.pi.cnr.it/EAGLES/home.html (2007-07-02an atzitua).<br />
2 http://www.ids-mannheim.de/telri/html (2007-07-02an atzitua).<br />
3 http://www.icp.gr<strong>net</strong>.fr/ELRA/home.html (2007-07-02an atzitua).
18 Lexikoiak<br />
LNPko gairik landue<strong>net</strong>ako bat. Hala, II.2. atalean lexikoien ezaugarriez<br />
arituko gara.<br />
II.2 Lexikoiei buruz<br />
Lexikoiei buruz hitz egin ahal izateko, lexikoi eta hiztegien artean desberdindu<br />
beharra dago. Bai lexikoiek eta bai hiztegiek hitz baten adierari buruzko<br />
deskribapena eta informazio lexikoa jasotzen dute, baina bakoitzaren erabileraren<br />
arabera, jasotzen den informazio mota eta informazio horren antolaketa<br />
aldatu egiten da.<br />
Esate baterako, hiztegien erabiltzaileak gizakiok garenez, bertako informazioa<br />
gizakiok uler eta erabil dezagun dago antolatuta. Hala, hiztegisarrera<br />
bakoitzeko, orokorrean, hitz horren adierari buruzko azalpen bat eta<br />
adibide batzuk ematen zaizkigu.<br />
Lexikoek, aldiz, informazio lexikala jasotzen duten biltegiak izateaz gain,<br />
aplikazio batekin lotura izan behar dute. Beste hitz batzuekin esanda, lexikoien<br />
erabiltzaileak ordenagailuak dira. Horregatik, lexikoi konputazionaletako<br />
sarrerek informazio linguistiko (morfologiko, sintaktiko eta semantiko)<br />
esplizituarekin hornituta egon behar dute, betiere LNPko sistema batean<br />
integratzeko moduan antolaturik. Hortaz, hiztegietan dugun informazioa<br />
lexikoietan aurkitzen duguna baino mugatuagoa da, hiztegietan hitz baten<br />
adiera ulertzeko behar den informazioa bakarrik eskaintzen baita.<br />
Hurrengo definizioak ondo adierazten du lexikoiaren eta hiztegiaren arteko<br />
desberdintasuna:<br />
“[A lexicon is] a set of formalized entries to be used in conjunction with<br />
computer programs and by dictionary the physical printed text giving lexical<br />
information, including meaning descriptions.” (Wilks et al., 1996, 6. or.)<br />
Wilks et al.-ek (1996), hiztegia testu inprimatu gisa definitzen badu ere,<br />
gaur egun jakina da testu inprimatua izateaz gain, euskarri elektronikoan ere<br />
egiten direla hiztegiak.<br />
Lexikoiak zer diren zehaztu ondoren, aipa ditzagun lexikoak garatzeko<br />
erabiltzen diren hainbat iturri eta metodo.
II.2 Lexikoiei buruz 19<br />
II.2.1 Lexikoiak sortzeko hurbilpenak, metodoak eta iturriak<br />
Lexikoia eskuratzeko bi hurbilpen nagusi erabili izan dira: arauemailea eta<br />
deskriptiboa. Hurbilpen arauemailean, marko zehatza definitzen da, eta informazioa<br />
marko horretan txertatzen da lehenengo. Hurbilpen deskriptiboan,<br />
aldiz, aurrez ez dago definiturik inongo marko zehatzik, eta ezaugarri multzoa<br />
osatuko duten elementuak aztertutako datuetan agertutakoak dira.<br />
Lexikoiak sortzeko berebiziko garrantzia dauka, baita ere, lexikoiaren garapenean<br />
erabilitako metodoak, hau da, gizakiaren eskuratzea zenbaterainokoa<br />
izango den zehazteak. Hiru metodo erabil daitezke: eskuzko metodoa,<br />
metodo automatikoa edo metodo erdiautomatikoa. Metodoa erabakitzerakoan,<br />
kontuan izan behar dira, alde batetik, zeintzuk diren erabiliko diren iturriak,<br />
eta bestetik, helburu den aplikaziorako zein informazio zehaztu edo markatu<br />
behar den. Hala, eskuzko metodoek hurbilpen arauemailea darabilte. Hurbilpen<br />
deskriptiboan, aldiz, metodo automatikoa eta erdiautomatikoa erabil<br />
daitezke.<br />
Hurbilpen arauemaileetan, esan bezala, eskuzko metodoa da nagusi,<br />
eta metodo ho<strong>net</strong>an iturri nagusia introspekzioa da, hots, hizkuntzalariak<br />
munduari buruz duen jakinduria eta ezagutza. Lexikoia osatzeko garaian,<br />
gizakiek munduari buruz eta hizkuntzari buruz duten jakinduria erabiliz gero,<br />
sortutako datuen zuzentasuna bermatuko da. Hurbilpen honekin garatutako<br />
proiektuen arazo nagusienak dira, batetik, jende eta denbora ugari behar<br />
izatea, eta bestetik, jende ezberdin asko garai ezberdi<strong>net</strong>an proiektu batean<br />
lan egiterakoan, koherentzia arazoak sor daitezkeela.<br />
Hemen aipatzen ditugu era ho<strong>net</strong>an sortutako zenbait lexikoi: Word Dictionary,<br />
10.000 sarrera dituen Linguistic String Projecterako (LSP) sortutako<br />
lexikoia (Fox et al., 1988); <strong>WordNet</strong> 4 (Miller, 1985; Fellbaum, 1998a) gaur<br />
egun 3.0 bertsioa da indarrean, eta 155.327 hitz daude bertan errepresentatuta<br />
eta baita euren arteko erlazio semantikoak dituzten 117.617 synset<br />
edo sinonimo-multzo ere; Comlex (Grishman et al., 1994) ingeleseko 38.000<br />
inguru hitzentzako informazio sintaktikoa dakarren lexikoi konputazionala;<br />
CYC ontologia (Lenat, 1995) 100.000 termino baino gehiago ditu. LDOCEren<br />
azken bertsioak, LDOCE3-NLP, 80.000 adiera ditu, eta hizkuntzalaritza<br />
konputazionaleko ikerkuntzarako laguntza gisa sortu dute Longmaneko lexikografoek.<br />
4 http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).
20 Lexikoiak<br />
Era ho<strong>net</strong>an sortutako lexikoietan, hasieran kontzeptuen ontologia sortzen<br />
da, eta ondoren kontzeptu horiei hitzak lotzen zaizkie. Lan egiteko<br />
sistema honi jarraitzen zaizkion proiektuen artean honakoak ditugu: CYC<br />
(Lenat eta Guha, 1990), <strong>WordNet</strong> (Miller, 1985; Fellbaum, 1998a), eta EDR<br />
(Yokoi, 1995), besteak beste.<br />
Hurbilpen deskriptiboa arauemailearen kontrakoa da: lehenik hitzak<br />
sortzen dira, eta ondoren kontzeptuak lotzen zaizkie. Honezaz gain, hurbilpen<br />
deskriptiboetan, oinarri gisa aurretik sortuta dauden testu-baliabideak<br />
erabiltzen dira, eta horietan dagoen informazioa erauzten saiatzen dira metodo<br />
automatikoak edo erdiautomatikoak erabiliz.<br />
II.1. atalean aipatu dugun bezala, LNPn, 1980 hamarkadarainoko sistemetan,<br />
ahaleginen handiena sintaxi-egituretara mugatzen zen. Garai horretan<br />
formalismo sintaktiko batzuk egitura sintaktikoen pisua lexikoira pasatzen<br />
hasi ziren, lexikoiaren egitura konplexuagoa bihurtuz. Garai berean,<br />
konturatu ziren LNPrako sistemen hedakuntzarako arazo nagusiena lexiko<br />
urriegia izatea zela eta lexikoa edukiz betetzea uste baino lan neketsuagoa<br />
zela. Lexiko zabal eta konplexuen eraikuntza eskuz egitea gehiegizko lana<br />
izango zela-eta, aldez aurretik sortuta zeuden testu-baliabideetan zegoen<br />
informazioa ustiatzen ahalegindu ziren, hala nola, egitura gabeko oinarri lexikalak<br />
(corpusak) edo egituratutako oinarri lexikalak (makinak irakurtzeko<br />
moduko hiztegiak (MRD 5 ), thesaurusak eta entziklopediak).<br />
Corpusak egitura gabeko baliabidetzat hartu izan ohi dira, baina erabilerari<br />
buruzko informazio-hitzak errealitatean dituzten maiztasunak, zenbait<br />
egitura sintaktikoek dituzten maiztasunak eta halako informazioa lortzeko<br />
oso erabilgarriak dira. Hitzak berak eta hitzarekin batera agertzen den<br />
testuinguruak informazio baliagarria ematen du askotan.<br />
Honekin batera, makinaz tratatu daitezkeen testuen kopurua etengabe<br />
hazten ari da. Beraz, ho<strong>net</strong>az guztiaz jabetuta, 80ko hamarkadatik aurrera,<br />
baliabide hau geroz eta gehiago erabili izan da, eta egun, lexikoien aberasketan<br />
erabiltzeaz gain, hizkuntzalaritzaren beste alor guztietan ere erabiltzen<br />
da. Aitzindari gisa, milioi bat hitz inguru dituen Brown corpusa (Francis eta<br />
Kucera, 1982) aipatu beharra dago.<br />
Corpusetan, berez, hitzak bakarrik daude (corpus gordina deritzoguna).<br />
Corpusa gordina baldin bada, erabilgarria da; baina are erabilgarriagoa da<br />
corpus berari informazio linguistikoa gehitzen badiogu. Badira lematizatuta-<br />
5MRD, Machine Readable dictionaryren laburdura da. LNPn asko erabiltzen den laburdura<br />
da.
II.2 Lexikoiei buruz 21<br />
ko corpusak, hitzen kategoriak markatuta dituzten corpusak, morfologikoki<br />
analizatuta dauden corpusak, egitura sintaktikoak markatuta dituzten corpusak,<br />
semantikoki markatutako corpusak 6 , eta abar. Beraz, corpus batean,<br />
gero eta informazio gehiago izan, orduan eta erabilgarriagoa izango da LNPn.<br />
Esate baterako, Penn Treebank proiektuari esker, orain arte gehien erabili<br />
izan diren ingeleseko corpusak —jadanik aipatu dugun Brown corpusa<br />
(Francis eta Kucera, 1982), eta bi milioi hitz inguru duen Wall Street Journal<br />
corpusa— maila hauetan markatu dira: hitzaren kategoria (Marcus et al.,<br />
1993) eta azaleko egitura sintaktikoa (Marcus et al., 1994). Aurrekoez gain,<br />
250.000 hitzetako Brown corpusaren testu zati bat hartu dute eta Princetoneko<br />
kategoria-etiketatzaile automatikoarekin etiketatu dute lehenik, eta semantikoki<br />
ondoren (eskuz) <strong>WordNet</strong>eko adierekin (Miller et al., 1994).<br />
<strong>Euskara</strong>z ditugun corpusen artean azpimarratzekoak dira: batetik, UZEIk<br />
<strong>Euskal</strong>tzaindiarentzat sortutako XX. Mendeko <strong>Euskara</strong>ren Corpus Estatistikoa<br />
7 —XX. mendeko testuen laginez osatutako 4.650.000 hitzeko corpus<br />
estatistikoki lematizatua—, eta bestetik, Ereduzko Prosa Gaur 8 . IXA taldean,<br />
bestalde, ikerketarako erabiltzen dira <strong>Euskal</strong>dunon Egunkaria eta Berria<br />
egunkarien hemerotekekin sortutako corpusak, eta egun, informazio linguistiko<br />
aberatsa duen euskarako corpusa garatzen ari gara (Aduriz et al.,<br />
2006).<br />
Hala ere, corpusak ez dira beti elebakarrak, eta corpus elebidunak sarri<br />
erabiltzen dira LNPn. Corpus elebidun batek bi hizkuntza —gutxienez—<br />
parekatzeko aukera ematen du. Corpus elebidun hauek lerrokatuta baldin<br />
badaude, gainera, hizkuntza bateko esaldia beste hizkuntzako esaldi baliokidearekin<br />
parekatzeko aukera ematen digute. Honek, noski, itzulpen automatikorako<br />
eta antzeko aplikazioetarako baliagarri egiten ditu modu ho<strong>net</strong>ako<br />
corpusak.<br />
Corpus elebidunei dagokienez, ikertzaileen artean gehien erabili izan dena<br />
Hansard corpusa izan da. Corpus ho<strong>net</strong>an Canadian Parlamentary Proceedingak<br />
daude, eta ingelesa eta frantsesa dira bertan aurkitzen ditugun hizkuntzak.<br />
Corpusak 3,5 milioi esaldiri dagozkien 97 milioi hitz ditu. Corpus<br />
lerrokatua da, hau da, hizkuntza bateko esaldi bakoitzaren beste hizkuntzako<br />
esaldi baliokidea zein den markatuta dago (Brown et al., 1991).<br />
6 Semantikoki markatutako/etiketatuko corpusean, hitzak dagokien adierarekin desanbiguatuta<br />
daude. Hala, corpus bat (semantikoki) etiketatua dagoela diogunean, (semantikoki)<br />
desanbiguatutako corpus bat dela adierazi nahi dugu.<br />
7 http://www.euskaracorpusa.<strong>net</strong> (2007-07-02an atzitua).<br />
8 http://www.ehu.es/euskara-orria/euskara/ereduzkoa (2007-07-02an atzitua).
22 Lexikoiak<br />
Corpusa egitura gabeko testu gisa definitu ondoren, ikus dezagun egituratutako<br />
baliabide lexikalen artean zer testu mota aurki daitezkeen: makinak<br />
irakurtzeko moduko hiztegi (MRD) elebakarrak eta elebidunak, thesaurusak<br />
eta entziklopediak. Guztiak baliabide egituratuak diren arren, corpus<br />
egituratuekin antzik ez dute, hauetan dagoen informazioa eta egitura oso ezberdinak<br />
direlako. Hiztegi, entziklopedia eta thesaurusetan hitzen kategoria,<br />
azpikategorizazioa, definizioa, erabilera-adibideak, eta abar aurki daitezke.<br />
Gainera, hitzen esanahiak antolatuak daude adieren bidez. Hiztegi elebidunen<br />
informazioa ere ustiatzen da, hizkuntza batetik besterako ordainak<br />
lortzeko adibidez.<br />
Nahiz eta autore batzuk corpusak aztertzearen aldekoak izan —besteak<br />
beste, Grishman eta Sterling (1992)—, MRDak hartu izan dira nagusiki iturri<br />
lexikal aberatsentzat. Halaxe diote, behintzat, Donal Walker-ek eta Antonio<br />
Zampolli-k Computational Lexicography for Natutal Language Processing<br />
liburuaren sarreran:<br />
“The various kinds of existing dictionaries, and in particular the dictionaries<br />
available in machine-readable form, are obviously the richest and most valuable<br />
sources, based as they are on a long lexicographical tradition which<br />
encompass a treassure store of data, information and knowledge.”<br />
(Boguraev eta Briscoe, 1989, xiv or.)<br />
Hiztegietatik informazioa erauzteko metodoa ez da berria LNPn, eta honi<br />
buruzko laburpen interesgarriak ditugu Castellón (1992), Artola (1993),<br />
Agirre (1999), Rigau (1998) eta Arriola (2000) la<strong>net</strong>an. Halako lanak 80ko<br />
hamarkadan hasi ziren. Amsler-en hainbat la<strong>net</strong>an (Amsler eta White, 1979;<br />
Amsler, 1980) dagoeneko aipatzen da halakorik. Ondoren, The Merriam-<br />
Webster New Pocket Dictionary —Chodorow et al. (1985); Binot eta Jensen<br />
(1987), eta abar— eta Longman Dictionary of Contemporary English<br />
(LDOCE) —Michiels eta Nel (1994); Boguraev eta Briscoe (1993), besteak<br />
beste— hiztegien gainean egindako lanak argitaratu ziren. Hala, LNPko<br />
ikertalde askok jardun dute MRDez baliatzen, joan den hamarkadan.<br />
Hiztegietatik ez ezik, badira egituratutako beste baliabide lexikaletatik<br />
informazioa erauzten duten lanak ere: Yarowsky-k (1992) eta Resnik-ek<br />
(1995), beste batzuen artean, Roget’s International Thesaurusa erabili dute.<br />
Grefenstette-k (1993) Macquarie’s thesaurusa erabili du. Sánchez-ek (1991)<br />
Diccionario Ideológico de la lengua Española thesaurus espainiarra erabili du.<br />
Eta Utsuro et al.-ek (1993) Bunrui Goi Hyou thesaurus japoniarra erabiltzen<br />
dute.
II.2 Lexikoiei buruz 23<br />
Entziklopediei dagokienez, berriz, Yarowskyk (1992) lexikoien sorkuntzarako<br />
Grolier’s Encyclopaedia erabili du; eta Gómez et al.-ek (1994) The<br />
World Book Encyclopedia erabili dute.<br />
Baina badira bi motatako metodoak erabiltzen dituzten lanak, eskuzko<br />
erauzteko metodoa eta automatikoa tartekatzea lexikoietako hutsuneak eragozteko<br />
asmoz. Esate baterako, biltegi lexikalak eraikitzerakoan iturri bakartzat<br />
hiztegiak ez direla erabili behar diote Ide eta Veronis autoreek (1993).<br />
Autore hauek ondorioztatzen dutenez, biltegi lexikalak eraikitzeko hiztegiak<br />
oso garrantzitsuak dira, baina, zenbaiten ustearen aurka, ezingo dira erabat<br />
automatikoki sortu, eta pertsonaren lana ezinbestekoa izango da, hainbat<br />
arazo ekiditeko.<br />
Eskuratze-metodoak konbinatzeaz gain, bi iturriak elkarrekin erabili izan<br />
dira. Arrazoi nagusia da hiztegiek ez dutela —corpusek bai ordea— hitzen<br />
maiztasun erlatiboa jasotzen eta ezta hainbat testuingurutan hitzek duten<br />
erabilera ere. Horregatik, askotan bi iturriek emango duten informazioa uztartzea<br />
komeni da. Baliabideak konbinatzen dituzten lanak modu ho<strong>net</strong>an<br />
sailkatzen dira:<br />
• Iturri lexikal egituratuak konbinatzen dituztenak (Knight eta Luk, 1994):<br />
MRDak, ontologiak, thesaurusak, eta abar.<br />
• Iturri egituratuak eta ez-egituratuak baliatzen dituztenak (Klavans eta<br />
Tzoukermann, 1996).<br />
Beraz, lexikoiak sortzeko garaian hurbilpen eta iturri ugari daude, eta<br />
ondorioz, erabilitako hurbilpen eta iturri hauen arabera hainbat lexikoi mota<br />
lor daitezke. Hurrengo atalean, lexikoi mota nagusienak gainbegiratuko<br />
ditugu.<br />
II.2.2 Ezagutza-base lexikalak, hiztegi ezagutza-baseak eta ontologiak<br />
II.1 atalean esan bezala, hizkuntzalaritza konputazionalaren gaur egungo joeraren<br />
arabera hizkuntza-ezagutza gramatikaren arlotik lexikoarenera lerratu<br />
da, eta ikusmolde-aldaketa horrek gramatikak erraztea ekarri du. Baina<br />
informazioa lexikoan pilatzeak sarrera lexikalak informazio erredundanteaz<br />
hornitzea ekar lezake. Informazioaren kopuruak eta konplexutasunak informazioa<br />
bera kontrolatzeko arazoak sor ditzake. Beraz, beharrezkoa izango
24 Lexikoiak<br />
da, sarrera lexikalek zein motatako informazioa behar duten erabakitzeaz<br />
gain, informazio hori guztia nola egituratu erabakitzea, erredundantzia ekiditeko<br />
eta portaera bereko hitz moten arteko pareko ezaugarriak antzemateko.<br />
Arazo horiei erantzuteko ezagutza-base lexikalak (EBLak) 9 garatzen dira.<br />
Hala, EBLak ezagutzari buruzko informazioa gordetzen duten gordailu<br />
egituratuak dira. Amsler eta Walker egileek aipatzen dute EBLaren<br />
kontzeptua estreinako aldiz 1981-1982 tartean. Izan ere, lengoaia naturalen<br />
prozesamendu sintaktiko eta semantikoa egin ahal izateko, lexikoiak<br />
hitz-zerrenda izatetik ezagutza-base lexikal izatera pasatu behar dira, hitzei<br />
eta adierei buruzko informazioa duten ezagutza-base konplexuetara, alegia.<br />
Hala, ezagutza-base hauetan, entitateak eta beraien arteko erlazioak agerikoak<br />
dira, semantika lexikala errepresentatuz.<br />
EBLen ezaugarri garrantzitsuena herentzia izaten da, adierak klaseazpiklase<br />
hierarkietan antolatzen dira-eta (Copestake, 1990). Esate baterako,<br />
<strong>WordNet</strong> —IV.1 atalean aztertuko duguna— hierarkia semantikoaren bidez<br />
antolatua dago. Hortaz, hitz moten hierarkia eta herentziaren nozioa EBLen<br />
ezaugarri garrantzitsue<strong>net</strong>akoa da, eta hauei esker, mota bereko elementuek<br />
ezaugarri berak konpartituko dituzte. Horrela, herentzia-mekanismoak eta<br />
erregela lexikalak baliatuz, informazio lexikalaren erredundantzia ekiditea eta<br />
kontsistentzia bermatzea lortzen da. Esate baterako, ale lexikalak errepresentatzeko<br />
Qualia Structure teoria garatzen du Pustejovskyk (Pustejovsky,<br />
1991). Teoria horren bidez, hitzek dakarten polisemia sistematikoki adierazten<br />
da lexikoian, behar ez den anbiguotasun lexikala ekidinez. Horrez<br />
gain, autore horrek dio egitura lexikal bakanak EBL zabalago batean integra<br />
daitezkeela herentzia lexikalaren teoriari esker. Teoria horrek lexikoiaren antolamendu<br />
orokorrerako behar diren printzipioak ditu, eta gure hizkuntzaren<br />
lexikoia osotasun kontzeptual batean integratzen laguntzen digu.<br />
Bestalde, lexikoietako informazioa adierazteko ezaugarrien bidezko adierazpidea<br />
usu erabiltzen da. Ezaugarriak erabiltzen dituzten lexikoiekin, garai<br />
batean gramatika-erregeletan islatutako informazio kopuru handia maila lexikora<br />
lerratzea lortzen da. Hauen alde egiten dutenek argudiatzen dute informazio<br />
lexikalaren egitura konplexua herentziaren bidez errepresentatzea oso<br />
zaila izan daitekeela eta egokiagoak direla datu lexikalak errepresentatzeko<br />
ezaugarri-egituretan oinarritutakoak. Ematen dituzten arrazoiak hurrengoak<br />
dira (Aldezabal et al., 2005):<br />
9 Ingelesez Lexical Knowledge Base (LKB) terminoa erabiltzen da.
II.2 Lexikoiei buruz 25<br />
• Informazioa atzitzeko eta maneiatzeko bide anitz.<br />
• Hiztegi jakin baten antolaketa gordetzen ahal da, kontsultarako transparente<br />
eginez.<br />
• Oinarri teoriko sendoa.<br />
• Lexikoi konputazionalekiko bateragarritasuna.<br />
Formalizazio ho<strong>net</strong>an oinarritutako formalismo ugari garatu da, hala nola,<br />
LFG (Lexical Functional Grammar), HPSG (Head-Driven Phrase Structure<br />
Grammar), CUG (Categorial Unification Grammar) edoFUG(Functional<br />
Unification Grammar). Hurrengo kapituluan aztertuko ditugu sakonkiago<br />
hauetako batzuk.<br />
Aurreko atalean aipatu dugun bezala, EBLak eskuz eraiki daitezke, adibidez,<br />
<strong>WordNet</strong> (Miller, 1985; Fellbaum, 1998a) eta EDR (Yokoi, 1995), baina<br />
askotan hiztegietatik erauzten dira (Copestake, 1990; Bruce et al., 1992).<br />
EBLak eraikitzeko hiztegietatik erauzi izan den informazioz baliatuz gero,<br />
hiztegi ezagutza-baseez (HEB) hitz egiten da. Hortaz, HEBek hiztegietatik<br />
erauzitako informazioa jasotzen dute (Artola, 1993). EBLetan bezala, erauzitako<br />
informazioaren artean, adieren hierarkiak dira aipagarriak, baina HEB<br />
baten garrantzia hiztegiko informazioan datza. Hala ere, EBL batean dugun<br />
informazioa ez da hiztegi batean dugun bera, hiztegietako informazioaz<br />
gain, bestelako informazioa ere egoten baita; hala nola, sarrera lexikalen arteko<br />
lotura semantikoak, eta sarrera lexikalari buruzko hainbat informazio<br />
semantikoa (eremu semantikoa, adibidez) edo sintaktiko-semantikoa (rol tematikoak,<br />
adibidez).<br />
Ontologiak, munduari buruzko ezagutzaren biltegiak dira, hau da, mundu<br />
errealaren kontzeptualizazioak dira, mundu errealari buruzko inferentziak<br />
egiteko gaitasuna dutenak. Gizakiok ezagutza hori lexikoaren bidez adierazten<br />
dugunez, baliabide lexikalen artean ere sarri aipatzen dira. Ontologiak<br />
aplikazio askotarako eraiki izan dira —softwarearen berrerabilgarritasuna,<br />
medikuntzako sistema adituak, hizkuntzaren sorkuntza, ulermena, itzulpena,<br />
eta abar—, eta normalean eremu espezifikoetarako eraiki ohi dira.<br />
Ontologien izaera ez dago guztiz zehaztuta eta eztabaida handia dago<br />
honen definizioaren inguruan. Gruber (1993), Onyshkevych eta Nirenburg<br />
(1994) eta Guarino (1997) bat datoz ontologiak oso heterogeneoak eta norberearen<br />
beharren arabera eginak direla esaterakoan. Hala ere, ontologia<br />
guztiek dute kontzeptu zerrenda bat, eta kontzeptu horien arteko hierarkia
26 Lexikoiak<br />
klase/azpiklase erlazioak egituratzen du. Hori da ontologien ezaugarririk garrantzitsue<strong>net</strong>akoa.<br />
Ontologien izaeraren inguruko eztabaidak zerikusia dauka EBL eta ontologien<br />
arteko mugak oso garbi ez egotearekin. Autore batzuk EBL eta ontologien<br />
arteko ezberdintasuna azpimarratzen saiatu diren arren, gu Lersundiren<br />
(2005) lanean defendatzen den ikuspegiarekin bat gatoz. Lan ho<strong>net</strong>an,<br />
diferentzia nagusia orientazioan dagoela nabarmentzen da:<br />
“Ontologietan munduari buruzko informazioa dugu, kontzeptuen arteko erlazioek<br />
ez dute zertan motibazio linguistikorik eduki. Bestalde, EBLek hizkuntzaren<br />
ulermenerako eta sormenerako beharrei erantzun nahi diete, baina,<br />
azken finean, jakina da LNPren muturrera iristeko hizkuntzan agertzen diren<br />
arazo guztiak gainditu beharko direla, sen ona barne. Beraz, EBLetan munduari<br />
buruzko informazioak egon behar du. Adibide garbi bat hiperonimia<br />
erlazioa da. Izan ere, ontologietan eta EBLetan gordetzen den informazio semantikoa<br />
gainjarri egiten da; biak egitura isolatu bezala diseinatuko balira,<br />
ezagutza bera bi aldiz errepresentatu beharko litzateke, adibidez, hiperonimiari<br />
dagokion ezagutza.” (Lersundi, 2005, 26. or.)<br />
II.3 Laburbilduz<br />
Kapitulu ho<strong>net</strong>an lexikoien ibilbidea azaldu dugu, LNPn hartu duen garrantzia<br />
azpimarratuz. Horren adierazgarri dira, kapituluan zehar ikusi ahal izan<br />
dugun bezala, azken urte hauetan ho<strong>net</strong>an egin diren lanak.<br />
Bestalde, lexikoien garapenean dauden joerak aurkeztu ditugu (hurbilpen<br />
arauemailea eta deskriptiboa). LNPn bigarrenaren alde egin da, aldez aurretik<br />
sortuta dauden testu-baliabideetan (corpusak, MRDak, thesaurusak eta<br />
entziklopediak) dagoen informazioa ustiatzeko aukera ematen duelako.<br />
Azkenik, hiru lexikoi mota ikusi ditugu: ezagutza-base lexikalak (EBLak),<br />
hiztegi ezagutza-baseak (HEBak) eta ontologiak. Gaur egun EBLa da LNPn<br />
lexiko-semantikaren arloan nagusitzen dena. Honek sarrera lexikaletako informazioa<br />
egituratu egiten du, erredundantzia konponduz, datuen kontrola<br />
eta kontsistentzia gauzatuz eta informazio-atzipena erraztuz. Horretaz gain,<br />
informazioa lexikala EBLetan gordez gero, EBLak eskaintzen dituen aukerei<br />
esker informazioaren mantentzea eta eguneratzea, eta bertsio desberdinen<br />
sorkuntza, besteak beste, oso modu ziurrean egin daitezke. Hortaz, ezagutzaren<br />
errepresentaziorako eta biltegirako oso egokia da<br />
Arrazoi hauek guztiengatik, eta tesi-txosten honen izenburuak adierazten<br />
duen bezala, lan ho<strong>net</strong>an EBLak izango dira aztergai. <strong>Euskara</strong>ren azterketa
II.3 Laburbilduz 27<br />
semantikoa ahalbidetzeko, euskararen informazio lexiko-semantikoa jasotzen<br />
duen lexikoia ezagutza-base gisa diseinatu dugu. Hala ere, esan beharra<br />
dago, IXA taldean honekin batera, paraleloki, euskararako HEB garatzen ari<br />
garela (Lersundi, 2005).
28 Lexikoiak
III. KAPITULUA<br />
Ezagutza-base lexikalen azterketa kritikoa<br />
Behin gure lexikoiak ezagutza-base lexikal (EBL) bat izan behar duela erabaki<br />
ondoren (irakurri berri duzuen atalean), eman beharreko lehenengo urratsa,<br />
erabaki beharreko EBL mota zehaztea da. Horixe egingo dugu kapitulu<br />
ho<strong>net</strong>an: euskararako aukeratu dugun EBLa arrazoitu, eta egin nahiko genukeen<br />
EBLaren ezaugarriak zerrendatu.<br />
II.2. atalean azaldu dugun bezala, informazio linguistikoa eredu edo<br />
formalismo jaki<strong>net</strong>an oinarrituta errepresentatzen da EBLetako sarreretan.<br />
Honenbestez, euskarako EBLa egiten hasi baino lehen, eredu edo formalismo<br />
horiek aztertu ditugu, ondoren guk eredu bat proposatzeko. Ikusiko dugun<br />
bezala, EBLen eraikuntzarako eredua ugari daude, eta ikerlan honen<br />
ezinbesteko muga dela-eta, azterketaren esparrua murriztu egin behar izan<br />
dugu. Hortaz, lehenik eta behin, aukeraketa horren zergatia azalduko dugu,<br />
eta, ondoren, formalismo bakoitzetik ezaugarri nagusienak aipatuko ditugu1 .<br />
Formalismo hauek aztertu ondoren, IXA taldearen beharretara gehien<br />
egokitzen den EBL formalismoak <strong>WordNet</strong> eta honen ildotik garatu diren<br />
Euro<strong>WordNet</strong> eta The Multilingual Central Repository (MCR) direla arrazoituko<br />
dugu (III.3).<br />
1 Tesi-txosten ho<strong>net</strong>an ez dugu formalismo bakoitzaren azalpen sakonik egingo. Eredu<br />
horien azterketa sakona eta azterketarako erabilitako metodologia eta irizpideak ezagutzeko,<br />
jo bedi Pocielloren lanera (2004b).
30 Ezagutza-base lexikalen azterketa kritikoa<br />
III.1 Gure EBLa definitzen<br />
<strong>Euskara</strong>rako nahi dugun EBLaren ezaugarriak definitzeko hainbat erabaki<br />
hartu behar izan ditugu: zein formalismoren arabera jasoko duen informazioa,<br />
zein informazio mota txertatuko dugun sarrera bakoitzean, non erabili<br />
nahi dugun, eta abar. Ataza ho<strong>net</strong>an zenbait zailtasunekin topatu gara.<br />
Batetik, EBLak egiteko eredu edo formalismo asko dago. II.1 atalean<br />
deskribatu dugun bezala, 1980ko eta 1990eko hamarkadetan lexikoien inguruan<br />
garatutako lanen gorakada gertatu zen, aurreikusitako estrategiarik edo<br />
formalismo garbirik izan gabe. Hortaz, lexikoa aztertzeko hamaika era desberdin<br />
erabili ziren. Horren adierazgarri dira bai hizkuntzalaritza teorikoa<br />
eta baita hizkuntzalaritza konputazionala ere. Esate baterako, hizkuntzalaritza<br />
teorikoan eredu ugari proposatu izan dira (Dowty, 1979; Jackendoff,<br />
1990; Talmy, 1985, besteak beste), baina beraien artean ez dago batasunik,<br />
eta batzuetan gainera, bata bestearekin kontraesanean daude. Hizkuntzalaritza<br />
konputazionalean, ere proposamen ugari ditugu (Bresnan eta Kaplan,<br />
1982; Fillmore eta Baker, 2001; Miller, 1985; Kipper et al., 2000, beste batzuen<br />
artean). Horietako asko fenomeno linguistiko zehatz bati mugatuak<br />
daude.<br />
Formalismo-aniztasunari lotuta, aipatu beharra dago EBLetan maiz ez<br />
dagoela adostasunik ez hauek jaso behar duten informazioan, ez informazio<br />
hori errepresentatzeko moduan ere (Ingria, 1988). EBL baten diseinua definitzean,<br />
fenomeno linguistikoak zehaztu behar dira aldez aurretik, baina<br />
hauek ez daude argi. Esaterako, iritzi ezberdinak daude ale lexikalen izaera<br />
semantikoa definitzerakoan: ale lexikalak berezko semantika du ala testuinguru<br />
eraginaren ondorioz jasotzen du semantika hori? Hori horrela izanda,<br />
zein ezaugarri dira ale lexikalean berezkoak eta zeintzuk dira testuinguruarn<br />
eraginaren ondorioz sortutakoak?<br />
Honen adierazgarri, adibidez, aditzen diatesi-alternantziak dira 2 .Demagun<br />
hautsi aditzaren sarrera lexikala lantzen ari garela, eta Leihoa hautsi da<br />
eta Maiderrek leihoa hautsi du bezalako esaldiak ditugula. Aditz honen argumentuak<br />
era ezberdinean azaleratu dira, eta arrazoi horregatik, bi esaldi<br />
hauetako esanahia ezberdina da: lehenengoan ‘norbaitek hausten dut leihoa’<br />
eta bigarrenean ‘leihoa hautsi egiten da’. Honenbestez, hautsi aditza EBL<br />
2 Alternantzia kontzeptua definitzea ere ez da zailtasunik gabeko auzia. Levinek (1993),<br />
esaterako, horrelaxe azaltzen ditu: “Diathesis Alternations: alternations in the expressions<br />
of arguments, sometimes accompanied by changes of meaning.” (Levin, 1993, 2. or.)
III.1 Gure EBLa definitzen 31<br />
batean adierazteko garaian, erabaki beharrekoa litzateke aditz honek berezko<br />
bi adiera dituen; ala berezko adiera bakarra duen, eta beste bi adierak<br />
testuinguru sintaktikoaren eraginez sortu diren. Hau horrela izanda, erabaki<br />
beharreko hurrengo gauza litzateke zein ezaugarri diren ale lexikalean<br />
berezkoak, eta zeintzuk testuinguruaren eraginaren ondorioz sortutakoak.<br />
Ikus daitekeen bezala, semantika eta sintaxiaren arteko bereizketa ez da<br />
hain argia, eta gaur egun gauza onartua da bi atal hauen artean harremanik<br />
izan badela. Dena den, harreman hori nola gauzatzen den oso arazo eztabaidatua<br />
da. Bi maila hauen arteko lotura hori bideratzeko sintaxi-semantika<br />
elkarguneaz hitz egiten da.<br />
“In short, we come to see semantics not as derived from syntax, but as an<br />
independent generative system correlated with syntax through an interface.”<br />
(Jackendoff, 2000, 124. or.)<br />
Semantika eta sintaxiaren arteko harreman hau dela-eta, EBL batzuk ale<br />
lexikalen izaera semantikoa definitzeko, ezaugarri semantikoaz gain, ezaugarri<br />
sintaktiko-semantikoez ere baliatzen dira; hala nola, rol tematikoez, azpikategorizazioaz,<br />
eta hautapen-murriztapenez, besteak beste. Ezaugarri hauek,<br />
gainera, lexikoiko sarreretako informazioa orokortzen lagunatzen dute:<br />
“[...] consideramosquelainterfazsintáctico-semántica abarca conjuntos<br />
de piezas léxicas y que es factible organizar el léxico verbal en función de este<br />
criterio. En concreto, el objetivo final es conseguir determinar toda aquella<br />
información que pueda ser generizabla a un grupo de piezas léxicas verbales<br />
[...] con la intención de minimizar al máximo el contenido de una entrada<br />
léxica.” (Vázquez et al., 2000, 41. or.)<br />
Zailtasun hauez guztiez jabetuta, eta nolabait hauek eragoztearren, euskararako<br />
EBLaren diseinua irizpide batzuetara mugatu dugu eta ereduak<br />
ondorengo baldintzak bete beharko dituela erabaki dugu:<br />
• Ahal dela, teoria edo ikerlan bakar bati lotua ez dagoen eredua<br />
izatea, hau da, beste eredu edo formalismo batzuetatik edan<br />
dezakeen EBLa izatea:<br />
Aipatu dugun legez, EBLaren eraikuntzarako ez dago eredu bakarra, ez<br />
hizkuntzalaritza teorikoan ezta konputazionalean ere; eta izatez, eredu bakarra<br />
jarraitzen duen EBLra mugatzea arriskutsua izan daiteke askotan, EBLan<br />
jasotako informazioa ez delako berrerabilgarria. Ondorioz, aplikazio berrien
32 Ezagutza-base lexikalen azterketa kritikoa<br />
sorkuntza baldintza daiteke. Beraz, ahalik eta irekiena eta deskriptiboena<br />
den eredua interesatzen zaigu. EBLa deskriptiboa bada, bertan jasoko den<br />
informazioa ez da arau-emailea izango eta EBL irekia izaten ahalbidetzen du.<br />
Irekia diogunean hauxe adierazi nahi dugu: aukeratutako eredu horretatik<br />
gertu beste lan konputazionalak egotea, gure EBLa horien informazioarekin<br />
ere aberastu ahal izateko. Hala, gure EBLa informazio berrerabilgarria jasotzen<br />
duena izatean nahi dugu, eta bertan egindako deskribapen linguistikoak<br />
etorkizuneko aplikazioak ez baldintzatzea.<br />
• Hizkuntza bere osotasunean adierazten duen EBLa izan behar<br />
du; ale lexikal bakoitzari dagokion adiera, klase semantikoa<br />
eta informazio sintaktiko-semantikoa zehaztuta dituen EBLa:<br />
Hizkuntzalaritza konputazionalaren ikuspegitik, geroz eta lexiko aberatsagoa<br />
izan, orduan eta emaitza hobeak lortzen dira ataza konputazionaletan.<br />
Guretzat, Pustejovsky-ren (1993) ildoa jarraituz, lexikoa aberatsa da baldin<br />
eta:<br />
(a) Sarrera lexikalaren edukia oso landuta badago; hau da, sarrera horri<br />
dagokion informazio guztia egokiro adierazita badago.<br />
(b) Lexikoaren antolaketa oso landuta badago, hots, lexikoa osatzen duten<br />
sarrerak beraien artean harreman egokiekin lotuta badaude.<br />
Lehenengoak, sarrera lexikal zehatz bati dagokion informazio guztia eskuratzea<br />
ahalbidetzen du. Bigarrenak, berriz, hizkuntza bera ulertzeko behar<br />
diren inferentziak eskaintzen dizkigu, ale lexikalen arteko harremanari esker.<br />
Hortaz, gure EBLak ahalik eta informazio gehiena jasotzea nahi dugu.<br />
• Konputazionalki inplementa daitekeen EBLa izatea, hots,<br />
LNPn erabilgarria. Ho<strong>net</strong>az gain, LNPko aplikazio bat baino<br />
gehiagorako baliagarria izatea, hau da, helburu askotarako<br />
baliagarria izatea.<br />
• Eleanitza den EBLa izatea: <strong>Euskara</strong>ko sarrera lexikalez gain, beste<br />
hizkuntzetako ordainak eskuragarri dituena.Erabilera konputazionalari<br />
begira, oso egokia da ezagutza-baseak eleanitzak izatea, batik bat<br />
informazio-erauzketa elebakar eta elebidunerako, eta baita itzulpen automatikorako<br />
ere.
III.2 Azterketarako aukeratutako formalismoak 33<br />
Laburbilduz, beraz, IXA taldeak nahi duen EBLak:<br />
• euskal hizkuntzako ale lexikalen ahalik eta informazio gehien jaso behar<br />
du<br />
• beste ereduetako informazioarekin bateragarria izan behar du<br />
• IXA taldeko aplikazio ezberdi<strong>net</strong>an erabilgarria izan behar du: itzulpen<br />
automatikoa, sintaxi zuzentzailea, galdera-erantzun sistema, hitzen<br />
adieren desanbiguazioa, edo hizkuntzen arteko informazioaren bilatzailea<br />
• EBL eleanitza izan behar du<br />
III.2 Azterketarako aukeratutako formalismoak<br />
EBL baten diseinurako proposamen ugari daude, eta hizkuntzalaritza konputazionalaren<br />
kasuan, proposamen hauek arloetan (sintaxian, semantikan,<br />
morfologian...) sakabanatzendira. Egoerahonenaurrean,etaikerlanhonen<br />
ezinbesteko muga dela-eta, azterketaren esparrua murriztu behar izan dugu.<br />
Bereziki aztertu nahi ditugu semantika eta sintaxia aztertzen dituzten lanak,<br />
bi hizkuntza maila hauen arteko elkarreragina onartuta. Hala, sintaxia,<br />
semantika eta sintaxi-semantika elkargunea hiztegi baten bitartez azaltzen<br />
saiatu diren lan batzuk aztertuko ditugu. LNPren arloan jorratuak izan direnak<br />
interesatzen zaizkigu bereziki, baina askotan hauek lan teorikoetan<br />
oinarrituak daudenez, garrantzitsua iruditu zaigu lan teoriko hauen ezagutza<br />
ere izatea. Hortaz, hizkuntzalaritza teorikoko eta konputazionaleko formalismoak<br />
sartzen saiatu gara. Hala ere, formalismo batzuk ezin dira argi eta garbi<br />
ikuspegi baten pean kokatu. Hala, lau azpimultzo egin ditugu: Hizkuntzalaritza<br />
teorikoan oinarritutako lanak (III.2.1 atala), Hizkuntzalaritza teoriko<br />
eta konputazionalaren erdibidean dauden lanak (III.2.2 atala), Hizkuntzalaritza<br />
konputazionalean oinarritutako lanak (III.2.3 atala) eta Corpusetan<br />
oinarritutako lanak (III.2.5 atala) 3 . Azter ditzagun azpimultzo bakoitzeko<br />
ikerlanak.<br />
3 Hemen azpimultzo hauei buruzko puntu nabarmenenak azalduko ditugu, azalpen osorako,<br />
jo bedi Pocielloren lanera (2004b).
34 Ezagutza-base lexikalen azterketa kritikoa<br />
III.2.1 Hizkuntzalaritza teorikoan oinarritutako lanak<br />
II.1 atalean aipatu dugun bezala, Gramatika Sortzailean eta Gobernu eta<br />
Uztarduraren Teorian, hizkuntzaren gaitasun sortzailea sintaxiari esker gertatzen<br />
da hein handi batean. Semantika eta fonologia, izan ere, sintaxiaren<br />
menpe dauden interpretazio mailak baino ez dira. Ikuspegi hau sintaktozentrismo<br />
bezala ezagutu izan da.<br />
Beste ikuspegi berri batzuk ere badira lexikoan ere erregulartasunik badela<br />
argudiatzen dutenak. Erregulartasun hauek, hain zuzen ere, semantika<br />
eta sintaxiaren artean elkarreragina dagoen ideiatik etorriko dira. Hortaz,<br />
sintaktozentrismo ideiaren aurkako ikuspegiak dira. Horixe da Jackendoff<br />
(1990), Levin (1993) eta Pustejovsky (1995) autoreen kasua, hementxe aztertuko<br />
ditugunak.<br />
Autore hauen ustez, ale lexikalek ezaugarri mota desberdin ugari dute<br />
beren baitan, eta ezaugarri horien guztien arteko harremanek ale lexikalaren<br />
gauzapen sintaktiko egokia baldintzatzen dute. Ikuspegi honekin, lexikoaren<br />
azterketa bilakatzen da aztergai nagusi, eta prozedura sintaktikoak horien<br />
arabera definitzen dira.<br />
Autore hauen lanek oihartzun handia izan dute (gaur egun ere hala dute)<br />
hizkuntzalaritza konputazionalean, eta hauetatik abiatuta LNPrako lan ugari<br />
egin dira. Esate baterako, Dorr (1997, 1993) eta Fernández et al. (2002)<br />
Jackendoffen (1990) ereduan oinarritu dira; Buitelaar (1998) Pustejovskyrenean<br />
(1995), eta Saint-Dizier (1996) eta Poznanski eta Sanfilippo (1993)<br />
Levinenean (1993). Lan hauei buruz arituko gara autore bakoitzari eskaini<br />
diogun atalean.<br />
Ikus ditzagun, bada, oso labur, autore hauen lexikoaren adierazpen proposamenak.<br />
III.2.1.1 Jackendoff (1990)<br />
Autore honek adierazpen-eredu abstraktu bat proposatzen du: Egitura<br />
Lexikal-Kontzeptuala (ELK) 4 .<br />
Egitura hau, batetik, hainbat egitura primitibo semantikoz osatzen da<br />
(TO, FROM, TOWARD, AWAY-FROM, CAUSE, GO, VIA...) etabestetik,<br />
hainbat kategoria kontzeptualez (Thing, Event, State, Action, Place, Path,<br />
Property, Amount...). Egitura primitibo semantikoak kategoria kontzeptual<br />
horiekin lotzen dira. Adibidez, TO, FROM, TOWARD, AWAY-FROM<br />
4 Lexical Conceptual Structure (LCS).
III.2 Azterketarako aukeratutako formalismoak 35<br />
eta VIA primitiboek Path kategoria kontzeptuala adieraz dezakete; eta GO,<br />
STAY, etaCAUSE primitiboek, berriz, Event kategoria kontzeptuala.<br />
Kategoria sintaktikoak kategoria kontzeptualei lotzen zaizkie. Alegia,<br />
izen-sintagma batek Thing (the dog), Event (the war) edota Property<br />
(redness) kategoria kontzeptualei erreferentzia egin diezaieke, eta ildo beretik,<br />
preposizio-sintagma batek, Place (in the house), Path (to the kitchen)<br />
edota Property (in luck) kategoria kontzeptualei 5 . Primitibo semantikoak,<br />
beraz, aditzaren argumentuei lotzen zaizkie.<br />
⎡<br />
run<br />
⎢<br />
V<br />
⎢ <br />
⎣<br />
⎤<br />
⎥<br />
⎦<br />
Event GO ([Thing ]i [P ath ]j)<br />
III.1 Irudia: run aditzaren ELKa.<br />
III.1 irudian ikus daiteke run aditza Jackendoffen sarrera lexikal gisa 6 .<br />
Sarrera lexikal honek GO primitiboa du, eta Jackendoffek primitibo honekin<br />
definitzen ditu mugimenduzko egitura kontzeptualak 7 . Run mugimenduzko<br />
aditza izaki, bi argumentu eskatzen ditu: batetik, mugitzen den gaia (Thing)<br />
eta bestetik, mugitzen den horrek egin behar duen ibilbidea (Path). Lehenengoa<br />
i azpindize batez markatuko da (subjektua) 8 eta bigarrena, berriz, j<br />
azpindize batez, PSaren (PP) osagarria dela adieraziz. Azken hau, aukerazkoa<br />
izan arren, lexikoan agertzen da.<br />
Esan dezakegu, beraz, lexikoan egitura kontzeptualaren eta sintaktikoaren<br />
arteko korrespondentzia gauzatzen dela, eta korrespondentzia hori ale<br />
lexikalen sarreretan ageri da.<br />
5 Adibideak Jackendoffen la<strong>net</strong>ik (1990) hartu dira.<br />
6 Txostenean aztertuko ditugun adibideak aztergai ditugun la<strong>net</strong>atik hartutakoak dira.<br />
Hauetan autoreek erabiltzen duten terminologia agertzen denez, testuan hauek erabiliko<br />
ditugu. Bestalde, kontuan izanda autore hauen lanak ingelesez daudela, hizkuntzalaritzako<br />
termino arruntak (kategorien izenak-eta bezalakoak) adibidean ere ingelesez agertuko dira.<br />
Hala, nahiz eta azalpenean euskarako baliokideak erabili, adibideen azalpena ulerkorragoa<br />
egin ahal izateko euskarakoaren jarraian, hauen ingeleseko ordaina ere aipatuko dugu.<br />
7 GO primitiboa beti egongo da Event kategoria kontzeptualean: [EVENT] = [Event<br />
GO([Thing],[Path])].<br />
8 Jackendoffek i eta j azpindizeekin subjektu eta objektuen guneak adierazten ditu,<br />
hurrenez hurren (Jackendoff, 1990, 45. or.).
36 Ezagutza-base lexikalen azterketa kritikoa<br />
Jackendoff (1990) sintaxi-semantika elkargunearen adierazpenaz arduratu<br />
zenez, ELKak sortu zituenean arreta berezia jarri zion azpikategorizazioari,<br />
batez ere, aditzei eta preposizioei; beste kategoriak (izenak, adjektiboak eta<br />
adberbioak) alde batera utzi zituen. Adiera bigarren mailan dago lan ho<strong>net</strong>an,<br />
hots, hitzen anbiguotasun semantikoa ez zuen esplizituki kontuan hartu.<br />
Adierarekin bezala, klase semantikoak ere ez ditu esplizituki lantzen,<br />
nahiz eta batzuen berri ematen duen; adibidez, ukipen-aditzak (contact verbs)<br />
aipatzen ditu, baina ez du klase hau osatzen duten aditzen zerrenda ematen.<br />
Horiek horrela, Jackendoffen lexikoaren ezaugarriak (zenbat sarrera dituen,ikusgarridagoenalaez,<br />
...) ezdituguezagutzen; bai,ordea,ho<strong>net</strong>atik<br />
abiatuta egin diren lexikoena. Esaterako, Dorrek (1993, 1997) Jackendoffen<br />
lanean oinarritutako aditzen eta preposizioen EBL bat sortu zuen, eta berarekin<br />
tutore-sistemak eta itzulpengintza automatikoa landu zituen. Aditzak<br />
sailkatzeko Levinen aditz-klaseak (Levin, 1993) erabili zituen eta klase<br />
hauek <strong>WordNet</strong>eko (Miller, 1985; Fellbaum, 1998a) aditzen adieretara lotuak<br />
daude. Bere txoste<strong>net</strong>an adierazten denez, erabilitako lexikoak 4.432 aditz<br />
zituen eta 492 aditz-klase. Preposizioei dagokienez, EBL horretan ingeleseko<br />
eta espainierako preposizioen interpretazioak (ELKak) ematen dituzte 9 .<br />
IXA taldean ere ikerlan batzuk egin dira Dorren la<strong>net</strong>ik abiatuta. Agirre<br />
eta Lersundi-ren lanean (2003) interpretazio berdina duten postposizio<br />
inbentario eleanitza sortu dute. Zerrenda ho<strong>net</strong>ako postposizioak interpretazioaren<br />
arabera multzokatuak daude, hau da, hartzen dituzten rol tematikoen<br />
arabera. Gaztelania eta ingeleseko preposizioen inbentarioa eta interpretazioak<br />
Dorren la<strong>net</strong>ik hartu dira, eta euskarakoak aldiz, Aldezabal-en ikerla<strong>net</strong>ik<br />
(2004). Dorren ELKetako interpretazioak Aldezabalenekin parekatu<br />
ondoren, ingeleseko, gaztelaniako eta euskarako postposizioen inbentario<br />
bakarra lortu dute. Hau oso erabilgarria izan daiteke bai itzulpen automatikorako,<br />
bai hizkuntza ezberdi<strong>net</strong>ako postposizioen informazio sintaktikosemantikoa<br />
aztertzeko.<br />
Ildo beretik, Volem (Fernández et al., 2002) proiektuak (ikus III.2.3.3<br />
atala) garatutako EBLa dago. EBL hau gaztelaniako, frantseseko eta katalaneko<br />
aditz eta preposizioetara mugatzen da, aditz eta preposizio bakoitzaren<br />
izaera sintaktikoaren deskribapena (azpikategorizazioa, hautapen-murriztapenak<br />
eta alternantziak) eta informazio semantikoa (ELKa, rol tematikoak<br />
9 Informazio hau guztia, hurrengo web orrian dago ikusgarri:<br />
http://www.umiacs.umd.edu/−bonnie/LCS/Database/Documentation.html (2007-07-<br />
02an atzitua).
III.2 Azterketarako aukeratutako formalismoak 37<br />
eta aditzen <strong>WordNet</strong>eko klase semantiko nagusiena) ematen duelarik.<br />
Jackendoffen la<strong>net</strong>ik abiatutako bi EBL hauek Jackendoffen lanari alderdi<br />
semantikoa eta beste ikuspuntu teorikoak gehitu arren, aditz eta preposizioetara<br />
murrizten dira, eta, ondorioz, hauek ere ez dute hizkuntza bere<br />
osotasunean adierazten. III.1 atalean esan dugun bezala, euskararako nahi<br />
dugun EBLak, ordea, baldintza hau betetzea nahiko genuke.<br />
III.2.1.2 Levin (1993)<br />
Levinek bere lanean (Levin, 1993) ingeleseko aditzen sintaxia eta semantika<br />
sakonki aztertzen ditu. Liburuan bertan landutako aditzen zerrenda ematen<br />
du, bakoitzari buruzko informazio sintaktiko-semantikoarekin: klase semantikoa<br />
eta diatesi-alternantziak.<br />
Beste teorietatik pixka bat aldendu egingo da, Levinek ez baitu zehazten<br />
sarrera lexikalaren itxurak nolakoa izan behar duen. Horren ordez, Levinek<br />
sarrera lexikal hori osatzeko bideak eskaintzen ditu.<br />
Baina lan hau ez da harremanik gabeko aditzen klase semantiko eta<br />
diatesi-alternantzien zerrenda bat bakarrik; lan honi esker, Levinek aitzindari<br />
den hipotesi bat sortu eta erabili baitu: klase semantiko berean dauden<br />
aditzek, portaera sintaktiko bera dute (diatesi-alternantzia berak), osagai<br />
semantiko berdinak dituztelako. Esaterako, (1) adibideko sing eta chant aditzek,<br />
performance verbs klase semantikoan daudenez, izaera sintaktiko bera<br />
izango dute.<br />
(1) You sing/chant. [IS+A]<br />
You sing/chant a tune. [IS+A+IS]<br />
You sing/chant me a tune. [IS+A+Izord+IS]<br />
You sing/chant a tune to me. [IS+A+IS+PS]<br />
You sing/chant a tune for me. [IS+A+IS+PS]<br />
Teoria honen arabera, beraz, forma bera baina adiera desberdinak (klase<br />
semantiko desberdinak) dituen aditz batek, izaera sintaktiko desberdinak<br />
izango ditu. Adibidez, ingeleseko sing aditza, performance verbs klase semantikoari<br />
dagokionean, (1)eko edozein egitura sintaktikorekin ager daiteke.<br />
Aldiz, sing aditza, verbs of sound emission klase semantikoan dagoenean, beste<br />
adiera bat duenez, izan ditzakeen egitura sintaktikoak hurrengoak izango<br />
dira:
38 Ezagutza-base lexikalen azterketa kritikoa<br />
(2) Abirdsang in the trees. [IS+A+PS]<br />
The trees sang with birds. [IS+A+PS]<br />
In the trees there sang the birds. [PS+Adlg+A+IS]<br />
...<br />
Horrela bada, Levinen teoriaren ardatza alternantziak eta klase semantikoak<br />
dira. Aditz batek bere portaera sintaktikoen arabera definituko ditu<br />
klase semantikoak, eta ondorioz, klase semantiko horri dagozkion osagai semantikoak.<br />
Inplementazioari begira, Levinen lana erabilia izan da lexiko konputazionalak<br />
eraikitzeko, hala nola, Acquilex (Poznanski eta Sanfilippo, 1993).<br />
Poznanskik eta Sanfilippok ingeleseko diatesi-alternantziak definitu zituzten,<br />
ondoren Acquilex ezagutza-basean (Boguraev eta Briscoe, 1989) txertatzeko.<br />
Azterketa horren abiapuntua Levinen lana izan zen.<br />
Bestalde, Levinen lanean oinarrituta itzulpengintza automatikoa ere egin<br />
izan da, esate baterako, UNITRAN (Dorr, 1993) 10 . Dorrek Levinen<br />
diatesi-alternantzietatik eta klase semantikoetatik abiatuz, patroi sintaktikoak<br />
sortzen ditu, eta horietako patroi bakoitzari Jackendoffen (1990) ELK<br />
bat egokitzen dio gutxienez.<br />
Hauetaz gain, aditzen sailkapen automatikoa lortzeko ere erabili da Levinen<br />
lana. Saint-Dizierrek (1996), adibidez, Levinen sailkapen semantikoa<br />
frantsesera itzuli eta klase bakoitzerako diatesi-alternantziak definitzen ditu.<br />
IXA taldean ere Levinen lana erabili da euskal aditzen azpikategorizazioa<br />
jorratzeko (Aldezabal, 2004), nahiz eta lan ho<strong>net</strong>an Levinen teoriak<br />
hutsuneak dituela agerian geratu. Gogora dezagun, Levinen teoriak dioela<br />
diatesi-alternantzia berdinak dituzten aditzekin klase semantikoak egin daitezkeela.<br />
Baina Aldezabalek teoria honen aurka doazen adibideak topatu<br />
ditu; hau da, Levinen aditzen klase semantikoak ez dira beti osatzen konpartitzen<br />
dituzten alternantzien arabera. Adibidez, Levinek put verbs eta remove<br />
verbs klase semantikoak bereizten ditu. Beraz, Levinen teoriaren arabera,<br />
klase semantiko bateko eta besteko aditzek diatesi-alternantzia desberdinak<br />
izan behar dituzte. Levinek, aldiz, bi klase semantiko hauek deskribatzen ditu<br />
diatesi-alternantzia berdinekin. Aldezabalek Levinen diatesi-alternantzian<br />
oinarrituriko teoriaren trinkotasunik eza sakonkiago azaltzen du.<br />
Bestalde, Levinen lanari beste ezaugarri batzuk gehitu bazaizkio ere, aditzen<br />
deskribapena soilik egiten duen eredua da, eta, ondorioz, ez du hizkuntza<br />
10 Argibide gehiagorako ikus Pocielloren lana (2004b).
III.2 Azterketarako aukeratutako formalismoak 39<br />
bere osotasunean adierazten. Hala ere, ingeleseko aditzen deskribapen itzela<br />
da.<br />
III.2.1.3 Pustejovsky (1995)<br />
Pustejovskyk (1995) Lexiko Sortzailea (Generative Lexicon) proposatzen du,<br />
eta bere teoria hurrengo hiru hatsarretan oinarrituta dago:<br />
• Egitura sintaktikoa kontuan hartu gabe, ezinezkoa da semantika lexikalean<br />
aurrera egitea. Adiera ezin da bere egituratik banatu.<br />
• Ale lexikalaren adierazpenak rol tematikoen deskribapena baino zerbait<br />
gehiago izan behar du.<br />
• Semantika lexikalak kategoria guztien adierazpen semantikoak landu<br />
behar ditu, eta ez aditzena bakarrik.<br />
Pustejovskyk deskonposaketan oinarritutako teoria darabil, non sarrera<br />
lexikalaren deskonposaketa hiru adierazpen-mailatan islatzen den 11 :<br />
• Qualia-egituran (qualia structure) ale lexikalaren semantika zehazten<br />
da.<br />
• Gertaera-egituran (event structure) ale lexikalaren aspektua zehazten<br />
da.<br />
• Argumentu-egituran (argument structure) ale lexikalaren azpikategorizazioa<br />
zehazten da.<br />
Lehenago adierazi dugun bezala, Pustejovskyrentzat, egitura sintaktikoa<br />
kontuan hartu gabe ezinezkoa da ale lexikalaren adierazpena egitea. Hortaz,<br />
nahiz eta autore honen ustez ale lexikalaren adieraren muina qualia-egituran<br />
egon, beste egituretako informazioak mugatu egiten du.<br />
Sarrera lexikalek III.2 irudiko itxura dute. Bertan, ingeleseko open aditzaren<br />
sarrera lexikala dugu. Ingeleseko aditz honek bi argumentu eskatzen<br />
ditu (1 eta 2 zenbakiekin markatuak), eta hauek zehaztuak datoz egitura<br />
bakoitzean. Qualia-egiturako (QUALIA) AGENTIVE ezaugarriak adierazten<br />
digu lehenengo argumentuak bigarrena irekitzen duela (open act), eta<br />
11 Alderdi hauetako bakoitza ezaugarri gehiagoz osatua dago Pocielloren lanean (2004b).
40 Ezagutza-base lexikalen azterketa kritikoa<br />
⎡<br />
open<br />
⎢<br />
⎡<br />
⎤<br />
⎢<br />
E1 -e1: process<br />
⎢<br />
⎢<br />
⎥<br />
⎢<br />
⎢EVENTSTR<br />
- ⎢<br />
⎣E2<br />
-e2: state ⎥<br />
⎦<br />
⎢<br />
RESTR -
III.2 Azterketarako aukeratutako formalismoak 41<br />
Pustejovskyren teoriaren klase semantikoak bakarrik erabili baitzituen 12 .<br />
Oro har, hizkuntzaralitza teorikoan oinarritutako hiru ikerlan hauek ordura<br />
arte ez zegoen formalismo berri baten adierazle dira. Beraz, ez daude<br />
beste formalismoetatik gertu; bakarrak dira, eta hauen ondorengo lanek, inplementazioari<br />
begira, formalismo hauek beste formalismo ezberdinekin uztartu<br />
dituzte.<br />
III.2.2 Hizkuntzalaritza teoriko eta konputazionalaren erdibidean<br />
dauden lanak<br />
Aplikazio konputazionaletan baliatzeko helburuaz sortu diren formalismoen<br />
artean, garrantzitsuenak eta erabilienak Lexical Functional Grammar (LFG)<br />
(Bresnan eta Kaplan, 1982), Generalized Phrase Structure Grammar (GPSG)<br />
(Gazdar et al., 1985) eta Head-Driven Phrase Structure Grammar (HPSG)<br />
(Pollard eta Sag, 1994) dira. Teoria hauek hizkuntzalaritza teoriko eta konputazionalaren<br />
artean kokatu ditugu, zeren oinarri teorikoak badarabiltzate<br />
ere, erabilpen konputazionala buruan zuten.<br />
EBL eredu hauek interesgarriak iruditu zaizkigu, sarrera lexikalean informazio<br />
sintaktiko-semantiko ugari dakartelako, eta, gainera, ikuspegi konputazionalaren<br />
hastapenak direlako.<br />
Hiru teoria hauek formalismo lexikalak dira eta Gobernu eta Uztardura<br />
Teoriaren atalkako egituran 13 oinarritzen dira. Dena den, teoria hauek<br />
Gobernu eta Uztardura Teoriarekiko diferentzia nabarmen bat dute: ez dute<br />
mugimendu edo transformaziorik; azaleko egitura adierazteko maila bakarra<br />
proposatzen da 14 .<br />
Hala, formalismo hauek asmo eraikitzaileaz eginak dira, eta testuingururik<br />
gabeko gramatiketan oinarritzen dira, egitura sintaktikoak osatzeko<br />
baterakuntza-erregelak erabiltzen dituztelarik. Baterakuntza-erregelak aplikatu<br />
ahal izateko, sarrera lexikalak ezaugarri-egitura modura planteatzen<br />
12 CORELEXi buruz argibide gehiago Pocielloren lanean (2004b).<br />
13 Gobernu eta Uztarduraren Teoria ez da erregela-multzo batez osatutako sistema, baizik<br />
eta hatsarre batzuen arabera parametrizatu daitekeen atalkako egitura; hots, gramatika<br />
atalka antolatua dago eta hauek hatsarre unibertsalez osatuak daude (Demonte, 1995, 10.<br />
or.).<br />
14 Esan behar da, Programa Minimalista (Chomsky, 1992) ere horretara doala. Eredu<br />
berri honek ekonomiaren baldintza hartuko du printzipio nagusitzat; hau da, gramatikako<br />
mekanismoak ahalik eta sinpleen, errazen (minimalisten) egitearena. Honen adierazle<br />
garbia, errepresentazio sintaktikorako maila bakarra eta bi interfaze-maila (Forma Logikoa<br />
eta Forma Fo<strong>net</strong>ikoa) planteatzearena da (Sakoneko eta Azaleko mailak alboratuz).
42 Ezagutza-base lexikalen azterketa kritikoa<br />
dituzte 15 . Eta ikusiko dugunez, teorien arteko desberdintasun nagusia hautatzen<br />
dituzten ezaugarriak antolatzeko moduan datza.<br />
HPSG GPSGren garapena denez, GPSG zaharkitua geratu da. Arrazoi<br />
horregatik, tesi-txostenean ez dugu honen berri emango.<br />
III.2.2.1 Lexical Functional Grammar<br />
Izenak adierazten duen bezala, teoria funtzioetan (subjektu, objektu eta antzekoetan)<br />
oinarritzen da. Lexikalismoan egin ohi den moduan, LFG esaldian<br />
ager daitezkeen egitura sintaktiko guztiak lexikoan zehazten saiatzen da. Ale<br />
lexikalak, besteak beste, ondoko informazioa izango du: funtzio gramatikala,<br />
kategoria sintaktikoak, eduki semantikoa, azpikategorizazioa, rol tematikoak<br />
eta hautapen-murriztapenak.<br />
⎡<br />
⎤<br />
yawned<br />
⎢<br />
⎥<br />
V → ⎢<br />
⎣(↑<br />
PRED) = ‘YAWN’ ⎥<br />
⎦<br />
(↑ TENSE) = PAST<br />
III.3 Irudia: yawned ale lexikalaren adierazpena LFGn.<br />
III.3 irudian, yawned aditzaren egitura funtzionalaren adierazpena dugu<br />
eta ho<strong>net</strong>an bi ezaugarri daude: adierari dagokiona (PRED), eta denborari<br />
dagokiona (TENSE). Hauen ondoan, bakoitzaren balioa dator zehazturik:<br />
‘YAWN’ yawn aditzetik datorrela adierazteko eta aditzaren azpikategorizazioa<br />
zehazteko; eta PAST balioak, yawned iraganean dagoen adizkia<br />
dela adierazteko 16 . Bestalde, ↑ ikurraren bitartez, egitura sintagmatikoari<br />
buruzko informazioa jasotzen da, ↑ ikurrak ale lexikala menderatzen duen<br />
adabegia adierazten baitu. Yawned ale lexikala menderatzen duen lehen adabegiaaditzada(V<br />
).<br />
Orain arte, LFGren alderdi sintaktikoaz mintzatu gara, egitura sintaktikoei<br />
erreparatzen dien alderdiez, alegia. Baina teoria honek argumentu-<br />
15 Testuingururik gabeko gramatikak (Context Free Grammar ) eta baterakuntzaerregelak<br />
erabiltzen dituzten gramatikei buruzko argibide gehiagorako jo bedi Gojenolaren<br />
(2000) lanera.<br />
16 Atal ho<strong>net</strong>ako adierazpenak Dalrymple (2001) la<strong>net</strong>ik hartutakoak dira. Bestalde,<br />
irudietako laburdurak eta terminologia LFG teorian erabiltzen diren bezala mantendu<br />
ditugu.
III.2 Azterketarako aukeratutako formalismoak 43<br />
egituraren informazioa ere lantzen du. Are gehiago, sintaxiarekin duen harremana<br />
zehazten du rol tematikoak funtzio gramatikalekin lotuaz. Bresnanek<br />
eta Kaplanek (1982) sintaxi-semantika elkargunearen aurkezpena ondorengo<br />
irudian dugu ikusgarri:<br />
⎡<br />
SUBJ<br />
⎢<br />
give ⎢<br />
⎣ — ,<br />
OBJ<br />
— ,<br />
⎤<br />
OBLgoal<br />
⎥<br />
— ⎥<br />
⎦<br />
AGENT THEME GOAL<br />
III.4 Irudia: Sintaxi-semantika elkargunea LFGn (Bresnan eta Kaplan, 1982).<br />
III.4. irudian ikus daitekeen bezala, give aditzak hiru argumentu ditu,<br />
eta bakoitzaren rol tematikoak adierazita datoz. Bestalde, rol tematiko hauei<br />
funtzio gramatikalak esleitzen zaizkie: egileari subjektua, gaiari objektua eta<br />
helburuari zehar objektua. Hortaz, Bresnanek eta Kaplanek funtzio gramatikalak<br />
eta rol tematikoen arteko hartu-emana egitura funtzionaleko PRED<br />
ezaugarrian eransten dute. Beraz, hiztegi-sarreren muina PRED ezaugarria<br />
da, bertan definitzen baita sarreraren adiera. Hala ere, eremu hau xehetasun<br />
gehiagorekin dator aditzaren kasuan, eta, bertan dagoen informazio rol<br />
tematikoetara bakarrik mugatzen da semantika.<br />
LFGk inplementazio batzuk izan ditu. Hemen horietako batzuk aipatuko<br />
ditugu. Alde batetik, LFG formalismoko egitura funtzionalak erabilita<br />
corpus etiketatuak daude, esate baterako Cahill et al.-ek (2002) egitura funtzionaleko<br />
informazioarekin ingeleseko 100.000 ale lexikal eta 50.000 esaldiko<br />
corpusa etiketatu dute erdiautomatikoki. King et al.-ek (2003) ere ingeleseko<br />
corpus etiketatu bat egin dute, LFG analizatzaile sintaktiko (LNPn parser<br />
edo gramatika bezala ere ezagutzen direnak) bat erabilita eta ale lexikalen<br />
dependentziak ere islatzen dituena: PARC 700 Dependency Bank (PARC<br />
700 DEPBANK ) 17 .<br />
Horrelako analizatzaile sintaktikoak erabilita itzulpen automatikorako saiakerak<br />
ere egin dira, Way (2003) adibidez.<br />
Hala ere, ezin da esan formalismo honen semantika aberatsa denik, zeren<br />
eta nahiz eta informazio sintaktiko aberatsa izan, semantika rol tematikoetara<br />
mugatzen da.<br />
17 PARC 700 Dependency Bank http://www2.parc.com/istl/groups/nltt/fsbank/<br />
default.html web orrian dago eskuragarri (2007-07-02 atzitua).
44 Ezagutza-base lexikalen azterketa kritikoa<br />
III.2.2.2 Head-Driven Phrase Structure Grammar<br />
Head-Driven Phrase Structure Grammar (HPSG aurrerantzean) formalismoak,<br />
Lexical Functional Grammar (LFG) eta Generalized Phrase Structure<br />
Grammar (GPSG) teorien eragin handia jaso du. Hortaz, hauetatik abiatutako<br />
teoria da. Hala ere, ezin da HPSG aurreko bi formalismoekin parekatu,<br />
hau aurrekoen garapena baita; alde batetik, hiztegi aberatsagoa du, eta bestetik,<br />
aldarrikapen unibertsalagoak lortzen ditu.<br />
HPGSren adierazpenaren muina zeinuan (sign) datza. Zeinua informazio<br />
fonologikoa, sintaktikoa eta semantikoa jasotzen duen unitatea da. Zeinu<br />
hauek matematikako antzeko matrizeekin adierazten dira (attribute-value<br />
matrix deiturikoekin) non ezaugarri bakoitzak bere balioa duen. Bestalde,<br />
zeinuak ale lexikalak edo sintagmak izan daitezke.<br />
⎡<br />
⎥<br />
SUBCAT ⎥<br />
⎦<br />
⎢ <br />
⎢ HEAD verb[fin]<br />
⎢<br />
⎢CAT<br />
⎢<br />
gives ⎢<br />
⎡<br />
⎤<br />
⎢<br />
RELN give<br />
⎢<br />
⎢<br />
⎥<br />
⎢<br />
⎢GIVER<br />
(1) ⎥<br />
⎢CONTENT<br />
⎢<br />
⎥<br />
⎢<br />
⎢<br />
⎣<br />
⎣GIVEN<br />
(2)<br />
⎥<br />
⎦<br />
GIFT (3)<br />
III.5 Irudia: gives aditzaren adierazpena HPSGn.<br />
Adibide gisa, irudian 18 gives aditzaren sarrera lexikala dakargu III.5. CA-<br />
TEGORY ezaugarriak, hitzaren kategoria adierazteaz gain, honek eskatzen<br />
dituen argumentuak ere zehazten ditu. Gives aditz burutua da (verb[fin]<br />
(finite) balioekin adierazita) eta hiru argumentu hartzen ditu: 3. pertsonan<br />
dagoen izen-sintagma nominatibo bat (irudian NP[nom1[3rd,sing]]) etabi<br />
izen-sintagma akusatibo (irudian NP[acc]2 eta NP[acc]3 ).<br />
CONTENT ezaugarrian ale lexikalaren irakurketa semantikoa zehazten<br />
da. Hemen jasoko da ale lexikalak adierazten duen egoera esaldi osoaren<br />
18 Adierazpen guztiak Pollard eta Sag (1994) la<strong>net</strong>ik hartuak daude. Bestalde, sarrera<br />
lexikal hauek matrize osoen laburpen bat dira. Matrize osoen azalpena ikusteko jo bedi<br />
Pollard eta Sagautoreen (1994) eta Pocielloren lanera (2004b).<br />
⎤
III.2 Azterketarako aukeratutako formalismoak 45<br />
osotasu<strong>net</strong>ik ikusita 19 . III.5 irudian CONTENT ezaugarriaren bitartez adierazten<br />
zaigu, batetik, ingeleseko gives aditza give erlazioarekin harrema<strong>net</strong>an<br />
dagoela, honen rolak GIVER, GIVEN eta GIFT direlarik. Eta bestetik, GI-<br />
VER, GIVEN eta GIFT rolak 3. pertsonan dagoen izen-sintagma nominatiboari<br />
(NP[nom1[3rd,sing]]) eta bi izen-sintagma akusatiboei (NP[acc]2 eta<br />
NP[acc]3 ) dagozkiela, hurrenez hurren. Hortaz, azpikategorizazioan dagoen<br />
osagarri bakoitza rol batekin lotuta dago, eta lotura hau azpindize berdinekin<br />
dator adierazita 20 .<br />
HPSG inplementazio handia duen formalismoa da, eta hurrengoak dira<br />
erabilera ezagunenak 21 .<br />
Bestetik, HPSG formalismoak corpus etiketatuak ditu, ingeleserako (Oepen<br />
et al., 2002, edo LinGO Redwoods deiturikoa) eta baita beste hizkuntza<br />
batzuetarako ere, hala nola, bulgarierarako (Osenova eta Simov, 2003).<br />
Eta bestetik, HPSGk analisi sintaktikoak automatikoki egiten dituen analizatzaile<br />
sintaktikoak ere baditu (Minnen, 1999; Nishida et al., 1999; Popowich<br />
eta Vogel, 1990; Copestake eta Flickinger, 2000). Esate baterako,<br />
Copestakek eta Flickingerrek (2000) ingeleserako analizatzaile sintaktiko bat<br />
egin dute, eta honen aplikazioetako bat itzulpen automatikoa izan da. Proiektu<br />
horretan bileren egitaraua eta bidaia-erreserbak ziren itzuli beharreko<br />
gaiak edo domeinuak.<br />
Hala ere, eta LFGri buruz esan dugun bezala, HPSGn, nahiz eta adierazpen<br />
semantikoa eraiki, ale lexikalaren tasun semantikoak rol tematikoetara<br />
bakarrik mugatzen dira.<br />
Honezaz gain, hizkuntzalaritza teorikoaren eta konputazionalaren erdibidean<br />
dauden lan hauen inguruan, hizkuntzalaritza teorikoko lanei buruz<br />
esandako gauza bera errepikatuko dugu: lan hauek ordura arte ez zegoen<br />
formalismo berri baten adierazle dira. Beraz, ez daude gainontzeko formalismoetatik<br />
gertu, eta bertan egindako deskribapen linguistikoak etorkizuneko<br />
aplikazioak baldintzatzen ditu.<br />
19 HPSGko semantika Situation Semantics teorian oinarritua dago (Barwise eta Perry,<br />
1983), eta HPSGko CONTENT ezaugarria Situation Semantics teoriaren ikuspuntuaren<br />
ildotik sortutako ezaugarria da. Teoria honen ideia nagusiena Pocielloren lanean (2004b)<br />
dator azalduta.<br />
20 Rol tematikoak Situation Sematics teoriako egoera horren ikuspegi desberdinak lira-<br />
teke.<br />
21 HPSGren erabileraren berri http://hpsg.stanford.edu web orrian ematen da (2007-<br />
07-02an atzitua).
46 Ezagutza-base lexikalen azterketa kritikoa<br />
III.2.3 Hizkuntzalaritza konputazionalean oinarritutako lanak<br />
FrameNet (Fillmore eta Baker, 2001), <strong>WordNet</strong> (Miller, 1985; Fellbaum,<br />
1998a), Euro<strong>WordNet</strong> (Vossen, 1998), The Multilingual Central Repository<br />
(MCR) (Rigau et al., 2003), Volem (Fernández et al., 2002) eta PropBank<br />
(Palmer eta Kingsbury, 2003), iturri desberdi<strong>net</strong>an oinarrituta sortutako<br />
EBLak dira. Hau da, EBL baterako hiztegi-eredu bat landu beharrean, besteen<br />
ereduetatik abiatuta beraiena sortu dute. Gaur egun, LNPn ikertalde<br />
gehienek (nahiz eta beraien ikuspegi teorikoa askotan guztiz bat ez etorri)<br />
EBL hauek ezagutu eta erabiltzen dituzte.<br />
Hizkuntzalaritza konputazionalean oinarritutako ikerlan gehiago badaude<br />
(Gómez, 1998; Vázquez et al., 2000, eta abar), baina hautatu ditugun<br />
ereduetatik nahiko gertu daudenez, ez ditugu azalduko.<br />
III.2.3.1 FrameNet<br />
FrameNet proiektuan (Fillmore eta Baker, 2001) ingeleserako baliabide lexikografikoa<br />
eraikitzen ari dira, Frame Semantics (Fillmore, 1985) teorian<br />
oinarritua eta corpus errealeko datuekin lagunduta. Frame Semanticsak aldarrikatzen<br />
dituen printzipio nagusienak hauek dira:<br />
• Ale lexikalen semantika eta funtzio gramatikala frameetatik (egitura<br />
kontzeptual aberatsetatik) dator.<br />
• Kontzeptualki erlazionatuak dauden ale lexikalek, frame bereko alderdi<br />
desberdinak erakus ditzakete.<br />
Bi printzipio hauetan oinarrituaz, FrameNeten ale lexikal bakoitza beraiek<br />
sortutako frameetan sailkatzen dute, batetik, ale honen semantika eta<br />
sintaxia definitzeko, eta bestetik, frameko beste osagaiekin duen harremana<br />
zehazteko. Teoria ho<strong>net</strong>an sakontzearren har dezagun (3) adibidea oinarri<br />
gisa:<br />
(3) Hook tries to avenge himself on Peter Pan by becoming a better father.<br />
Esaldi hau, avenge aditzaren eraginez, Mendekuaren esparruari dagokiola<br />
esango genuke; hots, Revenge frameari (ikus III.6 irudia).<br />
Avenger, Injured party, Punishment, Injury...Revenge framearen alderdiak<br />
edo partehartzaileak dira —frame elements (FE hemendik aurrera)
III.2 Azterketarako aukeratutako formalismoak 47<br />
III.6 Irudia: Revenge framea.<br />
deiturikoak—, eta hauek ale lexikal desberdinez egongo dira adierazita. 4.<br />
adibidean ikus daitekeen bezala, Avenger FEa Hook ale lexikalak adierazten
48 Ezagutza-base lexikalen azterketa kritikoa<br />
du, Offender FEa Peter Pan ale lexikalak, eta abar.<br />
(4) [Hook Avenger] tries to avenge [himself Injured party] [on Peter<br />
Pan Offender] [by becoming a better father Punishment].<br />
Bestalde, frame bakoitzak bere FEak zehaztuta izango ditu. III.6 irudian<br />
Revenge framearen alderdi bakoitza definituta dator. Esate baterako, Avenger<br />
FEaren definizioa hurrengoa da: The Avenger exacts revenge from the<br />
Offender for the Injury. Honebestez, frameak dira:<br />
“[. . . ] schematic representations of situations involving various participants,<br />
props, and other conceptual roles, each of which is a frame element<br />
(FE).” (Johnson eta Fillmore, 2000, 56. or.)<br />
Frame bakoitzarekin batera, frame hori onartzen duten ale lexikalen zerrenda<br />
ematen da. Revenge framearen kasuan, hauexek: avenge, avenger,<br />
get back, get even, retaliate, retaliation, retribution, retributive, retributory, revenge,<br />
revenger, sanction, vengeance, revengeful, vengeful eta vindictive. Hala,<br />
frameetan oinarritzeak orokortzeko aukera ematen du, hau da, frame<br />
bera osatzen duten ale lexikalek klase semantiko bat osatzen dute, eta hori<br />
dela eta, framea definitzen duten ezaugarri kontzeptualak klase semantiko<br />
osoari egokitzen zaizkio, baita ezaugarri sintaktiko-semantikoak ere. Klase<br />
semantikoa, beraz, beti dator zehaztua berau onartzen duten ale lexikalen<br />
zerrendarekin.<br />
Hau esanda, FrameNet proiektuan egiten dutena hurrengoa da: ale lexikal<br />
bakoitza bere adieraren arabera sailkatu honi dagokion framean. Hala,<br />
frameen funtsa adieran dago: ale lexikal beraren adieretako bakoitza frame<br />
ezberdin batean egongo da.<br />
“It is not that every word has its own frame, but every sense of every word<br />
has its own frame.” (http://www.icsi.berkeley.edu/frame<strong>net</strong>/book.html)<br />
Frame bakoitzari dagokion informazio guztia zehazteko (framearen alderdiak,<br />
frameko ale lexikalen zerrenda, framearen informazio sintaktikosemantikoa...),<br />
etiketatze semantikoa baliatzen dute. Esaldi bakoitzaren etiketatzea<br />
targeten (esaldiko ale lexikal baten) ikuspuntutik eginda dago. Hau<br />
da, esaldiko ale lexikal baten framea oinarri hartuta 22 , esaldiko beste elementuak<br />
frame horren alderdiei lotuko zatzaizkie. Esaterako, (4) esaldiaren<br />
22Ale lexikal hauek aditzak, objektuak edo adjektiboak izango dira, hots, gobernatzaileak<br />
izan daitezkeen ale lexikalak.
III.2 Azterketarako aukeratutako formalismoak 49<br />
etiketatzean, avenge aditza izan da etiketatzeko abiapuntua (targeta). Beraz,<br />
esaldiko beste ale lexikalak avengeri dagokion framearen alderdiekin etiketatu<br />
dira.<br />
Alderdi semantikoarekin batera, osagaien funtzio eta kategoria sintagmatikoak<br />
ere etiketatzen dira, eta targetaren ikuspuntutik egingo denez,<br />
esaldiko ale guztiek berarekin duten lotura sintaktikoa adieraziko dute.<br />
Ondorioz, esaldien etiketatze semantikoaren emaitza izango da esaldiko<br />
ale lexikal bakoitza etiketatua egotea FE batekin, funtzio sintaktiko batekin<br />
eta kategoria sintaktiko batekin. Hala, bada, esaldiko ale guztiek targetarekiko<br />
duten lotura sintaktiko-semantikoa adieraziko dute.<br />
Honezaz gain, corpus erreal bat etiketatzetik lortzen dituzten datuak erabiltzen<br />
dituzte, frame bakoitzaren egitura sintaktikoak proposatzeko. Esaterako,<br />
corpuseko agerpe<strong>net</strong>an oinarrituaz Revenge framean dagoen avenge<br />
aditzaren azpikategorizazioa III.1 irudikoa litzateke. Hau da, avenge aditzarekin<br />
batera, corpusean agertu diren osagaien zerrenda dugu, hauen FEa,<br />
kategoria eta funtzioa, maiztasunarekin batera, zehazten direlarik.<br />
Informazio sintaktiko-semantikoaren adierazpenaz gain, FrameNeten frameen<br />
arteko harreman semantikoak ere adierazten dira, hau da, frame guztiekin<br />
hierarkia bat osatzen dute, eta hierarkia horretan frame konplexuagoek<br />
zehatzagoak direnak barnean hartzen dituzte. Esate baterako, avenge<br />
aditza Revenge frameari dagokio, eta frame hau Reward and Punishments<br />
framearen subframe bat da. Eta azken hau, aldi berean, Intentionally affect<br />
framearen azpian kokatzen da hierarkian.<br />
Hortaz, formalismo hau, nahiz eta teoria bati lotua egon, corpus errealeko<br />
datuetan oinarritzen da; beraz, inplementa daitekeen EBLa da. EBLa<br />
sortu eta lantzearekin batera, corpus etiketatu bat eratzen ari dira eta horrek<br />
hainbat erabilerari bidea zabaltzen die (baita konputazionalei ere). Horren<br />
adierazgarri da, FrameNet batzuk ari direla garatzen hainbat hizkuntzatan:<br />
alemana (Boas, 2002), gaztelaniakoa (Subirats-Rüggeberg eta Petruck, 2003)<br />
eta japoniarra (Ohara et al., 2003), hain zuzen ere.<br />
Hala ere, esan beharra dago, FrameNeten corpusaren erabilera mugatua<br />
egiten dutela: aldez aurretik aukeratutako corpusaren lagin bat erabiltzen<br />
dute, sortutako frameak zuzenak diren ala ez egiaztatzeko, eta hauei adibideak<br />
lotzeko:
50 Ezagutza-base lexikalen azterketa kritikoa<br />
Number<br />
Annotated<br />
Patterns<br />
2total Avenger<br />
Injured<br />
Party<br />
Injury Offender Punishment<br />
1<br />
NP<br />
Ext<br />
NP<br />
Obj<br />
PP[for]<br />
Comp<br />
–<br />
–<br />
PPing [by]<br />
Comp<br />
1<br />
NP<br />
Ext<br />
NP<br />
Obj<br />
PP[of]<br />
Comp<br />
–<br />
–<br />
PPing [by]<br />
Comp<br />
11 total Avenger<br />
Injured<br />
Party<br />
Injury Offender Punishment<br />
2<br />
–<br />
–<br />
NP<br />
Ext<br />
–<br />
–<br />
–<br />
–<br />
1<br />
–<br />
–<br />
NP<br />
Ext<br />
PP[on]<br />
Comp<br />
–<br />
–<br />
6<br />
NP<br />
Ext<br />
NP<br />
Obj<br />
–<br />
–<br />
–<br />
–<br />
1<br />
NP<br />
Ext<br />
NP<br />
Obj<br />
–<br />
–<br />
PPing[by]<br />
Comp<br />
1<br />
NP<br />
Ext<br />
NP<br />
Obj<br />
PP[on]<br />
Comp<br />
PPing [by]<br />
Comp<br />
19 total Avenger Injured Offender Punishment<br />
3<br />
–<br />
–<br />
NP<br />
Ext<br />
–<br />
–<br />
–<br />
–<br />
1<br />
–<br />
–<br />
NP<br />
Ext<br />
–<br />
–<br />
PP[by]<br />
Comp<br />
10<br />
NP<br />
Ext<br />
NP<br />
Obj<br />
–<br />
–<br />
–<br />
–<br />
2<br />
NP<br />
Ext<br />
NP<br />
Obj<br />
–<br />
–<br />
PP[with]<br />
Comp<br />
2<br />
NP<br />
Ext<br />
NP<br />
Obj<br />
–<br />
–<br />
PPing[by]<br />
Comp<br />
1<br />
Poss<br />
Ext<br />
–<br />
–<br />
PP[against]<br />
Comp<br />
–<br />
–<br />
III.1 Taula: avenge aditzaren egitura sintaktikoak corpuseko agerpe<strong>net</strong>an<br />
oinarrituta.
III.2 Azterketarako aukeratutako formalismoak 51<br />
“Because FrameNet is primarily lexicographic, we are not attempting to<br />
annotate whole texts or even a random sample of sentences which include<br />
each lemma. Rather, we want to annotate a set of sentences which exemplify<br />
the range of combinatorial possibilities of a lexical unit, including all the<br />
types of syntactic constituents which can embody the frame elements.”<br />
(Ruppenhofer et al., 2002, 371. or.)<br />
Beraz, beraien helburua ez da corpus oso bat frameekin etiketatzea.<br />
Aldiz, LNPren ikuspegitik interesgarriagoa litzateke corpusa bere osotasunean<br />
erabiliko balute, honek aplikazio berrietarako aukera handigoak emango<br />
lituzkeelako.<br />
Aztertzen ari garen EBL hau oso interesgarria da batez ere ikuspegi konputazionaletik,<br />
LNPren arlo ezberdinen azterketarako oso baliagarria delako<br />
23 . Baina epe luzerako EBLa da; hau da, eremu batzuetara (komunikazioa,<br />
legedia, hezkuntza...) mugatutako lexikoa da, denborarekin hizkuntza bere<br />
osotasunean adierazteko helburua duena. Gure euskararako EBLa, ordea,<br />
ezin da eremu zehatz horietara mugatu. Aitzitik, hizkuntza bere osotasunean<br />
adierazteko gai izan behar du.<br />
Kopuruez mintzatuz gero, FrameNetek gutxi gorabehera, 450 frame, 6.000<br />
ale lexikal eta 130.000 esaldi etiketatu ditu eta handitzen jarraitzen du.<br />
FrameNet EBL publikoa da 24 .<br />
III.2.3.2 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak<br />
<strong>WordNet</strong> (Miller, 1985; Fellbaum, 1998a) teoria psikolinguistikoetan oinarritua<br />
dagoen ingeleseko ezagutza-base lexikala da.<br />
<strong>WordNet</strong>ek ingeleseko izen, aditz, adjektibo eta adberbioei buruzko informazioa<br />
dauka, eta informazio hau sinonimo-multzo (synonym set edo<br />
synset deiturikoa) ideiaren arabera antolatuta dago. Synset bakoitza kontzeptu<br />
lexikal bati dagokio, eta hau osatuko duten hitz-multzoek kategoria<br />
berdinekoak eta testuinguru bereetan truka daitezkeenak dira.<br />
Esaterako, {car, auto, automobile} hitz-multzoak 25 synset bat osatzen dute,<br />
kontzeptu bera adierazten dutelako. Synsetaren adiera, normalean, glosa<br />
baten bidez adierazten da: a motor vehicle with four wheels.<br />
23FrameNeten erabilera konputazionalari buruzko argibide gehiagorako, jo bedi Pocielloren<br />
lanera (2004b).<br />
24http://www.icsi.berkeley.edu/frame<strong>net</strong> (2007-07-02an atzitua).<br />
25Adierazpen guztiak <strong>WordNet</strong> 3.0 bertsiotik hartu ditugu —<br />
http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua)—, eta gehie<strong>net</strong>an, leku<br />
arazoak direla-eta, adibidearen informazioa laburtu egin dugu.
52 Ezagutza-base lexikalen azterketa kritikoa<br />
(5) {car, auto, automobile} (a motor vehicle with four wheels)<br />
Ildo ho<strong>net</strong>atik, <strong>WordNet</strong>eko erlazio semantiko garrantzitsu bat sinonimia<br />
da; ezagutza-basearen oinarria ale lexikalaren adieran baitago, eta adiera<br />
hori ale lexikal batek baino gehiago duenean, ale lexikalak multzokatu<br />
egiten dituztelako. Honezaz gain, sinonimia ez den beste erlazio semantikoei<br />
esker, synseten arteko harremanak daude. Erlazio semantiko garrantzitsuena<br />
hiperonimia-hiponimia erlazioa da.<br />
Hiperonimia-hiponimia erlazioak synset orokorrenak synset zehatzagoekin<br />
lotzen ditu 26 . (6) eta (7) adibideetan (5)en hiperonimoak eta hiponimoak<br />
ikus ditzakegu, hurrenez hurren:<br />
(6) {car, automobile} (a motor vehicle with four wheels)<br />
=> {self-propelled vehicle} (a wheeled vehicle that carries...)<br />
=> {wheeled vehicle} (a vehicle that moves on wheels. . . )<br />
=> {vehicle} (a conveyance that transports people or. . . )<br />
=> {conveyance, transport} (something that serves...)<br />
=> {instrumentation} (an artifact that is. . . )<br />
=> {artifact} (a man-made object taken as a. . . )<br />
=> {...}<br />
(7) {car, automobile} (a motor vehicle with four wheels)<br />
=> {ambulance} (a vehicle that takes people to and from hospitals)<br />
=> {cab, taxi, hack, taxicab} (a car driven by a person whose. . . )<br />
=> {limousine, limo} (large luxurious car)<br />
=> {jeep, landrover} (a car suitable for traveling over rough. . . )<br />
=> {sedan} (a closed car that has front and rear seats. . . )<br />
=> {...}<br />
(6) adibidean car izenaren hiperonimoak ditugu. Synset hau self-propelled<br />
vehicle bezala definitzen da; self-propelled vehicle, wheeled vehicle mota bat<br />
bezala; wheeled vehicle, aldi berean, vehicle mota bat bezala, eta abar.<br />
Hiponimoak hiperonimoen zehaztapenak dira. Hortaz, (7) adibidean,<br />
car izenaren zehaztapen gisa auto motak agertzen dira (ambulance, taxi. . . ).<br />
Horrela bada, <strong>WordNet</strong> ontologia edo hierarkia bat da, eta hiperonimiahiponimia<br />
harreman semantikoarekin hierarkian gora eta behera egiteko aukera<br />
dugu.<br />
Ontologia hau kategoriaka banatua dago, eta kategoria bakoitzak bere<br />
hierarkia du; hau da, kategoria bakoitzaren hierarkia erlazio semantiko nagusi<br />
baten arabera antolatzen da. Izen eta aditzen kasuan erlazio semantiko<br />
26 Ingelesez IS-A relation bezala ere ezagutzen da, hots, xisakindofy.
III.2 Azterketarako aukeratutako formalismoak 53<br />
nagusia hiperonimia-hiponimia da 27 . Adjektibo eta adberbioek, berriz, sinonimia-antonimia<br />
dute ardatz beraien antolakuntzan.<br />
<strong>WordNet</strong>eko sailkapena, beraz, synsetetan eta beraien erlazio semantikoetan<br />
datza. Erlazio semantiko hauen bidez, synsetak hierarkikoki multzokatzen<br />
dira, edo, beste era batera esanda, klase semantikoak osatzen dira.<br />
Autoen klase semantikoa, adibidez, {car, auto, automobile} synsetaren azpian<br />
egongo da jasota.<br />
<strong>WordNet</strong>en ildotik jarraituta, beste EBL batzuk garatu dira:<br />
Euro<strong>WordNet</strong> (Vossen, 1998) eta The Multilingual Central Repository (MCR)<br />
(Rigau et al., 2003). Oinarri bera erabili arren, bakoitzak aurreko EBLa aberastu<br />
du.<br />
Euro<strong>WordNet</strong><br />
Euro<strong>WordNet</strong> (Vossen, 1998) ezagutza-base eleanitza da, Europako zortzi<br />
hizkuntzatara zabaltzen dena (ingelesa, nederlandera, italiera, gaztelania,<br />
alemana, frantsesa, txekiera eta estoniera), eta <strong>WordNet</strong>en eredua jarraitzen<br />
duena.<br />
Proiektu ho<strong>net</strong>an parte hartu duen hizkuntza bakoitzak word<strong>net</strong><br />
independente bat du, eta Euro<strong>WordNet</strong>en helburua word<strong>net</strong> desberdin hauek<br />
guztiak ezagutza-base eleanitz bakarrean elkartzea da. Beste hitz batzuetan<br />
esanda, synset bera ingelesez, nederlanderaz, italieraz, gaztelaniaz, alemanez,<br />
frantsesez, txekieraz eta estonieraz ikusteko aukera ematen du.<br />
The Multilingual Central Repository<br />
The Multilingual Central Repository (MCR) interfaze eleanitza da, non Europa<br />
Batzordeko MEANING: Developing Multilingual Web-Scale Language<br />
Technologies (IST-2001-34460) proiektuan euskararako, katalanerako, ingeleserako,<br />
italierarako eta gaztelaniarako (Rigau et al., 2003) aztertu den informazio<br />
guztia integratzen den. Ezagutza-base honek Euro<strong>WordNet</strong>en eredua<br />
jarraitzen du. Horregatik, ho<strong>net</strong>an ere, hizkuntza bateko synset batekin beste<br />
hizkuntzetakoa ere ikusgarri dago.<br />
MCR Euro<strong>WordNet</strong>en bertsio aurreratuagoa da, hau da, MCR eta Euro<strong>WordNet</strong><br />
oinarrian gauza bera dira, baina MCR Euro<strong>WordNet</strong> aberatsago<br />
bat da. Honenbestez, MCR <strong>WordNet</strong> eta Euro<strong>WordNet</strong>en informazioaz<br />
27Aditzen kasuan, eta gero IV.1.2 atalean ikusiko dugun bezala, hiperonimia-troponimia<br />
erlazioaz hitz egiten da.
54 Ezagutza-base lexikalen azterketa kritikoa<br />
baliatzen da, eta ho<strong>net</strong>az gain, informazio berria dakar: hautapen-murriztapenak,<br />
The Suggested Upper Merged Ontology (SUMO) delakotik hainbat<br />
informazio, eta abar.<br />
Hurrengo kapituluan, <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCRren azalpen sakonagoa<br />
emango dugu.<br />
Oro har, hiru EBL hauek hizkuntza bere osotasunean adierazi nahi duten<br />
EBL publikoak dira 28 . Esate baterako, <strong>WordNet</strong>ek 117.617 synset ditu<br />
(81.426 izen, 13.650 aditz, 18.877 adjektibo eta 3.664 adberbio). Eta baldintza<br />
honi esker, eta Euro<strong>WordNet</strong> eta MCRk eskaintzen duten eleaniztasuna<br />
kontuan hartuta, hiru EBL hauek oso erabiliak izan dira LNPren arlo oso<br />
ezberdi<strong>net</strong>an: galdera-erantzun sistemetan, informazio-erauzketan, itzulpen<br />
automatikoan, eta abar (argibide gehiago IV. kapituluan).<br />
Dena den, <strong>WordNet</strong>i egin zaion gaitzespen garrantzitsue<strong>net</strong>ako bat informazio<br />
sintaktiko-semantiko urria duela izan da.<br />
“Many users of <strong>WordNet</strong> have lamented the lack of syntactic information<br />
that would match the detail of the semantic treatment in <strong>WordNet</strong>. Indeed,<br />
<strong>WordNet</strong> contains very little syntax, because it was conceived as a semantic<br />
database only.[...] Applications in knowledge engineering and inferencing<br />
especially would benefit from information linking verbs and nouns.”<br />
(Fellbaum, 1998a, 11. or.)<br />
Behar hau ikusita <strong>WordNet</strong>en informazio sintaktiko-semantikoarekin aberasteko<br />
saiakerak egon dira, adibidez, aditzen alternantziak gehitu dira (Kohl<br />
et al., 1998). MCRko interfazeak berak (hurrengo kapituluan ikusiko dugun<br />
bezala), informazio sintaktiko-semantikoaren beharraz jabetuta, informazio<br />
hau txertatzeko baliabideak eskaintzen ditu.<br />
28<br />
<strong>WordNet</strong>: http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).<br />
Euro<strong>WordNet</strong>: http://ixa2.si.ehu.es/mcr/wei.html (2007-07-02an atzitua).<br />
MCR: http://adimen.si.ehu.es/cgi-bin/wei5/public/wei.consult.perl<br />
(2007-07-02an atzitua).
III.2 Azterketarako aukeratutako formalismoak 55<br />
III.2.3.3 Volem<br />
Volem proiektuaren (Fernández et al., 2002) helburua zera da: Pirinio inguruko<br />
hizkuntza batzuetako (gaztelania, katalana eta frantsesa) aditz eta<br />
preposizioen ezaugarriekin EBL bat eraikitzea hurrengo informazioarekin:<br />
• Gaztelania, katalana eta frantseseko aditz eta preposizio bakoitzaren<br />
izaera sintaktikoaren deskribapena: azpikategorizazioa, hautapenmurriztapenak<br />
eta aditzen alternantziak.<br />
• Gaztelania, katalana eta frantseseko aditz eta preposizio bakoitzaren<br />
informazio semantikoa: Egitura Lexikal-Kontzeptuala (ELKa), rol tematikoak<br />
eta aditzen kasuan, <strong>WordNet</strong>eko klase semantiko nagusiena.<br />
Fernández et al.-en la<strong>net</strong>ik (2002) hartutako adibidean ikus daitekeen<br />
bezala 29 , informazio hau guztia adierazteko eta antolatzeko Jackendoffen<br />
(1990) ELKak erabiltzen dituzte.<br />
(8) Common part to the three languages:<br />
thematic grid: [inic(ag, tc), th]<br />
(e.g. agent or causal iniciator, theme)<br />
LCS: Literally: I (subject) caused an object J to undergo a change of state in its<br />
ontological universe, BECOMING (achievement) STATE.<br />
[event CAUSE([thing I ],<br />
[event BECOME+ char,+ident([thing J ],<br />
[state STATE ])]<br />
Spanish lexical database:<br />
Spanish verb: cerrar (to close)<br />
Sense number: 75<br />
Alternations + examples:<br />
caus-2np:<br />
El viento cerró las ventanas de golpe<br />
(the wind closed the windows)<br />
...<br />
29 (8) adibideak ez du sarrera lexikal guztia jasotzen. Sarrera lexikal<br />
osoa, Pocielloren lanean (2004b) edota hurrengo webgunean dago:<br />
http://www.irit.fr/recherches/ILPL/Site-Equipe/demonstrations.html (2007-07-<br />
02an atzitua).
56 Ezagutza-base lexikalen azterketa kritikoa<br />
Catalan lexical database: Catalan verb: tancar (to close)<br />
Sense number: 75<br />
Alternations + examples:<br />
caus-2np:<br />
El vent va tancar les finestres de cop<br />
(the wind closed the windows)<br />
...<br />
French lexical database:<br />
French verb: fermer (to close)<br />
Sense number: 75<br />
Alternations + examples:<br />
caus-2np:<br />
Le vent ferme les feneêtres d’un coup<br />
(the wind closed the windows)<br />
...<br />
Lehenik, adiera bereko ale lexikoek (kasu ho<strong>net</strong>an, cerrar, tancar eta fermer)<br />
hizkuntza guztietan duten antzekotasun semantikoa (Common part to<br />
the three languages) rol tematiko eta ELK baten bidez definitzen dute, eta,<br />
gero, hizkuntza bakoitzean sarrera lexikal horrek (zehaztutako adiera horrekin)<br />
izan ditzakeen alternantziak zerrendatzen dituzte. Ezagutza-base eleanitza<br />
denez, azalpenak eta argibideak ingelesez ematen dituzte.<br />
Hala, Volem proiektuan Levinen (1993) hipotesia jarraitzen dute: adiera<br />
bakoitzeko ezaugarri sintaktikoak aldatzen dira. Aditzen adierak Word-<br />
Neteko klase semantiko nagusienen arabera antolatzen dituzte (verbs of<br />
possession, verbs of movement, verbs of consumtion. . . ). Oso klase orokorrak<br />
direnez, eta hori denez adierari buruz zehazten den informazio semantiko bakarra,<br />
aditzen semantika ez da beti argi ikusten. Volemen, beraz, Jackendoff<br />
(1990), Levin (1993) eta <strong>WordNet</strong>eko informazioa txertatzen da. Hala ere,<br />
aditz eta preposizioetara mugatzen da, eta, hori dela eta, ez du hizkuntza<br />
bere osotasunean adierazten.<br />
Gerora, proiektu honen bigarren zatiari ekin zaio (Volem2 ), zei<strong>net</strong>an Volemeko<br />
aditz eta preposizioei euskara eta okzitanieraren informazioa gehitzen<br />
zaion.<br />
Ezagutza-base hau LNPrako interesgarria izan daitekeen arren, egun oraindik<br />
eraikitze bidean dagoenez, honekin ez dira aplikazio ugari ezagutzen.<br />
Dena den, hasiberria den proiektu bat aipatu dezakegu: SenSem (Sentence<br />
Semantics) (Alonsoet al., 2005) proiektua MCyT (BFF2003-06456). Proiektu<br />
ho<strong>net</strong>an corpus etiketatu bat eraikitzen ari dira erdiautomatikoki eta bere
III.2 Azterketarako aukeratutako formalismoak 57<br />
helburu nagusiena, Volemeko informazioa orraztu eta aberastea da. Horretarako,<br />
corpusean predikatuekin agertzen diren alternantziak Volemen zerrendatuak<br />
dituzten predikatuekin erkatzen dituzte, ezagutza-basean dituztenak<br />
zuzenak diren ala ez egiaztatzeko eta ez dituztenak gehitzeko.<br />
III.2.4 PropBank<br />
PropBank proiektuan (Palmer eta Kingsbury, 2003) Penn Wall Street Journal<br />
Treebank II corpusa —300.000 tokeneko corpusa— etiketatu dituzte<br />
predikatu-argumentu erlazioekin. Horrelako, aditzen adierak eta adiera horien<br />
dependentziak (argumentuak) markatzen dituzte.<br />
PropBank ereduan bi maila bereizten dituzte: batetik, argumentu eta<br />
adjuntuen maila, eta bestetik, rol semantikoen maila. Argumentu gisa etiketatzen<br />
diren ale lexikalak Arg0 tik Arg5 era zenbakitzen dira. Etiketa hauek<br />
ez daude funtzio gramatikal bati lotuak. Aditz desberdin edota aditz beraren<br />
adiera desberdin bakoitzean etiketa hauek informazio desberdina adieraz<br />
dezakete. Adibidez, Johnek leihoa hautsi zuen eta Leihoa hautsi zen esaldietan,<br />
leihoa hitzak argumentu-etiketa bera izango du, bi esaldiak aditz-adiera<br />
beraren alternantziak direlako.<br />
Dena den, oro har, zenbaki baxuenak dituzten argumentuen artean erregulartasun<br />
bat ageri da. Esaterako, aditz iragankorren subjektuek Arg0 marka<br />
izaten dute eta objektu zuzenek Arg1.<br />
Rol semantikoen mailan, PropBankek bi rol mota erabiltzen ditu: aditz<br />
bakoitzari dagozkion rol zehatzak —ingeleseko buy aditzaren rolak buyer eta<br />
thing bought bezalakoak izango dira—, eta rol orokorrak —agent eta theme<br />
bezalakoak. Azken hauek VerbNet (Kipper et al., 2000) lexikoiari lotuta<br />
daude. III.2 taulan PropBankeko argumentu markekin agertzen diren rol eta<br />
funtzio sintaktikoak ikus daitezke.<br />
VerbNet aditzen lexikoi zabala da, non aditzak Levinen (1993) sailkapenaren<br />
arabera antolatuta dauden. Aditzak hierarkikoki antolatzen dira eta<br />
aditz bakoitzean informazio sintaktikoa eta semantikoa egoteaz gain, aditz<br />
horrek <strong>WordNet</strong>en duen adiera ere adierazten da. Hortaz, esan daiteke, Verb-<br />
Net eta <strong>WordNet</strong> osagarriak direla.<br />
Corpus horrekin batera, lexikoia garatzen ari dira, non etiketatutako aditz<br />
bakoitzaren adiera eta argumentuak zerrendatzen diren. Sarrera bakoitza<br />
aditz-adiera bat da, roleset deritzaiona, eta bertan aditzaren alternantziak,<br />
—frame deiturikoak— honek hartzen dituen argumentuekin zehazten dira.<br />
III.7 taulan tell.01 roleseta dugu; aditz-adiera honek lau alternantzia ditu
58 Ezagutza-base lexikalen azterketa kritikoa<br />
Arguments VerbNet roles Syntactic function<br />
Arg0 agent, experiencer subject<br />
Arg1<br />
patient, theme,<br />
attribute, extension<br />
direct object, attribute,<br />
predicative, passive subject<br />
attribute, benficiary, attribute, predicative,<br />
Arg2 instrument, extension, indirect object,<br />
final state adverbial complement<br />
Arg3<br />
benficiary, instrument,<br />
attribute, cause<br />
predicative,<br />
circumstantial complement<br />
Arg4 destination adverbial complement<br />
Adjuncts VerbNet roles<br />
location, extension,<br />
Syntactic function<br />
ArgM<br />
destination, cause,<br />
time, manner, direction<br />
adverbial complement<br />
III.2 Taula: PropBankeko argumentu markekin agertzen diren funtzio sintaktikoak<br />
eta VerbNeteko rolak.<br />
(ditransitive, odd ditransitive, prepositional arg2 eta fronted). Nahiz eta<br />
informazio osoa lehenengo frameari informazio osoa bakarrik jarri, sarrera<br />
bakoitzeko frame guztiek izango dute argumentuen informazioa.<br />
PropBank proiektuko emaitzak publikoak dira 30 , eta LNPn asko erabiltzen<br />
ari den EBLa da, batez ere rolen etiketatze automatikoaren oinarri gisa<br />
(Pradhan et al., 2003; Carreras eta Màrquez, 2004). Erabilera hau dela eta,<br />
egun, beste hizkuntza batzuentzat ere garatzen ari da eredu hau: txinerarako<br />
(Palmer eta Xue, 2003), gaztelania eta katalanerako (Civit et al., 2005a),<br />
errusierarako (Civit et al., 2005b), eta euskararako (Agirre et al., 2006d).<br />
Hala ete guztiz ere, eredu emankorra izan arren, aditzen deskribapena soilik<br />
egiten duen eredua da, eta, ondorioz, ez du euskararako EBLrako zehaztu<br />
dugun baldintzetako bat betetzen, hots, ez du hizkuntza bere osotasunean<br />
adierazten.<br />
30 http://www.cis.upnn.edu/ace (2007-07-02an atzitua).
III.2 Azterketarako aukeratutako formalismoak 59<br />
Roleset tell.01 “pass along information”:<br />
Roles:<br />
Arg0: Speaker<br />
Arg1: Utterance<br />
Arg2: Hearer<br />
Frames:<br />
distransitive (-)<br />
The score tell you what the<br />
characters are thinking and<br />
feeling<br />
Arg0: The score<br />
REL: tell<br />
Arg2: you<br />
Arg1: what the are thinking and<br />
feeling<br />
odd ditransitive (-)<br />
prepositional arg2 (-)<br />
fronted (-)<br />
III.7 Irudia: tell.01 sarrera lexikala PropBanken.
60 Ezagutza-base lexikalen azterketa kritikoa<br />
III.2.5 Corpusetan oinarritutako lanak<br />
Kapitulu ho<strong>net</strong>an zehar, EBLak eraikitzeko hainbat proposamen azaldu ditugu,<br />
hizkuntzalaritza teorikoa eta konputazionalaren ikuspegiak kontuan<br />
hartuz. EBLak garatzean, normalean, corpusak ere erabiltzen direla ikusi<br />
dugu. Atal ho<strong>net</strong>an, aipatutako corpusak bere osotasunean komentatuko<br />
ditugu.<br />
Dagoeneko aipatu dugu II.2.1 atalean, LNPn corpusek hartu duten garrantziaz.<br />
Alde batetik, erabilerari buruzko informazioa, hitzak dituzten<br />
maiztasun errealak, egitura sintaktiko zenbaitek dituzten maiztasunak, eta<br />
halako informazioa lortzeko oso erabilgarriak dira. Bestetik, informazio linguistikoa<br />
baldin badute —esate baterako, corpusak lematizatuta badaude,<br />
kategoriak markatuta badituzte, semantikoki markatuta badaude, eta abar—<br />
hauetatik informazio linguistikoa erauzi eta aberasteko erabil daitezke. Eta,<br />
azkenik, corpusen bidez, hipotesien zuzentasuna froga daiteke; hau da, eredu<br />
baten zuzentasuna egiaztatzeko era bakarra, eredu hori corpus errealean<br />
frogatzea da.<br />
Horren adierazgarri ditugu aurreko ataletan aipatutako ia eredu guztiekin<br />
garatzen ari diren corpusak. Adibidez, LFG formalismoko egitura funtzionalak<br />
erabilita corpus etiketatuak daude, esate baterako Cahill et al.<br />
(2002). HPSG formalismoak corpus etiketatuak ere baditu, ingeleserako<br />
(Oepen et al., 2002, edo LinGO Redwoods deiturikoa) eta baita beste hizkuntza<br />
batzuetarako ere, hala nola bulgarierarako (Osenova eta Simov, 2003).<br />
EBL eta corpusen arteko harremanaren adibide garbia FrameNet proiektuan<br />
ikus daiteke. III.2.3.1 atalean azaldu dugun bezala, FrameNet proiektuan<br />
(Fillmore eta Baker, 2001) ingeleserako baliabide lexikografikoak eraikitzen<br />
ari dira. Frame Semantics (Fillmore, 1985) teorian oinarrituta eta corpus<br />
errealeko datuekin lagunduta. FrameNeten ale lexikal bakoitza beraiek<br />
sortutako frameetan sailkatzen dute (Revenge framea, Commercial Transaction<br />
framea, Criminal Process framea, Perception framea, eta abar,) batetik<br />
ale honen semantika eta sintaxia definitzeko, eta bestetik, frameko gainontzeko<br />
osagaiekin duen harremana zehazteko. Framea, framearen partehartzaileak<br />
(frame elements deiturikoak), eta framea osatzen duten ale lexikalak<br />
sortu ondoren, corpus errealera jotzen dute framearen zuzentasuna egiaztatzeko,<br />
hau da, etiketatze semantikoa baliatzen dute, introspekzioz sortutako<br />
frame horiek egokiak diren ala ez ziurtatzeko. Corpuseko datuak eta framea<br />
bat etorriko ez balira, framearen ezaugarriak corpusaren informazio berri horretara<br />
egokituko lirateke. FrameNeteko corpusak gutxi gorabehera, 130.000
III.3 Gure aukera eta arrazoiak 61<br />
esaldi etiketatu ditu eta handitzen jarraitzen du.<br />
<strong>WordNet</strong>ek ere badu etiketatuko corpus bat: SemCor (Miller et al., 1994;<br />
Fellbaum et al., 2001). Hala ere, FrameNeten ez bezala, <strong>WordNet</strong> eta Sem-<br />
Cor ez dira aldi berean garatu. Lehenengo <strong>WordNet</strong> sortu zen eta gero,<br />
250.000 hitzetako Brown corpusaren testu zati bat hartu, eta Princetoneko<br />
kategoria-etiketatzaile automatikoarekin etiketatu ondoren, eskuz etiketatu<br />
zen <strong>WordNet</strong>eko adierekin (Miller et al., 1994).<br />
Volem proiektuaren jarraipen gisa SenSem (Sentence Semantics) proiektua<br />
garatzen ari dira. Proiektu ho<strong>net</strong>an gaztelaniako corpus etiketatu bat<br />
eraikitzen ari dira erdiautomatikoki eta bere helburu nagusiena, Volem<br />
EBLko gaztelaniako informazioa orraztea eta aberastea da. Horretarako, corpusean<br />
predikatuekin agertzen diren alternantziak Volemen zerrendatuak dituzten<br />
predikatuekin erkatzen dituzte, ezagutza-basean dituztenak zuzenak<br />
diren ala ez egiaztatzeko eta ez dituztenak gehitzeko. Volemetik abiatutako<br />
gaztelaniako EBL berritu honi SenSem deitu diote. SenSem EBLan 788 aditzen<br />
1.092 adiera daude, eta beraien izaera sintaktiko-semantikoa adierazita<br />
dago. Bestalde, aditzen adierak <strong>WordNet</strong>eko synsetekin lotzen ari dira 31 .<br />
Aipatutako PropBank proiektua (Palmer eta Kingsbury, 2003) ere horixe<br />
bera da: Penn Wall Street Journal Treebank II corpusa etiketatzea<br />
predikatu-argumentu egiturekin. Horretarako, aditzen adierak eta adiera horien<br />
dependentziak (argumentuak) markatzen dituzte. Corpus horrekin batera,<br />
lexikoia garatzen dute, non etiketatutako aditz bakoitzaren adiera eta argumentuak<br />
zerrendatzen diren. Inplementazioari begira, PropBank corpusari<br />
VerbNeteko informazioa gehitu zaio (Kipper et al., 2002) 32 .<br />
III.3 Gure aukera eta arrazoiak<br />
III.1 atalean zehaztu ditugu euskararako garatu nahi dugun EBLak izan<br />
beharko lituzkeen baldintzak. Ikusi dugun bezala, zaila da baldintza hauek<br />
guztiak jasotzen dituen EBLa topatzea. Hala ere, baldintza horietan oinarrituta,<br />
hain zuzen ere, arrazoituko dugu IXA taldearen beharretara gehiago<br />
egokitzen den EBL formalismoak <strong>WordNet</strong>, eta honen ildotik abiatuta garatu<br />
diren Euro<strong>WordNet</strong> eta MCR direla.<br />
31SenSem kontsultagarri dago hurrengo web orrian: http://gril.uab.es/demo (2007-<br />
07-02an atzitua).<br />
32PropBank hurrengo web orrian dago ikusgarri (2007-07-02an atzitua):<br />
http://www.rochester.edu/gildea/PropBank/Sort/C.html.
62 Ezagutza-base lexikalen azterketa kritikoa<br />
• Eredu irekia eta deskriptiboa:<br />
<strong>WordNet</strong> ez dago teoria bakar bati lotua; hots, teoria ezberdinek erabil dezaketen<br />
EBLa da. Bestalde, Euro<strong>WordNet</strong> eta MCR <strong>WordNet</strong>en garapenak<br />
dira, <strong>WordNet</strong> beste oinarri eta ikuspuntu teoriko eta konputazionaletatik<br />
informazio gehiagorekin aberastu dutenak.<br />
Aurreko atalean aipatutako formalismo eta lan teoriko askok ere gerora<br />
<strong>WordNet</strong> eta Euro<strong>WordNet</strong> adierekin edo/eta klase semantikoekin aberastu<br />
dituzte 33 ; esate baterako, Dorrek (1997) Jackendoffen lanarekin. Dorrek<br />
Jackendoffen ELKetan oinarritutako EBLa eraiki du. ELK hauek Word-<br />
Neteko adieretara lotuak daude. Lan horretan bertan, Dorrek Levinen aditzklaseetako<br />
aditzak ere <strong>WordNet</strong>eko aditzekin lotzen ditu. Ildo ho<strong>net</strong>atik jarraitu<br />
duen formalismoa Volem izan da: gaztelaniako, frantseseko eta katalaneko<br />
aditzen informazio sintaktiko-semantikoari (azpikategorizazioa,<br />
hautapen-murriztapenak eta alternantziak), ELKa, rol tematikoak eta Word-<br />
Neteko klase semantiko nagusienak eransten dizkiote. Bestalde, Pustejovskyren<br />
lexikoaren ezaugarri batzuk <strong>WordNet</strong>ekoekin lotzeko saiakera ere<br />
egin da (Buitelaar, 1998). Formalismo ezberdin hauen arteko uztardura oso<br />
baliagarria eta aberatsa da. Izan ere, <strong>WordNet</strong>en ildotik euskararako egingo<br />
den EBLa hauetaz guztiez balia daiteke (neurri handi batean behintzat), eta<br />
horrela euskararako EBLa aberastu. Beraz, garbi dago <strong>WordNet</strong> eta Euro-<br />
<strong>WordNet</strong> LNPren arloan baliabide oso erabiliak izan direla, eta egun oraindik<br />
hainbat esperimentu eta ikerla<strong>net</strong>arako iturburu direla.<br />
• Hizkuntzaren ikuspuntu orokorra:<br />
<strong>WordNet</strong> (Euro<strong>WordNet</strong> eta MCR) lexiko zabal eta garatua da. Era berean,<br />
adieran oinarritutako ontologia da, hizkuntzaren lexikoa ezagutza-base batean<br />
jaso nahi duena, ale lexikalak, ale lexikalen adierak, klase semantikoak,<br />
kategoriak, eta hauen guztien arteko erlazio semantikoak kontuan izanda<br />
(III.2.3.2 atalean azaldu dugun bezala). Noski, hizkuntzaren lexikoak ez du<br />
mugarik. Horregatik, etengabe garatzen dauden ezagutza-baseak dira lexikoi<br />
hauek. Hala ere, hizkuntzaren ikuspuntu orokorra eman dezaketen ezagutza-baseak<br />
ditugu. Esate baterako, <strong>WordNet</strong>ek 117.617 synset ditu (81.426<br />
izen, 13.650 aditz, 18.877 adjektibo eta 3.664 adberbio) 34 . MCRk <strong>WordNet</strong><br />
ezagutza-basearen tamaina berdina du, baina erlazio semantiko gehiagorekin<br />
(1.600.000 erlazio inguru).<br />
33 MCR orain dela gutxiko EBLa izanda, oraindik ez da horrela erabili.<br />
34 <strong>WordNet</strong>en azkeneko bertsioaz ari gara, 3.0 bertsioaz, alegia.
III.3 Gure aukera eta arrazoiak 63<br />
• Inplementazioa:<br />
<strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR inplementatutako EBLak dira, hots,<br />
praktikoak direla asko frogatua dago. Gainera, ezagutza-base publikoak dira,<br />
kontsultagarriak, alegia, eta hainbat erabilera izan ditzakete (hiztegi eta<br />
thesaurus gisa adibidez).<br />
Euro<strong>WordNet</strong>en eta MCRren aukerak areago doaz, EBL hauek eleanitzak<br />
direlako, ingeleseko <strong>WordNet</strong>i beste hainbat hizkuntza gehitu baitzaizkio<br />
(nederlandera, italiera, gaztelania, alemana, frantsesa, txekiera, estoniera...),<br />
eta horien artean —tesi ho<strong>net</strong>an arrazoitutakoari jarraiki— euskara<br />
txertatzen hasi garelako (Agirre et al., 2002).<br />
Hiru EBL hauek oso erabiliak izan dira LNPren arlo oso ezberdi<strong>net</strong>an:<br />
galdera-erantzun sistemetan, informazio-erauzketan, itzulpen automatikoan. . .<br />
(argibide gehiago IV.1 ataletan). Honen adierazgarri da <strong>WordNet</strong>en oinarrituta<br />
egin diren publikazioen kopurua. <strong>WordNet</strong>eko web orriak 35 batzuk<br />
jasotzen ditu, eta 422 inguru dira gaur egun.<br />
Azpimarratu beharra dago <strong>WordNet</strong>ek paper garrantzitsua jokatu duela<br />
adiera-desanbiguazioan. Adiera-desanbiguazioko sistemak estaldura handiko<br />
baliabide lexikaletan (lexikoietan, corpusetan, ontologietan, etab.) oinarritu<br />
behar dira, baliabide hauei esker sistema bera garatu eta ebalua daitekeelako.<br />
Geroz eta estaldura handiagoko baliabideak izan, orduan eta emaitza<br />
hobeak lortuko dira. <strong>WordNet</strong> estaldura handiko EBLa izateaz gain (gorago<br />
aipatu ditugu EBL honen kopuruak) bere synsetak baliatuta, eskuz etiketatuta<br />
250.000 hitzeko corpusa dago: SemCor (Miller et al., 1994). <strong>WordNet</strong>ek<br />
SemCorren duen estaldura %96 da. SemCorrek testuinguru egokia eskaintzen<br />
du adiera-desanbiguazioko sistemak bertatik ikasteko 36 eta gero ebaluatzeko.<br />
Hala, semantikoki etiketatutako corpusen arrakasta eta erabilgarritasuna ikusita,<br />
beste hizkuntzetako word<strong>net</strong>ak ere beraien corpus etiketatuak garatzen<br />
ari dira. Honen adibide da MultiSemcor (Bentivolgi eta Pianta, 2005) proiektua,<br />
non ingeleseko SemCor italierara itzultzen ari diren eta ingeleseko corpuseko<br />
hitzen etiketa semantikoak zuzenean italierako hitzei esleitzen dizkieten.<br />
Honen emaitza semantikoki etiketatutako italierako corpusa izango da.<br />
35 http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).<br />
36 Makinari emandako datu egokietan oinarrituz eta hauen gainean teknika estatistiko<br />
konplexuak aplikatuz, makinak ikasi egiten du; ikasketa honen ondorioz, gai da datu berriei<br />
buruz erabakiak hartzeko. Erabaki hauen zuzentasuna ikaste-prozesuaren egokitasunaren<br />
araberakoa izango da, noski; ikaste-prozesuaren egokitasuna, era berean, erabiltzen diren<br />
teknika estatistikoen eta ikasteko erabilitako datuen kopuruan eta egokitasunean datza.
64 Ezagutza-base lexikalen azterketa kritikoa<br />
Honekin batera, tesi-lan ho<strong>net</strong>an aurrerago (V. kapituluan) aurkeztuko dugun<br />
EuSemcor proiektua ere aipa dezakegu: semantikoki etiketatzen ari den<br />
euskarako corpusa.<br />
Beste arrazoi batzuk ere baditugu eredu hauen alde egiteko:<br />
• Euro<strong>WordNet</strong>ek datuak eguneratzeko eskaintzen dituen erraztasunak:<br />
ILIaren bidez lortzen den hizkuntzen arteko lotura horri<br />
esker (argibide gehiago IV.2 ataldean), Euro<strong>WordNet</strong>i lotuta dauden<br />
beste hizkuntzetako word<strong>net</strong>etako batean aldaketaren bat egiten bada<br />
synseten batean, aldaketa hori euskarako word<strong>net</strong>ean ere gertatzen da.<br />
• <strong>WordNet</strong> ereduak EBLaren eta corpusaren garapena aldi berean<br />
egiteko aukera ematea: Hots,ezdaEBLaamaituaizatera<br />
itxaron behar honen informazioarekin corpus bat etiketatzeko.<br />
Atal ho<strong>net</strong>an azaldu ditugun abantailak direla eta, word<strong>net</strong> berrien kopurua<br />
handitzen ari da (katalana, portugesa, grekoa, suediarra, errumaniarra,<br />
bulgariarra, norvegiarra, lituaniarra, errusiarra...). Hala, geroz eta gehiago<br />
dira eredu hau jarraituta EBLak garatzen dituztenak.<br />
Informazio sintaktiko-semantikoa, batez ere aditzetan, mugatua duela,<br />
horixe da <strong>WordNet</strong>i egin zaion gaitzespen nagusiena. Adibidez, ez dituzte<br />
azpikategorizazioa, hautapen-murriztapenak eta rol tematikoak zehazten.<br />
Hau oztopo bat da euskararako EBL bat hauetan oinarrituta egiteko, lanaren<br />
hasieratik esan dugun bezala (III.1 atalean), euskararako EBLan, ale lexikalen<br />
adierez gain, hauen informazio sintaktiko-semantikoa adierazita etortzea<br />
nahiko genukeelako.<br />
Euro<strong>WordNet</strong> <strong>WordNet</strong>en bertsio aurreratua izaki, tankera ho<strong>net</strong>ako informazio<br />
gehiagorekin hornitu da (kategoria ezberdineko synseten loturekin<br />
adibidez) 37 . Are gehiago MCR, Euro<strong>WordNet</strong>en gapapena baita. Azken<br />
ho<strong>net</strong>an, adibidez, hautapen-murriztapenak txertatzeko asmoa dago. IV.3<br />
atalean ikusiko dugun bezala, MCRko interfazeak hautapen-murriztapenak<br />
kontsultatzeko aukera ematen du, baina oraindikezdainformaziohauatzitu<br />
eta EBLan txertatu. Txosten honen VII. kapitulua lan honi dagokio, hain<br />
zuzen ere. Gerora, hautapen-murriztapenez gain, MCRren sintaxi-semantikari<br />
buruzko informazio gehiago txertatu nahi da, hala nola, funtzio gramatikalak.<br />
Beraz, esan daiteke, MCRk <strong>WordNet</strong> eta Euro<strong>WordNet</strong>en hezurdura<br />
duela, baina informazio sintaktiko-semantikoa jasotzeko aukerarekin.<br />
37 IV.2 atalean hitz egingo dugu erlazio semantiko hauei buruz.
III.3 Gure aukera eta arrazoiak 65<br />
Honenbestez, euskararako EBLa MCRren ereduan eraikiz gero, honek<br />
<strong>WordNet</strong> eta Euro<strong>WordNet</strong>en hezurdura izango luke, hots, adieraka antolatutako<br />
EBL semantiko eleanitz baten abantailak izango genituzke, eta,<br />
gainera, bi ezagutza-base hauetan dagoen informazioarekin batera, MCRn<br />
gehituko den informazio sintaktiko-semantikoa eskuragarri izango genuke.<br />
Aipatu diren arrazoi horiek guztiak direla medio, euskararako EBLa<br />
MCRren eredua jarraituz egingo dugu eta, MCRk beste iturrietako informazioa<br />
jasotzeko oinarri sendoa duenez, ikerlan ho<strong>net</strong>an landu ditugun beste<br />
formalismoetatik baliagarri zaigunari probetxua atera ahal izango diogu,<br />
MCRn behar bezala txertatuz gero. Alde batetik, EBLan ale lexikalak sailkatzeko<br />
erabiltzen dituzten ezaugarri batzuk, MCRn ez daudenak aprobetxa<br />
genitzake. Bestetik, MCRn sarrera lexikalak jasotzen ez duen informazioa<br />
jaso genezake 38 .<br />
Jarraian, tesi-lan ho<strong>net</strong>an landutako ikerlan eta formalismoetatik MCRn<br />
sartzeko baliagarri izan daitekeen informazioa dagoen ala ez ere adieraziko<br />
dugu.<br />
Hizkuntzalaritza teorikotik hiru lan aztertu ditugu: Jackendoff (1990),<br />
Levin (1993) eta Pustejovsky (1995).<br />
Jackendoffen kasuan (III.2.1.1 atalean), Dorrek (1997) eta Fernández et al.ek<br />
(2002) Jackendoffen eredua konputazionalki inplementatu (eta aberastu)<br />
dute, aditzen klaseak <strong>WordNet</strong>eko adieretara lotuz. Lotura hau euskarako<br />
aditzen sailkapenerako erabilgarri izan daiteke, noski, lehendabizi bertan<br />
dagoen informazioa euskararen izaera sintaktiko-semantikora egokitzen dela<br />
egiaztatu eta gero. IXA taldean Volem proiektuaren jarraipenean parte hartu<br />
duenez, horrelako esperimentuak egiteko aukera izan dugu. Aldezabalen<br />
(2004) lanean aztertutako ehun aditzak Volemeko eredura egokitu ditugu, eta<br />
aditz hauen adiera bereko frantseseko, gaztelaniako eta katalaneko ordainen<br />
errepresentazioarekin erkatu ditugu. Kasu gehie<strong>net</strong>an, hizkuntza guztietan,<br />
aditz-adiera berak egitura sintaktiko-semantiko bera du. Hala ere, ikerketa<br />
hauek tesi-lan ho<strong>net</strong>atik kanpo geratu dira.<br />
Jackendoffen ereduarekin esan dugun bezala, Dorrek Levinen klase semantikoak<br />
<strong>WordNet</strong>era lotuak ditu. Horrela bada, MCRren ildotik eginda-<br />
38 Kontuan izan behar da lan hauek ingeleserako pentsatuak daudela. Horregatik, EBL<br />
hauen informazioa euskararako EBLari gehitu baino lehen, informazio hori hizkuntzatik<br />
independentea den (unibertsala den), edo behintzat euskararako baliagarria den, frogatu<br />
beharko genuke. VII. kapituluan horrelako saiakera baten berri ematen dugu. Ingeleserako<br />
corpusetatik automatikoki lortutako hautapen-murriztapenak euskaratu, eta euskararako<br />
baliagarriak diren aztertu dugu (Agirre et al., 2003a; Pociello, 2004a).
66 Ezagutza-base lexikalen azterketa kritikoa<br />
ko euskarako EBLrako, Levinen la<strong>net</strong>ik zuzenean informazioa atera ordez,<br />
Dorren la<strong>net</strong>ik abiatzea errazagoa litzaiguke. Horretarako, bete beharreko<br />
lehenengo pausua, Levinen aditz-klaseak eta MCRkoak zer puntutaraino pareka<br />
daitezkeen aztertzea litzateke.<br />
Horrekin batera, Aldezabalen (2004) tesi-lanean Levinen lana erabili da<br />
euskal aditzaren azpikategorizazioa jorratzeko. Hortaz, eredu honen euskararako<br />
egokitzapena balia dezakegu MCR aberasteko.<br />
Betalde, Agirre eta Lersundiren lanean (2003) Dorren ELKetako interpretazioak<br />
Aldezabalenekin parekatu ondoren, ingeleseko, gaztelaniako eta<br />
euskarako postposizioen adiera-inbentario bakarra lortu dute, eta postposizio<br />
bakoitza MCRra lotu dute. MCRn ez dago preposizioen/postposizioen synsetik,<br />
beraz, lotura hau era ho<strong>net</strong>ara egin dute: postposizioa jaso duen eratorriaren<br />
(zilargile) eta oinarriaren (zilar) arteko erlazio semantikoa (‘IZEak<br />
ADIt(z)en dituena’) adierazten dute MCRn. Lan ho<strong>net</strong>ako informazioa dagoeneko<br />
MCRn txertatuta dago.<br />
Hizkuntzalaritza teorikoari dagokion atalean, aztertutako azken lana<br />
Pustejovskyrena (1995) izan da. Ezagutzen den inplementazioetako bat<br />
Buitelaarrena da (1998). Buitelaarrek Pustejovskyren alderdi semantiko batzuk<br />
(alderdi konstitutiboa adibidez) <strong>WordNet</strong>en dauden antzeko harreman<br />
semantikoekin erkatzen ditu. Berriro ere, euskarako EBLari begira, Word-<br />
Neterako lotura hau ondo etor dakiguke Buitelaarren la<strong>net</strong>ik lortutako emaitzak<br />
gure EBLan eransteko.<br />
Hizkuntzalaritza teoriko eta konputazionalaren erdibidean dauden lanek<br />
(LFG, GPSG eta HSPG) ingelesari buruzko informazio sintaktiko-semantikoaren<br />
deskribapen aberatsa dute. LFG, GPSG eta HPSG euskararako<br />
erabiltzeko saiakera bat egin da (Gojenola, 1998), eta hortik baliagarri izan<br />
dakigukeen informazioa lor genezake.<br />
Azkenik, hizkuntzalaritza konputazionaleko lanak izan ditugu aztergai:<br />
FrameNet (Fillmore eta Baker, 2001), <strong>WordNet</strong> eta honen ildotik etorritakoak<br />
(Miller, 1985; Fellbaum, 1998a; Vossen, 1997; Atserias et al., 2004),<br />
Volem eta PropBank proiektua (Palmer eta Kingsbury, 2003) (Fernández<br />
et al., 2002). <strong>WordNet</strong>, Euro<strong>WordNet</strong>, MCR eta Volemi buruzko ondorioak<br />
gorago aipatu ditugunez, zuzenean FrameNet eta PropBanki buruz jardungo<br />
gara.<br />
Esan bezala (III.2.4 atalean), PropBankeko sarrera lexikalak VerbNeten<br />
hauei dagokien sarrerarekin lotuta daude. Aldi berean, VerbNeteko sarrera<br />
hori <strong>WordNet</strong>eko synset batekin (edo gehiagorekin) loturik dago. Hortaz,<br />
lotura honi probetxu atera geniezaioke gure EBLko aditzak VerbNet eta
III.4 Ondorioak 67<br />
PropBankeko informazio sintaktiko-semantikoarekin aberasteko.<br />
FrameNeten kasuan ere antzeko zerbait egin daiteke. LNPn rolen informazio<br />
sintaktiko-semantikoa erauzteko eta markatzeko oso ezagunak dira,<br />
bai PropBank, bai VerbNet eta baita FrameNet ere. Arrazoi honengatik,<br />
hiru baliabideetako informazio bateratua erabiltzeko saiakerak egon dira.<br />
Giuglea eta Moschittiautoreek (2004), adibidez, PropBank eta FrameNeten<br />
arteko lotura egiteko VerbNet erabili dute. Horretarako, VerbNeteko klase<br />
semantikoen eta FrameNeteko frameen mapaketa egin dute. Adibidez, Verb-<br />
Neteko Judgement klase semantikoa FrameNeteko Rewards and punishments,<br />
Judgement communication, Sentencing, Notification of charges, Arrangement,<br />
Court examination, Pardon, Try defendant, Forgiveness, Jury deliberation<br />
eta Judgement direct address frameekin parekatu dituzte. Hala, klase<br />
semantiko bakoitzeko hiru EBLen informazioa dute eskuragarri. Mapaketa<br />
hau corpusean rolak automatikoki ezagutzeko egin da.<br />
Horrela, bada, FrameNet VerbNetekin lotuz gero, VerbNeteko aditzak<br />
<strong>WordNet</strong>eko synsetekin parekatuak daudenez, EBL hauetako guztietako informazioa<br />
izango genukeen eskuragarri.<br />
III.4 Ondorioak<br />
Kapitulu ho<strong>net</strong>an arrazoitzen saiatu gara euskararako EBLa egiteko Word-<br />
Neten eredua (zehazkiago, MCRrena) jarraitzea dela biderik egokiena.<br />
Erabaki hori hartu dugu euskarako EBLrako nahiko genituzkeen ezaugarriak<br />
ondo definitu ondoren —konputazionalki inplementa daitekeena izatea, hizkuntza<br />
bere osotasunean adierazten duena izatea, eleanitza izatea, eta informazio<br />
berrerabilgarria jasotzen duena izatea—, ezaugarri hauen arabera<br />
mugatu dugu gure proposamena:<br />
• <strong>WordNet</strong> eta honen ildotik garatu diren Euro<strong>WordNet</strong> eta MCR ez<br />
daude teoria bakar bati lotuta, bestelako eredu eta teoria ezberdinekin<br />
erabil daitezke. Horren proba da formalismo eta lan teoriko asko, gerora,<br />
<strong>WordNet</strong>en adiera edo/eta klase semantikoekin aberastu dituztela.<br />
• <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR lexiko zabala eta garatua dute;<br />
sarrera bakoitzean ale lexikalaren adiera, klase semantikoa, kategoria<br />
eta beste sarrerekin izan ditzaken erlazio semantikoak jasotzen dituzte.<br />
Esate baterako, <strong>WordNet</strong>en 3.0 bertsioan 117.617 synset daude (81.426<br />
izen, 13.650 aditz, 18.877 adjektibo eta 3.664 adberbio).
68 Ezagutza-base lexikalen azterketa kritikoa<br />
• <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR inplementatutako EBLak dira.<br />
Honen adierazgarri dira <strong>WordNet</strong>en oinarrituta egin diren publikazioen<br />
kopurua (gaur egun, <strong>WordNet</strong>eko web orriak 39 422 inguru jasotzen ditu).<br />
• <strong>WordNet</strong> EBL elebakarra izan arren, honen ildotik sortutako Euro-<br />
<strong>WordNet</strong> eta MCR eleanitzak dira.<br />
Aukeraketa hau, halere, ikerkuntzaren ikuspegian, helburuen edota ematen<br />
zaizkion erabileren mende dago.<br />
Bestalde, behin MCRren aldeko aukera eginda, eredu hau beste lan eta<br />
formalismoetako informazioarekin osa dezakegula ikusi dugu. Hala ere, formalismo<br />
desberdinak direnez eta batzuetan beraien artean kontraesanean<br />
daudenez, hauen artean hautu bat ere egin beharko genuke. Hau da,<br />
MCRren ildotik egingo den euskararako EBLa hauetako zeinekin osatzea<br />
komeniko litzatekeen erabaki beharko genuke.<br />
Dena den, lan hori ez dugu tesi-lan ho<strong>net</strong>an jorratuko; etorkizunerako lan<br />
gisa proposatuko dugu.<br />
39 http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).
<strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
IV. KAPITULUA<br />
Kapitulu ho<strong>net</strong>an <strong>WordNet</strong> (IV.1), Euro<strong>WordNet</strong> (IV.2) eta The Multilingual<br />
Central Repository ereduaren (MCR) (IV.3) azterketa sakonago bat<br />
egingo dugu.<br />
IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak<br />
IV.1.1 Sarrera<br />
<strong>WordNet</strong> (Miller, 1985; Fellbaum, 1998a) teoria psikolinguistikoetan oinarritua<br />
dagoen ingeleseko ezagutza-basea da. Princeton-eko Unibertsitatean<br />
eskuz garatzen ari da —Cognitive Science Laboratory delakoan— George A.<br />
Millerren ardurapean.<br />
Ingeleseko izenak, aditzak, adjektiboak eta adberbioak synonym set<br />
edo synsetetan (sinonimo multzotan) antolatuak daude, hauetako bakoitza<br />
kontzeptu lexikal bati (adiera bati) dagokiolarik. Esaterako, ingeleseko tree<br />
izenak <strong>WordNet</strong>en bi synset 1 ditu 2 :<br />
1Aurrerantzean synset terminoa erabiliko dugu, adiera edo kontzeptu lexikalaren pareko.<br />
2Kapitulu ho<strong>net</strong>ako <strong>WordNet</strong>eko adierazpen guztiak <strong>WordNet</strong> 3.0 bertsiotik hartu ditugu<br />
—http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua)—, eta leku-arazoengatik<br />
adibide batzuk moztu egin ditugu.
70 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
(1) The noun “tree” has 2 senses:<br />
1. {tree} (a tall perennial woody plant having a main trunk and. . . )<br />
2. {tree, tree diagram} (a figure that branches from a single root)<br />
Lehenengoa ‘landare’ (plant) synsetari dagokio, eta bigarrena, berriz, ‘diagrama’<br />
(diagram) synsetari. Synsetak desberdindu ditzakegu hauen ondoan<br />
gehie<strong>net</strong>an datorren glosei esker. (1) adibidean tree izenaren ‘landare’ adieraren<br />
glosa a tall perennial woody plant having a main trunk and branches da.<br />
Lehenengo synset hau ale lexikal bakar batez osatua dago (tree); hots, tree<br />
izenak, synset horretan, ez du sinonimorik. Bigarrenak, ordea, tree ale lexikalaz<br />
gain, beste ale bat ere badu synsetean (tree diagram). Bi ale lexikal horiek<br />
(tree eta tree diagram) sinonimoak dira. Synseta osatzen duten ale lexikalei<br />
variant deitzen zaie, beraz, synset berean dauden variantak sinonimoak<br />
dira.<br />
Hain zuzen ere, sinonimia da <strong>WordNet</strong>eko erlazio semantiko garrantzitsue<strong>net</strong>arikoa.<br />
Izan ere, ezagutza-basearen oinarria ale lexikala izanik, adiera<br />
batek ale lexikal bat baino gehiago dituenean, ale lexikalak multzokatu egiten<br />
ditu sinonimia erlazioak.<br />
<strong>WordNet</strong>eko sinonimiaz hitz egiterakoan, kontuan izan behar da ez dela<br />
gauza bera sinonimia eta hitzak bata bestearekin elkar trukatzea. Hau da,<br />
<strong>WordNet</strong>eko synseta osatzen duten sinonimoak beraien artean truka daitezke,<br />
baina testuinguru batzuetan bakarrik.<br />
“The more modest claim is that <strong>WordNet</strong> synonyms can be interchanged<br />
in some contexts. To be careful, therefore, one should speak of synonymy<br />
relative to a context.” (Fellbaum, 1998a, 24. or.)<br />
<strong>WordNet</strong> ez da synset-zerrenda hutsa; synsetak erlazio semantikoen bidez<br />
antolatuak daude. Esan dugun bezala, sinonimia da erlazio semantiko garrantzitsue<strong>net</strong>akoa,<br />
baina, honekin batera, <strong>WordNet</strong>ek beste hainbat erlazio<br />
landu ditu, hala nola, hiperonimia-hiponimia erlazioa.<br />
Hiperonimia-hiponimia erlazioak synset orokorrenak synset zehatzagoekin<br />
lotzen ditu 3 . (2) eta (3) adibideetan (1)en hiperonimoak eta hiponimoak<br />
ikus ditzakegu hurrenez hurren:<br />
3 Ingelesez IS-A relation bezala ere ezagutzen da, hots, xisakindofy.
IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 71<br />
(2) Sense 1<br />
{tree} (a tall perennial woody plant having a main trunk and. . . )<br />
=> {woody plant, ligneous plant} (a plant having hard lignified. . . )<br />
=> {vascular plant, tracheophyte} (green plant having a. . . )<br />
=> {plant, flora, plant life} (a living organism. . . )<br />
=> {life form, organism, being, living thing}<br />
=> {entity, something} (anything having existence)<br />
Sense 2<br />
{tree , tree diagram} (a figure that branches from a single root)<br />
=> {plane figure, two-dimensional figure} (a 2-dimensional shape)<br />
=> {figure} (a combination of points and lines and planes. . . )<br />
=> {shape, form} (the spatial arrangement of something. . . )<br />
=> {attribute} (abstraction belonging to a. . . )<br />
=> {abstraction} (a general concept formed by . . . )<br />
(3) Sense 1<br />
{tree} (a tall perennial woody plant having a main trunk and. . . )<br />
=> {yellowwood, yellowwood tree} (any of various trees having. . . )<br />
=> {lancewood, lancewood tree} (source of most of the lancewood. . . )<br />
=> {Guinea pepper, negro pepper} (tropical west African tree...)<br />
=> {anise tree} (any of several evergreen shrubs ...)<br />
=> {winter’s bark tree, Drimys winteri} (South American tree...)<br />
=> {zebrawood tree} (any of various trees ...having mottled or ...)<br />
=> {granadilla tree, Brya ebenus} (West Indian tree yielding ...)<br />
=> {acacia} (any of various spiny trees or shrubs of the genus Acacia)<br />
=> {...}<br />
Sense 2<br />
{tree, tree diagram} (a figure that branches from a single root)<br />
=> {cladogram} (a tree diagram used to illustrate phyloge<strong>net</strong>ic. . . )<br />
(2) adibidean tree izenaren hiperonimoak ditugu. Lehenengo synseta<br />
(‘landare’) kontuan hartuz gero, woody plant mota bat bezala definitzen<br />
da; woody plant, vascular plant mota bat bezala; vascular plant, aldi berean,<br />
organism mota bat bezala, eta, azkenik, organism entity mota bat bezala.<br />
Ondorioz, tree, bere lehenengo synsetean, entity, organism, vascular plant, eta<br />
woody plant bat da.<br />
Treeren beste synsetaren (‘diagrama’) sailkapenarekin berdin-berdin gertatzen<br />
da, baina bere hiperonimoak ‘diagrama’ adierari lotuak egongo dira.<br />
Hiponimoak hiperonimoen zehaztapenak dira. Hortaz, (3) adibidean, tree<br />
izenaren lehenengo adieraren zehaztapen gisa zuhaitz motak agertzen dira<br />
(yellowood, acacia. . . ), eta bigarren adieran, aldiz, diagrama motak (kasu
72 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
ho<strong>net</strong>an bakarra, cladogram). Horrela, bada, <strong>WordNet</strong>, ontologia edo hierarkia<br />
bat da, eta hiperonimia-hiponimia harreman semantikoarekin hierarkian<br />
gora eta behera egiteko aukera dugu. Ontologia hau kategoriaka banatua dago,<br />
eta kategoria bakoitzak bere hierarkia du; hau da, kategoria bakoitzaren<br />
hierarkia erlazioa semantiko nagusi baten arabera antolatzen da. Izen eta<br />
aditzen kasuan erlazio semantiko nagusia hiperonimia-hiponimia da 4 . Adjektibo<br />
eta adberbioek, berriz, sinonimia-antonimia dute ardatz gisa beraien<br />
antolakuntzan. (4) adibidean, properly adberbioaren antonimoa ikus dezakegu<br />
(improperly):<br />
(4) Sense 1<br />
{properly , decently, decent, right} (in the right manner)<br />
=> {improperly} (inanimproperway)<br />
<strong>WordNet</strong>eko sailkapena, beraz, synsetetan eta beraiek harrema<strong>net</strong>an jartzen<br />
dituzten erlazio semantikoetan datza. Erlazio semantiko hauen bidez,<br />
synsetak hierarkikoki multzokatzen dira, edo, beste era batera esanda, klase<br />
semantikoak osatzen dira. Horrela, <strong>WordNet</strong>ek izenak hierarkiatan banatzen<br />
ditu, eta hierarkia hauetako bakoitza klase semantiko bati dagokio.<br />
Klase semantiko hauetako bakoitzean, klase horretako izenen antolaketaren<br />
hastapena dago, unique beginner deritzona. Hau izango da klase semantiko<br />
horren hierarkian mailarik altuena eta orokorrena, eta bere ezaugarri guztiak<br />
bere hiponimoek heredatuko dituzte. (5)eko taulan <strong>WordNet</strong>eko izenak<br />
sailkatzen dituzten 25 unique beginnerrak datoz zerrendatuta. Aldi berean,<br />
unique beginner horiek <strong>WordNet</strong>eko izenek osatzen dituzten klase semantikoak<br />
adierazten dituztela esan dezakegu, unique beginner bakoitzaren azpian<br />
klase horri dagozkion izen guztiak jasotzen baitira. Esate baterako, food<br />
unique beginnerraren azpian janariarekin zerikusia duten izenak egongo dira<br />
hierarkikoki antolatuta. Ondorioz, multzo horrek janariari dagokion klase<br />
semantikoa osatzen du.<br />
{act, action, activity} {animal, fauna} {artifact}<br />
{tribute, property} {body, corpus} {cognition, knowledge}<br />
{communication} {event, happening} {feeling, emotion}<br />
{food} {group, collection} {location, place}<br />
(5) {motive} {natural object} {natural phenomenon}<br />
{person, human being} {plant, flora} {possession}<br />
{process} {quantity, amount} {relation}<br />
{shape}<br />
{time}<br />
{state, condition} {substance}<br />
4Aditzen kasuan, eta gero IV.1.2 atalean ikusiko dugun bezala, hiperonimia-troponimia<br />
erlazioaz hitz egiten da.
IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 73<br />
Honezaz gain, izenak klase semantikoetan banatuak egoteak badu beste<br />
arrazoi praktiko bat: klase semantiko bakoitza fitxategi batean jasota dago<br />
(semantic field deiturikoa) 5 . <strong>WordNet</strong> garatzeko lexikografoek hogeita bost<br />
fitxategi hauek beraien artean banatu eta fitxategiz fitxategi ingeleseko Word-<br />
Net osatzen joan ziren 6 . Hala, lexikografo bakoitzak eremu semantiko bereko<br />
kontzeptuak lantzen zituen.<br />
Ondoren (IV.1.2 atalean), ikuspegi sintaktiko-semantikoan sakontzearren,<br />
aditzaren azterketan murgilduko gara.<br />
IV.1.2 Aditza eta informazio sintaktiko-semantikoa<br />
Askotan aipatu dugun bezala, sintaxi-semantika elkargunearen muina aditza<br />
da, esaldiaren antolakuntza hartzen baitu bere baitan. Arrazoi honengatik,<br />
<strong>WordNet</strong>en jasota dagoen informazio sintaktiko-semantikoa aditzari lotua<br />
dago.<br />
<strong>WordNet</strong>en aditzen synsetak, irizpide semantikoan oinarrituz, 14 klase<br />
semantikotan banatuak daude (motion; perception; contact; change; communication;<br />
competition; cognition; consumption; creation; emotion; perception;<br />
possession; bodily care and functions; verbs referring to social behaviour and<br />
interaction). Bestetik, 14 klase semantiko horietan lekurik ez duten aditzen<br />
multzoa dago (verbs denoting states delakoan), eta aditz hauek (be, belong,<br />
resemble...) egoera adierazten dute 7 .<br />
Izenekin ikusi dugun bezala, klase semantiko hauetako bakoitzean aditz<br />
horien antolaketaren hastapena dago, unique beginner deritzona. Esaterako,<br />
communication klase semantikoak unique beginner bezala communicate<br />
synseta du eta ho<strong>net</strong>atik hasten da klase semantiko ho<strong>net</strong>ako aditzen sailkapena.<br />
5 <strong>Euskara</strong>z eremu semantiko deritzogu.<br />
6 Hogeita bost unique beginnerren artean hainbat multzo egin dira. Esate baterako,<br />
horietatik zortzi tangible things bezala sailkatu dituzte, bost abstraction bezala; eta hiru<br />
psychological features bezala. Hala, unique beginnerren kopurua hogeita bostetik hamaikara<br />
murriztu dute.<br />
7 Izenekin bezala, klase semantiko bakoitza fitxategi batean jasota dago.
74 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
Klase semantiko hauek aditzen sailkapenerako aproposak izan arren, euren<br />
arteko muga ez da guztiz hertsia. Hori dela eta, aditz batzuk klase semantiko<br />
bat baino gehiagotan egon daitezke; adibidez, ingeleseko The bullet<br />
whistled past him 8 esaldian, whistle aditza communication klaseari dagokion<br />
synset bat du (make whistling sounds glosaduna), eta motion klase semantikoari<br />
dagokion beste synset bat du (move with, or as with, a whistling sound<br />
glosaduna).<br />
Gorago azaldu dugun bezala (IV.1.1), <strong>WordNet</strong> synseten arabera dago<br />
antolatua, eta, beraz, synseta osatzen duten sinonimoak beraien artean<br />
truka daitezke testuinguru konkretu batzuetan. Aditzen kasuan trukatze<br />
hau bideratzea zaila gertatzen da. Batzuetan aditzek —end/terminate eta<br />
rise/ascend bezalako anglosaxoi/grekolatindar hitz pareek adibidez— adiera<br />
bera izan arren, erregistro ezberdina eskatzen dute. Adibidez, anglosaxoi/grekolatindar<br />
hitz pareen kasuan grekolatindarrek besteak baino erabilera<br />
jasoagoa dute.<br />
Beste batzuetan, ordea, aditzen arteko adiera-aldaketa hautapen-murriztapen<br />
ezberdinekin azaleratzen da. Esaterako, ingeleseko rise eta fall aditzek<br />
entitate abstraktuak (temperature, prices. . . ) har ditzakete argumentu gisa;<br />
aurrekoen adieraren oso antzekoa duten ascend eta descend aditzek, berriz,<br />
ezin dute argumentu mota honekin agertu (Fellbaum, 1998a). Horrelako kasuetan,<br />
<strong>WordNet</strong>en irizpide nagusia aditzak synset desberdi<strong>net</strong>an banatzea<br />
da, hau da, rise eta ascend bi synsetetan kokatzea.<br />
Hortaz, hautapen-murriztapenak kontuan hartzen dituzte hierarkia osatzeko<br />
garaian, baina ontologian oraindik ez dago adierazita zeintzuk diren<br />
aditz bakoitzak hartzen dituen hautapen-murriztapen konkretuak. Hau da,<br />
<strong>WordNet</strong>eko interfaze informatikoak ez du eskaintzen rise eta entitate abstraktuak<br />
(<strong>WordNet</strong>en abstraction ale lexikala daraman synsetaren bitartez<br />
adierazten dena) hautapen-murriztapen gisa lotzeko biderik.<br />
Hautapen-murriztapenekin bezala, ale lexikal baten synsetak ezberdintzerakoan<br />
azpikategorizazioa kontuan hartzen dute, informazio hau aditzaren<br />
adiera bakoitzeko proposatuz, baina rol tematikorik aipatu gabe:<br />
8 Adibidea Fellbaumen la<strong>net</strong>ik (1998a) hartua da.
IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 75<br />
(6) 4 senses of “descend”<br />
Sense 1<br />
{descend, fall, go down} (move downward but not necessarily all the way)<br />
EX: The airplane is sure to descend<br />
Sense 2<br />
{derive, come, descend} (come from; be connected by a blood relationship)<br />
Something is — -ing PP<br />
Somebody — -s PP<br />
Sense 3<br />
{condescend, descend} (do something that one considers to be below. . . )<br />
Somebody — -s to INFINITIVE<br />
Sense 4<br />
{stoop, descend} (to sink in status or dignity, or worsen in condition)<br />
Somebody — -s PP<br />
Horrela, bada, <strong>WordNet</strong>, aurretik ikusi ditugun lanen eredutik banandu<br />
egiten da, semantika deskonposatzailea jarraitzen dute<strong>net</strong>atik alegia.<br />
Jackendoff-ek bere lanean (1990), adibidez, primitiboak baliatuta egiten du<br />
aditzen azterketa (TO, FROM, TOWARD, AWAY-FROM, CAUSE, GO,<br />
VIA...). <strong>WordNet</strong>en ale lexikalak ez daude unitate txikiagoetan deskonposatuak.<br />
<strong>WordNet</strong>ek loturazko semantikaren (relational semantics) ildotik<br />
jorratzen ditu aditzak; hortaz, synsetak hitzekin osatzen dira eta ez tasun<br />
edo primitiboekin. Hala eta guztiz ere, synseten arteko harreman semantikoek<br />
deskonposaketaren alderdi batzuk ere eskain ditzakete. Nahiz eta Word-<br />
Netek primitiboak edo antzeko tasun txikiagoak ez erabili, hauetako batzuk<br />
agerian geratzen dira harreman semantikoen bidez. Adibidez, semantika deskonposatzailean<br />
oihartzun gehien duen tasu<strong>net</strong>ako bat kausa da (CAUSE<br />
primitiboa deitzen duena Jackendoffek). <strong>WordNet</strong>en informazio hau cause<br />
erlazio semantikoarekin ikus dezakegu, eta bere bitartez learn aditza teach<br />
aditzaren ondorioa dela jakin dezakegu:<br />
(7) 1 of 6 senses of “learn”<br />
Sense 5<br />
{teach, learn, instruct} (impart skills or knowledge to)<br />
=> {learn} (acquire or gain knowledge or skills)<br />
Bestetik, mugimendua adierazten duen tasunak (Jackendoffek (1990) GO<br />
deitzen duenak) hierarkiaren hastapen diren unique beginnerrek adieraz ditzakete.<br />
Run aditza adibide gisa hartuz gero, bere hiperonimo garaiena<br />
—motion klase semantikoaren unique beginnerra dena—, {go, move, travel,
76 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
locomote} synsetaz osatzen da 9 , eta honek erakusten digu run mugimenduzko<br />
aditza dela.<br />
(8) Sense 1<br />
{run} (move fast by using one’s feet, with one foot off the ground at any. . . )<br />
=> {travel rapidly, speed, hurry, zip} (move very fast)<br />
=> {travel, go, move, locomote} (change location)<br />
Amaitzeko, aditzen moduaren berri hierarkian bertan dugu. Arestian hitz<br />
egin dugu hiperonimia-hiponimia erlazio semantikoaz. Aditzek erlazio honen<br />
antzekoa duten arren, Fellbaumek (1998b) hiponimiaren ordez troponimia<br />
erabiltzea erabaki zuen. Honen arrazoia da aditzek dutela IS-A erlazioa betetzen.<br />
Honen ordez, to x is to y in some particular manner definitzen da<br />
aditzen hierarkiak osatzeko. Hortaz, aditz hiperonimo baten (walk) troponimoak<br />
aditz hiperonimoak adierazten duena egiteko moduak izango dira<br />
(trot, march...). Hala, <strong>WordNet</strong>ek hitzaren kategoriaren arabera baliabide<br />
semantiko desberdinak erabiltzen ditu ezagutza sintaktiko-semantikoa berri<br />
emateko. Ezagutza-baseko sarrera lexikal bakoitza ez dator zehaztuta tasun<br />
zerrenda batekin; zehaztuta etorri beharrean, bere zehaztapena hierarkiatik<br />
jasotzen dituen tasu<strong>net</strong>atik dator.<br />
IV.1.3 Bestelako erlazio semantikoak<br />
Sinonimia eta hiperonimia-hiponimia/troponimia erlazio semantikoez gain,<br />
<strong>WordNet</strong>ek beste asko landu ditu. Hemen batzuen aipamen laburra egingo<br />
dugu 10 .<br />
Izenak lotuak egon daitezke ondorengo erlazio semantikoen bidez:<br />
• Part-whole relations:<br />
Zatia eta osotasuna harrema<strong>net</strong>an jartzen dituen erlazioak dira. Batetik,<br />
meronimia dago, X is a meronym of Y if Ys are parts of X definizioari<br />
jarraitzen diona; hatzak (9. adibidean, finger) eskuen (adibidean, hand) zati<br />
bat dira, eta eskua, aldi berean, besoarena (adibidean, arm):<br />
9 Motion klase semantikoak bi unique beginner ditu, bata {go, move, travel, locomote}<br />
(change location), eta bestea, {move, displace} (cause to move); lehenengoan ‘norbait/zerbait<br />
mugitzen da’, bigarrenean ‘norbaitek/zerbaitek norbait/zerbait mugitzen du’.<br />
10 Argibide gehiago Fellbaumen (1998a) eta Millerren (1985) la<strong>net</strong>an.
IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 77<br />
(9) 1 of 2 senses of “finger”<br />
Sense 1<br />
{finger} (any of the terminal members of the hand)<br />
PART MERONYM: {hand, manus} (the extremity of the superior limb)<br />
PART MERONYM: {arm} (the part of the superior limb between. . . )<br />
Bestetik, holonimia kontrako erlazioa da, x has a y (as a part) definizioarekin<br />
bat datorrena. Adibidez, eskuek (10. adibidean hand) hatzakdituzte<br />
(10. adibidean, finger):<br />
(10) 2 of 14 senses of “hand”<br />
Sense 1<br />
{hand} (the extremity of the superior limb)<br />
PART HOLONYM: {finger} (any of the terminal members of the hand)<br />
• Antonimia:<br />
Izen batzuek antonimoak dituzte eta erlazio semantiko honek lotzen ditu:<br />
(11) 1 sense of “victory”<br />
Sense 1<br />
{victory, triumph} (a successful ending of a struggle or contest)<br />
ANTONYM: {defeat, licking} (an unsuccessful ending)<br />
• Inplikazioa:<br />
Aditzen hierarkian erlazio semantiko nabarme<strong>net</strong>ako bat inplikazioa (ingelesez<br />
entailment) deritzona da (V1 logically entails V2 edota snore entails<br />
sleeping).<br />
(12) 1sense“snore”<br />
Sense 1<br />
{snore} (breath noisely during one’s sleep)<br />
ENTAILMENT: {sleep} (be asleep)<br />
Esan bezala, erlazio semantiko batzuk baino ez ditugu aipatu. <strong>WordNet</strong>en<br />
gehiago daude eta hauen kopurua handituz joan da.
78 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
IV.1.4 Erabilera<br />
<strong>WordNet</strong>ek 117.617 synset ditu (81.426 izen, 13.650 aditz, 18.877 adjektibo<br />
eta 3.664 adberbio) 11 .<br />
<strong>WordNet</strong>en erabilerak era askotakoak izan dira. Alde batetik, hiztegi eta<br />
thesaurus gisa erabili izan da. Hiztegi tradizionaletan bezala, <strong>WordNet</strong>ek<br />
synset bakoitzeko definizio bat du, gehie<strong>net</strong>an adibide eta guzti. Gainera,<br />
synset bakoitzean ale lexikal bat baino gehiago egon daitezkeenez, thesaurus<br />
bezala balia daiteke, adiera berdina adierazteko sinonimo desberdinak<br />
ditugulako.<br />
Esan beharra dago, <strong>WordNet</strong> ezaugarri psikolinguistikoetan oinarrituta<br />
egon arren, psikolinguistek ez dutela kontu handian hartu eta hizkuntzalari<br />
konputazionalei interesgarriagoa iruditu zaiela. Hala, LNPri begira,<br />
<strong>WordNet</strong>ek erabilera ugari izan ditu. <strong>WordNet</strong>eko web orrian agertzen den<br />
bibliografian 12 hau erakusten duten 2.000 artikulu inguru daude. Guk arlo<br />
bakoitzetik garrantzitsuenak baino ez ditugu aipatuko:<br />
• Hitzen adieren desanbiguazioan: <strong>WordNet</strong> adieran oinarritutako<br />
ontologia denez, <strong>WordNet</strong>eko informazioak, hau da, adierak hierarkikoki<br />
antolatuta egoteak desanbiguazioaren atazan lagundu egiten du.<br />
Hots, hitzaren testuinguruan dauden beste hitzei erreparatuta, eta desanbiguatu<br />
nahi den hitzaren <strong>WordNet</strong>eko erlazio semantikoak ezagututa,<br />
hitzaren adiera zuzen posibleen aukera aukera txikitu egiten da.<br />
Adibidez, This letter has no address esaldian, letter hitzak, gutxienez,<br />
bi adiera izan ditzake: bata, ‘gutun’ adiera, eta bestea ‘hizki’ adiera.<br />
Hiztegi arruntetan, hitz hauen adieraren definizioa izango genuke.<br />
Aldiz, <strong>WordNet</strong>ek bi adiera hauen glosak emateaz gain, hiztegietan ez<br />
dagoen, eta desanbiguaziorako oso erabilgarria den, informazio gehigarria<br />
ematen digu: erlazio semantikoak. Esate baterako, ‘gutun’ adiera<br />
duen synseta address synsetarekin lotua dago meronimia erlazioaren<br />
bitartez. Kasu ho<strong>net</strong>an, desanbiguazio algoritmoak <strong>WordNet</strong>eko erlazioak<br />
eta testuinguruan duen informazioa erabilita, letter hitzari ‘gutun’<br />
adiera egokituko dio. Arlo ho<strong>net</strong>an esperimentu ugari egin dira (Miller<br />
et al., 1994; Banerjee eta Pedersen, 2002; Agirre eta Martínez, 2000;<br />
Matwin et al., 1995).<br />
11 <strong>WordNet</strong>en azkeneko bertsioaz ari gara, 3.0 bertsioaz, alegia:<br />
http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).<br />
12 Ikus http://engr.smu.edu/rada/wnb/web orrian (2007-07-02an atzitua).
IV.1 <strong>WordNet</strong> eta <strong>WordNet</strong>etik abiatutakoak 79<br />
• Itzulpen automatikoan: Itzulpen automatikorako sistemek hiztegi<br />
edo EBL bat behar dute, batetik, hitzen adieren desanbiguaziorako,<br />
eta bestetik, desanbiguatutako adierari dagokion erdarako ordaina<br />
egokitzeko. Letter adibidearekin ikusi dugun bezala, <strong>WordNet</strong>ek hitzen<br />
adieren desanbiguazioan lagun dezake, baina ingeleseko EBLa izaki,<br />
ezin ditu erdarako ordainak esleitu; hau da, ezin du letter izena gutun<br />
edo carta bezala itzuli. Horretarako, beste hizkuntzetako hiztegi eta<br />
EBLekin bateratu behar da, eta horixe izan da zenbait la<strong>net</strong>an egin<br />
dena: Dorr (1993, 1997) Rigau et al. (1995), Knight (1993), Moon<br />
eta Kim (1995) eta abar. Esate baterako, Knightek (1993) <strong>WordNet</strong>ez<br />
gain, The Harper Collins Spanish-English/English-Spanish Dictionary<br />
(Collins, 1971) eta gaztelaniako ULTRA lexikoia erabili ditu. Hala ere,<br />
itzulpen automatikoko erabilera areagotu egin da, <strong>WordNet</strong>en ondorengo<br />
ereduekin (Euro<strong>WordNet</strong> eta MCR), hauek EBL eleanitzak baitira.<br />
• Informazio-erauzketan: <strong>WordNet</strong> lagungarria izan daiteke erabiltzaileari<br />
beharrezkoa zaion edukia bere barne daukan dokumentua aurkitzeko.<br />
Bilaketan erabilitako hitzek indexatutako dokumentuetan daudenen<br />
berdinak izan behar dute 13 , emaitza egokia lortzeko. Baina, askotan<br />
gertatzen da erabiltzaileak galderan erabilitako hitza ez egotea<br />
indexatua. Kasu horretan, <strong>WordNet</strong>en erlazio semantikoek lagun dezakete,<br />
informazio-erauzketa sistemaren emaitzak hobetuz: sistemak<br />
erabiltzaileak idatzitakoa (demagun, dog dela) hedatu egiten du; hau<br />
da, hitz horren sinonimoak (canis familiaris), hiponimoak (puppy, hunting<br />
dog, dalmatian, Pekinese...) eta hiperonimoak (canine, domestic<br />
animal...) bilatzen ditu. Hala, dog hitzari buruzko galdeketa eginez<br />
gero, sistemak hitz honi lotutako dokumentuak zerrendatzen ditu. Zenbait<br />
saiakera egin dira. Esaterako, Magnini eta Strapparava (2001),<br />
Mandala et al. (1998), Milhacea eta Moldovan (2001), besteak beste.<br />
• Galdera-erantzun sistemetan: <strong>WordNet</strong>eko synseten arteko harremanek<br />
galdera bati dagozkion erantzunak ezagutzen laguntzen dute<br />
(Pasca eta Harabagiu, 2001; Harabagiu eta Moldovan, 1996; Mann,<br />
2002; Ansa et al., 2005, eta abar). Galdera-erantzun sistemek erabiltzaileak<br />
idatzitako galderaren (adibidez, Nor da Kubako gobernuburua?)<br />
erantzuna lortzen dute. Horretarako, informazio-erauzketan<br />
13 Informazio-erauzketa egin ahal izateko, aldez aurretik, dokumentuak egituratu behar<br />
dira, gero sistemari bilaketak errazteko.
80 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
bezala, galderan erabilitako hitzak indexatutako dokumentuetan agertu<br />
behar dute, hauetatik erantzun zehatza lortu ahal izateko. Hala,<br />
galde-erantzunean informazio-erauzketa beharrezkoa da, galderaren<br />
erantzunak indexatutako dokumentuetan bilatzen baitira. Beraz, hemen<br />
ere <strong>WordNet</strong>en erlazio semantikoak erabilita galdera hedatu egiten<br />
da: esate baterako, gobernu-bururen hiponimoak lehendakari eta presidente<br />
dira, eta hiperonimoak ordezkari, pertsona eta abar. Hauei esker,<br />
galderaren erantzuna bilatzeko erabili behar diren dokumentuen esparrua<br />
handitu egiten du. Hau da, Kubako gobernu-burua duten dokumentuak<br />
begiratzeaz gain, sistemak Kubako presidentea edota Kubako<br />
lehendakaria duten dokumentuetan ere begiratuko du erantzunaren bila.<br />
Azkenik, nabarmendu nahi dugu, <strong>WordNet</strong>ekin etiketatutako corpusa<br />
—SemCor (Miller et al., 1994; Fellbaum et al., 2001)— oso lagungarria<br />
gerta daitekeela ataza hauentzat guztientzat. Sistemek corpusetik<br />
ikasi egiten dute. Arestian aipatutako adibidearekin jarraituz,<br />
letter hitza ‘gutun’ adierarekin etiketatutako agerpe<strong>net</strong>an zein testuingurutan<br />
agertu den ikasiko du. Hau da, letter hitza gutun adierarekin<br />
agertu den bakoitzean, bere testuinguruko hitzak (eta hitz horien<br />
adierak) zein diren memorizatu egingo du nolabait makinak. Honela,<br />
letter hitzaren hurrengo agerpe<strong>net</strong>an, memorizatutako informazio ho<strong>net</strong>an<br />
oinarrituko da makina erabaki bat hartzeko. Hau guztia teknika<br />
estatistiko konplexuak erabiliz egiten da.<br />
Aipatu dugun bezala, <strong>WordNet</strong> abiapuntutzat hartuta, beste ezagutzabase<br />
batzuk egin dira: Euro<strong>WordNet</strong> (Vossen, 1998) eta The Multilingual<br />
Central Repository (MCR)(Atserias et al., 2004). Oinarri bera erabili arren,<br />
aberasketa batzurekin hornitu dute <strong>WordNet</strong>. Hurrengo ataletan (IV.2 eta<br />
IV.3) hauen berri emango dugu, oso laburki bada ere. Batez ere, sintaxisemantika<br />
elkarguneari erreparatuko diogu.<br />
IV.2 Euro<strong>WordNet</strong><br />
Euro<strong>WordNet</strong> proiektua (Vossen, 1998) 1996an hasi eta 1999 urteraino luzatu<br />
zen proiektu europarra da. Ezagutza-base eleanitza da, Europako zortzi<br />
hizkuntzatara zabaltzen dena (ingelesa, nederlandera, italiera, gaztelania,<br />
alemana, frantsesa, txekiera eta estoniera).
IV.2 Euro<strong>WordNet</strong> 81<br />
Euro<strong>WordNet</strong>ek Princetoneko <strong>WordNet</strong>aren eredua jarraitzen du (ikus<br />
IV.1 atala); hots, Princetonen ingeleserako egindako <strong>WordNet</strong>aren hierarkiaren<br />
ideia bera darabil honek ere, eta modu berean adierazten dira, bai<br />
synsetak, bai erlazio semantikoak.<br />
Nahiz eta Euro<strong>WordNet</strong>en hizkuntza bakoitzak word<strong>net</strong> “independente”<br />
bat izan, Euro<strong>WordNet</strong>en helburua word<strong>net</strong> desberdin hauek guztiak<br />
ezagutza-base eleanitz bakarrean elkartzea da. Horretarako, hizkuntza guztien<br />
word<strong>net</strong> guztiek elkargune bat dute, Inter-Lingual-Indexa (hemendik<br />
aurrera ILI) deritzona, Princetoneko <strong>WordNet</strong> 1.5 bertsioari lotua dagoena.<br />
ILI honen bitartez, hizkuntza guztietako word<strong>net</strong>ak lotuak daude. Beste hitz<br />
batzuetan esanda, synset bera ingelesez, nederlanderaz, italieraz, gaztelaniaz,<br />
alemanez, frantsesez, txekieraz eta estonieraz agertzen da.<br />
IV.1 Irudia: Euro<strong>WordNet</strong>eko arkitektura.<br />
IV.1 irudiak eskematikoki word<strong>net</strong> desberdinen eta ILIaren arteko harremanak<br />
azalerazten ditu. Erdian ILIa dago, non ILI-records deiturikoak<br />
jasotzen diren. ILI-record bakoitza word<strong>net</strong>etako synset bati lotua dago 14 .<br />
Esate baterako, irudiko ILI-recorda gaztelaniako conducir synsetari lotua da-<br />
14 ILIko adierak Princetoneko <strong>WordNet</strong> 1.5 bertsiotik ateratakoak dira.
82 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
go, eta baita adiera hori bera duten beste hizkuntzetako driveri, rijdeneri eta<br />
guidareri ere. Hala, ILIan ILI-recordak daude, eta hauek hierarkian antolatu<br />
gabeko adieren zerrenda osatzen dute. ILIan adierak antolatu gabe egotean,<br />
ILIaren mantentze-lanak erraztu egiten ditu (bertsioen eguneraketak eta bestelako<br />
aldaketak eragozten dira honela). Hala ere, ILI-recorden egitura erauzi<br />
daiteke word<strong>net</strong> independenteetatik; hots, irudiko ILI-recordaren harreman<br />
semantikoak word<strong>net</strong> bakoitzean zeintzuk diren jakin dezakegu, ILI horrek<br />
word<strong>net</strong> independente guztiekin lotura duelako, eta word<strong>net</strong> independenteetako<br />
synsetak hierarkikoki antolatuta daudelako.<br />
<strong>WordNet</strong>en egitura, erlazio semantikoetan eta synsetetan oinarritu arren,<br />
<strong>WordNet</strong>ek ez zituen ezaugarri batzuk Euro<strong>WordNet</strong>en gaineratu dira.<br />
Aldaketarik aipagarrienak hurrengoak dira 15 :<br />
• Erlazio semantikoen aberasketa:<br />
<strong>WordNet</strong>eko erlazio semantiko batzuk findu egin dituzte eta beste erlazio<br />
semantiko batzuk aberastu. Batez ere, morfologikoki aldatzen diren kategoria<br />
ezberdinen arteko erlazioak ugaritu dituzte (nice eta niceness bezalakoak,<br />
alegia).<br />
Bestalde, Euro<strong>WordNet</strong>ek ez du <strong>WordNet</strong>en interfaze informatikoa;<br />
Euro<strong>WordNet</strong>ena interfaze berria da, hizkuntza bakoitzeko word<strong>net</strong>ak erlazio<br />
berriak gehitzeko aukera duelarik.<br />
• Hierarkiaren aberasketa:<br />
<strong>WordNet</strong>ek zuen hierarkiari, Domeinu-ontologia (Domain ontology) etaGoiontologia<br />
bat (Top ontology) gehitu dizkiote.<br />
Lehenbizikoak, synsetak domeinuen arabera antolatzen ditu: free time,<br />
restaurant, traffic, eta abar. Esate baterako, jokatu aditzak kirola adierazten<br />
duenean (futbolean jokatu diogunean, adibidez), synset horrek free time<br />
domeinuaren marka eramango du; zuzen jokatu esan nahi dugunean, ordea,<br />
adiera horri dagokion synsetak psychology marka izango du 16 .<br />
Bigarrenak, word<strong>net</strong> ezberdi<strong>net</strong>an gehien erabilitako synsetak oinarrizko<br />
ezaugarri semantikoen arabera sailkatzea ahalbidetzen du 17 , eta nolabait<br />
15 Argibide gehiago Vossenen lanean (1998).<br />
16 Domeinuen sailkapena ez da Euro<strong>WordNet</strong>eko interfazean ikusten, beste fitxategi ba-<br />
tzuetan daude.<br />
17 Goi-ontologiak goi aldeko synsetak sailkatu arren, hauen azpian dauden synsetek ere<br />
sailkapen hori mantentzen dute, beraien hiperonimoen ezaugarriak heredatzen dituztelako.
IV.2 Euro<strong>WordNet</strong> 83<br />
esateko, Euro<strong>WordNet</strong>eko domeinuen antza badute ere, hauen garapenean<br />
motibazio linguistiko sakonagoak hartu dira kontuan. Hau da, tasun linguistikoak<br />
([+/- bizidun], [+/- egile] adibidez) kontuan hartzen dituen ontologia<br />
da eta word<strong>net</strong>ak tasun hauen arabera eraikitzen dira. Hortaz, ale lexikal<br />
bat [+biziduna] bada Goi-ontologiaren [+biziduna] adabegiaren azpian kokatuko<br />
da eta [-biziduna] bada, aldiz, [-biziduna] ezaugarriaren azpian. Hala,<br />
<strong>WordNet</strong>en hierarkia mantentzen dute, baina, hierarkia hau ontologia linguistikoago<br />
batekin aberasten dute.<br />
Oinarrizko ezaugarri semantikoak definitzerakoan, Euro<strong>WordNet</strong>en sortzaileak<br />
hizkuntzalaritzan egon diren zenbait sailkapen semantikoen eredutan<br />
oinarritu dira: Vendler (1967), Verkuyl (1972), Dowty (1979), Pustejovsky<br />
(1991), Levin (1993), Lyons (1977) eta Pustejovsky (1995) autoreen ereduetan,<br />
besteak beste.<br />
Guztira, 63 ezaugarri semantikok osatzen dute Goi-ontologia hau, eta<br />
Lyonsen lanari (1977) jarraituz hiru maila bereizi dituzte:<br />
• Lehenengo mailako entitateak (1st Order Entity): Zentzuen<br />
bidez antzeman daitezkeen eta denboran/lekuan antzeman daitekeen<br />
entitateak dira (animalia, objektu, substantzia eta antzeko ale lexikalak).<br />
• Bigarren mailako entitateak (2nd Order Entity): Edozein egoera<br />
estatiko edo dinamiko, zentzuen bidez objektu fisiko bezala ezagutu<br />
ezin daitekeena. Denboran koka daitezke eta gertatu egiten dira existitu<br />
baino gehiago (gertatu, hasi, jarraitu, izan, eduki, amaitu bezalako ale<br />
lexikalak). Beraz, ekintzak, prozesuak eta egoerak adierazten dituzten<br />
ale lexikalak maila honen azpian egongo dira.<br />
• Hirugarren mailako entitateak (3rd Order Entity): Ikus ezin<br />
daitezkeen proposizioak dira, denbora eta lekuan koka ezin daitezkeenak.<br />
Proposizioak direnez, egiatzat edo gezurtzat uler daitezke,<br />
errealtzat edo irrealtzat baino (ideia, pentsamendu, informazio, teoria,<br />
plana bezalakoak).<br />
Goi-ontologiako maila hauen arteko desberdintasuna ageriagoa da hauek<br />
adierazteko erabiltzen diren kategoria sintaktikoei erreparatzen badiegu:<br />
• Lehenengo mailako entitateak (1st Order Entity): izen<br />
konkretuak
84 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
• Bigarren mailako entitateak (2nd Order Entity): izenak<br />
(orotarikoak), aditzak eta adjektiboak<br />
• Hirugarren mailako entitateak (3rd Order Entity): izen<br />
abstraktuak<br />
IV.1 irudian Goi-ontologiaren hierarkia guztia zerrendatua ikus dezakegu.<br />
Goi-ontologiak EBLaren informazioa aberasteaz gain, beste zeregin bat<br />
ere badu: word<strong>net</strong> independenteen bateragarritasuna ziurtatzea. Esan dugun<br />
bezala, gehien erabiltzen diren synsetak oinarrizko ezaugarri semantikoen<br />
arabera sailkatzen ditu goi-ontologiak. Gehien erabiltzen diren synset hauei<br />
oinarrizko kontzeptuak (Base Concepts) deitzen zaie eta beraien ezaugarriak<br />
hurrengoak dira:<br />
• Harreman semantikoen kopuru handiena duten synsetak dira.<br />
• Hierarkian goi aldeko synsetak dira.<br />
• Word<strong>net</strong> guztietan agertuko dira.<br />
Euro<strong>WordNet</strong>eko datu-baseak hizkuntza bakoitzeko word<strong>net</strong> independente<br />
bat egiteko aukera ematen du, baina gutxieneko bateragarritasun bat ziurtatzeko<br />
oinarrizko kontzeptuen zerrenda adostu egin zen, eta word<strong>net</strong> bakoitzaren<br />
garapena synset horiekin hasi zen. Hortaz, word<strong>net</strong> guztiek izango<br />
dituzte oinarrizko kontzeptu berdinak, eta hierarkikoki era berean antolatuak<br />
egongo dira.<br />
IV.1 irudian ikus daitekeen bezala, Goi-ontologia eta Domeinuontologia<br />
word<strong>net</strong>etatik independente dauden moduluak dira. Hauen ezaugarriak<br />
ILI-recordek jasoko dituzte, eta ILI-record horien bitartez word<strong>net</strong>etako<br />
synsetek. Esate baterako, Location eta Dynamic goi-ezaugarriak<br />
drive ILI-recordari daude zuzenean lotuta, eta, ondorioz, ezaugarri hauek<br />
zeharka jasotzen dituzte ILI-record horrekin harrema<strong>net</strong>an dauden word<strong>net</strong><br />
desberdi<strong>net</strong>ako kontzeptuek (guidare, conducir, drive, rijden).<br />
Euro<strong>WordNet</strong> <strong>WordNet</strong>en oinarritutako ezagutza-basea denez, informazio<br />
sintaktiko-semantikoa, <strong>WordNet</strong>en parekoa da (ikus IV.1.2 atala).<br />
Hala eta guztiz ere, Euro<strong>WordNet</strong>eko Goi- eta Domeinu-ontologiari esker,<br />
informazio sintaktiko-semantikoa aberatsagoa du. Hau da, <strong>WordNet</strong>en synset<br />
batek bere tasun sintaktiko-semantikoak hierarkiatik jasotzen ditu;<br />
Euro<strong>WordNet</strong>ek synset hauek guztiak ditu, eta gainera Goi- eta Domeinuontologiatik<br />
datozkionak.
IV.2 Euro<strong>WordNet</strong> 85<br />
Top<br />
1st Order Entity 2nd Order Entity<br />
Origin Situation Type<br />
Natural Dynamic<br />
Living Bounded Event<br />
Plant Unbounded Event<br />
Human Static<br />
Creature Property<br />
Animal Relation<br />
Artifact<br />
Form Situation Component<br />
Substance Cause<br />
Solid Agentive<br />
Liquid Phenomenal<br />
Gas Stimulating<br />
Object Communication<br />
Composition Condition<br />
Part Existence<br />
Group Experience<br />
Function Location<br />
Vehicle Manner<br />
Representation Mental<br />
Money Representation Modal<br />
Language Representation Physical<br />
Image Representation Possession<br />
Sofware Purpose<br />
Place Quantity<br />
Occupation Social<br />
Instrument Time<br />
Garment Usage<br />
Furniture<br />
Covering<br />
Container<br />
Comestible<br />
Building<br />
3rd Order Entity<br />
IV.1 Taula: Euro<strong>WordNet</strong>eko Goi-ontologia.
86 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
IV.1.2. atalean run aditza hartu dugu adibide gisa, <strong>WordNet</strong>en dagokion<br />
unique beginnerrak ({travel, go, move, locomote} synsetak) mugimendu tasuna<br />
ematen diola ikusteko. Euro<strong>WordNet</strong>en run synset honek berak, tasun<br />
hori izango du (IV.2 irudian motion), baina horretaz gain, interfazean bertan<br />
(ikus IV.2 irudia) Goi-ontologiako dynamic eta location tasunak ere ikusten<br />
ditugu 18 .<br />
IV.2 Irudia: Run aditzaren synset bat eta bere hiperonimoak EuroWord-<br />
Neteko interfazean.<br />
IV.2 irudian Euro<strong>WordNet</strong>eko synsetek interfazean duten itxura ikus dezakegu,<br />
eta bertan gorriz dauden Dynamic eta Location dira Goi-ontologiako<br />
markak. Nahiz eta Goi-ontologiako tasunak run aditzaren synsetean bertan<br />
ez egon, bere hiperonimoetatik jasotzen ditu. Euro<strong>WordNet</strong>en tasun hauek<br />
ez dituzte synsetez synset adierazten, defendatzen dutelako hierarkiari esker<br />
herentziaz jaso daitezkeela.<br />
Azalduriko ezaugarriek —eleaniztasunak eta ikerkuntzarako erabilgarria<br />
izateak, alegia— oso egoki bihurtu dute ezagutza-base hau LNPren bar-<br />
18 Aditz honek Goi-ontologiako bi adabegietan du hastapena.
IV.3 The Multilingual Central Repository (MCR) 87<br />
nean erabiltzeko, batik bat, informazio-erauzketa elebakar eta elebidunerako<br />
(Cuypers et al., 1997; Gilarranz et al., 1996; Vossen, 1997). Arrazoi horregatik,<br />
gaur egun, hainbat word<strong>net</strong> berri sortzen ari dira (katalana, portugesa,<br />
grekoa, suediarra, errumaniarra, bulgariarra, norvegiarra, lituaniarra, errusiarra...),<br />
Euro<strong>WordNet</strong>en ezagutza-basean oinarrituta. IXA taldean ere,<br />
tesi ho<strong>net</strong>an arrazoitutakoari jarraiki, euskararako word<strong>net</strong>a garatzen hasi<br />
gara (Agirre et al., 2002). Euro<strong>WordNet</strong> kontsultarako interfazea publikoa<br />
da 19 .<br />
IV.3 The Multilingual Central Repository (MCR)<br />
The Multilingual Central Repository (MCR) interfaze eleanitza da, non Europa<br />
Batzordeko MEANING: Developing Multilingual Web-Scale Language<br />
Technologies (IST-2001-34460) proiektuan (Rigau et al., 2003) aztertu den<br />
informazio guztia integratzen den. Ezagutza-base honek Euro<strong>WordNet</strong>en<br />
eredua jarraitzen du.<br />
MCRk bost hizkuntzetako word<strong>net</strong>ekin egiten du lan: euskara, katalana,<br />
ingelesa (Princetoneko <strong>WordNet</strong>aren 1.5, 1.6, 1.7 eta 1.7.1 bertsioekin), italiera<br />
eta gaztelania. MCR bost hizkuntza horien izen, aditz, adjektibo eta<br />
adberbioen adieren inbentarioa da, eta Euro<strong>WordNet</strong>en ereduari jarraiki, hizkuntza<br />
guztiak lotuta daude. Horregatik, hizkuntza bateko synset batekin<br />
beste hizkuntzetakoa ere ikusgarri dago.<br />
MCR Euro<strong>WordNet</strong>en bertsio aurreratuagoa da. Hortaz, EuroWord-<br />
Neten gisa, MRCn ILIak (kasu ho<strong>net</strong>an <strong>WordNet</strong> 1.6n oinarritutakoa),<br />
Goi-ontologia eta Domeinu-ontologiak erabiltzen ditu. MCR <strong>WordNet</strong> eta<br />
Euro<strong>WordNet</strong>en informazioaz baliatzen da, eta ho<strong>net</strong>az gain, informazio berria<br />
dakar:<br />
• Domeinu-ontologiaren bertsio aberatsago bat:<br />
Euro<strong>WordNet</strong>eko domeinuak ugaritu eta orraztu dituzte 20 , hierarkian egon<br />
zitezkeen irregulartasunak gainditzeko. Bestalde, entitate edo izen bereziei<br />
19http://ixa2.si.ehu.es/mcr/wei.html (2007-07-02an atzitua) web orrian dago eskuragarri.<br />
20Euro<strong>WordNet</strong>eko hainbat domeinu gehiago zehaztu dituzte, “azpidomeinuak” sortuaz.<br />
Esate baterako, jokatu aditzak kirol adiera duenean, Euro<strong>WordNet</strong>eko free time domeinua,<br />
domeinuaren barruko sport azpidomeinuarekin zehaztu dute.
88 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
domeinuak esleitu dizkiete, eta horren ondorioz, domeinuka antolatutako izen<br />
berezi eta entitateen ezagutza-base bat da egitasmo horren emaitza.<br />
• The Suggested Upper Merged Ontology:<br />
The Suggested Upper Merged Ontology (SUMO) (Niles eta Pease, 2001) Terminology<br />
Corporationen sortutako goi-ontologia da, IEEE Standard Upper<br />
Ontology Working taldean abiapuntu gisa erabiltzen dutena. SUMO, ontologia<br />
ezberdinen bilkuraren emaitza da — Sowa-ren (2000) goi-ontologia, Allenen<br />
(1984) denbora-axiomak, Guarino-ren mereotopologia formala (Guarino,<br />
1997; Borgo et al., 1996), <strong>WordNet</strong> 1.6...—, eta termino orokorren definizioak<br />
jasotzen dira.<br />
MCRn, oraingoz, SUMOko hiperonimia erlazioak eta etiketak bakarrik<br />
daude.<br />
• Hautapen-murriztapenak:<br />
MCR ezagutza-baseak aditzen hautapen-murriztapenak kontsultatzeko aukera<br />
ematen du Role erlazio semantikoa erabilita. Zazpi Role mota daude:<br />
agentea (Role agent), norabidea (Role direction), baliabidea (Role instrument),<br />
kokalekua (Role location), gaia (Role patient), abiapuntua (Role<br />
source location) etahelmuga (Role target direction).<br />
Hala ere, nahiz eta interfazeak hautapen-murriztapenak jasotzeko aukera<br />
izan, Role harreman semantiko hauek hutsik daude; hots, oraindik ez da<br />
informazio hau eskuratu eta interfazean txertatu. Dena den, synseten arteko<br />
hautapen-murriztapenak eskuratzeko, dagoeneko saiakera batzuk egin<br />
dira: Carroll et al. (2003) eta tesi-txosten honen VII. kapituluan dakarkiguna.<br />
Bi lan hauetan hautapen-murriztapenen azterketa automatikoa egin<br />
da; hau da, teknika konputazional desberdinak erabiliaz zenbait corpusetatik<br />
(British National Corpus eta SemCorretik, hain zuzen ere) aditzen hautapenmurriztapen<br />
batzuk eskuratu eta ebaluatu dira. Eskuratze automatikorako<br />
baliabide eta teknika konputazional ezberdinak baliatzen dira, konbinazio<br />
ezberdinen emaitzak alderatzeko. Hala, emaitzarik onenak ematen dituen<br />
teknika-baliabideen konbinazioa definitu ondoren, hautapen-murriztapenen<br />
eskuratzea masiboa egingo da, gerora, MCRn txeratzeko.<br />
Hala, corpusetako datuetan oinarrituz, Role erlazio semantikoen bitartez<br />
aditz batekin ager daitezkeen ale lexikoak eta har ditzaketen rol tematikoak<br />
bereizteko gai dira. Ondorioz, MCRn aditzaren rol tematikoen berri ematen<br />
duen erlazio semantikoa genuke.
IV.3 The Multilingual Central Repository (MCR) 89<br />
MCRn, ale lexikalak kategoriaka antolatuta daudenez (<strong>WordNet</strong> eta<br />
Euro<strong>WordNet</strong>en bezala) Role erlazioak inplizituki azpikategorizazioaren berri<br />
ere eman dezake. Esate baterako, eta IV.3 irudian adierazten den bezala,<br />
Role patient erlazioaren bidez jakin genezake edari izena edan aditzaren<br />
hautapen-murriztapena dela 21 , izena dela bere kategoria eta gaia bere rol tematikoa.<br />
IV.3 irudiak Role patient erlazioa MCRn nola adieraziko litzatekeen<br />
erakusten du.<br />
IV.3 Irudia: edari izenari dagokion Role patient erlazioa MCR interfazean.<br />
21 Edan aditzaren hautapen-murriztapena edari eta honen hiponimo guztiak ere badira.
90 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR<br />
IV.4 Irudia: Gaztelaniako pasta izenaren bi synset MCR interfazean.<br />
MCRren kontsultarako interfazea publikoa da 22 . IV.4 irudian, MCRko<br />
synsetek duten itxura ikus dezakegu. Euro<strong>WordNet</strong>eko interfazearen oso antzekoa<br />
izan arren, interfaze hau informazio gehiagorekin aberastu da (Goiontologia,<br />
Domeinu-ontologia, SUMO, etab.). Kasu ho<strong>net</strong>an, gaztelaniako<br />
pasta izenaren bi synset ditugu: bata ‘jaki’ adierari dagokiona (shaped and<br />
dried dough made from flour and water and sometimes egg glosaduna), eta<br />
bestea ‘diru’ adierari dagokiona (informal terms for money). Kontzeptu hauek<br />
guztiak ingelesez, katalanez, euskaraz eta italianoz ere ikus daitezke.<br />
Goi-ontologia, Domeinu-ontologia eta SUMOk synset hauen adiera ezberdintasuna<br />
hobeto ulertzen laguntzen dute. Euro<strong>WordNet</strong>en bezala, interfazearen<br />
ezkerretara eta gorriz Goi-ontologiako ezaugarriak adierazten dira:<br />
Comestible, Natural eta Substance ‘jaki’ari dagokion synsetarentzat; eta<br />
22 http://adimen.si.ehu.es/cgi-bin/wei5/public/wei.consult.perl (2007-07-<br />
02an atzitua).
IV.4 Laburbilduz 91<br />
Artifact, Function eta Money Representation ‘diru’ari dagokion synsetarentzat.<br />
Aipatu dugun bezala, Euro<strong>WordNet</strong>en tasun hauek ez dituzte synsetez<br />
synset adierazten, hierarkiari esker herentziaz jaso baitaitezke. MCRn, ordea,<br />
tasun hauek synset guztietan ikus daitezke. Horrela, informazio hori jakiteko<br />
ez dago hiperonimoetara jo beharrik. Lila kolorea baliatuz, SUMOren<br />
tasunak azaltzen dira: Food, ‘jaki’ari dagokion synsetarentzat; eta Currency<br />
Measure, ‘diru’ari dagokionarentzat. Beltzez, Domeinu-ontologiari dagozkion<br />
tasunak adierazten dira: gastronomy, ‘jaki’ari dagokion synsetarentzat,<br />
eta money ‘diru’ari dagokionarentzat. Adibide ho<strong>net</strong>an ez dago hautapenmurriztapenei<br />
buruzko informaziorik, baina hauen berri IV.3 irudian eman<br />
dugu.<br />
Horrela bada, <strong>WordNet</strong> eta Euro<strong>WordNet</strong> ezagutza-baseen ildotik jarraituz,<br />
MCRk erakutsi du hasieran egitasmo semantiko eta psikolinguistiko<br />
soilekin burutu zen ezagutza-basea baliagarria izan daitekeela informazio<br />
sintaktiko-semantikoa jasotzeko ere. Proiektu honen hurrengo urratsetan<br />
MCR informazio sintaktiko-semantiko gehiagorekin (azpikategorizazioa, erlazio<br />
semantiko konplexuagoak diatesi-alternantziak, Dorren ELKak (1997),<br />
eta abar) osatzeko asmoa dago.<br />
IV.4 Laburbilduz<br />
Kapitulu ho<strong>net</strong>an <strong>WordNet</strong> ereduaren azterketa sakonago bat aurkeztu dugu.<br />
<strong>WordNet</strong>en ardatza synseta eta hiperonimia-hiponimia harremana dela<br />
azaltzeaz gain, eredu honek dituen beste harreman semantiko eta ezaugarri<br />
batzuk ere aipatu ditugu. Euro<strong>WordNet</strong> eta MCR <strong>WordNet</strong>en hedapen<br />
eleanitzak izaki, eredu batetik bestera zer aberasketa egon diren deskribatu<br />
dugu.
92 <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta MCR
<strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako<br />
metodologia<br />
V. KAPITULUA<br />
IXA taldearen beharretara gehien egokitzen den EBL formalismoa <strong>WordNet</strong>,<br />
Euro<strong>WordNet</strong> eta The Multilingual Central Repositoryren (MCR) ildotik sortutako<br />
euskal EBLa <strong>Euskal</strong> <strong>WordNet</strong> deitu dugu.<br />
Kapitulu ho<strong>net</strong>an, <strong>Euskal</strong> <strong>WordNet</strong>en garapenean hartutako erabaki metodologikoak<br />
deskribatuko ditugu, eta, erabaki hauen arabera, <strong>Euskal</strong> Word-<br />
Neten garapenak izandako urratsak ere azalduko ditugu.<br />
Lehenik eta behin, <strong>Euskal</strong> <strong>WordNet</strong> nola garatu behar zen erabaki behar<br />
genuen. Izan ere, nahiz eta <strong>WordNet</strong>en egitura eta oinarriak izan, hainbat<br />
ikuspegi eta metodologia erabil zitezkeen garapenerako:<br />
• <strong>WordNet</strong>en hierarkia jarraitzea eta bertako synsetei zuzenean esleitzea<br />
euskarako ordainak.<br />
• Guk geuk sortzea euskarako adieren inbentarioa eta hierarkia, eta gero<br />
Inter-Lingual-Indexari (ILIari) (ikus IV.2 atala) lotzea.<br />
Bi aukera hauek aztertu ditugu, eta lehenengoaren alde egin dugu.<br />
Erabaki horren berri V.1 atalean emango dugu.<br />
Bestetik, <strong>Euskal</strong> <strong>WordNet</strong> garatzeko diseinatu dugun metodologiak irizpide<br />
batzuk behar zituen. Alde batetik, eta aurrerago aipatu izan dugun bezala<br />
(ikus III.1), <strong>Euskal</strong> <strong>WordNet</strong> estaldura handikoa izan behar zuen, hots, lexiko<br />
zabalekoa eta ikuspegi orokorrekoa. Bestetik, kalitate onekoa. Bi irizpide
94 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
hauen arabera, <strong>Euskal</strong> <strong>WordNet</strong>en garapena aldi eta modu ezberdi<strong>net</strong>an burututako<br />
prozesua izan da: aberasketa automatikoa eta eskuzkoa konbinatuz;<br />
eta hainbat hiztegi elebakar eta elebidunenez baliatuz eta corpusetik jasotako<br />
informazioa baliatuz.<br />
Metodologia hauek izenen aberasketarako erabili dira, <strong>Euskal</strong> Word-<br />
Neten garapenaren lehenengo urratsak ize<strong>net</strong>an oinarritu baitziren.<br />
V.2 atalean sakonduko dugu fase hauetako bakoitzean. Izenen aberasketarekin<br />
amaitu ondoren 1 , orain aditzen aberasketarekin hasteko garaia da.<br />
Hala ere, aditzek duten informazio aberatsa dela-eta (azpikategorizazioa,<br />
hautapen-murriztapenak...), hauen orrazketarako eta aberasketarako hainbat<br />
metodologia aztertu ditugu.<br />
V.3 atalean, batetik, aditzen lanketak arreta berezia zergatik merezi duen<br />
azalduko dugu; eta bestetik, aditzak garatzeko zer metodologia probatu ditugun<br />
deskribatuko dugu, hauetatik zein aukeratu dugun ondorioztatuko dugularik.<br />
Beraz, kapitulu ho<strong>net</strong>an, <strong>Euskal</strong> <strong>WordNet</strong>en hastapenaren nondik norakoak<br />
azalduko ditugu. Azken urteotan izenen garapenean izandako faseak<br />
zehazki deskribatuko ditugu, eta oraindik hasi gabe dugun aditzen garapenerako<br />
landu ditugun metodologia ezberdinak aurkeztuko ditugu.<br />
Azkenik, esan beharra dago, adjektiboen eta adberbioen lanketa tesi-lan<br />
honen etorkizunerako lan bezala utzi dela.<br />
V.1 Diseinua eta metodologia<br />
<strong>Euskara</strong>ko EBLa egiteko oinarrituko garen eredua erabaki ondoren, eta EBL<br />
hori —aztertutako EBL gehienak bezala— ingeleserako sortuta dagoela ikusita,<br />
beste erabaki berri baten aurrean gaude: euskaraz dauden corpusetatik<br />
eta hiztegietatik abiatuta euskarako word<strong>net</strong>a sortzea, ala euskararako EBLa<br />
egitea, erdaretarako egin diren word<strong>net</strong>ez baliatuta.<br />
Lehenengo aukeran, sortu beharreko adierak eta hierarkiak Word-<br />
Neteko hierarkiekiko independenteak izango lirateke, eta horrek adieren inbentarioa<br />
eta hierarki bera gure irizpideen arabera garatzeko eta kontrolatzeko<br />
askatasun guztia emango liguke. Baina, bestalde, hurbilpen horrek<br />
1 Lan lexikografikoen antzera, EBLen aberasketa-lanak ez dira inoiz amaitzen. Hala ere,<br />
egindako orrazketa guztien ondoren, <strong>Euskal</strong> <strong>WordNet</strong>ek euskarako izen gehienak jasotzen<br />
dituela esan dezakegu.
V.1 Diseinua eta metodologia 95<br />
lan lexikografiko handia eskatuko luke, eta, horrez gain, hizkuntzen arteko<br />
adieren loturak adierazteko ILIra lotzeko bideak sortu beharko lirateke.<br />
Vossen-ek (1999) merge approach deitu du metodologia hau.<br />
Bigarren aukeran, MCRko hizkuntza bateko word<strong>net</strong>a abiapuntu gisa hartuz<br />
gero, nahiz eta guk ez kontrolatu adieren sorkuntza eta antolamendu<br />
hierarkikoa, lan lexikografikoa beste aukeran baino askoz ere txikiagoa da.<br />
Izan ere, askotan, lana euskarako hitzak ILIari lotzera mugatzen da; hots,<br />
euskarako ordainak zuzenean synset egokiei esleitzea litzateke egin beharreko<br />
lana. Honezaz gain, MCRko ILIari esker, euskarako ordainak ingeleseko<br />
kontzeptuei lotuta geratuko lirateke. Gainera, modu ho<strong>net</strong>an hizkuntzen arteko<br />
adieren loturak egiteko bidea ere ematen zaigu. Vossenek (1999) expand<br />
approach bezala izendatu du metodologia hau.<br />
Tesi-lan ho<strong>net</strong>an, bigarren aukeraren alde egin dugu; hau da, <strong>Euskal</strong><br />
<strong>WordNet</strong>en garapena MCRn oinarritu dugu, eta bertako ingeleseko kontzeptuak<br />
abiapuntutzat harturik, euskarako ordainak lotzen ditugu, eta ez dauden<br />
euskarako kontzeptuak (sagardoa, trikitixa eta abar) txertatzen ditugu 2 .Hala<br />
ere, IXA taldean lehenengo aukerarekin saiakerak egin dira (Agirre et al.,<br />
2003c; Lersundi, 2005), etorkizunean bi hurbilpenen abantailak baliatzeko<br />
asmoa baitago. Ho<strong>net</strong>az gain, beste euskarako hiztegietatik erauzitako hierarkiak<br />
eta erlazio semantikoak ere txertatuko zirela erabaki zen, eta, egun,<br />
egin dira horren inguruko hainbat saiakera IXA taldean (Agirre et al., 2003c),<br />
baina hori ez da tesi honen eremuan sartuko.<br />
Hizkuntza askotako word<strong>net</strong>ak egonik (katalanez, gaztelaniaz, frantsesez,<br />
ingelesez, italieraz, estonieraz, nederlanderaz, txekieraz, estonieraz...),<br />
<strong>Euskal</strong> <strong>WordNet</strong> sortzeko hauetako edozei<strong>net</strong>an oinarritu gintezkeen. Ulermenari<br />
begira, lan lexikografiko urriagoa litzateke synseten adierak gaztelaniaz<br />
ulertzea ingelesez baino. Bestalde, gaztelania-euskarako hiztegi elebidun<br />
gehiago daude ingelesa-euskarakoak baino. Baina ezin da ahaztu, MCRk<br />
ILI-recordak <strong>WordNet</strong> 1.6tik hartu dituela, eta hizkuntzen arteko bateragarritasunari<br />
begira, <strong>WordNet</strong> 1.6eko hierarkian oinarritu zirela proiektuan<br />
parte hartutako hizkuntza guztiak. Arrazoi hauengatik, <strong>Euskal</strong> <strong>WordNet</strong><br />
Princetoneko <strong>WordNet</strong> 1.6 bertsioaren gainean garatzea erabaki genuen,<br />
<strong>WordNet</strong>eko ingeleseko kontzeptuak abiapuntutzat hartuz, euskarako ordainak<br />
hauei lotuz, eta ez dauden euskarako kontzeptuak txertatuz.<br />
<strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzan metodologia aldatuz joan da. Metodo-<br />
2 MCRn ez dauden euskarako kontzeptuak (trikitixa, ikastola eta abar), momentuz, zerrendatzen<br />
ditugu etorkizunean lantzeko.
96 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
logian egondako aldaketa hauek estaldura eta kalitatea uztartzearren izan<br />
dira. Estalduraz hitz egiterakoan, kontzeptu, sarrera lexikal, kategoria, hitzadiera<br />
eta sinonimoen kopuruaz ari gara. Kalitateaz hitz egiterakoan, synset<br />
eta varianten zuzentasunari, osotasunari eta egokitasunari buruz ari gara.<br />
Laburbilduz:<br />
• Zuzentasuna: synsetean dauden variant eta hitz-adierak zuzenak<br />
izatea.<br />
• Osotasuna: synsetari dagozkion variant eta hitz-adiera guztiak<br />
egotea.<br />
• Egokitasuna: synsetean dauden variant eta hitz-adiera guztiek<br />
espezifikotasun maila bera izatea.<br />
Badago faktore bat batzuetan eragina izan duena estaldurari edo kalitateari<br />
garrantzia emateko garaian: baliabide gutxiko eta abiadura handiko<br />
garapenaren beharra. Hau dela eta, hasieran estaldurari garrantzia eman<br />
genion eta kalitatea bermatzea bigarren urrats gisa definitu genuen.<br />
Kategoriei begira, <strong>WordNet</strong>eko lau kategorietatik (izenak, aditzak, adjektiboak<br />
eta adberbioak) lehenengo izenak eta gero aditzak landuko genituela<br />
erabaki zen, hauek informazio lexiko oso garrantzitsua jasotzen dutelako, eta,<br />
ondorioz, LNPn gehien landu direnak direlako.<br />
Hala, hartutako erabakiei jarraituz, <strong>Euskal</strong> <strong>WordNet</strong> eraikitzen joan gara.<br />
Jarraian bereizitako fase bakoitza sakonkiago aztertuko ditugu.<br />
V.2 Izenen garapenerako urratsak<br />
V.2.1 Estaldura helburu: garapen automatikoa eta oinarrizko kontzeptuak<br />
Lehenengo urratsak oinarrizko <strong>Euskal</strong> <strong>WordNet</strong> eraikitzea izan zuen xede,<br />
eta, horregatik, estaldura izan genuen helburu nagusi. Hala, garapenaren<br />
lehenengo urratsean bi bide jorratu genituen:<br />
• Oinarrizko kontzeptuei (Base Concepts izenekoei) euskarako ordainak<br />
eskuz lotu.
V.2 Izenen garapenerako urratsak 97<br />
• Ingeleseko synseten euskal ordainak hiztegi elebidunak baliatuz<br />
—euskara-ingelesa Morris (1998); Aulestia eta White (1990)— automatikoki<br />
sortzea. Garapen automatikoa zer teknika informatikoekin egin<br />
zen eta zer nolako kalitatea lortu zen ikusteko, jo bedi Agirre et al.-era<br />
(2002).<br />
V.2.2 Kalitatea helburu: eskuzko orrazketa eta corpus baten etiketatzea<br />
Hurrengo urratsetan, kalitateari eman zitzaion garrantzi handiago. Kalitatea<br />
lantzeko ere metodologia ezberdinak erabili dira. Hasieran, automatikoki<br />
sortu ziren euskarako synset horien eskuzko orrazketa egin genuen hizkuntzalariok.<br />
Gero, beste orrazketa bat egin genuen Elhuyar Hiztegi Txikia<br />
(Elhuyar, 1998) hiztegiko adierak <strong>Euskal</strong> <strong>WordNet</strong>en zeudela ziurtatzeko eta<br />
synsetean zeuden ordainak egokiak zirela egiaztatzeko. Gaur egun, <strong>Euskal</strong><br />
<strong>WordNet</strong>eko synsetekin eskuz etiketatzen (desanbiguatzen) ari garen euskarako<br />
corpus baten (EuSemcor) informazioa baliatzen ari gara EBLa orrazteko<br />
3 .<br />
V.2.2.1 Kontzeptuz kontzeptuko eskuzko orrazketa<br />
Orrazketa ho<strong>net</strong>an hizkuntzalariok, alde batetik, synsetaren euskarako ordaina<br />
egokia zen ala ez berrikusten genuen; bestetik, synsetean euskarako<br />
beste ordainik behar zen egiaztatzen genuen.<br />
Prozesu hau guztia erraztearren hurrengo pausoak jarraitu ziren:<br />
• Hizkuntzalariontzat lan egiteko erabilerraza den interfazea sortu:<br />
EBLari lotutako interfaze bat sortu zen (Benítez et al., 1998), batetik,<br />
hizkuntzalarioi adierazpide intuitiboa eskaintzeko eta bestetik, aldi berean<br />
hizkuntzalari batek baino gehiagok lan egin ahal izan zezan.<br />
3A eranskinean <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak editatzeko jarraitzen ditugun irizpideak<br />
datoz.
98 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
• Orraztu beharreko synsetak tratatzeko ordena antolatu:<br />
Synseten orrazketa nolabait antolatu beharra zegoen. Nondik hasi behar genuen<br />
hizkuntzalariok synsetak orrazten? Aukera ugari zeuden: hierarkiak<br />
goitik behera jarraituta edota alderantziz (behetik gora), oinarrizko kontzeptuak<br />
lehenengo eta ondoren bestelakoak, ingeleseko edo euskarako ordainaren<br />
arabera, eta abar. Gure ustetan, orrazketaren abiadura azkartuko zen, baldin<br />
eta hizkuntzalariak antzeko synsetak jarraian berrikusten bazituen. Hau<br />
da, berrikusitako synset baten ondoren, berrikusi beharreko hurrengo synseta<br />
klase berekoa bazen, prozesua azkartuko litzatekeela iruditzen zitzaigun.<br />
Hala, synseten orrazketa hiperonimo kateak jarraituta antolatu zen: hierarkia<br />
bakoitzeko synset altue<strong>net</strong>atik —orokorre<strong>net</strong>atik— hasi (unique beginner<br />
deritzona) eta azkeneko hiponimoraino. Orrazketa mota hau ahalbidetzeko,<br />
interfazean aparteko botoi bat gehitu zen, eta hau sakatuz gero, hiperonimo<br />
katean behera jarraituta, orraztu gabe zegoen hurrengo synseta agertzen zen<br />
interfazean.<br />
Orrazketarekin hasi ahala, interfazean beste botoi batzuk gehitu ziren,<br />
interfazea hizkuntzalarion beharretara egokitzeko. Esate baterako, hasiera<br />
batean, hizkuntzalariok zalantzazko synsetei buruzko oharrak eskuz idazten<br />
genituen. Gerora, interfazean botoi bat txertatu zen zalantzazko synsetak<br />
markatzeko. Era ho<strong>net</strong>ara, errazagoa zen zalantzazko synsetak berrikusteko<br />
garaian hauek aurkitzea. Botoi hauen guztien berri A eranski<strong>net</strong>an ematen<br />
da.<br />
Izenak Synset Variant Variant<br />
Lema Variant<br />
synseteko lemako<br />
EusWN 0.1 BC eskuz 228 - - - -<br />
auto. 27.641 291.011 10,5 46.164 6,3<br />
Kontz. eskuz 23.486 41.107 1,7 22.166 1,8<br />
WN 1.6 eskuz 66.025 116.364 1,7 95.135 1,2<br />
V.1 Taula: <strong>Euskal</strong> <strong>WordNet</strong>eko izenen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />
oinarrizko kontzeptuak, sorkuntza automatikoa eta kontzeptuz kontzeptuko<br />
orrazketak egin ondoren.<br />
Kontzeptuz kontzeptuko orrazketarekin amaitzean, aurreko urratsetako<br />
emaitzen ebaluazioa (V.2.1 atalean aipatutakoena) egin genuen. V.1 taulan,<br />
orain arte aipatutako garapen-urratsetan —garapen automatikoa (auto. taulan)<br />
eta kontzeptuz kontzeptuko eskuzko orrazketa (Kontz. eskuz taulan) ize-
V.2 Izenen garapenerako urratsak 99<br />
<strong>net</strong>arako lortu diren kopuruak daude: synsetak, variantak, lemak, synseteko<br />
dauden varianten batezbestekoa, eta lemako dauden varianen batezbestekoa.<br />
Hauekin batera, <strong>WordNet</strong> 1.6 bertsioaren kopuruak ere aurkezten dira<br />
(<strong>Euskal</strong> <strong>WordNet</strong> garatzen hasi ginenean bertsio honekin hasi baikinen).<br />
Alderdi kuantitatiboari begira, kontzeptuz kontzeptuko orrazketaren ondoren<br />
<strong>Euskal</strong> <strong>WordNet</strong> 0.1 bertsioan dauden izenen synseten kopurua (ikus<br />
EusWN 0.1 Kontz. eskuz errenkada V.1 taulan) ez da <strong>WordNet</strong> 1.6 bertsioan<br />
daudenen kopuruaren erdira iristen (ikus WN 1.6 errenkada). Kontzeptuen<br />
estaldura % 38koa izan zen, eta lemena, 22.166 lemekin, % 25ekoa.<br />
Garapen automatikoan synset bakoitzeko dauden varianten eta lemako<br />
dauden adieren batezbestekoa oso handia da (ikus V.1 taulako EusWN 0.1<br />
auto. errenkadan: 10,5 variant synseteko eta 6,3 adiera lemako). Hau sorkuntza<br />
automatikoan arrunta bada ere, honen beste arrazoi bat hauxe izan<br />
daiteke: garapen automatikorako erabilitako hiztegietako batek (Aulestia<br />
eta White, 1990) aldaera ortografiko eta dialektal ugari jasotzen ditu, asko<br />
eta asko azken urteotan <strong>Euskal</strong>tzaindiak onartutako arauekin bat ez datozenak.<br />
Kontzeptuz kontzeptuko orrazketaren ondoren, batezbesteko hauek 1,7<br />
eta 1,8ra jaitsi dira (ikus EusWN 0.1 Kontz. eskuz errenkada), eta Word-<br />
Netekoekin ia berdindu (ikus WN 1.6 errenkadan: 1,7 eta 1,2).<br />
Bestalde, aipatu beharra dago eskuzko orrazketaren ondoren synset, lema<br />
eta variant kopuruak jaitsi direla nabarmen, eta bereziki azken hauena.<br />
Honek adierazten du garapen automatikoan, estaldura handia lortu arren,<br />
forma desegoki asko sartzen dela kalitatearen kaltetan. Kapitulu ho<strong>net</strong>an<br />
zehar aipatu izan dugun bezala, eskuzko orrazketarekin arazo hau konpondu<br />
nahi izan dugu.<br />
Hala ere, hobetu beharreko zenbait puntu antzeman genituen:<br />
• Nahiz eta <strong>Euskal</strong> <strong>WordNet</strong>en hitz bat egon, horrek ez zuen ziurtatzen<br />
hitz honen adiera guztiak EBLan zeudenik. Kontzeptuz kontzeptuko<br />
orrazketa amaitzean, <strong>Euskal</strong> <strong>WordNet</strong>en ez zeuden hitz-adieren kopurua<br />
% 20koa zen. Kalkulu hori egiteko <strong>Euskal</strong> Hiztegia (Sarasola, 1996)<br />
eta <strong>Euskal</strong> <strong>WordNet</strong>en arteko konparaketa bat egin zen (Agirre et al.,<br />
2002).<br />
• Synset barruko varianten espezifikotasun-maila ez zen guztiz egokia.<br />
Askotan, euskarako variantak hierarkiaren maila desegokian zeuden.<br />
Adibidez, religious kontzeptuak (a member of a religious order glosaduna),<br />
euskaraz erlijioso, serora eta lekaide ordainak zituen. Bai serorak eta
100 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
bai lekaidek adiera hori izan dezakete (erlijio-talde baten kide baitira),<br />
baina erlijioso mota bat direnez —bata gizonezko erlijiosoa eta bestea<br />
emakumezkoa—, hierarkian ez dagokie leku hori. Aitzitik, erlijioso<br />
synsetaren hiponimo bana beharko lukete.<br />
• <strong>Euskal</strong> <strong>WordNet</strong>eko hitzen adieren espezifikotasun-maila erreferentzia<br />
gisa erabilitako hiztegiena baino finagoa da. Esate baterako, Hiztegi<br />
Modernoak (Elhuyar, 2000) lantegi izenarentzat hiru adiera ematen<br />
ditu:<br />
(a) Eskuzko lanen bat egiten den tokia, tailerra; Zurgin-lantegia.<br />
(b) Fabrika; Hegazkin-lantegi batean.<br />
(c) Lana, egitekoa, lanbidea; Lantegi gogorra baso-mutilarena.<br />
Eta <strong>Euskal</strong> <strong>WordNet</strong>en hitz horrek sei synset ditu:<br />
(a) Industria-lana egiteko eraikina; Beraiek autoak produzitzeko lantegi bat eraiki<br />
zuten.<br />
(b) Eskulanak edo fabrikazioa egiten den eraikin txikia; Osaba bere lantegian espartigintzan<br />
ari da.<br />
(c) Jarduera profesionala egiten den tokia; Bere lantegira eraman behar duzu mezua.<br />
(d) Talde txiki batentzako ikastaro labur eta trinkoa; arazo bat konpontzera bideraturik;<br />
Gorputz adierazpeneko lantegi.<br />
(e) Ahalegina eginiko lanaren parteetako bat. Haur eta gazte literatura zituen beste<br />
zenbait lantegi.<br />
(f) Pertsona baten bizitzako aktibitate nagusia, zeinek dirua irabazteko aukera ematen<br />
duen; Aurrez ezagutzen zuten lantegiari lotu ziren: ardiari, alegia.<br />
Orrazketa honen emaitzak eta ondorioak ikusita, ondoren azalduko dugun<br />
eskuzko orrazketari ekin genion.
V.2 Izenen garapenerako urratsak 101<br />
V.2.2.2 Hitzez hitzeko eskuzko orrazketa<br />
Hitzak Elhuyar Hiztegi Txikian (Elhuyar, 1998) zituen adiera guztiak <strong>Euskal</strong><br />
<strong>WordNet</strong>en zituela ziurtatzea zen urrats honen helburua, eta, era berean,<br />
synsetean zeuden ordainak egokiak zirela egiaztatzea. Azken finean, aurreko<br />
urratseko lan berbera egiten genuen, baina beste ikuspegi osagarri batetik<br />
begiratuz.<br />
Garapen-urrats ho<strong>net</strong>arako, lehenengo Elhuyar Hiztegi Txikiko izenen<br />
sarrerak corpuseko (<strong>Euskal</strong>dunon Egunkaria 4 eta XX. mendeko euskararen<br />
corpus estatistikoa 5 ) maiztasunaren arabera ordenatu ziren: maiztasun handie<strong>net</strong>ik<br />
txikienera. Hala, euskaraz gehien erabiltzen ziren izenak EBLan<br />
landuta zeudela ziurtatzen genuen. Ondoren, zerrendako izen bakoitzarekin<br />
hurrengoa izan zen hizkuntzalarion lana:<br />
• Adieren estaldura ziurtatzea: hitzaren adiera arruntenak <strong>Euskal</strong><br />
<strong>WordNet</strong>en sartu.<br />
• Varianten estaldura ziurtatzea: Sinonimoen Hiztegia baliatuz<br />
(UZEI, 1999), synsetean variant/sinonimo guztiak daudela ziurtatu.<br />
• Hitzaren adieren zuzentasuna bermatzea: <strong>Euskal</strong> <strong>WordNet</strong>en<br />
dauden adiera guztiak zuzenak direla ziurtatzea.<br />
• Hitzaren adieren estaldura bermatzea: hitzaren adiera guztiak<br />
<strong>Euskal</strong> <strong>WordNet</strong>en daudela ziurtatzea.<br />
• Synset barruko varianten espezifikotasun-maila egokia ziurtatzea:<br />
euskarakovariantak hierarkiaren maila egokian egon daitezen,<br />
honen hiperonimo eta hiponimoei begiratzea. Hala, religious kontzeptuarekin<br />
aipatutako arazo mota hori eragozten da.<br />
• Hitzen adieren espezifikotasun-maila: lantegi adibidearekin ikusi<br />
dugun bezala, askotan <strong>Euskal</strong> <strong>WordNet</strong>eko hitzen adieren espezifikotasun-maila<br />
erreferentzia gisa erabilitako hiztegiena baino finagoa da.<br />
Hiztegietan ez dauden adiera edo synset horiei euskarako ordaina sartuko<br />
zaie, baldin eta egiaztatzen badugu adiera horiek euskaraz ezagunak<br />
direla, eta LNPko atazetarako beharrezkoak direla. Adibidez, <strong>Euskal</strong><br />
4 http://www.egunero.info (2007-07-02an atzitua).<br />
5 http://www.euskaracorpusa.<strong>net</strong> (2007-07-02an atzitua).
102 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
<strong>WordNet</strong>eko lantegiren (c) eta (d) adierak (‘jarduera profesionala egiten<br />
den tokia’ eta ‘talde txiki batentzako ikastaro labur eta trinkoa;<br />
arazo bat konpontzera bideraturik’) ez daude Hiztegi Modernoan, ezta<br />
Elhuyar Hiztegi Txikian ere. Hala ere, adiera hauen erabilera egiaztatzen<br />
dugu corpusetan —hala nola, XX. mendeko euskararen corpus<br />
estatistikoan eta Ereduzko Prosa Gaur corpusean 6 — eta beste hiztegietan<br />
—Elhuyar Hiztegia: euskara-gaztelania 7 (Elhuyar, 1996) hiztegian,<br />
eta <strong>Euskal</strong> Hiztegian, adibidez. Kasu ho<strong>net</strong>an, bi adiera hauek Elhuyar<br />
Hiztegi elebidunean agertzen direnez, zuzentzat jo ditugu eta <strong>Euskal</strong><br />
<strong>WordNet</strong> txertatu ditugu.<br />
Orrazketa honen erdibidean ginela, eta <strong>WordNet</strong> eta LNP komunitatean<br />
corpus desanbiguatuak hartzen ari ziren indarra ikusita (Fellbaum et al.,<br />
2001; Palmer eta Kingsbury, 2003; Marcus et al., 1993), hitzez hitzeko eskuzko<br />
orrazketa metodologia corpus baten etiketatze semantikoarekin osatzea<br />
erabaki genuen. Erabaki hau IXA taldean jorratzen ari den lan-ildo batekin<br />
bat etortzearren hartu zen. Izan ere, IXA taldean maila linguistiko desberdi<strong>net</strong>an<br />
etiketatuko den erreferentziazko corpusa garatzen ari gara (Aduriz et<br />
al., 2006): <strong>Euskara</strong>ren Prozesamendurako Erreferentziazko Corpusa (EPEC).<br />
Corpus hau 300.000 hitzekoa da; heren bat XX. mendeko euskararen corpus<br />
estatistiko hartua dago, eta beste guztia <strong>Euskal</strong>dunon Egunkaria corpusetik.<br />
EPEC corpusen morfosintaxia, sintaxia, <strong>Euskal</strong> <strong>WordNet</strong>eko adierak eta<br />
PropBankeko rolak (Agirre et al., 2006d) etiketatuko dira eskuz.<br />
Lan-ildo ho<strong>net</strong>atik abiatuta, <strong>Euskal</strong> <strong>WordNet</strong>en ondorengo garapen-fase<br />
berrian hasi ginen: corpus baten etiketatze semantikoan.<br />
V.2.2.3 Corpus baten etiketatze semantikoa<br />
Orrazketa eta etiketatzea uztartuz, corpuseko informazioa erabil dezakegu<br />
<strong>Euskal</strong> <strong>WordNet</strong> garatzeko eta aberasteko. Aldi berean, eskuz etiketatutako<br />
euskarako corpus semantikoa sortzen ari gara: EuSemcor (Agirre et al.,<br />
2006a). Alegia, EPEC corpusa maila semantikoan, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak<br />
erabilita, etiketatzen ari gara.<br />
Beraz, lan honen helburua 300.000 hitzeko corpusa etiketatzea da, eta<br />
hauxe da gaur egun egiten ari garena. Izenak, adjektiboak eta aditzak etiketatu<br />
nahi dira. Aldi berean, eta corpusetik lortzen den informazioan oina-<br />
6 http://www.ehu.es/euskara-orria/euskara/ereduzkoa (2007-07-02an atzitua).<br />
7 http://www1.euskadi.<strong>net</strong>/hizt el/indice e.htm (2007-07-02an atzitua).
V.2 Izenen garapenerako urratsak 103<br />
rrituz, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak orraztuko dira; hau da, 300.000 hitzeko<br />
corpusaren etiketatze semantikoa amaitu ondoren, <strong>Euskal</strong> <strong>WordNet</strong>ek corpusean<br />
agertu diren adiera horiek guztiak izan beharko ditu.<br />
Lan-taldea bost hizkuntzalariz osatua dago: gainbegirale bat, editore<br />
bat, bi etiketatzaile eta epaile bat. Editorea <strong>Euskal</strong> <strong>WordNet</strong> editatzen<br />
duena da, hots, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak lantzen dituena. Etiketatzaileek<br />
etiketatu beharreko hitzaren agerpen berak corpus berean etiketatzen<br />
dute (bakoitzak bere aldetik). Azkenik, epaileak bi etiketatzaileen lana erkatuko<br />
du eta ezberdin etiketatuta dauden agerpen horiek ebatziko ditu.<br />
Laburki esanda, lan-talde honek jarraitzen duen metodologia hurrengoa<br />
da: editoreak landu beharreko hitzak aukeratzen ditu, eta hitz hauen <strong>Euskal</strong><br />
<strong>WordNet</strong>eko synsetak lantzen eta berrikusten ditu hitzez hitzeko metodologian<br />
oinarrituz (ikus V.2.2.2 atala). Hitzak orraztu ondoren, editorea,<br />
etiketatzaileak eta epailea elkartuko dira hitz horien synseten esanahia ulertzeko.<br />
Editoreak, epaileak eta etiketatzaileek hitzen synsetak zeintzuk diren<br />
ulertu eta adostu dutenean, hitzei dagozkien agerpenak etiketatzen hasiko<br />
dira etiketatzaileak. Etiketatze-lana amaitzean, synseten glosak 8 ere ingelesetik<br />
euskarara itzultzen dituzte. Lan hauek guztiak bukatu ondoren, editorearekin<br />
eta epailearekin egindako bilera batean etiketatzean izan dituzten<br />
gorabeherak azaltzen dituzte. Gero, epaileak programa informatiko baten<br />
laguntzarekin, bi etiketatzaileen lana erkatzen du, eta ezberdin etiketatuta<br />
dauden agerpen horiek ebazten ditu. Gainera, corpusean adiera berriren bat<br />
agertzen bada, horren berri ematen dio editoreari. Azkenik, editoreak corpusean<br />
agerturiko adiera berri horien egokitasuna aztertzen du hauek <strong>Euskal</strong><br />
<strong>WordNet</strong>en sartzea erabaki baino lehen. V.1. irudian adierazten den bezala,<br />
metodologia ziklikoa da.<br />
8 III. kapituluan azaldu dugun bezala, synsetaren adiera, normalean, glosa edo azalpen<br />
txiki baten bidez adierazten da. Glosa hauen itzulpe<strong>net</strong>arako jarraitzen diren irizpideak<br />
Agirre et al. lanean (2005b) daude.
104 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
Hitz berriak<br />
Editatze-lana Etiketatze-lana<br />
Adiera berriak<br />
Iruzkinak<br />
Epaitze-lana<br />
V.1 Irudia: EuSemcorreko etiketatze semantikoaren metodologia.<br />
Editoreak, etiketatzaileak eta epaileak metodologia honen urrats bakoitzean<br />
bere zeregina zehaztuta dute eskuliburu batean (Agirre et al., 2005b).<br />
V.2 taulan EuSemcorren kopuruak ageri dira. Alde batetik, dagoeneko<br />
landu diren izenen kopuruak, eta bestetik, corpuseko izen guztien kopuruak.<br />
Azken ho<strong>net</strong>an (guztira zutabean) agertzen diren kopuruak, corpuseko izenak<br />
<strong>Euskal</strong> <strong>WordNet</strong>ekin parekatuta lortu dira. Esate baterako, corpusean 1.810<br />
izen monosemiko daudela diogunean, corpuseko 1.810 izenek <strong>Euskal</strong> Word-<br />
Neten synset bakarra dutelako da, eta corpusean, izen hauek guztien agerpen<br />
kopurua 16.606 da. Hala ere, 1.810 izen hauetatik, 192 bakarrik, berrikusi<br />
dira <strong>Euskal</strong> <strong>WordNet</strong>en eta etiketatu EuSemcorren. Beraz, lantzeko dauden<br />
1.618 izenak <strong>Euskal</strong> <strong>WordNet</strong>en berrikusi ondoren, baliteke izen horietatik<br />
batzuk polisemikoak izatea (<strong>Euskal</strong> <strong>WordNet</strong>en garapenaren aurreko faseren<br />
batean izen horri ez zuen adiera bat egokitu zitzaiolako 9 ). Hala, guztira<br />
zutabeko hitzei dagozkien kopuruak ez dira guztiz zehatzak, baina corpusa<br />
etiketatzeko geratzen zaigun lanaren balioespena egiteko oso erabilgarria<br />
zaigu.<br />
Bestalde, V.2 taulan ikus daitekeen bezala, 442 izen polisemiko etiketatu<br />
ditugu dagoeneko, eta, agerpen-kopuru handikoak direla egiaztatu dugu.<br />
Hauek corpusean 39.208 aldiz agertu dira (izen polisemiko guztien agerpenen<br />
% 56a). Monosemikoei dagokienez, oraingoz, 192 izen sailkatu dira synset<br />
bakarrekoak bezala, eta izen hauen agerpenak automatikoki etiketatu dira<br />
(izen monosemiko guztien agerpenenen % 45a). Orain arte, corpusean 83<br />
izen agertu dira <strong>Euskal</strong> <strong>WordNet</strong>en ez daudenak, eta gehitu egin behar izan<br />
ditugu. 83 izen hauek corpuseko 487 agerpeni dagozkie. Guztira errenkadan,<br />
9 Adieren lanketari buruzko argibide gehiago A eranskinean.
V.2 Izenen garapenerako urratsak 105<br />
Eginak Guztira<br />
Hitz Agerpen Hitz Agerpen<br />
Polisemikoak 442 39.208 3.330 68.871<br />
Monosemikoak 192 7.281 1.810 16.606<br />
EusWNen ez daude 83 487 11.070 39.936<br />
Guztira 717 46.976 16.210 125.413<br />
V.2 Taula: EuSemcor: izenei dagozkien kopuruak.<br />
deigarria da 16.210 ize<strong>net</strong>atik 11.070 ez egotea <strong>Euskal</strong> <strong>WordNet</strong>en. Honen<br />
arrazoia corpusean agertzen diren izen berezietan datza, eta horiek, oraingoz,<br />
ez ditugu <strong>Euskal</strong> <strong>WordNet</strong>en gehituko.<br />
Izenen garapen-urratsekin amaitzeko, V.1 taula dakargu berriro, orain<br />
arte aipatutako garapen-urratsak —garapen automatikoa (auto. taulan),<br />
kontzeptuz kontzeptuko eskuzko orrazketa (Kontz. eskuz taulan) eta hitzez<br />
hitzeko orrazketa eta corpus baten etiketatze semantikoa (Hitzez. eskuz<br />
taulan)— erabilita <strong>Euskal</strong> <strong>WordNet</strong>eko egungo kopuruak aurkezteko (ikus<br />
V.3 taula: synsetak, variantak, lemak, synseteko dauden varianten batezbestekoa<br />
eta lemako dauden varianten batezbestekoa). Hauekin batera, Word-<br />
Net 1.6 bertsioaren kopuruak ere aurkezten dira.<br />
<strong>Euskal</strong> <strong>WordNet</strong> 0.1 bertsioaren estaldurarekin erkatuz gero (23.486 synset<br />
eta 41.107 adiera), egungo <strong>Euskal</strong> <strong>WordNet</strong> 0.2 handitu den arren<br />
(28.943 synset eta 40.848 variant), oraindik <strong>WordNet</strong> 1.6n synset eta variant<br />
kopurua ia <strong>Euskal</strong> <strong>WordNet</strong>en bikoitza baino gehiago da (66.025 synset<br />
eta 116.364 variant).<br />
Bestalde, kapitulu ho<strong>net</strong>an zehar aipatu izan dugun bezala, eskuzko orrazketarekin<br />
kalitatearen alde egin nahi izan dugu. Baina kalitatearen alde eginez<br />
gero, oso mantso egiten dugu aurrera: astean hamabi synset editatzen<br />
ditugu batezbeste.<br />
Synset eta lema bakoitzeko dauden varianten batezbestekoa antzekoa da<br />
euskarako eta ingeleseko eskuzko orrazketetan. Automatikoan, aldiz, desegokia<br />
diren variant asko sartzen dira. Hala, eskuzko orrazketak kalitate<br />
handiagokoak direla garbi ikusten da taula ho<strong>net</strong>an, variant synseteko eta<br />
variant lemako zutabeei erreparatuz gero.
106 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
Izenak Synset Variant Variant<br />
Lema Variant<br />
synseteko lemako<br />
EusWN 0.1 BC eskuz 228 - - - -<br />
auto. 27.641 291.011 10,5 46.164 6,3<br />
Kontz. eskuz 23.486 41.107 1,7 22.166 1,8<br />
EusWN 0.2 Hitzez. eskuz 28.943 40.848 1,4 23.137 1,7<br />
WN 1.6 eskuz 66.025 116.364 1,7 95.135 1,2<br />
V.3 Taula: <strong>Euskal</strong> <strong>WordNet</strong>eko izenen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />
oinarrizko kontzeptuak, sorkuntza automatikoa, kontzeptuz kontzeptuko<br />
orrazketa eta hitzez hitzeko orrazketa egin ondoren.<br />
V.3 Aditzen garapenerako urratsak<br />
EuSemcorren maiztasun handieneko izenak lantzen joan ahala, aditzen aberasketari<br />
ere ekin zaio, baina neurri txikiagoan.<br />
Esan daiteke aditza dela hizkuntzako kategoria lexiko eta sintaktiko garrantzitsuena.<br />
Esaldi gehienek aditz bat badute gutxienez, eta aditza da<br />
esaldia semantikoki eta sintaktikoki antolatzen duena. Aditzean zehazten dira:<br />
esaldian egon daitezkeen egitura sintaktiko posibleak (azpikategorizazio<br />
hertsia); argumentuak rol tematikoekin lotzean, esaldian adierazten diren<br />
ekintza edo egoeren adierak; hautapen-murriztapenak (aditz horrekin ager<br />
daitezkeen izen-klaseen ezaugarriak).<br />
Hiztunok geure baitako lexikoian informazio sintaktiko eta semantiko hau<br />
guztia jasota dugunez, hau guztia aditzaren sarrera lexikalean gorde beharreko<br />
informazioa dela pentsatu izan da. LNPren ikuspegitik begiratuta,<br />
aditzekin batera datorren informazio hori guztia EBL batean jasota izanez<br />
gero, hainbat atazatan oso baliagarria izango litzateke.<br />
Baina, nahiz eta aditzak informazio ugari eraman, informazio hori oso<br />
konplexua da, eta arrazoi horregatik da horren zaila aditza aztertzea eta<br />
bere informazioa adieraztea.<br />
“This syntactic and semantic information is generally thought to be part<br />
of the verb’s lexical entry, that is to say, part of the information about the<br />
verb that is stored in a speaker’s mental lexicon. Because of the complexity of<br />
this information, verbs are probably the lexical category that is most difficult<br />
to study.” (Miller et al., 1993, 40. or.)<br />
III.2.3.2 atalean esan dugun bezala, <strong>WordNet</strong>eko aditzek informazio sintaktiko-semantiko<br />
mugatua dute:
V.3 Aditzen garapenerako urratsak 107<br />
“<strong>WordNet</strong> was designed to model lexical memory rather than represent<br />
lexical knowledge, so it excludes much of a speaker’s knowledge about both<br />
semantic and syntactic properties of verbs. There is no evidence that the<br />
syntacitc behavior of verbs [...] serves to organize lexical memory.”<br />
(Miller et al., 1993, 55. or.)<br />
Hori dela eta, izenak lantzeko eta aditzak lantzeko jarraitutako urratsak<br />
desberdinak izan dira.<br />
Estaldurari dagokionez, izenen oinarrizko kontzeptuekin (Base Concept<br />
delakoekin) batera, ingeleseko aditzen oinarrizko kontzeptuei ere euskarako<br />
ordainak eskuz lotu zitzaizkien. Izan ere, V.2 atalean esan dugun bezala,<br />
<strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzaren lehenengo urratsetan oinarrizko estaldurari<br />
eman zitzaion garrantzia.<br />
Kalitateari begira jarri ginenean, hainbat gauza zeuden kontuan hartzeko<br />
modukoak. Tesi-txosten honen hasieratik esan dugun bezala (III.1 atalean),<br />
euskarako EBLan ale lexikalen adierez gain, hauen informazio sintaktikosemantikoa<br />
adierazita etortzea nahiko genuke. MCRn horrelako informazioa<br />
esplizitu egiten saiatzen badira ere, aditzen antolaketa eta hierarkia<br />
<strong>WordNet</strong>erako egindakoa da. Honela, aditzen lanketa masiboarekin hasi baino<br />
lehen, hauxe da egin dugun azterketa:<br />
• Aditzak <strong>WordNet</strong>en landuta nola dauden ikustea: adiera-bereizketak<br />
eta hierarkiaren nondik norakoak.<br />
• <strong>Euskara</strong>ko aditzak MCRn txertatzeko erarik egokiena eta azkarrena<br />
aztertzea.<br />
V.3.1 Aditzak <strong>WordNet</strong>en<br />
Aditzen lanketarako, ize<strong>net</strong>an kontuan hartu ez zen baldintza bat guztiz<br />
beharrezkoa da: informazio sintaktiko-semantikoa (azpikategorizazioa, rol<br />
tematikoak, hautapen-murriztapenak...). Aditzensemantikaaztertzekosintaxia<br />
kontuan hartu behar da zalantzarik gabe. Esate baterako, Levin (1993)<br />
eta Pustejovskyren (1995) lanak (ikus III. kapitulua) argi erakusten dute<br />
adiera ezin dela aditzaren egituratik banatu. Hau da, egitura sintaktikoa<br />
kontuan hartu gabe, hauen ustez ezinezkoa da ale lexikalaren adierazpena<br />
egitea. Hortaz, forma bera baina adiera desberdinak dituen aditz batek,<br />
izaera sintaktiko desberdina ere izango du.
108 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
<strong>WordNet</strong>ek ere informazio sintaktiko-semantikoa erabiltzen du synsetak<br />
osatzeko: synseteko osagaiek hautapen-murriztapen eta azpikategorizazio bera<br />
izan behar dute. Hori ez bada betetzen, aditzak synset desberdi<strong>net</strong>an<br />
banatzen dira.<br />
(1) Mary ate an apple.<br />
(2) Mary ate.<br />
Adibide ho<strong>net</strong>an ikus daitekeen bezala, ingeleseko eat aditza iragankor<br />
edota iragangaitz gisa erabil daiteke. Nahiz eta bi adibideetan aditz-forma<br />
bera izan, izaera sintaktiko desberdina izanda, eat aditzak mota bakoitzeko<br />
synset bat izango du, eat 1 eta eat 2:<br />
(3) {eat 1} (take solid food; ”She was eating a banana”)<br />
{eat 2} (eat a meal; ”We did not eat until 10 P.M.”)<br />
Informazio sintaktiko-semantikoak ez du synset mailan bakarrik eragiten.<br />
Synseta jasotzen duen hierarkian edo klase semantikoan ere badu eragina: ingeleseko<br />
eat aditza bi klase semantikotan banatua dago, bata iragankorra eta<br />
bestea iragangaitza. Hortaz, eat 1 klase semantikoa osatzen duten troponimoak<br />
iragankorrak izango dira (gobble, gulp, devour eta abar bezalakoak,<br />
euskaraz irentsi aditzaren parekoak direnak), eta eat 2renak iragangaitzak<br />
(dine, breakfast eta abar bezalakoak, euskaraz afaldu, gosaldu direnak hurrenez<br />
hurren).<br />
Fellbaum eta Kegleren ustez, (1989) izaera sintaktiko ezberdin hau ez<br />
da iragankor-iragangaitz alternantziagatik bakarrik: semantikak ere badu<br />
eragina. Beste hitz batzuetan esanda, Fellbaum eta Keglek defendatzen dute<br />
bi aditz hauek leku desberdi<strong>net</strong>an daudela taxonomian: (2) adibidean, eat<br />
iragangaitzak ‘otordu bat jan’ adiera du. Hala, aditz honen aditz-troponimok<br />
asko (dine, breakfast, snack, picnic...) bere baitan daramate otordua:<br />
(4) They breakfasted hurriedly.<br />
I hate dining alone.<br />
I have been snacking all day.<br />
There were several families picnicking on the river bank.<br />
Bestalde, (1) adibidean bezala eat iragankorra denean, bere adiera ‘nolabait<br />
irentsi’ litzateke. Horregatik, bere troponimo guztiek ‘jateko erak’<br />
adierazten dituzte (gobble, gulp, devour...bezalakoak).<br />
Vázquez et al.-ek (2000) fenomeno honi infraespezifikazioa deitzen diote:
V.3 Aditzen garapenerako urratsak 109<br />
“La infraespecificación consiste en la no expresión sintagmática de un<br />
miembro de la valencia combinatoria del verbo, produciéndose una oposición<br />
semántica entre una contrucción más específica y otra más general, [...]<br />
donde los elementos infraespecificados son aquellos que contienen menos información,<br />
es decir, los más generales.” (Vázquez et al., 2000, 126. or.)<br />
Fenomeno ho<strong>net</strong>az gain, synset-mailan eta hierarkia-mailan eragina duten<br />
beste fenomeno batzuk ere jasotzen dituzte <strong>WordNet</strong>en. Esate baterako,<br />
alternantzia kausatibo/inkoatiboa.<br />
“<strong>WordNet</strong> contains CAUSE pointers from causative, transitive verbs to<br />
the corresponding antiacusative (inchoative), intransitive sense of the same<br />
word.” (Fellbaum, 1998a, 83. or.)<br />
Hala, (5) adibideko aditzak nahiz eta forma berekoak izan, polisemikotzat<br />
joko dira, eta ondorioz, hierarkian synset ezberdi<strong>net</strong>an kokatuko dira,<br />
semantikoki eta sintaktikoki ezberdinak direlako. Gainera, break 2 synsetaren<br />
troponimoek inkoatibo izaera izango dute (The plastic bottle crushed/<br />
cracked) eta break 5 kontzeptuarenek, aldiz, kausatiboak (He smashed/<br />
shattered a plate).<br />
(5) {break 2} (become separated into pieces; ”The figurine broke”)<br />
{break 5} (cause to separate into pieces; ”He broke the plate”)<br />
Honela bada, Fellbaum eta Keglek — Levinek (1993) eta Pustejovskyek<br />
(1995) bezala— adiera hartzen dute oinarri gisa ezaugarri sintaktikoak definitzeko:<br />
“Thus, the semantics of the troponyms in each case provide a classification<br />
in terms of two distinct hierarchies matching the syntactic distinction<br />
between the two verb groups.” (Fellbaum eta Kegl, 1989, 97. or.)<br />
Hala, <strong>Euskal</strong> <strong>WordNet</strong>eko aditzen adierak zehazteko hiztegietako adierek<br />
bakarrik ez dute balio, izaera sintaktikoa ere guztiz beharrezkoa da synseten<br />
arteko desberdintasunak egiteko. Hautsi eta jan aditzen kasuan, esate baterako,<br />
gorago aipatu dugun eat eta break aditzen fenomeno bera gertatzen<br />
da: forma iragankorra eta forma iragangaitza bi synset desberdi<strong>net</strong>an daude.<br />
Ondorioz, hautsi 1 iragankorra denez (Platera puskatu zuen esaldian, adibidez),<br />
honen azpian dauden troponimoak iragankorrak izango dira (birrindu<br />
eta txikitu bezalakoak). Aldiz, hautsi 2 iragangaitza denez (Platera berotzean<br />
hautsi zen), honen troponimoak iragangaitzak dira (esate baterako, zaratatu).
110 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
V.3.2 MCRn aditzak txertatzeko azterketa<br />
Argi dago, beraz, aditzak <strong>Euskal</strong> <strong>WordNet</strong>en lantzean adiera-banaketan eta<br />
hierarkian zerikusia duten ezaugarri sintaktiko-semantiko hauek guztiak kontuan<br />
hartu behar ditugula. Hori dela eta, izenekin egun erabiltzen ari garen<br />
orrazketa motaz (hitzez hitzekoa) gain, beste orrazketa mota bat ere probatu<br />
nahi izan dugu aditzekin: hierarkiaz hierarkiakoa. Hala, bost aditz<br />
(hitzez hitzeko eskuzko orrazketaren kasuan) eta hierarkia bat (hierarkiaz hierarkiako<br />
eskuzko orrazketaren kasuan) aukeratu eta landu ondoren, aditzen<br />
lanketa masiborako zein orrazketa mota den egokiena ondoriozta dezakegu.<br />
Lehendabizi, ordea, bost aditzen hitzez hitzeko eskuzko orrazketa zertan<br />
izan den azalduko dugu.<br />
V.3.2.1 Bost aditzen hitzez hitzeko eskuzko orrazketa<br />
Izenekin egindako orrazketa mota bera da: aditz batek hiztegietan dituen<br />
adierak <strong>Euskal</strong> <strong>WordNet</strong>en daudela ziurtatzea eta synsetean dauden beste<br />
ordainak egokiak direla egiaztatzen saiatzea. Orrazketan erabilitako baliabide<br />
eta iturriak ez dira izenekin erabilitako berdinak izan, eta metodologia<br />
aldetik ere aldaketa batzuk egon dira. Hasteko, orrazketa mota hau aditz<br />
batzuekin bakarrik probatu da. Hau da, orrazketa mota hau aditzen lanketarako<br />
baliagarria den aztertzeko, bost aditz bakarrik landu ditugu (esan,<br />
banandu, banatu, abestu eta ekarri), gero ondorio batzuk atera ahal izateko.<br />
Azterketarako hautatutako aditzen artean, ezaugarri eta jokaera guztietako<br />
aditzak sartzen saiatu gara: maiztasun handikoak eta txikikoak, eta<br />
joera sintaktiko desberdinekoak (iragankorrak eta iragangaitzak, adibidez).<br />
Aditzak aukeratzeko beste irizpide garrantzitsua Volem2 proiekturako<br />
aztertutako euskal aditzen artean egotea zen. Proiektu ho<strong>net</strong>an Volemeko<br />
(III.2.3.3) aditz eta preposizioei euskara eta okzitanieraren informazioa gehitu<br />
zaie, beti ere Volemerako definitutako formalismoari jarraituz. <strong>Euskara</strong>ko<br />
aditzei dagokionez, Aldezabalek (2004) aztertutako aditzen informazioa txertatu<br />
zen. Hala, Aldezabalek bere ikerlanerako aukeratutako ehun aditzetatik<br />
berrogei Volem EBLan zeudenez, horietatik abiatu gara hitzez hitzeko orrazketaren<br />
azterketarako.<br />
Bestalde, aukeratutako aditzak Aldezabalen lanean eta Volemen aztertutakoak<br />
izanik, <strong>Euskal</strong> <strong>WordNet</strong>eko, Aldezabalen laneko eta Volemeko EBLak<br />
lotzea ekarri du erabaki honek, bakoitza bestearen informazioarekin aberastuz.
V.3 Aditzen garapenerako urratsak 111<br />
Adierak zehazteko erabilitako baliabideen artean, Elhuyar Hiztegia —<br />
elebiduna— (Elhuyar, 1996) eta Elhuyar Hiztegi Modernoa (Elhuyar, 2000)<br />
—elebakarra— erabili dira. Hauek dakarten aditzei buruzko informazio sintaktikoa<br />
murritza da gure lanerako. Hori dela eta, Aldezabalek (2004) egindako<br />
aditz horien sailkapenean oinarritzea erabaki dugu, non aditzaren adiera<br />
bakoitzeko azpikategorizazio zehatza definitzen den.<br />
V.3.2.2 Aditz-hierarkia baten orrazketa<br />
Hitzez hitz lantzean lortzen duguna da orrazten ari garen hitzaren adiera<br />
guztiak finkatzea eta zehaztea. Hala, hitz horren adiera guztiak orraztuak<br />
geratzen dira. Baina, bestalde, beste huts egite bat egin daiteke metodologia<br />
horrekin: hierarkiaren egokitasunari nahikoa ez erreparatzea; hierarkia<br />
desorekatua gera daiteke kasuren batean, metodologia horrekin ez baita funtsezkoa<br />
hierarkia lantzea, landu beharreko hitza baizik. Hortaz, ematen du<br />
menderatu beharreko eremua murritzagoa dela.<br />
Horretaz gain, synset mailan arituta, synset horiek adierazten dutena<br />
ulertu ahal izateko, hizkuntzalarioi nahitaezkoa izan zaigu hauek beraien<br />
hierarkian kokatzea. Hau da, synsetaren hiperonimoak eta hiponimoak aztertzea.<br />
Hala, synsetaren klase semantikoari buruzko informazioa lor daiteke,<br />
eta, ondorioz, orraztu beharreko variantak klase semantiko horretan egokiak<br />
diren ere jakin dezakegu. Hain zuzen ere, horixe egin behar izan dugu (4)<br />
eta (5) adibideetan aipatu ditugun eat eta break aditzen kasuan; bere hiperonimoetara<br />
eta troponimoetara jo bi synset hauen arteko desberdintasuna<br />
zertan datzan jakiteko.<br />
Desoreka hauetaz jabetuta, orrazketa era berri batekin saia gintezkeela<br />
iruditu zitzaigun: hierarkiaz hierarkiako orrazketa. IV. kapitulua esan<br />
bezala, <strong>WordNet</strong>eko aditzak 15 klase semantiko nagusitan banatuak daude.<br />
Hauetako bakoitzean aditz horien antolaketaren hastapena dago, unique<br />
beginner deiturikoak, hain zuzen. Hierarkiaz hierarkiako orrazketarekin hierarkia<br />
osoak orraztu ditugu unique beginnerretatik hasita, hierarkiako azken<br />
troponimora arte.<br />
Orrazketa mota hau probatzeko {express 2, give tongue 1, utter 1}<br />
unique beginnerra aukeratu genuen hierarkia honen troponimo kopurua, beste<br />
hierarkienarekin parekatuz gero, tartekoa zelako. Unique beginner askok<br />
berrehun troponimo baino gutxiago dituzte, eta beste batzuk, aldiz, bostehun<br />
baino gehiago. Guk aukeratutako hau, 198 troponimoekin, erdibidean<br />
kokatzen denez, egokia iruditu zaitzaigun orrazketa mota honen lehenengo
112 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
ondorioak ateratzeko.<br />
Hurrengo atalean, azterketa ho<strong>net</strong>atik lortutako ondorio nagusienak dakartzagu.<br />
Dena den, hierarkiaz hierarkiako orrazketa hau guztia B eranskinean<br />
dator, baita ingeleseko eta euskarako hierarkien arteko alderaketa bat<br />
ere.<br />
V.3.2.3 Hitzez hitzeko orrazketa ala hierarkiaz hierarkiakoa?<br />
Azterketa honen ondorioz, esan dezakegu hierarkiaz hierarkiako orrazketa,<br />
hitzez hitzeko orrazketa baino lan zabalagoa dela. Izan ere, hierarkiaz hierarkiako<br />
orrazketan, hitz horrek dituen hiperomino eta troponimo guztiak<br />
aztertu behar dira, eta bakoitzaren adiera hierarkia horretan egokia den ala<br />
ez egiaztatu. Gainera, hierarkia orekatua eta logikoa den ere aztertu behar<br />
da. Troponimo baten ordaina ezin da hiperonimo batena baino orokorragoa<br />
izan, adibidez. Orduan, hierarkia osoaren ikuspegia edukitzea oso mesedegarria<br />
da. Hala ere, gerta daiteke synset bakoitzean dagoen hitzaren zein<br />
adiera den ondo ez menderatzea, beharrezkoa baita horretarako hitz horrek<br />
dituen gainontzeko adierak ezagutzea. Hortaz, hierarkiaz hierarkiako metodologia<br />
egokiagoa dirudi eremu zabalagoa orraztea lortzen delako, baina ez<br />
dira, ahal den neurrian, hitz bakoitzak dituen adiera desberdinak alde batera<br />
utzi behar.<br />
Hala, ez dirudi erraza erabakitzea zein orrazketa mota den aditzen lanketarako<br />
mesedegarriena. Bien artean erabaki ordez, hitzez hitzeko orrazketa<br />
eta hierarkiaz hierarkiakoa aldi berean egitea dirudi egokiena. Baina horrek<br />
eskuzko lan ugari eskatzeaz gain, aditzen EBLaren garapena mantsotuko luke.<br />
Aztertzeko dugun beste aukera bat da <strong>WordNet</strong>eko aditzak<br />
PropBankeko aditzekin (Civit et al., 2005a) batera garatzea. Arestian<br />
aipatu bezala (V.2.2.2 atalean), EPEC corpusa morfosintaktikoki, sintaktikoki,<br />
<strong>Euskal</strong> <strong>WordNet</strong>eko adierekin eta PropBankeko rolekin etiketatzen<br />
ari gara IXA taldean. PropBanken aditz-adiera bakoitza sarrera bat da, eta<br />
VerbNet (Kipper et al., 2000) EBLko sarrara bati lotuta dago 10 . VerbNeteko<br />
sarrera hori, aldi berean, <strong>WordNet</strong>eko synset batekin lotuta dago. Hala, euskarako<br />
PropBankeko aditzak garatzean (gerora hauen rolekin EPEC corpusa<br />
etiketatzeko), VerbNeteko informazioa erabilita, aditz hauen <strong>WordNet</strong>eko<br />
baliokideak izango genituzke zuzenean.<br />
10 PropBanki eta VerbNeti buruz III. kapituluan aritu gara.
V.4 Ondorioak 113<br />
Lehenago aipatu izan dugun <strong>Euskal</strong> <strong>WordNet</strong>ekin batera euskarako corpusa<br />
semantikoki ere etiketatzen ari gara: EuSemcor (Agirre et al., 2006a).<br />
<strong>Euskal</strong> <strong>WordNet</strong>en landutako hitza corpusean etiketatzeaz gain, corpusetik<br />
ere <strong>Euskal</strong> <strong>WordNet</strong>en ez dagoen adiera berriren bat lor daiteke, eta,<br />
ondorioz, <strong>Euskal</strong> <strong>WordNet</strong> corpus errealeko adiera berriekin aberastu.<br />
EuSemcor proiektuan, izenen etiketatzea amaitzean aditzekin hasiko gara.<br />
Hortaz, corpuseko aditzen agerpenak <strong>Euskal</strong> <strong>WordNet</strong>eko synsetekin etiketatu<br />
ahal izateko, aldez aurretik, aditzen synsetak orraztu egin beharko dira<br />
<strong>Euskal</strong> <strong>WordNet</strong>en. Hori dela eta, arrazoi praktikoengatik, aditzen hitzez<br />
hitzeko orrazketarekin hasiko ginateke, nahiz eta hurrengo faseren batean<br />
hierarkiaz hierarkiako orrazketa erabiltzea ez dugun baztertzen.<br />
Azterketarako bi orrazketa hauek kontuan izanda, V.4 taulan <strong>Euskal</strong><br />
<strong>WordNet</strong>ek dituen aditzen kopuruak ekartzen ditugu.<br />
Aditzak Synset Variant Variant<br />
Lema Variant<br />
synseteko lemako<br />
EusWN 0.1 BC eskuz 792 - - - -<br />
EusWN 0.2 eskuz 3.751 9.510 2,5 3.496 2,7<br />
WN 1.6 eskuz 12.127 22.073 1,8 10.326 2,1<br />
V.4 Taula: <strong>Euskal</strong> <strong>WordNet</strong>eko aditzen kopuruak <strong>WordNet</strong> 1.6koekin alderatuta,<br />
oinarrizko kontzeptuak, hitzez hitzeko orrazketa eta hierarkiaz hierarkiako<br />
orrazketak egin ondoren.<br />
Kopuruetan ikus daitekeen bezala, oraindik oso urruti gaude ingeleseko<br />
<strong>WordNet</strong>etik (<strong>WordNet</strong> 1.6 bertsioak 12.127 synset, 22.073 variant eta 10.326<br />
lema dituen bitartean, <strong>Euskal</strong> <strong>WordNet</strong>ek 3.751 synset, 9.510 variant eta<br />
3.496 lema ditu, bakarrik).<br />
V.4 Ondorioak<br />
Kapitulu ho<strong>net</strong>an, <strong>Euskal</strong> <strong>WordNet</strong>en garapenerako zein metodologia erabili<br />
eta nola diseinatu dugun azaldu dugu. Estaldura eta kalitatea izan dira metodologiaren<br />
diseinuaren ardatzak, eta hauen arabera banatu ditugu <strong>Euskal</strong><br />
<strong>WordNet</strong>eko izen eta aditzen garapena, fase ezberdi<strong>net</strong>an. Izenen garapenean,<br />
esate baterako, lau fase nagusi aipatu ditugu: garapen automatikoa eta<br />
oinarrizko kontzeptuen eskuzko aberasketa, kontzeptuz kontzeptuko orrazketa,<br />
hitzez hitzeko orrazketa, eta azkenik, hitzez hitzeko orrazketa EuSemcor
114 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako metodologia<br />
corpusaren etiketatze semantikoarekin bateratuta. Hasierako urratsetan estaldura<br />
hartu bagenuen abiapuntu gisa, gerora kalitatearen alde jo dugu,<br />
eta arrazoi hori dela eta <strong>Euskal</strong> <strong>WordNet</strong>en aberasketa mantsotu egiten dela<br />
ikusi dugu.<br />
Aditzen kasuan ez gara mintzatu hauen garapenaz —ez baikara oraindik<br />
aditzen lanketa masiboarekin hasi—, baizik eta nahiko genukeen garapenaren<br />
azterketaz. Aditzen lanketarekin hasi aurretik, aditzen konplexutasuna delaeta<br />
—hauek daramaten informazio sintaktiko-semantikoagatik—, hauen garapenerako<br />
metodologia proposatu dugu. Horretarako, saiakera batzuk egin<br />
ditugu bi orrazketa motekin: izenekin erabilitako hitzez hitzeko orrazketarekin<br />
eta hierarkiaz hierarkiako orrazketarekin. Hitzez hitzeko orrazketak<br />
ez du hierarkiaren ikuspegia, eta, aldiz, hierarkiaz hierarkiako orrazketak ez<br />
ditu hitzaren adierak kontuan hartzen. Dirudienez, bata bestearen osagarria<br />
da. Hala, epe laburrean EuSemcor proiektuan aditzen etiketatzea hasiko<br />
garenez, aditzen hitzez hitzeko orrazketarekin hasiko ginateke, nahiz eta hurrengo<br />
faseren batean hierarkiaz hierarkiako orrazketa erabiltzea ez dugun<br />
baztertzen.
<strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era:<br />
bereizgarriak eta hobekuntzak<br />
VI. KAPITULUA<br />
<strong>Euskal</strong> <strong>WordNet</strong>en egon diren orrazketetan, eta kontuan izanda euskarako<br />
word<strong>net</strong>a ingelesekoaren gainean garatzen ari garela, ingelesaren eta euskararen<br />
arteko hainbat bereizgarri linguistiko azaleratu dira. Kapitulu ho<strong>net</strong>an<br />
hauen berri emateaz gain, hizkuntzen arteko ezberdintasun horiek nola<br />
kodetu ditugun ere azalduko dugu, kasu batzuetan ereduaren hobekuntzak<br />
aurkeztuaz.<br />
Hasteko, lexikalizazioari dagozkion bereizgarriak azalduko ditugu (VI.1<br />
atalean). Ingeleseko kontzeptuak antolatzen dituen EBLa izaki, hainbat kontzeptu<br />
ez dira lexikalizatuak euskaraz, gure kulturan ez ditugulako erabiltzen.<br />
Alderantziz ere gertatzen da; euskal kulturari dagozkion kontzeptu batzuk ez<br />
dira ingeleseko hierarkian agertzen. Ho<strong>net</strong>az gain, maiz gertatzen da ingeleseko<br />
kontzeptu bat euskaraz flexio-atzizkidun hitz batekin edota hitz anitzeko<br />
esapide batekin adieraztea, eta askotan ez dago garbi horiek euskaraz lexikalizatuak<br />
dauden ala ez. Hala, hauen lexikalizazioaren inguruan zalantzak<br />
sortzen dira, eta hauei aurre egiteko irizpideak behar dira.<br />
Beste bereizgarri nagusia hierarkiari dagokio (VI.2 atalean). Gure euskarako<br />
word<strong>net</strong>a ingeleseko hierarkiaren gainean garatzen ari garenez, bi hierarkien<br />
arteko aldeak agertzen dira. Esate baterako, ingeleseko hierarkiak oso<br />
zehaztapen aberatsa du: synset orokorre<strong>net</strong>ik zehatzeneraino, synset kopuru<br />
ugari aurkitzen dira (askotan hamar eta hamasei). Horien euskal ordainen<br />
bila jotzen dugunean, ordea, askotan ez dugu hitz desberdinik topatzen, eta
116 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
horregatik, askotan, ingeleseko hierarkiako synset ugari hiperonimoaren ordain<br />
bera erabilita, edota hiperonimoarekin batera beste izen, adberbio edota<br />
adjektibo bat gehituta itzultzen dira.<br />
Bi bereizgarriz ari bagara ere, esan beharra dago hierarkia-bereizgarrietan<br />
ere lexikalizazioaz ari garela, baina hierarkiaren egituraren ikuspegitik.<br />
VI.2 atalean, fenomeno honen adibideak emango ditugu eta honen inguruan<br />
erabakitako hainbat irizpide azalduko ditugu.<br />
Bi fenomeno hauei heltzeko definitutako irizpideek The Multilingual Central<br />
Repositoryk (MCRk) duen errepresentazioaren hedapena eskatzen dute.<br />
Hori dela eta, MCRn hobekuntza batzuk proposatu ditugu ingeleseko<br />
eta euskarako word<strong>net</strong>ak bateratu ahal izateko. Hala, bereizgarri linguistikoen<br />
azalpenarekin batera, bereizgarri hauek eragin dituzten errepresentaziohobekuntzak<br />
ere aipatuko ditugu VI.1, VI.2 ataletan zehar eta VI.3 ataletan.<br />
VI.1 Lexikalizazioa<br />
Lexikalizazioa zer den hobeto ulertzeko Lewandowski-ren hitzetara (1992) jo<br />
dugu:<br />
“El término lexicalización se refiere a la transformación de un elemento,<br />
o una unión de elementos, en un elemento léxico o conceptual único, p. ej.<br />
camino de hierro/ferrocarril.” (Lewandowski, 1992, 208. or.)<br />
Hortaz, lexikalizazioaren transformazioaren ondorioa elementu bat (guk<br />
hitz bat esango dugu 1 : ferrocarril) izan daiteke, edota aleen multzo bat (hitz<br />
bat baino gehiago), hots, hitz anitzeko esapide bat (camino de hierro).<br />
Autore batzuek diotenez (Calzolari et al., 2002), lexikalizazioa continuum<br />
gisa ulertu behar da: batetik, produktiboak eta konposizionalak diren egiturak<br />
daude, bestetik, finko eta izoztuta dauden egiturak. Honen arrazoia<br />
da lexikalizazioa faktore desberdinen emaitza dela. Batzuetan faktore hauek<br />
guztiak gerta badaitezke ere, beste batzuetan ez dute inolako eraginik.<br />
Faktore hauen kopurua adostuta ez dagoen arren, faktore garrantzitsuenak<br />
continuum horretan ondoko ordenan gertatzen dela esaten da: kolokazioa<br />
> fijazioa > espezializazio semantikoa > idiomatizazioa. Faktore guztiak<br />
zeharo betetzen direnean —hots, lexikalizatu beharreko adierazpideak<br />
1Hitza ulertuta zuriguneen artean dagoen karaktere multzo gisa (Fontenelle et al.,<br />
1994).
VI.1 Lexikalizazioa 117<br />
faktore guztien eragina jaso badu—, orduan, adierazpide izoztu bat (edo frozen<br />
expression delakoa) izango genuke (adarra jo eta larru bizirik, adibidez).<br />
Aldiz, faktore guztiak ez direnean gertatzen —hots, lexikalizatu beharreko<br />
sekuentziak faktore guztien eragina jasotzen ez duenean—, adierazpide hori<br />
continuumaren edozein puntutan gera daiteke (adibidez, janaria egin eta<br />
sakelako telefonoa). Hala, adierazpide hauek continuumaren puntu batean<br />
ala bestean geldituz gero, ezaugarri desberdinak izango dituzte, adierazpide<br />
mota desberdinak sortuz.<br />
Lexikalizaturiko hitz anitzekoen kasuan, hurrengo ezaugarriak dituztela<br />
esaten da (Calzolari et al., 2002):<br />
• sintaktikoki eta semantikoki guztiz gardenak ez izatea<br />
• konposizionaltasun mugatua izatea<br />
• gutxi gorabeherako esapide finkoak izatea<br />
• arau sintaktikoak guztiz ez betetzea<br />
• lexikalizazio-maila handia izatea<br />
• konbentzionalitate-maila handia izatea<br />
Datu errealekin lan egitean, ordea, lexikografoek ezaugarri hauekiko duten<br />
iritzia ez da bateratua. Batzuetan oso lan zaila da hitz bat edo hitz<br />
segida bat continuum horretako zein puntutan dagoen erabakitzea, hots, lexikalizatuta<br />
dagoen ala ez zehaztea. Eta zailtasun hau agerian geratzen da bi<br />
hizkuntza konparatzerakoan, edota, gure kasuan bezala, hizkuntza baterako<br />
egindako EBLtik abiatuz (<strong>WordNet</strong>), beste hizkuntza bateko lexikoia garatu<br />
behar denean (<strong>Euskal</strong> <strong>WordNet</strong>).
118 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
VI.1.1 <strong>WordNet</strong>, lexikalizazioa eta hizkuntzen arteko aldeak<br />
Askotan aipatu izan dugu <strong>WordNet</strong> (Fellbaum, 1998a) teoria psikolinguistikoetan<br />
oinarritutako lexikoia dela:<br />
“<strong>WordNet</strong> is a semantic dictionary that was designed as a <strong>net</strong>work, partly<br />
because representing words and concepts as an interrelated system seems<br />
to be consistent with evidence for the way speakers organize their mental<br />
lexicons.” (Fellbaum, 1998a, 7. or.)<br />
Horrela bada, <strong>WordNet</strong>en kontzeptuak eta hitzak erlazionatzen dira, hau<br />
da, kontzeptuen hierarkia bat da eta kontzeptu horien esanahia adierazteko<br />
hitzak erabiltzen dituzte. Jatorrizko <strong>WordNet</strong>ek, lexikoi gehienek bezala,<br />
kontzeptu eta sarrera lexikalizatuak bakarrik jasotzen ditu, direla hitz bakarrekoak,<br />
direla hitz anitzekoak 2 :<br />
(1) {girlfriend, girl} (a woman with whom a man is involved. . . )<br />
{house} (a dwelling that serves as living quarters)<br />
{scissors} (a cutting implement having two crossed blades)<br />
{sleep} (be asleep)<br />
{simnel} (eaten at mid-Lent or Easter or Christmas)<br />
{forties, mid-foties} (the time of life between 40 and 50)<br />
{cook} (prepare a hot meal)<br />
{pet} (a domesticated animal kept for companionship or. . . )<br />
{lyrics, words, language}(the text of a popular song)<br />
{furnishing} (the instrumentalities that make a home livable)<br />
{parent} (a father or mother)<br />
{cold} (feeling a sensation of coldness)<br />
{commodity, goods} (articles of commerce)<br />
{waif} (a homeless child especially one forsaken)<br />
{Alps} (a large mountain in south-central Europe)<br />
{military man, serviceman}(someone who serves the forces)<br />
Salbuespen bakarrak hierarkia antolatzen laguntzen duten kontzeptu orokorrak<br />
dira, esate baterako, body of water edota visual property. Asmaturiko<br />
kontzeptu hauek ez daude lexikalizatuak, baina oso baliagarriak dira klase semantiko<br />
bat multzokatzeko eta izendatzeko. Hauei buruzko azalpen gehiago<br />
VI.2.1 atalean emango dugu.<br />
2 Kapitulu ho<strong>net</strong>an aurkezten diren adibideetan, espazio-arazoak direla-eta, synsetetako<br />
variant kopurua txikitu edota glosak murriztu ditugu, eman beharreko azalpenak nahikoak<br />
iruditu zaizkigunak soilik utziz.
VI.1 Lexikalizazioa 119<br />
V.1 atalean azaldu dugun bezala, <strong>Euskal</strong> <strong>WordNet</strong> <strong>WordNet</strong>aren gainean<br />
garatzen ari gara, Vossen-en (1998) expand approacha jarraituz; hots,<br />
ingeleseko variantak –(1) adibidekoen moduak— euskarakoekin ordezkatzen<br />
ditugu.<br />
Lan hori egiterakoan, editoreak lexikalizazio-arazoak maiz topatzen ditu,<br />
bi hizkuntzen artean kontzeptu-mailako desorekak eta adierazpidemailako<br />
desorekak baitaude.<br />
Desoreka kontzeptualen artean kontzeptu kulturalak deritzotenak daude:<br />
kultura bati loturik agertzen diren kontzeptuak, beste hizkuntzetan existitzen<br />
ez direnak. Adibidez, simnel ‘Ingalaterran Eguberrietan jaten den gozokia’<br />
da, edota off-sales ‘edari alkoholikoak sal ditzaketen Ingalaterrako dendak,<br />
non hauek edatea debekatua dagoen’. Hauek Ingalaterrako kontzeptu kulturalak<br />
lirateke. <strong>Euskara</strong>z ere gertatzen da hori jakina: trikitixa, ikastola,<br />
txakolina eta abar <strong>Euskal</strong> Herriko kontzeptu kulturalak dira. Horrelako kontzeptu<br />
kulturalak ditugunean, hizkuntza batean ez da egongo hori adierazteko<br />
hitzik. Kasu hauek hutsune kultural (cultural gaps) bezala izendatzen<br />
ditu Vossenek (1999).<br />
“A cultural gap is a concept not known in [another] culture.”<br />
(Vossen, 1999, 39. or.)<br />
Hutsune kulturalak ezin dira hitz bat edo hitz anitzeko esapide baten<br />
bidez adierazi; hauek azalpen edo definizio gisa adierazten dira edo bere horretan<br />
itzultzen dira (abiapuntuko hizkuntzaren hitz bera erabilita). Horregatik,<br />
editoreak hutsune kulturalen lexikalizazioa ez du zalantzatan jarriko,<br />
horrelakoak lexikalizatu gabeko kontzeptuak baitira. Hala ere, gero ikusiko<br />
dugun bezala, kasu hauek <strong>Euskal</strong> <strong>WordNet</strong>en nola landu behar diren erabaki<br />
behar izan dugu (ikus VI.1.4).<br />
Adierazpide-mailako desoreka gertatzen da, berriz, bi hizkuntzatan kontzeptua<br />
ezagutzen denean, baina bata eta bestean adierazpide desberdinak<br />
erabiltzen direnean. Esate baterako, batzuetan ingeleseko synsetak euskaraz<br />
hitz anitzeko esapideen bidez itzultzen dira:<br />
(2) pet → konpainia-animalia<br />
sleep → lo egin<br />
cook → janaria egin<br />
Alderantziz ere gerta daiteke, hots, euskarako synset bat ingelesez hitz anitzeko<br />
batekin adieraz daiteke:
120 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
(3) polizia → police officer, policeman<br />
abeltzaintza → livestock farming<br />
soinujole → accordion player<br />
Vossenek (1999) horrelakoei hutsune pragmatikoak (pragmatic gaps) deitzen<br />
die:<br />
“Pragmatic gaps are caused by lexicalization differences between<br />
languages, in the sense that in this case the concept is known but not<br />
expressed by a single lexicalized form in English:<br />
Dutch: doodschoppen (to kick to death)<br />
Spanish: alevin (young fish)<br />
Italian rincasare (to go back home)”<br />
(Vossen, 1999, 39. or.)<br />
Vossenek, ikusten dugun bezala, hutsune pragmatikotzat jotzen du kontzeptua<br />
bi hizkuntzetan egon eta adierazpide-mailan desoreka egotea.<br />
Dena den, ez da erraza hutsune pragmatiko hauen lexikalizazioa ebaztea,<br />
batez ere hiztegietan oinarriatuz gero: lo egin hiztegi-sarrera da, aldiz, janaria<br />
egin ez; etxe-abere hiztegi-sarrera da, konpainia-animalia, ordea, ez. Hizkuntza<br />
sortzailea den heinean, hitz-konbinazio berriak sortzen doaz, eta ulertzen<br />
ditugun arren, zaila da esaten lexikalizatuak dauden ala ez. Honek, noski<br />
zailtasunak dakartza hitz hori <strong>Euskal</strong> <strong>WordNet</strong>en sartu ala ez erabakitzeko.<br />
Zailtasun hau areagotu egiten da aldi berean semantikoki etiketatutako<br />
(desanbiguatutako) corpusa sortzen ari bagara (gogoratu V. kapituluan aipaturiko<br />
EuSemcor). Bertan hitz anitzeko esapide lexikalizatu baten osagai<br />
diren corpuseko agerpen guztiak markatu egiten dira. Adibidez, mutil izenaren<br />
agerpenak etiketatzen egonez gero, eta corpusean honi lagun izenak<br />
jarraitzen badio, mutil, agerpen horretan, hitz anitzeko baten osagarri gisa<br />
markatzen da 3 . Hala ere, etiketatzaileak maiz ez daude ados hitz anitzeko<br />
esapide lexikalizatua zer den erabakitzeko orduan.<br />
Horregatik, gure ustez bada beste desoreka mota bat: kontzeptu bat<br />
existitzea hizkuntza batean (bere adierazpen lexikalarekin; gehie<strong>net</strong>an hitz<br />
bakarrekoa), eta beste hizkuntzan zalantzan egotea kontzeptu hori bereziki<br />
bereizten dugun (hots, lexikalizatua dagoen), edo, besterik gabe, sintaxi askeko<br />
beste edozein adierazpide gisa ulertzen dugun. Aurreko adibideez gain<br />
(konpainia-animalia, janaria egin), horrelakoak izaten dira flexio-atzizkia edo<br />
numeroaren marka daramaten ordainak:<br />
3 Etiketatze semantikoari buruzko argibide gehiago Agirre et al.-en lanean (2005b).
VI.1 Lexikalizazioa 121<br />
(4) words → hitzak<br />
furnishing → altzariak<br />
goods → salgaiak<br />
cold → hotzez<br />
<strong>WordNet</strong>en hitz hauen adiera flexio-atzizkian edo pluraltasunean oinarritzen<br />
da. Hau da, flexio-atzizkia dutenean edota pluralean erabiltzen direnean<br />
adiera bat dute, eta gainontzean beste bat edo beste batzuk. Esate baterako,<br />
editoreak, <strong>WordNet</strong>etik abiatuta, singularreko synsetak euskaratzean<br />
(furniture → altzari, adibidez), ez du lexikalizazio-zalantzarik izaten euskarako<br />
ordain hori (altzari) hiztegi-sarrera denean hiztegi elebakar edo elebidu<strong>net</strong>an.<br />
Baina bestela gertatzen da hiztegietan sarrerarik ez dagoenean eta gainera<br />
adiera bereizketa argia ez denean. Azken hau (adiera-bereizketa eza) gertatzea<br />
arruntagoa da etiketatze semantikoan jardutean <strong>WordNet</strong>en hitzak editatzen<br />
jardutean baino. Editorearen ikuspegitik, errepresentazio-arazoa da<br />
gehiago gertatzen dena. Adibidez, furnishing kontzeptua adierazteko, altzari<br />
formaren adieretako bat balitza bezala landuko dugu, pluralean erabiltzen<br />
dela nolabait markatuz? edo altzariak hitz desberdina erabiliko dugu, horrekin<br />
ulertaraziz hitz hori (adiera horrekin) beti pluralean erabiltzen dela?<br />
Horrelakoetan editoreak kontzeptuaren lexikalizazioari buruzko zalantzak ditu.<br />
Ondorioz, ez daki synset horiek nola landu.<br />
Etiketatze semantikoarekin arazo hau areagotu egiten da, testuetako adibideen<br />
aurrean ez delako argi ikusten bi formen arteko bereizketaren beharra.<br />
Demagun, altzariak (furnishing adierazteko) lexikalizatutzat jotzen dugula.<br />
Orduan, altzari eta altzariak adiera desberdineko bi synset direla adierazten<br />
egongo ginateke eta hori corpusean ere halaxe izan beharko litzateke. Baina<br />
etiketatzaileek (5) adibideko agerpenen aurrean zalantzak dituzte. Hau da,<br />
ez dakite horrelako agerpenei altzari kontzeptua, altzariak kontzeptua, edo<br />
biak dagozkien. Gauza bera hitz eta hitzak, salgai eta salgaiak eta hotz eta<br />
hotzez kontzeptuekin.<br />
(5) Etxeko altzariak saldu behar izan ditut.<br />
Ez dira nik idatzitako hitzak.<br />
Salgaiez beteriko dendak.<br />
Hotzez hil dela salatu dute.<br />
Ingelesetik euskarara itzuli beharrean, alderantziz egingo bagenu arazo<br />
bera izango genuke; esate baterako, euskarako guraso hitzak hiztegietan bi
122 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
adiera ditu: bata, ‘aita edo ama’ (gurasoetako bat, alegia) adierazten duena,<br />
eta bestea ‘aita eta ama’ (bi gurasoak, alegia). Bigarrenean, <strong>WordNet</strong>eko<br />
words eta goods kontzeptuekin gertatzen den bera gertatzen zaigu: ‘aita eta<br />
ama’ adiera adierazteko beti plurala erabili behar da, eta honek bereizten<br />
ditu bi adierak, hain zuzen ere. Ingelesez, ‘aita edo ama’ adierazteko parent<br />
hitza darabilte. ‘Aita eta ama’ adiera, aldiz, ez dute hiztegietan jasota eta<br />
hiztunak hori adierazteko modua parents da, beste edozein izenekin bezala<br />
plurala erabiltzen dute. Guraso ‘aita eta ama’ adierazten duen synsetean, zer<br />
beharko luke parent ala parents? Gauza bera euskarako gazteria hitzarekin;<br />
ingelesez, kontzeptu hori adierazteko youngs edo young people bezalako bat<br />
beharko litzateke, baina synsetean young edo youngs jartzea erabaki beharko<br />
litzakete.<br />
(6) Parents are asked not to come.<br />
Youngs are the victims of the war on drugs.<br />
Hiztegietan oinarrituz, pluralaren kasuan, hiztegi-sarrera bezala izen bereziak<br />
daude (Alpeak, Estatu Batuak eta antzekoak). Izen bereziak ez diren<br />
beste pluraletan, hiztegiak askotan ez datoz bat. Hiztegi Batuak 4 , esate<br />
baterako, seme-alabak, senar-emazteak eta damak (‘dama-joko’a adierazteko)<br />
hiztegi-sarrera gisa proposatzen ditu.<br />
(7) Hiztegi Batua<br />
seme-alabak: seme-alabak<br />
senar-emazteak: senar-emazteak<br />
damak: (joko-izena)<br />
Guraizeak, aiton-amonak eta prakak formak, aldiz, ez dira hiztegi-sarrera,<br />
hots, dagokien hiztegi-sarrera singularrean dago (guraize, aiton-amona eta<br />
praka); baina flexioaren erabilerari buruzko nolabaiteko azalpena dator.<br />
(8) Hiztegi Batua<br />
guraize: pl.<br />
aiton-amona: pl.<br />
praka: pl., praka-pare bat<br />
Azkenik, mobiliario eta mercancía bezalakoak adierazten dituzten euskal<br />
ordain pluralak (altzariak eta salgaiak), hiztegi-sarrera singularrean dute<br />
(salgai eta altzari) inolako beste azalpenik gabe. Beraz, dirudienez, Hiztegi<br />
Batuak hitz hauen erabilera plurala ez du bereziki markatzen.<br />
4 http://www.euskaltzaindia.<strong>net</strong>/hiztegibatua (2007-07-02an atzitua).
VI.1 Lexikalizazioa 123<br />
(9) Hiztegi Batua<br />
salgai: 1. pred.: salgai dagoen liburua<br />
2. iz: Europa guztiko salgaiak itsasoz zabaltzen zituen<br />
altzari: altzari<br />
(9)ko adibide hauek berak beste hiztegietan era ezberdinean datoz adierazita.<br />
Hala ere, esan beharra dago gehie<strong>net</strong>an hiztegi-sarrera gisa lema soilik<br />
erabiltzen dutela. (8) adibidekoak bezalako azalpenak ere oso era aldakorrean<br />
ematen dira hiztegi batetik bestera. Horren adierazgarri (10) eta (11) ditugu,<br />
non Hiztegi Modernoak (Elhuyar, 2000) eta Elhuyar Hiztegi elebidunak<br />
(Elhuyar, 1998) 5 (hurrenez hurren) (9)ko adibide berdinak nola adierazten<br />
dituzten ikus dezakegun 6 :<br />
(10) Hiztegi Modernoa<br />
seme-alaba: Gizonezkoa edo emakumezkoa bere gurasoekiko<br />
senar-emazte: Elkarrekin ezkondurik dauden gizon eta emakumea<br />
dama: ez dago horrelako sarrerarik joko-izena adierazteko 7<br />
guraize: Erdialdean giltzatzen diren eta alde batean ahoa eta punta. . .<br />
aiton-amona: ez dago horrelako sarrerarik<br />
praka: galtzak<br />
salgai: 1. Saltzeko dagoen gauza. 2. Saltzeko<br />
altzari: [. . . ] hainbat zeregi<strong>net</strong>arako erabiltzen den objektu higigarria<br />
(11) Elhuyar Hiztegia<br />
seme-alaba: ez sing.; Hijos [hijos e hijas]<br />
senar-emazte: ez sing.; Marido y mujer, esposos, cónyugues<br />
dama: ez dago horrelako sarrerarik joko-izena adierazteko 8<br />
guraize: pl.; tijera(s)<br />
aiton-amona: ez dago horrelako sarrerarik<br />
praka: pl. pantalones<br />
salgai: batez ere pl.; mercancía, género<br />
altzari: mueble; (pl.) mobiliario, enseres<br />
Flexio-atzizkidun hitzetan ere gertatzen dira halako zalantzak: hotzik<br />
hiztegi-sarrera da, baina hotzez ez; edota buruz hiztegi-sarrera da, baina eskuz<br />
ez.<br />
5 http://www1.euskadi.<strong>net</strong>/hitz e/indice e.html (2007-07-02an atzitua).<br />
6 Hiztegietako definizioak eta azalpenak laburtu egin dira.<br />
7 ‘Joko-izena’ adierazteko dama-joko sarrera dago.<br />
8 Ikus 6. oin-oharra.
124 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
<strong>WordNet</strong>ek eta hiztegiek lexikalizaturiko kontzeptuak jasotzen badituzte<br />
ere, eta <strong>Euskal</strong> <strong>WordNet</strong>eko hasierako helburua horixe bazen ere, argi dago<br />
kasuistika honen aurrean, kontzeptuen lexikalizazioa ebaztea zaila dela, are<br />
gehiago, corpusarekin lan egitean. Horregatik, eta lexikalizazioaren zailtasunaz<br />
jabetuta, lana ahalik eta modu erosoenean egiteko irizpideak lantzea<br />
erabaki genuen.<br />
VI.1.2 Zalantzazko lexikalizazioa duten adierazpideen beharra<br />
Zerk erabakitzen du kontzeptu bat lexikalizatua dagoen ala ez; hiztegietako<br />
hiztegi-sarrera izateak ala ez izateak? Normalean, ordain batzuk lexikoian<br />
sartzeko edo ez erabakitzeko erabiltzen diren irizpideak beste faktore eta baldintzen<br />
arabera zehazten dira; gehie<strong>net</strong>an, lexikoiari eman nahi zaion erabilerak<br />
erabakitzen du zer ordain mota behar diren lexikoian. Gure kasuan,<br />
<strong>Euskal</strong> <strong>WordNet</strong>ek euskararen interpretazio semantikoa eskaintzen duen<br />
EBLa izatea nahi dugu, LNPko hainbat atazetan lagungarria izan dadin.<br />
Hori dela eta, lexikalizaturiko ordainez gain, zalantzazko lexikalizazioa duten<br />
ordainak ere <strong>Euskal</strong> <strong>WordNet</strong>en gehitzea beharrezkoa iruditu zaigu. Arrazoietan<br />
sakonduko dugu segidan.<br />
Arrazoi nagusiena da gure lanaren helburuen artean ez dagoela lexikalizaziori<br />
buruzko hausnarketa sakona egitea, baizik eta <strong>Euskal</strong> <strong>WordNet</strong> ahalik<br />
eta ordain kopuru handienarekin aberastea. Gainera, ordain bakoitzaren lexikalizazioa<br />
erabakitzen gehiegi luzatuz gero <strong>Euskal</strong> <strong>WordNet</strong>en garapena<br />
izugarri motelduko genuke.<br />
Bestalde, ingeleseko variantak euskarakoekin ordezkatzeko hiztegiak bakarrik<br />
kontuan hartuko bagenitu, (hots, hiztegi-sarrera direnak ordain gisa<br />
eman eta hiztegi-sarrera ez direnak ez) aipatutako synset horiek guztiak<br />
(furnishing → altzariak; pet → konpainia-animalia eta abar) euskaraz hutsik<br />
geratuko lirateke. Aldiz, ordain horiek <strong>Euskal</strong> <strong>WordNet</strong>en egonez gero, oso<br />
erabilgarriak izan daitezke, adibidez, itzulpengintza automatikorako.<br />
Bestalde, interpretazio semantikoa eta adieraren desanbiguazioa egiteko<br />
ere oso baliagarriak dira: zenbat eta ordain gehiago egon <strong>Euskal</strong> <strong>WordNet</strong>en,<br />
orduan eta errazagoa izango zaio programa bati adierak desanbiguatzea.<br />
Hitz anitzeko esapideen kasuan, zalantzazko lexikalizazioa dutenak EBLan<br />
txertatzeko ikuspegi hau dagoeneko erabilia izan da Bentivogli eta Piantaren<br />
lanean (2002). Autore hauek maiz errepikatzen diren konbinazio askeak<br />
deitzen dituztenak italierako word<strong>net</strong>ean txertatzen dituzte.
VI.1 Lexikalizazioa 125<br />
(12) a. <strong>WordNet</strong> {toilet roll}<br />
Italierako <strong>WordNet</strong> {rotolo di carta igienica}<br />
b. <strong>WordNet</strong> {bike}<br />
Italierako <strong>WordNet</strong> {andare in bicicletta}<br />
Hortaz, Bentivogli eta Piantak (2002) maiz errepikatzen diren konbinazio<br />
askeak sartzen dituzte bakarrik italierako word<strong>net</strong>ean. Hitz anitzeko bat<br />
maiz errepikatzen den konbinazio askea den ala ez jakiteko, aldez aurretik<br />
neurtu behar dira hitz anitzeko esapide horrek corpus orekatu batean dituen<br />
agerpenak eta hitz anitzekoen osagaien arteko asoziazio-maila.<br />
<strong>Euskal</strong> <strong>WordNet</strong>en sartuko ditugun zalantzazko hitz anitzekoak, aldiz,<br />
ez dira bakarrik maiztasun handikoak izango. VI.1.4 atalean azalduko dugun<br />
bezala, hauek <strong>Euskal</strong> <strong>WordNet</strong>en sartzeko, beste ezaugarri batzuk ere<br />
hartuko ditugu kontuan.<br />
<strong>Euskal</strong> <strong>WordNet</strong>eko variant lexikalizatu, zalantzazko lexikalizatu, eta ezlexikalizatuak<br />
koherenteki lantzeko, hauei buruzko terminologia zehaztu behar<br />
izan dugu, eta baita hainbat irizpidetan oinarritutako metodologia bat definitu<br />
ere.<br />
VI.1.3 Terminologiaren azterketa eta gure aukera<br />
VI.1 atalean esan dugun bezala, adierazpideek, continuumaren puntu batean<br />
ala bestean geldituz gero, ezaugarri desberdinak dituzte, eta horrek literaturan<br />
hainbat sailkapen egitea ekarri du. Horietako batzuen berri emango<br />
dugu hemen.<br />
Segidan aurkeztuko dugun sailkapena hitz anitzekoei dagokie. Hitz bakarren<br />
eta hitz anitzekoen lexikalizazioaz aritu bagara ere, lexikalizazioarazoak<br />
gehie<strong>net</strong>an hitz anitzekoekin aztertzen dira, hauetan konplexuagoa<br />
baita lexikalizazio-mugak zehaztea.<br />
Sag et al.-en (2002) ustez, bi hitz anitzeko mota daude: hitz anitzeko<br />
esapide lexikalizatuak (lexicalized phrases) etahitz anitzeko esapide instituzionalizatuak<br />
(institutionalized phrases). Hitz anitzeko esapide lexikalizatuak<br />
horrela deskribatzen dituzte:<br />
“Lexicalized phrases have at least partially idiosyncratic syntax or<br />
semantics, or containing “words” which do not occur in isolation.”<br />
(Sag et al., 2002, 3. or.)
126 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
Ezaugarri hauek betetzen dituzten hitz anitzeko lexikalizatuen artean hurrengoak<br />
daude: lokuzioak (proper idioms) (13. adibidean), bana daitezkeen<br />
lokuzioak (decomposable idioms) (14. adibidean), hitz elkartuak<br />
eta hitz anitzeko esapide terminologikoak (compound nominals and terminological<br />
multiword expressions) (15. adibidean), izen bereziak proper<br />
names (16. adibidean), aditz-partikula egiturak (verb-particle constructions)<br />
(17. adibidean) eta aditz arin egiturak (light verb constructions)<br />
(18. adibidean) 9 .<br />
(13) a. to kick the bucket<br />
‘hil’; lit: ‘ontziari ostikada eman’<br />
b. to pull somebody’s leg<br />
‘adarra jo’; lit: ‘norbaiten hankatik tira egin’<br />
c. adarra jo<br />
‘to pull somebody’s leg’; lit: ‘to play the horn’<br />
d. larru bizirik<br />
‘stark naked’; lit: ‘raw-skinned’<br />
(14) a. to spill the beans<br />
‘agerian utzi’; lit: ‘sekretuak ezaguturazi’<br />
b. to sweep something under the carpet<br />
‘ezkutatu’; lit: ‘alfonbra azpira erraztatu’<br />
c. burua jan<br />
‘to brainwash’; lit: ‘to eat the head’<br />
d. muturra sartu<br />
‘to stick somebody’s nose’; lit: ‘to put the muzzle in’<br />
(15) a. car park<br />
‘aparkaleku’; lit: ‘auto parke’<br />
b. central processing unit<br />
‘prozesatzeko unitate zentral’; lit: ‘prozesatzeko unitate zentral’<br />
c. buruhauste<br />
‘problem’; lit: ‘broken head’<br />
d. sudur-zapi<br />
‘handkerchief’; lit: ‘nose-cloth’<br />
9 Ingelesko adibideak Sag et al.-etik (2002) hartutakoak dira, baina hauekin batera<br />
euskarako batzuk ere proposatzen ditugu.
VI.1 Lexikalizazioa 127<br />
(16) a. Los Angeles<br />
b. Chicago Bulls<br />
c. <strong>Euskal</strong> Herri<br />
‘Basque Country’<br />
d. Europako Banku Zentrala<br />
‘European Central Bank’<br />
(17) a. do without<br />
‘moldatu’; lit: ‘gabe moldatu’<br />
b. go after<br />
‘-en atzetik joan’; lit: ‘-en atzetik joan’<br />
c. -tzat hartu<br />
‘to take someone for’; lit: ‘to take as’<br />
d. -i eutsi<br />
’defend’; lit: ‘to hold to something’<br />
(18) a. make a mistake<br />
‘akats bat egin’; lit: ‘akats bat egin’<br />
b. fall asleep<br />
‘lo hartu’; lit: ‘lo hartu’<br />
c. hitz eman / berba eman<br />
‘to promise’; lit: ‘to give the word’<br />
d. min hartu<br />
‘to hurt’; lit: ‘to take hurt’<br />
Lokuzioak egitura izoztuak dira. Beraz, beraien adiera ezin da konposizionalki<br />
osatu hitz anitzekoaren osagai bakoitzetik. Gainera, hitz anitzeko<br />
osagai bakoitza ezin da beste sinonimo batengatik ordezkatu. Esate baterako,<br />
(13c) adibideko adarra jo lokuzioa ezin da ulertu konposizionalki, kasu<br />
horretan adarra hitzak ez baitu zerikusirik hiztegietan duen adierekin (animaliarena,<br />
zuhaitzarena...). Honen adierazgarri dugu, hitz anitzeko adarra<br />
osagaia ezin dela hiztegietan duen adiera horietako baten sinonimoarengatik<br />
ordezkatu: *adarkia jo.<br />
Bana daitezkeen lokuzioak, ordea, maiz elkarrekin agertzen edo erabiltzen<br />
diren hitz multzoak dira, eta beraien adiera konposizionaltzat jotzen dute.<br />
Esate baterako, berari ez dagokion arazo batean muturra sartu du esaterakoan,<br />
hitz anitzekoaren adiera konposizionalki uler daiteke, nahiz eta muturra sartu<br />
ekintza fisikoaren adiera metaforikoa izan (koldarrak amaitzearren muturra katiluan<br />
sartu zuen). Hala ere, mota ho<strong>net</strong>ako hitz anitzekoen osagaiek badute<br />
halako ezaugarri semantiko bat euren sinonimoengatik ordezkaezinak egiten
128 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
dituena. Hala nola, berari ez dagokion arazo batean muturra sartu du esan<br />
badezakegu ere, arraroa litzateke berari ez dagokion arazo batean musua sartu<br />
du erabiltzea. Antzeko fenomenoa ikus daiteke aipatutako beste hitz anitzeko<br />
motetan ere. Adibidez, hitz eman eta berba eman sinonimoak dira, biek<br />
promes egin adierazten dute. Aldiz, ele izena hitz eta berbaren sinonimoa izan<br />
arren, ezin da ele eman erabili hitz eman edo berba emanen sinonimo gisa, ele<br />
eman hitz anitzekoak beste adiera bat baitu: ‘hizpidea eman’.<br />
Sag et al.-ek (2002) hitz anitzeko esapide instituzionalak sintaxiaren erregelak<br />
jarraitzen dituzten hitz konbinazioak baino ez direla argudiatzen dute.<br />
Hala ere, osagaien adierak konposizionalki elkartzen badira ere, ezin dira<br />
beti sinonimo batengatik ordezkatu (ikus 19. adibidea). Dirudienez, konbentzionalizatutako<br />
egiturak dira, eta, horregatik, gauza bera adierazteko<br />
erabil litezkeen beste hitz anitzeko batzuk baino maiztasun handiagoa dute.<br />
Esate baterako, euskaraz nortasun-agiri erabiltzen da ‘norbaiten identitatea<br />
ziurtatu ahal izateko balio duen txartela/agiria’ adierazteko. Honen ordez,<br />
identitate-agiri berdin-berdin erabil zitekeen. Are gehiago, hala beharko luke,<br />
‘pertsona bat nor den adierazten duen datu multzoa’ adierazteko hobetsitako<br />
ordaina identitate baita, eta ez nortasun. Hala eta guztiz ere, nortasun-agiri<br />
izan da gure artean zabaldu dena, nahiz eta nortasun hitzaren adiera hori hobetsia<br />
ez egon. Antzekoa gertatzen da telefono mugikor hitz anitzekoarekin:<br />
telefono higikor, telefono higigarri edo sakelako telefono erabiliz gero, edonork<br />
ulertuko baligu ere, konbentzionalizatutako forma telefono mugikor izan da.<br />
(19) a. traffic light<br />
‘semaforo’; lit: ‘trafiko argi’<br />
b. telephone box<br />
‘telefono-kabina’; lit: ‘telefono-kabina’<br />
c. telefono mugikor<br />
‘cellphone’; lit: ‘mobile phone’<br />
d. nortasun-agiri<br />
‘identity card’; lit: ‘identity document’<br />
Horrela, bada, Sag et al.-en (2002) ustetan, hitz anitzeko esapide instituzionalizatuak<br />
semantikoki eta sintaktikoki konposizionalak dira, baina estatistikoki<br />
instituzionalak.<br />
Bentivogli eta Piantak (2002) hitz anitzeko esapide lexikalizatuak (lexicalized<br />
multiword expression) etamaiz errepikatzen diren konbinazio askeak<br />
(recurrent free combination) bereizten dituzte.
VI.1 Lexikalizazioa 129<br />
Sag et al.-en (2002) hitz anitzeko esapide lexikalizatuak eta Bentivogli<br />
eta Piantarenak (2002) bat datoz. Hala ere, Bentivogli eta Piantak (2002)<br />
hauen azpian bi azpimultzo bakarrik egiten dituzte: lokuzioak (idioms) eta<br />
kolokazio mugatuak (restricted collocations). Azken hauek Sag et al.-en<br />
(2002) hitz anitzeko esapide lexikalizatu izenaren azpian multzokatutako guztiak<br />
onartzen dituzte. Bentivogli eta Piantaren ustetan (2002), lokuzioek eta<br />
kolokazio mugatuek analisi linguistikoaren mailaren batean unitate gisa jokatzen<br />
dute eta hitz anitzeko esapide lexikalizatuak dira. Hala ere, beraien<br />
artean badago nolabaiteko desberdintasuna. Lokuzioak egitura izoztuak dira,<br />
eta beraien adiera ez da konposizionala (ikus 13. adibideko kasuak). Kolokazio<br />
mugatuak, aldiz, maiz elkarrekin agertzen edo erabiltzen diren hitz<br />
multzoak dira, eta beraien adiera konposizionala da (14. adibideko kasuekin<br />
azaldu dugun bezala).<br />
Bestalde, maiz errepikatzen diren konbinazio askeek sintaxiaren erregelak<br />
jarraitzeaz gain, adiera konposizionala dute eta osagai bat sinonimo batez<br />
ordezkatzea onartzen dute. Adibidez, ingeleseko toilet roll hitza euskaraz<br />
komuneko paper-erroilu itzultzen da <strong>Euskal</strong>termen 10 arabera (ikus (20b) adibidea),<br />
eta italieraz rotolo di carta igienica. Dena den, erroilu izenaren sinonimo<br />
bat erabil dezakegu gauza bera adierazteko: biribilki. Eta aldi berean italieraz,<br />
rotolo osagaiaren sinonimo bat ere erabil dezakegu: bobina. Hori dela<br />
eta, Bentivogli eta Piantak (2002) horrelako formak ez-lexikalizatu bezala<br />
deskribatzen dituzte, eta, ondorioz, hauek ez dira hiztegi-sarrerak izango.<br />
(20) a. bizikletan ibili/joan<br />
andare in bicicletta<br />
‘to bike’; lit: ‘to go on a bicycle’<br />
b. komuneko paper-erroliu, komuneko paper-biribilki<br />
rotolo di carta igienica, bobina di carta igienica<br />
‘toilet roll’; lit: ‘toilet paper roll’<br />
Azkenik, Alegria et al.-ek (2004) hitz anitzeko esapidea terminoa erabiltzen<br />
dute edozein hitz-konbinazio adierazteko; lexikalizatuak nahiz ez<br />
lexikalizatuak. Bestetik, hitz anitzeko unitate lexikal darabilte lexikalizaturiko<br />
hitz anitzekoei buruz bakarrik hitz egiteko, hau da, semantikoki ezkonposizionalak<br />
eta sintaktikoki idiosinkratikoak diren hitz anitzeko horiek<br />
izendatzeko; hala nola, (13)tik (18)ra aipatutako adibide guztiak. Ikuspegi<br />
hau, hain zuzen ere, IXA taldean garatzen ari den tesi-lan batean hartu da<br />
10 http://www1.euskadi.<strong>net</strong>/euskalterm (2007-07-02an atzitua).
130 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
(Urizar, Kolokazioak euskaraz), non hitz anitzekoen azterketa sakona egiten<br />
den, gero LNPko hainbat atazetan automatikoki ezagutu ahal izateko.<br />
Gurean, hitz anitzeko esapideez hitz egiterakoan, Alegria et al.-en (2004)<br />
terminologia erabiltzearen alde egin dugu, orokorra izanik erabilerrazagoa<br />
zaigulako, eta berean, IXA taldekoarenarekin bat egiten genuelako.<br />
Hala, aurrerantzean, hitz anitzeko esapideak (HAEak) etahitz anitzeko<br />
unitate lexikalak (HAULak) bereiztuko ditugu. Beste hitz batzuetan<br />
esanda, HAE adierazpidea lexikalizatu nahiz ez-lexikalizatuentzako termino<br />
orokor gisa erabiliko dugu, eta, aldiz, zehazki lexikalizatutakoei erreferentzia<br />
egiterakoan, HAUL. Hortaz, (21)eko guztiak HAEak dira, baina horietako<br />
batzuk bakarrik dira HAULak.<br />
Dena den, eta aipatutako tesi-lan horren emaitzak iritsi bitartean, beste<br />
hainbat terminologiaren beharra izan dugu.<br />
Esan dugun bezala, simnel eta off-sales bezalakoak hutsune kulturalak dira,<br />
eta hutsune kulturalak ezin dira hitz bat edo HAE batez adierazi (behintzat<br />
jatorrizkoa ez den hizkuntzan). Aitzitik, azalpen antzeko bat behar dute.<br />
Beraz, HAEen artean, beste maila bateko bereizketa behar dugu: abiapuntu<br />
den hizkuntzako hitzaren ordaina kategoria sintaktiko berarekin itzulitakoak,<br />
eta, lexikalizatzeko modurik ez daukatenez, azalpen batekin itzuli behar direnak.<br />
Kategoria sintaktiko berdinarekin itzultzen direnen artean, berriz, bi motakoak<br />
egongo dira:<br />
• Lexikalizatuak, HAULak deritzogunak.<br />
• Zalantzazko lexikalizazioa dutenak.<br />
Azken hauei adierazpide sintagmatiko (phrasal concepts) deitu diegu:<br />
“Phrasal concepts constitute the representation of phrase structures<br />
that are composed by several concepts with semantic content.”<br />
(Agirre et al., 1994b, 1.394. or.)<br />
Hona hemen adierazpide sintagmatikoen adibide batzuk:<br />
(21) a. <strong>WordNet</strong>: {corkscrew}<br />
<strong>Euskal</strong> <strong>WordNet</strong>: {kortxo-kentzeko}<br />
b. <strong>WordNet</strong> {bike}<br />
<strong>Euskal</strong> <strong>WordNet</strong>: {bizikletan ibili}
VI.1 Lexikalizazioa 131<br />
Beraz, dagoeneko badakigu zein kasuistika izango dugun. Baina nola<br />
jakingo dugu, kasuan kasu, variant bat HAUL gisa, adierazpide sintagmatiko<br />
gisa, hutsune kultural gisa, hitz bakar lexikalizatu gisa ala ez-lexikalizatutako<br />
hitz gisa landu behar den? Horretarako, hurrengo ataleko irizpideak definitu<br />
behar izan ditugu.<br />
VI.1.4 <strong>Euskal</strong> ordainak <strong>Euskal</strong> <strong>WordNet</strong>en sartzeko eta markatzeko<br />
irizpideak<br />
VI.1.1 atalean lexikalizazioaren inguruko arazoak aurkeztu ditugu, baita hauen<br />
hiztegietako adierazpideei buruzkoak ere. Atal ho<strong>net</strong>an, forma hauek <strong>Euskal</strong><br />
<strong>WordNet</strong>en sartzeko eta errepresentatzeko finkatu ditugun irizpideak azalduko<br />
ditugu.<br />
<strong>Euskal</strong> <strong>WordNet</strong>eko editoreak hiztegi-sarrera den beste ordain batekin<br />
itzultzen badu synseta, ez du inolako zalantzarik ez bere lexikalizazioaz, ez<br />
EBLan adierazteko moduaz. Aldiz, hiztegi-sarrera ez denean, orduan sortzen<br />
dira lexikalizazioari buruzko zalantzak. Beraz, lehenengo irizpide argia horixe<br />
dugu:<br />
• Lehenengo iripizdea: <strong>Euskara</strong>ko adierazpidea Elhuyar Hiztegian,<br />
Hiztegi Modernoan, <strong>Euskal</strong> Hiztegian, <strong>Euskal</strong>termen edota Hiztegi Batuan<br />
11 hiztegi-sarrera bada, orduan, editoreak adierazpide hori lexikalizatutzat<br />
hartuko du eta synsetean sartuko du. Adibidez, ingeleseko<br />
sleep aditza euskaraz lo egin esaten da. Forma hau gutxienez aipatutako<br />
hiztegi batean hiztegi-sarrera bada, editoreak synsetean sartuko du<br />
variant gisa eta lexikalizatu gisa markatuko du (LEX markarekin):<br />
(22) Synset-zenbakia: 00009805<br />
=> Synsetaren lexikalizazio-egoera: LEX<br />
=> Glosa: Lo-egoeran egon<br />
=> Sinonimoak:<br />
=> lo egin<br />
Lehenengo irizpideak hiztegi-sarrera diren HAEei egiten die erreferentzia.<br />
Beste guztientzat ere irizpide batzuk behar ditugu nolabait kodetzeko eta<br />
bereizteko.<br />
11 Aipatu beharra dago, hiztegi hauek hautatu izanaren arrazoia. Alde batetik, IXA<br />
taldeak hiztegigileekin duen harreman estuarengatik, euren hiztegiak euskarri elektronikoan<br />
erabiltzeko aukera ematen digutelako. Bestetik, hiztegi espezializatu (<strong>Euskal</strong>term)<br />
eta orokor gisa erabilera handia duten hiztegiak direlako.
132 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
• Bigarren irizpidea: <strong>Euskara</strong>ko adierazpidea HAE bat bada, eta<br />
Elhuyar Hiztegian, Hiztegi Modernoan, <strong>Euskal</strong> Hiztegian, <strong>Euskal</strong>termen<br />
edota Hiztegi Batuan hiztegi-sarrera ez bada:<br />
(a) kontzeptu hori euskaraz kategoria sintaktiko berarekin itzul<br />
badaiteke, orduan, editoreak adierazpide hori variant gisa sartuko<br />
du, eta lexikalizatu (LEX )etaadierazpide sintagmatiko<br />
gisa (IXALEX ) markatuko du. 23. adibidean, ingeleseko to<br />
cook synsetari lotutako euskarako variantak ditugu (janaria prestatu<br />
eta janaria egin). <strong>Euskara</strong>z, to cook adierazteko hiztegi-sarrera<br />
ez den, baina ingeleseko kontzeptuaren kategoria sintaktiko bera<br />
duen HAE bat darabilgu.<br />
(b) kontzeptu hori adierazteko kategoria sintaktiko desberdineko<br />
HAE konplexu bat —definizio edo azalpen gisakoa— erabili behar<br />
badugu, orduan, editoreak HAE hori ez du variant gisa txertatuko<br />
baizik glosa gisa. Hauek hutsune lexikal —lexical gaps (Vossen,<br />
1999)— izendatu ditugu, eta ez-lexikalizatu gisa markatu ditugu<br />
(NOLEX ) (ikus 24. adibidea).<br />
(23) Synset-zenbakia: 01143604<br />
=> Synsetaren lexikalizazio-egoera: LEX<br />
=> Glosa: elikagaiak jateko prestatu<br />
=> Sinonimoak:<br />
=> janaria prestatu (IXALEX)<br />
=> janaria egin (IXALEX)<br />
(24) Synset-zenbakia: 05678078<br />
=> Synsetaren lexikalizazio-egoera: NOLEX<br />
=> Glosa: Ingalaterran Eguberrietan jaten den gozokia<br />
=> Sinonimoak:<br />
=> -<br />
• Hirugarren irizpidea: Kontzeptu bat adierazteko plurala edo<br />
flexio-atzizkia duen forma erabili behar bada, orduan, editoreak<br />
varianta pluralaren edota flexioaren atzizkirik gabe sartuko du, eta<br />
alboan interfazeak eskaintzen duen PLU marka (ikus 25. adibidea)<br />
edo FLEX marka (ikus 26. adibidea) aukeratuko du, kontzeptu horrek<br />
pluraleko tasuna edo flexio-atzizkia, hurrenez hurren, hartzen duela<br />
adierazteko.
VI.1 Lexikalizazioa 133<br />
(25) Synset-zenbakia: 02729592<br />
=> Synsetaren lexikalizazio-egoera: LEX<br />
=> Glosa: Hainbat zeregi<strong>net</strong>arako erabiltzen diren objektu higigarriak.<br />
=> Sinonimoak:<br />
=> altzari (PLU)<br />
(26) Synset-zenbakia: 01199751<br />
=> Synsetaren lexikalizazio-egoera: LEX<br />
=> Glosa: Bero-gabeziak gorputzean eragiten duen sentsazioa.<br />
=> Sinonimoak:<br />
=> hotz (FLEX)<br />
Hala, ez gara forma pluralaren lexikalizazioari buruzko eztabaidetan sartzen.<br />
Ingeleseko kontzeptu bat euskaraz adierazteko plurala behar dugula<br />
bakarrik adierazten dugu, eta horretarako darabilgu PLU etiketa.<br />
Nahiz eta oraingoz izen eta aditzekin lan egin dugun, dagoeneko aurreikusten<br />
dugu, hirugarren iripizpide honek etorkizunean landuko ditugun beste<br />
kategorien (adjektibo eta adberbioen) adierazpe<strong>net</strong>arako ere balioko digula,<br />
hotzik/hotzez bezalakoak adierazteko, adibidez.<br />
VI.1.4.1 Barne-errepresentazio semantikoa <strong>Euskal</strong> <strong>WordNet</strong>en<br />
HAEak <strong>Euskal</strong> <strong>WordNet</strong>en lantzeko irizpideak hauen lexikalizaziora bakarrik<br />
mugatzen dira. Irizpide hauek ez dute HAEei buruzko bestelako informaziorik<br />
ematen, hala nola, HAEa osatzen duten osagaien arteko harreman<br />
semantikoei buruzkoa. Sag et al.-en ustez, (2002) HAEen analisi sintaktikoa<br />
eta interpretazio semantikoa lotu ahal izateko, HAEen barne-errepresentazio<br />
semantikoa beharrezkoa da; batez ere, konposizionalki uler daitezkeen<br />
HAE horiena, edota, Sag et al.-en (2002) terminologiari jarraituz, bana daitezkeen<br />
esapideena (decomposable idioms) (14. adibidean), hitz elkartuak eta<br />
hitz anitzeko esapide terminologikoena (compound nominals and terminological<br />
multiword expressions) (15. adibidean), aditz arin egiturena (light verb<br />
constructions) (18. adibidean) eta hitz anitzeko esapide instituzionalizatuena<br />
(institutionalized phrases) (19. adibidean).<br />
Bentivogli eta Piantak (2002), italierako word<strong>net</strong>eko HAEetan oinarrituta,<br />
barne-errepresentazio eredu bat proposatzen dute. Autore hauek<br />
composed-of lotura erabiltzen dute HAEa den synseta eta honen osagaien<br />
artean (ikus VI.1 irudiko c) atala). Beste hitz batzuetan esanda, synseta<br />
HAE bat bada, HAE hau bere osagaiei dagokion synsetekin lotuta egongo<br />
da composed-of harremanaren bitartez. 3. irudiko c) atalean, adibide gisa,
134 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
lo egin HAEa dugu. Synset hau, beste edozein synset bezala, bere hiperonimo<br />
(deskantsatu) eta troponimoei (siesta egin, kuluxka bat egin, hibernatu...)<br />
lotuta egongo da. Baina, ho<strong>net</strong>az gain, synseteko HAEa osatzen duen osagai<br />
bakoitzari (lo eta egin) dagokion synsetarekin composed-of lotura bat izango<br />
du, HAEa den synseta bestebisynsetez osatua dagoela adieraziz.<br />
A<br />
C<br />
Ing. - to travel<br />
Eus. - bidaiatu<br />
hiperonimoa<br />
Ing. - to bike<br />
Eus. - HUTSUNE LEX. (NOLEX)<br />
Ing. - to rest<br />
Eus. - deskantsatu<br />
hiperonimoa<br />
Ing. - to do<br />
Eus. - egin<br />
Ing. - to sleep<br />
Eus. - lo egin<br />
composed-of<br />
Ing. - to sleep<br />
Eus. - lo<br />
B<br />
D<br />
Ing. - to rest<br />
Eus. - deskantsatu<br />
hiperonimoa<br />
Ing. - to travel<br />
Eus. - bidaiatu<br />
hiperonimoa<br />
Ing. - to bike<br />
Eus. - bizikletan ibili (IXALEX)<br />
Ing. - to do<br />
Eus. - egin<br />
Ing. - to sleep<br />
Eus. - lo egin<br />
composed-of<br />
VI.1 Irudia: HAEen barne-errepresentazio ezberdinak.<br />
Ing. - to sleep<br />
Eus. - lo<br />
involved_theme<br />
<strong>Euskal</strong> <strong>WordNet</strong>en composed-of harreman semantikoa erabiliko dugu,<br />
konposizionalki osatzen diren HAEen osagaiak errepresentatzeko aproposak<br />
iruditzen zaizkigulako. Hala ere, harreman ho<strong>net</strong>az gain, HAEa osatzen duten<br />
osagaien barne-errepresentazioa gehiago zehaz daiteke. Esate baterako,<br />
composed-of harreman semantiko honek ez du HAEen osagaien arteko harreman<br />
sintaktiko-semantikoa adierazten. Har dezagun umeak lo egin zuen esaldia<br />
adibide gisa, non aditz arineko egitura bat dugun: lo egin. Semantikoki,<br />
esaldi ho<strong>net</strong>an composed-of harremanak ez du adierazten lo egin ekintzaren<br />
azpian lo egotearen egoera dagoenik. Sintaktikoki ere ez du adierazten HAUL<br />
honen osagai nominala (lo) hitz anitzeko aditz-esapidearen (lo egin) objektu
VI.1 Lexikalizazioa 135<br />
sintaktikoa denik. Hala, HAEko lo osagaia lo egin aditzaren objektua bada,<br />
honek rol tematiko bat hartuko du. Rol hau bi osagaien arteko harreman<br />
semantikoen bidez adierazita etorriko balitz, umeak lo egin zuen esaldiaren<br />
interpretazio sintaktiko-semantiko osoa genuke.<br />
Nahiz eta <strong>WordNet</strong>en erlazio gutxi egon, Euro<strong>WordNet</strong>en orain erabilgarriak<br />
izan daitezkeen erlazioak definitu ziren (ikus IV.2 atala). Horien<br />
artean, kategoria desberdi<strong>net</strong>ako synsetak lotzen dituzten harreman semantikoak<br />
zeuden: involved relation deiturikoak, hain zuzen ere.<br />
“The INVOLVED relation is used to encode data on arguments<br />
or adjuncts lexicalized within the meaning of a 2nd order entity.”<br />
(Alonge et al., 1998, 29. or.)<br />
Harreman hauek lehenengo, bigarren eta hirugarren mailako entitateen<br />
arteko harremanak bideratzen dituzte. IV.2 atalean azaldu bezala, lehenengo<br />
mailako entitateak izen konkretuak dira; bigarren mailakoak ekintzak,<br />
prozesuak eta egoerak adierazten dituzten izen, aditz eta adjektiboak; eta<br />
azkenik, hirugarren mailakoak izen abstraktuak dira. Involved harremana<br />
aditz edo ekintza bat adierazten duen izen batetik abiatzen da, izen konkretu<br />
edo abstraktu batekin lotzeko. Adibidez, ingeleseko to hammer aditza<br />
hammer izenari lotuko zaio involved instrument harremanaren bidez.<br />
Zortzi involved harreman mota daude: agent, patient, instrument, result,<br />
location, direction, source direction eta target direction.<br />
Gure ustez, involved relation harremana barne-egiturak errepresentatzeko<br />
oso egokia da. VI.1 irudiko d) atalean, lo egin HAEaren errepresentazioa dugu<br />
non composed-of harremanaz gain, involved relation harremana ere erabiltzen<br />
dugun: lo HAEaren gaia (involved patient) da, eta honi esker jakin dezakegu<br />
lo egiteko, lo egotea beharrezkoa dela.<br />
Harreman semantiko hauei esker, <strong>Euskal</strong> <strong>WordNet</strong>en ezagutza aberas daitekes:<br />
HAEaren osagaietako bakoitzari adiera emateaz gain, HAEak berak<br />
daraman informazio sintaktiko-semantikoari buruzko argibideak ere adierazten<br />
dira. Informazio hau guztia oso baliagarria zaigu LNPko hainbat atazatan,<br />
hala nola, itzulpen automatikoan eta adieraren desanbiguazioan.<br />
Orain arte, <strong>Euskal</strong> <strong>WordNet</strong>eko HAEak diren izen eta aditzak dagozkien<br />
lexikalizazio-estatusarekin markatu ditugu; hots, lexikalizatu edo HAUL gisa,<br />
adierazpide sintagmatiko gisa eta hutsune lexikal gisa. Sailkapen hau VI.1<br />
irudiko b) atalean dator adierazita. Kasu ho<strong>net</strong>an, adierazpide sintagmatiko<br />
baten errepresentazioa dugu (IXALEX ); ingeleseko to bike aditza euskaraz<br />
bizikletan ibili HAEaren bitartez adierazten dugu. HAE hau ez denez
136 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
hiztegi-sarrera eta ingelesekoren kategoria sintaktiko berarekin itzul daitekeenez,<br />
<strong>Euskal</strong> <strong>WordNet</strong>en adierazpide sintagmatiko gisa sartu dugu.<br />
Gerora begira, ordea, HAEen barne-errepresentazioa adierazteari ekin<br />
nahi diogu VI.1 irudiko d) eredua jarraituta. Horretarako, dagoeneko eratorpenarekin<br />
erabili diren (Agirre eta Lersundi, 2001) metodo erdiautomatikoak<br />
erabiltzea pentsatzen dugu. Horrela, barne-egiturako synsetak eta beraien<br />
arteko harreman semantikoak automatikoki desanbiguatu ahal izango ditugu.<br />
Harreman berri hauei esker, MCRa informazio gehiagorekin aberastu<br />
ahal izango dugu. Gainera, kategoria desberdineko osagaiak dituzten HAEez<br />
gain, kategoria berdineko osagaiak dituzten HAEen osagaien arteko harremanak<br />
ere adierazi ahal izango ditugu.<br />
VI.1 taulan <strong>Euskal</strong> <strong>WordNet</strong>eko datuez gain, <strong>Euskal</strong> <strong>WordNet</strong>en HAE<br />
mota bakoitzak dituen kopuruak ikus daitezke. Orain arte, izenek eta aditzek<br />
HAE kopuru antzekoa dute (2.935 eta 2.439, hurrenez hurren). Hala ere,<br />
gogoratu beharra dago aditzen garapena hasi baino ez dugula egin: <strong>Euskal</strong><br />
<strong>WordNet</strong>eko izenen synsetak 28.705 dira, eta aditzena, berriz, 3.751. Hala,<br />
aditzekin HAE gehiago behar ditugula dirudi. Gauza bera esan dezakegu<br />
hutsune lexikal eta adierazpide sintagmatikoei buruz. Honen arrazoia ingeleseko<br />
hierarkiaren espezifikazio-maila izan daiteke, baina fenomeno honen<br />
berri VI.2.2 atalean emango dugu.<br />
Guztira Izenak Aditzak<br />
Variant 50.670 41.160 9.510<br />
Lema 26.565 23.069 3.496<br />
Synset 32.456 28.705 3.751<br />
Hutsune lexikal 2.499 2.198 301<br />
Izen berezi 722 722 0<br />
HAE 5.374 2.935 2.439<br />
Adierazpide sintagmatiko 352 79 273<br />
VI.1 Taula: <strong>Euskal</strong> <strong>WordNet</strong>eko datuak, eta HAE moten kopuruak.
VI.2 Bereizgarri hierarkikoak 137<br />
VI.2 Bereizgarri hierarkikoak<br />
V. kapituluan aipatu dugun bezala, Euro<strong>WordNet</strong>en garapena den MCR<br />
eredua aukeratuta, <strong>Euskal</strong> <strong>WordNet</strong>en garapena expand approach eta merge<br />
approach metodologietan oinarrituta egin zitekeen. Lehenengoan, euskarako<br />
ordainak, <strong>WordNet</strong>eko hierarkiari jarraituz, bertako synsetei zuzenean<br />
esleitzen zaizkie. Bigarrenean, aldiz, guk geuk sortu behar dugu euskarako<br />
adieren inbentarioa eta hierarkia, eta Inter-Lingual-Indexari (ILIari) lotu<br />
ondoren. Gure kasuan expand approach erabiltzearen alde egin genuen.<br />
Bide bat ala bestea aukeratzeak kasuistika ezberdina ekar dezake. Merge<br />
approachean oinarritutako word<strong>net</strong>eko kontzeptuak ILIarekin lotzean,<br />
kontzeptualizazio-mailako arazoak ekar ditzake, hizkuntza horretarako egindako<br />
kontzeptuen sailkapena beste word<strong>net</strong>etako sailkapenarekin bat ez etortzea<br />
gerta daiteke, hau da, kontzeptuen diseinua era ezberdinean egin delako.<br />
Esate baterako, <strong>WordNet</strong>en dog izena ugaztun gisa adierazten da, hots,<br />
mammal synsetaren hiponimo gisa sailkatua dago. Italierako word<strong>net</strong>ak ere<br />
sailkapen hau egiten du cane izenarekin. Baina nederlanderako word<strong>net</strong>ean<br />
hond izena, ugaztun gisa sailkatzeaz gain, konpainiako animalia gisa ere sailkatzen<br />
dute. Bai Euro<strong>WordNet</strong>ek eta bai MCRk ezberdintasun hierarkiko<br />
hauek konpontzeko aukera eskaintzen dute. Hala, EBL eleanitzak izan<br />
arren, hizkuntza ezberdinen informazio elebakarrari ere garrantzia ematen<br />
diote, eleaniztasuna eta elebakartasuna uztartuz.<br />
Expand approachean oinarrituz gero, gertatzen diren hierarkia-bereizgarriak<br />
beste batzuk dira. Kasu ho<strong>net</strong>an, <strong>WordNet</strong>aren sailkapen hierarkikoa<br />
jarraitzen denez, ingelesetik datorren hierarkia onartu egiten da, euskarako<br />
ordainak bertan txertatuz. Hala ere, euskarako ordainak ezin dira synset<br />
batean sartu synset horretako ingeleseko variant baten itzulpena izateagatik<br />
bakarrik; hasteko, adiera bera izan behar dute, eta gainera koherentzia bat<br />
mantendu behar da hierarkian. Horren adierazgarri (27) adibidea dugu.<br />
(27) {associate} / {adiskide, lagun, kide} (who joins with others in an activity)<br />
=> {ally, friend} / {aliatu, adiskide, lagun} (an associate who provides. . . )<br />
Kasu ho<strong>net</strong>an, {adiskide, kide, lagun} synsetaren hiponimo gisa {aliatu,<br />
lagun, adiskide} ordainak ditugu. Lehenengo begiratuan, {aliatu, lagun, adiskide}<br />
variantek synset horretan zuzenak dirudite, ingeleseko ally eta frienden<br />
baliokideak baitira. Baina hiru variantak ez dira maila berekoak, lagun<br />
eta adiskide, aliatu baino orokorragoak dira. Hiperonimoari erreparatuz gero
138 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
({lagun, adiskide, kide}) {aliatu, lagun, adiskide} kontzeptuaren hiperonimoa<br />
dela ikusten dugu. Hala, gure susmoa egiaztatzen da: lagun, adiskide eta<br />
aliatu ez dira maila berekoak eta euskarako synsetak ez da hierarkiaren ordenarekin<br />
koherentea. Hiperonimia-hiponimian oinarritutako hierarkia izaki,<br />
honi ere erreparatu behar zaio euskarako variantak itzultzeko momentuan,<br />
euskarako synseten sailkapena koherentea dela ziurtatuz. Hala, (27)ko<br />
hiperonimo-hiponimoaren adierazpen egokia (28) adibidean dakarkigu:<br />
(28) {associate} / {adiskide, lagun, kide} (who joins with others in an activity)<br />
=> {ally, friend} / {aliatu} (an associta who provides assistance)<br />
Ikuspegi ho<strong>net</strong>atik abiatuta, hierarkia euskaratzeak eragin ditzakeen bi<br />
kasu nagusienak aztertuko ditugu: hierarkia antolatzeko lexikalizaturik ez<br />
dagoen ordain bat asmatu behar denean (kontzeptu antolatzaileak deituko<br />
duguna), eta ingeleseko hiperonimo-hiponimo variantak euskarako ordain<br />
berarekin lexikalizatzen direnean (autohiponimia bezala (Cruse, 2000) ezagutzen<br />
dena). Hala, bereizgarri hierarkikoak izan arren, lexikalizazioarekin<br />
oso lotuta daude: aurreko atalean (VI.1) synset-mailako lexikalizazioaz aritu<br />
gara, eta oraingoan <strong>WordNet</strong>eko antolakuntza hierarkikoak eragindako<br />
lexikalizazio-bereizgarriez.<br />
VI.2.1 Kontzeptu antolatzaileak<br />
Esan dugun bezala, kontzeptu antolatzaile deitzen diegu hierarkia antolatzeko<br />
asmatu diren kontzeptu orokorrei. Hierarkiaren goi-aldean egon ohi dira, eta<br />
beharrezkoak dira klase semantikoen sailkapenerako.<br />
“Unlike dictionaries in book format, <strong>WordNet</strong> contains short phrases,<br />
such as bad person, that are not paraphrasable by a single word. These phrases<br />
reflect lexical gaps and are a product of <strong>WordNet</strong>’s relational structure,<br />
[. . . ] that happens not to be lexicalized in English.” (Fellbaum, 1998a, 6. or.)<br />
Esate baterako, ikusmenaren bidez bereizten ditugun ezaugarri motak<br />
(kolorea, iluntasuna, ehundura...) multzokatzen dituen ingeleseko synseta<br />
visual property dugu. Kontzeptu hau ez dago lexikalizatuta; artifiziala da.<br />
Ikusmenezko ezaugarri motak adierazten duten synset guztiak batera jasotzen<br />
dituen klase-semantikoari izena emateko balio du (guztira 150 hiponimo).
VI.2 Bereizgarri hierarkikoak 139<br />
(29) {color property} (an attribute of vision)<br />
=> {texture} (the characteristic appearance of a...)<br />
=> {lightness} (the visual effect of illumination on objects as. . . )<br />
=> {dulness} (a lack of visual brightness)<br />
=> {color} (a visual attribute of things that results from the. . . )<br />
=> {achromatism} (the visual property of being without color)<br />
=> {color property} (an attribute of color)<br />
=> {...}<br />
<strong>WordNet</strong>ean salbuespen gisa zerrendatzen dira, EBL ho<strong>net</strong>an hauek baitira<br />
ez-lexikalizatutako synset bakarrak, eta HAE bat behar dute hauen adiera<br />
adierazteko. Lexikalizazioari buruz aritzean, ikusi dugu <strong>Euskal</strong> <strong>WordNet</strong>eko<br />
hutsune pragmatikoak adierazpide sintagmatiko gisa (IXALEX gisa) ebatzi<br />
ditugula. Kasu ho<strong>net</strong>an, nahiz eta ez-lexikalizatutako kontzeptuak izan,<br />
beste marka bat erabiliko dugu, hierarkiari dagokiola bereizteko: kontzeptu<br />
antolatzailean asmaturiko euskarako variant bat sartuko dugu eta OROKO-<br />
RRA marka jarriko diogu.<br />
(30) Synset-zenbakia: 03871460<br />
=> Synsetaren lexikalizazio-egoera: lexikalizatugabea<br />
=> Glosa: ikusmenak duen ezaugarria<br />
=> Sinonimoak:<br />
=> ikusmenezko ezaugarri (OROKORRA)<br />
Horrela, kotzeptu sintagmatikoetatik bereizten ditugu. (30) adibidean<br />
ikusmenezko ezaugarri varianta dugu, eta OROKORRA markak adierazten<br />
du synset hori kontzeptu antolatzaile bat dela. Kontzeptu antolatzaileak<br />
lexikalizaturik ez dauden kontzeptuak direnez, NOLEX marka ere jarriko<br />
zaio. (31) adibidean kontzeptu antolatzaileen adibide gehiago dakartzagu:<br />
(31) a. {psychological feature} →{ezaugarri psikologiko}<br />
b. {representational process} →{irudikapen-prozesu}<br />
c. {natural phenomenon} →{gertakari natural}<br />
VI.2.2 Hierarkiak eta espezifikotasun lexikala<br />
Ale lexikal polisemiko baten adierak elkarren hiperonimo/hiponimo izan daitezke,<br />
edota, beste hitz batzuetan esanda, hiperonimo-hiponimo harremana<br />
ale lexikal berarekin adieraz daiteke. <strong>Euskal</strong> <strong>WordNet</strong>en, esate baterako,<br />
hurrengo adibibidea dugu:
140 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
(32) {pertsona 1, gizabanako 1, lagun 15} (gizon-emakumeen multzoko bakoitza)<br />
=> {adiskide 7, lagun 10} (ondo ezagutzen den pertsona)<br />
Lagun 15 hiperonimoa da, adiera zabalagoa duena: ‘pertsona’ adiera duena;<br />
eta lagun 10 hiponimoa ‘adiskide’ adierarekin bakarrik erabiltzen da.<br />
Hala, ale lexikal berak bi adiera desberdin ditu, eta, gainera, bata bestearen<br />
hiperonimo-hiponimoak dira. Crusek (2000) polisemia mota honi autohiponimia<br />
deritzo:<br />
“Autohyponymy occurs when a word has a default general sense, and<br />
a contextually restricted sense which is more specific in that it denotes a<br />
subvariety of the general sense.” (Cruse, 2000, 110. or.)<br />
Aditzetan ere autohiponimia gerta daiteke: hiperonimoa eta hiponimoa<br />
diren bi synset forma berekoak izan daitezke, baina adiera desberdinekoak,<br />
hots, polisemikoak. Gainera, adiera ezberdintasuna azpikategorizazioan ere<br />
azalera daiteke:<br />
(33) {abestu 4, kantatu 5} (“Jonek ondo abesten du”)<br />
=> {abestu 5, kantatu 7] (“Bertsoak abestu ditu”)<br />
Hiperonimoak (abestu 4) adiera orokorragoa du: ‘ahotsez musika-soinuak<br />
egin’. ‘Ahotsez musika-soinuak’ abestu aditzaren barruan dagoen abesti izen<br />
orokorrak adierazten dituela dirudi (abestu aditzaren barruan dagoela, alegia),<br />
eta, ondorioz, oso arrunta da objekturik gabe geratzea sintaxian (Jonek<br />
ondo abesten du). Aldiz, bere hiponimoa ‘abesti motak’ edo ‘abesti espezifikoak’<br />
onartuko dituen abestu izango da, ‘musika-konposizioa’ adieraziko<br />
duten objektuak (bertsoak, umetako abestiak, Eguberritako kantak...) hartzen<br />
dituena, alegia (Jonekbertsoakabestuditu).<br />
Hortaz, nahiz eta forma bereko hitzak izan, semantikoki desberdinak dira,<br />
eta hori hierarkiaren puntu desberdinean jarriz adierazten da.<br />
Hala ere, <strong>Euskal</strong> <strong>WordNet</strong> ingeleseko hierarkian oinarrituta eraikitzen denez,<br />
autohiponimia faltsua sor dezakegu; alegia, gehiegizko autohiponimia.<br />
Egondako orrazketetan synsetak itzultzen joan ahala, ingeleseko bi adiera<br />
(edo gehiago) bazeuden eta euskaraz horietarako hitz bera erabiltzen bazen,<br />
autohiponimia baliatzen genuen beti (hiponimoak hiperonimoaren ordain bera),<br />
euskaraz adiera horiek be<strong>net</strong>an bereizten ziren kontuan hartu gabe.<br />
Aldiz, euskarako adierei erreparatuta, askotan, ez zegoen desberdintasun<br />
semantikorik. Hitzez hitzeko eskuzko orrazketarekin hastean (ikus V.2.2.2
VI.2 Bereizgarri hierarkikoak 141<br />
atala), synsetak lantzeko garaian hierarkiari gehiago erreparatzen hasi ginen,<br />
eta orduan konturatu ginen euskarako hierarkian synset autohiponimoen<br />
kopurua ingelesekoan baino askoz ere handiago zela (euskaraz 4.500<br />
autohiponimo genituen eta ingelesez 26 bakarrik). Desoreka honen arrazoiak<br />
aztertzerakoan, ingeleseko word<strong>net</strong>ak duen espezifikotasun-maila xeheagatik<br />
zela konturatu ginen. (34) adibidean {merrymaking} variantaren hiponimoak<br />
ditugu:<br />
(34) {celebration, festivity} (any festival or other celebration)<br />
=> {merrymaking} (boisterous celebration)<br />
=> {revel, revelry} (noisy partying)<br />
=> {bout, spree} (a drunken revel)<br />
=> {bender, bust} (an occasion for heavy drinking)<br />
=> {carouse} (a merry drinking party)<br />
=> {orgy} (a wild gathering involving drinking and promiscuity)<br />
=> {whoopee} (noisy and boisterous revelry)<br />
(35) adibidean <strong>Euskal</strong> <strong>WordNet</strong>eko editoreak emandako ordainak ditugu:<br />
(35) {festa, jai} (zerbait ospatzeko antolatzen den ekitaldia edo jaia)<br />
=> {parranda} (jai zaratatsua)<br />
=> {parranda} (jai zaratatsua)<br />
=> {parranda} (asko edanez egiten den jaia)<br />
=> {parranda} (asko edanez egiten den jaia)<br />
=> {parranda} (asko edanez egiten den jaia)<br />
=> {orgia} (gehiegikeriak egiten diren jaia)<br />
=> {parranda} (jai zaratatsu)<br />
=> {...}<br />
Hierarkia hauek erkatuz gero, ikusten dugu ingelesez, synset orokorre<strong>net</strong>ik<br />
zehatzenerainoko bidean, synset guztiak hiperonimoa ez den beste hitz<br />
batez lexikalizaturik daudela (merrymaking, bout, bender eta abar) 12 .<br />
Ingelesa ama-hizkuntza izan gabe, etengabe hiztegi elebidu<strong>net</strong>ara — euskara-ingelesa<br />
(Morris, 1998) eta gaztelania-ingelesa (Oxford, 2003; Collins,<br />
1998)— jo behar dugu synseten lanketarako. Kasu ho<strong>net</strong>an celebration kontzeptuak<br />
edozein ospakizun adierazten du, horregatik egokitu zaizkio festa<br />
eta jai ordainak. Jai-moten artean ‘jai zaratatsuak’ ditugu, ingelesez<br />
merrymaking deritzona. Morris Hiztegiaren arabera, kontzeptu hau euskaraz<br />
parranda itzultzen da; gaztelania-ingelesa hiztegien arabera juerga edo<br />
12 Adibideko klase semantiko osoak 22 hiponimo ditu, baina adibidean merrymaking hiponimoaren<br />
hiponimo zuzenak bakarrik jarri ditugu. Gainera, espazio-arazoak direla-eta,<br />
synsetetako variant kopurua ere txikitu dugu.
142 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
jolgorio gisa. Merrymakingek hiponimo bat dauka eta hiperonimoa bezalaxe<br />
(parranda) itzultzen da Morris Hiztegiaren arabera, eta juerga edo jolgorio<br />
gaztelania-ingelesa hiztegien arabera. Gauza bera gertatzen da revelen hiponimo<br />
gehienekin.<br />
Hala, espezifikazio-maila xehea dela-eta, askotan, ingeleseko hierarkiako<br />
synset ugari hiperonimoaren ordain bera erabilita itzultzen dira. (34) eta<br />
(35) adibideetan argi eta garbi ikus daiteke fenomeno hau. Beraien hiperonimoa<br />
bezala itzultzen diren hiponimoak (revel, bout, bender, carouse, whoope<br />
eta abarri dagozkien itzulpenak) autohiponimotzat har genitzake: euskaraz<br />
hirurak hitz berarekin (parranda) adierazten ditugulako. Baina, euskaraz parranda<br />
ordainak kontzeptu hauetan guztietan adiera bera du.<br />
Horrelako kasuetan, be<strong>net</strong>ako autohiponimia autohiponimoa faltsutik bereizteko,<br />
hiponimo baxuenak (hiperonimoarekin itzultzen diren neurrian)<br />
variant gabe utziko ditugula erabaki dugu, hots, hutsune lexikal gisa utziko<br />
ditugu. Aipatu izan dugu, hutsune lexikal gisa uzten ditugula euskaraz ez<br />
ditugun kontzeptu kultural horiek (forties, simnel eta abar). Azaldu berri dugun<br />
kasu hau, antzekoa da baina kontzeptua adierazteko hiperonimoa dugu<br />
(eta ez azalpen bat): ingelesez hiperonimoaren espezifikazio bat da, baina<br />
euskaraz hiperonimoa eta bere hiponimoa maila berean ulertu eta itzultzen<br />
ditugu. Autohiponimo faltsuak hutsune kulturaletatik bereizteko, ingeleseko<br />
hitz hiponimoaren synsetean ESPEZIFIKOA HIPERONIMOAZ marka ezartzen<br />
dugu, eta era berean, lexikalizatugabea bezala (NOLEX ). (36) adibidea<br />
ingeleseko revel synsetaren euskarako baliokidea dugu:<br />
(36) Synset-zenbakia: 00328944<br />
=> Synsetaren lexikalizazio-egoera: NOLEX<br />
=> Glosa: jai zaratatsua<br />
=> Sinonimoak:<br />
=> - (ESPEZIFIKOA HIPERONIMOAZ)<br />
Ingelesearen eta euskararen arteko espezifikotasun-mailen arteko aldea<br />
ikustearren, beste adibide bat aurkezten dugu:<br />
(37) {vesell}/ {ontzi} (an object used as a container (especially for liquids)<br />
=> {barrel} / {upel} (a cylindric container that holds liquids)<br />
=> {butt} / ESPEZIFIKOA HIPERONIMOAZ<br />
=> {hogshead} / {bukoi} (a large cask especially one. . . )<br />
=> {keg} / {barrika} (small cask or barrel)<br />
=> {firkin} / ESPEZIFIKOA HIPERONIMOAZ (a small barrel)<br />
=> {tun} / ESPEZIFIKOA HIPERONIMOAZ (a large cask. . . )
VI.2 Bereizgarri hierarkikoak 143<br />
(37) adibidean, upel moten sailkapen bat dugu. Berriro ere, ingelesez<br />
synset bakoitzeko lexikalizaturiko ordain bat dago, eta euskaraz, berriz, hiperonimoak<br />
(upel) balio digu kontzeptu horietako asko adierazteko. Hots,<br />
termino orokorrarekin nahikoa dugu termino espezifikoagoak adierazteko.<br />
Beti ere, kontuan izan beharrekoa da, synset batek ESPEZIFIKOA<br />
HIPERONIMOAZ marka duen ala ez erabakitzeko, hiztegiak hartzen ditugula<br />
oinarri gisa. <strong>Euskara</strong> estandarizazio-bidean dagoen hizkuntza izanik,<br />
baliteke hiztegietatik kanpo kontzeptu hauentzat ordainen bat egotea, hainbat<br />
euskalki eta domeinuetako hitzak gure hiztegietara ez baitira heldu.<br />
Bestalde, oroitu beharra dago <strong>Euskal</strong> <strong>WordNet</strong> aberasteko prozesua ingeleseko<br />
synseteta oinarrituz egin dela. Aztertu behar litzateke alderantzizko<br />
prozesua egingo bagenu zer neurritan gertatuko liratekeen antzeko kasuak<br />
ingeleserako. Dena den, gai honek azterketa sakonagoa mereziko lukeela iruditzen<br />
zaigun, eta beste tesi-lan bat izan daitekeela uste dugu.<br />
Irizpide hau erabili ondoren, autohiponimo faltsuen kopurua 4.500etik<br />
3.378ra murriztu da. Ingeleseko <strong>WordNet</strong> 1.6 bertsioan 41 autohiponimo<br />
daude, eta gaztelaniako word<strong>net</strong> 1.6 bertsioan 971. Lanean jarraitu ahala,<br />
kopuru hauek etengabe aldatuz doaz (ikus VI.2 taula).<br />
0.1 bertsioa 0.2 bertsioa<br />
<strong>Euskal</strong> <strong>WordNet</strong> 4.500 3.378<br />
<strong>WordNet</strong> - 41<br />
Spanish <strong>WordNet</strong> - 971<br />
VI.2 Taula: Autohiponimoen kopuruak.<br />
Bestalde, <strong>WordNet</strong>en espezifikazio-mailak beste ondorio bat izan dezake<br />
euskarako hierarkietan: batzuetan, euskarako hiperonimoaren ordainarekin<br />
batera beste izen, adberbio, edota adjektibo bat ere hartzen dute synsetek<br />
kontzeptu hori adierazteko. (38) adibidean, vintage kontzeptua euskaratzeko<br />
hiperonimoari (ardo) izenlagun bat (erreserbako) gehitu behar izan zaio.<br />
(38) {wine, vino} / {ardo} (fermented juice (of grapes especilly))<br />
=> {vintage} / {erreserbako ardo} (a season’s yield of wine from a vineyard)<br />
Fenomeno hau, aditzetan oso nabaria da. Hauetan, hiperonimoa eta hiponimoa<br />
ordain bera izan ordez, gehiagotan gertatzen da hiponimoak hiperonimoaren<br />
ordainaz gain beste osagai baten beharra izatea, ingeleseko unitateak
144 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
barneraturik duen osagaia euskaraz aditzetik aparte adierazten delako. Aditzen<br />
hiperonimia-hiponimia erlazio hau zehatzago adierazteko, hiperonimiatroponimia<br />
terminoa erabiltzen da (ikus IV. kapitulua). Hau da, A1 aditza<br />
(hiponimoa) A2 aditza (hiperonimoa) era berezi batean egitea da. Esate baterako,<br />
‘herrenka ibiltzea’ ibiltzeko era berezi bat da. (39) adibidean ikus<br />
dezakegu, ingeleseko troponimoentzat lexikalizatutako hitz bakarreko ordain<br />
bat dutela eta euskaraz HAE baten beharra dugula, askotan ez-lexikalizatua<br />
dirudiena (eta hiztegietan agertzen ez dena).<br />
(39) {walk}/ {ibili} (advance by steps)<br />
=> {lollop} / {baldar ibili} (walk clumsily and with a bounce)<br />
=> {bumble} / {estropezu eginez ibili} (walk unsteadly)<br />
=> {perambulate} / {noraezean ibili} (stroll)<br />
=> {creep} / {behatz puntetan ibili} (togostealthily)<br />
=> {wade} / {uretan ibili} (walk through relatively shallow water)<br />
=> {sleepwalk} / {lotan ibili} (walk in one’s sleep)<br />
=> {slink} / {isilean ibili} (walk stealthily)<br />
=> {hitch} / {herrenka ibili} (walk impeded by some physical injury)<br />
=> {skulk} / {inguruan ibili} (move stealthily)<br />
=> {...}<br />
HAE mota hauen errepresentazioa VI.1.4 atalean aipatu dugu, eta bertan<br />
esandakoari jarraituz, HAE hauek adierazpide sintagmatiko bezala lantzen<br />
ditugu. Hots, herrenka ibili <strong>Euskal</strong> <strong>WordNet</strong>en sartu egingo dugu adierazpide<br />
sintagmatiko gisa, nahiz eta hiztegi-sarrera bat ez izan.<br />
Honenbestez, eta orain artekoa laburbilduz, argi dago <strong>Euskal</strong> <strong>WordNet</strong><br />
garatzeko ingeleserako egindako hierarkia kontzeptuala jarraitzeak eraginak<br />
dituela: bi hizkuntzetako kontzeptuen sailkapena ez dator beti bat, ezta<br />
kontzeptu horiek lexikalizatzeko modua ere.<br />
VI.2.3 Bestelako espezifikotasun lexikalak<br />
Batzuetan <strong>WordNet</strong>eko espezifikazio-mailaren xehetasuna, hiperonimohiponimo<br />
ez diren synseten artean ere agertzen da, hots, hierarkiko harremanik<br />
ez duten synseten artean.<br />
V. kapituluan aipatu dugu dagoeneko, <strong>WordNet</strong> granularitate xeheko<br />
EBLa dela. Hau da, <strong>WordNet</strong>en hiztegietan baino adiera gehiago agertzen<br />
dira, edo beste hitz batzuetan esanda, hiztegietako adierak adiera espezifikoagoetan<br />
banatzen dira. Adibide gisa, herri hitzaren adiera bat dakarkigu,<br />
‘jende multzoari’ dagokiona. Adiera honek Hiztegi Modernoan hurrengo definizioak<br />
ditu:
VI.2 Bereizgarri hierarkikoak 145<br />
• Hainbat ohitura eta erakunde komun dituzten gizon-emakumeen multzoa, gehie<strong>net</strong>an<br />
taldean eta lurralde jakin batean bizi dena. Munduko herri eta etniak.<br />
Herri kurdua.<br />
• Herri bateko kideen gehiengoa (maiz goi-klaseei, eliteari edo agintariei kontrajarririk<br />
erabilia).<br />
• Unitate politiko bateko biztanleen osotasuna, botere politikoa datzaneko multzotzat<br />
hartua. Herriak aukeratutako parlamentariak.<br />
Eta <strong>Euskal</strong> <strong>WordNet</strong>en herri hitzaren adiera horrek sei synset ditu. (40)<br />
adibidean sei synsetak aurkezten ditugu, beraien ingeleseko, gaztelaniako eta<br />
euskarako ordainekin:<br />
(40)<br />
Ing: {common people, folk}<br />
Gazt: {plebe, vulgo, pueblo}<br />
Eus: {herri, populu}<br />
Glosa: biztanleen gehiengoa osatzen duen gizaki multzoa<br />
Ing: {country, land, nation, nationality}<br />
Gazt: {pueblo, nación}<br />
Eus: {herri, nazio}<br />
Glosa: jatorri bera duten nazio edo herrialde bateko biztanleak<br />
Ing: {res publica, country, land, nation}<br />
Gazt: {estado, país}<br />
Eus: {herri, estatu, nazio, erresuma}<br />
Glosa: enitate politiko bakarraren baitan dagoen gizaki multzoa<br />
Ing: {public, world, populace}<br />
Gazt: {pueblo, mundo}<br />
Eus: {herri, mundu}<br />
Glosa: pertsona multzoa osotasun gisa harturik
146 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
Ing: {people, multitude, mass}<br />
Gazt: {masa, gente}<br />
Eus: {herri, jende, masa, populu}<br />
Glosa: herri xeheak osatzen duen multzo handia<br />
Ing: {town,townsfolk,townspeople}<br />
Gazt: {pueblo}<br />
Eus: {herri}<br />
Glosa: hiria baino txikiagoa den udalerri bateko biztanleria<br />
Ing: {villate, settlement}<br />
Gazt: {pueblo}<br />
Eus: {herri}<br />
Glosa: hiria baino txikiagoa den udalerri bateko biztanleria<br />
Espezifikazio-maila dela-eta, batzuetan zaila egiten da synseten arteko<br />
desberdintasuna ikustea, batez ere, corpuseko agerpen errealak hauekin etiketatu<br />
behar direnean:<br />
(41) Pinochetek eskualde ho<strong>net</strong>ako herriei egin dien kaltea konpontzen hasi da.<br />
Herria nekatuta dago bete gabeko promesekin.<br />
Herriak elkarrizketa eskatzen digu alderdiei.<br />
Europako sindikatuek herrietan oinarritutako Europa soziala aldarrikatu dute.<br />
Presoen auziari herri gisa eman behar zaio aterabidea.<br />
Agerpen hauei (40)ko synset bakarra egokitzea lan zaila da, adiera askoren<br />
arteko muga lausoa delako. Gainera, testuinguruak ez badu laguntzen,<br />
synset bat baino gehiagorekin etiketatu daitezke, eta, ondorioz, anbiguoak<br />
izaten jarrai dezakete.<br />
<strong>WordNet</strong>en granularitate finak ez du laguntzen LNPren hainbat atazetan,<br />
eta, batez ere, adieraren desanbiguazioan.<br />
“The granularity of word senses in current general purpose sense inventories<br />
is often too fine-grained, with narrow sense distinctions that are<br />
irrelevant for many NLP applications. This has particularly been a problem<br />
with <strong>WordNet</strong> which is widely used for word sense disambiguation (WSD).”<br />
(McCarthy, 2006, 17. or.)
VI.3 Errepresentazioaren hedapena 147<br />
Arrazoi horregatik, <strong>WordNet</strong>eko adierak elkartzeko hainbat saiakera egon<br />
dira: Milhacea eta Moldovan (2001), Tomuro (2001), Agirre eta Lopez de la<br />
Calle (2003). Guk ere bide hau jarraitzea erabaki dugu: antzeko adiera<br />
duten synsetak multzokatu ditugu eta corpuseko agerpenak synset horiekin<br />
guztiekin etiketatzen ditugu 13 .<br />
VI.3 Errepresentazioaren hedapena<br />
Kapitulu ho<strong>net</strong>an zehar, hainbat lexikalizazio-arazo aurkeztu ditugu eta hauei<br />
aurre egiteko irizpide batzuk proposatu ditugu. Irizpide hauek eraginda synseten<br />
errepresentaziorako EBLan marka edo ezaugarri berriak sortu ditugu.<br />
Hots, EBLa informazio gehiagorekin aberastu dugu. VI.3.1 atalean, marka<br />
hauek guztiak laburbilduta dakartzagu.<br />
Bestalde, VI.1.4.1 atalean ikusi dugun bezala, HAEen barne-errepresentazio<br />
aberatsago baten proposamena ere egin dugu, non HAEaren barneosagaiak<br />
harreman semantikoen bidez erlazionatzen diren. Hau VI.3 atalean<br />
laburki gogoraraziko dugu.<br />
VI.3.1 Lexikalizazioaren errepresentazioari dagozkion markak<br />
Euro<strong>WordNet</strong>en ereduari jarraituta, synset bat lexikalizatua dagoen ala ez<br />
markatu egiten dugu. Adibidez, (42) lexikalizaturiko kontzeptu bat da eta<br />
(43) ez.<br />
(42) Synset-zenbakia: 06079949<br />
=> Synsetaren lexikalizazio-egoera: LEX<br />
=> Glosa: pertsona multzoa osotasun gisa harturik<br />
=> Sinonimoak:<br />
=> mundu<br />
=> herri<br />
(43) Synset-zenbakia: 03871460<br />
=> Synsetaren lexikalizazio-egoera: NOLEX<br />
=> Glosa: ikusmenak duen ezaugarria<br />
=> Sinonimoak:<br />
=> ikusmenezko ezaugarri (OROKORRA)<br />
13Etiketatze semantikoari buruzko argibide gehiagorako jo bedi Agirre et al.-en lanera<br />
(2005b).
148 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
Euro<strong>WordNet</strong>ek sortutako marka hauei, guk beste batzuk gehitu dizkiogu:<br />
• PLU marka: kontzeptu bat adierazteko pluralezko ordaina erabiltzen<br />
denean, variant horri PLU marka erantsiko zaio.<br />
(44) Synset-zenbakia: 03773162<br />
=> Synsetaren lexikalizazio-egoera: LEX<br />
=> Glosa: Ebakitzeko tresna, erdialdean giltzatzen diren eta alde. . .<br />
=> Sinonimoak:<br />
=> guraize (PLU)<br />
• FLEX marka: kontzeptu bat adierazteko flexio-atzizkia erabiltzen<br />
denean, variant horri FLEX marka erantsiko zaio.<br />
(45) Synset-zenbakia: 01199751<br />
=> Synsetaren lexikalizazio-egoera: lexikalizatua<br />
=> Glosa: Bero-gabeziak gorputzean eragiten duen sentsazioa.<br />
=> Sinonimoak:<br />
=> hotz (FLEX)<br />
• IXALEX marka: Adierazpide sintagmatiko deitu ditugun HAEak<br />
markatzeko sortutako marka da. Honekin hiztegietako hiztegi-sarrerak<br />
ez diren HAEak baina <strong>Euskal</strong> <strong>WordNet</strong>en sarrera gisa sartu ditugunak<br />
markatzen ditugu. Horrela, hiztegi-sarrera diren HAEak hiztegi-sarrera<br />
ez dire<strong>net</strong>atik ezberdintzen ditugu.<br />
(46) Synset-zenbakia: 01143604<br />
=> Synsetaren lexikalizazio-egoera: LEX<br />
=> Glosa: elikagaiak jateko prestatu<br />
=> Sinonimoak:<br />
=> janaria prestatu (IXALEX)<br />
• OROKORRA marka: kontzeptu antolatzaileei ezartzen zaien marka,<br />
hutsune kulturaletatik ezberdintzeko (ikus (43) adibidea).<br />
• ESPEZIFIKOA HIPERONIMOAZ marka: Autohiponimo faltsuak<br />
hutsune kulturaletatik bereizteko sortutako marka da. Ingeleseko<br />
hitz hiponimoaren synsetean ESPEZIFIKOA HIPERONIMOAZ marka<br />
ezartzen dugu, hiperonimoa bezala lexikalizatzen dela adierazteko.<br />
Marka honekin batera, derrigorrezkoa da synseta ez-lexikalizatu bezala<br />
markatzea.
VI.4 Ondorioak 149<br />
(47) Synset-zenbakia: 00328944<br />
=> Synsetaren lexikalizazio-egoera: NOLEX<br />
=> Glosa: jai zaratatsua<br />
=> Sinonimoak:<br />
=> - (ESPEZIFIKOA HIPERONIMOAZ)<br />
VI.3.2 HAEen barne-errepresentazio aberatsagoa<br />
Bentivogli eta Piantak (2002), italierako word<strong>net</strong>eko HAEetan oinarrituta,<br />
HAEen barne-errepresentazio eredu bat proposatzen dute: composed-of deiturikoa.<br />
Lotura hau erabiltzen dugu HAEa den synseta eta honen osagaiak<br />
lotzeko (ikus VI.1 irudiko c) atala).<br />
Kategoria desberdinez osatutako HAEen osagaien arteko synsetak lotzeko<br />
Euro<strong>WordNet</strong>en involved relation erabiltzea proposatzen dugu: VI.1 irudiko<br />
d) atalean, lo egin HAEren errepresentazioa dugu non composed-of harremanaz<br />
gain, involved relation harremana ere erabiltzen dugun: lo (izena)<br />
HAEaren gaia (involved patient) da, eta honi esker jakin dezakegu lo egiteko<br />
lo egotea beharrezkoa dela.<br />
PLU, IXALEX,OROKORRA eta ESPEZIFIKOA HIPERONIMOAZ markak<br />
ez bezala, HAEen barne-errepresentazioa adierazteko modu hau proposamena<br />
baino ez da. Hau da, oraindik ez dugu proposamen hau erabili, baina<br />
VI.1.4.1 esan bezala, etorkizunean Agirre eta Lersundiren (2001) metodo<br />
erdiautomatikoak erabiltzea pentsatzen dugu, barne-egiturako synsetak eta<br />
beraien arteko harreman semantikoak automatikoki desanbiguatu ahal izateko.<br />
VI.4 Ondorioak<br />
Kapitulu ho<strong>net</strong>an, word<strong>net</strong> eleanitzekin lan egiteak hizkuntzen arteko ezberdintasunak<br />
gainditu beharra dakarrela erakutsi dugu. Gure kasuan, ingeleseko<br />
word<strong>net</strong>aren gainean lan egiteak ekartzen dituen ondorio batzuk aurkeztu<br />
ditugu. Alde batetik, lexikalizazioarekin zerikusia duten bereizgarriak ikusi<br />
ditugu, eta hitz-mailan eta hitz anitzeko esapideen mailan lexikalizatu eta<br />
ez-lexikalizatuen kasuistika zabala aztertu dugu. Azterketa horretan, argi<br />
geratu da lexikalizazioaren mugak lausoak direla, eta askotan lan zaila dela<br />
hitz bat edo hitz anitzeko bat lexikalizatua dagoen ala ez ebaztea. Lexikalizazioaren<br />
eztabaidak eragoztearren, eta LNPko atazen erabilgarritasunari
150 <strong>WordNet</strong>etik <strong>Euskal</strong> <strong>WordNet</strong>era<br />
begira, VI.1.4 atalean zehaztu dugu <strong>Euskal</strong> <strong>WordNet</strong>en zer adierazpen mota<br />
txertatu behar genuen: lexikalizaturiko adierazpideez gain, adierazpide<br />
sintagmatiko deitu ditugunak <strong>Euskal</strong> <strong>WordNet</strong>en ere txertatzearen alde egin<br />
dugu, ho<strong>net</strong>arako, hainbat irizpide eta marka proposatuz. Etorkizunean,<br />
landuko ditugun beste kategorien (adjektibo eta adberbioen) errepresentaziorako<br />
ere (hotzik/hotzez bezalakoak) balioko digu irizpide honek.<br />
Ho<strong>net</strong>az gain, HAEen kasuan errepresentazio hau aberastu dugu HAEen<br />
osagaien barne-errepresentazio bat proposatuz: alde batetik, Bentivogli eta<br />
Piantaren (2002) composed-of harremana, eta bestetik, Euro<strong>WordNet</strong>eko involved<br />
relation harremana erabilita.<br />
Bestalde, ingeleseko hierarkiak duen espezifikotasun maila handia dela<br />
eta, synsetak euskaratzean sortzen diren arazoei (hala nola, autohiponimia<br />
faltsua deitu duguna) aurre egiteko irizpideak eta markak ere definitu ditugu.<br />
Honenbestez, abiapuntu gisa hartu dugun EBLa irizpide, marka eta errepresentazio<br />
berriekin aberastu dugula esan dezakegu.
VII. KAPITULUA<br />
<strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Kapitulu ho<strong>net</strong>an, MCR eredua informazio gehiagorekin hedatzeko egin<br />
dugun lehenengo saiakera azalduko dugu. Ingeleseko eta euskarako kirolarloko<br />
aditz batzuen objektuen eta subjektuen hautapen-murriztapenen<br />
azterketa deskribatuko dugu. Azterketa ho<strong>net</strong>an, erabilitako corpusei,<br />
eskuratze-tekniken azterketari eta ebaluazio linguistikoari erreparatuko diegu<br />
batez ere. Esan beharra dago azterlan hau eleaniztasunaren hipotesiaren<br />
ikuspegitik egina dagoela. Hots, ingeleserako eskuratutako hautapenmurriztapenak<br />
euskaraz ere erabilgarriak izan daitezkeela frogatu nahi dugu.<br />
Horretarako, ingeleserako automatikoki eskuratu diren hautapen-murriztape<strong>net</strong>an<br />
oinarritu gara lehenengo, gero hauek euskararentzat baliagarriak izan<br />
daitezkeen aztertu ahal izateko.<br />
VII.1 Sarrera<br />
III.1 atalean zehaztu dugun bezala, argi genuen gure EBLak hizkuntza bere<br />
osotasunean hartu behar zuela. Horretarako, ale lexikal bakoitza dagokion<br />
adierarekin, klase semantikoarekin eta informazio sintaktiko-semantikoarekin<br />
(rol tematikoak, azpikategorizazioa, hautapen-murriztapenak, funtzio gramatikalak,<br />
kategoriak, besteak beste) hornitzea da gure asmoa. Baldintza hauek<br />
kontuan hartuta, <strong>WordNet</strong>, Euro<strong>WordNet</strong> eta The Multilingual Central Repository<br />
(MCR) aukeratu ditugu eredu gisa (ikus III.3), eta ho<strong>net</strong>an oinarrituta<br />
<strong>Euskal</strong> <strong>WordNet</strong> garatzeari ekin genion (lehendabizi izenak eta ondoren
152 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
aditzak). Izenen EBLen artean, <strong>WordNet</strong>en eredua ezaguna da eskaintzen<br />
duen informazio aberatsarengatik. Aditzen adierazpena, aldiz, behin baino<br />
gehiagotan esan dugun bezala, mugatua da, <strong>WordNet</strong>en azpikategorizazioa,<br />
hautapen-murriztapenak eta rol tematikoak bezalako informazio sintaktikosemantikoa<br />
ez baita zehazten.<br />
Gabezia ho<strong>net</strong>az ohartuta, <strong>WordNet</strong>en oinarritutako hurrengo ereduek<br />
(batez ere, MCRk) informazio sintaktiko-semantikoa txertatzeko aukera<br />
gehiago eskaintzen dituzte. IV.3 atalean esan dugun bezala, MCR ezagutzabaseak<br />
aditzen hautapen-murriztapenak kontsultatzeko aukera ematen du<br />
Role erlazio semantikoa erabilita. Hala ere, nahiz eta interfazeak hautapenmurriztapenak<br />
jasotzeko aukera izan, Role harreman semantiko hauek hutsik<br />
daude; hots, oraindik ez da informazio hau eskuratu eta EBLan txertatu.<br />
Ikuspegi ho<strong>net</strong>atik abiatuz, aditzen objektu/subjektuen hautapenmurriztapenen<br />
azterketan murgildu gara, <strong>Euskal</strong> <strong>WordNet</strong> informazio<br />
sintaktiko-semantikoarekin aberasteko asmoarekin. Hautapen-murriztapenak<br />
lortzeko abiapuntu gisa, beste batzuk egindako lana balia genezakeen<br />
—esate baterako, tesi-lan ho<strong>net</strong>an aipatu ditugun hainbat lan eta formalismo<br />
(ikus III.3)—, edota euskarako corpusetan eta bestelako baliabide informatikoetan<br />
oinarrituz, guk geuk eskura genitzakeen.<br />
Lehenengo aukeraren kasuan, kontuan izan beharrekoa da lan gehienak<br />
ingeleserako pentsatuak daudela, eta hauetan dagoen informazioa euskararako<br />
EBLan gehitu baino lehen, informazio hori hizkuntzatik independentea<br />
den (unibertsala den) edo behintzat euskararako baliagarria den frogatu<br />
beharko genukeela. Aukera ho<strong>net</strong>an eskuzko lana ikaragarria litzateke.<br />
LONGMAN Dictionary of Contemporanean English (LDOCE) 1 lexikoian<br />
gehitutako hautapen-murriztapenak dira honen adibide. Baina esan beharra<br />
dago maila orokorreko hautapen-murriztapenak direla.<br />
Bigarren aukera egingarriagoa da, eta hauxe izan da azken urteotan LNPn<br />
suspertu dena, hizkuntzen egitura eta ezaugarri asko eta asko corpusetatik<br />
eskura baititzake makinak. Baina, horretarako, garrantzitsua da corpus handiak<br />
izatea; zenbat eta corpus handiagoa izan, orduan eta informazio gehiago<br />
eta zehatzagoa lor daitekeelako. Hedapen urriko hizkuntzek (euskarak,<br />
esate baterako), aldiz, informatikoki balia daitezkeen corpus txikia dituzte;<br />
batzuetan txikiegiak horietatik emaitza zuzenak lortzeko. Hori dela eta,<br />
1 http://pewebdic2.cw.idm.fr (2007-07-02an atzitua).
VII.1 Sarrera 153<br />
beste hizkuntzetan dauden la<strong>net</strong>ako informazioa berrerabiltzeko eta hedapen<br />
urriko hizkuntzen baliabide falta konpontzearren, berriki, MEANING:<br />
Developing Multilingual Web-Scale Language Technologies (IST-2001-34460)<br />
proiektuarekin (Rigau et al., 2003), ezagutza lexiko-semantikoaren eskuratzeari<br />
buruzko ikuspuntu berri bat sortu da: ezagutza lexiko eleanitzaren<br />
aberasketan oinarritzen dena. Hots, hizkuntza ezberdi<strong>net</strong>arako eskuratutakoa<br />
bata bestearekin parekatu eta hizkuntza batekin bestea aberastea ahalbidetzen<br />
duena 2 . Izan ere, hizkuntza batentzat eskuratutakoa beste hizkuntza<br />
batentzat baliagarria izan daiteke; eta, normalean, abiapuntu gisa, konputazionalki<br />
baliabide gehiago dituen hizkuntza bat hartzen da. Gaur egun,<br />
ukaezina da ingelesak arlo guztietan duen indarraz, eta arrazoi horregatik,<br />
hizkuntza honek euskarri informatikoan ere corpus handiena (edo handie<strong>net</strong>akoa)<br />
du. Hala, LNPren ikuspegitik, ingelesak oso baliabide aberatsak<br />
ditu, eta, ondorioz, aurrerapen gehienak ere hizkuntza ho<strong>net</strong>arako garatzen<br />
dira. Hortaz, aipatutako eleaniztasunaren hipotesi berri honen arabera, jokabide<br />
linguistiko batzuk eleanitzak dira, eta, ondorioz, hizkuntza batentzat<br />
automatikoki eskuratutako datuak beste batzuentzat ere erabilgarriak izan<br />
daitezke. Adibidez, ingeleseko play aditzak (‘instrumentu bat jo’ adieran)<br />
objektu gisa musika-instrumentua adierazten duten izenak hartzen baditu<br />
(I play the piano), aditz horren euskarako ordainak ere (jo) izen mota horiek<br />
hartuko ditu objektu gisa (Nik pianoa jotzen dut). Hori horrela balitz —<br />
aztertu egin beharko da zenbateraino betetzen den fenomeno hau—, nahikoa<br />
litzateke makinak corpus aberatse<strong>net</strong>atik informazioa eskuratzea (kasu ho<strong>net</strong>an,<br />
play aditzaren adiera batek objektu gisa musika-instrumentuak hartzen<br />
dituela automatikoki eskuratzea). Honela, itzulpen-automatikoa egiterakoan<br />
adibidez, play aditza musika-instrumentuekin doanean, euskaraz jo bezala<br />
itzultzea lortuko genuke, bere hautapen-murriztapenean oinarrituz, hain zuzen<br />
ere.<br />
MEANINGeko ikuspuntuari jarraituz, aditzen objektu/subjektuen<br />
hautapen-murriztapenen azterketarekin batera, eleaniztasunaren hipotesia<br />
aztertzeari ekin diogu, hizkuntzen artean egon daitezkeen aldaera eta parametroak<br />
kontuan hartuaz. Horrela, kapitulu ho<strong>net</strong>an hautapen-murriztapenen<br />
azterketa automatikoaz arituko gara. Horretarako, ingeleserako automatikoki<br />
eskuratu diren hautapen-murriztape<strong>net</strong>an oinarritu gara lehenengo,<br />
gero hauek euskararentzat baliagarriak izan daitezkeen aztertu ahal izateko.<br />
Hau da, ingeleseko hautapen-murriztapenak eskuratzeko erabili diren tekni-<br />
2 Proiektu honi buruzko informazio gehiago, Pocielloren lanean (2004b).
154 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
ka ezberdinak aurkeztu eta ebaluatu ditugu, hauen aplikazioa eleanitza izan<br />
daitekeela frogatu nahian, gerora, <strong>Euskal</strong> <strong>WordNet</strong>en txertatu ahal izateko.<br />
Azterketa honen ondoren, ingeleserako erabilitako eskuratze-teknika bat<br />
euskarako corpus batean erabili dugu, ingeleseko emaitzekin erkatzeko.<br />
Azterketa hau mugatzearren, gure ustez kirol-domeinuan gehien agertzen<br />
diren aditz batzuetan oinarritu gara (jokatu, entrenatu, irabazi, galdu eta berdindu).<br />
Bestalde, MCR adiera-inbentario gisa erabili dugu, bertan ingeleseko<br />
eta euskarako aditz-adierak lotuak datozelako. Beraz, aditz hauen MCRko<br />
kirol-adieratik abiatuz ingeleseko itzulpenak lortu ditugu. Horrela bada,<br />
azterketa honen parametro nagusiak domeinua eta adierak dira, kirol-domeinuarekin<br />
bat datozen aditzen adieren hautapen-murriztapenak aztertu eta<br />
eskuratu ditugulako.<br />
Hala, laburbilduz, kapitulu ho<strong>net</strong>an azalduko dugun azterketaren helburuak<br />
hurrengoak dira:<br />
• Hainbat eskuratze-teknika erabiliz ingeleseko eta euskarako corpus<br />
ezberdi<strong>net</strong>atik eskuratutako hautapen-murriztapenak aztertzea eta konparatzea.<br />
• Hautapen-murriztapenak eleanitzak izan daitezkeen aztertzea.<br />
Azterketa hau hastapenekoa da; emaitzak ez dira behin betikoak. Lan ho<strong>net</strong>atik<br />
abiatuta, euskararako jorratzen hasiberriak garen hautapen-murriztapenen<br />
arlo hau garatu nahi dugu, emaitzarik egokienak eskaintzen dizkigun<br />
bidea aurkituz.<br />
Azkenik, esan behar dugu azterlan ho<strong>net</strong>an eskuratze-tekniketatik lortutako<br />
emaitzekin egin dugula lan, hau da, emaitzen ebaluazio linguistikoan<br />
aritu gara. Horregatik, txosten ho<strong>net</strong>an ez dugu sakonduko eskuratzeteknika<br />
hauek garatzeko erabili diren hainbat prozesu eta algoritmo informatikoetan<br />
3 . Alderantziz, azterketa honen ondorioz, informatikariek aditzen<br />
informazio lexikoa aztertzeko baliabideak hobetzeko aukera izango dute.<br />
Tesi-txosten honen sarreran (VII.1 atalean) hautapen-murriztapenen ezaugarri<br />
eta erabilerari buruzko informazioa eman dugunez, kapitulu ho<strong>net</strong>an<br />
eskuratze-automatikoaz jardungo gara. Dena den, hautapen-murriztapenen<br />
izaera eta erabilerari buruzko azterketa sakonagoa Pocielloren (2004a) lanean<br />
dago ikusgai. Kapitulu hau sei atal nagusitan banatzen da. Sarrera honen<br />
3 Horien berri izateko jo bedi hurrengo lanera: Agirre eta Martínez (2002).
VII.2 Hautapen-murriztapenak eta hauen eskuratzea 155<br />
ondoren, VII.2 atalean, hautapen-murriztapenen eskuratzearen inguruan jardungo<br />
gara. VII.3 atalean, azterlan ho<strong>net</strong>an erabili diren baliabideen berri<br />
emango dugu (corpusak eta eskuratze-teknikak). VII.4 eta VII.5 ataletan<br />
ingeleseko eta euskarako hautapen-murriztapenen azterketan sakonduko dugu.<br />
Eta, azkenik, VII.6 atalean, lanaren ondorioak eta etorkizuneko lanak<br />
aipatuko ditugu.<br />
Kapitulu ho<strong>net</strong>an zehar, jokatu/play aditzak erabiliko ditugu adibide gisa<br />
saiakera honen xehetasun guztiak emateko, baina C eranskinean aditz guztien<br />
hautapen-murriztapenak eta beraien ebaluazioa zehaztuta datoz.<br />
VII.2 Hautapen-murriztapenak eta hauen eskuratzea<br />
Hitz batek, honek duen adieraren arabera, testuinguruan har ditzakeen osagai<br />
linguistikoak murrizten ditu hautapen-murriztapenak (aurrerantzean, HM).<br />
Beste hitz batzuetan esanda, HMak dira hitz baten adiera batek testuinguruan<br />
izan ditzakeen agerkidetzak. Zerrenda hau osatzen dute klase<br />
semantiko batean dauden hitzek, hau da, adiera zehatz batekin osagai gisa<br />
ager daitezkeen hitz guztiak.<br />
Horrela bada, aditz batek, bere adieraren arabera, argumentu bezala har<br />
ditzakeen izenen klase semantikoa mugatu dezake. Adibidez, idatzi aditzak,<br />
subjektu gisa [+gizaki] tasuna eskatzen du; [+gizaki] izango da bere subjektu<br />
HMa, alegia 4 .<br />
VII.2.1 Eskuratze-metodoak<br />
LNPn, HMak eskuratzeko garaian, hiru metodo dira aipagarrienak: lehenengoa,<br />
introspekzioa; bigarrena, hiztegietan oinarrituriko eskuratze automatikoa<br />
5 ; eta, azkenik, corpusetan oinarrituriko eskuratze automatikoa.<br />
VII.2.1.1 Introspekzioa<br />
HMak eskuratzeko introspekzioa erabiliz gero, HMak eskuz sortzen dira, hizkuntzalariaren<br />
iritzi eta intuizio linguistikoen arabera. Eskuratze-metodo<br />
hau izan da erabiliena orain dela hamarkada bat arte (Lenat eta Guha,<br />
4 HMei buruzko argibide gehiagorako jo bedi Pocielloren lanera (2004a).<br />
5 Ingelesez automatic acquisition from machine-readable versions of dictionaries<br />
(MRD).
156 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
1990). Pertsonen intuizioetan oinarritzeak baditu bere arriskuak: egindako<br />
lana hizkuntzalariaren subjektibotasunaren mende egongo da, baita honen<br />
akats, ahazte, eta kontraesanen mende ere. Bestalde, eskuratze-mota honek<br />
eskuzko lan handia eskatzen du, eta datu-kopuru bera edo handiagoa lortzeko<br />
badaude beste metodo azkarrago batzuk.<br />
Arrazoi hauengatik, gaur egun, LNPn metodo hau alde batera geratu da.<br />
Haatik, introspekzioa eskuratze-metodo gisa guztiz fidagarria izan ez arren,<br />
automatikoki eskuratutako HMak ebaluatzeko erabiltzen da. Gu geu, saiakera<br />
ho<strong>net</strong>an, introspekzioaz baliatu gara eskuratutako emaitzak ebaluatzeko 6 .<br />
VII.2.1.2 Eskuratze automatikoa hiztegietatik<br />
Lexikografikoak hiztegian hiztegi-sarrera bat definitzerakoan, sarrera horrek<br />
hartzen dituen HMen azterketa eta adierazpena egiten du. Hiztegi hauek<br />
informatikoki baliagarriak direnean, makinak hiztegi hauetatik bertatik<br />
erauz ditzake lexikografoak hiztegi-sarrera bakoitzari egokitu dion HMa<br />
(Montemagni, 1994).<br />
Hala ere, metodo honen bidez lortutako HMak ez dira guztiz fidagarriak,<br />
pertsonen intuizioetan oinarritutako hiztegiak baitira hauek ere, eta gorago<br />
esan dugun bezala, honek bere alde txarrak dauzka: objektibotasun falta eta<br />
eskuzko lan handia, adibidez.<br />
Bestalde, hiztegietatik informazio interesgarria lor daitekeen arren, hiztegietako<br />
sarrera guztiek ez dute HMak erauzteko adina informazio ematen,<br />
informazio hori ez delako esplizituki agertzen hiztegi-sarrera guztietan.<br />
VII.2.1.3 Eskuratze automatikoa corpusetik<br />
Metodo honen bitartez makinak automatikoki eskura ditzake hitz bati dagozkion<br />
HMak, hitz horrek corpusean dituen agerpen guztien testuinguruan<br />
oinarrituz.<br />
Metodo hau da eskuratze automatikorako adostasun handiena lortu duena,<br />
ondoko arrazoiengatik:<br />
• Corpusen tamaina handiari esker, aztertu beharreko hitzaren adibide<br />
nahikoak eskuratu ahal izango ditugu.<br />
• Corpusa domeinuka dagoenean, domeinu zehatz bati dagokion informazio<br />
linguistikoa eskuratzeko aukera izango dugu.<br />
6 Honi buruz, VII.4.1 eta VII.5.1 ataletan mintzatuko gara.
VII.2 Hautapen-murriztapenak eta hauen eskuratzea 157<br />
• Hiztegiek ez bezala, eskuratutako datuen maiztasuna ere eskaintzen<br />
digu.<br />
Guk egindako saiakerak ere corpusak hartu ditu ardatz gisa.<br />
VII.2.2 Formalizazioa<br />
Atal ho<strong>net</strong>an, corpusean oinarritutako eskuratze-metodoan erabiltzen diren<br />
eskuratze-teknika nabarmenenei buruz jardungo gara: hitzean oinarritzen<br />
direnak eta, klase semantikoan oinarritzen direnak 7 .<br />
VII.2.2.1 Hitzean oinarritzen diren eskuratze-teknikak<br />
Ikerlari batzuk (Hindle, 1990; Church et al., 1991; Hindle eta Rooth, 1991;<br />
Pereira et al., 1993, esate baterako) predikatu eta argumentu baten arteko<br />
harreman semantikoak atzitzeko, hitzean bertan oinarrituriko saiakuntzak<br />
egin dituzte. Hurbilpen hau semantika berdintsua duten hitzek testuinguru<br />
berdintsuetan agertzeko duten joeraz baliatzen da.<br />
“[...] the lexical relationships between given words are modeled by<br />
analogy with other words that present a similar distribution in the training<br />
corpus.” (Ribas, 1995, 7. or.)<br />
Harreman linguistiko askok semantikoki parekoak diren hitzak eskatzen<br />
dituzte. Hala, adjektibo batek ezin ditu nahi adina izen modifikatu, izenaren<br />
klase semantikoaren arabera murriztuko baititu bere osagaiak. Adibidez,<br />
goxo adjektiboak, bere adiera hedatuenean (‘zapore onekoa’, hain zuzen ere),<br />
bere ondoan, osagai gisa janaria edo edaria izango du beti. Horrela bada,<br />
teknika hauek hizkuntzak eskaintzen dizkigun distribuzioaz baliatuko dira<br />
HMak eskuratu ahal izateko.<br />
Hindlek (1990), adibidez, izenen arteko antzekotasuna neurtzeko teknika<br />
hau landu zuen, corpuseko aditz, subjektu eta objektuen distribuzioari<br />
begiratuz. Aditz baten subjektu/aditza eta objektu/aditza bikote-agerkidetzak<br />
estatistikaren arabera neurtu zituen, co-occurrence score delakoarekin<br />
(mutual informationen parekoa) 8 . Honela, izenen arteko antzekotasuna neurtzeaz<br />
gain, aditz baten argumentu gisa agertzen diren izenen zerrenda lortzen<br />
du agerkidetza altue<strong>net</strong>ik baxuenera.<br />
7 Ingelesez, word-based eta class-based, hurrenez hurren.<br />
8 “Mutual information, I(x; y), compares the probability of observing word x and word y<br />
together (the joint probability) with the probabilities of observing x and y independently.”<br />
(Church et al., 1991, 118. or.).
158 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Co-occurrence score verb object<br />
11.75 drink tea<br />
11.75 drink Pepsi<br />
11.75 drink champagne<br />
10.53 drink liquid<br />
10.20 drink beer<br />
9.34 drink wine<br />
7.65 drink water<br />
VII.1 Taula: Drink aditzaren objektuak hitzen hurbiltasunean oinarritutako<br />
teknika erabiliaz (Hindle, 1990).<br />
VII.1. taulak, drink aditzarekin maizen gertatzen diren objektu/aditz bikoteetako<br />
batzuk erakusten ditu, co-occurrence scorearen arabera zerrendatuta.<br />
Hain zuzen ere, objektu/aditz bikote hauexek dira “zer edan daiteke?”<br />
galdera erantzuten dutenak.<br />
Hala eta guztiz ere, Hindlek lortutako HMak oraindik mugatuak dira.<br />
Azken batean, aztertzen ari garen hitzaren ezaugarri lexikoak, hitz-zerrenda<br />
batek adieraziko ditu; hau da, ez ditu inolako etiketa edo tasun semantikoren<br />
bidez biltzen. Horrela bada, hitzaren agerkidetzan oinarritzeari jarri<br />
zaion eragozpe<strong>net</strong>ako bat, honen zorroztasun falta izan da. Ribas-ek halaxe<br />
azaltzen du:<br />
“[. . . ] it is by no means obvious that the distribution of words<br />
will directly provide a useful semantic classification, at least in the<br />
absence of considerable human intervention, and especially for low-frequency<br />
words.” (Ribas, 1995, 17. or.)<br />
Haatik, hurbilpen honek beste bi arazo ekartzen ditu:<br />
• Hitzean oinarritutako teknikek lortzen dutena hitz-formak dira eta ez<br />
hitz-adierak, azken hauek direlarik semantikan hautapenak zehazten<br />
dituztenak. Hitzen adieren desanbiguazioa, adibidez, ezinezkoa litzateke<br />
hitz-formetan bakarrik oinarrituz gero.<br />
• Lortutako HMak corpusean gertatu diren agerpe<strong>net</strong>ara bakarrik mugatuko<br />
dira: hau da, corpusetik at dauden antzeko adibideentzako ezingo<br />
dira orokortu.<br />
VII.4.2.1. atalean ikusiko dugun bezala, gure azterketan honen antzeko<br />
teknika bat erabili dugu, baina ez eskuratze-teknika bezala, baizik eta<br />
eskuzko lanerako baliabide bezala.
VII.2 Hautapen-murriztapenak eta hauen eskuratzea 159<br />
VII.2.2.2 Klase semantikoan oinarritzen diren eskuratze-teknikak<br />
Teknika hauek klase semantikoak baliatzen dituzte bi hitzen arteko HMa<br />
adierazteko. Klase semantiko bat ezaugarri komunak dituzten hitzek osatzen<br />
dute, eta, normalean, hierarkikoki antolatuta daude. Zenbait autorek,<br />
Grishman eta Sterling-ek (1992) esaterako, eskuz egin dituzte klase semantikoak;<br />
beste zenbaitek, berriz, zailtasunak ikusita, egina dagoen ezagutza<br />
semantiko bat hartzen dute oinarri gisa: Resnik-ek (1993), esate baterako,<br />
<strong>WordNet</strong> darabil. Azterlan ho<strong>net</strong>an guk ere horixe egingo dugu: MCR<br />
edo <strong>Euskal</strong> <strong>WordNet</strong> erabiliko dugu eskuratze-teknika mota hau aplikatzeko.<br />
Hala, eskuratze-teknika honen azalpenerako, <strong>WordNet</strong> ereduak eskaintzen<br />
dituen klase semantikoetan oinarrituko gara.<br />
Behin hitz batek (adibidez, drink aditzak) corpusean dituen osagai posibleak<br />
lortu ondoren (ikus VII.1. taula), osagai horiei dagozkien synsetak<br />
bilatzen dira <strong>WordNet</strong>en, gerora, synset horiek guztiak multzokatzen dituen<br />
hiperonimo synseta (klase semantikoa) eskuratzeko. Eta hiperonimo horixe<br />
izango da aditz horren hautapen-murriztapena.VII.1. taulako synseten klase<br />
semantikoa (1) adibidean dator:<br />
(1) => {liquid}<br />
=> {beverage}<br />
=> {milk}<br />
=> {alcohol}<br />
=> {wine}<br />
=> {beer}<br />
=> champagne}<br />
=> {...}<br />
=> {soft drink}<br />
=> {Pepsi}<br />
=> {...}<br />
=> {juice}<br />
=> {tea}<br />
=> {...}<br />
Ikus daitekeen bezala, alcohol synsetak wine, champagne eta beer multzokatzen<br />
ditu, edari alkoholdunen klasea sortuz; Pepsi, aldiz, soft drink<br />
synsetaren azpian dago, freskagarriak diren edarien klasearen azpian 9 .Baina<br />
ez alcohol synsetak, eta ezta soft drink synsetak ez dituzte VII.1. taulako<br />
9 Adibide ho<strong>net</strong>ako edarien hierarkia ez dago bere osotasunean. Hierarkia osoa Word-<br />
Neten dago ikusgarri: http://www.word<strong>net</strong>.princeton.edu (2007-07-02an atzitua).
160 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Association score verb object classes<br />
3.58 drink beverage [beverage, drink, drinkable, potable]<br />
VII.2 Taula: Drink aditzaren objektu hautapen-murriztapena, <strong>WordNet</strong> eta<br />
klase semantikoan oinarritutako teknika erabiliz (Resnik, 1992).<br />
edari mota guztiak multzokatzen, eta denak multzokatzen dituena behar dugu:<br />
beverage, alegia. Beste hitz batzuetan esanda, beverageren azpian dauden<br />
synset guztiak (hauei dagozkien hitz guztiekin, noski) ezaugarri semantiko<br />
komunak izango dituzte ([+edangarri]), eta, ondorioz, agerkidetza sintaktiko<br />
bera izango dutela suposatzen da; adibidearekin jarraituz, guztiak drink<br />
aditzarekin ager daitezke. Honenbestez, [+edangarri] tasuna edo klase semantikoa<br />
(beverage) izangodadrink aditzaren HMa.<br />
Resnikek (1993) teknika hau erabiltzen du, <strong>WordNet</strong>en hierarkia kontzeptualean<br />
eta association score 10 neurri estatistikoan oinarrituaz. Ondorioz, bere<br />
hautapen-murriztapenek VII.2. taulakoen antza dute. Hitzean oinarritzen<br />
diren teknikekin ez bezala, klase semantikoa ez da adierazten hitz-zerrenda<br />
baten bidez (ikus VII.1. taula), baizik eta klase semantiko horren azpian<br />
dauden hitz guztiak multzokatzen dituen synsetaren bidez: VII.2 taulako<br />
beveragen bidez, adibidez.<br />
Klase semantikoan oinarritutako teknikek dituzten abantailak, aurkeztutako<br />
beste hurbilpenarekin erkatuz gero, hurrengoak dira:<br />
• Nahiz eta corpus txikia izan, esanguratsuak izan daitezkeen datu estatistikoak<br />
lor daitezke.<br />
• Corpusean lortutako HMek, bertan azaltzen ez diren adibideentzako<br />
ere balio dute.<br />
• Klase semantikoek eskuratutako HMen interpretazioa errazten dute.<br />
• Klase semantikoak hierarkikoki antolatuta egoteak HM orokorrak lortzen<br />
laguntzen du.<br />
10 “The association score takes the mutual information between the verb and a class,<br />
and scales it according to the likelihood that a member of that class will actually appear<br />
as the object of the verb.” (Resnik, 1992, 328. or.)
VII.3 Baliabideak 161<br />
Dena den, eskuratze-teknika mota honek desabantailak ere baditu:<br />
1. Klase semantikoen bidez tasun semantikoak adieraztea ez da beti zuzena,<br />
batzuetan ez baitatoz bat. Adibidez, [+edangarri] tasunak modu<br />
egokian adierazten du <strong>WordNet</strong>eko beverageri dagokion klasea. Baina<br />
ez da beti posible tasun semantikoari dagokion klase semantikoa topatzea.<br />
Esate baterako, ireki aditzak irekitzen diren gauzak behar ditu<br />
argumentu gisa (kaxak, paketeak, poteak eta abar). Eta irekitzen diren<br />
gauzak zer klase semantikoren barnean daude? Horrelakoentzat, tasun<br />
zehatz bat ezartzea nahiko zaila da; irekitzen diren gauzen kasuan,<br />
<strong>WordNet</strong>en container (something that holds things) synseta jodaiteke,<br />
behar bada, klase semantiko aproposena bezala.<br />
2. Batzuetan, klase semantikoaren barnean tasun semantiko hori ez duten<br />
synsetak ager daitezke. Esaterako, hegazti klase semantikoak gehie<strong>net</strong>an<br />
[+hegan] tasuna eskatzen du, baina klase ho<strong>net</strong>an hegan egin ezin<br />
dutenak ere badaude: pinguinoa eta oiloa, adibidez, hegan egin ez arren,<br />
hegaztiak dira. Horrelako salbuespenen errepresentazioa arazo bat da,<br />
eta arazo hau adimen artifizialean ezaguna den arren, ez du berehalako<br />
ebazpenik. Konponbide posible bat klase semantikoaren tasun bera<br />
daramaten kontzeptu guztiak multzokatzea izan daiteke.<br />
VII.3 Baliabideak<br />
Sarreran aipatu dugun bezala, azterlan honen helburu nagusiena honako hau<br />
da: corpus eta eskuratze-teknika desberdinak erabiliz, ingeleseko kirol-aditz<br />
batzuentzat automatikoki eskuratutako HMak aztertzea, gero hauek euskararentzat<br />
baliagarriak izan daitezkeen ikusi ahal izateko. Horrela, ikerlan<br />
ho<strong>net</strong>an ondorengo ataza hauek egin ditugu:<br />
• Ingeleseko aditz batzuen HMenak lortzeko erabili diren<br />
eskuratze-teknika automatikoen emaitzak hartuta, hauen azterketa<br />
eta ebaluazioa egin teknika bakoitzaren alderdi on eta<br />
txarrak aipatuz.<br />
Beste era batera esanda, HMen eskuratze-teknika desberdinen ebaluazio<br />
bat egin dugu, eta, ho<strong>net</strong>arako, bi parametro hartu ditugu kontuan: domeinua<br />
eta adiera.
162 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Domeinuak azken urte hauetan garrantzi handia hartu du. Hasieran<br />
HMak aditzen adierentzat definitu baziren ere (Wilks, 1973), lehenengo ahalegin<br />
automatikoetan aditz formetara mugatu ziren (Resnik, 1993). Geroago,<br />
aditzen adierak kontuan hartzen dituzten eskuratze-teknikak proposatu dira<br />
(Agirre eta Martínez, 2002; McCarthy, 2001). Gaur egun, HMen eskuratzea<br />
domeinu zehatz bati buruz aritzen diren corpusetara mugatzen hasi dira, aditzaren<br />
adiera eta bere HMena corpusaren domeinutik lortu daitekeela ikusi<br />
dugu (Agirre et al., 2003b; McCarthy, 2001).<br />
Gure azterketan ere bide hau jarraitu dugu, eta bi corpus mota erabili<br />
ditugu: kirol-domeinuarekin harrema<strong>net</strong>an daudenak eta domeinu zehatzik<br />
ez dutenak; hauetatik lortutako HMak parekatzea interesgarria iruditu zaigulako.<br />
Adierari dagokionez, eskuratze-teknika batzuk aditzaren HMak eskuratzen<br />
dituzte aditz-adiera kontuan izanda, eta beste batzuk, aldiz, aditzforman<br />
oinarritzen dira. Eskuratze-teknika hauen arteko aldean ere sakonduko<br />
dugu.<br />
• Ingeleseko aditzentzat eskuratze-teknika bakoitzetik lorturiko<br />
HMak euskarako ordainen HMak izan daitezkeen aztertzea, bi<br />
hizkuntzetarako egokiak diren ala ez, hots, HMak eleanitzak<br />
izan daitezkeen ala ez egiaztatzeko.<br />
Beraz, ingeleserako lortu diren datuak euskaraz berrerabili ditugu, eta<br />
berrerabilera hau egokia den ala ez aztertu dugu. Ho<strong>net</strong>arako, MCRz baliatu<br />
gara, bertan ingeleseko ordain bakoitza euskarakoarekin lotua baitator.<br />
• Ingeleserako erabilitako eskuratze-teknika batzuk euskarako<br />
corpus batean erabili (a) eta (b)ko emaitzekin erkatzeko.<br />
Ingeleseko corpusetik lortutako HMak eta euskarako corpusetik lortutakoak<br />
konparatzea, alegia. Hemen ere, kirol-domeinuari dagozkion corpusak<br />
eta corpus orekatuak erabili ditugu, beraien artean zer desberdintasun agertzen<br />
diren aztertzeko.<br />
Kapitulu ho<strong>net</strong>an jokatu aditza erabiliko dugu saiakeraren metodologia<br />
eta garapena azaltzeko 11 , baina aipatutako aditz guztiekin egin dugu azterlan<br />
bera 12 .<br />
11 VII.4 eta VII.5 ataletan saiakera hau urratsez urrats aipatzen badugu ere, Pociello<br />
(2004a) lanean urrats bakoitzari buruzko xehetasun gehiago datoz.<br />
12 Aditz guztiekin jasotako emaitzak C eranskinean datoz.
VII.3 Baliabideak 163<br />
Hurrengo ataletan saiakera hau egiteko beharrezkoak izan diren corpusez<br />
(VII.3.1 atala) eta eskuratze-teknikez (VII.3.2 atala) jardungo gara.<br />
VII.3.1 Azterketarako erabili diren corpusak<br />
HMak ondorengo corpusetatik lortu ditugu:<br />
VII.3.1.1 Ingeleseko corpusak<br />
• SemCor: Ingeleseko corpus hau (Fellbaum et al., 2001) semantikoki<br />
eskuz etiketatutako corpusik handiena da. Semantikoki etiketatuko<br />
corpusa dela adierazten dugunean, hitzen adierak dagokien adierarekin<br />
desanbiguatuta daudela esan nahi dugu. Hala, corpus bat (semantikoki)<br />
etiketatua dagoela diogunean, (semantikoki) desanbiguatutako<br />
corpus bat dela adierazi nahi dugu. Brown Corpusaren zati batez eta<br />
Stephen Craig-en The Red Badge of Courage eleberriaz osatuta dago<br />
eta 350.000 hitz inguru ditu. Corpuseko hitz bakoitza <strong>WordNet</strong>eko<br />
synset batekin desanbiguatuta dago, eta arrazoi honengatik LNPn oso<br />
erabilia izan da.<br />
• The British National Corpus (BNC): BNC 100 milioi hitzetako<br />
corpus orekatua da, hots, jatorri ezberdi<strong>net</strong>ako corpusekin osatutakoa,<br />
baina eskuz etiketatu gabea.<br />
• EFE: EFE agentziaren corpusa da, 70 milioi hitz baino gehiago dituena.<br />
Kazetaritzari dagokion corpusa da eta kazetaritzaren gaien edo<br />
domeinuen arabera antolatua dago. Horregatik, domeinu zehatz bateko<br />
agerpenenak kontsultatzeko oso lagungarria da, baina ez dago eskuz<br />
etiketatuta.<br />
VII.3.1.2 <strong>Euskara</strong>ko corpusa<br />
• <strong>Euskal</strong>dunon Egunkaria: Egunkari ho<strong>net</strong>ako berriekin osatutako corpusa<br />
da, 7 milioi hitz inguru dituena. EFEren antzera, corpus domeinuka<br />
antolatuta dago. Hala, euskarako hitz baten testuingurua corpus osoan<br />
zehar ala domeinu zehatz batean kontsulta daiteke. Orain ari gara,<br />
EuSemcor proiektuaren baitan (Agirre et al., 2006a), corpus hau eskuz<br />
desanbiguatzen <strong>Euskal</strong> <strong>WordNet</strong>eko synsetetan oinarrituta. Proiektu
164 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
hori amaitu gabe dagoenez, saiakera ho<strong>net</strong>an eskuz etiketatu gabeko<br />
bertsioa erabili dugu.<br />
VII.3.2 Azterketarako erabili diren eskuratze-teknikak<br />
Azterlan ho<strong>net</strong>an klase semantikoan oinarritzen diren eskuratze-teknikak<br />
erabili dira (ikus VII.2.2.2. atala) eta MCR baliatu dugu klase semantiko<br />
horiek adierazteko. Horrela bada, eskuratze-teknika hauek aditzen objektu/subjektuen<br />
HMak adierazteko MCRko klase semantikoak darabiltzate.<br />
Hala ere, teknika honen barruan aldaerak egon daitezke. Gu lau eskuratzeteknika<br />
ezberdinez jardungo gara, bi multzo nagusitan banatu ditugunak<br />
hauen azalpena ulergarriagoa egin ahal izateko:<br />
• Synset batekin adierazitako HMak.<br />
• Domeinu-eremu semantiko bikote batekin adierazitako HMak.<br />
VII.3.2.1 Synset batekin adierazitako HMak<br />
Mota ho<strong>net</strong>ako eskuratze-teknikek aditz baten HMak synset batez adierazten<br />
dituzte, synset hau klase bezala kontsideratzen dutelarik; hau da,<br />
synseta bera eta honen hiponimo guztiak izango dira aditz horren objektu/subjektuen<br />
HMak.<br />
Aditzari dagokionez, ikuspuntu ezberdi<strong>net</strong>ik landu daiteke, eta hori izango<br />
da multzo ho<strong>net</strong>ako eskuratze-teknikak ezberdinduko dituena.<br />
Aditzaren HMak eskuratzean, HM hauek aditzaren adiera guztientzako<br />
izan daitezke, aditz-formarentzat, alegia. Demagun irabazi aditz-forma<br />
dugula. Aditz honek adiera ezberdinak ditu (‘lehiaketa irabazi’, ‘dirua irabazi’<br />
eta abar). Kontuan izanda eskuratze-teknikak irabazi aditzaren HMak<br />
eskuratzean aditz horrek izan ditzakeen adiera guztietan oinarritzen dela,<br />
aditz horren edozein adierari dagokion HMak eskura ditzake: objektuaren<br />
kasuan, [+lehiaketa] edo [+jabetza], esate baterako.<br />
HMak aditzaren adiera bakarrarentzat ere lor daitezke, aditz-adierarentzat,<br />
alegia. Adibidez, irabazi aditzaren objektu HMak eskuratzerakoan,<br />
eskuratze-teknikak aditz-forma honen adiera bakarra har dezake kontuan 13<br />
13 Corpusa etiketatua badago, eskuratze-teknikak zuzenean hartzen du corpusetik adiera<br />
hori. Bestela, hitzen adieren desanbiguazioan erabiltzen diren teknikak erabili behar dira.<br />
Argibide gehiagorako jo bedi Agirre eta Martínezen lanera (2002).
VII.3 Baliabideak 165<br />
(adibidez, ‘lehiaketa irabazi’ kirol-adiera). Hala, eskuratze-teknika honek<br />
adiera horri bakarrik dagozkion objektuen HMak eskuratuko ditu: [+lehiaketa],<br />
[+kirola], eta abar.<br />
Aditz-forman oinarritzen den eskuratze-teknikari word-to-class (aurrerantzean,<br />
w2c) deritzo, eta aditz-adieran oinarritzen denari class-to-class<br />
(aurrerantzean, c2c) 14 . Izenak adierazten duen bezala, w2c teknikak hitzetik<br />
abiatuta (aditz-formatik) klaseak diren HMak lortzen ditu; c2c-ek, aldiz,<br />
aditz-klase batetik abiatuta klaseak diren HMak lortzen ditu.<br />
HMak adierazteko synseta darabilten eskuratze-teknika hauen ezberdintasun<br />
nagusiena azaldu ondoren, HM hauek eskuratzeko jarraitzen diren<br />
urratsak eta irizpideak aipatuko ditugu. Nahiz eta w2c-en eta c2c-en eskuratze<br />
prozesua oso antzekoa izan, nahiago izan ditugu banandurik azaldu.<br />
Berriro ere, azpimarratu beharra dago lan ho<strong>net</strong>an ez garela eskuratzeteknika<br />
hauen azterketa sakonean murgilduko. Ikerlana hauetatik abiatuta<br />
egin dugu eta hauei buruzko azalpen labur bat bakarrik emango dugu 15 .<br />
Class-to-class (c2c)<br />
HM mota hau zertan datzan ulertu ahal izateko, lehendabizi nola lortzen den<br />
ulertzea garrantzitsua da.<br />
Aditz baten c2c HMak eskuratzeko, lehenengo corpusaren gainean<br />
Minipar analizatzaile sintaktikoa (Lin, 1993) erabili behar da, aditz horren<br />
corpuseko agerpen bakoitza [IZENA, (izena eta aditzaren arteko)ERLAZIOSIN-<br />
TAKTIKOA, ADITZA] hirukote modukoetan adierazteko. Adibidez, Miniparrek<br />
corpusean irabazi aditzaren (2)ko agerpena, (3) adibideko hirukotean<br />
bilakatuko luke:<br />
(2) Futbol-taldeak irabazi zuen.<br />
(3) ⎡<br />
⎤<br />
Futbol-talde (Izena)<br />
⎢<br />
⎥<br />
⎣Subjektua<br />
(Erlazio sintaktikoa) ⎦<br />
Irabazi (Aditza)<br />
14 Eskuratze-tekniken laburdurak ingelesez mantendu ditugu, hizkuntzalaritza konputazionalean<br />
horrela ezagutzen direlako. Esaterakoan, ordea, hauek euskaraz hitza-klase eta<br />
klase-klase bezala aipa daitezke.<br />
15 Argibide gehiagorako jo bedi hurrengo la<strong>net</strong>ara: Agirre eta Martínez (2001, 2002);<br />
Pociello (2004a).
166 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Ondoren, hirukote bakoitzean dauden izenak MCRn kontsultatzen dira.<br />
Horrela, aditza bera, eta aditz horrekin agertu den izen bakoitzaren adiera<br />
(bere synset-zenbakiarekin) desanbiguatuko da automatikoki (Agirre eta<br />
Martínez, 2002). SemCor corpusaren gainean ari bagara, hirukote hau corpusetik<br />
zuzenean datorkigu, corpusa bera <strong>WordNet</strong>eko synset-zenbakiekin<br />
eskuz etiketatuta baitago. Hortaz, orain hirukotea [IZENA eta bere SYNSET-<br />
ZENBAKIA, ERLAZIO SINTAKTIKOA, ADITZA eta bere SYNSET-ZENBAKIA] motakoa<br />
izango da.<br />
(4) ⎡<br />
⎤<br />
Futbol-talde/05167683 (Izena/Synset-zenbakia)<br />
⎢<br />
⎥<br />
⎣Subjektua<br />
(Erlazio sintaktikoa)<br />
⎦<br />
Irabazi/00620486 (Aditza/Synset-zenbakia)<br />
Azkenik, hirukote bakoitzaren probabilitatea kalkulatzen da, corpusean<br />
duten maiztasunaren arabera 16 . Hirukoteak daraman kopuru hau 1 zenbakitik<br />
geroz eta gertuago egon, orduan eta ziurrago egon gaitezke hirukoteak<br />
aditzarekiko adierazten duen harremana egokia dela.<br />
Beraz, [IZENA/SYNSET-ZENBAKIA, ERLAZIO SINTAKTIKOA, ADITZA/<br />
SYNSET-ZENBAKIA] motako hirukoteak dauzkagu, ondoan HMaren egokitasuna<br />
markatzen duen probabilitatearekin. (5) adibidean (2), (3) eta (4)ko<br />
hirukote bera dakargu, baina probabilitatea gehituta (kasu ho<strong>net</strong>an, 0.085)<br />
eta prozesuaren ondorioz ikus ahal izango dugun itxurarekin 17 :<br />
(5) c2c.subj (Eskuratze-teknika eta erlazio sintaktikoa)<br />
irabazi 00620486 (Aditza eta bere synset-zenbakia)<br />
05167683 0.085 futbol-talde “Futbolean jokatzen duen taldea”<br />
(Synset-zenbakia, probabilitatea, synseteko sinonimoak eta definizioa)<br />
Esan bezala, eskuratze-teknika ho<strong>net</strong>an HMak izen klaseen bidez datoz<br />
adierazita. Eskuratze-eredu ho<strong>net</strong>ako algoritmoak corpusetik jasotzen<br />
dituen objektu/subjektuen izenak MCRn kontsultatzen ditu, gerora izen horiek<br />
guztiak multzokatzen dituen klase semantikoa aukeratzeko; normalean<br />
hauen hiperonimo bat. Horrela, corpuseko izen hori orokor dezakeen beste<br />
izen bat lortzen da, aditz batekin joan daitekeen izen multzo bat mugatzen<br />
duena, hain zuzen ere. (2) adibidearekin jarraituz, ezin da ukatu futboltalde<br />
izena irabazi aditzaren subjektua izan daitekeela, baina era berean esan<br />
dezakegu:<br />
16 Argibide gehiago hurrengo la<strong>net</strong>an: Agirre eta Martínez (2001, 2002).<br />
17 Azalpena ulergarriagoa izan dadin, atal ho<strong>net</strong>ako HMen adibide, glosa eta synset<br />
asmatuak euskaraz jarri ditugu. Hala ere, hurrengo ataletan ingelesez aurkeztuko ditugu,<br />
azterlan ho<strong>net</strong>an eskuratze-tekniken emaitza guztiak ingelesez daudelako.
VII.3 Baliabideak 167<br />
(6) Saskibaloi-taldeak irabazi zuen.<br />
(7) Errealak irabazi zuen.<br />
Esandakoaren arabera, (5) ez da eskuratze-prozesuaren azken emaitza,<br />
futbol-talde izenaren ordez, hau orokortzen duen hiperonimo bat agertuko<br />
zaigulako:<br />
(8) c2c.subj<br />
irabazi 00620486<br />
04771851 0.101 0.145 gizatalde “Mota bereko izaki bizidunen multzoa”<br />
HM ho<strong>net</strong>atik abiatuta badakigu, irabazi 0062486 aditzaren subjektu mota<br />
batek gizakia izan behar duela ([+gizakia]), eta gainera gizaki horiek talde<br />
bat osatu behar dutela ([+talde]). Horrela bada, eskuratze-eredu honekin<br />
HMak izen klaseak izango dira.<br />
Bestalde, esan dugun bezala, eskuratze-teknika honek aditzaren adiera<br />
ere kontuan hartzen du. c2c eskuratze-teknikak lortzen dituen HMak aditzaren<br />
adiera jakin baterako dira. Beraz, MCR kontsultatzean irabazi aditzari<br />
00620486 synset-zenbakia egokitu bazaio (‘lehiaketa baten irabazlea izan’),<br />
automatikoki eskuratutako HMak irabazi aditzaren adiera horrentzat bakarrik<br />
izango dira, eta inolaz ere aditzaren beste adierentzat. Arrazoi horregatik,<br />
(5) eta (8) adibideetan aditzaren ondoren honen synset-zenbakia dator<br />
zehaztuta: 00620486 synsetari dagokion adieraren (‘lehiaketa baten irabazlea<br />
izan’) HMak direla adierazteko.<br />
(9) adibidean irabazi aditzaren objektu HMen adibide bat dugu, 00620486<br />
synsetari dagokion adierarekin, hots, kirol-adierarekin (‘lehiaketa baten irabazlea<br />
izan’).<br />
(9) c2c.subj<br />
irabazi 00620486<br />
04771851 0.101 lehiaketa “Sari bat irabazteko elkarren lehian egiten den jarduna”<br />
00597858 0.066 talde-ekintza “Talde batek aurrera daraman ekintza”<br />
Gainera, eskuratze-teknika honek aditza klase bezala ere ulertzen du, hau<br />
da, lortutako HMak baliagarriak dira aditz horrentzat, bere synsetean dituen<br />
sinonimo guztientzat, eta bere troponimoentzat. (8)ren kasuan, HM horiek<br />
irabazi 0060486 synsetari eta honen azpian dauden beste synset guztiei dagozkio.<br />
Horrela, bada, eskuratze-teknika honen HMak aditz-klase oso bati<br />
dagozkie. SemCor semantikoki etiketatutako corpus bat izaki, eskuratze-
168 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
teknika honek, corpusean irabazi 0060486 synsetaren troponimo bat agertuko<br />
balitz, bere hiperonimoarekin erlazionatzeko gai izango litzateke, eta klase<br />
guztiari HM berdinak egokituko lizkioke 18 .<br />
Azkenik, aipatu beharra dago, eskuratze-teknika honekin (eta besteekin)<br />
ez dela aditz bakoitzarentzat HM bakarra lortzen, aditz bakoitzak probabilitate<br />
kopuru altue<strong>net</strong>ik baxuenera ordenaturiko HMen zerrenda bat izango<br />
baitu. Horrela, aditz baten objektu/subjektu argumentu gisa agertzen diren<br />
izenen zerrenda izango dugu probabilitate altue<strong>net</strong>ik baxuenera.<br />
Zerrenda hau oso luzea izan daiteke, eta hamar HM baino gehiagok osatzen<br />
dutenean lehenengo hamarretara bakarrik mugatzen gara lan ho<strong>net</strong>an.<br />
Irizpide hau azterlan ho<strong>net</strong>ako eskuratze-teknika guztiekin erabili dugu.<br />
Word-to-class (w2c)<br />
Eskuratze-teknika honen prozesua aurrekoaren oso antzekoa da. Ezberdintasun<br />
bakarra da w2c ereduan aditzaren adiera guztiak kontuan hartzen direla.<br />
Hala, lehenik, Minipar analizatzaile sintaktikoaren bitartez [IZENA, (izena eta<br />
aditzaren arteko) ERLAZIO SINTAKTIKOA, ADITZA] hirukote modukoak ateratzen<br />
dira; bigarren pausoa MCRn kontsulta egitea da, baina oraingo ho<strong>net</strong>an,<br />
hirukoteko izenak bakarrik begiratzen dira MCRn, aditza bere adiera<br />
guztiekin kontuan hartzen baita. Hala, izen horiek adierarekin edo synsetzenbakiarekin<br />
desanbiguatuta izango ditugu. Beraz, orain hirukotea [IZE-<br />
NA/SYNSET-ZENBAKIA, ERLAZIO SINTAKTIKOA, ADITZA] motakoaizangoda.<br />
(10) ⎡<br />
⎤<br />
Futbol-talde (Izena)<br />
⎢<br />
⎥<br />
⎣Subjektua<br />
(Erlazio sintaktikoa) ⎦<br />
Irabazi (Aditza)<br />
c2c eskuratze-teknikarekin ikusi dugun bezala, SemCor <strong>WordNet</strong>eko<br />
synsetekin etiketatutako corpusa izaki, honen gainean aritzean, hirukoteko<br />
izenen synsetak corpusetik zuzenean datozkigu.<br />
Azkenik, c2c eskuratze-teknikan bezala, hirukote bakoitzaren probabilitatea<br />
kalkulatu egiten da, corpusean duten maiztasunaren arabera 19 .<br />
Horrela bada, HM hauek duten itxura c2c teknikarekin lortutakoaren oso<br />
antzekoa da:<br />
18 Honen adibideak VII.4 atalean ikusiko ditugu.<br />
19 Argibide gehiago hurrengo la<strong>net</strong>an: Agirre eta Martínez (2002, 2001).
VII.3 Baliabideak 169<br />
(11) w2c.subj (Eskuratze-teknika eta erlazio sintaktikoa)<br />
irabazi (Aditza)<br />
05167683 0.070 futbol-talde “Futbolean jokatzen duen taldea”<br />
(Synset-zenbakia, probabilitatea, synseteko sinonimoak eta definizioa)<br />
w2c eskuratze-teknikan, c2c-en gertatzen den bezala, izenen HMak izen<br />
klaseen bidez datoz adierazita, hots, corpusean irabazi aditzak subjektu edo<br />
objektu gisa hartzen dituen izenak, algoritmoak automatikoki dagokien hiperonimoarekin<br />
multzokatzen ditu.<br />
(12), (13) eta (14) adibideetan irabazi aditz-formarekin objektu gisa agertu<br />
diren izen klaseen zerrenda dugu (15) adibidean, probabilitate altue<strong>net</strong>ik<br />
baxuenera ordenaturik. Bertan ikus daiteke oso garbi w2c eskuratze-teknika<br />
honek eskaintzen dituen HMak aditzaren adiera guztiei erreparatzen dietela.<br />
Honela bada, lehiaketa izen-klasea kirol-adierari dagokio, eta jabegoa, aldiz,<br />
finantza adierari.<br />
(12) partidua irabazi (hiperonimoa: lehiaketa)<br />
(13) futbolean irabazi (hiperonimoa: talde-ekintza)<br />
(14) dirua irabazi (hiperonimoa: jabego)<br />
(15) w2c.obj<br />
irabazi<br />
04771851 0.101 lehiaketa “Sari bat irabazteko elkarren lehian egiten den jarduna”<br />
00597858 0.066 talde-ekintza “Talde batek aurrera daraman ekintza”<br />
00017394 0.037 jabego “Norbaitek berea duen zerbaitekiko duen eskubidea”<br />
VII.3.2.2 Domeinu eta eremu semantiko batekin adierazitako HMak<br />
Mota ho<strong>net</strong>ako eskuratze-teknikek aditz baten HMak domeinu-eremu semantiko<br />
bikote batez adierazten dituzte, bikote hau klase bezala kontsideratzen<br />
dutelarik, hau da, domeinu hori eta eremu semantiko hori dituzten izen guztiak<br />
izango dira aditz horren objektu/subjektuen HMak.<br />
IV. kapituluan azaldu dugun bezala, synsetarekin domeinua eta eremu<br />
semantikoari buruzko informazioa dator. Alde batetik, MCRko klase semantiko<br />
bakoitza fitxategi batean jasota dago, eremu semantiko deritzogun<br />
fitxategia, hain zuzen (ingelesez, semantic field): gertaera, jabetza, taldea,
170 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
pertsona, ekonomia, lekua eta abar bezalakoak. Bestalde, domeinu-ontologia<br />
dugu, eta honekin synsetak domeinuen arabera antolatzen dira: kirola,<br />
jatetxea, edotrafikoa, esate baterako 20 .<br />
Synset batekin adierazitako HMetan barruan w2c eta c2c eskuratzeteknikekin<br />
gertatzen zen bezala, hemen ere eskuratze-teknikak ezberdintzen<br />
dira HMak aditz-formatik edo aditz-adieratik abiatuta eskuratzearen arabera.<br />
Aditzaren HMak eskuratzean, HM hauek aditzaren adiera guztientzako<br />
izan badaitezke, (aditz-formarentzat, alegia) word-to-semantic-field<br />
(aurrerantzean, w2semf 21 ) eskuratze-teknikaz hitz egingo dugu, hots, hitzetik<br />
abiatuta domeinu-eremu semantiko bikoteak lortzen dituenaz.<br />
HMak aditzaren adieraren arabera ere lor badaitezke (aditz-adierarentzat,<br />
alegia), orduan, sense-to-semantic-field (aurrerantzean, s2semf)<br />
eskuratze-teknikaz baliatu garela esango dugu, hau da, aditz-adieratik 22 abiatuta<br />
domeinu-eremu semantiko bikoteak lortzen dituenaz.<br />
Har ditzagun, berriro ere, irabazi aditza eta (12), (13) eta (14) adibideak.<br />
Aditz honen w2semf objektu HMak aditzaren adiera guztientzat lirateke.<br />
(16) w2semf.obj (Eskuratze-teknika eta erlazio sintaktikoa)<br />
irabazi (Aditza)<br />
obj ekonomia-jabetza 33<br />
obj kirola-gertaera 28<br />
(Erlazio sintaktikoa, domeinu-eremu semantiko bikotea eta probabilitatea)<br />
(16)ko HMak (15)ekoen berdinak dira; adierazpidea da aldatzen dena.<br />
(15)ekoak synset bidez adierazten ditu klase semantikoak, eta (16)koak, berriz,<br />
domeinu-eremu semantiko bikotearen bitartez. Adibidean ikus daitekeen<br />
bezala, gauza bera adierazteko, (15)ekoak hiru synset behar izan ditu<br />
eta (16)koak bi domeinu-eremu semantiko.<br />
Aditz horren kirol-adieran oinarrituz gero (irabazi 00620486), s2semf<br />
eskuratze-teknikak aditz-adiera horren kirol domeinuarekin harrema<strong>net</strong>an<br />
20 Azalpena ulergarriagoa izan dadin, adibideko eremu semantikoak eta domeinuak euskaraz<br />
jarri ditugu. Hala ere, hurrengo ataletan ingelesez aurkeztuko ditugu, azterlan<br />
ho<strong>net</strong>an eskuratze-tekniken emaitza guztiak ingelesez daudelako.<br />
21 Eskuratze-tekniken terminologia ingelesez mantendu dugu, hizkuntzalaritza konputazionalean<br />
horrela ezagutzen direlako. Hala ere, hauek euskaraz hitza-domeinu-eremu<br />
semantiko bikotea eta adiera-domeinu-eremu semantiko bikotea esan daitezke.<br />
22 c2c eta s2semf ezberdintzen dira, aditzaren izaeran. Lehenengoak aditzaren synseteko<br />
sinonimoak eta troponimoak kontuan hartzen ditu; eta bigarrenak, aditzaren synseteko<br />
sinonimoak bakarrik.
VII.3 Baliabideak 171<br />
dauden objektuen HMak bakarrik eskuratuko lituzke 23 :<br />
(17) s2semf.obj (Eskuratze-teknika eta erlazio sintaktikoa)<br />
irabazi 00620486 (Aditza eta bere synset-zenbakia)<br />
obj joko-ekintza 33<br />
obj kirola-gertaera 28<br />
(Erlazio sintaktikoa, domeinu-eremu semantiko bikotea eta probabilitatea)<br />
(17)ko HMak (9)koen berdinak dira baina lehenengoak domeinu-eremu<br />
semantiko bikoteekin adieraziak, eta bigarrenak synsetekin.<br />
Atal honen hasieran esan bezala, bikote hauek klase semantikoak dira:<br />
kirola domeinua eta gertaera eremu semantikoa duten izen guztiak izan daitezke<br />
irabazi aditzaren objektuak.<br />
Domeinu-eremu semantiko bikoteen bidez adierazitako izen klase hauek<br />
corpusetatik erauzteko, w2c eta c2c eskuratze-tekniketan erabilitako aurreprozesu<br />
bera erabiliko da w2semf-ekin eta s2semf-ekin ere. Lehenengo, corpusaren<br />
gainean Minipar analizatzaile sintaktikoa (Lin, 1993) erabili behar<br />
da, aditz horren corpuseko agerpen bakoitza [IZENA, (izena eta aditzaren arteko)<br />
ERLAZIO SINTAKTIKOA, ADITZA] hirukote modukoetan adierazteko. (2)<br />
adibidearen hirukotea (3)koa litzakete.<br />
Ondoren, hirukote bakoitzean dauden izenen MCRko eremu semantikoak<br />
eta domeinuak kontsultatzen dira. Hortaz, orain hirukotea [IZENA eta bere<br />
DOMEINUA/EREMU SEMANTIKOA, ERLAZIO SINTAKTIKOA, ADITZA] motakoa<br />
izango da. Adibidez, (12)ko irabazi aditzaren agerpena, (18) adibideko<br />
hirukotean bilakatuko litzateke:<br />
(18) ⎡<br />
⎤<br />
Futbol-talde/football/group (Izena/Domeinua/Eremu semantikoa)<br />
⎢<br />
⎥<br />
⎣Subjektua<br />
(Erlazio sintaktikoa)<br />
⎦<br />
Irabazi (Aditza)<br />
HMa aditzaren adiera bakarrarentzat lortzen denean, hirukote hau aditzaren<br />
synsetarekin zehaztuta dator.<br />
Azkenik, hirukote bakoitzaren pisua kalkulatzen da corpusean duten maiztasunaren<br />
arabera 24 . Hirukoteak daraman pisua geroz eta handiagoa izan,<br />
orduan eta fidagarritasun handiagoa. Azkeneko emaitza (16) eta (17)koen<br />
itxurakoa da.<br />
23 Corpusa semantikoki etiketatua badago, eskuratze-teknikak zuzenean hartzen du corpusetik<br />
adiera hori. Bestela, hitzen adieren desanbiguazioan erabiltzen diren teknikak<br />
erabili behar dira. Argibide gehiagorako jo bedi Agirre eta Martínezen lanera (2002).<br />
24 Argibide gehiago hurrengo la<strong>net</strong>an: Agirre eta Martínez (2002, 2001).
172 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
VII.3.2.3 Baliabideak laburbilduz<br />
Ikusi dugun bezala, saiakera ho<strong>net</strong>an ingeleseko lau corpus ditugu (ingeleserako<br />
SemCor, BNC eta EFE eta euskararako <strong>Euskal</strong>dunon Egunkaria), eta<br />
lau eskuratze-teknika erabili ditugu.<br />
Eskuratze-teknika hauek guztiak ez dira corpus guztietan aplikatu. c2c<br />
eta w2c tekniken emaitzak Martínezen (2005) lanari lotutakoak dira; bi teknika<br />
hauekin landu zuen berak HMen eskuratze automatikoa. Martínezek<br />
teknika hauek SemCorren eta BNCn bakarrik erabili zituen.<br />
s2semf eta w2semf teknikako emaitzak MEANING proiektuari dagozkionak<br />
dira. Proiektu ho<strong>net</strong>an ingeleserako SemCor eta EFE corpusak baliatu<br />
ziren, eta euskararako <strong>Euskal</strong>dunon Egunkaria. Eskuratze-teknikari dagokienean,<br />
s2semf eta w2semf erabiltzea erabaki zen, hasiera batean (etorkizunean<br />
gainontzeko teknikak probatzeko asmoarekin). s2semf-ek desanbiguatutako<br />
corpusa behar duenez, SemCorren bakarrik erabili ahal izan zen. Aldiz,<br />
EFEn eta <strong>Euskal</strong>dunon Egunkarian w2semf erabiltzea erabaki zen.<br />
Hala, saiakera honen emaitzak behin-behinekoak dira, eskuratze-teknika<br />
guztiak ezin izan direlako corpus guztien gainean erabili. Hortaz, honako<br />
hau hastapeneko lana dugu, eta hemen aurkeztutako emaitzetatik eta ondorioetatik<br />
abiatuta, azterketa honen esparrua zabaltzeko asmoa dugu.<br />
VII.4 Ingeleseko HMak<br />
Aipatu izan dugun bezala (ikus VII.3. atala), azterketa ho<strong>net</strong>arako, kiroldomeinuko<br />
bost aditz aukeratu ditugu: jokatu, galdu, irabazi, entrenatu eta<br />
berdindu. Hala ere, aditz hauek kirol-adieraz gain beste adiera batzuk izan<br />
ditzakete (‘zuzen jokatu, dirua irabazi/galdu...’). Hauetako bakoitzak dituen<br />
adierez jabetzeko, MCRra jo dugu, eta adiera horietatik guztietatik<br />
kirolarekin zerikusia zute<strong>net</strong>an bakarrik oinarritu gara.<br />
Nola jakin synset bat kirol-adierari dagokiola? Batetik, synsetarekin batera<br />
datorren glosari eta eremu semantikoari esker, eta bestetik, synset horri<br />
dagokion domeinua begiratuta. Kirol-adiera duten synset guztiek sport domeinua<br />
izan behar dute.<br />
Har dezagun jokatu aditza. MCRn kirolarekin harrema<strong>net</strong>an dauden bi<br />
synset ditu; batek, ‘zerbaitetan jokatu’ adierazten du (jokatu 00605818), eta,<br />
besteak, ‘-ren aurka jokatu’ (jokatu 00610422). VII.1. irudian jokatu aditzaren<br />
bi kirol synsetak ditugu, eta adiera-ezberdintasun hau glosan adierazia
VII.4 Ingeleseko HMak 173<br />
Synset-eko hitza(k) Kategoria Synset-zenbakia Domeinua Domeinua<br />
jokatu, jokoan jardun Aditza 00605818 play sport<br />
jokatu Aditza 00610422 play sport<br />
VII.3 Taula: jokatu aditzaren kirol synsetak eta beraien domeinuak MCRn.<br />
dator. Bestalde, irudian ikus daitekeen bezala, bi synseten eremu semantikoak<br />
(competition) agertzen dira.<br />
VII.1 Irudia: jokatu aditzaren bi kirol synsetak.<br />
Domeinuari erreparatuz (ikus VII.3 taula), bi synset hauek sport domeinuaren<br />
marka daramate 25 . Dena den, synsetek domeinu bat baino gehiago<br />
izan ditzakete, bi synset hauen kasuan ikus daitekeen bezala 26 . Ikusiko dugun<br />
bezala, honek HMetan ondorioak izango ditu.<br />
<strong>Euskara</strong>ko aditz-formen kirol-adierak mugatu ondoren, aukeratutako bost<br />
aditzen kirol-adierei honako zortzi synset hauek dagozkie (bai euskararako<br />
eta bai ingeleserako), eta hauetan oinarritu gara HMen azterketarako:<br />
25 Domeinuen sailkapena ez da MCR interfazean ikusten, beste fitxategi batzuetan daude.<br />
Hala ere, aurki jarriko dira interfazean.<br />
26 Play eta Sport domeinuek antzekoak diruditen arren, gauza ezberdinak adierazten<br />
dituzte. Sport domeinuak ekintza fisikoarekin edota joko konpetitiboekin zerikusia duenari<br />
egiten dio erreferentzia; play domeinuak, ordea, apustua edota jokoarekin zerikusia duen<br />
edozeri. <strong>Euskara</strong>ko itzulpenak jokoa eta kirola izan daitezke.
174 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
• 00605818 {play 1/jokatu 2}; “play games, play sports” 27<br />
• 00610422 {encounter5, meet10, play24, take on5/jokatu3}; “contend against<br />
an opponent in a sport or game”<br />
• 00468052 {coach 2, train 7/entrenatu 1}; “teach and supervise, as in sports or<br />
acting”<br />
• 00059698 {train 8/entrenatu 3}; “exercise in order to prepare for an event or<br />
competition”<br />
• 00630097 {equalize 1, get even 1/berdindu 16}; “compensate; make the score<br />
equal”<br />
• 00630097 {draw 25, tie 2/berdindu 15}; “finish a game with an equal number<br />
of points, goals. . . ”<br />
• 00620486 {win 1/irabazi 3}; “be the winner in a contest or competition”<br />
• 00620218 {lose 2/galdu 9}; “failtowin”<br />
Atal ho<strong>net</strong>an, corpus eta teknika desberdinak erabiliz, ingeleserako eskuratutako<br />
HMak aztertu eta ebaluatuko ditugu, hau da, MCRko synset horietan<br />
dauden ingeleseko variantak hartuko ditugu ingeleseko HMen azterketa<br />
eta ebaluazioa egiteko 28 . Baina, atal ho<strong>net</strong>an, synset hauetatik play 00605818<br />
synseta baliatuko dugu adibide gisa ingeleseko aditz hauekin guztiekin erabilitako<br />
metodologia ulergarriago egitearren. Honenbestez, atal ho<strong>net</strong>an jokatu<br />
00605818 synsetaren azterketaz arituko gara; beraz, hemendik aurrera, bere<br />
ingeleseko varianta (play 00605818) hartuko dugu oinarri gisa. Hala ere,<br />
aditz guztien azterketa eta emaitzak C eranskinean daude.<br />
27 MCRn synsetek zenbaki bat daramate (00605818), baita synset barruko ordainek ere<br />
(play 1). Lehenengoa synset osoari dagokio, osatzen duten ordainak barne. Bigarrenak hitzaren<br />
adiera zehazten du, hau da, hitz polisemikoen adierak zenbakituak datoz. Bigarren<br />
hauei variant deitzen zaie (ikus IV.1.1 atala). Hala ere, biekin gauza bera adieraz daiteke:<br />
play 1ek MCRko play hitzaren lehenengo adiera adierazten du; eta play 00605818k, play<br />
hitzak 00605818 synseteko adiera duela, hots, play 1.<br />
28 Jokatu 00605818 synsetak ingelesez variant bakarra duenez (play), variant horren<br />
HMak aztertuko ditugu bakarrik. Baina, Jokatu 00610422ren kasuan, adibidez, bere ingeleseko<br />
variantak lau dira ({encounter, meet, play, take on}), hau da, kontzeptu hori<br />
adierazteko ingelesez sinonimo horiek erabil daitezke. Azterlan ho<strong>net</strong>an synset berean<br />
dauden ingeleseko variant guztien HMak aztertu ditugu.
VII.4 Ingeleseko HMak 175<br />
VII.4.1 Ingeleseko HMetarako irizpideak<br />
Eskuratze-teknika desberdinen HMak ebaluatzeko, synset bakoitzeko eskuratze-teknika<br />
bakoitzaren emaitza prototipikoak eskuz sortu ditugu (urre-patroi<br />
deitu duguna 29 ), eta kasu ho<strong>net</strong>an, play 00605818 synsetarentzat.<br />
Urre-patroiak eskuratze-teknika bakoitzaren ereduan sortuko dira. Hau<br />
da, guk sortutako urre-patroiek teknika hauen emaitzek hartzen duten itxura<br />
hartuko dute: alde batetik, HMak adierazteko synsetean oinarritzen direnenak<br />
(w2c eta c2c), eta bestetik, domeinu-eremu semantikoetan oinarritzen<br />
direnenak (w2semf eta s2semf). Hala, urre-patroiak ere bi azpimultzo hauetan<br />
banatu ditugu; patroi batzuk synset bidez adieraziko ditugu w2c eta c2c<br />
tekniketatik lortutako HMak ebaluatzeko, eta beste patroiak domeinu-eremu<br />
semantiko bikoteen bidez definituko ditugu, w2semf tekniketatik lortutako<br />
HMak ebaluatu ahal izateko.<br />
Hortaz, argi dago urre-patroi hauek proposatu ahal izateko MCR erabili<br />
behar izan dugula, VII.2 atalean ikusi dugun bezala, bertan oinarritzen<br />
baitira eskuratze-teknikak HMak adierazteko (synset, eremu eta domeinu semantikoen<br />
bidez).<br />
Honezaz gain, erabilitako corpusetan ere oinarritu gara saiakeran. Corpus<br />
hauetatik hartutako esaldietatik, aztertu beharreko aditz-adiera bakoitzaren<br />
jokaera linguistikoa orokortzen saiatu gara, gerora, orokortasun horiek<br />
(HMak, alegia) MCRko synset eta domeinu-eremu semantiko batzuen<br />
bidez adierazteko. Corpuseko izen bat HM batean orokortzeko, gehie<strong>net</strong>an<br />
izen horrek MCRn duen hiperonimoetara jo dugu. Azken finean, makinak<br />
eskuratze-tekniken bidez egin beharko lukeena egiten saiatu gara eskuz. Esan<br />
dezakegu, beraz, MCRko synset eta domeinu-eremu semantikoetan oinarrituta,<br />
introspekzioaz baliatu garela urre-patroiak sortzeko.<br />
(19)n ditugu play 00605818 aditz-adieraren urre-patroiak eta (20)n patroien<br />
adibideak 30 :<br />
29 Izen hau ingeleseko goldstandardetik itzuli dugu.<br />
30 Eskuratze-teknikek ematen dituzten emaitzak ingelesez daude, MCRko informazioa<br />
ingelesez dagoelako. Hau da, MCRko euskarri informatikoa ingelesez dago; ingelesez ez<br />
dagoen bakarra beste hizkuntzetako variantak eta glosak dira. <strong>Euskara</strong>ko glosak oraindik<br />
ez daude guztiz itzulita, horregatik, ingelesekoetan oinarritzen gara.
176 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
(19) play 00605818 Objektuak<br />
w2c, c2c:<br />
00240760 {sport, athletics} “an active diversion requiring physical exertion and...”<br />
00254052 {game} “a contest with rules to determine a winner”<br />
04771851 {contest, competition} “an occasion on which a winner is selected from...”<br />
09065837 {amount of time, period, period of time} “time period a length of time”<br />
s2semf, w2semf:<br />
sport-event<br />
time-period time<br />
sport-act<br />
play-act<br />
play 00605818 Subjektuak<br />
w2c, c2c:<br />
00004865 {person, individual, someone, somebody, human soul} “a human being”<br />
00017008 {group, grouping} “any number of entities (members)considered. . . ”<br />
s2semf, w2semf:<br />
person-person<br />
factotum-group 31<br />
(20) Objektuak:<br />
John played football.<br />
John played amatch.<br />
John played five minutes.<br />
John played agame.<br />
Subjektuak:<br />
John played football.<br />
The football-team played a match.<br />
Kontuan izan beharrekoa da MCR hierarkia bat dela eta batzuetan ez<br />
dela horren erraza HMa adierazten duen synset egokia aukeratzea, gerta litekeelako<br />
synset hori orokorregia izatea (hierarkian goregi egotea) edo zehatzegia<br />
izatea (hierarkian beheregi egotea). Esate baterako, play aditzarentzat<br />
{contest, competition} 32 HMa proposatu ordez, MCRko bere hiponimoa<br />
31 Adiera batek domeinurik ez duenean factotum markarekin adierazten da.<br />
32 Synset berean ordain bat baino gehiago agertzen direnean, azalpe<strong>net</strong>an synseta adierazteko<br />
bi variantak giltzen artean adieraziko ditugu.
VII.4 Ingeleseko HMak 177<br />
(match “a formal contest in which two or more persons or teams compete”) proposatuz<br />
gero, aditz horren objektuen aukeraketa gehiagi mugatuko genuke,<br />
eta {contest, competition} bezalakoak ezingo genituzke zuzentzat jo. Alderantziz<br />
ere berdin: {contest, competition} HMaren ordez, bere hiperonimoa<br />
social event (“an event characteristic of persons forming groups”) proposatu<br />
izan bagenu, aukera gehiegi izango genituzke eta zuzenak ez diren HMak ere<br />
agertuko lirateke (adibidez, play 00605818 aditzak social event horren hiponimoa<br />
den ballet HMa onartuko luke).<br />
Arazo hau bera areagotu egiten da domeinu-eremu semantiko bikoteen<br />
bidez adierazitako HMak ebaluatzean. Domeinu-eremu semantiko bikote<br />
hauek synsetak baino orokorragoak dira. Adibidez, Errealak partidua jokatu<br />
zuen esaldian, subjektuaren HMa sport-group bikote gisa adieraz daiteke.<br />
Baina kirol-aditzak ez dira kirolarekin harrema<strong>net</strong>an dauden ize<strong>net</strong>ara bakarrik<br />
mugatzen (Donostiarrek partidua jokatu zuten). Horregatik domeinueremu<br />
semantiko bikote orokorragoak onar daitezke (factotum-group, adibidez).<br />
HMak adierazteko arazo hau dela eta, hauek ebaluatzeko maila desberdineko<br />
markak erabili ditugu:<br />
• Zuzena: Urre-patroiarekin bat datorrenean.<br />
• Onargarria: Urre-patroiaren hiperonimoa edo hiponimoa denean.<br />
Domeinu-eremu semantiko bikoteen bidez adierazitako HM kasuan,<br />
onargarri bezala kontsideratu ditugu urre-patroia baino orokorrago edota<br />
zehatzago direnak.<br />
• Okerra: Urre-patroiarekin bat ez datorrenean eta MCRko hierarkian<br />
ere loturarik ez dutenean.<br />
Marka hauek ez digute inolako arazorik eman synsetekin adierazitako<br />
HMak ebaluatzerakoan. Haatik, domeinu-eremu semantiko bikoteekin adierazitakoak<br />
ebaluatzeko, batzuetan onargarriak ala okerrak diren erabakitzeko<br />
zailtasunak izan ditugu. Esate baterako, play 00605818 synsetak [+gizaki]<br />
motako subjektuak har ditzake; synsetekin adierazita, 00004865 {person,<br />
individual, human} “a human being” 33 HMa litzateke, eta domeinu-eremu<br />
semantiko bikoteekin adierazita, person-person. Eskuratze-tekniken emaitzetan<br />
hauexek agertuz gero, play 00605818ren urre-patroietan definituak<br />
33Batzuetan, toki-arazoak direla-eta, synsetak laburtu egin ditugu, variant kopurua<br />
edota glosa txikituz.
178 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
daudenez, ez legoke inolako arazorik, eta zuzentzat joko genituzke. Hala<br />
ere, emaitzetan hauen aldaerak ager daitezke, hau da, urre-patroiaren hiperonimo/hiponimoak<br />
diren synsetak (06441015 young man “an adolescent<br />
male”, adibidez) edo urre-patroiko domeinu-eremu semantiko bikotea baino<br />
orokorrago/zehatzago 34 diren bestelako bikoteak (transport-person, administration-person,<br />
basketball-person. . . ). Demagun, eskuratze-teknika baten emaitza<br />
06441015 young man “an adolescent male” dela, orduan, onargarri gisa<br />
ebaluatutako dugu hau urre-patroiko 00004865 {person, individual, human}<br />
“a human being” synsetaren hiponimo bat delako. Aldiz, eskuratzeteknikaren<br />
emaitza transport-person, administration-person, basketball-person. . .<br />
denean, zenbaitetan zalantza dugu. Lehenengo begiratuan, basketballperson<br />
domeinu-eremu semantikoa play 00605818ren kirol adierarekin zerikusia<br />
duenez 35 , onargarritzat joko genuke, eta transport-person eta administrationperson,<br />
berriz, okertzat —play 00605818ren adierarekin bateragarriak ez direlako<br />
(?Administrators played football), eta transport eta administration ez<br />
direlako sport domeinuaren hiponimoak edo hiperonimoak MCRn. Hala ere,<br />
datuak eta corpusak aztertuz, konturatu gara hauek Brazilians, cyclist eta gisa<br />
horretako agerpe<strong>net</strong>atik datozela, eta play 00605818rekin onargarriak direla<br />
(Brazilians played football). Baina, Brazilians bezalako kasu hauek gutxienekoak<br />
dira, eta hauek sortutako administration HMa onargarritzat joz gero<br />
administration domeinuaren azpian dauden beste hitz guztiak ere (chairman,<br />
chancellor. . . ) jokatu aditzaren (kirol-adieraren) subjektu/objektu prototipiko<br />
gisa ager daitezkeela baieztatzen ariko ginateke. Hori, bistan da, ez<br />
litzateke oso egokia.<br />
Ikus daitekeen bezala, domeinu-eremu semantiko bikoteekin synsetekin<br />
baino arazo gehiago sortu zaizkigu, eta horren ondorioa izan da ebaluaziorako<br />
irizpide zehatzagoen beharra:<br />
• Domeinu-eremu semantiko bikote bat onargarritzat hartuko dugu, urrepatroia<br />
baino orokorrago edota zehatzago bada, eta domeinuko beste<br />
izen gehienak aditz horren argumentu izan badaitezke. Irizpide<br />
honen arabera, zuzentzat hartuko ditugu, urre-patroia baino orokorrago<br />
edota zehatzago diren HMak, baldin eta domeinuko beste izen<br />
gehienak aditz horren argumentu izan badaitezke. Aurreko adibidearen<br />
kasuan, administration domeinuaren azpian MCRko chairman, adminis-<br />
34Domeinu hierarkia izanik, domeinuak hiperonimia/hiponimiaren arabera antolatuak<br />
daude.<br />
35MCRko domeinu hierarkian basketball domeinua sport domeinuaren hiponimoa da.
VII.4 Ingeleseko HMak 179<br />
trator, chancellor eta abar bezalakoak daude sailkatuak; hauek ezin dute<br />
play 00605818ren HMak izan (ez testuinguru arruntetan behintzat). Beraz,<br />
domeinu-eremu semantiko bat onargarria den erabakitzeko, lehendabizi<br />
domeinu horrek hartzen dituen izenak aditz horren argumentu<br />
gisa ager daitezkeen aztertu beharko dugu.<br />
• Izen-bereziak (x baten bidez adieraziak datozenak), pronominalak (pro<br />
baten bidez adieraziak datozenak), eta factotum-Tops bikoteak erreferente<br />
orokorregia dute, eta ezinezkoa da jakitea beraien jatorria corpusean.<br />
Arrazoi horregatik nahiz eta onargarri bezala ebaluatu, ez dira<br />
estatistiketan kontuan hartuko. Esate baterako, factotum-Tops bikote<br />
honek ia edozer gauza adieraz dezake, factotumekin domeinurik ez duten<br />
hitzak adierazten direlako, eta Tops eremuak MCRko hierarkian<br />
oso goian dauden synsetak jasotzen dituelako. Beraz, oso orokorra diren<br />
kontzeptuak dira.<br />
• Zuzen/onargarri bezala ebaluatutako HM batekin, bi urre-patroi eskuratu<br />
daitezke, baldin eta eremu semantikoa bera duten. Esate baterako,<br />
factotum-act HMarekin play-act eta sport-act urre-patroiak eskuratzen<br />
dira, adibidez.<br />
VII.4.2 HMen azterketa eta ebaluazioa<br />
Corpus desberdi<strong>net</strong>atik eskuratutako HMen azterketa egin aurretik, orain<br />
arte jarraitutako pausoak laburbilduko ditugu. Gogora dezagun azalpenerako<br />
jokatu 00605818 synsetean oinarritu garela adibide gisa:<br />
• <strong>Euskara</strong>ko jokatu aditz-formatik abiatu gara eta honek dituen kiroladierak<br />
(synsetak) bilatu ditugu MCRn (jokatu 00605818 eta jokatu<br />
00610422).<br />
• Synset hauek kirol-adiera dutela egiaztatzeko beraien domeinua sport<br />
dela egiaztatu dugu.<br />
• Synset bat hartu dugu –gure kasuan jokatu 00605818 eta bere ingeleseko<br />
ordaina hartu dugu (play 00605818)– aditz-adiera honen HMak<br />
ingeleseko corpusetatik lortzeko.<br />
• Eskuratze-tekniken emaitzak ebaluatu ahal izateko, ingeleseko corpusetan<br />
oinarrituta aditz-adiera horrek hartzen dituen HMen urre-patroiak<br />
eskuz sortu ditugu landutako eskuratze-teknika mota guztientzako.
180 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Emandako urrats hauekin, eskuratze-teknika mota bakoitzaren emaitza<br />
ebaluatzeko gai gara. Eskuratze-teknika hauek programa informatikoak dira,<br />
eta jarraian, eskuratze-teknika hauek automatikoki lortutako emaitzen<br />
(HMen) ebaluazio linguistikoa egingo dugu. Hurrengo ataletan lan honen<br />
azalpenari ekingo diogu, eta, horretarako, azalpena corpusen arabera antolatu<br />
dugu. Horrela, VII.4.2.1. atalean SemCor corpusetik eskuratutako HMen<br />
azterketa egingo dugu, VII.4.2.2. atalean BNCtik eskuratutakoena, eta, azkenik,<br />
VII.4.2.3. atalean EFEtik eskuratutakoena.<br />
VII.4.2.1 SemCorretik eskuratutako HMen azterketa eta ebaluazioa<br />
Corpus ho<strong>net</strong>an c2c, w2c eta s2semf eskuratze-teknikak erabili dira. Hauekin<br />
irizpide metodologiko berdintsuak baliatu ditugun arren, beraien artean bada<br />
berezitasunik.<br />
c2c SemCorretik<br />
c2c eskuratze-teknikak lortzen dituen objektuen edo subjektuen HMak aditzaren<br />
adiera jakin baterako dira: play 00605818. Eskuratze-teknika ho<strong>net</strong>an<br />
HMak aditz-adiera horrentzat baliagarri diren neurrian, synsetean dituen<br />
sinonimoentzat eta bere troponimoentzat ere baliagarri dira.<br />
Eskuratze-teknika honen emaitza ebaluatzeko, hurrengo urratsak jarraitu<br />
ditugu:<br />
• HM bakoitzaren jatorria ezagutu: HMak lortzeko corpusaren agerpen<br />
zehatzetan oinarritzen garenez —zehazkiago esanda, corpusean<br />
aditzarekin batera agertu diren ize<strong>net</strong>an (objektu eta subjektu<br />
dire<strong>net</strong>an)—, gure lehenengo lana corpuseko jatorria zein den jakitea<br />
da. Hala, eskuratze-teknikaren lana oinarritik ebaluatu dezakegu, gerta<br />
baitaiteke corpuseko objektu/subjektu izen horri okerreko HMa egokitzea<br />
(geroago ikusiko dugun bezala). Horretarako, corpusean aditz<br />
horrekin subjektu edo objektu gisa agertu diren izenen zerrenda oso baliagarria<br />
litzaiguke. Arrazoi horregatik bi tresnatxo sortu dira lan hau<br />
guztia erraztearren: w2w eta s2s deiturikoak (w2c eta c2c teknikentzat,<br />
hurrenez hurren). Corpusetik agerpen horiek guztiak eskuz ateratzen<br />
jardun ordez, w2w eta s2s baliabideen bidez automatikoki ematen<br />
zaizkigu fitxategi batean (fitxategi hauek jasotzen duten informazioa
VII.4 Ingeleseko HMak 181<br />
C eranskinean dago ikusgarri) 36 .<br />
• Izena corpuseko testuinguruan kokatu: Aditzaren agerpen zehatzak<br />
ezagutu ondoren, corpusean hauen testuingurua bilatzen dugu,<br />
hauek guztiak aztertzen ari garen kirol aditzarekin bateragarriak diren<br />
ala ez eskuz egiaztatzeko.<br />
• HMen ebaluazioa: Eskuratze-tekniken HMen eta hauen corpuseko<br />
jatorria aurrean izanda, ebaluazioa egiten has gaitezke.<br />
Pauso hauek jarraituta, play 00605818 synsetaren objektu eta subjektu<br />
HMak ditugu (21)en; s2s zerrendako37 ize<strong>net</strong>atik abiatutako HMak letra lodiz<br />
adierazi ditugu, dagokien corpuseko agerpenak (izenak) ere zehaztuz:<br />
(21) c2c.obj<br />
play 00605818<br />
002289900.215 {activity} “any specific activity or pursuit”<br />
PLAY: football, basketball, golf, game3. . .<br />
00004865 0.117 {person, individual, human} “a human being”<br />
00017008 0.102 {group, grouping} “any number of entities considered as. . . ”<br />
PLAY: The Owls<br />
00009469 0.071 {object, physical object} “a physical entity”<br />
PLAY: ball, card, rightfield<br />
04771851 0.035 {contest, competition}“an occasion on which a winner is. . . ”<br />
PLAY: game<br />
03875944 0.029 {interest, involvement} “a sense of concern with curiosity about. . . ”<br />
08162378 0.014 {cost} “thetotalspentforgoods [...] includingmoneyandtime...” 01691640 0.011 {horse} “solid-hoofed herbivorous quadruped domesticated. . . ”<br />
c2c.subj<br />
play 00605818<br />
00017008 0.517 {group, grouping} “any number of entities considered as. . . ”<br />
PLAY: The Mustangs, Texans, line. . .<br />
00004865 0.507 {person, individual, human} “a human being”<br />
PLAY: mate, Bill Kunkel, Nelson, youngman. . .<br />
00009469 0.079 {object, physical object} “a physical (tangible and visible) entity”<br />
36 Hitzean oinarritzen den eskuratze-teknikaren antza handia dute (ikus VII.2.2.1. atala),<br />
baina hauek corpuseko agerpenak zuzenean hartzen ditu, inolako probabilitaterik eskaini<br />
gabe. Ez dira eskuratze-teknikak, hizkuntzalariaren lana errazten duten baliabideak<br />
baizik. Hauei buruzko argibide gehiago Agirre eta Martínez (2001, 2002) la<strong>net</strong>an.<br />
37 Fitxategi hauek jasotzen duten informazioa C eranskinean dago.
182 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
08413915 0.032 {digit} “one of the elements that form a system of. . . ”<br />
PLAY: nine<br />
03953834 0.032 idea, thought “the content of cognition”<br />
Letra lodiz markatu gabe HM ugari geratu dira. Gogoratu beharra dago<br />
c2c eskuratze-teknika aditz synset horren HMak eskuratzeaz gain, bere troponimoenak<br />
ere eskuratzen dituela. SemCor, semantikoki etiketatutako corpus<br />
bat izaki, eskuratze-teknika honek corpusean play 00605818 synsetaren<br />
troponimo bat agertuko balitz, bere hiperonimoarekin (play 00605818) erlazionatzeko<br />
gai izango litzateke, eta klase guztiari HM berdinak egokituko<br />
lizkioke. Hortaz, pentsa daiteke jatorria zehaztu gabe geratu diren horiek;<br />
play 00605818ren troponimoetatik datozela. Hipotesi hau egiaztatzeko, s2s<br />
datuen aldaera diren s2s-hype fitxategiko datuak erabiliko ditugu. Honek<br />
corpusean agertu diren play 00605818 synsetaren troponimoak zehaztuko dizkigu,<br />
hauekin agertu diren izenekin batera. Hala, play 00605818rekin orain<br />
arte jarraitu dugun metodologia bera erabiliko dugu troponimo hauekin ere.<br />
Lehenengo, troponimoak eta beraien domeinuak ezagutu behar ditugu<br />
(ikus VII.4. taula). Ondoren, s2s-hype erabilita troponimoen agerpenak corpusean<br />
zehaztu eta hauen testuinguruak aztertu behar ditugu, kirol-adiera<br />
dutela egiaztatzeko eta gero ebaluatzeko. (22)n letra lodiz markatu ditugu<br />
corpuseko ize<strong>net</strong>atik eratorritako HMak eta beraien azpian zerrendatuak<br />
datoz corpuseko agerpenak (bai play 00605818renak eta bai honen troponimoenak).<br />
(22) c2c.obj<br />
play 00605818<br />
00228990 0.215 {activity} “any specific activity or pursuit”<br />
PLAY: football, basketball, golf, game3. . .<br />
STAKE: career<br />
00004865 0.117 {person, individual, human} “a human being”<br />
START: mate<br />
00017008 0.102 {group, grouping} “any number of entities considered as. . . ”<br />
PLAY: The Owls<br />
FIELD: team<br />
00009469 0.071 {object, physical object} “a physical entity”<br />
PLAY: ball, card, rightfield<br />
04771851 0.035 {contest, competition} “an occasion on which a winner. . . ”<br />
PLAY: game2<br />
03875944 0.029 {interest, involvement} “a sense of concern with curiosity about. . . ”
VII.4 Ingeleseko HMak 183<br />
Synset-eko hitza(k) Synset-zenbakia Domeinua Domeinua<br />
start 00607112 play sport<br />
field 00611046 play sport<br />
bet on 00646526 baseball sport<br />
stake 00646526 play sport<br />
parlay 00646865 play sport<br />
VII.4 Taula: play 00605818 synsetaren troponimoak eta bere domeinuak <strong>Euskal</strong><br />
<strong>WordNet</strong>en.<br />
08162378 0.014 {cost} “the total spent for goods [. . . ] including money and. . . ”<br />
PARLAY: earnings<br />
01691640 0.011 {horse} “solid-hoofed herbivorous quadruped domesticated. . . ”<br />
BET ON: pony<br />
c2c.subj<br />
play 00605818<br />
00017008 0.517 {group, grouping} “any number of entities considered as. . . ”<br />
PLAY: The Mustangs, Texans, line. . .<br />
FIELD: The Oriols<br />
textbf00004865 0.507 {person, individual, human} “a human being”<br />
PLAY:mate, Bill Kunkel, Nelson, youngman. . .<br />
START: Haddix<br />
BET ON: Berry<br />
00009469 0.079 {object, physical object} “a physical (tangible and visible) entity”<br />
08413915 0.032 {digit} “one of the elements that form a system of numbers”<br />
PLAY: nine<br />
03953834 0.032 {idea, thought} “the content of cognition. . . ”<br />
Horrela, bada, troponimoak kontuan izanda, ia HM guztien jatorria lor<br />
dezakegu. Hau da, uler dezakegu makinak zein pauso jarraitu dituen HM horiek<br />
eskuratzeko. Dena den, oraindik geratu dira HM batzuk jatorria zehaztu<br />
gabe, letra lodiz ez dauden horiek, hain zuzen ere. Horiek nondik eskuratu<br />
diren ikertzeke dugu oraindik.<br />
Orain arte, eskuratze automatikoan ematen diren pausoak azaldu ditugu.<br />
Hemendik aurrera eskuratze-teknika honen ebaluazio linguistikoaz jardungo<br />
gara. Zenbateraino fida gaitezke metodo honek egin duen eskuratzeaz?<br />
Ebaluazio honekin hasi baino lehen, ekar dezagun gogora hasieratik<br />
eskuratze-teknika mota hauentzako proposatutako urre-patroiak, hauekin parekatu<br />
behar baititugu c2c HM hauek:
184 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
(23) play 00605818 Objektuak<br />
w2c, c2c:<br />
00240760 {sport, athletics} “an active diversion requiring physical exertion and...”<br />
04771851 {contest, competition} “an occasion on which a winner is selected from...”<br />
00254052 {game} “a contest with rules to determine a winner”<br />
09065837 {amount of time, period, period of time} “time period a length of time”<br />
play 00605818 Subjektuak<br />
w2c, c2c:<br />
00004865 {person, individual, someone, somebody, human soul} “a human being”<br />
00017008 {group, grouping} “any number of entities (members) considered as a unit”<br />
(24)n letra lodiz markatu ditugu zuzentzat jo ditugun HMak; beste guztiak<br />
okertzat jo ditugu:<br />
(24) c2c.obj<br />
play 00605818<br />
00228990 0.215 activity “any specific activity” ONARGARRIA<br />
00004865 0.117 person, individual, human “a human being”<br />
00017008 0.102 group, grouping “any number of entities considered. . . ”<br />
00009469 0.071 object, physical object “a physical entity”<br />
04771851 0.035 contest, competition “an occasion on. . . ” ZUZENA<br />
03875944 0.029 interest, involvement “a sense of concern with curiosity. . . ”<br />
08162378 0.014 cost “the total spent for goods [. . . ] including money...”<br />
01691640 0.011 horse “solid-hoofed herbivorous quadruped. . . ”<br />
c2c.subj<br />
play 00605818<br />
00017008 0.517 {group, grouping} “any number of entities. . . ” ZUZENA<br />
00004865 0.507 {person, individual, human} “a human being” ZUZENA<br />
00009469 0.079 {object, physical object} “a physical entity”<br />
08413915 0.032 {digit} “one of the elements that form a system of numbers”<br />
03953834 0.032 {idea, thought} “the content of cognition”<br />
Onargarri marka daraman bakarra activity objektu HMa da, eta hauxe da<br />
probabilitate-neurri handieneko HMa (0.215), berez, eskuratze-teknikak egokitzat<br />
proposatzen duena. Synset hau football, basketball eta abarren hiperonimoa<br />
da, baina tartean badaude HM gisa egokiagoak direnak, urre-patroian<br />
proposaturiko {sport, athletics}, adibidez. Hizkuntzalaritzari begira, activity<br />
klase semantikoa ezin da beti izan play 00605818ren objektua: ezin da edozein<br />
ekintzetan jokatu, baina bai, ordea, ekintza batzuetan (kirola adierazten<br />
duten ekintzetan, hain zuzen ere).
VII.4 Ingeleseko HMak 185<br />
Objektuen artean zuzena den bakarra {contest, competition} objektu HMa<br />
da, eta hau probabilitate-neurriaren zerrendan ez da lehenengoetakoa (bosgarrena<br />
da).<br />
Beste HM guztien jatorria ez da aditz-adiera honentzat egokia. Esate baterako,<br />
person HMa ez dagokio play 00605818ri baizik eta play 00610422ri. Azken<br />
synset honek objektu gisa [+pertsona] tasuna daramatenak hartzen ditu<br />
bere MCRko glosan adierazten den bezala (contest against an opponent). Zergatik<br />
azaltzen dira play 00610422ren HMak play 00605818koekin nahastuta?<br />
SemCorren etiketatze-erroreak daudelako, eta horren adibide play 00605818<br />
eta play 00610422ren arteko nahasketa delako. Hau da, play kirol-adierarekin<br />
agertzen denean, SemCorren hau play 00605818 bezala etiketatu dute. Hortaz,<br />
SemCorreko play 00605818 synseteko HMetan play 00610422renak ere<br />
azaldu dira. VII.4.3 atalean azalduko ditugu errore hauen arrazoia sakonkiago.<br />
Okerrak diren object eta digit HMen azalpena VII.4.3 atalean dago.<br />
Azkenik, esan beharra dago troponimoetatik etorritako HM gehienak okerrak<br />
direla. Zuzenak direnak troponimo gabe lortu dira; play 00605818ren<br />
kasuan bet on, parlay eta stake bezalako troponimoak ditu, hots, apustua domeinuarekin<br />
zerikusia dutenak. Honenbestez, play domeinua dute, sportekin<br />
batera. Play domeinuak indar gehiago duela dirudi eta honek HMetan eragina<br />
izan du. Hauen HMak play 00605818renekin zeharo ezberdinak dira. Esate<br />
baterako, aditz hauen objektu arrunte<strong>net</strong>ako bat ‘dirua’ izango da (cost<br />
HMetan). Horse HMa, adibidez, bet on a pony testuingurutik dator. Beraz,<br />
ez dirudi aditz batek eta bere troponimoek HM berak dituztenik (behintzat<br />
MCR hierarkian oinarritzen bagara).<br />
w2c SemCorretik<br />
VII.3.2.1. atalean adierazi dugun bezala, eredu honekin aditz-formaren<br />
(hitzak izan ditzakeen adiera guztiak kontuan hartuta) objektu edo subjektu<br />
HMak lortzen dira. Beraz, gure adibidearekin jarraituz, HM hauekin play<br />
aditzaren adiera guztiak izan beharko ditugu kontuan. Hala ere, behin eta<br />
berriro esan dugun bezala, ikerlan hau kirol-domeinuko aditzetara mugatu<br />
dugu. Horregatik, nahiz eta w2c eskuratze-teknikan adiera guztiak kontuan<br />
hartu, adiera guzti horien artean guk kirol-adiera dutenak soilik hartuko<br />
ditugu kontuan. Horrela, eskuratze-teknika hau HMak kirol-adierarentzat<br />
bakarrik eskuratzen dituztenekin (c2c-ekin, adibidez) erkatu ahal izango dugu.
186 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
HM hauen ebaluazioa egin baino lehen, bakoitzaren jatorria ezagutzen<br />
saiatu gara, eta, berriro, s2s-ko datuak erabili ditugu 38 .<br />
Hala eta guztiz ere, w2c eskuratze-teknika honekin zaila da lotzea HM bakoitza<br />
bere jatorriarekin, ez baitakigu HM hori zein adierari dagokion. Esaterako,<br />
(26) adibidean begiratzen badugu, play 00605818ren subjektua izateko<br />
probabilitate handiena duen HM, {person, individual, human} synsetak<br />
adierazten duena da, [+pertsona] alegia. Hortaz, badakigu play 00605818k<br />
orokorrean subjektu gisa [+pertsona] adierazten duen izen bat hartuko duela.<br />
Baina, guk badakigu, play aditz-formaren adiera gehienek hartzen dutela<br />
subjektu mota hau: I play the piano, I play football, I play cards, I play Hamlet,<br />
eta abar.<br />
SemCorreko s2s izen-zerrendari esker, HM bakoitzaren jatorria zehazteko<br />
gai izan gaitezke. s2s zerrendan dauden izen guztien hiperonimoak begiratuta<br />
zer HMetan bilakatu diren asma genezake. Baina lan honek gure saiakerari ez<br />
lioke abantaila handirik ekarriko, eta, gainera, erabilera konputazional mugatua<br />
lortuko genuke. Itzulpen automatikoan edo adiera desanbiguazioan, adibidez,<br />
w2c ez litzateke horren erabilgarria, aditz-forma baten aurrean ezingo<br />
genukeelako honen HMetatik bere adiera mugatu. Horregatik adiera batean<br />
oinarritzearen garrantzia.<br />
HM hauetan adiera guztiak nahasturik daudenez, ezinezkoa zaigu aditzadiera<br />
baten HMak ebaluatzea, aditz horren adiera posible guztiak kontuan<br />
hartuta daudelako. Horregatik, w2c motako HMak aztertzerakoan,<br />
play 00605818rekin zerikusia duten HMak ezberdintzen saiatu gara, gerora<br />
play 00605818rekin egindako beste eskuratze-tekniken emaitzekin bat datozen<br />
ikusteko. Hala, (26) adibidean play aditz-formaren w2c objektu/subjektu<br />
HMak ditugu. Letra lodiz markatu ditugu gure ustez play aditzaren kirol-adieraren<br />
objektu/subjektuak izan daitezkeenak, (25)eko urre-patroiekin<br />
bat datozenak, alegia. Urre-patroia bera edo antzekoa denean (hiperonimo<br />
edo hiponimo bat, adibidez), zuzen edo onargarri bezala kontsideratu dugu;<br />
baina bat ez datozenak ez ditugu okertzat hartu, hauek, berez, beste<br />
aditz-adiera baten HMak izan daitezkeen heinean, zuzenak izan daitezkeelako.<br />
Bestalde, HMen azpian SemCorreko play 00605818rekin batera corpusean<br />
agertu diren objektu/subjektu izenak zerrendatuak datoz.<br />
38 Ikus s2sko datuak C eranskinean.
VII.4 Ingeleseko HMak 187<br />
(25) play 00605818 Objektuak<br />
w2c, c2c:<br />
00240760 {sport, athletics} “an active diversion requiring physical exertion and. . . ”<br />
00254052 {game} “a contest with rules to determine a winner”<br />
04771851 {contest, competition} “an occasion on which a winner is selected from. . . ”<br />
09065837 {amount of time, period, period of time} “time period a length of time”<br />
play 00605818 Subjektuak<br />
w2c, c2c:<br />
00004865 {person, individual, human} “a human being”<br />
00017008 {group, grouping} “any number of entities (members) considered as...”<br />
(26) w2c.obj<br />
play<br />
002289900.148 {activity} “any specific activity or. . . ” ONARGARRIA<br />
PLAY 00605818: football, basketball,golf, game3. . .<br />
00004865 0.105 {person, individual, human} “a human being”<br />
00009469 0.040 {object, physical object} “a physical (tangible and visible) entity”<br />
00017008 0.031 {group, grouping} “any number of entities (members) considered. . . ”<br />
00018599 0.029 {communication} “something that is communicated between people. . . ”<br />
00021098 0.028 {action} “something done (usually as opposed to something said)”<br />
00018966 0.008 {measure, quantity} “how much there is of something that you can...”<br />
00015437 0.007 {state} “the way something is with respect to its main attributes”<br />
00017586 0.007 {attribute} “an abstraction belonging to or characteristic of an entity”<br />
04771851 0.006 {contest, competition} “an occasion on. . . ” ZUZENA<br />
PLAY: game<br />
w2c.subj<br />
play<br />
00004865 0.308 {person, individual, human} “a human being” ZUZENA<br />
PLAY: mate, Bill Kunkel, Nelson, youngman. . .<br />
00017008 0.125 {group, grouping} “any number of entities. . . ” ZUZENA<br />
PLAY: The Mustangs, Texans, line. . .<br />
00009469 0.059 {object, physical object} “a physical (tangible and visible) entity”<br />
00012670 0.043 {abstraction} “a general concept formed by extracting common. . . ”<br />
06467898 0.029 {physical phenomenon} “a natural phenomenon involving the physics. . . ”<br />
08522741 0.016 {situation, state of affairs} “the general state of things”<br />
08125923 0.011 {community} “common ownership”<br />
00012878 0.008 {cognition knowledge} “the psychological result of perception. . . ”
188 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Ikus daitekeen bezala, urre-patroiko HM gehienak azaldu egiten dira.<br />
Subjektuen kasuan ez da harritzekoa, beste adieren subjektuek ere HM horiek<br />
onar baititzakete. Arrazoi horregatik daude probabilitate altueneko postuetan.<br />
Objektuen artean, kirolari bakarrik dagokion HMa {contest, competition}<br />
da, eskuratze-tekniken proposamenean azkena, probabilitate baxuenarekin<br />
agertu dena, alegia. Bestalde, objektuetan probabilitate handiena<br />
activityk du. Play 00605818k ekintza bat har dezake objektu gisa (activityk<br />
jasotzen dituen football, basketball, eta abar), baina aditz honen beste adieretan<br />
ere HM hau ager daiteke (play cards, adibidez).<br />
s2semf SemCorretik<br />
Eskuratze-teknika honek aditzaren adiera bakoitzarentzat HMak domeinueremu<br />
semantiko bikoteekin adierazten ditu. Honek orain arte erabilitako<br />
metodologia baldintzatzen du, ezin jakin baitezakegu zeintzuk diren HM<br />
zehatzak. Honen arrazoi nagusiena izen berak domeinu eta eremu semantiko<br />
bat baino gehiago har ditzakeela da. Esaterako, football izenaren domeinuak<br />
bi dira: play eta sport; eta bere eremu semantikoa act da. Hortaz, play-act<br />
eta sport-act bikoteak agertuz gero, HM desberdin hauek izen beretik abiatutakoak<br />
izan daitezke. Hala, gehie<strong>net</strong>an ezinezkoa zaigu ziurtasunez jakitea<br />
HM hauen corpuseko jatorri zehatza zein den.<br />
Bestalde, bikote hauek adierazten dutena ulertzea ez da begibistakoa.<br />
Domeinuaren eta eremu semantikoen informazioa synsetena baino orokorragoa<br />
da eta gehie<strong>net</strong>an MCRra jo behar dugu hauen azpian zer dagoen ulertu<br />
ahal izateko.<br />
Beraz, ezin dugu eskuratze-teknika honen ebaluazio sakon bat egin, baina<br />
s2s datuak aurrean izanda 39 , subjektiboki bada ere, horietatik zuzenak zein<br />
diren aipa dezakegu.<br />
Ebaluazioarekin hasi baino lehen, komeni da gogora ekartzea zeintzuk<br />
diren eskuratze-teknika mota honentzat proposatutako urre-patroiak:<br />
(27) play 00605818 Objektuak<br />
s2semf, w2semf:<br />
sport-event<br />
time period-time<br />
sport-act<br />
play-act<br />
39 Fitxategi honek jasotzen duen informazioa C eranskinean dago.
VII.4 Ingeleseko HMak 189<br />
play 00605818 Subjektuak<br />
s2semf, w2semf:<br />
person-person<br />
factotum-group<br />
(28)n letra lodiz markatu ditugu zuzenak/onargarriak iruditu zaizkigun<br />
HMak:<br />
(28) s2semf.obj<br />
play 00605818<br />
obj play-act 3.5 ZUZENA<br />
obj sport-act 1.5 ZUZENA<br />
obj baseball-artifact 1<br />
obj factotum-Tops 1<br />
obj card-artifact 1<br />
obj play-artifact 0.5<br />
obj golf-act 0.5 ONARGARRIA<br />
obj anthropology-Tops 0.5<br />
obj basketball-act 0.5 ONARGARRIA<br />
obj sport-artifact 0.5<br />
s2semf.subj<br />
play 00605818<br />
subj number-quantity 1<br />
subj sport-person 1 ONARGARRIA<br />
subj factotum-group 1 ZUZENA<br />
subj factotum-Tops 1 ONARGARRIA<br />
subj person-person 1 ZUZENA<br />
subj biology-Tops 0.5<br />
subj anthropology-Tops 1<br />
Objektuen HMetako play-act, sport-act urre-patroietan daudenez ez dugu<br />
inolako zalantzarik zuzen bezala ebaluatzeko. Hauen zehaztapen gisa har<br />
daitezke golf-act eta basketball-act, domeinuen hierarkian golf eta basketball,<br />
sport domeinuen jasota baitaude. Arrazoi horregatik onargarri bezala hartu<br />
ditugu, urre-patroia baino zehatzagoak direlako. Urre-patroiko beste bi<br />
objektuen HMak ez dira s2semf HM hauetan agertu. Zuzen bezala ebaluatu<br />
ditugunak zerrendako lehenengo bi postuetan daude, onargarri gisa ebaluatutakoek,<br />
berriz, probabilitate gutxiago dute.<br />
Azkenik, artifact eremu semantikoa daramatenen artean, nondik etorri<br />
diren susmatzen dugu; card-artifacten kasuan, play 00605818 aditzaren glosari<br />
erreparatuz gero, play cards bezalakoak onartzen dituela badakigu. Hortaz,
190 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
synset berean ‘kartetan jokatu’ eta ‘futbolean jokatu’ elkarrekin daudela dirudi.<br />
Card izenaren eremu semantikoa MCRn artifact da, eta arrazoi horregatik<br />
agertu da HM hori.<br />
Beste HM bat play ball (play-artifact) dugu. Oraingo ho<strong>net</strong>an ball izena<br />
football, basketball. . . bezala ulertu beharko genukeen, hots, ekintza bat<br />
bezala. Hala, act eremu semantikoa izan beharko luke eta ez artifact. MCRn<br />
kontsultatuz gero, ball synset ugaritan dago baina horietako batek ere ez du<br />
ekintza-adiera hori 40 . Beraz, eskuratze-teknikak horren ordez beste bat hartu<br />
du ausaz, artifact eremu semantiko duena, hain zuzen ere.<br />
Subjektuei dagokionez, s2semf eskuratze-teknikak urre-patroian proposaturiko<br />
bi HMak lortu ditu. Horietaz gain, onargarri bezala ebaluatu ditugun<br />
sport-person eta factotum-Tops ere baditu. Lehenengoa, person-person<br />
horren zehaztapena da, eta honen jatorria mate izenaren agerpena izan daiteke,<br />
honen domeinua sport delako. Hala ere, errepikatu beharra dago HM<br />
hauen jatorria zehaztea ez dela lan batere erraza. Bigarrena, oso HM orokorra<br />
da 41 eta honen jatorria edozer izan daiteke.<br />
Probabilitate altueneko subjektua, number-quantity HMa, ez da zuzena,<br />
baina honek c2c eskuratze-teknikako digit HMenarekin zerikusia duela uste<br />
dugu (azalpen zehatzagoa VII.4.3 atalean).<br />
VII.4.2.2 BNCtik eskuratutako HMen azterketa eta ebaluazioa<br />
Corpus ho<strong>net</strong>an c2c eta w2c eskuratze-teknikak erabili dira. Erabilitako<br />
irizpide metodologikoa orain artekoaren ezberdina izan da. BNC corpusa<br />
ez dago adierekin etiketatua, hots, desanbiguatuta, ezta domeinuka antolatuta<br />
ere. Honek guztiak HMak nondik datozen zehaztea ezinezkoa egiten<br />
du. SemCorrekin eskuratze-teknikak aztertzerakoan, s2s (eta s2s-hype)<br />
fitxategiak genituen non aditzaren adierak (synset-zenbakia) zehaztuak<br />
zeuden eta baita izenenak ere. BNC semantikoki etiketatu gabeko corpusa<br />
da eta nahiz eta w2w fitxategi bat izan, bertan play aditz-formarekin<br />
objektu/subjektu gisa agertu diren hitzen zerrenda luze bat besterik<br />
ez zaigu ematen 42 . Mila hitzetik gora osatutako zerrendak dira, eta izugarrizko<br />
eskuzko lana litzateke bakoitzaren testuinguruak aztertu eta ki-<br />
40 Kontuan izan beharrekoa da, <strong>WordNet</strong> eta MCR etengabe eguneratzen dauden ezagutza-baseak<br />
direla, eta batzuetan horrelako hutsuneak aurki daitezkeela.<br />
41 Bikote honek ia edozer adieraz dezake, factotumekin domeinurik ez duten hitzak adierazten<br />
direlako, eta Tops eremuak MCRko hierarkian oso goian dauden synsetak jasotzen<br />
dituelako. Beraz, oso orokorra den kontzeptu baten aurrean gaude.<br />
42 Ikus C eranskina.
VII.4 Ingeleseko HMak 191<br />
rolaren domeinuari dagozkionak aukeratzea, gero horren arabera beraien<br />
MCRko synset eta hiperonimo posibleak zehazteko. Arrazoi horregatik,<br />
eta datu enpirikoetan oinarritu gabe, BNC gainean aplikatutako eskuratzeteknika<br />
hauen HMak zuzenean gure urre-patroiekin erkatu ditugu.<br />
w2c BNCtik<br />
Teknika honekin playren adiera guztien objektuen edo subjektuen HMak lortzen<br />
dira. Eskuratze-teknika honen HMak gure urre-patroiekin erkatu ditugu<br />
(ikus (29) adibidea), kirol-adierarekin bat datozenak nabarmentzeko –letra<br />
lodiz (30) adibidean. Urre-patroia bera edo antzekoa (hiperonimo edo hiponimo<br />
bat adibidez) denean zuzen edo onargarri bezala kontsideratu dugu<br />
hurrenez hurren; baina bat ez datozenak ez ditugu okertzat hartu. Izan ere,<br />
hauek, berez, beste aditz-adiera baten HMak izan daitezkeen heinean, zuzenak<br />
izan daitezke.<br />
(29) play 00605818 Objektuak<br />
w2c, c2c:<br />
00240760 {sport, athletics} “an active diversion requiring physical exertion...”<br />
04771851 {contest, competition} “an occasion on which a winner is selected from. . . ”<br />
00254052 {game} “a contest with rules to determine a winner”<br />
09065837 {amount of time, period, period of time} “time period a length of time”<br />
play 00605818 Subjektuak<br />
w2c, c2c:<br />
00004865 {person, individual, human} “a human being”<br />
00017008 {group, grouping} “any number of entities (members) considered as a unit”<br />
(30) w2c.obj<br />
play<br />
00228990 0.082 activity “any specific activity or. . . ” ONARGARRIA<br />
00009469 0.077 object, physical object “a physical (tangible and visible) entity”<br />
00004865 0.070 person, individual, human “a human being”<br />
00012670 0.028 abstraction “a general concept formed by ...”<br />
00021098 0.020 action “something done (usually opposed to something said”<br />
00597858 0.012 group action “action taken by a group of people”<br />
00012878 0.012 cognition, knowledge “the psychological result of perception. . . ”<br />
04771851 0.009 contest, competition “an occasion on. . . ” ZUZENA<br />
05650477 0.009 part, piece “a portion of a natural object”<br />
04690182 0.008 happening, occurrence, natural event “an event that happens”
192 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
w2c.subj<br />
play<br />
08813320 0.16 helium “a very light colorless element that. . . ”<br />
00004865 0.12 person, individual, human “a human being” ZUZENA<br />
04455766 0.06 he “the 5th letter of the Hebrew alphabet”<br />
00011607 0.04 artifact, artefact “a man-made object”<br />
05149489 0.03 organization, organisation “a group of. . . ’ ONARGARRIA<br />
04313427 0.02 message, content, subject “what a communication that is about. . . ”<br />
00016649 0.01 act, human action,“something that people do or cause to happen”<br />
00018966 0.01 measure, quantity, “how much there is of something that...”<br />
00014314 0.01 location “a point or extent in space”<br />
00012878 0.01 cognition, knowledge “the psychological result of perception. . . ”<br />
Ikus daitekeen bezala, urre-patroiko HM gehienak azaltzen dira.<br />
Objektuen artean, kirolari dagokion HM bakarra {contest, competition} da.<br />
Onargarri marka daraman HMa (activity) urre-patroiko {sport, athletics}en<br />
hiperonimoa da. Nahiz eta play 00605818k ekintza bat har dezakeen objektu<br />
gisa (activityk jasotzen dituen football, basketball eta abar), beste adieretan<br />
ere HM hau ager daiteke (He played Hamlet esaldian, adibidez), eta<br />
horregatik du probabilitate-neurri altuena.<br />
Subjektuen kasuan, {organisation, organization} onargarritzat jo dugu,<br />
{group, grouping} synsetaren hiponimo bat delako, talde mota zehatzagoa,<br />
alegia. Zuzentzat hartu dugun bakarra (eta probabilitate-neurri altue<strong>net</strong>akoa<br />
duena) person HMa da. Hau baino probabilitate-neurri handiagoa he izenordainak<br />
du, baina honi egotzi zaizkion synsetak ez dira izenordainak. Aurreprozesu<br />
la<strong>net</strong>an ez zirenez izenordainak markatu, analizatzaile sintaktikoak<br />
ez ditu detektatzen, eta, gainera, MCRn izenordainik ez dagoenez, makinak<br />
he izenordainaren idazkera antzekoa duten beste bi synsetekin parekatu ditu<br />
—helium (‘elementu kimikoa’) eta he (‘hebrear alfabetoko bosgarren letra’).<br />
Arrazoi horregatik dira probabilitate handiena dituzten HMak. Honi buruz,<br />
VII.4.3 atalean mintzatuko gara.<br />
Bestalde, location bezalako subjektu HMak agertzen direnean, eta w2w<br />
fitxategietan begiratuta, leku izen berezietatik etor daitezkeen (Argentina,<br />
Madril...) susmoa dugu. Horrelakoekin corpusean kirol taldeak adierazi<br />
nahi dira eta MCRn leku-izen berezi bezala daude. Hori dela eta, location<br />
bezalako HMak ditugu play aditzarekin.<br />
Beraz, kirol-adierari dagokion HM bakarra {contest, competition} dela<br />
dirudi.
VII.4 Ingeleseko HMak 193<br />
c2c BNCtik<br />
Eskuratze-teknika honek lortzen dituen objektu edo subjektuen HMak play<br />
00605818 adierarako dira (ikus VII.4.2.1. atala).<br />
(31)n dugun urre-patroiekin erkatuta, (32)n letra lodiz markatu ditugu<br />
zuzenak iruditu zaizkigun HMak; beste guztiak okerrak dira:<br />
(31) play 00605818 Objektuak<br />
w2c, c2c:<br />
00240760 {sport, athletics} “an active diversion requiring physical exertion...”<br />
04771851 {contest, competition} “an occasion on which a winner is selected from. . . ”<br />
00254052 {game} “a contest with rules to determine a winner”<br />
09065837 {amount of time, period, period of time} “time period a length of time”<br />
play 00605818 Subjektuak<br />
w2c, c2c:<br />
00004865 {person, individual, someone, somebody, human soul} “a human being”<br />
00017008 {group, grouping} “any number of entities (members) considered as a unit”<br />
(32) c2c.obj<br />
play 00605818<br />
09065837 0.006 {period, amount of time} “an indefinite length. . . ” ZUZENA<br />
08813320 0.004 {helium} “a very light colorless element that. . . ”<br />
08520394 0.004 {condition, status} “a condition or state at a particular time”<br />
08534455 0.001 {status, position} “the relative position of persons in a society”<br />
08745609 0.001 {opportunity, chance} “a possibility due to a favorable. . . ”<br />
08522741 0.001 {situation, state of affairs} “the general state of things”<br />
08781633 0.001 {material, stuff} “the tangible substance that goes into. . . ”<br />
08523811 0.0007 {relationship} “a state involving mutual dealings. . . ”<br />
09164158 0.0006 {playing period, play} “time during. . . ” ONARGARRIA<br />
c2c.subj<br />
play 00605818<br />
08813320 0.14 {helium} “averylightcolorlesselementthat...” 09065837 0.005 {period, amount of time} “an indefinite length of time”<br />
08520394 0.003 {condition, status} “a condition or state at a particular time”<br />
09069911 0.002 {now} “the momentary present”<br />
08807415 0.001 {metal} “any of several chemical elements that. . . ”<br />
08534455 0.001 {status, position} “the relative position of persons in a society”<br />
08525534 0.001 {friendship, friendly, relationship} “the state of being friends”<br />
08781633 0.001 {material, stuff} “the tangible substance that goes into. . . ”<br />
08522741 0.001 {situation, state of affairs} “the general state of things”<br />
Objektuaren HMetan denborazkoak bakarrik harrapatu ditu, bata zuzena<br />
(zerrendatik probabilitate-neurri handiena duena, gainera) eta bestea onargarria<br />
(aurrekoaren hiponimo bat). Eta subjektuaren HMetan ez du bat bera
194 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
ere harrapatu. Berriro ere, aipatu behar dugu, subjektuaren HMetako helium<br />
synseta ingeleseko he izenordainari dagokiola, eta hauxe dela subjektu HMen<br />
artean probabilitate-neurri altuena duena.<br />
Horrela bada, eskuratze-teknika honen emaitzak ez dira batere onak izan.<br />
Corpusarengatik izan daiteke (etiketatua ez egotea, kirol domeinukoa bakarrik<br />
ez izatea...), baina, hala ere, harritzekoa da subjektuetan HM zuzen<br />
bat bera ere ez lortzea, subjektuen HMen eskuratzean aukerak askoz gutxiago<br />
izanik (aditzen objektuak mota askotakoak izan daitezke; aditzen subjektuak,<br />
aldiz, askotan [+pertsona] dira). Objektuekin ere harritzekoa da kirol<br />
domeinuan arruntak diren {contest, competition} edo {sport, athletics}<br />
objektu HMen ordez denborazkoak bakarrik eskuratu izana. Arrazoi posible<br />
bat izan daiteke, kirol-domeinuari buruz aritzean, kirol-ekintzari buruzko<br />
informazioa inplizitua egotea, irakurleak informazio hori ez duelako behar<br />
testua ulertzeko. Hala, nahiz eta testuan bertan ez zehaztu (Liverpool will<br />
play next match on Wednesday), irakurleak badaki “zertan” jokatzen duten<br />
albisteko protagonistek (kasu ho<strong>net</strong>an, irakurleak badaki Liverpool futboltalde<br />
bat dela, eta ondorioz, futbolean jokatuko dutela).<br />
Bestalde, troponimoen eraginak zerikusirik baduela pentsa dezakegu. Baina<br />
SemCor ez bezala, BNC etiketatu gabeko corpusa denez, oso zaila egiten<br />
zaigu hipotesi hori zehatz-mehatz egiaztatzea.<br />
VII.4.2.3 EFEtik eskuratutako HMen azterketa eta ebaluazioa<br />
EFE domeinuka antolatutako corpusa da, eta guk kirol-domeinuari dagokion<br />
atala erabili dugu saiakera ho<strong>net</strong>arako. Corpus ho<strong>net</strong>an w2semf eskuratzeteknika<br />
aplikatu dugu. Aipatu dugun bezala, teknika honek eskuratzen dituen<br />
HMak aditz-forma osoarentzat dira, aditzaren adiera guztientzat, alegia.<br />
Gogoratu probabilitate kopuru altue<strong>net</strong>ik baxuenera ordenaturiko domeinueremu<br />
semantikoen bikoteak direla.<br />
BNCren antzera, corpus hau ez dago semantikoki etiketatuta, eta horrek<br />
HMen jatorria zehaztea zaildu egiten du. Corpus ho<strong>net</strong>arako ere w2w tresnatxoa<br />
sortu da. Honi esker fitxategi batean EFE corpuseko kirol domeinuan<br />
play aditz-formarekin agertu diren hitzen zerrenda dugu, hauen maiztasunaren<br />
arabera ordenaturik 43 .<br />
Hirurehun hitzetik gorako zerrendak dira, eta izugarrizko eskuzko lana<br />
litzateke bakoitzaren testuinguruak aztertu eta kirolaren domeinuari dagoz-<br />
43 Fitxategi honek jasotzen duten informazioa C eranskinean dago.
VII.4 Ingeleseko HMak 195<br />
kionak aukeratzea, gero horren arabera beraien MCRko synset, eremusemantiko<br />
eta domeinu posibleak zehazteko.<br />
Honekin batera, corpus honekin erabili dugun w2semf eskuratze-teknikak<br />
ematen dituen HMek ez dute laguntzen HMen jatorria bilatzen. Izan ere,<br />
ez dira ulerterrazak, hau da, domeinuak eta eremu semantikoen informazioa<br />
synsetena baino orokorragoa da, eta gehie<strong>net</strong>an MCRra jo behar dugu hauen<br />
azpian zer synset jasotzen diren jakiteko. Gainera, hitz berak domeinu eta<br />
eremu semantiko bat baino gehiago har ditzake (VII.3.2.2 atalean ikusi dugun<br />
bezala). Honezaz gain, EFE corpusean erabilitako eskuratze-teknikak aditzforma<br />
osoa hartzen du kontuan.<br />
Arrazoi hauengatik guztiengatik, eta datu enpirikoetan oinarritu gabe,<br />
zuzenean EFE gainean aplikatutako eskuratze-teknika hauen HMak gure<br />
urre-patroiekin erkatu ditugu.<br />
w2semf EFEtik<br />
Eskuratze-teknika honentzat proposatu ditugun urre-patroiak daude (32)n,<br />
eta (33)n play aditzaren w2semf objektu/subjektu HMak ditugu (letra lodiz<br />
gure ustez play 00605818 aditzari dagozkionak):<br />
(32) play Objektuak<br />
w2semf:<br />
sport-event<br />
time period-time<br />
sport-act<br />
play-act<br />
play Subjektuak<br />
w2semf:<br />
person-person<br />
factotum-group<br />
(33) w2semf.play.kirola.obj<br />
obj x 100<br />
obj play-act 50.013 ZUZENA<br />
obj factotum-act 30.390 ONARGARRIA<br />
obj time period-time 29.009 ZUZENA<br />
obj zoology-animal 25.2<br />
obj factotum-artifact 25.026<br />
obj sport-event 23.514 ZUZENA<br />
obj sport-act 23.038 ZUZENA<br />
obj number-quantity 22.957<br />
obj geography-location 16.918
196 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
w2semf.play.kirola.subj<br />
subj x 372 ONARGARRIA<br />
subj administration-group 168.64<br />
subj chemistry-substance 52.66<br />
subj sport-group 44.01 ONARGARRIA<br />
subj zoology-group 40.5<br />
subj linguistics-communication 38.72<br />
subj physics-substance 34.66<br />
subj geography-location 33.35<br />
subj administration-location 32.31<br />
subj number-quantity 26.64<br />
Urre-patroiaren antzekoa (domeinu edo eremu semantiko orokorrago edo<br />
zehatzago bat edo urre-patroi bera duenean, adibidez) denean zuzen edo<br />
onargarri bezala kontsideratu dugu (esaterako, sport-group). HM batzuk zalantzan<br />
jar daitezke. Sport-groupen kasuan ez dago dudarik kirol-adierarekin<br />
zerikusia duela; administration-groupen kasuan, nahiz eta lehenengo begiratuan<br />
okerra zela iruditu, w2w zerrendak eta corpusak aztertuz, konturatu<br />
ginen Colombians, Brazilians eta abar bezalako agerpe<strong>net</strong>atik zetorrela. Izen<br />
hauen domeinua MCRn administration da. Horregatik dugu administrationgroup<br />
bezalako HM bat. Hala ere, okertzat jo dugu, VII.4.1 atalean finkatutako<br />
irizpidearengatik: domeinu-eremu semantiko bikote bat onargarritzat<br />
hartuko dugu, urre-patroia baino orokorrago edota zehatzago bada, eta<br />
domeinuko beste izen gehienak aditz horren argumentu izan badaitezke.<br />
Argi dago administration-group HMak ez duela azken baldintza hau<br />
betetzen. Administration-group HMa onargarritzat joz gero administration<br />
domeinuaren azpian dauden beste hitz guztiak ere (chairman, chancellor. . . )<br />
jokatu aditzaren (kirol-adieraren) subjektu/objektu prototipiko gisa ager daitezkeela<br />
baieztatzen ariko ginateke. Hori, bistan da, ez litzateke oso egokia.<br />
Bestalde, gogorazi beharra dago eskuratze-teknika honek izen bereziak x<br />
batez adierazten dituela.<br />
Aditzaren adiera guztiak kontuan hartzen dituen eskuratze-teknika izateko,<br />
kirolari dagozkion HM ugari daude. Urre-patroiko objektu HM guztiak<br />
daude eta oso probabilitate-neurri altuekin, gainera. Dirudienez, eta aditzforman<br />
oinarritutako beste eskuratze-tekniken emaitzekin erkatuz gero, kirol<br />
domeinuan oinarritutako corpus baten gainean aritzeak badu eraginik. Izan<br />
ere, neurri txikiagoan agertuko dira kirol-domeinukoak ez diren adierak.<br />
Orain arteko eskuratze-teknikekin aipatu ditugun erroreak ikus daitezke<br />
w2semf ho<strong>net</strong>an ere (gero VII.4.3 atalean azalduko ditugunak). Esate<br />
baterako, ingeleseko he eta heliumen arteko nahasketa. Subjektu HMetan
VII.4 Ingeleseko HMak 197<br />
chemistry-substance eta physics-substance bezala ageri da. Beste adibide bat,<br />
leku-izen bereziak (Argentina, Madril. . . ) –geography-location bezala eskuratzen<br />
direnak– eta kirol taldeen izen berezien arteko nahasketa da (Argentina<br />
played well).<br />
Hala eta guztiz ere, eskuratze-teknika honekin aurrekoekin detektatu ez<br />
dugun errore mota bat aurkitu dugu (anbiguotasuna), hurrengo atalean azalduko<br />
duguna.<br />
VII.4.3 Erroreen azterketa<br />
Eskuratzean erroreak badaudela ikusi dugu, eta hauek, batez ere, etiketatu<br />
gabe dauden corpusetatik datoz. Errore hauek kontuan izan beharrekoak<br />
dira eskuratze-teknikak findu ahal izateko. Horregatik, horien guztien berri<br />
emango dugu atal ho<strong>net</strong>an.<br />
Atal ho<strong>net</strong>an ez gara troponimiaz eta aditzaren adiera guztietan oinarritzen<br />
diren eskuratze-teknikez (c2c, w2c eta w2semf) jardungo, azterketan<br />
zehar hauek sortzen dituzten arazoak aipatu ditugulako.<br />
VII.4.3.1 Etiketatze-erroreak<br />
Errore mota hau SemCor corpusean bakarrik gertatu da, hau baita erabili<br />
dugun corpus etiketatu bakarra. Eskuz etiketatutako corpusa izan arren,<br />
etiketatze-erroreak gertatzen direla nabarmendu beharra dago. Esate baterako,<br />
arraroa badirudi ere, SemCorren play 00605818 eta play 00610422 (ikus<br />
VII.2 irudiko glosak) ez dituzte bereizi, hau da, play aditzaren agerpen guztiak<br />
play 00605818 synsetarekin etiketatuak daude. Hortaz, (34) bezalako<br />
esaldiak, nahiz eta berez play 00610422ren adibide bat izan, play 00605818<br />
gisa hartzen dira.<br />
(34) SMU will play the Owls at Rice Stadium in Houston.<br />
Nahasketa horrek objektuaren HMetan ondorioak izan ditu. Hala nola,<br />
play 00605818ren objektuen arten person eta group ageri zaizkigu, [+gizaki]<br />
tasuna daramatenak, hain zuzen ere. Objektu mota hauek play 00610422ren<br />
HMak izan beharko lukete.<br />
Etiketatze-erroreak ez dira aditzekin bakarrik gertatzen, izenenekin ere<br />
gertatzen dira.<br />
(35) Our interior line and out linebackers played exceptionally well.
198 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
VII.2 Irudia: jokatu aditzaren bi kirol synsetak.<br />
(36) For a serious young man who plays golf with a serious intensity.<br />
(35)en kasuan line linebacker izenaren (futbol jokalaria) laburdura bat da,<br />
eta a formation of people (pertsonen errenkada, multzoa) adierarekin etiketatua<br />
dago.<br />
(36)ko young man “a man who is the lover of a girl or young woman” bezala<br />
etiketatu dute, hots, euskarako ‘mutil-lagun’ adierarekin, “an adolescent<br />
male” adierarekin etiketatu ordez.<br />
Hala ere, bi adibide hauek, subjektuaren HMetan ez dute eragin handirik<br />
izan. Beraien hiperonimoak group eta person direnez, makinak HM horietan<br />
bilakatu ditu; urre-patroian zuzentzat definitu ditugunak.<br />
VII.4.3.2 Falta diren adierak<br />
HMak MCRn oinarrituta adierazi ditugu (corpuseko izenen synseten hiperonimoak<br />
edota domeinu eta eremu semantikoak erabilita). Gerta liteke MCRn<br />
adiera-inbentarioan baten bat ez egotea. Esate baterako, football, basketball...<br />
bezala uler daiteke ball ingelesez, ekintza bat bezala, alegia:<br />
(37) I play football/basketball/ball. . .<br />
MCRn kontsultatuz gero, synset ugaritan dago ball, baina horietako batek<br />
ere ez du ekintza-adiera hori. SemCor etiketatzerakoan, antzekoena izan<br />
zitekeen beste synset batekin etiketatu behar izan zuten.<br />
(38) 02103632 ball “round object that is hit or thrown or kicked in games”
VII.4 Ingeleseko HMak 199<br />
Makinak corpusean ball izena 02103632 bezala (ikus (38) adibidea) topatzen<br />
badu play 00605818 horren objektu gisa, honen HMa eskuratzeko zuzenean<br />
hiperonimora joko du, eta {sport, recreation}en (edo sport-act domeinu-eremu<br />
semantikoaren) ordez, object synseta (play-artifact domeinu-eremu<br />
semantikoa) lortzen du objektu HM gisa.<br />
EFE eta BNCn, semantikoki etiketaturik ez dauden corpusetan, antzeko<br />
prozesua gertatzen da. Makinak corpusean ball izena topatzen duenean play<br />
00605818ren objektu gisa, eta honen HMa eskuratu behar duenean, MCRtik<br />
ball ‘ekintza’ adierazten duen horren ordezko bat hartzen du, ‘objektu’ adiera<br />
duena hain zuzen ere. Hala, honen hiperonimotik abiatuta object synseta<br />
(edo artifact eremu semantikoa) lortzen du objektu HM gisa, berez dagokion<br />
{sport, recreation} synsetaren (edo sport-act domeinu-eremu semantikoaren)<br />
ordez.<br />
Antzeko beste adibide bat, leku-izen bereziak dira (Argentina, Madril<br />
eta abar). MCRn leku-izen berezi bezala bakarrik daude, baina corpusean<br />
hauekin kirol-taldeak adierazi nahi dira. Hori dela eta, location edo geographylocation<br />
bezalako HM okerrak ditugu play 00605818 aditzarekin.<br />
VII.4.3.3 Anbiguotasuna<br />
Gure ustez, hau izan daiteke HMen eskuratzean gehie<strong>net</strong>an gerta daitekeen<br />
fenomenoa; semantikoki etiketatu gabeko corpusen gainean aritzean, noski.<br />
Baina, errore hau antzematen zaile<strong>net</strong>akoa da.<br />
Corpuseko izenek adiera bat baino gehiago izan dezakete, eta semantikoki<br />
etiketatu gabe daudenean, eskuratze-teknikak adiera horietako bat aukeratu<br />
behar du MCRtik. Gerta daiteke ez dagokion adiera aukeratzea, eta, ondorioz,<br />
zuzena ez den HMa sortzea. Esate baterako, ingeleseko game izenak<br />
bost adiera ditu MCRn:<br />
a. 00254052 {game 1} “a contest with rules to determine a winner”<br />
b. 00254326 {game 2} “a single play of a game; the game lasted 2 hours”<br />
c. 00256308 {game 3} “an amusement or pastime”<br />
d. 01485683 {game 4} “animal hunted for food or sport”<br />
e. 00341531 {game 5} “informal terms for your occupation”
200 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Kirol-adierak lehenengo biak izan daitezke (a eta b). VII.4.2.3 atalean<br />
aztertutako HMen artean zoology-group eta zoology-animal bezalakoak genituen,<br />
eta okerrak bezala ebaluatu ditugu. Horien atzean anbiguotasunaren<br />
arazoa dago, makinak game izena game 4 bezala etiketatu du (‘animalia’ bezala,<br />
alegia), eta ondorioz, synset horren HM gisa lortu dira HM okerrak<br />
(ikus 21. eta 26. adibideak).<br />
VII.4.3.4 Analizatzaile sintaktikoak eragindako erroreak<br />
VII.3.2.1. atalean ikusi dugun bezala, aditz baten HMak eskuratzeko, lehenengo<br />
corpusaren gainean Minipar analizatzailea edo analizatzaile sintaktikoa<br />
(Lin, 1993) erabili dugu. Analizatzaile sintaktikoak errore batzuk izan<br />
ditzake, eta ondorioz, honek HMetan eragina izan du. Honen adibide argi<br />
bat da play 00605818ren (39)ko subjektuaren HMa; (40) adibidean honi<br />
dagokion SemCorreko jatorria dugu:<br />
(39) 08413915 0.032 {digit} “one of the elements that collectively forms. . . ”<br />
(40) Nine of the league’s teams play in baseball parks and therefore. . .<br />
Subjektuaren burua ez da nine, baiziketateams, baina analizatzaile sintaktikoak<br />
nine zenbakia hartu du burutzat, eta horregatik dugu honen hiperonimoa<br />
subjektuaren HM gisa.<br />
VII.4.3.5 Izen berezien ezagutza eta anaforaren ebazpena<br />
Bi errore hauek eragotziko lirateke hauen ezagutzarako prozesu informatikoren<br />
bat erabili izanez gero. Esate baterako, entitateen ebazpenarekin corpuseko<br />
izen bereziak pertsona-izen, erakunde-izen edo talde-izen bezala sailkatuko<br />
lirateke, hauetatik MCRko lotura egin daitekeelarik.<br />
Anaforak berarekin informazio linguistiko asko darama, baina hau ezin da<br />
eskuratu baldin eta corpus batean semantikoki etiketaturik ez dagoen. Aipatu<br />
dugu subjektuaren HM batzuetan agertutako helium (‘elementu kimikoa’)<br />
eta he (‘hebrear alfabetoaren bosgarren letra’), ingeleseko he izenordainarekin<br />
nahasten direla. MCRn ez daudenez izenordainak, makinak izenordain horren<br />
antzekoak diren beste bi synsetak aukeratzen ditu. Hortik, HM okerrak<br />
izatea. Anafora automatikoki landu izanez gero, anaforaren aurrekariaren<br />
informazioa jaso ahal izango genuke, eta honela, horrelako erroreak desagertuko<br />
lirateke.
VII.4 Ingeleseko HMak 201<br />
VII.4.4 Ebaluazioaren azterketa<br />
Play 00605818n oinarrituta, pausoz pausoz azaldu dugu ingeleseko aditzekin<br />
egindako ikerlana. Hainbat eskuratze-teknika aipatu ditugu, eta hauetako askok<br />
corpus ezberdi<strong>net</strong>an (SemCor, BNC eta EFE) objektu eta subjektuentzat<br />
zer nolako HMak eman dituzten ere aztertu dugu. Ebaluazio honen laburpenaren<br />
berri VII.5 taulan ematen dugu, hau da, corpus bakoitzean erabili den<br />
eskuratze-teknika bakoitzetik play 00605818ren zenbat objektu/subjektuen<br />
HM diren zuzenak (urre-patroiarekin bat datozenak), zenbat diren onargarriak<br />
(urre-patroiaren hiperonimo edo hiponimoak direnak) eta urre-patroietatik<br />
zenbat ez diren eskuratu (eskuratu gabe bezala izendatu ditugunak) 44 .<br />
Datu hauek kopuru zehatzak erabiliz adierazi ditugu; esaterako, eskuratzeteknika<br />
bakoitzaren objektu/subjektuen HMetatik (gehienez hamar) zenbat<br />
diren zuzenak edo onargarriak zenbakitu ditugu; eta baita eskuratzeteknika<br />
bakoitzarentzat proposatutako urre-patroietatik zenbat geratu diren<br />
eskuratu gabe ere. Taula bat egin dugu saiakera ho<strong>net</strong>an erabilitako<br />
kirol-aditz bakoitzarentzat, hots, MCRtik aukeratutako zortzi synsetentzat<br />
(00605818 {play 1/jokatu 2}; 00610422 {encounter5, meet10, play24,take on5/<br />
jokatu3}; 00468052 {coach 2, train 7/entrenatu 1}; 00059698 {train 8/entrenatu<br />
3}; 00630097 {equalize 1, get even 1/berdindu 16}; 00630097 {draw 25,<br />
tie 2/berdindu 15}; 00620486 {win 1/irabazi 3}; 00620218 {lose 2/galdu 9}) 45 .<br />
VII.5 taularen antzeko eredua jarraituta, ingeleseko aditz guztiak kontuan<br />
hartuta lortu diren emaitzak ditugu VII.6 taulan, oraingoan ehunekotan adierazita.<br />
VII.6 taulan eskuratu gabeen zerrendan datu azpimarragarriena % 0 zenbakira<br />
hurbiltzen dena da, honek eskuratze-teknikak urre-patroiko HM guztiak<br />
lortu dituela esan nahi duelako. Emaitzek adierazten dutena ulerterra-<br />
44 Domeinu-eremu semantiko bikoteen ebaluazioan erabilitako irizpide nagusia VII.4.1<br />
atalean aipatu dugu. Honekin batera, eskuratu gabeak diren ala ez neurtzeko, beste irizpide<br />
batzuk finkatu ditugu: batetik, zuzen/onargarri bezala ebaluatutako HM batekin, bi<br />
urre-patroi eskuratu daitezke. Adibidez, play 00605818ren objektuen urre-patroiak (domeinu-eremu<br />
semantiko bikoteentzako) play-act, sport-act, sport-event eta time period-time<br />
badira, eta eskuratze-teknikaren emaitza sport-act bada, aurreko lau urre-patroietatik bi<br />
(sport-act eta play-act) eskuratu direla esaten dugu, act eremu semantikoa daramaten biak,<br />
hain zuzen ere. Gauza bera, factotum-act HMarekin. Eta bestetik, alderantziz ere gerta<br />
daiteke, onargarritzat jo dugun HMa eskuratu gabea bezala ebaluatzea; esate baterako,<br />
izen bereziak (x baten bidez adieraziak datozenak), pronominalak (pro baten bidez adieraziak<br />
datozenak), eta factotum-Tops bikotea.<br />
45 Taula hauek guztiak C eranskinean daude ikusgarri.
202 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
zagoa egitearren, zuzenak/onargarriak kopuruen batura ere adierazi dugu eta<br />
taulan Batura z/o bezala izendatu dugu. Zuzen eta onargarrien zerrendan,<br />
aldiz, datu nabarmenenak % 100era gerturatzen direnak dira, eskuratzeteknikak<br />
eskuratutako HM guztiak zuzenak/onargarriak direla adierazten<br />
duelako. Taula hauek aurrean izanda, hurrengo atalean, hauetatik ondoriozta<br />
ditzakegun emaitzak komentatuko ditugu.<br />
Objektua Subjektua<br />
Jatorria Teknika Zuzena Onargarria Eskuratu<br />
gabe<br />
Zuzena Onargarria Eskuratu<br />
gabe<br />
SemCor w2c 10etik 1 10etik 1 4tik 1 5etik 2 0 0<br />
SemCor c2c 8tik 1 8tik 1 4tik 1 5etik 2 0 0<br />
SemCor s2semf 10etik 2 10etik 3 4tik 2 7tik 2 7tik 2 0<br />
BNC w2c 10etik 1 10etik 1 4tik 1 10etik 1 10etik 1 0<br />
BNC c2c 10etik 1 10etik 1 4tik 3 0 0 2tik 2<br />
EFE<br />
(kirola)<br />
w2semf 10etik 4 10etik 1 0 0 10etik 1 2tik 1<br />
VII.5 Taula: Corpus ezberdi<strong>net</strong>atik play 00605818rentzat eskuratutako HMen<br />
emaitzak.<br />
Objektuak Subjektuak<br />
Jatorria Tek. Zuz. Onarga. Batura<br />
z/o<br />
Eskuratu<br />
gabe<br />
Zuz. Onarga. Batura<br />
z/o<br />
Eskuratu<br />
gabe<br />
SemCor w2c % 16,3 % 18,5 % 34,8 % 29,5 % 26,6 %9 % 35,6 % 18,1<br />
SemCor c2c %6,9 % 26,4 % 33,3 %44 %38 %7,1 % 45,1 %3,5<br />
SemCor s2semf % 14,2 % 42,8 %57 % 64,2 %7 % 37,6 % 44,6 %60<br />
BNC w2c %9 % 13,6 % 22,6 % 15,9 % 11,1 %6,3 % 17,4 % 13,6<br />
BNC c2c %1,4 %0 %1,4 % 96,4 %0 %0 %0 % 100<br />
EFE<br />
(kir.)<br />
w2semf % 14,1 %10 % 24,1 % 45,4 %2,7 % 21,8 % 24,5 %41<br />
VII.6 Taula: Kirol-aditz guztientzat, corpus eta eskuratze-teknika ezberdinak<br />
erabiliz, lortutako emaitzak.
VII.4 Ingeleseko HMak 203<br />
VII.4.4.1 SemCorretik eskuratutako HMak<br />
Corpus ho<strong>net</strong>atik hiru HM mota jaso ditugu:<br />
• w2c: Eskuratze-teknika honek aditz-forma osoa kontuan hartzen duenez,<br />
zehazten zaila da zein HM diren kirolaren domeinuari dagozkionak.<br />
Urre-patroiarekin bat etorri direnak kontsideratu ditugu domeinu horretakoak.<br />
Horregatik, urre-patroietatik gutxi geratzen dira eskuratu<br />
gabe, baina zuzen eta onargarrien kopurua ez da oso handia.<br />
• c2c: Teknika honen emaitzak w2c-en antzekoak badira ere (esate baterako,<br />
c2c-en Batura z/o objektuen kasuan,% 33,3a da eta w2c-en<br />
% 34,8a), eta kontuan izanda eskuz etiketatutako (desanbiguatutako)<br />
corpusa dela, ez dira espero bezain emaitza onak, lortutako HM gehienak<br />
okerrak baitira. Dena den, w2c-ek baino zuzen eta onargarri gehiago<br />
lortzen ditu eta eskuratu gabeen kopurua antzekoa da, objektuen<br />
eta subjektuen kopuruen batura kontuan hartzen badugu. HM okerrak<br />
lortzearen arrazoia corpuseko etiketatze-erroreetan, analizatzaile sintaktikoaren<br />
analisi okerrean, eta corpusean agertu diren baina MCRn<br />
ez dauden adieretan egon daiteke.<br />
Bestalde, errore asko troponimoetatik datoz. Zuzentzat jo ditugunak<br />
troponimoak kontuan izan gabe lortu dira. Troponimia kontuan<br />
hartuta domeinu eta ezaugarri desberdinak hartzen dituzten aditzak<br />
nahasten direla ikusi dugu. Esate baterako, aztergai izan dugun play<br />
00605818ren kasuan, honek bet on, parlay eta stake bezalako troponimoak<br />
ditu, hots, apustua domeinuarekin zerikusia dutenak. Hauen<br />
HMak play 00605818-rekin zeharo ezberdinak dira. Esate baterako,<br />
aditz hauen objektu arrunte<strong>net</strong>ako bat ‘dirua’ izango da (cost HMetan).<br />
Beraz, ez dirudi aditz batek eta bere troponimoek HM berdinak<br />
dituztenik (behintzat, MCR hierarkian oinarritzen bagara).<br />
Bestalde, aipagarria da eskuratze-teknika honek subjektuekin eman dituen<br />
emaitza onak, eskuratu gabe % 3,5a bakarrik utzi baitu. Honen<br />
arrazoia corpus etiketatua izatea da. Hau da, entitateak landuta eta<br />
semantikoki etiketatuta daude, eta eskuratze-teknikak ez ditu desanbiguatu<br />
behar.<br />
Objektuetan ez dira emaitza hain onak lortzen eskuratu gabeei dagokienez,<br />
objektu HMen kopurua subjektuen HMena baino handiagoa<br />
delako. Honen erakusle garbia da bakoitzaren urre-patroien kopurua
204 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
(playren kasuan, subjektuek, oro har, bi HM dituzte, eta objektuek,<br />
aldiz, lau).<br />
• s2semf: HM hauek domeinu-eremu semantiko bikoteekin definitua datozenez,<br />
eta hitzak domeinu edo eremu semantiko bat baino gehiago<br />
izan ditzakeenez, batzuetan zaila da zehazten corpuseko zein agerpe<strong>net</strong>an<br />
dagoen HM hauen jatorria, eta, ondorioz, ezinezkoa zaigu zuzenak<br />
diren ala ez jakitea. Hori dela eta, eskuratze-teknika honen ebaluazio<br />
subjektiboago bat egin dugu. VII.5 taulako emaitzei erreparatuz,<br />
aurreko biak baino HM hobexeak lortzen dituela esan genezake. VII.6<br />
taulan, aditz guztiak kontuan hartuta, ezberdintasuna ez da horrenbestekoa:<br />
zuzen eta onargarrien batura altua (% 57 eta % 44,6) da, baina<br />
baita eskuratu gabeena ere (% 64,2 eta % 60).<br />
VII.4.4.2 BNCtik eskuratutako HMak<br />
Semantikoki etiketatu gabeko corpus honen gainean w2c eta c2c eskuratzeteknikak<br />
erabili ditugu.<br />
• w2c: Teknika honen HMak, aditzaren adiera guztietan oinarritzen<br />
direnez, zein adierari dagozkion asmatzen oso zaila da, baita hauen jatorria<br />
aurkitzea ere. Honenbestez, BNCren gainean aplikatuta HM batzuk<br />
lortu ditu (objektuen Batura z/o % 22,6a eta subjektuena<br />
% 17,4a), baina hauek SemCorren gainean lortutakoak baino kalitate<br />
baxuagoa dutela nabarmendu behar da. Izan ere, aipatu dugunez, w2c<br />
teknikek adiera guztiak hartzen dituzte kontuan. Bestalde, eskuratu<br />
gabeen kopuru txikiena honek du.<br />
• c2c: Teknika honek espero baino emaitza okerragoak eman ditu, play<br />
00605818ren HM bakarra asmatu baitu, eta beste aditz guztiekin ere<br />
hala-moduzko emaitzak izan ditu (ikus VII.6 taula). Corpusaren osaerak<br />
izan dezake eraginik ho<strong>net</strong>an. Izan ere, gogora dezagun corpus hau<br />
ez dagoela etiketatua eta kirol domeinuarena bakarrik ez dela, besteak<br />
beste. Bestalde, troponimoen eraginak zerikusirik duela pentsa dezakegu,<br />
baina SemCor ez bezala, BNC etiketatu gabeko corpusa denez,<br />
oso zaila egiten zaigu hipotesi hori zehatz-mehatz egiaztatzea. Teknika<br />
hau, berez, corpus ez-etiketatuekin edo domeinu batera mugatua ez<br />
dauden corpusekin ez dela oso erabilgarria esan daiteke.
VII.4 Ingeleseko HMak 205<br />
VII.4.4.3 EFEtik eskuratutako HMak<br />
Kirol-domeinuko eta semantikoki etiketatu gabeko corpus ho<strong>net</strong>an w2semf<br />
eskuratze-teknika erabili da.<br />
• w2semf: Nahiz eta HM hauek aditzaren adiera guztientzat izan, teknika<br />
honekin emaitza onak lortu dira. SemCorreko w2c eta c2c-ekin<br />
alderatuz, corpus ho<strong>net</strong>an w2semf-en zuzen/onargarrien batura txikiagoa<br />
bada ere (% 24,1 eta % 24,5, objektu eta subjektuei dagozkienak,<br />
hurrenez hurren), kontuan izanda eskuz etiketatu gabeko corpusa dela,<br />
azpimarratu beharreko emaitzak dira. Corpusaren domeinuak (kirola)<br />
beste adierak baztertzen lagundu duela dirudi. Dena dela, esan beharra<br />
dago, eskuratu gabeen kopurua ere handi xamarra dela.<br />
VII.4.5 HMen erkaketa<br />
VII.5 eta VII.6 tauletatik abiatuta, batetik eskuratze-teknikak erkatuko ditugu,<br />
eta bestetik corpusak.<br />
VII.4.5.1 Eskuratze-teknikaren arabera<br />
• w2c eta c2c: Emaitzei erreparatuz, c2c-ek HM zuzen/onargarri gehiago<br />
eskuratu ditu SemCorren (objektuen Batura z/o % 33,3a da, eta<br />
subjektuena % 45,1a); BNCn, aldiz, w2c-ek gehiago lortu ditu (objektuen<br />
Batura z/o % 22,6a da, eta subjektuena % 17,4a), c2c-ek baino<br />
(SemCorren objektuen Batura z/o % 33,3a da eta subjektuena % 45,1;<br />
BNCn objektuen Batura z/o % 1,4a eta subjektuena % 0 da). Hala<br />
ere, w2c teknikak ez du informazio gehiegirik ematen, HM hauek aditzformarentzat<br />
baitira, eta erabilera konputazionalerako (hala nola, adieren<br />
desanbiguaziorako edota itzulpen automatikorako) aditz-adierari<br />
buruzko informazioa lagungarria baitzaigu.<br />
c2c-ek, ordea, w2c-ek baino emaitza hobeak eman ditu SemCorreko<br />
subjektuen eskuratzean, eskuratu gabe % 3,5a bakarrik utzi baitu.<br />
Honen arrazoia corpus etiketatua izatea da. Hau da, entitateak landuta<br />
eta etiketatuta daude, eta eskuratze-teknikak ez ditu desanbiguatu<br />
behar. w2c teknikak ez du abantaila hau guztia aprobetxatzen. Izan<br />
ere, hitzaren adiera guztiak hartzen ditu kontuan.
206 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Ondorioz, esan daiteke, c2c dela teknikarik egokiena corpus etiketatua<br />
erabiltzen den kasuetan. Dena dela, gerta daiteke desanbiguaturiko<br />
corpusik ez izatea. Kasu horretarako, egokiago da w2c teknika.<br />
• w2semf/s2semf eta c2c/w2c: s2semf eta w2semf-en HMak zailak<br />
dira beste biekin erkatzeko, batean klasean eta bestean domeinueremu<br />
semantikoak erabiltzen direlako. SemCorreko corpusean s2semfek<br />
beste bi eskuratze-tekniken emaitzak baino hobeak eskaintzen dizkigu<br />
(objektuen Batura z/o % 57a da, eta subjektuena % 44,6a).<br />
Baina, esan dugun bezala, eskuratu gabekoen ehunekoa oso altua da<br />
(% 64,2 eta % 60) eta beste eskuratze-teknikena baino okerragoa. Bestalde,<br />
EFEko corpusaren gainean, kontuan izanda etiketatu gabeko corpusa<br />
dela, w2semf HMak nahiko onak dira. Baliteke, corpusari esker<br />
izatea, EFE corpusa kirol-domeinuari baitagokio. Hala ere, w2c-ekin<br />
gertatzen den antzera, HM hauek ez dute informazio gehiegirik eskaintzen,<br />
aditz-formarentzat baitira.<br />
VII.4.5.2 Corpusaren arabera<br />
• BNC eta SemCor corpusen erkaketa: SemCorren gainean erabilitako<br />
w2c eta c2c eskuratze-teknikek, BNCn baino emaitza hobeak<br />
lortu dituzte. Hala ere, desberdintasun handiagoa espero genuen, Sem-<br />
Cor semantikoki etiketatutako corpusa dela kontuan hartuz. Honen<br />
arrazoia corpusen tamaina izan daiteke; hau da, SemCor corpus txikia<br />
da BNCkin parekatuta, eta hori dela eta:<br />
(a) SemCorren aditz bakoitzeko agerpen gutxiago daude, eta ondorioz,<br />
eskuratze-teknikek ezin dituzte HM batzuk eskuratu; hau<br />
da, urre-patroi batzuk eskuratu gabe geratzen dira.<br />
(b) BNCn eskuratze-teknikak agerpen gehiagotan oinarritu daitezke.<br />
Horrela, urre-patroi gehiago eskuratzen dira. Dena den, BNC<br />
etiketatu gabeko corpusa izaki, HM hauen kalitatea ez da Sem-<br />
Correkoa bezain ona.<br />
Ondorioz, desanbiguatutako corpus handiagoa beharko litzatekeela esan<br />
dezakegu, emaitza hobeak lortu ahal izateko.
VII.4 Ingeleseko HMak 207<br />
• EFE: Corpus ho<strong>net</strong>atik emaitza onak lortu dira. Baliteke, corpusari<br />
esker izatea, EFE corpuseko kirol-domeinuari bakarrik baitagokio.<br />
Domeinu jakin batekin lan eginda, aditzaren adiera eta bere HMena<br />
corpusaren domeinutik lortu daitekeela deritzogu. Dena den, hau<br />
gehiago aztertu beharrekoa litzateke, kasuistika handia baitago. Aditz<br />
batzuek domeinu batekiko harreman gehiago dute beste batzuek baino.<br />
Horren adierazgarri, saiakera ho<strong>net</strong>ako ingeleseko meet eta equalize<br />
aditzekin lortutako emaitzak dira 46 . Nahiz eta EFEko kirol corpusera<br />
mugatu, badirudi aditz hauen beste adierek —kirol-arlokoak ez<br />
direnak— indar edo erabilera handiagoa dutela. Beraz, ikusteko dago<br />
domeinua aditz jakin batzuekin bakarrik den baliagarria ala aditz<br />
guztietara orokortu daitekeen.<br />
VII.4.5.3 Ingeleseko HMen emaitzen laburpen orokorra<br />
SemCor eta BNCren gainean erabilitako teknikak (c2c eta w2c, hurrenez<br />
hurren) dira HM gutxien eskuratu gabe utzi dituztenak: objektuen HMetan<br />
BNCko w2c (% 15,9) eta SemCorreko w2c (% 29,5) teknikek lortutakoak<br />
dira emaitzarik onenak, eta subjektuen HMetan SemCorreko c2c (% 3,5)<br />
eta BNCko w2c (% 13,6) teknikenak. Datu hauek hasierako susmoekin bat<br />
egiten dute:<br />
• SemCor corpus desanbiguatua izanda, besteak baino emaitza hobeak<br />
izan behar zituela (hala ere, espero baino emaitza kaxkarragoak lortu<br />
dira).<br />
• BNC corpus handiena izaki, eskuratu gabe oso HM gutxi geratu behar<br />
zirela.<br />
Corpus desberdinen erabilerari dagokionez, argi geratu da, beraz, geroz<br />
eta corpus etiketatu handiagoa izan, orduan eta emaitza hobeak lortuko direla.<br />
Esan beharra dago, domeinu-eremu semantiko bikoteekin adierazitako<br />
HMen emaitzak oso aldakorrak direla ebaluatzeko irizpideen arabera. Hauetatik<br />
jasotako emaitzak kuantitatiboki nahiko onak izan arren, neurketa<br />
hauek modu objektibo batean egiteko erraztasun falta, eta synsetekin parekatzeko<br />
duten zailtasuna kontuan izanda, saiakera ho<strong>net</strong>atik abiatuta au-<br />
46 C eranskinean aditz guztien emaitzak daude.
208 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
rrerantzean egingo diren beste la<strong>net</strong>an, domeinu-eremu semantiko bikoteekin<br />
adierazitako HMak alde batera utziko direla erabaki dugu.<br />
VII.5 <strong>Euskara</strong>ko HMak<br />
Ingelesekoez gain, euskarako HMak eskuratzeko saiakera bat ere egin dugu.<br />
Bi bide erabili ditugu ho<strong>net</strong>arako:<br />
Batetik, ingeleseko zortzi synset horientzat eskuratutako HMak synset<br />
horietako euskarako ordainentzat berrerabiliko ditugu, euskararentzat erabilgarriak<br />
diren ala ez ikusteko. Berrerabilpenerako ez dira eskuratze-teknika<br />
guztietako HMak hartu. Azterketa hau hastapenekoa izaki, honen emaitzak<br />
ikusteko lagin bat erabiltzearekin nahikoa dela iruditu zaigu. Ingelesetik<br />
euskarara zuzenean itzuli behar genituen HMak aukeratzerakoan bi irizpide<br />
hauetan oinarritu gara:<br />
• SemCorretik eskuratutako HMak izatea, eta, gainera, aditzadiera<br />
bakarrari egokitzea. Horrela, MCR baliatuta, zuzenean itzul<br />
ditzakegu euskarara bai ingeleseko corpuseko hitzak (synsetekin etiketatutakoak),<br />
eta bai HMak (synsetekin adieraziak). Izan ere, MCRko<br />
synseta abiapuntu izanda, zuzenean beraien euskarako ordainera pasa<br />
gaitezke eta horrek itzulpen lana errazten. SemCor da erabili dugun<br />
corpus etiketatu bakarra, eta honen gainean aditza-adiera hautapenak<br />
eskuratzeko, c2c eta s2semf eskuratze-teknikak aplikatu dira.<br />
• Domeinu konkretu bateko corpus bateko HMak erabiltzea (gure<br />
kasuan, EFE). Ho<strong>net</strong>atik lortutako HMak beste corpus orekatuetakoekin<br />
parekatzea interesgarria iruditzen zaigulako. EFE gainean<br />
w2semf eskuratze-teknika erabili dugu.<br />
Hala, guztira, ingeleseko c2c, s2semf eta w2semf HMak berrerabili ditugu<br />
euskararako.<br />
Bestetik, w2semf eskuratze-teknika euskarako corpus batean erabili dugu.<br />
Eskuratze-teknika hau aukeratu dugu, inplementatzeko sinpleena zelako.<br />
Horrela, teknika honen ingeleseko eta euskarako emaitzak baliatuz, euskarari<br />
zein bide (ingelesetik itzultzea ala euskarako corpusetan oinarritzea) egokitzen<br />
zaion hobeto ondoriozta dezakegu.<br />
Erabili dugun corpusa <strong>Euskal</strong>dunon Egunkaria da. Domeinuka antolatutako<br />
corpusa denez (kirolak, ekonomia, kultura, eta abar), kirol-domeinutik
VII.5 <strong>Euskara</strong>ko HMak 209<br />
eskuratzeko aukera ematen digu. Hortaz, euskarako HMak kirol-domeinuan<br />
oinarritutako corpusetik lortu ditugu. Hala ere, kirol domeinuarekin erabilitako<br />
eskuratze-teknika bera erabili dugu corpus osoaren gainean, hau da,<br />
domeinurik zehaztu gabe. Emaitzek domeinuaren eragina zenbaterainokoa<br />
izan daitekeen aztertzea ahalbidetuko digute.<br />
<strong>Euskara</strong>ko HM hauen guztien azalpenerako, ingelesekoekin bezala,<br />
00605818 play1/jokatu2; “play games, play sports” synseteko euskarako ordainean<br />
(jokatu 00605818n) oinarrituko gara.<br />
VII.5.1 <strong>Euskara</strong>ko HMetarako irizpideak<br />
Ingeleseko urre-patroiak (VII.4.3 atala) sortzeko metodologia bera jarraitu<br />
dugu:<br />
• Kirol-aditz bakoitzeko urre-patroi batzuk zehaztu dira, kasu ho<strong>net</strong>an jokatu<br />
00605818rentzat. Bestalde, urre-patroiak eskuratze-teknika bakoitzaren<br />
ereduan sortuko dira. Hala, euskarako azterketan, alde batetik,<br />
HMak adierazteko synsetean oinarritzen den teknika dugu (c2c), eta<br />
bestetik, domeinu-eremu semantikoetan oinarritzen direnak (w2semf<br />
eta s2semf).<br />
• Urre-patroiak proposatu ahal izateko corpusetan oinarritu gara, aditzadiera<br />
bakoitzaren jokaera linguistikoa orokortzeko. Corpuseko izen<br />
bat HM batean orokortzeko, gehie<strong>net</strong>an izen horrek MCRn duen hiperonimoetara<br />
jo dugu, eta, hala, HMak MCRko synset eta domeinueremu<br />
semantiko batzuen bidez adierazi ditugu.<br />
Corpusean ikusitakoaren arabera, jokatu 00605818 aditzak lehiaketa, txapelketa<br />
eta abar bezalako objektuak hartzen ditu, orain arte HMetan {contest,<br />
competition} bezala agertutakoak 47 :<br />
(41) Objektua:<br />
Sidneyko Joko Olinpikoak jokatuko baitira irailaren.<br />
Aste Santuan jokatuko da <strong>Euskal</strong> Herriko txapelketa.<br />
Klub Arteko Munduko Txapelketa jokatuko da Brasilen.<br />
<strong>Euskadi</strong>ko Kopako finalerdia jokatuko du Zarautzen.<br />
47 04771851 synsetean {contest, competition} izenak daude, eta synset bereko euskarako<br />
ordainak {lehiaketa, txapelketa} dira. Orain arte HMak ingelesez eman ditugu, eskuratzetekniken<br />
emaitzak hizkuntza horretan ematen direlako. <strong>Euskara</strong>z ere, eskuratze-tekniken<br />
emaitzak ingelesez daudenez, bere horretan mantenduko ditugu.
210 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Joko Olinpikoak eta finalerdia izenak {contest, competition} synsetaren hiponimoak<br />
dira. Beraz, hiperonimoaz baliatu gara jokatu 00605818ren objektuak<br />
orokortu ahal izateko.<br />
Subjektuen kasuan, taldeak eta pertsonak izan dira nagusi:<br />
(42) Subjektua (taldea):<br />
Realak datorren asteazkenean jokatu behar duten partidua. . .<br />
textbfKataluniako Eskubaloi Selekzioa jokatu gabe geratu zen. . .<br />
Adiskidantzazko partidu gehiago jokatuko ditu Bidasoak.<br />
Bestalde, hilak 14ean, hiruko torneoa jokatuko du Bidasoak Bermeon.<br />
(43) Subjektua (pertsona):<br />
Gutxienez bi partidu egongo da Rider jokatu gabe.<br />
Agirresarobe - Iriatek jokatuko dute.<br />
Iruk jokatuko du hasieratik.<br />
Dmitri Khokhlov errusiarrak hasieratik jokatutako partidu nagusia.<br />
Ingeleseko play 00605818k ez bezala, euskarako jokatu 00605818 aditzak ez<br />
ditu futbol, golf eta abar bezalako objektuak hartzen, ez behintzat absolutibo<br />
kasuan. Berez, jokatu 00605818k argumentu bezala onartzen ditu, baina<br />
beste kasu batekin: inesiboarekin.<br />
(44) Objektua (inesiboa):<br />
FutboleaN jokatzen badakitela erakutsi zuten Lotinaren jokalariek.<br />
Banekien han dena ezberdina zela, futboleaN ere han jokatuta bainengoen.<br />
Rafa Alkortak [...] golfeaN jokatuko duela dio irribartsu.<br />
<strong>Euskara</strong>ko subjektuen eta objektuen argumentuak, ergatiboarekin eta absolutiboarekin<br />
agertzeaz gain, beste kasu-marka batzuekin ere ager daitezkeela<br />
ikusita (jokaturen kasuan objektua inesiboa izan daiteke), euskarako<br />
HMen eskuratzea funtzio gramatikaletan oinarritu ordez —ingeleserako egin<br />
dugun bezala—, kasu-marketan oinarrituta egitea erabaki dugu. Hala,<br />
ergatiboen, absoltuiboen, inesiboen eta bestelako kasu-marken HMei buruz<br />
jardungo gara.<br />
(45)en ditugu jokatu 00605818 aditzaren c2c-rako urre-patroiak eta (46)n<br />
w2semf eta s2semf teknikentzako lortutakoak:
VII.5 <strong>Euskara</strong>ko HMak 211<br />
(45) jokatu 00605818 Absolutiboa<br />
c2c:<br />
04771851 contest, competition “an occasion on which a winner is selected. . . ”<br />
00254052 game “a contest with rules to determine a winner”<br />
09065837 amount of time, period, period of time “time period a length of time”<br />
jokatu 00605818 Ergatiboa<br />
c2c:<br />
00004865 individual, someone, somebody, mortal, human soul “a human being”<br />
00017008 group, grouping “any number of entities (members) considered as a unit”<br />
jokatu 00605818 Inesiboa<br />
c2c:<br />
00240760 sport, athletics “an active diversion requiring physical exertion and ...”<br />
(46) jokatu 00605818 Absolutiboa<br />
s2semf, w2semf:<br />
sport-event<br />
time period-time<br />
jokatu 00605818 Ergatiboa<br />
s2semf, w2semf:<br />
factotum-group<br />
person-person<br />
jokatu 00605818 Inesiboa<br />
s2semf, w2semf:<br />
sport-act<br />
play-act<br />
Beraz, ikus dezakegun bezala, ez ditugu objektu/subjektuen HMak eskuratu,<br />
deklinabide kasuan oinarritzen diren HMak baizik. Ingeleseko eta<br />
euskarako “funtzio-kasu” desoreka hau aditz bat baino gehiagorekin gertatu<br />
zaigu. Esate baterako, play 00610422rekin (ikus VII.1 irudia): ingeleseko<br />
Princeton plays Yale, euskaraz,Princetonek Yaleren aurka jokatzen du itzuliko<br />
genuke. Ingeleseko objektua (Yale), euskaraz -en kontra postposizioarekin<br />
adierazten dugu. Horregatik, play 00610422ren HMak eskuratzerakoan, ingelesarekin<br />
egin bezala objektuen eta subjektuen HMak lortu ordez, euskararako<br />
ergatiboaren eta -en kontra postposizioaren HMetan oinarritu gara.<br />
Desoreka honek ingeleseko HMak euskarara itzultzeko zailtasunak sortu<br />
ditu. Hau da, ingeleseko argumentuak ezin dira zuzenean euskara itzuli,<br />
ingelesez funtzio gramatikalei dagozkien HMak baitauzkagu eta euskaraz deklinabide<br />
kasu-markei dagozkienak. Hortaz, ingeleseko argumentuak ezin
212 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
dira zuzenean euskarara itzuli. Horregatik, HMen erkaketa egin ahal izateko,<br />
bi hizkuntzetako aditzen argumentuak parekatu behar izan ditugu lehendabizi,<br />
aditz bakoitzaren izaera sintaktiko-semantikoa definituz. Oro har,<br />
esan dezakegu ingeleseko subjektuen HMak euskarako ergatibo eta absolutibo<br />
HMak izango direla — aditz iragankor eta iragangaitzei dagozkienak, hurrenez<br />
hurren—, eta ingeleseko objektu HMak euskarako absolutiboak emango<br />
digula. Hala ere, aditz bakoitzaren izaera sintaktiko-semantikoa kontuan<br />
izanda objektuen artean bestelako kasu-markak ere egon daitezke: esate baterako,<br />
inesiboa.<br />
Bestalde, ingeleseko HMekin bezala, urre-patroi hauen arabera HMak<br />
ebaluatzeko maila desberdinak definitu ditugu:<br />
• Zuzena: Urre-patroiarekin bat datorrenean.<br />
• Onargarria: Urre-patroiaren hiperonimoa edo hiponimoa denean. Domeinu-eremu<br />
semantiko bikoteen bidez adierazitako HM kasuan, onargarri<br />
bezala kontsideratu ditugu urre-patroia baino orokorrago edota<br />
zehatzago direnak.<br />
• Okerra: Urre-patroiarekin bat ez datorrenean eta MCRko hierarkian<br />
ere loturarik ez dutenean.<br />
<strong>Euskara</strong>rako eskuratutako HMak domeinu-eremu semantiko bikoteetan<br />
oinarrituak dira, eta hauen ebaluazioa irizpide batzuen arabera egin dugu; ingelesekoekin<br />
erabilitako berdinak direnez ez ditugu errepikatuko (ikus VII.4.4<br />
atala).<br />
VII.5.2 <strong>Euskal</strong>dunon Egunkaritik eskuratutako HMen azterketa eta<br />
ebaluazioa<br />
Atal ho<strong>net</strong>an eskuratze-teknika batek (w2semf) euskarako corpus batetik<br />
(<strong>Euskal</strong>dunon Egunkaria) eskuratutako HMak aztertu eta ebaluatuko ditugu.<br />
VII.5.2.1 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />
Eskuratze-teknika hau VII.3.2.2 atalean azaldu dugu. Aditz-forma osoaren<br />
HMak erauzten dituen eskuratze-teknika da eta HMak domeinu-eremu semantiko<br />
bikote batez adieraziak datoz, bikote hau klase bezala kontsideratzen<br />
delarik. Bi proba desberdin egin ditugu. Batetik, teknika hau corpus<br />
osoan (domeinuak kontuan hartu gabe) aplikatu dugu. Bestetik, kirol-
VII.5 <strong>Euskara</strong>ko HMak 213<br />
domeinuari bakarrik dagokion zatian erabili da. Horrela, domeinuaren eragina<br />
zenbaterainokoa den ikusteko aukera izan dugu.<br />
Nahiz eta ingeleserako eskuratze-teknika bera erabili, euskararako aldatu<br />
egin behar izan dugu pixka bat: objektu eta subjektu funtzio sintaktikoen<br />
HMen ordez, inesibo, absolutibo eta ergatibo deklinabide kasuen HMak eskuratu<br />
ditugu.<br />
Abiapuntuko metodologia orain arte erabilitakoaren parekoa izan arren<br />
(HMaren jatorria eta corpuseko testuinguruak bilatu, HMa bera ebaluatzen<br />
hasi baino lehen), arestian gertatu zaigun bezala (VII.3.2.2), eskuratzeteknika<br />
honekin zaila da jatorria zein den zehaztea. Batetik, HMak aditzformarentzat<br />
direlako eta hauen jatorria aztertzeko agerpenak bananbanan<br />
berrikusi beharko genituzkeelako. Bestetik, HMak adierazteko domeinueremu<br />
semantiko bikoteak erabiltzen dituen eskuratze-teknika izaki, eredu<br />
honen informaziotik jatorrira iristeko, nahitaez MCRra jo behar dugu domeinu<br />
eta eremu semantiko bakoitzaren azpian zein synset dagoen jakiteko.<br />
Hala ere, w2w moduko zerrendak ditugu, non jokatu aditz-formarekin<br />
agertu diren hitzen zerrenda (maiztasunaren eta kasu-marken arabera ordenaturik)<br />
eskaintzen zaigun; fitxategi batean corpus osoko agerpenak daude<br />
eta bestean kirol-domeinukoak bakarrik48 .<br />
Oso zerrenda luzeak dira, eta lan handia litzateke bakoitzaren testuinguruak<br />
aztertu eta kirolaren domeinuari dagozkionak aukeratzea, gero horren<br />
arabera beraien MCRko synset, eremu semantiko eta domeinu posibleak<br />
zehazteko.<br />
Arrazoi hauengatik guztiengatik, eta datu enpirikoetan oinarritu gabe,<br />
zuzenean <strong>Euskal</strong>dunon Egunkariaren gainean aplikatutako eskuratze-teknika<br />
hauen HMak gure urre-patroiekin (ikus (46)) erkatu ditugu.<br />
(47)n jokatu aditzaren w2semf absolutibo (abs), inesibo (ine) eta ergatibo<br />
(erg) deklinabide kasuen kirol-domeinuko corpuseko HMak ditugu (letra lodiz<br />
gure ustez jokatu 00605818 aditzari dagozkienak) 49 .<br />
Bestalde, esan beharra dago eskuratze-teknika honek izen bereziak x batez<br />
adierazten ditu, anafora pronominalak pro batez eta elipsiak 0 batez.<br />
48 Ikus C eranskina.<br />
49 Ingelesekoekin gertatzen zen bezala, HMen zerrenda oso luzea izan daiteke, eta aditz<br />
baten HMak hamar baino gehiago direnean, lehenengo hamarrak (probabilitate-neurri<br />
handienekoak) bakarrik aztertu ditugu.
214 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
(47) w2semf.jokatu.kirola<br />
abs x 33<br />
abs sport-event 18.933 ZUZENA<br />
abs anthropology-group 6.6<br />
abs number-quantity 6.515<br />
abs politics-group 6.504<br />
abs sociology-group 5.671<br />
abs history-group 5.6<br />
abs factotum-act 2.853<br />
abs sport-act 2.646<br />
abs 0 2<br />
ine x 28<br />
ine time period-time 7.062<br />
ine tourism-time 4<br />
ine buliding industry-artifact 3.009<br />
ine factotum-act 2.3 ONARGARRIA<br />
ine number-quantity 2.272<br />
ine factotum-location 2.138<br />
ine 0 2<br />
ine play-act 1.983 ZUZENA<br />
ine sport-act 1.900 ZUZENA<br />
erg pro 128 ONARGARRIA<br />
erg x 25 ONARGARRIA<br />
erg number-quantity 7<br />
erg03<br />
erg transport-person 1.5<br />
erg geography-person 1<br />
erg administration-person 1<br />
erg basketball-person 1 ONARGARRIA<br />
erg time period-time 0.6<br />
erg cycling-person 0.25 ONARGARRIA<br />
(48)n corpus osoa erabilita lortutako HMak ditugu:<br />
(48) w2semf.jokatu.corpus osoa<br />
abs x 40<br />
abs sport-event 31.933 ZUZENA<br />
abs sport-act 13.646<br />
abs number-quantity 8.515<br />
abs anthropology-group 8.131<br />
abs politics-group 7.004<br />
abs sociology-group 6.671<br />
abs history-group 5.6
VII.5 <strong>Euskara</strong>ko HMak 215<br />
abs time period-time 4.632 ZUZENA<br />
abs factotum-act 3.907<br />
ine x 32<br />
ine time period-time 7.437<br />
ine factotum-act 4.020 ONARGARRIA<br />
ine tourism-time 4<br />
ine 0 4<br />
ine building industry-artifact 3.609<br />
ine factotum-location 2.361<br />
ine number-quantity 2.272<br />
ine factotum-state 2.081<br />
ine factotum-group 2.068<br />
erg pro 204 ONARGARRIA<br />
erg x 33 ONARGARRIA<br />
erg number-quantity 7<br />
erg 0 3<br />
erg linguistics-communication 2<br />
erg politics-person 1.601<br />
erg person-person 1.53 ZUZENA<br />
erg transport-person 1.5<br />
erg administration-person 1.365<br />
erg basketball-person 1 ONARGARRIA<br />
Ingelesekoekin bezala, urre-patroiaren berdina edo antzekoa (domeinu edo<br />
eremu semantiko orokorrago edo zehatzago bat adibidez) denean zuzen edo<br />
onargarri bezala kontsideratu dugu; baina bat ez datozenak ez ditugu okertzat<br />
hartu, hauek berez, beste aditz-adiera baten HMak izan daitezkeen heinean,<br />
zuzenak izan daitezkeelako.<br />
Aditzaren adiera guztiak kontuan hartzen dituen eskuratze-teknika izateko,<br />
kirolari dagozkion HM ugari daude bi corpusetan. Urre-patroiko objektuen<br />
HM guztiak daude eta nahiko probabilitate-neurri altuekin, gainera.<br />
Corpus osoko eta kirol-domeinuko HMak erkatuz gero, ez dago horrenbesteko<br />
alderik bata eta bestearen artean; desberdintasun nabarmenena inesibo<br />
deklinabide kasuko HMek erakusten dute. Kirol-domeinutik eskuratutako<br />
inesiboaren HMetan urre-patroian proposaturiko HM guztiak daude:<br />
sport-act, play-act. Corpus osotik eskuratutakoetan hauek baino orokorragoa<br />
den factotum-act bakarrik dago. Bestalde, kirol-domeinuko corpuseko inesiboen<br />
HMetan, deigarria da sport-act, play-act HMak probabilitate-neurri<br />
txikienarekin agertzea; probabilitate-neurri handienarekin izen bereziak edo<br />
x (Anoetan jokatu dute adibidez) eta time period-time (Bigarrenzatianjokatu
216 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
du; Igandean jokatuko dute eta abar) daude, jokatu 00605818ren adjuntuak direnak.<br />
Kirol-domeinuko albisteak izanda (ez ahaztu <strong>Euskal</strong>dunon Egunkaria<br />
egunkari bat dela), berez, baliteke informazio asko inplizitu egotea, irakurleak<br />
testua ulertzeko ez dituelako behar. Hau da, nahiz eta albistean bertan<br />
ez zehaztu, irakurleak badaki “zertan” jokatzen duten albisteko protagonistek,<br />
egunkariko atal berezi batean, izenburu eta guzti, zehaztuta datorrelako<br />
(futbola, adibidez), edota pertsonak ezagutzen dituelako (Errealak Madrilen<br />
jokatuko du eta ez Errealak Madrilen futbolean jokatuko du).<br />
Ergatibo HMetako (corpus osoko eta kirol domeinukoak) probabilitateneurri<br />
handienak izen bereziek (x) eta anafora pronominalek (pro) dute. Esan<br />
beharra dago, transport/administration/geography-person HMekin zalantzak<br />
izan ditugula. Nahiz eta lehenengo begiratuan okerrak iruditu, w2w zerrendak<br />
eta corpusak aztertuz, konturatu ginen hauek ondorengo agerpe<strong>net</strong>atik<br />
zetozela:<br />
(49) Italiarrek bi jokalari gutxiagorekin jokatu dute.<br />
5 kilometroko erlojupekoa jokatu dute txirrindulariek.<br />
Italiar izenaren domeinuak MCRn administration eta geography dira; eta<br />
txirrindulari izenarena, transport. Horregatik ditugu geography-person,<br />
administration-person eta transport-person bezalako HMak. Hala ere, arestian<br />
aipatutako irizpideari jarraituz, transport, geography eta administration<br />
domeinuetako izen gehienak jokatu aditzaren argumentu ezin dutenez izan,<br />
okertzat jo ditugu. Horrela, domeinu hauetako hitzak (salbuespenak salbuespen)<br />
ez direla jokatu aditzarekin agertzen adierazten dugu.<br />
Haatik, politics-person okertzat jo dugu ergatiboko w2w zerrenda aztertuta<br />
errore bat dela ikusi dugulako; w2w zerrendako ergatiboen artean, politics<br />
domeinua har dezakeen bakarra defentsa baita:<br />
(50) Defentsak ondo jokatu zuen.<br />
Testuingurua zuzena da eta esaldiko defentsa izenaren domeinua sport<br />
da. Hortaz, honen HMa sport-person izan beharko litzateke. Nondik lortu<br />
da politics-person HMa? Izen horrek MCRn hamar synset inguru ditu, eta<br />
horietako bat politics domeinuari dagokio. Beraz, anbiguotasun errore bat<br />
egon da.<br />
Hala, badirudi ingeleseko eskuratze-teknikekin aipatu ditugun erroreak<br />
euskarako w2semf teknikarekin ere gertatzen direla (ikus VII.4.3 atala).
VII.5 <strong>Euskara</strong>ko HMak 217<br />
VII.5.3 Ingelesetik itzulitako HMen azterketa eta ebaluazioa<br />
Ingeleserako erabilitako eskuratze-teknika batzuekin eskuratutako HMak euskarara<br />
itzuli ditugu, HMak eleanitzak izan daitezkeen frogatzeko asmoz. Horretarako,<br />
eta VII.5 atalean azaldu ditugun irizpideak jarraituta, SemCorreko<br />
c2c eta s2semf eskuratze-tekniken emaitzak euskaratu ditugu, EFEko s2semfekoekin<br />
batera.<br />
VII.5.3.1 SemCorreko c2c euskarara itzulita<br />
VII.4.2.1 atalean azaldutako c2c objektu/subjektuen HMak (51) adibidean<br />
ipini ditugu (zuzentzat eta onargarritzat jo ditugunak bakarrik, beraien ebaluazio<br />
eta guzti), euskarako jokatu 00605818 aditzarentzat ere baliagarriak<br />
diren egiaztatzeko. Buruan izan, c2c eskuratze-teknikak lortzen dituen objektuen<br />
edo subjektuen HMak aditzaren adiera jakin baterako direla. Beraz,<br />
gure kasuan, HM hauekin play 00605818 aditza bakarrik izan beharko dugu<br />
kontuan. HM hauek euskaratzerakoan, beraz, jokatu 00605818 aditz-adierarentzat<br />
bakarrik izango dira.<br />
(51) c2c.obj<br />
play 00605818<br />
00228990 0.215 {activity} “any specific activity or pursuit” ONARGARRIA<br />
04771851 0.035 {contest, competition} “an occasion on which. . . ” ZUZENA<br />
c2c.subj<br />
play 00605818<br />
00017008 0.517 {group, grouping} “any number of entities. . . ” ZUZENA<br />
00004865 0.507 {person, individual, human} “a human being” ZUZENA<br />
Atal honen sarreran esan dugun bezala, ingeleseko argumentuak ezin dira<br />
zuzenean euskarara itzuli. Horregatik, HMen erkaketa egin ahal izateko, bi<br />
hizkuntzetako argumentuak parekatu behar izan ditugu: ingeleseko subjektu<br />
HMak euskarako ergatibo HMak izango dira, eta ingeleseko objektu HMak<br />
euskarako absolutibo eta inesibo HMak izango dira 50 . (52)n, deklinabide<br />
kasuak kontuan hartuta egindako urre-patroiak dakartzagu:<br />
50 Jakina, parekatze hau aditzaren izaera sintaktiko-semantikoaren araberakoa da.
218 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
(52) Objektua:<br />
jokatu 00605818 Absolutiboa<br />
c2c:<br />
04771851 {contest, competition} “an occasion on which a winner is selected from...”<br />
00254052 {game} “a contest with rules to determine a winner”<br />
09065837 {amount of time, period, period of time} “time period a length of time”<br />
jokatu 00605818 Inesiboa<br />
c2c:<br />
00240760 {sport, athletics} “an active diversion requiring physical exertion and...”<br />
Subjektua:<br />
jokatu 00605818 Ergatiboa<br />
c2c:<br />
00004865 {person, individual, someone, somebody, human soul} “a human being”<br />
00017008 {group, grouping} “any number of entities (members) considered as a unit”<br />
<strong>Euskara</strong>ko jokatu 00605818rentzat proposaturiko urre-patroiak (ikus (52)),<br />
ingeleseko HMekin guztiz bateragarriak dira (ikus (53)):<br />
(53) c2c.obj<br />
jokatu 00605818<br />
00228990 0.215 {activity} “any specific activity or pursuit” ONARGARRIA<br />
04771851 0.035 {contest, competition} “an occasion on which. . . ” ZUZENA<br />
c2c.subj<br />
jokatu 00605818<br />
00017008 0.517 {group, grouping} “any number of entities. . . ” ZUZENA<br />
00004865 0.507 {person, individual, human} “a human being” ZUZENA<br />
VII.5.3.2 SemCorreko s2semf euskarara itzulita<br />
VII.4.2.1 atalean azaldutako s2semf objektu/subjektu HMak (54)n ipini ditugu<br />
(bakarrik zuzentzat eta onargarritzat jo ditugunak, beraien ebaluazio<br />
eta guzti), euskarako jokatu 00605818 aditzarentzat ere baliagarriak diren<br />
egiaztatzeko.<br />
Eskuratze-teknika honek aditzaren adiera bakoitzarentzat HMak domeinu-eremu<br />
semantiko bikoteekin adierazten ditu.
VII.5 <strong>Euskara</strong>ko HMak 219<br />
(54) s2semf.obj<br />
play 00605818<br />
obj play-act 3.5 ZUZENA<br />
obj sport-act 1.5 ZUZENA<br />
obj golf-act 0.5 ONARGARRIA<br />
obj basketball-act 0.5 ONARGARRIA<br />
s2semf.subj<br />
play 00605818<br />
subj sport-person 1 ONARGARRIA<br />
subj factotum-group 1 ZUZENA<br />
subj factotum-Tops 1 ONARGARRIA<br />
subj person-person 1 ZUZENA<br />
<strong>Euskara</strong>ko jokatu 00605818rentzat proposaturiko urre-patroiak (ikus (55)),<br />
ingeleseko HMekin guztiz bateragarriak dira (ikus (56)):<br />
(55) Objektua:<br />
jokatu 00605818 Absolutiboa<br />
sport-event<br />
time period-time<br />
jokatu 00605818 Inesiboa<br />
sport-act<br />
play-act<br />
Subjektua:<br />
jokatu 00605818 Ergatiboa<br />
factotum-group<br />
person-person<br />
(56) s2semf.obj<br />
jokatu 00605818<br />
obj play-act 3.5 ZUZENA<br />
obj sport-act 1.5 ZUZENA<br />
obj golf-act 0.5 ONARGARRIA<br />
obj basketball-act 0.5 ONARGARRIA<br />
s2semf.subj<br />
jokatu 00605818<br />
subj sport-person 1 ONARGARRIA<br />
subj factotum-group 1 ZUZENA<br />
subj factotum-Tops 1 ONARGARRIA<br />
subj person-person 1 ZUZENA
220 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
VII.5.3.3 EFEko w2semf euskarara itzulita<br />
VII.4.2.1 atalean azaldutako w2semf objektu/subjektu HMak (ebaluazio eta<br />
guzti) (57)n ipini ditugu (bakarrik zuzentzat eta onargarritzat jo ditugunak),<br />
euskarako jokatu 00605818 aditzarentzat ere baliagarriak diren egiaztatzeko.<br />
EFE domeinuka antolatutako corpusa da, eta guk kirol-domeinuari dagokiona<br />
erabili dugu saiakera ho<strong>net</strong>arako. Corpus ho<strong>net</strong>an w2semf eskuratze-teknika<br />
aplikatu dugu, euskarako HMak eskuratzeko erabili duguna.<br />
Teknika honek eskuratzen dituen HMak aditz-formarentzat dira, aditzaren<br />
adiera guztientzat, alegia. Gainera, probabilitate kopuru altue<strong>net</strong>ik baxuenera<br />
ordenaturiko domeinu-eremu semantiko bikoteak dira.<br />
(57) w2semf.play.kirola.obj<br />
obj play-act 50.013 ZUZENA<br />
obj factotum-act 30.390 ONARGARRIA<br />
obj time period-time 29.009 ZUZENA<br />
obj sport-event 23.514 ZUZENA<br />
obj sport-act 23.038 ZUZENA<br />
w2semf.play.kirola.subj<br />
subj x 372 ONARGARRIA<br />
subj sport-group 44.01 ONARGARRIA<br />
<strong>Euskara</strong>ko jokatu 00605818rentzat proposaturiko urre-patroiak (ikus (58)),<br />
ingeleseko HMekin guztiz bateragarriak (ikus (59)) dira:<br />
(58) Objektua:<br />
jokatu 00605818 Absolutiboa<br />
sport-event<br />
time period-time<br />
jokatu 00605818 Inesiboa<br />
sport-act<br />
play-act<br />
Subjektua:<br />
jokatu 00605818 Ergatiboa<br />
factotum-group<br />
person-person
VII.5 <strong>Euskara</strong>ko HMak 221<br />
(59) w2semf.jokatu.kirola.obj<br />
obj play-act 50.013 ZUZENA<br />
obj factotum-act 30.390 ONARGARRIA<br />
obj time period-time 29.009 ZUZENA<br />
obj sport-event 23.514 ZUZENA<br />
obj sport-act 23.038 ZUZENA<br />
w2semf.jokatu.kirola.subj<br />
subj x 372 ZUZENA<br />
subj sport-group 44.01 ONARGARRIA<br />
VII.5.4 Ebaluazioaren azterketa<br />
VII.7 taulak laburbiltzen du euskararako jokatu 00605818rentzat eskuratutako<br />
edo itzulitako HMen emaitzen kalitatea. Corpus bakoitzean erabili den<br />
eskuratze-teknika bakoitzetik, zenbat objektu/subjektuen edo absolutibo/<br />
ergatibo/inesiboen HM diren zuzenak (urre-patroiarekin bat datozenak),<br />
zenbat diren onargarriak (urre-patroiaren hiperonimo edo hiponimo bat direnak)<br />
eta urre-patroietatik zenbat ez diren eskuratu (eskuratu gabeak deitu<br />
duguna) erakusten du taulak. Datu hauek kopuru zehatzak erabiliz adierazi<br />
ditugu; esaterako, eskuratze-teknika bakoitzaren objektu/subjektuen HMetatik<br />
(gehienez hamar) zenbat diren zuzenak eta onargarriak zenbakitu ditugu;<br />
eta baita eskuratze-teknika bakoitzarentzat proposatutako urre-patroietatik<br />
zenbat geratu diren eskuratu gabe ere. Horrelako taula bana egin dugu<br />
saiakera ho<strong>net</strong>an erabilitako kirol-aditz bakoitzarentzat, hots, MCRtik aukeratutako<br />
zortzi synsetentzat 51 .<br />
VII.8 taulan euskararako zortzi aditzentzat eskuratutako edo itzulitako<br />
HMen emaitzak laburbildu ditugu, oraingoan ehunekotan adierazi ditugularik<br />
52 . Taula ho<strong>net</strong>an zuzenen eta onargarrien kopuruak batu ditugu (Batura<br />
z/o zutabean).<br />
Eskuratu gabeen zerrendan datu azpimarragarriena % 0 zenbakira hurbiltzen<br />
dena da, honek eskuratze-teknikak urre-patroiko HM guztiak lortu<br />
dituela esan nahi duelako. Zuzen eta onargarrien zerrendan, aldiz, datu nabarmenenak<br />
% 100era gerturatzen direnak dira, noski. % 100 lortzeak eskuratze-teknikak<br />
eskuratutako HM guztiak zuzenak/onargarriak direla adieraziko<br />
51 Taula hauek guztiak C eranski<strong>net</strong>an daude ikusgai.<br />
52 Taula ho<strong>net</strong>an absolutiboaren eta ergatiboaren datuak bakarrik adierazi ditugu, aditz<br />
guztiekin agertu zaizkigunak, hain zuzen ere.
222 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Corpusa HMak Kasua Zuzena Onargarria Eskuratu gabea<br />
Egunkaria osoa w2semf<br />
Egunkaria<br />
kirola<br />
w2semf<br />
SemCor c2c<br />
SemCor s2semf<br />
EFE<br />
kirola<br />
w2semf<br />
abs 10etik 2 0 0<br />
ine 0 10etik 1 0<br />
erg 10etik 1 10etik 3 2tik 1<br />
abs 10etik 1 0 2tik 1<br />
ine 10etik 2 10etik 1 0<br />
erg 0 10etik 4 2tik 1<br />
obj 8tik 1 8tik 1 4tik 1<br />
subj 5etik 2 0 0<br />
obj 10etik 2 10etik 3 4tik 2<br />
subj 7tik 2 7tik 2 0<br />
obj 10etik 4 10etik 1 0<br />
subj 0 10etik 4 2tik 1<br />
VII.7 Taula: <strong>Euskara</strong>rako eskuratutako eta ingelesetik itzulitako jokatu<br />
00605818ren HMen emaitzak.<br />
luke.<br />
Taula hauek aurrean izanda, hurrengo atalean, hauetatik ondoriozta ditzakegun<br />
emaitzak komentatuko ditugu.<br />
VII.5.4.1 <strong>Euskal</strong>dunon Egunkaritik eskuratutako HMak<br />
<strong>Euskal</strong>dunon Egunkaritik, w2semf teknikarekin, eskuratutako objektuen (euskarako<br />
kasuan, absolutiboen) HMak ingelesekoenak baino hobexeak dira,<br />
urre-patroi gehienak eskuratu direlako (% 3,5 dira eskuratu gabeak). Dena<br />
den, datu hau aztertu beharrekoa da, susmoa baitugu euskarako objektua<br />
beste kasu-markekin adierazita datorrenean, emaitzak ez direla horren onak<br />
(adibidez, entrenatu aditzaren kasuan inesibo HMen emaitzak oso txarrak<br />
dira 53 ). Baliteke honen arrazoia hauek inplizituki adieraziak datozela izatea.<br />
Hau da, irakurleak testua ulertzeko beraien beharrik ez duenez, baliteke<br />
testuan argumentu hauek ez azaltzea. Hala balitz, eskuratu gabeko urrepatroien<br />
kopurua handiagoa litzateke 54 .<br />
Hala ere, <strong>Euskal</strong>dunon Egunkaritik eskuratutako HM asko onargarriak<br />
diren arren, subjektuen kasuan, gehienak (% 75) eskuratu gabe geratu di-<br />
53 Ikus C eranskina.<br />
54 Honi buruz VII.5.2.1 atalean mintzatu gara.
VII.5 <strong>Euskara</strong>ko HMak 223<br />
Corpusa HMak Kasua Zuzena Onargar. Batura z/o Eskuratu gabea<br />
Egunkaria abs % 25,7 % 25,7 % 51,4 %3,5<br />
w2semf<br />
osoa erg %3,7 % 62,5 % 66,2 % 81,2<br />
Egunkaria abs % 25,7 % 31,4 % 57,1 %3,5<br />
w2semf<br />
kirola erg %2,8 % 62,5 % 65,3 %75<br />
SemCor c2c<br />
SemCor s2semf<br />
EFE<br />
kirola<br />
w2semf<br />
obj %6,9 % 26,4 % 33,3 %44<br />
subj %38 %7,1 % 45,1 %3,5<br />
obj % 14,2 % 42,8 %57 % 64,2<br />
subj %7 % 37,6 % 44,6 %60<br />
obj % 14,1 %10 % 24,1 % 45,4<br />
subj %2,7 % 21,8 % 24,5 %41<br />
VII.8 Taula: <strong>Euskara</strong>rako eskuratutako eta ingelesetik itzulitako HMen emaitzen<br />
portzentaiak, MCRtik aukeratutako zortzi synsetentzat.<br />
ra. Zergatia ez dugu sakonki aztertu baina susmoa dugu hurrengo arrazoiek<br />
zerikusia dutela: euskarako corpusaren tamaina txikiegia dela eta euskarako<br />
analizatzaile sintaktikoa ez deka ingelesekoa bezain ona. Bestalde, aurreprozesuan<br />
entitateak ez lantzeak ere izan du eraginik. Ergatiboen HMetako<br />
gehienak izen bereziak (x) edo pronominalak (pro) dira. Hauek onargarritzat<br />
jo ditugun arren, ezin dira urre-patroiekin parekatu, eta, ondorioz, ezin<br />
ditugu eskuratu gisa kontsideratu. Arrazoi horregatik, euskarako HMetan,<br />
ergatiboaren kasuan, eskuratu gabeen kopurua asko handitu da.<br />
Bestalde, ingeleseko HMekin gertatu ez den bezala, euskararen kasuan,<br />
corpusa domeinu zehatz batean egoteak ez du aditzaren adiera desanbiguatzen.<br />
Corpus osoko eta kirol-domeinuko euskarako HMen emaitzak oso antzekoak<br />
dira. Are gehiago, kasu askotan, kirol corpusean eta corpus osoan,<br />
HMak berdin-berdinak dira. Hots, aztergai dugun aditz horren agerpenak<br />
kirol-domeinuko corpusean bakarrik daudenez, corpus osoko datuak kirol atalaren<br />
berdinak dira. Hala ere, euskarako corpus handiago batean saiatuz gero,<br />
corpusaren domeinuaren eragina nabarituko litzatekeela pentsatzen dugu.<br />
VII.5.4.2 SemCorretik eskuratutako HMak<br />
Corpus ho<strong>net</strong>an bi eskuratze-teknika erabili ditugu: c2c eta s2semf. Bi<br />
eskuratze-teknikek eskuratutako HMak euskararentzat baliagarriak dira (HM<br />
zuzenak eta onargarrietaz ari gara, noski).
224 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
Ikus daitekeen bezala, teknika hauen emaitzak berdin-berdinak dira ingeleserako<br />
eta euskararako. Hortaz, eleaniztasunaren hipotesia egiaztatu egiten<br />
da; hau da, saiakera ho<strong>net</strong>arako aukeratutako ingeleseko aditzen HMak berberak<br />
dira euskararako aditz homologoentzat. Hala eta guztiz ere, itzulpena<br />
egiterakoan, kontuan izan beharrekoa da bi hizkuntzetan argumentuak ez<br />
direla deklinabide kasu berarekin gauzatzen. Aipagarriak dira ingeleseko c2c<br />
eskuratze-teknikak lortutako subjektuentzako emaitza onak. Honen arrazoia<br />
corpusean entitateak markatuak egotea izan daiteke. Hala, entitate horiek<br />
person, group, location eta abar bezalako synsetekin adierazten dira.<br />
Ingeleseko emaitzak azaltzerakoan esan dugun bezala, kontuan izanda<br />
SemCor semantikoki etiketatutako corpusa dela, emaitza hobeak espero genituen.<br />
Corpusaren tamaina (erabilitako corpus txikiena dugu hau) eta etiketatze-erroreak<br />
izan daitezke zergatiak. kasu ho<strong>net</strong>an.<br />
VII.5.4.3 EFEtik eskuratutako HMak<br />
Corpus ho<strong>net</strong>an eskuratze-teknika bakarra erabili dugu: w2semf. Bai ingelesez<br />
eta bai euskaraz, emaitza nahiko onak lortu ditugu. SemCorreko c2c-ekin<br />
alderatuz, EFEren w2semf-en zuzen/onargarrien batura txikiagoa da. Baina<br />
kontuan izanda semantikoki etiketatu gabeko corpusa dela, azpimarratu<br />
beharreko emaitzak dira. Corpusaren domeinuak (kirola) beste adierak baztertzen<br />
lagundu duela dirudi. Aipatu bezala, euskarako kirol-aditzen agerpen<br />
gehienak kirol-domeinuari dagokion corpus-atalean bakarrik azaldu dira.<br />
VII.5.5 <strong>Euskara</strong>ko HMen emaitzen laburpena<br />
Oro har, emaitzei erreparatuz, <strong>Euskal</strong>dunon Egunkaria corpusaren gainean<br />
aplikatutako w2semf teknikak eskaintzen dizkigu emaitzarik onenak, batez<br />
ere, objektuei dagozkienak. SemCorreko c2c eskuratze-teknikaren subjektuen<br />
HMak azpimarragarriak dira, % 3,5a soilik uzten baitu eskuratu gabe. Hala,<br />
badirudi teknika hauen arteko ebakidura eginez gero, lortuko genituzkeela<br />
emaitzarik onenak.<br />
Amaitzeko, esan dezakegu ingeleserako HMak euskarara itzul daitezkeela.<br />
Izan ere, ikusi dugu kirol-domeinuko aditzekin, synset berean dauden<br />
aditzek argumentu mota berdinak hartzen dituztela, hots, aditzen argumentuen<br />
tasunak eleanitzak direla. Hala ere, hizkuntza bakoitzak tasun hauek<br />
era ezberdi<strong>net</strong>an azaleratzen ditu. Gogoratu, jokatu aditzak, adibidez, objektua<br />
inesiboarekin adierazten duela. Argumentuen tasunak parekatzeko
VII.6 Ondorioak 225<br />
garaian, beraz, ezberdintasun hauek kontuan izan beharko dira.<br />
VII.6 Ondorioak<br />
Kapitulu ho<strong>net</strong>an azaldu dugun azterlanak bi helburu nagusi zituen:<br />
• Hainbat eskuratze-teknika erabiliz ingeleseko eta euskarako corpus ezberdi<strong>net</strong>atik<br />
eskuratutako HMak aztertzea eta konparatzea.<br />
• Ingeleserako eskuratutako HMak euskararako baliagarriak diren aztertzea.<br />
Azterketa ugari egin dira HMen eskuratze automatikoari buruz, baina<br />
ez hainbeste eskuratze automatiko horren ebaluazio linguistikoari buruz; are<br />
gutxiago euskarari dagozkionak. Lan honen ekarpen garrantzitsu bat horretan<br />
datza, hain zuzen ere. Egun erabiltzen diren hainbat eskuratze-tekniken<br />
azterketa eta ebaluazio linguistikoa egin ondoren, lan honen bidez, euskarako<br />
HMen eskuratze automatikoa garatzeko aukera eta proposamen berriak<br />
eskaintzen dira.<br />
Azterlan honek dakarren beste ekarpen nagusia eleaniztasunaren hipotesiaren<br />
bideragarritasunari buruzkoa da; hots, ingeleserako eskuratutako<br />
HMak euskararako erabilgarriak izan daitezkeela frogatu dugu. Honenbestez,<br />
hizkuntza batentzat eskuratutako HMak beste edozein hizkuntzatarako<br />
baliagarriak direla esatera ausartzen gara, nahiz eta baieztapen hau guztiz<br />
frogatzeko azterketa osoago bat egitea komeni den. Izan ere, aztertu ditugun<br />
aditzak kirol-domeinukoak dira eta beste domeinuetan begiratu beharko<br />
litzateke hipotesi hau baieztatzeko. Gainera, hizkuntza desberdinekin portaera<br />
hori errepikatzen den egiaztatu beharko litzateke. Hala ere, badirudi<br />
ingelesak eta euskarak konpartitzen duten portaera hau, errazago beteko dela<br />
elkarren antza handiagoa (edo gutxienez jatorri bera) duten bi hizkuntzen<br />
artean; adibidez, frantsesa eta ingelesa edota gaztelania eta frantsesa.<br />
<strong>Euskara</strong>ren LNPrako ekarpen garrantzitsua dugu hau, euskarak corpus<br />
eta baliabide kopuru txikiagoak dituelako, eta hipotesi ho<strong>net</strong>az baliatuz gero,<br />
baliabide gehiago dituzten hizkuntzenak erabiltzeko aukera eskaintzen<br />
zaigulako.<br />
Saiakera honen emaitzak behin-behinekoak dira, aditz-adiera batzuk bakarrik<br />
aztertu baititugu, eta eskuratze-teknika guztiak ezin izan direlako corpus<br />
guztien gainean erabili. Hortaz, honako hau hastapeneko lana dugu,
226 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
eta hemen aurkeztutako emaitzetatik eta ondorioetatik abiatuta, azterketa<br />
honen esparrua zabaltzeko asmoa dugu.<br />
Ingeleseko HMetatik, bestalde, honako hauek ondorioztatu ditugu:<br />
• Corpus bakoitzak bere idiosinkrasia du eta hori emaitzetan<br />
islatzen da. SemCor eta BNCn eskuratze-teknika berak erabili dira,<br />
eta SemCorretik eskuratutakoak BNCkoak baino hobeak dira, SemCor<br />
semantikoki etiketatutako corpusa delako. Hala ere, emaitza hobeak<br />
espero ziren. Corpus txikiagoa izatea, etiketatze-erroreak izatea eta<br />
corpuseko adiera batzuk MCRn ez egotea izan daitezke arrazoiak. Azkenik,<br />
EFE corpusa domeinu zehatz batekin erabiltzeak emaitza nahiko<br />
onak eman ditu.<br />
• c2c eskuratze-teknikak ez dira w2c-renak baino askoz hobeak.<br />
Lehenengoaren kasuan, c2c, aditza klase bezala kontsideratzeak (troponimoaz<br />
baliatuz) ez dirudi emaitza hobeak lortzen laguntzen duenik.<br />
Eskuratze-teknika hau oinarri egokia iruditzen zitzaigun HMen eskuratze<br />
eleanitza egiteko, hau da, hizkuntza bateko HMak zuzenean beste<br />
batera itzultzeko. Emaitza ikusita, bide ho<strong>net</strong>atik jarraitu aurretik,<br />
honek ikerkuntza gehiago behar duela argi dago. Bigarrenaren kasuan,<br />
aldiz, w2c, HMen kalitatea nahiko ona izan arren, hauek aditzaren adiera<br />
guztientzat dira, eta erabilera konputazional mugatua dute. Eskuratze-teknika<br />
hau domeinu konkretu bateko corpusean erabilita emango<br />
lituzkeen emaitzak ikustea interesgarria izan daiteke.<br />
• Domeinu-eremu semantiko bikoteekin adierazitako HMak interpretatzeko<br />
zailagoak dira, synsetekin adierazitakoak baino.<br />
Hala ere, baliabide gutxien eskatzen duten eskuratze-teknikak dira, eta<br />
hauek EFE corpusaren gainean (kirol-domeinuaren gainean), emaitza<br />
nahiko onak lortu dituzte.<br />
• Domeinu batean oinarritutako eskuratze-teknikek HM hobeak<br />
eskuratu dituzte, eta domeinuaren arabera aditz horren adiera<br />
mugatu daiteke. Hala ere, beste aditzekin frogatu beharko litzateke;<br />
dirudienez, aditz batzuk domeinu batekin beste batzuek baino lotura<br />
gehiago izan baitezakete.
VII.6 Ondorioak 227<br />
• Izenen anbiguotasuna arazo bat da. Ikusiditugugame eta defentsa<br />
bezalako izenekin gertatu diren nahasketak. Beraien MCRko synset<br />
edo domeinu-eremu semantiko egokia hartu ordez, makinak beste synset<br />
edo domeinu-eremu semantiko bat aukeratu du, eta ondorioz, HM<br />
okerra lortu du.<br />
• Erroreen azterketatik ondoriozta dezakegu, prozesaketa linguistiko<br />
hobe batekin, HM hobeak lortuko genituzkeela. Hau<br />
da, analizatzaile sintaktikoan aurkitutako erroreak konponduz gero, eta<br />
anafora eta izen berezien tratamendua landuz gero, okerrak ziren HM<br />
asko eragotziko genituzkeela uste dugu.<br />
Ingeleseko eta euskarako HMen konparaketari dagokionez:<br />
• <strong>Euskara</strong>ko HMen kalitatea ingelesekoena baino zertxobait handiagoa<br />
da. Baliteke argumentuak kasu-marketan banatu izanak eraginik<br />
izatea. Susmoa dugu euskarako objektua beste kasu-markekin<br />
adierazita datorrenean, emaitzak ez direla horren onak.<br />
• Ingeleseko aditzen HMak euskarara zuzenean itzul daitezke.<br />
Hala ere, gerta daiteke ingeleseko objektua euskarako kasu ezberdinekin<br />
agertzea (inesiboan adibidez). Beraz, moldaketaren bat beharrezkoa<br />
litzateke.<br />
Oro har, domeinuetaz baliatuz gero, aditz-adieraren HM hobeak lortuko<br />
ditugu. Bestalde, emaitzek erakusten dute HMak hizkuntza batetik bestera<br />
itzul daitezkeela. Horrela, baliabide gehiago dituen hizkuntzaz baliatu<br />
gaitezke euskararen eskuratze automatikorako. Dena den, hizkuntzen argumentuen<br />
ezaugarri linguistikoak batzuetan ez datoz bat eta moldatu egin<br />
behar dira.<br />
Etorkizuneko lanari begira, eta honako hau hastapeneko lan bat izaki, badaude<br />
sakonago lantzeko hainbat puntu. Hasteko, kirolaren domeinuaz gain<br />
beste domeinu batzuetako aditzak ere aztertu nahiko genituzke (finantzaren<br />
domeinukoak, adibidez). Bestalde, domeinu bakarreko corpusean erabili ez<br />
diren eskuratze-teknikak (w2c eta c2c) mota horretako corpusekin probatu<br />
nahiko genituzke. Hori egin baino lehen, ordea, eskuratze-teknika hauen algoritmoak<br />
hobetzen saiatuko gara. Izan ere, SemCorren oinarrituta izandako<br />
emaitzak ikusita, eskuratze-teknika hauek berriro erabili baino lehen, antzemandako<br />
erroreak gainditzea komeni da (analizatzaile sintaktikoaren akatsak
228 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
konpondu, anafora eta izen berezien tratamendua egin, aditz klaseetan troponimia<br />
kontuan ez hartu, eta abar).<br />
Hurrengo saiakeretan, domeinu-eremu semantiko bikoteekin adierazitako<br />
HMak alde batera utziko dira. Hauek lortutako emaitzak oso aldakorrak dira<br />
ebaluatzeko irizpideen arabera. Gainera, ebaluatzean izandako arazoetaz<br />
jabetu gara, baita synsetekin parekatzeko duten zailtasunez ere. Horiengatik<br />
guztiengatik, beste eskuratze-tekniketan oinarritzea erabaki dugu.<br />
Bestalde, ingeleserako eta euskararako eskuratutako HMen ebakidura eginez<br />
gero, errore ugari desagertuko liratekeela uste dugu, eta hipotesi hau<br />
egiaztatu nahiko genuke.<br />
<strong>Euskara</strong>rako HMei dagokienez, w2semf eskuratze-teknikatik lortutakoetaz<br />
gain, mota gehiago probatu nahi ditugu. Hasiera batean, w2c eta c2c<br />
teknikekin hastea pentsatu dugu. Horrela, euskarako datu gehiago izango<br />
dugu ingelesekoekin erkatzeko. Honekin batera, euskarako eskuratze-teknikak<br />
hobetzeko, semantikoki etiketatzen ari garen corpusa (EuSemcor) erabiltzea<br />
pentsatu dugu. Azkeneko helburua eskuratze-teknika egokiarekin jo<br />
ondoren, eskuratzen diren HMak <strong>Euskal</strong> <strong>WordNet</strong>en txertatzea da.
Ondorioak eta etorkizuneko lanak<br />
VIII. KAPITULUA<br />
Ikerlan honen emaitza gisa euskararen semantikaren azterketa aplikaturako<br />
oinarrizkoa den EBL eleanitza diseinatu eta garatu dugu: <strong>Euskal</strong> Word-<br />
Net.<br />
EBL hau, IXA taldeak garatutako gainerako tresnak bezalaxe, euskararen<br />
azterketa aplikaturako egitasmo orokor baten barruan kokatzen da, eta bide<br />
horretan aurrera egiteko oinarrizko baliabidetzat jo daiteke, batez ere, hizkuntzaren<br />
ulermena beharrezkoa duten atazetan; hala nola, hitzen adieren<br />
desanbiguazioan, itzulpen automatikoan, egitura sintaktikoen desanbiguazioan,<br />
informazioaren erauzketan eta galdera-erantzun automatikoan.<br />
Erabilera konputazionalez gain, <strong>Euskal</strong> <strong>WordNet</strong>en kontsultarako interfazea<br />
publikoa denez 1 , hiztegi eta thesaurus gisa ere erabil daiteke; batetik,<br />
hiztegi elebakar gisa, hitzen adierak kontsultatzeko, hiztegi tradizionalen<br />
antzera, <strong>Euskal</strong> <strong>WordNet</strong>ek synset bakoitzeko definizio edo glosa bat baitu<br />
(gehie<strong>net</strong>an adibide eta guzti 2 ); eta bestetik, hiztegi elebidun gisa, synset bakoitzak<br />
dagokion ingeleseko, gaztelaniako, katalaneko eta italierako ordainak<br />
baititu. Ho<strong>net</strong>az gain, synset bakoitzean hizkuntza bakoitzeko ale lexikal<br />
bat baino gehiago egon daitezkeenez, thesaurus bezala balia daiteke, adiera<br />
berdina adierazteko sinonimo desberdinak ditugulako. Hala, erabilera orokorreko<br />
baliabidea garatu dugula esan daiteke.<br />
1 http://ixa2.si.ehu.es/mcr/wei.html (2007-07-02an atzitua).<br />
2 Glosak EuSemcor proiektuaren barruan lantzen ari gara; synseta editatu, eta honen<br />
agerpenak etiketatu ondoren, synsetaren glosa gehitzen dugu.
230 Ondorioak eta etorkizuneko lanak<br />
VIII.1 Ondorio nagusiak<br />
Tesi-lan ho<strong>net</strong>an, <strong>Euskal</strong> <strong>WordNet</strong> sortzeko eta garatzeko jarraitu dugun ibilbidearen<br />
berri eman dugu, eta bertatik zenbait ondorio atera ditugu, hurrengo<br />
ataletan laburbildu ditugunak.<br />
VIII.1.1 EBLen azterketa kritikoa<br />
EBLen ereduei dagokionez, ez dago eredurik, oraindik, hizkuntzaren ulermenerako<br />
beharrezkoa den informazio guztia duenik. Arrazoi horregatik,<br />
guretzat garrantzitsua izan da orotariko informazioa bil dezakeen EBL bat<br />
egitea. Horretarako, urrats hauek eman ditugu:<br />
• Batetik, IXA taldearen beharretara egokitzen den lexikoiaren ezaugarriak<br />
zerrendatu ditugu: non eta nola erabili nahi dugun, horretarako<br />
zer informazio-mota txertatuko dugun sarrera bakoitzean, eta zein eredu<br />
edo formalismoren arabera jasoko duen informazio hori.<br />
• Bestetik, erdal hizkuntzetako LNPren arloan oihartzuna izan duten<br />
hainbat EBLen ereduak aztertu ditugu, aipatutako ezaugarrietara gehien<br />
egokitzen den formalismoaren bila. Horretarako, eredu hauen arteko<br />
azterketa konparatiboa egin dugu.<br />
• Azkenik, IXA talderako baliagarria izango den eredu bat aukeratu dugu<br />
—<strong>WordNet</strong>, eta honen ildotik sortutako Euro<strong>WordNet</strong> eta The<br />
Multilingual Central Repository (MCR)—, eta hartutako erabaki<br />
honen arrazoiak azaldu ditugu:<br />
(a) Eredu hauek ez daude teoria bakar bati lotuta, bestelako eredu<br />
eta teoria ezberdinekin erabil daitezke. Horren proba da formalismo<br />
eta lan teoriko asko, gerora, <strong>WordNet</strong>en adiera edo/eta klase<br />
semantikoekin aberastu dituztela.<br />
(b) Eredu hauek lexiko zabala eta garatua dute; sarrera bakoitzean ale<br />
lexikalaren adiera, klase semantikoa, kategoria eta beste sarrerekin<br />
izan ditzaken erlazio semantikoak jasotzen dituzte.<br />
(c) Inplementatutako EBLak dira. Honen adierazgarri dira Word-<br />
Neten oinarrituta egin diren publikazioen kopurua (gaur egun,<br />
<strong>WordNet</strong>eko web orriak3 422 inguru jasotzen ditu).<br />
3 http://www.cogsci.princeton.edu/cgi-bin/webwn (2007-07-02an atzitua).
VIII.1 Ondorio nagusiak 231<br />
(d) <strong>WordNet</strong> EBL elebakarra izan arren, honen ildotik sortutako<br />
Euro<strong>WordNet</strong> eta MCR eleanitzak dira.<br />
VIII.1.2 <strong>Euskal</strong> <strong>WordNet</strong>en eraikuntzarako diseinua eta metodologia<br />
<strong>WordNet</strong>, eta honen ildotik sortutako Euro<strong>WordNet</strong> eta MCR ereduei lotutako<br />
euskal EBLari <strong>Euskal</strong> <strong>WordNet</strong> deitu diogu. <strong>Euskal</strong> <strong>WordNet</strong>ek hauen<br />
egitura eta oinarriak izan arren, honen garapena metodologia eta ikuspegi<br />
ezberdinak baliatuta egin zitekeen. Hauek guztiak aztertu ditugu, eta hauexek<br />
dira, orain arte, <strong>Euskal</strong> <strong>WordNet</strong>en garapenean hartu ditugun erabaki<br />
metodologikoak:<br />
• Alde batetik, <strong>Euskal</strong> <strong>WordNet</strong> sortzeko diseinua definitu dugu: euskarako<br />
adieren inbentarioa eta hierarkia guk geuk sortu ordez, Word-<br />
Neteko hierarkiari jarraitu eta bertako synsetei zuzenean esleitu dizkiegu<br />
euskarako ordainak.<br />
• Bestetik, synsetei euskarako ordainak esleitzeko garaian, estaldura —<br />
sarrera lexikalen kopurua ahalik eta handiena izatea— eta kalitatea<br />
—sarrera lexikalen informazioa zuzena izatea— uztartzeko garrantzia<br />
nabarmendu dugu. Ezaugarri hauek izan dira, hain zuzen ere, EBLaren<br />
garapen-metodologia definitu dutenak, eta <strong>Euskal</strong> <strong>WordNet</strong>en garapenaldi<br />
eta orrazketa ezberdinak eragin dituztenak.<br />
Beste ereduetan egindakotik ondorioztatu dugu, EBLa sortzearekin batera,<br />
corpus bat etiketatzea beharrezkoa dela EBL hori aberasten joateko.<br />
Izan ere, corpusean adibide, adiera eta erabilera errealak agertzen dira. Hala,<br />
EBLaren garapenari lotuta, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetak erabiliz eskuz<br />
etiketatzen dugun euskarako corpus semantikoa aurkeztu dugu: EuSemcor.<br />
<strong>Euskara</strong>ko corpus semantiko bat izate hutsak berez daukan garrantziaz gain,<br />
corpus honek <strong>Euskal</strong> <strong>WordNet</strong> etengabe orrazteko, garatzeko eta aberasteko<br />
balio digu.
232 Ondorioak eta etorkizuneko lanak<br />
VIII.1.3 <strong>Euskal</strong> <strong>WordNet</strong> eta kontzeptuen errepresentazioa<br />
Word<strong>net</strong> eleanitzekin lan egiteak hizkuntzen arteko ezberdintasunak gainditu<br />
beharra dakarrela erakutsi dugu. Gure kasuan, ingeleseko word<strong>net</strong>aren gainean<br />
lan egiteak tratamendu berezia behar duten eta synseten adierazpenean<br />
eragina duten bi fenomeno linguistiko azaldu ditugu:<br />
• Lexikalizazioa: Ikusi dugun legez, hizkuntzen arteko lexikalizazioa<br />
ez dator beti bat; hau da, hizkuntza bateko kontzeptuak ez dira beti<br />
era berdinean lexikalizatzen beste hizkuntzetan. Honi aurre egin ahal<br />
izateko, lexikalizazioaren eta fenomeno honen kasuistikaren adibideak<br />
aurkeztu eta aztertu ditugu. Azterketa horretan, argi geratu da lexikalizazioaren<br />
mugak lausoak direla, eta askotan lan zaila dela hitz bat edo<br />
hitz anitzeko bat lexikalizatua dagoen ala ez ebaztea. Lexikalizazioaren<br />
eztabaidak eragoztearren, eta LNPko atazen erabilgarritasunari begira,<br />
<strong>Euskal</strong> <strong>WordNet</strong>en zer adierazpen mota txertatu behar genituen zehaztu<br />
dugu. Laburbilduz, irizpide hauen bitartez, honako hau arrazoitu<br />
dugu: lexikalizaturiko ordainez gain, zalantzazko lexikalizazioa duten<br />
ordainak ere <strong>Euskal</strong> <strong>WordNet</strong>en gehitzea beharrezkoa dela.<br />
• Hierarkia kontzeptualen antolaketa: Hizkuntza ezberdi<strong>net</strong>ako<br />
EBLak bateratzean, bi hierarkien artean aldeak daudela ere azpimarratu<br />
dugu. Honen adierazgarri, <strong>Euskal</strong> <strong>WordNet</strong>en gertatzen den<br />
auto-hiponimia faltsua dugu: hizkuntza batean bi hitz desberdinekin<br />
adierazten den desberdintasun hierarkikoa, bete hizkuntzetan ez da<br />
hain argia hitz bera erabiltzen delako. Hierarkiaren eraginez ematen<br />
diren fenomenoak eta kasuistika aztertu ditugu, eta hauek guztiek <strong>Euskal</strong><br />
<strong>WordNet</strong>en izango duten tratamendurako irizpideak ere definitu<br />
ditugu, fenomeno bera beti era berean adierazia izan dadin EBLan.<br />
• Irizpide hauek eraginda, synseten errepresentaziorako <strong>Euskal</strong> Word-<br />
Neten marka edo ezaugarri berriak sortu ditugu. Horrekin batera, hitz<br />
anitzeko esapideen (HAEen) barne-errepresentazio aberatsago baten<br />
proposamena ere egin dugu, non HAEaren barne-osagaiak harreman<br />
semantikoen bidez erlazionatzen diren. Honenbestez, abiapuntu gisa<br />
hartu dugun EBLaren errepresentazioa hedatu eta aberastu dugula<br />
esan dezakegu.
VIII.2 Ekarpenak 233<br />
VIII.1.4 <strong>Euskal</strong> <strong>WordNet</strong> eta hautapen-murriztapenak<br />
<strong>Euskal</strong> <strong>WordNet</strong> hautapen-murriztapenen informazioarekin hedatu ahal izateko<br />
egin dugun ikerketa azaldu dugu. Ingeleseko eta euskarako kirol-arloko<br />
aditz batzuen objektuen eta subjektuen hautapen-murriztapenen azterketa<br />
deskribatu dugu, eta honako emaitza hauek lortu ditugu:<br />
• Hainbat eskuratze-teknika erabiliz, ingeleseko eta euskarako corpus ezberdi<strong>net</strong>atik<br />
eskuratutako hautapen-murriztapenen ebaluazioa eta azterketa<br />
konparatiboa.<br />
• Hautapen-murriztapenak eleanitzak direnaren zantzuak topatu ditugu;<br />
zehazkiago esanda, ingeleserako eskuratutako hautapen-murriztapenak<br />
euskaraz ere erabilgarriak izan daitezkeela egiaztatu dugu.<br />
VIII.2 Ekarpenak<br />
Tesi-lan honen ekarpen nagusienak euskararen semantika lantzeko EBL eleanitza<br />
(<strong>Euskal</strong> <strong>WordNet</strong>) eta honen corpus osagarria (EuSemcor) dira. VIII.1<br />
taulan, gaur egun, <strong>Euskal</strong> <strong>WordNet</strong>en dauden izenen eta aditzen kopuruak<br />
aurkezten ditugu; VIII.2 taulan EuSemcorrekoak.<br />
Guztira Izenak Aditzak<br />
Adierak 50.670 41.160 9.510<br />
Lemak 26.565 23.069 3.496<br />
Synsetak 32.456 28.705 3.751<br />
Hutsune lexikalak 2.499 2.198 301<br />
Izen bereziak 722 722 0<br />
VIII.1 Taula: <strong>Euskal</strong> <strong>WordNet</strong>: kopuruak<br />
Bestalde, EBLen garapenaren arloan lagungarri izan daitezkeen hurrengo<br />
ekarpenak ere aurkezten ditugu:<br />
• EBLen azterketa kritikorako bibliografia-bilketa eta azterketa konparatiboa<br />
egin dugu, non egun LNPren arloan oihartzuna duten<br />
EBL-ereduen ezaugarri nagusiak aurkeztu ditugun.
234 Ondorioak eta etorkizuneko lanak<br />
Eginak Egingabeak Guztira<br />
Hitz Agerpen Hitz Agerpen Hitz Agerpen<br />
Polisemikoak 442 39.208 2.888 29.663 3.330 68.871<br />
Monosemikoak 192 7.281 1.618 9.325 1.810 16.606<br />
EusWNen ez daude 83 487 10.987 39.449 11.070 39.936<br />
Guztira 717 46.976 15.493 78.437 16.210 125.413<br />
VIII.2 Taula: EuSemcor: kopuruak<br />
• <strong>Euskal</strong> <strong>WordNet</strong>en diseinuaren deskribapenarekin batera, estaldura eta<br />
kalitatea uztatzea helburu duen eraikuntza-metodologia proposatu dugu.<br />
• EBL eleanitz bat sortzean azaltzen diren fenomeno linguistikoen deskribapena<br />
egin dugu, eta, gainera, hauek EBLan lantzeko eta adierazteko<br />
irizpideak zehaztu ditugu.<br />
• EBL baten eta semantikoki etiketatutako corpus baten garapenak bateratzeko<br />
bideak erakutsi ditugu.<br />
• MCRren ereduaren aberasketa: HAEen osagaiak semantikoki erlazionatzen<br />
dituen errepresantazio-eredu bat proposatu dugu.<br />
• Hautapen-murriztapenen eskuratze automatikoaren ebaluazio linguistikoa<br />
egin dugu. Honi esker, hautapen-murriztapenen eskuratze automatikoa<br />
garatzeko aukera eta proposamen berriak eskaini ahal izan<br />
ditugu, gerora, lortuko dugun informazio hori EBLan txertatzeko asmoarekin.<br />
VIII.3 Etorkizuneko lanak<br />
<strong>Euskal</strong> <strong>WordNet</strong> egunez egun handitzen eta eguneratzen ari da, eta horrekin<br />
batera, <strong>Euskal</strong> <strong>WordNet</strong>eko synsetekin eskuz etiketatzen ari garen euskarako<br />
corpusa (EuSemcor). Egun, maiztasun handieneko izenen lanketa amaitzen<br />
ari gara, eta, dagoeneko, aditzen aberasketari ere ekin zaio. Etorkizunean,<br />
gure asmoa aditzak, adjektiboak eta adberbioak (ordena horretan) lantzea<br />
da.
VIII.3 Etorkizuneko lanak 235<br />
Bestalde, <strong>Euskal</strong> <strong>WordNet</strong>en aberasteko hurrengo ikerlerroak proposatzen<br />
ditugu:<br />
• <strong>Euskal</strong> <strong>WordNet</strong> kontzeptu berriekin aberastea:<br />
<strong>WordNet</strong>en ez dauden eta zerrendatuta ditugun, euskarako kontzeptuak<br />
(trikitixa, ikastola...bezalakoak) EBLan sartu nahi ditugu. Egitasmo hau<br />
betetzeko, bestelako word<strong>net</strong>etan ataza hau nola egiten duten ezagutu eta<br />
gure metodologia definitu beharko dugu, sortzen diren zailtasun berriei aurre<br />
eginez.<br />
• HAEen barne-errepresentazioa zehaztea:<br />
HAEen barne-errepresentazioaren proposamena EBLan gauzatu nahi dugu.<br />
Horretarako, Agirre eta Lersundiren (2001) metodo erdiautomatikoak erabiltzea<br />
pentsatzen dugu, barne-egiturako synsetak eta beraien arteko harreman<br />
semantikoak automatikoki desanbiguatu ahal izateko. Eratorpenaren azterketarako<br />
sortutako metodo erdiautomatiko horrek, hiztegietako definizioetan<br />
oinarrituta, eratorritako hitza eta bere erroaren arteko harreman semantikoa<br />
zehazten laguntzen du. Hala, metodo hau HAEen osagaien arteko harremanak<br />
zehazteko erabili aurretik, metodoaren berrikuspena egin beharko genuke,<br />
hau da, HAEen azterketarako egokitu beharko genuke.<br />
• <strong>Euskal</strong> <strong>WordNet</strong> informazio gehiagorekin aberastea:<br />
Aipatu izan dugun bezala, nahiz eta gure EBLaren garapena <strong>WordNet</strong>en<br />
egitura eta oinarriak izan, ikuspegi eta metodologia ezberdinak erabilita egin<br />
zitekeen:<br />
(a) <strong>WordNet</strong>en hierarkian jarraituta eta bertako synsetei zuzenean esleituta<br />
euskarako ordainak.<br />
(b) Guk geuk sortuta euskarako adieren inbentarioa eta hierarkia.<br />
Tesi-lan ho<strong>net</strong>an <strong>Euskal</strong> <strong>WordNet</strong>en garapena lehenengoan oinarritu dugu,<br />
eta ingeleseko kontzeptuak abiapuntutzat harturik, euskarako ordainak<br />
lotu ditugu. Hala ere, (b) hurbilpena ez dugu baztertu. Izan ere, azken<br />
helburu gisa, bi hurbilpenen abantailak baliatzea erabaki dugu; beste euskarako<br />
hiztegietatik erauzitako hierarkiak eta erlazio semantikoak ere <strong>Euskal</strong><br />
<strong>WordNet</strong>en txertatu nahi ditugu. Dagoeneko <strong>Euskal</strong> Hiztegitik (Sarasola,
236 Ondorioak eta etorkizuneko lanak<br />
1996) hierarkiak eta erlazio semantikoak erauzi dira (Agirre et al., 2003c),<br />
eta emaitza horietako batzuk <strong>Euskal</strong> <strong>WordNet</strong>en txertatzen hasiak bagara<br />
ere, etorkizunean lan hori masiboki egin nahiko genuke.<br />
Ho<strong>net</strong>az gain, ez dugu baztertzen <strong>Euskal</strong> <strong>WordNet</strong>en euskarako edo erdarako<br />
beste lan eta formalismoetako informazioa gehitzea; esate baterako,<br />
dagoeneko IXA taldean ezagutza lexiko-semantikoaren arloan lortutako emaitzak<br />
(Arriola, 2000; Aldezabal, 2004; Martínez, 2005; Lersundi, 2005; Ansa<br />
et al., 2005), edota <strong>WordNet</strong>en eredutik gertu dauden beste lan konputazionaletako<br />
informazioa —azterketa bibliografikoan aipatutakoena, adibidez—<br />
oso baliagarria izan dakiguke.<br />
Aditzen kasuan, esate baterako, ia eredu guztiak bat datoz multzokatze<br />
semantiko zabalagoak egitearekin, adiera oso zehatzak izanda corpus bat<br />
etiketatzea oso zail izaten baita. Ildo ho<strong>net</strong>atik, III.2.4 atalean azaldu dugun<br />
PropBank aipa dezakegu. EBL ho<strong>net</strong>ako sarrera lexikalak VerbNeten<br />
(Kipper et al., 2000) dagozkien sarrerekin lotuta daude. Aldi berean, Verb-<br />
Neteko sarrera bakoitza <strong>WordNet</strong>eko synset batekin (edo gehiagorekin) loturik<br />
dago. Hortaz, lotura honi probetxua atera geniezaioke gure EBLko<br />
aditzak VerbNeteko eta PropBankeko informazio sintaktiko-semantikoarekin<br />
aberasteko. Arrazoi honengatik eta LNPn rolen etiketatze automatikoak hartu<br />
duen indarrarengatik, IXA taldea ere aditzentzat eredu hau garatzen hasi<br />
da euskararako (Agirre et al., 2006d), eta etorkizunean <strong>Euskal</strong> <strong>WordNet</strong>ekin<br />
lotzeko asmoa dago.<br />
• Hautapen-murriztapenen aztertzea:<br />
<strong>Euskal</strong> <strong>WordNet</strong>en aberasketan zabaldutako beste ikerlerroa hautapenmurriztapenena<br />
da. IXA taldean arlo honen inguruan lortutako emaitzak<br />
(Martínez, 2005) <strong>Euskal</strong> <strong>WordNet</strong>en txertatu aurretik ebaluatu ditugu. Azterketa<br />
hau hastape<strong>net</strong>an dago eta etorkizunean gehiago sakondu nahi dugu.<br />
Alde batetik, kirolaren domeinuaz gain, beste domeinu batzuetako aditzak<br />
ere aztertu nahiko genituzke (finantzaren domeinukoak, adibidez). Bestalde,<br />
eskuratze-tekniken algoritmoak hobetzen saiatuko gara, eta eskuratzeteknika<br />
mota gehiagorekin ere probatu nahi dugu.<br />
<strong>Euskara</strong>ren hautapen-murriztapenei dagokienez, euskarako eskuratzeteknikak<br />
hobetzeko semantikoki etiketatzen ari garen corpusa (EuSemcor)<br />
erabiltzea pentsatua dugu. Azken helburua, eskuratze-teknika egokiarekin jo<br />
ondoren, eskuratzen diren hautapen-murriztapenak <strong>Euskal</strong> <strong>WordNet</strong>en txertatzea<br />
da.
Bibliografia<br />
Aduriz I., Agirre E., Aldezabal I., Alegria I., Ansa O., Arregi X., Arriola<br />
J.,ArtolaX.,Díaz de Ilarraza A., Ezeiza N., Gojenola K., Maritxalar A.,<br />
Maritxalar M., Oronoz M., Sarasola K., Soroa A., Urizar R., eta Urkia<br />
M. A framework for the automatic processing of Basque. Proceedings of<br />
Workshop on Lexical Resources for Minority Languages, Granada, 1998a.<br />
Aduriz I., Aldezabal I., Ansa O., Artola X., eta Díaz de Illarraza A. EDBL: a<br />
multi-purposed lexical support for the treatment of Basque. Proceedings of<br />
the First International Conference on Language Resources and Evaluation<br />
(LREC), Granada, 1998b.<br />
Aduriz I., Alegria I., Arriola J., Artola X., Díaz de Ilarraza A., Ezeiza N.,<br />
eta Urkia M. EUSLEM: un lematizador/etiquetador de textos en euskera.<br />
Actas del X congreso de la Sociedad Española para el Procesamiento del<br />
Lenguaje Natural (SEPLN), Kordoba, 1994.<br />
Aduriz I., Aranzabe M., Arriola J., Atutxa A., Díaz de Illarraza A., Ezeiza<br />
N., Gojenola K., Oronoz M., Soroa A., eta Urizar R. Methodology and<br />
steps towards the construction of EPEC, a corpus of written Basque taggen<br />
at morphological and syntactic levels fot the automatic processing. In Wilson<br />
A., Rayson P., eta Archer D., editors, Corpus Linguistics Around the<br />
World, Book series: Language and Computers, 1–15, Rodopi (Holanda),<br />
2006.<br />
Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K.,<br />
Quintian M., eta Pociello E. <strong>Euskal</strong> <strong>WordNet</strong>: euskararako<br />
ezagutza-base lexiko-semantikoa. <strong>Euskal</strong>ingua, (7), 2005a. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).
238 BIBLIOGRAFIA<br />
Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal<br />
K., Quintian M., eta Pociello E. Improving the Basque<br />
<strong>WordNet</strong> by corpus annotation. Proceedings of Third International<br />
<strong>WordNet</strong> Conference, Jeju (Korea), 2006a. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).<br />
Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />
M., eta Pociello E. A methodology for the joint development of the Basque<br />
<strong>WordNet</strong> and Semcor. Proceedings of the 5th International Conference on<br />
Language Resources and Evaluations (LREC), Genoa (Italia), 2006b. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).<br />
Agirre E., Aldezabal I., eta Pociello E. A pilot study of English selectional<br />
preferences and their cross-lingual compatibility with Basque.<br />
Proceedings on International Conference on Text Speech and Dialogue<br />
(TSD), Ceske Budejovice (Txekiar Errepublika), 2003a. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).<br />
Agirre E., Aldezabal I., eta Pociello E. Lexicalization and multiword<br />
expressions in the Basque <strong>WordNet</strong>. Proceedings of Third<br />
International <strong>WordNet</strong> Conference, Jeju (Korea), 2006c. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).<br />
Agirre E., Alegria I., Arregi X., Artola X., Díaz de Ilarraza A., Maritxalar M.,<br />
Sarasola K., eta Urkia M. Xuxen: a spelling checker/corrector for Basque<br />
based in two-level morphology. Proceedings of ANLP’92, Povo (Trento),<br />
1992.<br />
Agirre E., Ansa O., Arregi X., Arriola J., Díaz de Ilarraza A., Pociello<br />
E., eta Uria L. Methodological issues in the building of the Basque<br />
<strong>WordNet</strong>: quantitative and qualitative analysis. Proceedings of<br />
First International <strong>WordNet</strong> Conference, Mysore (India), 2002. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).
BIBLIOGRAFIA 239<br />
Agirre E., Arregi X., Arriola J., eta Artola X. EDBL: euskararen datu-base<br />
lexikala. Barne-txostena (LSI/TR 8-94), <strong>Euskal</strong> Herriko Unibertsitatea,<br />
1994a.<br />
Agirre E., Atserias J., McCarthy D., Real F., Rigau G., eta Rodríguez H.<br />
MEANING: developing multilingual web-scale language technologies. Working<br />
paper 5.2a. Barne-txostena, 2003b.<br />
Agirre E., Atutxa A., Gojenola K., eta Sarasola K. Exploring portability<br />
of syntactic information from English to Basque. Proceedings of the 4rd<br />
International Conference on Language Resources and Evaluation (LREC),<br />
Lisboa (Portugal), 2004.<br />
Agirre E. eta Lersundi M. Extracción de relaciones léxico-semánticas a partir<br />
de palabras derivadas usando patrones de definición. Proceedings of the<br />
Annual SEPLN Meeting, 2001.<br />
Agirre E. eta Lersundi M. Semantic interpretations of postpositions and<br />
prepositions: a multilingual inventory for Basque, English and Spanish.<br />
Workshop on The linguistic dimensions of prepositions and their use in<br />
computational linguistics formalisms and applications, Tolouse, France,<br />
2003.<br />
Agirre E. eta Martínez D. Learning class-to-class selectional preferences.<br />
Proceedings of the Workshop “Computational Natural Language Learning”,<br />
Tolosa (Frantzia), 2001.<br />
Agirre E. eta Martínez D. Integrating selectional preferences in <strong>WordNet</strong>.<br />
Proceedings of First International <strong>WordNet</strong> Conference, Mysore (India),<br />
2002.<br />
Agirre E. Kontzeptuen arteko erlazio-izaeraren formalizazioa ontologiak erabiliaz:<br />
Dentsitate Kontzeptuala. Doktoretza-tesia, <strong>Euskal</strong> Herriko Unibertsitatea,<br />
Donostia, 1999.<br />
Agirre E., Aldezabal I., Etxeberria J., Izagirre E., Mendizabal K., Quintian<br />
M., eta Pociello E. Eusemcor: euskarako corpusa semantikoki etiketatzeko<br />
eskuliburua: editatze- etiketatze- eta epaitze-lanak. Barne-txostena,<br />
<strong>Euskal</strong> Herriko Unibertsitatea, 2005b.
240 BIBLIOGRAFIA<br />
Agirre E., Aldezabal I., Etxeberria J., eta Pociello E. A preliminary<br />
study for building the Basque Propbank. Proceedings<br />
of the 5th International Conference on Language Resources<br />
and Evaluation (LREC), Genoa (Italia), 2006d. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).<br />
Agirre E., Aldezabal I., eta Pociello E. <strong>Euskara</strong>rako ezagutza-base lexiko-semantikoaren<br />
eredu-hautaketa eta garapena: <strong>Euskal</strong> <strong>WordNet</strong>.<br />
GOGOA: <strong>Euskal</strong> Herriko Unibertsitateko Hizkuntza, Ezagutza, Komunikazio<br />
eta Ekintzari buruzko Aldizkaria, V-2:237–266, 2005c. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).<br />
Agirre E., Aldezabal I., eta Pociello E. Lexicalization and multiword<br />
expressions in the Basque <strong>WordNet</strong>. In Fernández B. eta<br />
Laka I., editors, Andolin gogoan: Essays in honour of the Professor<br />
Eguzkitza, 51–68. <strong>Euskal</strong> Herriko Unibertsitatea, 2006e. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).<br />
Agirre E., Ansa O., Arregi X., Artola X., Zubillaga X., Díaz de Ilarraza<br />
A., eta Lersundi M. A conceptual schema for a Basque lexical-semantic<br />
framework. Conference on Computational Lexicography and Text Research,<br />
Budapest (Hungaria), 2003c.<br />
Agirre E., Arregi X., Artola X., Díaz de Ilarraza A., Edvard F., eta Sarasola<br />
K. Lexical knowledge representation in an intelligent dictionary help<br />
system. Proceedings of COLING’94, 544–550, Kyoto (Japonia), 1994b.<br />
Agirre E. eta Lopez de la Calle O. Clustering <strong>WordNet</strong> word senses. Proceedings<br />
of the conference of Recent Advances in Natural Laguage Processing,<br />
Borovets (Bulgaria), 2003.<br />
Agirre E. eta Martínez D. Exploring automatic word sense disambiguation<br />
with decision lists and the Web. Proceedings of the Semantic Annotation<br />
And Intelligent Annotation Workshop organized by COLING, Luxenburgo,<br />
2000. URL http://arXiv.org/abs/cs/0010024. (2007-07-02an atzitua).
BIBLIOGRAFIA 241<br />
Aldezabal A., Ansa O., Arrieta B., Artola X., Ezeiza N., Hernández G., eta<br />
Lersundi M. EDBL: a general lexical basis for the automatic processing<br />
of Basque. Proceedings of the IRCS Workshop on Linguistic Databases,<br />
Filadelfia (EEBB), 2001a.<br />
Aldezabal I. Aditz-azpikategorizazioaren azterketa sintaxi partzialetik sintaxi<br />
osorako bidean. 100 aditzen azterketa. Levin-en (1993) lana oinarri hartuta<br />
eta metodo informatikoak baliatuz. Doktoretza-tesia, <strong>Euskal</strong> Herriko<br />
Unibertsitatea, 2004.<br />
Aldezabal I., Aranzabe M., Atutxa A., Gojenola K., Sarasola K., eta Goenaga<br />
P. Extracción masiva de información sobre subcategorización verbal vasca<br />
a partir de corpus. Actas del XVII Congreso de la SEPLN Universidad de<br />
Jaén, Jaén, 2001b.<br />
Aldezabal I., Arriola J.M., Díaz de Ilarraza A., eta Sarasola K. Hizkuntzalaritza<br />
Konputazionala. Udako <strong>Euskal</strong> Unibertsitatea, 2005.<br />
Alegria I., Ansa O., Artola X., Ezeiza N., Gojenola K., eta Urizar R. Representation<br />
and treatment of multiword expressions in basque. Proceedings<br />
of the ACL on Multiword Expressions, 48–55, Bartzelona, 2004.<br />
Alegria I., Artola I., Sarasola K., eta Urkia M. Automatic morphological<br />
analysis of Basque. Proceedings of the Annual SEPLN Meeting, Sevilla,<br />
1996.<br />
Allen J. Towards a general theory of action and time. Artificial Intelligence,<br />
23:123–154, 1984.<br />
Alonge A., Calzolari N., Vossen P., Bloksman L., Irene Castellón T.M., eta<br />
Peters W. The linguistic design of the Euro<strong>WordNet</strong> database. Computers<br />
and the Humanities, 32 lib., 91–115. 1998.<br />
Alonso L., Capilla J., Castellón I., Fernández A., eta Vázquez G. The Sensem<br />
project: syntactic-semantic annotation of sentences in Spanish. Proceedings<br />
of the International Conference RANLP, Borovets (Bulgaria), 2005.<br />
Amsler R. The Structure of the Merriam-Webster Pocket Dictionary.<br />
Doktoretza-tesia, University of Texas, 1980.
242 BIBLIOGRAFIA<br />
Amsler R. eta White J. Development of a computational methodology for<br />
deriving natural language semantic structures via analysis of machinereadable<br />
dictionaries. Barne-txostena, National Science Foundation, University<br />
of Texas, 1979.<br />
Ansa O., Arregi X., Esparza I., eta Valverde A. Un entorno para el desarrollo<br />
y la evaluación de un sistema de búsqueda de respuestas en euskera.<br />
Proceedings of the Annual SEPLN Meeting, Granada, 2005.<br />
Aranzabe M., Arriola J., Atutxa A., Balza I., eta Uria L. Guía para la<br />
anotación sintáctica manual de Eus3LB (corpus del euskera anotado a<br />
nivel sintáctico, semántico y pragmático). Barne-txostena, Eukal Herriko<br />
Unibertsitatea, 2003.<br />
Aranzabe M., Arriola J.M., eta Díaz de Illaraza A. Towards a dependency<br />
parser of Basque. Proceedings of the Coling 2004 Workshop on Recent<br />
Advances in Dependency Grammar, Geneva (Suitza), 2004.<br />
Arriola J. EUSKAL HIZTEGIAren azterketa eta egituratzea ezagutza lexikalaren<br />
eskuratze automatikoari begira. Aditz-adibideen analisia Murriztapen-<br />
Gramatika baliatuz, azpikategorizazioaren bidean. Doktoretza-tesia, <strong>Euskal</strong><br />
Herriko Unibertsitatea, 2000.<br />
Arriola J., Artola X., Maritxalar A., eta Soroa A. A methodology for the<br />
analysis of verb usage examples in a context of lexical knowledge acquisition<br />
from dictionary entries. Proceedings of EACL’99, Linguistically Interpreted<br />
Corpora, Bergen (Norvegia), 1999.<br />
Artola X. HIZTSUA: Hiztegi-sistema urgazle adimenduaren sorkuntza eta<br />
eraikuntza. Doktoretza-tesia, <strong>Euskal</strong> Herriko Unibertsitatea, 1993.<br />
Atserias J., Villarejo L., Rigau G., Agirre E., Carroll J., Magnini B., eta<br />
Vossen P. The MEANING Multilingual Central Repository. Proceedings<br />
of the 2nd Global <strong>WordNet</strong> Conference, Brno (Txekiar Errepublika), 2004.<br />
Aulestia G. eta White L. English-Basque Dictionary. University of Nevada<br />
Press, 1990.<br />
Banerjee S. eta Pedersen T. An adapted lesk algorithm for word sense<br />
disambiguation using <strong>WordNet</strong>. Proceedings of the Third International
BIBLIOGRAFIA 243<br />
Conference on Intelligent Text Processing and Computational Linguistics<br />
(CICLING-02), Mexiko, 2002.<br />
Barwise J. eta Perry J. Situations and Attitudes. Bradford Books. MIT Press,<br />
1983.<br />
Bates M., Moser M., eta Stallard D. The IRUS transportable natural language<br />
database interface. In Kershberg L., editor, Expert Database Systems.<br />
Benjaming/Cummings, Menlo Park (Kalifornia), 1986.<br />
Benítez L., Escudero G., Farreras J., eta Rigau G. WWI: a multilingual<br />
<strong>WordNet</strong> interface using the web. Barne-txostena, Departament de LSI,<br />
Universitat Politécnica de Catalunya, 1998.<br />
Bentivogli L. eta Pianta E. Extending <strong>WordNet</strong> with syntagmatic information.<br />
Proceedings of Second Global <strong>WordNet</strong> Conference, 47–53, Brno<br />
(Txekiar Errepublika), 2002.<br />
Bentivolgi L. eta Pianta E. Expliting parallel texts in the creation of multilingual<br />
semantically annotated resources: The Multisemcor Corpus. Natural<br />
Language Engineering, 11:247–261, 2005.<br />
Binot J. eta Jensen K. A semantic expert using an on-line standard dictionary.<br />
Proceedings of the 10th International Joint Conference on Artificial<br />
Intelligence (IJCAI), 709–714, Milan (Italia), 1987.<br />
Boas H.C. Bilingual FrameNet Dictionaries for Machine Translation. Proceedings<br />
of the Third International Conference on Language Resources and<br />
Evaluation, Las Palmas, 2002.<br />
Boguraev B. eta Briscoe T. Computational Lexicography for Natural Language<br />
Processing. Longman - John Wiley and Sons, London - New York,<br />
1989.<br />
Boguraev B. eta Briscoe T. Large lexicons for Natural Language Processing.<br />
Computational Linguistics, 13(3-4):203–218, 1993.<br />
Borgo S., Guarino N., eta Masolo C. A pointless theory of space based on<br />
strong connection and congruence. In Aiello L.C. eta Doyle J., editors,<br />
Principles of Knowledge Representation and Reasoning. Morgan Kauffman,<br />
1996.
244 BIBLIOGRAFIA<br />
Bresnan J. eta Kaplan R.M. Introduction: grammars as mental representations<br />
of language. In Bresnan J., editor, The Mental Representation of<br />
Grammatical Relations. MIT Press, Cambridge (Massachussetts), 1982.<br />
Brown P., Lai J., eta Mercer R. Aligning sentences in parallel corpora. Proceedings<br />
of the 29th Annual Meeting of the Association for Computational<br />
Linguistics (ACL), 169–176, Berkeley (Kalifornia), 1991.<br />
Bruce R., Wilks Y., Guthrie L., Slator B., eta Dunning T. NounSense – a<br />
disambiguated noun taxonomy with a sense of humour. Barne-txostena,<br />
Computer Research Laboratory, New Mexico State University, Las Cruces,<br />
NM, 1992.<br />
Buitelaar P. Systematic Polysemy and Underspecification. Doktoretza-tesia,<br />
Brandeis University, 1998.<br />
Cahill A., McCarthy M., Genabith J., eta Way A. Parsing with PCFGs and<br />
automatic F-structure annotation. Proceedings of the LFG02 Conference,<br />
2002.<br />
Calzolari N. Issues for lexicon building. In Zampolli A., Calzolari N., eta<br />
Palmer M., editors, Current Issues in Computational Linguistics: Essays<br />
in Honour of Don Walker, 267–281. Giardini Editori e Stampatori - Kluwer<br />
Academic Publishers, Pisa - Dordrecht, 1994.<br />
Calzolari N., Charles J.F., Grishman R., Ide N., Lenci A., MacLeod C.,<br />
eta Zampolli A. Towards best practice for multiword expressions in computational<br />
lexicons. Proceedings of the 3rd International Conference on<br />
Language Resources and Evaluation, 1934–1940, 2002.<br />
Carreras X. eta Màrquez L. Introduction to the CoNLL-2004 shared task:<br />
semantic role labeling. HLT-NAACL 2004 Workshop: Eighth Conference<br />
on Computational Natural Language Learning, Boston, 2004.<br />
Carroll J., Rigau G., Magnini B., Agirre E., Rodríguez H., eta Atserias J.<br />
MEANING: cycle 1: Acquisition. Barne-txostena, 2003.<br />
Castellón I. Lexicografía computacional: adquisición automática de conocimiento<br />
léxico. Doktoretza-tesia, Universitat de Barcelona, 1992.
BIBLIOGRAFIA 245<br />
Chodorow M., Byrd R., eta Heidorn G. Extracting semantic hierarchies from<br />
a large on-line dictionary. Proceedings of the 23rd Annual Meeting Association<br />
for Computational Linguistics (ACL), 299–304, Chicago (Illinois),<br />
1985.<br />
Chomsky N. Aspects of the Theory of Syntax. MIT Press, Cambridge (Massachussetts),<br />
1965.<br />
Chomsky N. Lectures on Government and Binding. The Pisa Lectures. Mounton<br />
de Gruyter, Berlin - New York, 1987.<br />
Chomsky N. A minimalist program for linguistic theory. MIT Occasional<br />
Papers in Lingusitics, (1), 1992.<br />
Church K., Gale W., Hanks P., eta Hindle D. Using statistics in lexical<br />
analysis. Lexical Acquisition: Exploting On-Line Resources to Build a<br />
Lexicon, 115–164. Lawrence Erlbaum Associates, Hillsdale (New Jersey),<br />
1991.<br />
Civit M., Aldezabal I., Pociello E., Taulé M., Aparicio J., Màrquez<br />
L., Navarro B., Castellví J., eta Martí M. 3LB-LEX: léxico verbal<br />
con frames sintácticos-semánticos. Revista de la Asociación Española<br />
para el Procesamiento del Lenguaje Natural, Granada, 2005a. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).<br />
Civit M., Castellví J., Morante R., Oliver A., eta Aparicio J. 4LEX: A multilingual<br />
lexical resource. Cross- Language Knowledge Induction Workshop,<br />
Errumania, 2005b.<br />
Collins. The Harper Collins Spanish-English/English-Spanish Dictionary.<br />
William Collins Sons and Co. Ltd., 1971.<br />
Collins. Collins Master. Grijalbo, 1998.<br />
Copestake A. An approach to building the hierarchical element of a lexical<br />
knowledge base from a machine readable dictionary. Proceedings of the<br />
First International Workshop Inheritance in NLP, 19–29, Tilburg (Holanda),<br />
1990.
246 BIBLIOGRAFIA<br />
Copestake A. eta Flickinger D. An open source grammar development environment<br />
and broad-coverage English grammar using HPSG. International<br />
Conference on Language Resources and Evaluation (LREC), Atenas, 2000.<br />
Cruse A. Meaning in Language: An Introduction to Semantics and Pragmatics.<br />
Oxford University Press, 2000.<br />
Cuypers I., Sánchez A., Schippers L., Adriaens G., Louw M., eta Forest P.<br />
Test specifications for Euro<strong>WordNet</strong>: internal data quiality and application<br />
in multilingual information retrieval. Barne-txostena, University of<br />
Amsterdam, 1997.<br />
Dalrymple M. Lexical Functional Grammar, 34. lib. of Syntax and Semantics.<br />
Academic Press, Londres (Ingalaterra), 2001.<br />
Demonte V. Detrás de la palabra. Estudios de gramática del español. Alianza<br />
Editorial, Madril, 1991.<br />
Demonte V. Teoría sintáctica: de las estructuras a la rección. Colección<br />
Lingüística. Síntesis, 1995.<br />
Dorr B. Machine translation. A view from the lexicon. Computational Linguistics,<br />
20(4), 1993.<br />
Dorr B. Large-scale acquisition of LCS-based lexicons for foreign language<br />
tutoring. Proceedings of the ACL Fifth Conference on Applied Natural<br />
Language Processing (ANLP), Washington, 1997.<br />
Dowty D. Word Meaning and Montague Grammar. Reidel, Dordrecht, 1979.<br />
Elhuyar. Elhuyar Hiztegia: euskara-gaztelania. Elhuyar Kultur Elkartea,<br />
1996.<br />
Elhuyar. Elhuyar Hiztegi Txikia. Elhuyar Kultur Elkartea, 1998.<br />
Elhuyar. Hiztegi Modernoa. Elhuyar Kultur Elkartea, 2000.<br />
Fellbaum C. <strong>WordNet</strong>. An Electronic Lexical Database. MIT Press, Cambridge<br />
(Massachussetts), 1998a.<br />
Fellbaum C. eta Kegl J. Taxonomic structures and cross-category linking in<br />
the lexicon. Proceedings of the Sixth Eastern States Conference on Linguistics,<br />
93–104, Columbus, 1989.
BIBLIOGRAFIA 247<br />
Fellbaum C. A semantic <strong>net</strong>work of English verbs. In Fellbaum C., editor,<br />
<strong>WordNet</strong>: An Electronic Lexicak Data-base. MIT Press, 1998b.<br />
Fellbaum C., Palmer M., Dang H.T., Delfs L., eta Wolf S. Manual and automatic<br />
semantic annotation with <strong>WordNet</strong>. Proceedings of the NAACL 2001<br />
Workshop on <strong>WordNet</strong> and Other Lexical Resources, Pittsburgh, 2001.<br />
Fernández A., Saint-Dizier P., Vázquez G., Kamel M., eta Benamara F. The<br />
Volem Project: a framework for the construction of advanced multilingual<br />
lexicons. Proceedings of Language Engineering Conference (LEC’02),<br />
Hyderabad (India), 2002.<br />
Fillmore C.J. Frames and the semantics of understanding. Quaderni di<br />
Semantica, 6.2 lib. 1985.<br />
Fillmore C.J. eta Baker C.F. FrameNet: Frame semantics meets the corpus.<br />
Proceedings of <strong>WordNet</strong> and Other Lexical Resources Workshop, Pittsburgh,<br />
2001.<br />
Fontenelle T., Adriaens G., eta de Brackeleer G. The lexical unit in the metal<br />
MT system. MT, 9:1–19, 1994.<br />
Fox E., Nutter T., Ahlswede T., Evens M., eta Marcowitz J. Building a large<br />
thesaurus for information retrieval. Proceedings of the 2nd Conference on<br />
Applied Natural Language Processing (ANLP), 101–108, Austin (Texas),<br />
1988.<br />
Francis W. eta Kucera H. Frequency Analysis of English Usage. Houghton<br />
Mifflin Company, Boston (Massachusetts), 1982.<br />
Gazdar G., Klein E., Pullum G., eta Sag I. Generalized Phrase Structure<br />
Grammar. Harvard University Press, Cambridge (Massachussetts), 1985.<br />
Gilarranz J., Gonzalo J., eta Verdejo F. An approach to conceptual text<br />
retrieval using the Euro<strong>WordNet</strong> multilingual semantic database. Proceedings<br />
of AAAI-96 Spring Symposium Cross-Language Text and Speech<br />
Retrieval, 1996.<br />
Giuglea A.M. eta Moschitti A. Knowledge discovergin using FrameNet, Verb-<br />
Net and PropBank. Proceedings of the Workshop on Ontology and Knowledge<br />
Discovering at ECML, Pisa (Italia), 2004.
248 BIBLIOGRAFIA<br />
Gojenola K. Guneak zuzendutako egitura sintagmatikoen gramatika (HPSG)<br />
eta euskararako aplikazioa. Barne-txostena, <strong>Euskal</strong> Herriko Unibertsitatea,<br />
1998.<br />
Gojenola K. <strong>Euskara</strong>ren sintaxi konputazionalerantz. Oinarrizko baliabideak<br />
eta beren aplikazioa aditzen azpikategorizazio-informazioaren erauzketan<br />
eta erroreen tratamenduan. Doktoretza-tesia, <strong>Euskal</strong> Herriko Unibertsitatea,<br />
2000.<br />
Gómez F., Hull R., eta Segami C. Acquiring knowledge from encyclopedic<br />
texts. Proceedings of the 4th Conference Applied Natural Language Processing<br />
(ANLP), 84–90, Sttugart (Alemania), 1994.<br />
Gómez F. Linking <strong>WordNet</strong> verb classes to semantic interpretation. In Harabagiu<br />
S., editor, Use of <strong>WordNet</strong> in Natural Language Processing Systems:<br />
Proceedings of the Conference, 58–64. Association for Computational Linguistics,<br />
Somerset (New Jersey), 1998.<br />
Grefenstette G. Evaluation techniques for automatic semantic extraction:<br />
comparing syntactic and window based approaches. Proceedings of SI-<br />
GLEX Workshop on Acquisition of lexical knowledge from text, Columbus,<br />
1993.<br />
Grishman R., Macleod C., eta Reyers A. Complex syntax: building a computational<br />
lexicon. Proceedings of the 15th annual meeting of the Association<br />
for the Computational Linguistics (COLING), 268–272, Kyoto (Japonia),<br />
1994.<br />
Grishman R. eta Sterling J. Acquisition of selectional patterns. Proceedings<br />
of COLLING-92, Nantes (Frantzia), 1992.<br />
Gruber T.R. Towards principles for the design of ontologies for knowledge<br />
sharing. Proceedings of the International Workshop on Formal Ontology,<br />
Padova (Italia), 1993.<br />
Guarino N. Semantic matching: formal ontological distinctions for information<br />
organization, extraction and integration. Information Extraction,<br />
139–170. Springer, Berlin (Alemania), 1997.<br />
Hale K.L. eta Keyser S.J. A view from the middle. Barne-txostena, Center<br />
of Cognitive Science, Cambridge, Massachussetts, 1987.
BIBLIOGRAFIA 249<br />
Harabagiu S.M. eta Moldovan D.I. An intelligent system for question answering.<br />
Proceedings of the 5th Conference on Intelligent Systems, Reno,<br />
1996.<br />
Hindle D. Noun classification from predicate-argument structures. Proceedings<br />
of the 28th Annual Meeting of the Association for Computational<br />
Linguistics, 327–329, 1990.<br />
Hindle D. eta Rooth M. Structural ambiguity and lexical relations. Proceedings<br />
of the 29th Annual Meeting of the Association for Computational<br />
Linguistics, 229–236, 1991.<br />
Ide N. eta Veronis J. Extracting knowledge bases from machine-readable<br />
dictionaries: have we wasted our time? Proceedings of the International<br />
Conference on Building and Sharing of Very Large-Scale Knowledge Bases,<br />
257–266, Japonia, 1993.<br />
Ingria R. Lexical information for parsing systems: points of convergence and<br />
divergence. In Walker D., Zampolli A., eta Calzolari N., editors, Automating<br />
the Lexicon: research and Practice in a Multilingual Environment.<br />
Cambrigde University Press, Cambridge, 1988.<br />
Jackendoff R.S. Semantic Structure. MIT Press, Cambridge (Massachussetts),<br />
1990.<br />
Jackendoff R.S. Brain, Meaning, Grammar, Evolution. Oxford University<br />
Press, 2000.<br />
Johnson C.R. eta Fillmore C.J. The FrameNet tagset for frame-semantic and<br />
syntactic coding of predicate-argument structure. Proceedings of the 1st<br />
Meeting of the North American Chapter of the Association for Computational<br />
Linguistics (ANLP-NAACL 2000), Seattle (Washington), 2000.<br />
King T.H., Crouch R., Riezler S., Dalrymple M., eta Kaplan R.M. The PARC<br />
700 Dependency Bank. Proceedings of the 4th International Workshop on<br />
Linguistically Interpreted Corpora, held at the 10th Conference of the European<br />
Chapter of the Association for Computational Linguistics (EACL’03),<br />
Budapest (Hungaria), 2003.
250 BIBLIOGRAFIA<br />
Kipper K., Dang H.T., eta Palmer M. Class-based construction of a verb<br />
lexicon. Proceedings of the Seventh National Conference on Artificial Intelligence,<br />
691–696, 2000.<br />
Kipper K., Palmer M., eta Rambow O. Extending PropBank with VerbNet<br />
semantic predicates. Workshop on Applied Interlinguas, Tiburon (Kalifornia),<br />
2002.<br />
Klavans J. eta Tzoukermann E. Dictionaries and corpora: combining corpus<br />
and machine-readable dictionary for building lexicons. Journal of Machine<br />
Translation, 10(3-4):185–218, 1996.<br />
Knight K. Building a large ontology for machine translation. Proceedings of<br />
the ARPA Human Language Technology Workshop, Princeton, 1993.<br />
Knight K. eta Luk S. Building a large-scale knowledge base for machine<br />
translation. Proceedings of the 12th American Association for artificial<br />
intelligence (AAAI), 773–778, Seatle (Washington), 1994.<br />
Kohl K.T., Jones D.A., Berwick R.C., eta Nomura N. Representing verb<br />
alternations in <strong>WordNet</strong>. In Fellbaum C., editor, <strong>WordNet</strong>: an Electronic<br />
Lexicak Data-base. MIT Press, 1998.<br />
Lenat D. Steps to sharing knowlegde. Toward very large knowledge bases,<br />
1995.<br />
Lenat D.B. eta Guha R.V. Building Large Knowledge-Based Systems. Addison<br />
Wesley, 1990.<br />
Lersundi M. Ezagutza-base lexikala eraikitzeko <strong>Euskal</strong> Hiztegiko definizioen<br />
azterketa sintaktiko-semantikoa. Hitzen arteko erlazio lexiko-semantikoak:<br />
definizio-patroiak, eratorpena eta postposizioak. Doktoretza-tesia, <strong>Euskal</strong><br />
Herriko Unibertsitatea, 2005.<br />
Levin B. English Verb Classes and Alternations. A Preliminary Investigation.<br />
The University of Chicago Press, Chicago - London, 1993.<br />
Lewandowski T. Diccionario de la Lingüística. Cátedra, 1992.<br />
Lin D. Principle based parsing without overgeneration. 31st Annual Meeting<br />
of the Association for Computational Linguistics, Columbus (Ohio), 1993.
BIBLIOGRAFIA 251<br />
Lyons J. Semantics. Cambridge University Press, 1977.<br />
Magnini B. eta Strapparava C. Using <strong>WordNet</strong> to improve user modelling<br />
in a web document recommender system. Proceedings of the NAACL 2001<br />
Workshop on <strong>WordNet</strong> and Other Lexical Resources, Pittsburgh, 2001.<br />
Mandala R., Takenobu T., eta Hozumi T. The use of <strong>WordNet</strong> in information<br />
retrieval. Proceedings of the COLING/ACL Workshop on Usage of<br />
<strong>WordNet</strong> in Natural Language Processing Systems, Montreal, 1998.<br />
Mann G. Building proper noun ontologies for question answering. Proceedings<br />
of the Coling 2002 Workshop ”SemaNet’02: Building and Using Semantic<br />
Networks”, 2002.<br />
Marcus M., Kim G., Marcinkiewicz M., MacIntyre R., Bies A., Ferguson M.,<br />
Katza K., eta Schasberger B. The Penn Treebank: annotating predicate<br />
argument structure. Proceedings of ARPA Workshop on Human language<br />
technology, San Frantzisko, 1994.<br />
Marcus M., Santorini B., eta Marcinkiewicz M. Building a large annotated<br />
corpus of English: The Penn TreeBank. Computational Linguistics, (19):<br />
313–330, 1993.<br />
Martínez D. Supervised Word Sense Disambiguation: facing Current Challenges.<br />
Doktoretza-tesia, <strong>Euskal</strong> Herriko Unibertsitatea, 2005.<br />
Matwin S., Szpakowicz S., eta Li X. A <strong>WordNet</strong>-based algorithm<br />
for word sense disambiguation. 1995. URL<br />
http://citeseer.ist.psu.edu/155268.html. (2007-07-02an atzitua).<br />
McCarthy D. Lexical Acquisition at the Syntax-Semantics Interface: Diathesis<br />
Alternations, Subcategorization Frames and Selectional Preferences.<br />
Doktoretza-tesia, University of Sussex, 2001.<br />
McCarthy D. Relating word<strong>net</strong> senses for word sense disambiguation. Proceedings<br />
of the EACL2006 Wordkshop Making Senses of Sense - Bringing<br />
Computational Linguistics and Psycholinguistics Together, 17–24, Trento<br />
(Italia), 2006.<br />
Michiels A. eta Nel J. Approaches to thesaurus production. Proceedings of<br />
the Ninth International Conference on Computational Linguistic, 227–232,<br />
Amsterdam, 1994.
252 BIBLIOGRAFIA<br />
Milhacea R. eta Moldovan D.I. Word Semantics for Information Retrieval:<br />
moving one step closer to the semantic web. International Conference on<br />
Tools in Artificial Intelligence, 2001.<br />
Miller G.A. <strong>WordNet</strong>: a dictionary browser. Proceedings of the First International<br />
Conference on Information in Data, Waterloo, 1985.<br />
Miller G.A., Chodorow M., Landes S., Leacock C., eta Thomas R.G. Using<br />
a semantic concordance for sense identification. Proceedings of the ARPA<br />
Human Language Technology Workshop, San Frantzisko, 1994.<br />
Miller G.A., Fellbaum C., eta Katherine J.M. Five papers on <strong>WordNet</strong>.<br />
URL ftp://ftp.cogsci.princeton.edu/pub/word<strong>net</strong>/5papers.ps. (2007-<br />
07-02an atzitua), 1993.<br />
Minnen G. Selective magic HPSG parsing, 1999. URL<br />
http://citeseer.ist.psu.edu/minnen99selective.html. (2007-07-02an<br />
atzitua).<br />
Montemagni S. Extracting typical subjects and objects of verbs from monoand<br />
bi-lingual dictionaries. Barne-txostena, ESPRIT BRA-7315 Acquilex-<br />
II, 1994.<br />
Moon Y.J. eta Kim Y.T. Concept-based verb translation in the Korean-<br />
English machine translation system. Journal of the Korea Information<br />
Science Society, 1995.<br />
Morris M. Morris Student. Klaudio Harluxet Fundazioa, 1998.<br />
Niles I. eta Pease A. Towards a standard upper ontology. Proceedings of the<br />
2nd International Conference on Formal Ontology in Information Systems,<br />
17–19, 2001.<br />
Nishida K., Torisawa K., eta Tsujii J. Efficient HPSG parsing algorithm with<br />
array unification, 1999. URL http://citeseer.ist.psu.edu/408471.html.<br />
(2007-07-02an atzitua).<br />
Oepen S., Flickinger D., Toutanova K., eta Manning C.D. A rich and dynamic<br />
Treebank for HPSG. In Proceedings of The First Workshop on Treebanks<br />
and Linguistic Theories (TLT2002), Sozopol (Bulgaria), 2002.
BIBLIOGRAFIA 253<br />
Ohara K.H., Fujii S., Saito H., Ishizaki S., Ohori T., eta Suzuki R. The<br />
Japanese FrameNet project: a preliminary report. Proceedings of Pacific<br />
Association for Computational Linguistics (PACLING03), 2003.<br />
Onyshkevych B. eta Nirenburg S. The lexicon in the scheme of KBMT<br />
things. Barne-txostena, Computing Research Laboratory, New Mexico<br />
State Laboratory, 1994.<br />
Osenova P. eta Simov K. The Bulgarian HPSG Treebank: specialization of<br />
the annotation scheme. Proceedings of the Second Workshop on Treebanks<br />
and Linguistic Theories (TLT2003), Växjö, 2003.<br />
Oxford. The Oxford Spanish Dictionary. Oxford University Press, 2003.<br />
Palmer M. eta Xue N. Annotating the propositions in the Penn Chinese<br />
Treebank. Proceedings of the Second Sighan Workshop, Sapporo (Japonia),<br />
2003.<br />
Palmer M. eta Kingsbury P. From TreeBank to PropBank. 2003. URL<br />
http://citeseer.ist.psu.edu/574953.html. (2007-07-02an atzitua).<br />
Pasca M. eta Harabagiu S.M. The informative role of <strong>WordNet</strong> in opendomain<br />
question answering. Proceedings of the NAACL 2001 Workshop<br />
on <strong>WordNet</strong> and Other Lexical Resources, Pittsburgh, 2001.<br />
Pereira F., Tisgby N., eta Lee L. Distributional clustering of English words.<br />
In Proceedings of the 31st Annual Meeting of the Association for Computational<br />
Linguistics, 183–19, 1993.<br />
Pociello E. Aditzen hautapen-murriztapenak: kirol domeinura mugatutako<br />
ingeleseko hautapen-murriztapenak eta euren baliagarritasuna<br />
euskararako. Hastapeneko lana. Doktoretza-ikastaroetako<br />
defentsa-lana, <strong>Euskal</strong> Herriko Unibertsitatea, 2004a. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).<br />
Pociello E. Sintaxi-semantika elkargunea zenbait teoriatan: euskararen<br />
ezagutza-basea lexiko-semantikorantz. Doktoretza-ikastaroetako<br />
defentsa-lana, <strong>Euskal</strong> Herriko Unibertsitatea, 2004b. URL<br />
http://ixa.si.ehu.es/Ixa/Argitalpenak/kidearen argitalpenak?kidea=<br />
1000809016. (2007-07-02an atzitua).
254 BIBLIOGRAFIA<br />
Pollard C. eta Sag I. Head-Driven Phrase Structure Grammar. TheUniversity<br />
of Chicago Press, 1994.<br />
Popowich F. eta Vogel C. Chart parsing Head-Driven Phrase Structure<br />
Grammar. Barne-txostena 90-1, 1990.<br />
Poznanski V. eta Sanfilippo A. Detecting dependencies between semantic<br />
verb subclasses and subcategorization frame in text corpora. Procceedings<br />
of the ACL-SIGLEX WSHP on Extracting Lexical Knowledge from Text,<br />
1993.<br />
Pradhan S., Hacioglu K., Ward W., Martin J., eta Jurafsky D. Semantic role<br />
parsing: adding semantic structure to unstructured text. Proceedings of<br />
the International Conference on Data Mining (ICDM-2003), Melbourne,<br />
2003.<br />
Pustejovsky J. The generative lexicon. Computational Linguistics, 17(4),<br />
1991.<br />
Pustejovsky J. The Generative Lexicon. MIT Press, Cambridge (Massachussetts),<br />
1995.<br />
Pustejovsky J., editor. Semantics and the Lexicon. Kluwer Academic Publishers,<br />
1993.<br />
Resnik P. A class-based approach to lexical discovery. Prooceedings of the<br />
30th Annual Meeting of the Association for Computational Linguistics,<br />
1992.<br />
Resnik P. Selection and Information: A Class-Based Approach to Lexical<br />
Relationships. Doktoretza-tesia, University of Pennsylvania, 1993.<br />
Resnik P. Disambiguating noun groupings with respect to <strong>WordNet</strong> senses.<br />
Proceedings of the 3rd Workshop on Very Large Corpora, MIT, 1995.<br />
Ribas F. On Acquiring Appropriate Selectional Restrictions from Corpora<br />
Using a Semantic Taxonomy. Doktoretza-tesia, Universitat Politècnica de<br />
Catalunya, 1995.<br />
Rigau G., Agirre E., eta Atserias J. The MEANING project. Proceedings<br />
of the XIX Congreso de la Sociedad Española para el Procesamiento del<br />
Lenguaje Natural (SEPLN), Alcala de Henares (Madril), 2003.
BIBLIOGRAFIA 255<br />
Rigau G., Rodríguez H., eta Turmo J. Automatically extracting translation<br />
links using a wide coverage semantic taxonomy. Proceedings of the<br />
15th International Conference in Language Engineering, IA-95, Montpelier<br />
(Frantzia), 1995.<br />
Rigau G. Automatic Acquisition of Lexical Knowledge from MRDs.<br />
Doktoretza-tesia, Universitat Politècnica de Catalunya, 1998.<br />
Ruppenhofer J., Baker C., eta Fillmore C. The FrameNet database and<br />
software tools. Proceedings of the Tenth Euralex International Congress,<br />
1. lib., 371–375, Copenhage, 2002.<br />
Sag I., Baldwin T., Bond F., Copestake A., eta Flickinger D. Multiword<br />
Expressions: A pain in the neck for NLP. Proceedings of the Third International<br />
Conference on Intelligent Text Processing and Computational<br />
Linguistics, 1–15, Mexiko, 2002.<br />
Saint-Dizier P. Constructing verb semantic classes for French: methods and<br />
evaluation. Proceedings of the COLING, 1996.<br />
Sánchez A. Informatización de diccionarios convencionales: un sistema de<br />
consulta para el ”Diccionario Ideológico de la lengua española”de J. Casares.<br />
Proceedings fo the 7th Annual Meeting de la Sociedad Española del<br />
Procesamiento del Lenguale Natural (SEPLN), Valentzia, 1991.<br />
Sarasola I. <strong>Euskal</strong> Hiztegia. Kutxa Fundazioa, 1996.<br />
Sowa J. Kwoledge Representation. Brooks/Cole - Pacific Grove, 2000.<br />
Subirats-Rüggeberg C. eta Petruck M.R.L. Surprise: Spanish FrameNet!<br />
Workshop on Frame Semantics, International Congress of Linguists, Praga<br />
(Txekiar Errepublika), 2003.<br />
Talmy L. Lexicalization patterns: semantic structure in lexical forms. Language<br />
Typology and Syntactic Description, 3. lib. Cambridge University<br />
Press, 1985.<br />
Tomuro N. Tree-cut and a lexicon based on systematic polysemy. Proceedings<br />
of the Second Meeting of the North American Chapter of the Association<br />
for Computational Linguistics, Pittsburg, 2001.
256 BIBLIOGRAFIA<br />
Utsuro T., Matsumoto Y., eta Nagao M. Verbal case frame acquisition from<br />
bilingual corpora. Proceedings of International Joint Conference of Artificial<br />
Intelligence (IJCAI), Chambery (Frantzia), 1993.<br />
UZEI. Sinonimoen Hiztegia. UZEI, 1999.<br />
Vázquez G., Fernández A., eta MartíM.A.Clasificación Verbal. Alternancias<br />
de diátesis. Quaderns de Sintagma 3. Edicions de la Universitat de Lleida,<br />
2000.<br />
Vendler Z. Linguistics in Philosophy. Cornell University Press, Ithaca (New<br />
York), 1967.<br />
Verkuyl H. On the Compositional Nature of the Aspects. Reidel, Dordrecht,<br />
1972.<br />
Vossen P., editor. Euro<strong>WordNet</strong>: A Multilingual Database with Lexical Semantic<br />
Networks. Kluwer Academic Publishers, 1998.<br />
Vossen P. Euro<strong>WordNet</strong>: a multilingual database for information retrieval.<br />
Proceedings of the DELOS Workshop on Cross-language Information Retrieval,<br />
Zurich, 1997.<br />
Vossen P. Euro<strong>WordNet</strong> general document. URL<br />
http://www.illc.uva.nl/Euro<strong>WordNet</strong>/docs.html. (2007-07-02an atzitua),<br />
1999.<br />
Way A. Translating with examples: the LFG-DOT models of translation. Recent<br />
Advances in Example-Based Machine Translation. KluwerAcademic<br />
Publishers, 2003.<br />
Wilks Y. Preference semantics. In Keenan E., editor, The Formal Semantics<br />
of Natural Language. Cambridge University Press, 1973.<br />
Wilks Y., Slator B., eta Guthrie L. Electric words: dictionaries, computers<br />
and meanings. The MIT Press, 1996.<br />
Yarowsky D. Word sense disambiguation using statistical models of Rogets<br />
categories trained on large corpora. Proceedings of the 14th International<br />
Conference on Computational Linguistics (COLING), 454–460, Nantes<br />
(Frantzia), 1992.
BIBLIOGRAFIA 257<br />
Yokoi T. The impact of the EDR electronic dictionary on very large knowledge<br />
bases. Toward very large knowledge bases, 1995.
<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />
<strong>Euskal</strong> Filologia Saila<br />
<strong>Euskara</strong>ren<br />
ezagutza-base lexikala:<br />
<strong>Euskal</strong> <strong>WordNet</strong><br />
ERANSKINAK<br />
Elisabete Pociello Irigoyen<br />
Donostia, 2.007ko urria.
<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />
<strong>Euskal</strong> Filologia Saila<br />
<strong>Euskara</strong>ren<br />
ezagutza-base lexikala:<br />
<strong>Euskal</strong> <strong>WordNet</strong><br />
ERANSKINAK<br />
Elisabete Pociello Irigoyen<br />
Donostia, 2.007ko urria.
<strong>Euskal</strong> Herriko Unibertsitatea / Universidad del País Vasco<br />
<strong>Euskal</strong> Filologia Saila<br />
<strong>Euskara</strong>ren<br />
ezagutza-base lexikala:<br />
<strong>Euskal</strong> <strong>WordNet</strong><br />
ERANSKINAK<br />
Elisabete Pociello Irigoiyenek Eneko<br />
Agirre Bengoaren eta Izaskun<br />
Aldezabal Rotetaren zuzendaritzapean<br />
egindako tesiaren txostena, <strong>Euskal</strong> Herriko<br />
Unibertsitatean <strong>Euskal</strong> Filologian<br />
Doktore titulua eskuratzeko aurkeztua.<br />
Donostia, 2.007ko urria.
Eranskinen aurkibidea<br />
A ERANSKINA............................................................................................................. 1<br />
A.1 <strong>Euskal</strong> <strong>WordNet</strong> ............................................................................................. 1<br />
A.1.1 Kokapena............................................................................................................1<br />
A.1.2 <strong>Euskal</strong> <strong>WordNet</strong>: interfazea................................................................................2<br />
A.1.2.1 Oinarrizko kontzeptuak ..................................................................................2<br />
A.1.2.2 Nola egin bilaketa...........................................................................................9<br />
A.1.2.3 Nola interpretatu bilaketaren emaitza...........................................................12<br />
A.2 Editore-lana................................................................................................... 14<br />
A.2.1 Baliabideak .......................................................................................................14<br />
A.2.1.1 <strong>Euskal</strong> <strong>WordNet</strong> ...........................................................................................14<br />
A.2.1.2 <strong>Euskara</strong>ko hiztegiak......................................................................................14<br />
A.2.1.3 <strong>Euskara</strong>ren Datu-Base Lexikala (EDBL) .....................................................15<br />
A.2.1.4 Gaztelaniako hiztegiak .................................................................................15<br />
A.2.1.5 Ingeleseko hiztegiak .....................................................................................15<br />
A.2.1.6 Corpusak.......................................................................................................15<br />
A.2.1.7 IXA taldeko Hiztegixa..................................................................................16<br />
A.2.2 Hitz baten orrazketarako prozesua ...................................................................16<br />
A.2.2.1 Synseten ulermena........................................................................................17<br />
A.2.2.2 Synseten egokitasuna....................................................................................19<br />
A.2.2.2.1 Hiztegien erabilera.................................................................................19<br />
A.2.2.2.2 Nola sartu euskal ordaina synset batean ................................................19<br />
A.2.2.2.3 Nola ezabatu euskarako ordaina synset batean......................................24<br />
A.2.2.2.4 Variant guztien orrazketa ......................................................................26<br />
A.2.2.2.5 Hiperonimo eta hiponimoen orrazketa ..................................................27<br />
A.2.3 Orrazketaren zalantzak eta arazoak: irizpideak................................................27<br />
A.2.3.1 Synsetei dagozkien markak ..........................................................................28<br />
A.2.3.1.1 Nolex markak.........................................................................................28<br />
A.2.3.1.1.1 Nolex arrunta ..................................................................................28<br />
A.2.3.1.1.2 Espezifikoa Nolex...........................................................................29<br />
A.2.3.1.1.3 Orokorra Nolex...............................................................................30<br />
A.2.3.1.1.4 Espezifikoa Hipe Nolex..................................................................30<br />
A.2.3.1.1.5 Bestelako kasuak ............................................................................32<br />
A.2.3.2 Variantei dagozkien kasuak..........................................................................33<br />
A.2.3.2.1 RARE marka ..........................................................................................33<br />
A.2.3.2.2 PLU marka.............................................................................................34<br />
A.2.3.2.3 HAEak eta IXALEX marka ....................................................................35<br />
A.2.3.3 Idazkera zalantzak ........................................................................................36<br />
A.2.3.3.1 Marratxodun hitzak................................................................................36<br />
A.2.3.3.2 Artikulua daramaten hitzak....................................................................37<br />
A.2.3.3.3 HAEak idazteko era desberdinak...........................................................37<br />
A.2.3.3.4 Hizki larriak eta xeheak.........................................................................38<br />
i
ii<br />
A.2.3.4 Bestelako zalantzak...................................................................................... 39<br />
A.2.3.4.1 Atzizki sinonimoak ............................................................................... 39<br />
A.2.3.4.2 Hiztegiak bat ez datozenean.................................................................. 39<br />
A.2.3.4.3 Antzeko synsetak bereizteko zailtasuna................................................ 39<br />
A.2.3.4.4 Adieren egokitasuna.............................................................................. 40<br />
A.2.3.4.5 Figuratiboak .......................................................................................... 41<br />
A.2.3.4.6 HAEak................................................................................................... 42<br />
A.2.3.4.7 Generoa ................................................................................................. 43<br />
A.2.3.5 Aurrerago lantzekoak................................................................................... 44<br />
A.2.3.5.1 Kategoria bateraezinak.......................................................................... 44<br />
A.2.3.5.2 Falta diren adierak................................................................................. 45<br />
A.2.3.5.3 Kontzeptu kulturalak............................................................................. 45<br />
A.2.3.5.4 Postposizioak......................................................................................... 46<br />
A.2.3.5.5 Aditz perifrastikoak............................................................................... 46<br />
A.2.3.5.6 Unlock uzten direnak............................................................................. 46<br />
A.3 Ondorioak......................................................................................................46<br />
B ERANSKINA.........................................................................................................49<br />
B.1 Lanaren kokapena ........................................................................................49<br />
B.2 Metodologia ...................................................................................................49<br />
B.3 Azterketa........................................................................................................50<br />
B.3.1 Ingeleseko aditzen hierarkia............................................................................. 50<br />
B.3.1.1 “Manner” erlazio semantikoa....................................................................... 50<br />
B.3.1.2 Ingeleseko hierarkiaren aberastasuna........................................................... 51<br />
B.3.1.3 Sintaxia......................................................................................................... 51<br />
B.3.1.4 Aurrizkiak hierarkian ................................................................................... 52<br />
B.3.2 <strong>Euskara</strong>ko aditzen hierarkia............................................................................. 53<br />
B.3.2.1 Orokortasun maila........................................................................................ 53<br />
B.3.2.2 Zehaztasun maila.......................................................................................... 53<br />
B.3.2.3 Troponimo eta HAULak .............................................................................. 54<br />
B.3.2.4 Arazoak ........................................................................................................ 55<br />
B.4 Ondorioak......................................................................................................58<br />
B.5 00636716 synsetaren troponimoak, ingelesez eta euskaraz .......................59<br />
C ERANSKINA.........................................................................................................93<br />
C.1 coach_2 / train_7 ...........................................................................................95<br />
C.1.1 Synseta MCRn.................................................................................................. 95<br />
C.1.2 Urre patroiak .................................................................................................... 95<br />
C.1.3 c2c SemCorretik............................................................................................... 95<br />
C.1.4 w2c SemCorretik.............................................................................................. 97<br />
C.1.5 s2semf SemCorretik......................................................................................... 97<br />
C.1.6 w2c BNCtik ..................................................................................................... 98
C.1.7 c2c BNCtik .....................................................................................................102<br />
C.1.8 w2semf EFEtik ...............................................................................................103<br />
C.1.9 Ondorioak .......................................................................................................104<br />
C.2 entrenatu_1 ................................................................................................. 105<br />
C.2.1 Synseta MCRn ................................................................................................105<br />
C.2.2 Urre patroiak...................................................................................................105<br />
C.2.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................106<br />
C.2.4 SemCorreko c2c euskarara itzulita.................................................................107<br />
C.2.5 SemCorreko s2semf euskarara itzulita ...........................................................107<br />
C.2.6 EFEko w2semf euskarara itzulita...................................................................108<br />
C.2.7 Ondorioak .......................................................................................................109<br />
C.3 draw_25 / tie_2............................................................................................ 110<br />
C.3.1 Synseta MCRn ................................................................................................110<br />
C.3.2 Urre patroiak...................................................................................................110<br />
C.3.3 c2c SemCorretik .............................................................................................111<br />
C.3.4 w2c SemCorretik ............................................................................................113<br />
C.3.5 s2semf SemCorretik .......................................................................................113<br />
C.3.6 w2c BNCtik ....................................................................................................114<br />
C.3.7 c2c BNCtik .....................................................................................................122<br />
C.3.8 w2semf EFEtik ...............................................................................................122<br />
C.3.9 Ondorioak .......................................................................................................123<br />
C.4 berdindu_15 ................................................................................................ 124<br />
C.4.1 Synseta MCRn ................................................................................................124<br />
C.4.2 Urre patroiak...................................................................................................124<br />
C.4.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................125<br />
C.4.4 SemCorreko c2c euskarara itzulita.................................................................125<br />
C.4.5 SemCorreko s2semf euskarara itzulita ...........................................................126<br />
C.4.6 EFEko w2semf euskarara itzulita...................................................................126<br />
C.4.7 Ondorioak .......................................................................................................127<br />
C.5 equalize_1 .................................................................................................... 128<br />
C.5.1 Synseta MCRn ................................................................................................128<br />
C.5.2 Urre patroiak...................................................................................................128<br />
C.5.3 c2c SemCorretik .............................................................................................128<br />
C.5.4 w2c SemCorretik ............................................................................................129<br />
C.5.5 s2semf SemCorretik .......................................................................................129<br />
C.5.6 w2c BNCtik ....................................................................................................129<br />
C.5.7 c2c BNCtik .....................................................................................................130<br />
C.5.8 w2semf EFEtik ...............................................................................................130<br />
C.5.9 Ondorioak .......................................................................................................131<br />
C.6 berdindu_16 ................................................................................................ 132<br />
C.6.1 Synseta MCRn ................................................................................................132<br />
C.6.2 Urre patroiak...................................................................................................132<br />
C.6.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................133<br />
C.6.4 SemCorreko c2c euskarara itzulita.................................................................133<br />
iii
iv<br />
C.6.5 SemCorreko s2semf euskarara itzulita........................................................... 134<br />
C.6.6 EFEko w2semf euskarara itzulita .................................................................. 134<br />
C.6.7 Ondorioak....................................................................................................... 134<br />
C.7 lose_2 ............................................................................................................135<br />
C.7.1 Synseta MCRn................................................................................................ 135<br />
C.7.2 Urre patroiak .................................................................................................. 135<br />
C.7.3 c2c SemCorretik............................................................................................. 136<br />
C.7.4 w2c SemCorretik............................................................................................ 136<br />
C.7.5 s2semf SemCorretik....................................................................................... 137<br />
C.7.6 w2c BNCtik ................................................................................................... 137<br />
C.7.7 c2c BNCtik..................................................................................................... 148<br />
C.7.8 w2semf EFEtik............................................................................................... 149<br />
C.7.9 Ondorioak....................................................................................................... 149<br />
C.8 galdu_9 .........................................................................................................150<br />
C.8.1 Synseta MCRn................................................................................................ 150<br />
C.8.2 Urre patroiak .................................................................................................. 150<br />
C.8.3 w2semf <strong>Euskal</strong>dunon Egunkaritik................................................................. 151<br />
C.8.4 SemCorreko c2c euskarara itzulita ................................................................ 156<br />
C.8.5 SemCorreko s2semf euskarara itzulita........................................................... 156<br />
C.8.6 EFEko w2semf euskarara itzulita .................................................................. 157<br />
C.8.7 Ondorioak....................................................................................................... 157<br />
C.9 play_1 ...........................................................................................................158<br />
C.9.1 Synseta MCRn................................................................................................ 158<br />
C.9.2 Urre patroiak .................................................................................................. 158<br />
C.9.3 c2c SemCorretik............................................................................................. 159<br />
C.9.4 w2c SemCorretik............................................................................................ 160<br />
C.9.5 s2semf SemCorretik....................................................................................... 160<br />
C.9.6 w2c BNCtik ................................................................................................... 161<br />
C.9.7 c2c BNCtik..................................................................................................... 172<br />
C.9.8 w2semf EFEtik............................................................................................... 173<br />
C.9.9 Ondorioak....................................................................................................... 178<br />
C.10 jokatu_2 .......................................................................................................179<br />
C.10.1 Synseta MCRn................................................................................................ 179<br />
C.10.2 Urre patroiak .................................................................................................. 179<br />
C.10.3 w2semf <strong>Euskal</strong>dunon Egunkaritik................................................................. 180<br />
C.10.4 SemCorreko c2c euskarara itzulita ................................................................ 185<br />
C.10.5 SemCorreko s2semf euskarara itzulita........................................................... 185<br />
C.10.6 EFEtik w2semf euskarara itzulita .................................................................. 186<br />
C.10.7 Ondorioak....................................................................................................... 186<br />
C.11 play_24 .........................................................................................................187<br />
C.11.1 Synseta MCRn................................................................................................ 187<br />
C.11.2 Urre patroiak .................................................................................................. 187<br />
C.11.3 c2c SemCorretik............................................................................................. 188<br />
C.11.4 w2c SemCorretik............................................................................................ 189
C.11.5 s2semf SemCorretik .......................................................................................191<br />
C.11.6 w2c BNCtik ....................................................................................................191<br />
C.11.7 c2c BNCtik .....................................................................................................213<br />
C.11.8 w2semf EFEtik ...............................................................................................213<br />
C.11.9 Ondorioak .......................................................................................................215<br />
C.12 jokatu_3 ....................................................................................................... 216<br />
C.12.1 Synseta MCRn ................................................................................................216<br />
C.12.2 Urre patroiak...................................................................................................216<br />
C.12.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................217<br />
C.12.4 SemCorreko c2c euskarara itzulita.................................................................222<br />
C.12.5 SemCorreko s2semf euskarara itzulita ...........................................................222<br />
C.12.6 EFEtik w2semf euskarara itzulita...................................................................222<br />
C.12.7 Ondorioak .......................................................................................................224<br />
C.13 train_8.......................................................................................................... 225<br />
C.13.1 Synseta MCRn ................................................................................................225<br />
C.13.2 Urre patroiak...................................................................................................225<br />
C.13.3 c2c SemCorretik .............................................................................................225<br />
C.13.4 w2c SemCorretik ............................................................................................226<br />
C.13.5 s2semf SemCorretik .......................................................................................226<br />
C.13.6 w2c BNCtik ....................................................................................................226<br />
C.13.7 c2c BNCtik .....................................................................................................229<br />
C.13.8 w2semf EFEtik ...............................................................................................230<br />
C.13.9 Ondorioak .......................................................................................................230<br />
C.14 entrenatu_3 ................................................................................................. 231<br />
C.14.1 Synseta MCRn ................................................................................................231<br />
C.14.2 Urre patroiak...................................................................................................231<br />
C.14.3 w2semf <strong>Euskal</strong>dunon Egunkaritik..................................................................232<br />
C.14.4 SemCorreko c2c euskarara itzulita.................................................................233<br />
C.14.5 SemCor s2semf euskarara itzulita ..................................................................233<br />
C.14.6 EFEko w2semf euskarara itzulita...................................................................233<br />
C.14.7 Ondorioak .......................................................................................................234<br />
C.15 win_1............................................................................................................ 235<br />
C.15.1 Synseta MCRn ................................................................................................235<br />
C.15.2 Urre patroiak...................................................................................................235<br />
C.15.3 c2c SemCorretik .............................................................................................236<br />
C.15.4 w2c SemCorretik ............................................................................................237<br />
C.15.5 s2semf SemCorretik .......................................................................................237<br />
C.15.6 w2c BNCtik ....................................................................................................238<br />
C.15.7 c2c BNCtik .....................................................................................................250<br />
C.15.8 w2semf EFEtik ...............................................................................................251<br />
C.15.9 Ondorioak .......................................................................................................251<br />
C.16 irabazi_3 ...................................................................................................... 252<br />
C.16.1 Synseta MCRn ................................................................................................252<br />
C.16.2 Urre patroiak...................................................................................................252<br />
v
vi<br />
C.16.3 w2semf <strong>Euskal</strong>dunon Egunkaritik................................................................. 253<br />
C.16.4 SemCorreko c2c euskarara itzulita ................................................................ 257<br />
C.16.5 SemCorreko s2semf euskarara itzulita........................................................... 257<br />
C.16.6 EFEko w2semf euskarara itzulita .................................................................. 258<br />
C.16.7 Ondorioak....................................................................................................... 258
<strong>Euskal</strong> <strong>WordNet</strong> : editorearen eskuliburua<br />
1<br />
A ERANSKINA<br />
Eskuliburu ho<strong>net</strong>an <strong>Euskal</strong> <strong>WordNet</strong>eko editoreak synseten lanketarako behar dituen<br />
argibide guztiak zehaztuta ditugu, hala nola, <strong>Euskal</strong> <strong>WordNet</strong> bera aurkeztu, honen erabilera<br />
deskribatu, orrazketarako urratsak eta baliabideak zehaztu, eta arazoei eta zalantzei aurre<br />
egiteko irizpideak azaltzen ditugu.<br />
A.1 <strong>Euskal</strong> <strong>WordNet</strong><br />
A.1.1 Kokapena<br />
Donostiako Informatika Fakultateko Lengoaia Naturalaren Prozesamendurako (LNPrako)<br />
IXA taldea, beste zenbait lanen artean, <strong>Euskal</strong> <strong>WordNet</strong>en proiektua lantzen ari da. <strong>Euskal</strong><br />
<strong>WordNet</strong> euskarako ezagutza-base lexikal bat da (EBL). Bertan hitzei eta adierei buruzko<br />
informazioa jasotzen da eta hierarkikoki antolatuta daude. Antolamendua sinonimian<br />
oinarrituta dago: sinonimo multzo bakoitza, synset (synonym set) deritzona, hitzen adierez<br />
eratuta dago. Gainera, synseten artean erlazio lexikal anitz daude; hierarkiaren oinarria<br />
hiperonimia eta hiponimia dira, eta hauek dira, batez ere, orain arte landu ditugunak.<br />
<strong>Euskal</strong> <strong>WordNet</strong>en eraikuntza, hasieran Euro<strong>WordNet</strong>en, eta orain The Multilingual<br />
Central Repositoryn (MCR) oinarritzen da. Eraikuntzarako bertako ingeleseko kontzeptuak<br />
(<strong>WordNet</strong> 1.5ekoak, hain zuzen ere) abiapuntutzat hartu genituen, hauei euskarako ordainak<br />
lotuz, eta ez dauden euskarako kontzeptuak txertatuz. Baina 1.5 bertsioaren ondotik<br />
ingeleseko 1.6 bertsioa kaleratu zen, eta gaur egun, <strong>Euskal</strong> <strong>WordNet</strong> garatzeko bertsio<br />
horretan oinarritzen gara 1 .<br />
Esan beharra dago, eskuliburu ho<strong>net</strong>an <strong>Euskal</strong> <strong>WordNet</strong> 1.6 bertsioaz arituko garela,<br />
hauxe baita memento ho<strong>net</strong>an erabilgarri dagoena, bai kontsultarako, bai orrazketarako 2 . 1.6<br />
bertsioan izenak daude landuta; aditzekin orain dela gutxi hasi gara, eta etorkizunean,<br />
adjektiboak eta adberbioak ere lantzeko asmoa dago. Hortaz, eskuliburu ho<strong>net</strong>ako irizpideak<br />
izenen edizioari bakarrik dagokio. Hala ere, beste kategorien orrazketarekin hastean, irizpide<br />
1 <strong>WordNet</strong>ek dagoeneko 3.0 bertsioa du: http://word<strong>net</strong>.princeton.edu/perl/webwn (2007-06-18an atzitua).<br />
2 http://ixa2.si.ehu.es/mcr/wei.html (2007-06-18an atzitua).
2<br />
berriak sortuko direla aurreikusten dugun arren, eskuliburu ho<strong>net</strong>an agertzen diren irizpide<br />
asko eta asko kategoria guztientzat erabilgarriak izan daitezkeela susmatzen dugu.<br />
A.1.2 <strong>Euskal</strong> <strong>WordNet</strong>: interfazea<br />
A.1.2.1 Oinarrizko kontzeptuak<br />
Adiera, synseta eta variantaren arteko desberdintasuna:<br />
SYNSET :<br />
• Kontsultatu nahi dugun hitzaren adiera ezberdin bakoitzari synset bat dagokio, eta<br />
interfazean marra batez bereizirik agertzen da. 1. irudian ikus daitekeen bezala, zuhaitz<br />
hitzak bi synset ditu, hau da, bi adiera: ‘arbola’ eta ‘diagrama’.<br />
• Bestalde, synset bakoitzak synset-zenbaki bat izango du (1. irudian 09396070 eta<br />
10025462, hurrenez hurren).<br />
VARIANT :<br />
• Synset bakoitzean hizkuntza bakoitzeko dagoen ordaina.<br />
• Ordain bakoitzak adiera-zenbaki bat du. Beheko irudian adibidez, lehenengo synsetean,<br />
variantak hurrengoak dira: ingelesekoa, tree_1, gaztelaniakoa árbol_1 eta euskarakoak<br />
zuhaitz_1 eta arbola_1, beraz, guztien adiera-zenbakia “_1” da.<br />
09396070n<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
10025462n<br />
-geometry-<br />
shape<br />
ContentBearingObject+<br />
ImageRepresentation=<br />
Tops=<br />
09396070n 1008 tree_1<br />
09396070n 993 árbol_1<br />
09396070n 137 zuhaitz_1<br />
arbola_1<br />
10025462n 2 tree_2<br />
tree_diagram_1<br />
10025462n 0 árbol_2<br />
10025462n 0 zuhaitz_2<br />
a tall perennial woody plant having a main trunk and<br />
branches forming a distinct elevated crown; includes both<br />
gymnosperms and angiosperms<br />
planta perenne de unos cinco metros de altura que se<br />
ramifica a partir de un tronco leñoso y elevado<br />
zurezko landare bizikorra, altuera aldakorrekoa, baina<br />
sarritan handia<br />
a figure that branches from a single root<br />
estructura conceptual que consta de varias<br />
ramificaciones y una única raíz<br />
elkarrekiko erlazionaturik dauden edo sistema bat<br />
osatzen duten hainbat elementuren arteko mailaz<br />
mailako hierarkia-erlazioa grafikoki adierazten duen<br />
egitura adarkatua.<br />
1. irudia<br />
HITZA – ADIERA – SYNSET terminoen arteko erlazioa hurrengo eskemaren bidez azaltzen<br />
dugu:<br />
SYNSET<br />
SYNSET
HITZA ADIERA/VARIANT SYNSET<br />
zuhaitz zuhaitz_1 S1<br />
diagrama diagrama_1<br />
zuhaitz_2 S2<br />
2. irudia<br />
Ezkerretik eskuinera begiratuz gero (hots, synseten ikuspegitik), zuhaitz_1, zuhaitz_2 eta<br />
diagrama_1 variantak lirateke. Alderantziz begiratuz gero, hau da eskui<strong>net</strong>ik ezkerrera, edo<br />
hitzaren ikuspegitik, horiek adierak lirateke.<br />
09396070n<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
•<br />
09396070n 1008 tree_1<br />
09396070n 993 árbol_1<br />
09396070n 137 zuhaitz_1<br />
arbola_1<br />
09395329n mn 99<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
09395329n 1860 woody_plant_1<br />
ligneous_plant_1<br />
09395329n 1858 planta_leñosa_1<br />
09395329n 236<br />
zurezko_landare_1<br />
Harreman semantiko nagusienak:<br />
a tall perennial woody plant having a main trunk and<br />
branches forming a distinct elevated crown; includes both<br />
gymnosperms and angiosperms<br />
planta perenne de unos cinco metros de altura que se<br />
ramifica a partir de un tronco leñoso y elevado<br />
zurezko landare bizikorra, altuera aldakorrekoa, baina<br />
sarritan handia<br />
3. irudia<br />
a plant having hard lignified tissues or woody<br />
parts especially stems<br />
Planta dotada de haces lignificados que la<br />
hacen muy resistente<br />
SINONIMIA:<br />
• Hitz, synset edota variant baten sinonimoak, synset bakoitzean dauden variantak<br />
izango dira, eta ez agertzen diren synsetak (hauek adiera ezberdinak baitira). Adibidez,<br />
zuhaitz hitzak bi adiera ezberdin ditu (bi synset), eta zuhaitz hitzaren sinonimoak, adiera<br />
horietako bakoitzean dauden euskal variantak izango dira. Esate baterako, zuhaitz_1en<br />
sinonimoa arbola_1 da, eta zuhaitz_2k ez du sinonimorik (ikus 1. irudia).<br />
3
4<br />
HIPERONIMIA:<br />
• Hitz, synset edota variant baten hiperonimoak eskatzen ditugunean, hauek baino<br />
orokorrago edo generikoagoak diren terminoak eskatzen ari gara. Adibidez, zuhaitzaren<br />
hiperonimoa zurezko landare izan daiteke, eta zurezko landarerena landare.<br />
• Hiperonimo hurbilak vs Hiperonimo kate osoa: Hiperonimo hurbila deritzogu synset<br />
baten lehenengo hiperonimoari edo hiperonimo zuzenari. 3. adibidean ikus daitekeen<br />
bezala, zuhaitz_1en hiperonimo hurbilena zurezko_landare_1 da 3 . Aldiz, hiperonimo-kate<br />
osoaz ari bagara, synset batek dituen hiperonimo guztiez ari gara, hau da, synset hori<br />
jasotzen duten hiperonimo-zerrendaz. 4. irudaian ditugu zuhaitz_1en hiperonimo-kate<br />
osoa.<br />
3 MCRko interfazean hiperonimoak eta hiponimoak galdeketako synsetaren azpian adierazten dira.
09396070n<br />
-botanybase<br />
concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
09395329n mn 99<br />
-botanybase<br />
concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Plant=<br />
Tops=<br />
09396070n 1008 tree_1<br />
09396070n 993 árbol_1<br />
09396070n 137 zuhaitz_1 arbola_1<br />
09378438n mn<br />
99<br />
-botany-<br />
base concept<br />
plant<br />
Plant+<br />
Group=<br />
Living=<br />
Plant=<br />
Tops=<br />
09395329n 1860 woody_plant_1<br />
ligneous_plant_1<br />
09395329n 1858 planta_leñosa_1<br />
09395329n 236 zurezko_landare_1<br />
00008864n mn 99<br />
-botany-<br />
base concept<br />
Tops<br />
Plant=<br />
Group=<br />
Living=<br />
Plant=<br />
Tops=<br />
09378438n 4368 vascular_plant_1<br />
tracheophyte_1<br />
<br />
09378438n 4365 planta_vascular_1<br />
09378438n 567 landare_baskular_1<br />
a tall perennial woody plant having a main trunk and branches<br />
forming a distinct elevated crown; includes both gymnosperms and<br />
angiosperms<br />
Planta perenne de unos cinco metros de altura que se ramifica a<br />
partir de un tronco leñoso y elevado<br />
zurezko landare bizikorra, altuera aldakorrekoa, baina sarritan<br />
handia<br />
00008864n 4754 plant_2<br />
flora_2 plant_life_1<br />
00008864n 4770 flora_1<br />
planta_1<br />
00008864n 599 flora_1<br />
landare_1<br />
00002086n mn 99<br />
-biology-<br />
base concept<br />
Tops<br />
Organism=<br />
Living=<br />
Tops=<br />
00001740n mn 99<br />
-factotum-<br />
base concept<br />
Tops<br />
Physical=<br />
Tops=<br />
a plant having hard lignified tissues or woody parts especially<br />
stems<br />
Planta dotada de haces lignificados que la hacen muy<br />
resistente<br />
5<br />
green plant having a vascular system: ferns, gymnosperms,<br />
angiosperms<br />
Planta dotada de un sistema de vasos<br />
a living organism lacking the power of<br />
locomotion<br />
Vida vegetal<br />
berez ezin higi daitekeen eta sentiberatasunik ez<br />
duen izaki bizia<br />
00002086n 14706 life_form_1 organism_1 being_2<br />
living_thing_1<br />
00002086n 14147 ser_vivo_1 ser_1 organismo_1<br />
00002086n 4877 bizidun_1 organismo_1 izaki_bizidun_2<br />
00001740n 35598 entity_1<br />
something_1<br />
00001740n 32836 entidad_1<br />
00001740n 13560 izaki_1 entitate_1<br />
sorkari_1<br />
4. irudia<br />
any living<br />
entity<br />
Forma de vida<br />
anything having existence (living or<br />
nonliving)<br />
Realidad con o sin vida
6<br />
HIPONIMIA:<br />
• Hitz, synset edota variant baten hiponimoak eskatzen ditugunean, termino orokor honek<br />
bere baitan hartzen dituen termino espezifikoak eskatzen ari gara. Adibidez, zuhaitz_1en<br />
hiponimoak ‘zuhaitz motak’ izango dira (pago_1, haritz_1 eta abar).<br />
• Hiponimo hurbilak vs Hiponimo zuhaitz osoa: Hiponimo hurbila deitzen diogu synset<br />
baten hiponimo zuzen bakoitzari, hiponimo hurbil horien hiponimoak kontuan hartu<br />
gabe. 5. irudian ikus daitekeen bezala, zuhaitz_1en hiponimo hurbilak, pago_1,<br />
hurrondo_1, haritz_1, eta abar dira 4 .<br />
Bestalde, hiponimo-zuhaitz osoa deitzen diogu synset baten hiponimo guztiei, hau da,<br />
synsetaren hiponimo hurbilei eta hiponimo hurbilek jasotzen dituzten beste hiponimoei.<br />
6. irudian zuhaitz_1en hiponimo-zuhaitz osoa 5 dugu. Bertan ikus daitekeen bezala, zuhaitz<br />
mota ezberdinak daude (hiponimo hurbilak): esate baterako, hurrondo_1, haritz_1 eta abar.<br />
Eta hiponimo hurbil hauek, aldi berean, beste hiponimo batzuk izan ditzakete, esate<br />
baterako 6. irudian pago mota ezberdinak ikus daitezke: arte_5, artelatz_1, eta abar. Hala,<br />
hiponimo-zuhaitz osoa eskatuz gero, synset baten hiponimo hurbilak ikus ditzakegu,<br />
hiponimo hurbil hauen hiponimoekin batera.<br />
4 Adibidean, leku arazoak direla-eta, hiponimoen kopurua murriztu behar izan dugu: zuhaitz_1en 175 hiponimo<br />
hurbiletatik hiru baino ez ditugu aipatu. Denak ikusteko, jo bedi interfazera.<br />
5 Aurrekoa adibidean bezalaxe, kasu ho<strong>net</strong>an ere zuhaitz_1en hiponimo zuhaitza (1.008 hiponimo dituena) murriztu dugu.
09396070n<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
•<br />
•<br />
•<br />
• …<br />
09431812n mn 99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
08565213n mn 99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
08572627n mn 99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
09396070n 1008 tree_1<br />
09396070n 993 árbol_1<br />
09396070n 137 zuhaitz_1 arbola_1<br />
09431812n 0 hazel_1 hazel_tree_1<br />
Pomaderris_apetala_1<br />
09431812n 0 avellanero_1 avellano_3<br />
09431812n 0 hurrondo_3 hurritz_3<br />
08565213n 6 beech_1<br />
beech_tree_1<br />
08565213n 5 haya_1<br />
08565213n 0 pago_1<br />
08572627n 48 oak_2 oak_tree_1<br />
08572627n 47 roble_1<br />
08572627n 3 haritz_1<br />
a tall perennial woody plant having a main trunk and branches<br />
forming a distinct elevated crown; includes both gymnosperms and<br />
angiosperms<br />
Planta perenne de unos cinco metros de altura que se ramifica a<br />
partir de un tronco leñoso y elevado<br />
zurezko landare bizikorra, altuera aldakorrekoa, baina sarritan<br />
handia<br />
tree grown especially for ornament and its fine-grained wood<br />
and bearing edible nuts<br />
any of several large deciduous trees with rounded spreading crowns and smooth gray<br />
bark and small sweet edible triangular nuts enclosed in burs; north temperate regions<br />
a deciduous tree of the genus Quercus; has acorns<br />
and lobed leaves<br />
5. irudia<br />
7
8<br />
09396070n<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
•<br />
•<br />
08565213n mn 99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
o<br />
09396070n 1008 tree_1<br />
09396070n 993 árbol_1<br />
09396070n 137 zuhaitz_1 arbola_1<br />
o …<br />
08572627n mn 99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
o<br />
o<br />
08565213n 6 beech_1<br />
beech_tree_1<br />
08565213n 5 haya_1<br />
08565213n 0 pago_1<br />
08792874n mn 99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
08582991n mn 99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
08576794n mn 99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
08792874n 5 cassia_1<br />
a tall perennial woody plant having a main trunk and branches forming<br />
a distinct elevated crown; includes both gymnosperms and angiosperms<br />
Planta perenne de unos cinco metros de altura que se ramifica a partir<br />
de un tronco leñoso y elevado<br />
zurezko landare bizikorra, altuera aldakorrekoa, baina sarritan handia<br />
any of several large deciduous trees with rounded spreading crowns and smooth gray bark<br />
and small sweet edible triangular nuts enclosed in burs; north temperate regions<br />
08792874n 4 cañafístola_1 cañafístula_1<br />
08792874n 4 kanelondo_3<br />
08572627n 48 oak_2 oak_tree_1<br />
08572627n 47 roble_1<br />
08572627n 3 haritz_1<br />
8582991n 0 cork_oak_1 Quercus_suber_1<br />
08582991n 0 alcornoque_3<br />
08582991n 0 artelatz_1<br />
08576794n 0 holm_oak_2 holm_tree_1 hollyleaved_oak_1<br />
evergreen_oak_1 Quercus_ilex_1<br />
08576794n 0 encina_1<br />
08576794n 0 arte_5<br />
6. irudia<br />
any of various trees or shrubs of the<br />
genus Cassia having pinnately<br />
compound leaves and usually yellow<br />
flowers followed by long seedpods<br />
a deciduous tree of the genus Quercus; has acorns and<br />
lobed leaves<br />
prickly coral tree having soft spongy wood<br />
evergreen oak of southern Europe<br />
having leaves somewhat<br />
resembling those of holly; yields a<br />
hard wood
A.1.2.2 Nola egin bilaketa<br />
Ondoren, <strong>Euskal</strong> <strong>WordNet</strong>en kontsultak egiteko argibideak ematen ditugu, hau da, bilaketak<br />
nola egin eta informazio mota desberdinak nola lortu. Hurrengo irudian interfazearen funtzio<br />
garrantzitsuenen azalpenak zehazten ditugu:<br />
A<br />
[A] : Bilaketarako testu-kutxa.<br />
C J D<br />
7. irudia<br />
B E K<br />
F<br />
[B] : [A] testu-kutxan idatzitako kontsulta, hitza, synset edo variant den zehazten da:<br />
Word (zuhaitz), Synset (09396070) edo Variant (zuhaitz_1) bezala.<br />
[C] : [A] testu-kutxan idatzitakoaren kategoria zehazteko balio du:<br />
Noun / Verb / Adjective / Adverb<br />
[D] : [A] testu-kutxan idatzitakoa zer word<strong>net</strong>en 6 bilatu nahi dugun adierazten du:<br />
English_1.6/Spanish_1.6/Basque_1.6/Catalan_1.6/Italian_1.6 / English_1.7.1<br />
6 <strong>WordNet</strong> (letra larriz) erabiltzen dugu Princeton-en egindako ingeleseko EBLa adierazteko; word<strong>net</strong> (letra xehez),<br />
aldiz, <strong>WordNet</strong>en ereduan oinarrituta garatu den edozein hizkuntzetako EBLari buruz hitz egiteko erabiltzen dugu. Hala.<br />
<strong>WordNet</strong> terminoarekin, ingeleseko word<strong>net</strong>ari egingo zaio beti erreferentzia, eta word<strong>net</strong> terminoak aurretik zer<br />
hizkuntzetakoa den adierazia izan beharko du.<br />
H<br />
G<br />
9<br />
I
10<br />
[E] : [A] testu-kutxan idatzitako hitz, synset edo variant horren, zer harreman semantiko<br />
bilatu nahi dugun zehazten du. Oraingoz, guk lehenengo hirurak bakarrik erabiliko<br />
ditugu :<br />
Synonyms / Hyponyms / Hyperonyms / Meronyms / Antonyms / Holonyms /<br />
Fuzzynyms / Roles / Involveds / Subevents / Causes / States<br />
[F] : Nahiz eta [E]n aukeratutakoaren arabera [F] automatikoki aldatu egiten den,<br />
[F]k [E]ren zehaztapenerako aukera batzuk ematen ditu (ikus 8. irudia). Hala ere,<br />
oraingoz ez ditugu erabiltzen.<br />
8. irudia<br />
[G] : Zehaztutako harreman semantikoa zein word<strong>net</strong>en ikusi nahi den adierazten du.<br />
[H] : Kontrol-lauki hauei eraginda, pantailan informazio gehiago edo gutxiago ikusteko<br />
aukera ematen zaigu:<br />
• Gloss: Synsetaren adibide edo definizio laburra ikusteko aukera ematen du.<br />
• Score: Konfiantza-neurria ikusteko aukera ematen du.<br />
• Rels: Synsetak izan ditzakeen harreman semantiko mota guztiak ikusteko<br />
aukera ematen du.<br />
• Full: Honi sakatuta, synseten harreman semantikoen agerpena era<br />
ezberdi<strong>net</strong>ara eska daiteke:<br />
beraien osotasunean (hiperonimo kate/hiponimo-zuhaitz osoa<br />
adibidez)<br />
harreman hurbilenak bakarrik (hiperonimo/hiponimo zuzenak<br />
adibidez)<br />
[I] : Hauen bitartez kontsultaren emaitza zein word<strong>net</strong>etan ikusi nahi dugun erabaki<br />
dezakegu: English 1.6, Spanish 1.6, Catalan 1.6, Italian 1.6, Basque 1.6 eta/edo<br />
English 1.7.1ean.<br />
[J] : Behin hautaketa eginda, botoi honi sakatu behar zaio bilaketari hasiera emateko.
[K]: Hizkuntza ezberdi<strong>net</strong>ako word<strong>net</strong>etako synsetak aldatzeko, sortzeko eta informazioa<br />
gehitzeko/kentzeko aukerak ematen dituzte. Gure kasuan, euskarari dagozkion<br />
erabiliko ditugu (ikus 9. irudia), eta hurrengoak dira:<br />
• Basque_1.6 Synset: euskal synsetetan aldaketak egin daitezke, hala nola,<br />
variant berriak gehitu edota variantak ezabatu.<br />
• Basque_1.6 Relations: synsetek besteekiko dituzten erlazio semantikoen<br />
berri ematen du.<br />
• Create Basque_1.6 Synset: euskaraz synset berri bat sortzeko balio du.<br />
9. irudia<br />
11
12<br />
A.1.2.3 Nola interpretatu bilaketaren emaitza<br />
L M<br />
N O P<br />
10. irudia<br />
[L]: Synset-zenbakia.<br />
[M]: Synsetaren informazio semantiko desberdina 7 :<br />
• Oinarrizko kontzeptuak (Base Concepts): oinarrizko kontzeptu bat denean<br />
agertuko da bakarrik (beti urdinez).<br />
• Banaketa semantiko sinplea (Semantic Fields): sailkapen semantiko mota<br />
bat (beti berdez), 10. irudian adibidez, artifact, plant eta shape.<br />
7<br />
Eskuliburu ho<strong>net</strong>an, informazio mota honi ez dugu azalpenik emango. Honi buruzko informazioa tesi-txosteneko IV.<br />
kapituluan dago.
• Banaketa semantiko aberatsa (Top Ontology): sailkapen semantiko<br />
aberatsagoa (beti gorriz), 10. irudian adibidez, Artifact, Plant eta Object.<br />
• The Suggested Upper Merged Ontology (SUMO): ontologia ho<strong>net</strong>ako<br />
informazioa (beti lilaz), 10. irudian adibidez, ContenBearingObject eta<br />
FloweringPlant.<br />
[N]: Synset horri dagozkion variant multzoa, [I] eremuan egindako aukeren arabera<br />
(ingelesekoak urdinez, gaztelaniakoak berdez, euskarakoak laranjaz, katalanekoak<br />
gorriz eta italierakoak grisez). Honekin batera, hurrengo informazioa ere eskaintzen<br />
zaigu:<br />
• Lock: Eskuz landua izan dela adierazten du; landugabeek ez dute marka<br />
hau eta Unlock deitzen zaie 8 .<br />
• Lock-en ondoan dagoen zenbakia: Hizkuntza horretako synsetak dituen<br />
hiponimo kopurua adierazten du. Adibidez, zuhaitzek, ‘landare’ adierarekin<br />
137 hiponimo ditu:<br />
lock 137 arbola_1 [99%] zuhaitz_1 [99%]<br />
11. irudia<br />
• Adiera-zenbakia: Hitzaren adiera ezberdinak zenbakien bidez<br />
desberdintzen dira. Zuhaitzek bi adiera ditu, ‘landare’ adierarena eta<br />
‘diagrama’ adierarena. Beraz, adiera-zenbaki desberdina beharko dute,<br />
lehenengoak “1” adiera-zenbakia du, eta bigarrenak, aldiz, “2” adierazenbakia.<br />
• Konfidantza-neurria: Eskuz landu direnak eman daitekeen ehunekorik<br />
altuena izango dute, eta MCRn kopuru hori % 99a da.<br />
lock 137 arbola_1 [99%] zuhaitz_1 [99%]<br />
12. irudia<br />
[O]: Hizkuntza bakoitzeko word<strong>net</strong>eko synsetek dituzten harreman semantikoen kopuruak<br />
erakusten ditu. Esate baterako, zuhaitz_1ek <strong>Euskal</strong> <strong>WordNet</strong>en honako harreman<br />
semantikoak ditu (ikus 10. irudia):<br />
1 is_derived_from, 24 role_agent, 5 has_mero_part, 2 has_mero_madeof, 1<br />
has_hyperonym, 175 has_hyponym, 29 role_patient.<br />
[P]: Synsetaren azalpen laburra, bere adiera ulertzeko baliagarria dena.<br />
8<br />
Interfaze publikoan, Lock dauden synsetak bakarrik ikus daitezke. Unlock edo landugabe daudenak, interfaze<br />
pribatuan bakarrik daude atzigarri.<br />
13
14<br />
A.2 Editore-lana<br />
A.2.1 Baliabideak<br />
Editoreak hainbat baliabide ditu <strong>Euskal</strong> <strong>WordNet</strong>en orrazketarako, eta atal ho<strong>net</strong>an<br />
zerrendatuko ditugu.<br />
A.2.1.1 <strong>Euskal</strong> <strong>WordNet</strong><br />
Txosten honen hasieran esan bezala, gaur egun <strong>Euskal</strong> <strong>WordNet</strong> 1.6 bertsioarekin egiten<br />
dugu lan 9 .<br />
Honekin batera, askotan oso baliagarria izango zaio editoreari browserreko Word<strong>net</strong><br />
1.6ra jotzea, <strong>Euskal</strong> <strong>WordNet</strong> 1.6 bertsioan dagoen informazioa beste ho<strong>net</strong>an<br />
kontrastatzeko. Gainera, MCRko interfazean ingeleseko synsetentzat ikusgarri ez dauden<br />
adibideak bertan aurki daitezke; eta bilaketak egiteko askoz azkarragoa dela ere esan<br />
daiteke. <strong>WordNet</strong> 1.6 browserra exekutatzeko sisx01 10 makinan idatzi wn16, lehendabizi,<br />
sakatu enter, eta ondoren idatzi wnb &.<br />
Esan beharra dago, ingelesez <strong>WordNet</strong> 3.0 bertsioan ari direla lanean dagoeneko.<br />
Editorea bertsio horretara jo dezake 1.6 bertsioan aurkitzen ez duen zerbait kontsultatzeko,<br />
batetik bestera aldaketak egon baitaitezke 11 .<br />
A.2.1.2 <strong>Euskara</strong>ko hiztegiak<br />
Hauek elebakarrak eta elebidunak izan daitezke:<br />
• Elhuyar Hiztegi Txikia (paperean)<br />
• Elhuyar Hiztegia (euskara-gaztelania) 12<br />
• <strong>Euskal</strong> Hiztegi Modernoa (paperean)<br />
• <strong>Euskal</strong> Hiztegia (paperean)<br />
• Hiztegi Batua 13<br />
• <strong>Euskal</strong>term Hiztegi Terminologikoa 14<br />
• Sinonimoen Hiztegia 15<br />
9 http://ixa2.si.ehu.es/mcr/wei.html (2007-06-18an atzitua).<br />
10 sisx01 makina erabiltzeko shella behar da. Horretarako, SSH Secure Shell Client programaren exekutagarria edo<br />
honen mahai-gaineko lasterbidea sakatu behar da. Kontuan izan, SSH Secure Shell Client erabili ahal izateko<br />
beharrezkoa dela X-win aplikazioa martxan egotea. Behin SSH Secure Shell Client programaren interfazean gaudela<br />
Quick Connect sakatu behar da, eta bertan Host name eremua eta User name eremua bete beharko dira. Ondoren,<br />
konektatzeko sakatu Connect eta pasahitza eskatuko du.<br />
11 http://www.cogsci.princeton.edu/cgi-bin/webwn (2007-06-18an atzitua).<br />
12 http://www1.euskadi.<strong>net</strong>/hizt_el/indice_c.htm (2007-06-18an atzitua).<br />
13 http://www.erabili.com/lantresnak/hiztegiak/euskaltzaindia (2007-06-18an atzitua).<br />
14 http://www1.euskadi.<strong>net</strong>/euskalterm/indice_c.htm (2007-06-18an atzitua).
A.2.1.3 <strong>Euskara</strong>ren Datu-Base Lexikala (EDBL)<br />
EDBLn 16 ale lexikal bakoitza bere kategoria eta azpikategoria lexikal edo<br />
morfosintaktikoaren arabera sailkatuta dago (kategoria morfosintaktikoak direnak,<br />
kategoriaz gain, dagokien informazioaz hornituta daude: kasua, aspektua, numeroa,<br />
mugatasuna, funtzioa...). Informazio hori baliagarria izan daiteke synsetak lantzeko garaian.<br />
A.2.1.4 Gaztelaniako hiztegiak<br />
Gaztelaniako hiztegi ugari dauden arren, orokorroean, erabiltzen duguna hurrengoa da:<br />
• Diccionario de la Lengua Española 17<br />
A.2.1.5 Ingeleseko hiztegiak<br />
Hauek elebakarrak eta elebidunak izan daitezke. Ondoren erabiltzen ditugun hiztegi batzuk<br />
zerrendatuko ditugu:<br />
• Collins Master (paperean; gaztelania-ingelesa)<br />
• Gran Diccionario Oxford (paperean; gaztelania-ingelesa)<br />
• Wordreference 18 (gaztelania-ingelesa)<br />
• Cambridge Dictionaries Online 19 (gaztelania-ingelesa)<br />
• Morris Hiztegia 20 (euskara-ingelesa)<br />
• Onelook Dictionary Search 21 (gaztelania-ingelesa)<br />
A.2.1.6 Corpusak<br />
Hitz baten erabilera kontsultatzeko garaian, hurrengo corpusak erabil ditzakegu:<br />
• XX. mendeko <strong>Euskara</strong>ren Corpus Estatistika 22<br />
• Ereduzko prosa gaur 23<br />
• EuSemcor euskara corpusa 24<br />
15<br />
http://www.erabili.com/lantresnak/hiztegiak/uzei_sinonim (2007-06-18an atzitua).<br />
16<br />
http://ixa2.si.ehu.es/edbl (2007-06-18an atzitua).<br />
17<br />
http://www.rae.es (2007-06-18an atzitua).<br />
18<br />
http://www.wordreference.com (2007-06-18an atzitua).<br />
19<br />
http://dictionary.cambridge.org (2007-06-18an atzitua).<br />
20<br />
http://www.hiztegia.<strong>net</strong> (2007-06-18an atzitua).<br />
21<br />
http://www.onelook.com (2007-06-18an atzitua).<br />
22<br />
http://euskaracorpusa.<strong>net</strong> (2007-06-18an atzitua).<br />
23<br />
http://www.erabili.com/lantresnak/aztergailuak/prosa (2007-06-18an atzitua).<br />
24<br />
http://sisx04.si.ehu.es:8080/eusemcor (2007-06-18an atzitua).<br />
15
16<br />
A.2.1.7 IXA taldeko Hiztegixa<br />
Hiztegixa IXA taldeak sortutako tresna bat da; bertan taldeko la<strong>net</strong>arako oso erabilgarriak<br />
diren hiztegi garrantzitsue<strong>net</strong>akoak jasotzen dira interfaze informatiko berean. Beraz,<br />
arestian aipatutako hiztegi batzuk bertan izango ditugu 25 :<br />
• <strong>Euskal</strong> Hiztegia<br />
• Hiztegi Batua<br />
• Sinonimoen Hiztegia<br />
• <strong>Euskal</strong> Hiztegi Modernoa<br />
• Elhuyar Hiztegia (euskara-gaztelania)<br />
• Morris Hiztegia<br />
A.2.2 Hitz baten orrazketarako prozesua<br />
Sarreran aipatu bezala, orain arte izenak dira <strong>Euskal</strong> <strong>WordNet</strong>en landuta ditugunak. Izen eta<br />
adiera horiek gutxienez, Elhuyar Hiztegi Txikiak jasotzen dituenak dira, arruntenak horiek<br />
direla uste baita. Ondoren, adjektibo, adberbio eta aditzen lanketari ekingo diogu.<br />
Atal ho<strong>net</strong>an hitz baten orrazketan eta lanketan editoreak jarraitu behar dituen pausoen<br />
azalpena dator. Adibide gisa erabiliko dugun hitza zuhaitz izango da.<br />
Lehenengo eta behin, hitz hori <strong>Euskal</strong> <strong>WordNet</strong>en landuta dagoen ala ez jakin behar<br />
dugu. Horretarako, bertara joko dugu, eta zuhaitz hitzaren bilaketa egingo dugu. Bi gauza<br />
gerta daitezke: <strong>Euskal</strong> <strong>WordNet</strong>en egotea, edota <strong>Euskal</strong> <strong>WordNet</strong>en ez egotea. Demagun,<br />
zuhaitz hitza landuta dagoela, eta <strong>Euskal</strong> <strong>WordNet</strong>en 13. irudian bezala ageri dela:<br />
09396070n<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
09396070n 1008 tree_1<br />
09396070n 993 árbol_1<br />
09396070n 137 zuhaitz_1<br />
arbola_1<br />
a tall perennial woody plant having a main trunk and<br />
branches forming a distinct elevated crown; includes both<br />
gymnosperms and angiosperms<br />
planta perenne de unos cinco metros de altura que se<br />
ramifica a partir de un tronco leñoso y elevado<br />
zurezko landare bizikorra, altuera aldakorrekoa, baina<br />
sarritan handia<br />
13. irudia<br />
25 Hiztegixa IXAko web orrian (pribatuan) eskuragarri dago: http://ixa2.si.ehu.es/hiztegixa (2007-06-18an<br />
atzitua).
A.2.2.1 Synseten ulermena<br />
Lehenengo pausoa agertzen diren synsetak ulertzea da. 13. irudian ikus daitekeenez, <strong>Euskal</strong><br />
<strong>WordNet</strong>en zuhaitz hitzak synset bakarra du, ‘landare’ adiera duena. Kasu ho<strong>net</strong>an,<br />
ulerterraza gertatzen da zuhaitz hitzaren synseta. Baina, batzuetan mota desberdi<strong>net</strong>ako<br />
zailtasunak sor daitezke: synsetak ilunak izatea, zenbait synseten artean bereizketarik ez<br />
ikustea, hiperonimo eta hiponimoetan hitz bera agertzea, besteak beste. Honelako kasuak<br />
aurrerago azalduko ditugu (A.2.3 atalean), hartutako erabakiak eta irizpide nagusiak bananbanan<br />
azalduz.<br />
Hala eta guztiz ere, oso lagungarria izaten da bilaketan bere hiperonimorik hurbilena,<br />
edota hiperonimo-kate osoa jasotzea. Honela:<br />
•<br />
09396070n<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
09395329n mn 99<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
09396070n 1008 tree_1<br />
09396070n 993 árbol_1<br />
09396070n 137 zuhaitz_1<br />
arbola_1<br />
09395329n 1860 woody_plant_1<br />
ligneous_plant_1<br />
09395329n 1858 planta_leñosa_1<br />
09395329n 236<br />
zurezko_landare_1<br />
a tall perennial woody plant having a main trunk and<br />
branches forming a distinct elevated crown; includes both<br />
gymnosperms and angiosperms<br />
planta perenne de unos cinco metros de altura que se<br />
ramifica a partir de un tronco leñoso y elevado<br />
zurezko landare bizikorra, altuera aldakorrekoa, baina<br />
sarritan handia<br />
14. irudia<br />
a plant having hard lignified tissues or woody<br />
parts especially stems<br />
Planta dotada de haces lignificados que la<br />
hacen muy resistente<br />
Irudi ho<strong>net</strong>an, zuhaitz_1en hiperonimorik hurbilena ikus daiteke, eta adiera hobeto<br />
ulertzen lagun dezake: zuhaitz_1 ‘zurezko landare’ bat da.<br />
Beste aukera bat da ulertu nahi dugun synsetaren hiponimoak ikustea, adiera ulertzen<br />
laguntzeko.<br />
17
18<br />
09396070n<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
•<br />
•<br />
•<br />
09431812n mn<br />
99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
08565213n mn<br />
99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
08572627n mn<br />
99<br />
-botany-<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
• …<br />
09396070n 1008 tree_1<br />
09396070n 993 árbol_1<br />
09396070n 137 zuhaitz_1<br />
arbola_1<br />
09431812n 0 hazel_1 hazel_tree_1<br />
Pomaderris_apetala_1<br />
09431812n 0 avellanero_1 avellano_3<br />
09431812n 0 hurrondo_3 hurritz_3<br />
08565213n 6 beech_1<br />
beech_tree_1<br />
08565213n 5 haya_1<br />
08565213n 0 pago_1<br />
08572627n 48 oak_2 oak_tree_1<br />
08572627n 47 roble_1<br />
08572627n 3 haritz_1<br />
a tall perennial woody plant having a main trunk and<br />
branches forming a distinct elevated crown; includes both<br />
gymnosperms and angiosperms<br />
Planta perenne de unos cinco metros de altura que se<br />
ramifica a partir de un tronco leñoso y elevado<br />
zurezko landare bizikorra, altuera aldakorrekoa, baina<br />
sarritan handia<br />
tree grown especially for ornament and its finegrained<br />
wood and bearing edible nuts<br />
any of several large deciduous trees with rounded spreading crowns and<br />
smooth gray bark and small sweet edible triangular nuts enclosed in burs;<br />
north temperate regions<br />
15. irudia<br />
a deciduous tree of the genus Quercus; has<br />
acorns and lobed leaves
15. irudiko hiponimoei esker, badakigu, haritz_1, pago_1 eta hurrondo_3, beste batzuen<br />
artean, ‘zuhaitz motak’ direla. Beraz, osatu dugu lehenengo urratsa: synsetek adierazten<br />
duten adieren ulermena.<br />
A.2.2.2 Synseten egokitasuna<br />
<strong>Euskal</strong> <strong>WordNet</strong>eko adierak ulertu ondoren, hauen egokitasuna aztertu behar dugu.<br />
A.2.2.2.1 Hiztegien erabilera<br />
Lehenik, euskarako hiztegietara joko dugu zuhaitz hitzak dituen adierak aztertzeko.<br />
Adibidez, Elhuyar Hiztegi Txikian begiratuz gero, (arestian esan bezala, bertan dauden izen<br />
eta adierak gutxienez agertu behar dute <strong>Euskal</strong> <strong>WordNet</strong>en) honako emaitza hau agertzen da:<br />
Elhuyar Hiztegi Txikia: zuhaitz<br />
1. Árbol. “Zuhaitz ugariz jantziriko lurraldea”<br />
2. (egitura, eskema) Árbol. “Zuhaitz genealogikoa”<br />
Ikus daiteke, gure adibideak bi adiera dituela Elhuyar Hiztegi Txikian. Lehenengoak<br />
‘landare’ adierari egiten dio erreferentzia. Beraz, hau da <strong>Euskal</strong> <strong>WordNet</strong>ek jasotzen duen<br />
adiera. Bigarrena, berriz, ‘eskema’ edota ‘egitura’ adierazteko balio duena da. Eta hau ez du<br />
<strong>Euskal</strong> <strong>WordNet</strong>ek jasotzen. Hala, egokitasuna aztertzen denean, bi puntu lantzen dira:<br />
• <strong>Euskal</strong> <strong>WordNet</strong>en dauden synsetak ea egokiak diren; eta zuhaitz_1 halaxe<br />
gertatzen da, Elhuyar Hiztegi Txikiko 1. adierarekin bat baitator.<br />
• Adiera edota synseten bat faltan edo soberan dagoen; eta kasu ho<strong>net</strong>an, Elhuyar<br />
Hiztegi Txikiko bigarren adiera falta da <strong>Euskal</strong> <strong>WordNet</strong>en (‘diagrama’).<br />
Baliabideen atalean (A.2.1) aipaturiko hiztegiek lagun gaitzake zuhaitz hitzak dituen<br />
adierak egiaztatzeko: <strong>Euskal</strong> Hiztegia, <strong>Euskal</strong>term, EDBL, besteak beste. Beraz, euskarako<br />
hiztegiak kontsultatu ondoren, baiezta daiteke zuhaitz hitzak bi adiera dituela. Eta, aurreko<br />
atalean ikusi ahal izan dugun bezala, <strong>Euskal</strong> <strong>WordNet</strong>en zuhaitzen adiera bat agertzen da,<br />
baina bestea ez. Hala, editoreak eman behar dugun hurrengo pausoa hauxe da: adiera hori<br />
<strong>Euskal</strong> <strong>WordNet</strong>en sartzeko synset egokia aurkitu, eta bertan txertatu. Ondorengo atalean<br />
datoz horretarako argibideak.<br />
A.2.2.2.2 Nola sartu euskal ordaina synset batean<br />
Lehendabizi, hiztegi elebidu<strong>net</strong>ara jo behar dugu zuhaitz hitzaren itzulpena jasotzera (ikus<br />
A.2.1.2 eta A.2.1.5 atalak). Bilaketa egin ondoren, zuhaitzen itzulpenak ditugu: tree eta árbol.<br />
Ondoren, ingeleseko tree eta gaztelaniako árbol aztertu behar ditugu, euskarako eta beste<br />
19
20<br />
hizkuntzetako kontzeptuek gauza bera adierazten dutela ziurtatzeko. Horretarako, ingeles eta<br />
gaztelaniako hiztegi elebakarretan begiratu behar dugu, hitz hauen adiera desberdinen<br />
definizioak euskarako definizioekin parekatzeko. Esate baterako <strong>Euskal</strong> Hiztegi Modernoak<br />
zuhaitz hitzarentzat bi adiera ditu:<br />
1. Zurezko landare bizikorra, altuera aldakorrekoa, baina sarritan handia. Zurtoina (enborra) lurretik<br />
urruti samar adarkatzen da eta espezie bakoitzaren bereizgarri den adaburua eratzen du.<br />
2. Elkarrekiko erlazionaturik dauden edo sistema bat osatzen duten hainbat elementuren arteko<br />
mailaz mailako hierarkia-erlazioa grafikoki adierazten duen egitura adarkatua (bereziki<br />
hizkuntzalaritzan eta informatikan erabiltzen da).<br />
Wordreference hiztegiko definizioak tree hitzarentzat hurrengoak dira:<br />
1. Any large woody perennial plant with a distinct trunk giving rise to branches or leaves at some<br />
distance from the ground.<br />
2. A branching diagrammatic representation of something, such as the grammatical structure of a<br />
sentence.<br />
Eta azkenik, árbol hitzaren definizioak Diccionario de la Lengua Españolen ondorengoak<br />
dira:<br />
1. Planta perenne, de tronco leñoso y elevado, que se ramifica a cierta altura del suelo.<br />
2. Cuadro descriptivo, la mayoría de las veces en forma de árbol.<br />
Ikus daitekeen bezala, hizkuntza guztietako ordainen adierak bateragarriak dira, hau da<br />
zuhaitzek eta honen itzulpenak diren tree eta árbolek, berdinak diren bi adiera dituzte. Hortaz,<br />
bi adiera horiek dituzten erdal ordain horien (árbol eta tree) synsetetan euskarako zuhaitz<br />
hitza txerta daiteke.<br />
Hala ere, zuhaitz hitzaren kasuan, bi adiera adierazteko ordain bakarra dago bai euskaraz,<br />
bai gaztelaniaz eta bai ingelesez. Baina, badira kasu konplexuagoak, non euskal hitz batek<br />
adiera bat baino gehiago dituen, eta hitz eta adiera hauen itzulpenak ingelesez eta<br />
gaztelaniaz, ordain bat baino gehiago diren. Esate batareko, lur hitzaren kasuan, hurrengoak<br />
lirateke hitz hau ingelesez eta gaztelaniaz itzultzeko formarik arruntenak:<br />
Morris Hiztegia: lur<br />
1. (Astron.) Earth.<br />
2. (Kristau.) earth, world.<br />
3. (ez airean) land.<br />
4. (behekoa) ground.<br />
5. (etxe barrukoa) floor.<br />
Elhuyar Hiztegia: lur<br />
1. tierra<br />
2. suelo, tierra
Lur hitza lantzeko garaian, itzulpen hauek guztiak dagokien hizkuntzako hiztegi<br />
elebakarretan aztertu beharko genituzke, erdal ordain horien synsetetan euskarako lur hitza<br />
erabilgarria izan daitekeela egiaztatzeko.<br />
Behin lantzen ari garen hitzaren (orain arteko adibidearekin jarraituta, zuhaitz) eta<br />
dagozkion erdal ordainak (árbol eta tree) ezagututa, erdal ordain hauen synsetak hizkuntza<br />
hauetako word<strong>net</strong>etan kontsultu behar ditugu, euskarako hitzari falta zaizkion adierak<br />
txertatzeko; zuhaitz hitzaren kasuan, adiera berri bat sartu behar dugu (‘diagrama’ adierari<br />
dagokiona, hain zuzen ere). Horretarako, esan dugun bezala, lehendabizi tree edo árbol hitzak<br />
bilatu behar ditugu ingeleseko eta gaztelaniako word<strong>net</strong>etan. Bai batean, eta bai bestean,<br />
bilaketa honen emaitza 16. irudikoa da. Bai tree hitzak, bai árbolek bi adiera dituzte MCRn:<br />
‘landare’ (09396070 synseta) eta ‘diagrama’, ‘egitura’, ‘eskema’ (10025462 synseta).<br />
Esan bezala, <strong>Euskal</strong> <strong>WordNet</strong> Euro<strong>WordNet</strong>en hasieran, eta egun MCRn oinarrituta<br />
dago. Bertan hainbat hizkuntza daude (ingelesa, gaztelania, katalana, italiera...), baina,<br />
azpimarratu beharra dago, oinarri gisa ingelesa hartzen dugula, nahiz eta beste hizkuntzak<br />
(batez ere, gaztelania) lagungarriak izan daitezkeen.<br />
09396070n<br />
-botany-<br />
base concept<br />
plant<br />
FloweringPlant+<br />
Group=<br />
Living=<br />
Object=<br />
Plant=<br />
Tops=<br />
10025462n<br />
-geometry-<br />
shape<br />
ContentBearingObject+<br />
ImageRepresentation=<br />
Tops=<br />
09396070n 1008 tree_1<br />
09396070n 993 árbol_1<br />
09396070n 137 zuhaitz_1<br />
arbola_1<br />
10025462n 2 tree_2<br />
tree_diagram_1<br />
10025462n 0 árbol_2<br />
a tall perennial woody plant having a main trunk and<br />
branches forming a distinct elevated crown; includes both<br />
gymnosperms and angiosperms<br />
planta perenne de unos cinco metros de altura que se<br />
ramifica a partir de un tronco leñoso y elevado<br />
zurezko landare bizikorra, altuera aldakorrekoa, baina<br />
sarritan handia<br />
a figure that branches from a single root<br />
estructura conceptual que consta de varias<br />
ramificaciones y una única raíz<br />
16. irudia<br />
Zuhaitz hitzaren bigarren adiera hori (‘diagrama’) non txertatu baduela jakinda, synset<br />
horretan euskal ordaina sartuko dugu. Horretarako, synset-zenbakiaren gainean klikatu<br />
behar dugu (kasu ho<strong>net</strong>a, 10025462 idatzia duen botoiaren gainean (ikus 17. irudia).<br />
Horrekin batera, kontuan izan behar dugu, synset horretan lehendik euskarako ordainen bat<br />
zegoen ala ez. Aurretik synsetean euskarako ordainik egongo ez balitz, 17. irudian laukian<br />
markaturik agertzen den kutxatilan Create Basque_1.6 Synset aukeratu behar dugu euskal<br />
21
22<br />
ordaina sartzeko. Aldiz, aurretik synsetean euskarako ordainen bat egongo balitz,<br />
Basque_1.6 Synset aukeratu behar dugu 26 .<br />
17. irudia<br />
Aukeraketa hori eginda eta synset-zenbakiaren gainean klikatu ondoren, synsetaren<br />
barruan gaude, eta honek 18. irudiko itxura izango du. Bertan, New word botoi horretan<br />
klikatu behar dugu hitz berri bat synsetean sartzeko (ikus 18. irudian):<br />
26 Aurretik euskal ordainen bat badago, hau egokia izan daiteke, eta egin nahi dena sinonimo bat gehitzea baino ez da.<br />
Horretarako, atal ho<strong>net</strong>an aipatutako pausoak jarraituko ditugu. Dagoen ordaina okerra balitz, ezabatu beharko genuke,<br />
eta hori A.2.2.2.3 atalalean dator azalduta.
18. irudia<br />
Ondoren, leihoak beste itxura bat hartuko du, eta zuhaitz hitza sartu ahal izango dugu.<br />
Word eremuan zuhaitz hitza idatzi behar dugu. 19. irudian ikusten den bezala zuhaitz<br />
sartuta dago, eta eragiketa bukatzeko Lock marka jarri (eskuz landuta dagoela adierazteko)<br />
eta Update botoia sakatu behar ditugu (synsetean egindako azkeneko aldaketak<br />
eguneratzeko).<br />
19. irudia<br />
23
24<br />
Beraz, eragiketa hauen ondoren, <strong>Euskal</strong> <strong>WordNet</strong>en zuhaitz hitzaren bilaketa eginez gero<br />
(Lookup botoia sakatuz gero), 20. irudiko emaitza jasoko genuke; hots, zuhaitz hitzak bi<br />
synset dituela:<br />
20. irudia<br />
Esan beharra dago, variantak ale lexikalez gain hitz anitzeko esapideak (aurrerantzean<br />
HAE) ere izan daitezkeela. Hauek marratxorik ez badute (polizi agente, adibidez), bi osagaien<br />
artean “_” ikurra gehitu behar zaie: polizi_agente. Bestela, sistemak ez du hitz hori<br />
ezagutuko.<br />
A.2.2.2.3 Nola ezabatu euskarako ordaina synset batean<br />
Alderantzizko kasua gerta liteke: hitz bat <strong>Euskal</strong> <strong>WordNet</strong>en orrazten ari denean, ikus<br />
genezake ageri diren synseten artean baten bat egokia ez izatea. Honek esan nahi du adiera<br />
hori ez dagokiola lantzen ari garen hitzari. Bestela esanda, hitzaren adiera zuzenen artean ez<br />
dagoela synset horrek adierazten duena. Beraz, hitza ezabatu behar dugu synset horretatik.<br />
Berriro ere zuhaitz hitza erabiliko dugu adibide gisa.<br />
Demagun, <strong>Euskal</strong> <strong>WordNet</strong>en zuhaitz hitzaren kontsulta egitean, ondorengo emaitza<br />
agertzen dela:
21. irudia<br />
Irudi ho<strong>net</strong>an zuhaitz hitzak hiru synset dituela ikusten dugu. Lehenengo biak aurreko<br />
ataletan landu ditugu, baina hirugarrena berria da. Aurreko ataletan (A.2.2.2.2 atalean zehar)<br />
ikusiriko pauso guztiak jarraitu ondoren, ondorio ho<strong>net</strong>ara iritsiko gara: zuhaitz hitzak ez du<br />
bere adieren artean gaztelaniaz arbusto edo mata dutenak, eta ingelesez shrub edo bush<br />
hitzek dutena. Adiera horretarako egokia da synset berean dagoen beste varianta:<br />
zuhamuxka. Beraz, editoreak zuhaitz_3 ezabatuko du synset horretatik. Horretarako, euskal<br />
ordain bat sartzeko bezala (A.2.2.2.2 atalean azalduta dagoen bezala), synsetaren barruan<br />
egin behar ditugu aldaketak. Horretarako, synset-zenbakiaren gainean klikatu behar dugu,<br />
adibide ho<strong>net</strong>an 09403820 synset-zenbakian. Gainera, kasu ho<strong>net</strong>an, synsetak badu euskarako<br />
ordainen bat, beraz, A.2.2.2.2 atalean esan bezala, Basque_1.6 Synset aukeratu beharko<br />
dugu (ikus 17. irudia). Ondoren, berriro, leiho hau agertuko da:<br />
25
26<br />
22. irudia<br />
Synset horrek dituen bi variantetatik bat ezabatu nahi dugu, eta horretarako, variantaren<br />
ondoan eta Deleteren azpian dagoen laukitxoa markatu behar dugu. Aurrekoan bezala, Lock<br />
laukitxoa markatu behar dugu (eskuz landuta dagoela adierazteko) eta ondoren Update (egin<br />
den aldaketa eguneratzeko). Azkenik, Lookup botoia sakatzen badugu, <strong>Euskal</strong> <strong>WordNet</strong>ek<br />
zuhaitz hitzaren bilaketa egingo du, eta bi synsetekin geratu dela ikusiko dugu.<br />
A.2.2.2.4 Variant guztien orrazketa<br />
Orrazketaren beste zeregi<strong>net</strong>ako bat synseteko beste variantak aztertzea da. Bide batez,<br />
gainontzeko euskal variantak (baleude) zuzenak diren ere aztertu behar du editoreak:<br />
zuhaitz_1en kasuan, ageri da beste variant bat: arbola_1. Eta hiztegiek erakusten digute arbola<br />
hitza zuhaitzen sinonimoa dela, eta berdin erabil daitezkeela. Beraz, synsetean utziko<br />
litzateke. Bigarren synsetaren kasuan, ez da beste variantik agertzen, beraz, ez dago<br />
variantik aztertzeko.<br />
Zeregin ho<strong>net</strong>arako euskal hiztegietara jo beharko dugu (elebakar eta elebidu<strong>net</strong>ara),<br />
synset horretan agertzen diren variant guztiak sinonimoak diren egiaztatzeko. Baten bat<br />
egokia ez balitz, ezabatu beharko genuke (ikus A.2.2.2.3 atala). Eta alderantziz, beste<br />
aukeraren bat aurkituko bagenu, gehitu beharko genuke (ikus A.2.2.2.2 atala).
A.2.2.2.5 Hiperonimo eta hiponimoen orrazketa<br />
Azkenik, synset bakoitzaren euskal hiperonimo eta hiponimoen hierarkia egokia den<br />
berrikusi beharko dugu.<br />
23. irudia<br />
Beste zenbait gauzen artean, arretaz aztertu behar dugu hitz batean hiperonimoan eta<br />
hiponimoan hitz bera (variant bera) ez agertzea. 23. irudian ez da gertatzen, baina oso<br />
arrunta izango da beste hitz batzuen kasuan. Horrelako kasuak hurrengo atalean<br />
(A.2.2.3.1.4) landuko ditugu, eta bertan nola jokatu jakiteko irizpideak aurkitu ahal izango<br />
ditugu.<br />
A.2.3 Orrazketaren zalantzak eta arazoak: irizpideak<br />
Aurreko atalean azaldu dugun prozesuan, hau da, hitz baten lanketan, askotan sortu dira<br />
hainbat arazo eta kasu berezi: euskaraz lexikalizatu gabeko synsetak, kategoria bateraezinak,<br />
bereziki landu beharreko hitzak, adiera orokorregiak edo espezifikoegiak, eta beste zenbait<br />
zalantza eta arazo. Orain arte, zalantza hauek guztiak editoreak zerrenda batzuetan sailkatzen<br />
zituen, baina zalantza sortzen duten hitz hauek <strong>Euskal</strong> <strong>WordNet</strong>en landu ahal izateko,<br />
zerrendetako zalantzak bildu eta aztertu ditugu, erabaki batzuk hartuz, eta irizpide batzuk<br />
finkatuz. Horrekin batera, editorearentzako beharrezkoak ziren marka berriak gehitu ditugu<br />
interfazean (MCRko interfazea aldatuz), eta horiek azalduko ditugu ondoko irizpide eta<br />
adibideetan.<br />
27
28<br />
A.2.3.1 Synsetei dagozkien markak<br />
Synsetek bost marka ezberdin izan ditzakete, eta horiek guztiak ez-lexikalizatu –No<br />
lexicalize (Nolex aurreratzean)– gisa tratatu ditugu.<br />
A.2.3.1.1 Nolex markak<br />
Atal ho<strong>net</strong>an, euskaraz lexikalizaturik gabeko kasuak aztertuko ditugu. Noiz gertatzen da?<br />
Beste hizkuntza batean lexikalizaturik dagoen synset batek euskaraz ordainik ez duenean;<br />
hau da, gure hizkuntzan synset hori adierazteko esamolde edo esapide batera jo behar<br />
dugunean. Orduan, synset hori Nolex dela esaten dugu, eta ikusiko dugun bezala, marka hori<br />
jartzen diogu 27 . Ondoren, Nolex kasu desberdinak aztertuko ditugu.<br />
A.2.3.1.1.1 Nolex arrunta<br />
Nolex arrunta ingeleseko 28 synsetak euskaraz ordainik ez duenean gertatzen da, hau da,<br />
synset horren adiera euskaraz lexikalizatuta ez dagoenean. Esate baterako, ingeleseko forties<br />
kontzeptua euskaraz ezin da hitz bat edo HAE baten bidez adierazi, azalpen edo definizio<br />
gisa adierazi behar dugu (‘berrogei urte inguru izan’ bezalako zerbait).<br />
Fenomeno hau kontzeptu kultural deritzotenekin gertatzen da batez ere: kultura bati<br />
loturik agertzen diren kontzeptuak, beste hizkuntzetan existitzen ez direnak. Adibidez, simnel<br />
‘Ingalaterran Eguberrietan jaten den gozokia’ da, edota off-sales ‘edari alkoholikoak sal<br />
ditzaketen Ingalaterrako dendak, non hauek edatea debekatua dagoen’. Hauek Ingalaterrako<br />
kontzeptu kulturalak lirateke. Aldiz, trikitixa, ikastola, txakolina eta abar <strong>Euskal</strong> Herrikoak.<br />
Honenbestez, hizkuntza batean edo bestean ez dira egongo horien ordain lexikoak, eta Nolex<br />
arrunta gisa landuko genituzke 29 .<br />
Hala, horrelako kasuetan synset horren barruko interfazean Nolex eta Lock marka jarriko<br />
dizkiogu, eta synset hori euskal variantik gabe utziko dugu:<br />
27<br />
Nolex marka daramaten synseten <strong>Euskal</strong> <strong>WordNet</strong>en interfaze publikoan ez daude ikusgarri, hau da, interfaze<br />
pribatutik bakarrik hel daiteke hauetara.<br />
28<br />
Gogoratu beharra dago, <strong>Euskal</strong> <strong>WordNet</strong> garatzeko, oinarri gisa ingelesa hartzen dugula, nahiz eta beste hizkuntzak<br />
(batez ere, gaztelania) lagungarriak izan daitezkeen.<br />
29<br />
Tesi-txosteneko VI. kapituluan azaldu bezala, horrelako kasuak hutsune kultural (cultural gaps) bezala izendatzen<br />
dira.
A.2.3.1.1.2 Espezifikoa Nolex<br />
24. irudia<br />
Badira beste hizkuntzetako zenbait synset oso adiera espezifikoa dutenak, eta nahiz eta,<br />
behar bada, euskaraz ordainen bat izan, ordain hori topatzea zaila gerta daiteke, batzuetan<br />
eskura ez ditugun hiztegi espezializatuetara jotzea behartzen gaituelako. Adibidez false<br />
mistletoe (‘mihura mota bat’). Horrelakoetan ahal dugun neurrian euskarako ordaina bilatzen<br />
saiatu behar dugu, orain arte aipatutako hiztegietan (ikus A.2.1 atala). Aurkituko bagenu,<br />
dagokion synsetean sartuko genuke. Baina ordainik topatuko ez bagenu, Espezifikoa eta<br />
Nolex markak jarriko dizkiogu. Gainera, synsetaren Oharra eremuan eman dituen pausoak<br />
idatzi behar ditugu. Azkenean Lock markatuko dugu landu dugula adierazteko 30 (ikus 25.<br />
irudia).<br />
25. irudia<br />
30 Izen berezi batzuk (bataila batzuen izenak, besteak beste) era ho<strong>net</strong>ara marka daitezke.<br />
29
30<br />
A.2.3.1.1.3 Orokorra Nolex<br />
<strong>WordNet</strong>en kontzeptu orokor batzuk izendatzeko terminoak asmatu-edo egin dira. Adibidez,<br />
entity azpian daudenean imaginary place, body of water, unpleasant woman, eta halakoak, hauen<br />
baitan dauden hiponimoen sailkapena errazteko sortu dira. Beste hitz batzuetan esanda,<br />
synset hauek antolatzaileak direla esan daiteke, hiponimo sorta bat izendatzeko<br />
beharrezkoak. Horregatik, nahiz eta kontzeptu hori berez lexikalizatua ez egon, adierazi<br />
egiten da hierarkia ulergarriagoa egitearren.<br />
Horrelakoak euskaratzean, saiatu behar dugu ahal dugun neurrian euskarako ordaina<br />
topatzen. Aurkitzen badugu, synsetari lotuko diogu. Baina aurkitzen ez badugu, Orokorra<br />
eta Nolex bezala markatu ditugu; eta Oharra eremuan hartutako erabakiaren berria emango<br />
dugu (zer hiztegietan begiratu dugun eta abar). Bukatzeko Lock marka ere jarriko dugu. 26.<br />
irudian imaginary_place_1eri dagokion synseta dugu adibide gisa:<br />
A.2.3.1.1.4 Espezifikoa Hipe Nolex<br />
26. irudia<br />
Esan bezala (ikus A.1.2.1 atala), hiponimoak hiperonimoen zehaztapenak dira. Ingeleseko<br />
word<strong>net</strong>ak duen espezifikotasun-maila oso xehea da, eta honen ondorioz, maiz, ingeleseko<br />
hierarkiako synset ugari euskaraz hiperonimoaren ordain bera erabilita itzultzen dira; bestela<br />
esanda, ingeleseko hiperonimo baten hiponimo bakoitzarentzat ordain desberdin bat<br />
dagoenean, euskaraz hiperonimo eta hiponimo horiek hitz bera izango dute. Adibideetako<br />
bat parranda hitza da:
00328689n mn 99<br />
-free_time-<br />
act<br />
RecreationOrExercise+<br />
Agentive=<br />
Cause=<br />
Dynamic=<br />
Purpose=<br />
Recreation=<br />
Social=<br />
UnboundedEvent=<br />
•<br />
00328944n mn 99<br />
-free_time-<br />
act<br />
RecreationOrExercise+<br />
Agentive=<br />
Cause=<br />
Dynamic=<br />
Purpose=<br />
Recreation=<br />
Social=<br />
UnboundedEvent=<br />
o<br />
o<br />
o<br />
00328689n 8 merrymaking_1 conviviality_2 jollification_1<br />
00328689n 7 juerga_1 jolgorio_1<br />
00328689n 7 parranda_1<br />
00329202n mn 99<br />
-free_time-<br />
act<br />
RecreationOrExercise+<br />
Agentive=<br />
Cause=<br />
Dynamic=<br />
Purpose=<br />
Recreation=<br />
Social=<br />
UnboundedEvent=<br />
00329304n mn 99<br />
-free_time-<br />
act<br />
RecreationOrExercise+<br />
Agentive=<br />
Cause=<br />
Dynamic=<br />
Purpose=<br />
Recreation=<br />
Social=<br />
UnboundedEvent=<br />
00329473n mn 99<br />
-free_time-<br />
act<br />
RecreationOrExercise+<br />
Agentive=<br />
Cause=<br />
Dynamic=<br />
Purpose=<br />
Recreation=<br />
Social=<br />
UnboundedEvent=<br />
00328944n 6 revel_1 revelry_1<br />
00328944n 5 alborozo_1 holgorio_1 embullo_1 algazara_1<br />
00328944n parranda_1<br />
00329202n 0 spree_1 bout_3 fling_2<br />
00329202n 0 borrachera_1 parranda_1<br />
melopea_1 francachela_1 cuchipanda_1<br />
00329202n parranda_2<br />
00329304n 0 bust_3 tear_3 bender_1<br />
binge_1 toot_2 booze-up_1<br />
00329304n 0 castaña_2 turca_1 tranca_1<br />
00329304n parranda_3<br />
00329473n carouse_1 carousal_1<br />
00329473n 0 farra_1<br />
00329473n parranda_34<br />
27. irudia<br />
boisterous celebration<br />
unrestrained<br />
merrymaking<br />
a brief indulgence of<br />
your impulses<br />
an occasion for<br />
heavy drinking<br />
a merry drinking party<br />
31
32<br />
Ikus daitekeen bezala, parranda_1 hiperonimoaren azpiko lau hiponimoen variantak<br />
berdinak dira, hau da, denak parranda, gisa adierazita daude, euskaraz ez dira bereizten 31 .<br />
Horrelakoetan, jarraitu beharreko irizpidea honako hau da: hiponimoei Nolex marka jarri eta<br />
hiperonimoa bere horretan utzi. Hala ere, hiperonimoaren ordain bera jasotzen duela<br />
adierazteko hiponimoei marka bat jarriko diegu: Espezifikoa HIPE. Hala, horrelako<br />
synsetak Nolex, Lock eta Espezifikoa HIPE bezala markatuko dira.<br />
28. irudia<br />
Oharra:<br />
Kasu ho<strong>net</strong>az ohartu ahal izateko, <strong>Euskal</strong> <strong>WordNet</strong>en synset edo hitz baten kontsulta egitean, honen<br />
hiperonimoak eta hiponimoak beti eskatzea gomendagarria da. Bestalde, irizpide hau hiperonimohiponimo<br />
hurbilen artean bakarrik erabiliko dugu.<br />
A.2.3.1.1.5 Bestelako kasuak<br />
Batzuetan, <strong>Euskal</strong> <strong>WordNet</strong>en interfazea kontsultatzean, Nolex marka, varianta eta orain<br />
arte aipaturiko beste markarik gabeko synsetak topa ditzakegu (normalean, Lock markarik<br />
gabekoak dira). Adibidez:<br />
31 Espezifikazio-mailari buruzko azalpen gehiagorako jo bedi tesi-txosteneko VI. kapitulura.
07690797n<br />
-merchant_navy-<br />
person<br />
hasSkill+<br />
Function=<br />
Human=<br />
Living=<br />
Object=<br />
Occupation=<br />
Tops=<br />
07690797n 0 yachtsman_1 yachtswoman_1<br />
07690797n 0 yatista_1<br />
07690797n nolex 0 yatelari_1<br />
29. irudia<br />
sails a yacht<br />
Hauek orrazketaren beste fase batean egindakoak dira, gehienak; <strong>Euskal</strong> <strong>WordNet</strong><br />
editatzeko irizpideak garatu gabe zeudenekoak dira. Egungo metodologia dela-eta, horrelako<br />
kasuak ez dira sortzen, baina horrelakoren bat topatuz gero, synset hori eskuliburu ho<strong>net</strong>an<br />
zehaztutako irizpideen arabera moldatu beharko genuke (nahiz eta synseta Lock marka<br />
izan 32 ). Hurrengo kasuistika gerta daiteke:<br />
• Varianta hitz bat bada (ikus 29. irudia), normalean, Nolex arrunta eta<br />
Espezifikoa Nolex gisa tratatuko da (ikus A.2.3.1.1.1 eta A.2.3.1.1.2 atalak).<br />
Hala ere, kasuan kasu, irizpidea ezberdina izan daiteke –adibidez, hiperonimoan<br />
ordain bera agertzea (ikus ikus A.2.3.1.1.4 atala), edota synset horrentzat<br />
euskarako ordain apropos bat topatzea, eta abar.<br />
• Varianta HAE bat bada, orduan jo bedi A.2.3.2.3ko irizpidera.<br />
A.2.3.2 Variantei dagozkien kasuak<br />
A.2.3.2.1 RARE marka<br />
<strong>Euskal</strong>kietako aldaera desberdinekin arazoak sortzen dira zenbaitetan. Honako adibidea<br />
argia da egunkari izena. Hiztegietan gaztelaniako ‘periódico’ adieraz gain, iparraldean badu<br />
beste adiera bat: ‘jornalero’. Hala, editoreak jornalari kontzeptua lantzean, baliteke synseten<br />
batean egunkari hitza topatzea edota txertatzeko zalantza izatea. Horrelakoetan, jarraitu<br />
beharreko irizpideak hauexek dira:<br />
• Hitz horiek ez ditugu <strong>Euskal</strong> <strong>WordNet</strong>en sartuko:<br />
EDBLn RARE markadunak direnean<br />
Elhuyar Hiztegietan, <strong>Euskal</strong> Hiztegi Modernoan, Hiztegi Batuan eta <strong>Euskal</strong><br />
Hiztegian gutxi erabiliak eta zaharkituak bezala agertzen direnean.<br />
• Dagoeneko horrelako hitzen bat <strong>Euskal</strong> <strong>WordNet</strong>en badago, RARE marka<br />
jarriko diegu variantei, eta synseta Lock geratuko da.<br />
32 Nahiz eta synset hori landuta egon, baliteke aurreko orrazketako erabaki horrek txosten ho<strong>net</strong>an azalduriko<br />
irizpideekin bat ez etortzea. Horregatik, errepasatzea komenigarria da.<br />
33
34<br />
A.2.3.2.2 PLU marka<br />
30. irudia<br />
Zenbait synsetetan gerta liteke euskal ordainaren erabilera beti plurala izatea. Adibidez,<br />
paper hitzaren adieretako bat hurrengoa da 33 :<br />
Elhuyar Hiztegi Txikia: paper<br />
1. pl. (abestiarena) Letra; “Musika M. Laboarena eta hitzak Hartzabalenak”.<br />
Kasu hauetan pluraleko forma horien lema (kasu hoentan, paper) synsetean lotuko ditugu<br />
eta PLU marka jarriko diegu. Ondoren, Lock geratuko da synseta.<br />
31. irudia<br />
33 Tesi-txosteneko VI. kapituluan pluralaren fenomenoari buruzko azalpen sakonagoa dator.
A.2.3.2.3 HAEak eta IXALEX marka<br />
Variantak <strong>Euskal</strong> <strong>WordNet</strong>en sartzeko hiztegietan oinarritzen gara, hau da, ordain bat hiztegi-sarrera<br />
den heinean izan daiteke <strong>Euskal</strong> <strong>WordNet</strong>eko varianta. Dagoeneko esan dugu variantak ale<br />
lexikalez gain HAEak ere izan daitezkeela, baina HAEen lanketa –lexikalizazioren ebazpenari<br />
begira 34 – konplexuagoa da, batez ere hiztegietan oinarriatuz gero: lo egin hiztegi-sarrera da, aldiz,<br />
janaria egin ez; etxe-abere hiztegi-sarrera da, konpainia-animalia, ordea, ez. Hizkuntza sortzailea<br />
den heinean, hitz-konbinazio berriak sortzen doaz, eta ulertzen ditugun arren, zaila da esaten<br />
lexikalizatuak dauden ala ez; ondorioz, zalantzak ditugu <strong>Euskal</strong> <strong>WordNet</strong>en sartu ala ez. Horrelako<br />
zalantzak eragozteko hurrengo irizpideak definitu ditugu:<br />
• Lehenengo iripizdea:<br />
<strong>Euskara</strong>ko adierazpidea Elhuyar Hiztegietan, <strong>Euskal</strong> Hiztegian, <strong>Euskal</strong>termen edota<br />
Hiztegi Batuan hiztegi-sarrera bada, orduan, adierazpide hori lexikalizatutzat<br />
hartuko dugu eta synsetean sartuko dugu. Adibidez, ingeleseko sleep aditza euskaraz<br />
lo egin esaten da. Forma hau gutxienez aipatutako hiztegi batean hiztegi-sarrera bada,<br />
bestelako hitz baten antzera landuko dugu, hau da, HAEa synsetean sartuko dugu<br />
variant gisa, eta beti bezala, amaitzeko Lock marka erabiliko dugu:<br />
32. irudia<br />
34 Tesi-txosteneko VI. kapituluan HAEen eta lexikalizazioaren fenomenoari buruzko azalpen sakonagoa dator.<br />
35
36<br />
• Bigarren irizpidea:<br />
<strong>Euskara</strong>ko adierazpidea HAE bat bada, eta Elhuyar Hiztegietan, <strong>Euskal</strong> Hiztegian,<br />
<strong>Euskal</strong>termen edota Hiztegi Batuan hiztegi-sarrera ez bada:<br />
eta kontzeptu hori euskaraz kategoria sintagmatiko berarekin itzul badaiteke,<br />
orduan, adierazpide hori variant gisa sartuko dugu, IXALEX emango diogu. Beti<br />
bezala, amaitzeko Lock marka erabiliko dugu. Adibidez, ingeleseko pet izena<br />
euskaraz konpainia-animalia esaten da. Forma hau ez dago inongo hiztegitan<br />
hiztegi-sarrera gisa, baina editoreari erabilera hau egokia iruditzen zaio. Hala, eta<br />
corpusetan-eta begiratu ondoren, HAE hau synsetean sartuko dugu variant gisa,<br />
eta IXALEX eta Lock markekin:<br />
33. irudia<br />
eta kontzeptu hori adierazteko kategoria sintagmatiko desberdineko HAE<br />
konplexu bat —definizio edo azalpen gisakoa— erabili behar badugu, orduan,<br />
HAE hori ez dugu variant gisa txertatuko baizik glosa gisa. Horrelakoak A.2.3.1.1.1<br />
atalean aipatu ditugu: Nolex eta Lock marka jarriko dizkiogu, eta synset hori euskal<br />
variantik gabe utziko dugu (ikus 24. irudia).<br />
A.2.3.3 Idazkera zalantzak<br />
A.2.3.3.1 Marratxodun hitzak<br />
Herri-, haur- eta bezalako izenek marratxoa daramatenean, hau mantendu egingo da, hau da,<br />
hitz batek berarekin beti marratxoa eskatzen badu, orduan, hitzarekin batera marratxoa<br />
txertatuko dugu <strong>Euskal</strong> <strong>WordNet</strong>en 35 .<br />
35 Atal hau adjektiboekin harrema<strong>net</strong>an dago. Oraindik adjektiboak txertatzen hasi ez arren, izenak lantzean horrelako<br />
arazoak aurreikusi egin ditugu. Hala ere, honi buruz A.2.3.5.1 atalean mintzatuko gara.
A.2.3.3.2 Artikulua daramaten hitzak<br />
34. irudia<br />
Kasu hauetan, jarraitu behar duen irizpidea –a kentzea da. Beraz, hiztegietan atseginik ez(a)<br />
bezalakoak aurkitu arren, <strong>Euskal</strong> <strong>WordNet</strong>en atseginik ez txertatuko dugu. Hala ere,<br />
horrelako HAEekin kontuz ibili beharra dago, ikus A.2.3.2.3 atala.<br />
A.2.3.3.3 HAEak idazteko era desberdinak<br />
Batzuetan, hitz berak aukera bat baino gehiago du idazteko garaian, eta hauek guztiak<br />
hiztegietan jasota egon daitezke. Adibidez, ingeleseko policeman euskaraz polizi agente eta<br />
polizia-agente esan daiteke 36 . <strong>Euskal</strong> <strong>WordNet</strong>en idazteko era guztiak sartuko ditugu eta<br />
synseta landu ondoren Lock marka jarriko diogu.<br />
36<br />
Atal honek HAEekin (geroago datorren A.2.3.4.6 atalarekin) harrema<strong>net</strong>an dago. Beraz, HAEak lantzean idazkera<br />
kontuan izan beharrekoa da.<br />
37
38<br />
A.2.3.3.4 Hizki larriak eta xeheak<br />
35. irudia<br />
Gerta daiteke, hitz bera batzuetan hitz larriz eta besteetan letra xehez agertzea hiztegi eta<br />
dokumentu desberdi<strong>net</strong>an. Orduan, hiztegietara eta EDBL datu-base lexikalera joko dugu,<br />
eta bertan agertzen dena izango da irizpide erabakia hartzeko. Esate baterako, Jainko ala<br />
jainko? Kasu ho<strong>net</strong>an EDBLk biak jasotzen ditu eta biei buruzko informazio zehatza ematen<br />
du, eta hori jarraituta hurrengo synsetak desberdindu ditugu:<br />
06888992n<br />
-religion-<br />
person<br />
Agent+<br />
Function=<br />
Living=<br />
Tops=<br />
06861622n<br />
-religion-<br />
base concept<br />
person<br />
Agent+<br />
Creature=<br />
Function=<br />
Living=<br />
Tops=<br />
06888992n 11 God_1 Supreme_Being_1<br />
06888992n 10 dios_3 deidad_2 divinidad_3<br />
06888992n 8 Jaun_1 Jainko_1 izaki_goren_1<br />
06861622n 390 deity_1 divinity_1 god_2<br />
immortal_2<br />
06861622n 374 dios_2 deidad_1 divinidad_2<br />
06861622n 60 jainko_3<br />
the supernatural being conceived as the perfect<br />
and omnipotent and omniscient originator and<br />
ruler of the universe; the object of worship in<br />
monotheistic religions<br />
Ser supremo que en las religiones monoteístas es<br />
objeto de culto<br />
any supernatural being worshipped as<br />
controlling some part of the world or some<br />
aspect of life or who is the personification of a<br />
force<br />
ser supremo que en las religiones monoteístas es<br />
objeto de culto<br />
gizakiaz gaineko izakia, ahalmen eta botere<br />
bereziz hornitua, errealitatearen alderdi edo<br />
fenomeno batzuen aginpidea esleitzen zaiona<br />
36. irudia
A.2.3.4 Bestelako zalantzak<br />
A.2.3.4.1 Atzizki sinonimoak<br />
-keta, -kuntza, -mendu eta abar bezalako atzizkiak dituzten hitzen artean sinonimia gertatzen<br />
da sarritan. Honen adibide dira antolaketa, antolakuntza eta antolamendu. Hauen irizpidea<br />
honakoa da: Elhuyar Hiztegi Txikiko hiztegi-sarrera gisa agertzen diren neurrian sartuko<br />
dira, hau da, synset batean antolaketa gehitu nahi badugu, eta Elhuyar Hiztegi Txikian<br />
hiztegi-sarrera gisa antolakuntza ere badago, orduan biak gehituko dira synset horretan.<br />
Elhuyar Hiztegi Txikian antolakuntza egongo ez balitz, ez genuke gehituko.<br />
A.2.3.4.2 Hiztegiak bat ez datozenean<br />
Batzuetan hiztegi desberdi<strong>net</strong>ara jotzean, bateragarria ez den informazioarekin topa gaitezke.<br />
Adibidez, gaztelaniako salsera txertatu nahi dugu <strong>Euskal</strong> <strong>WordNet</strong>en. <strong>Euskal</strong> Hiztegi<br />
Modernoan eta Elhuyar Hiztegian begiratuz gero, itzulpen gisa saltsaontzi ematen du eta,<br />
<strong>Euskal</strong>termek aldiz, saltsontzi. <strong>Euskal</strong>tzaindiak ez badu horri buruzko araurik, orduan,<br />
<strong>Euskal</strong> Hiztegi Modernoak eta Elhuyar Hiztegiak dioena jarraituko dugu.<br />
A.2.3.4.3 Antzeko synsetak bereizteko zailtasuna<br />
Batzuetan oso antzekoak diren synseten artean bereiztea oso zaila gertatzen da. Adibidez,<br />
ilara hitzaren kasuan, hurrengo bi synsetak ditu, eta euskaraz horiek nekez bereiz daitezke:<br />
06235683n<br />
-factotum-<br />
group<br />
Collection+<br />
Group=<br />
06235973n<br />
-factotum-<br />
group<br />
Collection+<br />
Group=<br />
06235683n 17 line_3<br />
06235683n 17 fila_2 línea_5<br />
06235683n 6 ilara_4 errenkada_10 lerro_6<br />
zerrenda_16 errenka_3<br />
06235973n 9 line_1<br />
06235973n 7 línea_6<br />
06235973n 6 errenkada_2 ilara_9<br />
a formation of people or things one after another<br />
bata bestearen atzean bertikalki jarritako gauzen edo<br />
pertsonen multzoa<br />
a formation of people or things beside one<br />
another<br />
bata bestearen ondoan jarritako gauzen<br />
edo pertsonen multzoa<br />
37. irudia<br />
39
40<br />
Kasu ho<strong>net</strong>an bi synsetak ingeleseko formation synsetetik datoz, hots, hiperonimoa<br />
formation da. Ingeleseko formation euskaraz ilara itzuli ahal izango balitz, A.2.3.1.1.4 ataleko<br />
kasuaren (parrandarena, alegia) berdina litzateke; baina, oraingoan, ezin dira bi synset hauek<br />
Nolex utzi hiperonimoari ilara jarriz (formation ez baita euskarako ilara). Hortaz, horrelako<br />
synsetak lantzean, maila bereko synsetak direnak, polisemikotzat joko ditugu, hots, ilara<br />
hitzak gutxienez <strong>Euskal</strong> <strong>WordNet</strong>en bi synset horiek izango ditu 37 .<br />
Bestalde, horrelako arazoen aurrean, <strong>WordNet</strong> 3.0 bertsioa kontsultatzea komenigarria<br />
da, 1.6 bertsiotik 3.0 bertsiora zuzenketak/aldaketak egon daitezkeelako.<br />
A.2.3.4.4 Adieren egokitasuna<br />
Gerta daiteke ingeleseko synseta eta euskarakoa erabat baliokideak ez izatea. Adibide argia<br />
hauxe dugu: zerrenda-buru.<br />
07561913n<br />
-play-<br />
person<br />
SocialRole+<br />
Function=<br />
Human=<br />
Living=<br />
Object=<br />
Tops=<br />
lock 07561913n seed_3 seeded_player_1<br />
lock 07561913n 0 cabeza_de_serie_1<br />
lock 07561913n 0 zerrenda-buru_1<br />
38. irudia<br />
one of the outstanding players in a<br />
tournament<br />
<strong>Euskara</strong>ko zerrenda-buruk esanahia zabalagoa du, ez du bakarrik kiroleko adiera<br />
ingelesez bezala; esaterako, politikan hauteskundeetarako zerrendetan zerrenda-buru hitza ere<br />
maiz erabiltzen da. Ingelesez, berriz, seed eta seed player kiroletarako erabiltzen dute soilik.<br />
Beraz, adierak ez dira erabat baliokideak.<br />
Kasu hauetan honela jokatu beharko dugu: hauen guztien hiperonimoa zerrenda-buru<br />
balitz, hiperonimoari gehituko litzaioke variant hau eta hiponimoak Nolex bezala utziko<br />
genuke (ikus eranskinaren A.2.3.1.1.4 atala). Baina, hau ez da kasua, eta <strong>WordNet</strong>en ez dago<br />
zerrenda-buru orokor hori adierazten duen kontzepturik. Beraz, euskarako zerrenda-buru<br />
polisemiko bezala landuko dugu, hau da, adiera bat baino gehiago dituen hitz baten gisa.<br />
Bestalde, horrelako arazoen aurrean, <strong>WordNet</strong> 3.0 bertsioa kontsultatzea komenigarria<br />
da, 1.6 bertsiotik 3.0 bertsiora zuzenketak/aldaketak egon daitezkeelako.<br />
37 EuSemcor etiketatzean, horrelako synsetak bateratu daitezke, hau da, agerpen bati bi etiketa (ilara_4 eta ilara_9)<br />
ematea badago, hauek testuinguruan bereiz ezinak baitira.
A.2.3.4.5 Figuratiboak<br />
Zenbait kasutan izen batek adiera figuratibo/metaforikoren bat izan dezake.<br />
04507240n<br />
-factotumcognition<br />
Mental<br />
Static<br />
04507240n 0 teacher_2<br />
39. irudia<br />
a personified abstraction that<br />
teaches "books were his teachers"<br />
Horrelakoak, batzuetan euskarara itzuli daitezke eta beste batzuetan, ordea, ez. Hau da,<br />
gerta daiteke, ingeleseko hitz horrek (teacher) duen adiera figuratiboa euskarako ordainak<br />
(irakasle) ere horixe bera izatea. Horrela bada, synset horretan euskarako ordaina txertatuko<br />
dugu 38 :<br />
04507240n<br />
-factotum-<br />
cognition<br />
Mental<br />
Static<br />
lock 04507240n teacher_2<br />
lock 04507240n 0 irakasle_5<br />
personified abstraction that teaches; "books were his<br />
teachers"<br />
irakasten duen abstrakzio pertsonifikatua; “nire<br />
irakasleak liburuak izan ziren”<br />
40. irudia<br />
Aldiz, euskarak ordain hori figuratibo gisa izango ez balu, synset hori Nolex eta Lock<br />
utziko genuke. Esate baterako, ingeleseko honeymoon izenak beheko synseteko adiera<br />
figuratiboa du. Baina, euskaraz itzulpen zuzena den eztei-bidai izenak ez du adiera hori.<br />
Horregatik, beheko synsetean ez dago euskarako variantik, eta synseta Nolex eta Lock gisa<br />
utzi dugu.<br />
10986189n<br />
time_period-<br />
time<br />
BoundedEvent<br />
Quantity<br />
Time<br />
Tops<br />
0 10986189n honeymoon_2<br />
lock 10986189n nolex 0<br />
the early usually calm and harmonious period of a<br />
relationship; business or political<br />
41. irudia<br />
38<br />
Erabaki hori hartzeko, euskaraz izen bat figuratibo gisa erabiltzen dela egiaztatzeko, hiztegi eta corpusetara jo beharko<br />
dugu.<br />
41
42<br />
A.2.3.4.6 HAEak<br />
Batzuetan HAE batek adierazten duen adiera bera, HAEko osagai bakar batek ere adieraz<br />
dezake (elipsiaren antzeko zerbait gertatzea, alegia):<br />
Partidu politiko guztiek uka dezatela...<br />
Partidu guztiek uka dezatela...<br />
06131180n<br />
-anthropology-<br />
-history-<br />
-politics-<br />
-sociology-<br />
base concept<br />
group<br />
PoliticalOrganization+<br />
Function=<br />
Group=<br />
Human=<br />
06131180n 29 party_1 political_party_1<br />
06131180n 42 partido_2 partido_político_1<br />
06131180n 0 partidu_politiko_1<br />
alderdi_politiko_1<br />
42. irudia<br />
an organization to gain<br />
political power<br />
Organización política<br />
cuyos miembros<br />
comparten la misma<br />
ideología<br />
botere politikoa<br />
erdiestea helburu duen<br />
erakundea<br />
Synset ho<strong>net</strong>an partidu politiko eta alderdi politiko hiztegi-sarrera diren heinean, EBLan<br />
txertatuko genituzke. Baina gainera, partidu eta alderdi hitzek HAE hori adieraz dezaketen ala<br />
ez egiaztatu beharko genuke. Horretarako, hiztegi eta corpusetara jo beharko dugu. Egoera<br />
horren aurrean bi aukera egon daitezke:<br />
Hiztegi edota corpusetan hori egiaztatzen bada, partidu eta alderdi hitzak ere synset<br />
horretan sartuko ditugu.<br />
Hiztegi edota corpusetan hori egiaztatuko ez balitz, partidu politiko eta alderdi<br />
politiko HAEak bakarrik utziko genituzke.<br />
Adibide ho<strong>net</strong>an, partidu eta alderdi hiztegi-sarrerak direnez, <strong>Euskal</strong> <strong>WordNet</strong>en sartuta<br />
daude:<br />
06131180n<br />
-anthropology-<br />
-history-<br />
-politics-<br />
-sociology-<br />
base concept<br />
group<br />
PoliticalOrganization+<br />
Function=<br />
Group=<br />
Human=<br />
06131180n 29 party_1 political_party_1<br />
06131180n 42 partido_2 partido_político_1<br />
06131180n 0 partidu_politiko_1<br />
alderdi_politiko_1 partidu_4 alderdi_2<br />
43. irudia<br />
an organization to gain<br />
political power<br />
Organización política<br />
cuyos miembros<br />
comparten la misma<br />
ideología<br />
botere politikoa<br />
erdiestea helburu duen<br />
erakundea
Bestalde, HAEekin beste irizpide batzuk izan behar dira kontuan, A.2.3.2.3 eta A.2.3.3.3<br />
ataletan aipatutakoak, hain zuzen ere.<br />
A.2.3.4.7 Generoa<br />
<strong>WordNet</strong>en, generoa adierazteko hiponimia erabiltzen dute, hots, hiperonimoa gizonezkoari<br />
dagokion synseta da, eta hiponimoa emakumezkoari dagokiona:<br />
07508377n<br />
-politics-<br />
person<br />
SocialRole+<br />
Function=<br />
Human=<br />
Living=<br />
Object=<br />
Tops=<br />
07508554n mn 99<br />
-person-<br />
person<br />
Female+<br />
Function=<br />
Human=<br />
Living=<br />
Object=<br />
Tops=<br />
07508377n 2 protege_1<br />
07508377n 1 protegido_1<br />
07508554n 0 protegee_1<br />
07508554n 0 protegida_2<br />
a person who receives support and protection from an influential<br />
patron who furthers the protege's career<br />
a woman protege<br />
44. irudia<br />
<strong>Euskara</strong>z bi synsetek ordain ezberdina badute, synset bakoitzean dagokion ordaina<br />
gehituko litzateke. Arazoa, ordea, ordaina bera denean dator. Kasu ho<strong>net</strong>an, bi synsetetan<br />
begiko erabiliko litzateke euskaraz, eta horrelakoetan, emakumezkoari dagokion synseta<br />
Espezifikoa Hipe, Nolex eta Lock gisa (ikus A.2.3.1.1.4 atala) markatuko litzateke, eta<br />
oharrean Generoa idatzi.<br />
45. irudia<br />
43
44<br />
Alderantziz gertatuz gero, hots, kontzeptu baten generoa adierazteko ingelesez ordain<br />
bakarra izatea (brother) eta euskaraz bat baino gehiago (anaia/neba), <strong>WordNet</strong>en ez dagoen<br />
ordain hori <strong>Euskal</strong> <strong>WordNet</strong>en aurkitu ez diren hitzak zerrendan apuntatuko dugu. Hala ere,<br />
kasu hau gutxitan gertatu(ko) da.<br />
A.2.3.5 Aurrerago lantzekoak<br />
Editorearen eskuliburu hau <strong>Euskal</strong> <strong>WordNet</strong>eko izenak orraztean sortutako zalantzetan<br />
oinarrituta dago. Hala ere, zalantza guztiei ezin izan zaie konponbidea aurkitu, eta hurrengo<br />
orrazketa baterako utziko dira. Hori egin ahal izateko, zalantzazkoak diren kasu horiek<br />
guztiak aparteko txosten edo zerrendetan gehitzen ditugu. Ikusiko dugun bezala, arazo edo<br />
zalantza bakoitzari zerrenda bat dagokio 39 .<br />
A.2.3.5.1 Kategoria bateraezinak<br />
Batzuetan ingeleseko kontzeptu bat euskaratzean, euskaraz beste kategoria bat duela<br />
gertatzen da. Esate baterako, ingeleseko butterfingers izena euskaraz baldar, dorpe eta<br />
antzeko adjektiboekin itzultzenda; ingeleseko light izena euskaraz kaleratu aditzarekin eta<br />
ingeleseko now izena euskaraz adberbio bat da: orain.<br />
Editoreak horrelako kasuak Unlock utziko ditu, eta Kategoria bateraezinak/postposizio<br />
deituriko zerrendan apuntatuko ditu. <strong>Euskal</strong> <strong>WordNet</strong>eko adjektiboak, adberbioak eta<br />
aditzak lantzean aztertuko dira. Hala ere, horrelako kasuetarako egun pentsatua dagoen<br />
proposamena da, kategoria ezberdineko synsetak EQ-synonymy erlazioaren bitartez lotzea:<br />
EusWN ILI<br />
baldar, dorpe (ADJ) EQ-SYN butterfinger (IZE)<br />
46. irudia<br />
Hitz elkarketan ere kategoria bateraezinekin arazoak gerta daitezke, hala nola, ingeleseko<br />
public adjektiboa euskaraz herri- izenarekin itzultzen da; infantile adjektiboak ere euskaraz<br />
izen bat hartzen du (haur-). Hauek guztiak euskaraz hitz-elkarketan erabiltzen dira (marratxo<br />
eta guzti 40 ).<br />
Editoreak oraingoz Unlock utzi, eta dagokien Kategoria bateraezinak/postposizio<br />
deituriko zerrendan apuntatuko ditu. Aurreko kasuan bezala <strong>Euskal</strong> <strong>WordNet</strong>eko<br />
39 Berez, eskuliburu ho<strong>net</strong>an azaldu diren erabaki guztiak, horrelako zerrendetatik eratorriak dira, hots, eskuliburu hau<br />
sortu arte, editoreak zalantzak guztiak zerrenden bitartez sailkatuak zituen. Beraz, A.2.3.5 atalean agertuko diren kasuak,<br />
egunean batean, zerrenda hutsa izatetik eskuliburu ho<strong>net</strong>ako irizpide bat izatera pasako dira.<br />
40 Horrelako marratxodun hitzek marratxo eta guzti sartzen ditugu EBLan. A.2.3.3.1 atalean hauei buruz mintzatu gara.
adjektiboak, adberbioak eta aditzak lantzean aztertuko dira. Hala ere, oraingoan ere, aukera<br />
bat Xpos_near_synonym erlazioaren bitartez, euskarako hitza (47. irudiaren kasuan izena)<br />
ingelesez dagokion itzulpenarekin lotzea (kasu ho<strong>net</strong>an adjektibo bat); eta aldi berean,<br />
euskaraz sinonimoa izan daitekeen beste adjektiboarekin ere lotzea (kasu ho<strong>net</strong>an publiko).<br />
publiko (ADJ) public (ADJ)<br />
herri- (IZE)<br />
XPOS<br />
SYN<br />
A.2.3.5.2 Falta diren adierak<br />
47. irudia<br />
Zenbaitetan <strong>WordNet</strong>en hutsuneak topa ditzakegu, batetik euskaraz eta beste hizkuntzetan<br />
lexikalizatuta dauden kontzeptuak ingelesez ez daudelako; eta bestetik, <strong>WordNet</strong> kontzeptu<br />
hori sartzea pasa egin zaielako. Adibidez liga eta kanal <strong>Euskal</strong> <strong>WordNet</strong>en daude, baina ez<br />
ordea liga ‘txapelketa’ adierarekin eta kanal ‘telebista katea’ adierarekin; hau da, adiera<br />
zehatz horiek ez daude <strong>WordNet</strong>en. Beste hitz batzutan esanda, EBLan liga izenaren<br />
galdeketa egin nahiko bagenu, hitz honen beste adierak jasoko genituzke emaitza gisa, baina<br />
ez ordea ‘txapelketa’ adierari dagokiona.<br />
Oraingoz, horrelakoak <strong>Euskal</strong> <strong>WordNet</strong>en aurkitu ez diren adierak zerrendan jasoko<br />
ditugu, geroago hauek <strong>Euskal</strong> <strong>WordNet</strong>en sartzen hasteko asmoa baitago. Hala zerrenda<br />
ho<strong>net</strong>an apuntatuko diren hitzak izango dira <strong>Euskal</strong><strong>WordNet</strong>en dagoeneko daudenak,<br />
baina dagokion adiera ingeleseko synsetik ez duenean.<br />
Bestalde, horrelako arazoen aurrean, <strong>WordNet</strong> 3.0 bertsioa kontsultatzea komenigarria<br />
da, 1.6 bertsiotik 3.0 bertsiora adiera berri hori txertatua egon daitekeelako.<br />
A.2.3.5.3 Kontzeptu kulturalak<br />
Atal ho<strong>net</strong>an kontzeptu kulturalak deritzogunak sartzen dira. Kasu ho<strong>net</strong>an <strong>WordNet</strong>en ez<br />
dauden adierak dira, euskal kulturarekin loturik daudelako. Aurreko atalean ez bezala, hitz<br />
hauek ez daude <strong>WordNet</strong>en eta ez <strong>Euskal</strong><strong>WordNet</strong>en beste adiera batzuekin, ingelesez<br />
kontzeptu horiek ez direlako existitzen, hain zuzen ere. Beste hitz batzutan esanda, EBLan<br />
bertsolaritza izenaren galdeketa egin nahiko bagenu ez genuke emaitzik lortuko. Beste<br />
adibidea batzuk dira: pilotari, kalimotxo, sagardotegi, euro eta abar. Honelako kasuen aurrean,<br />
45
46<br />
oraingoz dagokien zerrendan (<strong>Euskal</strong> <strong>WordNet</strong>en aurkitu ez diren hitzak) jarriko ditugu<br />
aurrerago lantzeko asmoz.<br />
A.2.3.5.4 Postposizioak<br />
Postposizio baten aurrean aurkitzen denean, momentuz Kategoria bateraezinak/postposizio<br />
zerrendan jarriko dugu, adjektibo, adberbio eta aditzetara iristean landuko baita; esate<br />
baterako, -re(n) ondora/ondoan eta –re(n) albora/aloban bezalakoak.<br />
A.2.3.5.5 Aditz perifrastikoak<br />
Behar, uste, ahal eta abar bezalako formak, oraingoz, ez ditu landuko eta EuSemcorreko<br />
~jirhizts/Corpus/PROFIT2/koordinazioa katalogoan Hutsak marka ezarriko diegu. Hauek<br />
hurrengo fase batean landuko ditugu.<br />
A.2.3.5.6 Unlock uzten direnak<br />
Irizpide hauekin nahikoa ez bada eta synset bat Unlock utzi nahi bada, synset hori zalantzazerrenda<br />
batean apuntatu egin behar da, zalantzaren zergatiarekin batera, gero lantaldearekin<br />
komentatzeko eta zalantza mota horri konponbideren bat topatzeko. Hala ere,<br />
hau gutxitan gertatu behar da, eta gertatuko balitz, garrantzizkoa da Unlock uzten ditugunak,<br />
zalantza garrantzitsuenak izatea.<br />
A.3 Ondorioak<br />
Lan honen helburu nagusiena eskuliburu bat sortzea izan denez, kezkarik nagusiena<br />
ulergarria eta erabilgarria gertatzea izan. Abiapuntua honako hau izan da: editore la<strong>net</strong>an<br />
aritzeko hizkuntzalari hasi berriarentzako informazioa jasotzea; besteak beste, interfaze<br />
desberdinen erabilera, beharrezko tresna guztien argibideak eta orrazketarako irizpideak<br />
jasotzen ditu.<br />
Bestalde, eskuliburu hau ez da hemen itxita geratzen. Eguneratuz joango den zerbait da,<br />
aurreko erabakiak berritu eta sortu berriak txertatu beharko dira. Honela, ondoren datorren<br />
taulan adierazi nahi dugu zein erabaki diren finko edo zein dauden oraindik eztabaidapean,<br />
eta dagoeneko zeintzuk aplikatzen diren eta zeintzuk ez.
IRIZPIDE<br />
MOTAK<br />
SYNSET<br />
mailakoak<br />
(NOLEX)<br />
VARIANT<br />
mailakoak<br />
IDAZKERA<br />
arazoak<br />
BESTELAKOAK<br />
AURRERAGO<br />
lantzeko<br />
IRIZPIDEAK<br />
FINKOAK<br />
BAI<br />
FINKOAK<br />
EZ<br />
APLIKATZEN<br />
DIRA<br />
Nolex arrunta X X<br />
Espezifikoa<br />
Nolex<br />
X X<br />
Orokorra Nolex X X<br />
Espezifikoa<br />
Hipe (Nolex)<br />
X X<br />
-TU/-T(z)E X X<br />
Bestelako<br />
kasuak<br />
X X<br />
RARE X X<br />
PLU X X<br />
HAEak & IXALEX X<br />
Marratxoak X X<br />
Artikulua<br />
daramatenak<br />
HAULak<br />
idazteko era<br />
desberdinak<br />
Hizki larriak<br />
eta xeheak<br />
Atzizki<br />
sinomimoak<br />
Hiztegiak bat<br />
ez datozenean<br />
Antzeko<br />
synsetak<br />
Adieren<br />
egokitasuna<br />
X X<br />
X X<br />
X X<br />
X X<br />
X X<br />
X X<br />
X X<br />
Figuratiboak X X<br />
Generoa X X<br />
Kategoria<br />
bateraezinak<br />
Falta diren<br />
adierak<br />
Kontzeptu<br />
kulturalak<br />
47<br />
EZ DIRA<br />
APLIKATZEN<br />
X X<br />
X X<br />
X X<br />
Postposizioak X X<br />
Aditz<br />
perifrastikoak<br />
Unlock uzten<br />
direnak<br />
X X<br />
X X
49<br />
B ERANSKINA<br />
<strong>Euskal</strong> <strong>WordNet</strong>eko aditzen hierarkiaz hierarkiako<br />
orrazketa<br />
Eranskin ho<strong>net</strong>an {00636716v express 2, give tongue 1, utter 1} klase semantiko osoaren<br />
hierarkiaz hierarkiako orrazketaren ondoren, lortutako ondorio nagusiak dakartzagu, baita<br />
ingelesa eta euskarako hierarkien arteko alderaketa bat ere.<br />
B.1 Lanaren kokapena<br />
<strong>Euskal</strong> <strong>WordNet</strong>eko euskarako izenen orrazketa nahiko aurreratua dago eta aditzen<br />
lanketarekin hasteko unea iritsi da. Izenak hitzez hitzeko eskuzko orrazketaren arabera landu<br />
badira ere 41 , aditzen ezaugarri sintaktiko-semantikoek aditzen adiran duten eragina dela-eta,<br />
beste orrazketa mota bat ere probatu nahi izan dugu aditzekin: hierarkiaz hierarkiakoa.<br />
Orrazketa honen ondorioz, <strong>WordNet</strong>eko (Miller, 1985, Fellbaum, 1998a) aditzen aurreazterketa<br />
bat egin ahal izan dugu; aditzek <strong>WordNet</strong>en duten portaeraren eta hierarkiaren<br />
berri izanik. Horregatik, eskuliburu honen helburu nagusia <strong>WordNet</strong>eko ingeleseko eta<br />
euskarako aditzen hierarkiak aztertu, erkatu eta ondorioak ateratzea izan da.<br />
B.2 Metodologia<br />
Lan hau burutzeko metodologia honako hau izan da:<br />
• {express 2, give tongue 1, utter 1} 42 variantek osatzen duten synsetak (00636716v) bere<br />
azpian dituen 198 troponimoak landu ditugu. Lanketa honek hartzen du batetik,<br />
jadanik zeuden euskarako variantak orraztea, eta bestetik, ordainik ez zutenak, hau<br />
da landu gabe zeudenak lantzea eta euskarako ordainak txertatzea.<br />
• Aurreko puntuan aipatutako synseta oinarritzat hartuz, ingeleseko hierarkia eta<br />
euskarakoa deskribatu, erkatu eta ondorioak ateratzea.<br />
41 Ikus tesi-txostenean,V.3.2.1 atala.<br />
42 <strong>WordNet</strong> 1.6 bertsioa da une ho<strong>net</strong>an erabiltzen dena.
50<br />
B.3 Azterketa<br />
Sarreran aipatu bezala, ondorengo ataletan {express 2, give tongue 1, utter 1} variantek osatzen<br />
duten synsetaren (00636716v) hierarkiaren azterketaren berri ematen da. Synset honen<br />
hierarkian 198 troponimo daude, orokorre<strong>net</strong>ik (aipatutako synseta) zehatzenera, tartean adar<br />
desberdinak sortuz.<br />
Hierarkien lanketa hizkuntzaren arabera banatuta dago. Lehenengo eta behin hizkuntza<br />
bakoitzaren hierarkiaren deskribapena egin da. Eta azkenean zenbait ondorio ateratzen dira.<br />
B.3.1 Ingeleseko aditzen hierarkia<br />
B.3.1.1 “Manner” erlazio semantikoa<br />
Lan honen sarreran aipatu denez <strong>WordNet</strong> synseten arabera dago antolatuta, eta<br />
hierarkian zehar (gora eta behera) mugitzean aditzen kasuan troponimia erlazioa topatzen<br />
dugu. Honela definitzen da: to x is to y in some particular manner. Hortaz, aditz hiperonimo<br />
baten (walk) troponimoak (trot, march,...) hiperonimoak adierazten duenaren egiteko moduak<br />
izango dira.<br />
Hala, esan liteke zehaztapen hierarkia ematen dela manner erlazioan oinarrituz.<br />
Adibidez:<br />
{express, utter, give tongue to} (articulate; either verbally or with a cry, shout, or noise)<br />
{state, say, tell} (express in words)<br />
{answer, reply, respond} (reply or respond to)<br />
{field} (answer adequately or successfully)<br />
Adibide hauetan ikusten da hiperonimotik hasita hierarkian beherantz goazela ‘egiteko<br />
moduak’ zehazten direla. Azpimarratzekoa da lan ho<strong>net</strong>arako aukeratutako synsetak<br />
({express 2, give tongue 1, utter 1}) 18 troponimo hurbil (direct troponym) dituela (ikus B.5<br />
atala). Honek esan nahi du, <strong>WordNet</strong>en kontzeptu honen adiera ‘egiteko’ 18 modutan<br />
banatu dutela.
B.3.1.2 Ingeleseko hierarkiaren aberastasuna<br />
Esan behar da <strong>WordNet</strong>eko ingeleseko aditzen hierarkiak oso aberatsak direla, (<strong>Euskal</strong><br />
<strong>WordNet</strong>ekoekin konparatuz). Zer esan nahi da honekin? Bada, kasu batzuetan oso<br />
zehaztapen aberatsa dutela, eta orokorre<strong>net</strong>ik hasita zehatzenera joanda bidean synset kopuru<br />
dezente aurkitzen direla. Adibidez:<br />
{express, utter, give tongue to} (articulate; either verbally or with a cry, shout, or noise)<br />
{state, say, tell} (express in words)<br />
{declare} (state clearly)<br />
{promise, assure} (make a promise or commitment)<br />
{contract, undertake} (enter into a contractual arrangement)<br />
{sign} (be engaged by a written agreement)<br />
{endorse} (of documents or cheques)<br />
{visa} (provide (a passport) with a visa)<br />
Esan daiteke azterketa ho<strong>net</strong>an erabilitako synset nagusiaren ({express 2, give tongue 1,<br />
utter 1}) adarrik luzeenak 7 troponimo dituela. Eta txikienak, ze badira hierarkian adar oso<br />
motzak, troponimo bat du. Adibidez:<br />
B.3.1.3 Sintaxia<br />
{express, utter, give tongue to} (articulate; either verbally or with a cry, shout, or noise)<br />
{wish} (make or express a wish)<br />
Synsetak desberdintzerakoan eta troponimo desberdinak sortzerakoan aditzen<br />
azpikategorizazioa ere kontuan hartzen da. Hartara, synset baten troponimoek (hierarkian<br />
beherantz joanda) normalean sintaktikoki antzekoak diren patroiak jarraitzen dituzte.<br />
Synsetaren adiera iragankorra bada, troponimoak ere hala izango dira. Gauza bera: synseta<br />
iragangaitza bada, bere troponimoak ere bai. Adibidez, hurrengo adibidean aditza<br />
iragankorra da:<br />
{represent} (serve as a means of expressing something)<br />
• Somebody ----s something<br />
• Somebody ----s somebody<br />
• Something ----s somebody<br />
• Something ----s something<br />
51
52<br />
Hala ere, normalean gertatzen dena zera da: synset baten bere troponimoek gero eta patroi<br />
zehatzagoak dituztela. Logikoa denez, zenbat eta adiera zehatzagoa izan, orduan eta<br />
murriztuagoak dira sintaktikoki dituen aukera desberdinak Hona hemen adibide bat:<br />
{state, say, tell} (express in words)<br />
• Somebody ----s something<br />
• Something ----s something<br />
• Somebody ----s that CLAUSE<br />
{present, lay out} (bring forward and present to the mind)<br />
• Somebody ----s something<br />
• Somebody ----s something to somebody<br />
{argue, reason} (present reasons and arguments)<br />
• Somebody ----s that CLAUSE<br />
Ikus daiteke adiera bakoitzaren azpikategorizazio-aukerak (<strong>WordNet</strong>en sentence-frame<br />
deiturikoak) murriztuz doazela.<br />
Atal honekin bukatzeko aipatu beharra dago synsetak horizontalki aztertzen baditugu –<br />
hau da, maila berean dauden synsetak—, eta beren sentence frameak ikusten baditugu,<br />
orduan ‘egiteko modua’rekin batera desberdintasun sintaktikoak ere nabarmenak direla.<br />
Adibide gisa {express 2, give tongue 1, utter 1} synsetaren hainbat troponimo hurbil ikusiko<br />
ditugu:<br />
{express 2, give tongue 1, utter 1} : Somebody ----s something<br />
{blaspheme_1, curse_1 , cuss_1, imprecate_2, swear_1} : Somebody ----s<br />
{wish_4} : Somebody ----s that CLAUSE<br />
{clamor_2, clamour_1} : Somebody ----s<br />
Somebody ----s something<br />
voice_1 : Somebody ----s something<br />
Something ----s something<br />
drop_6: Something ----s something<br />
B.3.1.4 Aurrizkiak hierarkian<br />
Varianten lanketan aipatu bezala, ingeleseko synseten hierarkian ikusten da adiera bat<br />
sortzeko aurrizkiak baliatzen dituztenean (re-, mis- over-, under-,...) hauek beti troponimoak<br />
direla. Adibidez:<br />
{represent} (serve as a means of expressing something)<br />
{MISrepresent} (represent falsely)
B.3.2 <strong>Euskara</strong>ko aditzen hierarkia<br />
Atal ho<strong>net</strong>an, euskarako aditzen hierarkiaren deskribapena egiten da; zehazki ingeleseko<br />
{express 2, give tongue 1, utter 1} synsetaren hierarkia osoa euskaraz landu eta geroko<br />
ondorioak dira.<br />
B.3.2.1 Orokortasun maila<br />
Aurreko ataletan ikusi ahal izan dugun bezala, <strong>WordNet</strong>eko synseten hierarkia oso zabala<br />
da: oso kontzeptu orokorretik hasita oso kontzeptu zehatzetara iristen da. Zer gertatzen da<br />
<strong>Euskal</strong> <strong>WordNet</strong>en? Oso arrunta da hierarkiaren goikaldeko synsetak lexikalizaturik ez<br />
egotea. <strong>Euskara</strong>k askotan ez ditu lexikalizaturik dauden aditz formak hierarkiaren goiko<br />
synsetak betetzeko. Beti ere, kontuan hartu beharreko da, ingelesa abiapuntuko hizkuntza<br />
hartzen dugula. Adibide gisa, behin eta berriko aipatu dugun synset nagusia da:<br />
{express, utter, give tongue to} (articulate; either verbally or with a cry, shout, or noise)<br />
<strong>Euskara</strong>z ez dago lexikalizatutatko ordainik synset horrek adierazten duen kontzeptu<br />
orokorrarentzat.<br />
B.3.2.2 Zehaztasun maila<br />
Zehaztasun mailari dagokionez, gauza bera gertatzen da euskaraz kasu askotan. Ingelesezko<br />
word<strong>net</strong>a oso hierarkia aberatsa izatean, zehaztasun maila batzuetan oso handia da, eta<br />
euskarak ez ditu lexikalizaturik dauden ordainak synset horientzat. Honen ondorioz, zer<br />
aurkituko dugu euskarazko aditzen hierarkiak aztertzean? Bada, kasu askotan <strong>Euskal</strong><br />
<strong>WordNet</strong>eko aditzen synsetak hutsik egongo direla. Beraz, nabarmena da <strong>Euskal</strong> <strong>WordNet</strong>en<br />
ez dugula hain lexikalizazio maila handia hierarkian beherantz joatean. Adibidez:<br />
53
54<br />
00661842v<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00661842v proclaim_2 exclaim_2 promulgate_1<br />
00661842v proclamar_3<br />
00661842v promulgatu_2 aldarrikatu_4<br />
00662067v mn 99<br />
-factotum-<br />
communication Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00662233v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00662233v clarion_2<br />
00662233v nolex 0<br />
00662233v nolex 0<br />
00662067v trumpet_1<br />
00662067v nolex 0<br />
00662067v nolex 0<br />
state or announce<br />
proclaim on, or as if on, a clarion<br />
2. irudia<br />
proclaim on, or as if on, a trumpet<br />
Ikusten denez trumpet_1 eta clarion_2 synsetak hutsik (euskarako ordainaik gabe) geratu<br />
dira euskaraz, eta hala gertatzen da askotan.<br />
B.3.2.3 Troponimo eta HAULak<br />
<strong>Euskara</strong>ko synseten hierarkia aztertzean oso azpimarragarria dena da hitz anitzeko unitate<br />
lexikalen (HAULen) ugaritasuna. Hierarkian beherantz joatean, euskarak adiera zehatzago<br />
horiek adierazteko (‘egiteko moduak’) HAULak baliatu behar ditu. HAUL horiek bi<br />
motatakoak izango dira :<br />
• ADLG + ADI:<br />
00585700v<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00585700v whang_3<br />
00585700v nolex 0<br />
00585700v 0 bortizki_eraso_1 gogor_eraso_1 gogorkiro_eraso_1<br />
3. irudia<br />
attack forcefully
• OBJ + ADI:<br />
01529966v<br />
-factotum-<br />
possession<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
01529966v name_6 list_3<br />
01529966v nombrar_6<br />
01529966v izena_esan_3 izena_eman_6<br />
4. irudia<br />
give the names of<br />
Gainera, esan beharra dago bigarren mota ho<strong>net</strong>ako HAULen artean asko eta asko aditz<br />
arin (light verbs) deritzenak izango direla. Honek esan nahi du HAUL horietan berez aditza<br />
dena (egin, eman...) ez dela adierari esanahi nagusia ematen diona, berekin daraman objektua<br />
baizik. Adibidez, hurrengo kasuan {deiadar_egin_9, garrasi_egin_9, oihu_egin_10} aditz<br />
horietan deiadar, garrasi, eta oihu dira adierari ia esanahi guztia ematen diotenak:<br />
00619568v<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
B.3.2.4 Arazoak<br />
00619568v vociferate_1 shout_out_2<br />
00619568v deiadar_egin_9 garrasi_egin_9 oihu_egin_10<br />
5. irudia<br />
utter in a very loud voice<br />
<strong>Euskara</strong>ko aditzen hierarkietan topatuko dugun beste fenomeno bat honako hau da:<br />
hiperonimo baten troponimo hurbila (edo hurbilak, bat baino gehiago izan daitekeelako)<br />
ordain berarekin adieraztea euskaraz; hau da; ingelesez egindako bereizketa troponimo hori<br />
zintzilikatzean, euskaraz lexikalizaturik ez egotea. Adibidez:<br />
55
56<br />
00598975v<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00599443v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00598975v promise_1 assure_6<br />
00598975v asegurar_4 prometer_1<br />
00598975v hitzeman_1 promes_egin_1 agindu_5<br />
00601123v mn 99<br />
-factotum-<br />
ommunication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00599443v pledge_1 plight_2<br />
00599443v prometer_2<br />
00599443v nolex 12<br />
00601123v vow_1<br />
00601123v nolex 4<br />
00601123v nolex 3<br />
6. irudia<br />
make a promise or commitment<br />
promise solemnly and formally<br />
make a vow; promise<br />
Ikus daitekeenez {agindu_5, hitzeman_1, promes_egin_1, ziurtatu_7} variantek osatzen<br />
duten synsetaren troponimo hurbila hutsik dago; eta troponimo honen troponimoa ere bai<br />
({vow_1}), euskaraz kasu horretan hiperonimoan dauden variant berberak erabiliko<br />
liratekeelako.<br />
Baina, gerta liteke hiperonimo baten troponimoren batean ordain bera erabiltzea baina<br />
adiera desberdina izatea, eta gainera hiztegietan adiera hori ere jasota egotea. Adibidez:
00598975v<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01604463v mn 99<br />
-economy-<br />
possession<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00598975v promise_1 assure_6<br />
00598975v asegurar_4 prometer_1<br />
00598975v hitzeman_1 promes_egin_1 agindu_5<br />
ziurtatu_7<br />
01604463v 0 certify_2<br />
01604463v certificar_5<br />
01604463v ziurtatu_8<br />
guarantee payment on; of checks<br />
57<br />
make a promise or commitment<br />
7. irudia<br />
Hierarkia ho<strong>net</strong>an lehenengo synsetean dagoen {ziurtatu_7} variantak eta zuhaitzaren<br />
azken synseteko {ziurtatu_8} variantak oso adiera desberdina dute (hauen glosetan ikus<br />
daitekeen bezala), eta gainera hiztegiek azken honen adiera ere jasotzen dute. Beraz, kasu<br />
ho<strong>net</strong>an, hierarkian ez litzateke hutsunerik izango. Horrela geratuko litzateke.<br />
Azkenik aipatu, gerta daitekeela <strong>Euskal</strong> <strong>WordNet</strong>en maila bereko bi synsetetan (edo<br />
gehiagotan) ordain bera egotea. Hau gertatzen da <strong>Euskal</strong> <strong>WordNet</strong>en ez ditugulako bi adiera<br />
desberdin horientzat bi ordain desberdin. Orduan, besterik gabe, hierarkiaren maila berean<br />
ordain bera (edo berberak, variant bat baino gehiago bada) agertuko dira. Adibidez:<br />
HIPERONIMOA: {express_2}<br />
00619568v<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00617311v<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00619568v vociferate_1 shout_out_2<br />
00619568v deiadar_egin_9 garrasi_egin_9 oihu_egin_10<br />
00617311v exclaim_1 cry_3 cry_out_1 outcry_2 call_out_1 shout_3<br />
00617311v oihu_egin_9 garrasi_egin_8 deiadar_egin_8<br />
8. irudia<br />
utter in a very loud voice<br />
utter aloud; often with<br />
surprise, horror, or joy
58<br />
B.4 Ondorioak<br />
Aurreko ataletan hierarkia bakoitza aztertu den bezala, oraingoan bien erkaketatik atera<br />
daitezkeen ondorioak aipatuko dira.<br />
Lehenik eta behin, aipatu behar da hierarkiaz hierarkia lan egiteko metodologia, hitzez<br />
hitz aritzearekin konparatuz, ikuspegi zabalagoa eskaintzen duela. Zer esan nahi du honek?<br />
Hitzez hitz lantzean lortzen duguna da orrazten ari garen hitzaren adiera guztiak finkatzea<br />
eta zehaztea. Hala, hitz horren adiera guztiak orraztuak geratzen dira, eta abantaila da ez<br />
dugula adierarik kanpoan utziko. Baina, gerta litekeen hutsegitea izan daiteke metodologia<br />
horrekin hierarkiaren egokitasunari ez zaiola nahikoa erreparatzen; eta hierarkia desorekatua<br />
gera daiteke kasuren batean, metodologia horrekin ez baita funtsezkoa hierarkia lantzea,<br />
landu beharreko hitza baizik. Hortaz, ematen du menperatu beharreko eremua murritzagoa<br />
dela.<br />
Hierarkiaz hierarkia aritzean, ordea, lehen esan bezala eremua zabalagoa bihurtzen da.<br />
Zergatik? Hitz horrek dituen hiperomino eta troponimo guztiak aztertu behar direlako, eta<br />
bakoitzaren adiera egokia den ala ez egiaztatu. Gainera, hierarkia orekatua eta logikoa den<br />
ere aztertu behar da. Ezin da troponimo bat hiperonimo baten gai<strong>net</strong>ik egon, adibidez.<br />
Orduan, hierarkia osoaren ikuspegia edukitzea oso mesedegarria da, baina gerta daiteke<br />
synset bakoitzean dagoen hitzaren zein adiera den ondo ez menperatzea, zeren beharrezkoa<br />
baita horretarako hitz horrek dituen gainontzeko adierak ezagutzea.<br />
Orduan, hierarkiaz hierarkiako metodologia egokiagoa dirudi eremu zabalagoa orraztea<br />
lortzen delako, baina ez dira, ahal den neurrian, hitz bakoitzak dituen adiera desberdinak<br />
alde batera utzi behar.<br />
Bestalde, ingelesezko aditzen hierarkia eta euskarazkoena alderatzean zera aipatu behar<br />
da:<br />
• Aurreko ataletan aipatu bezala, ingelesaren kasuan aditzen hierarkia oso<br />
aberatsa da. Honekin esan nahi duguna da, oso orokorrak diren synsetetatik<br />
hasita zehaztapen maila handia duela ingelesak. Ahalmen handia dute adiera<br />
zehatz bakoitzeko ordain bat erabiltzeko. <strong>Euskara</strong>z, ordea, bai oso synset<br />
orokorretan, bai zehatze<strong>net</strong>an ez da askotan lexikalizatutako ordainik topatzen.<br />
Esan liteke euskaraz lexikalizazioa mugatuagoa dela, bestela esanda, ez dela<br />
hain zabala.<br />
• Bestalde, hiperonimia/troponimia erlazioa dela eta, euskaraz oso nabarmena<br />
den fenomenoa da HAULena. Hierarkian beherantz joanda orokorretik<br />
zehatzera) euskarak hitz anitzeko unitate lexikalak sortzen ditu adiera<br />
askorentzat. Orduan, ingelesaren aldean, euskarak horien behar handiagoa du.<br />
Honek, batez ere lexikalizioan arazoak sortzen dizkio euskarari; HAUL asko<br />
eta asko beren erabileran lexikalizatuta egon arren, ez dira hiztegi-sarrera<br />
izaten.
B.5 00636716 synsetaren troponimoak, ingelesez eta euskaraz<br />
00636716v<br />
-factotum-<br />
base concept<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
•<br />
•<br />
•<br />
00636716v 198 express_2 utter_1 give_tongue_to_1<br />
00636716v nolex 85 azaldu_13 adierazi_9 aditzera_eman_7<br />
00586673v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00721823v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00682542v mn 99<br />
-factotum-<br />
base concept<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
o<br />
00586673v0 curse_1 cuss_1 blaspheme_1 swear_1 imprecate_2<br />
00586673v 0 biraoa_bota_1 biraoa_esan_1 birao_egin_1 blasfematu_1<br />
00721823v 0 pooh-pooh_1<br />
00721823v nolex 0<br />
00682542v 159 state_1 say_1 tell_1<br />
00682542v 69 erran_4 esan_15<br />
00525080v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
express contempt about<br />
00525080v 12 present_2 lay_out_3<br />
00525080v 4 agertu_20 aurkeztu_5<br />
00524590v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
articulate; either verbally or with a cry, shout, or noise<br />
express an idea, etc. in words<br />
bring forward<br />
00524590v 10 argue_1 reason_2<br />
00524590v 13 arrazoitu_1 argudiatu_1<br />
utter obscenities<br />
present reasons and arguments<br />
59
60<br />
<br />
<br />
<br />
00524745v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00525249v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00606523v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
00524745v 0 re-argue_1<br />
00524745v 0 berriro_arrazoitu_1 berriro_argudiatu_1<br />
00525249v 0<br />
expostulate_1<br />
00525249v nolex 0<br />
00606523v 7 defend_1 support_8 fend_for_1<br />
00606523v 8 eutsi_18 defendatu_3<br />
00606341v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
<br />
argue again<br />
reason with (somebody) for the purpose of<br />
dissuasion<br />
argue in defense of<br />
00606341v 4 apologize_2 apologise_1 excuse_4<br />
justify_3 rationalize_1<br />
00606341v 4 justifikatu_1 zuritu_9<br />
00567365v mn 99<br />
-factotum-<br />
communication<br />
IntentionalProcess+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00605968v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00613501v mn 99<br />
-factotum-<br />
communication<br />
Process+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00567365v 0 color_6 gloss_4<br />
00567365v nolex 0<br />
00605968v 0 plead_2<br />
00605968v 0 aitzakia_jarri_1<br />
aitzakia_ipini_1 desenkusatu_4<br />
00613501v 0 extenuate_1<br />
palliate_1 mitigate_1<br />
00613501v 0 arindu_11<br />
indargabetu_8 ematu_5<br />
gozatu_16 leundu_12<br />
gloss or excuse<br />
make excuses<br />
for<br />
offer as an<br />
excuse or plea<br />
lessen or to try to lessen<br />
the seriousness or extent<br />
of
o<br />
o<br />
<br />
00722994v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00695091v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
<br />
00524897v mn 99<br />
-factotum-<br />
communication<br />
Process+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00606705v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00607177v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00606705v 0<br />
stand_up_5<br />
00606705v 0<br />
babestu_11<br />
lagundu_12<br />
00607177v 0<br />
uphold_2<br />
00607177v nolex 0<br />
00524897v 0 argue_3 indicate_4<br />
00524897v 0 agerian_ipini_1 erakutsi_15<br />
00722994v 0 explain_2<br />
00722994v 0 argitu_9 azaldu_14 esplikatu_2<br />
00695091v 4 add_2 append_3 supply_4<br />
00695091v 5 erantsi_7 gaineratu_3 gehitu_9<br />
00693735v mn 99<br />
-factotum-<br />
communication<br />
IntentionalProcess+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
61<br />
defend against attack or criticism;"He stood<br />
up to the committee and defended the<br />
contract"<br />
stand up for; stick up for; of causes, principles,<br />
or ideals<br />
give evidence of<br />
state by way of explanation<br />
state or say further<br />
00693735v 2 slip_in_1 stick_in_1 sneak_in_2 insert_4<br />
00693735v nolex 2<br />
01125857v mn 99<br />
-literature-<br />
creation<br />
ContentDevelopment+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
01125857v 0<br />
spatchcock_2<br />
01125857v 0<br />
tartekatu_4<br />
insert casually<br />
interpolate or insert into a sentence or story, as<br />
of words
62<br />
o<br />
<br />
00689564v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
00695281v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00695281v 0 toss_in_1<br />
00695281v nolex 0<br />
add casually to a conversation<br />
00689564v 39 note_1 observe_2 mention_2 remark_1<br />
00689564v 13 aipatu_5<br />
00717396v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
00717396v 38 comment_1 notice_3 remark_2<br />
point_out_1<br />
00717396v 50 nabarmendu_6 azpimarratu_1<br />
00560756v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
<br />
00560756v 35 criticize_1 criticise_1<br />
pick_apart_1<br />
00560756v 24 kritikatu_1<br />
00558872v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00573753v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00573480v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
make mention of<br />
make or write comment to make a<br />
comment on<br />
express criticism of; point out real or<br />
perceived flaws<br />
00558872v 0 reprimand_1 censure_1 criminate_2<br />
00558872v 0 gaitzetsi_3 aurpegiratu_3<br />
erantzuki_egin_3 kontra_egin_3<br />
00573753v 0 nitpick_1<br />
00573753v nolex 0<br />
rebuke<br />
formally<br />
be overly critical; criticize minor details<br />
00573480v 7 disparage_1 belittle_2 pick_at_3<br />
find_fault_with_1<br />
00573480v 3 destaina_egin_6 mespretxatu_1<br />
aintzat_ez_hartu_4 erdeinatu_6 arbuiatu_14<br />
gutxietsi_2<br />
express a<br />
negative<br />
opinion of
00573861v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00574499v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00580569v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
00586279v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
00571252v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00573861v 0 pan_3 tear_apart_1 trash_2<br />
00573861v 0 bereak_eta_bi_esan__1<br />
bereak_eta_asto_beltzarenak_esan_1<br />
kristorenak_esan_1 sekulakoak_esan_1<br />
00574499v 0 discredit_2 disgrace_3<br />
00574499v 0 ospea_kendu_1<br />
ospea_zikindu_1 izena_zikindu_1<br />
aipua_kendu_1 entzutea_zikindu_1<br />
entzutea_belztu_1 izena_belztu_1<br />
entzutea_kendu_1 aipua_belztu_1<br />
sona_belztu_1 ospea_belztu_1<br />
sona_zikindu_1 sona_kendu_1<br />
aipua_zikindu_1 izena_kendu_1<br />
00580569v 2 deprecate_2 depreciate_1<br />
00580569v nolex 0<br />
00580733v mn 99<br />
-factotum-<br />
communication<br />
Decreasing+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00580733v 0<br />
deflate_3 puncture_3<br />
00580733v nolex 0<br />
belittle<br />
63<br />
express a<br />
totally<br />
negative<br />
opinion of<br />
damage the<br />
reputation<br />
of<br />
reduce or lessen the size<br />
or importance of<br />
00586279v 2 minimize_3 belittle_1 denigrate_1<br />
derogate_1<br />
00586279v nolex 1<br />
00586445v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00586445v 0 talk_down_1<br />
00586445v nolex 0<br />
00571252v 0 blame_2 find_fault_1<br />
pick_3<br />
00571252v 0 errua_egotzi_2<br />
errua_bota_1<br />
belittle<br />
belittle through talk<br />
harass with constant<br />
criticism
64<br />
<br />
<br />
<br />
<br />
00570314v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
00561375v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00561219v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00560580v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
00570314v 3 denounce_1<br />
00570314v 2 salatu_2<br />
00570483v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00586096v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
speak out against<br />
00570483v 0 fulminate_1 rail_3<br />
00570483v nolex 0<br />
00586096v 0 condemn_1 decry_1<br />
objurgate_1 excoriate_1<br />
00586096v 0 kondenatu_2<br />
00561375v 0 come_down_5<br />
00561375v nolex 0<br />
00561219v 0 belabor_2<br />
belabour_3<br />
00561219v nolex 0<br />
00560580v 2 deplore_1<br />
00560580v 1 deitoratu_1<br />
00586541v mn 99<br />
-religion-<br />
communication<br />
Stating+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
criticize severely<br />
express strong<br />
disapproval of<br />
criticize or reprimand harshly<br />
attack verbally with harsh<br />
criticism<br />
express strong disapproval of<br />
00586541v 0 execrate_2<br />
anathemize_2 anathematize_1<br />
00586541v 0 anatematizatu_1<br />
eskumikatu_1<br />
declare to be evil or<br />
anathema
00560484v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00559552v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
00560484v 0 reprehend_1<br />
00560484v 0 agirakatu_3 atelekatu_3<br />
larderiatu_5 agira(ka)_egin_3 errieta_egin_5<br />
demanda_egin_3<br />
00559552v 4 rebuke_1 lambaste_2 have_words_1<br />
chew_up_1 chew_out_1 remonstrate_3 bawl_out_1<br />
berate_1 chide_1 scold_1 dress_down_1 jaw_4<br />
reprimand_2 lecture_2 reproof_1 rag_5 check_22<br />
lambast_2<br />
00559552v 2 agira(ka)_egin_1 agirakatu_1 atelekatu_1<br />
demanda_egin_1 errieta_egin_2 larderiatu_1<br />
00559253v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
00559117v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00558976v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00560060v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00559253v 2 chastize_1 chastise_1<br />
castigate_1 objurgate_2 chasten_1 correct_3<br />
00559253v 0 punitu_1 zehatu_2 zigortu_2<br />
00559457v mn 99<br />
-<br />
computer_sciencecommunication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00559457v 0 flame_3<br />
00559457v nolex 0<br />
00560060v 0 tell_off_1 brush_down_1<br />
00560060v nolex 0<br />
00559117v 0 admonish_3 reprove_1<br />
00559117v 0 agirakatu_2 demanda_egin_2 atelekatu_2<br />
errieta_egin_4 larderiatu_4 agira(ka)_egin_2<br />
00558976v 0 savage_1<br />
00558976v 0 gogorkiro_kritikatu_1<br />
gogor_kritikatu_1 gogorki_kritikatu_1<br />
65<br />
express strong<br />
disapproval of<br />
censure<br />
severely or<br />
angrily<br />
censure<br />
severely<br />
criticize harshly,<br />
on the e-mail<br />
reprimand<br />
take to<br />
task<br />
criticize harshly<br />
or violently
66<br />
<br />
00585325v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
<br />
00585325v 10 attack_2 round_5 assail_3<br />
lash_out_1 snipe_4 assault_2<br />
00585325v 13 eraso_5<br />
00572942v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
<br />
00573336v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00585700v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00572942v 4 abuse_3 clapperclaw_2<br />
blackguard_2 shout_4<br />
00572942v 2 laido_egin_1 erdeinatu_7<br />
arbuiatu_15 iraindu_1 ahapaldi_egin_1<br />
laidotu_1 laidoztatu_1<br />
00573247v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00574815v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00587063v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00573247v 0<br />
slang_3<br />
00573247v nolex 0<br />
00573336v 0 claw_4<br />
00573336v nolex 0<br />
00574815v 0 vilify_1<br />
revile_1 vituperate_1<br />
rail_2<br />
00574815v nolex 0<br />
00587063v 0 curse_2<br />
00587063v nolex 0<br />
attack verbally, in<br />
speech or writing<br />
use foul or<br />
abusive<br />
language<br />
towards<br />
abuse with coarse<br />
language<br />
attack as if with claws<br />
00585700v 0 whang_3<br />
00585700v 0 bortizki_eraso_1<br />
gogor_eraso_1 gogorkiro_eraso_1<br />
gogorki_eraso_1<br />
spread negative<br />
information about<br />
heap obscenities upon<br />
attack<br />
forcefully
o<br />
<br />
<br />
00683704v mn 99<br />
-law-<br />
communication<br />
Declaring+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
<br />
00717603v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00717701v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00683704v 0 declare_7<br />
00683704v 0 aitortu_20<br />
00585828v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00585963v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00720215v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00585828v 0 barrage_1<br />
00585828v nolex 0<br />
attack with a barrage<br />
00585963v 0 blister_2 whip_6<br />
00585963v 0 astindu_36<br />
zigortu_10 jipoitu_9<br />
00720215v 0 rubbish_1<br />
00720215v nolex 0<br />
attack strongly<br />
00717603v 0 wisecrack_1<br />
00717603v 0 brometan_aritu_2 adarra_jotzen_ibili_2<br />
txantxetan_aritu_2<br />
00717701v 0 kibitz_1 kibbitz_1<br />
00717701v nolex 0<br />
67<br />
scorch with<br />
words<br />
make a comment,<br />
usually ironic<br />
make unwanted and intrusive comments<br />
make a declaration (of dutiable goods) to a customs official
68<br />
o<br />
00683308v mn 99<br />
factotum-<br />
base concept<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
00683308v 81 declare_1<br />
00683308v 38 garbi_erran_1 garbi_esan_1 argi_erran_1 argi_esan_1<br />
00581023v mn 99<br />
-factotum-<br />
communication<br />
Declaring+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
00695551v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00581023v 3 condemn_2<br />
00581023v 3 kondenatu_4 gaitzetsi_14<br />
00584957v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00585109v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
declare or judge unfit<br />
00584957v 0 boo_1 hiss_4<br />
00584957v 0 txistu_jo_5 txistu_egin_7<br />
oihuka_eraso_3 txistukatu_3 oihukatu_4<br />
00585109v 0 explode_8<br />
00585109v 0 izorratu_2 leherrarazi_1<br />
lehertu_12<br />
00695551v 2 opine_1 speak_up_1 animadvert_1<br />
sound_off_1<br />
00695551v 1 iritzia_eman_1 iritzia_azaldu_1<br />
iritzia_izan_1 iritzia_agertu_1<br />
state clearly<br />
show displeasure, as after a<br />
performance or speech<br />
drive from the stage by noisy<br />
disapproval<br />
speak one's opinion without fear<br />
or hesitation
00695426v mn 99<br />
-factotum-<br />
communication<br />
Declaring+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00695746v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00695746v 0 editorialize_1<br />
00695746v nolex 0<br />
00695426v 8 decree_1<br />
00695426v 8 atera_25 dekretuz_agindu_1 dekretatu_1<br />
00505872v mn 99<br />
-factotum-<br />
communication<br />
Ordering+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
<br />
00505872v 4 ordain_5<br />
00505872v nolex 1<br />
00506012v mn 99<br />
-factotum-<br />
communication<br />
Ordering+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00506118v mn 99<br />
-factotum-<br />
communication<br />
Ordering+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00506231v mn 99<br />
-factotum-<br />
communication<br />
Ordering+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
69<br />
insert personal opinions into an objective statement<br />
issue an order<br />
00506012v 0 predestine_1<br />
00506012v 0 aurretik_aukeratu_1<br />
aurretik_hautatu_1 predestinatu_1<br />
00506118v 0 will_2<br />
00506118v 0 kontrolatu_5 zuzendu_19<br />
00506231v 0 destine_1 fate_1 doom_1<br />
designate_3<br />
00506231v 0 jaio_7<br />
issue or demand by decree<br />
decree or determine<br />
beforehand<br />
decree or ordain<br />
decree or designate<br />
beforehand
70<br />
<br />
<br />
<br />
01653223v mn 99<br />
-factotum-<br />
social<br />
Declaring+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
00686265v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00685210v mn 99<br />
-law-<br />
communication<br />
Declaring+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01653223v 3 ordain_1 enact_1<br />
01653223v 2 promulgatu_3<br />
01653447v mn 99<br />
-factotum-<br />
social<br />
RegulatoryProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01680633v mn 99<br />
-politics-<br />
social<br />
RegulatoryProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01653447v 0 reenact_2<br />
01653447v 0 berriro_promulgatu_1<br />
order by virtue of superior authority; decree<br />
enact again<br />
01680633v 0 legislate_1 pass_3<br />
01680633v 0 legea_egin_1 legea_atera_1 onartu_24<br />
legeak_atera_1 legeak_egin_1<br />
00686265v 2 testify_1 attest_3 take_the_stand_1<br />
bear_witness_2<br />
00686265v 1 testigantza_eman_1 lekukotasuna_egin_1<br />
lekukotasuna_eman_1<br />
00686421v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00686421v 0 vouch_1<br />
00686421v nolex 0<br />
00685210v 0 swear_4 depose_2 depone_1<br />
00685210v 0 deklaratu_2<br />
give personal assurance; guarantee<br />
make laws,<br />
bills, etc.<br />
give testimony in a court<br />
of law<br />
make a deposition; declare under oath
00683865v mn 99<br />
-factotum-<br />
communication<br />
Stating+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
<br />
<br />
00683865v 9 affirm_2 assert_2 avow_1 aver_2 swan_1<br />
swear_2<br />
00683865v 3 zin_egin_1 ziurtatu_6 eutsi_17 baieztatu_6<br />
baietsi_8<br />
00461087v mn 99<br />
-factotum-<br />
cognition<br />
Process+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00515522v mn 99<br />
-factotum-<br />
communication<br />
Stating+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00556981v mn 99<br />
-factotum-<br />
communication<br />
Stating+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00557342v mn 99<br />
-factotum-<br />
communication<br />
Stating+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00461087v 0 hold_13<br />
00461087v nolex 0<br />
00515522v 0 claim_4 take_36<br />
00515522v nolex 0<br />
00556981v 0 attest_2<br />
00556981v 0<br />
fede_eman_1<br />
00557342v 3 declare_3<br />
00557342v 0 jo_52<br />
00516869v mn 99<br />
-factotum-<br />
communication<br />
Declaring+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
assert or affirm<br />
lay claim to; as of an idea<br />
71<br />
to declare or affirm as<br />
true<br />
affirm to be true,genuine, or correct, asin an official<br />
capacity<br />
state firmly<br />
00516869v 0 plead_3<br />
00516869v nolex 0<br />
enter a plea, as in courts of law
72<br />
<br />
<br />
<br />
<br />
00661842v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00684148v mn 99<br />
-factotum-<br />
communication<br />
Stating+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00689221v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00516991v mn 99<br />
-politics-<br />
-religion-<br />
communication<br />
Stating+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00516991v 0 profess_2<br />
00516991v 0 agertu_19 aitortu_21<br />
izan_29<br />
00684148v 0 protest_3<br />
00684148v nolex 0<br />
00689221v 0 assure_2 tell_6<br />
00689221v nolex 0<br />
00661842v 3 proclaim_2 exclaim_2 promulgate_1<br />
00661842v 3 promulgatu_2 aldarrikatu_4<br />
00662067v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00662067v 0 trumpet_1<br />
00662067v nolex 0<br />
confess one's faith in, or<br />
allegiance to<br />
affirm or avow formally or solemnly<br />
state positively and with certainty and confidence<br />
state or announce<br />
proclaim on, or as if on, a trumpet
00662233v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00613914v mn 99<br />
-law-<br />
communication<br />
RegulatoryProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
00614144v mn 99<br />
-law-<br />
communication<br />
Process+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01703096v mn 99<br />
-law-<br />
-military-<br />
social<br />
RegulatoryProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00606102v mn 99<br />
-law-<br />
communication<br />
RegulatoryProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00662233v 0 clarion_2<br />
00662233v nolex 0<br />
00613914v 3 sentence_1 condemn_5 doom_2<br />
00613914v 4 zigorra_ezarri_1 kondenatu_3<br />
zigortu_9<br />
proclaim on, or as if on, a clarion<br />
00614144v 0 foredoom_1<br />
00614144v 0 aurretik_juzgatu_1 aurrez_juzgatu_1<br />
01703096v 0 court-martial_2<br />
01703096v nolex 0<br />
00606102v 0 take_the_Fifth_1<br />
take_the_Fifth_Amendment_1<br />
00606102v nolex 0<br />
73<br />
pronounce a sentence on, in a court<br />
of law<br />
condemn in a military court<br />
doom beforehand<br />
refuse to testify by invoking the Fifth<br />
Amendment, which states that nobody may be<br />
forced to testify as a witness against himself or<br />
herself
74<br />
<br />
<br />
<br />
00604928v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00599173v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00598975v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00604928v 0 acknowledge_3 receipt_1<br />
00604928v 0 hartu_izana_adierazi_1<br />
00599173v 2 promise_2<br />
00599173v 2 agindu_6<br />
00599324v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00599324v 0 vouchsafe_2<br />
00599324v nolex 0<br />
acknowledge the receipt of<br />
promise to undertake or give<br />
00598975v 34 promise_1 assure_6<br />
00598975v 40 promestu_1 hitzeman_1 segurtatu_6<br />
promes_egin_1 ziurtatu_7 prometatu_1 agindu_5<br />
00599443v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00599443v 12 pledge_1 plight_2<br />
00599443v nolex 12<br />
00601123v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00601123v 4 vow_1<br />
00601123v nolex 3<br />
promise or agree condescendingly, as a special favor<br />
promise solemnly and formally<br />
make a vow; promise<br />
make a promise or<br />
commitment
00603280v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
00601001v mn 99<br />
-factotum-<br />
communication<br />
OrganizationalProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00602303v mn 99<br />
-religion-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00603145v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00601001v 0 betroth_1 engage_5<br />
affiance_1 plight_1<br />
00601001v 0 ezkon-hitza_eman_1<br />
ezkontzeko_hitza_eman_1<br />
00602303v 0 profess_4<br />
00602303v 0 zin-hitzak_esan_1<br />
boto_egin_1<br />
00603145v 0 swear_3<br />
00603145v 0 zin_egin_2<br />
00603280v 4 guarantee_1 vouch_2<br />
00603280v 3 bermatu_6<br />
berme_eman_3<br />
00689127v mn 99<br />
-factotum-<br />
communication<br />
Stating+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01604356v mn 99<br />
-factotum-<br />
possession<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00689127v 0 stipulate_2<br />
00689127v 0 hitzartu_1 erabaki_4<br />
01604356v 2 secure_3<br />
01604356v 1 abalatu_1<br />
75<br />
give to, in<br />
marriage<br />
as in religious orders;<br />
take a vow<br />
promise solemnly; take an oath<br />
give surety or assume<br />
responsibility<br />
assure payment of<br />
give a guarantee of
76<br />
<br />
<br />
<br />
<br />
00697966v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
00599607v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00602402v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01604463v mn 99<br />
-economy-<br />
possession<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01604463v 0<br />
certify_2<br />
01604463v 0<br />
ziurtatu_8<br />
00697966v 3 covenant_2<br />
00697966v 2 ituna_egin_1 itundu_1<br />
00516749v mn 99<br />
-religion-<br />
communication<br />
ReligiousProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00697848v mn 99<br />
-religion-<br />
communication<br />
ReligiousProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00599607v 0 swear_off_1<br />
00599607v nolex 0<br />
00516749v 0 commune_2<br />
communicate_6<br />
00516749v 0 Jauna_hartu_1<br />
komuniatu_1 komulgatu_1<br />
00697848v 0<br />
communicate_5<br />
00697848v 0<br />
Jauna_eman_1<br />
00602402v 18 contract_1 undertake_4<br />
00602402v 23 kontratatu_2<br />
promise to abstain from<br />
guarantee payment on; of<br />
checks<br />
enter into a covenant<br />
receive Communion, in<br />
the Catholic church<br />
administer communion; in<br />
church<br />
enter into a contractual arrangement
00602606v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
<br />
<br />
<br />
00602606v 9 sign_3<br />
00602606v 11 sinatu_3<br />
izenpetu_3<br />
00674004v mn 99<br />
-factotum-<br />
communication<br />
Writing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00674118v mn 99<br />
-factotum-<br />
communication<br />
Writing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00674231v mn 99<br />
-factotum-<br />
communication<br />
Writing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00674369v mn 99<br />
-factotum-<br />
communication<br />
Writing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00674476v mn 99<br />
-factotum-<br />
communication<br />
Writing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00674004v 0<br />
undersign_1<br />
00674004v 0<br />
behean_sinatu_1<br />
00674118v 0 ink_1<br />
00674118v nolex 0<br />
be engaged by a written<br />
agreement<br />
sign at the bottom of (a<br />
document, for example)<br />
append one's signature to<br />
00674231v 0 autograph_1 inscribe_5<br />
00674231v 0 autografoa_eman_1<br />
autografoa_idatzi_1<br />
00674369v 0 initial_1<br />
00674369v nolex 0<br />
00674476v 0<br />
countersign_1<br />
00674476v 0 berretsi_5<br />
berriro_sinatu_1<br />
mark with one's initials<br />
77<br />
mark with one's<br />
signature<br />
add one's signature to after<br />
another's to attest<br />
authenticity
78<br />
<br />
<br />
<br />
00674666v mn 99<br />
-factotum-<br />
communication<br />
OrganizationalProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00674764v mn 99<br />
-economy-<br />
communication<br />
OrganizationalProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00688901v mn 99<br />
-factotum-<br />
communication<br />
Stating+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00674870v mn 99<br />
-administration-<br />
-economy-<br />
communication<br />
RegulatoryProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00674666v 0<br />
execute_7<br />
00674666v nolex 0<br />
00674764v 2 endorse_4<br />
00674764v 2 endosatu_1<br />
00674870v 0 visa_1<br />
00674870v 0<br />
bisa_ipini_1<br />
bisa_jarri_1<br />
00688901v 2 stipulate_1 qualify_5 condition_3<br />
specify_1<br />
00688901v 1 zehaztu_7<br />
00721124v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00721124v 0<br />
provide_3<br />
00721124v<br />
nolex 0<br />
sign in the presence of<br />
witnesses<br />
of documents or cheques<br />
provide (a<br />
passport) with a<br />
visa<br />
specify as a<br />
condition<br />
determine (what is to happen in certain<br />
contingencies), esp. by including a proviso<br />
condition
01676348v mn 99<br />
-factotum-<br />
social<br />
FinancialTransaction+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01676541v mn 99<br />
-factotum-<br />
social<br />
FinancialTransaction+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01676962v mn 99<br />
-factotum-<br />
social<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
<br />
01676348v 0 rent_1 lease_1<br />
01676348v 0 akuratu_3 alogeratu_3 alokatu_3<br />
errentan_eman_3 errentan_hartu_3<br />
errentan_utzi_3<br />
01676541v 0 rent_4 hire_2 charter_1<br />
lease_2<br />
01676541v 0 erentan_utzi_1<br />
errentan_hartu_4 alogeratu_4<br />
akuratu_4 alokatu_4<br />
errentan_eman_4<br />
01676962v 4 covenant_1<br />
01676962v 5 hitzartu_2 itundu_2 ituna_egin_2<br />
01686124v mn 99<br />
-factotum-<br />
social<br />
ReligiousProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01686230v mn 99<br />
-factotum-<br />
social<br />
ReligiousProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01686326v mn 99<br />
-factotum-<br />
social<br />
ReligiousProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
01686124v 0 confirm_5<br />
01686124v 0 konfirmatu_1<br />
sendotza_eman_1<br />
01686230v 0 bar_mitzvah_1<br />
01686230v nolex 0<br />
01686326v 0 bat_mitzvah_1<br />
01686326v nolex 0<br />
79<br />
let for money;<br />
of housing<br />
hold under a lease or<br />
rental agreement; of<br />
goods and services<br />
agree to a covenant<br />
administer<br />
confirmation to; a<br />
church rite<br />
of boys in the Jewish faith<br />
of girls in the Jewish faith
80<br />
<br />
<br />
00602914v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00592804v mn 99<br />
-factotum-<br />
communication<br />
Stating+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
<br />
<br />
00602914v 2 undertake_3 guarantee_3<br />
00602914v 1 engaiatu_1 konpromisoa_hartu_1<br />
00603039v mn 99<br />
-factotum-<br />
communication<br />
Committing+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00592804v 7 propose_1 suggest_1 advise_3<br />
00592804v 8 gomendatu_5 iradoki_1<br />
proposatu_1<br />
00592685v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00593041v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00593186v mn 99<br />
-sexuality-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00603039v 0 underwrite_1<br />
00603039v 0 dirulaguntza_eman_1<br />
00592685v 0 recommend_1 urge_2 advocate_1<br />
00592685v nolex 0<br />
00593041v 0 advance_2<br />
throw_out_5<br />
00593041v nolex 0<br />
00593186v 0 proposition_1<br />
00593186v 0 intsinuatu_1 limurtu_nahian_ibili_2<br />
promise or guarantee<br />
guarantee financial<br />
support of<br />
make a proposal, declare a plan for<br />
something<br />
push for something<br />
bring forward for consideration or<br />
acceptance<br />
suggest sex to
00588138v mn 99<br />
-factotum-<br />
communication<br />
Reasoning+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00587298v mn 99<br />
-religion-<br />
communication<br />
ReligiousProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
<br />
00593428v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00594839v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00595862v mn 99<br />
-politics-<br />
communication<br />
OrganizationalProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00593428v 0 feed_back_2<br />
00593428v 0 argibideak_eman_1<br />
00594839v 0 submit_2 state_2 put_forward_1<br />
00594839v nolex 0<br />
00595862v 0 move_16<br />
make_a_motion_1<br />
00595862v 0<br />
mozioa_aurkeztu_1<br />
00588138v 0 account_for_4 answer_for_1<br />
00588138v 0 frogatu_7 justifikatu_2<br />
00587298v 2 consecrate_3 bless_4 hallow_1 sanctify_1<br />
00587298v 2 kontsakratu_1 sagaratu_1 santutu_2<br />
bedeinkatu_1<br />
00587477v mn 99<br />
-religion-<br />
communication<br />
ReligiousProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00587477v 0 reconsecrate_1<br />
00587477v 0 berriro_kontsakratu_1<br />
berriro_bedeinkatu_1 berriro_santutu_1<br />
berriro_sagaratu_1<br />
give feedback to somebody<br />
put before<br />
propose formally; in a debate or<br />
parliamentary meeting<br />
81<br />
furnish a justifying analysis or explanation<br />
render holy by means of<br />
religious rites<br />
consecrate anew, as<br />
after a desecration
82<br />
o<br />
o<br />
o<br />
o<br />
<br />
00683175v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00662493v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00654101v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
00745102v mn 99<br />
-boxing-<br />
competition<br />
Sport+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Purpose=<br />
00745102v 0 count_out_1<br />
00745102v nolex 0<br />
declare the loser, in boxing<br />
00683175v 0 get_out_4<br />
00683175v 0 zailtasunez_esan_1 zailtasunez_adierazi_1 zailtasunez_erran_1<br />
00662493v 0 articulate_4 enunciate_2 vocalize_4<br />
00662493v 0 bokalizatu_1 ahoskatu_2 ebaki_15 artikulatu_1<br />
00654101v 3 announce_2 declare_2<br />
00654101v 1 deklaratu_1<br />
00584514v mn 99<br />
-factotum-<br />
communication<br />
Declaring+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00654262v mn 99<br />
-factotum-<br />
communication<br />
LegalAction+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00611179v mn 99<br />
-factotum-<br />
communication<br />
ContentDevelopment+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
announce officially<br />
00584514v 0 promulgate_2<br />
00584514v 0 aldarrikatu_3 promulgatu_1<br />
00654262v 0 nolle_prosequi_1 nolle_pros_1<br />
nol._pros._1<br />
00654262v nolex 0<br />
00611179v 3 preface_1 premise_2 introduce_9<br />
00611179v 4 sarrera_egin_1<br />
express or state clearly<br />
express with difficulty<br />
put a law into effect by formal declaration<br />
declare that a legal case will not be<br />
prosecuted<br />
furnish with a preface
o<br />
o<br />
<br />
<br />
00569337v mn 99<br />
-factotum-<br />
communication<br />
Pretending+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00554194v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
<br />
00611324v mn 99<br />
-factotum-<br />
communication<br />
ContentDevelopment+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00611405v mn 99<br />
-factotum-<br />
communication<br />
ContentDevelopment+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00611324v 0 preamble_1<br />
00611324v nolex 0<br />
make a preamble<br />
00611405v 0 prologize_1<br />
00611405v 0 hitzaurrea_egin_1 aitzinsolasa_egin_1<br />
sarrera_idatzi_1 aitzinsolasa_idatzi_1 hitzaurrea_idatzi_1<br />
00569337v 0 play_down_1 soft-pedal_1<br />
00569337v 0 garrantzia_kendu_2<br />
00554194v 5 answer_1 reply_1 respond_2<br />
00554194v 5 ihardetsi_1 erantzun_2<br />
00553905v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00554047v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00554494v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
play down or obscure<br />
reply or respond to<br />
00553905v 0 counter_1<br />
00553905v 0 aurka_egin_3 iharduki_1 buru_egin_1 kontra_egin_4<br />
00554047v 0 field_3<br />
00554047v 0 ondo_ihardetsi_1 zuzen_ihardetsi_1 ongi_ihardetsi_1<br />
zuzen_erantzun_1 ongi_erantzun_1 ondo_erantzun_1<br />
00554494v 0 retort_1 come_back_5 repay_4 return_8 riposte_1<br />
rejoin_2<br />
00554494v nolex 0<br />
83<br />
write or speak a<br />
prologue<br />
speak in response<br />
answer adequately or<br />
successfully<br />
answer<br />
back
84<br />
o<br />
o<br />
<br />
00543138v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
01529684v mn 99<br />
-factotum-<br />
possession<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
<br />
<br />
00716650v mn 99<br />
-zoology-<br />
communication<br />
RadiatingSound+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00716650v 0 bridle_2<br />
00716650v nolex 0<br />
respond to the reins, as of horses<br />
00543138v 0 misstate_1<br />
00543138v 0 oker_esan_1 oker_erran_1 gaizki_erran_1 gaizki_esan_1<br />
01529684v 5 give_4<br />
01529684v 5 eman_49<br />
00692314v mn 99<br />
-commerce-<br />
-economy-<br />
communication<br />
Committing+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
<br />
01529865v mn 99<br />
-factotum-<br />
possession<br />
Selecting+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
01529966v mn 99<br />
-factotum-<br />
possession<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
convey or reveal information<br />
00692314v 2 quote_2<br />
00692314v 2 prezioa_eman_1 salneurria_eman_1 prezioak_eman_1<br />
salneurriak_eman_1<br />
00692437v mn 99<br />
-commerce-<br />
-economy-<br />
communication<br />
Committing+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00692437v 0<br />
underquote_2<br />
00692437v nolex 0<br />
01529865v 0 cast_2<br />
01529865v nolex 0 deposit<br />
01529966v 0 name_6 list_3<br />
01529966v 0 izena_esan_3 izena_eman_6<br />
state something incorrectly<br />
name the<br />
price of<br />
quote a price lower than that quoted by (another<br />
seller)<br />
give the names of
•<br />
00668411v mn 99<br />
-factotum-<br />
base concept<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
o<br />
00668411v 20 represent_5<br />
00668411v 8 itxuratu_3 adierazi_17<br />
00566991v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
<br />
<br />
<br />
serve as a means of expressing something<br />
00566991v 11 misrepresent_1 belie_2<br />
00566991v 14 aizundu_1 faltsutu_2 itxuragabetu_4 desitxuratu_2<br />
00372048v mn 99<br />
-psychology-<br />
change<br />
IntentionalPsychologicalProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00372228v mn 99<br />
-psychology-<br />
change<br />
IntentionalPsychologicalProcess+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00566613v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00372048v 0 romanticize_3 romanticise_2<br />
glamorize_1<br />
00372048v nolex 0<br />
00372228v 0 sentimentalize_1<br />
00372228v nolex 0<br />
00566613v 0 falsify_1 distort_1<br />
garble_1 warp_1<br />
00566613v nolex 0<br />
represent falsely<br />
look at with sentimentality<br />
interpret<br />
romantically<br />
85<br />
make false by mutilation or addition; as of a<br />
message or story
86<br />
<br />
<br />
00567230v mn 99<br />
-factotum-<br />
communication<br />
Process+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00568049v mn 99<br />
-factotum-<br />
communication<br />
Pretending+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
<br />
<br />
<br />
00567230v 0 color_2 distort_4<br />
00567230v nolex 0<br />
distort<br />
00568049v 6 feign_1 sham_2 pretend_1 affect_4 dissemble_1<br />
00568049v 5 plantak_egin_1 itxurak_egin_1 alegiak_egin_1 alegia_egin_1<br />
itxura_egin_2<br />
00568418v mn 99<br />
-factotum-<br />
communication<br />
Pretending+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00568508v mn 99<br />
-boxing-<br />
communication<br />
Pretending+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00568905v mn 99<br />
-factotum-<br />
communication<br />
Pretending+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00568418v 0 play_possum_1<br />
00568418v nolex 0<br />
00568508v 0 take_a_dive_1<br />
00568508v nolex 0<br />
to pretend to be dead<br />
00568905v 0 waffle_1 bullshit_1 bull_3 fake_3<br />
00568905v nolex 0<br />
of a boxer: pretend to be knocked out<br />
talk through one's hat<br />
make<br />
believe
o<br />
<br />
00668209v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
<br />
<br />
00704572v mn 99<br />
-factotum-<br />
communication<br />
BodyMotion+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
<br />
00704572v 2 mouth_2<br />
00704572v 2 isilpean_ebaki_1<br />
isilpean_ahoskatu_1 isilpean_artikulatu_1<br />
00704732v mn 99<br />
-factotum-<br />
communication<br />
BodyMotion+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00704732v 0 lip-synch_1<br />
lip-sync_1<br />
00704732v nolex 0<br />
00668209v 4 describe_1 depict_2 draw_9<br />
00668209v 1 deskribatu_3 deskribapena_egin_1<br />
00669100v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00680510v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
87<br />
articulate silently; form<br />
words with the lips only<br />
move the lips in synchronization (with<br />
recorded speech or song)<br />
give a description of<br />
00669100v 0 delineate_5<br />
00669100v 0 zehatz-mehatz_deskribatu_1 zehazki_deskribatu_1<br />
00680510v 2 sketch_2 outline_1 adumbrate_1<br />
00680510v 2 gai<strong>net</strong>ik_deskribatu_1 laburki_deskribatu_1<br />
describe in vivid detail<br />
describe roughly or briefly
88<br />
o<br />
o<br />
o<br />
<br />
00668632v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
<br />
00668960v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
01876322v mn 99<br />
-factotum-<br />
stative<br />
represents+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00680675v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00668632v 2 dramatize_2<br />
00668632v 2 dramatizatu_1<br />
00668845v mn 99<br />
-factotum-<br />
consumption<br />
Communication+<br />
Agentive=<br />
BoundedEvent=<br />
Communication=<br />
Dynamic=<br />
Existence=<br />
Physical=<br />
00680675v 0 block_out_4<br />
00680675v nolex 0<br />
00668845v 0 overdramatize_1<br />
00668845v 0 gehiegi_dramatizatu_1<br />
00668960v 0 portray_1<br />
00668960v 0 deskribatu_6 irudikatu_1<br />
01876322v 0 embody_3<br />
01876322v 0 irudikatu_8 agertu_21<br />
indicate roughly<br />
represent something in a dramatic manner<br />
present in an overly dramatic manner<br />
portray in words<br />
represent or express something abstract in tangible form
•<br />
•<br />
•<br />
•<br />
•<br />
•<br />
00663192v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00637974v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00637720v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00637628v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00637528v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00637348v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
o<br />
00663192v 0 say_6<br />
00663192v 0 esan_21<br />
00637974v 0 get_off_11<br />
00637974v nolex 0<br />
utter aloud<br />
deliver verbally<br />
00637720v 0 pour_out_1<br />
00637720v 0 hustu_14 kanporatu_10 asaskatu_2<br />
00637628v 0 drop_6<br />
00637628v 0 bota_36 jaurti_17<br />
00637528v 0 breathe_4<br />
00637528v 0 esan_27<br />
00637348v 2 raise_3<br />
00637348v nolex 1<br />
00693588v mn 99<br />
-factotum-<br />
communication<br />
IntentionalProcess+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
utter or tell<br />
utter casually<br />
express without restraint<br />
cause to be heard or known; express or utter<br />
00693588v 0 call_up_1 bring_forward_2<br />
00693588v nolex 0<br />
bring forward for consideration<br />
89
90<br />
•<br />
•<br />
•<br />
•<br />
•<br />
•<br />
00631861v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00626364v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00620914v mn 99<br />
-factotum-<br />
competition<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00619568v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00619398v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00617311v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
o<br />
00631861v 0 voice_1<br />
00631861v 0 berri_eman_6 jakinarazi_16<br />
give voice to<br />
00626364v 0 marvel_2<br />
00626364v 0 harritu_7 liluratu_2 miraz_egon_1 miretsi_1<br />
txunditu_7<br />
00620914v 0 venture_3<br />
00620914v 0 aurretik_esan_1 aurreratu_9 iragarri_7<br />
00619568v 0 vociferate_1 shout_out_2<br />
00619568v 0 aldarrikatu_5 oihuztatu_1 aldarri_egin_2<br />
00619398v 0 clamor_2 clamour_1<br />
00619398v nolex 0<br />
express astonishment or surprise about<br />
something<br />
express in spite of possible refutation<br />
utter in a very loud voice<br />
utter or proclaim insistently and noisily<br />
00617311v 2 exclaim_1 cry_3 cry_out_1 outcry_2 call_out_1<br />
shout_3<br />
00617311v 2 oihu_egin_9 garrasi_egin_8 deiadar_egin_8<br />
00586792v mn 99<br />
-zoology-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00586792v 0 gee_2<br />
00586792v nolex 0<br />
as to a horse<br />
utter aloud; often with surprise, horror, or<br />
joy
•<br />
•<br />
00612000v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00724756v mn 99<br />
-factotum-<br />
communication<br />
Communication+<br />
Agentive=<br />
Communication=<br />
Dynamic=<br />
00612000v 0 wish_4<br />
00612000v 0 opa_izan_2<br />
00724756v 0 hurl_3 throw_10<br />
00724756v nolex 0<br />
make or express a wish<br />
utter with force; utter vehemently<br />
91
Kirol-arloko aditzen hautapen-murriztapenak<br />
93<br />
C ERANSKINA<br />
Eskuliburu ho<strong>net</strong>an hainbat eskuratze-teknika erabiliz, ingeleseko eta euskarako corpus<br />
ezberdi<strong>net</strong>atik ikasitako hautapen-murriztapenak (HMak) aurkezten ditugu, hauen<br />
zuzentasunari buruzko ebaluazioarekin batera.<br />
Azterketarako erabilitako zortzi synsetak behekoak dira, eta banan banan aurkeztuko<br />
ditugu, beraien azterketaren urrats bakoitzean lortutako emaitzak eta ho<strong>net</strong>arako erabilitako<br />
baliabideekin batera 43 :<br />
1. 00605818 play_1 /jokatu_2; “play games, play sports”<br />
2. 00610422 encounter_5, meet_10, play_24, take_on_5/jokatu_3<br />
3. 00468052 coach_2, train_7 / entrenatu_1; “teach and supervise, as…”<br />
4. 00059698 train_8 /entrenatu_3; “exercise in order to prepare for…”<br />
5. 00630097 equalize_1, get_even_1 / berdindu_16; “compensate…”<br />
6. 00630097 draw_25, tie_2 / berdindu_15; “finish a game with an…”<br />
7. 00620486 win_1/irabazi_3; “be the winner in a contest or competition”<br />
8. 00620218 lose_2 / galdu_9; “fail to win”<br />
Synset bakoitzaren ingeleseko eta euskarako varianten HMen azterketa egin dugunez,<br />
eranskinen antolaketari begira, synset bereko ingeleseko eta euskarako emaitzak atal<br />
ezberdi<strong>net</strong>an banatu ditugu. Hala, eranskin honek hurrengo atalak izango ditu:<br />
C.1 00468052 coach_2, train_7 “teach and supervise, as in sports…”<br />
C.2 00468052 entrenatu_1 “teach and supervise, as in sports…”<br />
C.3 00630097 draw_25, tie_2 “finish a game with an equal number…”<br />
C.4 00630097 berdindu_15; “finish a game with an equal number…”<br />
C.5 00630097 equalize_1, get_even_1 “compensate; make the score equal”<br />
C.6 00630097 berdindu_16; “compensate; make the score equal”<br />
C.7 00620218 lose_2 “fail to win”<br />
C.8 00620218 galdu_9 “fail to win”<br />
C.9 00605818 play_1 “play games, play sports”<br />
C.10 00605818 jokatu_2 “play games, play sports”<br />
C.11 00610422 play_24, encounter_5, meet_10, take_on_5 “contend…”<br />
C.12 00610422 jokatu_3; “contend against…”<br />
C.13 00059698 train_8 “exercise in order to prepare for an event…”<br />
C.14 00059698 entrenatu_3; “exercise in order to prepare for an event…”<br />
C.15 00620486 win_1 “be the winner in a contest or competition”<br />
C.16 00059698 entrenatu_3 “exercise in order to prepare for an event…”<br />
43 HMei buruzko argibide gehiago tesi-txosteneko VII. kapituluan.
94<br />
Emaitzetan zehar, HM bakoitzaren probabilitate-neurriez gain, letra lodiz markatu ditugu<br />
kirol-arloarekin erabil daitezkeen HMak, eta hauek jarraian ONARGARRIA edo ZUZENA<br />
markak izango dituzute. Gogora ditzagun marka hauen esanahia 44 :<br />
• ZUZENA: Urre-patroiarekin bat datorrenean.<br />
• ONARGARRIA: Urre-patroiaren hiperonimoa edo hiponimoa denean. Domeinueremu<br />
semantiko bikoteen bidez adierazitako HM kasuan, onargarri bezala<br />
kontsideratu ditugu urre-patroia baino orokorrago edota zehatzago direnak.<br />
Markarik ez duten HMak okertzat joko ditugu, hau da, marka horrek urre-patroiarekin bat ez<br />
datozela.<br />
Bestalde, SemCorretik ikasitako HMen kasuan, batzuetan, jarraian zehaztu dugu<br />
corpuseko zer agerpe<strong>net</strong>atik eratorri diren.<br />
Honekin batera, eskuratze-teknika batzuentzat corpusean aditz horrekin subjektu edo<br />
objektu gisa agertu diren izenen zerrenda eskaintzen dugu: w2w eta s2s (w2c eta c2c<br />
teknikentzat, hurrenez hurren). Lehenengoan ez dira adierak kontuan hartzen, hau da,<br />
fitxategi ho<strong>net</strong>an aditzaren edozein adierarekin corpusean agertutako hitzen (adiera zehaztu<br />
gabe) zerrenda da. s2s fitxategietan, aldiz, eskuz etiketatutako SemCor corpusean oinarritzen<br />
denez, aditzaren adiera eta aditz horrek corpusean izan dituen objektuen/subjektuen adierak<br />
synset-zenbakiarekin zehaztuta datoz.<br />
s2s-hype fitxategiak s2s deitu dugunaren aldaera bat da, non aditzaren hiperonimoek<br />
edota troponimoek corpusean hartu dituzten subjektu/objektu agerpenak ere zehazten diren,<br />
bien adierak zehaztuz. s2s-hype zerrenda hauetan “” ikurrak darabiltzagu<br />
aditzaren hiperonimoari edota troponimoari buruz ari garen zehazteko. Lehenengoak<br />
ezkerreko kontzeptua eskuinekoaren hiponimoa dela adierazten du; bigarrenak, aldiz,<br />
ezkerreko kontzeptua eskuinekoaren hiperonimoa dela. Azkenik, ikur hauek aditzek<br />
corpusean hartu duten izenen ondoan ere erabil daitezke, izen horren hiperonimoa zehaztuta<br />
ager daitekeelako, hau da, hiperonimo hori agerpen horren HM gisa agertuko dela<br />
adierazteko.<br />
Amaitzeko aipatu beharra dago, maiz, leku arazoak direla-eta, HMen adibideak laburtu<br />
egin ditugu.<br />
44 HMen azterketari buruzko argibide gehiagorako jo bedi tesi-txosteneko VII. kapitulura.
C.1 coach_2 / train_7<br />
C.1.1 Synseta MCRn<br />
00468052v<br />
communication<br />
DOMEINUAK:<br />
lock 00468052v 1 coach_2 train_7<br />
lock 00468052v 0 entrenatu_1<br />
teach and supervise, as in sports or acting<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />
coach, train A 00468052 pedagogy sport<br />
C.1.2 Urre patroiak<br />
coach, train 00468052: objektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
coach, train 00468052: subjektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
C.1.3 c2c SemCorretik<br />
OBJEKTUAK s2s eta s2s-hype:<br />
coach 00468052<br />
staff 05277272 the body of teachers and administrators at a school
96<br />
trouble 08740973<br />
coach
coach, train 00468052: c2c subjektu hautapen-murriztapenak<br />
00004865 0.009 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.001 object physical_object "a physical entity"<br />
00012878 0.001 cognition knowledge "the psychological result of…"<br />
00018599 0.0004 communication "something that is communicated between…"<br />
05650477 0.0001 part piece "a portion of a natural object"<br />
00008030 0.0001 animal animate_being beast brute creature fauna "a living…"<br />
00017008 0.0001 group grouping "any number of entities as…" ZUZENA<br />
00013522 0.0001 feeling "the psychological feature of experiencing…"<br />
00018966 0.0001 measure quantity amount quantum "how much there is of…"<br />
03444246 0.0001 property "a basic or essential attribute shared by all…"<br />
C.1.4 w2c SemCorretik<br />
s2s: (B.1.3 atala)<br />
coach: w2c objektu hautapen-murriztapenak<br />
05127029 0.269 body "a group of persons associated by some common tie or…"<br />
ONARGARRIA<br />
coach: w2c subjektu hautapen-murriztapenak<br />
Daturik ez.<br />
train: w2c objektu hautapen-murriztapenak<br />
00004865 0.334 person individual someone somebody mortal human soul. ZUZENA<br />
00017008 0.049 group grouping "any number of entities considered…" ZUZENA<br />
00012878 0.045 cognition knowledge "the psychological result of…"<br />
03553723 0.021 number figure "the property possessed by a sum or total or…"<br />
train: w2c subjektu hautapen-murriztapenak<br />
00004865 0.236 person individual someone somebody mortal human soul ZUZENA<br />
05127029 0.168 body "a group of persons associated by some…" ONARGARRIA<br />
C.1.5 s2semf SemCorretik<br />
coach 00468052: s2semf objektu hautapen-murriztapenak<br />
coach 00468052<br />
school-group 1 ONARGARRIA<br />
coach 00468052: s2semf subjektu hautapen-murriztapenak<br />
Daturik ez.<br />
train 00468052: s2semf objektu hautapen-murriztapenak<br />
Daturik ez.<br />
train 00468052: s2semf subjektu hautapen-murriztapenak<br />
Daturik ez.<br />
97
98<br />
C.1.6 w2c BNCtik<br />
coach: w2c objektu hautapen-murriztapenak<br />
00004865 0.140 person individual someone somebody mortal human soul" ZUZENA<br />
00009469 0.069 object physical_object "a physical entity"<br />
05119847 0.034 social_group "people sharing some social relation" ONARGARRIA<br />
00016649 0.030 act human_action human_activity "something that people do…"<br />
09065837 0.016 time_period period period_of_time amount_of_time<br />
00018599 0.013 communication "something that is communicated between…"<br />
00012878 0.009 cognition knowledge "the psychological result of…"<br />
05116476 0.008 people "(plural) any group of human beings…" ONARGARRIA<br />
03610098 0.007 body_part "any part of an organism such as an organ or…"<br />
00017586 0.005 attribute "an abstraction belonging to or characteristic of…"<br />
coach: w2c subjektu hautapen-murriztapenak<br />
00004865 0.237 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.066 object physical_object "a physical entity"<br />
05285793 0.025 World_Health_Organization WHO "a United Nations agency to…"<br />
00016649 0.022 act human_action human_activity "something that people do…"<br />
00012670 0.018 abstraction "a general concept formed by extracting common…"<br />
00012878 0.014 cognition knowledge "the psychological result of…"<br />
03610098 0.011 body_part "any part of an organism such as an organ or…"<br />
04690182 0.008 happening occurrence natural_event "an event that happens"<br />
00015437 0.007 state "the way something is with respect to its main…"<br />
04771851 0.007 contest competition "an occasion on which a winner is… "<br />
train: w2c objektu hautapen-murriztapenak<br />
00004865 0.150 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.071 object physical_object "a physical entity"<br />
05119847 0.039 social_group "people sharing some social relation" ONARGARRIA<br />
00018599 0.028 communication "something that is communicated between…"<br />
00016649 0.021 act human_action human_activity "something that people do…"<br />
00012878 0.019 cognition knowledge "the psychological result of…"<br />
00018966 0.014 measure quantity amount quantum "how much there is of…"<br />
00017586 0.010 attribute "an abstraction belonging to or characteristic…"<br />
03610098 0.009 body_part "any part of an organism such as an organ or…"<br />
05116476 0.008 people "(plural) any group of human beings…" ONARGARRIA<br />
train: w2c subjektu hautapen-murriztapenak<br />
08813320 0.111 helium He atomic_number_2<br />
00004865 0.087 person individual someone somebody mortal human soul ZUZENA<br />
00011607 0.049 artifact artefact "a man-made object"<br />
05285793 0.045 World_Health_Organization WHO "a United Nations agency to…”<br />
04455766 0.045 he "the 5th letter of the Hebrew alphabet"<br />
00018966 0.023 measure quantity amount quantum "how much there is of…"<br />
00012878 0.020 cognition knowledge "the psychological result of…"<br />
04313427 0.019 message content subject_matter substance "what a…"<br />
00016649 0.018 act human_action human_activity "something that people do…"<br />
00014314 0.014 location "a point or extent in space"
99<br />
w2w: coach: w2w objektuak<br />
And<br />
Arsene_Wenger<br />
Auckland<br />
Bora_Milutinovic<br />
Carlos_Bilardo<br />
Chalky_White<br />
David_Tillotson<br />
Doug_Collins<br />
England<br />
Harvey_Slater<br />
Jacques_Fouroux<br />
Middlesex<br />
Mike_Shanahan<br />
New_Zealanders<br />
Now<br />
Under-12s<br />
Waikato<br />
arch<br />
authority_-_he<br />
basketball<br />
batsmen<br />
central<br />
comfort<br />
company<br />
contract<br />
crew<br />
deb<br />
director<br />
duty<br />
fullback<br />
fundamentals<br />
her<br />
him<br />
holiday<br />
house<br />
inn<br />
inquest<br />
junior<br />
livery<br />
man<br />
member<br />
others<br />
patient<br />
people<br />
recruit<br />
regular<br />
route<br />
run<br />
session<br />
singer<br />
stock<br />
system<br />
team<br />
thing<br />
tour<br />
trade<br />
trip<br />
umbrella<br />
vehicle<br />
veteran<br />
whom<br />
you<br />
youngster<br />
coach: w2w subjektuak<br />
Argentinian<br />
Bobby_Robson<br />
Bridgend<br />
British<br />
British_Rail<br />
Cambridge<br />
Club<br />
Courtesy<br />
Dublin<br />
Englishman<br />
French<br />
Geoff_Boycott<br />
Great_Britain<br />
Having<br />
He<br />
Hull<br />
I<br />
Jackman<br />
Joanne<br />
Kingston<br />
Leicester<br />
Luxury<br />
MIKE_SPRACKLEN<br />
Maesteg<br />
Mk1<br />
Monaco<br />
National<br />
New_Zealand<br />
Orrell<br />
Oxford<br />
Prince<br />
ROBERT_NORSTER<br />
Sydney<br />
The_Chicago_Bulls<br />
Their_Australian<br />
This<br />
Unless<br />
Wales<br />
Welsh<br />
addition<br />
adviser<br />
assistant<br />
athletics<br />
beginning<br />
chief<br />
club<br />
competition<br />
double<br />
former<br />
genius<br />
head<br />
inter-city<br />
joint<br />
major<br />
media<br />
musician<br />
national<br />
nobody<br />
passenger<br />
permanent<br />
pilgrim<br />
press<br />
principal<br />
private<br />
rowing<br />
second<br />
senior<br />
she<br />
size<br />
small<br />
standard<br />
successor<br />
unit<br />
who<br />
whose<br />
train: w2w objektuak<br />
-_attended<br />
A-To-Z<br />
Airborne_Division<br />
Ali<br />
Along<br />
Among<br />
Andy_Sutton<br />
Anne<br />
As<br />
Atlaal<br />
Aureole<br />
Baillamont<br />
Barnbrook_Again<br />
Barry<br />
Both_Miss_Chalk<br />
Cargo_Fleet<br />
Carroll_House<br />
Champion_Hurdle<br />
Church_-_and_that<br />
Commanche_Run<br />
David_Livingstone<br />
Dawn_Run
100<br />
Did<br />
Foinavon<br />
Greeks<br />
Greenham<br />
Gregor_Mendel<br />
Halloween<br />
He<br />
Here<br />
Huntworth<br />
I<br />
Ilse<br />
In<br />
In-Keeping<br />
Lawrence<br />
Market_Leader<br />
Nabeel_Dancer<br />
Now<br />
Old_Vic<br />
Pinewood_Stables<br />
Pisk<br />
Prague<br />
Ramblers<br />
Robson<br />
Rottweiler<br />
Royal_Cedar<br />
SLOA<br />
Sales_Booster_Interna<br />
tional<br />
Star_City<br />
TA_NCOs<br />
Theatrical<br />
They<br />
Tsektran<br />
Two<br />
We<br />
With<br />
absence<br />
academic<br />
accident<br />
accountant<br />
acres<br />
actor<br />
adult<br />
adviser<br />
agency<br />
aides<br />
ammunition<br />
apprentice<br />
area<br />
aspiration<br />
assistance<br />
basis<br />
biceps<br />
body<br />
body_part<br />
bodyguard<br />
bound<br />
branch<br />
break<br />
buff<br />
calf<br />
camp<br />
can<br />
catering<br />
chaser<br />
chef<br />
chest<br />
christian<br />
clergy<br />
clergymen<br />
colt<br />
compartment<br />
competition<br />
complementary_medicin<br />
e<br />
complex<br />
computer<br />
concept<br />
contender<br />
counterpart<br />
course<br />
creeper<br />
crew<br />
cycle<br />
daily<br />
dancer<br />
daughter<br />
deltoid<br />
department<br />
depot<br />
device<br />
director<br />
disaster<br />
dog<br />
drop<br />
espalier<br />
essential<br />
establishment<br />
event<br />
executive<br />
exercises<br />
extension<br />
farmer<br />
fatty_tissue<br />
feat<br />
feeding<br />
fighter<br />
firm<br />
first<br />
fitness<br />
force<br />
forward<br />
friendship<br />
fruit<br />
gallop<br />
glider<br />
graduate<br />
group<br />
guard<br />
guide<br />
handler<br />
he<br />
head<br />
heating<br />
her<br />
him<br />
home<br />
hopefuls<br />
horse<br />
horses_-_as<br />
hurdler<br />
husband<br />
impression<br />
infantrymen<br />
information_system<br />
initiative<br />
inspector<br />
institution<br />
it<br />
itself<br />
journey<br />
king<br />
last<br />
lateral<br />
local<br />
male<br />
man<br />
manager<br />
matches<br />
material<br />
me<br />
middle_class<br />
mind<br />
minister<br />
missionary<br />
mixing<br />
mother<br />
motive_power<br />
movement<br />
muscle<br />
musician<br />
myself<br />
nation<br />
nonstop<br />
number<br />
objective<br />
officer<br />
orchestra
101<br />
organisation<br />
others<br />
owner/manager<br />
part<br />
participant<br />
peak<br />
people<br />
personnel<br />
pianist<br />
pilot<br />
player<br />
police<br />
population<br />
post<br />
priest<br />
profession<br />
programme<br />
progressive<br />
pup<br />
purpose<br />
race<br />
racehorse<br />
range<br />
reformer<br />
refurbishment<br />
reinforcement<br />
replacement<br />
restaurant<br />
role<br />
roof<br />
routine<br />
runs_-_perhaps<br />
sailor<br />
schedule<br />
scheme<br />
scientist<br />
searchlight<br />
sector<br />
self-defence<br />
seminar<br />
service<br />
servicewomen<br />
session<br />
set<br />
sharing<br />
she<br />
shirt<br />
shoe<br />
side<br />
sir<br />
six-year-old<br />
skill<br />
something<br />
speed<br />
sport<br />
spotter<br />
squad<br />
staff<br />
stall<br />
standard<br />
station<br />
statistics<br />
step-up<br />
student<br />
succession<br />
successor<br />
suit<br />
surveillance<br />
tape<br />
teacher<br />
team<br />
team-mate<br />
technique<br />
telescope<br />
term<br />
terrorist<br />
that<br />
that_-<br />
_notwithstanding<br />
them<br />
they<br />
thinking<br />
this<br />
time<br />
tour<br />
train<br />
transcendentalist<br />
travel<br />
tree<br />
troop<br />
troops<br />
two-seater<br />
uncle<br />
unit<br />
version<br />
voice<br />
volunteer<br />
warden<br />
warfare<br />
we<br />
west<br />
which<br />
who<br />
whom<br />
whose<br />
winner<br />
worker<br />
workforce<br />
workshop<br />
wreck<br />
writer<br />
yard<br />
you<br />
young<br />
young_man<br />
youngster<br />
train: w2w subjektuak<br />
BR<br />
BRC<br />
Barnardo<br />
Basingstoke<br />
Blackpool_North-<br />
Euston<br />
British_Rail<br />
Cross<br />
Cup_-_he<br />
Dundee<br />
East_German<br />
England<br />
Exercises<br />
Fontainebleu<br />
Glover<br />
Goods<br />
Grania_Furness<br />
Griffiths<br />
He<br />
His<br />
I<br />
In_Kenya<br />
It<br />
Kitchen<br />
Martin_Pipe<br />
Michael_Stoute<br />
Newton_Abbot<br />
No<br />
Paddington<br />
Penmaenmawr<br />
Peterborough_HAH<br />
Pullman<br />
Richard_Lee<br />
Ruth<br />
Security<br />
Spaniard<br />
The<br />
This<br />
Training<br />
Trans-Pennine<br />
VIP<br />
WWF<br />
Whether<br />
Wooderson<br />
You<br />
annual<br />
architect<br />
bitterness<br />
case<br />
client
102<br />
coach<br />
course<br />
cry<br />
diesel<br />
dinghy<br />
electric<br />
excursion<br />
first<br />
foundations<br />
government<br />
guest<br />
guide<br />
hard_work-outs<br />
he<br />
his<br />
horse<br />
hours<br />
it<br />
last<br />
launch<br />
mile<br />
military<br />
my<br />
C.1.7 c2c BNCtik<br />
Denak ez zuzenak dira.<br />
nephew<br />
newly-qualified<br />
newspaper<br />
number<br />
of<br />
our<br />
people<br />
pilot<br />
point<br />
pound<br />
principle<br />
programme<br />
prototype<br />
regular<br />
researcher<br />
return<br />
role<br />
same<br />
school<br />
seat<br />
series<br />
service<br />
session<br />
she<br />
society<br />
soldier<br />
special<br />
speed_-_we<br />
suddenly<br />
system<br />
talent<br />
technique<br />
that<br />
their<br />
them<br />
they<br />
train<br />
transit<br />
turn<br />
unit<br />
usage<br />
we<br />
who<br />
woman<br />
you<br />
your<br />
coach, train 00468052: c2c objektu hautapen-murriztapenak<br />
08813320 0.009 helium He atomic_number_2<br />
09065837 0.006 time_period period period_of_time amount_of_time<br />
08520394 0.002 condition status "a condition or state at a particular time"<br />
08525534 0.001 friendship friendly_relationship "the state of being…"<br />
08522741 0.0005 situation state_of_affairs "the general state of things"<br />
08804621 0.0004 group radical "two or more atoms bound together as a…"<br />
08534455 0.0004 status position "the relative position or standing of…"<br />
08498677 0.0003 arch "a curved shape in the vertical plane that spans an…"<br />
08865432 0.0002 leather "an animal skin made smooth and flexible by…"<br />
coach, train 00468052: c2c subjektu hautapen-murriztapenak<br />
08813320 0.036 helium He atomic_number_2<br />
08717824 0.0051 rank "relative status;<br />
09065837 0.003 time_period period period_of_time amount_of_time<br />
08781633 0.001 material stuff "the tangible substance that goes into the…"<br />
08522741 0.001 situation state_of_affairs "the general state of things"<br />
08535667 0.001 standing "social or financial or professional status or…"<br />
08732165 0.0007 imperativeness insistence insistency press pressure<br />
08514292 0.0006 articulation join joint juncture junction "the shape or…"<br />
08524514 0.0004 company comradeship companionship good_fellowship…"<br />
09092294 0.0004 time_unit unit_of_time "a unit for measuring time periods"
C.1.8 w2semf EFEtik<br />
coach: w2semf objektu hautapen-murriztapenak<br />
obj x 53 ONARGARRIA<br />
obj sport-group 28.5 ONARGARRIA<br />
obj zoology-group 25<br />
obj military-group 3.5<br />
obj number-quantity 3.214<br />
obj zoology-animal 2.333<br />
obj money-quantity 2<br />
obj geography-location 1.583<br />
obj administration-location 1.583<br />
obj administration-person 1.5<br />
coach: w2semf subjektu hautapen-murriztapenak<br />
subj x 41 ONARGARRIA<br />
subj administration-group 26<br />
subj chemistry-substance 4.666<br />
subj linguistics-communication 3.166<br />
subj physics-substance 2.666<br />
subj number-quantity 2<br />
subj sport-group 2 ONARGARRIA<br />
subj zoology-group 2<br />
subj person-person 1.666 ZUZENA<br />
subj factotum-communication 1.624<br />
train: w2semf objektu hautapen-murriztapenak<br />
obj zoology-group 2<br />
obj sport-group 2 ONARGARRIA<br />
obj sport-person 1.611 ONARGARRIA<br />
obj x 1 ONARGARRIA<br />
obj time_period-time 0.5<br />
obj publishing-person 0.5<br />
obj transport-artifact 0.333<br />
obj town_planning-artifact 0.222<br />
obj metrology-time 0.2<br />
obj tourism-artifact 0.111<br />
train: w2semf subjektu hautapen-murriztapenak<br />
subj x 13 ONARGARRIA<br />
subj chemistry-substance 5<br />
subj administration-group 3<br />
subj linguistics-communication 2.666<br />
subj physics-substance 2.666<br />
subj sport-group 2.5 ONARGARRIA<br />
subj number-quantity 2.083<br />
subj zoology-group 2<br />
subj wrestling-person 1<br />
subj geography-location 0.5<br />
103
104<br />
C.1.9 Ondorioak<br />
Objektuak Subjektuak<br />
Iturria Teknika Zuzena Onargarria Eskuratu<br />
gabe<br />
Zuzena Onargarria Eskuratu<br />
gabe<br />
c2c 0 10etik 3 2tik 1 10etik 2 0 0<br />
w2c COACH 0 1etik 1 2tik 1 Daturik ez<br />
SemCor<br />
w2c TRAIN<br />
s2semf<br />
COACH<br />
4tik 2<br />
0<br />
0<br />
1etik 1<br />
0<br />
2tik 1<br />
2tik 1 2tik 1<br />
Daturik ez<br />
0<br />
s2semf TRAIN Daturik ez<br />
w2c COACH 10etik 1 10etik 2 0 10etik 1 0 2tik 1<br />
BNC w2c TRAIN 10etik 1 10etik 2 0 10etik 1 0 2tik 1<br />
c2c 0 0 2tik 2 0 0 2tik 2<br />
EFE<br />
w2semf<br />
COACH<br />
w2semf<br />
TRAIN<br />
0<br />
0<br />
10etik 2<br />
10etik 3<br />
2tik 1<br />
0<br />
10etik 1<br />
0<br />
10etik 2<br />
10etik 2<br />
0<br />
2tik 1
C.2 entrenatu_1<br />
C.2.1 Synseta MCRn<br />
00468052v<br />
communication<br />
DOMEINUAK:<br />
lock 00468052v 1 coach_2 train_7<br />
lock 00468052v 0 entrenatu_1<br />
teach and supervise, as in<br />
sports or acting<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />
entrenatu A 00468052 pedagogy sport<br />
C.2.2 Urre patroiak<br />
entrenatu 00468052: Absolutiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities (members) considered as a<br />
unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
entrenatu 00468052: Ergatiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
entrenatu 00468052: Inesiboa<br />
c2c, w2c:<br />
00240760 sport, athletics "an active diversion requiring physical …"<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
105
106<br />
C.2.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />
entrenatu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa)<br />
abs x 8 ONARGARRIA<br />
abs number-quantity 1<br />
abs sport-person 1 ONARGARRIA<br />
abs betting-person 0.6<br />
abs factotum-group 0.5 ZUZENA<br />
abs play-person 0.3 ONARGARRIA<br />
abs military-group 0.28<br />
abs sport-group 0.21 ONARGARRIA<br />
abs zoology-group 0.14<br />
abs politics-group 0.07<br />
erg x 8 ONARGARRIA<br />
erg pro 7 ONARGARRIA<br />
ine factotum-artifact 3<br />
ine factotum-state 3<br />
ine number-quantity 1<br />
ine x 1<br />
ine time_period-time 0.6<br />
ine building_industry-artifact 0.38<br />
ine anthropology-group 0.38<br />
ine sport-person 0.33<br />
ine sociology-person 0.33<br />
ine metrology-time 0.27<br />
entrenatu.kontuakhitzak.ALL/kirolak<br />
abs x 4<br />
abs gehiegi 2<br />
abs talde 2<br />
abs entrenatzaile 1<br />
abs gutxiago 1<br />
abs beste 1<br />
abs jokalari 1<br />
abs sestao 1<br />
adb barik 1<br />
adb oso 1<br />
adj gogor 2<br />
ala katalunia 1<br />
erg pro 7<br />
erg gurrutxaga 6<br />
erg alonso 1<br />
erg x 1<br />
ine bete 6<br />
ine lau 1<br />
ine x 1<br />
ine etxe 1<br />
ine taldekide 1<br />
ine egun 1<br />
ins marko 1<br />
konp menpekoa 3<br />
soz talde 6<br />
soz taldekide 1
entrenatu: w2semf hautapen-murriztapenak (corpus osoa)<br />
kirol domeinuko corpuseko berdinak<br />
C.2.4 SemCorreko c2c euskarara itzulita<br />
coach, train 00468052: c2c objektu hautapen-murriztapenak<br />
05127029 0.269 body "a group of persons associated by some…" ONARGARRIA<br />
05149489 0.152 organization organisation "a group of people …" ONARGARRIA<br />
05206625 0.028 assembly "a group of persons gathered together for a…"<br />
05234560 0.024 audience "a gathering of spectators or listeners at a…"<br />
05288049 0.019 meeting "a formally arranged gathering"<br />
05116476 0.017 people "any group of human beings collectively" ONARGARRIA<br />
05254847 0.016 social_gathering social_affair "a gathering for the…"<br />
05216370 0.015 crowd "a large number of things or people considered…"<br />
05120211 0.012 collection aggregation accumulation assemblage<br />
05129466 0.009 kin kin_group kinship_group kindred clan tribe "group of…"<br />
coach, train 00468052: c2c subjektu hautapen-murriztapenak<br />
00004865 0.009 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.001 object physical_object "a physical entity"<br />
00012878 0.001 cognition knowledge "the psychological result of…"<br />
00018599 0.0004 communication "something that is communicated between…"<br />
05650477 0.0001 part piece "a portion of a natural object"<br />
00008030 0.0001 animal animate_being beast brute creature fauna "a living…"<br />
00017008 0.0001 group grouping "any number of entities as…" ZUZENA<br />
00013522 0.0001 feeling "the psychological feature of experiencing…"<br />
00018966 0.0001 measure quantity amount quantum "how much there is of…"<br />
03444246 0.0001 property "a basic or essential attribute shared by all…"<br />
C.2.5 SemCorreko s2semf euskarara itzulita<br />
coach 00468052: s2semf objektu hautapen-murriztapenak<br />
coach 00468052<br />
school-group 1 ONARGARRIA<br />
coach 00468052: s2semf subjektu hautapen-murriztapenak<br />
Daturik ez<br />
train 00468052: s2semf objektu hautapen-murriztapenak<br />
Daturik ez<br />
train 00468052: s2semf subjektu hautapen-murriztapenak<br />
Daturik ez<br />
107
108<br />
C.2.6 EFEko w2semf euskarara itzulita<br />
coach: w2semf objektu hautapen-murriztapenak<br />
obj x 53 ONARGARRIA<br />
obj sport-group 28.5 ONARGARRIA<br />
obj zoology-group 25<br />
obj military-group 3.5<br />
obj number-quantity 3.214<br />
obj zoology-animal 2.333<br />
obj money-quantity 2<br />
obj geography-location 1.583<br />
obj administration-location 1.583<br />
obj administration-person 1.5<br />
coach: w2semf subjektu hautapen-murriztapenak<br />
subj x 41 ONARGARRIA<br />
subj administration-group 26<br />
subj chemistry-substance 4.666<br />
subj linguistics-communication 3.166<br />
subj physics-substance 2.666<br />
subj number-quantity 2<br />
subj sport-group 2 ONARGARRIA<br />
subj zoology-group 2<br />
subj person-person 1.666 ZUZENA<br />
subj factotum-communication 1.624<br />
train: w2semf objektu hautapen-murriztapenak<br />
obj zoology-group 2<br />
obj sport-group 2 ONARGARRIA<br />
obj sport-person 1.611 ONARGARRIA<br />
obj x 1 ONARGARRIA<br />
obj time_period-time 0.5<br />
obj publishing-person 0.5<br />
obj transport-artifact 0.333<br />
obj town_planning-artifact 0.222<br />
obj metrology-time 0.2<br />
obj tourism-artifact 0.111<br />
train: w2semf subjektu hautapen-murriztapenak<br />
subj x 13 ONARGARRIA<br />
subj chemistry-substance 5<br />
subj administration-group 3<br />
subj linguistics-communication 2.666<br />
subj physics-substance 2.666<br />
subj sport-group 2.5 ONARGARRIA<br />
subj number-quantity 2.083<br />
subj zoology-group 2<br />
subj wrestling-person 1<br />
subj geography-location 0.5
C.2.7 Ondorioak<br />
Iturria Teknika Kasua Zuzena Onargarria Eskuratu<br />
gabea<br />
Egunkaria<br />
osoa<br />
Egunkaria<br />
kirolak<br />
SemCor<br />
EFE kirolak<br />
w2semf<br />
w2semf<br />
c2c<br />
s2semf<br />
w2semf COACH<br />
w2semf TRAIN<br />
abs 10etik 1 10etik 4 0<br />
ine 0 0 2tik 2<br />
erg 0 2tik 2 2tik 2<br />
abs 10etik 1 10etik 4 0<br />
ine 0 0 2tik 2<br />
erg 0 2tik 2 2tik 2<br />
obj 0 10etik 3 2tik 1<br />
subj 10etik 2 0 0<br />
obj 0 1tik 1 2tik 1<br />
Datuak coach objektuentzat bakarrik<br />
obj 0 10etik 2 2tik 1<br />
subj 10etik 1 10etik 2 0<br />
obj 0 10etik 3 0<br />
subj 0 10etik 2 2tik 1<br />
109
110<br />
C.3 draw_25 / tie_2<br />
C.3.1 Synseta MCRn<br />
00630097v<br />
competition<br />
DOMEINUAK:<br />
lock 00630097v 1 draw_25 tie_2<br />
lock 00630097v 0 berdindu_15<br />
finish a game with an equal number of<br />
points, goals, etc.; "The teams drew a tie"<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />
draw, tie A 00630097 play sport<br />
C.3.2 Urre patroiak<br />
draw, tie 00630097: objektu hautapen-murriztapenak<br />
c2c, w2c:<br />
04771851 competition contest “an occasion on which a winner is selected…”<br />
(hipe. EVENT)<br />
00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />
08310444 definite quantity “a specific measure of amount”<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
sport-event<br />
number-quantity<br />
draw, tie 00630097: subjektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities (members) considered as a<br />
unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group
C.3.3 c2c SemCorretik<br />
TROPONIMOAK ETA DOMEINUAK:<br />
s2s eta s2s-hype:<br />
OBJEKTUAK s2s:<br />
draw: Daturik ez<br />
tie 00630097<br />
game 00256308<br />
score 08319883<br />
tie
112<br />
report 04655513<br />
speaker<br />
02739473<br />
stress 08721632<br />
system 02036726<br />
tension<br />
08772413<br />
thermocouple<br />
03183875<br />
tie 02132287<br />
transducer<br />
03206888<br />
tray 03209978<br />
trial_and_error<br />
00375657<br />
trust 03883770<br />
trust 03432270<br />
values 04015667<br />
tie
C.3.4 w2c SemCorretik<br />
s2s: (ikusi B.3.3 atala)<br />
draw: w2c objektu hautapen-murriztapena<br />
00009469 0.089 object physical_object "a physical entity"<br />
00018599 0.051 communication "something that is communicated between…"<br />
00004865 0.037 person individual someone somebody mortal human soul<br />
00017586 0.028 attribute "an abstraction belonging to or characteristic…"<br />
00012878 0.028 cognition knowledge "the psychological result of…"<br />
00016649 0.023 act human_action human_activity "something that…" ONARGARRIA<br />
00017008 0.017 group grouping "any number of entities considered as a unit"<br />
00019295 0.016 phenomenon "any state or process known through the senses…"<br />
08450839 0.013 part portion component_part component<br />
draw: w2c subjektu hautapen-murriztapena<br />
00004865 0.387 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.087 object physical_object "a physical entity"<br />
09065837 0.043 time_period period period_of_time amount_of_time<br />
06365208 0.029 spirit "the vital principle or animating force within…"<br />
08551922 0.023 disturbance disruption commotion turmoil stir hurly_burly<br />
05132844 0.019 gathering assemblage "a group of persons together in one…"<br />
tie: w2c objektu hautapen-murriztapena<br />
00011607 0.155 artifact artefact "a man-made object"<br />
00228990 0.073 activity "any specific activity or pursuit;" ONARGARRIA<br />
08317731 0.068 number "a concept of quantity derived from zero and units"<br />
tie: w2c subjektu hautapen-murriztapena<br />
00017008 0.2 group grouping "any number of entities considered as…" ZUZENA<br />
00004865 0.12 person individual someone somebody mortal human soul ZUZENA<br />
09065837 0.087 time_period period period_of_time amount_of_time<br />
00075234 0.054 homer home_run "a base hit on which the batter scores a run"<br />
00009469 0.051 object physical_object "a physical entity"<br />
C.3.5 s2semf SemCorretik<br />
tie 00630097: s2semf object seletcional preferences (drawrentzat daturik ez)<br />
tie 00630097<br />
sport-quantity 1 ONARGARRIA<br />
play-act 1 ZUZENA<br />
tie 00630097: s2semf subjektu hautapen-murriztapena (drawrentzat daturik ez)<br />
tie 00630097<br />
baseball-act 1<br />
factotum-Tops 1 ONARGARRIA<br />
113
114<br />
C.3.6 w2c BNCtik<br />
draw: w2c objektu hautapen-murriztapena<br />
00009469 0.067 object physical_object "a physical entity"<br />
00004865 0.052 person individual someone somebody mortal human soul<br />
00012878 0.043 cognition knowledge "the psychological result of…"<br />
00018599 0.040 communication "something that is communicated between…"<br />
00016649 0.025 act human_action human_activity "something that…” ONARGARRIA<br />
00017586 0.025 attribute "an abstraction belonging to or characteristic…"<br />
05119847 0.022 social_group "people sharing some social relation"<br />
00018966 0.019 measure quantity amount quantum "how much there…” ONARGARRIA<br />
00015437 0.009 state "the way something is with respect to its main…"<br />
03610098 0.008 body_part "any part of an organism such as an organ or…"<br />
draw: w2c subjektu hautapen-murriztapena<br />
00004865 0.112 person individual someone somebody mortal human soul ZUZENA<br />
08813320 0.091 helium He atomic_number_2 "a very light colorless element…"<br />
00018599 0.050 communication "something that is communicated between…"<br />
00011607 0.044 artifact artefact "a man-made object"<br />
05119847 0.026 social_group "people sharing some social relation" ONARGARRIA<br />
00016649 0.021 act human_action human_activity "something that people do…"<br />
00012878 0.019 cognition knowledge "the psychological result of…"<br />
00018966 0.0157 measure quantity amount quantum "how much there is of…"<br />
00017586 0.015 attribute "an abstraction belonging to or characteristic…"<br />
00014314 0.014 location "a point or extent in space"<br />
tie: w2c objektu hautapen-murriztapena<br />
00009469 0.098 object physical_object "a physical entity"<br />
00004865 0.082 person individual someone somebody mortal human soul<br />
00017008 0.026 group grouping "any number of entities considered as a unit"<br />
00012670 0.024 abstraction "a general concept formed by…” ONARGARRIA<br />
00016649 0.015 act human_action human_activity ONARGARRIA<br />
03815161 0.014 finger "any of the terminal members of the hand…"<br />
00012878 0.011 cognition knowledge "the psychological result of…"<br />
00015437 0.011 state "the way something is with respect to its main…"<br />
00017394 0.008 possession "anything owned or possessed"<br />
04690182 0.008 happening occurrence natural_event "an event that happens"<br />
tie: w2c subjektu hautapen-murriztapena<br />
00004865 0.114 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.074object physical_object "a physical entity"<br />
05119847 0.0309 social_group "people sharing some social… " ONARGARRIA<br />
00012670 0.023 abstraction "a general concept formed by extracting common…"<br />
00016649 0.0209 act human_action human_activity "something that people do…"<br />
00012878 0.017 cognition knowledge "the psychological result of…"<br />
03610098 0.012 body_part "any part of an organism such as an organ or…"<br />
01237932 0.010 placental placental_mammal eutherian eutherian_mammal…"<br />
00015437 0.010 state "the way something is with respect to its main…"<br />
05120211 0.007 collection aggregation accumulation assemblage
115<br />
w2w:<br />
draw: w2w objektuak<br />
-_then<br />
20_per_cent<br />
ACET<br />
AD<br />
After<br />
And<br />
And_John_Henry<br />
As<br />
Ascendancy<br />
Asian_country<br />
Attention<br />
Australian_dollar<br />
Birmingham<br />
Britain<br />
But<br />
By_1981<br />
Congregational_Chur<br />
ch<br />
Conservative<br />
Despite<br />
Dick_Hern<br />
Elder<br />
Elisabeth<br />
Ellen<br />
Emily<br />
Emperor<br />
England<br />
Eurocrats<br />
FD<br />
FQP<br />
German<br />
Giselle<br />
Great<br />
H<br />
He<br />
I<br />
Inspiration<br />
Irishman<br />
It<br />
LLANELLI<br />
Labour<br />
Levi<br />
Lise<br />
London<br />
Lotus<br />
MONEY<br />
Margarete<br />
Marx<br />
Metge<br />
Mickey_Mice<br />
Mickey_mouse<br />
Mid-Term_Wave<br />
Miles<br />
Noble<br />
One<br />
Over<br />
Pam_Harris<br />
Party<br />
Pound<br />
RRF<br />
Red_Paddy<br />
Ridley<br />
Royal_Court<br />
Sammut<br />
Santander<br />
Sarapu<br />
She<br />
Since<br />
Spitfire<br />
Taylor<br />
The_Deterrers<br />
They<br />
Though<br />
US<br />
Unfortunately<br />
Walton<br />
Water<br />
We<br />
West<br />
While<br />
With<br />
Wright<br />
adviser<br />
aeroplane<br />
agreement<br />
air<br />
amount<br />
analogy<br />
anything<br />
applause<br />
appointment<br />
arc<br />
arm<br />
arms<br />
attendance<br />
attention<br />
audience<br />
back<br />
bait<br />
ball<br />
ballet<br />
baton<br />
battle_line<br />
bedclothes<br />
beer<br />
behaviour<br />
bend<br />
black<br />
blank<br />
blanket<br />
blind<br />
block<br />
blood<br />
board_of_directors<br />
boat<br />
body<br />
book<br />
border<br />
boundary<br />
box<br />
breath<br />
brow<br />
brush<br />
car<br />
cartoon<br />
case<br />
cast<br />
category<br />
catenary<br />
cellulose<br />
centred<br />
chair<br />
character<br />
charter<br />
child<br />
circle<br />
claw<br />
club<br />
code<br />
coercion<br />
coin<br />
comfort<br />
commentator<br />
comparison<br />
competition<br />
conchoid<br />
conchoids<br />
connection<br />
consequence<br />
consolation<br />
contest<br />
contrast<br />
convenors<br />
countryside<br />
crowd<br />
currency<br />
curtain<br />
debate<br />
decorator_-_at<br />
description<br />
details<br />
development<br />
diagram<br />
distinction
116<br />
dividing_line<br />
division<br />
door<br />
draft<br />
draw<br />
duct<br />
due<br />
economist<br />
edge<br />
eighth<br />
elements<br />
ellipse<br />
encouragement<br />
endgame<br />
energy<br />
entry<br />
essay<br />
ethic<br />
ex-employees<br />
example<br />
exchange<br />
explosive<br />
expression<br />
eye<br />
eyes<br />
face<br />
fan<br />
fee<br />
fiddle<br />
fieldwork<br />
fighter<br />
figure<br />
file<br />
filly<br />
final<br />
finger<br />
fingertip<br />
fire<br />
first<br />
flag<br />
flesh<br />
flood<br />
fold<br />
foot<br />
footballer<br />
force<br />
form<br />
forth<br />
fragment<br />
frontier<br />
gale<br />
game<br />
good-standing<br />
graffiti<br />
graph<br />
group<br />
gun<br />
hair<br />
handkerchief<br />
he<br />
head<br />
heart<br />
hem<br />
her<br />
herself<br />
him<br />
himself<br />
his<br />
hole<br />
horde<br />
horn<br />
house<br />
housewife<br />
howl<br />
hyperbola<br />
image<br />
immigrant<br />
impression<br />
income<br />
industry<br />
innocent<br />
inspiration<br />
investment<br />
it<br />
item<br />
itself<br />
juice<br />
kit<br />
knife<br />
labour<br />
land_reform<br />
laughter<br />
leadership<br />
leg<br />
lesson<br />
level<br />
life<br />
line<br />
lip<br />
list<br />
local<br />
look<br />
lot<br />
lots<br />
lung<br />
man<br />
map<br />
match<br />
material<br />
matter<br />
me<br />
meaning<br />
measure<br />
meat<br />
member<br />
membership<br />
memorandum<br />
midge<br />
minority<br />
mix<br />
money<br />
moral<br />
mould<br />
moustache<br />
mouth<br />
movement<br />
moving_picture<br />
myself<br />
neck<br />
newcomer<br />
noodle<br />
note<br />
number<br />
object<br />
odds<br />
officer<br />
official<br />
opposition<br />
ordeal<br />
outer_boundary<br />
outline<br />
packet<br />
pad<br />
painter<br />
parabola<br />
parallel<br />
part<br />
party<br />
passenger<br />
peg<br />
pencil<br />
people<br />
performance<br />
petition<br />
philosophy<br />
pick<br />
picture<br />
piece<br />
place<br />
playing<br />
pleasure<br />
plough<br />
point<br />
pole<br />
polymer<br />
population<br />
portrait<br />
praise
117<br />
presence<br />
pressure_-_produced<br />
prick<br />
principal<br />
proceedings<br />
product<br />
profile<br />
program<br />
programme<br />
protest<br />
public<br />
punch<br />
quadrant<br />
rabbit<br />
range<br />
rank<br />
rationale<br />
reader<br />
rectangle<br />
relationship<br />
remains<br />
remittance<br />
rent<br />
reprimand<br />
reservoir<br />
resonance<br />
rest<br />
retort<br />
rifle<br />
right_hand<br />
riot-cladding<br />
rival<br />
rod<br />
rope<br />
rubber_stamp<br />
sabre<br />
salary<br />
sample<br />
satisfaction<br />
save<br />
scarf<br />
scheme<br />
school<br />
screen<br />
self-portrait<br />
semicircle.<br />
series<br />
session<br />
set<br />
shape<br />
she<br />
ship<br />
shopper<br />
short_list<br />
shot<br />
shoulder<br />
showing<br />
shutter<br />
side<br />
single<br />
sitter<br />
size<br />
sketch<br />
skill<br />
sleeve<br />
smooth<br />
society<br />
something<br />
song<br />
soul<br />
spitfire<br />
sports_fan<br />
staff<br />
star_chart<br />
station<br />
sting<br />
story<br />
straight<br />
straight_line<br />
straw<br />
stream<br />
strength<br />
string<br />
structure<br />
student<br />
stump<br />
subject<br />
support<br />
sustenance<br />
sword<br />
sword/phallus<br />
talent<br />
tangent<br />
team<br />
teeth<br />
them<br />
these<br />
they<br />
this<br />
thread<br />
to_be<br />
tourist<br />
tractrix<br />
trade_union<br />
tradition<br />
tree<br />
triangle<br />
troops<br />
trump<br />
typewriter<br />
union<br />
us<br />
veil<br />
viewer<br />
vigour<br />
vision<br />
visitor<br />
wage<br />
water<br />
we<br />
wealth<br />
wedding<br />
weight<br />
well<br />
what<br />
which<br />
whip<br />
who<br />
whole<br />
window<br />
wine<br />
winner<br />
wire<br />
woman<br />
wood<br />
work<br />
worker<br />
wrath<br />
writer<br />
you<br />
young_man<br />
zone<br />
draw: w2w subjektuak<br />
Albrecht<br />
Allen<br />
America<br />
And<br />
Andrew_Jones<br />
Angela_Morgan<br />
Annie<br />
Art<br />
As<br />
As_Christmas<br />
Beeching<br />
Bell<br />
Bengal<br />
Berkeley<br />
Brazil<br />
Browning<br />
Buick<br />
But<br />
Castro<br />
Chancellor<br />
Chandler<br />
Charles<br />
Charlotte_Bronte<br />
Chris_Patten
118<br />
Clarke<br />
Clay<br />
Colberg<br />
Conlon<br />
Contrary<br />
Cooney<br />
Count_Tolstoy<br />
County<br />
Coventry<br />
Cradley<br />
Critics<br />
D<br />
Data<br />
Demobilization<br />
Derby<br />
Dixon<br />
ENGLAND<br />
Eagles<br />
East_Berlin<br />
Eintracht_Frankfurt<br />
Eliot<br />
Erika<br />
Europe<br />
Evelyn<br />
Even<br />
Everton<br />
Eyre<br />
Fifties<br />
Fisher<br />
Ford<br />
Gaminara<br />
Gassendi<br />
General_Council<br />
Gloucester<br />
Goldberg<br />
Greenpeace<br />
Halifax<br />
Hall<br />
Hartlepool<br />
Hauptmann<br />
Having<br />
He<br />
Heatpipes<br />
Henderson<br />
Here_Locke<br />
Highlander<br />
Hong_Kong_Chinese<br />
I<br />
IM_Gelfer<br />
IM_Svidler<br />
Inland_Revenue<br />
It<br />
Italian<br />
Ivor_Crewe<br />
Jay<br />
John_Wesley<br />
Joy<br />
Kingdon<br />
Kinnock<br />
Law<br />
Lean<br />
Lee<br />
Leicester<br />
Leona_Helmsley<br />
Lewis<br />
Life<br />
Littlewoods<br />
Lucy<br />
Maidenhead<br />
Major<br />
Manzano<br />
Mark_Ermler<br />
Marx<br />
Masha<br />
McLeish<br />
Michael_Heseltine<br />
Milena_Jesenska<br />
Miss_Harker<br />
Miss_Lawley<br />
Mr_Loveluck-Edwards<br />
Mrs_Feather<br />
Mrs_Venables<br />
Much<br />
Mukddaam<br />
Mum<br />
Mungo<br />
Murdoch<br />
No_25303<br />
Noble<br />
Nobody<br />
Nostalgia<br />
Nyers<br />
Odette<br />
Officer<br />
Ogilvy<br />
Orpheus<br />
Our_Dean<br />
Oxford<br />
Paul_Cannon<br />
Perhaps<br />
Philip_Williams<br />
Pilkington<br />
Pope<br />
Portsmouth<br />
President<br />
Prince<br />
Reynard<br />
Rogers<br />
STEVE_DAVIS<br />
Sam<br />
Scots_Presbyterians<br />
Sergei<br />
She<br />
Shirli-Ann_Siddall<br />
Sian_Edwards<br />
Siren<br />
Small<br />
So<br />
Some<br />
State<br />
Steinberg<br />
Stephen_Greenblatt<br />
Steve_Dawson<br />
Supreme_Court<br />
Swede<br />
THINKING<br />
Test<br />
Thatcherism<br />
The_Dutch<br />
The_Four_Just_Men<br />
The_National<br />
The_Vichy_French<br />
They<br />
This<br />
Timman<br />
To<br />
Tony<br />
Tottenham<br />
Travers<br />
Universities<br />
University<br />
Vic<br />
Vincent_Taylor<br />
Walton<br />
Watford<br />
We<br />
When<br />
Willey<br />
Wilson<br />
World_Cup<br />
Wycombe<br />
Yeltsin<br />
Yet<br />
You<br />
abductees<br />
action<br />
admirer<br />
advertising<br />
advertising_campaign<br />
adviser<br />
another<br />
apology<br />
appearance<br />
area<br />
armistice<br />
arts<br />
aspect<br />
assortment
119<br />
astronomer<br />
attention<br />
availability<br />
bankers_-_who<br />
basketball<br />
beauty<br />
best<br />
bit<br />
book<br />
box_office<br />
boy<br />
broadcast<br />
cadre<br />
camera<br />
captain<br />
car<br />
carp<br />
carriage<br />
cellist<br />
century<br />
chair<br />
change<br />
chemist<br />
child<br />
circle<br />
circumstances<br />
closure<br />
club<br />
coin<br />
cold<br />
collapse<br />
commentator<br />
committee<br />
competition<br />
confusion<br />
conjuror<br />
constituency<br />
country<br />
courtesy<br />
crate<br />
creed<br />
critic<br />
critique<br />
crowd<br />
curtain<br />
curve<br />
customer<br />
dancer<br />
dead_body<br />
delicacy<br />
department<br />
deportation<br />
design<br />
designer<br />
detective<br />
director<br />
discontinuity<br />
discussion<br />
dish<br />
distinction<br />
document<br />
dog<br />
dolphin<br />
driver<br />
duty<br />
economy<br />
editorial<br />
egotism<br />
election<br />
elements<br />
enigma<br />
enrichment<br />
enthusiasm<br />
entry<br />
event<br />
exhibition<br />
exploiting<br />
express<br />
extension<br />
fan<br />
farmer<br />
feel<br />
feminist<br />
fiasco<br />
film<br />
filmmakers<br />
final<br />
fineness<br />
fire<br />
flexion<br />
follow-up<br />
foot<br />
forum<br />
function<br />
gait<br />
game<br />
girl<br />
god<br />
government<br />
group<br />
guard<br />
hand<br />
he<br />
header<br />
him<br />
himself<br />
history<br />
hood<br />
horse<br />
house<br />
iconography<br />
image<br />
impact<br />
incident<br />
influence<br />
inquiry<br />
instance<br />
intelligence<br />
interest<br />
it<br />
itself<br />
joke<br />
kingdom<br />
kitchen<br />
labour<br />
latter<br />
law<br />
lead<br />
leader<br />
leadership<br />
leap<br />
lecture<br />
lesson<br />
letter<br />
life<br />
line<br />
lip<br />
list<br />
logic<br />
man<br />
market<br />
match<br />
me<br />
measurement<br />
meeting<br />
member<br />
men's<br />
mind<br />
minuet<br />
model<br />
modern<br />
moment<br />
moth<br />
moving_picture<br />
muscle<br />
neck<br />
new_criticism<br />
ninth<br />
novel<br />
officer<br />
ones<br />
opening<br />
opponent<br />
others<br />
pad<br />
panel<br />
parable<br />
parallel
120<br />
participant<br />
party<br />
performance<br />
performer<br />
play<br />
pleasure<br />
poet<br />
point<br />
policy<br />
precedent<br />
precept<br />
president<br />
press<br />
pressure_group<br />
producer<br />
profile<br />
project<br />
proportion<br />
prospect<br />
public<br />
pump<br />
quarterfinal<br />
race<br />
recession<br />
record<br />
red<br />
reporter<br />
representative<br />
rite<br />
roar<br />
scene<br />
school<br />
sculpture<br />
seedling<br />
semifinal<br />
she<br />
side<br />
simpleton<br />
singles<br />
smoke<br />
society<br />
solicitor<br />
someone<br />
speaker<br />
speed<br />
squirrel<br />
stalwart<br />
story<br />
straight<br />
string<br />
study<br />
stuffing<br />
suffering<br />
support<br />
surface_tension<br />
swinger<br />
takeover<br />
tan<br />
taxpayer<br />
team<br />
tension<br />
tent_flap<br />
term<br />
that<br />
them<br />
they<br />
this<br />
those<br />
time<br />
trailer<br />
train<br />
trouble<br />
twig<br />
typification<br />
uncertainty<br />
union<br />
unit<br />
urn<br />
variety<br />
visit<br />
visitor<br />
water<br />
we<br />
what<br />
which<br />
which_the_historica<br />
l_development_of_th<br />
e_law<br />
whiff<br />
white<br />
who<br />
winner<br />
woman<br />
word<br />
worker<br />
workshop<br />
world<br />
yard<br />
you<br />
tie: w2w objektuak<br />
Alps<br />
And<br />
Chris_Pitt<br />
Let<br />
Lovat<br />
Michael<br />
Provolone<br />
Short<br />
While<br />
abolition<br />
apron<br />
baby<br />
bag<br />
blackboard<br />
churchmen<br />
class<br />
control<br />
cord<br />
cottage<br />
cotton<br />
employee<br />
estate<br />
facility<br />
family_unit<br />
felt_hat<br />
finger<br />
flutter<br />
front<br />
game<br />
gypsy-fashion<br />
hair<br />
hand<br />
handful<br />
her<br />
him<br />
horse<br />
housecoat<br />
it<br />
itself<br />
knot<br />
krone<br />
lace<br />
legal_profession<br />
leitmotif<br />
length<br />
life<br />
make<br />
music<br />
opponent<br />
package<br />
party<br />
people<br />
pinafore<br />
player<br />
playoff<br />
pool<br />
punk-pop<br />
religion<br />
ribbon<br />
rope<br />
sack<br />
scene<br />
score<br />
sector<br />
service<br />
she<br />
sheaf
121<br />
shirt<br />
shoe_lace<br />
shoot<br />
side<br />
status<br />
sterling<br />
stone<br />
strand<br />
string<br />
studio<br />
survey<br />
them<br />
themselves<br />
they<br />
this<br />
thread<br />
thumb<br />
tongue<br />
top<br />
type<br />
v<br />
whatsoever<br />
which<br />
white_flag<br />
worker<br />
you<br />
tie: w2w subjektuak<br />
-_are<br />
After<br />
Brent_Walker<br />
Buddie<br />
But<br />
David_Plange<br />
Designer<br />
Even<br />
Faldo<br />
Gloria<br />
Hands<br />
Hawks<br />
He<br />
I<br />
If_Midland<br />
It<br />
Joshua_Kangombe<br />
Just<br />
Kaifu<br />
Lane<br />
Lise<br />
Norway<br />
Odd-Knut<br />
Pucci<br />
Rose<br />
Rugeley_MG_All_Star<br />
s<br />
She<br />
Short<br />
Southampton<br />
Soviet_Union<br />
They<br />
Watney_Truman<br />
We<br />
Wrap<br />
Zoeller<br />
anything<br />
approach<br />
bag<br />
balloon<br />
bout<br />
brewery<br />
broker<br />
business<br />
challenge<br />
chancellor<br />
choice<br />
colleague<br />
colonial<br />
community<br />
court<br />
design<br />
eagle<br />
end<br />
engine<br />
face<br />
family<br />
fashions<br />
flatfoot<br />
gentlemen<br />
hand<br />
he<br />
healer<br />
her<br />
himself<br />
history<br />
leather<br />
leg<br />
link<br />
nanny<br />
natural<br />
nothing<br />
party<br />
piece<br />
player<br />
predominance<br />
pub<br />
quarterfinal<br />
red<br />
retriever<br />
rootstock<br />
row<br />
saffron<br />
scarf<br />
sector<br />
self-dramatisation<br />
set<br />
she<br />
sheaf<br />
sorting<br />
stammer<br />
stay<br />
string<br />
system<br />
talking_head<br />
that<br />
they<br />
this<br />
those<br />
ti<br />
try<br />
tyranny<br />
umbilical_cord<br />
value<br />
version<br />
visitor<br />
we<br />
weakening<br />
what<br />
which<br />
who<br />
you
122<br />
C.3.7 c2c BNCtik<br />
Denak ez zuzenak dira.<br />
draw, tie 00630097: c2c objektu hautapen-murriztapena<br />
08813320 0.015 helium He atomic_number_2<br />
08534455 0.007 status position "the relative position or standing of…"<br />
08520394 0.006 condition status "a condition or state at a particular time"<br />
08781633 0.002 material stuff "the tangible substance that goes into the…"<br />
08531278 0.001 degree level stage point "a specific identifiable position…"<br />
00015245 0.001 space "an empty area (usually bounded in some way between…)"<br />
09065837 0.001 time_period period period_of_time amount_of_time<br />
09170951 0.001 time_interval interval "a definite length of time marked…"<br />
draw, tie 00630097: c2c subjektu hautapen-murriztapena<br />
08813320 0.087 helium He atomic_number_2<br />
08520394 0.007 condition status "a condition or state at a particular time"<br />
08499179 0.004 angle "the space between two lines or planes that…"<br />
08865432 0.002 leather "an animal skin made smooth and flexible by…”<br />
09065837 0.002 time_period period period_of_time amount_of_time<br />
08534455 0.002 status position "the relative position or standing of…"<br />
08807415 0.001metallic_element metal "any of several chemical elements…"<br />
08522741 0.001 situation state_of_affairs "the general state of things"<br />
08531636 0.001 acme height elevation peak pinnacle summit superlative top<br />
C.3.8 w2semf EFEtik<br />
draw: w2semf objektu hautapen-murriztapena<br />
obj tourism-time 3<br />
obj factotum-group 2.166<br />
obj time_period-time 2.111<br />
obj number-quantity 1.309 ZUZENA<br />
obj enterprise-cognition 1<br />
obj factotum-artifact 0.952<br />
obj quality-attribute 0.8333<br />
obj factotum-event 0.611 ONARGARRIA<br />
obj geography-location 0.5<br />
obj furniture-artifact 0.476<br />
draw: w2semf subjektu hautapen-murriztapena<br />
subj number-quantity 3<br />
subj x 1 ONARGARRIA<br />
subj time_period-time 1<br />
subj basketball-group 1 ONARGARRIA<br />
subj sport-act 1<br />
subj quality-attribute 0.541<br />
subj sport-event 0.428<br />
subj factotum-artifact 0.428<br />
subj factotum-act 0.410<br />
subj metrology-quantity 0.4
tie: w2semf objektu hautapen-murriztapena<br />
obj x 42<br />
obj play-act 11.2 ZUZENA<br />
obj number-quantity 10 ZUZENA<br />
obj geography-location 8.811<br />
obj administration-location 8.811<br />
obj sport-act 6.543 ZUZENA<br />
obj factotum-act 5.725 ONARGARRIA<br />
obj zoology-animal 5.725<br />
obj sport-group 4<br />
obj factotum-artifact 3.553<br />
tie: w2semf subjektu hautapen-murriztapena<br />
subj x 98 ONARGARRIA<br />
subj geography-location 7.233<br />
subj administration-location 7.133<br />
subj sport-group 6 ONARGARRIA<br />
subj zoology-group 5.5<br />
subj person-person 3.333 ZUZENA<br />
subj factotum-communication 2.555<br />
subj telephony-artifac 2<br />
subj administration-group 2<br />
subj time_period-time 1.666<br />
C.3.9 Ondorioak<br />
Iturria Teknika Zuzena Onargarria<br />
SemCor<br />
BNC<br />
EFE<br />
Objektuak Subjektuak<br />
Ez<br />
eskuratua<br />
Zuzena Onargarria<br />
Ez<br />
eskuratu<br />
a<br />
c2c 0 10etik 5 3tik 1 10etik 2 0 0<br />
w2c DRAW 0 9tik 1 3tik 2 6tik 1 0 2tik 1<br />
w2c TIE 0 3tik 1 3tik 2 5etik 2 0 0<br />
s2semf TIE 2tik 1 2tik 1 4tik 3 0 2tik 1 2tik 2<br />
s2semf<br />
DRAW<br />
Daturik ez<br />
w2c DRAW 0 10etik 2 3tik 1 10etik 1 10etik 1 0<br />
w2c TIE 0 10etik 2 3tik 1 10etik 1 10etik 1 0<br />
c2c 0 0 3tik 3 0 0 2tik 2<br />
w2semf<br />
DRAW<br />
10etik 1 10etik 1 4tik 2 0 10etik 2 2tik 1<br />
w2semf TIE 10etik 3 10etik 1 4tik 1 10etik 1 10etik 2 0<br />
123
124<br />
C.4 berdindu_15<br />
C.4.1 Synseta MCRn<br />
00630097v<br />
competition<br />
DOMEINUAK:<br />
C.4.2 Urre patroiak<br />
lock 00630097v 1 draw_25 tie_2<br />
lock 00630097v 0 berdindu_15<br />
finish a game with an equal number of points,<br />
goals, etc.; "The teams drew a tie"<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />
berdindu A 00630097 play sport<br />
berdindu 00630097: Absolutiboa<br />
c2c, w2c:<br />
04771851 competition contest “an occasion on which a winner is selected<br />
from among two or contestants” (hipe. EVENT)<br />
00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />
08310444 definite quantity “a specific measure of amount”<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
sport-event<br />
number-quantity<br />
berdindu 00630097: Ergatiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group
C.4.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />
berdindu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa eta corpus_osoa)<br />
ABSdu<br />
abs sport-event 1.25 ZUZENA<br />
abs 0 1<br />
abs number-quantity 1 ZUZENA<br />
abs factotum-act 0.25 ONARGARRIA<br />
abs play-act 0.25 ZUZENA<br />
abs baseball-act 0.25 ONARGARRIA<br />
en_kontra x 1<br />
ine factotum-act 0.30<br />
ine factotum-communication 0.15<br />
ine factotum-state 0.15<br />
ine factotum-event 0.15<br />
ine number-cognition 0.07<br />
ine time_period-time 0.07<br />
ine factotum-location 0.07<br />
erg pro 1 ONARGARRIA<br />
erg x 1 ONARGARRIA<br />
berdindu.kontuakhitzak.ALL/kirolak:<br />
abs egoera 2<br />
abs 0 1<br />
abs kanporaketa 1<br />
abs hamabi 1<br />
abs final 1<br />
abs x 1<br />
abs indar 1<br />
ala puntu 1<br />
en_kontra x 1<br />
erg pro 1<br />
erg fernando 1<br />
ine bukaera 1<br />
ine arte 1<br />
C.4.4 SemCorreko c2c euskarara itzulita<br />
berdindu 00630097: c2c objektu hautapen-murriztapena<br />
00228990 0.551 activity "any specific activity or pursuit" ONARGARRIA<br />
08317731 0.512 number "a concept of quantity derived from zero…" ONARGARRIA<br />
09065837 0.227 time_period period period_of_time amount_of_time<br />
08313335 0.142 unit_of_measurement unit "any division of …” ONARGARRIA<br />
00017862 0.097 relation "an abstraction belonging to or characteristic of…"<br />
00021098 0.093 action "something done (usually as opposed to …)" ONARGARRIA<br />
00017586 0.086 attribute "an abstraction belonging to or characteristic…"<br />
00597858 0.054 group_action "action taken by a group of…" ONARGARRIA<br />
08310433 0.0281 indefinite_quantity "an estimated quantity"<br />
04625000 0.0214 speech_act "the use of language to perform some act"<br />
125
126<br />
berdindu 00630097: c2c subjektu hautapen-murriztapena<br />
00017008 1.503 group grouping "any number of entities considered…" ZUZENA<br />
00075234 0.412 homer home_run "a base hit on which the batter scores a run"<br />
00108829 0.102 change "the act of changing something"<br />
00228990 0.1002 activity "any specific activity or pursuit"<br />
00041613 0.038 acquiring getting "the act of acquiring something"<br />
00597858 0.0309 group_action "action taken by a group of people"<br />
00033173 0.027 attainment "the act of achieving an aim"<br />
04625000 0.012 speech_act "the use of language to perform some act"<br />
00071682 0.00646357963431988 base_on_balls walk pass<br />
00004865 0.005 person individual someone somebody mortal human soul ZUZENA<br />
C.4.5 SemCorreko s2semf euskarara itzulita<br />
berdindu 00630097: s2semf object seletcional preferences<br />
tie 00630097<br />
sport-quantity 1 ONARGARRIA<br />
play-act 1 ZUZENA<br />
berdindu 00630097: s2semf subjektu hautapen-murriztapena<br />
tie 00630097<br />
baseball-act 1<br />
factotum-Tops 1 ONARGARRIA<br />
C.4.6 EFEko w2semf euskarara itzulita<br />
draw: w2semf objektu hautapen-murriztapena<br />
obj tourism-time 3<br />
obj factotum-group 2.166<br />
obj time_period-time 2.111<br />
obj number-quantity 1.309 ZUZENA<br />
obj enterprise-cognition 1<br />
obj factotum-artifact 0.952<br />
obj quality-attribute 0.8333<br />
obj factotum-event 0.611 ONARGARRIA<br />
obj geography-location 0.5<br />
obj furniture-artifact 0.476<br />
draw: w2semf subjektu hautapen-murriztapena<br />
subj number-quantity 3<br />
subj x 1 ONARGARRIA<br />
subj time_period-time 1<br />
subj basketball-group 1 ONARGARRIA<br />
subj sport-act 1<br />
subj quality-attribute 0.541<br />
subj sport-event 0.428<br />
subj factotum-artifact 0.428<br />
subj factotum-act 0.410<br />
subj metrology-quantity 0.4
tie: w2semf objektu hautapen-murriztapena<br />
obj x 2<br />
obj play-act 1.2 ZUZENA<br />
obj number-quantity 0 ZUZENA<br />
obj geography-location 8.811<br />
obj administration-location 8.811<br />
obj sport-act 6.543 ZUZENA<br />
obj factotum-act 5.725 ONARGARRIA<br />
obj zoology-animal 5.725<br />
obj sport-group 4<br />
obj factotum-artifact 3.553<br />
tie: w2semf subjektu hautapen-murriztapena<br />
subj x 98 ONARGARRIA<br />
subj geography-location 7.233<br />
subj administration-location 7.133<br />
subj sport-group 6 ONARGARRIA<br />
subj zoology-group 5.5<br />
subj person-person 3.333 ZUZENA<br />
subj factotum-communication 2.555<br />
subj telephony-artifact 2<br />
subj administration-group 2<br />
subj time_period-time 1.666<br />
C.4.7 Ondorioak<br />
Iturria Teknika Kasua Zuzena Onargarria<br />
Eskuratu<br />
gabe<br />
Egunkaria<br />
osoa<br />
w2semf<br />
abs<br />
erg<br />
6tik 3<br />
0<br />
6tik 2<br />
2tik 2<br />
0<br />
2tik 2<br />
Egunkaria<br />
kirolak<br />
w2semf<br />
abs<br />
erg<br />
6tik 3<br />
0<br />
6tik 2<br />
2tik 2<br />
0<br />
2tik 2<br />
c2c<br />
SemCor<br />
s2semf TIE<br />
obj<br />
subj<br />
obj<br />
subj<br />
0<br />
10etik 2<br />
2tik 1<br />
0<br />
10etik 5<br />
0<br />
2tik 1<br />
2tik 1<br />
3tik 1<br />
0<br />
4tik 3<br />
2tik 2<br />
w2semf obj 10etik 1 10etik 1 4tik 2<br />
EFE kirolak<br />
DRAW<br />
w2semf TIE<br />
subj<br />
obj<br />
subj<br />
0<br />
10etik 3<br />
10etik 1<br />
10etik 2<br />
10etik 1<br />
10etik 2<br />
2tik 1<br />
4tik 1<br />
0<br />
127
128<br />
C.5 equalize_1<br />
C.5.1 Synseta MCRn<br />
DOMEINUAK:<br />
C.5.2 Urre patroiak<br />
00630264v<br />
competition<br />
lock 00630264v 1 equalize_1 get_even_1<br />
lock 00630264v 0 berdindu_16<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />
equalize A 00630264 play sport<br />
equalize 00630264: objektu hautapen-murriztapenak<br />
c2c, w2c:<br />
04771851 competition contest “an occasion on which a winner is selected…”<br />
(hipe. EVENT)<br />
00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />
08310444 definite quantity “a specific measure of amount”<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
sport-event<br />
number-quantity<br />
equalize 00630264: subjektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
C.5.3 c2c SemCorretik<br />
s2s eta s2s-hype: Daturik ez<br />
TROPONIMOAK ETA DOMEINUAK: Daturik ez<br />
train: Daturik ez
equalize 00630264: c2c objektu hautapen-murriztapenak<br />
00020244 0.004 deed feat effort exploit "a notable achievement"<br />
00004865 0.003 person individual someone somebody mortal human soul<br />
08405716 0.003 integer whole_number "any of the natural numbers or zero"<br />
00017008 0.002 group grouping "any number of entities considered as a unit"<br />
08325457 0.001 linear_unit "a unit of measurement of length"<br />
00033585 0.001 success "an attainment that is successful"<br />
00009469 0.0009 object physical_object "a physical entity"<br />
08320927 0.0005 record "the number of wins versus losses and ties a team…"<br />
equalize 00630264: c2c subjektu hautapen-murriztapenak<br />
00004865 0.018 person individual someone somebody mortal human soul ZUZENA<br />
00017008 0.007 group grouping "any number of entities as…" ZUZENA<br />
00009469 0.003 object physical_object "a physical entity"<br />
C.5.4 w2c SemCorretik<br />
s2s: Daturik ez<br />
equalize/get even: w2c objektu hautapen-murriztapenak<br />
Daturik ez<br />
equalize/get even: w2c subjektu hautapen-murriztapenak<br />
Daturik ez<br />
C.5.5 s2semf SemCorretik<br />
equalize/get even: s2semf objektu hautapen-murriztapenak<br />
Daturik ez<br />
equalize/get even: s2semf subjektu hautapen-murriztapenak<br />
Daturik ez<br />
C.5.6 w2c BNCtik<br />
equalize/get even: w2c objektu hautapen-murriztapenak<br />
Daturik ez<br />
w2w: Daturik ez get_evenentzat<br />
equalize: w2w objektuak<br />
equalize<br />
wth.???<br />
equalize: w2w subjektuak<br />
equalize<br />
above/Would???<br />
129
130<br />
C.5.7 c2c BNCtik<br />
Daturik ez get_evenentzat<br />
Denak ez zuzenak.<br />
equalize 00630264 : c2c objektu hautapen-murriztapenak<br />
08520394 4.903e-06 condition status "a condition or state at a particular…"<br />
09065837 3.583e-06 time_period period period_of_time amount_of_time<br />
08534455 2.462e-06 status position "the relative position or standing of…”<br />
08745609 2.414e-06 opportunity chance "a possibility due to a favorable…"<br />
08813320 1.960e-06 helium He atomic_number_2<br />
08522741 9.253e-07 situation state_of_affairs "the general state of…”<br />
08744574 6.788e-07 potential potentiality potency "the inherent capacity…"<br />
08781633 6.570e-07 material stuff "the tangible substance that goes into…”<br />
08523811 6.182e-07 relationship "a state involving mutual dealings…"<br />
equalize 00630264 : c2c subjektu hautapen-murriztapenak<br />
08813320 0.0001 helium He atomic_number_2<br />
09065837 2.006e-06 time_period period period_of_time amount_of_time<br />
08520394 1.734e-06 condition status "a condition or state at a particular…"<br />
08807415 1.208e-06 metallic_element metal "any of several chemical…”<br />
08534455 8.005e-07 status position "the relative position or standing of…"<br />
08524514 6.994e-07 company comradeship companionship good_fellowship…"<br />
08781633 6.355e-07 material stuff "the tangible substance that goes into…"<br />
08522741 5.803e-07 situation state_of_affairs "the general state of…"<br />
08745609 4.672e-07 opportunity chance "a possibility due to a favorable…"<br />
09069911 4.522e-07 now "the momentary present"<br />
C.5.8 w2semf EFEtik<br />
equalize: w2semf objektu hautapen-murriztapenak<br />
obj factotum-artifact 0.28<br />
obj factotum-cognition 0.14<br />
obj sport-event 0.14 ZUZENA<br />
obj sociology-group 0.14<br />
obj anthropology-group 0.14<br />
obj history-person 0.14<br />
equalize: w2semf subjektu hautapen-murriztapenak<br />
subj x 1 ONARGARRIA<br />
subj geography-location 1<br />
subj administration-location 1<br />
get_evenentzat daturik ez
C.5.9 Ondorioak<br />
Iturria Teknika Zuzena Onargarria Eskuratu<br />
gabe<br />
SemC<br />
or<br />
BNC<br />
EFE<br />
Objektuak Subjektuak<br />
Zuzena Onargarria Eskuratu<br />
gabe<br />
c2c 0 0 3tik 3 3tik 2 0 0<br />
w2c Daturik ez<br />
s2semf Daturik ez<br />
w2c Daturik ez<br />
c2c 0 0 3tik 3 0 0 2tik 2<br />
w2semf<br />
EQUALIZE 6tik 1 0 4tik 3 0 3tik 1 2tik 2<br />
w2semf<br />
GET EVEN<br />
Daturik ez<br />
131
132<br />
C.6 berdindu_16<br />
C.6.1 Synseta MCRn<br />
DOMEINUAK:<br />
00630264v<br />
competition<br />
lock 00630264v 1 equalize_1 get_even_1<br />
lock 00630264v 0 berdindu_16<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />
berdindu A 00630097 play sport<br />
C.6.2 Urre patroiak<br />
berdindu 00630097: Absolutiboa<br />
c2c, w2c:<br />
04771851 competition contest “an occasion on which a winner is selected…”<br />
(hipe. EVENT)<br />
00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />
08310444 definite quantity “a specific measure of amount”<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
sport-event<br />
number-quantity<br />
berdindu v 00630097: Ergatiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being"<br />
00017008 group grouping "any number of entities (members) considered as a<br />
unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group
C.6.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />
berdindu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa eta corpus_osoa)<br />
ABSdu<br />
abs sport-event 1.25 ZUZENA<br />
abs 0 1<br />
abs number-quantity 1 ZUZENA<br />
abs factotum-act 0.25 ONARGARRIA<br />
abs play-act 0.25 ZUZENA<br />
abs baseball-act 0.25 ONARGARRIA<br />
en_kontra x 1<br />
ine factotum-act 0.3<br />
ine factotum-communication 0.15<br />
ine factotum-state 0.15<br />
ine factotum-event 0.15<br />
ine number-cognition 0.07<br />
ine time_period-time 0.07<br />
ine factotum-location 0.07<br />
erg pro 1 ONARGARRIA<br />
erg x 1 ONARGARRIA<br />
berdindu.kontuakhitzak.ALL/kirolak<br />
abs egoera 2<br />
abs 0 1<br />
abs kanporaketa 1<br />
abs hamabi 1<br />
abs final 1<br />
abs x 1<br />
abs indar 1<br />
ala puntu 1<br />
en_kontra x 1<br />
erg pro 1<br />
erg Fernando 1<br />
ine bukaera 1<br />
ine arte 1<br />
C.6.4 SemCorreko c2c euskarara itzulita<br />
Get_even: Daturik ez<br />
equalize 00630264: c2c objektu hautapen-murriztapenak<br />
00020244 0.004 deed feat effort exploit "a notable achievement"<br />
00004865 0.003 person individual someone somebody mortal human soul<br />
08405716 0.003 integer whole_number "any of the natural numbers or zero"<br />
00017008 0.002 group grouping "any number of entities considered as a unit"<br />
08325457 0.001 linear_unit "a unit of measurement of length"<br />
00033585 0.001 success "an attainment that is successful"<br />
00009469 0.0009 object physical_object "a physical entity"<br />
08320927 0.0005 record "the number of wins versus losses and ties a team…"<br />
133
134<br />
equalize 00630264: c2c subjektu hautapen-murriztapenak<br />
00004865 0.018 person individual someone somebody mortal human soul ZUZENA<br />
00017008 0.007 group grouping "any number of entities considered…" ZUZENA<br />
00009469 0.003 object physical_object "a physical entity"<br />
C.6.5 SemCorreko s2semf euskarara itzulita<br />
equalize/get even: s2semf objektu hautapen-murriztapenak<br />
Daturik ez<br />
equalize/get even: s2semf subjektu hautapen-murriztapenak<br />
Daturik ez<br />
C.6.6 EFEko w2semf euskarara itzulita<br />
equalize: w2semf objektu hautapen-murriztapenak<br />
obj factotum-artifact 0.28<br />
obj factotum-cognition 0.14<br />
obj sport-event 0.14 ZUZENA<br />
obj sociology-group 0.14<br />
obj anthropology-group 0.14<br />
obj history-person 0.14<br />
equalize: w2semf subjektu hautapen-murriztapenak<br />
subj x 1 ONARGARRIA<br />
subj geography-location 1<br />
subj administration-location 1<br />
get_evenentzat daturik ez<br />
C.6.7 Ondorioak<br />
Iturria Teknika Kasua Zuzena Onargarria<br />
Eskuratu<br />
gabe<br />
Egunkaria<br />
osoa<br />
w2semf<br />
abs<br />
erg<br />
6tik 3<br />
0<br />
6tik 2<br />
2tik 2<br />
0<br />
2tik 2<br />
Egunkaria<br />
kirolak<br />
w2semf<br />
abs<br />
erg<br />
6tik 3<br />
0<br />
6tik 2<br />
2tik 2<br />
0<br />
2tik 2<br />
SemCor<br />
c2c<br />
obj<br />
subj<br />
0<br />
3tik 2<br />
0<br />
0<br />
3tik 3<br />
0<br />
s2semf Daturik ez<br />
w2semf obj 6tik 1 0 4tik 3<br />
EFE EQUALIZE subj 0 3tik 1 2tik 2<br />
kirolak w2semf GET<br />
EVEN<br />
Daturik ez
C.7 lose_2<br />
C.7.1 Synseta MCRn<br />
00620218v<br />
competition<br />
DOMEINUAK:<br />
C.7.2 Urre patroiak<br />
lock 00620218v 5 lose_2<br />
lock 00620218v 0 galdu_9<br />
fail to win; "We lost the battle but we<br />
won the war"<br />
HITZA KATEGORIA SYNSET DOMEINUA<br />
lose A 00620218 sport<br />
lose 00620218: objektu hautapen-murriztapenak<br />
w2c, c2c:<br />
04771851 competition contest “an occasion on which a winner is selected…”<br />
(hipe EVENT)<br />
00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />
08310444 definite quantity “a specific measure of amount”<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
sport-event<br />
number-quantity<br />
lose 00620218: subjektu hautapen-murriztapenak<br />
w2c, c2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
135
136<br />
C.7.3 c2c SemCorretik<br />
OBJEKTUAK s2s:<br />
lose 00620218:<br />
battle 00440117<br />
debate 04668121<br />
SUBJEKTUAK s2s:<br />
lose 00620218:<br />
lose 00620218<br />
group 00017008<br />
location 00014314<br />
TROPONIMOAK ETA DOMEINUAK:<br />
HITZA KATEGORIA SYNSET DOMEINUA<br />
drop A 00620362 sport<br />
s2s eta s2s-hype (SUBJEKTUAK): Objektuentzat daturik ez<br />
lose >> drop 00620362<br />
group 00017008<br />
lose 00620218: c2c objektu hautapen-murriztapenak<br />
00228990 0.229 activity "any specific activity or pursuit" ONARGARRIA<br />
(baina battletik)<br />
04668121 0.210 debate disputation public_debate "the formal presentation…"<br />
debate)<br />
lose 00620218: c2c subjektu hautapen-murriztapenak<br />
00017008 0.6 group grouping "any number of entities considered as a unit"<br />
ZUZENA<br />
00009469 0.194 object physical_object "a physical entity"<br />
C.7.4 w2c SemCorretik<br />
s2s: (B.7.3 atala)<br />
lose: w2c objektu hautapen-murriztapenak<br />
00012878 0.0699 cognition knowledge "the psychological result of …"<br />
00012670 0.0666 abstraction "a general concept formed by …” ONARGARRIA<br />
00228990 0.039 activity "any specific activity or pursuit" ONARGARRIA<br />
00004865 0.036 person individual someone somebody mortal human soul<br />
08520394 0.023 condition status "a condition or state at a particular time"<br />
00009469 0.021 object physical_object "a physical entity"<br />
05149489 0.015 organization organisation "a group of people who work…"<br />
00013522 0.013 feeling "the psychological feature of experiencing…"<br />
08179398 0.013 asset "anything of material value or usefulness"<br />
04668121 0.008 debate disputation public_debate "the formal presentation…"
lose: w2c subjektu hautapen-murriztapenak<br />
00004865 0.221 person individual someone somebody mortal human soul ZUZENA<br />
00017008 0.126 group grouping "any number of entities considered…" ZUZENA<br />
00009469 0.090 object physical_object "a physical entity"<br />
03940357 0.030 content cognitive_content mental_object "the sum or range…"<br />
03610098 0.026 body_part "any part of an organism such as an organ or…"<br />
01977607 0.017 horror "something that inspires horror; something horrible"<br />
00264797 0.016 baseball baseball_game ball_game "a game played with a bat…"<br />
00018599 0.0144 communication "something that is communicated between…"<br />
03421321 0.014 loyalty "the quality of being loyal"<br />
C.7.5 s2semf SemCorretik<br />
lose 00620218: s2semf objektu hautapen-murriztapenak<br />
factotum-act 1 ONARGARRIA<br />
politics-communication 1<br />
lose 00620218: s2semf subjektu hautapen-murriztapenak<br />
factotum-Tops 2 ONARGARRIA<br />
C.7.6 w2c BNCtik<br />
lose: w2c objektu hautapen-murriztapenak<br />
00004865 0.065 person individual someone somebody mortal human soul<br />
00009469 0.059 object physical_object "a physical entity"<br />
00012670 0.045 abstraction "a general concept formed by…" ONARGARRIA<br />
00016649 0.033 act human_action human_activity "something that…" ONARGARRIA<br />
00012878 0.024 cognition knowledge "the psychological result of…"<br />
00015437 0.016 state "the way something is with respect to its main"<br />
08179398 0.015 asset "anything of material value or usefulness"<br />
05119847 0.009 social_group "people sharing some social relation"<br />
03610098 0.008 body_part "any part of an organism such as an organ or…"<br />
04690182 0.007 happening occurrence natural_event "an event that happens"<br />
lose: w2c subjektu hautapen-murriztapenak<br />
08813320 0.137 helium He atomic_number_2<br />
00004865 0.135 person individual someone somebody mortal human soul ZUZENA<br />
04455766 0.055 he "the 5th letter of the Hebrew alphabet"<br />
00011607 0.039 artifact artefact "a man-made object"<br />
05119847 0.038 social_group "people sharing some social relation" ONARGARRIA<br />
04313427 0.021 message content subjektu_matter substance<br />
00018966 0.018 measure quantity amount quantum "how much there is of…"<br />
00014314 0.015 location "a point or extent in space"<br />
00016649 0.015 act human_action human_activity "something that people do…"<br />
00012878 0.014 cognition knowledge "the psychological result of…"<br />
137
138<br />
w2w:<br />
lose: w2w objektuak<br />
$1.2_billion<br />
$10m<br />
$140m<br />
$2.6m<br />
$200m<br />
$24_million<br />
$250m<br />
$300m<br />
$350m<br />
$35m<br />
$39m<br />
$40million<br />
$48.5m<br />
$7.75<br />
'er<br />
-_as<br />
-_which<br />
0.41_per_cent<br />
1.1%<br />
1.1_%.<br />
10_per_cent<br />
15_per_cent<br />
2.0%<br />
25_per_cent<br />
3%<br />
30%<br />
30_per_cent<br />
40_per_cent<br />
44_per_cent<br />
5.6%.<br />
50_per_cent<br />
56%<br />
After<br />
Although<br />
American<br />
And<br />
Andrea_de_Cesaris<br />
As<br />
Austria<br />
Bath<br />
Beatles<br />
Broad<br />
Bruce<br />
But<br />
Calais<br />
Cambridge_Boat_Club<br />
Cardiff<br />
Chris_Eubank<br />
Crown_Immunity<br />
Cup_Final<br />
D<br />
DC<br />
DM205m<br />
Darlington<br />
Dave_Gardner<br />
Defending_Champions<br />
_Red_Star<br />
Election<br />
Ellerman<br />
Ellery_Hanley<br />
Empire<br />
England<br />
Englishness_-_it<br />
Evelyn<br />
Foulds_15<br />
Francis_Maude<br />
GETTING<br />
Gatting<br />
Gooch<br />
Greater_London_Coun<br />
cil<br />
Harry<br />
Haynes<br />
He<br />
Hendry<br />
Hockaday<br />
However<br />
I<br />
ITV<br />
Ian_Williams<br />
If<br />
In<br />
In_London<br />
It<br />
Ivano_Bo<strong>net</strong>ti<br />
Jackman<br />
Jag<br />
Jim_Kelly<br />
John_Hastings<br />
John_Sessions<br />
Labour<br />
Leinster<br />
Lewisham_East<br />
Lise<br />
Livingstone<br />
Lizzie<br />
MPs<br />
Macartney<br />
Magda<br />
Manoj_Prabhakar<br />
Marie<br />
Much<br />
Nicaragua<br />
Nick_Price<br />
North_Eastern<br />
Nuneaton<br />
O'Leary<br />
O'Neill<br />
O_level<br />
One<br />
Our<br />
Oxford<br />
Pendle<br />
Philippa<br />
Pilkington<br />
Prince<br />
Queen<br />
Radio_3.<br />
Rajasthan<br />
Ribble_Valley<br />
Rotsagno<br />
Rottweiler<br />
Russia<br />
Ruud_Gullit<br />
SMP<br />
Sharon_Mills<br />
She<br />
Sheasby<br />
Shops_Bill<br />
Since<br />
So<br />
Some<br />
Son<br />
Southampton<br />
Southampton_Itchen<br />
Sovereignty<br />
Stuart_Ruckledge<br />
Suddenly<br />
TV<br />
Test<br />
That<br />
The<br />
The_PFA<br />
These<br />
They<br />
Thomas<br />
Thompson<br />
Time<br />
Up<br />
VW<br />
Veale<br />
Vietnam<br />
Volunteers<br />
Wallasey<br />
We<br />
Weight<br />
What<br />
When<br />
Willis<br />
With<br />
Yet
139<br />
about_10_per_cent<br />
about_25%<br />
accent<br />
acres<br />
action<br />
adherent<br />
adhesion<br />
admiration<br />
advantage<br />
advocate<br />
affection<br />
agency<br />
aid<br />
air<br />
aircraft<br />
airmen<br />
allowance<br />
amenity<br />
amount<br />
another<br />
anything<br />
appeal<br />
appendix<br />
appetite<br />
application<br />
approach<br />
approbation<br />
arm<br />
arms<br />
army<br />
art<br />
artefact<br />
artist<br />
aspect<br />
assembly<br />
asset<br />
attraction<br />
attractiveness<br />
audience<br />
aura<br />
authority<br />
autonomy<br />
baby<br />
background<br />
bag<br />
balance<br />
ball<br />
bar<br />
barrack<br />
base<br />
batsman<br />
battle<br />
bearing<br />
beauty<br />
because<br />
bed<br />
beginning<br />
benefit<br />
beret<br />
best<br />
best_friend<br />
bet<br />
billion_-_is<br />
bit<br />
blonde<br />
blood<br />
booking<br />
boss<br />
bottle<br />
bounce<br />
bout<br />
brain<br />
breadwinner<br />
breakfast<br />
breast<br />
brewery<br />
bt<br />
bulk<br />
bus<br />
business<br />
capital<br />
captain<br />
captaincy<br />
car<br />
card<br />
carp<br />
case<br />
cash<br />
caste<br />
cent<br />
center<br />
central<br />
century<br />
challenge<br />
championship<br />
chance<br />
charisma<br />
charm<br />
charter<br />
chase<br />
cheese<br />
chicken<br />
child<br />
childhood<br />
choice<br />
choreography<br />
church_member<br />
citizen<br />
citizenship<br />
city<br />
civil_war<br />
clash<br />
client<br />
club<br />
cohesiveness<br />
coin<br />
colony<br />
colour<br />
commander<br />
commercial<br />
commission<br />
companion<br />
company<br />
component<br />
composure<br />
concentration<br />
confidence<br />
connection<br />
conquest<br />
conservative<br />
consolation<br />
contact<br />
control<br />
cool<br />
corner<br />
count<br />
country<br />
courage<br />
cover<br />
craving<br />
creativity<br />
credibility<br />
crispness<br />
crop<br />
cross<br />
crown<br />
cup_final<br />
currency<br />
custody<br />
data<br />
daughter<br />
debate<br />
decisiveness<br />
degree<br />
delicacy<br />
delivery<br />
demon<br />
deposit<br />
desire<br />
detail<br />
difference<br />
direction<br />
discipline<br />
district<br />
division<br />
dog<br />
dome<br />
domicile
140<br />
dramatist<br />
drum<br />
ear<br />
edge<br />
effect<br />
effectiveness<br />
efficiency<br />
elasticity<br />
election<br />
electrical_resistan<br />
ce<br />
elegance<br />
elements<br />
empire<br />
employee<br />
encounter<br />
energy<br />
engine<br />
enjoyment<br />
enthusiasm<br />
entry<br />
equipment<br />
era<br />
erection<br />
esteem<br />
event<br />
everything<br />
example<br />
eye<br />
face<br />
faculty<br />
fan<br />
fanaticism<br />
fang<br />
fat<br />
father<br />
favour<br />
feather<br />
feathers<br />
feature<br />
fee<br />
feet<br />
fiancee<br />
fifth<br />
fight<br />
figure<br />
final<br />
finger<br />
fish<br />
flash<br />
float<br />
flounder<br />
flow<br />
focus<br />
foliage<br />
food<br />
foothold<br />
forever<br />
form<br />
formula<br />
fortune<br />
frame<br />
franchise<br />
friend<br />
friendly<br />
function<br />
gaiety<br />
gain<br />
gamble<br />
game<br />
garden<br />
gas<br />
gaze<br />
gem<br />
general_election<br />
gentry<br />
gift<br />
glamour<br />
glasses<br />
gleam<br />
glider<br />
glitter<br />
gloss<br />
gloves<br />
goal<br />
government<br />
graduate<br />
grass<br />
greenery<br />
greyhound<br />
grip<br />
ground<br />
growth<br />
guide<br />
habit<br />
hair<br />
hang<br />
hat-trick<br />
he<br />
head<br />
headquarters<br />
health<br />
heart<br />
heartland<br />
heat<br />
height<br />
her<br />
her_parents_and<br />
hers<br />
herself<br />
him<br />
himself<br />
hindquarter<br />
hir<br />
his<br />
hold<br />
hole<br />
holiday<br />
holidaymaker<br />
home<br />
hooker<br />
hours<br />
house<br />
how_much<br />
humour<br />
husband<br />
hyphen<br />
hypnotics<br />
identity<br />
ideology<br />
immunity<br />
impact<br />
impetus<br />
in_-_but<br />
inch<br />
income<br />
increase<br />
independence<br />
individuality<br />
infant<br />
influence<br />
inhibition<br />
initiative<br />
inn<br />
innocence<br />
intellectual<br />
interest<br />
interest_-_they<br />
irony<br />
it<br />
item<br />
its<br />
itself<br />
ivy<br />
jewellery<br />
job<br />
key<br />
kingdom<br />
knack<br />
kudos<br />
labour<br />
lacing<br />
lady<br />
lamb<br />
land<br />
language<br />
language_-_rapidly<br />
large_number
141<br />
last<br />
lb<br />
lead<br />
leadership<br />
leg<br />
legitimacy<br />
length<br />
lesbian<br />
lesson<br />
liberty<br />
licence<br />
lien<br />
life<br />
light<br />
line<br />
line-out<br />
lineout<br />
listener<br />
listing<br />
liveliness<br />
load<br />
loft<br />
logic<br />
look<br />
loser<br />
lot<br />
lots<br />
love<br />
lover<br />
lustre<br />
magic<br />
mag<strong>net</strong>ism<br />
maidenhood<br />
maidenliness<br />
majority<br />
man<br />
man-days<br />
manager<br />
marbles<br />
market<br />
match<br />
matches<br />
material<br />
matter<br />
me<br />
meaning<br />
medal<br />
member<br />
memory<br />
mentality<br />
mind<br />
mine<br />
minister<br />
mischief<br />
miss<br />
mitten<br />
moisture<br />
moment<br />
momentum<br />
money<br />
money_-_$200m-plus<br />
monopoly<br />
mother<br />
my<br />
myself<br />
myth<br />
name<br />
needle<br />
nerve<br />
<strong>net</strong>work<br />
nicety<br />
nine-and-a-half<br />
noise<br />
nomination<br />
north<br />
nothing<br />
novelty<br />
number<br />
object<br />
obsession<br />
office<br />
oil<br />
old<br />
one-third<br />
ones<br />
oodles<br />
opener<br />
opening<br />
operation<br />
other<br />
out_-_if<br />
output<br />
overall<br />
p.c.<br />
package<br />
pain<br />
pants<br />
paradise<br />
paragraph<br />
parent<br />
partner<br />
parts<br />
party<br />
passenger<br />
path<br />
patience<br />
pay<br />
peace<br />
people<br />
perfection<br />
period<br />
person<br />
personal<br />
perspective<br />
pet<br />
pfennig<br />
pfennings<br />
photo<br />
piece<br />
place<br />
play<br />
play_-_and_still<br />
player<br />
playoff<br />
poem<br />
point<br />
politics<br />
popularity<br />
possession_-<br />
_and_control_-_in<br />
post<br />
potency<br />
pound<br />
pride<br />
principle<br />
privilege<br />
prize<br />
prop<br />
property<br />
proportion<br />
protest<br />
province<br />
pub<br />
public<br />
purity<br />
purpose<br />
qualifier<br />
quality<br />
quarry<br />
quarter<br />
quotation<br />
race<br />
racecourse<br />
rag<br />
rally<br />
reader<br />
reality<br />
reconquer<br />
record<br />
recording<br />
reduction<br />
reference<br />
regular<br />
rehearsal<br />
relationship<br />
relevance<br />
replay<br />
rescue
142<br />
research_worker<br />
reselection<br />
resentment<br />
reserves<br />
respect<br />
rest<br />
result<br />
rev<br />
revenue<br />
ride<br />
rider<br />
risk<br />
role<br />
roof<br />
root<br />
rubber<br />
rugby<br />
s<br />
safe<br />
salt<br />
saving<br />
savings<br />
savour<br />
scene<br />
scramble<br />
scrum<br />
season<br />
season_-_to<br />
seat<br />
second<br />
section<br />
sector<br />
sectorisation<br />
seed<br />
self<br />
self-consciousness<br />
self-control<br />
self-respect<br />
semblance<br />
semifinal<br />
sense_of_direction<br />
sense_of_purpose<br />
separateness<br />
serenity<br />
series<br />
serve<br />
service<br />
set<br />
settling<br />
shadow<br />
shame<br />
shape<br />
share<br />
she<br />
sheen<br />
sheep<br />
shilling<br />
ship<br />
shirt<br />
shoe<br />
side<br />
sight<br />
significance<br />
single<br />
singles<br />
sister<br />
sleep<br />
slumber<br />
small_town<br />
smile<br />
smoothness<br />
snarl<br />
soldier<br />
somebody<br />
someone<br />
something<br />
son<br />
song<br />
soul<br />
source<br />
space<br />
spaciousness<br />
sparkle<br />
speech<br />
speed<br />
spice<br />
spirit<br />
sport<br />
stability<br />
staff<br />
statue<br />
status<br />
sting<br />
stone<br />
strategy<br />
strength<br />
strike<br />
structure<br />
struggle<br />
student<br />
stump<br />
subjektu<br />
subsidy<br />
subtlety<br />
sum_of_money<br />
summat<br />
supply<br />
support<br />
surprise<br />
sweat<br />
symbol<br />
sympathy<br />
taboo<br />
tail<br />
talent<br />
tape_recording<br />
taste<br />
tax_shelter<br />
team<br />
telephone_system<br />
temper<br />
territory<br />
test<br />
texture<br />
thanks<br />
that<br />
their<br />
theirs<br />
them<br />
themselves<br />
they<br />
thing<br />
third<br />
thirds<br />
thread<br />
thrust<br />
ticket<br />
time<br />
tissue<br />
title<br />
toe<br />
tone<br />
touch<br />
tourist<br />
tournament<br />
town<br />
track<br />
trade<br />
tradition<br />
traffic<br />
train<br />
training<br />
travelling<br />
tree<br />
trouble<br />
trousers<br />
tussle<br />
umbrella<br />
unease<br />
unity<br />
urgency<br />
us<br />
use<br />
valuable<br />
value<br />
variety<br />
verdict<br />
version
143<br />
virginity<br />
vocation<br />
voice<br />
voltage<br />
volume<br />
vote<br />
voter<br />
war<br />
wardenship<br />
water<br />
weight<br />
west<br />
what<br />
which<br />
whisper<br />
who<br />
wicket<br />
wife<br />
window<br />
windshield<br />
wing<br />
work<br />
working_day<br />
world<br />
worth<br />
worth_-_then<br />
yard<br />
yellow_green<br />
you<br />
young<br />
your<br />
yourself<br />
youth<br />
zloty<br />
lose: w2w subjektuak<br />
-_she<br />
-_was<br />
20_per_cent<br />
43_per_cent<br />
71_per_cent<br />
AEG<br />
AIRLINES<br />
A_HINT<br />
Adam<br />
After<br />
Alex_Farries<br />
Alex_Ferguson<br />
Alexander<br />
Althorp<br />
America<br />
And<br />
Andrew<br />
Anglo-Scots_XV<br />
Anne_Simpkin<br />
As<br />
Asquith<br />
Association<br />
Attlee<br />
Auckland<br />
Aylesbury<br />
BBC<br />
BR<br />
BRITAIN<br />
Bailey<br />
Banker<br />
Banks<br />
Barratt_Development<br />
s<br />
Barrie<br />
Battersea<br />
Bedfordshire<br />
Bell_Group<br />
Benny<br />
Bentalls<br />
Bill_Saxby<br />
Blackheath<br />
Blaize<br />
Bolger<br />
Borja<br />
Boucher<br />
Brazil<br />
Bricklayers_Trevor<br />
Brien<br />
Bristow<br />
Britain<br />
British_Aerospace<br />
British_Airways_Con<br />
corde<br />
Briton<br />
Brixton_Estate<br />
Bruno<br />
Buick<br />
Bury<br />
But<br />
But_Eleanor<br />
But_Simon<br />
But_Wall_Street<br />
CAMBRIDGE<br />
CPS<br />
Callaghan<br />
Cameroun<br />
Canizales<br />
Castleford<br />
Casuals<br />
Central_America<br />
Chamberlain<br />
Chancellor<br />
Chang<br />
Charles<br />
Cheshire<br />
Chris_Patten<br />
Chris_Wilkinson<br />
Christian_Democrats<br />
Christians_-_never<br />
Christopher_Chope<br />
Citroens<br />
Clayton<br />
Clinton<br />
Colette_Jones<br />
Colin_Montgomerie<br />
Colin_Moynihan<br />
Commandos<br />
Commercial_Union_Buildin<br />
g<br />
Companies<br />
Conner<br />
Conservatives<br />
Cook<br />
Craig<br />
Crisp<br />
D<br />
DUP<br />
Darwen<br />
David<br />
David_Southby<br />
Dein<br />
Delta<br />
Democracy<br />
Democrats<br />
Department<br />
Despite<br />
Detroit_Lions<br />
Diderot<br />
Dilip_Vengsarkar<br />
Dixons<br />
Docklands_Express<br />
Dorset<br />
Douglas<br />
Dowding<br />
EDWARD<br />
ENGLAND<br />
East_Germany<br />
Edelman<br />
Edgley<br />
Elinor<br />
Elizabeth_Ben<strong>net</strong>t<br />
Emma_Nicholson<br />
England<br />
Eurotunnel<br />
Even<br />
Ever_Ready<br />
FORGOTTEN_BREWERIES_How_<br />
East_Enders<br />
FT_30<br />
Faldo<br />
Ferdinando<br />
Fiat
144<br />
Fido<br />
Field<br />
Fitzgerald<br />
Football<br />
Francis_Maude<br />
Friends<br />
Frost<br />
Fuhrer<br />
GM<br />
GP<br />
Gayane<br />
Germany<br />
Gide<br />
Glennie<br />
Gloucester<br />
Gold<br />
Government<br />
Graham_Rogers<br />
Granada<br />
Graziano<br />
Great_Britain<br />
Greyfriars<br />
Gronberg<br />
HYWEL_Davies<br />
Hammersmith<br />
Harris<br />
Having<br />
Hay<br />
He<br />
Heath<br />
Hibernian<br />
Holland<br />
Holmes<br />
Hong_Kong<br />
Houston_Oilers<br />
Hugh_Morris<br />
Hungary<br />
Hussein<br />
I<br />
IDG<br />
If<br />
If_Debbie<br />
If_Lee<br />
If_Mr_Major<br />
In_Europe_Madrid<br />
India<br />
Insurers<br />
It<br />
JAMES_Neill<br />
James<br />
Jane_Morris<br />
Jansher<br />
Jim_Pugh<br />
Jim_Sillars<br />
Juno_IV<br />
Just<br />
Justin<br />
Juventus<br />
KRISTI_YAMAGUCHI<br />
Kanza<br />
Kent_Opera<br />
Khan<br />
Kilfedder<br />
King<br />
Kinnock<br />
Kylie<br />
LONDON_Monarchs<br />
Labour<br />
Labour_Party<br />
Lady_Edisbury<br />
Lamb<br />
Lancashire_Fusilier<br />
s<br />
Lee<br />
Leicester_South<br />
Leigh<br />
Leipzig<br />
Lendl<br />
Lewis<br />
Littlejohn<br />
Liverpool<br />
Livingstone<br />
Liz_Smylie<br />
London_Scottish<br />
Loughborough<br />
Lowndes_Queensway<br />
Luftwaffe<br />
Luton<br />
Lyle<br />
MANY<br />
MPs<br />
Maggie<br />
Malcolm_Foulkes-<br />
Arnold<br />
Malinga<br />
Malvern<br />
Manawatu<br />
Mandarin<br />
Marie<br />
Marine_Midland<br />
Martin<br />
Mary<br />
Mary_Tudor<br />
Matlock<br />
Mazowiecki<br />
Meanwhile_Jansher_K<br />
han<br />
Merrivale<br />
Michael_Fallon<br />
Michael_Heseltine<br />
Middlesborough<br />
Milligan<br />
Mills<br />
Miss_Green<br />
Miss_Harker<br />
Montpellier<br />
Most<br />
Most_British_Prime_Minis<br />
ters<br />
Mr_Gerry_Adams<br />
Mrs_Chalker<br />
Mrs_Lynda_Chalker<br />
Mrs_McLaren<br />
Mrs_Pyg<br />
Mrs_Stavrogin<br />
Mrs_Thatcher<br />
Mueller<br />
Mungo<br />
Murdoch<br />
Murrayfield_Racers<br />
Mutch<br />
NUM<br />
Najibullah<br />
Napoleon<br />
NatWest_Bancorp<br />
National_Trust<br />
Nazism<br />
Never<br />
Neville<br />
New_Zealand<br />
Newport<br />
Nick_Faldo<br />
Nigel<br />
No_2<br />
Nobody<br />
Norman<br />
North_East<br />
Norwich<br />
Norwood<br />
Nottingham_Forest<br />
Now<br />
O'Reilly<br />
Of<br />
Old_English_sheepdog<br />
Oldham<br />
Olsen<br />
On_Thursday_Boris_Becker<br />
One<br />
Orrell<br />
Overseas_Development_Min<br />
ister<br />
Panama_Canal<br />
Paradise<br />
Patten<br />
People<br />
Peter<br />
Peter_de_Neville<br />
Petite_Rosanna
145<br />
Phillips<br />
Pilot_Mohammed_El_S<br />
hamey<br />
Pisa<br />
Plan<br />
Poland<br />
Pounder<br />
Prince<br />
Privatization<br />
Profit_Freight_Syst<br />
ems<br />
Protestant<br />
Pru-Bache<br />
Queens_Park_Rangers<br />
Qxb6<br />
R_A_Owens<br />
R_Simmons<br />
Ramsey<br />
Reid<br />
Remy<br />
Richardson<br />
Rijeka<br />
Robertson<br />
Rose<br />
SDP<br />
SDP_MPs<br />
STEVE_DAVIS<br />
Salford<br />
Sanders<br />
Schools_Minister<br />
Services<br />
Severiano_Ballester<br />
os<br />
Shares<br />
She<br />
Sheff_Wed_Arsenal<br />
Short<br />
Signor_Guido_Carli<br />
Since_England<br />
Situationists<br />
Some<br />
Something<br />
Sometimes<br />
Sonia_Sutcliffe<br />
Soon<br />
South_East<br />
Southern<br />
St_Austell<br />
St_Helens<br />
Stanley_Baldwin<br />
Steffi<br />
Sterling<br />
Stevan_Flannigan<br />
Steve_Davis<br />
Strauss<br />
Sun_Life_Assurance<br />
Sutton_Borough_Coun<br />
cil<br />
Sweet<br />
Swindon<br />
THE_Los_Angeles_Rai<br />
ders<br />
THE_Royal_Liverpool<br />
_Philharmonic_Socie<br />
ty<br />
THE_South_African_R<br />
ugby_Board<br />
TUC<br />
Tarmac<br />
Ted<br />
Tendulkar<br />
The<br />
The_Aral<br />
The_Association<br />
The_Conservatives<br />
The_Department<br />
The_Establishment<br />
The_Furus<br />
The_Pru<br />
The_Singaporean<br />
Then<br />
They<br />
This<br />
Those<br />
Tich<br />
Timman<br />
To<br />
Tokyo<br />
Tony<br />
Tories<br />
Tory_MP<br />
Toscanini<br />
Tragedy<br />
Tranmere<br />
Trollope<br />
Turkey<br />
Two<br />
United<br />
Virginia_Wade<br />
Vladek<br />
WASP<br />
WEA<br />
WHO<br />
WIGAN<br />
WILF_O'REILLY<br />
Wales<br />
Walker<br />
Warrington<br />
Waterers<br />
We<br />
West_Germany<br />
West_Indies<br />
Wharton<br />
What<br />
When_Gooch<br />
When_Sir_Alec<br />
When_Wales<br />
While<br />
White<br />
Who<br />
Wigan<br />
Wildlife<br />
Wimbledon<br />
Win<br />
With<br />
With_Clare_Wood<br />
Wolverhampton<br />
Woman<br />
Woodcarver<br />
Woosnam<br />
Workers<br />
World<br />
Worst<br />
Wycombe<br />
YOUNG_Group<br />
Yannick_Noah<br />
Yeltsin<br />
You<br />
Young<br />
Yugoslavia<br />
Zebra<br />
accident<br />
act<br />
action<br />
administration<br />
affairs<br />
agreement<br />
aircrew<br />
airline<br />
airport<br />
ale<br />
amount<br />
anchovy_sauce<br />
angler<br />
another<br />
area<br />
arrangement<br />
arrival<br />
article<br />
artisan<br />
atom<br />
attack<br />
average<br />
baker<br />
ballet<br />
ballet_dancer<br />
bank<br />
banker
146<br />
barbarian<br />
battle<br />
behaviouristic<br />
beneficiary<br />
black<br />
bloc<br />
body<br />
book<br />
boy<br />
breeder<br />
brewery<br />
bt<br />
business<br />
buyout_-_and_would<br />
cabbage<br />
case<br />
castle<br />
category<br />
centre-left<br />
chains<br />
chairman<br />
champagne<br />
champion<br />
channel<br />
chap<br />
character<br />
charm<br />
child<br />
city<br />
civilization<br />
claimant<br />
climate<br />
clock<br />
club<br />
coat<br />
colleague<br />
communist<br />
community<br />
company<br />
compound<br />
concept<br />
contest<br />
convention<br />
cooper<br />
copy<br />
councillor<br />
country<br />
couple<br />
course<br />
coverage<br />
culture<br />
dancer<br />
defeat<br />
denomination<br />
department<br />
depositor<br />
descendants<br />
design<br />
designer<br />
details<br />
disappointment<br />
discretionary_trust<br />
district<br />
doctor<br />
doctrine<br />
dollar<br />
driver<br />
duo<br />
election<br />
else_-_they<br />
employee<br />
employer<br />
enemy<br />
engine<br />
engineer<br />
enterprise<br />
entry<br />
episode<br />
equity<br />
evil_spirit<br />
ewe<br />
eye<br />
eyes<br />
factor<br />
false_teeth_-_he<br />
family<br />
farmer<br />
father<br />
favourite<br />
fee<br />
field<br />
film<br />
filmmakers<br />
final<br />
finalist<br />
fire<br />
firm<br />
flyer<br />
forest<br />
forester<br />
forward<br />
front-runner<br />
frost<br />
full_time<br />
future<br />
game<br />
gelding<br />
generation<br />
giant<br />
girl<br />
git<br />
glider<br />
goods<br />
gorilla<br />
government<br />
ground<br />
group<br />
guard<br />
guide<br />
guy<br />
habit<br />
hair<br />
he<br />
hedgehog<br />
helicopter<br />
her<br />
herself<br />
him<br />
his<br />
hole<br />
home<br />
hospital<br />
hours<br />
house<br />
householder<br />
husband<br />
ice_cream<br />
if_we<br />
impetus<br />
improvisation<br />
index<br />
individual<br />
industry<br />
infantry<br />
infatuation<br />
inning<br />
institute<br />
insurers<br />
interpretation<br />
investor<br />
island<br />
issue<br />
it<br />
jeweller<br />
job<br />
joy<br />
krona<br />
land<br />
latter<br />
laurel<br />
leader<br />
leadership<br />
left-winger<br />
liberal<br />
life<br />
lifetime<br />
light_heavyweight<br />
line
147<br />
little_girl<br />
lot<br />
love<br />
low<br />
magazine<br />
majority<br />
maker<br />
man<br />
management<br />
manager<br />
mandarin<br />
market<br />
markets_-_it<br />
master<br />
match<br />
me<br />
member<br />
metal<br />
metre<br />
middle-ranking<br />
middle_class<br />
mind<br />
minister<br />
misery<br />
moment<br />
money<br />
monopoly<br />
month<br />
mother<br />
mourning<br />
music<br />
mustard<br />
myself<br />
name<br />
nan<br />
negotiator<br />
neighbourhood<br />
<strong>net</strong>ting<br />
news_story<br />
newspaper<br />
night_time<br />
nobody<br />
nonconformist<br />
nostrum<br />
notebook<br />
nothing<br />
number<br />
office<br />
officer<br />
official<br />
old_lady<br />
on-song<br />
opera<br />
operation<br />
opposition<br />
orca<br />
orchestra<br />
organisation<br />
originality<br />
others<br />
ourselves<br />
outset<br />
painter<br />
paper<br />
parent<br />
parliamentarian<br />
part<br />
party<br />
pass<br />
patient<br />
pattern<br />
payer<br />
peak<br />
penalty<br />
people<br />
performance<br />
person<br />
phallus<br />
picture<br />
piece<br />
pilot<br />
plane<br />
plant<br />
player<br />
ploughman<br />
pocket<br />
poet<br />
point<br />
policy<br />
politician<br />
pop<br />
pound<br />
presence<br />
president<br />
profession<br />
programme<br />
promoter<br />
proportion<br />
pub<br />
public<br />
public_service<br />
publican<br />
punter<br />
quarter<br />
quote<br />
racer<br />
radiation<br />
radical<br />
raider<br />
ranking<br />
rate<br />
reader<br />
rebel<br />
recovery<br />
reform<br />
refugee<br />
repetition<br />
republican<br />
resentment<br />
result<br />
risk<br />
ritual<br />
rose_0.5%<br />
rugby<br />
run-up<br />
safe<br />
sailor<br />
sale<br />
saver<br />
scalper<br />
scheme<br />
school<br />
seat<br />
seed<br />
series<br />
share<br />
shareholder<br />
she<br />
ship<br />
side<br />
since_-_depending<br />
singer<br />
singles<br />
skin_colour<br />
socialism<br />
society<br />
software_-_he<br />
soldier<br />
solicitor<br />
someone<br />
something<br />
son<br />
song<br />
spare_time<br />
spasm<br />
speech<br />
squad<br />
stand<br />
star<br />
station<br />
statistics<br />
step<br />
sterling<br />
stockmarkets<br />
story<br />
strain<br />
student<br />
study
148<br />
subjektu<br />
subsidiary<br />
support<br />
swim<br />
tax<br />
taxpayer<br />
teacher<br />
team<br />
tears<br />
them<br />
themselves<br />
they<br />
this<br />
this_was_the_centre<br />
_that_he<br />
those<br />
thrust<br />
time<br />
touchstone<br />
tour<br />
town<br />
C.7.7 c2c BNCtik<br />
Denak ez zuzenak dira.<br />
trader<br />
treatment<br />
tree<br />
turn<br />
two-thirds<br />
tyre<br />
unemployment<br />
union<br />
upper_side<br />
us<br />
variety<br />
version<br />
vessel<br />
videotape<br />
viewer<br />
village<br />
vision<br />
voice<br />
volunteer<br />
vote<br />
voter<br />
wage<br />
war<br />
we<br />
week<br />
weight<br />
wheel<br />
which<br />
white<br />
who<br />
wine<br />
woman<br />
worker<br />
works<br />
writer<br />
year<br />
years_ago<br />
yes<br />
you<br />
young<br />
lose 00620218: c2c objektu hautapen-murriztapenak<br />
08520394 0.005 condition status "a condition or state at a particular time"<br />
09065837 0.003 time_period period period_of_time amount_of_time<br />
08813320 0.002 helium He atomic_number_2<br />
03582954 0.001 status position "the relative position or standing of…"<br />
08560710 0.001 freedom "the condition of being free; the power to act or…"<br />
08745609 0.001 opportunity chance "a possibility due to a favorable…"<br />
08781633 0.0007 material stuff "the tangible substance that goes into the…"<br />
08525534 0.0006 friendship friendly_relationship "the state of being…"<br />
08544706 0.0006 rest eternal_rest sleep eternal_sleep quietus<br />
08522741 0.0005situation state_of_affairs "the general state of things…"<br />
lose 00620218: c2c subjektu hautapen-murriztapenak<br />
08813320 0.112 helium He atomic_number_2<br />
09065837 0.003 time_period period period_of_time amount_of_time<br />
08534455 0.001 status position "the relative position or standing of…"<br />
08807415 0.001 metallic_element metal "any of several chemical elements…"<br />
08520394 0.0009 condition status "a condition or state at a particular…"<br />
08524514 0.0006 company comradeship companionship good_fellowship<br />
08547726 0.0005 unemployment "the state of being unemployed or not having…"<br />
08804621 0.0005 group radical "two or more atoms bound together as a…"<br />
08522741 0.0003 situation state_of_affairs "the general state of things…"<br />
08976498 0.0003 liquid "a substance that is liquid at room temperature…"
C.7.8 w2semf EFEtik<br />
lose: w2semf objektu hautapen-murriztapenak<br />
obj number-quantity 17.666 ZUZENA<br />
obj x 16<br />
obj factotum-state 8.09<br />
obj factotum-act 7.19 ONARGARRIA<br />
obj play-act 5.26 ZUZENA<br />
obj factotum-artifact 5.04<br />
obj quality-attribute 4.96<br />
obj sport-event 4.05 ZUZENA<br />
obj zoology-animal 3.6<br />
obj factotum-cognition 3.20<br />
lose: w2semf subjektu hautapen-murriztapenak<br />
subj x 102 ONARGARRIA<br />
subj administration-group 15.33<br />
subj sport-group 13 ONARGARRIA<br />
subj zoology-group 12.5<br />
subj geography-location 6.83<br />
subj administration-location 6.16<br />
subj number-quantity 5.28<br />
subj chemistry-substance 4.16<br />
subj geography-object 4<br />
subj gastronomy-food 2.40<br />
C.7.9 Ondorioak<br />
Objektu Subjektu<br />
Iturria Teknika Zuzena Onargarria<br />
Eskuratu<br />
gabe<br />
Zuzen Onargarria Eskuratu gabe<br />
c2c 0 2tik 1 3tik 2 2tik 1 0 2tik 1<br />
SemCor w2c 0 10etik 2 3tik 1 10etik 2 0 0<br />
s2semf 0 2tik 1 4tik 2 0 1etik 1 2tik 2<br />
BNC<br />
w2c<br />
c2c<br />
0<br />
0<br />
10etik 2<br />
0<br />
3tik 1<br />
3tik 3<br />
10etik 1<br />
0<br />
10etik 1<br />
0<br />
0<br />
2tik 2<br />
EFE w2semf<br />
10etik 3 10etik 1 0 0 10etik 2 2tik 1<br />
149
150<br />
C.8 galdu_9<br />
C.8.1 Synseta MCRn<br />
00620218v<br />
competition<br />
DOMEINUAK:<br />
C.8.2 Urre patroiak<br />
lock 00620218v 5 lose_2<br />
lock 00620218v 0 galdu_9<br />
fail to win; "We lost the battle but we<br />
won the war"<br />
HITZA KATEGORIA SYNSET DOMEINUA<br />
galdu A 00620218 sport<br />
galdu 00620218: Absolutiboa<br />
c2c, w2c:<br />
04771851 competition contest an occasion on which a winner is selected from<br />
among two or +contestants (EVENT)<br />
00254052 game a contest with rules to determine a winner (ACTIVITY)<br />
08310444 definite quantity “a specific measure of amount”<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
sport-event<br />
number-quantity<br />
galdu 00620218: Ergatiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities (members) considered as a<br />
unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group
C.8.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />
galdu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa)<br />
abs x 10<br />
abs factotum-state 3.922<br />
abs number-quantity 3.75 ZUZENA<br />
abs quality-attribute 3.681<br />
abs sport-event 3.011 ZUZENA<br />
abs factotum-group 2.937<br />
abs factotum-cognition 2.600<br />
abs anthropology-group 2.130<br />
abs factotum-event 2.055 ONARGARRIA<br />
abs factotum-act 1.913 ONARGARRIA<br />
erg pro 46 ONARGARRIA<br />
erg x 6 ONARGARRIA<br />
erg number-quantity 1.125<br />
erg 0 1<br />
erg person-person 0.533 ZUZENA<br />
erg color-attribute 0.5<br />
erg quality-attribute 0.5<br />
erg geography-location 0.5<br />
erg administration-location 0.5<br />
erg factotum-act 0.473<br />
ine sport-event 1.2<br />
ine number-quantity 1.09<br />
ine x 1<br />
ine building_industry-artifact 0.77<br />
ine enterprise-group 0.61<br />
ine play-artifact 0.5<br />
ine factotum-act 0.5<br />
ine law-artifact 0.5<br />
ine botany-plant 0.5<br />
ine quality-attribute 0.3<br />
ine anthropology-group 0.3<br />
en_kontra factotum-state 0.33<br />
en_kontra number-cognition 0.16<br />
en_kontra factotum-location 0.16<br />
en_kontra time_period-time 0.16<br />
en_kontra metrology-quantity 0.16<br />
galdu.kontuakhitzak.kirolak<br />
abs aukera 11<br />
abs partidu 7<br />
abs talde 5<br />
abs x 4<br />
abs itzuli 3<br />
abs lau 3<br />
abs maila 2<br />
abs indar 2<br />
abs buru 2<br />
abs inozentzia 1<br />
abs gidoi 1<br />
151
152<br />
abs kanporaketa 1<br />
abs guzti 1<br />
abs bisitaldi 1<br />
abs bera 1<br />
abs puntu 1<br />
abs sentimendu 1<br />
abs pixka 1<br />
abs grazia 1<br />
abs bikote 1<br />
abs kontzentrazio 1<br />
abs valencia 1<br />
abs sentsibilitate 1<br />
abs konorte 1<br />
abs lehia 1<br />
abs jende 1<br />
abs itsaspen 1<br />
abs baloi 1<br />
abs kolore 1<br />
abs klasiko 1<br />
abs estadio 1<br />
abs norgehiagoka 1<br />
abs 0 1<br />
abs garrantzi 1<br />
abs segundo 1<br />
abs alde 1<br />
abs ezer 1<br />
abs final 1<br />
abs denbora 1<br />
abs olana 1<br />
adb alferrik 1<br />
adj x 1<br />
ala lantegi 1<br />
dat bala 1<br />
dat klub 1<br />
en_kontra azken 1<br />
erg pro 46<br />
erg x 2<br />
erg gu 2<br />
erg hori 1<br />
erg jabe 1<br />
erg portland 1<br />
erg miarriztar 1<br />
erg bi 1<br />
erg azterketa 1<br />
erg 0 1<br />
erg atezain 1<br />
erg gasteiztar 1<br />
erg bikote 1<br />
ine etxe 2<br />
ine tarte 1<br />
ine hanka 1<br />
ine txapelketa 1<br />
ine x 1<br />
ine baloi 1<br />
ine zati 1<br />
ine partidu 1
ine bi 1<br />
ine usta 1<br />
ine jardunaldi 1<br />
ins ondorio 1<br />
konp menpekoa 5<br />
mot akats 2<br />
mot 0 1<br />
soz sistema 1z<br />
menpekoa 1<br />
galdu: w2semf hautapen-murriztapenak (corpus osoa)<br />
abs quality-attribute 20.120<br />
abs factotum-cognition 17.199<br />
abs number-quantity 16.709 ZUZENA<br />
abs time_period-time 16.695<br />
abs factotum-state 16.551<br />
abs factotum-act 13.352 ONARGARRIA<br />
abs psychology-attribute 8.930<br />
abs metrology-quantity 7.145 ONARGARRIA<br />
abs psychology-cognition 7.110<br />
abs factotum-communication 6.722<br />
erg pro 158 ONARGARRIA<br />
erg x 27 ONARGARRIA<br />
erg factotum-cognition 6.269<br />
erg factotum-artifact 6<br />
erg politics-person 3.25<br />
erg person-person 3.164 ZUZENA<br />
erg quality-attribute 1.722<br />
erg number-quantity 1.458<br />
erg geography-location 1.111<br />
erg law-person 1.05<br />
erg botany-group 1<br />
ine x 18<br />
ine factotum-act 7.891<br />
ine time_period-time 4.376<br />
ine factotum-artifact 2.946<br />
ine sport-event 2.311<br />
ine factotum-state 2.262<br />
ine number-quantity 2.090<br />
ine factotum-communication 1.836<br />
ine metrology-time 1.6<br />
ine military-act 1.388<br />
en_kontra factotum-state 0.333<br />
en_kontra number-cognition 0.166<br />
en_kontra factotum-location 0.166<br />
en_kontra time_period-time 0.166<br />
en_kontra metrology-quantity 0.166<br />
153
154<br />
galdu.kontuakhitzak.ALL<br />
abl ondo 1<br />
abs aukera 32<br />
abs denbora 24<br />
abs x 13<br />
abs balio 13<br />
abs herri 12<br />
abs tanto 11<br />
abs araba 11<br />
abs kilo 10<br />
abs bizi 8<br />
abs partidu 7<br />
abs indar 6<br />
abs talde 5<br />
abs itxaropen 5<br />
abs zentzu 5<br />
abs nortasun 5<br />
abs enplegu 4<br />
abs moral 4<br />
abs 0 3<br />
abs beldur 3<br />
abs itzuli 3<br />
abs lege 3<br />
abs hauteskunde 3<br />
abs esperantza 3<br />
abs gudalburu 3<br />
abs gogo 3<br />
abs lanpostu 3<br />
abs lau 3<br />
abs diru 3<br />
abs hori 3<br />
abs buru 3<br />
abs pazientzia 3<br />
abs garaikide 2<br />
abs boto 2<br />
abs zati 2<br />
abs gehiago 2<br />
abs konorte 2<br />
abs pertsona 2<br />
abs txapel 2<br />
abs ohitura 2<br />
abs bizitza 2<br />
abs kontrol 2<br />
abs milioi 2<br />
abs dolar 2<br />
abs bat 2<br />
abs garrantzi 2<br />
abs distira 2<br />
abs puntu 2<br />
abs gehiengo 2<br />
abs ahalmen 2<br />
abs errespetu 2<br />
abs guzti 2<br />
abs kausa 2<br />
abs gaitasun 2<br />
abs maila 2<br />
abs boz 2<br />
abs zerbait 2<br />
abs lan 1<br />
abs eraikuntza 1<br />
abs pisu 1<br />
abs sinesgarritasun 1<br />
abs valencia 1<br />
abs itsaspen 1<br />
abs kolore 1<br />
abs norgehiagoka 1<br />
abs esperientzia 1<br />
abs alde 1<br />
abs artxibo 1<br />
abs aparta 1<br />
abs idazle 1<br />
abs entitate 1<br />
abs kolektibo 1<br />
abs buruzagi 1<br />
abs autonomia 1<br />
abs dantza 1<br />
abs lehia 1<br />
abs fede 1<br />
abs norabide 1<br />
abs etxe 1<br />
abs xarma 1<br />
abs estadio 1<br />
abs bikote 1<br />
abs autobus 1<br />
abs final 1<br />
abs sentsibilitate 1<br />
abs ezaugarri 1<br />
abs bozketa 1<br />
abs gobernuburu 1<br />
abs olana 1<br />
abs bi 1<br />
abs gobernu 1<br />
abs bista 1<br />
abs bilbotar 1<br />
abs bala 1<br />
abs ikuspuntu 1<br />
abs segundo 1<br />
abs ezer 1<br />
abs ikusmen 1<br />
abs kontzentrazio 1<br />
abs kurtso 1<br />
abs ipar 1<br />
abs eraginkortasun 1<br />
abs aita 1<br />
abs osasun 1<br />
abs ezker 1<br />
abs protagonismo 1<br />
abs minutu 1<br />
abs hipotesi 1<br />
abs litro 1<br />
abs orkestra 1
abs eskubide 1<br />
abs gidoi 1<br />
abs enpresa 1<br />
abs leku 1<br />
abs hanka 1<br />
abs hortz 1<br />
abs saindu 1<br />
abs auto 1<br />
abs kapital 1<br />
abs bera 1<br />
abs erantzukizun 1<br />
abs baloi 1<br />
abs langile 1<br />
abs sentimendu 1<br />
abs pixka 1<br />
abs horrelako 1<br />
abs grazia 1<br />
abs irudipen 1<br />
abs jaurlaritza 1<br />
abs jende 1<br />
abs inozentzia 1<br />
abs ordezkari 1<br />
abs hutsune 1<br />
abs datu 1<br />
abs hauek 1<br />
abs mozio 1<br />
abs klasiko 1<br />
abs egun 1<br />
abs lasterketa 1<br />
abs bake 1<br />
abs errekurtso 1<br />
abs kanporaketa 1<br />
abs ikasturte 1<br />
abs nagusitasun 1<br />
abs bisitaldi 1<br />
adb alferrik 2<br />
adb ia 2<br />
adb atzo 1<br />
adj berezko 2<br />
adj x 1<br />
adj polar 1<br />
ala ospitale 1<br />
ala lantegi 1<br />
dat gizarte 2<br />
dat bala 1<br />
dat pro 1<br />
dat kontzertu 1<br />
dat klub 1<br />
denb menpekoa 2<br />
en_jabe buru 11<br />
en_kontra azken 1<br />
erg pro 158<br />
erg metodo 12<br />
erg ea 10<br />
erg langile 3<br />
erg x 3<br />
erg agintari 2<br />
erg hori 2<br />
erg bizkaia 2<br />
erg gu 2<br />
erg atezain 1<br />
erg jaialdi 1<br />
erg jabe 1<br />
erg upn 1<br />
erg garate 1<br />
erg ni 1<br />
erg adin 1<br />
erg dantzari 1<br />
erg eraikuntza 1<br />
erg bikote 1<br />
erg behargin 1<br />
erg herritar 1<br />
erg portland 1<br />
erg miarriztar 1<br />
erg dibisio 1<br />
erg gehiengo 1<br />
erg emakume 1<br />
erg erregistro 1<br />
erg preso 1<br />
erg nafarroa 1<br />
erg gerrillari 1<br />
erg zu 1<br />
erg gorostiaga 1<br />
erg 0 1<br />
erg hb 1<br />
erg alderdi 1<br />
erg atxaga 1<br />
erg abertzale 1<br />
erg bi 1<br />
erg errusia 1<br />
erg azterketa 1<br />
erg gasteiztar 1<br />
erg mediku 1<br />
gisa kooperatiba 1<br />
ine gasteiz 11<br />
ine lehia 10<br />
ine behar 10<br />
ine taula 4<br />
ine x 3<br />
ine hilabete 3<br />
ine etxe 2<br />
ine bide 2<br />
ine jaurlaritza 1<br />
ine eae 1<br />
ine bi 1<br />
ine atera 1<br />
ine kilo 1<br />
ine fabrika 1<br />
ine txapelketa 1<br />
ine bat 1<br />
ine partidu 1<br />
ine ordu 1<br />
155
156<br />
ine usta 1<br />
ine aspaldi 1<br />
ine jardunaldi 1<br />
ine gizonezko 1<br />
ine ospakizun 1<br />
ine tarte 1<br />
ine espainia 1<br />
ine hiri 1<br />
ine nazioarte 1<br />
ine istripu 1<br />
ine borroka 1<br />
ine hauteskunde 1<br />
ine hanka 1<br />
ine zati 1<br />
ine goiz 1<br />
ine larunbat 1<br />
ine blokeo 1<br />
ine baloi 1<br />
C.8.4 SemCorreko c2c euskarara itzulita<br />
ine eremu 1<br />
ine ez 1<br />
ine eskola 1<br />
ins ondorio 4<br />
ins 0 1<br />
ins falta 1<br />
ins zoritxar 1<br />
ins momentu 1<br />
ins kilo 1<br />
konp menpekoa 26<br />
mot akats 2<br />
mot 0 1<br />
ra_ko hori 1<br />
soz denbora 1<br />
soz sistema 1<br />
teko menpekoa 13<br />
z menpekoa 1<br />
lose 00620218: c2c objektu hautapen-murriztapenak<br />
00228990 0.229 activity "any specific activity or pursuit;" ONARGARRIA<br />
04668121 0.210 debate disputation public_debate "the formal presentation…"<br />
lose 00620218: c2c subjektu hautapen-murriztapenak<br />
00017008 0.6 group grouping "any number of entities considered as a unit"<br />
ZUZENA<br />
00009469 0.194 object physical_object "a physical entity"<br />
C.8.5 SemCorreko s2semf euskarara itzulita<br />
lose 00620218: s2semf objektu hautapen-murriztapenakseletcional preferences:<br />
factotum-act 1 ONARGARRIA<br />
politics-communication 1<br />
lose 00620218: s2semf subjektu hautapen-murriztapenak<br />
factotum-Tops 2 ONARGARRIA
C.8.6 EFEko w2semf euskarara itzulita<br />
lose: w2semf objektu hautapen-murriztapenak<br />
obj number-quantity 17.666 ZUZENA<br />
obj x 16<br />
obj factotum-state 8.09<br />
obj factotum-act 7.19 ONARGARRIA<br />
obj play-act 5.26 ZUZENA<br />
obj factotum-artifact 5.04<br />
obj quality-attribute 4.96<br />
obj sport-event 4.05 ZUZENA<br />
obj zoology-animal 3.6<br />
obj factotum-cognition 3.2<br />
lose: w2semf subjektu hautapen-murriztapenak<br />
subj x 102 ONARGARRIA<br />
subj administration-group 15.3<br />
subj sport-group 13 ONARGARRIA<br />
subj zoology-group 12.5<br />
subj geography-location 6.83<br />
subj administration-location 6.16<br />
subj number-quantity 5.28<br />
subj chemistry-substance 4.16<br />
subj geography-object 4<br />
subj gastronomy-food 2.40<br />
C.8.7 Ondorioak<br />
Iturria Teknika Kasua Zuzena Onargarria<br />
Eskuratu<br />
gabe<br />
Egunkaria osoa w2semf<br />
abs<br />
erg<br />
10etik 1<br />
10etik 1<br />
10etik 2<br />
10etik 2<br />
4tik 1<br />
2tik 1<br />
Egunkaria<br />
kirolak<br />
w2semf<br />
abs<br />
erg<br />
10etik 2<br />
10etik 1<br />
10etik 2<br />
10etik 2<br />
0<br />
2tik 1<br />
Semcor<br />
c2c<br />
s2semf<br />
obj<br />
subj<br />
obj<br />
subj<br />
0<br />
2tik 1<br />
0<br />
0<br />
2tik 1<br />
0<br />
1tik 1<br />
2tik 1<br />
3tik 2<br />
2tik 1<br />
4tik 2<br />
2tik 2<br />
EFE kirolak w2semf<br />
obj<br />
subj<br />
10etik 3<br />
0<br />
10etik 1<br />
10etik 2<br />
0<br />
2tik 1<br />
157
158<br />
C.9 play_1<br />
C.9.1 Synseta MCRn<br />
00605818v<br />
base concept<br />
competition<br />
Dynamic<br />
Agentive<br />
Purpose<br />
Social<br />
DOMEINUAK:<br />
lock 00605818v 82 play_1 [99%]<br />
lock 00605818v 1 jokatu_2 [99%]<br />
play games, play sports; "We played hockey<br />
all afternoon"; "play cards"<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />
play A 00605818 play sport<br />
C.9.2 Urre patroiak<br />
play 00605818: objektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00240760 sport, athletics "an active diversion requiring physical… "<br />
04771851 contest competition "an occasion on which a winner is selected…"<br />
00254052 game a contest with rules to determine a winner; "you need four…"<br />
09065837 amount of time period period of time time period “a length of…”<br />
w2semf, s2semf:<br />
sport-event<br />
time_period-time<br />
sport-act<br />
play-act<br />
play 00605818: subjektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group
C.9.3 c2c SemCorretik<br />
OBJEKTUAK s2s:<br />
ball 02103632 round object that is hit or thrown or kicked in games.<br />
basketball 00270464 a game played on a court by two opposing teams of 5…<br />
card 02245777 one of a set of small pieces of stiff paper marked in…<br />
football 00263159 any of various games played with a ball in which two…<br />
game 00254326 a single play of a game; "the game lasted 2 hours"<br />
game 00256308 an amusement or pastime<br />
golf 00261291 a game played on a large open course with 9 or 18 holes.<br />
group 00017008 any number of entities (members) considered as a unit<br />
person 00004865 a human being; "there was too much for one person to do"<br />
pinball 00256739 a game played on a sloping board.<br />
rightfield 02836043 the part of the outfield on the catcher's right.<br />
SUBJEKTUAK s2s:<br />
group 00017008 any number of entities (members) considered as a unit<br />
line 05351374 a formation of people or things one after another.<br />
mate 06390424 a fellow member of a team; "it was his first start against…"<br />
nine 08416391 the cardinal number that is the sum of eight and one<br />
person 00004865 a human being; "there was too much for one person to do"<br />
young_man 05971919 a man who is the lover of a girl or young woman<br />
TROPONIMOAK ETA DOMEINUAK:<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />
start A 00607112 Play sport<br />
field A 00611046 Play sport<br />
bet_on A 00646526 Baseball sport<br />
stake A 00646526 Play sport<br />
parlay A 00646865 Play sport<br />
play 00605818: c2c objektu hautapen-murriztapenak<br />
00228990 0.215 activity "any specific activity or pursuit"<br />
STAKE: career (PLAY: football, basketball, geme_3, pinball) ONARGARRIA<br />
00004865 0.117 person individual someone somebody mortal human soul<br />
START: mate<br />
00017008 0.102 group grouping "any number of entities considered as a unit"<br />
FIELD: team (PLAY: The Owls)<br />
00009469 0.071 object physical_object "a physical entity"<br />
(PLAY: card, ball, rightfield)<br />
04771851 0.035 contest competition "an occasion on which a winner is<br />
selected from…" (PLAY: geme_2) ZUZENA<br />
03875944 0.029 interest involvement "a sense of concern with and…"<br />
08162378 0.014 cost "the total spent for goods or services including…"<br />
PARLAY: earnings<br />
01691640 0.011 horse Equus_caballus "solid-hoofed herbivorous quadruped…"<br />
BET_ON: pony<br />
159
160<br />
play 00605818: c2c subjektu hautapen-murriztapenak<br />
00017008 0.517 group grouping "any number of entities considered as a unit"<br />
FIELD: group (“The Orioles”) (PLAY: “The Mustangs, SMU, line) ZUZENA<br />
00004865 0.507 person individual someone somebody mortal human soul<br />
START: H. Haddix eta BET_ON: celebrants (PLAY: mate, youngman…) ZUZENA<br />
00009469 0.079 object physical_object "a physical entity"<br />
08413915 0.032 digit "one of the elements that collectively form a system…"<br />
(PLAY: nine)<br />
03953834 0.032 idea thought "the content of cognition"<br />
C.9.4 w2c SemCorretik<br />
s2s: (ikus B.9.3 atala)<br />
play 00605818: w2c objektu hautapen-murriztapenak<br />
00228990 0.148 activity "any specific activity or pursuit;" ONARGARRIA<br />
00004865 0.105 person individual someone somebody mortal human soul<br />
00009469 0.040 object physical_object "a physical entity"<br />
00017008 0.031 group grouping "any number of entities considered as a unit"<br />
00018599 0.029 communication "something that is communicated between…"<br />
00021098 0.028 action "something done (usually as opposed to something…)"<br />
00018966 0.008 measure quantity amount quantum "how much there is of…"<br />
00015437 0.007 state "the way something is with respect to its main…"<br />
00017586 0.007 attribute "an abstraction belonging to or characteristic…"<br />
04771851 0.006 contest competition "an occasion on which a winner…" ZUZENA<br />
play 00605818: w2c subjektu hautapen-murriztapenak<br />
00004865 0.308 person individual someone somebody mortal human soul ZUZENA<br />
00017008 0.125 group grouping "any number of entities considered…" ZUZENA<br />
00009469 0.059 object physical_object "a physical entity"<br />
00012670 0.043 abstraction "a general concept formed by extracting…"<br />
06467898 0.029 physical_phenomenon "a natural phenomenon involving the…"<br />
08522741 0.016 situation state_of_affairs "the general state of things…"<br />
08125923 0.011 community "common ownership"<br />
00012878 0.008 cognition knowledge "the psychological result of…"<br />
C.9.5 s2semf SemCorretik<br />
play 00605818: s2semf objektu hautapen-murriztapenak<br />
play-act 3.5 ZUZENA<br />
sport-act 1.5 ZUZENA<br />
baseball-artifact 1<br />
factotum-Tops 1 ONARGARRIA<br />
card-artifact 1<br />
play-artifact 0.5<br />
golf-act 0.5 ONARGARRIA<br />
anthropology-Tops 0.5<br />
basketball-act 0.5 ONARGARRIA<br />
sport-artifact 0.5<br />
biology-Tops 0.5
play 00605818: s2semf subjektu hautapen-murriztapenak<br />
number-quantity 1<br />
sport-person 1 ONARGARRIA<br />
factotum-group 1 ZUZENA<br />
factotum-Tops 1 ONARGARRIA<br />
person-person 1 ZUZENA<br />
biology-Tops 0.5<br />
anthropology-Tops 0.5<br />
C.9.6 w2c BNCtik<br />
play: w2c objektu hautapen-murriztapenak<br />
00228990 0.082 activity "any specific activity or pursuit" ONARGARRIA<br />
00009469 0.077 object physical_object "a physical entity"<br />
00004865 0.070 person individual someone somebody mortal human soul<br />
00012670 0.028 abstraction "a general concept formed by extracting…"<br />
00021098 0.020 action "something done (usually as opposed to something…)"<br />
00597858 0.012 group_action "action taken by a group of people"<br />
00012878 0.012 cognition knowledge "the psychological result of…"<br />
04771851 0.009 contest competition "an occasion on which a winner…" ZUZENA<br />
05650477 0.00972182120188812 part piece "a portion of a natural object"<br />
04690182 0.0087730222390469 happening occurrence natural_event<br />
play: w2c subjektu hautapen-murriztapenak<br />
08813320 0.160 helium He atomic_number_2<br />
00004865 0.121 person individual someone somebody mortal human soul ZUZENA<br />
04455766 0.064 he "the 5th letter of the Hebrew alphabet"<br />
00011607 0.043 artifact artefact "a man-made object"<br />
05149489 0.035 organization organisation "a group of people who…" ONARGARRIA<br />
04313427 0.021 message content subject_matter substance<br />
00016649 0.017 act human_action human_activity "something that people do…"<br />
00018966 0.016 measure quantity amount quantum "how much there is of…"<br />
00014314 0.016 location "a point or extent in space"<br />
00012878 0.014 cognition knowledge "the psychological result of…"<br />
w2w:<br />
play: w2w objektuak<br />
play<br />
'cos<br />
After_Wentworth<br />
Afterwards<br />
Alain<br />
Albert_Hall<br />
Albrecht<br />
Alfred<br />
All_Blacks<br />
Allcock<br />
Although<br />
American<br />
Americans<br />
And<br />
Anderlecht<br />
Andy_Lloyd<br />
Anglicised<br />
Argentina<br />
Arsenal<br />
As<br />
At<br />
Australian<br />
Australian_Open<br />
Austria<br />
B<br />
BB<br />
Bach<br />
161<br />
Bach_Brandenburg_Concert<br />
o<br />
Back<br />
Baliol<br />
Ballesteros<br />
Baresi<br />
Because<br />
Becker<br />
Bet<br />
Billy<br />
Blackeyes<br />
Boswell<br />
Botvinnik<br />
Bountiful
162<br />
Brazil<br />
Brownie_Hansen<br />
But<br />
Byron<br />
Cambridge<br />
Canada<br />
Canadian<br />
Captain<br />
Cardiff<br />
Celia<br />
Chariots_Of_Fire<br />
Charlene<br />
Charles_Chaplin<br />
Chile<br />
Chilterns<br />
Chopin<br />
Cinderella<br />
Clark_Kellog<br />
Claudius<br />
Colonel_North<br />
Concerto<br />
Continental<br />
Cork_Constitution<br />
Coventry_City<br />
Cup<br />
Cups_-_is<br />
Czechoslovakia<br />
Dale_Cooper<br />
Dame<br />
David<br />
Davies<br />
Decadence<br />
Del_Harris<br />
Did<br />
Do<br />
Does<br />
Don_Juan<br />
Durham_Wasps<br />
Dutch<br />
East<br />
Eliza<br />
Elvira_Madigan_Moza<br />
rt<br />
England<br />
Equivalent<br />
Essie<br />
Eugene_Marchbanks<br />
Every<br />
Exmouth<br />
Ferdinand<br />
Fife_Flyers<br />
Fiji<br />
Fleance<br />
Football<br />
For<br />
For_McOwan<br />
Four_Nations_Once_A<br />
gain<br />
France<br />
Frankenstein<br />
Fred<br />
Fred_Flintstone<br />
French_Open<br />
Gatsby<br />
Geoff_Williams<br />
Gigi<br />
God<br />
Guatemela<br />
Hamlet<br />
Hana_Mandlikova<br />
Harold_Bishop<br />
He<br />
Herodias<br />
Highland_Laddie<br />
Hodge<br />
Holland<br />
Hotspur<br />
Houston_Astros<br />
I<br />
Iago<br />
If<br />
Ignatius<br />
In<br />
In_Now_Voyager<br />
India<br />
Irish<br />
Irma<br />
Isabella<br />
Israel<br />
Italy<br />
James<br />
James_Bond<br />
Jane<br />
January<br />
Jay_Sigel<br />
Jeff_Tarango<br />
Jerry_Lee<br />
Jessica<br />
Jimmy_Connors<br />
Joe_Orton<br />
John_Ireland<br />
John_Paul_II<br />
Jugoplastika_Split<br />
Juliet<br />
Just<br />
Karpov<br />
Keys<br />
La_Fille_Mal_Gardee<br />
Lady_MacDuff<br />
Lear_-_or_for<br />
Leeds_Town_Centre<br />
Leicester<br />
Let<br />
Lilian<br />
Lithuania<br />
Littlechap<br />
Lola_Lovell<br />
Madge<br />
Malcolm<br />
Marchbanks<br />
Martin<br />
Masters<br />
Max_Davidson<br />
Medea<br />
Mess<br />
Mick_Langley<br />
Mike<br />
Miloslav_Mecir<br />
Monaco<br />
Mother_Simone<br />
Mozart<br />
Mrs_Pearce<br />
Murder<br />
Neath<br />
New_Zealand<br />
Newport<br />
Next_Friday<br />
Nick<br />
Nina_Simone<br />
Northern_Ireland<br />
Norwich<br />
Not<br />
Now<br />
Nowhere<br />
On<br />
On_Sunday<br />
Ophelia<br />
Opo<br />
Oral_Roberts_University<br />
Othello<br />
PE<br />
Pakistan<br />
Part<br />
Partizan<br />
Patience<br />
Peeping_Tom<br />
Peter<br />
Pizza_Express_National_L<br />
eague<br />
Platt<br />
Poulenc<br />
Prelude<br />
Prentice<br />
Prussian<br />
Punjab_XI<br />
Queen<br />
Randall<br />
Randy_Bodek
163<br />
Real_Madrid<br />
Recently<br />
Robbie_Krieger<br />
Robin_Hood<br />
Ronald_Reagan<br />
Rosie_Tickletoe<br />
Rowan_Tree<br />
Roy_Castle<br />
Royal_Albert_Hall<br />
Rugby<br />
Rummidge_University<br />
Sami_Elopuro<br />
Sampdoria<br />
Sarcophagus<br />
Satie<br />
Scot<br />
Scotland<br />
Scott<br />
Shilton<br />
Shylock<br />
Sibelius<br />
Slater<br />
Smiths<br />
Snodin<br />
So<br />
Soma_Singh<br />
Sometimes<br />
South_African<br />
Soviet_Union<br />
Spain<br />
Stars<br />
Stax/Atlantic<br />
Steffi<br />
Sunderland<br />
Surrey<br />
Swansea<br />
Sweden<br />
Tears<br />
Tenth_Symphony<br />
Test<br />
The<br />
The_Elder_Statesman<br />
The_Faces<br />
The_Fool<br />
The_Marquee<br />
The_Olympics<br />
Theatre<br />
Then<br />
Thief<br />
This<br />
This_Lightning_Alwa<br />
ys_Strikes_Twice<br />
Thomas_Indermuhle<br />
Thus<br />
To<br />
Tony_Hancock<br />
Topsy<br />
Torino<br />
Toto<br />
Tourism<br />
Trumpet_Concerto<br />
Twenty_Questions<br />
Undiscovered_Countr<br />
y<br />
United_States<br />
Up_Jenkins<br />
Urbane_Slava<br />
Uruguay<br />
V<br />
Victor_Laszlo<br />
Vincent_Van_Gogh<br />
Viola<br />
Volumnia<br />
We<br />
Wearin<br />
Wendy_Darling<br />
West_Germany<br />
West_Indies<br />
When<br />
While<br />
Wigan<br />
Wimbledon<br />
World_Cup<br />
World_International<br />
_Club_<br />
Championships<br />
Yet<br />
Yugoslavia<br />
accompaniment<br />
accordion<br />
ace<br />
ace_of_clubs<br />
act<br />
adore<br />
agent<br />
air<br />
airs<br />
album<br />
alto-saxophone<br />
antic<br />
anything<br />
anyway_-_probably<br />
area<br />
audio<br />
author<br />
back<br />
backgammon<br />
baddy<br />
badminton<br />
bagpipe<br />
baker<br />
ball<br />
ball-games<br />
ball_game<br />
ballerina<br />
band<br />
banjo<br />
bar<br />
barber<br />
bars<br />
baseball<br />
basketball<br />
bass<br />
batsman<br />
benefit_concert<br />
billing<br />
bit<br />
bitch-goddesses<br />
black<br />
blindfold<br />
bongo<br />
bopeep<br />
boule<br />
bowling<br />
bowls<br />
boy<br />
bridge<br />
brother<br />
bucket-base<br />
bulldozer<br />
bunker<br />
cameo<br />
card<br />
card_game<br />
career<br />
cat<br />
catch<br />
cello<br />
centenary<br />
chamber_music<br />
champion<br />
championship<br />
chanter<br />
char<br />
character<br />
chase<br />
chauffeur<br />
chess<br />
chicken<br />
child<br />
chip<br />
chord<br />
cinderella<br />
circuses<br />
clari<strong>net</strong><br />
classical_music<br />
clown<br />
club
164<br />
cockney<br />
cold<br />
comedy<br />
comic<br />
company<br />
competition<br />
concert<br />
concerto<br />
consul<br />
contest<br />
copy<br />
cornemuse<br />
couple<br />
course<br />
cousin<br />
cowboy<br />
creation<br />
cricket<br />
cup_final<br />
dad<br />
dart<br />
darts<br />
daughter<br />
debut<br />
deep<br />
defeat<br />
defence<br />
designation<br />
detective<br />
dice<br />
dirge<br />
doctor<br />
double<br />
doubles<br />
drama<br />
draw<br />
drawing_room<br />
drop<br />
drug_addict<br />
drum<br />
drummer<br />
drunk<br />
dulcimer<br />
each_other<br />
editor<br />
emigre<br />
enough<br />
environs<br />
equaliser<br />
event<br />
everybody<br />
everything<br />
evil<br />
ex-lovers<br />
ex-policeman<br />
exhibition<br />
explosive<br />
facility<br />
faction<br />
fair<br />
father<br />
favourite<br />
feminist<br />
fermata<br />
fiddle<br />
field<br />
film<br />
final<br />
first<br />
fish<br />
flirt<br />
flute<br />
fly-half<br />
folk_music<br />
football<br />
footsy<br />
for_-_but<br />
forehand_shot<br />
formation<br />
forte<br />
forward<br />
foxtrot<br />
friendlies<br />
full_time<br />
game<br />
game_-_sorry<br />
garden<br />
gear<br />
gig<br />
girl<br />
going_ashore<br />
gold_digger<br />
golf<br />
good_deal<br />
goody<br />
government<br />
great_care<br />
great_power<br />
ground<br />
guitar<br />
guitar_-_without<br />
gunfighters<br />
guy<br />
hall<br />
hand<br />
handful<br />
hard-to-get<br />
havoc<br />
he<br />
head<br />
hearts<br />
heavy<br />
her<br />
hide<br />
him<br />
himself<br />
his<br />
hisown<br />
history<br />
hockey<br />
holder<br />
hole<br />
hook<br />
hooker<br />
host<br />
house<br />
hunch<br />
husband<br />
hymn<br />
importance<br />
increase<br />
information<br />
infrastructure<br />
inning<br />
instrument<br />
instrument_-_even<br />
internationals<br />
interview<br />
issue<br />
it<br />
its<br />
itself<br />
jazz<br />
jazz_band<br />
joke<br />
key<br />
keyboard<br />
kick<br />
knight<br />
knucklebones<br />
labrador<br />
lady<br />
lament<br />
lead<br />
leader<br />
league<br />
leg<br />
length<br />
liking<br />
line<br />
links<br />
lob<br />
local<br />
location<br />
look_-_in<br />
lot<br />
love<br />
lover
165<br />
low<br />
lute<br />
lyre<br />
major<br />
make<br />
man<br />
manner<br />
market<br />
match<br />
matches<br />
material<br />
me<br />
melody<br />
member<br />
minor_role<br />
mogul<br />
moment<br />
mother<br />
move<br />
movement<br />
movie<br />
moving<br />
music<br />
music_-_recorded<br />
musical_chairs<br />
musical_instrument<br />
muzak<br />
nation<br />
national_anthem<br />
negative<br />
nine_iron<br />
nobodies<br />
note<br />
note_-_without<br />
nurse<br />
oboe<br />
officer<br />
official<br />
one-two<br />
opponent<br />
opposite<br />
opposite_number<br />
opposition<br />
oppositon<br />
organ<br />
pachinko<br />
part<br />
partner<br />
parts<br />
pass<br />
passage<br />
patience<br />
people<br />
people_-_he<br />
performance<br />
performer<br />
personnel<br />
phoney<br />
piano<br />
picture<br />
piece<br />
piece_of_music<br />
ping-pong<br />
pipe<br />
place<br />
plastic<br />
player<br />
pleasure<br />
point<br />
poker<br />
police_officer<br />
policeman<br />
policy<br />
politics<br />
poll<br />
polo<br />
pool<br />
pop<br />
power-games<br />
power_politics<br />
ppp<br />
practical_joke<br />
practice<br />
present<br />
prince<br />
princess<br />
private_eye<br />
producer<br />
qualification<br />
quarterback<br />
quotation<br />
racketball<br />
radio<br />
range<br />
realisation<br />
record<br />
recorder<br />
records_-_all<br />
refinement<br />
rehearsal<br />
renegade<br />
repertory<br />
replay<br />
resource<br />
rest<br />
review<br />
revival<br />
rhythm-guitar<br />
role<br />
role_-_that<br />
round<br />
routine<br />
rugby<br />
runners-up<br />
sacrifice<br />
safe<br />
safety<br />
salute<br />
savage<br />
sax<br />
scene<br />
schedule<br />
season<br />
second<br />
second_fiddle<br />
seeded_player<br />
senior<br />
sequence<br />
series<br />
serve-and-volley<br />
set<br />
seventeen-year-olds<br />
shadow<br />
she<br />
shit<br />
shop<br />
shot<br />
show<br />
showcase<br />
side<br />
siege<br />
significance<br />
silly<br />
singer<br />
singles<br />
siren<br />
sniffers<br />
soccer<br />
solo<br />
someone<br />
something<br />
sonata<br />
song<br />
soothsayer<br />
sort<br />
soul<br />
sound<br />
spectacular<br />
spectator<br />
speech<br />
spinner<br />
sport<br />
squash<br />
squawk_-_actually<br />
squeeze_box<br />
stage<br />
standard<br />
standing
166<br />
star<br />
start<br />
stock_market<br />
straight<br />
straight_man<br />
string<br />
stroke<br />
stuff<br />
style<br />
subject<br />
success<br />
support<br />
surface<br />
sweeper<br />
symphonies_-_and_so<br />
symphony<br />
system<br />
table_tennis<br />
tackle<br />
talker<br />
tape<br />
tape_recording<br />
tea<br />
team<br />
team-mate<br />
television<br />
tennis<br />
tenor<br />
term<br />
test<br />
text<br />
that<br />
their<br />
them<br />
theme<br />
themselves<br />
these<br />
thing<br />
third<br />
this<br />
those<br />
thrust<br />
thumb<br />
time<br />
tour<br />
tournament<br />
town<br />
toyboy<br />
traitor<br />
tremolo<br />
trick<br />
trickster<br />
troupe<br />
truant<br />
trump_card<br />
try<br />
tune<br />
tune_-_he<br />
twenty-one<br />
twist<br />
type<br />
tzigane<br />
ukulele<br />
union<br />
unknown<br />
us<br />
vamp<br />
variation<br />
variety<br />
venue<br />
verse<br />
version<br />
victory<br />
video<br />
villain<br />
violin<br />
vote<br />
waiting_game<br />
war<br />
we<br />
well<br />
well_-_doing<br />
well_-_that<br />
what<br />
when_-_as<br />
which<br />
whist<br />
white<br />
who<br />
whole<br />
whom<br />
wife<br />
winner<br />
witch<br />
woman<br />
word<br />
word_game<br />
work<br />
works<br />
workshop<br />
worse<br />
writing<br />
you<br />
your<br />
zzzsssss-on<br />
play:w2w subjektuak<br />
tung<br />
ACET-link<br />
Advertising<br />
Africa<br />
Africans<br />
Ajax<br />
Alan<br />
Alan_Duffy<br />
Alan_Tait<br />
Alec_Guinness<br />
Alexandra_Mathie<br />
Alison_Fiske<br />
Alison_Ramsay<br />
All<br />
All_Leeds<br />
Alto_Ego<br />
Alun_Armstrong<br />
Amadu_Bamba<br />
Amanda_Harris<br />
Americans<br />
And_Evelyn<br />
And_Jerry_Lewis<br />
Anja<br />
Ann_Charleston<br />
Annesley<br />
Annie_Jones<br />
Anthropology<br />
Apoptosis<br />
Arashi<br />
Argentina<br />
Argentinian<br />
As<br />
Asian<br />
Association<br />
At<br />
Audrey<br />
Australia<br />
Australian<br />
BARCELONA<br />
BRIAN_ANDREW<br />
Baa-Baas<br />
Ballesteros<br />
Barcelona<br />
Becker<br />
Berry<br />
Bill<br />
Billie_Jean_King<br />
Birmingham_City<br />
Bobby_Abel<br />
Bogarde<br />
Bolton<br />
Boosey<br />
Both<br />
Bread<br />
Brentford<br />
Brian_O'Donnell<br />
Bridgend<br />
Britain<br />
British_people<br />
Briton<br />
Bruce_Alexander<br />
Bull
167<br />
Bully<br />
Bunce<br />
Busaco<br />
But<br />
But_Olechea<br />
CHEN_XINHUA<br />
Cadet_Diana_Grant<br />
Cambridge_Universit<br />
y<br />
Campbell<br />
Caniggia<br />
Cardiff<br />
Casey<br />
Cash<br />
Certainly_American<br />
Channel_3<br />
Charles<br />
Chen<br />
Chilcott<br />
Children<br />
Chile<br />
Christianity<br />
Christopher_B.<br />
City<br />
Clark_Lectures<br />
Clasper<br />
Coins<br />
Companies<br />
Cordwell<br />
Cross<br />
Crossman<br />
DAVID_FEHERT<br />
DJ<br />
DM<br />
DUP<br />
Daly<br />
Dave_Stringer<br />
Dave_Whelan<br />
David<br />
David_Creasser<br />
David_Feherty<br />
David_Titterington<br />
Davies<br />
Davos<br />
Davy_Spillane<br />
Dennis<br />
Derek<br />
Diana<br />
Diego_Maradona<br />
Dignam<br />
Dittmar<br />
Dominique_Abel<br />
Dorothy<br />
Driver_Oliver<br />
Duke<br />
Dutch<br />
Dwight_York<br />
Dziekanowski<br />
EC<br />
ELLERY_HANLE<br />
East<br />
Eban<br />
Echolocation<br />
Edberg<br />
Elizabeth_Ben<strong>net</strong>t<br />
Ellison<br />
Emma_Bernard<br />
Emo_Philips<br />
England<br />
English<br />
Essex<br />
Evelyn<br />
Events<br />
Evert<br />
Except<br />
Faldo<br />
Fame/It<br />
Family_Day-<br />
_Families<br />
Farmers<br />
Federal_Chancellor<br />
Ferdinand<br />
Fernandel<br />
Fido<br />
Fiji<br />
Five<br />
Flare<br />
Flowered_Up<br />
Forest<br />
Fouroux<br />
Fowl<br />
France<br />
Frank_Bruno<br />
Frankie<br />
Further<br />
GARRY_HARVEY<br />
GARRY_SCHOFIE<br />
GRIMSBY<br />
Gareth_Edwards<br />
Gary_Armstrong<br />
Gen_Beg<br />
General_Noriega<br />
Geoff_Cooke<br />
George<br />
German<br />
German_Democratic_R<br />
epublic<br />
Gerry<br />
Gilchrist<br />
Gloria<br />
Goldoni<br />
Gooch<br />
Government<br />
Graham_Gooch<br />
Grayson<br />
Great_Britain<br />
Greenidge<br />
Grobbelaar<br />
Gullit<br />
Had_Hagi<br />
Had_Liverpool<br />
Hagi<br />
Hakan_Hardenbege<br />
Hale_Irwin<br />
Hamp<br />
Hanley<br />
Hansford<br />
Harriet<br />
Harriet_Walter<br />
Harrison<br />
Harry_de_Tunja<br />
Having<br />
He<br />
Helen_Mirren<br />
Hemmings<br />
Her_Yorkshire_Terrier<br />
Highlander<br />
Hispanic<br />
Hobbs<br />
Hoffmann<br />
Hollywood<br />
Home_Unions_XV<br />
Hopkins<br />
Horace<br />
Horse<br />
Howard_Clark<br />
However<br />
Hudson<br />
Humphries<br />
Hunter<br />
Hussain<br />
I<br />
IAN_SHERRATT<br />
ILLNESS<br />
IRA<br />
ITALY<br />
If<br />
If_Steve<br />
Ilona<br />
Immigration<br />
In<br />
In_London<br />
Ipswich<br />
Irwin<br />
Isla<br />
It<br />
Ivan_Lendl<br />
Jack_Good
168<br />
Jack_Nicholson<br />
Jackman<br />
Jan_Russ<br />
Jane<br />
Janssen<br />
Jason_Strange<br />
Jay<br />
Jazz_FM<br />
Jews<br />
Jez_Harris<br />
Jim_Pugh<br />
Jimmy<br />
Jimmy_Connors<br />
Jo<br />
John_Kirwan<br />
Johnson<br />
Jonathan_Griffiths<br />
Joolz<br />
Just<br />
Karpov<br />
Keen<br />
Kennedy<br />
Kevin_Simms<br />
Kimmins<br />
King<br />
Klepner<br />
Knott<br />
Konitz<br />
Kylie<br />
Labour_Britain<br />
Lamb<br />
Lara<br />
Later<br />
Lawson<br />
Leagues<br />
Lech_Walesa<br />
Lee<br />
Leeds<br />
Len_Shackleton<br />
Lenin<br />
Leonard<br />
Leonel_Alvarez<br />
Lew_Stone_Band<br />
Lewis<br />
Li<br />
Liam_Neeson<br />
Liberal_Democrats<br />
Life<br />
Lionel_Stander<br />
Lisa<br />
Liv_Ullman<br />
Liverpool<br />
Livingston<br />
Llanelli<br />
Lockwood<br />
Louis_Stanley<br />
Lucy<br />
MILLWALL_Football_C<br />
lub<br />
Madonna<br />
Major<br />
Major_Jaromir_Necha<br />
nsky<br />
Mandy_Wainwright<br />
Many<br />
Margaret_Lockwoo<br />
Marshall<br />
Masters_Ballesteros<br />
Mathews<br />
Matthews<br />
Maxim_Vengerov<br />
Mayall<br />
McBurney<br />
McEwan_Younger<br />
McPherson<br />
Meg_Ryan<br />
Mein_Kampf<br />
Mel_Gibson<br />
Merson<br />
Mervyn_King<br />
Mets<br />
Michael_Caine<br />
Michael_Gambon<br />
Michael_Kitchen<br />
Mick<br />
Mike_Kenrick<br />
Miss_Sanchez<br />
Mogilny<br />
Monaco<br />
Moore<br />
Morgan<br />
Morton<br />
Motorfair<br />
Mrs_Thatcher<br />
Murray_Howell<br />
Music<br />
Musicians<br />
NECHAEV<br />
Neath<br />
Neil_Puckering<br />
Nicola_Buxton<br />
Nigel_Terry<br />
No_27<br />
Norman<br />
Northampton<br />
Now<br />
O<br />
ON_A_London_Saturda<br />
y<br />
Obesity<br />
Oh<br />
Old_Testament<br />
On<br />
One<br />
Only_Harris<br />
Only_Willey<br />
Orlando_Thunder<br />
Owen<br />
PPBs<br />
PWL<br />
Paddy_Ashdown<br />
Paisley<br />
Panathinaikos<br />
Parker<br />
Patrick<br />
Patrick_Dempsey<br />
Patrick_Patterson<br />
Patten<br />
Paul<br />
Paul_Loughlin<br />
Paul_Merson<br />
Peers<br />
People<br />
Peter<br />
Phil<br />
Philbert_Jones<br />
Philip<br />
Pilade<br />
Pitt<br />
Porfiry<br />
Pornography<br />
Pound<br />
Press_Council<br />
Prince<br />
Queen_Elizabeth<br />
RAF<br />
Rabin<br />
Rachmaninov<br />
Rafferty<br />
Ralph_Richardson<br />
Ramsey<br />
Ray_McAnally<br />
Realistically<br />
Regimental_Band<br />
Relations<br />
Republic<br />
Richard<br />
Richards<br />
Rick_Wakeman<br />
Rijkaard<br />
Ringo_Starr<br />
Rob_Andrew<br />
Roberto_Donadoni<br />
Robin_Williams<br />
Robson<br />
Rocastle<br />
Rodney_Martin<br />
Roger_Harper
169<br />
Romanians<br />
Rose<br />
Roy_Powell<br />
Rudd<br />
Russian<br />
Sanchez<br />
Sanchez-Vicario<br />
Sandy_Lister<br />
Sasha<br />
Saver<br />
Semillon<br />
Sergei<br />
Shakespeare<br />
Shamir<br />
Shaw<br />
She<br />
Sheffield<br />
Shelford<br />
Shelley_Willetts<br />
Shelton<br />
Short<br />
Shriver<br />
Sibelius_Violin_Con<br />
certo<br />
Silviu_Brucan<br />
Since<br />
Sinton<br />
So<br />
Some<br />
Soon<br />
Southampton<br />
Soviet_Union<br />
Soviets<br />
Spain<br />
Sponsorship<br />
St_Stephen<br />
Stanley_Baxter<br />
Statham<br />
Steffi<br />
Steve<br />
Steve_Stoutt<br />
Stewart<br />
Sunderland<br />
Sylvester_Stallone<br />
The_London_Metal_Ex<br />
change<br />
THE_SLIDE<br />
The_Soviet_Union<br />
Tammuz<br />
Technology<br />
Tendulkar<br />
Terry<br />
Terry_Griffiths<br />
Thames<br />
The<br />
The_Ambrose_Or<br />
chestra<br />
The_Army<br />
The_British<br />
The_British_Prime_M<br />
inister<br />
The_Doors<br />
The_Esk_Valley<br />
The_Festival<br />
The_Gaullist_RPR<br />
The_Grifters_Anjeli<br />
ca_Huston<br />
The_Pakistani<br />
The_Poles<br />
The_Slavia<br />
The_Style_Council<br />
Then<br />
They<br />
This<br />
Thomas<br />
Those<br />
Todd<br />
Tomorrow<br />
Tonight_England<br />
Tony_Blackburn<br />
Torrijos<br />
Treitel<br />
Truman<br />
Trust<br />
Two<br />
UN_High_Commission<br />
Ugly_Sisters<br />
Unlike_Holland<br />
Val_Robinson<br />
Vicini<br />
Viktoria_Mullova<br />
Vivien<br />
Volunteers<br />
Wainwright<br />
Wallace<br />
We<br />
Wendy_Hiller<br />
Werder_Bremen<br />
West_End_Leo_McKern<br />
West_Ham<br />
When<br />
When_Jack_Nickla<br />
When_Kent<br />
When_Lamb<br />
When_Prince<br />
White<br />
Williams<br />
Winter_Gardens<br />
With<br />
Wolstenholme<br />
Women<br />
Woods<br />
Woody<br />
World_Cup<br />
Worrall<br />
Wright<br />
Wyllie<br />
Yet_Binyon<br />
Yet_England<br />
Yorkshire_Asians<br />
You<br />
Yudishthira<br />
Yusupov<br />
Zsuzsa<br />
Zvornik<br />
act<br />
actor<br />
actor-dancers<br />
actors_-_in<br />
actress<br />
adaptation<br />
admirer<br />
affiliation<br />
age<br />
agriculture<br />
air<br />
air_pollution<br />
airstrip<br />
album<br />
anthropology<br />
anybody<br />
arbour<br />
army<br />
art<br />
artist<br />
aspect<br />
assiduity<br />
atmosphere<br />
atom<br />
audition<br />
authority<br />
back<br />
bagpipe<br />
balance<br />
ball<br />
band<br />
bandsmen<br />
bank<br />
base<br />
batsmen<br />
best<br />
bigwig<br />
bimbo<br />
bloke<br />
book<br />
boredom<br />
bottom
170<br />
boy<br />
breeze<br />
brother<br />
busker<br />
buyer<br />
cabi<strong>net</strong>_minister<br />
capitalism<br />
captain<br />
car_park<br />
cassette<br />
cast<br />
cello<br />
challenge<br />
chance<br />
chancellery<br />
character<br />
chief<br />
child<br />
chord<br />
choreographer<br />
church<br />
circuit<br />
city<br />
civil_servant<br />
class<br />
clergy<br />
clock<br />
close_support<br />
club<br />
cog<br />
coinage<br />
combination<br />
company<br />
computer<br />
conductor<br />
conflict<br />
consistency<br />
constituent<br />
consultation<br />
coordination<br />
corruption<br />
costs_-_and_this<br />
council<br />
country<br />
court<br />
coverage<br />
crew<br />
culture<br />
dark_glasses<br />
declarer<br />
defence_policy<br />
defensive<br />
department<br />
design<br />
development<br />
devil<br />
devotee<br />
devotion<br />
donation<br />
drug<br />
economy<br />
election<br />
element<br />
entire<br />
episode<br />
escalation<br />
established_church<br />
event<br />
everybody<br />
experience<br />
facility<br />
factor<br />
factory<br />
familiar<br />
family<br />
fanatic<br />
farmer<br />
father<br />
favourite<br />
federation<br />
fiddler<br />
fighter<br />
figure<br />
finishing<br />
foal<br />
football<br />
force<br />
foreign_office<br />
foremen<br />
friend<br />
fullback<br />
game<br />
general<br />
girl<br />
girlfriend<br />
go<br />
goal<br />
goalkeeper<br />
golfer<br />
gotta<br />
governing<br />
government<br />
grain<br />
gramophone<br />
grandchildren<br />
grazing<br />
group<br />
growth<br />
guitarist<br />
guy<br />
ha-kohen<br />
hand<br />
hath<br />
he<br />
he/she<br />
head<br />
headmaster<br />
her<br />
heroine<br />
him<br />
himself<br />
his<br />
history<br />
homecare<br />
homosexuality<br />
honorarium<br />
house<br />
human<br />
humour<br />
ideal<br />
ideologue<br />
ii<br />
increase<br />
inhibition<br />
inning<br />
intellectual<br />
interest_-_may<br />
internationals<br />
interstice<br />
intricacy<br />
investment<br />
it<br />
joke<br />
joke-tie<br />
key<br />
king<br />
last<br />
lawyer<br />
leader<br />
leg<br />
legend<br />
life<br />
literature<br />
logjam<br />
look<br />
lot<br />
love<br />
majority_rule<br />
majors<br />
man<br />
manager<br />
manufacturer<br />
masochism<br />
match<br />
match_point<br />
matches<br />
materialised_-_that<br />
materialises
171<br />
me<br />
media<br />
melodic_phrase<br />
member<br />
memory<br />
mid-thirties<br />
midfield<br />
mime<br />
mind<br />
moment<br />
money<br />
money_market<br />
monkey<br />
mortality_rate<br />
mother<br />
move<br />
muscle<br />
music<br />
musician<br />
name<br />
nationalization<br />
nativity<br />
negative<br />
neutrino<br />
normal<br />
note<br />
noticeboard<br />
notion<br />
now<br />
number<br />
ocean<br />
office<br />
official<br />
old_man<br />
ones<br />
opener<br />
orchestra<br />
organisers<br />
organization<br />
others<br />
pair<br />
papacy<br />
parent<br />
parliament<br />
parrot<br />
part<br />
participant<br />
party<br />
pastor<br />
patriarch<br />
people<br />
performance<br />
performer<br />
period<br />
person<br />
personality<br />
phone<br />
piece<br />
pitch<br />
place<br />
planning<br />
player<br />
policemen<br />
policy<br />
political_prisoner<br />
premier<br />
premiere<br />
presence<br />
press<br />
pretence<br />
pretending<br />
priest<br />
primitive<br />
pro<br />
problem<br />
process<br />
production<br />
professional<br />
programme<br />
project<br />
projection<br />
proliferation<br />
prop<br />
protest<br />
quantity<br />
radio<br />
radio_station<br />
raid<br />
rank<br />
rebirth<br />
recipient<br />
reconstruction<br />
record<br />
recording<br />
recruit<br />
refuse<br />
regeneration<br />
religion<br />
religious_leader<br />
replay<br />
repression<br />
resource<br />
rest<br />
result<br />
rhapsody<br />
ribbon<br />
risk<br />
rock_group<br />
role<br />
round<br />
routine<br />
rugbymans<br />
runners-up<br />
salesman<br />
satellite<br />
satire<br />
saw<br />
scene<br />
schizoid_-_he<br />
school<br />
script<br />
sculptor<br />
section<br />
sector<br />
self-interest<br />
series<br />
she<br />
shedding<br />
show<br />
side<br />
signing<br />
sitar<br />
size<br />
skill<br />
smile<br />
soccer<br />
someone<br />
son<br />
sponsor<br />
squad<br />
stage<br />
standing<br />
standoff<br />
star<br />
state<br />
station<br />
step<br />
stimulus<br />
storyteller<br />
straight<br />
strait<br />
street<br />
stress<br />
stretch<br />
string<br />
string_orchestra<br />
stroke<br />
student<br />
studio<br />
support<br />
tackling<br />
tails<br />
talent<br />
tax_advantage<br />
taxation<br />
teacher<br />
team<br />
technology
172<br />
television<br />
terrace<br />
that<br />
theatre<br />
their<br />
them<br />
then<br />
they<br />
thing<br />
this<br />
those<br />
time<br />
time_being<br />
tourist<br />
trade_union<br />
train<br />
training<br />
tram<br />
treatment<br />
trio<br />
try<br />
tuna<br />
C.9.7 c2c BNCtik<br />
tune<br />
typification<br />
uncertainty<br />
unconscious<br />
us<br />
user<br />
valley<br />
varicose_vein<br />
venture<br />
volunteer<br />
wanna<br />
want<br />
watershed<br />
we<br />
weapon<br />
what<br />
which<br />
white<br />
who<br />
whole<br />
whom<br />
wife<br />
wind<br />
wing<br />
winner<br />
winning<br />
wolf<br />
woman<br />
work<br />
workmate<br />
workshop<br />
world<br />
worth<br />
writing<br />
wrought<br />
yacht<br />
year_-_he<br />
you<br />
young_man<br />
youngster<br />
your<br />
youth<br />
play 00605818: c2c objektu hautapen-murriztapenak<br />
09065837 0.006 time_period period period_of_time amount_of_time." ZUZENA<br />
08813320 0.004 helium He atomic_number_2…<br />
08520394 0.004 condition status "a condition or state at a particular time"<br />
08534455 0.001 status position "the relative position or standing of…"<br />
08745609 0.001 opportunity chance "a possibility due to a favorable…"<br />
08522741 0.0014897204248221 situation state_of_affairs "the general state…"<br />
08781633 0.001 material stuff "the tangible substance that goes into the…"<br />
08523811 0.0007 relationship "a state involving mutual dealings between…"<br />
09164158 0.0006 playing_period period_of_play play "in games or plays…"<br />
play 00605818: c2c subjektu hautapen-murriztapenak<br />
08813320 0.149 helium He atomic_number_2<br />
09065837 0.005 time_period period period_of_time amount_of_time<br />
08520394 0.003 condition status "a condition or state at a particular time"<br />
09069911 0.002 now "the momentary present"<br />
08807415 0.001 metallic_element metal "any of several chemical elements…"<br />
08534455 0.001 status position "the relative position or standing of…"<br />
08525534 0.001 friendship friendly_relationship "the state of being…"<br />
08781633 0.001 material stuff "the tangible substance that goes into the…"<br />
08522741 0.001 situation state_of_affairs "the general state of things…"
C.9.8 w2semf EFEtik<br />
play: w2semf objektu hautapen-murriztapenak<br />
obj x 100<br />
obj play-act 50.013 ZUZENA<br />
obj factotum-act 30.390 ONARGARRIA<br />
obj time_period-time 29.009 ZUZENA<br />
obj zoology-animal 25.2<br />
obj factotum-artifact 25.026<br />
obj sport-event 23.514 ZUZENA<br />
obj sport-act 23.038 ZUZENA<br />
obj number-quantity 22.957<br />
obj geography-location 16.918<br />
play: w2semf subjektu hautapen-murriztapenak<br />
subj x 372 ONARGARRIA<br />
subj administration-group 168.64<br />
subj chemistry-substance 52.666<br />
subj sport-group 44.010 ONARGARRIA<br />
subj zoology-group 40.5<br />
subj linguistics-communication 38.720<br />
subj physics-substance 34.666<br />
subj geography-location 33.353<br />
subj administration-location 32.315<br />
subj number-quantity 26.642<br />
w2w:<br />
w2w.play.sports.obj<br />
103 game<br />
75 match<br />
30 which<br />
21 team<br />
14 host<br />
13 soccer<br />
10 role<br />
8 Wednesday<br />
7 tournament<br />
7 season<br />
7 man<br />
7 Cup<br />
6 who<br />
6 two<br />
6 Sunday<br />
5 fan<br />
5 defense<br />
5 Juniors<br />
4 year<br />
4 sport<br />
4 series<br />
4 one<br />
4 half<br />
4 Thursday<br />
4 Saturday<br />
4 Bolivar<br />
3 weekend<br />
3 week<br />
3 time<br />
3 three<br />
3 position<br />
3 leader<br />
3 it<br />
3 four<br />
3 final<br />
3 field<br />
3 city<br />
3 championship<br />
3 basketball<br />
3 Peru<br />
3 Madrid<br />
3 Catolica<br />
3 Argentine<br />
2 train<br />
2 round<br />
2 qualifier<br />
2 next<br />
2 midfielder<br />
2 eight<br />
2 each<br />
173
174<br />
2 cup<br />
2 contract<br />
2 club<br />
2 career<br />
2 Uruguay<br />
2 Trinidad<br />
2 Plata<br />
2 Open<br />
2 Nacional<br />
2 Monday<br />
2 Mercosur<br />
2 Lorenzo<br />
2 Lanus<br />
2 July<br />
2 Huracan<br />
2 Guatemala<br />
2 Game<br />
2 Friday<br />
2 Cumparsita<br />
2 Cruz<br />
2 Canada<br />
1 winner<br />
1 wing<br />
1 tie<br />
1 they<br />
1 tennis<br />
1 stadium<br />
1 spectator<br />
1 some<br />
1 six<br />
1 set<br />
1 semifinal<br />
1 result<br />
1 rest<br />
1 rematch<br />
1 playoff<br />
1 play<br />
1 period<br />
1 part<br />
1 organization<br />
1 nine<br />
1 movement<br />
1 more<br />
1 many<br />
1 left<br />
1 league<br />
1 heart<br />
1 guidance<br />
1 goalie<br />
1 goal<br />
1 factor<br />
1 exhibition<br />
1 either<br />
1 defender<br />
1 deal<br />
1 de<br />
1 day<br />
1 da<br />
1 crowd<br />
1 country<br />
1 champ<br />
1 card<br />
1 cannot<br />
1 anyone<br />
1 all<br />
1 Zamorano<br />
1 Union<br />
1 Under<br />
1 Tournament<br />
1 Tobago<br />
1 Tiger<br />
1 Tecnico<br />
1 State<br />
1 South<br />
1 Solano<br />
1 Sept<br />
1 Sarsfield<br />
1 Russell<br />
1 Ronaldo<br />
1 Rica<br />
1 Quito<br />
1 Pueblum<br />
1 Potosi<br />
1 Plate<br />
1 Petrolero<br />
1 Paraguay<br />
1 Palmeiras<br />
1 Olimpia<br />
1 Oeste<br />
1 Oct<br />
1 Oceania<br />
1 Nov<br />
1 Norway<br />
1 National<br />
1 Mexico<br />
1 Maracana<br />
1 Lleida<br />
1 Libertadores<br />
1 La<br />
1 Korea<br />
1 Juventud<br />
1 June<br />
1 Independiente<br />
1 Huachipato<br />
1 Fluminense<br />
1 Flor<br />
1 Dupuis<br />
1 Cruzeiro<br />
1 Confederation<br />
1 Columbus<br />
1 Colon<br />
1 Colombia
1 Colegiales<br />
1 Chile<br />
1 Championship<br />
1 Central<br />
1 Caetano<br />
1 Barbados<br />
1 Bahia<br />
1 Azul<br />
1 Aztec<br />
1 Australia<br />
1 Atlante<br />
1 America<br />
w2w.play.sports.subj<br />
168 who<br />
91 he<br />
81 team<br />
34 I<br />
33 which<br />
30 it<br />
19 they<br />
19 player<br />
18 match<br />
14 we<br />
13 He<br />
11 game<br />
9 club<br />
9 Juniors<br />
8 Boca<br />
7 week<br />
7 Ecuador<br />
7 Brazil<br />
6 squad<br />
6 We<br />
6 Romario<br />
6 Penarol<br />
6 Colombia<br />
6 Chile<br />
5 Plate<br />
5 Paraguay<br />
5 Diego<br />
5 Bolivia<br />
5 America<br />
4 both<br />
4 State<br />
4 Sanchez<br />
4 Rodriguez<br />
4 Peru<br />
4 Pele<br />
4 Mexican<br />
4 Match<br />
4 Maradona<br />
4 Luxemburgo<br />
4 Game<br />
3 three<br />
3 midfielder<br />
3 legend<br />
3 dream<br />
3 Yanes<br />
3 Vasco<br />
3 Uruguay<br />
3 Universitario<br />
3 Ronaldo<br />
3 Plata<br />
3 Petrolero<br />
3 Nacional<br />
3 Moreno<br />
3 Martino<br />
3 Marquez<br />
3 Lorenzo<br />
3 Guadalajara<br />
3 Florentin<br />
3 Danubio<br />
3 Corretja<br />
3 Chivas<br />
3 Canada<br />
3 Caetano<br />
3 Barcelona<br />
3 Azul<br />
3 Armas<br />
3 Argentina<br />
3 Angel<br />
2 win<br />
2 travel<br />
2 tournament<br />
2 time<br />
2 star<br />
2 season<br />
2 point<br />
2 plan<br />
2 offer<br />
2 minute<br />
2 leg<br />
2 goalie<br />
2 five<br />
2 final<br />
2 field<br />
2 end<br />
2 eligibility<br />
2 all<br />
2 Zamorano<br />
2 Venezuelan<br />
2 Union<br />
2 Toluca<br />
2 Tecos<br />
2 Spain<br />
2 Soria<br />
2 Sierra<br />
2 Serna<br />
2 Saturday<br />
2 Safin<br />
2 Ruiz<br />
175
176<br />
2 Rivaldo<br />
2 Rica<br />
2 Ramirez<br />
2 Rafter<br />
2 Porteno<br />
2 Pavon<br />
2 Panama<br />
2 Mexico<br />
2 McGwire<br />
2 It<br />
2 Independiente<br />
2 Huracan<br />
2 Herrera<br />
2 Hernandez<br />
2 Guarani<br />
2 Gama<br />
2 Federation<br />
2 Emelec<br />
2 Edu<br />
2 Defensor<br />
2 Cup<br />
2 Crespo<br />
2 Chilavert<br />
2 Central<br />
2 Caniggia<br />
2 Cameroon<br />
2 Boy<br />
2 Balcell<br />
2 Atlante<br />
2 Argentine<br />
1 year<br />
1 workshop<br />
1 woman<br />
1 wish<br />
1 winner<br />
1 will<br />
1 venue<br />
1 tie<br />
1 this<br />
1 thing<br />
1 then<br />
1 teammate<br />
1 son<br />
1 soccer<br />
1 so<br />
1 she<br />
1 second<br />
1 scoring<br />
1 scorer<br />
1 runner<br />
1 round<br />
1 roster<br />
1 role<br />
1 rival<br />
1 rest<br />
1 respect<br />
1 refusal<br />
1 qualifier<br />
1 promise<br />
1 president<br />
1 practice<br />
1 par<br />
1 pain<br />
1 overall<br />
1 opportunity<br />
1 one<br />
1 number<br />
1 northwest<br />
1 nine<br />
1 most<br />
1 member<br />
1 measure<br />
1 loss<br />
1 line<br />
1 league<br />
1 leader<br />
1 kilometer<br />
1 jersey<br />
1 injury<br />
1 host<br />
1 half<br />
1 goods<br />
1 goaltender<br />
1 goal<br />
1 glory<br />
1 four<br />
1 forward<br />
1 finalist<br />
1 father<br />
1 fate<br />
1 everyone<br />
1 downs<br />
1 difficulty<br />
1 desire<br />
1 defenseman<br />
1 defense<br />
1 country<br />
1 competition<br />
1 coach<br />
1 clasico<br />
1 chance<br />
1 career<br />
1 boy<br />
1 action<br />
1 You<br />
1 Yorke<br />
1 Yegros<br />
1 Vincent<br />
1 Vida<br />
1 Venus<br />
1 Valencia<br />
1 Tuesday
1 Torreon<br />
1 Tolima<br />
1 They<br />
1 Talleres<br />
1 Takeda<br />
1 Suarez<br />
1 Spadea<br />
1 Souza<br />
1 South<br />
1 Sorin<br />
1 Silva<br />
1 Saviola<br />
1 Sarsfield<br />
1 Santos<br />
1 Saenz<br />
1 Ronaldinho<br />
1 Roman<br />
1 Rojas<br />
1 River<br />
1 Riquelme<br />
1 Rios<br />
1 Revenge<br />
1 Raguzza<br />
1 Potosi<br />
1 Pompeya<br />
1 Pocho<br />
1 Platini<br />
1 Perez<br />
1 Ostolaza<br />
1 Oriente<br />
1 Oliveira<br />
1 Oliseh<br />
1 Olimpia<br />
1 Okocha<br />
1 Nike<br />
1 Necaxa<br />
1 Navia<br />
1 Morelia<br />
1 Moran<br />
1 Morales<br />
1 Monterrey<br />
1 Millonarios<br />
1 Meza<br />
1 Melgar<br />
1 Mazzioli<br />
1 Mayo<br />
1 Martinez<br />
1 Marathon<br />
1 Manusovic<br />
1 Madrid<br />
1 Luxembourg<br />
1 Luna<br />
1 Lopez<br />
1 Leao<br />
1 Larsson<br />
1 Lanus<br />
1 Kempes<br />
1 Junior<br />
1 Japan<br />
1 Italiano<br />
1 Honduras<br />
1 Hispanics<br />
1 Guabira<br />
1 Giovagnoli<br />
1 Gimnasia<br />
1 Garbey<br />
1 Gamarra<br />
1 Galaxy<br />
1 Friday<br />
1 Five<br />
1 First<br />
1 Fe<br />
1 Estay<br />
1 Eriksson<br />
1 Enciso<br />
1 Dudamel<br />
1 Devil<br />
1 Delgado<br />
1 Deleva<br />
1 Debhs<br />
1 Cubans<br />
1 Cruz<br />
1 Costa<br />
1 Cordoba<br />
1 Colon<br />
1 Colombians<br />
1 Coach<br />
1 Club<br />
1 Chilean<br />
1 Cesar<br />
1 Celaya<br />
1 Campos<br />
1 Caldete<br />
1 Cabuto<br />
1 Buenos<br />
1 Brazilian<br />
1 Bonano<br />
1 Bellavista<br />
1 Beckles<br />
1 Bebeto<br />
1 Batistuta<br />
1 Bati<br />
1 Atlas<br />
1 Association<br />
1 Arantes<br />
1 American<br />
1 Alvarengo<br />
1 Almagro<br />
1 Alex<br />
1 Aguirrez<br />
1 Afyer<br />
1 Adame<br />
177
178<br />
C.9.9 Ondorioak<br />
Objektuak Subjektuak<br />
Iturria Teknika Zuzena Onargarria Eskuratu Zuzena Onargarria Eskuratu<br />
gabe<br />
gabe<br />
c2c 8tik 1 8tik 1 4tik 1 5etik 2 0 0<br />
SemCor w2c 10etik 1 10etik 1 4tik 1 5etik 2 0 0<br />
s2semf 10etik 2 10etik 3 4tik 2 7tik 2 7tik 2 0<br />
BNC<br />
w2c<br />
10etik 1 10etik 1 4tik 1<br />
10etik<br />
1<br />
10etik 1 0<br />
c2c 10etik 1 0 4tik 3 0 0 2tik 2<br />
EFE w2semf 10etik 4 10etik 1 0 0 10etik 4 2tik 1
C.10 jokatu_2<br />
C.10.1 Synseta MCRn<br />
00605818v<br />
base concept<br />
competition<br />
Dynamic<br />
Agentive<br />
Purpose<br />
Social<br />
DOMEINUAK:<br />
lock 00605818v 82 play_1 [99%]<br />
lock 00605818v 1 jokatu_2 [99%]<br />
179<br />
play games, play sports; "We played hockey<br />
all afternoon"; "play cards"<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA<br />
jokatu A 00605818 play sport<br />
C.10.2 Urre patroiak<br />
jokatu 00605818: Absolutiboa (ABSdu)<br />
c2c, w2c:<br />
04771851 contest competition "an occasion on which a winner is selected…"<br />
09065837 amount of time period period of time time period “a length of…”<br />
00254052 game a contest with rules to determine a winner; "you need four…"<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
sport-event<br />
time_period-time<br />
jokatu 00605818: Ergatiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
jokatu 00605818: Inesiboa<br />
c2c, w2c:<br />
00240760 sport, athletics "an active diversion requiring physical…"<br />
w2semf, s2semf:<br />
sport-act<br />
play-act
180<br />
C.10.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />
jokatu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa)<br />
abs x 33<br />
abs sport-event 18.933 ZUZENA<br />
abs anthropology-group 6.6<br />
abs number-quantity 6.515<br />
abs politics-group 6.504<br />
abs sociology-group 5.671<br />
abs history-group 5.6<br />
abs factotum-act 2.853 ONARGARRIA<br />
abs sport-act 2.646 ZUZENA<br />
abs 0 2<br />
ine x 28<br />
ine time_period-time 7.062<br />
ine tourism-time 4<br />
ine building_industry-artifact 3.009<br />
ine factotum-act 2.3 ONARGARRIA<br />
ine number-quantity 2.272<br />
ine factotum-location 2.138<br />
ine 0 2<br />
ine play-act 1.983 ZUZENA<br />
ine sport-act 1.900 ZUZENA<br />
erg pro 128 ONARGARRIA<br />
erg x 25 ONARGARRIA<br />
erg number-quantity 7<br />
erg 0 3<br />
erg transport-person 1.5<br />
erg geography-person 1<br />
erg administration-person 1<br />
erg basketball-person 1 ONARGARRIA<br />
erg time_period-time 0.6<br />
erg cycling-person 0.25 ONARGARRIA<br />
jokatu.kontuakhitzak.kirolak<br />
abl furgo<strong>net</strong>a 1<br />
abs hagin 2<br />
abs maila 1<br />
abs pixka 1<br />
abs kopuru 1<br />
abs mendate 1<br />
abs alde 1<br />
abs behera 1<br />
abs bizikleta 1<br />
abs hamabost 1<br />
abs apur 1<br />
abu kanpamendu 1<br />
adj x 2<br />
adj lehiari 1<br />
adj behera 1<br />
erg pro 2<br />
erg alberto 1<br />
ine urte 1
ine partidu 1<br />
ins maila 1<br />
soz harrobi 1<br />
jokatu: w2semf hautapen-murriztapenak (corpus osoa)<br />
abs x 40<br />
abs sport-event 31.933 ZUZENA<br />
abs sport-act 13.646 ZUZENA<br />
abs number-quantity 8.515<br />
abs anthropology-group 8.131<br />
abs politics-group 7.004<br />
abs sociology-group 6.671<br />
abs history-group 5.6<br />
abs time_period-time 4.632 ZUZENA<br />
abs factotum-act 3.907 ONARGARRIA<br />
ine x 32<br />
ine time_period-time 7.437<br />
ine factotum-act 4.020 ONARGARRIA<br />
ine tourism-time 4<br />
ine 0 4<br />
ine building_industry-artifact 3.609<br />
ine factotum-location 2.361<br />
ine number-quantity 2.272<br />
ine factotum-state 2.081<br />
ine factotum-group 2.068<br />
erg pro 204 ONARGARRIA<br />
erg x 33 ONARGARRIA<br />
erg number-quantity 7<br />
erg 0 3<br />
erg linguistics-communication 2<br />
erg politics-person 1.601<br />
erg person-person 1.53 ZUZENA<br />
erg transport-person 1.5<br />
erg administration-person 1.365<br />
erg basketball-person 1 ONARGARRIA<br />
jokatu.kontuakhitzak.ALL<br />
abl orain 2<br />
abl hasiera 2<br />
abl ikuspegi 1<br />
abl ezker 1<br />
abl behe 1<br />
abl x 1<br />
abl aurre 1<br />
abl gain 1<br />
abs partidu 28<br />
abs partida 26<br />
abs x 19<br />
abs final 12<br />
abs bider 3<br />
abs paper 3<br />
abs uefa 3<br />
abs izan 3<br />
abs jende 3<br />
abs hamabost 2<br />
abs zati 2<br />
abs egoera 2<br />
abs jokalari 2<br />
abs behar 2<br />
abs berri 2<br />
abs gehiago 2<br />
abs ruben 2<br />
abs liga 2<br />
abs 0 2<br />
abs bat 2<br />
abs gobernu 2<br />
abs gizarte 2<br />
abs talde 2<br />
abs txapelketa 1<br />
abs lagos 1<br />
abs seguru 1<br />
abs antolakuntza 1<br />
181
182<br />
abs jardunaldi 1<br />
abs nahi 1<br />
abs planifikazio 1<br />
abs kontseilari 1<br />
abs eugi 1<br />
abs gurrutxaga 1<br />
abs eraginkortasun 1<br />
abs erabaki 1<br />
abs irabazte 1<br />
abs zabaltzaile 1<br />
abs azkaindar 1<br />
abs txapeldun 1<br />
abs ezer 1<br />
abs soil 1<br />
abs izar 1<br />
abs azken 1<br />
abs abiadura 1<br />
abs garai 1<br />
abs on 1<br />
abs itzuli 1<br />
abs patxi 1<br />
abs baloi 1<br />
abs jaurlaritza 1<br />
abs erakargarri 1<br />
abs amerikar 1<br />
abs elgoibartar 1<br />
abs atezain 1<br />
abs aste 1<br />
abs hegaldi 1<br />
abs lasterketa 1<br />
abs behar_izan 1<br />
abs tanto 1<br />
abs bateratu 1<br />
abs bi 1<br />
abs zuzendari 1<br />
abs hasiera 1<br />
abs arazo 1<br />
abs beldur 1<br />
abs pibot 1<br />
abs patronal 1<br />
abs portland 1<br />
abs lider 1<br />
abs garaipen 1<br />
abs aurrelari 1<br />
abs deus 1<br />
abs txanpa 1<br />
abs garrantzitsu 1<br />
abs asmo 1<br />
abs garrantzi 1<br />
abs akats 1<br />
abs zerikusi 1<br />
abs alde 1<br />
abs abertzale 1<br />
abs oposizio 1<br />
abs mendate 1<br />
adb orain 1<br />
adb nola 1<br />
adb lasai 1<br />
adb maltzurki 1<br />
adb zuzen 1<br />
adb horrela 1<br />
adb bezala 1<br />
adb legez 1<br />
adb honela 1<br />
adb gaur 1<br />
adj zuhur 4<br />
adj berdin 3<br />
adj baikor 3<br />
adj epel 2<br />
adj x 2<br />
adj ahul 1<br />
adj indartsu 1<br />
adj zorrotz 1<br />
adj bizi 1<br />
adj zintzo 1<br />
adj gutxi 1<br />
adj oker 1<br />
adj eskuzabal 1<br />
adj irmo 1<br />
adj axolagabe 1<br />
adj borondatetsu 1<br />
adj gogor 1<br />
adj hotz 1<br />
ala kiniela 11<br />
ala esan 6<br />
ala modu 2<br />
ala era 1<br />
ala kontraeraso 1<br />
ala bote 1<br />
ala eraso 1<br />
ala bi 1<br />
ala bat 1<br />
dat pro 4<br />
dat alderdi 3<br />
dat eh 3<br />
dat politikari 2<br />
dat jaurlaritza 2<br />
dat gobernu 1<br />
dat x 1<br />
dat eaj 1<br />
dat herritar 1<br />
dat alderdikide 1<br />
dat mediku 1<br />
denb menpekoa 4
en_arabera arautegi 2<br />
en_arabera irizpide 1<br />
en_arabera interes 1<br />
en_arabera kode 1<br />
en_arabera zigor 1<br />
en_kontra x 8<br />
en_kontra elkar 3<br />
en_kontra guzti 2<br />
en_kontra goñi 2<br />
en_kontra bartzelon 1<br />
en_kontra izar 1<br />
en_kontra akordio 1<br />
en_kontra talde 1<br />
en_kontra eta 1<br />
en_kontra eugi 1<br />
en_kontra gutxitu 1<br />
en_kontra modernizazio<br />
1<br />
en_kontra politiko 1<br />
en_kontra frantzia 1<br />
en_kontra sevilla 1<br />
en_orde x 1<br />
erg pro 204<br />
erg x 9<br />
erg batzuk 7<br />
erg eugi 4<br />
erg 0 3<br />
erg guzti 3<br />
erg beloki 3<br />
erg pibot 2<br />
erg agintari 2<br />
erg eta 2<br />
erg gu 2<br />
erg galera 1<br />
erg lehen 1<br />
erg kontu 1<br />
erg militar 1<br />
erg presidente 1<br />
erg irundar 1<br />
erg telebista 1<br />
erg sektore 1<br />
erg arrate 1<br />
erg pilotari 1<br />
erg udal 1<br />
erg gizon 1<br />
erg defentsa 1<br />
erg ehu 1<br />
erg iker 1<br />
erg argentinar 1<br />
erg eh 1<br />
erg indar 1<br />
erg aspa 1<br />
erg txirrindulari 1<br />
erg italiar 1<br />
erg imaz 1<br />
erg gobernu 1<br />
erg inor 1<br />
erg antonio 1<br />
erg eragile 1<br />
erg pedro 1<br />
erg martin 1<br />
erg errusia 1<br />
erg ordezkari 1<br />
gisa profesional 1<br />
gisa mezenas 1<br />
gisa subjektu 1<br />
gisa independentista1<br />
helb menpekoa 2<br />
ine x 23<br />
ine postu 7<br />
ine 0 4<br />
ine talde 4<br />
ine eraso 4<br />
ine zati 3<br />
ine igande 3<br />
ine futbol 2<br />
ine etxe 2<br />
ine adar 2<br />
ine maila 2<br />
ine liga 2<br />
ine aste 2<br />
ine partidu 2<br />
ine azaro 2<br />
ine anoa 2<br />
ine behar 2<br />
ine gasteiz 2<br />
ine laurden 2<br />
ine erdi 2<br />
ine guzti 1<br />
ine denboraldi 1<br />
ine area 1<br />
ine auzi 1<br />
ine plano 1<br />
ine jardunaldi 1<br />
ine sasoi 1<br />
ine donosita 1<br />
ine arratsalde 1<br />
ine epaiketa 1<br />
ine asteazken 1<br />
ine hamahiru 1<br />
ine makina 1<br />
ine hori 1<br />
ine biltzar 1<br />
ine prozesu 1<br />
ine goiz 1<br />
ine indarkeria 1<br />
183
184<br />
ine irlanda 1<br />
ine lege 1<br />
ine politika 1<br />
ine erritmo 1<br />
ine hamabi 1<br />
ine minutu 1<br />
ine kontraeraso 1<br />
ine asteburu 1<br />
ine gertaera 1<br />
ine eskubide 1<br />
ine garai 1<br />
ine kanporaketa 1<br />
ine modu 1<br />
ine selekzio 1<br />
ine bera 1<br />
ine golf 1<br />
ine hasiera 1<br />
ine hau 1<br />
ine eraikuntza 1<br />
ine final 1<br />
ine frontoi 1<br />
ine jende 1<br />
ine iruñea 1<br />
ine arte 1<br />
ine defentsa 1<br />
ine ofizial 1<br />
ine merida 1<br />
ine klub 1<br />
ine testuinguru 1<br />
ine karta 1<br />
ine alderdi 1<br />
ine ekipo 1<br />
ine abiada 1<br />
ins erantzukizun 8<br />
ins zentzu 6<br />
ins x 6<br />
ins ardura 4<br />
ins arduragabekeria 3<br />
ins alderdikeria 2<br />
ins fede 2<br />
ins kontu 2<br />
ins zuhurtzia 2<br />
ins malgutasun 1<br />
ins urduritasun 1<br />
ins gizalege 1<br />
ins harrokeria 1<br />
ins seriotasun 1<br />
ins bereizkeria 1<br />
ins segurtasun 1<br />
ins krudelkeria 1<br />
ins ankerkeria 1<br />
ins pragmatismo 1<br />
ins koherentzia 1<br />
ins bat 1<br />
ins inpartzialtasun 1<br />
ins zuhurtasun 1<br />
ins ausardia 1<br />
ins profesionaltasun 1<br />
ins asko 1<br />
ins indar 1<br />
ins ziurtasun 1<br />
ins independentzia 1<br />
ins lasaitasun 1<br />
ins inteligentzia 1<br />
ins aldi 1<br />
ins buru 1<br />
ins errespetu 1<br />
kaus menpekoa 4<br />
konp menpekoa 25<br />
soz gogo 2<br />
soz talde 2<br />
soz x 2<br />
soz selekzio 2<br />
soz erantzukizun 2<br />
soz buru 2<br />
soz gehiengo 1<br />
soz sorta 1<br />
soz moderazio 1<br />
soz defentsa 1<br />
soz politikagintza 1<br />
soz zenbait 1<br />
soz jokalari 1<br />
soz autonomia 1<br />
soz elkar 1<br />
soz kamiseta 1<br />
soz mamu 1<br />
soz putin 1<br />
soz anbiguotasun 1<br />
soz asmo 1<br />
soz errenta 1<br />
soz bibote 1<br />
soz eskema 1<br />
soz izen 1<br />
soz aldagai 1<br />
soz babes 1<br />
soz abantaila 1<br />
soz teoria 1<br />
teko menpekoa 6<br />
z menpekoa 3<br />
zhg menpekoa 1
C.10.4 SemCorreko c2c euskarara itzulita<br />
jokatu 00605818: c2c objektu hautapen-murriztapenak<br />
00228990 0.215 activity "any specific activity or pursuit" ONARGARRIA<br />
00004865 0.117 person individual someone somebody mortal human soul<br />
00017008 0.102 group grouping "any number of entities considered as a unit"<br />
00009469 0.071 object physical_object "a physical entity"<br />
04771851 0.035 contest competition "an occasion on which a winner…" ZUZENA<br />
03875944 0.029 interest involvement "a sense of concern with and…"<br />
08162378 0.014 cost "the total spent for goods or services including…"<br />
01691640 0.011 horse Equus_caballus "solid-hoofed herbivorous quadruped…"<br />
jokatu 00605818: c2c subjektu hautapen-murriztapenak<br />
00017008 0.517 group grouping "any number of entities considered…" ZUZENA<br />
00004865 0.507 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.079 object physical_object "a physical entity"<br />
08413915 0.032 digit "one of the elements that collectively form a system…"<br />
03953834 0.032 idea thought "the content of cognition"<br />
C.10.5 SemCorreko s2semf euskarara itzulita<br />
jokatu 00605818: s2semf objektu hautapen-murriztapenak<br />
play-act 3.5 ZUZENA<br />
sport-act 1.5 ZUZENA<br />
baseball-artifact 1<br />
factotum-Tops 1 ONARGARRIA<br />
card-artifact 1<br />
play-artifact 0.5<br />
golf-act 0.5 ONARGARRIA<br />
anthropology-Tops 0.5<br />
basketball-act 0.5 ONARGARRIA<br />
sport-artifact 0.5<br />
biology-Tops 0.5<br />
jokatu 00605818: s2semf subjektu hautapen-murriztapenak<br />
number-quantity 1<br />
sport-person 1 ONARGARRIA<br />
factotum-group 1 ZUZENA<br />
factotum-Tops 1 ONARGARRIA<br />
person-person 5 ZUZENA<br />
anthropology-Tops 0.5<br />
185
186<br />
C.10.6 EFEtik w2semf euskarara itzulita<br />
play: w2semf objektu hautapen-murriztapenak<br />
obj x 100<br />
obj play-act 50.013 ZUZENA<br />
obj factotum-act 30.390 ONARGARRIA<br />
obj time_period-time 29.009 ZUZENA<br />
obj zoology-animal 25.2<br />
obj factotum-artifact 25.026<br />
obj sport-event 23.514 ZUZENA<br />
obj sport-act 23.038 ZUZENA<br />
obj number-quantity 22.957<br />
obj geography-location 16.918<br />
play: w2semf objektu hautapen-murriztapenak<br />
subj x 372 ONARGARRIA<br />
subj administration-group 168.64<br />
subj chemistry-substance 52.666<br />
subj sport-group 44.010 ONARGARRIA<br />
subj zoology-group 40.5<br />
subj linguistics-communication 38.720<br />
subj physics-substance 34.666<br />
subj geography-location 33.353<br />
subj administration-location 32.315<br />
subj number-quantity 26.642<br />
C.10.7 Ondorioak<br />
Eskuratu<br />
Gabe<br />
abs 10etik 3 10etik 1 0<br />
Iturria Teknika Kasua Zuzena Onargarria<br />
Egunkaria<br />
osoa<br />
Egunkaria<br />
kirola<br />
SemCor<br />
w2semf<br />
w2semf<br />
c2c<br />
s2semf<br />
EFE kirola w2semf<br />
ine 0 10etik 1 0<br />
erg 10etik 1 10etik 3 2tik 1<br />
abs 10etik 2 10etik 1 4tik 1<br />
ine 10etik 2 10etik 1 0<br />
erg 0 10etik 4 2tik 1<br />
obj 8tik 1 8tik 1 4tik 1<br />
subj 5etik 2 0 0<br />
obj 10etik 2 10etik 3 4tik 2<br />
subj 7tik 2 7tik 2 0<br />
obj 10etik 4 10etik 1 0<br />
subj 0 10etik 4 2tik 1
C.11 play_24<br />
C.11.1 Synseta MCRn<br />
00610422v<br />
competition<br />
DOMEINUAK:<br />
lock 00610422v 14 encounter_5 [99%] meet_10 [99%]<br />
play_24 [99%]<br />
lock 00610422v 0 jokatu_3 [99%]<br />
contend against an<br />
opponent in a sport or<br />
game; "Princeton plays<br />
Yale this weekend<br />
HITZA<br />
play,<br />
KATEGORIA SYNSET DOMEINUA DOMEINUA DOMEINUA<br />
encounter,<br />
take_on, meet<br />
A 00610422 play sport military<br />
C.11.2 Urre patroiak<br />
play 00605818: objektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
play 00605818: subjektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities (members) considered as a<br />
unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
187
188<br />
C.11.3 c2c SemCorretik<br />
OBJEKTUAK s2s:<br />
encounter 00610422<br />
difficulty 08705942: a situation or condition almost beyond one's<br />
ability to deal with and requiring great effort to bear or overcome:<br />
"grappling with financial difficulties"<br />
meet 00610422<br />
group 00017008 any number of entities (members) considered as a unit<br />
situation 08522741 the general state of things; the combination of<br />
circumstances at a given time; "the present international situation<br />
is dangerous"; "wondered how such a state of affairs had come about"<br />
SUBJEKTUAK s2s:<br />
meet 00610422<br />
men 05228538 the force of workers available<br />
TROPONIMOAK ETA DOMEINUAK:<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA DOMEINUA<br />
confront A 00609871 play sport military<br />
face A 00609871 play sport military<br />
oppose A 00610795 play sport military<br />
OBJEKTUAK s2s eta s2s-hype:<br />
encounter/meet >><br />
confront 00609871 oppose in hostility; "confront an opponent"<br />
cat 01457160 feline mammal usu. having thick soft fur and being…<br />
entity 00002403 something having concrete existence…<br />
person 00004865 a human being; "there was too much for one person…"<br />
encounter/meet >><br />
face 00609871 oppose in hostility<br />
person 00004865 a human being; "there was too much for one person…"<br />
inquisitor 06150734 a questioner who is excessively harsh<br />
industry 05158405 the people engaged in a particular kind of…<br />
mystery 03877128 something that baffles understanding; "how it got…"<br />
conflict 03334874 an incompatibility of dates or events<br />
fact 04338930 a statement or assertion of verified information about…<br />
hurdle 02639559 a light movable barrier that competitors must leap…<br />
task 00398968 a specific piece of work required to be done as a duty<br />
terror 04810560 an overwhelming feeling of fear and anxiety<br />
encounter/meet >> oppose 00610795 set into opposition or rivalry<br />
champion 05991011 someone who has won first place in a competition
SUBJEKTUAK s2s eta s2s-hype:<br />
meet >> confront 00609871<br />
person 00004865 person individual someone somebody mortal human soul<br />
meet >> face 00609871<br />
fate 04714117 an event that will happen in the future<br />
nine 08416391 the cardinal number that is the sum of eight and one<br />
resolution 04265758 a formal expression by a meeting; agreed to by a…<br />
union 05242031 an organization of employees formed to bargain with…<br />
meet >> oppose 00610795<br />
person 00004865 person individual someone somebody mortal human soul<br />
play, encounter, take_on, meet 00610422: c2c objektu hautapen-murriztapenak<br />
00004865 0.194 person individual someone somebody mortal human soul ZUZENA<br />
00017008 0.11 group grouping "any number of entities considered as…" ZUZENA<br />
00015437 0.0949 state "the way something is with respect to its main…"<br />
00009469 0.0585 object physical_object "a physical entity"<br />
00018599 0.022 communication "something that is communicated between…"<br />
01237932 0.018 placental placental_mammal eutherian eutherian_mammal<br />
00228990 0.014 activity "any specific activity or pursuit"<br />
04785784 0.014emotion "any strong feeling"<br />
03338771 0.013 quality "an essential and distinguishing attribute of…"<br />
play, encounter, take_on, meet 00610422: c2c subjektu hautapen-murriztapenak<br />
00004865 0.254 person individual someone somebody mortal human soul ZUZENA<br />
05149489 0.131 organization organisation "a group of people…" ONARGARRIA<br />
04690182 0.069 happening occurrence natural_event "an event that happens"<br />
00018599 0.043 communication "something that is communicated between…"<br />
08413915 0.037 digit "one of the elements that collectively form a system…"<br />
C.11.4 w2c SemCorretik<br />
s2s: (ikus B.11.3 atala)<br />
play: w2c objektu hautapen-murriztapenak<br />
00228990 0.148 activity "any specific activity or pursuit"<br />
00004865 0.105 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.040 object physical_object "a physical entity"<br />
00017008 0.031 group grouping "any number of entities considered…" ZUZENA<br />
00018599 0.029 communication "something that is communicated between…"<br />
00021098 0.028 action "something done (usually as opposed to something…)"<br />
00018966 0.008 measure quantity amount quantum "how much there is of…"<br />
00015437 0.007 state "the way something is with respect to its main…"<br />
00017586 0.007 attribute "an abstraction belonging to or characteristic…"<br />
04771851 0.006 contest competition "an occasion on which a winner is<br />
selected from…"<br />
189
190<br />
play: w2c subjektu hautapen-murriztapenak<br />
00004865 0.308 person individual someone somebody mortal human soul ZUZENA<br />
00017008 0.125 group grouping "any number of entities considered…" ZUZENA<br />
00009469 0.059 object physical_object "a physical entity"<br />
00012670 0.043 abstraction "a general concept formed by extracting common…"<br />
06467898 0.029 physical_phenomenon "a natural phenomenon involving the…"<br />
08522741 0.016 situation state_of_affairs "the general state of things…"<br />
08125923 0.011 community "common ownership"<br />
00012878 0.008 cognition knowledge "the psychological result of…"<br />
meet: w2c objektu hautapen-murriztapenak<br />
00004865 0.291 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.090 object physical_object "a physical entity"<br />
05763289 0.037 necessity essential requirement requisite necessary<br />
00015437 0.0299 state "the way something is with respect to its main…"<br />
00017008 0.024 group grouping "any number of entities considered…" ZUZENA<br />
00012878 0.022 cognition knowledge "the psychological result of…"<br />
00597858 0.018 group_action "action taken by a group of people"<br />
00012670 0.017 abstraction "a general concept formed by extracting common…"<br />
08284222 0.008 demand "the ability and desire to purchase goods and…"<br />
00013522 0.007 feeling "the psychological feature of experiencing…"<br />
meet : w2c subjektu hautapen-murriztapenak<br />
00004865 0.184 person individual someone somebody mortal human soul ZUZENA<br />
00018599 0.061 communication "something that is communicated between…"<br />
00009469 0.046 object physical_object "a physical entity"<br />
00012878 0.040 cognition knowledge "the psychological result of…"<br />
03659531 0.037 eye oculus optic peeper "the organ of sight (`peeper' is…)"<br />
00017586 0.026 attribute "an abstraction belonging to or characteristic…"<br />
00228990 0.023 activity "any specific activity or pursuit"<br />
00018966 0.021 measure quantity amount quantum "how much there is of…"<br />
01237932 0.017 placental placental_mammal eutherian eutherian_mammal<br />
encounter: w2c objektu hautapen-murriztapenak<br />
00004865 0.284 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.115 object physical_object "a physical entity"<br />
08520394 0.055 condition status "a condition or state at a particular time"<br />
04734123 0.051 blend "an occurrence of thorough mixing"<br />
01237932 0.045 placental placental_mammal eutherian eutherian_mammal<br />
encounter: w2c subjektu hautapen-murriztapenak<br />
00647048 0.184 blow "a powerful stroke with the fist or a weapon"<br />
05132844 0.162 gathering assemblage "a group of persons together in one<br />
place"
C.11.5 s2semf SemCorretik<br />
encounter, meet 00610422: s2semf objektu hautapen-murriztapenak<br />
encounter 00610422<br />
factotum-state 1<br />
meet 00610422<br />
factotum-Tops 1 ONARGARRIA<br />
factotum-state 1<br />
encounter, meet 00610422: s2semf subjektu hautapen-murriztapenak<br />
meet 00610422<br />
economy-group 1<br />
C.11.6 w2c BNCtik<br />
play: w2c objektu hautapen-murriztapenak<br />
00228990 0.082 activity "any specific activity or pursuit"<br />
00009469 0.077 object physical_object "a physical entity"<br />
00004865 0.070 person individual someone somebody mortal human soul ZUZENA<br />
00012670 0.028 abstraction "a general concept formed by extracting…"<br />
00021098 0.020 action "something done (usually as opposed to something…)"<br />
00597858 0.012 group_action "action taken by a group of people"<br />
00012878 0.012 cognition knowledge "the psychological result of…"<br />
04771851 0.009 contest competition "an occasion on which a winner is…"<br />
05650477 0.00972182120188812 part piece "a portion of a natural object"<br />
04690182 0.0087730222390469 happening occurrence natural_event<br />
play: w2c subjektu hautapen-murriztapenak<br />
08813320 0.160 helium He atomic_number_2<br />
00004865 0.121 person individual someone somebody mortal human soul. ZUZENA<br />
04455766 0.064 he "the 5th letter of the Hebrew alphabet"<br />
00011607 0.043 artifact artefact "a man-made object"<br />
05149489 0.035 organization organisation "a group of people who…" ONARGARRIA<br />
04313427 0.021 message content subject_matter substance<br />
00016649 0.017 act human_action human_activity "something that people do…"<br />
00018966 0.016 measure quantity amount quantum "how much there is of…"<br />
00014314 0.016 location "a point or extent in space"<br />
00012878 0.014 cognition knowledge "the psychological result of…"<br />
encounter: w2c objektu hautapen-murriztapenak<br />
00004865 0.096 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.061 object physical_object "a physical entity"<br />
00018599 0.046 communication "something that is communicated between…"<br />
00012878 0.041 cognition knowledge "the psychological result of…"<br />
00015437 0.033 state "the way something is with respect to its main…"<br />
00016649 0.025 act human_action human_activity "something that people do…"<br />
00017586 0.020 attribute "an abstraction belonging to or characteristic…"<br />
00018966 0.018 measure quantity amount quantum "how much there is of…"<br />
00017008 0.017 group grouping "any number of entities considered…" ZUZENA<br />
04690182 0.008 happening occurrence natural_event "an event that happens"<br />
191
192<br />
encounter: w2c subjektu hautapen-murriztapenak<br />
08813320 0.249 helium He atomic_number_2<br />
04455766 0.100he "the 5th letter of the Hebrew alphabet"<br />
00004865 0.083 person individual someone somebody mortal human soul ZUZENA<br />
00011607 0.034 artifact message content subject_matter substance<br />
00017008 0.029 group grouping "any number of entities considered as…" ZUZENA<br />
04195435 0.018 writing written_material "reading matter…"<br />
00012878 0.017 cognition knowledge "the psychological result of…"<br />
00016649 0.016 act human_action human_activity "something that people do…"<br />
00018966 0.015 measure quantity amount quantum "how much there is of…"<br />
meet: w2c objektu hautapen-murriztapenak<br />
00004865 0.185 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.054 object physical_object "a physical entity"<br />
00017008 0.040 group grouping "any number of entities considered as…" ZUZENA<br />
00012670 0.027 abstraction "a general concept formed by extracting common…"<br />
08162378 0.0193 cost "the total spent for goods or services including…"<br />
00012878 0.0182 cognition knowledge "the psychological result of…"<br />
00016649 0.016 act human_action human_activity "something that people do…"<br />
00015437 0.012 state "the way something is with respect to its main…"<br />
00008030 0.006 animal animate_being beast brute creature fauna<br />
08179398 0.005 asset "anything of material value or usefulness"<br />
meet: w2c subjektu hautapen-murriztapenak<br />
08813320 0.163 helium He atomic_number_2<br />
00004865 0.149 person individual someone somebody mortal human soul ZUZENA<br />
04455766 0.064 he "the 5th letter of the Hebrew alphabet"<br />
00011607 0.048 artifact artefact "a man-made object"<br />
05119847 0.037 social_group "people sharing some social relation" ONARGARRIA<br />
00014314 0.019 location "a point or extent in space"<br />
04313427 0.018 message content subject_matter substance<br />
00012878 0.013 cognition knowledge "the psychological result of…"<br />
00018966 0.011 measure quantity amount quantum "how much there is of…"<br />
00016649 0.009 act human_action human_activity "something that people do…"<br />
w2w:<br />
play: w2w objektuak<br />
play<br />
'cos<br />
After_Wentworth<br />
Afterwards<br />
Alain<br />
Albert_Hall<br />
Albrecht<br />
Alfred<br />
All_Blacks<br />
Allcock<br />
Although<br />
American<br />
Americans<br />
And<br />
Anderlecht<br />
Andy_Lloyd<br />
Anglicised<br />
Argentina<br />
Arsenal<br />
As<br />
At<br />
Australian<br />
Australian_Open<br />
Austria<br />
B<br />
BB<br />
Bach<br />
Bach_Brandenburg_Conc<br />
erto<br />
Back<br />
Baliol<br />
Ballesteros<br />
Baresi<br />
Because<br />
Becker<br />
Bet<br />
Billy<br />
Blackeyes<br />
Boswell<br />
Botvinnik<br />
Bountiful<br />
Brazil<br />
Brownie_Hansen<br />
But<br />
Byron<br />
Cambridge<br />
Canada<br />
Canadian<br />
Captain<br />
Cardiff<br />
Celia<br />
Chariots_Of_Fire<br />
Charlene
193<br />
Charles_Chaplin<br />
Chile<br />
Chilterns<br />
Chopin<br />
Cinderella<br />
Clark_Kellog<br />
Claudius<br />
Colonel_North<br />
Concerto<br />
Continental<br />
Cork_Constitution<br />
Coventry_City<br />
Cup<br />
Cups_-_is<br />
Czechoslovakia<br />
Dale_Cooper<br />
Dame<br />
David<br />
Davies<br />
Decadence<br />
Del_Harris<br />
Did<br />
Do<br />
Does<br />
Don_Juan<br />
Durham_Wasps<br />
Dutch<br />
East<br />
Eliza<br />
Elvira_Madigan_Mozart<br />
England<br />
Equivalent<br />
Essie<br />
Eugene_Marchbank<br />
Every<br />
Exmouth<br />
Ferdinand<br />
Fife_Flyers<br />
Fiji<br />
Fleance<br />
Football<br />
For<br />
For_McOwan<br />
Four_Nations_Once_Aga<br />
in<br />
France<br />
Frankenstein<br />
Fred<br />
Fred_Flintstone<br />
French_Open<br />
Gatsby<br />
Geoff_Williams<br />
Gigi<br />
God<br />
Guatemela<br />
Hamlet<br />
Hana_Mandlikova<br />
Harold_Bishop<br />
He<br />
Herodias<br />
Highland_Laddie<br />
Hodge<br />
Holland<br />
Hotspur<br />
Houston_Astros<br />
I<br />
Iago<br />
If<br />
Ignatius<br />
In<br />
In_Now_Voyager<br />
India<br />
Irish<br />
Irma<br />
Isabella<br />
Israel<br />
Italy<br />
James<br />
James_Bond<br />
Jane<br />
January<br />
Jay_Sigel<br />
Jeff_Tarango<br />
Jerry_Lee<br />
Jessica<br />
Jimmy_Connors<br />
Joe_Orton<br />
John_Ireland<br />
John_Paul_II<br />
Jugoplastika_Split<br />
Juliet<br />
Just<br />
Karpov<br />
Keys<br />
La_Fille_Mal_Gardee<br />
Lady_MacDuff<br />
Lear_-_or_for<br />
Leeds_Town_Centre<br />
Leicester<br />
Let<br />
Lilian<br />
Lithuania<br />
Littlechap<br />
Lola_Lovell<br />
Madge<br />
Malcolm<br />
Marchbanks<br />
Martin<br />
Masters<br />
Max_Davidson<br />
Medea<br />
Mess<br />
Mick_Langley<br />
Mike<br />
Miloslav_Mecir<br />
Monaco<br />
Mother_Simone<br />
Mozart<br />
Mrs_Pearce<br />
Murder<br />
Neath<br />
New_Zealand<br />
Newport<br />
Next_Friday<br />
Nick<br />
Nina_Simone<br />
Northern_Ireland<br />
Norwich<br />
Not<br />
Now<br />
Nowhere<br />
On<br />
On_Sunday<br />
Ophelia<br />
Opo<br />
Oral_Roberts_Universi<br />
ty<br />
Othello<br />
PE<br />
Pakistan<br />
Part<br />
Partizan<br />
Patience<br />
Peeping_Tom<br />
Peter<br />
Pizza_Express_Nationa<br />
l_League<br />
Platt<br />
Poulenc<br />
Prelude<br />
Prentice<br />
Prussian<br />
Punjab_XI<br />
Queen<br />
Randall<br />
Randy_Bodek<br />
Real_Madrid<br />
Recently<br />
Robbie_Krieger<br />
Robin_Hood<br />
Ronald_Reagan<br />
Rosie_Tickletoe<br />
Rowan_Tree<br />
Roy_Castle<br />
Royal_Albert_Hall<br />
Rugby<br />
Rummidge_University<br />
Sami_Elopuro
194<br />
Sampdoria<br />
Sarcophagus<br />
Satie<br />
Scot<br />
Scotland<br />
Scott<br />
Shilton<br />
Shylock<br />
Sibelius<br />
Slater<br />
Smiths<br />
Snodin<br />
So<br />
Soma_Singh<br />
Sometimes<br />
South_African<br />
Soviet_Union<br />
Spain<br />
Stars<br />
Stax/Atlantic<br />
Steffi<br />
Sunderland<br />
Surrey<br />
Swansea<br />
Sweden<br />
Tears<br />
Tenth_Symphony<br />
Test<br />
The<br />
The_Elder_Statesman<br />
The_Faces<br />
The_Fool<br />
The_Marquee<br />
The_Olympics<br />
Theatre<br />
Then<br />
Thief<br />
This<br />
This_Lightning_Always<br />
_Strikes_Twice<br />
Thomas_Indermuhle<br />
Thus<br />
To<br />
Tony_Hancock<br />
Topsy<br />
Torino<br />
Toto<br />
Tourism<br />
Trumpet_Concerto<br />
Twenty_Questions<br />
Undiscovered_Country<br />
United_States<br />
Up_Jenkins<br />
Urbane_Slava<br />
Uruguay<br />
V<br />
Victor_Laszlo<br />
Vincent_Van_Gogh<br />
Viola<br />
Volumnia<br />
We<br />
Wearin<br />
Wendy_Darling<br />
West_Germany<br />
West_Indies<br />
When<br />
While<br />
Wigan<br />
Wimbledon<br />
World_Cup<br />
World_International_C<br />
lub_Championships<br />
Yet<br />
Yugoslavia<br />
accompaniment<br />
accordion<br />
ace<br />
ace_of_clubs<br />
act<br />
adore<br />
agent<br />
air<br />
airs<br />
album<br />
alto-saxophone<br />
antic<br />
anything<br />
anyway_-_probably<br />
area<br />
audio<br />
author<br />
back<br />
backgammon<br />
baddy<br />
badminton<br />
bagpipe<br />
baker<br />
ball<br />
ball-games<br />
ball_game<br />
ballerina<br />
band<br />
banjo<br />
bar<br />
barber<br />
bars<br />
baseball<br />
basketball<br />
bass<br />
batsman<br />
benefit_concert<br />
billing<br />
bit<br />
bitch-goddesses<br />
black<br />
blindfold<br />
bongo<br />
bopeep<br />
boule<br />
bowling<br />
bowls<br />
boy<br />
bridge<br />
brother<br />
bucket-base<br />
bulldozer<br />
bunker<br />
cameo<br />
card<br />
card_game<br />
career<br />
cat<br />
catch<br />
cello<br />
centenary<br />
chamber_music<br />
champion<br />
championship<br />
chanter<br />
char<br />
character<br />
chase<br />
chauffeur<br />
chess<br />
chicken<br />
child<br />
chip<br />
chord<br />
cinderella<br />
circuses<br />
clari<strong>net</strong><br />
classical_music<br />
clown<br />
club<br />
cockney<br />
cold<br />
comedy<br />
comic<br />
company<br />
competition<br />
concert<br />
concerto<br />
consul<br />
contest<br />
copy<br />
cornemuse<br />
couple<br />
course
195<br />
cousin<br />
cowboy<br />
creation<br />
cricket<br />
cup_final<br />
dad<br />
dart<br />
darts<br />
daughter<br />
debut<br />
deep<br />
defeat<br />
defence<br />
designation<br />
detective<br />
dice<br />
dirge<br />
doctor<br />
double<br />
doubles<br />
drama<br />
draw<br />
drawing_room<br />
drop<br />
drug_addict<br />
drum<br />
drummer<br />
drunk<br />
dulcimer<br />
each_other<br />
editor<br />
emigre<br />
enough<br />
environs<br />
equaliser<br />
event<br />
everybody<br />
everything<br />
evil<br />
ex-lovers<br />
ex-policeman<br />
exhibition<br />
explosive<br />
facility<br />
faction<br />
fair<br />
father<br />
favourite<br />
feminist<br />
fermata<br />
fiddle<br />
field<br />
film<br />
final<br />
first<br />
fish<br />
flirt<br />
flute<br />
fly-half<br />
folk_music<br />
football<br />
footsy<br />
for_-_but<br />
forehand_shot<br />
formation<br />
forte<br />
forward<br />
foxtrot<br />
friendlies<br />
full_time<br />
game<br />
game_-_sorry<br />
garden<br />
gear<br />
gig<br />
girl<br />
going_ashore<br />
gold_digger<br />
golf<br />
good_deal<br />
goody<br />
government<br />
great_care<br />
great_power<br />
ground<br />
guitar<br />
guitar_-_without<br />
gunfighters<br />
guy<br />
hall<br />
hand<br />
handful<br />
hard-to-get<br />
havoc<br />
he<br />
head<br />
hearts<br />
heavy<br />
her<br />
hide<br />
him<br />
himself<br />
his<br />
hisown<br />
history<br />
hockey<br />
holder<br />
hole<br />
hook<br />
hooker<br />
host<br />
house<br />
hunch<br />
husband<br />
hymn<br />
importance<br />
increase<br />
information<br />
infrastructure<br />
inning<br />
instrument<br />
instrument_-_even<br />
internationals<br />
interview<br />
issue<br />
it<br />
its<br />
itself<br />
jazz<br />
jazz_band<br />
joke<br />
key<br />
keyboard<br />
kick<br />
knight<br />
knucklebones<br />
labrador<br />
lady<br />
lament<br />
lead<br />
leader<br />
league<br />
leg<br />
length<br />
liking<br />
line<br />
links<br />
lob<br />
local<br />
location<br />
look_-_in<br />
lot<br />
love<br />
lover<br />
low<br />
lute<br />
lyre<br />
major<br />
make<br />
man<br />
manner<br />
market<br />
match<br />
matches<br />
material<br />
me<br />
melody<br />
member
196<br />
minor_role<br />
mogul<br />
moment<br />
mother<br />
move<br />
movement<br />
movie<br />
moving<br />
music<br />
music_-_recorded<br />
musical_chairs<br />
musical_instrument<br />
muzak<br />
nation<br />
national_anthem<br />
negative<br />
nine_iron<br />
nobodies<br />
note<br />
note_-_without<br />
nurse<br />
oboe<br />
officer<br />
official<br />
one-two<br />
opponent<br />
opposite<br />
opposite_number<br />
opposition<br />
oppositon<br />
organ<br />
pachinko<br />
part<br />
partner<br />
parts<br />
pass<br />
passage<br />
patience<br />
people<br />
people_-_he<br />
performance<br />
performer<br />
personnel<br />
phoney<br />
piano<br />
picture<br />
piece<br />
piece_of_music<br />
ping-pong<br />
pipe<br />
place<br />
plastic<br />
player<br />
pleasure<br />
point<br />
poker<br />
police_officer<br />
policeman<br />
policy<br />
politics<br />
poll<br />
polo<br />
pool<br />
pop<br />
power-games<br />
power_politics<br />
ppp<br />
practical_joke<br />
practice<br />
present<br />
prince<br />
princess<br />
private_eye<br />
producer<br />
qualification<br />
quarterback<br />
quotation<br />
racketball<br />
radio<br />
range<br />
realisation<br />
record<br />
recorder<br />
records_-_all<br />
refinement<br />
rehearsal<br />
renegade<br />
repertory<br />
replay<br />
resource<br />
rest<br />
review<br />
revival<br />
rhythm-guitar<br />
role<br />
role_-_that<br />
round<br />
routine<br />
rugby<br />
runners-up<br />
sacrifice<br />
safe<br />
safety<br />
salute<br />
savage<br />
sax<br />
scene<br />
schedule<br />
season<br />
second<br />
second_fiddle<br />
seeded_player<br />
senior<br />
sequence<br />
series<br />
serve-and-volley<br />
set<br />
seventeen-year-olds<br />
shadow<br />
she<br />
shit<br />
shop<br />
shot<br />
show<br />
showcase<br />
side<br />
siege<br />
significance<br />
silly<br />
singer<br />
singles<br />
siren<br />
sniffers<br />
soccer<br />
solo<br />
someone<br />
something<br />
sonata<br />
song<br />
soothsayer<br />
sort<br />
soul<br />
sound<br />
spectacular<br />
spectator<br />
speech<br />
spinner<br />
sport<br />
squash<br />
squawk_-_actually<br />
squeeze_box<br />
stage<br />
standard<br />
standing<br />
star<br />
start<br />
stock_market<br />
straight<br />
straight_man<br />
string<br />
stroke<br />
stuff<br />
style<br />
subject<br />
success<br />
support<br />
surface<br />
sweeper
197<br />
symphonies_-_and_so<br />
symphony<br />
system<br />
table_tennis<br />
tackle<br />
talker<br />
tape<br />
tape_recording<br />
tea<br />
team<br />
team-mate<br />
television<br />
tennis<br />
tenor<br />
term<br />
test<br />
text<br />
that<br />
their<br />
them<br />
theme<br />
themselves<br />
these<br />
thing<br />
third<br />
this<br />
those<br />
thrust<br />
thumb<br />
time<br />
tour<br />
tournament<br />
town<br />
toyboy<br />
traitor<br />
tremolo<br />
trick<br />
trickster<br />
troupe<br />
truant<br />
trump_card<br />
try<br />
tune<br />
tune_-_he<br />
twenty-one<br />
twist<br />
type<br />
tzigane<br />
ukulele<br />
union<br />
unknown<br />
us<br />
vamp<br />
variation<br />
variety<br />
venue<br />
verse<br />
version<br />
victory<br />
video<br />
villain<br />
violin<br />
vote<br />
waiting_game<br />
war<br />
we<br />
well<br />
well_-_doing<br />
well_-_that<br />
what<br />
when_-_as<br />
which<br />
whist<br />
white<br />
who<br />
whole<br />
whom<br />
wife<br />
winner<br />
witch<br />
woman<br />
word<br />
word_game<br />
work<br />
works<br />
workshop<br />
worse<br />
writing<br />
you<br />
your<br />
zzzsssss-on<br />
play: w2w subjektuak<br />
-tung<br />
ACET-link<br />
Advertising<br />
Africa<br />
Africans<br />
Ajax<br />
Alan<br />
Alan_Duffy<br />
Alan_Tait<br />
Alec_Guinness<br />
Alexandra_Mathie<br />
Alison_Fiske<br />
Alison_Ramsay<br />
All<br />
All_Leeds<br />
Alto_Ego<br />
Alun_Armstrong<br />
Amadu_Bamba<br />
Amanda_Harris<br />
Americans<br />
And_Evelyn<br />
And_Jerry_Lewis<br />
Anja<br />
Ann_Charleston<br />
Annesley<br />
Annie_Jones<br />
Anthropology<br />
Apoptosis<br />
Arashi<br />
Argentina<br />
Argentinian<br />
As<br />
Asian<br />
Association<br />
At<br />
Audrey<br />
Australia<br />
Australian<br />
BARCELONA<br />
BRIAN_ANDREW<br />
Baa-Baas<br />
Ballesteros<br />
Barcelona<br />
Becker<br />
Berry<br />
Bill<br />
Billie_Jean_King<br />
Birmingham_City<br />
Bobby_Abel<br />
Bogarde<br />
Bolton<br />
Boosey<br />
Both<br />
Bread<br />
Brentford<br />
Brian_O'Donnell<br />
Bridgend<br />
Britain<br />
British_people<br />
Briton<br />
Bruce_Alexander<br />
Bull<br />
Bully<br />
Bunce<br />
Busaco<br />
But<br />
But_Olechea<br />
CHEN_XINHUA<br />
Cadet_Diana_Grant<br />
Cambridge_University<br />
Campbell<br />
Caniggia
198<br />
Cardiff<br />
Casey<br />
Cash<br />
Certainly_American<br />
Channel_3<br />
Charles<br />
Chen<br />
Chilcott<br />
Children<br />
Chile<br />
Christianity<br />
Christopher_B.<br />
City<br />
Clark_Lectures<br />
Clasper<br />
Coins<br />
Companies<br />
Cordwell<br />
Cross<br />
Crossman<br />
DAVID_FEHERT<br />
DJ<br />
DM<br />
DUP<br />
Daly<br />
Dave_Stringer<br />
Dave_Whelan<br />
David<br />
David_Creasser<br />
David_Feherty<br />
David_Titterington<br />
Davies<br />
Davos<br />
Davy_Spillane<br />
Dennis<br />
Derek<br />
Diana<br />
Diego_Maradona<br />
Dignam<br />
Dittmar<br />
Dominique_Abel<br />
Dorothy<br />
Driver_Oliver<br />
Duke<br />
Dutch<br />
Dwight_York<br />
Dziekanowski<br />
EC<br />
ELLERY_HANLE<br />
East<br />
Eban<br />
Echolocation<br />
Edberg<br />
Elizabeth_Ben<strong>net</strong>t<br />
Ellison<br />
Emma_Bernard<br />
Emo_Philips<br />
England<br />
English<br />
Essex<br />
Evelyn<br />
Events<br />
Evert<br />
Except<br />
Faldo<br />
Fame/It<br />
Family_Day-_Families<br />
Farmers<br />
Federal_Chancellor<br />
Ferdinand<br />
Fernandel<br />
Fido<br />
Fiji<br />
Five<br />
Flare<br />
Flowered_Up<br />
Forest<br />
Fouroux<br />
Fowl<br />
France<br />
Frank_Bruno<br />
Frankie<br />
Further<br />
GARRY_HARVEY<br />
GARRY_SCHOFIE<br />
GRIMSBY<br />
Gareth_Edwards<br />
Gary_Armstrong<br />
Gen_Beg<br />
General_Noriega<br />
Geoff_Cooke<br />
George<br />
German<br />
German_Democratic_Rep<br />
ublic<br />
Gerry<br />
Gilchrist<br />
Gloria<br />
Goldoni<br />
Gooch<br />
Government<br />
Graham_Gooch<br />
Grayson<br />
Great_Britain<br />
Greenidge<br />
Grobbelaar<br />
Gullit<br />
Had_Hagi<br />
Had_Liverpool<br />
Hagi<br />
Hakan_Hardenbege<br />
Hale_Irwin<br />
Hamp<br />
Hanley<br />
Hansford<br />
Harriet<br />
Harriet_Walter<br />
Harrison<br />
Harry_de_Tunja<br />
Having<br />
He<br />
Helen_Mirren<br />
Hemmings<br />
Her_Yorkshire_Terrier<br />
Highlander<br />
Hispanic<br />
Hobbs<br />
Hoffmann<br />
Hollywood<br />
Home_Unions_XV<br />
Hopkins<br />
Horace<br />
Horse<br />
Howard_Clark<br />
However<br />
Hudson<br />
Humphries<br />
Hunter<br />
Hussain<br />
I<br />
IAN_SHERRATT<br />
ILLNESS<br />
IRA<br />
ITALY<br />
If<br />
If_Steve<br />
Ilona<br />
Immigration<br />
In<br />
In_London<br />
Ipswich<br />
Irwin<br />
Isla<br />
It<br />
Ivan_Lendl<br />
Jack_Good<br />
Jack_Nicholson<br />
Jackman<br />
Jan_Russ<br />
Jane<br />
Janssen<br />
Jason_Strange<br />
Jay<br />
Jazz_FM<br />
Jews<br />
Jez_Harris<br />
Jim_Pugh<br />
Jimmy
199<br />
Jimmy_Connors<br />
Jo<br />
John_Kirwan<br />
Johnson<br />
Jonathan_Griffiths<br />
Joolz<br />
Just<br />
Karpov<br />
Keen<br />
Kennedy<br />
Kevin_Simms<br />
Kimmins<br />
King<br />
Klepner<br />
Knott<br />
Konitz<br />
Kylie<br />
Labour_Britain<br />
Lamb<br />
Lara<br />
Later<br />
Lawson<br />
Leagues<br />
Lech_Walesa<br />
Lee<br />
Leeds<br />
Len_Shackleton<br />
Lenin<br />
Leonard<br />
Leonel_Alvarez<br />
Lew_Stone_Band<br />
Lewis<br />
Li<br />
Liam_Neeson<br />
Liberal_Democrats<br />
Life<br />
Lionel_Stander<br />
Lisa<br />
Liv_Ullman<br />
Liverpool<br />
Livingston<br />
Llanelli<br />
Lockwood<br />
Louis_Stanley<br />
Lucy<br />
MILLWALL_Football_Clu<br />
b<br />
Madonna<br />
Major<br />
Major_Jaromir_Nechans<br />
ky<br />
Mandy_Wainwright<br />
Many<br />
Margaret_Lockwoo<br />
Marshall<br />
Masters_Ballesteros<br />
Mathews<br />
Matthews<br />
Maxim_Vengerov<br />
Mayall<br />
McBurney<br />
McEwan_Younger<br />
McPherson<br />
Meg_Ryan<br />
Mein_Kampf<br />
Mel_Gibson<br />
Merson<br />
Mervyn_King<br />
Mets<br />
Michael_Caine<br />
Michael_Gambon<br />
Michael_Kitchen<br />
Mick<br />
Mike_Kenrick<br />
Miss_Sanchez<br />
Mogilny<br />
Monaco<br />
Moore<br />
Morgan<br />
Morton<br />
Motorfair<br />
Mrs_Thatcher<br />
Murray_Howell<br />
Music<br />
Musicians<br />
NECHAEV<br />
Neath<br />
Neil_Puckering<br />
Nicola_Buxton<br />
Nigel_Terry<br />
No_27<br />
Norman<br />
Northampton<br />
Now<br />
O<br />
ON_A_London_Saturday<br />
Obesity<br />
Oh<br />
Old_Testament<br />
On<br />
One<br />
Only_Harris<br />
Only_Willey<br />
Orlando_Thunder<br />
Owen<br />
PPBs<br />
PWL<br />
Paddy_Ashdown<br />
Paisley<br />
Panathinaikos<br />
Parker<br />
Patrick<br />
Patrick_Dempsey<br />
Patrick_Patterson<br />
Patten<br />
Paul<br />
Paul_Loughlin<br />
Paul_Merson<br />
Peers<br />
People<br />
Peter<br />
Phil<br />
Philbert_Jones<br />
Philip<br />
Pilade<br />
Pitt<br />
Porfiry<br />
Pornography<br />
Pound<br />
Press_Council<br />
Prince<br />
Queen_Elizabeth<br />
RAF<br />
Rabin<br />
Rachmaninov<br />
Rafferty<br />
Ralph_Richardson<br />
Ramsey<br />
Ray_McAnally<br />
Realistically<br />
Regimental_Band<br />
Relations<br />
Republic<br />
Richard<br />
Richards<br />
Rick_Wakeman<br />
Rijkaard<br />
Ringo_Starr<br />
Rob_Andrew<br />
Roberto_Donadoni<br />
Robin_Williams<br />
Robson<br />
Rocastle<br />
Rodney_Martin<br />
Roger_Harper<br />
Romanians<br />
Rose<br />
Roy_Powell<br />
Rudd<br />
Russian<br />
Sanchez<br />
Sanchez-Vicario<br />
Sandy_Lister<br />
Sasha<br />
Saver<br />
Semillon<br />
Sergei<br />
Shakespeare
200<br />
Shamir<br />
Shaw<br />
She<br />
Sheffield<br />
Shelford<br />
Shelley_Willetts<br />
Shelton<br />
Short<br />
Shriver<br />
Sibelius_Violin_Conce<br />
rto<br />
Silviu_Brucan<br />
Since<br />
Sinton<br />
So<br />
Some<br />
Soon<br />
Southampton<br />
Soviet_Union<br />
Soviets<br />
Spain<br />
Sponsorship<br />
St_Stephen<br />
Stanley_Baxter<br />
Statham<br />
Steffi<br />
Steve<br />
Steve_Stoutt<br />
Stewart<br />
Sunderland<br />
Sylvester_Stallone<br />
The_London_Metal_Exch<br />
ange<br />
THE_SLIDE<br />
The_Soviet_Union<br />
Tammuz<br />
Technology<br />
Tendulkar<br />
Terry<br />
Terry_Griffiths<br />
Thames<br />
The<br />
The_Ambrose_Or<br />
chestra<br />
The_Army<br />
The_British<br />
The_British_Prime_Min<br />
ister<br />
The_Doors<br />
The_Esk_Valley<br />
The_Festival<br />
The_Gaullist_RPR<br />
The_Grifters_Anjelica<br />
_Huston<br />
The_Pakistani<br />
The_Poles<br />
The_Slavia<br />
The_Style_Council<br />
Then<br />
They<br />
This<br />
Thomas<br />
Those<br />
Todd<br />
Tomorrow<br />
Tonight_England<br />
Tony_Blackburn<br />
Torrijos<br />
Treitel<br />
Truman<br />
Trust<br />
Two<br />
UN_High_Commission<br />
Ugly_Sisters<br />
Unlike_Holland<br />
Val_Robinson<br />
Vicini<br />
Viktoria_Mullova<br />
Vivien<br />
Volunteers<br />
Wainwright<br />
Wallace<br />
We<br />
Wendy_Hiller<br />
Werder_Bremen<br />
West_End_Leo_McKern<br />
West_Ham<br />
When<br />
When_Jack_Nickla<br />
When_Kent<br />
When_Lamb<br />
When_Prince<br />
White<br />
Williams<br />
Winter_Gardens<br />
With<br />
Wolstenholme<br />
Women<br />
Woods<br />
Woody<br />
World_Cup<br />
Worrall<br />
Wright<br />
Wyllie<br />
Yet_Binyon<br />
Yet_England<br />
Yorkshire_Asians<br />
You<br />
Yudishthira<br />
Yusupov<br />
Zsuzsa<br />
Zvornik<br />
act<br />
actor<br />
actor-dancers<br />
actors_-_in<br />
actress<br />
adaptation<br />
admirer<br />
affiliation<br />
age<br />
agriculture<br />
air<br />
air_pollution<br />
airstrip<br />
album<br />
anthropology<br />
anybody<br />
arbour<br />
army<br />
art<br />
artist<br />
aspect<br />
assiduity<br />
atmosphere<br />
atom<br />
audition<br />
authority<br />
back<br />
bagpipe<br />
balance<br />
ball<br />
band<br />
bandsmen<br />
bank<br />
base<br />
batsmen<br />
best<br />
bigwig<br />
bimbo<br />
bloke<br />
book<br />
boredom<br />
bottom<br />
boy<br />
breeze<br />
brother<br />
busker<br />
buyer<br />
cabi<strong>net</strong>_minister<br />
capitalism<br />
captain<br />
car_park<br />
cassette<br />
cast<br />
cello<br />
challenge<br />
chance
201<br />
chancellery<br />
character<br />
chief<br />
child<br />
chord<br />
choreographer<br />
church<br />
circuit<br />
city<br />
civil_servant<br />
class<br />
clergy<br />
clock<br />
close_support<br />
club<br />
cog<br />
coinage<br />
combination<br />
company<br />
computer<br />
conductor<br />
conflict<br />
consistency<br />
constituent<br />
consultation<br />
coordination<br />
corruption<br />
costs_-_and_this<br />
council<br />
country<br />
court<br />
coverage<br />
crew<br />
culture<br />
dark_glasses<br />
declarer<br />
defence_policy<br />
defensive<br />
department<br />
design<br />
development<br />
devil<br />
devotee<br />
devotion<br />
donation<br />
drug<br />
economy<br />
election<br />
element<br />
entire<br />
episode<br />
escalation<br />
established_church<br />
event<br />
everybody<br />
experience<br />
facility<br />
factor<br />
factory<br />
familiar<br />
family<br />
fanatic<br />
farmer<br />
father<br />
favourite<br />
federation<br />
fiddler<br />
fighter<br />
figure<br />
finishing<br />
foal<br />
football<br />
force<br />
foreign_office<br />
foremen<br />
friend<br />
fullback<br />
game<br />
general<br />
girl<br />
girlfriend<br />
go<br />
goal<br />
goalkeeper<br />
golfer<br />
gotta<br />
governing<br />
government<br />
grain<br />
gramophone<br />
grandchildren<br />
grazing<br />
group<br />
growth<br />
guitarist<br />
guy<br />
ha-kohen<br />
hand<br />
hath<br />
he<br />
he/she<br />
head<br />
headmaster<br />
her<br />
heroine<br />
him<br />
himself<br />
his<br />
history<br />
homecare<br />
homosexuality<br />
honorarium<br />
house<br />
human<br />
humour<br />
ideal<br />
ideologue<br />
ii<br />
increase<br />
inhibition<br />
inning<br />
intellectual<br />
interest_-_may<br />
internationals<br />
interstice<br />
intricacy<br />
investment<br />
it<br />
joke<br />
joke-tie<br />
key<br />
king<br />
last<br />
lawyer<br />
leader<br />
leg<br />
legend<br />
life<br />
literature<br />
logjam<br />
look<br />
lot<br />
love<br />
majority_rule<br />
majors<br />
man<br />
manager<br />
manufacturer<br />
masochism<br />
match<br />
match_point<br />
matches<br />
materialised_-_that<br />
materialises<br />
me<br />
media<br />
melodic_phrase<br />
member<br />
memory<br />
mid-thirties<br />
midfield<br />
mime<br />
mind<br />
moment<br />
money<br />
money_market<br />
monkey<br />
mortality_rate
202<br />
mother<br />
move<br />
muscle<br />
music<br />
musician<br />
name<br />
nationalization<br />
nativity<br />
negative<br />
neutrino<br />
normal<br />
note<br />
noticeboard<br />
notion<br />
now<br />
number<br />
ocean<br />
office<br />
official<br />
old_man<br />
ones<br />
opener<br />
orchestra<br />
organisers<br />
organization<br />
others<br />
pair<br />
papacy<br />
parent<br />
parliament<br />
parrot<br />
part<br />
participant<br />
party<br />
pastor<br />
patriarch<br />
people<br />
performance<br />
performer<br />
period<br />
person<br />
personality<br />
phone<br />
piece<br />
pitch<br />
place<br />
planning<br />
player<br />
policemen<br />
policy<br />
political_prisoner<br />
premier<br />
premiere<br />
presence<br />
press<br />
pretence<br />
pretending<br />
priest<br />
primitive<br />
pro<br />
problem<br />
process<br />
production<br />
professional<br />
programme<br />
project<br />
projection<br />
proliferation<br />
prop<br />
protest<br />
quantity<br />
radio<br />
radio_station<br />
raid<br />
rank<br />
rebirth<br />
recipient<br />
reconstruction<br />
record<br />
recording<br />
recruit<br />
refuse<br />
regeneration<br />
religion<br />
religious_leader<br />
replay<br />
repression<br />
resource<br />
rest<br />
result<br />
rhapsody<br />
ribbon<br />
risk<br />
rock_group<br />
role<br />
round<br />
routine<br />
rugbymans<br />
runners-up<br />
salesman<br />
satellite<br />
satire<br />
saw<br />
scene<br />
schizoid_-_he<br />
school<br />
script<br />
sculptor<br />
section<br />
sector<br />
self-interest<br />
series<br />
she<br />
shedding<br />
show<br />
side<br />
signing<br />
sitar<br />
size<br />
skill<br />
smile<br />
soccer<br />
someone<br />
son<br />
sponsor<br />
squad<br />
stage<br />
standing<br />
standoff<br />
star<br />
state<br />
station<br />
step<br />
stimulus<br />
storyteller<br />
straight<br />
strait<br />
street<br />
stress<br />
stretch<br />
string<br />
string_orchestra<br />
stroke<br />
student<br />
studio<br />
support<br />
tackling<br />
tails<br />
talent<br />
tax_advantage<br />
taxation<br />
teacher<br />
team<br />
technology<br />
television<br />
terrace<br />
that<br />
theatre<br />
their<br />
them<br />
then<br />
they<br />
thing<br />
this<br />
those<br />
time<br />
time_being<br />
tourist
203<br />
trade_union<br />
train<br />
training<br />
tram<br />
treatment<br />
trio<br />
try<br />
tuna<br />
tune<br />
typification<br />
uncertainty<br />
unconscious<br />
us<br />
user<br />
valley<br />
varicose_vein<br />
venture<br />
volunteer<br />
wanna<br />
want<br />
watershed<br />
we<br />
weapon<br />
what<br />
which<br />
white<br />
who<br />
whole<br />
whom<br />
wife<br />
wind<br />
wing<br />
winner<br />
winning<br />
wolf<br />
woman<br />
work<br />
workmate<br />
workshop<br />
world<br />
worth<br />
writing<br />
wrought<br />
yacht<br />
year_-_he<br />
you<br />
young_man<br />
youngster<br />
your<br />
youth<br />
encounter: w2w objektuak<br />
Caliban<br />
Charity_Rainham<br />
Community_Relations_B<br />
ranch<br />
Company_Commander<br />
Crocker<br />
Even<br />
Ever<br />
Features<br />
Galileo<br />
God<br />
Hispanic<br />
In_Hawksmoor_Ned<br />
Isolde<br />
Karajan<br />
Keepin<br />
Ken<strong>net</strong>h_Allsop<br />
Lawson<br />
Lilliput<br />
Luthien<br />
Malgosia<br />
Ministry<br />
RUC<br />
Romeo<br />
Spirit<br />
Swede<br />
Those<br />
Young_Conservatives<br />
age<br />
anger<br />
anything<br />
baby<br />
bat<br />
bear-garden<br />
beer<br />
binary<br />
bottleneck<br />
bottom<br />
consciousness<br />
constable<br />
conversation<br />
course<br />
creator<br />
creature<br />
crisis<br />
critique<br />
degree<br />
difference_of_opinion<br />
difficulty<br />
disapproval<br />
door<br />
event<br />
fatalism<br />
father<br />
fit<br />
friendship<br />
garden<br />
god<br />
gradient<br />
grandmother<br />
ground<br />
her<br />
him<br />
horror<br />
image<br />
in<br />
incontinence<br />
instrument_of_torture<br />
isolation<br />
issue<br />
kindness<br />
landscape<br />
longifolia<br />
look<br />
lot<br />
mess<br />
nature<br />
number<br />
nylon<br />
obstacle<br />
offender<br />
opponent<br />
opposition<br />
orchestra<br />
organization<br />
ourselves<br />
outsider<br />
paper<br />
party<br />
people<br />
person<br />
phenomena<br />
plate<br />
poem<br />
police<br />
policemen<br />
pottery<br />
press<br />
problem<br />
project<br />
rejection<br />
resistance<br />
road<br />
rock<br />
root<br />
sales_resistance<br />
scene<br />
she<br />
show<br />
sight<br />
situation<br />
solution<br />
someone
204<br />
something<br />
sort<br />
sound<br />
spirit<br />
straits<br />
taxidriver<br />
them<br />
they<br />
trading<br />
traffic<br />
us<br />
violence<br />
wagon<br />
whale<br />
what<br />
which<br />
whom<br />
woman<br />
word<br />
work<br />
young_woman<br />
zone<br />
encounter: w2w subjektuak<br />
Asylum-seekers<br />
Beren<br />
Brown_-_which<br />
Charles<br />
Christ<br />
Close<br />
England<br />
GEC<br />
I<br />
If<br />
It<br />
Jane<br />
Kemp<br />
Klaus_Steilmann<br />
May_Be<br />
Prince<br />
Silver_Jubilee_Year<br />
Swiss<br />
They<br />
Van_Breukelen<br />
We<br />
West_Indies<br />
World_Cup<br />
academic<br />
analysis<br />
aspiration<br />
athlete<br />
audience<br />
brief<br />
builder<br />
class<br />
critic<br />
difficulty<br />
driveline<br />
economics<br />
fight<br />
finger<br />
focus<br />
glider<br />
he<br />
it<br />
labour<br />
loss<br />
machine<br />
main<br />
meeting<br />
missionary<br />
name<br />
office<br />
official<br />
organisation<br />
passenger<br />
people<br />
police<br />
problem<br />
progress<br />
rugby<br />
share<br />
she<br />
spokesmen<br />
teachings<br />
they<br />
top<br />
tramp<br />
we<br />
what<br />
which<br />
who<br />
whole<br />
whom<br />
you<br />
meet: w2w objektuak:<br />
"&_Guilds'_new_ethnic<br />
_element."<br />
-will<br />
82_per_cent<br />
90%<br />
AMP<br />
Abe_Moses<br />
Acas<br />
After<br />
Air<br />
Ajax<br />
Alec_Harvey-Bailey<br />
American<br />
Americans<br />
And<br />
Anderson<br />
Andy<br />
Andy_Barton<br />
Andy_Warhol<br />
Angela<br />
Apap<br />
Arab<br />
Archbishop_Desmond<br />
Ari<br />
Army<br />
As<br />
At<br />
Australian<br />
Australian_Mutual<br />
BS5665<br />
Balanchine<br />
Beaton<br />
Bernard_Buffet<br />
Bernie_Taupin<br />
Binyon<br />
Blueharts<br />
Brazil<br />
Brecht<br />
Brian_Stacey<br />
Broederbond<br />
Brooklands<br />
Browne<br />
Bush<br />
But<br />
Cabi<strong>net</strong><br />
Cambridge<br />
Canadian<br />
Caravaggio<br />
Caribs<br />
Carmine_Sabatini<br />
Chapman<br />
Charity<br />
Charles<br />
Charles_Fiterman<br />
Charles_Williams<br />
Chicagoan<br />
Children_Fund_Industr<br />
y_and_Commerce_Group<br />
Chile<br />
Chinaman<br />
Chip_Beck<br />
Chris<br />
Chris_Dittmar<br />
Chris_Eubank<br />
Christ<br />
Christian<br />
Claud_Cockburn<br />
Club<br />
Coary<br />
Colberg
205<br />
Colette<br />
Colin<br />
Colonel_Bumface<br />
Conference<br />
Cool_Ground<br />
Cork_Harlequins<br />
Cornwall<br />
Costa_Rica<br />
Council<br />
Dalai_Lama<br />
Dana<br />
David<br />
David_Eccles<br />
David_Graveney<br />
David_Hockney<br />
David_Morgan<br />
Davos<br />
DeFries<br />
Death<br />
Derek_Bryceson<br />
Derek_Williams<br />
Devoy<br />
Director<br />
Dot<br />
Duncan_McIntyre<br />
Durham<br />
Dusty_Britches<br />
Dzerzhinsky<br />
ERS-2<br />
Earlier<br />
Edouards<br />
Edward_Heath<br />
Egypt<br />
Eleanor<br />
Eliette<br />
Ely<br />
Emperor_Charles_IV<br />
Erica_Upton<br />
Erika<br />
Ernest_Owen<br />
Esau<br />
Esquire_Editors<br />
Estelle_Gevers<br />
Even<br />
Everybody<br />
Ezra<br />
F.W._de_Klerk<br />
Faith<br />
Family_Centre<br />
February<br />
Feebles<br />
Female_Brat_Pack<br />
Fergie<br />
Florence_Ames<br />
For<br />
France<br />
Francois_Mitterrand<br />
Frankie_Dettori<br />
French<br />
Freud<br />
G.F._Bodley<br />
GP<br />
Gaidar<br />
Galileo<br />
Gene_Carroll<br />
General_Manuel_Antoni<br />
o_Noriega<br />
George_Bush<br />
George_Underwood<br />
German<br />
Giles<br />
Giles_Hawick<br />
Giorgio_Armani<br />
Giselle<br />
God<br />
Gorbachev<br />
Green<br />
Gregor_Gysi<br />
Gregory<br />
Guide<br />
Gustafsson<br />
Gypsy<br />
Halifax<br />
Harker<br />
Hashemi<br />
Hawick<br />
Hazel_Key<br />
He<br />
Helen_Noble<br />
Hendry<br />
Here<br />
Hermione<br />
Hermione_Farthingale<br />
Heseltine<br />
Hesse<br />
Him<br />
Hiralal<br />
Holland<br />
Home_Secretary<br />
Honour<br />
Hugh_Neill<br />
Hull<br />
I<br />
IFG_Hallamshire<br />
Ian_Woosnam<br />
In<br />
In_1899<br />
In_1978<br />
Jack<br />
Jacob<br />
Jake<br />
Jamie<br />
Jane<br />
Jane_Toler<br />
Jansher_Khan<br />
Jay<br />
Jeffrey_Sachs<br />
Jenny<br />
Jerry<br />
Jew<br />
Joe_Ackerley<br />
John<br />
John_Cage<br />
John_Evans<br />
John_Pizey<br />
John_Virgo<br />
Joseph_Parker<br />
July<br />
Justin<br />
Karajan<br />
Kathleen<br />
Kennedy<br />
Kinnock<br />
Klara<br />
Kohl<br />
Korean<br />
Kraftwerk<br />
Kylie<br />
Laci<br />
Land_Rover<br />
Lee<br />
Lester<br />
Let<br />
Lilley<br />
Lise<br />
Lord<br />
Lord_Elton<br />
Lot<br />
Lucy<br />
Luke_Rittner<br />
Lyamshin<br />
MP<br />
Maggie<br />
Maker<br />
Malcolm_McLaren<br />
Malta<br />
Mandela<br />
Manfred_Gerlach<br />
Mannheim<br />
Many_Frenchmen<br />
Margaret_Thatcher<br />
Marianne<br />
Marlon_Brando<br />
Martine_Le_Moignan<br />
Mary_Finnigan<br />
Maureen_O'Sullivan<br />
Max_Schmeling<br />
Mbeki
206<br />
Melinda<br />
Michael_Wright<br />
Mick<br />
Miklos<br />
Miss_Fanshawe<br />
Miss_Freedman<br />
Mitzi<br />
Mobutu<br />
Mobutu_Sese_Seko<br />
Mohandas_K._Gandhi<br />
Morris<br />
Morrissey<br />
Morton_Rosengarten<br />
Most<br />
Mother_Kirk<br />
Mountjoy<br />
Mrs_Browning<br />
Mrs_Jones<br />
Mrs_Knelle<br />
Mrs_Matthews<br />
Mrs_Moore<br />
Mrs_Reagan<br />
Mrs_Wright<br />
Mubarak<br />
Mulhooleys<br />
Mullova<br />
Mum<br />
Murder<br />
NATO<br />
Needwood_Poppy<br />
Nelson_Mandela<br />
New_Zealand<br />
Nigel<br />
Nikiya<br />
Noel_Edmonds<br />
Now<br />
O<br />
Odd-Knut<br />
Oldham<br />
On_April_28<br />
On_Friday<br />
On_May_1<br />
Organisers<br />
Oscar_Wilde<br />
Ostertag<br />
Others<br />
Paisley<br />
Parliament<br />
Part_1<br />
Patten<br />
Pete<br />
Peter_Blake<br />
Peter_Cannon<br />
Peter_Lilley<br />
Phil<br />
Pollock<br />
Polypheme<br />
Pontypridd<br />
Pope<br />
Prime_Minister<br />
Princess<br />
Queen<br />
Rangers<br />
Ray_Manzarek<br />
Reagan<br />
Red_Star_Southampton<br />
Richard<br />
Rob_Andrew<br />
Robert<br />
Robert_Liljequist<br />
Robert_Mugabe<br />
Rodrigo_de_Triano<br />
Roh_Tae_Woo<br />
Romania<br />
Sabata<br />
Sabeth<br />
Salcey_Forests<br />
Sally_Television<br />
Salomon_Markus<br />
Sami_Elopuro<br />
Sarah_Ferguson<br />
Scotland<br />
Sean<br />
Sergei<br />
Sergio_Galeotti<br />
Shanaz<br />
Shelley<br />
Shevardnadze<br />
Sibelius<br />
Simon<br />
Slava<br />
Snow_White<br />
Solidarity_Prime_Mini<br />
ster<br />
Solidasarock<br />
Soviets<br />
St_Augustine<br />
Stephen_Hendry<br />
Steve_Eusebe<br />
Stock<br />
Stockport_County<br />
Stravinsky<br />
Sue_Lloyd_Jones<br />
Suharto<br />
Superman<br />
Susan_Schilling<br />
Swire_Sugden<br />
Talb<br />
Tanit<br />
Terminator<br />
That<br />
The<br />
The_Hound<br />
The_Long_Distance_Run<br />
ner<br />
The_Second_Sex<br />
Tim_Waters<br />
Tom<br />
Tony<br />
Tony_Chapman<br />
Toronto_Conference<br />
Toshack<br />
Touzel<br />
Tracy<br />
Travolta<br />
Trollope<br />
Tutu<br />
US<br />
US_Defence_Secretary<br />
Ulstermen<br />
Uppal<br />
VIP<br />
Vic<br />
Viola<br />
Virginia_Woolf<br />
Waldheim<br />
Ward<br />
Wehrmacht<br />
When<br />
Where<br />
Which<br />
Who<br />
Wigan<br />
William_Godwin<br />
Williams<br />
Witton_Albion<br />
Yeats<br />
Yeltsin<br />
You<br />
Yves_Saint_Laurent<br />
abandonment<br />
acceptance<br />
accountant<br />
act<br />
address<br />
adviser<br />
age<br />
agent<br />
aim<br />
airflow<br />
analyst<br />
angst<br />
animal<br />
another<br />
anybody<br />
application<br />
approval<br />
arrival
207<br />
asbestos<br />
asking_price<br />
aspiration<br />
atheist<br />
attack<br />
attitude<br />
aunt<br />
author<br />
average<br />
baby<br />
bailiff<br />
ball<br />
ballot<br />
band<br />
bank_clerk<br />
banker<br />
beast<br />
bed<br />
bewilderment<br />
bill<br />
bishop<br />
blame<br />
bloke<br />
boat<br />
bomber<br />
boy<br />
brewery<br />
brother<br />
budget<br />
building<br />
butcher<br />
cabi<strong>net</strong>_minister<br />
can<br />
captain<br />
captaincy<br />
case<br />
cat<br />
central<br />
chairman<br />
challenge<br />
champion<br />
child<br />
childminders<br />
church<br />
churchmen<br />
circle<br />
circumstances<br />
client<br />
collapse<br />
collarbone<br />
colonel<br />
comedian<br />
commander<br />
committee<br />
common_dolphin<br />
companion<br />
competition<br />
compromise<br />
consumer<br />
consumption<br />
contact<br />
corner<br />
cost<br />
counterpart<br />
couple<br />
course<br />
crime<br />
crises<br />
crisis<br />
criteria<br />
criterion<br />
cross<br />
crowd<br />
cunt<br />
customer<br />
cut<br />
daughter<br />
de_Klerk<br />
dead_end<br />
deadline<br />
death<br />
death_duty<br />
debt<br />
decisionmaking<br />
decorator<br />
defeat<br />
deficit<br />
delegate<br />
delegation<br />
descendants<br />
destiny<br />
deux<br />
dialogue<br />
difference<br />
difficulty<br />
dilemma<br />
directive<br />
discontent<br />
diving<br />
doctor<br />
doctor's_bill<br />
dog<br />
domination<br />
downpayment<br />
driver<br />
each_other<br />
eccentric<br />
economic_crisis<br />
editor<br />
egg<br />
electorate<br />
elements<br />
emergency<br />
emission<br />
employee<br />
end<br />
enemy<br />
engineer<br />
environmentalist<br />
everybody<br />
ex-member<br />
executive<br />
exile<br />
existence<br />
expenditure<br />
expense<br />
eye<br />
eyes<br />
face<br />
faction<br />
family<br />
fan<br />
farm<br />
fate<br />
father<br />
favourite<br />
fee<br />
fiction<br />
fighter<br />
figure<br />
film-makers<br />
final<br />
finalist<br />
financier<br />
first<br />
first_person<br />
flats<br />
foreign_minister<br />
form<br />
former<br />
fortnight<br />
friend<br />
fugures<br />
function<br />
gang<br />
gauge<br />
gaze<br />
general<br />
girl<br />
glance<br />
goal<br />
goodness<br />
government<br />
government_officials<br />
graduate<br />
group<br />
guest<br />
guide
208<br />
guideline<br />
guy<br />
hair<br />
hall<br />
he<br />
head<br />
headmaster<br />
health<br />
her<br />
her_-_it<br />
her_-_you<br />
hero<br />
hers<br />
herself<br />
him<br />
hippy<br />
his<br />
horse<br />
host<br />
hostility<br />
hotel<br />
hours<br />
house<br />
household<br />
husband<br />
idealist<br />
image<br />
immigrant<br />
injustice<br />
inquiry<br />
instalment<br />
institution<br />
intellectual<br />
interest_rate<br />
invasion<br />
it<br />
its<br />
itself<br />
journalist<br />
junk_bond<br />
king<br />
kiss<br />
lack<br />
lady<br />
landlady<br />
law<br />
lawyer<br />
layoff<br />
leader<br />
leg<br />
legal_fee<br />
level<br />
liability<br />
life_form<br />
light<br />
little_brother<br />
longing<br />
look<br />
losses<br />
lots<br />
lovemaking<br />
lover<br />
maker<br />
mammoth<br />
man<br />
man_of_action<br />
margin_call<br />
market<br />
material<br />
maximum<br />
me<br />
means<br />
medium_-_how<br />
member<br />
middleweight<br />
minimum<br />
minister<br />
mogul<br />
moment<br />
money<br />
mother<br />
mothers-to-be<br />
mule<br />
murderer<br />
mutt<br />
name<br />
nemesis<br />
<strong>net</strong><br />
no_one<br />
nobody<br />
nogging<br />
nothing<br />
number<br />
objective<br />
obligations_-_Zuwaya<br />
offering<br />
officer<br />
official<br />
old_man<br />
one_-_is<br />
one_another<br />
ones<br />
opponent<br />
opposition<br />
organisers<br />
other<br />
others<br />
owner<br />
paper<br />
parent<br />
part<br />
partner<br />
pass<br />
patient<br />
payment<br />
people<br />
people.I<br />
person<br />
person_-_also<br />
pinnacle<br />
place<br />
plane<br />
planner<br />
player<br />
pleasure<br />
plugger<br />
point<br />
pole<br />
policeman<br />
policy<br />
politician<br />
potential<br />
practice<br />
prelate<br />
president<br />
press<br />
pressure<br />
priest<br />
principle<br />
priority<br />
prisoner<br />
problem<br />
project<br />
projection<br />
promissory_note<br />
protester<br />
public<br />
quayside<br />
quin<br />
quota<br />
race<br />
rate<br />
rattler<br />
raving<br />
reader<br />
real<br />
realism<br />
reality<br />
reception<br />
receptionist<br />
recruit<br />
regulation<br />
rejection<br />
relative<br />
remittance<br />
representative<br />
resident<br />
resistance
209<br />
rest<br />
rival<br />
river<br />
river_Jordan<br />
road<br />
rooms<br />
safe<br />
schoolgirl<br />
secretary<br />
sentry<br />
sergeant<br />
service<br />
set<br />
settings_-_at<br />
share<br />
shareholder<br />
shark<br />
she<br />
shore<br />
shove<br />
side<br />
sister<br />
situation<br />
skin<br />
snag<br />
solicitor<br />
somebody<br />
someone<br />
something<br />
son<br />
songwriter<br />
sort<br />
sperm<br />
spokesman<br />
squad<br />
standard<br />
star<br />
start<br />
state<br />
steamer<br />
steward<br />
story<br />
street<br />
suburb<br />
supporter<br />
surf<br />
surgeon<br />
table<br />
talker<br />
target<br />
target_-_more<br />
task<br />
taste<br />
teacher<br />
team<br />
term<br />
test<br />
that<br />
the_like<br />
their<br />
them<br />
therapist<br />
these<br />
they<br />
thing<br />
things<br />
third<br />
this<br />
those<br />
time<br />
timetable<br />
tinker<br />
tolerance<br />
topic<br />
tourist<br />
track<br />
train<br />
trainee<br />
trainer<br />
traveller<br />
trinity<br />
troops<br />
turbulence<br />
undergraduate<br />
union<br />
upper_class<br />
us<br />
vehicle<br />
vice_chancellor<br />
volume<br />
wall<br />
wanderer<br />
war<br />
waters<br />
we<br />
weeping_widow<br />
weevil<br />
what<br />
which<br />
whisper<br />
who<br />
whom<br />
widow<br />
wife<br />
wife-to-be<br />
woman<br />
worker<br />
works<br />
wren<br />
writer<br />
yellow<br />
you<br />
you_-_we<br />
young_girl<br />
young_man<br />
young_woman<br />
meet: w2w subjektuak<br />
's<br />
'wester<br />
'you<br />
Abba<br />
Abraham<br />
Albertina_Sisulu<br />
Albrecht<br />
Ali<br />
Alison<br />
All<br />
And<br />
Anthea_Hall<br />
Arens<br />
Arkle<br />
Arthur_Ramsey<br />
As_Mr_Urbanec<br />
Association<br />
At<br />
BR<br />
Babangida<br />
Barth<br />
Bath<br />
Bell_Resources<br />
Benn<br />
Berle<br />
Bertie_Somme<br />
Bill_Watts<br />
Boesky<br />
Bonnie<br />
Brewery_Liaison_Offic<br />
er<br />
Bristol<br />
Britaincan<br />
British_Select<br />
Brown_Windsor<br />
Browning<br />
But_Lisa<br />
Cabi<strong>net</strong><br />
Cambridge<br />
Cardiff_Devils<br />
Caroline<br />
Central_Committee<br />
Charles<br />
Charlton<br />
Club<br />
Colonel<br />
Congress<br />
Council<br />
Cousin<br />
Cumbria
210<br />
DLV<br />
Dane_Ole_Olsen<br />
Danny<br />
David<br />
De_Klerk<br />
Death<br />
Desperate_Dan<br />
Diana<br />
Dionne<br />
District<br />
EPC<br />
East<br />
Eddie<br />
Eddie_Barlow<br />
Eduard_Shevardnadze<br />
Edward<br />
Eliot<br />
Elisabeth<br />
England<br />
English<br />
Erika<br />
Ernest<br />
Escort<br />
Even_Barcelona<br />
Ever<br />
Falklands_Veterans<br />
Fields<br />
Five<br />
G7<br />
GaAs<br />
Gaily<br />
General_Yazov<br />
Gerald_Ronson<br />
Gloria<br />
God<br />
Golden_Friend<br />
Gorbachev<br />
Gordon_Pill<br />
Government<br />
Graham_Rice<br />
Great_Britain<br />
Group<br />
HEALTH_MINISTERS<br />
Half<br />
Hall<br />
Hambros<br />
Hamilton<br />
Harry_Cairns<br />
Hatton<br />
Having<br />
He<br />
Helen<br />
Here_Yakovlev<br />
Hickson<br />
Hitler<br />
Hobbes<br />
Holly<br />
Holy_Family<br />
House<br />
I<br />
ICC<br />
ICL<br />
ICO<br />
IN_JANUARY_1988<br />
In<br />
In_June<br />
In_Moscow_Mr_Yavlinsk<br />
y<br />
In_New_Orleans<br />
In_October<br />
International_Amateur<br />
_Athletics_Federation<br />
International_Congreg<br />
ational_Conference<br />
It<br />
Italy<br />
Jackie<br />
Jacob<br />
Jacques<br />
Jahangir<br />
Jane<br />
Jansher<br />
Jinny<br />
John<br />
John_Rodda<br />
John_Windsor<br />
Just<br />
Kevin_Turvey<br />
King_Hassan<br />
Kinnock<br />
Knighton<br />
Knox<br />
Kufra_Assembly<br />
Lancashire<br />
Last_December_Mr_Maur<br />
ice_Saatchi<br />
Late<br />
Leila<br />
Leonard<br />
Lewis<br />
Luke<br />
Magic_Ring<br />
Major-<br />
General_Holomisa<br />
Mandela<br />
Martin<br />
Martin_Aston<br />
Mary_Pat_Kelly<br />
McQuaid<br />
Mendoza<br />
Michael<br />
Mick_Brown<br />
Mike_Fibbens<br />
Mireille<br />
Mona<br />
Morrison<br />
Mrs_Hollidaye<br />
Mrs_Knelle<br />
NATO_Council<br />
Najibullah<br />
Nancarrow<br />
Nato<br />
Nazi<br />
Neddy<br />
Nibs_McGovern<br />
Nielsen<br />
Nigel_Benn<br />
Norman<br />
Norwich<br />
Nurse_Rose<br />
Olazabal<br />
Old_Etonians<br />
On<br />
On_Monday<br />
Only_The_Lonely<br />
Open_Market_Committee<br />
Owen<br />
PLCND<br />
P_J_Ferry<br />
Pacific_Rim<br />
Pakistan<br />
Parliament<br />
Penelope_Huntley<br />
People<br />
Peter_Cairns<br />
Peter_Lilley_MP<br />
Petipa<br />
Petrarch<br />
Philip_Nicksan<br />
Polgar<br />
Policemen<br />
Polish<br />
Pope<br />
Pound<br />
Prince<br />
Princess<br />
Producers<br />
Protestant<br />
Queen_Elizabeth<br />
RAF<br />
Rachel<br />
Rafferty<br />
Ramsey<br />
Ray<br />
Reagan<br />
Rifle<br />
River_Eske<br />
Robert_Chalmers
211<br />
Roscoe_Boy<br />
Russian<br />
SCOTLAND<br />
Sampdoria<br />
Sarah_Hemming<br />
Savimbi<br />
Scandinavian_country<br />
Sergeant<br />
She<br />
Sheffield_City_Counci<br />
l<br />
Social_Fund<br />
Social_Security_Commi<br />
ttee<br />
Some<br />
Sonique<br />
St_Margaret<br />
Susannah_Herbert<br />
Talb<br />
Television<br />
The_Cabi<strong>net</strong><br />
The_Civil_Aviation_Co<br />
mmittee<br />
The_Defence_Minister<br />
The_House<br />
The_International_Ass<br />
ociation<br />
The_Lloyds<br />
The_National_Council<br />
The_Pope<br />
The_Vice_Chancellors<br />
The_Volkskammer<br />
Then<br />
There<br />
They<br />
This<br />
Thomas<br />
Those<br />
Three_Burgundians<br />
To<br />
Town_Hall<br />
Treasury<br />
Trevor_Barnes<br />
Tribalism<br />
Urban_Development_Gra<br />
nt<br />
Ursula<br />
Vo<strong>net</strong>ta<br />
W._H._Auden<br />
WEA<br />
WICBC<br />
Washingtonian<br />
We<br />
Wexford<br />
When_Moby<br />
When_Mr_Bush<br />
When_Mr_James_Baker<br />
When_Nausicaa<br />
When_Thomas<br />
When_Yasmin<br />
While<br />
Yaeger<br />
Yes<br />
You<br />
Zuwaya<br />
activity<br />
adaptation<br />
adviser<br />
agreement<br />
aides<br />
aircraft<br />
airport<br />
alley<br />
allocation<br />
angel<br />
angst<br />
annual<br />
approach<br />
arm<br />
artisan<br />
artist<br />
association<br />
authority<br />
band<br />
bank<br />
bank-clerkcum-Greek-<br />
galley-slave<br />
bastard<br />
beauty<br />
bisectors<br />
bishop<br />
blues<br />
board<br />
boards<br />
body<br />
boiler<br />
book<br />
boy<br />
branch<br />
brass_band<br />
breast<br />
brewer<br />
brother<br />
burial<br />
business<br />
cafe<br />
cash<br />
chairman<br />
chauffeur<br />
club<br />
coffee<br />
colleague<br />
collection<br />
comittee<br />
commission<br />
commissioner<br />
committee<br />
community<br />
concentration_camp<br />
conference<br />
conservative<br />
council<br />
country<br />
couple<br />
creditor<br />
critic<br />
cutter<br />
cyberpunk<br />
damage<br />
daughter<br />
debt<br />
delegate<br />
delegation<br />
deputy<br />
detective<br />
development<br />
director<br />
discouraging_-_they<br />
dog<br />
door<br />
driver<br />
egg<br />
emission<br />
emphasis<br />
empire<br />
end<br />
engine<br />
ex<br />
expert<br />
exwife<br />
eye<br />
eyes<br />
factory<br />
faithful<br />
farmer<br />
fashion<br />
father<br />
figure<br />
finance_minister<br />
finery<br />
finger<br />
food<br />
fop<br />
foreign_minister<br />
forward<br />
freak<br />
fund<br />
funds
212<br />
gentleman<br />
girl<br />
glob<br />
going_away<br />
government<br />
governor<br />
group<br />
guardian<br />
hand<br />
he<br />
head<br />
hero<br />
hierarchy<br />
him<br />
his<br />
idol<br />
inaugural<br />
innovation<br />
installation<br />
instance<br />
interviewer<br />
issue<br />
it<br />
its<br />
jockey<br />
journalist<br />
knight<br />
know-all<br />
land<br />
last<br />
leader<br />
leg<br />
light-middleweights<br />
line<br />
lip<br />
listener<br />
loan<br />
lover<br />
luck<br />
maker<br />
man<br />
management<br />
manager<br />
manufacturer<br />
material<br />
me<br />
meat<br />
meeting<br />
member<br />
membership<br />
merchant<br />
minister<br />
mobility<br />
money<br />
mood<br />
moral_hazard<br />
mother<br />
mothers-to-be<br />
music<br />
my<br />
nation<br />
national_leader<br />
neighbourhood<br />
newsletter<br />
officer<br />
official<br />
open_air<br />
opening<br />
others<br />
our<br />
package<br />
page<br />
pair<br />
panel<br />
parallel<br />
parent<br />
parliament<br />
part<br />
party<br />
path<br />
peasant<br />
pension<br />
people<br />
period<br />
person<br />
piece<br />
plant<br />
playwright<br />
police<br />
politician<br />
population<br />
presentation<br />
process<br />
product<br />
property<br />
public<br />
punch<br />
quality<br />
quarters<br />
ray<br />
reader<br />
reality<br />
reform<br />
regime<br />
regulator<br />
relative<br />
representative<br />
repression<br />
research<br />
resource<br />
rising<br />
rival<br />
river<br />
road<br />
rogue<br />
run<br />
sea<br />
second<br />
secretary_of_state<br />
section<br />
selector<br />
service<br />
set<br />
shaikhs<br />
shareholder<br />
she<br />
shipowner<br />
side<br />
signatory<br />
society<br />
soldier<br />
squad<br />
stone<br />
stripes<br />
structure<br />
studio<br />
style<br />
success<br />
supply<br />
supporter<br />
surface<br />
team<br />
technique<br />
teenager<br />
text<br />
that<br />
their<br />
them<br />
they<br />
third<br />
this<br />
those<br />
thrill<br />
toy<br />
tradition<br />
training<br />
travelogue<br />
truck<br />
trustee<br />
union<br />
university<br />
us<br />
version<br />
video<br />
visitor<br />
wadi<br />
walk<br />
wall
we<br />
which<br />
who<br />
widow<br />
wing<br />
C.11.7 c2c BNCtik<br />
Denak ez zuzenak dira.<br />
winner<br />
woman<br />
word<br />
work<br />
world<br />
writ<br />
writer<br />
you<br />
your<br />
youth<br />
play, encounter, meet 00610422: c2c objektu hautapen-murriztapenak<br />
08520394 0.009 condition status "a condition or state at a particular time"<br />
08813320 0.003 helium He atomic_number_2<br />
09065837 0.003 time_period period period_of_time amount_of_time<br />
08522741 0.002 situation state_of_affairs "the general state of things…"<br />
08534455 0.0009 status position "the relative position or standing of…"<br />
08539416 0.00083 being beingness existence "the state or fact of existing"<br />
08547726 0.0006 unemployment "the state of being unemployed or not having…"<br />
08781633 0.0005 material stuff "the tangible substance that goes into the…"<br />
08525534 0.0005 friendship friendly_relationship "the state of being…"<br />
08771452 0.000347552843771051 hazard jeopardy peril risk "a source of…"<br />
play, encounter, meet 00610422: c2c subjektu hautapen-murriztapenak<br />
08813320 0.149 helium He atomic_number_2<br />
09065837 0.005 time_period period period_of_time amount_of_time<br />
08520394 0.003 condition status "a condition or state at a particular time"<br />
09069911 0.002 now "the momentary present"<br />
08807415 0.001 metallic_element metal "any of several chemical elements…"<br />
08534455 0.001 status position "the relative position or standing of…"<br />
08525534 0.001 friendship friendly_relationship "the state of being…"<br />
08781633 0.001 material stuff "the tangible substance that goes into the…"<br />
08522741 0.001 situation state_of_affairs "the general state of things…"<br />
C.11.8 w2semf EFEtik<br />
play: w2semf objektu hautapen-murriztapenak<br />
obj x 100 ONARGARRIA<br />
obj play-act 50.013<br />
obj factotum-act 30.390<br />
obj time_period-time 29.009<br />
obj zoology-animal 25.2<br />
obj factotum-artifact 25.026<br />
obj sport-event 23.514<br />
obj sport-act 23.038<br />
obj number-quantity 22.957<br />
obj geography-location 16.918<br />
213
214<br />
play: w2semf subjektu hautapen-murriztapenak<br />
subj x 372 ONARGARRIA<br />
subj administration-group 168.64<br />
subj chemistry-substance 52.666<br />
subj sport-group 44.010 ONARGARRIA<br />
subj zoology-group 40.5<br />
subj linguistics-communication 38.720<br />
subj physics-substance 34.666<br />
subj geography-location 33.353<br />
subj administration-location 32.315<br />
subj number-quantity 26.642<br />
encounter: w2semf objektu hautapen-murriztapenak<br />
obj factotum-state 0.833<br />
obj geography-location 0.5<br />
obj factotum-communication 0.333<br />
obj psychology-cognition 0.3333<br />
encounter: w2semf subjektu hautapen-murriztapenak<br />
subj x 3 ONARGARRIA<br />
subj linguistics-communication 0.333<br />
subj physics-substance 0.333<br />
subj chemistry-substance 0.3333<br />
subj baseball-group 0.142 ONARGARRIA<br />
subj free_time-group 0.142<br />
subj enterprise-group 0.142<br />
subj building_industry-artifact 0.142<br />
subj golf-artifact 0.142<br />
subj factotum-artifact 0.142<br />
meet: w2semf objektu hautapen-murriztapenak<br />
obj time_period-time 16.642<br />
obj x 5 ONARGARRIA<br />
obj factotum-cognition 3.22<br />
obj factotum-state 1.955<br />
obj geography-location 1.608<br />
obj factotum-object 1.583<br />
obj administration-location 1.555<br />
obj factotum-communication 1.037<br />
obj tourism-time 1<br />
meet: w2semf subjektu hautapen-murriztapenak<br />
subj x 35 ONARGARRIA<br />
subj administration-group 7.85<br />
subj sport-group 4.885 ONARGARRIA<br />
subj number-quantity 4.714<br />
subj zoology-group 4.5<br />
subj chemistry-substance 2.833<br />
subj geography-location 2.802<br />
subj administration-location 2.75<br />
subj person-person 2.333 ZUZENA<br />
subj sport-person 2 ONARGARRIA
C.11.9 Ondorioak<br />
Objektuak Subjektuak<br />
Iturria Teknika Zuzena Onargarria Eskuratu gabe Zuzena Onargarria Eskuratu<br />
gabe<br />
c2c 9tik 2 0 0 5etik 1 5etik 1 0<br />
w2c PLAY 10etik 2 0 0 8tik 2 0 0<br />
w2c MEET 10etik 2 0 0 9tik 1 0 2tik 1<br />
SemCor<br />
w2c<br />
ENCOUNTER<br />
s2semf MEET<br />
5etik 1 0 2tik 1 0 0 2tik 2<br />
PLAYk<br />
daturik ez<br />
0 2tik 1 2tik 2 0 0 2tik 2<br />
s2semf<br />
ENCOUNTER<br />
0 0 2tik 2 Daturik ez Daturik ez Daturik ez<br />
BNC<br />
EFE<br />
w2c PLAY 10etik 1 0 2tik 1 10etik 1 10etik 1 0<br />
w2c<br />
ENCOUNTER<br />
10etik 2 0 0 9tik 2 0 0<br />
w2c MEET 10etik 2 0 0 10etik 1 10etik 1 0<br />
c2c 0 0 2tik 2 0 0 2tik 2<br />
w2semf PLAY 0 10etik 1 2tik 2 0 10etik 2 2tik 1<br />
w2semf<br />
MEET<br />
0 9tik 1 2tik 2 10etik 1 10etik 3 0<br />
w2semf<br />
ENCOUNTER<br />
0 0 2tik 2 0 10etik 2 2tik 1<br />
215
216<br />
C.12 jokatu_3<br />
C.12.1 Synseta MCRn<br />
00610422v<br />
competition<br />
DOMEINUAK:<br />
lock 00610422v 14 encounter_5 [99%] meet_10<br />
[99%] play_24 [99%]<br />
lock 00610422v 0 jokatu_3 [99%]<br />
contend against an opponent in<br />
a sport or game; "Princeton<br />
plays Yale this weekend"<br />
HITZA KATEGORIA SYNSET DOMEINUA DOMEINUA DOMEINUA<br />
jokatu A 00610422 play sport military<br />
C.12.2 Urre patroiak<br />
jokatu 00605818v: –en kontra<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
jokatu 00605818: Soziatiboa<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
jokatu 00605818: Ergatiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities (members) considered as a<br />
unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group
C.12.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />
jokatu: : w2semf hautapen-murriztapenak (kirol domeinuko corpusa): AbsDU<br />
en_kontra x 18 ONARGARRIA<br />
en_kontra geography-location 0.5<br />
en_kontra administration-location 0.5<br />
en_kontra astronomy-object 0.333<br />
en_kontra physics-object 0.111<br />
en_kontra meteorology-object 0.111<br />
en_kontra geometry-shape 0.111<br />
en_kontra person-person 0.111 ZUZENA<br />
en_kontra theatre-person 0.111<br />
en_kontra architecture-attribute 0.111<br />
soz x 6 ONARGARRIA<br />
soz quality-attribute 0.687<br />
soz betting-person 0.666<br />
soz factotum-group 0.571 ZUZENA<br />
soz anatomy-animal 0.5<br />
soz fashion-body 0.5<br />
soz factotum-cognition 0.4<br />
soz insurance-possession 0.333<br />
soz town_planning-possession 0.333<br />
soz economy-act 0.333<br />
erg pro 128 ONARGARRIA<br />
erg x 25 ONARGARRIA<br />
erg number-quantity 7<br />
erg 0 3<br />
erg transport-person 1.5<br />
erg geography-person 1<br />
erg administration-person 1<br />
erg basketball-person 1 ONARGARRIA<br />
erg time_period-time 0.6<br />
erg cycling-person 0.25 ONARGARRIA<br />
jokatu.kontuakhitzak.kirolak<br />
abl furgo<strong>net</strong>a 1<br />
abs hagin 2<br />
abs maila 1<br />
abs pixka 1<br />
abs kopuru 1<br />
abs mendate 1<br />
abs alde 1<br />
abs behera 1<br />
abs bizikleta 1<br />
abs hamabost 1<br />
abs apur 1<br />
abu kanpamendu 1<br />
adj x 2<br />
adj lehiari 1<br />
adj behera 1<br />
ala auto 1<br />
ala minutu 1<br />
ala maila 1<br />
ala metro 1<br />
217
218<br />
erg pro 2<br />
erg alberto 1<br />
ine urte 1<br />
ine partidu 1<br />
ins maila 1<br />
soz harrobi 1<br />
jokatu: w2semf hautapen-murriztapenak (corpus osoa)<br />
en_kontra x 20 ONARGARRIA<br />
en_kontra linguistics-communication 1<br />
en_kontra factotum-act 1<br />
en_kontra geography-location 0.5<br />
en_kontra administration-location 0.5<br />
en_kontra factotum-communication 0.363<br />
en_kontra astronomy-object 0.333<br />
en_kontra factotum-group 0.285 ZUZENA<br />
en_kontra administration-communication 0.181<br />
en_kontra law-communication 0.181<br />
soz x 8 ONARGARRIA<br />
soz factotum-cognition 2.666<br />
soz quality-attribute 2.187<br />
soz psychology-attribute 1.066<br />
soz fashion-artifact 1<br />
soz politics-state 1<br />
soz factotum-group 0.844 ZUZENA<br />
soz metrology-attribute 0.833<br />
soz person-person 0.722 ZUZENA<br />
soz factotum-act 0.712<br />
erg pro 204 ONARGARRIA<br />
erg x 33 ONARGARRIA<br />
erg number-quantity 7<br />
erg 0 3<br />
erg linguistics-communication 2<br />
erg politics-person 1.601<br />
erg person-person 1.53 ZUZENA<br />
erg transport-person 1.5<br />
erg administration-person 1.365<br />
erg basketball-person 1 ONARGARRIA<br />
jokatu.kontuakhitzak.ALL<br />
abl orain 2<br />
abl hasiera 2<br />
abl ikuspegi 1<br />
abl ezker 1<br />
abl behe 1<br />
abl x 1<br />
abl aurre 1<br />
abl gain 1<br />
abs partidu 28<br />
abs partida 26<br />
abs x 19<br />
abs final 12<br />
abs bider 3<br />
abs paper 3<br />
abs uefa 3<br />
abs izan 3<br />
abs jende 3<br />
abs hamabost 2<br />
abs zati 2<br />
abs egoera 2<br />
abs jokalari 2<br />
abs behar 2<br />
abs berri 2<br />
abs gehiago 2<br />
abs ruben 2<br />
abs liga 2
abs 0 2<br />
abs bat 2<br />
abs gobernu 2<br />
abs gizarte 2<br />
abs talde 2<br />
abs txapelketa 1<br />
abs lagos 1<br />
abs seguru 1<br />
abs antolakuntza 1<br />
abs jardunaldi 1<br />
abs nahi 1<br />
abs planifikazio1<br />
abs kontseilari 1<br />
abs eugi 1<br />
abs gurrutxaga 1<br />
abs eraginkortasun 1<br />
abs erabaki 1<br />
abs irabazte 1<br />
abs zabaltzaile 1<br />
abs azkaindar 1<br />
abs txapeldun 1<br />
abs ezer 1<br />
abs soil 1<br />
abs izar 1<br />
abs azken 1<br />
abs abiadura 1<br />
abs garai 1<br />
abs on 1<br />
abs itzuli 1<br />
abs patxi 1<br />
abs baloi 1<br />
abs jaurlaritza 1<br />
abs erakargarri 1<br />
abs amerikar 1<br />
abs elgoibartar 1<br />
abs atezain 1<br />
abs aste 1<br />
abs hegaldi 1<br />
abs lasterketa 1<br />
abs behar_izan 1<br />
abs tanto 1<br />
abs bateratu 1<br />
abs bi 1<br />
abs zuzendari 1<br />
abs hasiera 1<br />
abs arazo 1<br />
abs beldur 1<br />
abs pibot 1<br />
abs patronal 1<br />
abs portland 1<br />
abs lider 1<br />
abs garaipen 1<br />
abs aurrelari 1<br />
abs deus 1<br />
abs txanpa 1<br />
abs garrantzitsu 1<br />
abs asmo 1<br />
abs garrantzi 1<br />
abs akats 1<br />
abs zerikusi 1<br />
abs alde 1<br />
abs abertzale 1<br />
abs oposizio 1<br />
abs mendate 1<br />
adb orain 1<br />
adb nola 1<br />
adb lasai 1<br />
adb maltzurki 1<br />
adb zuzen 1<br />
adb horrela 1<br />
adb bezala 1<br />
adb legez 1<br />
adb honela 1<br />
adb gaur 1<br />
adj zuhur 4<br />
adj berdin 3<br />
adj baikor 3<br />
adj epel 2<br />
adj x 2<br />
adj ahul 1<br />
adj indartsu 1<br />
adj zorrotz 1<br />
adj bizi 1<br />
adj zintzo 1<br />
adj gutxi 1<br />
adj oker 1<br />
adj eskuzabal 1<br />
adj irmo 1<br />
adj axolagabe 1<br />
adj borondatetsu 1<br />
adj gogor 1<br />
adj hotz 1<br />
ala kiniela 11<br />
ala esan 6<br />
ala modu 2<br />
ala era 1<br />
ala kontraeraso 1<br />
ala bote 1<br />
ala eraso 1<br />
ala bi 1<br />
ala bat 1<br />
dat pro 4<br />
dat alderdi 3<br />
dat eh 3<br />
dat politikari 2<br />
dat jaurlaritza 2<br />
dat gobernu 1<br />
dat x 1<br />
dat eaj 1<br />
dat herritar 1<br />
dat alderdikide 1<br />
dat mediku 1<br />
219
220<br />
denb menpekoa 4<br />
en_arabera arautegi 2<br />
en_arabera irizpide 1<br />
en_arabera interes 1<br />
en_arabera kode 1<br />
en_arabera zigor 1<br />
en_kontra x 8<br />
en_kontra elkar 3<br />
en_kontra guzti 2<br />
en_kontra goñi 2<br />
en_kontra bartzelona 1<br />
en_kontra izar 1<br />
en_kontra akordio 1<br />
en_kontra talde 1<br />
en_kontra eta 1<br />
en_kontra eugi 1<br />
en_kontra gutxitu 1<br />
en_kontra modernizazio<br />
1<br />
en_kontra politiko 1<br />
en_kontra frantzia 1<br />
en_kontra sevilla 1<br />
en_orde x 1<br />
erg pro 204<br />
erg x 9<br />
erg batzuk 7<br />
erg eugi 4<br />
erg 0 3<br />
erg guzti 3<br />
erg beloki 3<br />
erg pibot 2<br />
erg agintari 2<br />
erg eta 2<br />
erg gu 2<br />
erg galera 1<br />
erg lehen 1<br />
erg kontu 1<br />
erg militar 1<br />
erg presidente 1<br />
erg irundar 1<br />
erg telebista 1<br />
erg sektore 1<br />
erg arrate 1<br />
erg pilotari 1<br />
erg udal 1<br />
erg gizon 1<br />
erg defentsa 1<br />
erg ehu 1<br />
erg iker 1<br />
erg argentinar 1<br />
erg eh 1<br />
erg indar 1<br />
erg aspa 1<br />
erg txirrindulari 1<br />
erg italiar 1<br />
erg imaz 1<br />
erg gobernu 1<br />
erg inor 1<br />
erg antonio 1<br />
erg eragile 1<br />
erg pedro 1<br />
erg errusia 1<br />
erg ordezkari 1<br />
gisa profesional 1<br />
gisa mezenas 1<br />
gisa subjektu 1<br />
gisa independentista 1<br />
helb menpekoa 2<br />
ine x 23<br />
ine postu 7<br />
ine 0 4<br />
ine talde 4<br />
ine eraso 4<br />
ine zati 3<br />
ine igande 3<br />
ine futbol 2<br />
ine etxe 2<br />
ine adar 2<br />
ine maila 2<br />
ine liga 2<br />
ine aste 2<br />
ine partidu 2<br />
ine azaro 2<br />
ine anoa 2<br />
ine behar 2<br />
ine gasteiz 2<br />
ine laurden 2<br />
ine erdi 2<br />
ine guzti 1<br />
ine denboraldi 1<br />
ine area 1<br />
ine auzi 1<br />
ine plano 1<br />
ine jardunaldi 1<br />
ine sasoi 1<br />
ine donostia 1<br />
ine arratsalde 1<br />
ine epaiketa 1<br />
ine asteazken 1<br />
ine hamahiru 1<br />
ine makina 1<br />
ine hori 1<br />
ine biltzar 1<br />
ine prozesu 1<br />
ine goiz 1<br />
ine indarkeria 1<br />
ine irlanda 1<br />
ine lege 1<br />
ine politika 1<br />
ine erritmo 1<br />
ine hamabi 1<br />
ine minutu 1
ine kontraeraso 1<br />
ine asteburu 1<br />
ine gertaera 1<br />
ine eskubide 1<br />
ine garai 1<br />
ine kanporaketa 1<br />
ine modu 1<br />
ine selekzio 1<br />
ine bera 1<br />
ine golf 1<br />
ine hasiera 1<br />
ine hau 1<br />
ine eraikuntza 1<br />
ine final 1<br />
ine frontoi 1<br />
ine jende 1<br />
ine iruñea 1<br />
ine arte 1<br />
ine defentsa 1<br />
ine ofizial 1<br />
ine merida 1<br />
ine klub 1<br />
ine testuinguru 1<br />
ine karta 1<br />
ine alderdi 1<br />
ine ekipo 1<br />
ine abiada 1<br />
ins erantzukizun 8<br />
ins zentzu 6<br />
ins x 6<br />
ins ardura 4<br />
ins arduragabekeria 3<br />
ins alderdikeria 2<br />
ins fede 2<br />
ins kontu 2<br />
ins zuhurtzia 2<br />
ins malgutasun 1<br />
ins urduritasun 1<br />
ins gizalege 1<br />
ins harrokeria 1<br />
ins seriotasun 1<br />
ins bereizkeria 1<br />
ins segurtasun 1<br />
ins krudelkeria 1<br />
ins ankerkeria 1<br />
ins pragmatismo 1<br />
ins koherentzia 1<br />
ins bat 1<br />
ins inpartzialtasun 1<br />
ins zuhurtasun 1<br />
ins ausardia 1<br />
ins profesionaltasun 1<br />
ins asko 1<br />
ins indar 1<br />
ins ziurtasun 1<br />
ins independentzia 1<br />
ins lasaitasun 1<br />
ins inteligentzia 1<br />
ins aldi 1<br />
ins buru 1<br />
ins errespetu 1<br />
kaus menpekoa 4<br />
konp menpekoa 25<br />
soz gogo 2<br />
soz talde 2<br />
soz x 2<br />
soz selekzio 2<br />
soz erantzukizun 2<br />
soz buru<br />
soz gehiengo 1<br />
soz sorta 1<br />
soz moderazio 1<br />
soz defentsa 1<br />
soz politikagintza 1<br />
soz zenbait 1<br />
soz jokalari 1<br />
soz autonomia 1<br />
soz elkar 1<br />
soz kamiseta 1<br />
soz mamu 1<br />
soz putin 1<br />
soz anbiguotasun 1<br />
soz asmo 1<br />
soz errenta 1<br />
soz bibote 1<br />
soz eskema 1<br />
soz aldagai 1<br />
soz babes 1<br />
soz abantaila 1<br />
soz teoria 1<br />
teko menpekoa 6<br />
z menpekoa 3<br />
zhg menpekoa 1<br />
221
222<br />
C.12.4 SemCorreko c2c euskarara itzulita<br />
play, encounter, take_on, meet 00610422: c2c objektu hautapen-murriztapenak<br />
00004865 0.194 person individual someone somebody mortal human soul ZUZENA<br />
00017008 0.11 group grouping "any number of entities considered …" ZUZENA<br />
00015437 0.0949 state "the way something is with respect to its main…"<br />
00009469 0.0585 object physical_object "a physical entity"<br />
00018599 0.022 communication "something that is communicated between…"<br />
01237932 0.018 placental placental_mammal eutherian eutherian_mammal<br />
00228990 0.014 activity "any specific activity or pursuit"<br />
04785784 0.014emotion "any strong feeling"<br />
03338771 0.013 quality "an essential and distinguishing attribute of…"<br />
play, encounter, take_on, meet 00610422: c2c subjektu hautapen-murriztapenak<br />
00004865 0.254 person individual someone somebody mortal human soul ZUZENA<br />
05149489 0.131 organization organisation "a group of people…" ONARGARRIA<br />
04690182 0.069 happening occurrence natural_event "an event that happens"<br />
00018599 0.043 communication "something that is communicated between…"<br />
08413915 0.037 digit "one of the elements that collectively form a system…"<br />
C.12.5 SemCorreko s2semf euskarara itzulita<br />
encounter, meet 00610422: s2semf objektu hautapen-murriztapenak<br />
encounter 00610422<br />
factotum-state 1<br />
meet 00610422<br />
factotum-Tops 1 ONARGARRIA<br />
factotum-state 1<br />
encounter, meet 00610422: s2semf subjektu hautapen-murriztapenak<br />
meet 00610422<br />
economy-group 1<br />
C.12.6 EFEtik w2semf euskarara itzulita<br />
play: w2semf objektu hautapen-murriztapenak<br />
<strong>Euskara</strong>z ez.<br />
play: w2semf subjektu hautapen-murriztapenak<br />
subj x 372 ONARGARRIA<br />
subj administration-group 168.64<br />
subj chemistry-substance 52.666<br />
subj sport-group 44.010 ONARGARRIA<br />
subj zoology-group 40.5<br />
subj linguistics-communication 38.720<br />
subj physics-substance 34.666<br />
subj geography-location 33.353<br />
subj administration-location 32.315<br />
subj number-quantity 26.642
encounter: w2semf objektu hautapen-murriztapenak<br />
<strong>Euskara</strong>z ez<br />
encounter: w2semf subjektu hautapen-murriztapenak<br />
subj x 3 ONARGARRIA<br />
subj linguistics-communication 0.333<br />
subj physics-substance 0.333<br />
subj chemistry-substance 0.3333<br />
subj baseball-group 0.142 ONARGARRIA<br />
subj free_time-group 0.142<br />
subj enterprise-group 0.142<br />
subj building_industry-artifact 0.142<br />
subj golf-artifact 0.142<br />
subj factotum-artifact 0.142<br />
meet: w2semf objektu hautapen-murriztapenak<br />
<strong>Euskara</strong>z ez<br />
meet: w2semf subjektu hautapen-murriztapenak<br />
subj x 35 ONARGARRIA<br />
subj administration-group 7.85<br />
subj sport-group 4.885 ONARGARRIA<br />
subj number-quantity 4.714<br />
subj zoology-group 4.5<br />
subj chemistry-substance 2.833<br />
subj geography-location 2.802<br />
subj administration-location 2.75<br />
subj person-person 2.333 ZUZENA<br />
subj sport-person 2 ONARGARRIA<br />
223
224<br />
C.12.7 Ondorioak<br />
Iturria Teknika Kasua Zuzena Onargarria Eskuratu gabe<br />
Egunkaria<br />
osoa<br />
Egunkaria<br />
kirolak<br />
SemCor<br />
EFE<br />
kirolak<br />
-en<br />
kontra<br />
10etik 1 10etik 1 2tik 1<br />
erg 10etik 1 10etik 3 2tik 1<br />
w2semf<br />
soz<br />
-en<br />
kontra<br />
10etik 2<br />
10etik 1<br />
10etik 1<br />
10etik 1<br />
0<br />
2tik 1<br />
erg 0 10etik 4 2tik 1<br />
soz 10etik 1 10etik 1 2tik 1<br />
c2c<br />
obj<br />
subj<br />
-<br />
5etik 1<br />
-<br />
5etik 1<br />
-<br />
0<br />
s2semf obj - - -<br />
MEET subj 0 0 2tik 2<br />
obj<br />
s2semf<br />
ENCOUNTER subj<br />
-<br />
Daturik<br />
ez<br />
-<br />
Daturik ez<br />
-<br />
Daturik ez<br />
PLAYk daturik ez<br />
w2semf obj - - -<br />
PLAY subj 0 10etik 2 2tik 1<br />
w2semf obj - - -<br />
MEET subj 10etik 1 10etik 3 0<br />
w2semf obj - - -<br />
ENCOUNTER subj 0 10etik 2 2tik 1
C.13 train_8<br />
C.13.1 Synseta MCRn<br />
00059698v<br />
body<br />
DOMEINUAK:<br />
lock 00059698v 0 train_8<br />
C.13.2 Urre patroiak<br />
lock 00059698v 0 entrenatu_3<br />
exercise in order to prepare for an event<br />
or competition; "She is training for the<br />
Olympics"<br />
HITZA KATEGORIA SYNSET DOMEINUA<br />
train A 00059698 sport<br />
train 00059698: objektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities (members) considered as a<br />
unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
train 00059698: subjektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being;"<br />
00017008 group grouping "any number of entities (members) considered as a<br />
unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
C.13.3 c2c SemCorretik<br />
train v 00059698: c2c objektu hautapen-murriztapenak<br />
Daturik ez<br />
train v 00059698: c2c subjektu hautapen-murriztapenak<br />
Daturik ez<br />
train v 00059698-s2s<br />
Daturik ez<br />
225
226<br />
C.13.4 w2c SemCorretik<br />
s2s: Daturik ez<br />
train: w2c objektu hautapen-murriztapenak<br />
00004865 0.334 person individual someone somebody mortal human soul ZUZENA<br />
00017008 0.049 group grouping "any number of entities considered…" ZUZENA<br />
00012878 0.045 cognition knowledge "the psychological result of…"<br />
03553723 0.021 number figure "the property possessed by a sum or total or…"<br />
train: w2c subjektu hautapen-murriztapenak<br />
00004865 0.236 person individual someone somebody mortal human soul ZUZENA<br />
05127029 0.168 body "a group of persons associated by some…" ONARGARRIA<br />
C.13.5 s2semf SemCorretik<br />
train00059698: s2semf objektu hautapen-murriztapenak<br />
Daturik ez<br />
train00059698: s2semf subjektu hautapen-murriztapenak<br />
Daturik ez<br />
C.13.6 w2c BNCtik<br />
train: w2c objektu hautapen-murriztapenak<br />
00004865 0.150 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.071 object physical_object "a physical entity"<br />
05119847 0.039 social_group "people sharing some social relation" ONARGARRIA<br />
00018599 0.028 communication "something that is communicated between…"<br />
00016649 0.021 act human_action human_activity "something that people do…"<br />
00012878 0.019 cognition knowledge "the psychological result of…"<br />
00018966 0.014 measure quantity amount quantum "how much there is of…"<br />
00017586 0.010 attribute "an abstraction belonging to or characteristic…"<br />
03610098 0.009 body_part "any part of an organism such as an organ or…"<br />
05116476 0.008 people "(plural) any group of human beings…" ONARGARRIA<br />
train: w2c subjektu hautapen-murriztapenak<br />
08813320 0.111 helium He atomic_number_2<br />
00004865 0.087 person individual someone somebody mortal human soul ZUZENA<br />
00011607 0.049 artifact artefact "a man-made object"<br />
05285793 0.045 World_Health_Organization WHO "a United Nations agency to…”<br />
04455766 0.045 he "the 5th letter of the Hebrew alphabet"<br />
00018966 0.023 measure quantity amount quantum "how much there is of…"<br />
00012878 0.020 cognition knowledge "the psychological result of…"<br />
04313427 0.019 message content subject_matter substance<br />
00016649 0.018 act human_action human_activity "something that people do…"<br />
00014314 0.014 location "a point or extent in space"
227<br />
w2w:<br />
train: w2w objektuak<br />
_attended<br />
A-To-Z<br />
Airborne_Division<br />
Ali<br />
Along<br />
Among<br />
Andy_Sutton<br />
Anne<br />
As<br />
Atlaal<br />
Aureole<br />
Baillamont<br />
Barnbrook_Again<br />
Barry<br />
Both_Miss_Chalk<br />
Cargo_Fleet<br />
Carroll_House<br />
Champion_Hurdle<br />
Church_-_and_that<br />
Commanche_Run<br />
David_Livingstone<br />
Dawn_Run<br />
Did<br />
Foinavon<br />
Greeks<br />
Greenham<br />
Gregor_Mendel<br />
Halloween<br />
He<br />
Here<br />
Huntworth<br />
I<br />
Ilse<br />
In<br />
In-Keeping<br />
Lawrence<br />
Market_Leader<br />
Nabeel_Dancer<br />
Now<br />
Old_Vic<br />
Pinewood_Stables<br />
Pisk<br />
Prague<br />
Ramblers<br />
Robson<br />
Rottweiler<br />
Royal_Cedar<br />
SLOA<br />
Sales_Booster_Interna<br />
tional<br />
Star_City<br />
TA_NCOs<br />
Theatrical<br />
They<br />
Tsektran<br />
Two<br />
We<br />
With<br />
absence<br />
academic<br />
accident<br />
accountant<br />
acres<br />
actor<br />
adult<br />
adviser<br />
agency<br />
aides<br />
ammunition<br />
apprentice<br />
area<br />
aspiration<br />
assistance<br />
basis<br />
biceps<br />
body<br />
body_part<br />
bodyguard<br />
bound<br />
branch<br />
break<br />
buff<br />
calf<br />
camp<br />
can<br />
catering<br />
chaser<br />
chef<br />
chest<br />
christian<br />
clergy<br />
clergymen<br />
colt<br />
compartment<br />
competition<br />
complementary_medicin<br />
e<br />
complex<br />
computer<br />
concept<br />
contender<br />
counterpart<br />
course<br />
creeper<br />
crew<br />
cycle<br />
daily<br />
dancer<br />
daughter<br />
deltoid<br />
department<br />
depot<br />
device<br />
director<br />
disaster<br />
dog<br />
drop<br />
espalier<br />
essential<br />
establishment<br />
event<br />
executive<br />
exercises<br />
extension<br />
farmer<br />
fatty_tissue<br />
feat<br />
feeding<br />
fighter<br />
firm<br />
first<br />
fitness<br />
force<br />
forward<br />
friendship<br />
fruit<br />
gallop<br />
glider<br />
graduate<br />
group<br />
guard<br />
guide<br />
handler<br />
he<br />
head<br />
heating<br />
her<br />
him<br />
home<br />
hopefuls<br />
horse<br />
horses_-_as<br />
hurdler<br />
husband<br />
impression<br />
infantrymen<br />
information_system<br />
initiative<br />
inspector<br />
institution<br />
it<br />
itself<br />
journey<br />
king
228<br />
last<br />
lateral<br />
local<br />
male<br />
man<br />
manager<br />
matches<br />
material<br />
me<br />
middle_class<br />
mind<br />
minister<br />
missionary<br />
mixing<br />
mother<br />
motive_power<br />
movement<br />
muscle<br />
musician<br />
myself<br />
nation<br />
nonstop<br />
number<br />
objective<br />
officer<br />
orchestra<br />
organisation<br />
others<br />
owner/manager<br />
part<br />
participant<br />
peak<br />
people<br />
personnel<br />
pianist<br />
pilot<br />
player<br />
police<br />
population<br />
post<br />
priest<br />
profession<br />
programme<br />
progressive<br />
pup<br />
purpose<br />
race<br />
racehorse<br />
range<br />
reformer<br />
refurbishment<br />
reinforcement<br />
replacement<br />
restaurant<br />
role<br />
roof<br />
routine<br />
runs_-_perhaps<br />
sailor<br />
schedule<br />
scheme<br />
scientist<br />
searchlight<br />
sector<br />
self-defence<br />
seminar<br />
service<br />
servicewomen<br />
session<br />
set<br />
sharing<br />
she<br />
shirt<br />
shoe<br />
side<br />
sir<br />
six-year-old<br />
skill<br />
something<br />
speed<br />
sport<br />
spotter<br />
squad<br />
staff<br />
stall<br />
standard<br />
station<br />
statistics<br />
step-up<br />
student<br />
succession<br />
successor<br />
suit<br />
surveillance<br />
tape<br />
teacher<br />
team<br />
team-mate<br />
technique<br />
telescope<br />
term<br />
terrorist<br />
that<br />
that_-<br />
_notwithstanding<br />
them<br />
they<br />
thinking<br />
this<br />
time<br />
tour<br />
train<br />
transcendentalist<br />
travel<br />
tree<br />
troop<br />
troops<br />
two-seater<br />
uncle<br />
unit<br />
version<br />
voice<br />
volunteer<br />
warden<br />
warfare<br />
we<br />
west<br />
which<br />
who<br />
whom<br />
whose<br />
winner<br />
worker<br />
workforce<br />
workshop<br />
wreck<br />
writer<br />
yard<br />
you<br />
young<br />
young_man<br />
youngster<br />
train: w2w subjektuak:<br />
BR<br />
BRC<br />
Barnardo<br />
Basingstoke<br />
Blackpool_North-<br />
Euston<br />
British_Rail<br />
Cross<br />
Cup_-_he<br />
Dundee<br />
East_German<br />
England<br />
Exercises<br />
Fontainebleu<br />
Glover<br />
Goods<br />
Grania_Furness<br />
Griffiths<br />
He<br />
His<br />
I<br />
In_Kenya<br />
It<br />
Kitchen
Martin_Pipe<br />
Michael_Stoute<br />
Newton_Abbot<br />
No<br />
Paddington<br />
Penmaenmawr<br />
Peterborough_HAH<br />
Pullman<br />
Richard_Lee<br />
Ruth<br />
Security<br />
Spaniard<br />
The<br />
This<br />
Training<br />
Trans-Pennine<br />
VIP<br />
WWF<br />
Whether<br />
Wooderson<br />
You<br />
annual<br />
architect<br />
bitterness<br />
case<br />
client<br />
coach<br />
course<br />
cry<br />
diesel<br />
dinghy<br />
electric<br />
C.13.7 c2c BNCtik<br />
excursion<br />
first<br />
foundations<br />
government<br />
guest<br />
guide<br />
hard_work-outs<br />
he<br />
his<br />
horse<br />
hours<br />
it<br />
last<br />
launch<br />
mile<br />
military<br />
my<br />
nephew<br />
newly-qualified<br />
newspaper<br />
number<br />
of<br />
our<br />
people<br />
pilot<br />
point<br />
pound<br />
principle<br />
programme<br />
prototype<br />
regular<br />
researcher<br />
train 00059698: c2c objektu hautapen-murriztapenak<br />
Daturik ez<br />
train 00059698: c2c subjektu hautapen-murriztapenak<br />
Daturik ez<br />
return<br />
role<br />
same<br />
school<br />
seat<br />
series<br />
service<br />
session<br />
she<br />
society<br />
soldier<br />
special<br />
speed_-_we<br />
suddenly<br />
system<br />
talent<br />
technique<br />
that<br />
their<br />
them<br />
they<br />
train<br />
transit<br />
turn<br />
unit<br />
usage<br />
we<br />
who<br />
woman<br />
you<br />
your<br />
229
230<br />
C.13.8 w2semf EFEtik<br />
train: w2semf objektu hautapen-murriztapenak<br />
obj zoology-group 2<br />
obj sport-group 2 ONARGARRIA<br />
obj sport-person 1.611 ONARGARRIA<br />
obj x 1 ONARGARRIA<br />
obj time_period-time 0.5<br />
obj publishing-person 0.5<br />
obj transport-artifact 0.333<br />
obj town_planning-artifact 0.222<br />
obj metrology-time 0.2<br />
obj tourism-artifact 0.111<br />
train: w2semf subjektu hautapen-murriztapenak<br />
subj x 13 ONARGARRIA<br />
subj chemistry-substance 5<br />
subj administration-group 3<br />
subj linguistics-communication 2.666<br />
subj physics-substance 2.666<br />
subj sport-group 2.5 ONARGARRIA<br />
subj number-quantity 2.083<br />
subj zoology-group 2<br />
subj wrestling-person 1<br />
subj geography-location 0.5<br />
C.13.9 Ondorioak<br />
Objektuak Subjektuak<br />
Iturria Teknika Zuzena Onargarria Eskuratu gabe Zuzena Onargarria Eskuratu gabe<br />
SemCor<br />
c2c Daturik ez<br />
w2c 4tik 2 0 0 2tik 1 2tik 1 0<br />
s2semf<br />
Daturik ez<br />
BNC<br />
w2c<br />
c2c<br />
10etik 1 10etik 2 0 10etik 1<br />
Daturik ez<br />
0 2tik 1<br />
EFE w2semf 0 10etik 3 0 0 10etik 2 2tik 1
C.14 entrenatu_3<br />
C.14.1 Synseta MCRn<br />
00059698v<br />
body<br />
DOMEINUAK:<br />
lock 00059698v 0 train_8<br />
lock 00059698v 0 entrenatu_3<br />
C.14.2 Urre patroiak<br />
exercise in order to prepare for an event or<br />
competition; "She is training for the Olympics"<br />
HITZA KATEGORIA SYNSET DOMEINUA<br />
entrenatu A 00059698 sport<br />
entrenatu 00059698: Absolutiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
entrenatu 00059698: Ergatiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
entrenatu 00059698: Inesiboa<br />
c2c, w2c:<br />
00240760<br />
sport, athletics "an active diversion requiring physical exertion and…"<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
231
232<br />
C.14.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />
entrenatu: w2semf hautapen-murriztapenak (kirol domeinuko corpusa = corpus osoa)<br />
abs x 8 ONARGARRIA<br />
abs number-quantity 1<br />
abs sport-person 1 ONARGARRIA<br />
abs betting-person 0.66<br />
abs factotum-group 0.57 ZUZENA<br />
abs play-person 0.33 ONARGARRIA<br />
abs military-group 0.28<br />
abs sport-group 0.21 ONARGARRIA<br />
abs zoology-group 0.14<br />
abs politics-group 0.07<br />
ala geography-location 0.5<br />
ala administration-location 0.5<br />
erg x 8 ONARGARRIA<br />
erg pro 7 ONARGARRIA<br />
ine factotum-artifact 3<br />
ine factotum-state 3<br />
ine number-quantity 1<br />
ine x 1<br />
ine time_period-time 0.63<br />
ine building_industry-artifact 0.38<br />
ine anthropology-group 0.38<br />
ine sport-person 0.33<br />
ine sociology-person 0.33<br />
ine metrology-time 0.27<br />
entrenatu.kontuakhitzak.ALL/kirolak<br />
abs x 4<br />
abs gehiegi 2<br />
abs talde 2<br />
abs entrenatzaile 1<br />
abs gutxiago 1<br />
abs beste 1<br />
abs jokalari 1<br />
abs sestao 1<br />
adb barik 1<br />
adb oso 1<br />
adj gogor 2<br />
ala katalunia 1<br />
erg pro 7<br />
erg gurrutxaga 6<br />
erg alonso 1<br />
erg x 1<br />
ine bete 6<br />
ine lau 1<br />
ine x 1<br />
ine etxe 1<br />
ine taldekide 1<br />
ine egun 1
ins marko 1<br />
konp menpekoa 3<br />
soz talde 6<br />
soz taldekide 1<br />
C.14.4 SemCorreko c2c euskarara itzulita<br />
train 00059698: c2c objektu hautapen-murriztapenak<br />
Daturik ez<br />
train 00059698: c2c subjektu hautapen-murriztapenak<br />
Daturik ez<br />
C.14.5 SemCor s2semf euskarara itzulita<br />
train00059698: s2semf objektu hautapen-murriztapenak<br />
Daturik ez<br />
train00059698: s2semf subjektu hautapen-murriztapenak<br />
Daturik ez<br />
C.14.6 EFEko w2semf euskarara itzulita<br />
train: w2semf objektu hautapen-murriztapenak<br />
obj zoology-group 2 ONARGARRIA<br />
obj sport-group 2 ONARGARRIA<br />
obj sport-person 1.611 ONARGARRIA<br />
obj x 1 ONARGARRIA<br />
obj time_period-time 0.5<br />
obj publishing-person 0.5 ONARGARRIA<br />
obj transport-artifact 0.333<br />
obj town_planning-artifact 0.222<br />
obj metrology-time 0.2<br />
obj tourism-artifact 0.111<br />
train: w2semf subjektu hautapen-murriztapenak<br />
subj x 13 ONARGARRIA<br />
subj chemistry-substance 5<br />
subj administration-group 3 ONARGARRIA<br />
subj linguistics-communication 2.666<br />
subj physics-substance 2.666<br />
subj sport-group 2.5 ONARGARRIA<br />
subj number-quantity 2.083<br />
subj zoology-group 2 ONARGARRIA<br />
subj wrestling-person 1 ONARGARRIA<br />
subj geography-location 0.5<br />
233
234<br />
C.14.7 Ondorioak<br />
Iturria Teknika Kasua Zuzena Onargarria Eskuratu<br />
gabe<br />
Egunkaria<br />
osoa<br />
Egunkaria<br />
kirolak<br />
Semcor<br />
EFE<br />
kirolak<br />
abs 10etik 1 10etik 4 0<br />
w2semf ine 0 0 2tik 2<br />
erg 0 2tik 2 2tik 2<br />
abs 10etik 1 10etik 4 0<br />
w2semf ine 0 0 2tik 2<br />
erg 0 2tik 2 2tik 2<br />
c2c Daturik ez<br />
s2semf Daturik ez<br />
w2semf<br />
obj<br />
subj<br />
0<br />
0<br />
10etik 3<br />
10etik 2<br />
0<br />
2tik 1
C.15 win_1<br />
C.15.1 Synseta MCRn<br />
00620486v<br />
competition<br />
DOMEINUAK:<br />
lock 00620486v 7 win_1<br />
lock 00620486v 0 irabazi_3<br />
C.15.2 Urre patroiak<br />
be the winner in a contest or competition;<br />
be victorious; "He won the Gold Medal in<br />
skating"; "Our home team won"<br />
HITZA KATEGORIA SYNSET DOMEINUA<br />
win A 00620486 sport<br />
win 00630097: objektu hautapen-murriztapenak<br />
c2c, w2c:<br />
04771851 competition contest “an occasion on which a winner is selected…”<br />
(hipe. EVENT)<br />
00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />
08310444 definite quantity “a specific measure of amount”<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
sport-event<br />
number-quantity<br />
win 00630097: subjektu hautapen-murriztapenak<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being"<br />
00017008 group grouping "any number of entities considered as a unit"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group<br />
235
236<br />
C.15.3 c2c SemCorretik<br />
OBJEKTUAK s2s:<br />
win 00620486:<br />
baseball_game 00264797<br />
battle 00440117<br />
championship 08536246<br />
contest 04771851<br />
game 00254052<br />
game 00254326<br />
group 00017008<br />
pennant 04379052<br />
popularity_contest 00644720<br />
primary 00103176<br />
rodeo 00299055<br />
war 00540597<br />
west 05478091<br />
SUBJEKTUAK s2s:<br />
win 00620486:<br />
chest 03805248<br />
force 05226551<br />
group 00017008<br />
north 05603360<br />
person 00004865<br />
s2s eta s2s-hype: Daturik ez<br />
win 00620486: c2c objektu hautapen-murriztapenak<br />
04771851 0.101 contest competition (contest, game, popularity_contest)<br />
ZUZENA<br />
00228990 0.100 activity (baseball_game, game, rodeo, batlle...) ONARGARRIA<br />
00017008 0.066 group grouping "any number of entities considered…" (group)<br />
00597858 0.0574 group_action "action taken by a group of people" ONARGARRIA<br />
baina datuak ez dira zuzenak (primary, popularity_contest, war)<br />
00018599 0.037 communication "something that is communicated between…"<br />
(pennant)<br />
05450515 0.020 region "a large indefinite location on the surface of the…"<br />
(west)<br />
08536246 0.020 championship title "the status of being a champion"<br />
ONARGARRIA (nondik?)
win 00620486: c2c subjektu hautapen-murriztapenak<br />
00017008 0.525 group grouping "any number of entities considered as a unit"<br />
ONARGARRIA (group, force)<br />
00004865 0.180 person individual someone somebody mortal human soul<br />
ONARGARRIA (person)<br />
03610098 0.052 body_part "any part of an organism such as an organ or…"<br />
(chest)<br />
00009469 0.048 object physical_object "a physical entity;"<br />
C.15.4 w2c SemCorretik<br />
s2s: (ikusi B.15.3 atala)<br />
win: w2c objektu hautapen-murriztapenak<br />
00228990 0.087 activity "any specific activity or pursuit;" ONARGARRIA<br />
00017008 0.070 group grouping "any number of entities considered as a unit"<br />
04771851 0.058 contest competition "an occasion on which a winner…" ZUZENA<br />
00597858 0.037 group_action "action taken by a group of people" ONARGARRIA<br />
00018599 0.033 communication "something that is communicated between…"<br />
00021098 0.030 action "something done (usually as opposed to something…)"<br />
ONARGARRIA (> 00024260 playing (taking part in a game or sport…)<br />
00015437 0.026 state "the way something is with respect to its main…"<br />
00012878 0.021 cognition knowledge "the psychological result of…"<br />
08141079 0.016 gift "something acquired without compensation"<br />
05450515 0.011 region "a large indefinite location on the surface of…"<br />
win: w2c subjektu hautapen-murriztapenak<br />
00017008 0.375 group grouping "any number of entities considered…" ZUZENA<br />
00004865 0.294 person individual someone somebody mortal human soul ZUZENA<br />
00009469 0.057 object physical_object "a physical entity"<br />
03610098 0.040 body_part "any part of an organism such as an organ or…"<br />
08258903 0.027 organic_process biological_process "a process occurring in…"<br />
C.15.5 s2semf SemCorretik<br />
win 00620486: s2semf objektu hautapen-murriztapenak<br />
politics-act 2<br />
play-act 1.5 ZUZENA<br />
sport-act 1.5 ZUZENA<br />
free_time-act 1<br />
sport-event 1 ZUZENA<br />
geography-location 1<br />
factotum-act 1 ONARGARRIA<br />
factotum-communication 1<br />
factotum-Tops 1 ONARGARRIA<br />
history-act 0.5<br />
237
238<br />
win 00620486: s2semf subjektu hautapen-murriztapenak<br />
factotum-Tops 1 ONARGARRIA<br />
zoology-body 0.5<br />
law-group 0.5<br />
anthropology-Tops 0.5<br />
anatomy-body 0.5<br />
administration-group 0.5<br />
biology-Tops 0.5<br />
geography-location 0.333<br />
history-location 0.333<br />
administration-location 0.333<br />
C.15.6 w2c BNCtik<br />
win: w2c objektu hautapen-murriztapenak<br />
00016649 0.055 act human_action human_activity "something that…" ONARGARRIA<br />
00009469 0.044 object physical_object "a physical entity"<br />
00004865 0.041 person individual someone somebody mortal human soul<br />
00018599 0.035 communication "something that is communicated between…"<br />
04690182 0.023 happening occurrence natural_event "an event that happens"<br />
04771851 0.022 contest competition "an occasion on which a winner…" ZUZENA<br />
00018966 0.020 measure quantity amount quantum "how much there…" ONARGARRIA<br />
00017008 0.017 group grouping "any number of entities considered as a unit"<br />
00012878 0.016 cognition knowledge "the psychological result of…"<br />
00015437 0.013 state "the way something is with respect to its main…"<br />
win: w2c subjektu hautapen-murriztapenak<br />
08813320 0.194 helium He atomic_number_2<br />
00004865 0.107 person individual someone somebody mortal human soul ZUZENA<br />
04455766 0.078 he "the 5th letter of the Hebrew alphabet"<br />
05149489 0.044 organization organisation "a group of people…" ONARGARRIA<br />
00011607 0.038 artifact artefact "a man-made object"<br />
04313427 0.023 message content subject_matter substance<br />
05132844 0.015 gathering assemblage "a group of persons together in one…"<br />
00014314 0.014 location "a point or extent in space"<br />
00018966 0.014 measure quantity amount quantum "how much there is of…"<br />
00016649 0.013 act human_action human_activity "something that people do…"<br />
w2w:<br />
win: w2w objektuak<br />
$100,000<br />
$270,000<br />
$55,000<br />
$7_million<br />
'Or<br />
*Input<br />
1,267_-_just<br />
17_per_cent<br />
1_per_cent<br />
22_per_cent<br />
30%<br />
3_per_cent<br />
40%<br />
40_per_cent<br />
41_percent<br />
42.9_per_cent<br />
45_per_cent<br />
49.7%<br />
50.7_per_cent<br />
50_per_cent<br />
54_per_cent<br />
55%<br />
6.3_per_cent<br />
61%<br />
63_per_cent<br />
70_per_cent<br />
74_per_cent<br />
7_per_cent<br />
82_per_cent<br />
9_per_cent<br />
ADAS<br />
African<br />
All<br />
Although<br />
Amateur_Championship<br />
Amateur_Class_II<br />
American<br />
American_Derby<br />
American_football<br />
And<br />
Anna_Neagle_Trophy<br />
Arbortech_Carving_Awa<br />
rd<br />
Arc
239<br />
Archer_Grand_Prix<br />
Arsenal<br />
At_Kelso<br />
Athletics_Blue<br />
Australian<br />
Australian_Classic<br />
Australian_Open<br />
Aviemore<br />
Ayr_Gold_Cup<br />
Ayresome_Park<br />
B<br />
Badminton<br />
Battle<br />
Before<br />
Belgian_Classic<br />
Berkhamsted<br />
Best<br />
Best_Actor<br />
Best_Actress<br />
Best_Picture<br />
Bharatpur<br />
Birkenhead<br />
Birmingham_League<br />
Blue<br />
Blue_Ribband<br />
Boat_Race<br />
Bob_Champion<br />
Bollinger_Champagne_N<br />
ovice_Chase<br />
Booker<br />
Booker_Prize<br />
Brentford<br />
Brigadier_Gerard_Stak<br />
es<br />
British<br />
British_Open<br />
Bruges<br />
Bundesliga<br />
But<br />
COMPETITION<br />
Cabochon<br />
Cadran<br />
Cake_Competition<br />
Calgary_Grand_Prix<br />
California_State_Sena<br />
te<br />
Cambridgeshire_Handic<br />
ap<br />
Camus_Masters<br />
Cannes_Palme<br />
Caribbean<br />
Carlsberg_Selling_Hur<br />
dle<br />
Cartier_Million<br />
Chair<br />
Champion_Hurdle<br />
Championship<br />
Charles_Heidsieck_Cha<br />
mpagne_Bula_Hurdle<br />
Chase<br />
Cheltenham<br />
Cheltenham_Gold_Cup<br />
Class_One<br />
Classic<br />
Classics<br />
Coate<br />
Coin<br />
Commonwealth<br />
Constantine_Mitsotaki<br />
s<br />
Coombe_Hill_Novice_Ch<br />
ase<br />
Coral-Eclipse_Stakes<br />
Coronation_Cup<br />
Courage_First_Divisio<br />
n<br />
Coventry_Stakes<br />
Cup<br />
Cup_Juvenile<br />
D._Carman<br />
DSO<br />
D_Alban_Davies_Award<br />
Democratic_Russia<br />
Democrats<br />
Derby<br />
Derby_Italiano<br />
Deuchar<br />
Dewar_Trophy<br />
Dewhurst_Stakes<br />
Duchess<br />
Earl<br />
Earl_Ruby<br />
Eclipse_Award<br />
Eclipse_Stakes<br />
Economics_Prize<br />
Eisenhower_Trophy<br />
Either<br />
Elibank_Handicap_Chas<br />
e<br />
Empire<br />
Enfield<br />
England<br />
Epsom<br />
European_Championship<br />
European_Cup<br />
Europeans<br />
Even<br />
Everest_Grand_Prix<br />
F<br />
FA_Amateur_Cup<br />
FA_Cup<br />
FA_Trophy<br />
FINAL<br />
Falklands_War<br />
Father<br />
February<br />
For<br />
Four<br />
Frankfurt_Grand_Prix<br />
French_Open<br />
French_Open_Champions<br />
hip<br />
Fujicolor<br />
German<br />
German_Bundesliga<br />
German_Grand_Prix<br />
Girobank_Scullers_Hea<br />
d<br />
Glamorgan<br />
Glasgow_Govan<br />
Glasgow_Hillhead<br />
Gold_Cup<br />
Gold_Medal<br />
Golden_Bone_Award<br />
Golden_Dick_Award<br />
Gooch<br />
Gordon<br />
Government<br />
Grammy_Award<br />
Grand_National<br />
Grand_Prix<br />
Guineas<br />
Handicap_Chase<br />
Hardwicke_Stakes<br />
Has<br />
Having<br />
Hayling_Island<br />
He<br />
Heartbeat_Awards<br />
Heisman_Trophy<br />
Hennessy_Cognac_Cup<br />
Hennessy_Gold_Cup<br />
Hertfordshire<br />
Hi_British_Open_Champ<br />
ionships<br />
High_Court<br />
Hilton_Young_Chef<br />
If<br />
In<br />
In_1929<br />
In_1960<br />
In_1979<br />
In_France<br />
In_Iran<br />
Irish_Derby<br />
Irish_National_Lotter<br />
y<br />
It
240<br />
Ivor_Novello_Award<br />
Jack_Fletcher_Trophy<br />
Jamaica<br />
Japanese<br />
Jawaharlal_Nehru<br />
John_Moores<br />
John_Ottaway<br />
Juno_IV<br />
Kentucky_Derby<br />
Kim_Muir<br />
King_George_V1_Chase<br />
King_George_VI_Chase<br />
King_George_V_Coronat<br />
ion_Challenge_Cup<br />
Koch<br />
Labour<br />
Labour_Party<br />
Lady_Keystone_Open<br />
Land_Rover<br />
Langley_Park<br />
Later<br />
Lauberhorn<br />
League<br />
League_Cup<br />
League_One<br />
Lego<br />
Liberal_Democrat<br />
Liverpool<br />
Lombard_RAC_Rally<br />
London<br />
London_Irish<br />
London_Marathon<br />
Los_Angeles<br />
MC<br />
Macartney<br />
Madrid_Open<br />
Malcolm_Thomas<br />
Man<br />
Mandarin_Chase<br />
Martin<br />
Martine_Le_Moignan<br />
Masters<br />
Meat_Trades_Journal_C<br />
hampion<br />
Melbourne_Cup<br />
Middle_Park_Stakes<br />
Midlands_County_Chess<br />
_Championships<br />
Milan<br />
Mildmay<br />
Ministry<br />
Miss_Bikini<br />
Miss_Clark_Award<br />
Modern_Alarms_Cup<br />
Monte_Carlo_Rally<br />
Much<br />
NM_Financial_Internat<br />
ional<br />
NatWest_Trophy<br />
National<br />
National_Australian_C<br />
ollegiate_Athletic_As<br />
sociation<br />
National_League<br />
Nations_Cup<br />
Nazi<br />
Nell_Gwyn_Stakes<br />
Newbury_Sales_Trophy<br />
Newmarket<br />
No.2_Audra_Keller<br />
Nobel_Peace_Prize<br />
Nobel_Prize<br />
Nobel_prize<br />
Nomura_Challenge_Trop<br />
hies<br />
Norfolk_South_West<br />
Northampton<br />
Norwich_Union_County_<br />
Championship<br />
Not<br />
Of<br />
Ole-<br />
Christian_Furuseth<br />
Olympic<br />
Olympic_Talent_Spotte<br />
rs_Championship<br />
Olympics<br />
Olympus<br />
On<br />
Open<br />
Orphy_Robinson<br />
Oscar<br />
PGA_Tournament<br />
Pacific_League<br />
Paduca_Classic<br />
Paris<br />
Parliamentary<br />
Pendle<br />
Perhaps<br />
Perrier_Best_Restaura<br />
nt<br />
Peter_Pears_Award_Fir<br />
st<br />
_Prize<br />
Phoenix<br />
Pirelli_International<br />
Portsmouth<br />
Portuguese_Grand_Prix<br />
Pound<br />
Premiership<br />
Presbyterian<br />
Princess<br />
Prix<br />
Prix_De<br />
Prix_Dollar<br />
Prix_Ganay<br />
Prix_Royal-Oak<br />
Prudential_World_Cup<br />
Qualifying_School<br />
RECENTLY_Jonathon_Kha<br />
irule<br />
Racing_Post_Chase<br />
Radio_Award<br />
Rather<br />
Real<br />
Renault_Clio_RT_1.4<br />
Restricted<br />
River_Hill<br />
Rome_Classic<br />
Rose<br />
Rosehill_Guineas<br />
Royal_Berkshire<br />
Rumbelows_Cup<br />
Russia<br />
Ryder_Cup<br />
SGB_Chase<br />
Salvation<br />
San_Remo_Rally<br />
Sandeman_Hurdle<br />
Sean_Kelly<br />
Share<br />
Show_Hunter<br />
Silver_Leopard<br />
Since<br />
Son<br />
Sophia_Loren<br />
South_African_Open<br />
South_American_Champi<br />
onship<br />
Southampton_Having<br />
Special<br />
Special_Jury_Prize<br />
Sport<br />
St_Leger<br />
Stefan_Edberg<br />
Stella<br />
Stetchworth_Maiden_St<br />
akes<br />
Sun_Alliance_Chase<br />
Sunday_League<br />
Sutton_Coldfield<br />
Swindon<br />
Sword_Dancer_Stakes<br />
Sydney<br />
THE_Victoria_Cross<br />
TWI<br />
Tampa<br />
Tamworth
241<br />
Tatyana<br />
Tchaikovsky_Competiti<br />
on<br />
Test<br />
That<br />
The_Cheltenham_Gold_C<br />
up<br />
The_Daily_Trophy<br />
The_Good_Skiing_Guide<br />
The_National_Westmins<br />
ter_Bank_Sevens<br />
The_Players_Champions<br />
hip<br />
The_Sir_Douglas_Bader<br />
_Trophy<br />
Then<br />
Tiny<br />
Tories<br />
Tory<br />
Tottenham<br />
Tour<br />
Tour_de_France<br />
Trophy<br />
Tropicarr<br />
Trusthouse_Forte_Prix<br />
_Vermeille<br />
Turner<br />
Two<br />
Two_Thousand_Guineas<br />
UEFA_Cup<br />
US_Championship<br />
US_Masters<br />
US_Open<br />
United_States_Open<br />
University_Match<br />
Up<br />
VC<br />
Vale<br />
Vauxhall_FA_Trophy<br />
Victoria_Cross<br />
Vincent_O'Brien_Irish<br />
_Gold_Cup<br />
Volvo_Masters<br />
Volvo_PGA_Championshi<br />
p<br />
Walker_Cup<br />
Washington_Internatio<br />
nal<br />
Watford<br />
Weembledon<br />
Welsh<br />
West_Ham<br />
Western_Open<br />
When<br />
When_England<br />
Whitbread_Biography<br />
Whitbread_Gold_Cup<br />
Whitbread_Prize<br />
White_House<br />
Wimbledon<br />
Wolverhampton_West<br />
Wood_Ditton_Stakes<br />
Working_Hunter_Champi<br />
onship<br />
World_Championship<br />
World_Club_Championsh<br />
ip<br />
World_Cup<br />
World_Cups<br />
World_Series<br />
Yet<br />
Yorkshire_Cup<br />
absolute_majority<br />
abundance<br />
acceptance<br />
acclaim<br />
accolade<br />
accommodation<br />
action<br />
actor<br />
admiration<br />
admission<br />
affection<br />
age_group<br />
agreement<br />
air_power<br />
ally<br />
amateur<br />
amount<br />
another<br />
anything<br />
appeal<br />
approval<br />
arm<br />
attention<br />
audience<br />
award<br />
backing<br />
ball<br />
ballot<br />
ban<br />
bank<br />
base<br />
battle<br />
bet<br />
bidder<br />
bonus<br />
borough<br />
bout<br />
boxing_match<br />
break<br />
breathing_space<br />
business<br />
but<br />
by-election<br />
camera<br />
cap<br />
capital<br />
car<br />
card<br />
case<br />
cash<br />
category<br />
chairman<br />
championship<br />
chance<br />
change_-_but<br />
chase<br />
cheer<br />
child<br />
chocolate<br />
class<br />
classic<br />
club<br />
colleague<br />
combination<br />
company<br />
compensation<br />
competition<br />
competitor<br />
concept<br />
concession<br />
conference<br />
confidence<br />
constituency<br />
contest<br />
contract<br />
control<br />
convert<br />
cost<br />
country<br />
couple<br />
course<br />
court<br />
coveted<br />
credibility<br />
cricket<br />
crown<br />
cup<br />
custody<br />
customer<br />
cut<br />
damages<br />
deal<br />
debate<br />
debut<br />
defendant<br />
degree
242<br />
democracy<br />
des<br />
development<br />
distance<br />
division<br />
dole<br />
dollar<br />
domestic<br />
drama<br />
du<br />
either<br />
election<br />
elite<br />
encounter<br />
end<br />
endorsement<br />
enough<br />
entry<br />
equal<br />
equivalent<br />
event<br />
everything<br />
extraordinary<br />
eyes<br />
fame<br />
favour<br />
feature<br />
fight<br />
figure<br />
final<br />
first<br />
first_half<br />
flag<br />
food<br />
football<br />
forever<br />
fortune<br />
foursome<br />
fourth<br />
frame<br />
franchise<br />
franchiser<br />
freestyle<br />
friend<br />
friendship<br />
funding<br />
future<br />
game<br />
garden<br />
general_election<br />
go-ahead<br />
goal<br />
gold<br />
governorship<br />
grade<br />
grand_slam<br />
greyhound<br />
ground<br />
hand<br />
handful<br />
handicap<br />
he<br />
heaps<br />
heart<br />
hearts<br />
heat<br />
hegemony<br />
help<br />
her<br />
him<br />
himself<br />
his<br />
hole_-_at<br />
holiday<br />
home_game<br />
honesty<br />
host<br />
hurdle<br />
hurdler<br />
incident<br />
independence<br />
independent<br />
indulgence<br />
insertion<br />
insurance_company<br />
international<br />
investment<br />
issue<br />
it<br />
jacket<br />
job<br />
junior<br />
kerfuffle<br />
kingdom<br />
kudos<br />
landslide<br />
leadership<br />
league<br />
lease<br />
leg<br />
length<br />
letter<br />
licence<br />
line-out<br />
look<br />
maiden<br />
major<br />
majority<br />
majority_-_though<br />
majors<br />
makeover<br />
manager<br />
marathon<br />
mark<br />
marksman<br />
match<br />
matches<br />
matches_-_more<br />
matter<br />
me<br />
medal<br />
media<br />
meeting<br />
membership<br />
men's<br />
mere<br />
method<br />
metre<br />
mile<br />
mind<br />
miner<br />
mini-drama<br />
minister<br />
model<br />
modern<br />
money<br />
mortgage<br />
musical<br />
name<br />
newspaper<br />
nomination<br />
nothing<br />
notion<br />
number<br />
office<br />
ofthe<br />
omen_-_I<br />
opposite<br />
organisers<br />
ourselves<br />
ovation<br />
overall<br />
pardon<br />
parent<br />
party<br />
patio<br />
paving<br />
pawn<br />
payout<br />
peace<br />
pebble<br />
peg<br />
penalty<br />
people<br />
per_cent<br />
percent<br />
percentage<br />
person
243<br />
place<br />
plaudits<br />
player<br />
playoff<br />
plight<br />
plurality<br />
point<br />
poll<br />
pool<br />
popularity<br />
port<br />
portfolio<br />
possession<br />
post<br />
pot<br />
praise<br />
prediction<br />
premiership<br />
presidency<br />
primary<br />
prince<br />
privilege<br />
prize<br />
problem<br />
project<br />
promotion<br />
protest<br />
prototype<br />
public<br />
publicity<br />
pumpkin<br />
qualifier<br />
quarter<br />
quarterfinal<br />
quota<br />
race<br />
racehorse<br />
racket<br />
rally<br />
ranking<br />
rating<br />
recipe<br />
record<br />
recruit<br />
reduction<br />
renown<br />
replay<br />
reprieve<br />
reputation<br />
resource<br />
respect<br />
respite<br />
retrial<br />
return<br />
review<br />
revolution<br />
riband<br />
riches<br />
ride<br />
rise<br />
rises_-<br />
_about_12.6_per_cent_<br />
-_are<br />
rival<br />
role<br />
rosette<br />
round<br />
ruck<br />
run<br />
runner<br />
safari<br />
salvation<br />
scholarship<br />
school<br />
scrum<br />
season<br />
seat<br />
second<br />
section<br />
sector<br />
seed<br />
selection<br />
semifinal<br />
series<br />
set<br />
settlement<br />
share<br />
shoe<br />
shot<br />
showjumping<br />
side<br />
sign<br />
signature<br />
silver<br />
single<br />
singles<br />
skirmish<br />
small<br />
something<br />
sort<br />
spectacular<br />
speech<br />
speed<br />
spoils<br />
sponsorship<br />
spoon<br />
spur<br />
squad<br />
stage<br />
standing_ovation<br />
start<br />
state<br />
statuette<br />
status<br />
steeplechase<br />
strain<br />
street<br />
strength<br />
strike<br />
struggle<br />
studio<br />
stylish<br />
success<br />
summary_judgment<br />
suport<br />
support<br />
supporter<br />
sweep<br />
sweet<br />
sympathy<br />
talent<br />
tankard<br />
tassel_-_and_he<br />
team<br />
tenth<br />
term<br />
term_-_unprecedented<br />
term_of_office<br />
test<br />
test_case<br />
test_match<br />
thanks<br />
that<br />
their<br />
them<br />
these<br />
they<br />
thing<br />
things<br />
third<br />
thirds<br />
thirty-nine<br />
this<br />
those<br />
throne<br />
tie<br />
time<br />
tin<br />
title<br />
tool<br />
top<br />
toss<br />
total<br />
tournament<br />
toy<br />
track<br />
treasurer<br />
trial
244<br />
trip<br />
triple<br />
triple_crown<br />
trophy<br />
trousers<br />
turkey<br />
twenty-one<br />
two-thirds<br />
unchurched<br />
under-25<br />
us<br />
valuable<br />
value<br />
vaulting<br />
version<br />
victory<br />
violin_section<br />
vote<br />
voter<br />
voucher<br />
wager<br />
walk<br />
wallaby<br />
war<br />
wardrobe<br />
warm-up<br />
waverer<br />
ways<br />
weight<br />
well<br />
what<br />
which<br />
whileFife<br />
who<br />
wicket<br />
winner<br />
woman<br />
work<br />
world<br />
worth<br />
wristwatch<br />
writer<br />
yacht_race<br />
you<br />
yourself<br />
win: w2w subjektuak<br />
-_he<br />
-glamorization<br />
29-year-old<br />
AARON_KRICKSTEIN<br />
AD<br />
ANGLO_UNITED<br />
AN_OWNER<br />
A_CONSORTIUM<br />
A_W_Carr<br />
Abbey_National<br />
Adams<br />
Adrian_Edmondson<br />
After<br />
After_Dot<br />
After_Gower<br />
After_Labour<br />
After_The_White_Lion<br />
Airdrie<br />
Alabama<br />
Albers<br />
Albert_Geldard<br />
Alexander<br />
Alison_Dare<br />
All<br />
All_20<br />
Alliance<br />
Alliance_Party<br />
Alner<br />
Although_Canada<br />
Although_Mr_Nakayama<br />
Although_Mr_Smith<br />
Although_Warwickshire<br />
America<br />
Americans<br />
And_Palin<br />
Andrew_Baxter<br />
Angler<br />
Angolan<br />
Another_Kurd<br />
Arazi<br />
Argentina<br />
Arkle<br />
Arran<br />
As<br />
Asparagus_Triptych<br />
At_Talaq<br />
Audrey<br />
Aurora_Cunha<br />
Australia<br />
Australian<br />
Australian_John_Fahey<br />
Austria<br />
Austrian_Hugo_Simon<br />
BBC<br />
BILL_BRITTON<br />
BILL_CLINTON<br />
BRITISH_Nuclear_Fuels<br />
BRM<br />
BUCKINGHAMSHIRE<br />
BY<br />
Baby_Turk<br />
Back<br />
Baggio<br />
Ballesteros<br />
Banque_Indosuez<br />
Bantamweight_Karen_Br<br />
iggs<br />
Barnes<br />
Barnsley<br />
Basildon<br />
Basingstoke<br />
Bathams_Best_Bitter<br />
Battling_Barry_Neal<br />
Bayern<br />
Beaton<br />
Beavers<br />
Becker<br />
Beckett<br />
Beerbaum<br />
Bell<br />
Bette_Davis<br />
Biasion<br />
Biggs<br />
Bill_Bullock<br />
Birchfield_Harrier<br />
Birmingham<br />
Bistro<br />
Black<br />
Blackburn<br />
Bonanza_Boy<br />
Bond<br />
Booker<br />
Bosnia<br />
Boss_Man<br />
Botham<br />
Brazil<br />
Brazilian<br />
Brazilian_Paolo_Carca<br />
sci<br />
Brearley<br />
Bregawn<br />
Bremen<br />
Brians_Dark<br />
Bridgend4_BRIDGEND<br />
Brigitte_Newbury<br />
Britain<br />
British<br />
British_Aerospace<br />
Briton<br />
Brixton<br />
Brondby<br />
Bueno<br />
Buick<br />
Bunce<br />
Burgundians<br />
Bush<br />
But<br />
But_Corden<br />
But_Graham<br />
But_London<br />
But_Oxford_Hawks
245<br />
But_River_Bounty<br />
But_St_Ives<br />
C<br />
C2s<br />
CVP<br />
Cabra<br />
Cagliari<br />
Calder<br />
Callaghan<br />
Calzaghe<br />
Cambridge<br />
Capriati<br />
Cardiff6_LLANELLI<br />
Careca<br />
Carl_Smith<br />
Carter<br />
Cauthen<br />
Cecil<br />
Certainly_Mrs_Thatche<br />
r<br />
Champions_Roland_King<br />
ston<br />
Chapman<br />
Charlton<br />
Charterhouse<br />
Chelsea<br />
Chen<br />
Chick<br />
Chub<br />
Churchill<br />
Cicero<br />
City<br />
Clarke<br />
Clasper<br />
Clinton<br />
Coin<br />
Commission<br />
Conner<br />
Conservative<br />
Conservative_Party<br />
Conservatives<br />
Consultants<br />
Cooper<br />
Copsey<br />
Cork_Gully<br />
Corrado<br />
Couples<br />
Coventry<br />
Craig<br />
Cram<br />
DENNIS_SKINNER<br />
Da_Silva<br />
Daisy_Miller<br />
Daniel_Wesley<br />
Darara<br />
Dave_Amber<br />
David_Chapman<br />
David_Duke<br />
David_Jamieson<br />
David_Land<br />
Davis<br />
Dawn_Run<br />
Democratic_Party<br />
Desert_Orchid<br />
Dewsbury<br />
Diana<br />
Digression<br />
Docklands_Express<br />
Don<br />
Don_Edwards<br />
Don_John<br />
Donna<br />
Doyle<br />
Drake<br />
Duff<br />
Dukakis<br />
Dutchman_Marcel_Alber<br />
s<br />
EDS<br />
East<br />
Eastbourne<br />
Eisenhower<br />
Eliot<br />
Embla<br />
EmmaJane_Mac<br />
England<br />
English<br />
English_No_1<br />
Enoch_Powell<br />
Enrico_Berlinguer<br />
Entertainer<br />
Ernest_Bevin<br />
Ernest_Saunders<br />
Europe<br />
Europeans<br />
Euwe<br />
Evangelical<br />
FET<br />
FOURTEEN_NUNS<br />
Faldo<br />
Farges<br />
Field<br />
Fignon<br />
Fiji<br />
Firm<br />
Fleet/Norstar<br />
Foinavon<br />
For_Guy<br />
Forest<br />
Forget<br />
Fort_Marcy<br />
Fortunately_Britain<br />
Foster<br />
Fourth_Division<br />
Frank<br />
Frederick_Hartt<br />
GARY_DRAKE<br />
GBH<br />
GREAT_BRITAIN<br />
GREG_HARLOW<br />
GUY_POOLEY<br />
Garry_Hay<br />
Gary_Player<br />
Gatting<br />
General_Humbert<br />
Genevieve<br />
Gennadi_Progoda<br />
Geoffrey_Bone<br />
George_McCartney<br />
George_Ward<br />
Ghofar<br />
Gold_Medal<br />
Gorbachev<br />
Gordon_Richards<br />
Goth<br />
Government<br />
Gower<br />
Graziano<br />
Greig<br />
Guineas<br />
Gyles_Brandreth<br />
HAD_Labour<br />
HAWTHORN<br />
HOLD<br />
HONG_KONG<br />
Had_Wapnick<br />
Hall<br />
Ham<strong>net</strong>t<br />
Handicap_Hurdle<br />
Harlston_YFC<br />
Harold<br />
Harris<br />
Having<br />
He<br />
Healey<br />
Heath<br />
Heddle<br />
Henderson<br />
Hendry<br />
Hennessy<br />
Henrik_Gustafsson<br />
Henry_Cotton<br />
Hertfordshire<br />
Hindmarch<br />
Holland<br />
Hospital_Corporation_<br />
International<br />
Hounslow
246<br />
Hoylake<br />
Hurd<br />
I<br />
IF_LABOUR<br />
IT_IS_IMPOSSIBLE<br />
Iades<br />
Identity_Parade<br />
If_Labour<br />
If_London<br />
If_Mr_Major<br />
If_Prost<br />
If_Senna<br />
Il_Moro<br />
Ile_De_Nisky<br />
Ilona<br />
In<br />
In_1961<br />
In_Leningrad<br />
Infant_Minds<br />
Ipswich<br />
Iraq<br />
Ireland<br />
Islamic_Salvation_Fro<br />
nt<br />
Israel<br />
It<br />
Ivor<br />
JANIE_EICKHOFF<br />
JEFFERSON_SMURFIT<br />
JESUS_ROJAS<br />
JIMMY_McCRAE<br />
JOHN_PARROTT<br />
JUAN_MOLINA<br />
Jack_Lemmon<br />
Jansher<br />
Japan<br />
Jarryd<br />
Jason<br />
Jason_Nicolle<br />
Jimmy<br />
Jimmy_Connors<br />
Jimmy_White<br />
Joanne<br />
Joanne_Atkins<br />
Joe_Screen<br />
John<br />
John_Ford<br />
John_Henry<br />
John_Smith<br />
John_Tugwell<br />
Joint_Sovereignty<br />
Jones<br />
Jonjo_O'Neill<br />
Josie_Horton<br />
Julie_Pullin<br />
Just<br />
Kaifu<br />
Kaiser<br />
Kate_Howey<br />
Katharine_Hepburn<br />
Kawasaki_Heavy_Indust<br />
ries<br />
Ken_Matthews<br />
Ken<strong>net</strong>h_Clarke<br />
Kerekou<br />
Kerrith_Brown<br />
Ki_Hoon_Kim<br />
Kim<br />
King_Credo<br />
Kingstonians<br />
Kinnock<br />
Kurds<br />
Kylie<br />
L'Escargot<br />
Labour<br />
Lachie_Deuchar<br />
Laings<br />
Lamb<br />
Later<br />
Laura_Davies<br />
Lawrie_Smith<br />
Lawson<br />
League<br />
Leavis<br />
Lee_Chapman<br />
Leeds<br />
Leicester<br />
Leicestershire<br />
Leonard<br />
Liberals<br />
Liverpool<br />
Llanelli<br />
Llewellyn<br />
Lloyd<br />
London<br />
London_Scottish<br />
Loose_Tubes<br />
Lotus_Esprit_Turbos<br />
Lowe_International<br />
Ludger_Beerbaum<br />
Luton<br />
Lyle<br />
MAIL_Newspapers<br />
MASSIMO_BIASION<br />
Major<br />
Malcolm_Pyrah<br />
Man<br />
Manchester_United<br />
Mario_Andretti<br />
Markovic<br />
Martin<br />
Martin_Haag<br />
Martin_Luther_King<br />
Mary<br />
Master_Craftsman<br />
Matchboard<br />
Matlock<br />
McCormack<br />
Me<br />
Mendip_Express<br />
Mersey<br />
Merthyr_Tydfil<br />
Michael<br />
Michael_Bishop<br />
Michael_Heseltine<br />
Midlands<br />
Mika_Hakkinen<br />
Milan<br />
Mill_House<br />
Ministry<br />
Mitsotakis<br />
Mize<br />
Monie<br />
Mont_Basile<br />
Moran<br />
Morrell<br />
Morris_Dees<br />
Mother<br />
Mr_Hamilton-Renwick<br />
Mr_Loveluck-Edwards<br />
Mrs_Clancy<br />
Mrs_Jones<br />
Mrs_Molina<br />
Mrs_Thatcher<br />
Muhayaa<br />
NEIL_KINNOCK<br />
NIGEL_LAWSON<br />
Nasa<br />
Nashwan<br />
Nationalists<br />
Neath<br />
New_Zealand<br />
New_Zealander<br />
Newcastle<br />
Nicholas_Mosley<br />
Nicholson<br />
Nick_Skelton<br />
Nicol_Stephen<br />
Nigel_Jones<br />
Nigel_Lawson<br />
Night_Raid<br />
Nijinsky<br />
Nippon<br />
Nobel_Prize<br />
Nobody<br />
Nolte<br />
Noone<br />
Norman
247<br />
Northampton<br />
Northern_Ireland<br />
Norwegian<br />
Nottingham<br />
Nottinghamshire<br />
Oldham<br />
Oliver_Gillie<br />
On<br />
One<br />
One_For_All<br />
Open_Championship<br />
Optiebeurs_Felix<br />
Orlando<br />
Oxford<br />
Oxford_University_Aus<br />
tralian<br />
PAI<br />
PNG<br />
PS<br />
Page<br />
Paisley<br />
Pajot<br />
Pakistan<br />
Palace<br />
Parliament<br />
Party_Politics<br />
Pd<br />
Peter_Harris<br />
Peter_McDaid<br />
Phar_Lap<br />
Phoenix<br />
Pierre_Balmain<br />
Pirmin_Zurbriggen<br />
Pole<br />
Pompey<br />
Portsmouth_Northsea<br />
Postmaster<br />
Premium_Bond<br />
Premonition<br />
Prontaprint<br />
Prost<br />
Puttnam<br />
RECOLLECTIONS_OF_THE_<br />
YELLOW_HOUSE<br />
RICHARD_Deacon<br />
Ra<br />
Ramsin<br />
Ray<br />
Raymond_Robertson<br />
Reagan<br />
Real<br />
Red_Rum<br />
Reform<br />
Republicans<br />
Reshevsky<br />
Reveille_Boy<br />
Reykjavik<br />
Reynard<br />
Reynolds<br />
Richards<br />
Roadshows<br />
Robert_Watts<br />
Robin_Smith<br />
Roe<br />
Roebuck<br />
Roscoe_Boy<br />
Roy_Jenkins<br />
Royal_Bank<br />
Runners-up<br />
SED<br />
SINCE_Michael_Chang<br />
SLD<br />
Sally<br />
Salter<br />
Sandy_Lyle<br />
Sara_Saddoo<br />
Sarah_Loosemore<br />
Saunders<br />
Scarborough<br />
Schluter<br />
Scotland<br />
Seabrook<br />
Senior<br />
Sergeant_Elliott<br />
Sergeev<br />
Seventh_Symphony<br />
Severiano_Ballesteros<br />
Share<br />
Sharp_Prince<br />
She<br />
Sheikh_Mohammed<br />
Sherwood<br />
Short<br />
Short_-_who<br />
Short_Brothers<br />
Should_Labour<br />
Should_Major<br />
Sierra_Cosworth_4x4<br />
Sigel<br />
Silke_Hoerner<br />
Silva<br />
Silver_Buck<br />
Simon<br />
Skybolt<br />
Smith<br />
So<br />
So_West_Indies<br />
Social_Democrats<br />
Socialist_League<br />
Solidasarock<br />
Sonilla<br />
Soon_Graham<br />
Sophie_Mitchell<br />
South_African<br />
Spain<br />
Spanish_Play<br />
Speelman<br />
St_Helens<br />
Staffordshire<br />
Star_Player<br />
Stars<br />
Statue<br />
Steffi<br />
Steffi_Graf<br />
Stephen_Akers<br />
Stephens<br />
Steve_Gazzard<br />
Stock_Exchange<br />
Stoke<br />
Strett<br />
Stuart_Childerley<br />
Subsequently_Pasterna<br />
k<br />
Sugar_Ray_Leonard<br />
Sure_Sharp<br />
Surrey<br />
Swede<br />
Sweden<br />
TEAM<br />
THE_CASE_FOR_NOT_MEDD<br />
LING_WITH_THE_NHS_Who<br />
ever<br />
THE_POUND<br />
THE_Press_Council<br />
TO_BE<br />
Tanni_Grey<br />
Tebitto<br />
Ted_Heath<br />
Television_Sales<br />
Terrible<br />
Terry_Blamey<br />
Test<br />
That_Dihistan<br />
The_Andover_Branch<br />
The_Australians<br />
The_Baxters<br />
The_Campaign<br />
The_Caretaker<br />
The_Catalans<br />
The_Chancellor<br />
The_Conservative_Part<br />
y<br />
The_Conservatives<br />
The_DUP<br />
The_Democrats<br />
The_East<br />
The_FIS<br />
The_Government
248<br />
The_Kawasaki_Mule_201<br />
0<br />
The_Labour_Opposition<br />
The_League<br />
The_Liberal_Democrats<br />
The_Lloyds<br />
The_Navy<br />
The_Ozals<br />
The_Portuguese_Social<br />
_Democrats<br />
The_Prime_Minister<br />
The_Queenslander<br />
The_Renault_Clio<br />
The_SDP<br />
The_South_Africans<br />
The_Spaniards<br />
The_Tories<br />
The_Tribune_Company<br />
The_Two_Solitudes<br />
The_USSR<br />
The_Western_Region<br />
Their<br />
These<br />
They<br />
This<br />
Thomas_Burgler<br />
Timman<br />
To<br />
Tolstikov<br />
Tony_Copsey<br />
Tony_Rominger<br />
Tooheys<br />
Top_Spin_Lob<br />
Tories<br />
Tory<br />
Tory_MEPs<br />
Tottenham<br />
Tranmere<br />
Treleaven<br />
Troke<br />
True_Bloom<br />
Truman<br />
Twitbread<br />
Tzan<strong>net</strong>akis<br />
UPP<br />
Under-21<br />
United<br />
United_Democrats<br />
United_States<br />
Valiant_Boy<br />
Vardon<br />
Victor_Sassoon<br />
Victor_Saunders<br />
Vietnamese<br />
Villa<br />
Volvo<br />
WALSALL_KIPPING<br />
WHEN_Rangers<br />
WHOEVER<br />
Walker<br />
Walter_Hagen<br />
Wanless<br />
We<br />
Welch<br />
Welshman<br />
Werth<br />
West_Ham<br />
West_Indies<br />
West_Middlesex<br />
What<br />
When_Bath<br />
When_Beerbaum<br />
When_Bovet<br />
When_England<br />
When_Kylie<br />
When_Lyle<br />
When_Millar<br />
When_Richards<br />
When_Woosnam<br />
Whether_Darrel_McHarg<br />
ue<br />
While_Kirdoff<br />
Who<br />
Wigan<br />
Wilder<br />
Williams<br />
With<br />
Wont_Be_Gone_Long<br />
Would_Jennifer_Jones<br />
X_Windows<br />
YF-22<br />
Yeltsin<br />
Yet<br />
Yohji<br />
York<br />
You<br />
Young_Pokey<br />
Youth_Cup<br />
Yugoslavia<br />
Zsuzsa<br />
abortion<br />
act<br />
activist<br />
addition<br />
age<br />
amount<br />
angler<br />
another<br />
appeal<br />
arm<br />
arrival<br />
article<br />
attention<br />
attitude<br />
audience<br />
authority<br />
bachelor's_button<br />
back<br />
banality<br />
band<br />
baron<br />
batallion<br />
best_man<br />
bloc<br />
blood<br />
bluntness<br />
bomb<br />
book<br />
brace_and_bit<br />
brigade<br />
brother<br />
bus<br />
captain<br />
caption<br />
car<br />
car_park<br />
case<br />
caterer<br />
chairmen<br />
challenger<br />
champion<br />
chance<br />
chaser<br />
chef<br />
chemist<br />
chess_player<br />
chief<br />
church<br />
civil_servant<br />
club<br />
coating<br />
college<br />
combination<br />
comfort<br />
comforts<br />
company<br />
conductor<br />
confidence<br />
conservative<br />
conservativism<br />
consortia<br />
consortium<br />
consultant<br />
containment<br />
contestant<br />
correctly<br />
country<br />
course
249<br />
coverage<br />
cox<br />
cream<br />
cricketer<br />
critique<br />
cup<br />
cutback<br />
debt<br />
declarer<br />
defender<br />
defensiveness<br />
delegate<br />
derby<br />
design<br />
desire<br />
development<br />
device<br />
diamond<br />
diploma<br />
directness<br />
division<br />
dollar<br />
double<br />
dragon<br />
drama<br />
drill<br />
driver<br />
earth<br />
edge<br />
effect<br />
egg<br />
either<br />
election<br />
employee<br />
employer<br />
enemy<br />
energy<br />
engineer<br />
enthusiast<br />
entrant<br />
entry<br />
equivalent<br />
establishment<br />
event<br />
expert<br />
explosive<br />
faction<br />
fairmindedness<br />
farm<br />
father<br />
feature<br />
fifth<br />
fighter<br />
fillip<br />
film<br />
final<br />
firm<br />
fit<br />
five-year-old<br />
following<br />
foot<br />
footpath<br />
footwork<br />
foreigner<br />
four-year-old<br />
front<br />
fund<br />
gamble<br />
game<br />
gardening<br />
gelding<br />
gesture<br />
gift<br />
glue<br />
goal<br />
golden_boy<br />
golfer<br />
government<br />
grading<br />
grey<br />
group<br />
guy<br />
h5<br />
he<br />
headquarters<br />
heifer<br />
her<br />
him<br />
himself<br />
hitter<br />
holder<br />
hole<br />
hopefuls<br />
horse<br />
horse_-_recently<br />
horse_race_-_he<br />
house<br />
housecoat<br />
human<br />
hunter-chaser<br />
hurdler<br />
independent<br />
industry<br />
injury<br />
interest<br />
intervention<br />
interviewer<br />
investor<br />
involvement<br />
it<br />
journalist<br />
ketch<br />
last<br />
leadership<br />
league<br />
left<br />
length<br />
letter<br />
liberal<br />
life<br />
line<br />
liquidator<br />
litigant<br />
local<br />
losses<br />
man<br />
manager<br />
manner<br />
marathon<br />
marketeers<br />
marque<br />
marquetarians<br />
match<br />
mayor<br />
me<br />
measure<br />
medallist<br />
member<br />
militant<br />
militia<br />
minister<br />
moment<br />
mood<br />
move<br />
name<br />
nature<br />
neutrality<br />
newcomer<br />
no_one<br />
nonconformist<br />
note<br />
notion<br />
novel<br />
opponent<br />
opposition<br />
other<br />
others<br />
outfit<br />
outsider<br />
owner<br />
ownership<br />
par<br />
partnership<br />
party<br />
people<br />
performance<br />
personality<br />
philosophy
250<br />
physiologist<br />
picker<br />
picking<br />
picture<br />
pilot<br />
planning<br />
player<br />
police<br />
policy<br />
poll_tax<br />
pool<br />
population<br />
practitioner<br />
pragmatist<br />
pressure<br />
programme<br />
proportional_represen<br />
tation<br />
punch<br />
pupil<br />
quality<br />
race<br />
ranger<br />
reader<br />
realpolitik<br />
reception<br />
religion<br />
rematch<br />
repeat<br />
representative<br />
restaurant<br />
revenue<br />
ride<br />
rider<br />
router<br />
run<br />
runaway<br />
runner<br />
runners-up<br />
sack<br />
scene<br />
C.15.7 c2c BNCtik<br />
Denak ez zuzenak dira.<br />
school<br />
seamers<br />
seat<br />
second<br />
seed<br />
selfbuilders<br />
series<br />
serve<br />
service<br />
share<br />
she<br />
shoulda<br />
side<br />
sixth<br />
skill<br />
slate<br />
smoothing_plane<br />
social_work<br />
socialist<br />
someone<br />
somnolence<br />
son<br />
speaker<br />
speech<br />
squad<br />
stable<br />
stance<br />
standoff<br />
striker<br />
student<br />
study<br />
success<br />
supermarket<br />
support<br />
supporter<br />
system<br />
tactic<br />
taskforce<br />
tax<br />
team<br />
technology<br />
that<br />
them<br />
they<br />
third<br />
this<br />
those<br />
throw<br />
ticket<br />
tide<br />
tiger<br />
time<br />
tip<br />
tipple<br />
title<br />
toff<br />
tour<br />
tourist<br />
tournament<br />
trading<br />
twenty-one<br />
unit<br />
unmistakably_-_has<br />
us<br />
veto<br />
victory<br />
we<br />
weaver<br />
welder<br />
which<br />
who<br />
whoever<br />
wife<br />
win<br />
withers<br />
woman<br />
worker<br />
year<br />
you<br />
younger_-_who<br />
win 00620486: c2c objektu hautapen-murriztapenak<br />
08534455 0.005 status position "the relative position or standing of…"<br />
09065837 0.003 time_period period period_of_time amount_of_time<br />
08520394 0.002 condition status "a condition or state at a particular time"<br />
08813320 0.002 helium He atomic_number_2<br />
08553594 0.001 war state_of_war "a legal state created by a declaration…"<br />
08562692 0.0009 license licence "freedom to deviate deliberately from…"<br />
08522741 0.0008 situation state_of_affairs "the general state of things…"
09164158 0.0007 playing_period period_of_play play "(in games or plays…)"<br />
08745609 0.0005 opportunity chance "a possibility due to a favorable…"<br />
win 00620486: c2c subjektu hautapen-murriztapenak<br />
08813320 0.157 helium He atomic_number_2<br />
08520394 0.001 condition status "a condition or state at a particular time"<br />
09065837 0.001 time_period period period_of_time amount_of_time<br />
08807415 0.001 metallic_element metal "any of several chemical elements…"<br />
08534455 0.001status position "the relative position or standing of…"<br />
08745609 0.0008 opportunity chance "a possibility due to a favorable…"<br />
08781633 0.0007 material stuff "the tangible substance that goes into the…"<br />
08522741 0.0004 situation state_of_affairs "the general state of things"<br />
08804621 0.0003 group radical "two or more atoms bound together as a…"<br />
C.15.8 w2semf EFEtik<br />
win: w2semf objektu hautapen-murriztapenak<br />
obj x 60<br />
obj military-communication 50<br />
obj number-quantity 34.98 ZUZENA<br />
obj sport-event 34.15 ZUZENA<br />
obj factotum-artifact 18.02<br />
obj sociology-state 16.57<br />
obj sport-state 16.03<br />
obj time_period-time 13.31<br />
obj politics-act 13.17<br />
obj play-act 12.36 ZUZENA<br />
win: w2semf subjektu hautapen-murriztapenak<br />
subj x 297 ONARGARRIA<br />
subj sport-group 33.16 ONARGARRIA<br />
subj geography-location 33<br />
subj administration-location 30.73<br />
subj zoology-group 30<br />
subj administration-group 29.2<br />
subj number-quantity 13.58<br />
subj chemistry-substance 9.5<br />
subj time_period-time 8.94<br />
subj linguistics-communication 8.19<br />
C.15.9 Ondorioak<br />
Objektuak Subjektuak<br />
Iturria Teknika Zuzena Onargarria Eskuratu gabe Zuzena Onargarria Eskuratu<br />
gabe<br />
c2c 7tik 1 7tik 3 3tik 1 4tik 2 0 0<br />
SemCor w2c 10etik 1 10etik 3 3tik 1 5etik 2 0 0<br />
s2semf 10etik 3 10etik 2 4tik 1 0 10etik 1 2tik 2<br />
BNC<br />
w2c<br />
c2c<br />
10etik 1<br />
0<br />
10etik 2<br />
0<br />
0<br />
3tik 3<br />
10etik 1<br />
0<br />
10etik 1<br />
0<br />
0<br />
2tik 2<br />
EFE w2semf 10etik 3 0 0 0 10etik 2 2tik 1<br />
251
252<br />
C.16 irabazi_3<br />
C.16.1 Synseta MCRn<br />
00620486v<br />
competition<br />
DOMEINUAK:<br />
lock 00620486v 7 win_1<br />
lock 00620486v 0 irabazi_3<br />
C.16.2 Urre patroiak<br />
be the winner in a contest or competition;<br />
be victorious; "He won the Gold Medal in<br />
skating"; "Our home team won"<br />
HITZA KATEGORIA SYNSET DOMEINUA<br />
irabazi A 00620486 sport<br />
irabazi 00630097: Absolutiboa (ABSdu)<br />
c2c, w2c:<br />
04771851 competition contest “an occasion on which a winner is selected…”<br />
(hipe. EVENT)<br />
00254052 game “a contest with rules to determine a winner” (hipe. ACTIVITY)<br />
08310444 definite quantity “a specific measure of amount”<br />
w2semf, s2semf:<br />
sport-act<br />
play-act<br />
sport-event<br />
number-quantity<br />
irabazi 00630097: Ergatiboa<br />
c2c, w2c:<br />
00004865 individual someone somebody mortal human soul "a human being"<br />
00017008 group grouping "any number of entities (members) considered as…"<br />
w2semf, s2semf:<br />
person-person<br />
factotum-group
C.16.3 w2semf <strong>Euskal</strong>dunon Egunkaritik<br />
irabazi: hautapen-murriztapenak (kirol domeinuko corpusa) (“-en kontra” ez dago)<br />
abs sport-event 14.86 ZUZENA<br />
abs factotum-act 4.446 ONARGARRIA<br />
abs politics-group 4.057<br />
abs geography-object 3.5<br />
abs number-quantity 3 ZUZENA<br />
abs sociology-group 2.307<br />
abs history-group 2.2<br />
abs anthropology-group 2.2<br />
abs factotum-artifact 2.106<br />
abs sport-group 2.071<br />
erg pro 54 ONARGARRIA<br />
erg x 14 ONARGARRIA<br />
erg psychology-cognition 1<br />
erg number-quantity 1<br />
erg 0 1<br />
erg politics-person 0.911<br />
erg person-person 0.777 ZUZENA<br />
erg theatre-person 0.666<br />
erg history-person 0.6<br />
erg quality-attribute 0.5333<br />
erg geography-location 0.5<br />
ine time_period-time 1.666<br />
ine factotum-state 0.733<br />
ine factotum-event 0.705<br />
ine factotum-location 0.666<br />
ine factotum-act 0.543<br />
ine enterprise-group 0.5<br />
ine sport-time 0.425<br />
ine play-time 0.425<br />
ine factotum-artifact 0.424<br />
ine geography-location 0.4173<br />
ine politics-group 0.373<br />
irabazi.kontuakhitzak.kirola:<br />
abl partidu 1<br />
abl bera 1<br />
abs x 18<br />
abs partidu 11<br />
abs liga 7<br />
abs final 6<br />
abs txapelketa 5<br />
abs etapa 4<br />
abs kopa 3<br />
abs helburu 3<br />
abs portland 3<br />
abs behar 3<br />
abs talde 3<br />
abs itzuli 3<br />
abs txapel 2<br />
abs lasterketa 2<br />
abs bera 2<br />
abs zerbait 2<br />
abs ezer 2<br />
abs san 2<br />
abs korrikalari 1<br />
abs lau 1<br />
abs hamabi 1<br />
abs partida 1<br />
abs bm 1<br />
abs titulu 1<br />
253
254<br />
abs giro 1<br />
abs klasiko 1<br />
abs norgehiagoka 1<br />
abs 0 1<br />
abs gehien 1<br />
abs kanporaketa 1<br />
abs atletismo 1<br />
abs izan 1<br />
abs diru 1<br />
abs entrenatzaile 1<br />
abs osasun 1<br />
abs gu 1<br />
abs bat 1<br />
adb atzo 1<br />
ala talde 1<br />
dat pro 7<br />
dat madril 1<br />
dat koska 1<br />
dat bartzelona 1<br />
dat kantabria 1<br />
dat irudi 1<br />
dat zaragoza 1<br />
dat edonor 1<br />
des talde 1<br />
en_bide joko 2<br />
erg pro 54<br />
erg gorri 2<br />
erg x 2<br />
erg bartzelona 2<br />
erg bakoitz 2<br />
erg beloki 2<br />
erg antonio 2<br />
erg gu 2<br />
erg talde 1<br />
erg ingalaterra 1<br />
irabazi: hautapen-murriztapenak (corpus osoa)<br />
abs x 43<br />
abs sport-event 16.049 ZUZENA<br />
abs politics-act 5.532<br />
abs factotum-act 5.335 ONARGARRIA<br />
abs money-quantity 5<br />
abs number-quantity 5 ZUZENA<br />
abs politics-group 4.923<br />
abs time_period-time 3.9696<br />
abs history-act 3.928<br />
abs military-act 3.611<br />
erg zale 1<br />
erg hura 1<br />
erg 0 1<br />
erg gazta 1<br />
erg ni 1<br />
erg protagonista 1<br />
erg garaiera 1<br />
erg txuri 1<br />
erg bat 1<br />
erg etiopiar 1<br />
ine x 7<br />
ine 0 2<br />
ine itzuli 2<br />
ine zati 2<br />
ine giro 1<br />
ine denboraldi 1<br />
ine lizarra 1<br />
ine gastéis 1<br />
ine hiru 1<br />
ine une 1<br />
ine partidu 1<br />
ine abiapuntu 1<br />
ine azken 1<br />
ine hamalau 1<br />
ine herri 1<br />
ine laurden 1<br />
ine jardunaldi 1<br />
ins bost 1<br />
ins puntu 1<br />
ins merezimendu 1<br />
konp menpekoa 4<br />
soz x 2<br />
soz jokalari 1<br />
soz bara 1<br />
zhg menpekoa 1
erg pro 94 ONARGARRIA<br />
erg x 22 ONARGARRIA<br />
erg politics-person 1.57<br />
erg geography-location 1.5<br />
erg administration-location1.5<br />
erg psychology-cognition 1<br />
erg number-quantity 1<br />
erg 0 1<br />
erg politics-act 1<br />
erg history-person 0.933<br />
ine x 11<br />
ine time_period-time 5.88<br />
ine factotum-act 4.86<br />
ine factotum-artifact 4.18<br />
ine number-quantity 4.18<br />
ine factotum-state 2.66<br />
ine 0 2<br />
ine politics-act 1.75<br />
ine metrology-time 1.32<br />
ine physics-phenomenon 1.04<br />
irabazi.kontuakhitzak.ALL:<br />
abl partidu 1<br />
abl bera 1<br />
abs x 28<br />
abs partidu 11<br />
abs liga 7<br />
abs final 6<br />
abs pezeta 5<br />
abs txapelketa 5<br />
abs gerra 4<br />
abs etapa 4<br />
abs denbora 4<br />
abs kopa 3<br />
abs bataila 3<br />
abs itzuli 3<br />
abs diru 3<br />
abs behar 3<br />
abs helburu 3<br />
abs hauteskunde 3<br />
abs ezer 3<br />
abs talde 3<br />
abs sari 3<br />
abs portland 3<br />
abs zerbait 2<br />
abs beste 2<br />
abs boto 2<br />
abs dirutza 2<br />
abs partida 2<br />
abs txapel 2<br />
abs lasterketa 2<br />
abs sariketa 2<br />
abs bat 2<br />
abs prezio 2<br />
abs bera 2<br />
abs san 2<br />
abs boz 2<br />
abs guduka 1<br />
abs gatazka 1<br />
abs lehia 1<br />
abs bezero 1<br />
abs lehiaketa 1<br />
abs bm 1<br />
abs hiritar 1<br />
abs entrenatzaile 1<br />
abs korrikalari 1<br />
abs izan 1<br />
abs bakar 1<br />
abs 0 1<br />
abs hamabi 1<br />
abs arrazoi 1<br />
abs osasun 1<br />
abs gutxiago 1<br />
abs bozketa 1<br />
abs gehien 1<br />
abs indarkeria 1<br />
abs kanporaketa 1<br />
abs giro 1<br />
abs atletismo 1<br />
abs gu 1<br />
abs jole 1<br />
abs estrategia 1<br />
abs gobernu 1<br />
abs konpainia 1<br />
abs lau 1<br />
abs epaiketa 1<br />
abs titulu 1<br />
abs aska 1<br />
255
256<br />
abs etorkizun 1<br />
abs mozio 1<br />
abs klasiko 1<br />
abs norgehiagoka 1<br />
abs idazkari 1<br />
abs egun 1<br />
abs dabid 1<br />
abs zerrenda 1<br />
adb lehen 1<br />
adb aurki 1<br />
adb atzo 1<br />
ala talde 1<br />
dat pro 7<br />
dat bartzelona 1<br />
dat edonor 1<br />
dat madril 1<br />
dat koska 1<br />
dat abertzale 1<br />
dat irudi 1<br />
dat arazo 1<br />
dat kantabria 1<br />
dat zaragoza 1<br />
denb menpekoa 2<br />
des talde 1<br />
en_bide joko 2<br />
erg pro 94<br />
erg x 5<br />
erg beloki 2<br />
erg banku 2<br />
erg gorri 2<br />
erg bartzelona 2<br />
erg antonio 2<br />
erg gu 2<br />
erg bakoitz 2<br />
erg hauteskunde 1<br />
erg frankista 1<br />
erg talde 1<br />
erg ingalaterra 1<br />
erg zale 1<br />
erg 0 1<br />
erg hura 1<br />
erg upn 1<br />
erg vietnam 1<br />
erg araba 1<br />
erg gazta 1<br />
erg ni 1<br />
erg bat 1<br />
erg zein 1<br />
erg demokrata 1<br />
erg protagonista 1<br />
erg errusia 1<br />
erg gizarte 1<br />
erg txuri 1<br />
erg garaiera 1<br />
erg etiopiar 1<br />
erg iu 1<br />
erg zerbitzu 1<br />
ine lan 11<br />
ine x 7<br />
ine itzuli 3<br />
ine babes 3<br />
ine hamabi 2<br />
ine 0 2<br />
ine araba 2<br />
ine zati 2<br />
ine egun 2<br />
ine urte 2<br />
ine lehiaketa 1<br />
ine abiapuntu 1<br />
ine laurden 1<br />
ine arte 1<br />
ine giro 1<br />
ine denboraldi 1<br />
ine lizarra 1<br />
ine txanda 1<br />
ine biharamun 1<br />
ine gasteiz 1<br />
ine hauteskunde 1<br />
ine hiru 1<br />
ine partidu 1<br />
ine azken 1<br />
ine hamalau 1<br />
ine herri 1<br />
ine aldi 1<br />
ine enkante 1<br />
ine martxo 1<br />
ine peru 1<br />
ine une 1<br />
ine jardunaldi 1<br />
ins bost 1<br />
ins bi 1<br />
ins puntu 1<br />
ins merezimendu 1<br />
kaus menpekoa 1<br />
konp menpekoa 6<br />
soz x 2<br />
soz jarri 1<br />
soz jokalari 1<br />
soz bara 1<br />
z menpekoa 1<br />
zhg menpekoa 1
C.16.4 SemCorreko c2c euskarara itzulita<br />
win 00620486: c2c objektu hautapen-murriztapenak:<br />
04771851 0.101 contest competition "an occasion on which a winner…" ZUZENA<br />
00228990 0.100 activity "any specific activity or pursuit" ONARGARRIA<br />
00017008 0.066 group grouping "any number of entities considered as a unit"<br />
00597858 0.0574 group_action "action taken by a group of people" ONARGARRIA<br />
00018599 0.037 communication "something that is communicated between…"<br />
05450515 0.020 region "a large indefinite location on the surface of the…"<br />
08536246 0.020 championship title "the status of being a…" ONARGARRIA<br />
win 00620486: c2c objektu hautapen-murriztapenak<br />
00017008 0.525 group grouping "any number of entities considered…" ZUZENA<br />
00004865 0.180 person individual someone somebody mortal human soul ZUZENA<br />
03610098 0.052 body_part "any part of an organism such as an organ or…"<br />
00009469 0.048 object physical_object "a physical (tangible and visible)…"<br />
C.16.5 SemCorreko s2semf euskarara itzulita<br />
win 00620486: s2semf obejektu hautapen-murriztapenak<br />
politics-act 2<br />
play-act 1.5 ZUZENA<br />
sport-act 1.5 ZUZENA<br />
free_time-act 1<br />
sport-event 1 ZUZENA<br />
geography-location 1<br />
factotum-act 1 ONARGARRIA<br />
factotum-communication 1<br />
factotum-Tops 1 ONARGARRIA<br />
history-act 0.5<br />
win 00620486: s2semf subjektu hautapen-murriztapenak<br />
factotum-Tops 1 ONARGARRIA<br />
zoology-body 0.5<br />
law-group 0.5<br />
anthropology-Tops 0.5<br />
anatomy-body 0.5<br />
administration-group 0.5<br />
biology-Tops 0.5<br />
geography-location 0.333<br />
history-location 0.333<br />
administration-location 0.333<br />
257
258<br />
C.16.6 EFEko w2semf euskarara itzulita<br />
win: w2semf objektu hautapen-murriztapenak<br />
obj x 60<br />
obj military-communication 50<br />
obj number-quantity 34.98 ZUZENA<br />
obj sport-event 34.15 ZUZENA<br />
obj factotum-artifact 18.02<br />
obj sociology-state 16.57<br />
obj sport-state 16.03<br />
obj time_period-time 13.31<br />
obj politics-act 13.17<br />
obj play-act 12.36 ZUZENA<br />
win: w2semf subjektu hautapen-murriztapenak<br />
subj x 297 ONARGARRIA<br />
subj sport-group 33.16 ONARGARRIA<br />
subj geography-location 33<br />
subj administration-location 30.73<br />
subj zoology-group 30<br />
subj administration-group 29.4<br />
subj number-quantity 13.58<br />
subj chemistry-substance 9.5<br />
subj time_period-time 8.94<br />
subj linguistics-communication 8.19<br />
C.16.7 Ondorioak<br />
Iturria Teknika Kasua Zuzena Onargarria Eskuratu<br />
gabe<br />
Egunkaria<br />
osoa<br />
w2semf<br />
abs<br />
erg<br />
10etik 2<br />
0<br />
10etik 1<br />
10etik 2<br />
0<br />
2tik 2<br />
Egunkaria<br />
kirola<br />
w2semf<br />
abs<br />
erg<br />
10etik 2<br />
10etik 1<br />
10etik 1<br />
10etik 2<br />
0<br />
2tik 1<br />
SemCor<br />
c2c<br />
s2semf<br />
obj<br />
subj<br />
obj<br />
subj<br />
7tik 1<br />
4tik 2<br />
10etik 3<br />
0<br />
7tik 3<br />
0<br />
10etik 2<br />
10etik 1<br />
3tik 1<br />
0<br />
4tik 1<br />
2tik 2<br />
EFE kirola w2semf<br />
obj<br />
subj<br />
10etik 3<br />
0<br />
0<br />
10etik 2<br />
0<br />
2tik 1