10.04.2013 Views

Unni Cathrine Eiken February 2005

Unni Cathrine Eiken February 2005

Unni Cathrine Eiken February 2005

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Abstract<br />

This thesis describes an approach of using corpus-based classification of semantically<br />

related words as a referent-guessing helper in anaphora resolution. A small limiteddomain<br />

corpus was collected and using a method based on semantic structures available<br />

from syntactic parses of the texts, elementary predicate-argument structures were<br />

extracted from it. The extracted structures were processed using an association technique<br />

which created bundles of semantically similar words based on their distribution in the text<br />

collection. The groups of semantically similar words represent valid selectional<br />

restrictions for the domain of the text collection in the sense that they characterise types<br />

of arguments which tend to occur in certain contexts. These groups can be used to create<br />

an expectation of which words to expect in a given contextual pattern, and thus be used in<br />

anaphora resolution to select a probable referent from a set of possible referents. The<br />

experiments in the thesis show that this approach produces promising results; the concept<br />

groups can function as a helper to find likely referents in anaphora resolution.<br />

Sammendrag<br />

Metoden som beskrives i denne hovedoppgaven bygger på korpusbasert klassifikasjon av<br />

semantisk like ord og relaterer dette til bruk innenfor anaforresolusjon. Et<br />

domenespesifikt korpus ble samlet, og forenklede predikat-argumentstrukturer ble<br />

ekstrahert ved hjelp av en metode basert på semantiske strukturer som er tilgjengelige<br />

etter en syntaktisk analyse av tekstene. Strukturene ble prosessert med en<br />

assosiasjonsteknikk som, basert på ordenes distribusjon i tekstsamlingen, dannet<br />

grupperinger av semantisk like ord. Disse ordgruppene representerer gyldige<br />

seleksjonsrestriksjoner innenfor tekstsamlingens avgrensede domene da de karakteriserer<br />

grupper av argumenter som forekommer i gitte kontekster. Ordgruppene kan brukes til å<br />

gi en indikasjon på hvilke ord som forventes i et gitt kontekstmønster. Ved<br />

anaforresolusjon kan dette være til hjelp ved utvelgelsen av en sannsynlig referent fra en<br />

liste med mulige referenter. Eksperimentene i oppgaven viser at denne metoden gir<br />

lovende resultater; ordgruppene kan fungere som et hjelpemiddel i prosessen med å finne<br />

sannsynlige referenter i anaforresolusjon.<br />

i

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!