Unni Cathrine Eiken February 2005
Unni Cathrine Eiken February 2005
Unni Cathrine Eiken February 2005
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Abstract<br />
This thesis describes an approach of using corpus-based classification of semantically<br />
related words as a referent-guessing helper in anaphora resolution. A small limiteddomain<br />
corpus was collected and using a method based on semantic structures available<br />
from syntactic parses of the texts, elementary predicate-argument structures were<br />
extracted from it. The extracted structures were processed using an association technique<br />
which created bundles of semantically similar words based on their distribution in the text<br />
collection. The groups of semantically similar words represent valid selectional<br />
restrictions for the domain of the text collection in the sense that they characterise types<br />
of arguments which tend to occur in certain contexts. These groups can be used to create<br />
an expectation of which words to expect in a given contextual pattern, and thus be used in<br />
anaphora resolution to select a probable referent from a set of possible referents. The<br />
experiments in the thesis show that this approach produces promising results; the concept<br />
groups can function as a helper to find likely referents in anaphora resolution.<br />
Sammendrag<br />
Metoden som beskrives i denne hovedoppgaven bygger på korpusbasert klassifikasjon av<br />
semantisk like ord og relaterer dette til bruk innenfor anaforresolusjon. Et<br />
domenespesifikt korpus ble samlet, og forenklede predikat-argumentstrukturer ble<br />
ekstrahert ved hjelp av en metode basert på semantiske strukturer som er tilgjengelige<br />
etter en syntaktisk analyse av tekstene. Strukturene ble prosessert med en<br />
assosiasjonsteknikk som, basert på ordenes distribusjon i tekstsamlingen, dannet<br />
grupperinger av semantisk like ord. Disse ordgruppene representerer gyldige<br />
seleksjonsrestriksjoner innenfor tekstsamlingens avgrensede domene da de karakteriserer<br />
grupper av argumenter som forekommer i gitte kontekster. Ordgruppene kan brukes til å<br />
gi en indikasjon på hvilke ord som forventes i et gitt kontekstmønster. Ved<br />
anaforresolusjon kan dette være til hjelp ved utvelgelsen av en sannsynlig referent fra en<br />
liste med mulige referenter. Eksperimentene i oppgaven viser at denne metoden gir<br />
lovende resultater; ordgruppene kan fungere som et hjelpemiddel i prosessen med å finne<br />
sannsynlige referenter i anaforresolusjon.<br />
i