NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
FORSKNING VED ABI<br />
I det følgende gjøres det kort rede for pågående forskning ved ABI. Redegjørelsene<br />
knytter an til det nokså ferske doktorgradsprogrammet ved instituttet<br />
og til aktiviteten ved én av de etablerte forskningsgruppene.<br />
DOKTORGRADSFORSKNING<br />
Ved doktorgradsprogrammet kan flere av studentene skilte med problemstillinger<br />
relatert til kunnskapsorganisasjon. Tre av disse inngår i det såkalte<br />
TORCH-prosjektet (Transforming organization and retrieval in cultural<br />
heritage) som bygger på et samarbeid med NRK om analyser og (automatiserte)<br />
bearbeidelser av metadata.<br />
Innenfor prosjektet utforsker Anne-Stine Husevåg nytteverdien av å ekstrahere<br />
egennavn fra naturlig språk i semi-strukturerte NRK-metadata. Hun<br />
studerer både bruken av og relasjonene mellom egennavn med tanke på<br />
rangering for indeksering og gjenfinning.<br />
David Massey arbeider med bruk og evaluering av automatiske metoder for<br />
informasjonsuttrekk (information extraction). Han jobber mot det samme<br />
semi-strukturerte NRK-materialet som Husevåg, med fokus på algoritmer<br />
for navnegjenkjenning, kategorisering og disambiguering av entiteter som<br />
personer, steder og kulturelle produkter. Undersøkelser av hvorvidt eksterne<br />
datakilder som Wikipedia, språkdata og bibliotekkataloger kan brukes til å<br />
forbedre disse algoritmene står sentralt i arbeidet.<br />
Undertegnede jobber også i siste instans med data fra NRK og resultatene<br />
av Massey og Husevågs (strukturerings)arbeider, men tar utgangspunkt i de<br />
mange nye standardene som for tiden utvikles for bibliografiske data. Her<br />
evalueres i hovedsak interoperabilitetseffekter ved å bruke såkalte semantiske<br />
teknologier og prinsipper for lenkede data. Et av evaluerings-casene<br />
baserer seg på et korpus av bibliografiske poster (i NORMARC-format) som<br />
transformeres til et utvalg standarder og videre lenkes til NRK-data. Et annet<br />
case undersøker gjenfinning på tvers av museums- og bibliotekdata, mens<br />
et tredje case etter planen skal omhandle hvordan de nye standardene blir<br />
mottatt i ulike utviklermiljøer.<br />
TORCH-prosjektene baserer seg delvis på eksperimentelle metoder og vil<br />
benytte en felles infrastruktur for evaluering. I den anledning utvikles det<br />
et annoteringsverktøy som skal brukes til å utarbeide fasiter for mappinger,<br />
136