13.01.2015 Views

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

svært ressurskrevende å utvikle. Det har derfor lenge vært forsøkt å finne<br />

metoder og insentiver for å fremme gjenbruk av datasettene. Det er flere<br />

hindringer i veien:<br />

• Å tilrettelegge sine data for gjenbruk krever betydelig arbeid ut over det<br />

man trenger til eget bruk, og med mindre det er satt av tid og penger til<br />

dette, blir det ofte vanskelig å få til.<br />

• I akademia er det tradisjonelt bare publikasjoner som er meritterende.<br />

Man stiger ikke i gradene ved å legge til rette for andres forskning!<br />

CLARIN/CLARINO er ett av mange initiativer som adresserer dette ved<br />

å beskrive ressursene med metadata og dermed gjøre dem tilgjengelige og<br />

ikke minst sitérbare.<br />

METADATA FOR DATA<br />

Som beskrevet ovenfor, utgjør språkressurser langt fra noen ensartet gruppe<br />

datasett. Det samme gjelder for så vidt dokumenter, men når slike skal beskrives<br />

kan vi støtte oss på en hundreårig bibliotektradisjon, og velprøvde – om<br />

enn omdiskuterte – metadataformater som etter hvert også har tatt inn over<br />

seg dokumenter på nye medier og innhold distribuert på nye måter.<br />

Hvilke metadata som trengs for språkressurser er i utgangspunktet mindre<br />

avklart. Språkressurser er forskningsdata, og primærmålgruppen er forskere<br />

og utviklere, men også dette er en sammensatt gruppe. Utviklere av språkteknologiske<br />

løsninger (f.eks. talegjenkjenning, syntetisk tale, automatisk<br />

oversettelse), edisjonsfilologer, lingvister, datalingvister, historikere og<br />

samfunnsvitere kan ha svært ulike behov, både når det gjelder metadata og<br />

tilrettelegging av rådataene. Videre bør det tas høyde for en bredere sammensatt<br />

brukergruppe i framtida. Når ressursene og analyseverktøyene blir<br />

lettere tilgjengelige, kan det ligge til rette for bruk både i skolen og av den<br />

«interesserte allmennhet».<br />

Likevel, metadata har samme funksjon for språkressurser som for andre<br />

informasjonsressurser – de skal beskrive ressursen slik at den enkelt kan<br />

gjenfinnes, og ikke minst må metadata inkludere alle opplysninger som er<br />

nødvendig for å avgjøre om dette er en brukbar ressurs i den foreliggende<br />

situasjon. Her er noen eksempler på behov en bruker kan ha:<br />

• Finn språkressurser av alle typer, som er laget med tanke på meningsekstraksjon<br />

(opinion mining), men bare slike som tillater kommersiell bruk<br />

76

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!