13.01.2015 Views

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Hvert medlem må danne et nasjonalt konsortium, som i sin tur har ansvar<br />

for å bygge opp en CLARIN-senter-struktur i sitt land. CLARIN-sentrene<br />

skal inngå i den felles infrastrukturen og yte tjenester til fellesskapet, typisk<br />

ved å eksponere vel dokumenterte og tilrettelagte språkressurser i den felles<br />

infrastrukturen, eller ved å tilby spesielle infrastrukturtjenester som PID 3 -<br />

tjeneste, lagringsfasiliteter o.a.<br />

Det nasjonale konsortiet i Norge kalles CLARINO 4 og er foreløpig et prosjekt<br />

støttet gjennom NFR-programmet INFRASTRUKTUR 5 . Deltakerne<br />

omfatter universitetene i Oslo, Bergen (koordinator), Trondheim og Tromsø,<br />

Handelshøgskolen i Bergen, Uni Research AS, UNINETT og Nasjonalbiblioteket.<br />

Nasjonalbibliotekets oppgaver er å<br />

• tilby infrastrukturtjenester som<br />

– et nasjonalt metadataregister over de norske ressursene, med OAI/<br />

PMH-endepunkt slik at dataene kan høstes av andre. I dette ligger<br />

også å etablere hensiktsmessige metadataformater for beskrivelse av<br />

språkressursene, samt å støtte de andre partnerne i å lage gode metadata<br />

for sine ressurser.<br />

– langtidslagring for språkressursene i CLARINO<br />

– en PID-tjeneste<br />

• inkludere Språkbankens ressurser og beskrive disse med hensiktsmessige<br />

metadata i henhold til de formater som anbefales i CLARINO<br />

I denne artikkelen fokuserer vi på håndteringen av metadata og utarbeidelsen<br />

av metadataformatene som kan brukes til å beskrive språkressursene. Da må<br />

vi først si litt om hvilke typer data språkressurser egentlig er, dernest gjøre<br />

rede for teknologien som skal ligge til grunn for metadataene og metadataformatene<br />

utviklet i CLARINO.<br />

SPRÅKRESSURSER – HVA ER DET EGENTLIG<br />

Språkdata/språkressurser utgjør et mangslungent landskap. Det kan omfatte<br />

digitale eller digitaliserte tekster, lyd- og videoopptak med transkripsjoner,<br />

ordbøker og konkordanser, historiske arkiver og datasett fra reaksjonstidsmålinger,<br />

dataverktøy for å analysere eller manipulere dataene regnes i seg<br />

selv som språkressurser.<br />

3 Persistent Identifiers, se http://www.clarin.eu/content/persistent-identifiers<br />

4 https://clarin.b.uib.no/<br />

5 http://www.forskningsradet.no/prognett-infrastruktur/Forside/1224697900450<br />

74

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!