13.01.2015 Views

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

• Finn opptak av andregenerasjons norskamerikanere utvandret fra Sørlandet<br />

som snakker norsk.<br />

• Finn parallellkorpus på nynorsk og engelsk hvor annotering er utført<br />

manuelt (av mennesker)<br />

• Finn opptak av tenåringsjenter som snakker et annet språk enn morsmålet<br />

sitt<br />

• Finn alle termressurser hvor noen av de samiske språkene er representert<br />

Det er flere metadataformater i bruk for å beskrive språkressurser, men alle<br />

med sin slagside. Etter vurdering av alle brukte/relevante formater ble det<br />

i CLARIN besluttet å gå en annen vei. I stedet for et fast metadataformat,<br />

ble det utviklet rammeverk for utvikling og deling av komponentbaserte<br />

metadataformater, kalt CMDI 8 , 9 (uttales «simdi»).<br />

CMDI DELER METADATA INN I KOMPONENTER<br />

Tre kjernebegrep er viktig for å forstå CMDI-rammeverket:<br />

Profil: Det vi kan tenke på som et fullt metadataformat; en profil skal kunne<br />

brukes som skjema for å beskrive alle ønskede aspekter av de språkressurser<br />

det er designet for. Et eksempel er SpeechCorpusProfile 10 for beskrivelse av<br />

talekorpus. Profiler bygges opp av komponenter og/eller elementer.<br />

Komponent: Et sett med opplysninger som til sammen beskriver et aspekt<br />

ved, deler av eller en tilknyttet entitet til språkressursen. Komponenter kan<br />

bestå av andre komponenter og elementer. Et eksempel er contakctPerson,<br />

som representerer ressursens kontaktperson, og inneholder felter (elementer)<br />

for for- og etternavn, epost, telefon, etc.<br />

Element: Det vi kan tenke på som et metadatafelt, en atomisk egenskap.<br />

Elementer som ligger på profilnivå (direkte i profilen, ikke i en underliggende<br />

komponent), representerer typisk egenskaper ved ressursen som helhet,<br />

mens et element /felt i en komponent dypere i strukturen representerer en<br />

egenskap ved entiteten som omliggende komponent beskriver. Eksempelvis<br />

vil elementet etternavn i eksemplet over beskrive en egenskap ved kontaktperson,<br />

ikke ved språkressursen som sådan.<br />

8 Component MetaData Infrastructure: http://www.clarin.eu/content/<br />

component-metadata<br />

9 Broeder, D., O. Schonefeld, et al. (2011). A pragmatic approach to XML interoperability<br />

– the Component Metadata Infrastructure (CMDI). . doi:. Balisage: The Markup<br />

Conference. . Montréal, Canada, Balisage Series on Markup Technologies. 7<br />

10 http://catalog.clarin.eu/ds/ComponentRegistryitem=clarin.eu:cr1:p_1271859438166<br />

77

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!