NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Dataene kan være rå data eller bearbeidet ved koding eller annotering.<br />
Det verserer mange måter å kategorisere språkressurser på, men nedenstående<br />
er kategorier de fleste språkforskere har et forhold til:<br />
• Korpus: Et korpus er en samling av brukt språk avgrenset/karakterisert på<br />
ulikt vis, for eksempel ved språk, medietype, språksituasjon, organisering,<br />
modalitet etc. Eksempler på slike er<br />
– Akustisk-fonetisk taledatabase for norsk – versjon 1.0 som inneholder<br />
innleste setninger på norsk, lest inn av personer med ulike dialekter.<br />
annotert på ord og fonemnivå (Språkbanken)<br />
– Nordisk dialektkorpus: talespråkskorpus med norske, svenske, danske,<br />
islandske og færøyske dialekter (Universitetet i Oslo)<br />
– Norsk dependenstrebank – Trebanker er tekstkorpus som er annotert<br />
syntaktisk og eventuelt morfologisk, og således danner syntakstrær.<br />
Norsk dependenstrebank består av to deler, en for nynorsk og en for<br />
bokmål. (Språkbanken)<br />
– Menota – Arkiv for nordiske middelaldertekster 6 : Inneholder digitaliserte<br />
middelaldertekster, kodet i henhold til TEI-standarden (Universitetet<br />
i Oslo)<br />
• Leksikalske og konseptuelle ressurser: Dette er typisk samlinger av ord/<br />
begreper som er beskrevet på en strukturert måte, som ordbøker, leksika,<br />
terminologier, ontologier, tesauri, ordnett, etc. Eksempel:<br />
– Sametingets termsamling<br />
– Norsk ordnett<br />
– Frekvensordlister (1-grammer) basert på Norsk Aviskorpus til og med 2011.<br />
• Verktøy og tjenester: Dette er applikasjoner, webservices etc utviklet for<br />
å analysere, bearbeide eller beskrive språkressurser på et eller annet vis,<br />
for eksempel stemmere, automatiske annotasjonsverktøy, søketjenester<br />
i korpus, rammeverk som organiserer andre verktøy i en arbeidsflyt, etc<br />
Eksempel:<br />
– Søkeverktøyet Glossa 7<br />
Mange språkressurser er komplekse data som er skapt i forskningsprosjekter<br />
og for spesielle formål, og i likhet med andre typer forskningsdata er de ofte<br />
6 http://www.menota.org/tekstarkiv.xml<br />
7 http://www.hf.uio.no/iln/tjenester/kunnskap/sprak/glossa/<br />
75