13.01.2015 Views

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Emneord vil typisk være mer generelle enn innholdsord. I<br />

indekseringen av en bok kan ordene kunst og skulpturer benyttes<br />

som beskrivende emneord, mens boken selv handler om<br />

spesifikke figurer i Vigelandsparken, eller om Vigeland selv.<br />

Innholdsord vil typisk være lavere plassert i et semantisk<br />

hierarki enn det emneordene er, gjerne som semantiske rammer<br />

for flere aktører eller objekter; Vigeland er en aktør som<br />

lager skulpturer. Andre relasjoner mellom innhold og emne<br />

kan være i taksonomiske hierarkier som forholdet mellom<br />

Lars G. Johnsen,<br />

egg og næringsmiddel, men også der emneordene er knyttet<br />

forskningsbibliotekar,<br />

til begrepet matlaging som komponenter. Begrepet setter opp Nasjonalbiblioteket.<br />

en ramme der objekter som melk, mel og salt inngår, mens Foto: Nasjonalbiblioteket<br />

begrepet religion setter opp en ramme for relasjoner mellom gud, profeter<br />

og frelse, samtidig som det står i et taksonomisk forhold til kristendom og<br />

hinduisme, for å nevne noe.<br />

En metode som skal foreslå typiske innholdsord fra en tekst, bør kunne<br />

relatere forslagene enten taksonomisk eller via de semantiske rammene for<br />

emneordene i den klassifiserte teksten.<br />

De digitaliserte tekstene er gjort maskinlesbare via OCR-behandling 2 , og<br />

er derfor tilgjengelig for ordtelling. Datagrunnlaget er Nasjonalbibliotekets<br />

samling av digitaliserte bøker som har fått en Deweyklassifikasjon (heretter<br />

DDK – Deweys desimalklassifikasjon).<br />

Informasjonen som skal eskes ut er bøkenes implisitte informasjon om forholdet<br />

mellom innholdsord, klassifikasjonskode (Dewey) og emneord. Ordene<br />

i en klassifisert bok vil være indirekte koblet til bokens klassifikasjonskode;<br />

vi kan si at ordene arver klassifikasjonen fra boken de står i. Altså, et ord er<br />

koblet til en spesifikk klassifikasjonskode når boken det står i er slik koblet.<br />

DATAINNSAMLING<br />

De to hovedgruppene, emneord og innholdsord, er hentet ut fra BIBSYS og<br />

fra bokhyllamaterialet, henholdsvis. Titlene er fra en liste over digitalisert<br />

materiale frem til 2013. Fra disse velges bokmåls- og nynorsktekster, og<br />

kun de som er entydig klassifisert som bokmål eller nynorsk; flerspråklige<br />

verk er ikke tatt med. Totalt utgjør det ca. 240 000 titler, hvorav ca. 144 000<br />

2 OCR (Optical Character Recognition) – gjenkjenning av bokstaver og ord fra bilder av<br />

skrift.<br />

65

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!