13.01.2015 Views

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

har et DDK-nummer. Fra siffergruppene i DDK beholdes første gruppe på<br />

tre siffer for videre analyse 3 . Totalt gir det 750 tresifferkombinasjoner av<br />

emneklassifikasjoner for enkeltverk.<br />

INNHOLDSORD FRA DIGITALISERTE VERK<br />

Verkene er telt opp på ord slik at hvert ord kobles til DDK-nummeret for verket.<br />

Ordene innenfor en og samme verk blir derfor, på en måte, dissosiert fra<br />

hverandre, og i stedet knyttet sammen med klassifikasjonen. Dermed kan ord<br />

fra forskjellige bøker relateres til hverandre ved at de faller inn under samme<br />

DDK-nummer. Samme ord kan kombineres med flere klassifikasjonskoder.<br />

Resultatet av prosessen er en database over kombinasjoner av DDK og<br />

ord der frekvensen angir hvor ofte DDK-nummeret forekommer med det<br />

aktuelle ordet. Her illustrert med ordene egg og kano for DDK 200 religion)<br />

og 759 (historie, geografisk behandling og biografier innen malerkunst),<br />

så egg forekommer 215 ganger i bøker klassifisert som religion, og kano<br />

forekommer 17 ganger i 759.<br />

Tabell 1 Samforekomster mellom DDK-numre og innholdsord<br />

Frekvens DDK Ord<br />

215 200 egg<br />

200 759 egg<br />

17 759 kano<br />

6 200 kvinner<br />

For enkelhets skyld er det ikke tatt hensyn til flerordsuttrykk, som for eksempel<br />

den medisinske termen cystisk fibrose, eller fagtermer med ordet syndrom<br />

i seg. I en fullstendig analyse vil den type uttrykk ha en naturlig plass. Det er<br />

heller ikke foretatt noen automatisk grammatikalsk analyse av ordene, som<br />

inndeling i ordklasser eller lemmatisering 4 . I diskusjonen nedenfor gjøres<br />

det manuelt i hvert enkelt tilfelle.<br />

STATISTIKK<br />

Målet med den statistiske analysen er å finne meningsfulle innholdsord fra<br />

samlingen. For desimalgruppen DDK 799 (fiske, jakt, skyttersport), er det ca.<br />

45 000 ordformer med frekvens over 20. Av disse skal vi hente ut et tyvetalls<br />

ord og sammenligne med frekvente emneord.<br />

3 Desimalkombinasjonen 839.609 bidrar derfor kun med hovedgruppen 839 (norsk<br />

skjønnlitteratur)<br />

4 Lemmatisering – erstatte et bøyd ord med dets stamme.<br />

66

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!