NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
har et DDK-nummer. Fra siffergruppene i DDK beholdes første gruppe på<br />
tre siffer for videre analyse 3 . Totalt gir det 750 tresifferkombinasjoner av<br />
emneklassifikasjoner for enkeltverk.<br />
INNHOLDSORD FRA DIGITALISERTE VERK<br />
Verkene er telt opp på ord slik at hvert ord kobles til DDK-nummeret for verket.<br />
Ordene innenfor en og samme verk blir derfor, på en måte, dissosiert fra<br />
hverandre, og i stedet knyttet sammen med klassifikasjonen. Dermed kan ord<br />
fra forskjellige bøker relateres til hverandre ved at de faller inn under samme<br />
DDK-nummer. Samme ord kan kombineres med flere klassifikasjonskoder.<br />
Resultatet av prosessen er en database over kombinasjoner av DDK og<br />
ord der frekvensen angir hvor ofte DDK-nummeret forekommer med det<br />
aktuelle ordet. Her illustrert med ordene egg og kano for DDK 200 religion)<br />
og 759 (historie, geografisk behandling og biografier innen malerkunst),<br />
så egg forekommer 215 ganger i bøker klassifisert som religion, og kano<br />
forekommer 17 ganger i 759.<br />
Tabell 1 Samforekomster mellom DDK-numre og innholdsord<br />
Frekvens DDK Ord<br />
215 200 egg<br />
200 759 egg<br />
17 759 kano<br />
6 200 kvinner<br />
For enkelhets skyld er det ikke tatt hensyn til flerordsuttrykk, som for eksempel<br />
den medisinske termen cystisk fibrose, eller fagtermer med ordet syndrom<br />
i seg. I en fullstendig analyse vil den type uttrykk ha en naturlig plass. Det er<br />
heller ikke foretatt noen automatisk grammatikalsk analyse av ordene, som<br />
inndeling i ordklasser eller lemmatisering 4 . I diskusjonen nedenfor gjøres<br />
det manuelt i hvert enkelt tilfelle.<br />
STATISTIKK<br />
Målet med den statistiske analysen er å finne meningsfulle innholdsord fra<br />
samlingen. For desimalgruppen DDK 799 (fiske, jakt, skyttersport), er det ca.<br />
45 000 ordformer med frekvens over 20. Av disse skal vi hente ut et tyvetalls<br />
ord og sammenligne med frekvente emneord.<br />
3 Desimalkombinasjonen 839.609 bidrar derfor kun med hovedgruppen 839 (norsk<br />
skjønnlitteratur)<br />
4 Lemmatisering – erstatte et bøyd ord med dets stamme.<br />
66