13.01.2015 Views

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Statistikken gir et mål på variasjon i materialet. Ikke alle ord er likt fordelt<br />

på de forskjellige DDK-numre. De ordene som er typiske for en klassifikasjonskode<br />

antas å klumpe seg sammen under denne, og muligens også<br />

grupperes under forskjellige klassifikasjonskoder i varierende grad. For<br />

innholdsord er det viktig å ta med et slikt mål da ren frekvenstelling (relativ<br />

eller absolutt) ikke duger. Høyfrekvente ord som og, en og på 5 er jevnt fordelt<br />

over kategorier, og kan derfor neppe sies å være assosiert med en eller annen<br />

kategori: de tilhører alle grupper. De topp femti ordene i norsk er gjerne de<br />

samme på tvers av klassifikasjonskoder.<br />

Det kan likevel være interessant å se på variasjonen i høyfrekvente ord, da<br />

den innbyrdes fordelingen mellom dem kan være bærer av informasjon.<br />

Enkelte grupper kan ha mer enn andre. Det er en forskjell i ratioen mellom<br />

preposisjonen i og konjunksjonen og på tvers av klassifikasjonskodene 6 .<br />

Ser vi på frekvensfordelingen (relativ frekvens) av ordet smør i figur 1, er det<br />

to klare topper, en for DDK 641 (mat og drikke) og en for DDK 336 (offentlige<br />

finanser). Visuelt er det lett å se hvilke klassifikasjoner smør tilhører.<br />

Figur 1 Relativ frekvens for smør over DDK<br />

Et kvantitativt mål for den type distribusjon får vi i såkalt PMI (Pointwise<br />

Mutual Information, ett av flere mål på samvariasjon) 7 for DDK og<br />

innholdsordet. I korthet beregnes PMI for frekvensdata ved å se på den<br />

predikerte samforekomsten med den faktiske, slik at ord som klumper seg<br />

5 Også kjent som stoppord i søkemotorer.<br />

6 I snitt er det 1.3 ganger så mange og som i med et standardavvik på 0.3. Flere<br />

frekvenslister innenfor forskjellige DDK har over dobbelt så mange og som i, noe som er<br />

over 2 ganger standardavviket.<br />

7 Kenneth Ward Church og Patrick Hanks (1990). «Word association norms, mutual<br />

information, and lexicography”. Computational Linguistics 16 (1): 22–29.<br />

67

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!