NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Statistikken gir et mål på variasjon i materialet. Ikke alle ord er likt fordelt<br />
på de forskjellige DDK-numre. De ordene som er typiske for en klassifikasjonskode<br />
antas å klumpe seg sammen under denne, og muligens også<br />
grupperes under forskjellige klassifikasjonskoder i varierende grad. For<br />
innholdsord er det viktig å ta med et slikt mål da ren frekvenstelling (relativ<br />
eller absolutt) ikke duger. Høyfrekvente ord som og, en og på 5 er jevnt fordelt<br />
over kategorier, og kan derfor neppe sies å være assosiert med en eller annen<br />
kategori: de tilhører alle grupper. De topp femti ordene i norsk er gjerne de<br />
samme på tvers av klassifikasjonskoder.<br />
Det kan likevel være interessant å se på variasjonen i høyfrekvente ord, da<br />
den innbyrdes fordelingen mellom dem kan være bærer av informasjon.<br />
Enkelte grupper kan ha mer enn andre. Det er en forskjell i ratioen mellom<br />
preposisjonen i og konjunksjonen og på tvers av klassifikasjonskodene 6 .<br />
Ser vi på frekvensfordelingen (relativ frekvens) av ordet smør i figur 1, er det<br />
to klare topper, en for DDK 641 (mat og drikke) og en for DDK 336 (offentlige<br />
finanser). Visuelt er det lett å se hvilke klassifikasjoner smør tilhører.<br />
Figur 1 Relativ frekvens for smør over DDK<br />
Et kvantitativt mål for den type distribusjon får vi i såkalt PMI (Pointwise<br />
Mutual Information, ett av flere mål på samvariasjon) 7 for DDK og<br />
innholdsordet. I korthet beregnes PMI for frekvensdata ved å se på den<br />
predikerte samforekomsten med den faktiske, slik at ord som klumper seg<br />
5 Også kjent som stoppord i søkemotorer.<br />
6 I snitt er det 1.3 ganger så mange og som i med et standardavvik på 0.3. Flere<br />
frekvenslister innenfor forskjellige DDK har over dobbelt så mange og som i, noe som er<br />
over 2 ganger standardavviket.<br />
7 Kenneth Ward Church og Patrick Hanks (1990). «Word association norms, mutual<br />
information, and lexicography”. Computational Linguistics 16 (1): 22–29.<br />
67