NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
NB-BibliothecaNova 0414nett
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
sammen under en kode vil gi høy score, mens ord som fordeler seg jevnt over<br />
kodespekteret vil gi lav score.<br />
Logikken bak PMI prøve å fange inn egenskapene til visualiseringen i figur<br />
1. Det er fire størrelser som inngår når vi tar for oss et ord og en kode i en<br />
samling:<br />
1. Størrelsen på hele samlingen (T)<br />
2. Antall forekomster O for det aktuelle ordet i hele samlingen<br />
3. D, som er det totale antall ord i tekstene som er klassifisert med det<br />
aktuelle DDK-nummeret.<br />
4. Antallet ganger ordet forekommer i tekster med koden, OD, som utgjør<br />
samforekomsten mellom kode og ord.<br />
Den relative frekvensen for et gitt ord blir O/T, og den predikerte samforekomsten<br />
av ordet med DDK, blir da P = D*O/T, altså at ordet er jevnt<br />
fordelt over delgruppene av materialet. Det betyr at om et ord har en relativ<br />
frekvens på 0,005 % (smør ligger litt i underkant) i materialet, og koden<br />
forekommer 200 000 ganger, kan man forvente at ordet skulle forekomme<br />
200000*0.00005 = 10 ganger under den klassifikasjonen. Målet for hvor<br />
nært ordet henger sammen med klassifikasjonskoden fås ved å dividere den<br />
faktiske forekomsten OD på den forventede, OD/P. PMI for frekvensdata<br />
defineres gjennom å ta logaritmen av den ratioen: PMI = log(DO/P). Den<br />
størrelsen kan benyttes til å sammenligne ord innenfor en gitt klassifikasjonskode,<br />
i tillegg til å finne beste klassifikasjon for et gitt ord.<br />
Statistiske mål vil ikke uten videre plukke ut gode semantiske ord, ord som er<br />
relatert til emnet, da det kan være forskjellige grunner til at ord klumper seg<br />
rundt en spesifikk DDK. Det kan være idiosynkratiske skrivemåter for en forfatter,<br />
og et ord kan brukes sjelden. Et ord kan tilhøre en lite brukt skriftnorm som<br />
for eksempel former innenfor radikalt bokmål (e.g. flertallsformene morfemene<br />
vs. morfema). Selv om slike ord kan fungere som markører for klassifikasjonen<br />
trenger de ikke ha de semantiske egenskapene man er ute etter.<br />
Innholdsordene bør ha en viss utbredelse innenfor koden. For å unngå at<br />
lavfrekvente ord dominerer, vektes PMI med et mål på spredningen av ordet.<br />
Vår kandidat er å vekte PMI med kvadratroten av frekvensen til samvariasjonen.<br />
Mens PMI måler hvor sterkt ordet er knyttet til klassifikasjonskoden vil<br />
kvadratroten av frekvensen gi et mål på spredningen, samtidig som høyfrekvente<br />
ord ikke får så stor vekt. For å hindre at spesielt særegne ord blander<br />
68