13.01.2015 Views

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

NB-BibliothecaNova 0414nett

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

sammen under en kode vil gi høy score, mens ord som fordeler seg jevnt over<br />

kodespekteret vil gi lav score.<br />

Logikken bak PMI prøve å fange inn egenskapene til visualiseringen i figur<br />

1. Det er fire størrelser som inngår når vi tar for oss et ord og en kode i en<br />

samling:<br />

1. Størrelsen på hele samlingen (T)<br />

2. Antall forekomster O for det aktuelle ordet i hele samlingen<br />

3. D, som er det totale antall ord i tekstene som er klassifisert med det<br />

aktuelle DDK-nummeret.<br />

4. Antallet ganger ordet forekommer i tekster med koden, OD, som utgjør<br />

samforekomsten mellom kode og ord.<br />

Den relative frekvensen for et gitt ord blir O/T, og den predikerte samforekomsten<br />

av ordet med DDK, blir da P = D*O/T, altså at ordet er jevnt<br />

fordelt over delgruppene av materialet. Det betyr at om et ord har en relativ<br />

frekvens på 0,005 % (smør ligger litt i underkant) i materialet, og koden<br />

forekommer 200 000 ganger, kan man forvente at ordet skulle forekomme<br />

200000*0.00005 = 10 ganger under den klassifikasjonen. Målet for hvor<br />

nært ordet henger sammen med klassifikasjonskoden fås ved å dividere den<br />

faktiske forekomsten OD på den forventede, OD/P. PMI for frekvensdata<br />

defineres gjennom å ta logaritmen av den ratioen: PMI = log(DO/P). Den<br />

størrelsen kan benyttes til å sammenligne ord innenfor en gitt klassifikasjonskode,<br />

i tillegg til å finne beste klassifikasjon for et gitt ord.<br />

Statistiske mål vil ikke uten videre plukke ut gode semantiske ord, ord som er<br />

relatert til emnet, da det kan være forskjellige grunner til at ord klumper seg<br />

rundt en spesifikk DDK. Det kan være idiosynkratiske skrivemåter for en forfatter,<br />

og et ord kan brukes sjelden. Et ord kan tilhøre en lite brukt skriftnorm som<br />

for eksempel former innenfor radikalt bokmål (e.g. flertallsformene morfemene<br />

vs. morfema). Selv om slike ord kan fungere som markører for klassifikasjonen<br />

trenger de ikke ha de semantiske egenskapene man er ute etter.<br />

Innholdsordene bør ha en viss utbredelse innenfor koden. For å unngå at<br />

lavfrekvente ord dominerer, vektes PMI med et mål på spredningen av ordet.<br />

Vår kandidat er å vekte PMI med kvadratroten av frekvensen til samvariasjonen.<br />

Mens PMI måler hvor sterkt ordet er knyttet til klassifikasjonskoden vil<br />

kvadratroten av frekvensen gi et mål på spredningen, samtidig som høyfrekvente<br />

ord ikke får så stor vekt. For å hindre at spesielt særegne ord blander<br />

68

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!