NB-BibliothecaNova 0414nett

Recommendations

Info

sammen under en kode vil gi høy score, mens ord som fordeler seg jevnt over kodespekteret vil gi lav score. Logikken bak PMI prøve å fange inn egenskapene til visualiseringen i figur 1. Det er fire størrelser som inngår når vi tar for oss et ord og en kode i en samling: 1. Størrelsen på hele samlingen (T) 2. Antall forekomster O for det aktuelle ordet i hele samlingen 3. D, som er det totale antall ord i tekstene som er klassifisert med det aktuelle DDK-nummeret. 4. Antallet ganger ordet forekommer i tekster med koden, OD, som utgjør samforekomsten mellom kode og ord. Den relative frekvensen for et gitt ord blir O/T, og den predikerte samforekomsten av ordet med DDK, blir da P = D*O/T, altså at ordet er jevnt fordelt over delgruppene av materialet. Det betyr at om et ord har en relativ frekvens på 0,005 % (smør ligger litt i underkant) i materialet, og koden forekommer 200 000 ganger, kan man forvente at ordet skulle forekomme 200000*0.00005 = 10 ganger under den klassifikasjonen. Målet for hvor nært ordet henger sammen med klassifikasjonskoden fås ved å dividere den faktiske forekomsten OD på den forventede, OD/P. PMI for frekvensdata defineres gjennom å ta logaritmen av den ratioen: PMI = log(DO/P). Den størrelsen kan benyttes til å sammenligne ord innenfor en gitt klassifikasjonskode, i tillegg til å finne beste klassifikasjon for et gitt ord. Statistiske mål vil ikke uten videre plukke ut gode semantiske ord, ord som er relatert til emnet, da det kan være forskjellige grunner til at ord klumper seg rundt en spesifikk DDK. Det kan være idiosynkratiske skrivemåter for en forfatter, og et ord kan brukes sjelden. Et ord kan tilhøre en lite brukt skriftnorm som for eksempel former innenfor radikalt bokmål (e.g. flertallsformene morfemene vs. morfema). Selv om slike ord kan fungere som markører for klassifikasjonen trenger de ikke ha de semantiske egenskapene man er ute etter. Innholdsordene bør ha en viss utbredelse innenfor koden. For å unngå at lavfrekvente ord dominerer, vektes PMI med et mål på spredningen av ordet. Vår kandidat er å vekte PMI med kvadratroten av frekvensen til samvariasjonen. Mens PMI måler hvor sterkt ordet er knyttet til klassifikasjonskoden vil kvadratroten av frekvensen gi et mål på spredningen, samtidig som høyfrekvente ord ikke får så stor vekt. For å hindre at spesielt særegne ord blander 68
seg inn er det kun ord med frekvens over 20 innenfor koden som beregnes. Hvordan den vektede PMI fungerer, illustreres for DDK 641 i Tabell 2 og termen smør i Tabell 1 for de 5 med høyest score. Assosiasjonen sammenfaller med frekvensen i disse tilfellene bortsett fra pepper, som under DDK 641 som har en lavere frekvens enn smør, men likevel plassert foran sortert etter assosiasjon, se tabell 2: Tabell 2 Smør Frekvens Assosiasjon DDK 73794 1753 641 Mat og drikke 13142 615 336 Offentlige finanser 51251 479 948 Skandinavia og Finland 1855 194 637 Framstilling av meieriprodukter og lignende 1078 183 642 Måltider og servering Tabell 3 DDK 641 Frekvens Assosiasjon Ord 110528 2251 salt 100485 2160 dl 88474 1972 ss 64096 1910 pepper 73794 1753 smør Hvor god denne sorteringen er får vi vite først når vi sammenligner med emneordene for klassifikasjonskoden. Mens DDK-nummeret i seg selv ikke bærer noen semantisk informasjon – det bidrar kun som en gruppeindikator for PMI – vil emneordene kunne sammenlignes med innholdsordene på et semantisk nivå. EMNEORD FRA BIBSYS Emneordene er hentet ut fra BIBSYS. For et (ukontrollert) utvalg på 120 000 titler over digitaliserte bøker er det registrert emneord for DDK fra MARC- 69
Page 1:
Bibliotheca Nova 3-2014 4-2014 Kunn
Page 4 and 5:
Skriftserien Bibliotheca Nova Skrif
Page 6 and 7:
FORORD Helt fra de første bibliote
Page 8 and 9:
Kunnskapsorganisasjon - «kjernetek
Page 10 and 11:
skille mellom kunnskapsorganisasjon
Page 12 and 13:
ibliotekers dokumentsamling, eller
Page 14 and 15:
dokumenter i biblioteksammenheng er
Page 16 and 17:
Det eksisterer standarder for tesau
Page 18 and 19:
Nå utvikler fagkretsen seg i retni
Page 20 and 21: FORMIDLING AV KUNNSKAPSUNIVERSET Fo
Page 22 and 23: Relativ plassering av bøker. Foto:
Page 24 and 25: deres plasseringer i deweysystemet
Page 26 and 27: SUBJECT INDEX. Find the subject in
Page 28 and 29: Avhengig av rettighetsstatus vil ma
Page 30 and 31: numre blir automatisk lagret i WebD
Page 32 and 33: Foto: Kathleen McIntyre BAKGRUNN Un
Page 34 and 35: sifisert av BS, er så sære og lit
Page 36 and 37: Noen av bibliotekene hadde kategori
Page 38 and 39: På randen av mapping Universitetsb
Page 40 and 41: Figur 1: Dewey Decimal Classificati
Page 42 and 43: for definisjoner, redegjørelse for
Page 44 and 45: MAPPING SOM INTELLEKTUELL UTFORDRIN
Page 46 and 47: SLUTTKOMMENTARER Ved Universitetsbi
Page 48 and 49: FAKTA Prosjektets tittel: Realfagst
Page 50 and 51: Utfordringa er i grunnen ikke å fi
Page 52 and 53: HumSam-biblioteket ved UBO starta i
Page 54 and 55: Figur 1 «I begynnelsen var Humord
Page 56 and 57: DRIFTSMODELL Tilbakemeldingene fra
Page 58 and 59: Det er også et språklig element h
Page 60 and 61: Utredningen anbefalte at det ble ta
Page 62 and 63: korporasjonsnavn blir en delmengde
Page 64 and 65: Skjermbilde av Wikipedia og VIAF NA
Page 66 and 67: Digitalisering og klassifikasjon Me
Page 68 and 69: har et DDK-nummer. Fra siffergruppe
Page 72 and 73: postene. På samme måte som for in
Page 74 and 75: Viltforvaltning, jegerprøven Ørre
Page 76 and 77: Hvert medlem må danne et nasjonalt
Page 78 and 79: svært ressurskrevende å utvikle.
Page 80 and 81: Figur 1 viser et eksempel på to pr
Page 82 and 83: Figur 2 Her vises hvilke elementer/
Page 84 and 85: På sentralt hold i CLARIN har det
Page 86 and 87: olle. Det er bakgrunnen for at det
Page 88 and 89: I et bredere bilde er det dessuten
Page 90 and 91: DATAMODELLERING OG DATABEHANDLING I
Page 92 and 93: prosjektet brukte vi en del relevan
Page 94 and 95: «Linked data-et nettverk!» «Link
Page 96 and 97: Skjermbilde fra demo: Sangerfest i
Page 98 and 99: For hver av de involverte partene e
Page 100 and 101: Katalogisering handler tradisjonelt
Page 102 and 103: Linked data som verktøy for attrak
Page 104 and 105: I prosjektet har det blitt utviklet
Page 106 and 107: KulturNav - et nettsted for autorit
Page 108 and 109: Autoritetsposten til Anders Beer Wi
Page 110 and 111: Folketelling 1910 publisert som len
Page 112 and 113: lingen av 1910 kan fungere som et a
Page 114 and 115: Nye katalogiseringsregler: Resource
Page 116 and 117: NYTT FORMAT Når metadata registrer
Page 118 and 119: Siden det nye regelverket er bygget
Page 120 and 121:
inne i felleskatalogen BIBSYS og vi
Page 122 and 123:
Bibliografien er en integrert del a
Page 124 and 125:
Ein nasjonalbibliografi for Sápmi
Page 126 and 127:
KVIFOR SAMISK BIBLIOGRAFI ER VIKTIG
Page 128 and 129:
Frå biblioteket ved Samisk høgsko
Page 130 and 131:
Geografiske emneord Samisk bibliogr
Page 132 and 133:
KVA MED FRAMTIDA Eit viktig tiltak
Page 134 and 135:
tilsvarende studier utført i 1965
Page 136 and 137:
TVERRFAGLIGE AMBISJONER Holmberg, T
Page 138 and 139:
FORSKNING VED ABI I det følgende g
Page 140 and 141:
Høgskolen i Oslo og Akershus. Foto
Page 142 and 143:
gi innsikt i metoder for å måle d
Page 144 and 145:
Holmberg, K., Tsuo, A., & Sugimoto,
Page 146:
Foto: Nasjonalbiblioteket “A libr
show all

NB-BibliothecaNova 0414nett

Create successful ePaper yourself

Delete template?

Save as template?