Hvorfor vurderer erfarne klinikere så dårlig enda de - Universitetet i ...

Tidsskrift for Norsk Psykologforening, 36, 523-536, 1999 

Skjønn, formler og klinisk praksis: 

Hvorfor vurderer erfarne klinikere så dårlig enda de vet så mye? 

Geir Kirkebøen, 

Institutt for informatikk, 

Universitetet i Oslo 

geirki@ifi.uio.no 

Abstract 

How are the judgments made by professionals compared with those made by 

novices and those based on formulas? Dreyfus and Dreyfus (1986) claim that experts, 

as opposed to expert systems, “intuitively see” what to do, and that such 

holistic understanding is a result of “a great deal of involved experience." Their 

popular “mind over machine”-view is a myth. Although “artificially intelligent” 

expert systems have not successfully replaced experts, simple formulas consistently 

outperform experts on judgment tasks. Experienced professionals know 

more than inexperienced, but they do not judge better. These apparent paradoxes 

are well supported by psychological research, especially in areas like clinical psychology. 

The article explains central findings in the judgment and decision making 

literature and discusses implications for clinical practice. 

Ekspertise og eksperters vurderinger er studert i to ulike tradisjoner i psykologien, i kognisjonsvitenskapen 

(kognitiv psykologi) og i beslutnings- og vurderingsforskningen. I tillegg 

til at eksperter er sammenlignet med noviser, er de vurdert opp mot såvel "intelligente" 

dataprogrammer som helt enkle formlers summeringer av data. Sammenligningene har gitt 

tilsynelatende paradoksale resultater. 

I den kognisjonsvitenskapelige tradisjon har man studert hva eksperter vet og hvordan 

de bruker sin kunnskap. Man har, ikke overraskende, funnet at eksperter vet mer enn noviser, 

har kunnskapen bedre organisert og bruker andre resonneringsstrategier. I vurderingsog 

beslutningsforskningen derimot, har man ikke påvist noen systematisk forskjell i kvalitet 

på vurderingene til uerfarne og erfarne profesjonsutøvere. Paradokset er altså at eksperter 

vet mer enn uerfarne, men at de likevel ikke vurderer og predikerer bedre enn dem. (I 

psykologisk faglitteratur menes med prediksjon en uttalelse om hva man forventer å 

observere i framtida, for eksempel om en persons skoleatferd eller kriminelle atferd. 

Vurdering brukes både om prosessen som ligger til grunn for å trekke en konklusjon på 

grunnlag av tilgjengelig materiale og om selve konklusjonen. Ordet ekspert bruker jeg her 

synonymt med en profesjonsutøver med lang erfaring på et felt.) 

I begge tradisjoner har man også vært opptatt av i hvilken grad formler og programmer 

kan erstatte eksperter. I den kognisjonsvitenskapelige "kunstig intelligens" (heretter KI)-tra-

2 

disjonen har man hatt vyer om å spre sofistikert og dyr ekspertise i form av datapro- 

grammer. Man har brukt avanserte formalismer til å representere eksperters kunnskap, og 

utviklet komplekse ekspertsystemer basert på disse formalismene. Det er imidlertid få eks- 

empler på at man har lykkes med å erstatte eksperter med slike programmer (f.eks. Kirke- 

bøen, 1993). I beslutnings- og vurderingsforskningen har man sammenlignet eksperters 

skjønn med til dels helt enkle mekaniske rutiners ”vurderinger” av data. Det tilsynelatende 

paradokset er at sammenligninger av eksperter med komplekse KI-programmer har 

åpenbart menneskers styrke i forhold til datamaskiner, mens sammenligningen av 

intelligente, motiverte og erfarne beslutningstagere med enkle mekaniske rutiner har avslørt 

dramatiske svakheter i menneskelig skjønn og vurderingsevne. 

I tillegg til å belyse de tilsynelatende paradoksale resultatene fra ekspertiseforskningen, 

gir jeg en kort historisk oversikt over debatten om eksperters vurderingsevne sammenlignet 

med formler og maskiner. I framstillingen tar jeg utgangspunkt i kontroversen rundt mulig- 

heten av å utvikle KI-programmer. Jeg antyder hvorfor man i liten grad har lykkes, men 

legger hovedvekten på å avlive den generelle "mind-over-machine"-myten som KI-fiaskoen 

har gitt næring til. Denne myten kommer særlig til uttrykk i det populære ekspertisesynet 

som Dreyfus og Dreyfus forfekter i sin bok Mind over machine (1986). Jeg viser at dette 

synet er en myte sett i lys av beslutnings- og vurderingsforskningen. Deretter presenterer og 

diskuterer jeg noen sentrale funn i denne forskningstradisjonen. På den bakgrunn viser jeg 

at det er relaterte årsaker til at ”intelligente” ekspertsystemer ikke har vært noen suksess og 

at eksperter vurderer dårlig enda de vet mye. Jeg avslutter med å drøfte hvilke konsekvenser 

resultatene fra beslutnings- og vurderingsforskningen bør få for klinisk praksis, og jeg spe- 

kulerer også litt over hvorfor konsekvensene ikke tas. 

"Kunstig intelligens"-kontroversen 

I 1947 ble den første datamaskinen satt i drift. Samme år startet Alan Turing debatten om 

muligheten for å utvikle kunstig intelligens. Turing (1947) antok at kognisjon essensielt er 

symbolsk problemløsning som alltid kan betraktes som søking: "the form 'Finding a number 

n such that ...' (...) We should not go far wrong if we assumed that all problems are 

reducible to this form" (s. 22). På slutten av 40-tallet diskuterte matematikeren Turing 

psykologi særlig med en venn og nabo, nemlig kjemiprofessoren Michael Polanyi. Polanyi 

hevdet at kognisjon slett ikke lot seg modellere eller simulere med formelle systemer.

3 

Diskusjonene inspirerte henholdsvis Turings artikkel Computing machinery and intelli- 

gence (1950) og Polanyis bok Personal knowledge (1958). 

Turing lanserer i sin artikkel den såkalte turing-testen på om en programmert maskin er 

intelligent. Ifølge testen er maskinen det dersom en person som står fritt til å stille både den 

og et menneske spørsmål (via tastatur og skjerm) ikke er i stand til å avgjøre hvilke svar 

som kommer fra maskinen. Polanyi avviste testen. For han var det en a priori kjenns- 

gjerning at kognisjon og intelligens er vesensforskjellig fra datamaskiner. Ingen empiri kan 

endre dette, hevdet Polanyi. Den fundamentale forskjellen som Polanyi ser mellom menne- 

sker og maskiner kommer til uttrykk i hans begrep taus kunnskap (”tacit knowledge”). I 

begrepet ligger det at kognisjon dels er basert på kunnskap som ikke lar seg beskrive. 

Etter Turings død i 1954 tar Herbert Simon og Allen Newell over som de fremste tals- 

menn for KI-visjonen. De lar seg ikke affisere av Polanyi. Samme år sistnevnte gir ut sin 

bok, slår de fast: "there are now in the world machines that think, that learn and that create. 

Moreover, their ability to do things is going to increase rapidly until - in the visible future - 

the range of problems they can handle will be coextensive with the range to which the 

human mind has been applied" (Simon & Newell, 1958, s. 8). 

Filosofen Hubert Dreyfus overtar på 60-tallet Polanyis rolle som toneangivende KI-kri- 

tiker. Han fokuserer, som Polanyi, på What computers can’t do (Dreyfus, 1972). Mens Pol- 

anyi blant annet argumenterte ut fra Gödels ufullstendighetsteorem, er utgangspunktet for 

Dreyfus' kritikk de tidlige forsøkene på å utvikle KI-programmer. Han retter en skarp 

kritikk mot vyene om å representere intelligens og ekspertise i dataprogrammer. Dreyfus 

har ikke store forhåpninger til datamaskinen: Ikke engang i sjakk vil en maskin noen gang 

kunne vinne over en stormester, slår han bombastisk fast i 1972. 

Dreyfus tok feil. IBMs datamaskin Deep Blue slo nylig verdensmesteren i sjakk, og det 

er utviklet imponerende programmer som overgår mennesker på mange områder. Likevel, 

lite tyder på at datamaskiner i overskuelig framtid skal kunne besitte noe i nærheten av et 

menneskes generelle intelligens. Newell og Simons svulstige visjoner er ikke blitt realisert. 

KI-visjonærene og KI-kritikerne har hatt én ting felles. De har basert sine oppfatninger 

om henholdsvis datamaskinens muligheter og menneskets fortreffeligheter, på spekula- 

sjoner. KI-visjonen baserer seg på en ren spekulasjon, nemlig antagelsen om at "a physical 

symbol system has the necessary and sufficient means for general intelligent action" 

(Newell & Simon, 1981, s. 41). Denne hypotesen er igjen basert på en antagelse om at 

kognisjon er samme type prosess som informasjonsprosessering i datamaskiner. KI-

4 

kritikerne har med gode argumenter avvist denne antagelsen, men de har fulgt opp med en 

like spekulativ antagelse om menneskelig intuisjon og skjønn som noe høyt hevet over 

maskiner. 

Dreyfus og Dreyfus' myter 

Dreyfus (1985) sammenfatter sin forståelse av hva som skiller eksperter fra nybegynnere 

slik: ”a beginner makes inferences using rules and facts just like a heuristically programmed 

computer, but that with talent and a great deal of involved experience the beginner develops 

into an expert who intuitively sees what to do without applying rules” (s. 9). I boka Mind 

over machine (1986) forsøker Dreyfus og Dreyfus å forsvare de to relaterte mytene som 

kommer til uttrykk i dette sitatet. Den ene myten er påstanden om at erfarne profesjons- 

utøvere intuitivt ser helheter og hva som bør gjøres i komplekse situasjoner. Vi kan kalle 

dette myten om det gode skjønn. Den andre kan vi kalle myten om erfaringslæring, nemlig 

troen på at man generelt kan erverve seg et godt skjønn gjennom erfaring. 

Dreyfus og Dreyfus peker på at KI-visjonene er basert på spekulasjoner: "the grandiose 

claims and predictions made by Simon and associates were not based on sound empirical 

research" (s. 8). De har helt rett. Men hva bygger de sin alternative forståelse på? I 

hovedsak baserer de seg på "the seemingly plausible arguments of Merleau-Ponty, 

Heidegger, and Wittgenstein, which [we] had come to accept" (s. 7). De bortforklarer 

empirisk forskning som strider mot deres eget syn: "To forsake rationality in favor of 

unrationalized know-how is to sail on uncharted seas, and there will always be those (...) 

who challenge the wisdom. A number of academic psychologists have gone so far as to 

create experiments purporting to show (...) consistent flaws in human decision-making" (s. 

41). 

I den grad Dreyfus og Dreyfus baserer seg på empiri, vektlegger de studier av senso- 

motoriske ferdigheter som sykling, svømming og flyvning. Av kognitive ferdigheter er det 

gjerne studier av sjakkspillere de viser til. De appellerer dessuten til lesernes ”common 

sense”: "You need not merely accept our word but should check to see if the process by 

which you yourself acquired various skills reveals a similar pattern" (s. 20). 

Det er ikke tvil om at Dreyfus og Dreyfus' ekspertisesyn er utbredt. Mange tiårs psyko- 

logisk forskning har imidlertid vist at deres tro på intuisjonens kraft og vår evne til å lære av 

erfaring er "common non-sense".

Dreyfus og Dreyfus' feilslutninger 

5 

På vesentlige områder, som språk og persepsjon, er menneskelig kognisjon overlegen data- 

maskiner. Vi har for eksempel en ekstrem evne til å ”lese” ansikter og vurderer raskt humø- 

ret en person er i ut fra ansiktsuttrykket. Selv om vi er svært dyktige til dette, kan vi ofte 

bare vagt beskrive de trekkene vi kjenner igjen. Polanyi (1958) vektlegger nettopp slike 

persepsjonseksempler i sin argumentasjon for den tause kunnskapens betydning. Persepsjon 

har åpenbart en gestaltkarakter: Ser vi deler av en sirkel, "ser" vi hele sirkelen. Dreyfus og 

Dreyfus (1986) hevder at også eksperters vurderinger har en slik gestaltkarakter, dvs. at 

eksperter i sin alminnelighet er i stand til å se helheter i mønstre av data. De generaliserer 

altså fra persepsjon til vurderinger generelt. Det er en feilslutning. 

Millioner av års evolusjon ligger bak våre språklige og perseptuelle ferdigheter, ferdig- 

heter som er forutsetninger for intelligent atferd. Det er derfor ikke overraskende at det har 

vist seg vanskelig å utvikle intelligente datamaskiner. Det som imidlertid skiller mange pro- 

blemer som eksperter i dag stilles overfor fra det å lese ansikter og forstå naturlig språk, er 

at vi ikke har noen evolusjonsmessige preferanser for å løse dem. Det gjelder for eksempel 

problemet klinikere har når de på grunnlag av ulike data skal vurdere en pasient. 

Dreyfus og Dreyfus’ modell for utviklingen fra nybegynner til ekspert er basert på stu- 

dier av "the skill-acquisition process of airline pilots, chess-players, automobile drivers and 

adult learners of a second language" (s. 20). Når det gjelder disse områdene, er det liten 

grunn til å betvile at de "observed a common pattern in all cases, which [they] call the five 

stages of skill acquisition" (s. 20). Feilen de gjør er igjen at de generaliserer til ervervelse av 

kognitive ferdigheter i sin alminnelighet. 

Myten om det gode skjønn er avlivet 

Den første kjente psykologiske studien av kvaliteten på eksperters vurderinger ble gjennom- 

ført av Hughes allerede i 1917. Han studerte vurderingene til anerkjente eksperter på 

såkorn. Resultatet var nedslående: ekspertene tok ofte feil, variasjonen i deres vurderinger 

var stor og de baserte sine konklusjoner på langt færre indikasjoner enn hva de selv trodde. 

Senere studier har, som vi skal se, ikke gitt grunn til å tvile på Hughes' funn. 

De første systematiske sammenligninger av eksperters vurderinger mot mekaniske ruti- 

ner ble gjennomført av Sarbin tidlig på 1940-tallet. Han sammenlignet kvaliteten på klinik- 

eres vurderinger med enkle regresjonsligninger, og konkluderte med at det vil gi "less error

6 

if clinicians deliberately adopted the actuarial method for all their activities" (Sarbin, 1986, 

363). Heller ikke Sarbins konklusjon er svekket av senere forskning. 

I 1954 gir Meehl ut boka Clinical versus statistical predictions, der han drøfter hva som 

er best av skjønnsmessige og statistiske metoder. (Statistisk prediksjon innebærer en statis- 

tisk vekting og kombinering av data, mens klinisk prediksjon betyr at data kombineres 

skjønnsmessig.) Meehl argumenterer for at spørsmålet må avgjøres empirisk, og setter fram 

metodologiske regler for hvordan det kan gjøres. På grunnlag av en analyse av 20 empiriske 

studier slutter han at vurderinger (som ’Har pasienten hjerneskade?’, ’Lider pasienten av 

schizofreni?’ osv.) foretatt ved hjelp av statistiske prosedyrer alltid er minst like nøyaktige, 

og oftest mer nøyaktige, enn skjønnsmessige vurderinger. 

der: 

Innvendingene mot Meehls konklusjoner var av tre typer. Det ble hevdet at de ikke hol- 

1) for reelle vurderinger som klinikere faktisk foretar i praksis (f.eks. McArthur, 

1956) 

2) når klinikere også har tilgang til den informasjon som møte med pasientene gir 

(f.eks. Holt, 1958) 

3) for vurderinger som krever en konfigural (helhetlig) analyse av data. (Meehl 

selv er i 1954 åpen for at slike vurderinger muligens kan gå i favør av klinisk 

prediksjon). 

Holdbarheten av disse tre innvendingene er testet ut i en rekke studier. De holder ikke. La 

oss se på noen klassiske og representative studier som indikerer det. 

MMPI (Minnesota multiphasic personality inventory) er den mest brukte personlig- 

hetstesten. Testresultatene summeres i en profil bygd opp av elleve tallverdier som hver 

representerer testpersonens nivå på én skala eller personlighetsdimensjon (introvert-ekstro- 

vert; maskulinitet-feminitet; psykopati osv.) Det var lenge allment akseptert at gode tolk- 

ninger av MMPI-profiler krever konfigurale vurderinger av profilen, dvs. at man ser de 

elleve skårene i forhold til hverandre (jfr. innvending 3). Vurdering av MMPI-profiler er for 

øvrig en type vurdering som klinikere hyppig møter i praksis (jfr. innvending 1). 

Goldberg (1965) studerte erfarne klinikeres evne til å vurdere om en pasient er nevro- 

tisk eller psykotisk på grunnlag av MMPI-profiler. Han sammenlignet blant annet kliniker- 

nes vurderinger med en enkel regel som legger sammen skårene på tre utvalgte skalaer og 

trekker fra skårene på to andre. Er resultatet under 45 er pasienten nevrotisk, ellers psyko- 

tisk. 861 MMPI-profiler (til pasienter med bekreftet diagnose) skulle vurderes. Goldbergs 

regel utkonkurrerte med god margin alle de erfarne klinikerne.

7 

Sawyers (1966) omfattende oversiktsstudie viser at klinisk informasjon ofte ikke bidrar 

til bedre vurderinger (jfr. innvending 2). Sawyer fant blant annet at dersom klinikere gis 

mulighet til å basere sine vurderinger på intervjuer med pasientene i tillegg til testdata, så 

faller systematisk kvaliteten på vurderingene i forhold til om de utelukkende tar hensyn til 

testdata. Generelt har det vist seg at dersom en beslutningstaker får tilgang til informasjon 

ut over de to-tre mest prediktive data, så faller gjerne kvaliteten på vurderingene (f.eks. 

Oskamp, 1965). Beslutningstakere drukner raskt i informasjon. 

Dawes (1971) påviser at enda enklere formler enn Goldbergs regel kan utkonkurrere 

erfarne beslutningstakere. Han studerte inntakskomitéer ved amerikanske college. Disse av- 

gjør hvilke studenter som skal tas inn fra high school, dvs. de skal predikere framtidige 

skoleprestasjoner. Dawes sammenlignet komitéenes vurderinger med helt trivielle lineære 

ligninger. Han finner at selv ligninger som bare trenger informasjon om én variabel (elevens 

standpunktkaraktersnitt) predikerer framtidige prestasjoner bedre enn en komité bestående 

av erfarne skolefolk. Komitéen hadde i tillegg til dette karaktersnittet også tilgang til elev- 

enes eksamenskarakterer, kjennskap til og et anbefalingsbrev fra den skolen de kom fra, 

samt et lengre intervju med elevene. 

Stikk i strid med Dreyfus og Dreyfus' påstand om at eksperter intuitivt ser hva de bør 

gjøre, er det nå grundig dokumentert at intelligente og motiverte beslutningstakeres skjønn 

systematisk overgås av usofistikerte prosedyrer (f.eks. Dawes, Faust & Meehl, 1989). 

Profesjonsutøveres vurderinger bedres (ofte) ikke med erfaring 

Dreyfus og Dreyfus påpeker at komitémedlemmene i Dawes’ (1971) studie ikke er 

eksperter på heltid: "It would be interesting to compare the predictive ability of models 

against those professionals responsible on a full-time basis for the admission decisions at 

elite undergraduate colleges. Our guess is that full-timers would fare better" (s. 45). Hvorfor 

de gjetter er ikke lett å forstå. Det er nemlig gjort en rekke studier av betydningen grad av 

erfaring har for vurderingers kvalitet. Ett eksempel: I en stor undersøkelse basert på et 

representativt utvalg på 600 av USAs drøyt 3400 nevropsykologer, konkluderte man slik: 

"Except for a possible tendency among more experienced practitioners to overdiagnose 

abnormality, no systematic relations were obtained between training, experience, and 

accuracy across a series of neuropsychologic judgments" (Faust et al., 1988). 

Dette er ikke en spesielt valgt studie og heller ikke et oppsiktsvekkende funn. Allerede i 

1973 sammenfattet Wiggins resultatene fra en rekke studier av klinikere med ulik grad av

8 

erfaring slik: "Surprisingly, there is little empirical evidence that justifies the granting of 

'expert' status to the clinician on the basis of his [or her] training, experience, or infor- 

mation-processing ability" (s. 131). I en bredt anlagt meta-studie nylig bekrefter Garb 

(1989) i hovedsak Wiggins konklusjoner. 

Hvordan kan det ha seg at klinikeres vurderinger ikke blir bedre med erfaring? Vi lærer 

jo så mye annet av erfaring, for eksempel å kjøre bil. Vi følger instruksjoner rigid og 

klønete i starten. Med øvelse kjører vi bedre og bedre, samtidig som vi tenker mindre og 

mindre på hva vi gjør. Vi opparbeider en “taus kunnskap” som gjør at vi “intuitivt ser” hva 

vi bør gjøre selv i komplekse situasjoner. Hvorfor skjer ikke det samme i klinisk praksis? 

Det er mange ulike grunner til at en klinisk psykologs erfaring med tidligere pasienter 

ikke gjør han eller hun bedre til å vurdere (og behandle) nye pasienter (f.eks. Brehmer, 

1980; Dawes, 1994). Jeg skal kort antyde et par av dem. I klinisk praksis vil en vurdering av 

et individ typisk innebære å slutte fra en konfigurasjon av data eller tegn (symptomer, test- 

verdier, bakgrunnsopplysninger, familiesituasjon osv.) til en (årsaks-, behandlings- eller 

forståelses)kategori (type hjerneskade, schizofreni, er misbrukt, trenger behandling X osv.) 

Faktorene som bestemmer individers tanker, følelser og handlinger er svært komplekse og 

dårlig forståtte. Det bidrar til at sammenhengene mellom tegn og kategorier nesten alltid er 

probabilistiske i klinisk praksis. Noen ganger skyldes en bestemt konfigurasjon av tegn at et 

individ er misbrukt, andre ganger kan årsaken til de samme tegnene være noe helt annet. 

Bedre kliniske vurderinger forutsetter altså en bedre forståelse av relevante 

probabilistiske sammenhenger mellom tegn og kategorier. Det er nærliggende å tro at 

klinikere gjennom erfaring får større innsikt i slike sammenhenger. Det er imidlertid ikke 

tilfelle (f.eks. Brehmer, 1980). En vesentlig grunn til det er at klinikere, som alle oss 

andre, har en sterk tilbøyelighet til å gjøre verden forståelig ved å se den gjennom kausale 

(deterministiske) skjemaer (X bestemmer Y, nevrosene skyldes barndomstraumer osv.). 

Laboratoriestudier der enkle probabilistiske sammenhenger mellom variabler skal læres 

fra eksempler, viser at det heller ikke hjelper å gjøre forsøkspersonene oppmerksomme på 

at sammenhengene er probabilistiske. De lærer dem likevel ikke. Grunnen er, kort sagt, at 

få kjenner og er i stand til å bruke de strategier (sannsynlighetsregning, Bayes’ formel 

mm.) som kreves for å fungere effektivt i probabilistiske situasjoner. Vi forenkler i stedet 

kompleksiteten i vår erfaringsverden ved å betrakte den deterministisk, tenke 

representativt osv. Nedenfor forklarer jeg hvorfor slike strategier ikke bidrar til bedre 

vurderinger.

9 

Den type enkle probabilistiske sammenhenger som forsøkspersoner ikke er i stand til 

å lære i laboratoriet, er mellom veldefinerte variabler (bestemt av form, farge osv.) Vari- 

ablene (tegn og kategorier) er sjelden veldefinerte i klinisk praksis. Det er ofte uklart 

hvilke tegn som er relevante for å foreta en bestemt vurdering, og kategoriene er i seg selv 

ofte dårlig forståtte og kontroversielle. Dette gjør læring mye vanskeligere i klinisk prak- 

sis enn i laboratoriet. En klinisk psykolog er ikke sjelden i tilsvarende situasjon som en 

lege som forsøker å diagnostisere kreft på basis av tidligere erfaring med kreftpasienter og 

pasienter uten kreft, men uten å vite hva kreft er. Da kan man heller ikke ha en klar forstå- 

else av hva som er en gal vurdering, som er en av de to betingelsene som generelt har vist 

seg å være avgjørende for erfaringslæring. Den andre helt essensielle betingelsen for lær- 

ing er at man får umiddelbar, utvetydig og konsistent tilbakemelding når man tar feil. 

Disse betingelsene er tilstede når vi lærer å kjøre bil. De er av en rekke ulike grunner sjel- 

den til stede når klinikere vurderer enkeltindivider (f.eks. Dawes, 1994). Også av den 

grunn er det ikke slik at en kliniker gjennom ”a great deal of involved experience (...) 

develops into an expert who intuitively sees what to do” (Dreyfus, 1985, s. 9). 

Heuristikk, intelligens og ekspertise 

Fra Platon til Freud ble dårlig skjønn forklart med at høyere intellektuelle prosesser ble for- 

styrret av lavere pasjoner og drifter. Først med informasjonsteknologien ble det mulig å for- 

klare kognitiv feilfungering uten å måtte henvise til slike ikke-kognitive faktorer. Shannons 

(1948) informasjonsteori, som gir en presis kvantitativ definisjon av informasjon, var det 

viktigste enkeltbidraget. Teorien gjorde det nemlig mulig for psykologer å betrakte tenkning 

kvantitativt. Millers (1956) klassiske studie av begrensningen ved vår ”umiddelbare huk- 

ommelse” ville for eksempel ”not have been done without the apperance of information 

theory" (s. 81). På slutten av 50-tallet inspirerer den nye teknologien psykologer til å be- 

trakte mennesket i analogi til datamaskinen, som en informasjonsprosessor (f.eks. Newell, 

Shaw & Simon, 1958). Et hovedprosjekt i kognitiv psykologi har siden vært å bestemme de 

kvantitative begrensningene ved denne (postulerte) informasjonsprosessoren, vår såkalte 

kognitive arkitektur. 

Newell og Simon betraktet, som Turing (1947), kognisjon og problemløsning som 

søking i problemrom (kognitive symbolske representasjoner av problemomgivelsen). De 

konstaterte at optimal søking i slike rom overskrider vår kognitive arkitekturs kapasitet. 

Simons (1955) viktige begrep om begrenset rasjonalitet (”bounded rationality") er motivert

10 

av denne begrensningen. Idéen bak begrepet er at vår rasjonalitet er begrenset nettopp fordi 

den søking eller informasjonsbehandling som kreves dersom vi skal resonnere i overens- 

stemmelse med normative kriterier, overskrider vår kognitive kapasitet. 

Newell og Simon var ikke primært opptatt av begrensningene ved vår kognitive arki- 

tektur, men hvordan vi overskrider dem. De studerte blant annet sjakk, som krever massiv 

søking. Hvordan kan da en stormester uten kapasitet til å foreta mer enn en brøkdel av søk- 

ingen, likevel spille briljant sjakk? Heuristikk kalte de den type kunnskap som reduserer 

søking og muliggjør gode, men ikke alltid optimale, løsninger på komplekse problemer. 

Datamaskiner har heller ikke kapasitet til å foreta all den søking som kreves for å løse 

virkelige problemer. Antagelsen bak forsøket på å ”klone” eksperter i form av såkalte eks- 

pertsystemer, er at det er mulig å isolere og representere eksperters heuristiske kunnskap i 

dataprogrammer. Dette KI-prosjektet er forøvrig motivert av det samme, i en forstand, opp- 

høyde syn på ekspertise som det KI-kritikerne Dreyfus og Dreyfus (1986) forfekter. Begge 

parter tar nemlig for gitt at eksperters kunnskap gir gode vurderinger. 

I kognisjonsvitenskapen har altså hovedspørsmålet vært hvordan vi (og datamaskiner) 

er i stand til å løse komplekse problemer. Heuristisk kunnskap trodde man var svaret: "heu- 

ristics that permit huge spaces to be searched very selectively lies at the heart of intelli- 

gence, whether human or artificial" (Simon, 1978, s. 12). I beslutnings- og vurderingsforsk- 

ningen har heuristikk slett ikke blitt betraktet som forutsetningen for intelligens, men 

tvertimot blitt vektlagt som selve årsaken til irrasjonalitet. 

Heuristikk, irrasjonalitet og beslutningstaking 

Psykologene Daniel Kahneman og Amos Tversky er pionerene i den såkalte "heuristics and 

biases"-tradisjonen. Tidlig på 70-tallet gjennomførte de studier som tydet på at bruk av reg- 

ler eller heuristikker som avviker fra statistiske prinsipper, forklarer systematiske skjevheter 

(”biases”) i skjønn og beslutningstaking (f.eks. Tversky & Kahneman, 1974). Da disse 

heuristikkene er omtalt i alle innføringsbøker i psykologi, skisserer jeg bare kort hva to av 

dem innebærer: tilgjengelighet (”availability”) og representativitet (”representativeness”). 

Med tilgjengelighetsheuristikk menes tendensen til at vurderinger av hvor hyppig noe 

(X) forekommer (i forhold til noe annet) påvirkes av hvor lett tilgjengelig X er, dvs. hvor 

lett X er å legge merke til, huske eller forestille seg. Ett hverdagslig eksempel: Det er en 

utbredt myte at par som tror de ikke kan få barn, lettere får egne barn etter å ha adoptert. En 

vanlig forklaring er at dette skyldes at paret etter adopsjon stresser mindre. Klinisk forsk-

11 

ning har imidlertid vist at fruktbarheten slett ikke forandrer seg. Hvorfor er det likevel så 

mange som tror det? Bruk av tilgjengelighetsheuristikk kan forklare dette: Vi legger veldig 

godt merke til at "ufruktbare" par får egne barn etter at de har adoptert. Informasjonen som 

viser at par som ikke adopterer får barn like hyppig etter å ha forsøkt like lenge, er derimot 

sjelden tilgjengelig for oss (se f.eks. Gilovich, 1991). 

Tilgjengelighetsheuristikk fungerer bra så lenge tilgjengelighet og hyppighet samvar- 

ierer. Trolig fungerte slik heuristikk bedre i en før-moderne verden. Da var stort sett det 

som var viktig for å holde seg i live, lett både å legge merke til og huske. I vår moderne 

verden derimot, er statistisk informasjon ofte langt mer pålitelig enn slående, lett 

tilgjengelige egne erfaringer. Tilgjenglighetsheuristikk gjør at vi - kliniske eksperter 

inkludert – likevel har en tendens til å legge overdreven vekt på det siste. I stedet for å 

resonnere statistisk, er vi tilbøyelige til å tenke ”dramatisk”. 

Bruk av representativitetsheuristikk innebærer å anvende enkle likhetskriterier på 

kategoriseringsproblemer, dvs. å redusere vurderinger til gjenkjenning. I et kjent eksperi- 

ment spør Kahneman og Tversky: "En professor liker å skrive poesi, er ganske sky og er 

liten av vekst. Hva tror du er hans felt? a) Kinesiske studier; b) Psykologi". De fleste svarer 

a). Grunnen er at beskrivelsen er mer representativ for hvordan man forestiller seg en sino- 

log enn hvordan man forestiller seg en psykolog. Svært få tar hensyn til at det er mange 

flere professorer i psykologi enn i sinologi, dvs. man ser bort fra baseratene. 

Representativ tenkning bryter med en grunnleggende formel i sannsynlighetsteori: 

P(D|S) = P(S|D) * PD/PS (P, D og S er her forkortelser for de engelske ordene for hen- 

holdsvis sannsynlighet, sykdomskategori og symptom). Denne formelen, som er en måte å 

uttrykke Bayes' formel på, kan betraktes som en idealisert modell av diagnostisk beslut- 

ningstaking. Relatert til klinisk diagnostikk kan formelen forstås slik: Vi kan tenke oss at vi 

står overfor en pasient som har et symptom S. Vi ønsker å bestemme sannsynligheten for at 

pasienten da også har sykdommen D. Denne sannsynligheten er det som i formelen 

betegnes P(D|S). For å kunne beregne P(D|S), må vi vite hvor ofte symptomet S er til stede 

hos de som har den bestemte sykdommen D, altså sannsynligheten for S gitt D eller P(S|D). 

Dette må multipliseres med sannsynligheten for at en tilfeldig person i den pasientgruppen 

(populasjonen) klinikeren behandler har denne sykdommen D, altså med PD. Videre må det 

deles med hvor vanlig det er at symptomet S, isolert sett, forekommer i populasjonen, dvs. 

med sannsynligheten for symptomet S: PS. Generelt innebærer representativ tenkning at 

man betrakter P(D|S) = P(S|D), altså at man ser bort fra baseratene PD og PS.

12 

Vi kan si at representativ tenkning skaper symmetrier i vår forståelse som ikke eksi- 

sterer i virkeligheten. Det forklarer hvorfor man ofte ser - også blant erfarne klinikere - en 

sterk tendens til å sidestille for eksempel P(Traumatiske barndomsopplevelser|Psykiske pro- 

blemer) med P(Psykiske problemer|Traumatiske barndomsopplevelser). Forskning har klart 

vist at det ikke er en slik symmetri i virkeligheten. Det er mange som har store traumatiske 

opplevelser i barndommen som ikke får alvorlige psykiske problemer senere. 

Dette var en liten smakebit. Poenget er at det i stor grad er klarlagt hvilke ulike typer 

heuristikker eller strategier som automatisk påvirker både leg og lærds vurderinger. Det er 

blitt heftig diskutert om slike systematiske feilvurderinger som er påvist i "heuristics and 

biases"-tradisjonen, viser at mennesket er fundamentalt irrasjonelt (Gigerenzer, 1996, og 

Kahneman & Tversky, 1996, er de foreløpig siste innlegg i debatten). Den diskusjonen er 

ikke spesielt interessant her. Det vesentlige må være å begrense og forebygge slike feilvurd- 

eringer, som kan ha store uheldige konsekvenser for eksempel i klinisk praksis. 

Kliniske vurderinger er komplekse 

Representativ tenkning bidrar til at klinikere er svært dårlige til å foreta selv enkle vurder- 

inger av datas prediktive verdi (eller validitet). I en mye referert studie, ber Eddy (1982) 

erfarne medisinere anslå sannsynligheten for at en kvinne på førti år som avlegger positiv 

mammografitest (i en kartleggingsundersøkelse) har brystkreft, når man vet at: 

- sannsynligheten for brystkreft er 1% i den aldersgruppen (baseraten) 

- om en kvinne har brystkreft, så er sannsynligheten for positiv mammografi 80%. 

- om kvinnen ikke har brystkreft, så er sannsynligheten for positiv mammografi 

10% 

Bayes' formel gir at det er 7.5% sjanse for brystkreft ved positiv mammografi. Medisinerne 

i Eddys studie anslår sannsynligheten til 70 - 80%! De forveksler hvor typisk eller repre- 

sentativt det er at en kvinne som har brystkreft også har positiv mammografi (testens sensi- 

tivitet) med den prediktive (diskriminerende) verdi en positiv mammografitest har. 

Eddys studie viser hvor vanskelig det er for klinikere å vurdere hva et enkelt datum 

sier om et individ. Klinikere må i praksis vurdere hva en mengde av data samlet sier. Dette 

kan, optimalt sett, bare gjøres på grunnlag av svært kompliserte beregninger. Alle vil rea- 

gere dersom kassamannen på RIMI tar handlekurven på øyemål. Han gjør ikke det. Han 

summerer. Klinikere derimot, foretar langt mer komplekse vurderinger (beregninger) - som 

kan gjelde liv og død - på skjønn. Dette gjelder så godt som alle vurderinger, alltid.

13 

Paul Meehl (1957) stilte spørsmålet: "When shall we use our heads instead of the for- 

mula?", og konkluderte med at dersom vi har tilgang til en formel, så bør vi bruke hodet 

veldig, veldig sjelden. Konklusjonen ble innlemmet i APAs (den amerikanske psykologfor- 

enings) etiske retningslinjer allerede i 1962: 

”Principle 1.5: Except in unusual circumstances, diagnosis and prediction should 

not stray from actuarial conclusions when such analysis is available and applicable 

to the judgment(s) of interest. It is inappropriate to substitute less valid 

means of appraisal or data interpretation for more valid means. 

Comment: Principle 1.5 does not eliminate the need for clinical judgment, knowledge, 

or skill. However, when viable actuarial methods exist, the attempt to 

selectively countervail actuarial conclusions, except in very unusual 

circumstances, represent an abuse of reason” (Sitatet er hentet fra Faust, 1991, s. 

203). 

Det er sterke ord. Men lite har skjedd i kliniske miljøer. Selv om evidensen i favør av 

formler framfor klinisk skjønn bare har styrket seg. Meehl så det slik i 1986: ”When you are 

pushing 90 investigations, predicting everything from the outcome of football games to the 

diagnosis of liver disease and when you can hardly come up with half dozen studies 

showing even a weak tendency in favor of the clinician, it is time to draw a practical 

conclusion” (s. 374). 

I dag har de nitti studiene vokst til nærmere det dobbelte (Grove & Meehl, 1996). Det 

er dessuten viktig å merke seg at i de fleste av disse studiene er formelen det er snakk om 

helt trivielle mekaniske rutiner som Goldbergs regel og Dawes' lineære ligninger. 

Hvorfor kan enkle formler erstatte "sofistikert" skjønn? 

Eksperter baserer ofte sine vurderinger på kompleks holistisk kunnskap som de gjerne 

uttrykker i form av konfigurale regler, dvs. regler som forteller hvordan betydningen av en 

variabel avhenger av andre variabler. Men slik sofistikert kunnskap bidrar sjelden til å heve 

kvaliteten på eksperters vurderinger, snarere tvert imot (f.eks. Camerer, 1981). 

Hvorfor gir bruk av konfigurale regler (ofte) dårlige vurderinger? Svaret er knyttet til 

hvordan slike regler læres. Eksperter, som folk flest, trives med å forstå. Konfigurale regler 

er gjerne et produkt av at man i etterkant forsøker å gjøre enkelthendelser forståelige. Reg- 

lene blir dermed lett overgeneraliseringer. Slike regler avledes også ofte fra generelle, og i 

mange situasjoner uholdbare, teorier. Konfigurale regler er dessuten lite robuste, fenomener 

faller lett utenfor (f.eks. Camerer & Johnson, 1991).

14 

Hvorfor anvender likevel eksperter slik ”dårlig” holistisk kunnskap? Vi har alle en 

sterk tendens til å se etter bekreftende informasjon (f.eks. Smedslund, 1963; Chapman & 

Chapman, 1969). Muligens derfor har også konfigurale regler en tendens til å utbroderes i 

stedet for å forkastes, når de ikke passer med virkeligheten. Slike komplekse regler gir dess- 

uten grunnlag for å generere mange prediksjoner og forklaringer, og eksperter har en ten- 

dens til å forveksle høy "fruktbarhet" med stor nøyaktighet. Konfigurale regler er faktisk 

også lette både å lære og bruke. Man slipper å vurdere og rangere data etter prediktiv verdi, 

og man unngår en krevende vekting og kombinering av usikker informasjon. Reglene kan 

anvendes omtrentlig, og det passer jo de fleste av oss. 

Camerer og Johnson (1991) setter erfaringene fra ekspertsystemfeltet opp mot 

erfaringene med enkle (regresjons)modeller, og konkluderer slik: "The main lesson from the 

regression-model literature is that large numbers of configural rules, which knowledge 

engineers take as evidence of expertise, do not necessarily make good predictions; simple 

linear combinations of variables (measured by experts) are better in many tasks" (s. 213). 

Denne forskningen tyder altså på at problemet med ekspertsystemer ikke er at de fungerer 

så forskjellig fra eksperter, men at de opererer for likt. 

Når kan enkle mekaniske rutiner erstatte "sofistikert" skjønn? 

Jeg vil nøye meg med å sammenfatte noen funn som indikerer både hvilke typer kliniske 

vurderinger man bør tenke på å automatisere og hva man må vite for å utforme en enkel 

mekanisk rutine som vil "vurdere" bedre enn klinikere: 

- Mennesker har en unik evne til å se hva som er relevant informasjon i en situasjon, 

men vi har en meget begrenset evne til å integrere den informasjonen som 

ligger i flere (unike) observasjoner (f.eks. Sawyer, 1966; Einhorn, 1972). 

- Informasjon ut over de 2-3 dataene med høyest prediktiv verdi resulterer i dårligere 

vurderinger når informasjonen kombineres klinisk (skjønnsmessig), men 

øker samtidig eksperters egen tro på vurderingenes kvalitet (f.eks. Oskamp, 

1965). 

- Når eksperter hevder å ha brukt konfigural analyse for å nå bestemte vurderinger, 

så har man stort sett alltid kunnet konstruere lineære modeller som adekvat dupliserer 

ekspertenes vurderinger (f.eks. Camerer, 1981). 

Dersom man a priori kan spesifisere hvilken type informasjon eller input som er mest rele- 

vant for å foreta en avgrenset vurdering, så gir punktene ovenfor god grunn til å tro at man 

kan finne fram til en enkel formel som foretar en bedre integrering av input-informasjonen 

enn det beslutningstakere er i stand til.

15 

Dawes og Corrigan (1974) sammenfatter essensen i hva som må til for å erstatte "sof- 

istikert" skjønn med enkle mekaniske rutiner: "the whole trick is to decide what variables to 

look at and then to know how to add" (s. 105). Som det ligger implisitt i dette sitatet, så 

kommer vi ikke utenom klinisk skjønn. Skjønn er nødvendig for å avgrense vurderinger 

som egner seg for automatisering, og skjønn er også nødvendig "to decide what variables to 

look at", dvs. for å identifisere hvilken informasjon som er mest relevant for å foreta disse 

vurderingene. Kort sagt, det å bestemme hva som er relevant informasjon for å foreta en 

vurdering må nesten alltid baseres på klinisk skjønn, mens selve vurderingen (dvs. 

integreringen) av denne informasjonen bør overlates til mekaniske rutiner. 

Har ingen eksperter reell kompetanse? 

Eksperter gjør annet enn å vurdere og predikere. De opererer (kirurger), løser problemer 

(fysikere), konstruerer (programmerere, ingeniører), komponerer (musikere) osv. I mange 

slike ferdigheter utvikles reell domenespesifikk ekspertise gjennom praksis (f.eks. Ericsson 

& Lehmann, 1996). Eksperters kognitive prosessering er dessuten overlegen nybegynnere 

på det meste fra hukommelse til problemløsning og resonnering. Eksperter (i for eksempel 

fysikk og programming) bruker mer effektive resonneringsstrategier enn uerfarne, på noen 

områder (som sjakk) oppøver de et ”blikk” som gjør at de ”intuitivt ser” hva som bør gjøres 

osv. (f.eks. Chi, Glaser & Farr, 1988). 

Men selv om eksperters kognitive prosessering skiller seg markert fra novisers, så gjør 

altså ikke kvaliteten på deres vurderinger og prediksjoner det. På noen felt erverver imidler- 

tid eksperter seg reell kompetanse også i å predikere og vurdere. Slike felt er karakterisert 

ved at stimuli (det man vurderer) er statisk, at det er konsensus om hva som utgjør stimuli, 

at samme type stimuli (problem) gjentar seg, at man tar beslutninger om ting (ikke atferd), 

at problemer kan deles opp, at man får tilbakemelding, at objektive analyser er tilgjengelige, 

at man bruker beslutningshjelpemidler og – ikke minst - at det forventes at man også iblant 

tar feil. Jo flere av disse faktorene som er tilstede på et felt, desto større er muligheten for å 

lære av tidligere vurderinger og beslutninger (f.eks. Shanteau, 1992). Sjakk, astronomi, for- 

sikringsanalyse og enkelte deler av medisin er eksempler på felt der disse faktorene i stor 

grad er tilstede. På områder som klinisk psykologi, psykiatri, astrologi, personellutvelgelse 

og prediksjon av aksjeverdier er de det ikke. 

Også i meteorologi er flere av faktorene nevnt over tilstede. Meteorologers predik- 

sjoner er da også svært gode, ikke minst sammenlignet med kvaliteten på vurderingene til

16 

kliniske psykologer. Likevel tror fortsatt mange at meteorologer spår i hytt og vær, mens 

psykologer ”ser” gjennom folk. Grunnen til det er åpenbar: Vi har nesten aldri tilgang til 

informasjon som forteller når psykologers vurderinger av enkeltindivider er dårlige, mens vi 

blir våte når meteorologene tar feil. Dessuten understreker meteorologer selv at de spår 

været, mens mange psykologer er helt overbeviste om at de forstår enkeltmennesker. 

Hvorfor tar vi ikke konsekvensene? 

Det er antagelig mange grunner til at klinikere flest kanskje ikke engang har tenkt tanken at 

noen av de vurderingene de rutinemessig foretar med fordel kan mekaniseres. En hoved- 

grunn er nok at troen på det gode kliniske skjønn som erverves gjennom praksis, fortsatt er 

en utbredt myte blant psykologer (se f.eks. flere artikler i Reichelt, 1994). 

Én annen viktig grunn til at få kliniske vurderinger er forsøkt automatisert er antagelig 

at mekaniske rutiner langt fra er feilfrie, selv om de altså gir bedre resultater enn klinisk 

skjønn. Det virker som om de fleste av oss har større problemer med å akseptere at vi skal 

"vurderes" av formler og maskiner som til og med ofte "tar" feil, selv om vi altså nå vet at 

mekanisk integrering av informasjon totalt sett gir færre feil enn om vi overlater de samme 

vurderingene til menneskelige beslutningstakere. 

For den enkelte kliniker er det nok heller ikke særlig tiltalende, etter en lang utdanning 

og kanskje mange års spesialisering, å akseptere at helt enkle addisjonsregler "vurderer" 

data bedre enn hva en selv gjør. Trusselen mot eget selvbilde, og kanskje økonomiske pro- 

fesjonsinteresser, bidrar muligens også til å sperre for en økt formalisering, automatisering 

og forbedring av kliniske vurderinger. 

Mange ser trolig også etiske problemer knyttet til å erstatte "godt" menneskelig skjønn 

med "kalde" mekaniske rutiner. Dawes (1988) har følgende kontante svar på den innvend- 

ingen: 

”Friends tell me that important human judgment is often ineffable, unsystematic, 

and intuitive. I agree. And it is, therefore, often bad. Friends tell me that decisions 

that are effable, systematic, and explicit are dehumanized decisions. I agree. But 

they are "dehumanized" only for the decision maker, and I am concerned with the 

consequences for the people affected by the decisions. Bad decisions are dehumanizing 

for them” (s. 150). 

Nå skal det også understrekes at det langt fra er enkelt å utforme og integrere effektive mek- 

aniske rutiner i klinisk praksis. Det er også en vesentlig grunn til at vi i så liten grad støtter 

oss til mekaniske rutiner.

I det minste: synliggjør usikkerheten! 

17 

Selv om man ikke har tro på at særlig mange vurderinger i egen klinisk praksis kan mekani- 

seres, så bør resultatene fra beslutningsforskningen motivere klinikere til å klargjøre hvor 

ens kunnskap slutter og det tvilsomme skjønnet begynner. 

Den enkleste type klinisk vurdering innebærer å vurdere hvor sterkt ett bestemt funn 

(X) indikerer at en person hører hjemme i en bestemt kategori (Y). X kan for eksempel være 

positiv mammografi eller bestemte lekeobservasjoner og Y brystkreft eller om et barn er 

misbrukt. Å avgjøre hvor sterkt X indikerer Y, svarer til å bestemme X sin prediktive verdi i 

forhold til Y. Man må da kjenne hyppigheten (f.eks. pr. 1000) av både sanne positive (SP) 

og falske positive (FP), dvs. både hvor hyppig X er tilstede samtidig med Y og hvor ofte X 

er tilstede uten at Y er tilstede. Dersom klinikere ”presser seg” til å anslå sanne og falske 

positive, og så beregner Xs prediktive verdi ut fra det (SP/[SP + FP] gir svaret), så blir man 

også klar over den meget store usikkerheten som ofte knytter seg til å slutte Y fra X (positiv 

mammografi, med tallene i Eddys studie ovenfor, indikerer for eksempel brystkreft med 

bare 8/[8 + 99] = 7.5% sikkerhet.) Kjenner man ikke hyppigheten av både sanne og falske 

positive, som man sjelden gjør i klinisk psykologi, så har man heller ikke noe grunnlag for å 

uttale seg om hvor sterkt X indikerer Y. Likevel kan man regelmessig lese i media at klin- 

iske sakkyndige gjør nettopp det. I for eksempel Bjugn-saken trakk de sakkyndige avgjør- 

ende konklusjoner om at barn var misbrukt på grunnlag av bestemte funn, uten å ha tilgang 

til data om hvor ofte man finner tilsvarende funn på barn som ikke er misbrukt. 

Generelt kan man eksplisere grunnlaget for egen klinisk praksis ved å skille ut delvur- 

deringer man regelmessig foretar, bestemme de mest relevante data for hver av dem, anslå 

disse datas prediktive verdi, spesifisere grunnlaget for anslagene osv. I tillegg til å være en 

forutsetning for eventuell senere mekanisering av vurderingene, vil en slik enkel kunn- 

skapsklargjøring ha mange positive sideeffekter. Den vil, som nevnt, ganske sikkert øke 

bevisstheten om den meget store usikkerheten som (trolig) alltid vil være knyttet til psyko- 

logiske vurderinger av enkeltindivider. En slik klargjøring vil også bedre muligheten for 

erfaringslæring, og dessuten kunne ha en heuristisk funksjon for forskning som både kan 

redusere og synliggjøre (tallfeste) usikkerheten knyttet til egne vurderinger.

Avslutning 

18 

Tradisjonelt er klinisk ekspertise blitt betraktet som intern, personavhengig og implisitt, 

altså som eksklusivt tilhørende eksperten. Det er blitt godtatt at klinikere avgir ekspertvur- 

deringer om enkeltindivider uten å spesifisere grunnlaget for dem. Dette tror jeg er i ferd 

med å endres. Ikke bare på grunn av sterk intern faglig kritikk (f.eks. Dawes, 1994; Ceci & 

Bruck, 1995; Meehl, 1997), men også fordi forskningsbasert klinisk kunnskap nå er i ferd 

med å bli lett tilgjengelig for alle via medier som internett. Jevnlige oppslag i media indi- 

kerer også at offentligheten begynner å bli utålmodig med for eksempel (ofte motstridende) 

kliniske sakkyndige som ikke har annen begrunnelse for sine vurderinger enn henvisninger 

til sin utdanning, lange erfaring og akademiske tittel. Jeg er ganske sikker på at klinisk pro- 

fesjonsutøvelse i tida framover må basere seg i økende grad på ekstern, standardisert, eks- 

plisitt, og dermed også inkluderende, kunnskap. Om ikke initiativet til en slik omlegging tas 

fra de kliniske profesjonene selv, vil andre minne oss på det. 

En vanlig måte en del klinikere avviser forskning som krever endringer i status quo på, 

er å stemple den som ”positivisme.” I en tidligere artikkel i Tidsskriftet der jeg drøfter imp- 

likasjoner av dels samme type forskning som her (Kirkebøen, 1995), fikk jeg et svar som 

sluttet slik: "Som konklusjon vil jeg påpeke at å postulere akademisk psykologi som grunn- 

laget for klinisk psykologi er å blåse til ny ’positivismedebatt’" (Elgarøy, 1995, s. 1041). 

Dette er å sage over den greina man som klinisk psykolog sitter på. Forankring i akademisk 

forskning er jo nettopp det som gir profesjonen legitimitet. Kravet til slik forankring er 

eneste grunn til at vi går sju år på et universitet før vi får praktisere som psykologer. Likevel 

er slik ”positivisme-avvisning” av viktig forskning så utbredt at Paul Meehl, som for øvrig 

både er "positivistisk" forsker og praktiserende psykoanalytiker, tar den opp i sin takketale i 

forbindelse med at han (og Eysenck) fikk APAs (Society of Clinical Psychology) "hundre- 

årspris" for fremragende (”positivistiske”) bidrag til faget: 

”Some clinicians with obscurantist motives, who do not wish to take intellectual 

responsibility for credentialing their alleged knowledge, take illegitimate 

comforts from the death of logical positivism as a philosophical movement (...) 

The distinction between knowledge that brings credentials with it and purported 

knowledge that does not has nothing whatsoever to do with logical positivism as a 

discredited philosophical movement (...) Clinicians who side-steps the issue of 

knowledge credentials by positivist-bashing are deceiving themselves with a 

philosophical red herring” (Meehl, 1997, s. 96). 

Uansett, det bør være åpenbart at det har ingenting med positivisme å gjøre at man forsøker 

å spesifisere og eksplisere basis for egen profesjonsutøvelse. Det har heller ingen ting med

19 

positivisme å gjøre at man forsøker å finne måter å håndtere informasjon på som gir 

systematisk bedre resultater enn eget skjønn. Det dreier seg derimot om skjebnen til dem 

man er satt til å vurdere og behandle, om etikk og profesjonell redelighet. 

Referanser 

Brehmer, B. (1980). In one word: Not from experience. Acta psychologica, 45, 223-241. 

Camerer, C. F. (1981). General conditions for the success of bootstrapping models. Organizational 

behavior and human performance, 27, 411-422. 

Camerer, C. F., & Johnson, E. J. (1991). The process-performance paradox in expert 

judgment. I K. A. Ericsson, & J. Smith (Eds.), Toward a general theory of expertise (ss. 

195-217). Cambridge: Cambridge University Press. 

Ceci, J. J., & Bruck, M. (1995). Jeopardy in the courtroom. Washington, CD: APA. 

Chapman, L. J., & Chapman, J. P. (1969). Illusory correlation as an obstacle to the use of 

valid psychodiagnostic signs. Journal of abnormal psychology, 74, 271-280. 

Chi, M. T, Glaser, R., & Farr, M. J. (Eds.). (1988). The nature of expertise. Hillsdale, NJ: 

Erlbaum. 

Dawes, R. M. (1971). A case study of graduate admissions. American Psychologist, 26, 

180-88. 

Dawes, R. M. (1988). You can't systematize human judgment: Dyslexia. I J. Dowie & A. 

Elstein (Eds.), Professional judgment (ss. 150-162). Cambridge: Cambridge University 

Press. 

Dawes, R. M. (1994). House of cards. Psychology and psychotherapy built on myths. New 

York: Free Press. 

Dawes, R. M., & Corrigan B. S. (1974). Linear models in decision making. Psychological 

Bulletin, 81, 95-106. 

Dawes, R. M., Faust, D., & Meehl, P. E. (1989). Clinical versus actuarial judgment. 

Science, 243, 1668-1673. 

Dreyfus, H. L. (1972). What computers can't do. New York: Harper & Row . 

Dreyfus, H. L. (1985). Competent systems: the limits of calculative rationality. Foredragsmanuskript, 

20.5, Universitetet i Oslo. 

Dreyfus, H. L., & Dreyfus, E. (1986). Mind over machine. The power of human intuition 

and expertise in the era of the computer. New York: The Free Press. 

Eddy, D. M. (1982). Probabilistic reasoning in clinical medicine: problems and opportunities. 

I D. Kahneman, P. Slovic, & A. Tversky (Eds.), Judgment under uncertainty: 

Heuristics and biases (ss. 249-67) Cambridge, U.K.: Cambridge University Press. 

Einhorn, H. J. (1972). Expert measurement and mechanical combination. Organizational 

behavior and human performance, 7, 86-106. 

Elgarøy, S. (1995). Med hodet i behold. Tidsskrift for Norsk Psykologforening, 32, 1040- 

1041. 

Ericsson, K. A., & Lehmann, A. C. (1996). Expert and exceptional performance: evidence 

of maximal adaptation to task constraints. Annual review of psychology, 47, 273-305.

20 

Faust, D. (1991). What if we had really listened? Present reflections on altered pasts. I D. 

Cicchetti & W. M. Grove (Eds.), Thinking clearly about psychology. Vol 1: Matters of 

Public Interest (ss. 185–216). Minneapolis: University of Minnesota Press. 

Faust, D., Guilmette, T. J. Hart, K., Arkes, H. R., Fishburne, F. J., & Davey, L. (1988). 

Neuropsychologists' training, experience, and judgment accuracy. Archives of clinical 

neuropsychology, 3, 145-163. 

Garb, H. N. (1989). Clinical judgment, clinical training, and professional experience. Psychological 

Bulletin, 105, 387-92. 

Gigerenzer, G. (1996). On narrow norms and vague heuristics: a reply to Kahneman and 

Tversky (1996). Psychological Review, 103, 592-596. 

Gilovich, T. (1991). How we know what isn't so. The fallibility of human reason in 

everyday life. New York: Free press. 

Goldberg, L. R. (1965). Diagnosticians versus diagnostic signs: The diagnosis of psychosis 

versus neurosis from the MMPI. Psychological Monographs 79, 9, hele nr. 602, 1-28. 

Grove, W. M., & Meehl, P. E. (1996). Comparative efficiciency of informal (subjective, 

impresionistic) and formal (mechanical, algorithmic) prediction procedures: The clinical-statistical 

controversy. Psychology, Public Policy, and Law, 3, 1-31. 

Holt, R. R. (1958). Clinical and statistical prediction: A reformulation and some new data. 

Journal of Abnormal and Social Psychology, 56, 1-12. 

Hughes, H. D. (1917). An interesting corn seed experiment. The Iowa Agriculturalist, 17, 

424-425. 

Kahneman, D., & Tversky, A. (1996). On the reality of cognitive illusions: a reply to 

Gigerenzer's critique. Psychological Review, 103, 582-591. 

Kirkebøen, G. (1993). Psykologi, informasjonsteknologi og ekspertise. Doktoravhandling, 

Institutt for lingvistikk og filosofi, Universitetet i Oslo. 

Kirkebøen, G. (1995). En bombe under soveputen? Tidsskrift for Norsk Psykologforening, 

32, 426-434. 

McArthur, C. C. (1956). The dynamic model. Journal of Counseling Psychology, 3, 168- 

71. 

Meehl, P. E. (1954). Clinical versus statistical prediction: A theoretical analysis and a review 

of the evidence. Minneapolis: University of Minnesota Press. 

Meehl, P. E. (1957). When shall we use our heads instead of the formula? Journal of Counseling 

Psychology, 4, 268-273. 

Meehl, P. E. (1986). Causes and effects of my disturbing little book. Journal of Personality 

assessment, 50, 370-375. 

Meehl, P. E. (1997). Credentialed persons, credentialed knowledge. Clinical psychology: 

science and practice, 4, 91-98. 

Miller, G. A. (1956). The magical number seven plus or minus two: some limits in our capacity 

for processing information. Psycological Review, 63, 81- 97. 

Newell, A., Shaw, J. C., & Simon, H. A. (1958). Elements of a theory of human problem 

solving. Psychological review, 65, 151-166. 

Newell, A., & Simon, H. A. (1981). Computer science as empirical inquiry. I J. Haugeland 

(Ed.), Mind design (ss. 35-66). Montgomery, Vermont: Bradford/MIT.

21 

Oskamp S. (1965). Overconfidence in case study judgment. Journal of consulting psychology, 

63, 81-97. 

Polanyi, M. (1958). Personal knowledge. London: Routeledge & Kegan. 

Reichelt, S. (Red.). (1994). Psykologi i forandring. Oslo: Norsk Psykologforening. 

Sarbin, T. R. (1986). Prediction and clinical inference: Forty years later. Journal of personality 

assessment, 50, 362-369. 

Sawyer, J. (1966). Measurement and prediction, clinical and statistical. Psychological Bulletin, 

66, 178-200. 

Shannon, C. (1948). A mathematical theory of communication. Bell System technichal 

journal, 27, 379-423. 

Shanteau, J. (1992). Competence in experts: The role of task characteristics. 

Organizational behavior and human decision processes, 53, 252-266. 

Simon, H. A. (1955). A behavioral model of rational choice. Quarterly journal of economics, 

69, 99-118. 

Simon, H. A. (1978). Rationality as process and product of thought. American economic 

review, 68, 1-16. 

Simon, H. A., & Chase, W. G. (1973). Skill in chess. American scientists, 63, 394-403. 

Simon, H. A., & Newell, A. (1958). Heuristic problem solving. Operation research, 6, 1– 

10. 

Smedslund, J. (1963). The concept of correlation in adults. Scandinavian journal of psychology, 

4, 165-173. 

Turing, A. (1947/1969). Intelligent Machinery. I B. Meltzer, & D. Michie (Eds.), Machine 

Intelligence, 5 (ss. 3–23). Edinburgh: Edinburgh University Press. 

Turing, A. (1950). Computing machinery and intelligence. Mind, 59, 433-460. 

Tversky, A., & Kahneman, D. (1974). Judgement under uncertainty: heuristics and biases. 

Science, 185, 1124-31. 

Wiggins, J. S. (1973). Personality and prediction: Principles of personality assessment. 

Reading, MA: Addison-Wesley.

Hvorfor vurderer erfarne klinikere så dårlig enda de - Universitetet i ...

Create successful ePaper yourself

Delete template?

Save as template?