07.09.2013 Views

Sannolikhetslära – en introduktion

Sannolikhetslära – en introduktion

Sannolikhetslära – en introduktion

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Sannolikhetslära</strong><br />

<strong>–</strong><br />

<strong>en</strong> <strong>introduktion</strong>


Innehåll<br />

1 <strong>Sannolikhetslära</strong>ns grunder 3<br />

1.1 Varförbehövssannolikhetsläran? ................ 3<br />

1.2 Slumpförsök............................ 4<br />

1.3 Mängdläranssymbolspråk.................... 6<br />

1.3.1 Övningsuppgifter ..................... 9<br />

1.4 Atttilldelasannolikhetertillhändelser ............. 9<br />

1.4.1 Övningsuppgifter ..................... 12<br />

1.5 Kombinatorik ........................... 13<br />

1.5.1 Dragning med återläggning med hänsyn till ordning<strong>en</strong> . 14<br />

1.5.2 Dragning utan återläggning med hänsyn till ordning<strong>en</strong> 15<br />

1.5.3 Dragning utan återläggning utan hänsyn till ordning<strong>en</strong> 16<br />

1.5.4 Övningsuppgifter ..................... 18<br />

1.6 Räknereglerförsannolikheter .................. 19<br />

1.6.1 Komplem<strong>en</strong>tsannolikheter ................ 19<br />

1.6.2 Additionssats<strong>en</strong>...................... 20<br />

1.6.3 Betingadsannolikhet................... 24<br />

1.6.4 Obero<strong>en</strong>dehändelser................... 31<br />

1.6.5 Övningsuppgifter ..................... 34<br />

2 Diskreta slumpvariabler 35<br />

2.1 Vadär<strong>en</strong>slumpvariabel?..................... 35<br />

2.1.1 Övningsuppgifter ..................... 40<br />

2.2 Väntevärd<strong>en</strong>............................ 40<br />

2.2.1 Sannolikhetsfördelning<strong>en</strong>smedelvärde.......... 40<br />

2.2.2 Sannolikhetsfördelning<strong>en</strong>sspridning........... 42<br />

2.2.3 Övningsuppgifter ..................... 46<br />

2.3 Linjärfunktioneravslumpvariabler ............... 46<br />

2.4 Tvåpunktsfördeladslumpvariabel ................ 49<br />

2.4.1 Binomialfördelning<strong>en</strong>................... 51<br />

2.4.2 Hypergeometriskfördelning ............... 58<br />

2.4.3 Samband mellan Binomial- och Hypergeometrisk fördelning<br />

............................ 62<br />

2.4.4 Övningsuppgifter ..................... 65<br />

2.5 Poissonfördelning<strong>en</strong>........................ 66<br />

2.5.1 Poissonprocesser . . ................... 66<br />

2.5.2 Poissonapproximation av binomialfördelning<strong>en</strong>..... 68<br />

2.5.3 Väntevärd<strong>en</strong>förPoissonfördelning<strong>en</strong> .......... 71<br />

2.5.4 Övningsuppgifter ..................... 72<br />

1


3 Kontinuerliga slumpvariabler 73<br />

3.1 Vadär<strong>en</strong>kontinuerligslumpvariabel?.............. 73<br />

3.2 Normalfördelning<strong>en</strong>........................ 79<br />

3.2.1 Normalfördelning<strong>en</strong>seg<strong>en</strong>skaper............. 79<br />

3.2.2 Attanvändatabellsamling<strong>en</strong>............... 83<br />

3.2.3 Standardisering...................... 88<br />

3.2.4 Övningsuppgifter ..................... 94<br />

3.3 Normalapproximationavbinomialfördelning<strong>en</strong>......... 95<br />

3.3.1 Övningsuppgifter .....................101<br />

3.4 C<strong>en</strong>trala gränsvärdessats<strong>en</strong> (CGS) . . . .............101<br />

3.4.1 Ettinledandeexempel ..................101<br />

3.4.2 Obero<strong>en</strong>de och likafördelade slumpvariabler (o.l.f.s.v.) . 104<br />

3.4.3 Väntevärd<strong>en</strong> för summor och medelvärd<strong>en</strong> av o.l.f.s.v. . 105<br />

3.4.4 C<strong>en</strong>tralagränsvärdessats<strong>en</strong>................107<br />

3.4.5 Hur fungerar normalapproximation av binomialfördelning<strong>en</strong>?<br />

..........................111<br />

3.4.6 Normalapproximation av Poissonfördelning<strong>en</strong> . . . . . 112<br />

3.4.7 Approximationsmöjligheter................113<br />

3.4.8 Övningsuppgifter .....................114<br />

3.5 Normalfördeladepopulationer ..................115<br />

A Formelförklaringar 119<br />

A.1 Beräkningsformelförvarians<strong>en</strong> .................119<br />

A.2 Väntevärd<strong>en</strong>avlinjärfunktioner.................119<br />

B Diskreta sannolikhetsfördelningar 119<br />

B.1 Binomialfördelning<strong>en</strong>.......................119<br />

B.2 Hypergeometriskfördelning ...................121<br />

B.3 Poissonfördelning<strong>en</strong>........................122<br />

B.3.1 Sannolikhetsfunktion<strong>en</strong>..................122<br />

B.3.2 Väntevärdeochvarians..................123<br />

C Svar till övningsuppgifterna 124<br />

2


1 <strong>Sannolikhetslära</strong>ns grunder<br />

1.1 Varför behövs sannolikhetsläran?<br />

Ideflesta situationer där man använder statistiska metoder är målet att<br />

ta reda på hur någon eg<strong>en</strong>skap (variabel) förhåller sig i <strong>en</strong> population. Det<br />

datamaterial man då förfogar över innehåller oftast information <strong>en</strong>bart för<br />

vissa individer i population<strong>en</strong>, dvs datamaterialet repres<strong>en</strong>terar ett stickprov<br />

från d<strong>en</strong> aktuella population<strong>en</strong>.<br />

Exempel 1 Antag att vi vill studera intresset för ett EMU-medlemskap och<br />

betraktar (d<strong>en</strong> kvalitativa) variabeln “Är du för ett EMU-medlemskap”. En<br />

totalundersökning (folkomröstning) är alldeles för kostsam och tidskrävande<br />

och därför tas istället ett stickprov ur d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong>. Frågan är hur<br />

man bäst går tillväga för att använda d<strong>en</strong>na stickprovsinformation till att dra<br />

slutsatser om helhet<strong>en</strong>, dvs hur variabeln “Är du för ett EMU-medlemskap”<br />

förhåller sig i hela population<strong>en</strong>. ¤<br />

Frågeställning<strong>en</strong> i exemplet ovan är mycket vanlig i statistiska sammanhang<br />

och kräver därför <strong>en</strong> lösning. Först skall man ha klart för sig att varje<br />

slutsats som bygger på information från ett stickprov är förknippat med <strong>en</strong><br />

osäkerhet, dvs det finns alltid <strong>en</strong> risk för att man drar <strong>en</strong> felaktig slutsats.<br />

Vi kan ha haft <strong>en</strong> rejäl dos “otur” och fått resultat i stickprovet som inte<br />

över<strong>en</strong>sstämmer med hur det ser ut i population<strong>en</strong>. D<strong>en</strong> stora fördel<strong>en</strong> med<br />

statistiska metoder är att man kan få <strong>en</strong> uppfattning om hur stor d<strong>en</strong>na risk<br />

är, vilket ger möjlighet<strong>en</strong> att bedöma när stickprovet ger tillräckligt säkra<br />

resultat.<br />

Målet med undersökning<strong>en</strong> i exemplet ovan är antaglig<strong>en</strong> att få <strong>en</strong> uppfattning<br />

om d<strong>en</strong> verkliga andel<strong>en</strong> EMU-anhängare i d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong>.<br />

Låt oss kalla d<strong>en</strong>na okända andel för π. Antag att vi tar ett (slumpmässigt)<br />

stickprov ur d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> och får att 48% av dessa är för ett sv<strong>en</strong>skt<br />

medlemskap i EMU. Vad kan vi dra för slutsatser om π utifrån d<strong>en</strong>na<br />

proc<strong>en</strong>tandel? Antag att ett annat statistiskt institut gör <strong>en</strong> liknande undersökning<br />

och får motsvarande andel till 52%. En tredje undersökning ger<br />

andel<strong>en</strong> EMU-anhängare till 53%. Vilk<strong>en</strong> av dessa undersökningar skall vi<br />

tro på? Ing<strong>en</strong> av dem är antaglig<strong>en</strong> bättre än någon annan och anledning<strong>en</strong><br />

till att dom inte ger samma resultat beror på sk slumpmässig variation. I<br />

och med att vi <strong>en</strong>bart använder information från ett stickprov kommer vi att<br />

ha ett visst mått av “otur” som gör att vi inte kommer att få exakt samma<br />

resultat varje gång och inte heller samma resultat som <strong>en</strong> totalundersökning<br />

skulle gett. Detta innebär att vi i ett stickprov antaglig<strong>en</strong> kommer att<br />

3


få ett missvisande resultat, vilket dock inte är speciellt alarmerande (när vi<br />

väl vet om det inträffar). När vi tagit ett stickprov och beräknat andel<strong>en</strong><br />

EMU-anhängare vet vi inte hur missvisande just detta stickprov är. Vad vi<br />

dock kan ta reda på är hur missvisande stickprovsresultat i regel är. För att<br />

utifrån stickprovsresultat kunna dra statistiskt korrekta slutsatser måste vi<br />

således först få <strong>en</strong> uppfattning om hur slumpmässig variation fungerar, dvs<br />

vi måste ta reda på vilka eg<strong>en</strong>skaper ett stickprov har innan det är taget.<br />

Detta är sannolikhetslära.<br />

1.2 Slumpförsök<br />

R<strong>en</strong>t slumpmässigt, eller sannolikhetsmässigt, visar det sig att procedur<strong>en</strong> att<br />

ta ett stickprov har mycket gem<strong>en</strong>samt t.ex. med kast med tärning, slantsingling,<br />

eller dragandet av lotter i <strong>en</strong> tombola.<br />

Exempel 2 Antag t.ex. i föregå<strong>en</strong>de exempel att halva d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong><br />

består av EMU-anhängare. Att slumpmässigt välja <strong>en</strong> person och<br />

undersöka huruvida han eller hon är EMU-anhängare är sannolikhetsmässigt<br />

ekvival<strong>en</strong>t med att singla <strong>en</strong> slant där t.ex. krona repres<strong>en</strong>terar EMUanhängare.<br />

¤<br />

Exempel 3 I <strong>en</strong> liknande undersökning är vi intresserade av andel<strong>en</strong> moderater<br />

i d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong>. Antag att <strong>en</strong> sjättedel av väljarkår<strong>en</strong> består<br />

av moderater. Att slumpmässigt välja <strong>en</strong> person och undersöka huruvida han<br />

eller hon är moderat är sannolikhetsmässigt ekvival<strong>en</strong>t med att kasta <strong>en</strong> vanlig<br />

sexsidig tärning där t.ex. sidan sex repres<strong>en</strong>terar moderat (och de övriga<br />

sidorna repres<strong>en</strong>terar icke-moderater). ¤<br />

Förutom ovanstå<strong>en</strong>de paralleller med verklighet<strong>en</strong> gäller dessutom att<br />

slantsingling och tärningskast är relativt <strong>en</strong>kla att få grepp om. Därför används<br />

dessa ofta som exempel vid första kontakt<strong>en</strong> med sannolikhetsläran.<br />

Varje försök, eller experim<strong>en</strong>t, där vi på förhand inte exakt kan förutse resultatet<br />

kallas för ett slumpförsök, eller slumpexperim<strong>en</strong>t. Målet är att för ett<br />

sådant slumpförsök hitta <strong>en</strong> lämplig matematisk beskrivning, <strong>en</strong> s.k. slumpmodell.<br />

Lite luddigt formulerat bestämmer vi i <strong>en</strong> slumpmodell vad som kan<br />

hända och med vilka sannolikheter detta händer. Innan vi mer konkret förklarar<br />

vad detta innebär behöver vi lite terminologi.<br />

Resultatet av ett slumpförsök kallas för ett utfall. Mängd<strong>en</strong> av alla tänkbara<br />

utfall kallas för försökets utfallsrum. Utfallsrummet brukar betecknas med<br />

bokstav<strong>en</strong> S och de <strong>en</strong>skilda utfall<strong>en</strong> betecknas allmänt med ei (där indexet<br />

i anger det i:te utfallet i d<strong>en</strong> ordning vi ställt upp).<br />

4


Exempel 4 Vi återgår till exemplet där vi kastar <strong>en</strong> tärning. Vi har då<br />

utfallsrummet<br />

där vi använder mängdklamrar för att visa att detta är <strong>en</strong> mängd. Antag att<br />

vi istället singlar <strong>en</strong> slant. Utfallsrummet blir då<br />

¤<br />

Då man anger sitt utfallsrum är det viktigt att alla tänkbara utfall finns<br />

medochattutfall<strong>en</strong>intekaninträffa samtidigt.Dvsexakt ett av utfall<strong>en</strong> i<br />

utfallsrummet kommer att inträffa närförsöketutförs.<br />

Vanligtvis är vi dock inte intresserade av utfall<strong>en</strong> i sig utan av någon<br />

eller några intressanta eg<strong>en</strong>heter hos dessa. På detta sätt kommer <strong>en</strong> del<br />

av utfall<strong>en</strong> i olika utsträckning ha samma eg<strong>en</strong>skaper vilket gör att vi kan<br />

“klumpa” ihop utfall<strong>en</strong>. En sådan klump eller mängd av utfall som vi av<br />

någon anledning anser ha någonting gem<strong>en</strong>samt kallas för <strong>en</strong> händelse. För<br />

att beteckna händelser används vanligtvis versaler i början av alfabetet, dvs<br />

exempelvis A, B och C.<br />

Exempel 5 Antag att vi slumpmässigt väljer <strong>en</strong> person ur föreläsningssal<strong>en</strong>.<br />

Det finns då lika många utfall som det finns personer i sal<strong>en</strong>. Nu är vi antaglig<strong>en</strong><br />

inte intresserade av personerna i sig utan huruvida dom har <strong>en</strong> viss<br />

eg<strong>en</strong>skap. T.ex. kan vi vara intresserade av huruvida d<strong>en</strong> valde är man eller<br />

kvinna, eller huruvida d<strong>en</strong> valde person<strong>en</strong> cyklade till föreläsning<strong>en</strong>. Vi kan<br />

då skapa händelserna<br />

A = D<strong>en</strong> valde är <strong>en</strong> man<br />

B = D<strong>en</strong> valde cyklade till skolan<br />

som då består av alla utfall där d<strong>en</strong> valde är <strong>en</strong> man, respektive alla utfall<br />

där d<strong>en</strong> valde cyklade till föreläsning<strong>en</strong>. Det nämndes ovan att utfall inte kan<br />

inträffa samtidigt. Detta är inget krav då man konstruerar sina händelser.<br />

Antag att d<strong>en</strong> slumpmässigt valde person<strong>en</strong> blev “Conny”, dvs slumpförsökets<br />

utfall blev<br />

e = Conny<br />

Detta utfall ingår i händels<strong>en</strong> A och vi säger då att händels<strong>en</strong> A har inträffat.<br />

M<strong>en</strong> det är fullt möjligt att Conny cyklade till föreläsning<strong>en</strong> vilket då betyder<br />

att äv<strong>en</strong> händels<strong>en</strong> B inträffat. ¤<br />

5


Ideflesta situationer utförs sådana <strong>en</strong>kla slumpförsök om och om ig<strong>en</strong>. Då<br />

SIFO eller något annat opinionsinstitut gör <strong>en</strong> väljarundersökning intervjuas<br />

normalt mellan 1500 och 2000 personer. I dessa situationer betraktas varje<br />

tänkbart stickprov som ett utfall.<br />

Exempel 6 Antag att vi slumpmässigt i tur och ordning väljer ut tre personer<br />

i föreläsningssal<strong>en</strong> och ställer frågan “Cyklade Du till dag<strong>en</strong>s föreläsning?”.<br />

Låter vi J stå för Ja och N stå för Nej kan utfallsrummet beskrivas<br />

via<br />

S = {JJJ,JJN; JNJ,NJJ,JNN,NJN,NNJ,NNN}<br />

Frågar vi <strong>en</strong> person består utfallsrummet av <strong>en</strong>bart två utfall m<strong>en</strong> om vi<br />

sedan utökar till tre personer får vi som i exemplet åtta utfall. Skulle vi<br />

ställa “EMU-frågan” till 2 000 personer i d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> skulle vi<br />

ha 22000 tänkbara utfall vilket är ett mycket stort tal och det är inte rimligt<br />

att skriva upp alla dessa utfall i ett utfallsrum. Som nämndes ovan är vi dock<br />

antaglig<strong>en</strong> inte intresserade av utfall<strong>en</strong> i sig utan av händelser. I det här fallet<br />

är det troligtvis av intresse att se hur många av de utvalda som cyklade till<br />

föreläsning<strong>en</strong> vilket t.ex. gör händels<strong>en</strong><br />

B2 = Två av de valda cyklade till föreläsning<strong>en</strong><br />

intressant. D<strong>en</strong>na händelse består av utfall<strong>en</strong><br />

B2 = {JJN,JNJ,NJJ}<br />

De övriga intressanta händelserna är B0,B1, och B3. ¤<br />

I Exempel 6 ovan gäller att ing<strong>en</strong> av händelserna B0 till B3 kan inträffa<br />

samtidigt och dessutom att exakt <strong>en</strong> av dessa händelser kommer att inträffa.<br />

Dom sägs vara uttömmande (täcker hela utfallsrummet) och parvis disjunkta<br />

(två händelser kan inte inträffa samtidigt). Händelser med d<strong>en</strong>na eg<strong>en</strong>skap<br />

kommer vi att ha nytta av lite s<strong>en</strong>are. För att på bästa sätt utnyttja händelser<br />

använder vi oss av mängdlärans symbolspråk.<br />

1.3 Mängdlärans symbolspråk<br />

Utfallsrummet S beskrivs oftast som <strong>en</strong> rektangel. Utfall<strong>en</strong> kan då symboliseras<br />

som prickar i d<strong>en</strong>na rektangel m<strong>en</strong> oftast utelämnas prickarna och det<br />

är underförstått att dom finns där. En händelse åskådliggörs nu vanligtvis<br />

med <strong>en</strong> cirkel (eller ellips) i rektangeln och det är åter underförstått att alla<br />

utfall som tillhör händels<strong>en</strong> befinner sig inom d<strong>en</strong>na cirkel. Sedan kan fler<br />

händelser beskrivas g<strong>en</strong>om att fler cirklar ritas och det faktum att händelser<br />

kan inträffa samtidigt gör att cirklarna överlappar varandra.<br />

6


Exempel 7 Återgår vi till Exempel 5 där<strong>en</strong>personurföreläsningssal<strong>en</strong><br />

skall väljas ut och de aktuella händelserna är<br />

får vi diagrammet<br />

¤<br />

A = D<strong>en</strong> valde är <strong>en</strong> man<br />

B = D<strong>en</strong> valde cyklade till skolan<br />

S<br />

A<br />

Diagrammet i exemplet ovan kallas för ett V<strong>en</strong>n-diagram och används<br />

flitigt i sannolikhetsläran då de utgör ett utmärkt stöd för förståelse av sannolikhetsmässiga<br />

besvärligheter. Utifrån diagrammet ser vi att cirklarna och<br />

rektangeln tillsammans skapar nya områd<strong>en</strong>. Det är förutom cirklarna A och<br />

B framförallt tre av dessa områd<strong>en</strong> som är av intresse.<br />

• Komplem<strong>en</strong>tet.Tillvarjehändelsefinns <strong>en</strong> komplem<strong>en</strong>thändelse som<br />

består av alla utfall som inte tillhör händels<strong>en</strong>. För händels<strong>en</strong> A finns<br />

således <strong>en</strong> komplem<strong>en</strong>thändelse A. I exemplet ovan betyder<br />

A = D<strong>en</strong> valde är inte <strong>en</strong> man<br />

= D<strong>en</strong> valda är <strong>en</strong> kvinna<br />

som i V<strong>en</strong>n-diagrammet åskådliggörs via<br />

7<br />

A<br />

B<br />

A


• Union<strong>en</strong>. Vi söker nu de utfall som tillhör åtminstone <strong>en</strong> de båda<br />

händelserna A och B. D<strong>en</strong>na händelse betecknas med A∪B och uttalas<br />

“A union B” eller “A eller B” där eller skall tolkas som och/eller. I<br />

exemplet ovan får vi betydels<strong>en</strong><br />

A ∪ B = D<strong>en</strong> valde är man och/eller har cyklat till föreläsning<strong>en</strong><br />

I V<strong>en</strong>n-diagrammet får vi att union<strong>en</strong> utgörs av det skuggade området<br />

S<br />

A<br />

• Snittet. Vi söker nu de utfall som tillhör båda händelserna A och B.<br />

D<strong>en</strong>na händelse betecknas med A ∩ B och uttalas “A snitt B” eller “A<br />

och B”. I exemplet ovan får vi betydels<strong>en</strong><br />

A ∩ B = D<strong>en</strong> valde är <strong>en</strong> man som har cyklat till föreläsning<strong>en</strong><br />

I V<strong>en</strong>n-diagrammet får vi att snittet utgörs av det skuggade området<br />

S<br />

A B<br />

Ibland kan det hända att händelserna A och B inte överlappar, vilket t.ex.<br />

gäller för A och A. Man säger då att händelserna är disjunkta,ellerömsesidigt<br />

uteslutande eller ömsesidigt oför<strong>en</strong>liga. A och B har då inga gem<strong>en</strong>samma<br />

utfall vilket åskådliggörs via<br />

A ∩ B = ∅<br />

där ∅ är d<strong>en</strong> tomma mängd<strong>en</strong>, dvs <strong>en</strong> “mängd” utan något innehåll.<br />

8<br />

A ∩ B<br />

B


1.3.1 Övningsuppgifter<br />

Uppgift 1 Lös uppgift 113.<br />

Uppgift 2 Lös uppgift 114.<br />

1.4 Att tilldela sannolikheter till händelser<br />

Innan vi börjar med att fundera över hur vi skall tilldela sannolikheter till<br />

olika händelser bör vi ta reda på vilka regler vi måste rätta oss efter. Först<br />

betecknar vi sannolikheter via<br />

Pr (A) =sannolikhet<strong>en</strong> att händels<strong>en</strong> A inträffar<br />

och sannolikheter anges som tal mellan 0 och 1. 1 Vi ställer upp följande<br />

axiom för tilldelning av sannolikheter. 2<br />

1. Pr (S) =1. Utfallsrummet är <strong>en</strong> s.k. säker händelse, dvs vi vet att vad<br />

som än händer kommer d<strong>en</strong>na händelse att inträffa. Därför tilldelas<br />

d<strong>en</strong>na sannolikhet<strong>en</strong> 1.<br />

2. 0 ≤ Pr (A) ≤ 1 för varje händelse A.<br />

3. Låt A och B vara disjunkta, dvs A ∩ B = ∅. Dågälleratt<br />

Pr (A ∪ B) =Pr(A)+Pr(B)<br />

Om A och B inte har några gem<strong>en</strong>samma utfall kan således unionsannolikhet<strong>en</strong><br />

bestämmas g<strong>en</strong>om att addera de <strong>en</strong>skilda sannolikheterna.<br />

Det är axiom 3 som är något svårare att omedelbart acceptera m<strong>en</strong> det<br />

kommer att bli klarare inom kort. Vi börjar med att illustrera med ett <strong>en</strong>kelt<br />

exempel.<br />

Exempel 8 Antag att betygsfördelning<strong>en</strong> på <strong>en</strong> viss kurs är<br />

Betyg U G VG<br />

Andel 30% 50% 20%<br />

Antag nu att vi slumpmässigt väljer ut <strong>en</strong> stud<strong>en</strong>t för att notera d<strong>en</strong>nes betyg.<br />

Då har vi ett slumpförsök med utfallsrummet<br />

S = {U,G,VG}<br />

1I vardagsspråk kan man äv<strong>en</strong> använda 0 till 100%.<br />

2Axiomsystemet konstruerades av d<strong>en</strong> ryske sannolikhetsteoretikern A Kolmogorov<br />

omkring 1933, 30 år gammal.<br />

9


med sannolikheterna<br />

Pr ({U}) = 0.3<br />

Pr ({G}) = 0.5<br />

Pr ({VG}) = 0.2<br />

Vi är nu intresserade av sannolikhet<strong>en</strong> att d<strong>en</strong> valde klarade kurs<strong>en</strong> och eftersom<br />

vi ser att 70% av stud<strong>en</strong>terna fick betyg<strong>en</strong> G eller VGdrar vi slutsats<strong>en</strong><br />

att sannolikhet<strong>en</strong> för detta är 0.7. Mer formellt löser vi uppgift<strong>en</strong> på följande<br />

sätt. Skapa <strong>en</strong> händelse som heter<br />

vilket betyder att<br />

A = D<strong>en</strong> valde klarade kurs<strong>en</strong><br />

A = {G} ∪ {VG}<br />

Eftersom ing<strong>en</strong> stud<strong>en</strong>t kan ha mer än ett betyg på <strong>en</strong> kurs följer att utfall<strong>en</strong><br />

G och VG betraktade som händelserna {G} och {VG} är disjunkta. Enligt<br />

axiom 3 ovan följer därför att<br />

¤<br />

Pr (A) =Pr({G} ∪ {VG}) =Pr({G})+Pr({VG}) =0.5+0.2 =0.7<br />

De <strong>en</strong>skilda utfall<strong>en</strong> är alltid disjunkta, vilket innebär att vi <strong>en</strong>ligt axiom<br />

3 alltid 3 kan beräkna sannolikhet<strong>en</strong> för <strong>en</strong> händelse g<strong>en</strong>om att summera<br />

utfallssannolikheterna för de <strong>en</strong>skilda utfall<strong>en</strong> som ingår i händels<strong>en</strong>.<br />

Eftersom utfall<strong>en</strong> utgör de minsta beståndsdelarna av ett slumpförsök kallas<br />

utfallssannolikheterna för elem<strong>en</strong>tarsannolikheter. Formellt sammanfattar vi<br />

ovanstå<strong>en</strong>de i följande definition.<br />

Definition 1 (Elem<strong>en</strong>tarsannolikheter) Betrakta ett slumpförsök med utfallsrum<br />

S = {e1,e2,...,eN}<br />

där N kan vara oändlighet<strong>en</strong> (∞). Varje utfall har då <strong>en</strong> sannolikhet, dvs<br />

det existerar tal<br />

Pr (ei) ≥ 0<br />

3 Detta gäller under förutsättning att utfallsrummet är diskret. Förkontinuerliga utfallsrum<br />

kommer alla <strong>en</strong>skilda utfall att ha sannolikhet<strong>en</strong> 0 varför d<strong>en</strong>na metod inte fungerar.<br />

Vi återkommer till kontinuerliga utfallsrum i kapitel 3<br />

10


för alla i =1, 2,...,N. När väl slumpförsöket utförs kommer något av dessa<br />

utfall att inträffa vilket i axiom<strong>en</strong> ges av att Pr (S) =1.Uttrycktielem<strong>en</strong>tarsannolikheter<br />

blir detta<br />

X<br />

Pr (ei) =<br />

i∈S<br />

NX<br />

Pr (ei) =1<br />

i=1<br />

För att bestämma sannolikhet<strong>en</strong> för <strong>en</strong> händelse A kan vi summera de ingå<strong>en</strong>de<br />

elem<strong>en</strong>tarsannolikheterna, dvs<br />

Pr (A) = X<br />

Pr (ei)<br />

¥<br />

i∈A<br />

G<strong>en</strong>om att känna dessa elem<strong>en</strong>tarsannolikheter kan vi alltså bestämma<br />

sannolikhet<strong>en</strong> för varje händelse. Hur bestämmer man då i allmänhet dessa<br />

elem<strong>en</strong>tarsannolikheter? Det finns i princip tre sätt att tilldela sannolikheter<br />

1. Teoretisk tilldelning. I det här fallet använder vi ett logiskt resonemang.<br />

D<strong>en</strong>na metod kan användas t.ex. vid tärningskast och lottodragning<br />

o.dyl.<br />

2. Empirisk tilldelning. Här använder man sig av sk relativa frekv<strong>en</strong>ser,<br />

vilket innebär att man studerar liknande slumpförsök under <strong>en</strong> tid och<br />

använder sedan som sannolikheter hur ofta, relativt sett, de olika utfall<strong>en</strong><br />

inträffar. Detta är vanligt t.ex. vid maskinfel och trafikolyckor.<br />

3. Subjektiv tilldelning. Man kan äv<strong>en</strong> (något mindre vet<strong>en</strong>skapligt)<br />

komma med egna slutsatser om chanser och risker. Man kan t.ex. bedöma<br />

risk<strong>en</strong> för regn till 30% eller att chans<strong>en</strong> för sv<strong>en</strong>sk vinst i nästa<br />

match i VM-kvalet till 50%.<br />

En i praktik<strong>en</strong> inte helt ovanlig situation är att samtliga utfall är lika<br />

sannolika. Eftersom summan av alla elem<strong>en</strong>tarsannolikheter skall bli 1 måste<br />

då gälla att<br />

Pr (ei) = 1<br />

, i =1, 2,...,N<br />

N<br />

Att bestämma sannolikhet<strong>en</strong> för <strong>en</strong> händelse är samma som att summera de<br />

ingå<strong>en</strong>de elem<strong>en</strong>tarsannolikheterna och låter vi<br />

g (A) =Antal utfall i A<br />

11


följer att<br />

Pr (A) = X<br />

i∈A<br />

Pr (ei) = 1<br />

N<br />

+ 1<br />

N<br />

+ ···+ 1<br />

N<br />

= g (A)<br />

N =<br />

AntalutfalliA<br />

=<br />

(1)<br />

Totala antalet utfall<br />

Det abstrakta problemet att bestämma sannolikhet<strong>en</strong> för <strong>en</strong> händelse har<br />

således överförts till det konkreta problemet att räkna utfall.<br />

Exempel 9 Vi återgår till slumpexperim<strong>en</strong>tet att kasta <strong>en</strong> tärning. Vi har<br />

då utfallsrummet<br />

Om inte tärning<strong>en</strong> är falsk är alla utfall lika sannolika och eftersom det totalt<br />

är sex utfall följer att<br />

Antag att vi är intresserade av att bestämma sannolikhet<strong>en</strong> för händels<strong>en</strong><br />

Eftersom alla utfall är lika sannolika räcker det att räkna utfall och det följer<br />

föga överraskande att<br />

Pr (A) = 3<br />

6 =0.5<br />

¤<br />

Nuärdetintealltidså<strong>en</strong>keltattsehurmångautfalldetfinns eller hur<br />

många utfall som ingår i <strong>en</strong> viss händelse. Dock gäller att det finns effektiva<br />

metoder för att räkna utfall som fungerar i många situationer vilket vi skall<br />

se i nästa avsnitt.<br />

1.4.1 Övningsuppgifter<br />

Uppgift 3 Lös uppgift 204.<br />

Uppgift 4 Lös uppgift 205.<br />

12


1.5 Kombinatorik<br />

I kombinatorik<strong>en</strong> skall vi komma upp med metoder för att räkna utfall för<br />

<strong>en</strong> typ av händelser som uppstår i många praktiska situationer. Ett utfall i<br />

ett slumpförsök är oftast <strong>en</strong> sammanslagning av ett antal <strong>en</strong>klare utfall som<br />

resulterat av att ett <strong>en</strong>kelt slumpförsök utförts vid upprepade tillfäll<strong>en</strong> eller<br />

att ett antal olika slumpförsök utförts. T.ex. behöver ett slumpförsök inte<br />

bestå i att kasta <strong>en</strong> tärning <strong>en</strong> gång utan att tärning<strong>en</strong> kastas flera gånger. Då<br />

vitarettstickprovfrån<strong>en</strong>storpopulationtarvisällanbara<strong>en</strong>personutan<br />

det <strong>en</strong>kla slumpförsöket utförs flera gånger tills vi har ett någorlunda stort<br />

stickprov. Det blir då besvärligare att komma fram till hur många utfall det<br />

totalt finns och hur många utfall det finns i dom händelser vi är intresserade<br />

av. Intressanta händelser utgörs ofta av dom utfall där lika många av dom<br />

valda har <strong>en</strong> viss eg<strong>en</strong>skap. I Exempel 6 är vi t.ex. mycket intresserade av<br />

att ta reda på antal utfall (kombinationer av tre personer) där exakt två<br />

av dessa cyklade till skolan. Då man skall bestämma hur många möjligheter<br />

det finns att utföra ett sådant sammanslaget slumpexperim<strong>en</strong>t överförs ofta<br />

problemet på <strong>en</strong> urnmodell, vilketinnebärattolikfärgadeellernumrerade<br />

bollar dras ur <strong>en</strong> urna. Problemet formuleras sedan som “På hur många sätt<br />

kan d<strong>en</strong>na dragning ske så att...?”. Svaret beror på förutsättningarna, dvs<br />

urnans sammansättning och på vilket sätt bollarna dras, och det visar sig<br />

vara två faktorer som är speciellt viktiga.<br />

1. Sker dragning<strong>en</strong> med eller utan återläggning,dvsskall<strong>en</strong>drag<strong>en</strong><br />

boll läggas tillbaks i urnan eller inte?<br />

• Kastas <strong>en</strong> tärning vid upprepade tillfäll<strong>en</strong> skall det finnas sex bollar<br />

i urnan numrerade från 1 till 6. När vi drar d<strong>en</strong> första boll<strong>en</strong><br />

repres<strong>en</strong>terar d<strong>en</strong> utfallet i det första kastet. Nästa kast skall ha<br />

samma möjligheter som det första varför boll<strong>en</strong> måste läggas tillbaka.<br />

I det här fallet är det dragning med återläggning.<br />

• Vid varje lottodragning bestämmer apparat<strong>en</strong> DraKula veckans<br />

vinstrad g<strong>en</strong>om att välja ut sju bollar bland de 35 i “urnan”. Varje<br />

nummer får dock vara med <strong>en</strong>dast <strong>en</strong> gång varför <strong>en</strong> drag<strong>en</strong> kula<br />

inte läggs tillbaks. Vid <strong>en</strong> lottodragning är det således dragning<br />

utan återläggning.<br />

2. Sker dragning med eller utan hänsyn till ordning<strong>en</strong>, dvs spelar<br />

det någon roll i vilk<strong>en</strong> ordning “bollarna” dras?<br />

• Antag att vi vill bestämma antalet tänkbara registreringsnummer<br />

på bilar. I det här fallet är det skillnad på t.ex. ABC123 och<br />

ACB123. Här tas således hänsyn till i vilk<strong>en</strong> ordning bollarna dras.<br />

13


• Vi återgår till problemet med dragning<strong>en</strong> av lottorad<strong>en</strong>. Antag<br />

att DraKula i tur och ordning väljer kulorna 1,2,3,4,5,6,7. Detta<br />

är dock exakt samma rad som om apparat<strong>en</strong> i tur och ordning<br />

valt 7,6,5,4,3,2,1. Vid lottodragning är det således dragning utan<br />

hänsyn till ordning<strong>en</strong>.<br />

Lyckas man klassificera slumpförsöket utifrån dessa båda faktorer har<br />

man antaglig<strong>en</strong> också löst problemet med att bestämma antalet utfall. Slår<br />

man ihop dessa båda faktorer blir det totalt fyra olika situationer av vilka<br />

vi på d<strong>en</strong> här kurs<strong>en</strong> <strong>en</strong>bart är intresserade av tre. Om inget annat anges<br />

förutsätts urnan bestå av N bollar varav vi skall välja ut n, dvsviskall<br />

successivt, på något sätt, dra n bollarururnan.<br />

1.5.1 Dragning med återläggning med hänsyn till ordning<strong>en</strong><br />

I det här fallet lägger vi efter varje dragning tillbaks d<strong>en</strong> dragna boll<strong>en</strong> och<br />

utför således n styck<strong>en</strong> id<strong>en</strong>tiska slumpförsök. Dessutom är det av vikt att<br />

känna till i vilk<strong>en</strong> ordning bollarna dragits. Eftersom urnan innehåller N<br />

bollar finns det i första försöket N möjliga utfall. Lika många möjligheter<br />

har vi vid varje dragning och eftersom ordning<strong>en</strong> är relevant får vi att totala<br />

antalet möjligheter blir<br />

N · N ·····N = N n<br />

Exempel 10 Hur många möjliga stryktipsrader finns det? Vi börjar med att<br />

bestämma urnans innehåll. Vid varje dragning finns tre möjligheter, 1, X och<br />

2, vilket betyder att urnan skall innehålla tre bollar (lämpligt markerade).<br />

Efter varje dragning skall boll<strong>en</strong> återföras till urnan eftersom samtliga tre<br />

tipsteck<strong>en</strong> kan förekomma flera gånger. Dessutom gäller att ordning<strong>en</strong> är av<br />

vikt eftersom t.ex. följd<strong>en</strong> 1X1 ... skiljer sig från X11 ....Viharsåledes<br />

dragning med återläggning med hänsyn till ordning<strong>en</strong> där vi skall dra n =13<br />

bollar ur <strong>en</strong> urna med N =3bollar. Antal möjliga tipsrader ges därför av<br />

¤<br />

3 13 = 1 594 323 rader<br />

En del slumpexperim<strong>en</strong>t består i att vi skall dra bollar ur olika urnor och<br />

det är inte säkert att samtliga dessa innehåller lika många bollar. Antag att<br />

vi i tur och ordning skall dra bollar ur k urnor som innehåller N1,N2,...,Nk<br />

bollar, respektive. Från ovan följer därmed att antal möjligheter ges av<br />

N1 · N2 ·····Nk<br />

Detta resultat kallas för multiplikationsprincip<strong>en</strong>.<br />

14


Exempel 11 Hur många registreringsnummer finns det till sv<strong>en</strong>ska bilar.<br />

Bland bokstäverna använder vi <strong>en</strong>bart de 26 första och vi antar att det är<br />

tillåtet att använda samtliga bokstavs- och nummerkombinationer. Det är<br />

åter dragning med återläggning eftersom samma bokstav och nummer får<br />

förekomma fler gånger och dessutom är ordning<strong>en</strong> av betydelse. Först drar vi<br />

tre bollar ur d<strong>en</strong> första urnan som innehåller N1 =26bollar och sedan tre<br />

bollar ur d<strong>en</strong> andra urnan som innehåller N2 =10bollar. Enligt multiplikationsprincip<strong>en</strong><br />

blir därför antalet möjliga registreringsnummer<br />

¤<br />

26 · 26 · 26 · 10 · 10 · 10 = 26 3 · 10 3 =17576000<br />

1.5.2 Dragning utan återläggning med hänsyn till ordning<strong>en</strong><br />

Nu ändrar vi förutsättningarna något och lägger inte tillbaka de dragna bollarna<br />

i urnan. I och med detta måste vi därför förutsätta att n ≤ N, dvs<br />

vi kan inte längre dra fler bollar än det finns i urnan. Vi förutsätter dock<br />

fortfarande att ordning<strong>en</strong> av de dragna bollarna är av betydelse. Eftersom<br />

urnans sammansättning nu ändras efter varje drag<strong>en</strong> boll kan vi se det som<br />

att bollarna dras ur olika urnor där d<strong>en</strong> första innehåller N bollar, d<strong>en</strong> andra<br />

N − 1 bollar osv. D<strong>en</strong> n:te boll<strong>en</strong> dras ur <strong>en</strong> urna med N − n +1bollar och<br />

<strong>en</strong>ligt multiplikationsprincip<strong>en</strong> följer därför att antal möjligheter ges av<br />

N · (N − 1) · (N − 2) ·····(N − n +1)<br />

I specialfallet då vi drar samtliga urnans bollar, dvs då n = N, får vi antal<br />

möjligheter till<br />

N · (N − 1) · (N − 2) ·····3 · 2 · 1=N!<br />

där d<strong>en</strong> sista beteckning<strong>en</strong> kallas för N-fakultet och är av stor vikt i sannolikhetsläran.<br />

Då vi utan återläggning drar bollar ur <strong>en</strong> urna och tar hänsyn<br />

till d<strong>en</strong> ordning i vilk<strong>en</strong> bollarna drogs får vi <strong>en</strong> sk ordnad delmängd eller<br />

permutation av urnans bollar. N-fakultet ger således hur många sådana permutationer<br />

det finns då samtliga urnans bollar dras.<br />

Exempel 12 I finalomgång<strong>en</strong> av Melodischlageruttagning<strong>en</strong> finns fem kandidaterkvar.Hurmångatänkbaraföljderfinns<br />

det för de fem första placeringarna?<br />

Ett bidrag kan förstås <strong>en</strong>bart finnas på <strong>en</strong> placering och ordning<strong>en</strong><br />

är av högsta betydelse vilket gör att vi söker antalet permutationer bland fem<br />

bidrag (bollar). Svaret ges således av<br />

¤<br />

5 · 4 · 3 · 2 · 1=5!=120<br />

15


Nu är det ju som sagt inte säkert att vi vill dra urnans samtliga bollar<br />

utan nöjer oss i det allmänna fallet med att dra n bollarururnan.Dock<br />

gäller att vi kan använda fakultetsbegreppet för att underlätta beteckning<strong>en</strong>.<br />

Detta görs g<strong>en</strong>om att utvidga utrycket så att multiplikation<strong>en</strong> sker för varje<br />

heltal ner till 1. För att inte resultatet skall påverkas måste vi dock införa<br />

<strong>en</strong> nämnarterm med motsvarande utvidgning. Antalet n-permutationer, eller<br />

ordnade delmängder av storlek n, ur <strong>en</strong> mängd med N objekt (bollar) ges av<br />

PN,n = N · (N − 1) · (N − 2) ·····(N − n +1)=<br />

= N · (N − 1) · (N − 2) ·····3 · 2 · 1<br />

(N − n) · (N − n − 1) ·····3 · 2 · 1 =<br />

N!<br />

(N − n)!<br />

Exempel 13 Utav tio personer skall tre personer väljas ut så att <strong>en</strong> blir<br />

ordförande, <strong>en</strong> blir sekreterare och <strong>en</strong> blir suppleant. På hur många sätt kan<br />

detta göras? Det är dragning utan återläggning och eftersom det är tre olika<br />

poster är det dessutom med hänsyn till ordning<strong>en</strong>. Vi kan se det som att d<strong>en</strong><br />

först valde är ordförande osv. Vi skall dra tre personer, dvs n =3,ur<strong>en</strong><br />

grupp om tio personer, dvs N =10,vilketinnebärattvisökertalet<br />

¤<br />

P10,3 = 10!<br />

7!<br />

=10· 9 · 8=720<br />

1.5.3 Dragning utan återläggning utan hänsyn till ordning<strong>en</strong><br />

Nu modifierar vi tillvägagångssättet ytterligare g<strong>en</strong>om att inte längre bry<br />

oss om i vilk<strong>en</strong> ordning bollarna dras. Då vi tog hänsyn till i vilk<strong>en</strong> ordning<br />

bollarna drogs intresserade vi oss för ordnade delmängder, m<strong>en</strong> nu är vi<br />

<strong>en</strong>bart intresserade av (oordnade) delmängder eller kombinationer.IExempel<br />

13 i föregå<strong>en</strong>de avsnitt skulle tre personer väljas till tre olika uppdrag. Antag<br />

nu istället att tre personer skall väljas till id<strong>en</strong>tiska uppdrag. Hur många<br />

möjligheter finns då? Eftersom uppdrag<strong>en</strong> är id<strong>en</strong>tiska är det nu oväs<strong>en</strong>tligt<br />

i vilk<strong>en</strong> ordning personerna väljs. Antag att personerna a, b och c valts. I<br />

Exempel 13 skulle vi förutom detta behövt information om i vilk<strong>en</strong> ordning<br />

dom valts. De olika möjligheterna är<br />

abc, acb, bac, bca, cab, cba<br />

Var och <strong>en</strong> av dessa sex följder skulle där gett olika resultat och måste därför<br />

beaktas. Nu kommer dock samtliga sex följder att ge samma resultat och skall<br />

därför betraktas som ett och samma utfall. Obero<strong>en</strong>de av vilka tre personer<br />

16


vi väljer ut kommer vi att få sex permutationer m<strong>en</strong> bara <strong>en</strong> kombination.<br />

Dvs i det här fallet kommer antalet permutationer vara sex gånger fler än<br />

antalet kombinationer. Vi får därför att antalet kombinationer i det här fallet<br />

blir<br />

720<br />

6 =120<br />

Hur kommer det sig att det blev just sex gånger fler permutationer? Eftersom<br />

tre personer valdes finns där 3! = 6 olika sätt att ordna dessa. Skulle vi<br />

istället valt fyra personer hade det funnits 4! = 24 olika sätt att ordna dessa<br />

vilket skulle inneburit 24 gånger fler permutationer än kombinationer. I det<br />

allmänna fallet väljs n bollar ur urnan vilket innebär att det då finns n! fler<br />

permutationer än kombinationer. Det allmänna resultatet blir därmed att<br />

antalet n-kombinationer, eller delmängder av storlek n, ur<strong>en</strong>mängdmedN<br />

objekt (bollar) ges av<br />

CN,n = PN,n<br />

n! =<br />

N!<br />

n! · (N − n)! =<br />

där d<strong>en</strong> sista beteckning<strong>en</strong> uttalas “N över n”.<br />

µ <br />

N<br />

n<br />

Exempel 14 Hur många lottorader finns det? Vi har redan tidigare kommit<br />

fram till att dragning<strong>en</strong> av lottorad<strong>en</strong> sker utan återläggning och utan hänsyn<br />

till ordning<strong>en</strong>. Eftersom n =7och N =35följer att antal lottorader är<br />

µ <br />

35<br />

C35,7 = =6724520<br />

7<br />

¤<br />

Exempel 15 Hur många (femkorts-)pokerhänder finns det? Här är det åter<br />

så att dragning<strong>en</strong> sker utan återläggning och ing<strong>en</strong> hänsyn tas till d<strong>en</strong> ordning<br />

i vilk<strong>en</strong> kort<strong>en</strong> kom. Eftersom n =5och N =52följer att antal pokerhänder<br />

ges av<br />

¤<br />

C52,5 =<br />

µ <br />

52<br />

=2598960<br />

5<br />

Vi kommer lite längre fram använda kombinatorik<strong>en</strong> för att bestämma<br />

sannolikheter för olika händelser m<strong>en</strong> vi ger redan här ett smakprov på hur<br />

detta kommer att gå till. Då alla utfall är lika sannolika har vi tidigare kommit<br />

fram till att<br />

Pr (A) =<br />

Antal utfall i A<br />

Totala antalet utfall<br />

17


Exempel 16 För att i Exempel 15 kunna bestämma sannolikheter för intressanta<br />

pokerhänder måste vi först definiera <strong>en</strong> händelse A och sedan bestämma<br />

antalet gynnsamma utfall. Låt t.ex.<br />

A = Flushpågiv<strong>en</strong><br />

där Flush, eller Färg, betyder att samtliga fem kort är i samma svit (hjärter,<br />

spader, ruter eller klöver). Antag att vi vill att samtliga fem kort är hjärter.<br />

Det finns tretton hjärter och således kan fem hjärter väljas på<br />

µ <br />

13<br />

C13,5 = =1287<br />

5<br />

sätt. Lika många möjligheter finns förstås för de övriga tre sviterna varför<br />

antalet gynnsamma utfall för händels<strong>en</strong> A ges av<br />

g (A) =4· 1 287 = 5 148<br />

Utav alla pokerhänder är det alltså 5 148 som innehåller <strong>en</strong> flush. Eftersom vi<br />

slumpmässigt väljer ut de fem kort<strong>en</strong> är samtliga pokerhänder lika sannolika,<br />

dvs sannolikhet<strong>en</strong> att få färg på giv<strong>en</strong> är<br />

Pr (A) = 4 · ¡ ¢ 13<br />

5 ¢ = 5148<br />

2598960 =0.00198<br />

¡ 52<br />

5<br />

eller ungefär <strong>en</strong> chans på 500. ¤<br />

1.5.4 Övningsuppgifter<br />

Uppgift 5 Lös uppgift 116.<br />

Uppgift 6 Lös uppgift 117.<br />

Uppgift 7 Lös uppgift 118.<br />

Uppgift 8 Lös uppgift 119.<br />

Uppgift 9 Adam och Bertil ingår i <strong>en</strong> grupp om sju personer<br />

a. På hur många sätt kan dessa sju personer placeras i <strong>en</strong> rad?<br />

b. I hur många uppställningar står Adam längst till vänster?<br />

c. I hur många uppställningar står Adam eller Bertil längst till vänster?<br />

18


d. I hur många uppställningar står Adam och Bertil på ytterplatserna?<br />

e. På hur många sätt kan dessa sju personer placeras i <strong>en</strong> ring?<br />

Uppgift 10 Jerry blir sug<strong>en</strong> på omelett och tar därför fyra ägg ur paketet.<br />

Vad han dock inte känner till är att bland äggpaketets tolv ägg finns två<br />

ruttna. Bestäm sannolikhet<strong>en</strong> att Jerry inte blir magsjuk (vilket han blir om<br />

han råkar få med ett ruttet ägg i omelett<strong>en</strong>). Jerry som inte är så hemma<br />

i köket märker inte i all hast om han skulle råka få ett ruttet ägg. Ledning:<br />

Räkna antalet utfall.<br />

1.6 Räkneregler för sannolikheter<br />

Från Kolmogorovs tre axiom följer ett antal användbara räkneregler för hur<br />

man räknar med sannolikheter för händelser som innebär att vi i många situationer<br />

slipper gå ner på elem<strong>en</strong>tarsannolikhetsnivå. Det visar sig nämlig<strong>en</strong><br />

att vi inte alltid behöver gå d<strong>en</strong> långa väg<strong>en</strong> för att bestämma sannolikheter<br />

utan kan utnyttja att vi redan känner sannolikheter för andra händelser.<br />

1.6.1 Komplem<strong>en</strong>tsannolikheter<br />

Definition<strong>en</strong> av komplem<strong>en</strong>thändelse ger att<br />

Av Axiom 1 följer därmed att<br />

A ∪ A = S<br />

Pr ¡ A ∪ A ¢ =Pr(S) =1<br />

och eftersom A och A dessutom är disjunkta ger Axiom 3 att<br />

1=Pr ¡ A ∪ A ¢ =Pr(A)+Pr ¡ A ¢<br />

eller ekvival<strong>en</strong>t<br />

Pr ¡ A ¢ =1− Pr (A)<br />

vilket är ett fullt logiskt resultat. Händer inte A händer garanterat dess<br />

komplem<strong>en</strong>t A. Detta är <strong>en</strong> räkneregel vi skall ha stor nytta av framöver.<br />

D<strong>en</strong> händelse vi är intresserade av är ofta relativt komplex och det kan då<br />

istället vara <strong>en</strong>klare att räkna ut sannolikhet<strong>en</strong> för komplem<strong>en</strong>thändels<strong>en</strong><br />

varmed sannolikhet<strong>en</strong> för d<strong>en</strong> aktuella händels<strong>en</strong> följer utan problem.<br />

19


1.6.2 Additionssats<strong>en</strong><br />

Om händelserna A och B är disjunkta ger oss Axiom 3 att<br />

Pr (A ∪ B) =Pr(A)+Pr(B)<br />

Vad gäller för unionsannolikhet<strong>en</strong> Pr (A ∪ B) då A och B nödvändigtvis inte<br />

är disjunkta? Följande exempel visar att det lätt kan gå fel om man inte<br />

tänker sig för.<br />

Exempel 17 Vi återgår till Exempel 9 iavsnitt1.4. Betrakta händelserna<br />

Enligt princip<strong>en</strong> att varje tärningsutfall är lika sannolikt följer att<br />

Pr (A) =Pr(B) = 3<br />

6 =0.5<br />

Som sannolikhetsnovis är det då <strong>en</strong>kelt att göra misstaget att<br />

Pr (A ∪ B) =Pr(A)+Pr(B) =0.5+0.5 =1<br />

dvs att A ∪ B är <strong>en</strong> säker händelse, dvs <strong>en</strong> händelse som alltid inträffar. Vi<br />

ser dock att så inte är fallet eftersom utfallet 2 inte är med. Istället gäller att<br />

dvs A ∪ B innehåller fem av de sex utfall<strong>en</strong> och därför måste<br />

Pr (A ∪ B) = 5<br />

6<br />

¤<br />

Vad var det då som gick snett i d<strong>en</strong> första beräkning<strong>en</strong>? Problemet i det<br />

här fallet är att utfallet 5 är med i både A och B vilket innebär att det<br />

utfallet räknas två gånger. Detta är ett problem i varje situation då A och B<br />

överlappar, dvs om dom har gem<strong>en</strong>samma utfall. Vi ser i figur<strong>en</strong> nedan att<br />

det är dom utfall som tillhör händels<strong>en</strong> A ∩ B som räknas två gånger.<br />

S<br />

A B<br />

A ∩ B<br />

20


Lösning<strong>en</strong> blir därför att subtrahera sannolikhet<strong>en</strong> för d<strong>en</strong>na händelse <strong>en</strong><br />

gång varefter alla berörda utfall räknas exakt <strong>en</strong> gång, dvs lösning<strong>en</strong> vi söker<br />

är<br />

Pr (A ∪ B) =Pr(A)+Pr(B) − Pr (A ∩ B)<br />

som går under b<strong>en</strong>ämning<strong>en</strong> additionssats<strong>en</strong>. Överlappningsproblemet uppkommer<br />

inte om A och B är disjunkta m<strong>en</strong> intressant är att additionssats<strong>en</strong><br />

fungerar för alla situationer. Då A och B är disjunkta gäller nämlig<strong>en</strong><br />

att A ∩ B = ∅, dvs d<strong>en</strong> tomma mängd<strong>en</strong> (utan utfall) vilket innebär att<br />

Pr (A ∩ B) =0och vi är tillbaka vid Axiom 3.<br />

Exempel 18 Vi återgår till tärningsproblematik<strong>en</strong> i Exempel 17. Vihardär<br />

att<br />

och därför måste gälla att<br />

Pr (A ∩ B) = 1<br />

6<br />

Additionssats<strong>en</strong> ger nu att<br />

Pr (A ∪ B) = 3 3 1 5<br />

+ − =<br />

6 6 6 6<br />

vilket stämmer över<strong>en</strong>s med d<strong>en</strong> faktiska situation<strong>en</strong>. ¤<br />

Vi kommer s<strong>en</strong>are att huvudsaklig<strong>en</strong> vara intresserade av sannolikheter av<br />

typ<strong>en</strong> “Bestäm sannolikhet<strong>en</strong> att åtminstone...” eller “Bestäm sannolikhet<strong>en</strong><br />

att högst...” vilket i stor utsträckning inkluderar unionssannolikheter. I fallet<br />

med de båda händelserna A och B repres<strong>en</strong>terar A ∪ B åtminstone <strong>en</strong> av<br />

händelserna. Som nämndes i föregå<strong>en</strong>de avsnitt är det vid dessa beräkningar<br />

ofta <strong>en</strong>klare att studera komplem<strong>en</strong>thändels<strong>en</strong><br />

A ∪ B = A ∩ B<br />

som illustreras i figur<strong>en</strong> nedan.<br />

A B<br />

21


Exempel 19 Vid <strong>en</strong> medicinsk undersökning studerar man förekomst<strong>en</strong> av<br />

två g<strong>en</strong>er A och B, och man är intresserade av att ta reda på hur stor andel<br />

av dom undersökta som har åtminstone <strong>en</strong> av g<strong>en</strong>erna. Det är då <strong>en</strong>klare att<br />

först ta reda på andel<strong>en</strong> som saknar båda g<strong>en</strong>erna som då utgör komplem<strong>en</strong>tet<br />

till aktuella händels<strong>en</strong>. Det skulle t.ex. kunna se ut som<br />

Andelar av grupp<strong>en</strong><br />

G<strong>en</strong> B<br />

Ja Nej<br />

G<strong>en</strong> A Ja 0.05 0.25<br />

Nej 0.20 0.50<br />

Här har vi <strong>en</strong> finare uppdelning än vad vi är vana vid vilket inses då vi<br />

åskådliggör d<strong>en</strong> givna information<strong>en</strong> i ett V<strong>en</strong>n-diagram<br />

S<br />

0,50<br />

A<br />

0.25<br />

0.05<br />

Vi har således fått information om sannolikheter för samtliga V<strong>en</strong>n-diagrammets<br />

delområd<strong>en</strong>, eller snitthändelser. Nu följer därför att<br />

B<br />

0.20<br />

Pr (A ∪ B) =0.05 + 0.25 + 0.20 = 0.50<br />

vilket vi äv<strong>en</strong> kan få fram via komplem<strong>en</strong>tsannolikhet<strong>en</strong><br />

Pr (A ∪ B) =1− 0.50 = 0.50<br />

Skall vi använda additionssats<strong>en</strong> blir det<br />

¤<br />

Pr (A ∪ B) =0.30 + 0.25 − 0.05 = 0.50<br />

Ett V<strong>en</strong>n-diagram är ofta ett mycket användbart redskap då man skall<br />

bestämma sannolikheter, framförallt då situation<strong>en</strong> blir mer komplex. I följande<br />

exempel får vi <strong>en</strong> situation med tre händelser där vi bestämmer sannolikheter<br />

för samtliga delområd<strong>en</strong> (snitthändelser). Efter att detta är gjort<br />

finner vi <strong>en</strong>kelt alla tänkbara sannolikheter.<br />

22


Exempel 20 I <strong>en</strong> marknadsundersökning är 50% av de intervjuade personerna<br />

män, 60% är över 40 år och 40% har <strong>en</strong> årsinkomst över 200 000 kronor.<br />

30% är män med <strong>en</strong> årsinkomst över 200 000 kronor. 30% är män över 40 år<br />

och av dessa har två tredjedelar <strong>en</strong> årsinkomst över 200 000 kronor. Av dem<br />

som är över 40 år och har <strong>en</strong> årsinkomst över 200 000 kronor är <strong>en</strong> tredjedel<br />

kvinnor. Vi vill få följande fråga besvarad.<br />

• Hurstorandelärkvinnorunder40 år med <strong>en</strong> årsinkomst under 200 000<br />

kronor?<br />

För att lösa uppgift<strong>en</strong> gör vi bäst i att beskriva problemet med ett V<strong>en</strong>ndiagram.<br />

Vi ser det som att vi slumpmässigt skall välja ut <strong>en</strong> person och<br />

använder händelserna<br />

A = D<strong>en</strong> valde är <strong>en</strong> man<br />

B = D<strong>en</strong> valde är över 40 år<br />

C = D<strong>en</strong> valde har <strong>en</strong> årsinkomst på över 200 000<br />

Ur information<strong>en</strong> finner vi då först de <strong>en</strong>kla sannolikheterna<br />

Pr (A) = 0.5<br />

Pr (B) = 0.6<br />

Pr (C) = 0.4<br />

och sedan äv<strong>en</strong> två av de parvisa snittsannolikheterna<br />

Pr (A ∩ B) = 0.3<br />

Pr (A ∩ C) = 0.3<br />

Nästa del av information<strong>en</strong> är att två tredjedelar av männ<strong>en</strong> över 40 år har<br />

<strong>en</strong> årsinkomst över 200 000 kronor, vilket översätts till<br />

Pr (A ∩ B ∩ C) = 2<br />

· Pr (A ∩ B) =2 · 0.3 =0.2<br />

3 3<br />

D<strong>en</strong> sista pusselbit<strong>en</strong> är något besvärligare. “Av dem som är över 40 år och<br />

har <strong>en</strong> årsinkomst över 200 000 kronor är <strong>en</strong> tredjedel kvinnor.” Detta betyder<br />

att det är dubbelt så många män som kvinnor som är över 40 år och har <strong>en</strong><br />

årsinkomst över 200 000 kronor. Eftersom vi precis räknat ut att 20% av<br />

personerna tillhör A ∩ B ∩ C måste 10% tillhöra A ∩ B ∩ C (kvinnor över 40<br />

år med <strong>en</strong> årsinkomst över 200 000 kronor). Nu är vi redo att fylla i V<strong>en</strong>ndiagrammet<br />

och börjar med att fylla i de “innersta” fält<strong>en</strong> och jobbar oss<br />

23


utåt. Vi får då<br />

S B<br />

A<br />

0.2<br />

0.1<br />

0.1<br />

C<br />

0.1<br />

0.2<br />

0<br />

Nu finner vi <strong>en</strong>kelt d<strong>en</strong> sökta sannolikhet<strong>en</strong> (andel<strong>en</strong>). Vi söker A ∩ B ∩ C,<br />

dvs d<strong>en</strong> del som inte tillhör någon av cirklarna. Vi får alltså att andel<strong>en</strong><br />

kvinnor under 40 år med <strong>en</strong> årsinkomst under 200 000 kronor är samma som<br />

¤<br />

1.6.3 Betingad sannolikhet<br />

Pr ¡ A ∩ B ∩ C ¢ =Pr ¡ A ∪ B ∪ C ¢ =0.2<br />

I föregå<strong>en</strong>de avsnitt fickviiochmedadditionssats<strong>en</strong><strong>en</strong>allmänformelför<br />

hur man kan beräkna unionssannolikhet<strong>en</strong> Pr (A ∪ B) förutsatt att vi känner<br />

snittsannolikhet<strong>en</strong> Pr (A ∩ B). Det är därför på tid<strong>en</strong> att vi äv<strong>en</strong> försöker<br />

klura ut hur vi finner <strong>en</strong> liknande formel för snittsannolikheter. Vi kommer<br />

i detta avsnitt att få fram <strong>en</strong> allmän formel som vi i nästa avsnitt finner ett<br />

mycket viktigt specialfall av.<br />

Antag att vi för ett slumpförsök är intresserade av att bestämma sannolikhet<strong>en</strong><br />

för <strong>en</strong> viss händelse A, dvsPr (A). Antag nu att slumpförsöket<br />

redan utförts och att vi fått information om att <strong>en</strong> annan händelse B inträffat.<br />

Detta är all information vi har tillgång till och frågan är hur detta<br />

påverkar vår uppfattning om sannolikhet<strong>en</strong> för A? I och med att händels<strong>en</strong><br />

B inträffat vet vi att det aktuella utfallet tillhör B m<strong>en</strong> inte vilket av dom<br />

det är. Vi kan därför se B som det nya utfallsrummet. D<strong>en</strong> “uppdatering” av<br />

Pr (A) som görs g<strong>en</strong>om information<strong>en</strong> om att händels<strong>en</strong> B inträffat kallas för<br />

d<strong>en</strong> betingade sannolikhet<strong>en</strong> för A givet B och betecknas Pr (A | B). För att<br />

lättare förstå formeln för betingade sannolikheter börjar vi med ett exempel.<br />

Exempel 21 Vi återgår till Exempel 19 där vi antar att d<strong>en</strong> undersökta<br />

grupp<strong>en</strong> bestod av 100 personer. Eftersom 30 av grupp<strong>en</strong>s medlemmar har<br />

24<br />

0.1<br />

0.2


g<strong>en</strong> A följer att sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt vald person har g<strong>en</strong> A blir<br />

Pr (A) = 30<br />

100 =0.3<br />

M<strong>en</strong> antag nu att vi får reda på att d<strong>en</strong> valde har g<strong>en</strong> B. Uppdatera nu<br />

sannolikhet<strong>en</strong> för A g<strong>en</strong>om att bestämma d<strong>en</strong> betingade sannolikhet<strong>en</strong> givet<br />

d<strong>en</strong>na information. I och med att vi vet att d<strong>en</strong> valda person<strong>en</strong> har g<strong>en</strong> B<br />

vet vi att person<strong>en</strong> är någon av dessa 25 personer. Bland dom är det 5 som<br />

äv<strong>en</strong> har g<strong>en</strong> A varför d<strong>en</strong> betingade sannolikhet<strong>en</strong> blir<br />

Pr (A | B) = 5<br />

25 =0.2<br />

dvs i och med d<strong>en</strong> nya information<strong>en</strong> är det nu något lägre sannolikhet att<br />

d<strong>en</strong> valde har g<strong>en</strong> A. ¤<br />

Vad är det då vi gör när vi räknar ut d<strong>en</strong> betingade sannolikhet<strong>en</strong>? När<br />

vi utan information beräknar Pr (A) kan detta ses som att vi relaterar antal<br />

utfall i A till det totala antalet utfall, dvs antalet utfall i utfallsrummet<br />

S. Nu gäller dock att det nya utfallsrummet utgörs av B och därför skall<br />

istället antal utfall i A ∩ B relateras till antal utfall i B, dvs d<strong>en</strong> betingade<br />

sannolikhet<strong>en</strong> för A givet B beräknas via formeln<br />

Pr (A | B) =<br />

Pr (A ∩ B)<br />

Pr (B)<br />

I ett V<strong>en</strong>n-diagram åskådliggörs d<strong>en</strong>na formel g<strong>en</strong>om att markera det nya<br />

utfallsrummet och sedan bedömma hur stor del av d<strong>en</strong>na som d<strong>en</strong> sökta<br />

händels<strong>en</strong> utgör.<br />

S<br />

A B<br />

A ∩ B<br />

Vi kan förstås äv<strong>en</strong> vända på det g<strong>en</strong>om att helt <strong>en</strong>kelt byta plats på A och<br />

B vilket ger<br />

Pr (A ∩ B)<br />

Pr (B | A) =<br />

Pr (A)<br />

25


Ett av mål<strong>en</strong> var här att finna <strong>en</strong> allmän formel för snittsannolikheter och<br />

utifrån formeln för betingade sannolikheter löser vi ut och får<br />

Pr (A ∩ B) =Pr(B) · Pr (A | B) =Pr(A) · Pr (B | A)<br />

som kallas för sannolikhetslärans multiplikationssats.<br />

Exempel 22 Vi återgår än <strong>en</strong> gång till tärningsproblematik<strong>en</strong> där vi åter<br />

studerar de båda händelserna<br />

Antag att vi söker Pr (A), dvs sannolikhet<strong>en</strong> att det blir ett udda utfall. Från<br />

tidigare vet vi att d<strong>en</strong>na sannolikhet är 0.5. Antag nu att tärning<strong>en</strong> kastas och<br />

att vi får reda på att det blev ett “högt utfall”, dvs att händels<strong>en</strong> B inträffat.<br />

Påverkar detta vår uppfattning om sannolikhet<strong>en</strong> för händels<strong>en</strong> A? Föratt<br />

ta reda på detta måste vi beräkna d<strong>en</strong> betingade sannolikhet<strong>en</strong> Pr (A | B).<br />

Exempel 18 gav att<br />

Pr (A ∩ B) = 1<br />

6<br />

varför det utifrån formeln för betingade sannolikheter följer att<br />

Pr (A | B) =<br />

Pr (A ∩ B)<br />

Pr (B)<br />

1/6 1<br />

= =<br />

3/6 3<br />

Sannolikhet<strong>en</strong> för ett udda utfall har alltså utifrån d<strong>en</strong> givna information<strong>en</strong><br />

minskat från 1/2 till 1/3. D<strong>en</strong> obetingade sannolikhet<strong>en</strong> för händels<strong>en</strong><br />

A innebär att vi relaterar antal utfall i A till det totala antalet utfall (i utfallsrummet<br />

S). D<strong>en</strong> betingade sannolikhetsberäkning<strong>en</strong> innebär att vi istället<br />

relaterar antal utfall i A ∩ B till antal utfall i B. ¤<br />

Låt oss studera ett något mer abstrakt exempel.<br />

Exempel 23 Låt A och B vara två händelser för vilka det gäller<br />

Pr (A) =0.6, Pr (A | B) =0.75, Pr (B | A) =0.5<br />

Beräkna sannolikhet<strong>en</strong> att händels<strong>en</strong> B inträffar.Studerarviformelnför<br />

betingade sannolikheter eller multiplikationssats<strong>en</strong> inser vi att vi först måste<br />

ta reda på Pr (A ∩ B). D<strong>en</strong>nafinner vi via<br />

och sedan följer det att<br />

¤<br />

Pr (A ∩ B) =Pr(A) · Pr (B | A) =0.6 · 0.5 =0.3<br />

Pr (B) =<br />

Pr (A ∩ B)<br />

Pr (A | B)<br />

26<br />

= 0.3<br />

0.75 =0.4


Det visar sig att vi kan ha ytterligare nytta av betingade sannolikheter.<br />

Det är vanligt att d<strong>en</strong> sökta händels<strong>en</strong> är komplex och därför svår att bestämma<br />

sannolikhet<strong>en</strong> för. Ibland kan dock A delas upp i mindre och mer lätthanterliga<br />

bitar för vilka det är <strong>en</strong>klare att bestämma sannolikheter. Sedan<br />

är det bara att lägga ihop dessa delsannolikheter för att få d<strong>en</strong> sökta sannolikhet<strong>en</strong>.<br />

Exempel 24 Antag att vi för <strong>en</strong> viss semesterort och <strong>en</strong> viss tidsperiod skall<br />

bestämma risk<strong>en</strong> för regn <strong>en</strong> slumpmässigt vald dag. Nu är det dock så att<br />

regnrisk<strong>en</strong> beror på vilka väderleksförhålland<strong>en</strong> som råder och grovt kan man<br />

göra följande uppdelning.<br />

B1 = Lågtryck<br />

B2 = Ostadigt<br />

B3 = Högtryck<br />

Erfar<strong>en</strong>het<strong>en</strong> visar att de olika vädertyperna förekommer med sannolikheterna<br />

0.2, 0.3 och 0.5. Sannolikhet<strong>en</strong> för regn vid de olika vädertyperna är 0.8,<br />

0.4 och 0.1. Vad blir då sannolikhet<strong>en</strong> att det regnar <strong>en</strong> slumpmässigt vald<br />

dag? Vi formaliserar information<strong>en</strong> g<strong>en</strong>om att ange de första sannolikheterna<br />

ovan som<br />

Pr (B1) = 0.2<br />

Pr (B2) = 0.3<br />

Pr (B3) = 0.5<br />

Skapar vi sedan händels<strong>en</strong><br />

A = Regn<br />

får vi dessutom fram de betingade sannolikheterna<br />

Pr (A | B1) = 0.8<br />

Pr (A | B2) = 0.4<br />

Pr (A | B3) = 0.1<br />

För att bestämma d<strong>en</strong> sökta sannolikhet<strong>en</strong> går vi stegvis tillväga. I första<br />

steget anger vi väderlektstyp<strong>en</strong>, de sk. apriorisannolikheterna och anger sedan<br />

för var och <strong>en</strong> av dessa de betingade sannolikheterna. Enligt multiplikationssats<strong>en</strong><br />

ger detta slutlig<strong>en</strong> i tredje steget de snittsannolikheter vilka vi använder<br />

för att lösa problemet. Vissa av dessa utgör nämlig<strong>en</strong> d<strong>en</strong> uppdelning av<br />

händels<strong>en</strong> A vi söker. Till vår hjälp i d<strong>en</strong>na process använder vi oss av ett<br />

träddiagram.<br />

27


Apriorisannolikheter Betingade sannolikheter Snittsannolikheter<br />

Pr(B )=0.2<br />

1<br />

Pr(B )=0.3<br />

2<br />

Pr(B )=0.5<br />

3<br />

Lågtryck<br />

Ostadigt<br />

Högtryck<br />

Pr(A I B 1)=0.8<br />

Pr(A I B 1)=0.2<br />

Pr(A I B 2)=0.4<br />

Pr(A I B 2)=0.6<br />

Pr(A I B 3)=0.1<br />

Pr(A I B 3)=0.9<br />

Regn<br />

Ej regn<br />

Regn<br />

Pr(B 1)Pr(A I B 1)=0.2*0.8=0.16<br />

Pr(B 1 )Pr(A I B 1 )=0.2*0.2=0.04<br />

Pr(B 2 )Pr(A I B 2)=0.3*0.4=0.12<br />

Ej regn Pr(B 2)Pr(A I B 2)=0.3*0.6=0.18<br />

Regn<br />

Ej regn<br />

Pr(B 3)Pr(A I B 3)=0.5*0.1=0.05<br />

Pr(B 3)Pr(A<br />

I B 3)=0.5*0.9=0.45<br />

De inramade snittsannolikheterna utgör tillsammans alla de gr<strong>en</strong>ar som leder<br />

till regn. Tillsammans ger dessa att<br />

dvs risk<strong>en</strong> för regn är ungefär 1/3. ¤<br />

Pr (A) =0.16 + 0.12 + 0.05 = 0.33<br />

Metod<strong>en</strong> ovan måste formaliseras och vi måste klargöra vilka förutsättningar<br />

som måste vara uppfyllda för att detta skall fungera. En anledning<strong>en</strong><br />

till att det fungerar är att “apriorihändelserna” B1,B2 och B3 är disjunkta<br />

ochuttömmande,dvsattdeinteöverlapparochattdetillsammanstäcker<br />

hela utfallsrummet. Vi säger att dessa mängder utgör <strong>en</strong> disjunkt uppdelning<br />

av utfallsrummet. Mer konkret kan vi se det som att händelserna utgör<br />

samtliga pusselbitar i ett pussel som utgör utfallsrummet eller att de utgör<br />

samtliga skärvor i d<strong>en</strong> sönderslagna glasrutan S. Detta innebär att äv<strong>en</strong> händels<strong>en</strong><br />

A blir disjunkt uppdelad i snitthändelserna A∩B1,A∩B2 och A∩B3,<br />

dvs<br />

A =(A ∩ B1) ∪ (A ∩ B2) ∪ (A ∩ B3)<br />

28


vilket framgår av figurerna nedan.<br />

S<br />

B 2<br />

B 1<br />

A<br />

B 3<br />

S<br />

A ∩ B 2<br />

och av det tredje av Kolmogorovs axiom följer därför att<br />

A ∩ B 1<br />

A ∩ B 3<br />

Pr (A) =Pr(A ∩ B1)+Pr(A ∩ B2)+Pr(A ∩ B3)<br />

vilket är precis vad som använts i Exempel 24 ovan. Nu känner vi möjlig<strong>en</strong><br />

inte dessa snittsannolikheter direkt utan dessa måste tas fram och detta görs<br />

g<strong>en</strong>om multiplikationssats<strong>en</strong> som t.ex. ger att<br />

Pr (A ∩ B1) =Pr(B1) · Pr (A | B1)<br />

Det är detta steg som lämplig<strong>en</strong> åskådliggörs med träddiagram. För att kunna<br />

använda metod<strong>en</strong> måste vi således dels känna “apriorisannolikheterna” för<br />

d<strong>en</strong> disjunkta uppdelning<strong>en</strong> och dels d<strong>en</strong> betingade sannolikhet<strong>en</strong> för d<strong>en</strong> aktuella<br />

händels<strong>en</strong> A på var och <strong>en</strong> av dessa “apriorihändelser”. Om båda dessa<br />

förutsättningar är uppfyllda fungerar metod<strong>en</strong> som går under b<strong>en</strong>ämning<strong>en</strong><br />

Sats<strong>en</strong> om total sannolikhet. Än mer formellt sammanfattar vi detta som<br />

Sats<strong>en</strong> om total sannolikhet Vi är intresserade av att bestämma sannolikhet<strong>en</strong><br />

för händels<strong>en</strong> A, dvsPr (A), vilketdockintegårattgöradirekt<br />

eftersom A är alltför komplex. Dock gäller att vi känner sannolikhet<strong>en</strong> för A<br />

på var och <strong>en</strong> av händelserna B1,B2,...,Bk, dvsPr(A | Bi). Förutsattatt<br />

B1,B2,...,Bk är <strong>en</strong> disjunkt uppdelning av utfallsrummet, dvs om<br />

Bi ∩ Bj = ∅, i 6= j<br />

B1 ∪ B2 ∪ ···∪ Bk = S<br />

gäller <strong>en</strong>ligt Axiom 3 och multiplikationssats<strong>en</strong> att<br />

Pr (A) =<br />

kX<br />

Pr (A ∩ Bi) =<br />

i=1<br />

29<br />

kX<br />

Pr (Bi) · Pr(A | Bi)<br />

i=1


Bayes’ sats Vi kan nu vända på frågeställning<strong>en</strong>. Antag att vi <strong>en</strong> morgon<br />

vaknar upp och konstaterar att det regnar. Vad är under d<strong>en</strong>na förutsättning<br />

sannolikhet<strong>en</strong> att vi har ett lågtryck? Vi är därmed nu istället intresserade<br />

av det omvända betinget<br />

Pr (B1 | A)<br />

Utifrån definition<strong>en</strong> av betingade sannolikheter följer att detta är samma<br />

som att<br />

Pr (A ∩ B1)<br />

Pr (B1 | A) =<br />

Pr (A)<br />

I och med sats<strong>en</strong> om total sannolikhet har vi ju visat att dessa båda sannolikheter<br />

kan skrivas på följande sätt<br />

Pr (B1 | A) =<br />

Pr(A | B1)Pr(B1)<br />

Pr(A | B1)Pr(B1)+Pr(A | B2)Pr(B2)+Pr(A | B3)Pr(B3)<br />

och mer allmänt för händels<strong>en</strong> Bj med <strong>en</strong> disjunkt uppdelning B1,B2,...,Bk<br />

gäller att<br />

Pr (Bj | A) = Pr (Bj) · Pr(A | Bj)<br />

Pk i=1 Pr (Bi) · Pr(A | Bi)<br />

vilket är <strong>en</strong> räkneregel som går under b<strong>en</strong>ämning<strong>en</strong> Bayes’ sats eller Bayes’<br />

regel.<br />

Exempel 25 Vi återgår till Exempel 24 och finner svaret på frågan om<br />

Pr (B1 | A). Enligt Bayes’ sats får vi att<br />

Pr (B1 | A) =<br />

0.2 · 0.8<br />

0.16<br />

=<br />

0.2 · 0.8+0.3 · 0.4+0.5 · 0.1 0.33 =0.485<br />

dvs om det regnar är det ungefär 50% chans att det är lågtryck. Nämnar<strong>en</strong><br />

iuttrycketäringetannatänPr (A) och om vi först använt sats<strong>en</strong> om total<br />

sannolikhet får vi då d<strong>en</strong>na automatiskt. I och med att vi nu vet att det<br />

regnar utgör A vårt nya utfallsrum och uppgift<strong>en</strong> blir att ta reda på hur stor<br />

del av A som B1 utgör. Med ett träddiagram använder vi först de<br />

inramade sannolikheterna för att bestämma sannolikhet<strong>en</strong> för A.<br />

Bayessannolikheterna finner vi sedan g<strong>en</strong>om att se hur stor del var<br />

och <strong>en</strong> av dessa inramade sannolikheter utgör av sannolikhet<strong>en</strong> för<br />

A. ¤<br />

Att arbeta med sannolikheter blir ofta abstrakt och speciellt vid användning<br />

av Bayes’ sats är det lätt att gå vilse. Det kan då vara bra att veta hur<br />

man gör problemet mer konkret.<br />

30


Exempel 26 På ett cigarettpaket läser vi följande: “Nio av tio strupcancerpati<strong>en</strong>ter<br />

är rökare”. Anta att detta påstå<strong>en</strong>de är korrekt samt att i befolkning<strong>en</strong><br />

10% är rökare och 0.1% drabbas av strupcancer. Vad är sannolikhet<strong>en</strong> att<br />

<strong>en</strong> rökare drabbas av strupcancer? Här gäller det att definiera händelser. Vi<br />

väljer slumpmässigt ut <strong>en</strong> person ur population<strong>en</strong> och låter<br />

A = Person<strong>en</strong> är rökare<br />

B = Person<strong>en</strong> har strupcancer<br />

Vi söker sannolikhet<strong>en</strong> att <strong>en</strong> rökare får strupcancer, dvs vi söker Pr (B | A).<br />

Till vår hjälp har vi följande information:<br />

Pr (A) = 0.1<br />

Pr (B) = 0.001<br />

Pr (A | B) = 0.9<br />

Med hjälp av betingade sannolikheter (eller Bayes’ sats) finner vi d<strong>en</strong> sökta<br />

sannolikhet<strong>en</strong> till<br />

Pr (B | A) =<br />

Pr (A ∩ B)<br />

Pr (A)<br />

= Pr (B) · Pr (A | B)<br />

Pr (A)<br />

= 0.001 · 0.9<br />

0.1<br />

=0.009<br />

dvs nio gånger större än folk i allmänhet. Tycker man att detta tillvägagångssätt<br />

är för abstrakt kan det konkretiseras på följande sätt. Antag att population<strong>en</strong><br />

består av 10 000 personer. Av information<strong>en</strong> följer då att 1000 av dessa är<br />

rökare och 10 drabbasavstrupcancer.Utavdom10 som drabbas av strupcancer<br />

är 9 rökare. Bestäm nu sannolikhet<strong>en</strong> att <strong>en</strong> rökare drabbas av strupcancer.<br />

Utav 1000 rökare är det 9 som har strupcancer och slutsats<strong>en</strong> blir<br />

därför att d<strong>en</strong> sökta sannolikhet<strong>en</strong> är 9/1000 = 0.009. ¤<br />

1.6.4 Obero<strong>en</strong>de händelser<br />

Många gånger kan multiplikationssats<strong>en</strong><br />

Pr (A ∩ B) =Pr(B) · Pr (A | B) =Pr(A) · Pr (B | A)<br />

för<strong>en</strong>klas ytterligare på ett sätt som gör det extra bekvämt att beräkna<br />

snittsannolikheter. Antag att vi som förut är intresserade av att ta reda på<br />

sannolikhet<strong>en</strong> för händels<strong>en</strong> A. Fråganviskallställaossär:Harviisammanhanget<br />

någon nytta av att känna till om händels<strong>en</strong> B inträffat, dvs kommer<br />

vår uppfattning om sannolikhet<strong>en</strong> för A därmed att förändras? Ibland gör det<br />

vark<strong>en</strong> från eller till med d<strong>en</strong>na extrainformation vilket gör d<strong>en</strong> överflödig.<br />

31


Om så är fallet säger vi att händelserna A och B är obero<strong>en</strong>de, och för sådana<br />

händelser gäller följaktlig<strong>en</strong> att<br />

Pr (A | B) =Pr(A)<br />

Exempel 27 Antag att vi spelar ett tärningsspel med två tärningar där vi<br />

vinner om summan av tärningarna blir sju. Antag vidare att vi har möjlighet<strong>en</strong><br />

att kasta <strong>en</strong> av tärningarna innan vi satsar några p<strong>en</strong>gar. Frågan<br />

är huruvida d<strong>en</strong>na möjlighet förbättrar våra chanser. För att undersöka detta<br />

beräknar vi vinstchans<strong>en</strong> både med och utan extrainformation<strong>en</strong> och ser<br />

om det är någon skillnad. Det finns totalt 36 olika utfall då man kastar två<br />

tärningar, dvs utfallsrummet blir<br />

S = {(1, 1) , (1, 2) , (1, 3) ,...,(6, 5) , (6, 6)}<br />

Av intresse för oss är att konstruera händels<strong>en</strong><br />

A = Vinst (eller summan är 7)<br />

och det följer att A innehåller sex utfall<br />

A = {(1, 6) , (2, 5) , (3, 4) , (4, 3) , (5, 2) , (6, 1)}<br />

Eftersom alla utfall är lika sannolika följer att vinstchans<strong>en</strong> utan information<br />

är<br />

Pr (A) = 6 1<br />

=<br />

36 6<br />

Vinstchans<strong>en</strong> är 6 chanser på 36, dvs vi vinner i g<strong>en</strong>omsnitt var sjätte gång.<br />

Antag nu att vi vet om att värdet på d<strong>en</strong> första tärning<strong>en</strong> är tre och låt<br />

B = Utfallet på d<strong>en</strong> första tärning<strong>en</strong> är tre<br />

Påverkar detta vinstchans<strong>en</strong>, dvs vad blir d<strong>en</strong> betingade sannolikhet<strong>en</strong> Pr (A | B)?<br />

För att vinna måste d<strong>en</strong> andra tärning<strong>en</strong> visa fyra. Detta innebär att av de<br />

sex möjliga utfall<strong>en</strong> på d<strong>en</strong> andra tärning<strong>en</strong> är det bara <strong>en</strong> som ger vinst,<br />

eller med andra ord<br />

Pr (A | B) = 1<br />

6<br />

dvs samma sannolikhet som utan information<strong>en</strong>. A och B är här obero<strong>en</strong>de.<br />

För att se om extrainformation<strong>en</strong> ändå kan vara av glädje måste vi utföra<br />

beräkning<strong>en</strong> för alla tänkbara utfall på d<strong>en</strong> första tärning<strong>en</strong>, dvs 1, 2,...,6<br />

och se om detta påverkar vinstchans<strong>en</strong>. Det visar sig dock (testa!) att vi får<br />

samma svar för samtliga utfall på d<strong>en</strong> första tärning<strong>en</strong>.<br />

32


Skulle vi däremot vinna om summan av de båda tärningarna är åtta får<br />

vi ett annat svar. Nu innehåller A bara fem utfall<br />

A = {(2, 6) , (3, 5) , (4, 4) , (5, 3) , (6, 2)}<br />

och vinstchans<strong>en</strong> utan information blir därmed<br />

Pr (A) = 5<br />

36<br />

Det är nu inte svårt att se att d<strong>en</strong>na vinstchans förändras i och med information<br />

om utfallet på d<strong>en</strong> första tärning<strong>en</strong>. Låt t.ex.<br />

B = Utfallet på d<strong>en</strong> första tärning<strong>en</strong> är ett<br />

Det finns då ing<strong>en</strong> möjlighet att summan av de båda tärningarna skall bli<br />

åtta varför<br />

Pr (A | B) =0<br />

I det här fallet är således A och B bero<strong>en</strong>de och vi accepterar gladelig<strong>en</strong><br />

möjlighet<strong>en</strong> till d<strong>en</strong>na extrainformation. ¤<br />

Vad innebär då det faktum att två händelser A och B är obero<strong>en</strong>de<br />

för multiplikationssats<strong>en</strong>? Vi får d<strong>en</strong> mycket användbara räkneregeln för<br />

snittsannolikheter rörande obero<strong>en</strong>de händelser.<br />

Pr (A ∩ B) =Pr(A) · Pr (B)<br />

dvs snittsannolikhet<strong>en</strong> blir då helt <strong>en</strong>kelt produkt<strong>en</strong> av marginalsannolikheterna.<br />

Exempel 28 En signal skall ta sig från vänster till höger i system<strong>en</strong> nedan<br />

A B<br />

A<br />

B<br />

33


Kompon<strong>en</strong>terna A och B fungerar obero<strong>en</strong>de av varandra och sannolikhet<strong>en</strong><br />

att <strong>en</strong> kompon<strong>en</strong>t fungerar är 0.8, dvs<br />

Pr (A) =Pr(B) =0.8<br />

Bestäm sannolikheterna för att de båda system<strong>en</strong> fungerar. I det övre seriekopplade<br />

systemet måste båda kompon<strong>en</strong>terna fungera för att systemet<br />

skall fungera vilket innebär att vi där söker sannolikhet<strong>en</strong> för snittet A ∩ B.<br />

Eftersom kompon<strong>en</strong>terna fungerar obero<strong>en</strong>de av varandra får vi att<br />

Pr (A ∩ B) =Pr(A) · Pr (B) =0.8 · 0.8 =0.64<br />

I det nedre parallellkopplade systemet räcker det med att d<strong>en</strong> <strong>en</strong>a kompon<strong>en</strong>t<strong>en</strong><br />

fungerar för att systemet skall fungera varför vi söker sannolikhet<strong>en</strong> för<br />

A ∪ B. Nu följer först av additionssats<strong>en</strong> att<br />

och sedan ger obero<strong>en</strong>det att<br />

¤<br />

Pr (A ∪ B) =Pr(A)+Pr(B) − Pr (A ∩ B)<br />

Pr (A ∪ B) = Pr(A)+Pr(B) − Pr (A) · Pr (B) =<br />

= 0.8+0.8− 0.8 · 0.8 =0.96<br />

1.6.5 Övningsuppgifter<br />

Uppgift 11 Lös uppgift 212.<br />

Uppgift 12 Lös uppgift 215.<br />

Uppgift 13 Lös uppgift 217.<br />

Uppgift 14 Lös uppgift 233.<br />

Uppgift 15 I <strong>en</strong> artikel i SDS d<strong>en</strong> 14 augusti kunde man läsa att 12.6% av<br />

alla män och 9.9% av alla kvinnor är vänsterhänta. Låt oss anta att dessa<br />

uppgifter är korrekta. Låt oss vidare anta att vi studerar <strong>en</strong> stor population<br />

där 40% är män och 60% är kvinnor. Från d<strong>en</strong> valda population<strong>en</strong> väljs<br />

slumpmässigt <strong>en</strong> person. Bestäm sannolikhet<strong>en</strong> att d<strong>en</strong> valda person<strong>en</strong><br />

a. är <strong>en</strong> vänsterhänt kvinna.<br />

b. är vänsterhänt.<br />

34


c. är <strong>en</strong> kvinna om vi vet att person<strong>en</strong> är vänsterhänt.<br />

Uppgift 16 I <strong>en</strong> viss population gäller att <strong>en</strong> proc<strong>en</strong>t av individerna är<br />

bärare av <strong>en</strong> viss smitta. Ett diagnostiskt test för att upptäcka smittbärare<br />

har <strong>en</strong> träffsäkerhet på 90% för individer som bär smittan, m<strong>en</strong> äv<strong>en</strong> <strong>en</strong><br />

5%-ig risk för feldiagnos av icke smittbärande individer.<br />

a. Bestäm sannolikhet<strong>en</strong> att testet ger ett korrekt resultat.<br />

b. Antag att testet ger att individ<strong>en</strong> är smittbärare. Bestäm sannolikhet<strong>en</strong><br />

att så verklig<strong>en</strong> är fallet.<br />

Uppgift 17 Lös uppgift 219.<br />

Uppgift 18 Lös uppgift 235.<br />

Uppgift 19 En torped av typ A har träffsannolikhet<strong>en</strong> 0.2 medan <strong>en</strong> torped<br />

av typ B har träffsannolikhet<strong>en</strong> 0.3. Ett mål skall beskjutas av anting<strong>en</strong> tre<br />

A-torpeder eller två B-torpeder. Vi förutsätter att torpedträffar (och missar)<br />

sker obero<strong>en</strong>de av varandra.<br />

a. Beräkna för de båda alternativ<strong>en</strong> sannolikhet<strong>en</strong> att målet blir träffat.<br />

b. Vad är sannolikhet<strong>en</strong> att målet blir träffat om alla fem torpederna avlossas?<br />

2 Diskreta slumpvariabler<br />

2.1 Vad är <strong>en</strong> slumpvariabel?<br />

Innan vi går vidare med mer formella teoretiska begrepp och resultat diskuterar<br />

vi kort hur sannolikhetsläran kommer att användas. Det är framförallt<br />

i samband med stickprov och slutsatser från dessa som d<strong>en</strong>na kunskap är<br />

oumbärlig. Antag för <strong>en</strong>kelhets skull att vårt stickprov består av <strong>en</strong> <strong>en</strong>da observation<br />

från någon mänsklig population. I statistiska sammanhang används<br />

inte det trevliga, m<strong>en</strong> ack så ineffektiva, angreppssättet “Nej m<strong>en</strong> tj<strong>en</strong>are Per<br />

var det du som blev utvald” utan nu kommer Per istället att bli värderad<br />

utifrån <strong>en</strong> eller flera eg<strong>en</strong>skaper. Han kommer således att bli <strong>en</strong> eller ett antal<br />

siffror i ett datamaterial. En värderad eg<strong>en</strong>skap kallas i dessa sammanhang<br />

för <strong>en</strong> variabel eftersom olika individer kan ha olika värd<strong>en</strong> på d<strong>en</strong>na eg<strong>en</strong>skap.<br />

Antag t.ex. att vi studerar variabeln “Antal barn”. Eftersom Per råkar<br />

ha två barn blir han i detta avse<strong>en</strong>de värderad till 2. Nuärdetjudockinte<br />

35


så att alla har två barn utan värd<strong>en</strong>a 0, 1, 3, 4 osv. kan också förekomma. Vi<br />

har alltså inget större intresse för Per som person utan <strong>en</strong>bart vilka värd<strong>en</strong><br />

han har på de aktuella variablerna. Stickprov skall i statistiska sammanhang<br />

göras slumpmässigt vilket innebär att vi på förhand inte vet vem som kommer<br />

att bli utvald. Med andra ord; detta är ett slumpförsök där alla individer<br />

som kan tänkas bli valda utgör utfall. Betrakta <strong>en</strong> lit<strong>en</strong> population bestå<strong>en</strong>de<br />

av sex personer<br />

S<br />

Per<br />

Leif<br />

Johan<br />

Kjell<br />

M<strong>en</strong> nu är vi inte intresserade av personerna i sig utan <strong>en</strong>bart vilket värde de<br />

har på någon variabel. Antag att vi studerar EMU-frågan och värderar personerna<br />

som 0 om dom är emot och 1 om dom är för ett EMU-medlemskap.<br />

Då kommer utfallsrummet (givetvis bero<strong>en</strong>de på åsikt<strong>en</strong>) att förändras till<br />

S<br />

1<br />

1<br />

1<br />

0<br />

Uppgift<strong>en</strong> i sannolikhetsläran är att utifrån någon variabel beskriva ett slumpförsök<br />

innan det utförs. Eftersom vi på förhand inte vet vilket värde d<strong>en</strong> valde har<br />

på variabeln kallas d<strong>en</strong>na för <strong>en</strong> slumpvariabel (eller stokastisk variabel). På<br />

kortform betecknas <strong>en</strong> slumpvariabel oftast med bokstav<strong>en</strong> X eller någon<br />

annan versal i slutet av alfabetet som Y,Z etc.. Vi kan då t.ex. bilda slumpvariabeln<br />

X = Inställning till ett EMU-medlemskap<br />

36<br />

Sofia<br />

1<br />

Annika<br />

0


med samma värdering som tidigare. G<strong>en</strong>om att konstruera händelser utav<br />

samtliga utfall som av slumpvariabeln värderas på samma sätt får man automatiskt<br />

<strong>en</strong> disjunkt uppdelning av utfallsrummet. Bildar vi händels<strong>en</strong><br />

får vi uppdelning<strong>en</strong><br />

A = D<strong>en</strong> valde är för ett EMU-medlemskap<br />

A<br />

S<br />

1<br />

1<br />

1<br />

dvs händels<strong>en</strong> A består av alla personer med värdet X =1ochom<strong>en</strong>person<br />

väljs slumpmässigt får vi att<br />

Pr (X =0) = Pr ¡ A ¢ = 2 1<br />

= ≈ 0.33<br />

6 3<br />

Pr (X =1) = Pr(A) = 4 2<br />

= ≈ 0.67<br />

6 3<br />

Att på detta sätt beskriva <strong>en</strong> slumpvariabel kallas för att bestämma dess<br />

sannolikhetsfördelning. Då man anger <strong>en</strong> slumpvariabels sannolikhetsfördelning<br />

anger man således dels vilka värd<strong>en</strong> som kan antas och dels med vilka<br />

sannolikheter dessa värd<strong>en</strong> antas. 4<br />

Vi kan konstruera ett oändligt antal slumpvariabler för ett och samma<br />

slumpförsök. Betraktar vi t.ex. ett tärningskast känns det kanske mest<br />

naturligt att värdera utfall<strong>en</strong> efter det antal prickar tärning<strong>en</strong> visar vilket då<br />

ger d<strong>en</strong> uppdelning av utfallsrummet som figur<strong>en</strong> visar<br />

4 Detta sätt att beskriva <strong>en</strong> slumpvariabels sannolikhetsfördelning fungerar <strong>en</strong>bart för<br />

diskreta slumpvariabler. Vi återkommer i Kapitel 3 med motsvarande repres<strong>en</strong>tation för<br />

kontinuerliga slumpvariabler.<br />

0<br />

37<br />

1<br />

0<br />

A


S<br />

Nu behöver vi inte alls värdera ett tärningskast på detta sätt utan vi kan<br />

värdera utfall<strong>en</strong> som vi behagar. Vi kan t.ex. fokusera på utfallet sex. De<br />

andra utfall<strong>en</strong> är då inte värda något och värderas därför till 0 medan sexan<br />

förslagsvis värderas till 1. Vi får då <strong>en</strong> disjunkt uppdelning som i figur<strong>en</strong><br />

nedan.<br />

S<br />

Vi har därmed för slumpförsöket att kasta <strong>en</strong> tärning studerat de båda slumpvariablerna<br />

X = Antal ögon tärning<strong>en</strong> visar<br />

Y = Sexa?<br />

där för Y ettJavärderastill1 och ett Nej till 0. Dessa båda slumpvariabler<br />

har inte samma sannolikhetsfördelning m<strong>en</strong> innan vi går in på dessa skall vi<br />

mer noggrant specificera hur dessa skall anges. När slumpmom<strong>en</strong>tet är över,<br />

dvs då försöket utförts, har slumpvariabeln fått ett värde och för att visa att<br />

så är fallet byter man då till små bokstäver, dvs x, y, z etc. Vi låter allmänt<br />

p (x) beteckna sannolikhet<strong>en</strong> att slumpvariabeln X antar värdet x, dvs<br />

p (x) =Pr(X = x)<br />

38


p (x) som <strong>en</strong> funktion kallas för sannolikhetsfunktion<strong>en</strong> för slumpvariabeln<br />

X. För alla (diskreta) sannolikhetsfunktioner gäller att<br />

p (x) ≥ 0<br />

X p (x) = 1<br />

Exempel 29 Uppgift<strong>en</strong> i detta exempel är att bestämma sannolikhetsfördelning<strong>en</strong><br />

för de båda slumpvariablerna X och Y ovan. X kan anta värd<strong>en</strong>a<br />

1, 2, 3, 4, 5, 6 och alla dessa är lika sannolika så sannolikhetsfördelning<strong>en</strong> blir<br />

p (x) =Pr(X = x) = 1<br />

, x =1, 2, 3, 4, 5, 6<br />

6<br />

vilket åskådliggörs i figur<strong>en</strong> nedan.<br />

Utfall Värdering (X) Sannolikhetsfördelning<br />

Y kan <strong>en</strong>bart anta värd<strong>en</strong>a 0 och 1 med<br />

vilket inses i figur<strong>en</strong> nedan<br />

¤<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

Pr(X=1)=1/6<br />

Pr(X=2)=1/6<br />

Pr(X=3)=1/6<br />

Pr(X=4)=1/6<br />

Pr(X=5)=1/6<br />

Pr(X=6)=1/6<br />

p (0) = Pr (Y =0)=5/6<br />

p (1) = Pr (Y =1)=1/6<br />

Utfall Värdering (Y) Sannolikhetsfördelning<br />

0<br />

1<br />

39<br />

Pr(Y=0)=5/6<br />

Pr(Y=1)=1/6


2.1.1 Övningsuppgifter<br />

Uppgift 20 Lös uppgift 302.<br />

2.2 Väntevärd<strong>en</strong><br />

2.2.1 Sannolikhetsfördelning<strong>en</strong>s medelvärde<br />

Då man beskriver ett statistiskt datamaterial med tabeller och diagram är<br />

det vanligt att man äv<strong>en</strong> sammanfattar detta med några få mått. De oftast<br />

använda mått<strong>en</strong> är medelvärde och standardavvikelse. På liknande sätt kan<br />

man sammanfatta <strong>en</strong> sannolikhetsfördelning. Medelvärdet för ett stickprov<br />

beräknas via<br />

x = x1<br />

P<br />

+ x2 + ···+ xn x<br />

=<br />

n<br />

n<br />

och repres<strong>en</strong>terar således ett g<strong>en</strong>omsnitt av observationerna. Då vi skall<br />

beräkna medelvärdet för <strong>en</strong> sannolikhetsfördelning måste vi ta hänsyn till att<br />

olika värd<strong>en</strong> ev<strong>en</strong>tuellt är olika sannolika vilket innebär att värd<strong>en</strong>a måste<br />

viktas utifrån deras respektive sannolikheter.<br />

Exempel 30 Betrakta ett lotteri med 100 lotter à 1 krona. I lotteriet är<br />

det <strong>en</strong> 50-kronorsvinst, tre 10-kronorsvinster och fem 2-kronorsvinster. Vi<br />

konstruerar slumpvariabeln<br />

X = “Återbäring” på <strong>en</strong> slumpmässigt vald lott<br />

Då inses att X kan anta värd<strong>en</strong>a 0, 2, 10 och 50. Vitrordockinteattd<strong>en</strong><br />

g<strong>en</strong>omsnittliga utfallet ligger på<br />

0+2+10+50<br />

=15.50<br />

4<br />

utan variabelvärd<strong>en</strong>a måste viktas utifrån hur ofta dom uppkommer. Vi har<br />

Antal lotter Vinst Sannolikhet<br />

91 0 91/100 = 0.91<br />

5 2 5/100 = 0.05<br />

3 10 3/100 = 0.03<br />

1 50 1/100 = 0.01<br />

Räknar vi samtliga lotter och tar “medelåterbäring<strong>en</strong>” får vi istället<br />

91 · 0+5· 2+3· 10 + 1 · 50<br />

100<br />

40<br />

= 90<br />

100 =0.9


dvs d<strong>en</strong> g<strong>en</strong>omsnittliga “återbäring<strong>en</strong>” på <strong>en</strong> lott är 90 öre vilket innebär att<br />

man i g<strong>en</strong>omsnitt kommer att göra <strong>en</strong> förlust på 10 öre. D<strong>en</strong>na beräkning kan<br />

istället utföras med sannolikhetsfördelning<strong>en</strong><br />

x 0 2 10 50<br />

p (x) 0.91 0.05 0.03 0.01<br />

där vi använder sannolikheterna som vikter<br />

och svaret blir korrekt. ¤<br />

0 · 0.91 + 2 · 0.05 + 10 · 0.03 + 50 · 0.01 = 0.9<br />

När man på detta sätt beräknar medelvärdet för <strong>en</strong> sannolikhetsfördelning<br />

(eller för <strong>en</strong> slumpvariabel) sägs man beräkna dess väntevärde,ellerdetvärde<br />

vi förväntas att få om vi slumpmässigt väljer ut <strong>en</strong> individ. Väntevärdet för<br />

slumpvariabeln X betecknas E (X), därE står för expectation, och beräknas<br />

således via formeln<br />

E (X) = X x · p (x)<br />

där summering<strong>en</strong> sker för alla de värd<strong>en</strong> X kan anta. B<strong>en</strong>ämning<strong>en</strong> väntevärde<br />

är dock något missvisande vilket framgår av följande exempel.<br />

Exempel 31 Vi konstaterade i Exempel 29 att för slumpförsöket att kasta<br />

<strong>en</strong> tärning ges sannolikhetsfördelning<strong>en</strong> för slumpvariabeln<br />

X = Antal ögon tärning<strong>en</strong> visar<br />

utav<br />

p (x) =Pr(X = x) = 1<br />

,<br />

6<br />

x =1, 2, 3, 4, 5, 6<br />

Det följer att väntevärdet för X blir<br />

E (X) =1· 1 1 1 1+2+3+4+5+6<br />

+2· + ···+6· = =<br />

6 6 6 6<br />

21<br />

6 =3.5<br />

dvs i det här fallet blir väntevärdet ett helt vanligt medelvärde eftersom samtliga<br />

variabelvärd<strong>en</strong> är lika sannolika. Vi noterar att det förväntade värdet blir<br />

3.5. ¤<br />

I ovanstå<strong>en</strong>de exempel såg vi att väntevärdet vid kast av <strong>en</strong> tärning är 3.5<br />

(då värdering<strong>en</strong> är det antal ögon tärning<strong>en</strong> visar). Detta är dock ett värde<br />

som aldrig kommer att uppkomma.Väntevärdet skall emellertid inte tolkas<br />

på detta sätt. Väntevärdet är ett populationsmedelvärde, dvs om det hade<br />

41


varit möjligt att mäta samtliga population<strong>en</strong>s individer och sedan beräknat<br />

medelvärdet för dessa på vanligt sätt skulle detta medelvärde över<strong>en</strong>sstämma<br />

med väntevärdet. I tärningsexemplet ovan går det dock inte att mäta<br />

samtliga “individer”, eller tärningskast, eftersom det inte finns någon begränsning<br />

för hur många gånger vi kan kasta tärning<strong>en</strong>. Vad som dock gäller<br />

är att om vi kastar <strong>en</strong> tärning riktigt många gånger kommer medelvärdet<br />

av dessa kast med största sannolikhet att ligga mycket nära väntevärdet<br />

3.5. Stickprovsmedelvärdet x varierar från stickprov till stickprov vilket betyder<br />

att det är <strong>en</strong> slumpvariabel. Innan stickprovet tas skall därför stickprovsmedelvärdet<br />

betecknas X (vilket vi återkommer till lite längre fram).<br />

Populationsmedelvärdet är dock konstant, <strong>en</strong> storhet eller parameter, och<br />

sådana brukar betecknas med grekiska bokstäver. Populationsmedelvärdet<br />

betecknas vanlig<strong>en</strong> med μ (my). För <strong>en</strong> diskret sannolikhetsfördelning har vi<br />

alltså att<br />

μ = E (X) = X x · p (x)<br />

Det är viktigt att man förstår skillnad<strong>en</strong> mellan stickprovsmedelvärdet x och<br />

populationsmedelvärdet μ eftersom båda dessa är viktiga i d<strong>en</strong> statistiska<br />

teorin.<br />

2.2.2 Sannolikhetsfördelning<strong>en</strong>s spridning<br />

Precis som för ett stickprov vill vi dessutom ha ett mått på hur utspridd<br />

sannolikhetsfördelning<strong>en</strong> (eller population<strong>en</strong>) är. För att mäta hur utspridda<br />

observationerna i ett stickprov är används vanlig<strong>en</strong> standardavvikels<strong>en</strong><br />

s<br />

P 2<br />

(x − x)<br />

s =<br />

n − 1<br />

eller dess kvadrat (stickprovs)varians<strong>en</strong><br />

s 2 P 2<br />

(x − x)<br />

=<br />

n − 1<br />

Stickprovsvarians<strong>en</strong> är ett mått på det g<strong>en</strong>omsnittliga kvadratavståndet mellan<br />

observationerna och stickprovsmedelvärdet vilket innebär att motsvarande<br />

spridningsmått för <strong>en</strong> sannolikhetsfördelning bör bli<br />

Var (X) =E ¡ (X − E (X)) 2¢ = E (X − μ) 2<br />

För <strong>en</strong> sannolikhetsfördelning blir således varians<strong>en</strong> det förväntade kvadratavståndet<br />

mellan slumpvariabeln och dess väntevärde (populationsmedelvärdet).<br />

Detta blir då äv<strong>en</strong> populationsvarians<strong>en</strong>, dvs om det hade varit möjligt<br />

42


att få tag i samtliga population<strong>en</strong>s individer och mäta deras g<strong>en</strong>omsnittliga<br />

kvadratavstånd till populationsmedelvärdet skulle vi fått Var(X). Precis<br />

som populationsmedelvärdet är populationsvarians<strong>en</strong> <strong>en</strong> populationsparameter,<br />

dvs <strong>en</strong> konstant storhet, och betecknas med <strong>en</strong> grekisk bokstav. Vi har<br />

alltså att<br />

σ 2 = Var (X) =E (X − μ) 2<br />

Tar vi sedan kvadratrot<strong>en</strong> ur populationsvarians<strong>en</strong> får vi populationsstandardavvikels<strong>en</strong><br />

σ (sigma).<br />

q<br />

σ = E (X − μ) 2<br />

Återig<strong>en</strong> är det viktigt att hålla isär stickprovsstandardavvikels<strong>en</strong> S som är<br />

<strong>en</strong> slumpvariabel och populationsstandardavvikels<strong>en</strong> σ som är <strong>en</strong> populationsparameter<br />

(konstant).<br />

Vi sammanfattar betydels<strong>en</strong> av dessa båda sammanfattande mått för<br />

slumpvariabler. Om vi upprepar slumpförsöket i all oändlighet kommer observationerna<br />

i g<strong>en</strong>omsnitt att ha populationsmedelvärdet μ. Alla observationer<br />

kommer dock inte att ha detta värde (ev<strong>en</strong>tuellt inte några) och populationsstandardavvikels<strong>en</strong><br />

σ anger hur långt från μ observationerna i g<strong>en</strong>omsnitt<br />

kommer att vara.<br />

För att komma fram till hur man skall beräkna varians<strong>en</strong> för X börjar<br />

vi med att förklara lite hur man beräknar väntevärd<strong>en</strong> för funktioner av<br />

slumpvariabler. En funktion av slumpvariabeln X skrivs allmänt som f (X)<br />

och kan t.ex. vara<br />

eller som i vårt fall<br />

f (X)<br />

f (X)<br />

=<br />

=<br />

3+X<br />

√ X<br />

f (X) = 4<br />

X<br />

f (X) =(X − μ) 2<br />

Dvs <strong>en</strong> funktion skapar <strong>en</strong> ny slumpvariabel f (X) g<strong>en</strong>om att matematiskt<br />

manipulera med X. Frågan är hur <strong>en</strong> sådan manipulering påverkar väntevärdet.<br />

Detta beror starkt på funktion<strong>en</strong>s utse<strong>en</strong>de och vi skall se lite längre<br />

fram i detta avsnitt att för sk. linjärfunktioner påverkas väntevärdet på ett<br />

mycket ang<strong>en</strong>ämt sätt. D<strong>en</strong> funktion vi nu studerar är dock ing<strong>en</strong> linjärfunktion<br />

m<strong>en</strong> man skall dock inte bli alltför skärrad, ett väntevärde är ett<br />

43


väntevärde och här skall det beräknas för (X − μ) 2 istället för X. För samtliga<br />

värd<strong>en</strong> x antas nu istället värdet (x − μ) 2 med motsvarande sannolikhet<br />

varför<br />

σ 2 = Var (X) =E (X − μ) 2 = X (x − μ) 2 · p (x)<br />

där summering<strong>en</strong> sker för alla de värd<strong>en</strong> X kan anta.<br />

Exempel 32 IExempel30 med lotteriet fick vi för slumpvariabeln<br />

X = “Återbäring” på <strong>en</strong> slumpmässigt vald lott<br />

att μ =0.9. Skall varians<strong>en</strong> bestämmas beräknas först sannolikhetsfördelning<strong>en</strong><br />

för f (X) =(X − μ) 2 via<br />

vilket ger att<br />

x (x − μ) 2<br />

p (x)<br />

0 (0 − 0.9) 2 =0.81 0.91<br />

2 (2 − 0.9) 2 =1.21 0.05<br />

10 (10 − 0.9) 2 =82.81 0.03<br />

50 (50 − 0.9) 2 =2410.81 0.01<br />

σ 2 = X (x − μ) 2 · p (x) =<br />

= 0.81 · 0.91 + 1.21 · 0.05 + 82.81 · 0.03 + 2410.81 · 0.01 =<br />

= 27.39<br />

och det följer att<br />

σ = √ 27.39 ≈ 5.23<br />

Då vi slumpmässigt drar <strong>en</strong> lott förväntas vi få tillbaka 90 öre på vår satsade<br />

krona. Ing<strong>en</strong> lott kommer dock att ge oss 90 öre tillbaka utan detta är<br />

bara ett mått på vad som i g<strong>en</strong>omsnitt kommer att hända i långa loppet.<br />

Standardavvikels<strong>en</strong> säger oss att i g<strong>en</strong>omsnitt kommer “återbäring<strong>en</strong>” från<br />

<strong>en</strong> slumpmässigt vald lott att avvika från det förväntade värdet med 5 kronor<br />

och 23 öre. Det är d<strong>en</strong> stora spridning<strong>en</strong> som gör att vi blir lockade att<br />

delta i dylika spel m<strong>en</strong> d<strong>en</strong> förväntade förlust<strong>en</strong> för lott-kund<strong>en</strong> försäkrar dock<br />

spelbolag<strong>en</strong> om vinst i långa loppet. ¤<br />

Exempel 33 Vi återgår åter till tärningsexempl<strong>en</strong> där det för slumpvariabeln<br />

X = Antal ögon tärning<strong>en</strong> visar<br />

44


visade sig att μ = E (X) =3.5. Viharatt<br />

och det följer därmed att<br />

x (x − μ) 2<br />

p (x)<br />

1 (1 − 3.5) 2 =6.25 1/6<br />

2 (2 − 3.5) 2 =2.25 1/6<br />

3 (3 − 3.5) 2 =0.25 1/6<br />

4 (4 − 3.5) 2 =0.25 1/6<br />

5 (5 − 3.5) 2 =2.25 1/6<br />

6 (6 − 3.5) 2 =6.25 1/6<br />

σ 2 = X (x − μ) 2 · p (x) =6.25 · 1 1<br />

1<br />

+2.25 · + ···+6.25 ·<br />

6 6 6 =<br />

= 17.5<br />

6<br />

35<br />

= ≈ 2.92<br />

12<br />

och det följer att<br />

r<br />

35<br />

σ = ≈ 1.71<br />

12<br />

Kastar vi <strong>en</strong> tärning ett mycket stort antal gånger kommer vi i g<strong>en</strong>omsnitt<br />

att få värdet 3.5. Nu vet vi dock att vi i ett <strong>en</strong>skilt kast aldrig kommer att få<br />

3.5 och standardavvikels<strong>en</strong> anger att kast<strong>en</strong> i g<strong>en</strong>omsnitt kommer att avvika<br />

från 3.5 med 1.71. ¤<br />

Som vi skall se längre fram är <strong>en</strong> sannolikhetsfördelnings medelvärde och<br />

varians/standardavvikelse oumbärliga vid analys av statistiska datamaterial.<br />

Uttrycket<br />

σ 2 = E (X − μ) 2<br />

(2)<br />

används framförallt för förståelse av vad varians<strong>en</strong> innebär. Vid praktiska<br />

beräkningar är d<strong>en</strong> dock något klumpig och det finns ett mer effektivt beräkningssätt.<br />

Vi har nämlig<strong>en</strong> att<br />

Var (X) =E ¡ X 2¢ − μ 2<br />

En förklaring till detta samband ges i App<strong>en</strong>dix A.1. Vad är det då som har<br />

blivit <strong>en</strong>klare? I båda uttryck<strong>en</strong> måste först μ beräknas så jämförels<strong>en</strong> skall<br />

göras mellan E (X − μ) 2 och E (X 2 ) där d<strong>en</strong> s<strong>en</strong>are är klart fördelaktig vid<br />

praktiska beräkningar.<br />

45


Exempel 34 Vi fortsätter åter med tärningsexemplet.<br />

x x 2 p (x)<br />

1 1 2 =1 1/6<br />

2 2 2 =4 1/6<br />

3 3 2 =9 1/6<br />

4 4 2 =16 1/6<br />

5 5 2 =25 1/6<br />

6 6 2 =36 1/6<br />

vilket innebär att sannolikhetsfördelning<strong>en</strong> för X 2 blir<br />

och därmed att<br />

Pr ¡ X 2 = x ¢ = 1<br />

, x =1, 4, 9, 16, 25, 36<br />

6<br />

E ¡ X 2¢ =1· 1 1<br />

1 1+4+···+36<br />

+4· + ···+36· = =<br />

6 6 6 6<br />

91<br />

≈ 15.17<br />

6<br />

Dvs om man kastar <strong>en</strong> tärning ett mycket stort (oändligt) antal gånger och<br />

hela tid<strong>en</strong> kvadrerar utfall<strong>en</strong> kommer man i g<strong>en</strong>omsnitt att få 15.17. Nufår<br />

vi varians<strong>en</strong> till<br />

σ 2 = E ¡ X 2¢ − μ 2 = 91<br />

6 − 3.52 = 35<br />

≈ 2.92<br />

12<br />

precis som tidigare. ¤<br />

2.2.3 Övningsuppgifter<br />

Uppgift 21 Lös uppgift 304.<br />

Uppgift 22 Beräkna medelvärde och varians/standardavvikelse för slumpvariabeln<br />

Y iExempel29. Tolka dessa värd<strong>en</strong>.<br />

2.3 Linjärfunktioner av slumpvariabler<br />

För att bestämma E (X − μ) 2 och E (X 2 ) måstevigåinidetaljochförst<br />

bestämma sannolikhetsfördelningarna för funktionerna f (X) = (X − μ) 2<br />

och f (X) =X 2 . Dessa sannolikhetsfördelningar beräknas utifrån motsvarande<br />

sannolikhetsfördelning för X. Om det <strong>en</strong>da ändamålet med d<strong>en</strong> aktuella funktion<strong>en</strong><br />

är att bestämma väntevärde och varians vore det dock <strong>en</strong> rejäl för<strong>en</strong>kling<br />

om vi istället direkt kunde använda att vi redan känner väntevärde och<br />

varians för X. D<strong>en</strong>na möjlighet finns inte för alla typer av funktioner, t.ex.<br />

46


går inte detta för de båda funktionerna ovan, m<strong>en</strong> för linjärfunktioner behöver<br />

<strong>en</strong> ny sannolikhetsfördelning inte bestämmas. En linjärfunktion (eller<br />

linjärtransformation) av X är <strong>en</strong> funktion på form<strong>en</strong><br />

f (X) =a + bX<br />

där a och b är konstanter, dvs vanliga reella tal. Då gäller nämlig<strong>en</strong> att<br />

E (a + b · X) = a + b · E (X) (3)<br />

Var (a + b · X) = b 2 · Var (X)<br />

En matematisk förklaring till dessa båda formler ges i App<strong>en</strong>dix A.2. Här ges<br />

istället <strong>en</strong> mer intuitiv förklaring. Att addera <strong>en</strong> slumpvariabel med konstant<strong>en</strong><br />

a innebär att hela population<strong>en</strong> flyttas på talaxeln som i figur<strong>en</strong> nedan<br />

μ a+μ<br />

a<br />

Eftersom populationsmedelvärdet är ett mått på var “mittpunkt<strong>en</strong>” är beläg<strong>en</strong><br />

är det då inte överraskande att äv<strong>en</strong> detta flyttas a steg, dvs<br />

E (a + X) =a + E (X)<br />

En sådan flytt påverkar däremot inte population<strong>en</strong>s spridning varför det bör<br />

gälla att<br />

Var (a + X) =Var (X)<br />

Om vi istället multiplicerar <strong>en</strong> slumpvariabel med <strong>en</strong> konstant b påverkas<br />

både population<strong>en</strong>s position och dess spridning vilket framgår av figur<strong>en</strong><br />

nedan<br />

μ b* μ<br />

47


Varje individs värde multipliceras med b vilket äv<strong>en</strong> borde påverka medelvärdet<br />

på samma sätt, dvs<br />

E (b · X) =b · E (X)<br />

Spridning<strong>en</strong> påverkas på samma sätt m<strong>en</strong> eftersom varians<strong>en</strong> mäter kvadrerade<br />

avstånd kommer<br />

Var (b · X) =b 2 · Var (X)<br />

Slår vi nu ihop dessa intuitiva formler får vi vad som angavs ovan.<br />

Exempel 35 Vi tar åter <strong>en</strong> titt på lotteriet i Exempel 30. För slumpvariabeln<br />

X = “Återbäring” på <strong>en</strong> slumpmässigt vald lott<br />

fann vi där att μ =0.9, dvsd<strong>en</strong>förväntadeåterbäring<strong>en</strong>på<strong>en</strong>lottär90<br />

öre. Antag nu att vi istället vill bestämma d<strong>en</strong> förväntade vinst<strong>en</strong>. En lott<br />

kostar <strong>en</strong> krona och antag dessutom att det tillkommer 30% vinstskatt vid <strong>en</strong><br />

ev<strong>en</strong>tuell vinst. Å andra sidan får vi tillbaks 30% i“förlustskatt”omviskulle<br />

få <strong>en</strong> nitlott. Låt nu<br />

Y = Vinst på <strong>en</strong> slumpmässigt vald lott<br />

Hur skall då Y beskrivas? Vinst<strong>en</strong> är lottutfallet minus lottpriset, dvs X − 1.<br />

De gällande skattereglerna ger sedan att vi får behålla 70% av detta vilket<br />

innebär att Y bör bli<br />

Y =0.7 · (X − 1)<br />

När vi nu skall beräkna d<strong>en</strong> förväntade vinst<strong>en</strong>, dvs E (Y ), harvinyttaav<br />

att Y är <strong>en</strong> linjärfunktion av X. Detta inses via omskrivning<strong>en</strong><br />

Y =0.7 · (X − 1) = −0.7+0.7 · X<br />

Vi har alltså att Y = a + b · X där a = −0.7 och b =0.7. Det följer således<br />

att<br />

E (Y )=−0.7+0.7 · 0.9 =−0.07<br />

dvs vi har <strong>en</strong> förväntad förlust på 7 öre då vi köper <strong>en</strong> lott. För att någon<br />

skall lockas till att köpa lotter måste det vara <strong>en</strong> stor spridning på vinst<strong>en</strong><br />

och vi får att<br />

Var (Y )=0.7 2 · 27.39 = 13.42<br />

och det följer att<br />

σ (Y )= √ 13.42 = 3.66<br />

dvs i g<strong>en</strong>omsnitt skiljer sig vinst<strong>en</strong> på <strong>en</strong> slumpmässigt vald lott med 3 kronor<br />

och 66 öre. ¤<br />

48


Låt X vara <strong>en</strong> slumpvariabel med väntevärde μ och standardavvikelse σ.<br />

En av de allra viktigaste linjärfunktionerna är d<strong>en</strong> standardiserade slump-<br />

variabeln<br />

X − μ<br />

Z =<br />

σ<br />

Man brukar normalt reservera bokstav<strong>en</strong> Z för just d<strong>en</strong>na linjärfunktion.<br />

Vad är det då för speciellt med d<strong>en</strong>na slumpvariabel? Skriver vi om uttrycket<br />

något ser vi att<br />

X − μ 1<br />

Z = = −μ + · X<br />

σ<br />

är <strong>en</strong> linjärfunktion med a = − μ<br />

σ<br />

gäller således att<br />

och<br />

och b = 1<br />

σ<br />

σ σ<br />

. Utifrån räknereglerna för dessa<br />

E (Z) =− μ 1<br />

μ<br />

+ · E (X) =−μ +<br />

σ σ σ σ =0<br />

Var (Z) =<br />

µ 2<br />

1<br />

σ<br />

· Var (X) = σ2<br />

=1<br />

σ2 och det följer att<br />

σ (Z) = √ 1=1<br />

Dvs Z är <strong>en</strong> slumpvariabel med väntevärde 0 och standardavvikelse 1.G<strong>en</strong>om<br />

att med X − μ subtrahera slumpvariabelns medelvärde från slumpvariabeln<br />

flyttar vi hela sannolikhetsfördelning<strong>en</strong> så att dess medelvärde istället hamnar<br />

i origo (nollpunkt<strong>en</strong>). G<strong>en</strong>om att sedan dividera med standardavvikels<strong>en</strong><br />

“pressar vi ihop” (σ >1) eller “drar vi isär” (σ


där för X ett Ja värderas till 1 och ett Nej till 0. Eftersom vi väljer slumpmässigt<br />

bland population<strong>en</strong>s individer blir sannolikhetsfördelning<strong>en</strong> för X<br />

Vi räknar nu snabbt och lätt ut att<br />

x p (x)<br />

0 1 − π<br />

1 π<br />

E (X) =0· (1 − π)+1· π = π<br />

och<br />

E ¡ X 2¢ =0 2 · (1 − π)+1 2 · π = π<br />

Beräkningsformeln för varians<strong>en</strong> ger sedan att<br />

Var (X) =E ¡ X 2¢ − μ 2 = π − π 2 = π · (1 − π)<br />

För <strong>en</strong> tvåpunktsfördelad variabel gäller således att medelvärdet är π och<br />

varians<strong>en</strong> är π · (1 − π) vilket är ett viktigt resultat som vi skall använda oss<br />

av <strong>en</strong> hel del. (Jämför detta resultat med det i Uppgift 22.)<br />

Nu väljer vi dock sällan bara <strong>en</strong> individ ur population<strong>en</strong> utan stickprovet<br />

kommer att bestå av n dragna individer. D<strong>en</strong> slumpvariabel vi då kommer<br />

att vara intresserade av är<br />

p = Andel individer med eg<strong>en</strong>skap<strong>en</strong> i stickprovet<br />

dvs stickprovsandel<strong>en</strong>. Återig<strong>en</strong> har vi <strong>en</strong> viktig distinktion mellan p som<br />

är <strong>en</strong> slumpvariabel eftersom d<strong>en</strong> varierar från stickprov till stickprov och π<br />

som är <strong>en</strong> populationsparameter (<strong>en</strong> konstant). Då vi studerar dom sannolikhetsmässiga<br />

eg<strong>en</strong>skaperna hos p för<strong>en</strong>klar vi dock situation<strong>en</strong> något och<br />

studerar istället<br />

X = Antal individer med eg<strong>en</strong>skap<strong>en</strong> i stickprovet<br />

Vi ser att<br />

p = X<br />

n<br />

dvs p är <strong>en</strong> <strong>en</strong>kel linjärfunktion av X och resultat för X överförs därför <strong>en</strong>kelt<br />

till p.<br />

Hur ser då sannolikhetsfördelning<strong>en</strong> för X ut? Något kryptiskt uttryckt<br />

beror detta på om population<strong>en</strong> är ändlig eller oändlig. Något annorlunda<br />

uttryckt beror sannolikhetsfördelning<strong>en</strong> för X på om förutsättningarna<br />

50


förändras från dragning till dragning under urvalsprocess<strong>en</strong>. Vi har här möjlighet<br />

att effektivt använda oss av de metoder vi använde i samband med<br />

kombinatorik<strong>en</strong> i avsnitt 1.5. Population<strong>en</strong> kan här ses som <strong>en</strong> urna med<br />

bollar i två färger. Vi kan t.ex. låta vita bollar repres<strong>en</strong>tera individer med<br />

eg<strong>en</strong>skap<strong>en</strong> och svarta bollar repres<strong>en</strong>tera individer utan eg<strong>en</strong>skap<strong>en</strong>. Andel<strong>en</strong><br />

vita bollar i urnan är π och uppgift<strong>en</strong> är att välja ut n bollarururnan<br />

och räkna hur många vita bollar vi fick. Med språkbruk från kombinatorik<strong>en</strong><br />

översätts oändlig och ändlig population till om det är dragning med eller utan<br />

återläggning. Dragning med återläggning är samma som att population<strong>en</strong> är<br />

oändlig, dvs urnans sammansättning förblir oförändrad efter varje dragning.<br />

Exempel 36 Antag att vi skall kasta <strong>en</strong> tärning ett antal gånger och räkna<br />

antalet erhållna sexor. Varje gång vi kastar tärning<strong>en</strong> är det exakt samma<br />

förutsättningar som vid kastet innan, dvs exakt <strong>en</strong> sjättedels chans att få <strong>en</strong><br />

sexa. Vid tärningskast förändras alltså inte urnans sammansättning vilket<br />

innebär att det är fråga om dragning med återläggning. ¤<br />

Exempel 37 Betrakta <strong>en</strong> tombola med tio lotter varav <strong>en</strong>dast <strong>en</strong> är <strong>en</strong> vinstlott.<br />

En person står framför dig och du är förstås oerhört intresserad av<br />

huruvida d<strong>en</strong>ne drar vinstlott<strong>en</strong>. Vi betraktar <strong>en</strong> urna med tio bollar, <strong>en</strong> vit<br />

och nio svarta. Dragning sker utan återläggning, vilket innebär att förutsättningarna<br />

förändras efter varje dragning. ¤<br />

Vi behandlar de båda situationerna separat och avslutar sedan med <strong>en</strong><br />

diskussion om samband<strong>en</strong> dem emellan.<br />

2.4.1 Binomialfördelning<strong>en</strong><br />

Vi studerar nu <strong>en</strong> situation där vi från <strong>en</strong> oändligt stor population skall välja<br />

ut n individer och räkna hur många av dessa som har <strong>en</strong> viss eg<strong>en</strong>skap. Ur<br />

<strong>en</strong> urna där andel<strong>en</strong> vita bollar är π skall vi således med återläggning välja<br />

n bollar och studera slumpvariabeln<br />

X = Antalet vita bollar i urvalet<br />

Hur ser då sannolikhetsfördelning<strong>en</strong> för X ut? Låt oss börja med ett <strong>en</strong>kelt<br />

exempel.<br />

Exempel 38 En viss urna innehåller fem bollar där fyra är vita och <strong>en</strong> är<br />

svart. Ur d<strong>en</strong>na urna skall vi med återläggning välja tre bollar och sedan räkna<br />

antalet vita bollar. Tar vi hänsyn till d<strong>en</strong> ordning bollarna dras finns det<br />

åtta utfall vilka åskådliggörs i figur<strong>en</strong> nedan<br />

51


S<br />

VSS<br />

SSS<br />

SVS<br />

SSV<br />

SVV<br />

Nu är vi dock inte intresserade av i vilk<strong>en</strong> ordning bollarna valts utan <strong>en</strong>bart<br />

av hur många av dom som är vita. Med avse<strong>en</strong>de på slumpvariabeln X får vi<br />

därför följande uppdelning av utfallsrummet<br />

X=0<br />

X=1<br />

S<br />

VSS<br />

SSS<br />

SVS<br />

SSV<br />

SVV<br />

ochviserförstochfrämstattX kan anta värd<strong>en</strong>a 0, 1, 2 och 3. Dessafyra<br />

värd<strong>en</strong> skall nu associeras med sannolikheter och då måste vi först vara medvetna<br />

om att utfall<strong>en</strong> inte är lika sannolika. I det här fallet är t.ex. utfallet<br />

VVV mer sannolikt än SSS eftersom det finns fler vita än svarta bollar i<br />

urnan. Eftersom <strong>en</strong> drag<strong>en</strong> boll direkt återförs till urnan kommer vi i varje<br />

dragning ha exakt samma förutsättningar, dvs<br />

VSV<br />

VSV<br />

VVS<br />

VVV<br />

VVS<br />

VVV<br />

X=2<br />

X=3<br />

Pr (D<strong>en</strong>dragnaboll<strong>en</strong>ärvit) = 4<br />

5 =0.8<br />

Pr (D<strong>en</strong> dragna boll<strong>en</strong> är svart) = 1<br />

5 =0.2<br />

och det följer att<br />

52


Utfall<br />

SSS<br />

VSS<br />

SVS<br />

SSV<br />

VVS<br />

VSV<br />

SVV<br />

VVV<br />

eller i utskriv<strong>en</strong> form<br />

¤<br />

Sannolikhet<br />

3<br />

0.2*0.2*0.2=0.2<br />

2<br />

0.8*0.2*0.2=0.8*0.2<br />

2<br />

0.2*0.8*0.2=0.8*0.2<br />

2<br />

0.2*0.2*0.8=0.8*0.2<br />

2<br />

0.8*0.8*0.2=0.8 *0.2<br />

2<br />

0.8*0.8*0.2=0.8 *0.2<br />

2<br />

0.8*0.8*0.2=0.8 *0.2<br />

3<br />

0.8*0.8*0.8=0.8<br />

Värdering (X)<br />

x p (x)<br />

0 0.008<br />

1 0.096<br />

2 0.384<br />

3 0.512<br />

0<br />

1<br />

2<br />

3<br />

Slh-fördelning<br />

3<br />

Pr(X=0)=0.2<br />

2<br />

Pr(X=1)=3*0.8*0.2<br />

2<br />

Pr(X=2)=3*0.8 *0.2<br />

3<br />

Pr(X=3)=0.8<br />

Då vi skall finna d<strong>en</strong> allmänna sannolikhetsfördelning<strong>en</strong> finns det <strong>en</strong> hel<br />

del intressanta iakttagelser att göra från föregå<strong>en</strong>de exempel. Då vi allmänt<br />

skall dra n bollar ser vi t.ex. att möjliga värd<strong>en</strong> på X är x =0, 1, 2,...,n.<br />

Samtidigt ser vi att följder som innehåller exakt lika många vita bollar alla<br />

är lika sannolika. För <strong>en</strong> urna där andel<strong>en</strong> vita bollar är π gäller att <strong>en</strong> viss<br />

följd som innehåller x vita bollar har sannolikhet<strong>en</strong><br />

π x · (1 − π) n−x<br />

eftersom dom resterande n − x bollarna följaktlig<strong>en</strong> måste vara svarta. För<br />

att kunna beräkna sannolikhet<strong>en</strong> att få <strong>en</strong> följd med x vita bollar återstår<br />

då <strong>en</strong>dast att bestämma hur många sådana följder det finns. Detta är lite<br />

besvärligare och kräver lite eftertanke. Vi tänker oss urvalet som n positioner<br />

som skall fyllas i med anting<strong>en</strong> ett S eller ett V . För att det skall bli exakt<br />

x vita bollar måste vi således välja ut exakt x av dessa positioner och i<br />

dessa placera ett V . På hur många sätt kan detta göras? Det är dragning<br />

utan återläggning eftersom varje position <strong>en</strong>dast kan innehålla <strong>en</strong> boll (dvs<br />

<strong>en</strong>bart <strong>en</strong> boll dras varje gång). Det är dragning utan hänsyn till ordning<strong>en</strong><br />

eftersom vi <strong>en</strong>bart är intresserade av vilka x positioner som blivit valda (och<br />

53


inte i vilk<strong>en</strong> ordning dom blev valda). Kombinatorik<strong>en</strong>s räkneregler ger oss<br />

därmed att vi söker antalet kombinationer, dvs<br />

µ <br />

n<br />

Cn,x =<br />

x<br />

Följaktlig<strong>en</strong> får vi sannolikhet<strong>en</strong> att få exakt x vita bollar till<br />

µ <br />

n<br />

p (x) =Pr(X = x) = · π<br />

x<br />

x · (1 − π) n−x , x =0, 1, 2,...,n<br />

Eftersom d<strong>en</strong>na sannolikhetsfördelning är vanligt förekommande i praktik<strong>en</strong><br />

har d<strong>en</strong> fått ett eget namn och <strong>en</strong> eg<strong>en</strong> beteckning. D<strong>en</strong> kallas för binomialfördelning<strong>en</strong><br />

och betecknas Bi(n, π).<br />

Exempel 39 Antag att vi slumpmässigt fyller i <strong>en</strong> <strong>en</strong>kelrad på <strong>en</strong> stryktipskupong.<br />

Det är tretton matcher som skall fyllas i med anting<strong>en</strong> 1, X eller<br />

2. Endast ett av dessa teck<strong>en</strong> är rätt vilket kan översättas till <strong>en</strong> urna med<br />

<strong>en</strong>dast tre bollar där <strong>en</strong> är vit (korrekt tipsteck<strong>en</strong>) och två är svarta (fel tipsteck<strong>en</strong>).<br />

Ur urnan dras med återläggning tretton bollar och vi räknar antalet<br />

erhållna vita bollar, eller ekvival<strong>en</strong>t<br />

X = Antal rätt på tipskupong<strong>en</strong><br />

Eftersom samtliga förutsättningar är uppfyllda följer att X är binomialfördelad<br />

med parametrar n =13och π =1/3. DvsXär Bi ¡ 13, 1<br />

¢<br />

och 3<br />

µ µ x µ n−x<br />

13 1 2<br />

p (x) =Pr(X = x) =<br />

, x =0, 1, 2,...,13<br />

x 3 3<br />

Vi finner nu t.ex. att sannolikhet<strong>en</strong> att få tio rätt ges av<br />

µ µ 10 µ 3<br />

13 1 2<br />

p (10) = Pr (X =10)=<br />

≈ 0.0014<br />

10 3 3<br />

dvs ungefär 0.14% chans. En rad med tio rätt kan ha följande utse<strong>en</strong>de<br />

1 2 3 4 5 6 7 8 9 10 11 12 13<br />

54


och <strong>en</strong> sådan rad har sannolikhet<strong>en</strong><br />

µ<br />

1<br />

3<br />

10<br />

·<br />

µ 3<br />

2<br />

3<br />

Nu bryr vi oss dock inte om vilka tio matcher vi har tippat rätt utan <strong>en</strong>bart<br />

att vi har tio rätt. Det finns ¡ ¢ 13<br />

olika sätt att tippa tio matcher rätt (eller<br />

10<br />

tre matcher fel) och därav d<strong>en</strong> angivna sannolikhet<strong>en</strong>. ¤<br />

I sannolikhetssammanhang är man ofta intresserade av frågor som “Bestäm<br />

sannolikhet<strong>en</strong> att åtminstone x av bollarna är vita” eller “Bestäm sannolikhet<strong>en</strong><br />

att högst x av bollarna är vita”. Sådana frågor besvaras med hjälp<br />

av d<strong>en</strong> sk. fördelningsfunktion<strong>en</strong><br />

xX<br />

F (x) =Pr(X≤x) = p (k)<br />

Fördelningsfunktion<strong>en</strong> summerar således samtliga sannolikheter p (k) upp till<br />

och med ett visst angivet värde x. Viharsåledesatt<br />

F (x) =Sannolikhet<strong>en</strong> att högst x av de dragna bollarna är vita<br />

För att beräkna d<strong>en</strong> andra sannolikhet<strong>en</strong> använder vi oss av komplem<strong>en</strong>tregeln<br />

Pr (X ≥ x) = Sannolikhet<strong>en</strong> att åtminstone x av de dragna bollarna är vita =<br />

= 1−Sannolikhet<strong>en</strong> att högst x − 1 av de dragna bollarna är vita =<br />

= 1−F (x − 1)<br />

I nästa exempel är det dock <strong>en</strong> omväg att gå via fördelningsfunktion<strong>en</strong>.<br />

Exempel 40 Vi fortsätter med Exempel 39. Vanligtvis blir det vinst om man<br />

åtminstone har tio rätt och vi söker därför<br />

k=0<br />

Pr (Vinst) =Pr(X ≥ 10) = 1 − Pr (X ≤ 9) = 1 − F (9)<br />

I fördelningsfunktion<strong>en</strong> ingår tio termer, p (0) ,p(1) ,...,p(9) och det är därför<br />

<strong>en</strong>klare att gå andra väg<strong>en</strong>, dvs att direkt beräkna<br />

Pr (Vinst) =<br />

=<br />

Pr(X≥10) = p (10) + p (11) + p (12) + p (13) =<br />

µ µ 10 µ 3 µ µ 13 µ 0<br />

13 1 2<br />

13 1 2<br />

+ ···+<br />

=<br />

10 3 3<br />

13 3 3<br />

= 0.00165<br />

dvs ungefär 0.165% chans. ¤<br />

55


Man inser snart att äv<strong>en</strong> med miniräknar<strong>en</strong> till hjälp blir beräkningarna<br />

snabbt betungande. Ibland kan vi ta hjälp av sannolikhetstabeller över<br />

binomialfördelning<strong>en</strong>. Se t.ex. Tabell 1 i “Körner: Tabeller och formler för statistiska<br />

beräkningar”. Här återges binomialfördelning<strong>en</strong>s fördelningsfunktion<br />

för några olika binomialfördelningar; n =2, 3,...,20 och π =0.1, 0.2,...,0.9.<br />

Binomialfördelning<strong>en</strong> som förknippades med tipskupong<strong>en</strong> finns alltså inte<br />

här och våra beräkningar ovan var nödvändiga.<br />

Exempel 41 För Exempel 38 ovan finns dock sannolikhetsfördelning<strong>en</strong> med<br />

i tabellsamling<strong>en</strong>. Det gäller att<br />

X = Antalet vita bollar i urvalet<br />

är Bi(3, 0.8) och vi ser från tabell<strong>en</strong> att<br />

x p (x) F (x)<br />

0 0.008 0.008<br />

1 0.096 0.104<br />

2 0.384 0.488<br />

3 0.512 1.000<br />

och det är lätt konstaterat att dessa sannolikheter stämmer överr<strong>en</strong>s med de<br />

tidigare beräkningarna.<br />

Exempel 42 Antag att vi i föregå<strong>en</strong>de exempel istället med återläggning drar<br />

20 bollar ur urnan. Då kommer X att vara Bi(20, 0.8) som också finns angiv<strong>en</strong><br />

i Tabell 1. Antag vidare att vi vill att åtminstone 14 av de dragna bollarna<br />

skall vara vita samt att åtminstone <strong>en</strong> av bollarna är svart. Vi söker således<br />

Pr (14 ≤ X ≤ 19)<br />

vilket skrivs om i “tabellvänligt skick” via fördelningsfunktion<strong>en</strong><br />

Pr (14 ≤ X ≤ 19) = F (19) − F (13) = 0.9885 − 0.0867 = 0.9018<br />

dvs ungefär 90% chans. För att utifrån tabell<strong>en</strong> bestämma sannolikhet<strong>en</strong> för<br />

<strong>en</strong>staka värd<strong>en</strong> som Pr (X =14)gör vi följande omskrivning<br />

Pr (X =14) = Pr(X≤14) − Pr (X ≤ 13) = F (14) − F (13) =<br />

= 0.1958 − 0.0867 = 0.1091<br />

vilket också kunde beräknats via<br />

¤<br />

Pr (X =14)=<br />

µ <br />

20<br />

· 0.8<br />

14<br />

14 · 0.2 6 =0.1091<br />

56


Tabell<strong>en</strong> är ofta användbar m<strong>en</strong> räcker inte på långa vägar till för alla<br />

de situationer där binomialfördelning<strong>en</strong> dyker upp. Vi skall dock se att<br />

då de manuella beräkningarna blir alltför betungande finns det oftast goda<br />

approximationsmöjligheter.<br />

Väntevärd<strong>en</strong> för binomialfördelning<strong>en</strong> 5 Det återstår nu <strong>en</strong>bart att<br />

finna de båda sammanfattande mått<strong>en</strong> för binomialfördelning<strong>en</strong>. Vi såg tidigare<br />

att då vi <strong>en</strong>bart drog <strong>en</strong> boll ur urnan och studerade slumpvariabeln<br />

följde att<br />

X = Var boll<strong>en</strong> vit?<br />

μ = E (X) =π<br />

σ 2 = Var (X) =π · (1 − π)<br />

Med beteckningarna ovan gäller således att dessa är de båda sammanfattande<br />

mått<strong>en</strong> för Bi(1,π). Hur många vita bollar förväntar vi oss då om vi<br />

med samma förutsättningar vid varje dragning drar n bollarururnan?Föga<br />

överraskande får vi svaret<br />

π + π + ···+ π = n · π<br />

Samma eg<strong>en</strong>skaper visar sig gälla för varians<strong>en</strong>, dvs<br />

π · (1 − π)+π · (1 − π)+···+ π · (1 − π) =n · π · (1 − π)<br />

För Bi(n, π) gäller således att<br />

μ = E (X) =n · π<br />

σ 2 = Var (X) =n · π · (1 − π)<br />

Här bör man observera att samma addering inte kan utföras för standardavvikelserna.<br />

Exempel 43 Vi återgår till Exempel 39 där vi konstaterade att slumpvariabeln<br />

X = Antal rätt på kupong<strong>en</strong><br />

5 De matematiskt korrekta bevis<strong>en</strong> för dessa väntevärd<strong>en</strong> är besvärliga m<strong>en</strong> återges för<br />

d<strong>en</strong> intresserade och något matematiskt bevandrade läsar<strong>en</strong> i Avsnitt B.1.<br />

57


var Bi ¡ 13; 1<br />

¢<br />

. Det följer således att<br />

3<br />

och följaktlig<strong>en</strong><br />

μ = E (X) =13· 1<br />

3 =4.33<br />

σ 2 = Var (X) =13· 1 2<br />

·<br />

3 3 =2.89<br />

σ = √ 2.89 = 1.7<br />

Om vi låter slump<strong>en</strong> fylla i <strong>en</strong> <strong>en</strong>kelrad på stryktipset förväntas vi få 4.33<br />

rätt med <strong>en</strong> standardavvikelse på 1.7 rätt. Vi kan givetvis inte få exakt 4.33<br />

rätt och istället tolkar vi väntevärdet på följande sätt. Låter vi slump<strong>en</strong> välja<br />

<strong>en</strong>kelrad vid upprepade tillfäll<strong>en</strong> kommer vi i g<strong>en</strong>omsnitt att få 4.33 rätt. Vi<br />

får dock inte exakt lika många rätt varje gång utan resultat<strong>en</strong> kommer att<br />

avvika från väntevärdet 4.33 med i g<strong>en</strong>omsnitt 1.7 rätt. ¤<br />

Vi sammanfattar binomialfördelning<strong>en</strong>s eg<strong>en</strong>skaper som<br />

Sammanfattning 1 (Binomialfördelning<strong>en</strong>) Drag med återläggning n bollar<br />

ur <strong>en</strong> urna där andel<strong>en</strong> vita bollar är π och studera slumpvariabeln<br />

Då gäller att<br />

och<br />

¥<br />

p (x) =Pr(X = x) =<br />

X = Antalet vita bollar i urvalet<br />

µ <br />

n<br />

π<br />

x<br />

x · (1 − π) n−x , x =0, 1, 2,...,n<br />

μ = E (X) =n · π<br />

σ 2 = Var (X) =n · π · (1 − π)<br />

2.4.2 Hypergeometrisk fördelning<br />

Vi studerar nu <strong>en</strong> situation där vi utan återläggning från <strong>en</strong> ändlig population<br />

skall välja ut n individer och räkna hur många av dessa som har <strong>en</strong><br />

viss eg<strong>en</strong>skap. Ur <strong>en</strong> urna där andel<strong>en</strong> vita bollar är π skallvisåledesutan<br />

återläggning välja n bollar och studera slumpvariabeln<br />

X = Antalet vita bollar i urvalet<br />

58


D<strong>en</strong> <strong>en</strong>da skillnad<strong>en</strong> jämfört med binomialfördelning<strong>en</strong> är alltså att det nu är<br />

dragning utan återläggning. Eftersom π inte kommer att vara samma under<br />

hela dragsekv<strong>en</strong>s<strong>en</strong> måste n och π kompletteras med <strong>en</strong> tredje parameter<br />

N = Antalet bollar i urnan<br />

dvs populationsstorlek<strong>en</strong>. Det följer nu att<br />

N · π = Antalet vita bollar i urnan<br />

N − N · π = Antalet svarta bollar i urnan<br />

Hur ser då sannolikhetsfördelning<strong>en</strong> för X ut? Återig<strong>en</strong> är tillvägagångssättet<br />

besvärligt och det krävs <strong>en</strong> del eftertanke för att förstå procedur<strong>en</strong>. För att<br />

underlätta låter vi samtliga bollar vara numrerade.<br />

v1,v2,...,vN·π,s1,s2,...,sN−N·π<br />

På detta sätt kan vi nämlig<strong>en</strong> se skillnad på alla bollarna och eftersom urvalet<br />

sker helt slumpmässigt kommer varje dragsekv<strong>en</strong>s bestå<strong>en</strong>de av n bollar att<br />

vara lika sannolika. Vi kan då använda resultat (1) på sidan 12 som säger att<br />

Pr (X = x) =<br />

Antal följder med exakt x vita bollar<br />

Antal följder<br />

Itäljar<strong>en</strong>skallviberäknapåhurmångasättnbollar kan väljas ur urnan<br />

så att exakt x av dem är vita. Utav de N · π vita bollarna skall således x<br />

väljas och av de N − N · π svarta bollarna skall de resterande n − x bollarna<br />

väljas. Det är dragning utan återläggning och utan hänsyn till ordning<strong>en</strong><br />

varför kombinatorik<strong>en</strong> ger oss att svaret blir<br />

Pr (X = x) =<br />

¡ ¢¡ N·π N−N·π<br />

x n−x<br />

¡ N<br />

n<br />

¢<br />

¢ , x =0, 1, 2,...,n<br />

förutsatt att det finns tillräckligt med vita och svarta bollar i urnan. Äv<strong>en</strong><br />

detta är <strong>en</strong> i praktik<strong>en</strong> ofta förekommande sannolikhetsfördelning och har<br />

därför äv<strong>en</strong> d<strong>en</strong> ett eget namn och beteckning. Sannolikhetsfördelning<strong>en</strong><br />

kallas för hypergeometrisk fördelning och betecknas Hyp(n, π, N) 6 .<br />

Exempel 44 Antag att vi fyller i <strong>en</strong> <strong>en</strong>kelrad på <strong>en</strong> lottokupong, dvs utav<br />

de 35 numr<strong>en</strong> väljer vi ut 7. Vid dragning<strong>en</strong> skall maskin<strong>en</strong> DraKula utan<br />

6 En annan vanlig beteckning på hypergeometrisk fördelning är Hyp(n, N · π,N), där<br />

man således istället för andel vita bollar i urnan anger antal vita bollar i urnan.<br />

59


återläggning välja 7 bollar. Utifrån vår lottorad är det nu 7 vita och 28 svarta<br />

bollar i urnan. Låter vi nu<br />

X = Antal rätt på lottokupong<strong>en</strong><br />

följer att X är Hyp ¡ 7, 7<br />

35 , 35¢ . sannolikhet<strong>en</strong> att få sex rätt ges därför av<br />

¢<br />

Pr (X =6)=<br />

eller ungefär <strong>en</strong> chans på 34 309. ¤<br />

¡ ¢¡ 7 28<br />

6 1 ¡ 35<br />

7<br />

¢ ≈ 0.000029<br />

Exempel 45 Vid <strong>en</strong> statistisk kvalitetskontroll undersöks fem <strong>en</strong>heter valda<br />

på måfå från <strong>en</strong> förpackning med 60 <strong>en</strong>heter. Om någon av de valda <strong>en</strong>heterna<br />

är felaktig avvisas hela förpackning<strong>en</strong>. Antag att förpackning<strong>en</strong> innehåller 10<br />

felaktiga <strong>en</strong>heter. Bestäm sannolikhet<strong>en</strong> att förpackning<strong>en</strong> avvisas. Låter vi<br />

X = Antal felaktiga <strong>en</strong>heter i urvalet<br />

följer att X är Hyp ¡ 5, 1<br />

6 , 60¢ .Visöker<br />

Pr (X ≥ 1) = 1 − Pr (X =0)=1−<br />

¡ ¢¡ 10 50<br />

0 5 ¡ 60<br />

5<br />

dvs ungefär 61% chans för att förpackning<strong>en</strong> avvisas. ¤<br />

¢<br />

¢ =0.6121<br />

Väntevärd<strong>en</strong> för hypergeometrisk fördelning 7 Det återstår nu <strong>en</strong>bart<br />

att finna de båda sammanfattande mått<strong>en</strong> för d<strong>en</strong> hypergeometriska fördelning<strong>en</strong>.<br />

Då vi <strong>en</strong>dast drar <strong>en</strong> boll ur urnan går det inte att skilja på fall<strong>en</strong><br />

med och utan återläggning vilket innebär att Bi(1,π) är samma som<br />

Hyp(1,π,N) obero<strong>en</strong>de av antal bollar i urnan. Det visar sig att det förväntade<br />

antalet vita bollar kommer att vara samma för hypergeometrisk fördelning<br />

som för binomialfördelning<strong>en</strong>, dvs<br />

μ = E (X) =n · π<br />

Varians<strong>en</strong> blir dock inte helt id<strong>en</strong>tisk. Man kan nämlig<strong>en</strong> på matematisk väg<br />

visa att<br />

σ 2 N − n<br />

= Var (X) =n · π · (1 − π) ·<br />

N − 1<br />

7 De matematiskt korrekta bevis<strong>en</strong> för dessa väntevärd<strong>en</strong> är besvärliga m<strong>en</strong> återges för<br />

d<strong>en</strong> intresserade och något matematiskt bevandrade läsar<strong>en</strong> i Avsnitt B.2.<br />

60


där term<strong>en</strong><br />

N − n<br />

N − 1<br />

kallas för korrektion för ändlig population. Variation<strong>en</strong> beror alltså på d<strong>en</strong><br />

urvalsmetod som används. Detta är inte så underligt. Då vi drar utan återläggning<br />

får vi efter varje drag<strong>en</strong> boll mer information om hur de återstå<strong>en</strong>de<br />

bollarna i urnan är fördelade. Mer information innebär mindre osäkerhet, dvs<br />

mindre spridning. Då vi drar med återläggning får vi aldrig d<strong>en</strong>na merinformation<br />

och därför blir varians<strong>en</strong> mindre för d<strong>en</strong> hypergeometriska fördelning<strong>en</strong><br />

jämfört med binomialfördelning<strong>en</strong>. Låt oss studera ytterlighetsfall<strong>en</strong> i ett<br />

exempel.<br />

Exempel 46 Väntevärdet μ skall tolkas som det medevärde vi får om vi utför<br />

slumpförsöket ett mycket stort antal gånger. Nu får vi antaglig<strong>en</strong> inte<br />

samma resultat varje gång utan σ anger med hur mycket utfallet i g<strong>en</strong>omsnitt<br />

skiljer sig från detta medelvärde. Antag att vi drar samtliga bollar ur<br />

urnan, dvs n = N. Eftersom dragning sker utan återläggning kommer vi att<br />

få samma resultat (μ) varje gång, dvs det kommer då inte att förekomma<br />

någon spridning kring medelvärdet, vilket återspeglar sig i variansterm<strong>en</strong><br />

N − N<br />

Var (X) =n · π · (1 − π) ·<br />

N − 1 =0<br />

Om vi å andra sidan <strong>en</strong>bart drar <strong>en</strong> boll ur urnan hinner vi inte få någon<br />

merinformation och därför blir varians<strong>en</strong> samma som för binomialfördelnin-<br />

g<strong>en</strong>.<br />

¤<br />

Var (X) =n · π · (1 − π) ·<br />

N − 1<br />

= n · π · (1 − π)<br />

N − 1<br />

Dessa båda ytterligheter speglar väl dom likheter och olikheter som gäller<br />

mellan binomialfördelning<strong>en</strong> och hypergeometrisk fördelning vilket vi återkommer<br />

till i nästa avsnitt. Låt oss först bestämma väntevärde och varians för<br />

lottoexemplet ovan.<br />

Exempel 47 Vi återgår till Exempel 44 där vi konstaterade att slumpvariabeln<br />

X = Antal rätt på kupong<strong>en</strong><br />

var Hyp ¡ 7, 7<br />

35 , 35¢ . Det följer således att<br />

μ = E (X) =7· 7<br />

35 =1.4<br />

σ 2 = Var (X) =7· 7 28 35 − 7<br />

· ·<br />

35 35 35 − 1 =0.92<br />

61


och följaktlig<strong>en</strong><br />

σ = √ 0.92 = 0.96<br />

I långa loppet kommer vi på vår <strong>en</strong>kelrad att i g<strong>en</strong>omsnitt få 1.4 rätt. Vi<br />

får dock inte exakt lika många rätt varje gång utan resultat<strong>en</strong> kommer att i<br />

g<strong>en</strong>omsnitt avvika från väntevärdet 1.4 med 1 rätt. ¤<br />

Vi sammanfattar d<strong>en</strong> hypergeometriska fördelning<strong>en</strong>s eg<strong>en</strong>skaper som<br />

Sammanfattning 2 (Hypergeometrisk fördelning) Drag utan återläggning<br />

n bollar ur <strong>en</strong> urna med N bollar där andel<strong>en</strong> vita bollar är π och<br />

studera slumpvariabeln<br />

Då gäller att<br />

Pr (X = x) =<br />

X = Antalet vita bollar i urvalet<br />

¡ ¢¡ N·π N−N·π<br />

x n−x<br />

¡ N<br />

n<br />

¢<br />

¢ , x =0, 1, 2,...,n<br />

förutsatt att det finns tillräckligt med vita och svarta bollar i urnan. Vidare<br />

gäller att<br />

¥<br />

μ = E (X) =n · π<br />

σ 2 = Var (X) =n · π · (1 − π) ·<br />

N − n<br />

N − 1<br />

2.4.3 Samband mellan Binomial- och Hypergeometrisk fördelning<br />

Ideflesta situationer då man tar stickprov kan <strong>en</strong> och samma individ <strong>en</strong>bart<br />

komma med <strong>en</strong> gång i urvalet, dvs det är då dragning utan återläggning.<br />

Detta borde således innebära att d<strong>en</strong> hypergeometriska sannolikhetsfördelning<strong>en</strong><br />

är mer använd än binomialfördelning<strong>en</strong>. Så är dock inte fallet och vi<br />

skall i detta avsnitt ge <strong>en</strong> förklaring till detta f<strong>en</strong>om<strong>en</strong>. D<strong>en</strong> hypergeometriska<br />

fördelning<strong>en</strong> ger snabbt besvärliga beräkningar och då population och stickprov<br />

är någorlunda stora kan till och med datorerna få svårt att hänga med i<br />

svängarna. Detta problem löser vi g<strong>en</strong>om att approximera hypergeometriska<br />

sannolikheter med d<strong>en</strong> mer lättanvända binomialfördelning<strong>en</strong>. Sedan är inte<br />

heller binomialfördelning<strong>en</strong> alltid speciellt <strong>en</strong>kel att arbeta med och då finns<br />

ytterligare approximationsmöjligheter. Vi skall se lite längre fram att det vid<br />

sannolikhetsberäkningar i praktik<strong>en</strong> i princip <strong>en</strong>bart förekommer approximationer.<br />

62


För att <strong>en</strong> approximation skall vara användbar måste d<strong>en</strong> förstås ligga<br />

nära d<strong>en</strong> verkliga sannolikhet<strong>en</strong>. Vad är det då som gör att vi kan använda<br />

binomialsannolikheter för att approximera hypergeometriska sannolikheter?<br />

D<strong>en</strong> <strong>en</strong>da skillnad<strong>en</strong> mellan dem är att det i binomialfallet är dragning med<br />

återläggning och i det hypergeometriska fallet är dragning utan återläggning.<br />

I det binomiala fallet ändras således inte urnans sammansättning efter varje<br />

dragning vilket sker i det hypergeometriska fallet. Frågan är hur mycket<br />

urnan förändras vid varje dragning?<br />

Exempel 48 I <strong>en</strong> tombola återstår 30 lotter varav 6 är vinstlotter. Antag att<br />

vi tänker ta fem lotter och är intresserade av att bestämma våra vinstchanser.<br />

Vi konstruerar slumpvariabeln<br />

X = Antal vinstlotter bland de dragna<br />

och vi söker alltså dess sannolikhetsfördelning. Utifrån förutsättningarna står<br />

det klart att X är Hyp ¡ 5, 6<br />

30 , 30¢ ,ellerför<strong>en</strong>klatHyp(5, 0.2, 30), ochd<strong>en</strong>na<br />

sannolikhetsfördelning beräknas nu via formeln. Antag nu att vi istället<br />

approximerar med binomialfördelning<strong>en</strong>, dvs att vi tänker oss <strong>en</strong> situation<br />

där vi tillämpar dragning med återläggning. Vi lägger således tillbaks varje<br />

drag<strong>en</strong> lott i tombolan vilket innebär att X nu är Bi(5, 0.2). Vifinner då<br />

sannolikhetsfördelning<strong>en</strong> för X <strong>en</strong>kelt från Tabell 1 och kan göra följande<br />

jämförelse.<br />

Sannolikheter<br />

Antal vinstlotter Hyp(5, 0.2, 30) Bi(5, 0.2)<br />

0 0.2983 0.3277<br />

1 0.4474 0.4096<br />

2 0.2130 0.2048<br />

3 0.0387 0.0512<br />

4 0.0025 0.0064<br />

5 0.00004 0.0003<br />

Vi ser att i stora drag följer sannolikheterna varandra m<strong>en</strong> det förekommer<br />

äv<strong>en</strong> stora skillnader. Sannolikhet<strong>en</strong> att samtliga fem lotter är vinstlotter blir<br />

ungefär åtta gånger större utifrån binomialapproximation<strong>en</strong> jämfört med d<strong>en</strong><br />

exakta sannolikhet<strong>en</strong>. I det här fallet är därför inte approximation<strong>en</strong> lämplig.<br />

¤<br />

Anledning<strong>en</strong> till d<strong>en</strong> stora skillnad<strong>en</strong> i föregå<strong>en</strong>de exempel var att urnans<br />

sammansättning förändrats alltför mycket jämfört med ursprungsläget. Om<br />

de fyra först dragna lotterna alla var vinstlotter är urnans sammansättning<br />

63


inför d<strong>en</strong> sista lott<strong>en</strong> att <strong>en</strong>dast två av de återstå<strong>en</strong>de 26 lotterna är vinslotter,<br />

dvs π =1/13 ≈ 0.077, vilket är <strong>en</strong> stor förändring från de 0.2 vi hade<br />

från början. För att approximation<strong>en</strong> skall vara lämplig skall <strong>en</strong> sådan kraftig<br />

förändring inte kunna ske.<br />

Exempel 49 Antag nu istället att lotteriet innehåller 100 lotter varav 20 är<br />

vinster. Med för övrigt samma situation som i föregå<strong>en</strong>de exempel har vi att<br />

X är Hyp ¡ 5, 20<br />

100 , 100¢ ,ellerHyp(5, 0.2, 100), vilket skall approximeras med<br />

Bi(5, 0.2) som förut. Motsvarande jämförelse blir nu<br />

Sannolikheter<br />

Antal vinstlotter Hyp(5, 0.2, 100) Bi(5, 0.2)<br />

0 0.3193 0.3277<br />

1 0.4201 0.4096<br />

2 0.2073 0.2048<br />

3 0.0478 0.0512<br />

4 0.0051 0.0064<br />

5 0.0002 0.0003<br />

och vi ser att respektive sannolikheter nu över<strong>en</strong>sstämmer i klart högre grad.<br />

I det här fallet verkar approximation<strong>en</strong> fungera tillfredsställande. ¤<br />

I det s<strong>en</strong>aste exemplet hinner inte urnans sammansättning förändras<br />

alltför mycket under urvalet vilket är anledning<strong>en</strong> till att approximation<strong>en</strong><br />

fungerar något sånär. Poäng<strong>en</strong> är således att urvalsstorlek<strong>en</strong> inte får vara<br />

alltför stor i jämförelse med populationsstorlek<strong>en</strong>. Vi måste sätta <strong>en</strong> gräns<br />

för hur stor del av population<strong>en</strong> urvalet får utgöra för att approximation<strong>en</strong><br />

skall vara tillåt<strong>en</strong> och ett vanligt krav är att urvalet högst får utgöra 10% av<br />

population<strong>en</strong>. 8 Något annorlunda uttryckt blir kravet att<br />

n<br />

< 0.1<br />

N<br />

D<strong>en</strong> uppsatta gräns<strong>en</strong> anger när approximation<strong>en</strong> inte längre är tillåt<strong>en</strong> pga<br />

att risk<strong>en</strong> för missvisande resultat blir för stor. Ju mindre urvalsandel<strong>en</strong> är ju<br />

bättre blir approximation<strong>en</strong>. En i praktik<strong>en</strong> vanlig situation är väljarundersökningar<br />

där ett urval av d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> väljs ut. Det är vanligt att<br />

man använder <strong>en</strong> urvalsstorlek på ungefär 2000personer vilket kan tyckas<br />

vara stort m<strong>en</strong> med tanke på att population<strong>en</strong> består att ett antal miljoner<br />

väljare blir urvalfraktion<strong>en</strong> mindre än 0.001 (eller 0.1%).<br />

8 En något mer restriktiv hållning som är vanlig i statistiklitteratur<strong>en</strong> är att urvalet<br />

högst får utgöra 5% av population<strong>en</strong>.<br />

64


Exempel 50 Antag att d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> består av fem miljoner personer<br />

och att vi ur d<strong>en</strong>na skall göra ett urval på 20 personer. Antag (r<strong>en</strong>t<br />

hypotetiskt) att hälft<strong>en</strong> av väljarkår<strong>en</strong> består av EMU-anhängare. Det gäller<br />

att<br />

X = Antal EMU-anhängare i urvalet<br />

är hypergeometriskt fördelad. Nu gäller dock att om vi ur väljarkår<strong>en</strong> tar bort<br />

t.ex. 20 EMU-anhängare kommer i princip fortfarande hälft<strong>en</strong> vara EMUanhängare<br />

varför det här fallet kan betraktas som binomialfördelat. I det här<br />

fallet är det oerhört besvärligt att använda d<strong>en</strong> hypergeometriska fördelning<strong>en</strong><br />

medan binomialfördelning<strong>en</strong> Bi(20, 0.5) bara är att läsa av ur Tabell 1. ¤<br />

I situationer där det anges “stor population” kommer förutsättas att urvalsandel<strong>en</strong><br />

är så lit<strong>en</strong> att binomialfördelning<strong>en</strong> används som exakt sannolikhetsfördelning<br />

trots att strikt sannolikhetsmässigt d<strong>en</strong> hypergeometriska<br />

fördelning<strong>en</strong> borde användas. Vi sammanfattar nu d<strong>en</strong>na viktiga approximationsmöjlighet.<br />

Sammanfattning 3 Förutsatt att urvalet inte utgör mer än 10% av population<strong>en</strong><br />

kan Hyp(n, π, N) approximeras med Bi(n, π). Då population<strong>en</strong> anges<br />

som “stor” används binomialfördelning<strong>en</strong> som exakt sannolikhetsfördelning<br />

trots att dragning sker utan återläggning. ¥<br />

2.4.4 Övningsuppgifter<br />

Uppgift 23 Lös uppgift 311.<br />

Uppgift 24 Lös uppgift 313.<br />

Uppgift 25 Lös uppgift 318.<br />

Uppgift 26 Lös uppgift 320.<br />

Uppgift 27 Lös uppgift 321.<br />

Uppgift 28 En viss statistikklass består av 84 kvinnliga och 56 manliga stud<strong>en</strong>ter.<br />

Av dessa skall fem väljas ut. Bestäm approximativt sannolikhet<strong>en</strong> att<br />

det blir fler män än kvinnor bland de utvalda. Ange anledning<strong>en</strong> till att d<strong>en</strong>na<br />

approximativa lösning är okej.<br />

65


2.5 Poissonfördelning<strong>en</strong><br />

Det nämndes i föregå<strong>en</strong>de avsnitt att äv<strong>en</strong> binomialfördelning<strong>en</strong> ofta behöver<br />

approximeras och det visar sig att <strong>en</strong> annan diskret sannolikhetsfördelning i<br />

vissa situationer är användbar till just detta. D<strong>en</strong>na sannolikhetsfördelning är<br />

dock äv<strong>en</strong> användbar i sig själv och vi ger därför först <strong>en</strong> ord<strong>en</strong>tlig beskrivning<br />

av d<strong>en</strong> innan vi övergår till approximationsmöjligheterna.<br />

2.5.1 Poissonprocesser<br />

Vi tänker oss <strong>en</strong> process där händelser inträffar över tid<strong>en</strong>. Det kan gälla<br />

någon form av kösystem som t.ex. inkommande telefonsamtal till <strong>en</strong> telefonväxel<br />

eller kunder som kommer till ett bankkontor. Det kan äv<strong>en</strong> gälla<br />

trafikolyckor på någon utsatt vägsträcka. Vi tänker oss nu <strong>en</strong> slumpvariabel<br />

X = Antal händelser på ett <strong>en</strong>hetsintervall<br />

där vi specificerat vad som skall m<strong>en</strong>as med ett <strong>en</strong>hetsintervall. Vanliga tids<strong>en</strong>heter<br />

är minut, timme, dag etc.. Med rätt förutsättningar kommer d<strong>en</strong>na<br />

slumpvariabel att få <strong>en</strong> användbar sannolikhetsfördelning. Vi kommer att<br />

förutsätta att<br />

1. Händelser inträffar med <strong>en</strong> viss int<strong>en</strong>sitet μ. Int<strong>en</strong>sitetsparametern μ<br />

anger hur ofta händelser inträffar i g<strong>en</strong>omsnitt, som t.ex. tre gånger i<br />

minut<strong>en</strong> eller <strong>en</strong> gång varannan timme etc..<br />

2. Antal händelser på disjunkta tidsintervall är obero<strong>en</strong>de. Omviexempelvis<br />

får reda på hur många händelser som inträffat under s<strong>en</strong>aste<br />

minut<strong>en</strong> påverkar inte detta vår sannolikhetsbedömning av antal händelser<br />

under nästkommande minut.<br />

3. På ett tillräckligt kort tidsintervall gäller att sannolikhet<strong>en</strong> för två eller<br />

fler händelser approximativt är noll. Vidare gäller att sannolikhet<strong>en</strong><br />

för exakt <strong>en</strong> händelse approximativt är proportionell mot int<strong>en</strong>sitet<strong>en</strong><br />

μ och intervallets längd h, dvs sannolikhet<strong>en</strong> är approximativt μ · h.<br />

Således gäller att sannolikhet<strong>en</strong> att ing<strong>en</strong> händelse inträffar på ett sådant<br />

kort intervall approximativt är 1 − μ · h.<br />

Om dessa förutsättningar är uppfyllda kan man visa (se App<strong>en</strong>dix B.3.1 9 )<br />

att sannolikhetsfördelning<strong>en</strong> för X ges av<br />

p (x) =Pr(X = x) = μx · e −μ<br />

x!<br />

, x =0, 1, 2,...<br />

9 För bättre förståelse bör man först gå ig<strong>en</strong>om binomialapproximation<strong>en</strong> nedan. Vidare<br />

gäller att redogörels<strong>en</strong> matematiskt befinner sig över MaC.<br />

66


(där e ≈ 2.718). De tre punkterna ovan brukar kallas för de tre poissonaxiom<strong>en</strong><br />

och därför kallas d<strong>en</strong>na sannolikhetsfördelning för Poissonfördelning<strong>en</strong><br />

och betecknas Po(μ). R<strong>en</strong>t teoretiskt kan <strong>en</strong> poissonfördelad slumpvariabel<br />

anta alla tänkbara icke-negativa heltalsvärd<strong>en</strong>.<br />

Exempel 51 Till <strong>en</strong> telefonväxel inkommer telefonsamtal med <strong>en</strong> int<strong>en</strong>sitet<br />

på två samtal i minut<strong>en</strong>. Förutsatt att äv<strong>en</strong> de båda andra krav<strong>en</strong> är uppfyllda<br />

gäller således att<br />

X = Antal samtal under <strong>en</strong> minut<br />

är poissonfördelad Po(2). sannolikhet<strong>en</strong> att exakt ett samtal inkommer under<br />

<strong>en</strong> viss minut ges därmed av<br />

dvs ungefär 27% chans. ¤<br />

p (1) = Pr (X =1)= 21 · e −2<br />

1! =2· e−2 =0.2707<br />

Vanligtvis är vi inte intresserade av <strong>en</strong>skilda värd<strong>en</strong> utan uttryck på form<strong>en</strong><br />

“Åtminstone fem händelser” eller “Högst fyra händelser” och då använder<br />

vi oss av fördelningsfunktion<strong>en</strong><br />

F (x) =Pr(X ≤ x) =<br />

xX<br />

p (k)<br />

som tidigare. Man inser dock snart att äv<strong>en</strong> med miniräknar<strong>en</strong>s hjälp blir<br />

dessa summeringar relativt betungande och därför har vi hjälp av att sådana<br />

sannolikheter finns tabellerade i Tabell 2 i “Tabeller och formler för statistiska<br />

beräkningar” för utvalda int<strong>en</strong>siteter.<br />

Exempel 52 Vi fortsätter på föregå<strong>en</strong>de exempel och ser t.ex. att sannolikhet<strong>en</strong><br />

för åtminstone tre samtal under <strong>en</strong> minut ges av<br />

Pr (X ≥ 3) = 1 − Pr (X ≤ 2) = 1 − F (2) = 1 − 0.6767 = 0.3233<br />

dvs ungefär <strong>en</strong> chans på tre. Vi kan äv<strong>en</strong> snabbt lösa problemet i föregå<strong>en</strong>de<br />

exempel via<br />

som förut. ¤<br />

Pr (X =1) = Pr(X≤1) − Pr (X =0)=F (1) − F (0) =<br />

= 0.4060 − 0.1353 = 0.2707<br />

67<br />

k=0


Det är inte alltid vi är intresserade av att bestämma sannolikheter för<br />

antal händelser på intervall av just <strong>en</strong>hetslängd. Detta problem är dock lättlöst.<br />

Antag att vi betraktar <strong>en</strong> Po(μ)-fördelad slumpvariabel. Detta innebär<br />

alltså att det i g<strong>en</strong>omsnitt inträffar μ händelser på ett intervall av längd<strong>en</strong><br />

1. Det borde då gälla att det i g<strong>en</strong>omsnitt inträffar μ · t händelser på ett<br />

intervall av längd<strong>en</strong> t. Vill vi bestämma sannolikhetsfördelning<strong>en</strong> för antal<br />

händelser på ett intervall av längd<strong>en</strong> t skall vi således använda Po(μ · t).<br />

Exempel 53 Antag nu att vi i de båda föregå<strong>en</strong>de exempl<strong>en</strong> istället är intresserade<br />

av slumpvariabeln<br />

X = Antal händelser under <strong>en</strong> tvåminutersperiod<br />

Det följer då att X är Po(2 · 2) = Po(4). Sannolikheter för X fås nu från<br />

Tabell 2 med μ =4. ¤<br />

2.5.2 Poissonapproximation av binomialfördelning<strong>en</strong><br />

Hur kan då poissonfördelning<strong>en</strong> användas för att approximera binomiala sannolikheter,<br />

dvs hur hänger dessa båda sannolikhetsfördelningar ihop? För att<br />

förstå detta studerar vi antal händelser på ett <strong>en</strong>hetsintervall utifrån de tre<br />

poissonaxiom<strong>en</strong>. Först delar vi in <strong>en</strong>hetsintervallet i n likadana delintervall.<br />

1 /n<br />

2 /n<br />

3 /n<br />

(n-1 )/n<br />

0 1<br />

Har intervall<strong>en</strong> valts tillräckligt korta, dvs om n valts tillräckligt stort, följer<br />

av axiom 3 att högst <strong>en</strong> händelse kan inträffa påettsådantdelintervall<br />

och att sannolikhet<strong>en</strong> för exakt <strong>en</strong> händelse ungefär är μ<br />

. Låter vi <strong>en</strong> vit<br />

n<br />

boll symbolisera att <strong>en</strong> händelse inträffat kan således händelseförloppet på<br />

ett delintervall approximativt beskrivas som att vi drar <strong>en</strong> boll ur <strong>en</strong> urna<br />

där andel<strong>en</strong> vita bollar är μ<br />

. Enligt axiom 2 gäller dessutom att händelseför-<br />

n<br />

lopp<strong>en</strong> på olika delintervall inte påverkar varandra vilket innebär att vi har<br />

exakt samma förutsättningar på vart och ett av intervall<strong>en</strong>. Vi kan således<br />

se det som att vi med återläggning drar n bollarururnan.Vihardärföratt<br />

68


slumpvariabeln<br />

X = Antal händelser på ett <strong>en</strong>hetsintervall<br />

som är Po(μ) ungefärärsammasom<br />

X = Antal vita bollar i urvalet<br />

som är Bi ¡ n, μ¢<br />

.Jufler delintervall vi delar in <strong>en</strong>hetsintervallet i ju min-<br />

n<br />

dre kommer sannolikhet<strong>en</strong> för två eller fler händelser på ett delintervall att<br />

bli och ju bättre kommer därför approximation<strong>en</strong> att bli. Om vi som vanligt<br />

låter π beteckna andel<strong>en</strong> vita bollar i urnan blir föregå<strong>en</strong>de uttalande<br />

samma som att approximation<strong>en</strong> förbättras ju större n ärochjumindreπ<br />

är. Nu är det ju dock inte poissonfördelning<strong>en</strong> som skall approximeras med<br />

binomialfördelning<strong>en</strong> utan omvänt och för detta konstaterar vi att<br />

π = μ<br />

n<br />

eller ekvival<strong>en</strong>t<br />

μ = n · π<br />

Förutsatt att n är stort och π litet kan således binomialfördelning<strong>en</strong> Bi(n, π)<br />

approximeras med Po(n · π). Vad skall då m<strong>en</strong>as med n stort och π litet?<br />

De villkor vi kommer att ställa här är att<br />

n ≥ 10<br />

π ≤ 0.1<br />

dvs vi måste dra åtminstone tio bollar ur urnan och andel<strong>en</strong> vita bollar i<br />

urnan får vara högst 10%. Dessa gränser är relativt löst satta och man skall<br />

vara medvet<strong>en</strong> om att approximation<strong>en</strong> blir bättre ju större n är och ju<br />

mindre π är. 10<br />

Exempel 54 För <strong>en</strong> viss författare av skönlitterära verk har det visat sig att<br />

sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt vald sida innehåller ett eller flera tryckfel<br />

är 0.005. Hans nya bok innehåller 400 sidor och uppgift<strong>en</strong> är att bestämma<br />

sannolikhet<strong>en</strong> att bok<strong>en</strong> inte innehåller några tryckfel. Vi konstruerar slumpvariabeln<br />

X = Antal sidor med tryckfel<br />

10Andra mer restriktiva gränser som används i litteratur<strong>en</strong> är att n ≥ 100, π≤ 0.01 och<br />

n · π ≤ 20.<br />

69


och om tryckfel på olika sidor uppkommer obero<strong>en</strong>de av varandra följer att<br />

X är Bi(400, 0.005) och vi söker<br />

µ <br />

400<br />

p (0) = Pr (X =0)= · 0.005<br />

0<br />

0 · 0.995 400 =0.995 400 =0.1347<br />

Iochmedattnär stort och π litet kan d<strong>en</strong>na sannolikhet approximeras via<br />

Po(400 · 0.005) = Po(2) och det följer från Tabell 2 att<br />

p (0) = Pr (X =0)≈ 0.1353<br />

vilket således är <strong>en</strong> mycket god approximation. ¤<br />

Exempel 55 I<strong>en</strong>visskommunbordet1000 röstberättigade personer. Utav<br />

dessa är det 5% som är miljöpartister. Antag att vi bland kommun<strong>en</strong>s väljarkår<br />

slumpmässigt väljer 30 personer. Bestäm sannolikhet<strong>en</strong> att högst <strong>en</strong><br />

av dessa är miljöpartister. Bildar vi slumpvariabeln<br />

X = Antal miljöpartister i urvalet<br />

följer att X är Hyp(30, 0.05, 1000) och d<strong>en</strong> sökta sannolikhet<strong>en</strong> ges av<br />

¡ ¢¡ ¢ 50 950 ¡ ¢¡ ¢ 50 950<br />

Pr (X ≤ 1) = Pr (X =0)+Pr(X =1)= 0 30 ¢ + 1 29 ¢ =0.5512<br />

¡ 1000<br />

30<br />

¡ 1000<br />

30<br />

vilket är <strong>en</strong> uträkning man inte vill behöva göra med <strong>en</strong>bart <strong>en</strong> miniräknare<br />

till hjälp. Istället noterar vi att urvalet <strong>en</strong>dast utgör 3% av population<strong>en</strong>, dvs<br />

n<br />

N<br />

30<br />

= =0.03 < 0.1<br />

1000<br />

ochdärförgällerattXapproximativt är Bi(30, 0.05) och det följer att<br />

µ <br />

30<br />

Pr (X ≤ 1) = · 0.05<br />

0<br />

0 · 0.95 30 µ <br />

30<br />

+ · 0.05<br />

1<br />

1 · 0.95 29 =0.5535<br />

vilket är <strong>en</strong> bra mycket <strong>en</strong>klare uträkning som dessutom ligger nära d<strong>en</strong> riktiga<br />

sannolikhet<strong>en</strong>. Vill man nu göra livet ännu <strong>en</strong>klare inses att<br />

n = 30 > 10<br />

π = 0.05 < 0.1<br />

vilket innebär att X approximativt är Po(30 · 0.05) = Po(1.5) och ur Tabell<br />

2 utläser vi<br />

Pr (X ≤ 1) = 0.5578<br />

som också det ligger nära sanning<strong>en</strong>. ¤<br />

70


Vi sammanfattar approximationsmöjligheterna så här långt via nedanstå<strong>en</strong>de<br />

figur.<br />

Approximationsmöjligheter<br />

Hyp(n, π,N)<br />

n/N10 π


vilket betyder att det under <strong>en</strong> <strong>en</strong>minutsperiod i g<strong>en</strong>omsnitt inkommer två<br />

samtal till växeln. Det kommer dock inte exakt två samtal varje minut utan<br />

antal samtal under <strong>en</strong> minut avviker från detta värde med i g<strong>en</strong>omsnitt 1.41<br />

samtal. ¤<br />

2.5.4 Övningsuppgifter<br />

Uppgift 29 På <strong>en</strong> viss vägsträcka kan antal olyckor under rusningstrafik betraktas<br />

som <strong>en</strong> poissonprocess med i g<strong>en</strong>omsnitt två olyckor i timm<strong>en</strong>. Morgonrusning<strong>en</strong><br />

pågår i <strong>en</strong> och <strong>en</strong> halv timme och kvällsrusning<strong>en</strong> i två timmar.<br />

a. Bestäm sannolikhet<strong>en</strong> att morgonrusning<strong>en</strong> blir olycksdrabbad.<br />

b. Bestäm sannolikhet<strong>en</strong> för högst två olyckor under kvällsrusning<strong>en</strong>.<br />

c. Bestäm sannolikhet<strong>en</strong> att det under rusningstrafik<strong>en</strong><strong>en</strong>slumpmässigt<br />

vald dag inte inträffar någon olycka.<br />

Uppgift 30 Det är känt att <strong>en</strong> viss medicin i sällsynta fall kan orsaka bieffekter.<br />

Man uppskattar att detta inträffar i 0.2% av fall<strong>en</strong>. Antag att medicin<strong>en</strong><br />

används av 300 personer. Låt<br />

X = Antal personer som får bieffekter<br />

a. Bestäm d<strong>en</strong> exakta sannolikhetsfördelning<strong>en</strong> för X.<br />

b. Bestäm approximativt sannolikhet<strong>en</strong> att högst tre av personerna uppvisar<br />

bieffekter.<br />

Uppgift 31 Antag att 10 000 personer kastar fem tärningar vardera och låt<br />

X = Antal personer för vilka samtliga tärningar är sexor<br />

a. Bestäm d<strong>en</strong> exakta sannolikhetsfördelning<strong>en</strong> för X.<br />

b. Bestäm, g<strong>en</strong>om att göra lämplig approximation, sannolikhet<strong>en</strong> att åtminstone<br />

fyra personer lyckas med att få fem sexor.<br />

72


3 Kontinuerliga slumpvariabler<br />

3.1 Vad är <strong>en</strong> kontinuerlig slumpvariabel?<br />

De slumpvariabler vi studerat hittills har varit diskreta, dvs de har <strong>en</strong>bart<br />

kunnat anta ändligt eller uppräkneligt oändligt antal värd<strong>en</strong>. En binomialfördelad<br />

slumpvariabel kan t.ex. <strong>en</strong>bart anta värd<strong>en</strong>a 0, 1, 2,...,n(ändligt)<br />

medan <strong>en</strong> poissonfördelad slumpvariabel kan anta värd<strong>en</strong>a 0, 1, 2,... (uppräkneligt<br />

oändligt). Det som utmärker diskreta variabler är att det är ett<br />

“hopp” mellan variabelvärd<strong>en</strong>a, dvs det finns reella tal på talaxeln som aldrig<br />

kan förekomma. T.ex. kan <strong>en</strong> familj inte ha 1.72 barn, och inte heller kan det<br />

till <strong>en</strong> telefonväxel komma 0.59 samtal under <strong>en</strong> viss minut. Det finns dock<br />

variabler där varje tänkbart värde på ett intervall på talaxeln kan förekomma.<br />

Sådana variabler kallas för kontinuerliga variabler.<br />

Exempel 57 I <strong>en</strong> medicinsk undersökning är man intresserade av feberutveckling<strong>en</strong><br />

hos ett visst influ<strong>en</strong>savirus. Antag att kroppstemperatur<strong>en</strong> d<strong>en</strong> andra<br />

influ<strong>en</strong>sadag<strong>en</strong> är av speciellt intresse. Då vi slumpmässigt väljer ut <strong>en</strong> smittad<br />

person vet vi inte exakt febernivån hos d<strong>en</strong> valde person<strong>en</strong>, dvs det gäller<br />

att<br />

X = Kroppstemperatur<strong>en</strong> d<strong>en</strong> andra influ<strong>en</strong>sadag<strong>en</strong><br />

är <strong>en</strong> slumpvariabel. Antag att vi med <strong>en</strong> vanlig termometer fann att d<strong>en</strong><br />

valde person<strong>en</strong>s feber var 39.2 ◦ C. Hade vi dock haft <strong>en</strong> mer exakt termometer<br />

skulle vi funnit att febern var 39.23 ◦ C. En än mer exakt termometer skulle<br />

visat 39.228 ◦ C,osv.Medetttillräckligtnoggrantmätinstrum<strong>en</strong>tkanvifåmed<br />

obegränsat antal decimaler i vår uppskattning av person<strong>en</strong>s feber. Alla värd<strong>en</strong><br />

på ett intervall (t.ex. mellan 35 ◦ C och 45 ◦ C) kan förekomma och således är<br />

X <strong>en</strong> kontinuerlig slumpvariabel. ¤<br />

Andra exempel på mänskliga eg<strong>en</strong>skaper som är kontinuerliga är t.ex.<br />

vikt, ålder och IQ. Hur kommer det sig då att vi måste särbehandla diskreta<br />

och kontinuerliga slumpvariabler? För att belysa orsak<strong>en</strong> till detta utgår vi<br />

från ett exempel där vi studerar <strong>en</strong> diskret och <strong>en</strong> kontinuerlig slumpvariabel.<br />

Exempel 58 Antag att det för <strong>en</strong> viss telefonväxel gäller att inkommande<br />

telefonsamtal kommer med <strong>en</strong> int<strong>en</strong>sitet på ett samtal i minut<strong>en</strong>, dvs<br />

Y = Antal samtal under <strong>en</strong> minut<br />

är Po(1). Nu kan vi dock vända på resonemanget och istället intressera oss<br />

för d<strong>en</strong> tid det tar mellan två inkommande samtal. Antag att vi med ett<br />

stoppur mäter d<strong>en</strong>na tid och finner att det tog 48 sekunder. Tittar vi extra<br />

73


noga på stoppuret ser vi kanske att det står 48.1 sekunder osv.. Har vi ett<br />

tillräckligt bra stoppur finns det ing<strong>en</strong> begränsning för hur många decimaler<br />

vi får med i beräkning<strong>en</strong> av tid<strong>en</strong>. Det gäller således att<br />

X = Väntetid<strong>en</strong> mellan två inkommande samtal<br />

är <strong>en</strong> kontinuerlig slumpvariabel. ¤<br />

Då vi beskriver sannolikhetsfördelning<strong>en</strong> för <strong>en</strong> diskret slumpvariabel använder<br />

vi dess sannolikhetsfunktion<br />

p (y) =Pr(Y = y)<br />

för de värd<strong>en</strong> som kan förekomma. I exemplet ovan har vi ju t.ex. att<br />

p (y) =Pr(Y = y) = e−1<br />

, y =0, 1, 2,...<br />

y!<br />

eftersom μ =1. Problemet med kontinuerliga slumpvariabler är att sådana<br />

sannolikhetsfunktioner inte existerar vilket resulterar i att<br />

Pr (X = x) =0, för alla x<br />

dvs alla värd<strong>en</strong> har sannolikhet<strong>en</strong> noll. Hur kommer sig då detta? I och med<br />

att <strong>en</strong> kontinuerlig slumpvariabel kan anta alla värd<strong>en</strong> på ett intervall är det<br />

omöjligt att gissa exakt vilket värde <strong>en</strong> slumpmässigt vald individ kommer<br />

att ha och därmed konstaterar vi att det för kontinuerliga slumpvariabler inte<br />

går att mäta sannolikheter för <strong>en</strong>skilda värd<strong>en</strong>. Målet är istället att finna <strong>en</strong><br />

kontinuerlig motsvarighet till d<strong>en</strong> diskreta sannolikhetsfunktion<strong>en</strong>.<br />

Det faktum att alla värd<strong>en</strong> har sannolikhet<strong>en</strong> noll betyder dock inte att<br />

alla värd<strong>en</strong> ter sig lika troliga. I Exempel 57 ovan tror vi antaglig<strong>en</strong> mer på <strong>en</strong><br />

feber runt 39 ◦ C än <strong>en</strong> feber runt 45 ◦ C. Det är här ordet “runt” vi skall spinna<br />

vidare på. När vi anger 39 ◦ C m<strong>en</strong>ar vi inte exakt detta utan avrundar utifrån<br />

det tillgängliga mätinstrum<strong>en</strong>tet. M<strong>en</strong> <strong>en</strong> vanlig febertermometer som mäter<br />

tiondels grader m<strong>en</strong>ar vi då antaglig<strong>en</strong> intervallet från 38.95 ◦ C till 39.05 ◦ C.<br />

Antag t.ex. att vi i Exempel 58 söker sannolikhet<strong>en</strong> att väntetid<strong>en</strong> mellan<br />

två samtal är <strong>en</strong> minut, dvs<br />

Pr (X =1)<br />

Om vi mäter tid<strong>en</strong> i hela sekunder m<strong>en</strong>ar vi med <strong>en</strong> minut antaglig<strong>en</strong> tidsintervallet<br />

från 59.5 sekunder till 60.5 sekunder och vi söker sannolikhet<strong>en</strong><br />

Pr (0m 59.5s


För varje kontinuerlig slumpvariabel är det möjligt att beräkna sannolikheter<br />

för intervall av värd<strong>en</strong> vilket är ett faktum vi skall använda för att bestämma<br />

d<strong>en</strong> kontinuerliga motsvarighet<strong>en</strong> till sannolikhetsfunktion<strong>en</strong>.<br />

Låt oss fortsätta med Exempel 58 ovan. För att beskriva sannolikhetsfördelning<strong>en</strong><br />

för Y kan vi använda ett stapeldiagram vilket visas i figur<strong>en</strong><br />

nedan (jämför med Tabell 2, μ =1, i formelsamling<strong>en</strong>)<br />

Sannolikhet<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0,0<br />

0<br />

1<br />

2<br />

Antal samtal under <strong>en</strong> minut<br />

3<br />

där vi <strong>en</strong>bart angivit värd<strong>en</strong> upp till sex eftersom sannolikheterna är mycket<br />

små för större värd<strong>en</strong>. Höjd<strong>en</strong> av <strong>en</strong> stapel repres<strong>en</strong>terar sannolikhet<strong>en</strong> för ett<br />

visst värde vilket innebär att ett sådant diagram inte kan konstrueras för <strong>en</strong><br />

kontinuerlig variabel. Om vi däremot delar in (avrundar) värd<strong>en</strong>a i intervall<br />

kan vi konstruera ett liknande diagram, ett sk. sannolikhetshistogram. Delas<br />

tidsskalan in i hela minuter kan man på teoretisk väg visa att sannolikhetshistogrammet<br />

Frekv<strong>en</strong>s (täthet)<br />

0,7<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0,0<br />

0<br />

1<br />

2<br />

3<br />

Väntetid (min)<br />

beskriver sannolikhetsfördelning<strong>en</strong> för väntetider (i hela minuter). 11 Ett san-<br />

11 D<strong>en</strong> kontinuerliga slumpvariabel som uppstår g<strong>en</strong>om att mäta tid<strong>en</strong> mellan två händelser<br />

i <strong>en</strong> poissonprocess med int<strong>en</strong>sitetsparameter μ kallas för Expon<strong>en</strong>tialfördelning<strong>en</strong><br />

75<br />

4<br />

4<br />

5<br />

5<br />

6<br />

6


nolikhetshistogram är konstruerat så att arean av varje rektangel motsvarar<br />

sannolikhet<strong>en</strong> att slumpvariabeln antar ett värde i det aktuella intervallet.<br />

Detta innebär att skalan på d<strong>en</strong> lodräta axeln inte nödvändigtvis behöver<br />

vara sannolikheter och d<strong>en</strong> kallas därför istället för frekv<strong>en</strong>s eller täthet (pga<br />

att man på <strong>en</strong>gelska använder terminologin d<strong>en</strong>sity). (I det här fallet anger<br />

dock skalan sannolikheter pga att bredd<strong>en</strong> på varje intervall är ett.) Med<br />

sannolikhetshistogrammet ovan kan vi dock <strong>en</strong>bart beräkna sannolikheter för<br />

tidsintervall som gäller hela minuter. Vill vi t.ex. bestämma sannolikhet<strong>en</strong><br />

att tid<strong>en</strong> mellan två samtal är mindre än 1.5 minuter fungerar inte detta histogram.<br />

För att kunna lösa d<strong>en</strong> uppgift<strong>en</strong> måste vi göra <strong>en</strong> finare indelning,<br />

t.ex. i halvminutsintervall. Gör vi detta får vi (på teoretisk väg) följande<br />

sannolikhetshistogram<br />

Frekv<strong>en</strong>s (täthet)<br />

0,8<br />

0,7<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0,0<br />

0 1 2 3 4 5 6<br />

Väntetid (min)<br />

och d<strong>en</strong> sökta sannolikhet<strong>en</strong> ges av d<strong>en</strong> sammanlagda arean av de tre rektanglarna<br />

till vänster som framgår av följande figur<br />

Frekv<strong>en</strong>s (täthet)<br />

0,8<br />

0,7<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0,0<br />

0<br />

1<br />

D<strong>en</strong> skuggade arean är sannolikhet<strong>en</strong><br />

att tid<strong>en</strong> mellan två samtal är mindre än<br />

1.5 minuter<br />

2<br />

3<br />

Väntetid (min)<br />

Söker vi sannolikheter för annat än halvminutsintervall uppstår dock samma<br />

problem som tidigare. Vill vi t.ex. bestämma sannolikhet<strong>en</strong> att det tar<br />

och betecknas Exp(μ).<br />

76<br />

4<br />

5<br />

6


mindre än <strong>en</strong> minut och femton sekunder måste vi skapa ett histogram med<br />

ännu finare indelning som nedan där d<strong>en</strong> angivna sannolikhet<strong>en</strong> är angiv<strong>en</strong><br />

Frekv<strong>en</strong>s (täthet)<br />

0,9<br />

0,8<br />

0,7<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0,0<br />

Arean av det skuggade området är sannolikhet<strong>en</strong><br />

att tid<strong>en</strong> mellan två samtal är mindre än <strong>en</strong> minut<br />

och 15 sekunder.<br />

0 1 2 3 4 5 6<br />

Väntetid (min)<br />

Hur fin intervallindelning vi än gör kommer det ändå att kunna uppstå intressanta<br />

intervall för vilka sannolikheter inte kan beräknas. Detta problem<br />

löser vi på matematisk väg g<strong>en</strong>om sk. gränsvärd<strong>en</strong>. Detta innebär att vi betraktar<br />

sannolikhetshistogram med finare och finare indelning vilket medför<br />

att “rektangeltak<strong>en</strong>” på dessa histogram mer och mer kommer att likna <strong>en</strong><br />

jämn funktionskurva. D<strong>en</strong>na kurva utgör det g<strong>en</strong>eraliserade sannolikhetshistogram<br />

d<strong>en</strong>na följd av histogram är på väg mot. För histogramföljd<strong>en</strong> ovan<br />

blir d<strong>en</strong>na funktionskurva som i figur<strong>en</strong> nedan.<br />

Frekv<strong>en</strong>s (täthet)<br />

1,0<br />

0,5<br />

0,0<br />

0<br />

1<br />

2<br />

3<br />

Väntetid (min)<br />

(4)<br />

Med ett g<strong>en</strong>eraliserat sannolikhetshistogram m<strong>en</strong>as ett histogram där intervallbredderna<br />

är oändligt små (och antal intervall oändligt många). Utifrån<br />

d<strong>en</strong>na funktionskurva är det nu möjligt att bestämma sannolikheter för alla<br />

tänkbara intervall. Låt a och b vara två tal (med a


som d<strong>en</strong> markerade arean i figur<strong>en</strong> nedan.<br />

Frekv<strong>en</strong>s (täthet)<br />

1,0<br />

0,5<br />

0,0<br />

a<br />

Arean av det skuggade området anger<br />

sannolikhet<strong>en</strong> att tid<strong>en</strong> mellan två<br />

samtal är mellan a och b minuter.<br />

b<br />

Väntetid (min)<br />

Vi går här inte in i detalj hur d<strong>en</strong>na beräkning görs utan nöjer oss med att<br />

konstatera att <strong>en</strong> sannolikhet för <strong>en</strong> kontinuerlig slumpvariabel kan repres<strong>en</strong>teras<br />

av arean för ett bestämt område under <strong>en</strong> funktionskurva. Eftersom<br />

areor repres<strong>en</strong>terar sannolikheter är d<strong>en</strong> totala arean under kurvan alltid 1.<br />

Precis som för diskreta slumpvariabler kan vi konstruera <strong>en</strong> fördelningsfunktion,<br />

dvs <strong>en</strong> funktion som mäter sannolikhet<strong>en</strong> att få ett värde som högst<br />

är det angivna.<br />

F (x) =Pr(X≤x) Studerar vi innebörd<strong>en</strong> av fördelningsfunktion<strong>en</strong> för kontinuerliga slumpvariabler<br />

finner vi via figur<strong>en</strong><br />

Frekv<strong>en</strong>s (täthet)<br />

1,0<br />

0,5<br />

0,0<br />

F(x)<br />

Arean av det skuggade området anger<br />

fördelningsfunktion<strong>en</strong>s värde i punkt<strong>en</strong> x.<br />

x<br />

Väntetid (min)<br />

att d<strong>en</strong>na fås g<strong>en</strong>om att beräkna arean av det område under kurvan som<br />

ligger under (till vänster) om d<strong>en</strong> angivna punkt<strong>en</strong>. D<strong>en</strong> kurva vi har använt<br />

oss av som exempel beskriver sannolikhetsfördelning<strong>en</strong> för d<strong>en</strong> sk. Expon<strong>en</strong>tialfördelning<strong>en</strong><br />

och har nu gjort sitt i d<strong>en</strong> här framställning<strong>en</strong>. Då kontinuerliga<br />

sannolikhetsfördelningar vanligtvis kräver matematikkunskaper över<br />

78


MaC innebär <strong>en</strong> ord<strong>en</strong>tlig g<strong>en</strong>omgång av dessa ett problem på dessa kurser.<br />

Lyckligtvis gäller dock att det går att arbeta med d<strong>en</strong> viktigaste av alla kontinuerliga<br />

sannolikhetsfördelningar utan att gå in på de tyngre matematiska<br />

detaljerna.<br />

3.2 Normalfördelning<strong>en</strong><br />

3.2.1 Normalfördelning<strong>en</strong>s eg<strong>en</strong>skaper<br />

D<strong>en</strong> utan jämförelse viktigaste sannolikhetsfördelning<strong>en</strong> är d<strong>en</strong> sk. Normalfördelning<strong>en</strong>,<br />

vilket kan verka mycket besynnerligt eftersom det inte finns någonting<br />

som är normalfördelat. Normalfördelning<strong>en</strong> är <strong>en</strong> teoretiskt konstruerad sannolikhetsmodell<br />

som matematiskt beskrivs via funktion<strong>en</strong><br />

f (x) = 1<br />

σ √ 1<br />

e− 2(<br />

2π x−μ<br />

σ ) 2<br />

, −∞


σ<br />

μ<br />

μ repres<strong>en</strong>terar som sagt populationsmedelvärdet och eftersom kurvan är helt<br />

symmetrisk måste därför μ ange kurvans mittpunkt. Om vi ändrar värdet på<br />

μ utan att förändra värdet på σ flyttar vi helt <strong>en</strong>kelt kurvan utan att på annat<br />

sätt ändra dess utse<strong>en</strong>de. Nedan ges <strong>en</strong> jämförelse av två normalfördelningar<br />

med olika medelvärd<strong>en</strong> m<strong>en</strong> med samma standardavvikelse (σ =4).<br />

0<br />

μ=10<br />

10<br />

Populationsstandardavvikels<strong>en</strong> anger hur utspridd population<strong>en</strong> är och därför<br />

betyder ett litet σ att kurvan är mer ihoptryckt och ett stort σ att kurvan<br />

är mer utdrag<strong>en</strong>. Ändrar vi värdet på σ utan att ändra värdet på μ “pressar<br />

vi ihop” eller “drar isär” kurvan utan att flytta dess mittpunkt. Nedan ges <strong>en</strong><br />

jämförelse av tre normalfördelningar med olika standardavvikelser m<strong>en</strong> med<br />

samma medelvärde (μ =20).<br />

80<br />

20<br />

μ=20<br />

30


σ=2<br />

σ=4<br />

σ=6<br />

0 10 20 30 40<br />

Normalfördelning<strong>en</strong> är helt bestämd utav sina båda parametrar, dvs om vi<br />

väl känner till att kurvan är normalfördelad behöver vi <strong>en</strong>bart ta reda på μ<br />

och σ för att exakt veta kurvans utse<strong>en</strong>de.<br />

Då man använder <strong>en</strong> sannolikhetskurva är resonemanget som följer<br />

Vi vill bestämma sannolikhet<strong>en</strong> att hamna i intervallet (a, b),<br />

vilket betyder att vi vill bestämma sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt<br />

vald individ har ett värde på variabeln någonstans mellan<br />

a och b. Detta är samma sak som att bestämma andel<strong>en</strong> individer<br />

i population<strong>en</strong> som har värde någonstans mellan a och b.<br />

Arean under kurvan mellan punkterna a och b anger d<strong>en</strong>na andel och<br />

därför är arean under hela kurvan lika med 1 (eller 100%).<br />

Sannolikhet<strong>en</strong> att <strong>en</strong><br />

slumpmässigt vald individ<br />

Andel<strong>en</strong> individer i population<strong>en</strong><br />

har ett värde mellan a och b med värde mellan a och b<br />

a b<br />

En oerhört användbar eg<strong>en</strong>skap hos normalfördelning<strong>en</strong> är att obero<strong>en</strong>de av<br />

81


vilk<strong>en</strong> normalfördelning man studerar så baseras sannolikhetsbedömning<strong>en</strong><br />

på avståndet mätt i standardavvikelser från medelvärdet. För samtliga normalfördelade<br />

populationer gäller t ex att ca 68% av individerna ligger inom <strong>en</strong><br />

standardavvikelse från medelvärdet och ca 95% inom två standardavvikelser<br />

från medelvärdet. Detta åskådliggörs i figur<strong>en</strong> nedan.<br />

μ−2σ μ−σ μ μ+σ μ+2σ<br />

+<br />

= 68%<br />

= 95%<br />

Nu är det dock inte säkert att de värd<strong>en</strong> vi vill bestämma sannolikheter<br />

förärjustdessapunkter.Attr<strong>en</strong>ttekniskt beräkna sannolikheter för normalfördelning<strong>en</strong><br />

inbegriper tyngre matematik och är ing<strong>en</strong>ting vi tänker fördjupa<br />

oss i här. Av d<strong>en</strong> föregå<strong>en</strong>de eg<strong>en</strong>skap<strong>en</strong> har vi dock fått insikt<strong>en</strong> att<br />

det är tillräckligt att beräkna sannolikheter för <strong>en</strong> viss utvald medlem av<br />

normalfördelningsfamilj<strong>en</strong>, pga att d<strong>en</strong>na sedan <strong>en</strong>kelt översätts till vilk<strong>en</strong><br />

annan normalfördelning som helst.<br />

Exempel 59 Betrakta två slumpvariabler X och Y sådana att X är N (10, 4)<br />

och Y är N (20, 6), där vi använder notation<strong>en</strong> N (μ, σ) från ovan. Antag att<br />

vi för d<strong>en</strong> första population<strong>en</strong> vill bestämma andel<strong>en</strong> individer vars värde<br />

understiger 2, eller ekvival<strong>en</strong>t<br />

Pr (X


N(10,4)<br />

De markerade områd<strong>en</strong>a<br />

har samma area<br />

N(20,6)<br />

0 2 8 10 20 30 40<br />

Då vi för just detta värde råkar veta sannolikhet<strong>en</strong> (på ett ungefär) finner vi<br />

att<br />

Pr (X


vi söker<br />

F (1.28) = Pr (Z ≤ 1.28)<br />

D<strong>en</strong>na finner vi g<strong>en</strong>om att i d<strong>en</strong> vänstra kolumn<strong>en</strong> söka upp rad<strong>en</strong> 1.2 och<br />

sedan i d<strong>en</strong> övre rad<strong>en</strong> finna kolumn 8.<br />

z ··· ··· 7 8 9<br />

.<br />

.<br />

1.1<br />

1.2 0.8997<br />

1.3<br />

.<br />

D<strong>en</strong>na rad och kolumn möts i värdet 0.8997 som är d<strong>en</strong> sökta sannolikhet<strong>en</strong>,<br />

dvs<br />

Pr (Z ≤ 1.28) = 0.8997<br />

Vi tolkar d<strong>en</strong>na sannolikhet som att ungefär 90% av <strong>en</strong> normalfördelad population<br />

ligger högst 1.28 standardavvikelser över medelvärdet, vilket äv<strong>en</strong><br />

framgår i figur<strong>en</strong> nedan.<br />

90%<br />

-3 -2 -1 0 1 2 3<br />

z 1.28<br />

Nu kan inte fördelningsfunktion<strong>en</strong> anges för varje tänkbart värde på z utan<br />

de angivna värd<strong>en</strong>a är begränsade till varje hel hundradel mellan 0 och 3.1<br />

och sedan för varje hel tiondel till z =3.7. Dåuppstårnågrafrågorvilkavi<br />

besvarar i tur och ordning.<br />

84


• Hur beräknar vi sannolikheter för punkter som befinner sig mer än<br />

3.7 standardavvikelser från medelvärdet? Det är <strong>en</strong> mycket lit<strong>en</strong> del<br />

av <strong>en</strong> normalfördelad population som befinner sig så långt bort från<br />

medelvärdet varför vi i dessa läg<strong>en</strong> oftast approximerar d<strong>en</strong>na sannolikhet<br />

med noll.<br />

• I tabell<strong>en</strong> anges <strong>en</strong>bart positiva värd<strong>en</strong> på z. Hur beräknar vi sannolikheter<br />

förknippade med negativa värd<strong>en</strong> på z? Avsymmetriskälöverför<br />

vi <strong>en</strong>kelt detta problem på sannolikheter förknippade med positiva<br />

värd<strong>en</strong> på z eftersom<br />

Pr (Z ≤ z) =Pr(Z ≥−z)<br />

vilket kanske bäst åskådliggörs med ett exempel.<br />

Exempel 60 Bestäm sannolikhet<strong>en</strong> att hamna åtminstone <strong>en</strong> standardavvikelse<br />

under medelvärdet i <strong>en</strong> normalfördelning, dvs vi söker<br />

Pr (Z ≤−1)<br />

Värdet z = −1 återges dock inte av utrymmesskäl vilket är möjligt <strong>en</strong>bart<br />

pga att d<strong>en</strong> standardiserade normalfördelning<strong>en</strong> är symmetrisk kring värdet<br />

0. Andel<strong>en</strong> individer som har värdet högst −1 är därför samma som andel<strong>en</strong><br />

individer som har värdet åtminstone 1. Dvs<br />

Pr (Z ≤−1) = Pr (Z ≥ 1)<br />

och på detta sätt har vi nu överfört problemet till positiva värd<strong>en</strong> på z. D<strong>en</strong><br />

sökta sannolikhet<strong>en</strong> gäller nu dock d<strong>en</strong> högra svans<strong>en</strong> vilket vi löser g<strong>en</strong>om<br />

att använda det faktum att d<strong>en</strong> totala arean under kurvan är 1 och således<br />

blir d<strong>en</strong> sökta sannolikhet<strong>en</strong><br />

Pr (Z ≤−1) = Pr (Z ≥ 1) = 1 − Pr (Z


¤<br />

Det är d<strong>en</strong>na<br />

sannolikhet som<br />

söks<br />

α<br />

D<strong>en</strong>na sannolikhet är<br />

id<strong>en</strong>tisk med d<strong>en</strong> som<br />

söks<br />

-3 -2 -1 0 1 2 3<br />

z<br />

α<br />

Det är d<strong>en</strong>na sannolikhet<br />

som ges i tabell<strong>en</strong><br />

1−α<br />

-3 -2 -1 0 1 2 3<br />

z<br />

• Hur gör vi om d<strong>en</strong> sökta sannolikhet<strong>en</strong> inte rör <strong>en</strong> exakt hundradel?<br />

Hur bestämmer vi t.ex. sannolikhet<strong>en</strong> förknippad med z =1.054? Hundradelar<br />

befinner sig sannolikhetsmässigt nära varandra varför vi utan<br />

någon större skada kan avrunda till närmaste hundradel vilket i det här<br />

fallet är z =1.05 och således gäller att<br />

Pr (Z ≤ 1.054) ≈ Pr (Z ≤ 1.05) = 0.8531<br />

D<strong>en</strong> sökta sannolikhet<strong>en</strong> ligger mellan sannolikheterna förknippade med<br />

z =1.05 och z =1.06 och vi kan göra något bättre ifrån oss g<strong>en</strong>om att<br />

interpolera, dvs g<strong>en</strong>om att beräkna ett vägt medelvärde mellan dessa<br />

båda sannolikheter. Eftersom z =1.054 ligger närmare z =1.05 bör<br />

d<strong>en</strong>na väga lite tyngre och interpolationsformeln blir<br />

Pr (Z ≤ 1.054) ≈ 0.6 · Pr (Z ≤ 1.05) + 0.4 · Pr (Z ≤ 1.06) =<br />

= 0.6 · 0.8531 + 0.4 · 0.8554 = 0.8540<br />

vilket kan jämföras med d<strong>en</strong> exakta sannolikhet<strong>en</strong><br />

Pr (Z ≤ 1.054) = 0.8541<br />

Vid mer komplicerade beräkningar kan det vara <strong>en</strong> fördel att dela upp<br />

problemet i <strong>en</strong>klare delar<br />

Exempel 61 Bestäm<br />

Pr (−0.3


För att kunna använda oss av tabell<strong>en</strong> måste vi skriva om så att sannolikheterna<br />

är på form<strong>en</strong> Pr (Z


α


<strong>en</strong> slumpvariabel med medelvärde 0 och standardavvikelse 1. För normalfördelning<strong>en</strong><br />

har vi dessutom d<strong>en</strong> viktiga eg<strong>en</strong>skap<strong>en</strong><br />

Resultat 1 Varje linjärfunktion av <strong>en</strong> normalfördelad slumpvariabel är själv<br />

normalfördelad. Låt X vara N (μ, σ). Dåföljerav(3) iavsnitt2.3 att<br />

Y = a + b · X är N (a + b · μ, | b |·σ)<br />

där | b | är absolutbeloppet av b, dvsdetpositivavärdet.¥<br />

Detta betyder alltså att Z är N (0, 1). Det är detta faktum som gör det<br />

möjligt att arbeta med samtliga normalfördelningar på samma sätt. En standardisering<br />

av <strong>en</strong> normalfördelning innebär att vi g<strong>en</strong>om subtraktion<strong>en</strong> X −μ<br />

först flyttar hela sannolikhetsfördelning<strong>en</strong> μ steg till vänster (eller åt höger<br />

om μ är negativ), dvs till att ha sitt c<strong>en</strong>trum i origo. G<strong>en</strong>om att sedan dividera<br />

med σ “pressar vi ihop” eller “drar isär” sannolikhetsfördelning<strong>en</strong> så<br />

att d<strong>en</strong> får exakt d<strong>en</strong> form som d<strong>en</strong> kurva som används i tabellsamling<strong>en</strong>.<br />

Tillvägagångssättet beskrivs i figurerna nedan<br />

0<br />

Subtraktion X - μ<br />

x-värd<strong>en</strong><br />

μ<br />

Standardiserad form<br />

Ursprunglig form<br />

-5<br />

-4<br />

-3<br />

-2<br />

Division med σ<br />

-1<br />

0<br />

1<br />

x-värd<strong>en</strong><br />

Det vanligaste sättet att åskådliggöra <strong>en</strong> standardisering grafiskt är dock att<br />

använda samma kurva m<strong>en</strong> med två olika skalor vilket visas i figur<strong>en</strong> nedan<br />

μ−3σ<br />

-3<br />

μ−2σ<br />

-2<br />

μ−σ<br />

-1<br />

μ μ+σ μ+2σ μ+3σ<br />

0<br />

89<br />

1<br />

2<br />

3<br />

Originalskala<br />

Standardiserad<br />

skala<br />

2<br />

3<br />

4<br />

5


Härnäst kommer några exempel på hur man sköter notation<strong>en</strong> vid standardisering<br />

av normalfördelning<strong>en</strong>.<br />

Exempel 63 Intellig<strong>en</strong>skvot<strong>en</strong> IQ är <strong>en</strong> eg<strong>en</strong>skap som brukar betraktas som<br />

approximativt normalfördelad i <strong>en</strong> stor population. D<strong>en</strong> g<strong>en</strong>omsnittliga IQkvot<strong>en</strong><br />

är 100 med <strong>en</strong> standardavvikelse på 15. Låter vi<br />

X = IQ för <strong>en</strong> slumpmässigt vald person<br />

blir således X <strong>en</strong> normalfördelad slumpvariabel N (100, 15).<br />

1. Beräkna sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt vald person har <strong>en</strong> IQ över<br />

118. Förattkunnabestämmad<strong>en</strong>nasannolikhetmåstevitaredapåhur<br />

många standardavvikelser över 100 värdet 118 befinner sig. Vi finner<br />

detta via kvot<strong>en</strong><br />

118 − 100<br />

z = =1.2<br />

15<br />

dvs det är 1.2 standardavvikelser över medelvärdet. Vi finner nu d<strong>en</strong><br />

sökta sannolikhet<strong>en</strong> via Tabell 3a till<br />

Pr (Z >1.2) = 1 − Pr (Z ≤ 1.2) = 1 − 0.8849 = 0.1151<br />

dvs det är ca. 11.5% chans att <strong>en</strong> slumpmässigt vald person har <strong>en</strong> IQ<br />

över 118. Vi kan också tolka resultatet som att ca. 11.5% av befolkning<strong>en</strong><br />

har <strong>en</strong> IQ över 118. Då man beräknar d<strong>en</strong>na sannolikhet använder man<br />

vanligtvis följande notation.<br />

µ<br />

X − 100<br />

Pr (X >118) = Pr ><br />

15<br />

118 − 100<br />

<br />

=Pr(Z>1.2)<br />

15<br />

och sedan är det bara att använda tabell<strong>en</strong> som ovan eftersom<br />

X − 100<br />

Z =<br />

15<br />

är N (0, 1). Åskådliggör vi detta grafiskt får vi figur<strong>en</strong><br />

55<br />

-3<br />

70<br />

-2<br />

90<br />

85<br />

-1<br />

100 115 130 145<br />

0<br />

1<br />

Arean av det skuggade<br />

området är 0.1151<br />

2<br />

3<br />

IQ<br />

Z


2. Inträdeskravet i för<strong>en</strong>ing<strong>en</strong> M<strong>en</strong>sa är d<strong>en</strong> intellig<strong>en</strong>snivå som bara de<br />

översta två proc<strong>en</strong>t<strong>en</strong> av population<strong>en</strong> presterar. Vilk<strong>en</strong> IQ-nivå innebär<br />

detta? Hur många standardavvikelser över medelvärdet måste vi minst<br />

ta oss för att <strong>en</strong>dast två proc<strong>en</strong>t av population<strong>en</strong> skall ha <strong>en</strong> högre intellig<strong>en</strong>skvot?<br />

Vi söker i Tabell 3b ochfinner värdet<br />

¤<br />

z0.02 =2.0537<br />

vilket omräknat till IQ-standardavvikelser blir<br />

2.0537 · 15 = 30.81<br />

och således måste man ha <strong>en</strong> IQ på åtminstone<br />

100 + 2.0537 · 15 = 130.81 ≈ 131<br />

Då man skriver ner detta använder man oftast följande notation. Vi<br />

söker det värde a sådant att<br />

µ<br />

X − 100<br />

0.02 = Pr (X >a)=Pr ><br />

15<br />

a − 100<br />

µ<br />

<br />

a − 100<br />

=Pr Z><br />

15<br />

15<br />

ITabell3b fannviattz0.02 =2.0537 vilket betyder att<br />

och<br />

som tidigare.<br />

a − 100<br />

15 =2.0537<br />

a =2.0537 · 15 + 100 = 130.8 ≈ 131<br />

Det är inte alltid det är <strong>en</strong> direkt standardisering av normalfördelning<strong>en</strong><br />

som söks. Det faktum att varje linjärfunktion av <strong>en</strong> normalfördelad slumpvariabel<br />

själv är normalfördelad ger fler möjligheter.<br />

Exempel 64 Antag att febertemperatur<strong>en</strong> mätt i ◦ C för <strong>en</strong> influ<strong>en</strong>sasjuk<br />

person kan ses som <strong>en</strong> normalfördelad slumpvariabel X som är N (39, 1).<br />

En amerikansk besökare vill dock få sannolikheterna uttryckta för Fahr<strong>en</strong>heitskalan<br />

istället. Nu råkar det vara så att om Y repres<strong>en</strong>terar ◦ F har vi<br />

följande samband mellan de båda slumpvariablerna<br />

Y =32+1.8 · X<br />

91


dvs Y är <strong>en</strong> linjärfunktion av X med a =32och b =1.8. Eftersom X är<br />

normalfördelad blir äv<strong>en</strong> Y detta och det gäller att<br />

Y är N (32 + 1.8 · 39, 1.8 · 1) = N (102.2, 1.8)<br />

Sannolikhetsfördelning<strong>en</strong> kan nu beskrivas med de två skalorna<br />

¤<br />

36<br />

96.8<br />

37<br />

98.6<br />

38<br />

100.4<br />

39 40 41 42<br />

102.2<br />

104.0<br />

105.8<br />

107.6<br />

Celsius<br />

Fahr<strong>en</strong>heit<br />

I och med att vi nu både kan arbeta med normalfördelning<strong>en</strong> och binomialfördelning<strong>en</strong><br />

gör det möjligt att konstruera mer komplicerade exempel<br />

där vi kombinerar dessa båda sannolikhetsfördelningar.<br />

Exempel 65 Bestäm sannolikhet<strong>en</strong> att någon av tjugo slumpmässigt valda<br />

personer har M<strong>en</strong>sa-pot<strong>en</strong>tial. Vi såg i Exempel 63 att andel<strong>en</strong> personer med<br />

M<strong>en</strong>sa-pot<strong>en</strong>tial är 2% vilket innebär att vi kan se det som <strong>en</strong> urna innehållande<br />

ett mycket stort antal bollar där 2% av dessa är vita (repres<strong>en</strong>terande<br />

personer med M<strong>en</strong>sa-pot<strong>en</strong>tial). Vi skall slumpmässigt välja 20 bollar ur d<strong>en</strong>na<br />

urna och det följer att<br />

X = Antal vita bollar i urvalet =<br />

= Antal personer i urvalet med M<strong>en</strong>sa-pot<strong>en</strong>tial<br />

är binomialfördelad, Bi(20, 0.02). Vi söker sannolikhet<strong>en</strong><br />

Pr (X ≥ 1) =<br />

µ <br />

20<br />

1 − Pr (X =0)=1−<br />

0<br />

= 1−0.98 20 =0.3324<br />

0.02 0 0.98 20 =<br />

dvs det är ungefär <strong>en</strong> chans på tre att någon av de utvalda har M<strong>en</strong>sapot<strong>en</strong>tial.<br />

¤<br />

92


Exempel 66 Då<strong>en</strong>visstypavtorpedavfyrasmotett250 meter brett mål<br />

gällerattd<strong>en</strong>ig<strong>en</strong>omsnittträffar mitt i målet med <strong>en</strong> standardavvikelse på<br />

100 meter. Dessutom gäller att träffbild<strong>en</strong> kan ses som normalfördelad. Låter<br />

vi<br />

X = En torpeds träffpunkt<br />

blir X <strong>en</strong> slumpvariabel med sannolikhetsfördelning N (0, 100) där värdet 0<br />

repres<strong>en</strong>terar “mitt i prick”.<br />

1. Bestäm sannolikhet<strong>en</strong> att <strong>en</strong> torped träffar målet. Detta är nu ekvival<strong>en</strong>t<br />

med att för X bestämma sannolikhet<strong>en</strong><br />

Pr (−125


¤<br />

dvs det är mer än 99% chans att målet blir oskadliggjort.<br />

3.2.4 Övningsuppgifter<br />

Uppgift 32 Vi betraktar nu <strong>en</strong> standardiserad normalfördelning, dvs <strong>en</strong> fördelning<br />

där μ =0och σ =1. Bestäm för var och <strong>en</strong> av figurerna arean av det<br />

skuggade området.<br />

i)<br />

iii)<br />

-3<br />

-3<br />

-2<br />

-2<br />

-1<br />

-1<br />

0<br />

0<br />

1<br />

1<br />

2<br />

2<br />

3<br />

3<br />

ii)<br />

iv)<br />

Uppgift 33 Vi betraktar åter <strong>en</strong> standardiserad normalfördelning. Bestäm<br />

för var och <strong>en</strong> av figurerna värdet av punkt<strong>en</strong> z.<br />

i)<br />

z<br />

2,5%<br />

Uppgift 34 Vi betraktar nu <strong>en</strong> normalfördelning med μ =10och σ =4.<br />

Bestäm för var och <strong>en</strong> av figurerna arean av det skuggade området.<br />

94<br />

ii)<br />

-3<br />

-3<br />

-2<br />

-2<br />

-1<br />

-1<br />

0<br />

0<br />

1<br />

1<br />

33%<br />

2<br />

z<br />

2<br />

3<br />

3


i)<br />

0<br />

10<br />

20<br />

ii)<br />

6 10 15<br />

Uppgift 35 Variabeln X är normalfördelad med parametrar μ och σ.<br />

a. Antag att vi känner att μ =104. Vidare är det känt att sannolikhet<strong>en</strong><br />

att hamna över 116 är 0.0668. Bestäm σ utifrån d<strong>en</strong>na information.<br />

b. Antag att vi känner att σ =4. Vidare är det känt att sannolikhet<strong>en</strong> att<br />

hamna under 10 är 0.1515. Bestäm μ utifrån d<strong>en</strong>na information.<br />

Uppgift 36 Vid <strong>en</strong> tomatodling sorteras tomaterna efter vikt. Vikt<strong>en</strong> av <strong>en</strong><br />

tomat kan anses som normalfördelad med μ =50och σ =10(<strong>en</strong>het: gram).<br />

Man vill sortera tomaterna i tre storleksklasser, så att 25% bedöms som små,<br />

50% som medelstora och 25% som stora. Hur skall dessa gränser väljas?<br />

Uppgift 37 Lös uppgift 505.<br />

Uppgift 38 Lös uppgift 507.<br />

3.3 Normalapproximation av binomialfördelning<strong>en</strong><br />

Vi nämnde tidigare att normalfördelning<strong>en</strong>s största förtjänst är att d<strong>en</strong> kan<br />

användas till att approximera sannolikheter i <strong>en</strong> mängd viktiga situationer.<br />

Vi tänker i detta avsnitt att redogöra för <strong>en</strong> sådan situation för att<br />

sedan i nästa avsnitt g<strong>en</strong>eralisera detta och redovisa det resultat som gör<br />

normalfördelning<strong>en</strong> till d<strong>en</strong> i särklass viktigaste sannolikhetsfördelning<strong>en</strong>. Vi<br />

har redan i avsnitt 2.5.2 sett att vi i vissa situationer kan använda Poissonfördelning<strong>en</strong><br />

för att approximera binomiala sannolikheter. Detta fungerar<br />

dock <strong>en</strong>bart om andel<strong>en</strong> individer med d<strong>en</strong> aktuella eg<strong>en</strong>skap<strong>en</strong> är lit<strong>en</strong>, dvs<br />

om fördelning<strong>en</strong> mellan vita och svarta bollar i urnan är tillräckligt sned.<br />

Hur gör vi då om så inte är fallet? Det visar sig att detta är <strong>en</strong> situation<br />

där normalfördelning<strong>en</strong> blir användbar. Det visar sig nämlig<strong>en</strong> att om bara<br />

urvalet är tillräckligt stort, dvs om antal dragna bollar är tillräckligt många,<br />

kommer stapeldiagrammet över de binomiala sannolikheterna att med god<br />

approximation över<strong>en</strong>sstämma med <strong>en</strong> normalfördelning. Låt oss visa detta<br />

med ett exempel.<br />

95


Exempel 67 Antag att var femte sv<strong>en</strong>sk är moderat, dvs att andel<strong>en</strong> moderater<br />

i d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> är 20%. Eftersom väljarkår<strong>en</strong> är mycket stor<br />

kommer<br />

X = Antal moderater i urvalet<br />

att vara binomialfördelad Bi(n, 0.2). Vikanalltsåseurvaletsomattvimed<br />

återläggning drar n bollar ur <strong>en</strong> urna innehållande fem bollar varav <strong>en</strong> är vit.<br />

Binomiala sannolikhetsfördelningar kan alltid beskrivas med stapeldiagram<br />

och för ett antal olika urvalsstorlekar fås följande diagram<br />

Sannolikhet<br />

0 1 2 3 4 5<br />

Antal moderater i urvalet, n=5<br />

Sannolikhet<br />

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />

Antal moderater i urvalet, n=20<br />

Sannolikhet<br />

0 1 2 3 4 5 6 7 8 9 10111213141516171819<br />

Antal moderater i urvalet, n=40<br />

Vi ser utifrån dessa diagram att sannolikhetsfördelning<strong>en</strong> för X blir mer<br />

och mer symmetrisk och normalfördelningslik då urvalsstorlek<strong>en</strong> ökar. Med<br />

god approximation borde vi därför vid större urval kunna använda <strong>en</strong> normalfördelningskurva<br />

för att beräkna binomiala sannolikheter vilket framgår<br />

då vi anpassar <strong>en</strong> normalfördelningskurva till det högra stapeldiagrammet.<br />

¤<br />

Frekv<strong>en</strong>s (täthet)<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

8<br />

9 10 11 12 13 14 15 16<br />

Antal moderater i urvalet<br />

Nu uppstår två frågor som måste besvaras.<br />

• Vilk<strong>en</strong> normalfördelning skall användas för approximation<strong>en</strong>?<br />

Normalfördelning<strong>en</strong> är helt bestämd av sina båda parametrar, μ och<br />

σ, ochförattfinna d<strong>en</strong> normalfördelning som bäst approximerar d<strong>en</strong><br />

96


aktuella binomialfördelning<strong>en</strong> måste vi finna dessa båda parametervärd<strong>en</strong>,<br />

dvs medelvärde och standardavvikelse. Vi såg i avsnitt 2.4.1 att<br />

för Bi(n, π) är<br />

μ = n · π<br />

σ = p n · π · (1 − π)<br />

varför d<strong>en</strong> sökta normalfördelning<strong>en</strong> är<br />

³<br />

N n · π, p ´<br />

n · π · (1 − π)<br />

Exempel 68 Vi återgår till föregå<strong>en</strong>de exempel där X är Bi(40, 0.2) varför<br />

d<strong>en</strong> sökta normalfördelning<strong>en</strong> är<br />

³<br />

N 40 · 0.2, √ ´<br />

40 · 0.2 · 0.8 = N (8, 2.53)<br />

¤<br />

• Hur stort måste urvalet vara för att approximation<strong>en</strong> skall<br />

vara acceptabel? Det visar sig att detta beror på hur symmetrisk<br />

population<strong>en</strong> är med avse<strong>en</strong>de på d<strong>en</strong> aktuella eg<strong>en</strong>skap<strong>en</strong>. Antag att<br />

vi hos de utvalda förutom eg<strong>en</strong>skap<strong>en</strong> “Moderat?” äv<strong>en</strong> är intresserade<br />

av huruvida man är för eller emot ett EMU-medlemskap. Antag<br />

vidare att halva väljarkår<strong>en</strong> är för ett EMU-medlemskap. Då vi betraktar<br />

tvåpunktsfördelade variabler kan population<strong>en</strong> alltid beskrivas med<br />

ett stapeldiagram med <strong>en</strong>dast två staplar, <strong>en</strong> för dom med eg<strong>en</strong>skap<strong>en</strong><br />

och <strong>en</strong> för dom som saknar d<strong>en</strong>. I de båda exempel vi hittills använt<br />

oss av beskrivs population<strong>en</strong> (d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong>) via<br />

Andel av väljarkår<strong>en</strong><br />

Moderat Ej moderat<br />

Andel av väljarkår<strong>en</strong><br />

EMU-anhängare EMU-motståndare<br />

och vi ser att population<strong>en</strong>s utse<strong>en</strong>de beror på d<strong>en</strong> studerade variabeln.<br />

I EMU-exemplet har vi det mest symmetriska utse<strong>en</strong>de <strong>en</strong> population<br />

kan ha för <strong>en</strong> tvåpunktsfördelad eg<strong>en</strong>skap, nämlig<strong>en</strong> 50—50, medan<br />

97


vi i moderat-exemplet har <strong>en</strong> snedfördelning, 20—80. Av d<strong>en</strong>na anledning<br />

blir för giv<strong>en</strong> urvalsstorlek normalapproximation<strong>en</strong> bättre i EMUexemplet.<br />

Hur stort urval måste vi då ta för att stapeldiagrammet över<br />

de binomiala sannolikheterna skall uppvisa tillräcklig symmetri? Detta<br />

blir förstås <strong>en</strong> subjektiv bedömning m<strong>en</strong> erfar<strong>en</strong>het<strong>en</strong> har visat att om<br />

n · π · (1 − π) ≥ 5<br />

dvs att varians<strong>en</strong> för d<strong>en</strong> aktuella binomialfördelning<strong>en</strong> överstiger 5,<br />

eller ekvival<strong>en</strong>t att<br />

5<br />

n ≥<br />

π · (1 − π)<br />

kommer approximation<strong>en</strong> i de flesta fall att bli tillfredsställande. I<br />

EMU-exemplet krävs t.ex. att n ≥ 5 =20medan det i moder-<br />

0.5·0.5<br />

atexemplet krävs att n ≥ 5 =31.25, dvsca32 personer.<br />

0.2·0.8<br />

Sammanfattningsvis gäller alltså att om vi för <strong>en</strong> tvåpunktsfördelad eg<strong>en</strong>skap<br />

känner värdet på π och har ett tillräckligt stort urval kan sannolikhetsberäkningar<br />

för antal individer i urvalet med d<strong>en</strong> aktuella eg<strong>en</strong>skap<strong>en</strong> med<br />

god approximation göras via normalfördelning<strong>en</strong>. En mer teoretisk förklaring<br />

till varför normalfördelning<strong>en</strong> kan användas till att approximera binomiala<br />

sannolikheter ges i nästa avsnitt.<br />

Innan vi tar ett exempel på normalapproximation av binomialfördelning<strong>en</strong><br />

finns <strong>en</strong> lit<strong>en</strong> finjustering för att göra approximation<strong>en</strong> ännu bättre. I<br />

och med att binomialfördelning<strong>en</strong> är diskret beskrivs dess sannolikhetsfördelning<br />

med ett stapeldiagram och sannolikheter beräknas utifrån dessa staplars<br />

höjder. För d<strong>en</strong> kontinuerliga normalfördelning<strong>en</strong> beräknas emellertid sannolikheter<br />

utifrån areor under normalkurvan och för att äv<strong>en</strong> de binomiala<br />

sannolikheterna skall bli areor delas talaxeln in i diskreta heltalsklasser.<br />

0 1 2 3 4 5 6<br />

vilket t.ex. innebär att det diskreta heltalsvärdet 4 motsvaras av d<strong>en</strong> heltalsklass<strong>en</strong><br />

4, dvs det kontinuerliga intervallet (3.5, 4.5). Allmänt motsvaras<br />

98


det diskreta heltalsvärdet k av klass<strong>en</strong> ¡ k − 1<br />

¢<br />

1 ,k+ . På detta sätt över-<br />

2 2<br />

förs stapeldiagrammet till ett sannolikhetshistogram<br />

Frekv<strong>en</strong>s (täthet)<br />

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16<br />

Antal moderater i urvalet<br />

Stapeldiagrammet...<br />

...blir ett sannolikhetshistogram<br />

Frekv<strong>en</strong>s (täthet)<br />

0<br />

5<br />

10<br />

Antal moderater i urvalet<br />

där de binomiala sannolikheterna som önskat beräknas som areor under rektanglarna.<br />

Nu inses något mycket intressant. Antag att vi söker sannolikhet<strong>en</strong><br />

att åtminstone 10 av de valda är moderater. D<strong>en</strong>na sannolikhet motsvaras<br />

av följande area<br />

Frekv<strong>en</strong>s (täthet)<br />

0<br />

5<br />

9.5<br />

10<br />

Antal moderater i urvalet<br />

Arean av det skuggade området<br />

är sannolikhet<strong>en</strong> att åtminstone<br />

10 av de valda är moderater<br />

och vi ser att d<strong>en</strong> kontinuerliga beräkning<strong>en</strong> inte skall börja i punkt<strong>en</strong> 10 utan<br />

i punkt<strong>en</strong> 9.5. Detta beror på att det diskreta heltalsvärdet 10 motsvaras av<br />

det kontinuerliga intervallet (9.5, 10.5). Normalapproximation<strong>en</strong> kommer då<br />

att bli<br />

Pr (X ≥ 10)<br />

| {z }<br />

Xär binomial<br />

15<br />

≈ Pr (X ≥ 9.5)<br />

| {z }<br />

Xär normal<br />

D<strong>en</strong>na lilla finjustering kallas för kontinuitetskorrektion, dvs <strong>en</strong> korrektion<br />

för att förbättra approximation<strong>en</strong> av <strong>en</strong> diskret sannolikhetsfördelning med<br />

<strong>en</strong> kontinuerlig.<br />

Exempel 69 Vi återgår till Exempel 67 där vi antar att vi har ett urval om<br />

n =150personer ur väljarkår<strong>en</strong>. Detta innebär alltså att<br />

X = Antal moderater i urvalet<br />

99<br />

15


är Bi(150, 0.2). Bestäm sannolikhet<strong>en</strong> att åtminstone 35 av de utvalda är<br />

moderater. Tabell 1 räcker inte till och att utifrån binomialformeln beräkna<br />

d<strong>en</strong>na sannolikhet är ing<strong>en</strong>ting man gärna ger sig i kast med. Dessutom gäller<br />

att andel<strong>en</strong> moderater i väljarkår<strong>en</strong>, π, är för stor för poissonapproximation.<br />

Vi undersöker därför möjligheterna för <strong>en</strong> normalapproximation och finner<br />

att<br />

n · π · (1 − π) =150· 0.2 · 0.8 =24> 5<br />

varför detta är tillåtet. D<strong>en</strong> normalfördelning vi skall använda är<br />

³<br />

N 150 · 0.2, √ ´<br />

150 · 0.2 · 0.8 = N (30, 4.9)<br />

Vi söker<br />

Pr (X ≥ 35)<br />

vilket med kontinuitetskorrektion motsvaras av<br />

Pr (X ≥ 34.5)<br />

vilket framgår av följande figur där vi markerat <strong>en</strong> utvald del av sannolikhetshistogrammet<br />

för Bi(150, 0.2) tillsammans med normalkurvan N (30, 4.9).<br />

Frekv<strong>en</strong>s (täthet)<br />

30<br />

34.5<br />

35<br />

Arean av det skuggade området<br />

anger sannolikhet<strong>en</strong> att åtminstone<br />

35 av de valda är moderater.<br />

40<br />

Antal moderater i urvalet<br />

Detta problem löses nu g<strong>en</strong>om att standardisera och läsa ur normalfördelningstabell<strong>en</strong><br />

(Tabell 3a). Vi får att<br />

µ <br />

X − 30 34.5 − 30<br />

Pr (X ≥ 35) ≈ Pr (X ≥ 34.5) =Pr ≥ =Pr(Z≥0.92) =<br />

| {z } | {z } 4.9 4.9<br />

Xär binomial<br />

Xär normal<br />

= 1−Pr (Z


3.3.1 Övningsuppgifter<br />

Uppgift 39 Lös uppgift 516.<br />

Uppgift 40 Lös uppgift 518.<br />

Uppgift 41 Lös uppgift 527.<br />

Uppgift 42 En maskin som tillverkar vinkorkar producerar korkar vars diameter<br />

kan betraktas som normalfördelad med medelvärde 3 cm och standardavvikelse<br />

0.1 cm. En kork är acceptabel om dess diameter ligger mellan 2.9<br />

cm och 3.1 cm.<br />

a. Bestäm sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt vald kork är acceptabel.<br />

b. Antag att vi har 60 (ej bedömda) korkar i lager och att vi behöver 40<br />

acceptabla korkar för <strong>en</strong> omgång vinflaskor. Bestäm sannolikhet<strong>en</strong> att vi<br />

kan korka flaskorna utan att behöva låta maskin<strong>en</strong> tillverka nya korkar.<br />

Uppgift 43 D<strong>en</strong>na uppgift är <strong>en</strong> utökad version av uppgift 508 i bok<strong>en</strong>. En<br />

maskin fyller konservburkar med linssoppa. Vikt<strong>en</strong> av <strong>en</strong> burks soppinnehåll<br />

kan betraktas som normalfördelad med standardavvikels<strong>en</strong> 20 gram.<br />

a. Vilket medelvärde skall man inrikta sig på för att i långa loppet 99% av<br />

burkarna skall innehålla minst 750 gram linssoppa?<br />

b. Antag att vi använder oss av medelvärdet från a-uppgift<strong>en</strong>. Vi tänker<br />

nu göra ett stickprov om 200 burkar från produktion<strong>en</strong>. Bestäm sannolikhetsfördelning<strong>en</strong><br />

för<br />

X = Antal burkar i urvalet som väger mindre än 750 gram<br />

c. Bestäm, g<strong>en</strong>om att göra <strong>en</strong> lämplig approximation, sannolikhet<strong>en</strong> att<br />

stickprovet i b-uppgift<strong>en</strong> åtminstone innehåller fyra burkar som väger<br />

mindre än 750 gram. (Vilk<strong>en</strong> typ av approximation är tillåt<strong>en</strong>?)<br />

3.4 C<strong>en</strong>trala gränsvärdessats<strong>en</strong> (CGS)<br />

3.4.1 Ett inledande exempel<br />

I föregå<strong>en</strong>de avsnitt såg vi att normalfördelning<strong>en</strong> kan användas som approximativ<br />

sannolikhetsmodell för binomialfördelning<strong>en</strong>. I det här avsnittet skall<br />

vi se att normalfördelning<strong>en</strong>s approximativa eg<strong>en</strong>skaper sträcker sig mycket<br />

längre än så. Låt oss belysa problematik<strong>en</strong> med ett exempel.<br />

101


Exempel 70 Man planerar att bygga ett nytt bostadsområde för 100 familjer<br />

och vill veta hur många parkeringsplatser man skall förse detta bostadsområde<br />

med. Antag att det för d<strong>en</strong> familjetyp som flyttar till sådana bostadsområd<strong>en</strong><br />

gäller att eg<strong>en</strong>skap<strong>en</strong><br />

X = Antal bilar i <strong>en</strong> familj<br />

kan ses som <strong>en</strong> slumpvariabel med sannolikhetsfördelning<br />

x 0 1 2<br />

p (x) 0.3 0.5 0.2<br />

En familj har således anting<strong>en</strong> 0, 1 eller 2 bilar. Nu är det ju dock inte sannolikhetsfördelning<strong>en</strong><br />

för antal bilar i <strong>en</strong> familj som är av intresse utan det<br />

sammanlagda antalet bilar i hundra familjer. Låter vi X1,X2,...,X100 repres<strong>en</strong>tera<br />

antalet bilar i var och <strong>en</strong> av dessa hundra familjer följer att<br />

Y = Det sammanlagda antalet bilar i hundra familjer =<br />

= X1 + X2 + ···+ X100<br />

Att bestämma sannolikhetsfördelning<strong>en</strong> för slumpvariabeln Y visar sig vara<br />

lättare sagt än gjort. Låt oss börja lite försiktigt att bestämma sannolikhetsfördelning<strong>en</strong><br />

för det sammanlagda antalet bilar i två familjer. Vi förutsätter<br />

att familjerna väljs slumpmässigt och att det föreligger samma förutsättningar<br />

vid båda dessa slumpförsök. För<br />

Y = X1 + X2<br />

får vi då följande sannolikhetsfördelning<br />

dvs<br />

Utfall<br />

00<br />

10<br />

01<br />

11<br />

20<br />

02<br />

21<br />

12<br />

22<br />

Sannolikhet<br />

0.3*0.3=0.09<br />

Värdering (Y)<br />

Pr(Y=0)=0.09<br />

0.5*0.3=0.15<br />

0.3*0.5=0.15<br />

0.5*0.5=0.25<br />

1 Pr(Y=1)=0.30<br />

0.2*0.3=0.06<br />

0.3*0.2=0.06<br />

2 Pr(Y=2)=0.37<br />

0.2*0.5=0.1<br />

0.5*0.2=0.1<br />

3 Pr(Y=3)=0.20<br />

0.2*0.2=0.04 4 Pr(Y=4)=0.04<br />

0<br />

Slh-fördelning<br />

y 0 1 2 3 4<br />

p (y) 0.09 0.30 0.37 0.20 0.04<br />

102


Motsvarande beräkning för sammanlagt antal bilar i tre familjer<br />

Y = X1 + X2 + X3<br />

ger efter viss möda sannolikhetsfördelning<strong>en</strong><br />

y 0 1 2 3 4 5 6<br />

p (y) 0.027 0.135 0.279 0.305 0.186 0.060 0.008<br />

Man inser snart att utifrån detta angreppssätt finna sannolikhetsfördelning<strong>en</strong><br />

för sammanlagt antal bilar i hundra familjer är utsiktslöst. Vi måste<br />

helt <strong>en</strong>kelt släppa tank<strong>en</strong> att beräkna d<strong>en</strong> exakta sannolikhetsfördelning<strong>en</strong><br />

och istället söka <strong>en</strong> approximativ lösning. För att få <strong>en</strong> idé om <strong>en</strong> sådan<br />

studerar vi de stapeldiagram som dessa sannolikhetsfördelningar ger. Sannolikhetsfördelningarna<br />

för sammanlagt antal bilar i <strong>en</strong>, två samt tre familjer<br />

åskådliggörs nedan.<br />

Sannolikhet<br />

0<br />

En familj<br />

1<br />

Antal bilar<br />

2<br />

Sannolikhet<br />

0<br />

Två familjer<br />

1 2<br />

Antal bilar<br />

3<br />

4<br />

Sannolikhet<br />

0<br />

1<br />

Tre familjer<br />

Vi tycker oss skönja <strong>en</strong> viss symmetri i det högra diagrammet och då vi<br />

efter stor möda lyckas få fram exakta sannolikhetsfördelningar för sammanlagt<br />

antal bilar i fem respektive tio familjer besannas våra förhoppningar i de<br />

associerade stapeldiagramm<strong>en</strong> nedan<br />

Sannolikhet<br />

0<br />

1<br />

2<br />

Fem familjer<br />

3<br />

4<br />

5<br />

Antal bilar<br />

6<br />

7<br />

8<br />

9<br />

10<br />

Sannolikhet<br />

Tio familjer<br />

2<br />

3<br />

Antal bilar<br />

0 1 2 3 4 5 6 7 8 9 1011121314151617181920<br />

Antal bilar<br />

Sannolikhetsfördelning<strong>en</strong>försammanlagtantalbilarverkarblimerochmer<br />

normalfördelningslik ju fler familjer vi har med och därför borde normalfördelning<strong>en</strong><br />

kunna användas för att approximera d<strong>en</strong> sökta sannolikhetsfördelning<strong>en</strong>.<br />

Vi återkommer med beräkningar angå<strong>en</strong>de dessa parkeringsplatser. ¤<br />

103<br />

4<br />

5<br />

6


Vad är det som gör att normalapproximation fungerar i d<strong>en</strong> här situation<strong>en</strong>?<br />

3.4.2 Obero<strong>en</strong>de och likafördelade slumpvariabler (o.l.f.s.v.)<br />

Utifrån ovanstå<strong>en</strong>de exempel uppstår två frågor vars svar kommer att lösa<br />

många problem som uppstår vid praktiska sannolikhetsberäkningar.<br />

1. I vilka situationer kan vi använda normalfördelning<strong>en</strong> som approximativ<br />

sannolikhetsfördelning?<br />

2. Hur finner vi i <strong>en</strong> specifik situation d<strong>en</strong> normalfördelning som skall<br />

användas för approximation<strong>en</strong>?<br />

Det faktum som gör det möjligt att använda normalfördelning<strong>en</strong> i exempl<strong>en</strong><br />

ovan är att vi där summerar resultat<strong>en</strong> av ett stort antal likadana<br />

slumpförsök. Vi hade fått ett liknande resultat om vi istället för summan<br />

hade beräknat medelvärdet av slumpvariablerna, eftersom medelvärdet <strong>en</strong>dast<br />

är <strong>en</strong> <strong>en</strong>kel linjärfunktion av summan<br />

X = X1 + X2 + ···+ Xn<br />

n<br />

P<br />

X<br />

=<br />

n<br />

dvs <strong>en</strong> förflyttning och sammanpressning av sannolikhetsfördelning<strong>en</strong> för<br />

P X. Att det är ett stort antal likadana slumpförsök uttrycks mer sannolikhetsmässigt<br />

som att slumpvariablerna X1,X2,...,Xn är obero<strong>en</strong>de och<br />

likafördelade slumpvariabler, eller förkortat o.l.f.s.v. 12 .Attdomärobero<strong>en</strong>de<br />

innebär att resultatet i ett slumpförsök inte påverkar resultatet i något av de<br />

andra slumpförsök<strong>en</strong>, dvs antal bilar i <strong>en</strong> familj som flyttarinpåverkarinte<br />

antal bilar hos någon av de andra inflyttande familjerna. Att slumpvariablerna<br />

är likafördelade innebär att sannolikhetsfördelning<strong>en</strong> är exakt d<strong>en</strong>samma<br />

vid varje slumpförsök, dvs vi gör exakt samma sannolikhetsbedömning<br />

angå<strong>en</strong>de antal bilar för samtliga inflyttande familjer. Vi formulerar något<br />

diffust följande delresultat.<br />

Summan (eller medelvärdet) av ett stort antal obero<strong>en</strong>de och<br />

likafördelade slumpvariabler är approximativt normalfördelad. Approximation<strong>en</strong><br />

blir bättre ju fler av dessa slumpvariabler som ingår.<br />

12 I <strong>en</strong>gelsk/amerikansk litteratur används terminologin indep<strong>en</strong>d<strong>en</strong>t and id<strong>en</strong>tically distributed<br />

random variables, eller förkortat i.i.d.r.v.<br />

104


Nästa fråga att besvara är således vilk<strong>en</strong> normalfördelning vi skall använda<br />

för att approximera summan (eller medelvärdet). Normalfördelning<strong>en</strong><br />

bestäms av sina båda parametrar, μ och σ, vilket innebär att vi finner d<strong>en</strong><br />

sökta normalfördelning<strong>en</strong> g<strong>en</strong>om att finna medelvärde och standardavvikelse<br />

för d<strong>en</strong> aktuella summan (eller medelvärdet).<br />

3.4.3 Väntevärd<strong>en</strong> för summor och medelvärd<strong>en</strong> av o.l.f.s.v.<br />

Vi antar nu att n obero<strong>en</strong>de och likafördelade slumpvariabler skall summeras.<br />

Att dom är likafördelade innebär att dom alla följer <strong>en</strong> och samma sannolikhetsfördelning<br />

vilket i sin tur innebär att alla har samma medelvärde och<br />

samma standardavvikelse. Vi antar att dessa gem<strong>en</strong>samma parametrar är μ<br />

och σ. Det gäller att<br />

³X ´<br />

E X = E (X1 + X2 + ···+ Xn) =<br />

= E (X1)+E (X2)+···+ E (Xn) =<br />

= μ + μ + ···+ μ = n · μ<br />

och att<br />

³X ´<br />

Var X<br />

= Var (X1 + X2 + ···+ Xn) =<br />

= Var (X1)+Var (X2)+···+ Var (Xn) =<br />

= σ 2 + σ 2 + ···+ σ 2 = n · σ 2<br />

vilket därmed innebär att summans standardavvikelse blir<br />

r ³X ´<br />

Var X = √ n · σ2 = √ n · σ<br />

För att beräkna motsvarande parametrar för medelvärdet använder vi de<br />

resultat vi fann i ekvation (3) i avsnitt 2.3 (se sid 47). Det följer att<br />

E ¡ X ¢ µP <br />

X<br />

= E =<br />

n<br />

1<br />

³X ´<br />

· E X =<br />

n n · μ<br />

= μ<br />

n<br />

och<br />

Var ¡ X ¢ µP <br />

X<br />

= Var =<br />

n<br />

1<br />

³X ´<br />

· Var X =<br />

n2 n · σ2<br />

n2 σ2<br />

=<br />

n<br />

och således följer att medelvärdets standardavvikelse blir<br />

q<br />

Var ¡ X ¢ r<br />

σ2 =<br />

n = σ √<br />

n<br />

vilka alla är resultat vi skall använda oss mycket av i fortsättning<strong>en</strong>.<br />

105


Exempel 71 Vid tillverkning av byggelem<strong>en</strong>t varierar dessas längder slumpmässigt<br />

och kan ses som utfall av o.l.f.s.v. med medelvärde μ =2meter och<br />

standardavvikelse σ =0.005 meter (eller 5 mm). Vid ett tillfälle vill man ha<br />

tio elem<strong>en</strong>t som skall placeras intill varandra till <strong>en</strong> sammanlagd längd av 20<br />

meter. Man väljer mellan följande två metoder.<br />

1. Välj slumpmässigt ut ett elem<strong>en</strong>t och slipa därefter ytterligare nio elem<strong>en</strong>t<br />

till att ha exakt samma längd som det första elem<strong>en</strong>tet.<br />

2. Välj slumpmässigt ut tio elem<strong>en</strong>t.<br />

Vilk<strong>en</strong> av dessa båda metoder kommer i g<strong>en</strong>omsnitt att ge det bästa resultatet,<br />

i d<strong>en</strong> m<strong>en</strong>ing att det hamnar nära 20 meter?<br />

1. Här är det <strong>en</strong>bart längd<strong>en</strong> av det första elem<strong>en</strong>tet som är <strong>en</strong> slumpvariabel,<br />

X, och d<strong>en</strong> sammanlagda längd<strong>en</strong> Y ges av<br />

Y =10· X<br />

Räknereglerna för väntevärd<strong>en</strong> av linjärfunktioner (se ekvation (3) på<br />

sidan 47) geratt<br />

E (Y ) = E (10 · X) =10· E (X) =10· 2=20<br />

Var (Y ) = Var (10 · X) =10 2 · Var (X) =10 2 · 0.005 2 =0.0025<br />

2. Här utgör längd<strong>en</strong> av var och <strong>en</strong> av byggelem<strong>en</strong>t<strong>en</strong> slumpvariabler<br />

X1,X2,...,X10 och eftersom dom är o.l.f.s.v. följer att<br />

E (Y ) = E (X1 + X2 + ···+ X10) =10· 2=20<br />

Var (Y ) = Var (X1 + X2 + ···+ X10) =10· 0.005 2 =0.00025<br />

Vi finner således att båda metoderna i g<strong>en</strong>omsnitt kommer att ge korrekt<br />

sammanlagd längd på de tio byggelem<strong>en</strong>t<strong>en</strong>. Dock gäller att varians<strong>en</strong> för d<strong>en</strong><br />

första metod<strong>en</strong> blir tio gånger större än vad d<strong>en</strong> blir med d<strong>en</strong> andra metod<strong>en</strong>.<br />

För att med stor sannolikhet hamna nära 20 meter bör man således välja d<strong>en</strong><br />

andra metod<strong>en</strong>. ¤<br />

Vad är anledning<strong>en</strong> till d<strong>en</strong> stora skillnad<strong>en</strong> mellan de båda metoderna<br />

i exemplet ovan. Slump<strong>en</strong> medför att längd<strong>en</strong> av ett byggelem<strong>en</strong>t inte blir<br />

exakt två meter. Blir elem<strong>en</strong>tet kortare än två meter kommer i d<strong>en</strong> första<br />

metod<strong>en</strong> samtliga tio elem<strong>en</strong>t att bli kortare än två meter vilket medför att<br />

d<strong>en</strong> sammanlagda längd<strong>en</strong> antaglig<strong>en</strong> hamnar relativt långt från 20 meter.<br />

106


Det slumpmässiga felet ackumuleras. I d<strong>en</strong> andra metod<strong>en</strong> kommer troligtvis<br />

vissa elem<strong>en</strong>t att bli kortare än två meter och vissa elem<strong>en</strong>t bli längre än två<br />

meter vilket medför att dessa fel i viss utsträckning tar ut varandra. Detta<br />

är ett mycket viktigt resultat som framträder t.ex. i standardavvikels<strong>en</strong> för<br />

medelvärdet X. Väljer vi slumpmässigt <strong>en</strong> individ kommer vi i g<strong>en</strong>omsnitt att<br />

hamna i populationsmedelvärdet μ. Pga att det förekommer <strong>en</strong> viss spridning<br />

i population<strong>en</strong> kommer dock d<strong>en</strong> valde individ<strong>en</strong>s värde att avvika från detta<br />

värde med i g<strong>en</strong>omsnitt σ. Väljervislumpmässigtutn individer kommer<br />

deras medelvärde i g<strong>en</strong>omsnitt att hamna i populationsmedelvärdet μ. Dock<br />

kommer några av observationerna att hamna över μ och några att hamna<br />

under μ vilket medför att något större avstickare från detta värde i högre grad<br />

elimineras och att medelvärdet därmed i regel hamnar närmare μ än vad <strong>en</strong><br />

<strong>en</strong>skild observation gör. Detta faktum återspeglar sig i att standardavvikels<strong>en</strong><br />

för medelvärdet X är σ/ √ n.<br />

3.4.4 C<strong>en</strong>trala gränsvärdessats<strong>en</strong><br />

Vi är nu redo att sammanfatta våra upptäckter från de s<strong>en</strong>aste avsnitt<strong>en</strong> i<br />

det viktigaste resultatet i hela sannolikhetsteorin.<br />

Resultat 2 (C<strong>en</strong>trala gränsvärdessats<strong>en</strong>) Låt X1,X2,...,Xn vara ett stort<br />

antal obero<strong>en</strong>de och likafördelade slumpvariabler som alla har medelvärde μ<br />

och standardavvikelse σ. Dågällerattsumman<br />

X X = X1 + X2 + ···+ Xn<br />

approximativt är normalfördelad N (n · μ, √ n · σ). Vidare gäller att äv<strong>en</strong> medelvärdet<br />

P<br />

X<br />

X =<br />

n = X1 + X2 + ···+ Xn<br />

n<br />

³<br />

approximativt är normalfördelat N μ, σ ´<br />

√<br />

n . ¥<br />

Om bara slumpvariablerna är obero<strong>en</strong>de och följer samma sannolikhetsfördelning<br />

spelar det således ing<strong>en</strong> roll vilk<strong>en</strong> sannolikhetsfördelning dom följer.<br />

Är dom bara tillräckligt många kommer summan (och medelvärdet) av<br />

dom ändå att vara approximativt normalfördelad. Inte nog med att det inte<br />

spelar någon roll vilk<strong>en</strong> sannolikhetsfördelning dom följer, vi har dessutom<br />

inget behov av att känna dess utse<strong>en</strong>de helt och fullt. D<strong>en</strong> <strong>en</strong>da information<br />

vi behöver om d<strong>en</strong>na sannolikhetsfördelning är dess medelvärde μ och dess<br />

standardavvikelse σ.<br />

107


Vad m<strong>en</strong>as då med tillräckligt många slumpvariabler? C<strong>en</strong>trala gränsvärdessats<strong>en</strong><br />

är <strong>en</strong> process som successivt gör att sannolikhetsfördelning<strong>en</strong> för summan<br />

(eller medelvärdet) blir normalfördelningslik. Då normalfördelning<strong>en</strong> är<br />

helt symmetrisk är det inte överraskande att d<strong>en</strong>na process går snabbare om<br />

d<strong>en</strong> ursprungliga sannolikhetsfördelning<strong>en</strong> själv är symmetrisk. Är d<strong>en</strong> ursprungliga<br />

fördelning<strong>en</strong> själv normalfördelad räcker det förstås med <strong>en</strong> <strong>en</strong>da<br />

observation medan det för svårt asymmetriska fördelningar kan krävas hundratals<br />

observationer innan tillräckligt symmetri uppnås. Problemet är att vi<br />

ofta inte vet hur d<strong>en</strong> ursprungliga fördelning<strong>en</strong> ser ut och då är det svårt att<br />

bedöma hur många observationer som krävs. Av erfar<strong>en</strong>het har man funnit<br />

att för de flesta ursprungsfördelningar är 30 observationer (eller fler) tillräckligt<br />

för att summans (och medelvärdets) sannolikhetsfördelning skall kunna<br />

approximeras med normalfördelning<strong>en</strong>.<br />

Vi är nu redo att ta oss an det exempel vi lämnat ofullständigt löst i<br />

avsnitt 3.4.1<br />

Exempel 72 Antag att vi i Exempel 70 vill bestämma sannolikhet<strong>en</strong> att det<br />

är tillräckligt med 100 parkeringsplatser. Eftersom vi studerar slumpvariabeln<br />

Y = Det sammanlagda antalet bilar i hundra familjer<br />

kan vår sökta sannolikhet uttryckas i termer av Y som<br />

Pr (Y ≤ 100)<br />

Vi söker således sannolikheter associerade med slumpvariabeln<br />

Y = X1 + X2 + ···+ X100<br />

där X1,X2,...,X100 är o.l.f.s.v.. Eftersom vi har fler än 30 sådana slumpvariabler<br />

är villkor<strong>en</strong> för normalapproximation uppfyllda och vi behöver <strong>en</strong>bart<br />

ta reda på medelvärde och standardavvikelse för ursprungsfördelning<strong>en</strong>.<br />

D<strong>en</strong>na sannolikhetsfördelning ges av<br />

och det följer därför att<br />

och eftersom<br />

x 0 1 2<br />

p (x) 0.3 0.5 0.2<br />

μ = E (X) =0· 0.3+1· 0.5+2· 0.2 =0.9<br />

E ¡ X 2¢ =0 2 · 0.3+1 2 · 0.5+2 2 · 0.2 =1.3<br />

108


följer att<br />

Var (X) =1.3 − 0.9 2 =0.49<br />

och således att<br />

σ = p Var (X) = √ 0.49 = 0.7<br />

D<strong>en</strong>na familjetyp har alltså i g<strong>en</strong>omsnitt 0.9 bilar med <strong>en</strong> standardavvikelse<br />

på 0.7 bilar. C<strong>en</strong>trala gränsvärdessats<strong>en</strong> ger därför att Y approximativt är<br />

³<br />

N 100 · 0.9, √ ´<br />

100 · 0.7 = N (90, 7)<br />

Innan vi beräknar sannolikhet<strong>en</strong> konstaterar vi att Y är <strong>en</strong> diskret slumpvariabel<br />

varför normalapproximation<strong>en</strong> blir bättre om vi använder kontinu-<br />

itetskorrektion. Vi får att<br />

Pr (Y ≤ 100)<br />

| {z }<br />

Y är diskret<br />

µ<br />

Y − 90<br />

≈ Pr (Y ≤ 100.5) =Pr<br />

| {z } 7<br />

Y är normal<br />

= Pr(Z≤1.5) = 0.9332<br />

≤<br />

<br />

100.5 − 90<br />

=<br />

7<br />

dvs det är ungefär 93% chans att 100 parkeringsplatser kommer att räcka. ¤<br />

Vi fortsätter med ytterligare två exempel.<br />

Exempel 73 Antag att vi sätter vår dator till att lösa femtio uppgifter (av<br />

samma typ) innan vi går på vår <strong>en</strong>timmes lunchrast. Antag att det för datorn<br />

i g<strong>en</strong>omsnitt tar <strong>en</strong> minut att lösa d<strong>en</strong>na typ av uppgift. Dock tar det<br />

inte alltid exakt samma tid utan vi har dessutom <strong>en</strong> standardavvikelse på <strong>en</strong><br />

minut. Bestäm sannolikhet<strong>en</strong> att datorn är färdig när vi kommer tillbaks från<br />

lunchrast<strong>en</strong>. Eftersom<br />

Y = Sammanlagd datortid för att lösa 50 uppgifter<br />

följer att d<strong>en</strong> sökta sannolikhet<strong>en</strong> kan uttryckas i termer av Y via<br />

Pr (Y ≤ 60)<br />

Vi söker således sannolikheter associerade med slumpvariabeln<br />

Y = X1 + X2 + ···+ X50<br />

där X1,X2,...,X50 är o.l.f.s.v.. Eftersom vi har fler än 30 sådana slumpvariabler<br />

är villkor<strong>en</strong> för normalapproximation uppfyllda. Vi har dessutom<br />

fått information om att det för X-variablerna gäller<br />

μ = σ =1<br />

109


C<strong>en</strong>trala gränsvärdessats<strong>en</strong> ger sedan att sannolikhetsfördelning<strong>en</strong> för Y approximativt<br />

är ³<br />

N 50 · 1, √ ´<br />

50 · 1 = N (50, 7.07)<br />

Vi finner därmed att<br />

Pr (Y ≤ 60) ≈ Pr<br />

µ Y − 50<br />

7.07<br />

<br />

60 − 50<br />

≤ =Pr(Z≤1.414) = 0.9213<br />

7.07<br />

där vi interpolerat i Tabell 3a. I det här exemplet går det att på teoretisk väg<br />

finna d<strong>en</strong> verkliga sannolikhetfördelning<strong>en</strong> för Y som ger d<strong>en</strong> sökta sannolikhet<strong>en</strong><br />

är<br />

Pr (Y ≤ 60) = 0.9156<br />

vilket innebär att approximation<strong>en</strong> är fullt acceptabel. ¤<br />

Exempel 74 För <strong>en</strong> viss lärare tar det i g<strong>en</strong>omsnitt 20 minuter att rätta <strong>en</strong><br />

skrivning i statistik. Nu är det dock inte så att alla skrivningar tar lika lång<br />

tid utan det föreligger <strong>en</strong> relativt stor spridning vilket framgår av att standardavvikels<strong>en</strong><br />

är 12 minuter. På söndagsförmiddag<strong>en</strong> klockan 10.00 sätter<br />

sig lärar<strong>en</strong> med de sista 36 skrivningarna. Bestäm sannolikhet<strong>en</strong> att samtliga<br />

skrivningar är rättade innan sport<strong>en</strong> börjar 20.30. Låter vi X1,X2,...,X36<br />

repres<strong>en</strong>tera d<strong>en</strong> tid det tar att rätta var och <strong>en</strong> av skrivningarna följer att<br />

Y = Total rättningstid =<br />

= X1 + X2 + ···+ X36<br />

Förutsätter vi nu (något tveksamt) att rättningstid<strong>en</strong> för <strong>en</strong> skrivning inte<br />

påverkar rättningstid<strong>en</strong> för <strong>en</strong> annan följer att X1,X2,...,X36 är o.l.f.s.v.<br />

och vi kan använda normalapproximation för att bestämma sannolikhetsfördelning<strong>en</strong><br />

för Y . Eftersom det för ursprungsfördelning<strong>en</strong> gäller att<br />

μ = 20<br />

σ = 12<br />

följer att sannolikhetsfördelning<strong>en</strong> för Y kan approximeras med<br />

³<br />

N 36 · 20, √ ´<br />

36 · 12 = N (720, 72)<br />

D<strong>en</strong> tid lärar<strong>en</strong> har på sig innan sport<strong>en</strong> börjar är 10.5 timmar eller 630<br />

minuer varför sannolikhet<strong>en</strong> ges av<br />

µ <br />

Y − 720 630 − 720<br />

Pr (Y ≤ 630) ≈ Pr ≤ =Pr(Z≤−1.25) =<br />

72 72<br />

= Pr(Z≥1.25) = 1 − Pr (Z


3.4.5 Hur fungerar normalapproximation av binomialfördelning<strong>en</strong>?<br />

Vi såg i avsnitt 3.3 att normalfördelning<strong>en</strong> i vissa situationer kan användas för<br />

att approximera binomiala sannolikheter. Detta är <strong>en</strong> direkt följd av C<strong>en</strong>trala<br />

gränsvärdessats<strong>en</strong>. Vi vet att om vi med återläggning drar n bollar ur <strong>en</strong> urna<br />

där andel<strong>en</strong> vita bollar är π och betraktar slumpvariabeln<br />

Y = Antal vita bollar i urvalet<br />

kommer Y att vara binomialfördelad Bi(n, π). Vi upprepar alltså exakt samma<br />

slumpförsök n gånger och låter vi X1,X2,...,Xn repres<strong>en</strong>tera antalet vita<br />

bollar i var och <strong>en</strong> av dragningarna kommer<br />

Y = X1 + X2 + ···+ Xn<br />

dvs <strong>en</strong> summa av n o.l.f.s.v. som alla är Bi(1,π) (eller sk. Bernoullifördelade,<br />

Be(π)). Vi såg i avsnitt 2.4 att det för dessa slumpvariabler gäller att<br />

μ = π<br />

σ = p π · (1 − π)<br />

vilket om n är tillräckligt stort medför att sannolikhetsfördelning<strong>en</strong> för Y<br />

approximativt är ³<br />

N n · π, p ´<br />

n · π · (1 − π)<br />

som äv<strong>en</strong> konstaterades i avsnitt 3.3. C<strong>en</strong>trala gränsvärdessats<strong>en</strong> arbetar<br />

olika snabbt bero<strong>en</strong>de på ursprungsfördelning<strong>en</strong>s form och eftersom d<strong>en</strong>na<br />

symmetri för binomialfördelning<strong>en</strong> bestäms av parametern π använder vi för<br />

binomialfördelning<strong>en</strong> ett speciellt mått på vad som skall m<strong>en</strong>as med att n är<br />

tillräckligt stort. Då π är nära 0.5 är fördelning<strong>en</strong> som mest symmetrisk och<br />

då räcker det med runt 20 dragningar. Skulle dock π vara nära 0 eller 1 är<br />

fördelning<strong>en</strong> svårt asymmetrisk och det kan krävas hundratals observationer.<br />

För att normalapproximation skall få användas bör det gälla att<br />

n · π · (1 − π) > 5<br />

I dessa situationer är man ofta intresserade av d<strong>en</strong> närbesläktade slumpvariabeln<br />

p = Andel<strong>en</strong> individer i urvalet med d<strong>en</strong> aktuella eg<strong>en</strong>skap<strong>en</strong> = Y<br />

n<br />

111


och utifrån våra kunskaper om eg<strong>en</strong>skaper hos linjärfunktioner av slumpvariabler<br />

följer att<br />

µ <br />

Y<br />

E (p) = E =<br />

n<br />

1<br />

E (Y )=nπ = π<br />

n n<br />

µ <br />

Y<br />

Var (p) = Var =<br />

n<br />

1<br />

(1 − π)<br />

Var (Y )=nπ<br />

n2 n2 = π (1 − π)<br />

n<br />

Vidare vet vi att varje linjärfunktion av normalfördelade slumpvariabler själv<br />

är normalfördelad varför det följer att p approximativt är<br />

à r !<br />

π (1 − π)<br />

N π,<br />

n<br />

3.4.6 Normalapproximation av Poissonfördelning<strong>en</strong><br />

Det visar sig att äv<strong>en</strong> Poissonfördelning<strong>en</strong> kan skrivas som <strong>en</strong> summa av<br />

o.l.f.s.v.. Betraktar vi <strong>en</strong> process där händelser inträffar med int<strong>en</strong>sitet<strong>en</strong> μ<br />

gäller att<br />

Y = Antal händelser på ett <strong>en</strong>hetsintervall<br />

är Po(μ). Ett <strong>en</strong>hetsintervall kan dock delas upp i mindre intervall och om<br />

vi låter X1,X2,...,Xn repres<strong>en</strong>tera antal händelser på vart och ett av dessa<br />

intervall kommer dessa, <strong>en</strong>ligt resonemang i slutet av avsnitt 2.5.1, att vara<br />

o.l.f.s.v. som alla är Po ¡ ¢ μ<br />

. Eftersom<br />

n<br />

Y = X1 + X2 + ···+ Xn<br />

ger därför C<strong>en</strong>trala gränsvärdessats<strong>en</strong> att normalapproximation kan användas<br />

om n är tillräckligt stort. Här måste vi dock vara försiktiga eftersom ju<br />

större vi väljer n ju mindre kommer μ<br />

att bli, vilket medför att d<strong>en</strong> ursprungs-<br />

n<br />

fördelning, Po ¡ ¢ μ<br />

, som C<strong>en</strong>trala gränsvärdessats<strong>en</strong> har att arbeta med blir<br />

n<br />

mer asymmetrisk. Det hjälper således inte att välja n stort utan d<strong>en</strong> <strong>en</strong>da<br />

möjlighet<strong>en</strong> är att int<strong>en</strong>sitet<strong>en</strong> μ är tillräckligt stor. Om så är fallet kan vi<br />

välja n stort samtidigt som att ursprungsfördelning<strong>en</strong> Po ¡ ¢ μ<br />

är tillräckligt<br />

n<br />

symmetrisk. Erfar<strong>en</strong>het<strong>en</strong> har visat att om μ>5 blir normalapproximation<strong>en</strong><br />

acceptabel. Ju större μ är ju bättre blir approximation<strong>en</strong>. I avsnitt 2.5.3<br />

fann vi att<br />

E (Y )=Var (Y )=μ<br />

varför vi för Po(μ) kan använda N ¡ μ, √ μ ¢ som approximativ sannolikhetsfördelning.<br />

112


Exempel 75 Vi återgår nu till att studera problemet i Exempel 73 med att<br />

bestämma sannolikhet<strong>en</strong> att datorn är färdig med sina 50 uppgifter då vi<br />

återkommer till arbetet efter lunchrast<strong>en</strong>. Eftersom det handlar om väntetider<br />

kan vi förutsätta att<br />

är Po(1). Låter vi nu<br />

X = Antal utförda uppgifter under <strong>en</strong> minut<br />

Y = Antal utförda uppgifter på <strong>en</strong> timme<br />

följer <strong>en</strong>ligt resonemang i slutet av avsnitt 2.5.1 att Y är Po(60). Normalapproximation<br />

är tillåt<strong>en</strong> och d<strong>en</strong> aktuella normalfördelning<strong>en</strong> ges av<br />

³<br />

N 60, √ ´<br />

60 = N (60, 7.746)<br />

Vi söker sannolikhet<strong>en</strong><br />

Pr (Y ≥ 50)<br />

och eftersom Poissonfördelning<strong>en</strong> är diskret använder vi kontinuitetskorrektion<br />

för att förbättra approximation<strong>en</strong>. Vi får<br />

Pr (Y ≥ 50)<br />

| {z }<br />

≈<br />

µ <br />

Y − 60 49.5 − 60<br />

Pr (Y ≥ 49.5) =Pr ≥ =<br />

| {z } 7.746 7.746<br />

Y är poisson<br />

Y är normal<br />

= Pr(Z≥−1.356) = Pr (Z ≤ 1.356) = 0.9124<br />

där vi använt interpolation i Tabell 3a. Här kan vi med rätt hjälpmedel finna<br />

d<strong>en</strong> exakta sannolikhet<strong>en</strong> med Po(60) som ges av<br />

Pr (Y ≥ 50) = 0.9156<br />

som över<strong>en</strong>sstämmer med d<strong>en</strong> exakta beräkning som pres<strong>en</strong>terades i Exempel<br />

73. ¤<br />

3.4.7 Approximationsmöjligheter<br />

Som avslutning på detta viktiga avsnitt om C<strong>en</strong>trala gränsvärdessats<strong>en</strong> pres<strong>en</strong>terar<br />

vi <strong>en</strong> sammanfattning av de vanligaste approximationsmöjligheterna<br />

i sannolikhetsläran.<br />

113


3.4.8 Övningsuppgifter<br />

Uppgift 44 Lös uppgift 509.<br />

Approximationsmöjligheter<br />

n>10<br />

π5 N( μ, μ)<br />

Uppgift 45 I <strong>en</strong> hiss står angivet “Högst 10 personer eller 800 kg”. Antag<br />

att det för typiska hissres<strong>en</strong>ärer gäller att vikt<strong>en</strong> är normalfördelad med<br />

medelvikt<strong>en</strong> 75 kg och standardavvikels<strong>en</strong> 12 kg.<br />

a. Bestäm sannolikhet<strong>en</strong> att <strong>en</strong> personmässigt fylld hiss inte klarar det andra<br />

villkoret. Vi förutsätter att det inte finns något viktmässigt bero<strong>en</strong>de<br />

mellan hissres<strong>en</strong>ärerna.<br />

b. Hur mycket måste man förbättra hiss<strong>en</strong> (höja viktgräns<strong>en</strong> till) för att<br />

<strong>en</strong> personmässigt fylld hiss med 99%-sannolikhet klarar viktgräns<strong>en</strong>.<br />

Uppgift 46 Vid <strong>en</strong> godisfabrik packas “200g-påsar” med storsäljar<strong>en</strong> “chokladdoppade<br />

sockerbomber” i lådor om 100 påsar i varje. Det har visat sig att<br />

påsarna i g<strong>en</strong>omsnitt <strong>en</strong>dast väger 198g med <strong>en</strong> standardavvikelse på 12g.<br />

a. Bestäm sannolikhet<strong>en</strong> att innehållet i <strong>en</strong> låda väger mer än 20kg.<br />

b. Enligt nya EU-regler måste innehållet i åtminstone 1/3 av lådorna väga<br />

det dom utsäger sig att göra, vilket i det här fallet är 20kg. Vad måste<br />

man ställa om ifyllningsanordning<strong>en</strong> för godispåsarna till för att uppfylla<br />

detta krav? Vi förutsätter att standardavvikels<strong>en</strong> för innehållet i<br />

påsarna förblir oförändrad.<br />

114


Uppgift 47 Innan du går på din <strong>en</strong>timmes lunchrast sätter du din dator till<br />

att lösa 40 matematiska problem. Du vet att datorn i g<strong>en</strong>omsnitt löser d<strong>en</strong>na<br />

typ av problem på 1.4 minuter med <strong>en</strong> standardavvikelse på 0.4 minuter. När<br />

datorn har löst <strong>en</strong> uppgift startar d<strong>en</strong> omedelbart med nästa.<br />

a. Bestäm sannolikhet<strong>en</strong> att datorn är färdig när du återvänder från lunchrast<strong>en</strong>.<br />

b. Hur lång lunchrast måste du ta om du vill att datorn med 99% sannolikhet<br />

skall vara färdig när du kommer tillbaka?<br />

Uppgift 48 Antal fel som uppstår i <strong>en</strong> viss maskin under <strong>en</strong> arbetstimme<br />

kan ses som <strong>en</strong> stokastisk variabel X med sannolikhetsfunktion<br />

⎧<br />

⎨ 0.3 , x =0<br />

p (x) = 0.6<br />

⎩<br />

0.1<br />

,<br />

,<br />

x =1<br />

x =2<br />

a. Bestäm medelvärde och varians för X.<br />

b. Bestäm approximativt sannolikhet<strong>en</strong> att det under <strong>en</strong> arbetsvecka (dvs<br />

40 arbetstimmar) uppstår högst 30 fel i maskin<strong>en</strong>. Ange äv<strong>en</strong> de antagand<strong>en</strong><br />

du gör för att beräkna sannolikhet<strong>en</strong>.<br />

Uppgift 49 I ett visst tärningsspel skall man ta sig 100 steg (eller längre).<br />

Bestäm approximativt sannolikhet<strong>en</strong> att det räcker med 30 kast för att komma<br />

imål.<br />

3.5 Normalfördelade populationer<br />

Som avslutning på sannolikhetsläran och som övergång till infer<strong>en</strong>släran några<br />

ord om populationer och dess fördelningar. Då man pratar om <strong>en</strong> population<br />

tänker man instinktivt på <strong>en</strong> population av människor, som t.ex.<br />

d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> eller pati<strong>en</strong>terna i <strong>en</strong> hälsoundersökning. Så behöver<br />

alls inte vara fallet. Andra tänkbara populationer är “Volvo 740”,“Konservburkar”,<br />

“Lottokombinationer” etc. Vidare gäller att d<strong>en</strong> sannolikhetsfördelning<br />

man associerar med <strong>en</strong> population beror på vilk<strong>en</strong> variabel man<br />

studerar. Det finns variabler som för <strong>en</strong> mänsklig population ger upphov<br />

till normalfördelning<strong>en</strong> (eller åtminstone ungefär). Intellig<strong>en</strong>skvot<strong>en</strong> “IQ” är<br />

<strong>en</strong> variabel som brukar betraktas som (approximativt) normalfördelad med<br />

parametrar μ = 100 och σ =15. D<strong>en</strong> g<strong>en</strong>omsnittlige medborgar<strong>en</strong> har alltså<br />

<strong>en</strong> IQ på 100. Dock har inte alla <strong>en</strong> IQ på 100 utan standardavvikels<strong>en</strong> 15<br />

115


anger d<strong>en</strong> g<strong>en</strong>omsnittliga avvikels<strong>en</strong> från medelvärdet. I och med att vi anger<br />

att IQ är normalfördelad har vi dessutom bestämt form<strong>en</strong> på d<strong>en</strong>na spridning<br />

i population<strong>en</strong>. Då man arbetar med normalfördelning<strong>en</strong> är det dock oftast<br />

inte d<strong>en</strong> “vanliga” (eller ursprungliga) population<strong>en</strong> som syftas på. För de<br />

flesta variabler är population<strong>en</strong> i sig inte normalfördelad, och några exempel<br />

på sådana fördelningar vi studerat här är<br />

D<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> har följande fördelning<br />

Andel av väljarkår<strong>en</strong> med avse<strong>en</strong>de på variabeln "Moderat?"<br />

Moderat<br />

Ej moderat<br />

Sannolikhet<br />

En viss familjetyp har följande fördelning<br />

med avse<strong>en</strong>de på variabeln "Antal bilar"<br />

0 1 2<br />

Antal bilar<br />

Frekv<strong>en</strong>s (täthet)<br />

D<strong>en</strong> tid det tar <strong>en</strong> dator att lösa <strong>en</strong><br />

viss typ av uppgift har följande<br />

sannolikhetsfördelning.<br />

0 1 2 3 4 5 6<br />

vilka alla är långt ifrån att vara normalfördelade. Normalfördelning<strong>en</strong>s roll<br />

kommer i och med C<strong>en</strong>trala gränsvärdessats<strong>en</strong> istället då vi har tillgång till<br />

ett stort antal observationer från d<strong>en</strong>na grundfördelning pga av att både summan<br />

och medelvärdet av observationerna då är approximativt normalfördelade.<br />

I statistik<strong>en</strong> cirkulerar mycket kring information<strong>en</strong> i stickprov och då<br />

stickprov ofta kan ses som ett stort antal observationer från <strong>en</strong> och samma<br />

fördelning följer att det är här normalfördelning<strong>en</strong> kommer in i bild<strong>en</strong>. Vi<br />

skall se att det för kvantitativa variabler är stickprovsmedelvärdet x som<br />

är av intresse. För att på bästa sätt kunna använda d<strong>en</strong> information x innehåller<br />

måste vi känna dom sannolikhetseg<strong>en</strong>skaper X har innan stickprovet<br />

är taget. Nu råkar vi veta att om stickprovet är stort är stickprovsmedelvärdet<br />

X approximativt normalfördelat, dvs<br />

µ<br />

X är approximativt N μ, σ <br />

√<br />

n<br />

Återgår vi till figur<strong>en</strong> över d<strong>en</strong> tid det tar för datorn att lösa uppgifter och<br />

för d<strong>en</strong>na istället studerar stickprovsmedelvärdets fördelning får vi för några<br />

stickprovsstorlekar.<br />

116<br />

Tid (min)


Stickprovsmedelvärdet sannolikhetsfördelning<br />

Frekv<strong>en</strong>s (täthet)<br />

n=10<br />

n=5<br />

Tid (minuter)<br />

Fortsätter vi att studera stickprovsmedelvärdets sannolikhetsfördelning för<br />

ytterligare några stickprovsstorlekar, där vi dessutom markerat populationsmedelvärdet<br />

μ, får vi följande diagram<br />

Frekv<strong>en</strong>s (täthet)<br />

n=2<br />

Stickprovsmedelvärdets sannolikhetsfördelning<br />

n=40<br />

n=20<br />

n=10<br />

μ<br />

Tid (minuter)<br />

och vi ser (åtminstone) två intressanta eg<strong>en</strong>heter i diagramm<strong>en</strong>.<br />

• D<strong>en</strong> normalfördelning som skall användas för stickprovsmedelvärdet<br />

skall alltid c<strong>en</strong>treras i populationsmedelvärdet medan dess form beror<br />

på stickprovsstorlek<strong>en</strong>. Större stickprov ger lägre standardavvikelse för<br />

stickprovsmedelvärdet.<br />

• Normalfördelning<strong>en</strong> används som <strong>en</strong> approximation av d<strong>en</strong> verkliga<br />

sannolikhetsfördelning<strong>en</strong> och vi ser att d<strong>en</strong> symmetriska form<strong>en</strong> blir<br />

mer påtaglig ju större stickprovet är. Vi drar därför slutsats<strong>en</strong> att approximation<strong>en</strong><br />

blir bättre ju större storlek vi väljer på stickprovet.<br />

Vi ser därmed två fördelar med att ta stora stickprov. Dels blir sannolikhetsapproximation<strong>en</strong><br />

pålitligare och dels kommer stickprovsmedelvärdet<br />

med större sannolikhet att hamna i närhet<strong>en</strong> av populationsmedelvärdet.<br />

Således gäller att d<strong>en</strong> population vi vanligtvis förknippar med normalfördelning<strong>en</strong><br />

består av “Tänkbara stickprovsmedelvärd<strong>en</strong> för stickprovsstorlek<strong>en</strong><br />

117


n”. Antag att vi studerar <strong>en</strong> population och där är intresserade av <strong>en</strong> variabel<br />

med populationsmedelvärde μ och populationsstandardavvikelse σ. Antag<br />

vidare att vi har tillgång till alla tänkbara stickprov av storlek n och för<br />

var och <strong>en</strong> av dessa beräknar medelvärdet x. Då har vi ett datamaterial för<br />

<strong>en</strong> population där individerna består av stickprovsmedelvärd<strong>en</strong>. För d<strong>en</strong>na<br />

population gäller att populationsmedelvärdet är μ och populationsstandardavvikels<strong>en</strong><br />

är σ √ n . Detta resultat hade dock varit relativt ointressant om inte<br />

C<strong>en</strong>trala gränsvärdessats<strong>en</strong> funnits. För om stickprovet är tillräckligt stort<br />

gäller ju dessutom att själva form<strong>en</strong>, eller fördelning<strong>en</strong>, för d<strong>en</strong>na population<br />

är mycket lik <strong>en</strong> normalfördelning.<br />

118


A Formelförklaringar<br />

A.1 Beräkningsformel för varians<strong>en</strong><br />

Vi förklarar här beräkningsformeln (2) för varians<strong>en</strong> som angavs i avsnitt 2.2.<br />

Vi börjar med att skriva varians<strong>en</strong> som <strong>en</strong> summa och utveckla kvadrat<strong>en</strong><br />

g<strong>en</strong>om kvadratkomplettering.<br />

Var (X) = X (x − μ) 2 · p (x) = X ¡ x 2 − 2xμ + μ 2 ¢ · p (x) =<br />

Nu kan detta uttryck delas upp i tre summor och eftersom populationsmedelvärdet<br />

μ är <strong>en</strong> konstant kan det flyttas utanför summation<strong>en</strong>.<br />

X x 2 p (x) − 2μ X xp (x)+μ 2 X p (x) =<br />

D<strong>en</strong> vänstra term<strong>en</strong> anger det förväntade värdet av X2 ,dvsE (X2 ),och<br />

uttrycket i d<strong>en</strong> mittersta summan är inget annat än E (X) =μ. D<strong>en</strong> sista<br />

summan adderar samtliga sannolikheter varför det måste gälla att P p (x) =<br />

1. Vifårsåledesatt<br />

Var (X) = X x 2 p (x) − 2μ X xp (x)+μ 2 X p (x) =<br />

= E ¡ X 2¢ − 2μ 2 + μ 2 = E ¡ X 2¢ − μ 2<br />

vilket också var påstå<strong>en</strong>det.<br />

A.2 Väntevärd<strong>en</strong> av linjärfunktioner<br />

E (a + b · X) = X (a + b · x) · p (x) =a X p (x)+b X x · p (x) =<br />

= a + b · E (X) =a + b · μ<br />

Var (a + b · X) = X [a + b · x − (a + b · μ)] 2 · p (x) =<br />

= X [b · (x − μ)] 2 · p (x) =<br />

= b 2 X (x − μ) 2 · p (x) =b 2 · Var (X) =b 2 · σ 2<br />

B Diskreta sannolikhetsfördelningar<br />

B.1 Binomialfördelning<strong>en</strong><br />

Vi ger här ett matematiskt bevis för väntevärde och varians för binomialfördelning<strong>en</strong>.<br />

I bevis<strong>en</strong> använder vi ett välkänt knep för väntevärdesberäkningar.<br />

119


Oftakanmanstuvaomtermernaochflytta några utanför summatecknet så<br />

att det som blir kvar är sannolikheter. Summerar man därtill över samtliga<br />

värd<strong>en</strong> måste ju summan bli 1.<br />

E (X) =<br />

nX<br />

µ <br />

n<br />

x π<br />

x<br />

x=0<br />

x (1 − π) n−x nX n!<br />

= x ·<br />

x!(n − x)!<br />

x=0<br />

πx (1 − π) n−x =<br />

=<br />

nX n!<br />

(x − 1)! (n − x)!<br />

x=1<br />

πx (1 − π) n−x =<br />

=<br />

nX (n − 1)!<br />

nπ<br />

(x − 1)! (n − x)!<br />

x=1<br />

πx−1 (1 − π) n−x =<br />

=<br />

nX<br />

µ <br />

n − 1<br />

nπ<br />

π<br />

x − 1<br />

x=1<br />

x−1 (1 − π) n−x =<br />

=<br />

Xn−1<br />

µ <br />

n − 1<br />

nπ<br />

π<br />

x<br />

x (1 − π) n−1−x = nπ<br />

x=0<br />

eftersom termerna i summan är sannolikheter för Bi(n − 1,π) och därför<br />

måste summera till 1. Detta knep använder vi oss också av då varians<strong>en</strong> skall<br />

bestämmas. Först konstaterar vi att<br />

vilket betyder att<br />

E [X (X − 1)] = E ¡ X 2 − X ¢ = E ¡ X 2¢ − E (X)<br />

Var (X) = E ¡ X 2¢ − [E (X)] 2 = E ¡ X 2¢ − E (X)+E (X) − [E (X)] 2 =<br />

= E [X (X − 1)] + EX − [E (X)] 2<br />

och eftersom E (X) redan är bestämd räcker det att finna<br />

E [X (X − 1)] =<br />

nX<br />

µ <br />

n<br />

x (x − 1) π<br />

x<br />

x=0<br />

x (1 − π) n−x =<br />

=<br />

nX n!<br />

(x − 2)! (n − x)!<br />

x=2<br />

πx (1 − π) n−x =<br />

=<br />

n (n − 1) π 2<br />

nX<br />

µ <br />

n − 2<br />

π<br />

x − 2<br />

x=2<br />

x−2 (1 − π) n−x =<br />

=<br />

n (n − 1) π 2<br />

Xn−2<br />

µ <br />

n − 2<br />

π<br />

x<br />

x (1 − π) n−2−x = n (n − 1) π 2<br />

x=0<br />

120


där summan blir 1 eftersom det är <strong>en</strong> summering av alla sannolikheter för<br />

Bi(n − 2,π). Vifårdåatt<br />

Var (X) =n (n − 1) π 2 + nπ − n 2 π 2 = nπ − nπ 2 = nπ (1 − π)<br />

B.2 Hypergeometrisk fördelning<br />

Vi ger här ett matematiskt bevis för väntevärde och varians för hypergeometrisk<br />

fördelning. I bevis<strong>en</strong> använder vi samma knep för väntevärdesberäkningar<br />

som användes för binomialfördelning<strong>en</strong> i Avsnitt B.1 ovan.<br />

E (X) =<br />

nX<br />

x ·<br />

x=0<br />

= n<br />

N<br />

· Nπ<br />

¡ ¢¡ ¢<br />

Nπ N−Nπ<br />

nX<br />

¡ ¢¡ ¢<br />

Nπ−1 N−Nπ<br />

x n−x<br />

x−1 n−x<br />

¡ ¢ = Nπ ¡ ¢ =<br />

N<br />

N<br />

n<br />

x=1 n<br />

nX<br />

¡ ¢¡ ¢ ¡ ¢¡ Nπ−1 N−Nπ Xn−1<br />

Nπ−1 N−Nπ<br />

x−1 n−x<br />

x n−1−x<br />

¡ ¢ = nπ ¡ N−1<br />

N−1<br />

x=1 n−1<br />

x=0 n−1<br />

¢<br />

¢ = nπ<br />

eftersom termerna i summan är sannolikheter för Hyp(n − 1,π,N − 1) och<br />

därför måste summera till 1. Detta knep använder vi oss också av då varians<strong>en</strong><br />

skall bestämmas.<br />

E [X (X − 1)] =<br />

nX<br />

x (x − 1) ·<br />

x=0<br />

= Nπ(Nπ − 1)<br />

= n (n − 1)<br />

= n (n − 1) π (Nπ − 1)<br />

= n (n − 1) π (Nπ − 1)<br />

· Nπ(Nπ − 1)<br />

N (N − 1)<br />

N − 1<br />

N − 1<br />

¡ ¢¡ ¢<br />

Nπ N−Nπ<br />

x n−x<br />

¡ ¢ N =<br />

n<br />

nX<br />

¡ ¢¡ ¢<br />

Nπ−2 N−Nπ<br />

x−2 n−x<br />

¡ ¢ =<br />

N<br />

x=2 n<br />

nX<br />

¡ ¢¡ Nπ−2 N−Nπ<br />

x−2 n−x<br />

¡ N−2<br />

x=2 n−2<br />

¡ ¢¡ ¢<br />

Xn−2<br />

Nπ−2 N−Nπ<br />

x n−2−x<br />

¡ ¢ =<br />

N−2<br />

x=0 n−2<br />

121<br />

¢<br />

¢ =


eftersom termerna i summan är sannolikheter för Hyp(n − 2,π,N − 2) och<br />

därför måste summera till 1.Vi får då att<br />

Var (X) =<br />

n (n − 1) π (Nπ − 1)<br />

+ nπ − n<br />

N − 1<br />

2 π 2 =<br />

=<br />

µ <br />

(n − 1) (Nπ − 1)<br />

nπ<br />

+1− nπ =<br />

N − 1<br />

=<br />

1<br />

nπ [(n − 1) (Nπ − 1) + N − 1 − nπ (N − 1)] = ···=<br />

N − 1<br />

=<br />

N − n<br />

nπ (1 − π)<br />

N − 1<br />

B.3 Poissonfördelning<strong>en</strong><br />

B.3.1 Sannolikhetsfunktion<strong>en</strong><br />

Det spelar således ing<strong>en</strong> roll hur korta delintervall vi än väljer, sannolikhet<strong>en</strong><br />

ovan kommer ändå bara att vara <strong>en</strong> approximation. Dock gäller att d<strong>en</strong>na<br />

approximation blir bättre ju kortare intervall vi väljer, dvs ju större vi låter<br />

n vara. Exakt sannolikhetsfördelning kan därför fås g<strong>en</strong>om att bestämma<br />

gränsvärdet för sannolikhetsfördelning<strong>en</strong> då n →∞,dvs<br />

µ <br />

n<br />

³μ ´ x ³<br />

pX (x) = lim<br />

1 −<br />

n→∞ x n<br />

μ<br />

´ n−x<br />

n<br />

För att finna detta gränsvärde stuvar vi om lite i uttrycket och får istället<br />

μ<br />

lim<br />

n→∞<br />

x n (n − 1) ···(n − x +1)<br />

·<br />

x! nx ³<br />

· 1 − μ<br />

´ n ³<br />

1 −<br />

n<br />

μ<br />

´ −x<br />

n<br />

Räknereglerna för hur man bestämmer gränsvärd<strong>en</strong> ger att vi kan studera<br />

termvis. μx och x! påverkas inte i gränsvärdet och eftersom μ<br />

→ 0 då n →∞<br />

n<br />

kommer ³<br />

1 − μ<br />

´ −x<br />

→ (1 − 0)<br />

n<br />

−x =1.<br />

Sedan använder vi det välkända matematiska faktum att<br />

³<br />

lim 1+<br />

n→∞<br />

x<br />

´ n<br />

= e<br />

n<br />

x<br />

vilket alltså betyder att ¡ 1 − μ¢<br />

n −μ → e . Slutlig<strong>en</strong> studerar vi<br />

n<br />

n (n − 1) ···(n − x +1)<br />

lim<br />

n→∞ nx n − 1) (n − x +1)<br />

= lim ·(n ·· · ·· =1·1 ···1=1<br />

n→∞ n n<br />

n<br />

Följaktlig<strong>en</strong> får vi att sannolikhetsfördelning<strong>en</strong> blir<br />

som angavs i text<strong>en</strong>.<br />

pX (x) = μx e −μ<br />

x!<br />

122<br />

x =0, 1, 2,...


B.3.2 Väntevärde och varians<br />

Vi är nu intresserade av sammanfattande mått på Poissonfördelning<strong>en</strong>. För<br />

dessa väntevärdesberäkningar använder vi samma knep som vid motsvarande<br />

beräkningar för binomial- och hypergeometrisk fördelning i Avsnitt B.1 och<br />

B.2 ovan.<br />

Eftersom<br />

E (X) =<br />

E [X (X − 1)] =<br />

följer att<br />

∞X<br />

x=0<br />

∞X<br />

x=0<br />

x · μx e −μ<br />

x! =<br />

∞X<br />

x=1<br />

x (x − 1) · μx e −μ<br />

x! =<br />

μ x e −μ<br />

(x − 1)!<br />

∞X<br />

x=2<br />

= μ<br />

∞X<br />

x=1<br />

μ x e −μ<br />

(x − 2)!<br />

Var (X) =μ 2 + μ − μ 2 = μ<br />

μ x−1 e −μ<br />

(x − 1)!<br />

= μ2<br />

∞X<br />

x=2<br />

= μ<br />

μ x−2 e −μ<br />

(x − 2)!<br />

= μ2<br />

För Poissonfördelning<strong>en</strong> gäller således att väntevärde och varians samma. De<br />

sammanfaller båda med int<strong>en</strong>sitetsfaktorn μ.<br />

123


C Svar till övningsuppgifterna<br />

Här följer svar till dom övvningsuppgifter som pres<strong>en</strong>teras i komp<strong>en</strong>diet. För<br />

övriga uppgifter finns svar i lärobok<strong>en</strong> Statistisk dataanalys.<br />

9. a) 7!, b) 6!, c) 2*6!, d) 2*5!, e) 6!<br />

10. 0.424<br />

15. a) 0.0594, b) 0.1098, c) 0.541<br />

16. a) 0.9495, b) 0.1538<br />

19. a) 0.488 respektive 0.51, b) 0.749<br />

22. E(X)=1/6, Var(X)=5/36<br />

28. X är Hyp(5,0.4,140), m<strong>en</strong> approx Bi(5,0.4). Pr(X>=3)=0.3174.<br />

29. a) 0.9502, b) 0.2381, c) 0.0009<br />

30. a) X är Bi(300,0.002), b) 0.9966<br />

31. a) X är Bi(10000,(1/6)^5), b) 0.0431<br />

32. i) 0.3413, ii) 0.1359, iii) 0.8186, iv) 0.1587<br />

33. i) z=1.96, ii) z=-0.44<br />

34. i) 0.0124, ii) 0.7357<br />

35.a)8,b)14.12<br />

36. 43.26, 56.74<br />

42. a) 0.6826, b) 0.6554 (interpolering: 0.657) (exakt Bi: 0.6619)<br />

43. a) 796.5g, b) X är Bi(200,0.01), c) 0.1429 (exakt: 0.1420)<br />

45. a) 0.0934, b) 838.3 kg<br />

46. a) 0.0475, b) 199.5 g<br />

47. a) 0.9429, b) 61.9 min (dvs ca 62 min)<br />

48. a) E(X)=0.8, Var(X)=0.36, b) 0.3464 (interpolation)<br />

49. 0.7224<br />

124

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!