Sannolikhetslära – en introduktion
Sannolikhetslära – en introduktion
Sannolikhetslära – en introduktion
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Sannolikhetslära</strong><br />
<strong>–</strong><br />
<strong>en</strong> <strong>introduktion</strong>
Innehåll<br />
1 <strong>Sannolikhetslära</strong>ns grunder 3<br />
1.1 Varförbehövssannolikhetsläran? ................ 3<br />
1.2 Slumpförsök............................ 4<br />
1.3 Mängdläranssymbolspråk.................... 6<br />
1.3.1 Övningsuppgifter ..................... 9<br />
1.4 Atttilldelasannolikhetertillhändelser ............. 9<br />
1.4.1 Övningsuppgifter ..................... 12<br />
1.5 Kombinatorik ........................... 13<br />
1.5.1 Dragning med återläggning med hänsyn till ordning<strong>en</strong> . 14<br />
1.5.2 Dragning utan återläggning med hänsyn till ordning<strong>en</strong> 15<br />
1.5.3 Dragning utan återläggning utan hänsyn till ordning<strong>en</strong> 16<br />
1.5.4 Övningsuppgifter ..................... 18<br />
1.6 Räknereglerförsannolikheter .................. 19<br />
1.6.1 Komplem<strong>en</strong>tsannolikheter ................ 19<br />
1.6.2 Additionssats<strong>en</strong>...................... 20<br />
1.6.3 Betingadsannolikhet................... 24<br />
1.6.4 Obero<strong>en</strong>dehändelser................... 31<br />
1.6.5 Övningsuppgifter ..................... 34<br />
2 Diskreta slumpvariabler 35<br />
2.1 Vadär<strong>en</strong>slumpvariabel?..................... 35<br />
2.1.1 Övningsuppgifter ..................... 40<br />
2.2 Väntevärd<strong>en</strong>............................ 40<br />
2.2.1 Sannolikhetsfördelning<strong>en</strong>smedelvärde.......... 40<br />
2.2.2 Sannolikhetsfördelning<strong>en</strong>sspridning........... 42<br />
2.2.3 Övningsuppgifter ..................... 46<br />
2.3 Linjärfunktioneravslumpvariabler ............... 46<br />
2.4 Tvåpunktsfördeladslumpvariabel ................ 49<br />
2.4.1 Binomialfördelning<strong>en</strong>................... 51<br />
2.4.2 Hypergeometriskfördelning ............... 58<br />
2.4.3 Samband mellan Binomial- och Hypergeometrisk fördelning<br />
............................ 62<br />
2.4.4 Övningsuppgifter ..................... 65<br />
2.5 Poissonfördelning<strong>en</strong>........................ 66<br />
2.5.1 Poissonprocesser . . ................... 66<br />
2.5.2 Poissonapproximation av binomialfördelning<strong>en</strong>..... 68<br />
2.5.3 Väntevärd<strong>en</strong>förPoissonfördelning<strong>en</strong> .......... 71<br />
2.5.4 Övningsuppgifter ..................... 72<br />
1
3 Kontinuerliga slumpvariabler 73<br />
3.1 Vadär<strong>en</strong>kontinuerligslumpvariabel?.............. 73<br />
3.2 Normalfördelning<strong>en</strong>........................ 79<br />
3.2.1 Normalfördelning<strong>en</strong>seg<strong>en</strong>skaper............. 79<br />
3.2.2 Attanvändatabellsamling<strong>en</strong>............... 83<br />
3.2.3 Standardisering...................... 88<br />
3.2.4 Övningsuppgifter ..................... 94<br />
3.3 Normalapproximationavbinomialfördelning<strong>en</strong>......... 95<br />
3.3.1 Övningsuppgifter .....................101<br />
3.4 C<strong>en</strong>trala gränsvärdessats<strong>en</strong> (CGS) . . . .............101<br />
3.4.1 Ettinledandeexempel ..................101<br />
3.4.2 Obero<strong>en</strong>de och likafördelade slumpvariabler (o.l.f.s.v.) . 104<br />
3.4.3 Väntevärd<strong>en</strong> för summor och medelvärd<strong>en</strong> av o.l.f.s.v. . 105<br />
3.4.4 C<strong>en</strong>tralagränsvärdessats<strong>en</strong>................107<br />
3.4.5 Hur fungerar normalapproximation av binomialfördelning<strong>en</strong>?<br />
..........................111<br />
3.4.6 Normalapproximation av Poissonfördelning<strong>en</strong> . . . . . 112<br />
3.4.7 Approximationsmöjligheter................113<br />
3.4.8 Övningsuppgifter .....................114<br />
3.5 Normalfördeladepopulationer ..................115<br />
A Formelförklaringar 119<br />
A.1 Beräkningsformelförvarians<strong>en</strong> .................119<br />
A.2 Väntevärd<strong>en</strong>avlinjärfunktioner.................119<br />
B Diskreta sannolikhetsfördelningar 119<br />
B.1 Binomialfördelning<strong>en</strong>.......................119<br />
B.2 Hypergeometriskfördelning ...................121<br />
B.3 Poissonfördelning<strong>en</strong>........................122<br />
B.3.1 Sannolikhetsfunktion<strong>en</strong>..................122<br />
B.3.2 Väntevärdeochvarians..................123<br />
C Svar till övningsuppgifterna 124<br />
2
1 <strong>Sannolikhetslära</strong>ns grunder<br />
1.1 Varför behövs sannolikhetsläran?<br />
Ideflesta situationer där man använder statistiska metoder är målet att<br />
ta reda på hur någon eg<strong>en</strong>skap (variabel) förhåller sig i <strong>en</strong> population. Det<br />
datamaterial man då förfogar över innehåller oftast information <strong>en</strong>bart för<br />
vissa individer i population<strong>en</strong>, dvs datamaterialet repres<strong>en</strong>terar ett stickprov<br />
från d<strong>en</strong> aktuella population<strong>en</strong>.<br />
Exempel 1 Antag att vi vill studera intresset för ett EMU-medlemskap och<br />
betraktar (d<strong>en</strong> kvalitativa) variabeln “Är du för ett EMU-medlemskap”. En<br />
totalundersökning (folkomröstning) är alldeles för kostsam och tidskrävande<br />
och därför tas istället ett stickprov ur d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong>. Frågan är hur<br />
man bäst går tillväga för att använda d<strong>en</strong>na stickprovsinformation till att dra<br />
slutsatser om helhet<strong>en</strong>, dvs hur variabeln “Är du för ett EMU-medlemskap”<br />
förhåller sig i hela population<strong>en</strong>. ¤<br />
Frågeställning<strong>en</strong> i exemplet ovan är mycket vanlig i statistiska sammanhang<br />
och kräver därför <strong>en</strong> lösning. Först skall man ha klart för sig att varje<br />
slutsats som bygger på information från ett stickprov är förknippat med <strong>en</strong><br />
osäkerhet, dvs det finns alltid <strong>en</strong> risk för att man drar <strong>en</strong> felaktig slutsats.<br />
Vi kan ha haft <strong>en</strong> rejäl dos “otur” och fått resultat i stickprovet som inte<br />
över<strong>en</strong>sstämmer med hur det ser ut i population<strong>en</strong>. D<strong>en</strong> stora fördel<strong>en</strong> med<br />
statistiska metoder är att man kan få <strong>en</strong> uppfattning om hur stor d<strong>en</strong>na risk<br />
är, vilket ger möjlighet<strong>en</strong> att bedöma när stickprovet ger tillräckligt säkra<br />
resultat.<br />
Målet med undersökning<strong>en</strong> i exemplet ovan är antaglig<strong>en</strong> att få <strong>en</strong> uppfattning<br />
om d<strong>en</strong> verkliga andel<strong>en</strong> EMU-anhängare i d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong>.<br />
Låt oss kalla d<strong>en</strong>na okända andel för π. Antag att vi tar ett (slumpmässigt)<br />
stickprov ur d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> och får att 48% av dessa är för ett sv<strong>en</strong>skt<br />
medlemskap i EMU. Vad kan vi dra för slutsatser om π utifrån d<strong>en</strong>na<br />
proc<strong>en</strong>tandel? Antag att ett annat statistiskt institut gör <strong>en</strong> liknande undersökning<br />
och får motsvarande andel till 52%. En tredje undersökning ger<br />
andel<strong>en</strong> EMU-anhängare till 53%. Vilk<strong>en</strong> av dessa undersökningar skall vi<br />
tro på? Ing<strong>en</strong> av dem är antaglig<strong>en</strong> bättre än någon annan och anledning<strong>en</strong><br />
till att dom inte ger samma resultat beror på sk slumpmässig variation. I<br />
och med att vi <strong>en</strong>bart använder information från ett stickprov kommer vi att<br />
ha ett visst mått av “otur” som gör att vi inte kommer att få exakt samma<br />
resultat varje gång och inte heller samma resultat som <strong>en</strong> totalundersökning<br />
skulle gett. Detta innebär att vi i ett stickprov antaglig<strong>en</strong> kommer att<br />
3
få ett missvisande resultat, vilket dock inte är speciellt alarmerande (när vi<br />
väl vet om det inträffar). När vi tagit ett stickprov och beräknat andel<strong>en</strong><br />
EMU-anhängare vet vi inte hur missvisande just detta stickprov är. Vad vi<br />
dock kan ta reda på är hur missvisande stickprovsresultat i regel är. För att<br />
utifrån stickprovsresultat kunna dra statistiskt korrekta slutsatser måste vi<br />
således först få <strong>en</strong> uppfattning om hur slumpmässig variation fungerar, dvs<br />
vi måste ta reda på vilka eg<strong>en</strong>skaper ett stickprov har innan det är taget.<br />
Detta är sannolikhetslära.<br />
1.2 Slumpförsök<br />
R<strong>en</strong>t slumpmässigt, eller sannolikhetsmässigt, visar det sig att procedur<strong>en</strong> att<br />
ta ett stickprov har mycket gem<strong>en</strong>samt t.ex. med kast med tärning, slantsingling,<br />
eller dragandet av lotter i <strong>en</strong> tombola.<br />
Exempel 2 Antag t.ex. i föregå<strong>en</strong>de exempel att halva d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong><br />
består av EMU-anhängare. Att slumpmässigt välja <strong>en</strong> person och<br />
undersöka huruvida han eller hon är EMU-anhängare är sannolikhetsmässigt<br />
ekvival<strong>en</strong>t med att singla <strong>en</strong> slant där t.ex. krona repres<strong>en</strong>terar EMUanhängare.<br />
¤<br />
Exempel 3 I <strong>en</strong> liknande undersökning är vi intresserade av andel<strong>en</strong> moderater<br />
i d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong>. Antag att <strong>en</strong> sjättedel av väljarkår<strong>en</strong> består<br />
av moderater. Att slumpmässigt välja <strong>en</strong> person och undersöka huruvida han<br />
eller hon är moderat är sannolikhetsmässigt ekvival<strong>en</strong>t med att kasta <strong>en</strong> vanlig<br />
sexsidig tärning där t.ex. sidan sex repres<strong>en</strong>terar moderat (och de övriga<br />
sidorna repres<strong>en</strong>terar icke-moderater). ¤<br />
Förutom ovanstå<strong>en</strong>de paralleller med verklighet<strong>en</strong> gäller dessutom att<br />
slantsingling och tärningskast är relativt <strong>en</strong>kla att få grepp om. Därför används<br />
dessa ofta som exempel vid första kontakt<strong>en</strong> med sannolikhetsläran.<br />
Varje försök, eller experim<strong>en</strong>t, där vi på förhand inte exakt kan förutse resultatet<br />
kallas för ett slumpförsök, eller slumpexperim<strong>en</strong>t. Målet är att för ett<br />
sådant slumpförsök hitta <strong>en</strong> lämplig matematisk beskrivning, <strong>en</strong> s.k. slumpmodell.<br />
Lite luddigt formulerat bestämmer vi i <strong>en</strong> slumpmodell vad som kan<br />
hända och med vilka sannolikheter detta händer. Innan vi mer konkret förklarar<br />
vad detta innebär behöver vi lite terminologi.<br />
Resultatet av ett slumpförsök kallas för ett utfall. Mängd<strong>en</strong> av alla tänkbara<br />
utfall kallas för försökets utfallsrum. Utfallsrummet brukar betecknas med<br />
bokstav<strong>en</strong> S och de <strong>en</strong>skilda utfall<strong>en</strong> betecknas allmänt med ei (där indexet<br />
i anger det i:te utfallet i d<strong>en</strong> ordning vi ställt upp).<br />
4
Exempel 4 Vi återgår till exemplet där vi kastar <strong>en</strong> tärning. Vi har då<br />
utfallsrummet<br />
där vi använder mängdklamrar för att visa att detta är <strong>en</strong> mängd. Antag att<br />
vi istället singlar <strong>en</strong> slant. Utfallsrummet blir då<br />
¤<br />
Då man anger sitt utfallsrum är det viktigt att alla tänkbara utfall finns<br />
medochattutfall<strong>en</strong>intekaninträffa samtidigt.Dvsexakt ett av utfall<strong>en</strong> i<br />
utfallsrummet kommer att inträffa närförsöketutförs.<br />
Vanligtvis är vi dock inte intresserade av utfall<strong>en</strong> i sig utan av någon<br />
eller några intressanta eg<strong>en</strong>heter hos dessa. På detta sätt kommer <strong>en</strong> del<br />
av utfall<strong>en</strong> i olika utsträckning ha samma eg<strong>en</strong>skaper vilket gör att vi kan<br />
“klumpa” ihop utfall<strong>en</strong>. En sådan klump eller mängd av utfall som vi av<br />
någon anledning anser ha någonting gem<strong>en</strong>samt kallas för <strong>en</strong> händelse. För<br />
att beteckna händelser används vanligtvis versaler i början av alfabetet, dvs<br />
exempelvis A, B och C.<br />
Exempel 5 Antag att vi slumpmässigt väljer <strong>en</strong> person ur föreläsningssal<strong>en</strong>.<br />
Det finns då lika många utfall som det finns personer i sal<strong>en</strong>. Nu är vi antaglig<strong>en</strong><br />
inte intresserade av personerna i sig utan huruvida dom har <strong>en</strong> viss<br />
eg<strong>en</strong>skap. T.ex. kan vi vara intresserade av huruvida d<strong>en</strong> valde är man eller<br />
kvinna, eller huruvida d<strong>en</strong> valde person<strong>en</strong> cyklade till föreläsning<strong>en</strong>. Vi kan<br />
då skapa händelserna<br />
A = D<strong>en</strong> valde är <strong>en</strong> man<br />
B = D<strong>en</strong> valde cyklade till skolan<br />
som då består av alla utfall där d<strong>en</strong> valde är <strong>en</strong> man, respektive alla utfall<br />
där d<strong>en</strong> valde cyklade till föreläsning<strong>en</strong>. Det nämndes ovan att utfall inte kan<br />
inträffa samtidigt. Detta är inget krav då man konstruerar sina händelser.<br />
Antag att d<strong>en</strong> slumpmässigt valde person<strong>en</strong> blev “Conny”, dvs slumpförsökets<br />
utfall blev<br />
e = Conny<br />
Detta utfall ingår i händels<strong>en</strong> A och vi säger då att händels<strong>en</strong> A har inträffat.<br />
M<strong>en</strong> det är fullt möjligt att Conny cyklade till föreläsning<strong>en</strong> vilket då betyder<br />
att äv<strong>en</strong> händels<strong>en</strong> B inträffat. ¤<br />
5
Ideflesta situationer utförs sådana <strong>en</strong>kla slumpförsök om och om ig<strong>en</strong>. Då<br />
SIFO eller något annat opinionsinstitut gör <strong>en</strong> väljarundersökning intervjuas<br />
normalt mellan 1500 och 2000 personer. I dessa situationer betraktas varje<br />
tänkbart stickprov som ett utfall.<br />
Exempel 6 Antag att vi slumpmässigt i tur och ordning väljer ut tre personer<br />
i föreläsningssal<strong>en</strong> och ställer frågan “Cyklade Du till dag<strong>en</strong>s föreläsning?”.<br />
Låter vi J stå för Ja och N stå för Nej kan utfallsrummet beskrivas<br />
via<br />
S = {JJJ,JJN; JNJ,NJJ,JNN,NJN,NNJ,NNN}<br />
Frågar vi <strong>en</strong> person består utfallsrummet av <strong>en</strong>bart två utfall m<strong>en</strong> om vi<br />
sedan utökar till tre personer får vi som i exemplet åtta utfall. Skulle vi<br />
ställa “EMU-frågan” till 2 000 personer i d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> skulle vi<br />
ha 22000 tänkbara utfall vilket är ett mycket stort tal och det är inte rimligt<br />
att skriva upp alla dessa utfall i ett utfallsrum. Som nämndes ovan är vi dock<br />
antaglig<strong>en</strong> inte intresserade av utfall<strong>en</strong> i sig utan av händelser. I det här fallet<br />
är det troligtvis av intresse att se hur många av de utvalda som cyklade till<br />
föreläsning<strong>en</strong> vilket t.ex. gör händels<strong>en</strong><br />
B2 = Två av de valda cyklade till föreläsning<strong>en</strong><br />
intressant. D<strong>en</strong>na händelse består av utfall<strong>en</strong><br />
B2 = {JJN,JNJ,NJJ}<br />
De övriga intressanta händelserna är B0,B1, och B3. ¤<br />
I Exempel 6 ovan gäller att ing<strong>en</strong> av händelserna B0 till B3 kan inträffa<br />
samtidigt och dessutom att exakt <strong>en</strong> av dessa händelser kommer att inträffa.<br />
Dom sägs vara uttömmande (täcker hela utfallsrummet) och parvis disjunkta<br />
(två händelser kan inte inträffa samtidigt). Händelser med d<strong>en</strong>na eg<strong>en</strong>skap<br />
kommer vi att ha nytta av lite s<strong>en</strong>are. För att på bästa sätt utnyttja händelser<br />
använder vi oss av mängdlärans symbolspråk.<br />
1.3 Mängdlärans symbolspråk<br />
Utfallsrummet S beskrivs oftast som <strong>en</strong> rektangel. Utfall<strong>en</strong> kan då symboliseras<br />
som prickar i d<strong>en</strong>na rektangel m<strong>en</strong> oftast utelämnas prickarna och det<br />
är underförstått att dom finns där. En händelse åskådliggörs nu vanligtvis<br />
med <strong>en</strong> cirkel (eller ellips) i rektangeln och det är åter underförstått att alla<br />
utfall som tillhör händels<strong>en</strong> befinner sig inom d<strong>en</strong>na cirkel. Sedan kan fler<br />
händelser beskrivas g<strong>en</strong>om att fler cirklar ritas och det faktum att händelser<br />
kan inträffa samtidigt gör att cirklarna överlappar varandra.<br />
6
Exempel 7 Återgår vi till Exempel 5 där<strong>en</strong>personurföreläsningssal<strong>en</strong><br />
skall väljas ut och de aktuella händelserna är<br />
får vi diagrammet<br />
¤<br />
A = D<strong>en</strong> valde är <strong>en</strong> man<br />
B = D<strong>en</strong> valde cyklade till skolan<br />
S<br />
A<br />
Diagrammet i exemplet ovan kallas för ett V<strong>en</strong>n-diagram och används<br />
flitigt i sannolikhetsläran då de utgör ett utmärkt stöd för förståelse av sannolikhetsmässiga<br />
besvärligheter. Utifrån diagrammet ser vi att cirklarna och<br />
rektangeln tillsammans skapar nya områd<strong>en</strong>. Det är förutom cirklarna A och<br />
B framförallt tre av dessa områd<strong>en</strong> som är av intresse.<br />
• Komplem<strong>en</strong>tet.Tillvarjehändelsefinns <strong>en</strong> komplem<strong>en</strong>thändelse som<br />
består av alla utfall som inte tillhör händels<strong>en</strong>. För händels<strong>en</strong> A finns<br />
således <strong>en</strong> komplem<strong>en</strong>thändelse A. I exemplet ovan betyder<br />
A = D<strong>en</strong> valde är inte <strong>en</strong> man<br />
= D<strong>en</strong> valda är <strong>en</strong> kvinna<br />
som i V<strong>en</strong>n-diagrammet åskådliggörs via<br />
7<br />
A<br />
B<br />
A
• Union<strong>en</strong>. Vi söker nu de utfall som tillhör åtminstone <strong>en</strong> de båda<br />
händelserna A och B. D<strong>en</strong>na händelse betecknas med A∪B och uttalas<br />
“A union B” eller “A eller B” där eller skall tolkas som och/eller. I<br />
exemplet ovan får vi betydels<strong>en</strong><br />
A ∪ B = D<strong>en</strong> valde är man och/eller har cyklat till föreläsning<strong>en</strong><br />
I V<strong>en</strong>n-diagrammet får vi att union<strong>en</strong> utgörs av det skuggade området<br />
S<br />
A<br />
• Snittet. Vi söker nu de utfall som tillhör båda händelserna A och B.<br />
D<strong>en</strong>na händelse betecknas med A ∩ B och uttalas “A snitt B” eller “A<br />
och B”. I exemplet ovan får vi betydels<strong>en</strong><br />
A ∩ B = D<strong>en</strong> valde är <strong>en</strong> man som har cyklat till föreläsning<strong>en</strong><br />
I V<strong>en</strong>n-diagrammet får vi att snittet utgörs av det skuggade området<br />
S<br />
A B<br />
Ibland kan det hända att händelserna A och B inte överlappar, vilket t.ex.<br />
gäller för A och A. Man säger då att händelserna är disjunkta,ellerömsesidigt<br />
uteslutande eller ömsesidigt oför<strong>en</strong>liga. A och B har då inga gem<strong>en</strong>samma<br />
utfall vilket åskådliggörs via<br />
A ∩ B = ∅<br />
där ∅ är d<strong>en</strong> tomma mängd<strong>en</strong>, dvs <strong>en</strong> “mängd” utan något innehåll.<br />
8<br />
A ∩ B<br />
B
1.3.1 Övningsuppgifter<br />
Uppgift 1 Lös uppgift 113.<br />
Uppgift 2 Lös uppgift 114.<br />
1.4 Att tilldela sannolikheter till händelser<br />
Innan vi börjar med att fundera över hur vi skall tilldela sannolikheter till<br />
olika händelser bör vi ta reda på vilka regler vi måste rätta oss efter. Först<br />
betecknar vi sannolikheter via<br />
Pr (A) =sannolikhet<strong>en</strong> att händels<strong>en</strong> A inträffar<br />
och sannolikheter anges som tal mellan 0 och 1. 1 Vi ställer upp följande<br />
axiom för tilldelning av sannolikheter. 2<br />
1. Pr (S) =1. Utfallsrummet är <strong>en</strong> s.k. säker händelse, dvs vi vet att vad<br />
som än händer kommer d<strong>en</strong>na händelse att inträffa. Därför tilldelas<br />
d<strong>en</strong>na sannolikhet<strong>en</strong> 1.<br />
2. 0 ≤ Pr (A) ≤ 1 för varje händelse A.<br />
3. Låt A och B vara disjunkta, dvs A ∩ B = ∅. Dågälleratt<br />
Pr (A ∪ B) =Pr(A)+Pr(B)<br />
Om A och B inte har några gem<strong>en</strong>samma utfall kan således unionsannolikhet<strong>en</strong><br />
bestämmas g<strong>en</strong>om att addera de <strong>en</strong>skilda sannolikheterna.<br />
Det är axiom 3 som är något svårare att omedelbart acceptera m<strong>en</strong> det<br />
kommer att bli klarare inom kort. Vi börjar med att illustrera med ett <strong>en</strong>kelt<br />
exempel.<br />
Exempel 8 Antag att betygsfördelning<strong>en</strong> på <strong>en</strong> viss kurs är<br />
Betyg U G VG<br />
Andel 30% 50% 20%<br />
Antag nu att vi slumpmässigt väljer ut <strong>en</strong> stud<strong>en</strong>t för att notera d<strong>en</strong>nes betyg.<br />
Då har vi ett slumpförsök med utfallsrummet<br />
S = {U,G,VG}<br />
1I vardagsspråk kan man äv<strong>en</strong> använda 0 till 100%.<br />
2Axiomsystemet konstruerades av d<strong>en</strong> ryske sannolikhetsteoretikern A Kolmogorov<br />
omkring 1933, 30 år gammal.<br />
9
med sannolikheterna<br />
Pr ({U}) = 0.3<br />
Pr ({G}) = 0.5<br />
Pr ({VG}) = 0.2<br />
Vi är nu intresserade av sannolikhet<strong>en</strong> att d<strong>en</strong> valde klarade kurs<strong>en</strong> och eftersom<br />
vi ser att 70% av stud<strong>en</strong>terna fick betyg<strong>en</strong> G eller VGdrar vi slutsats<strong>en</strong><br />
att sannolikhet<strong>en</strong> för detta är 0.7. Mer formellt löser vi uppgift<strong>en</strong> på följande<br />
sätt. Skapa <strong>en</strong> händelse som heter<br />
vilket betyder att<br />
A = D<strong>en</strong> valde klarade kurs<strong>en</strong><br />
A = {G} ∪ {VG}<br />
Eftersom ing<strong>en</strong> stud<strong>en</strong>t kan ha mer än ett betyg på <strong>en</strong> kurs följer att utfall<strong>en</strong><br />
G och VG betraktade som händelserna {G} och {VG} är disjunkta. Enligt<br />
axiom 3 ovan följer därför att<br />
¤<br />
Pr (A) =Pr({G} ∪ {VG}) =Pr({G})+Pr({VG}) =0.5+0.2 =0.7<br />
De <strong>en</strong>skilda utfall<strong>en</strong> är alltid disjunkta, vilket innebär att vi <strong>en</strong>ligt axiom<br />
3 alltid 3 kan beräkna sannolikhet<strong>en</strong> för <strong>en</strong> händelse g<strong>en</strong>om att summera<br />
utfallssannolikheterna för de <strong>en</strong>skilda utfall<strong>en</strong> som ingår i händels<strong>en</strong>.<br />
Eftersom utfall<strong>en</strong> utgör de minsta beståndsdelarna av ett slumpförsök kallas<br />
utfallssannolikheterna för elem<strong>en</strong>tarsannolikheter. Formellt sammanfattar vi<br />
ovanstå<strong>en</strong>de i följande definition.<br />
Definition 1 (Elem<strong>en</strong>tarsannolikheter) Betrakta ett slumpförsök med utfallsrum<br />
S = {e1,e2,...,eN}<br />
där N kan vara oändlighet<strong>en</strong> (∞). Varje utfall har då <strong>en</strong> sannolikhet, dvs<br />
det existerar tal<br />
Pr (ei) ≥ 0<br />
3 Detta gäller under förutsättning att utfallsrummet är diskret. Förkontinuerliga utfallsrum<br />
kommer alla <strong>en</strong>skilda utfall att ha sannolikhet<strong>en</strong> 0 varför d<strong>en</strong>na metod inte fungerar.<br />
Vi återkommer till kontinuerliga utfallsrum i kapitel 3<br />
10
för alla i =1, 2,...,N. När väl slumpförsöket utförs kommer något av dessa<br />
utfall att inträffa vilket i axiom<strong>en</strong> ges av att Pr (S) =1.Uttrycktielem<strong>en</strong>tarsannolikheter<br />
blir detta<br />
X<br />
Pr (ei) =<br />
i∈S<br />
NX<br />
Pr (ei) =1<br />
i=1<br />
För att bestämma sannolikhet<strong>en</strong> för <strong>en</strong> händelse A kan vi summera de ingå<strong>en</strong>de<br />
elem<strong>en</strong>tarsannolikheterna, dvs<br />
Pr (A) = X<br />
Pr (ei)<br />
¥<br />
i∈A<br />
G<strong>en</strong>om att känna dessa elem<strong>en</strong>tarsannolikheter kan vi alltså bestämma<br />
sannolikhet<strong>en</strong> för varje händelse. Hur bestämmer man då i allmänhet dessa<br />
elem<strong>en</strong>tarsannolikheter? Det finns i princip tre sätt att tilldela sannolikheter<br />
1. Teoretisk tilldelning. I det här fallet använder vi ett logiskt resonemang.<br />
D<strong>en</strong>na metod kan användas t.ex. vid tärningskast och lottodragning<br />
o.dyl.<br />
2. Empirisk tilldelning. Här använder man sig av sk relativa frekv<strong>en</strong>ser,<br />
vilket innebär att man studerar liknande slumpförsök under <strong>en</strong> tid och<br />
använder sedan som sannolikheter hur ofta, relativt sett, de olika utfall<strong>en</strong><br />
inträffar. Detta är vanligt t.ex. vid maskinfel och trafikolyckor.<br />
3. Subjektiv tilldelning. Man kan äv<strong>en</strong> (något mindre vet<strong>en</strong>skapligt)<br />
komma med egna slutsatser om chanser och risker. Man kan t.ex. bedöma<br />
risk<strong>en</strong> för regn till 30% eller att chans<strong>en</strong> för sv<strong>en</strong>sk vinst i nästa<br />
match i VM-kvalet till 50%.<br />
En i praktik<strong>en</strong> inte helt ovanlig situation är att samtliga utfall är lika<br />
sannolika. Eftersom summan av alla elem<strong>en</strong>tarsannolikheter skall bli 1 måste<br />
då gälla att<br />
Pr (ei) = 1<br />
, i =1, 2,...,N<br />
N<br />
Att bestämma sannolikhet<strong>en</strong> för <strong>en</strong> händelse är samma som att summera de<br />
ingå<strong>en</strong>de elem<strong>en</strong>tarsannolikheterna och låter vi<br />
g (A) =Antal utfall i A<br />
11
följer att<br />
Pr (A) = X<br />
i∈A<br />
Pr (ei) = 1<br />
N<br />
+ 1<br />
N<br />
+ ···+ 1<br />
N<br />
= g (A)<br />
N =<br />
AntalutfalliA<br />
=<br />
(1)<br />
Totala antalet utfall<br />
Det abstrakta problemet att bestämma sannolikhet<strong>en</strong> för <strong>en</strong> händelse har<br />
således överförts till det konkreta problemet att räkna utfall.<br />
Exempel 9 Vi återgår till slumpexperim<strong>en</strong>tet att kasta <strong>en</strong> tärning. Vi har<br />
då utfallsrummet<br />
Om inte tärning<strong>en</strong> är falsk är alla utfall lika sannolika och eftersom det totalt<br />
är sex utfall följer att<br />
Antag att vi är intresserade av att bestämma sannolikhet<strong>en</strong> för händels<strong>en</strong><br />
Eftersom alla utfall är lika sannolika räcker det att räkna utfall och det följer<br />
föga överraskande att<br />
Pr (A) = 3<br />
6 =0.5<br />
¤<br />
Nuärdetintealltidså<strong>en</strong>keltattsehurmångautfalldetfinns eller hur<br />
många utfall som ingår i <strong>en</strong> viss händelse. Dock gäller att det finns effektiva<br />
metoder för att räkna utfall som fungerar i många situationer vilket vi skall<br />
se i nästa avsnitt.<br />
1.4.1 Övningsuppgifter<br />
Uppgift 3 Lös uppgift 204.<br />
Uppgift 4 Lös uppgift 205.<br />
12
1.5 Kombinatorik<br />
I kombinatorik<strong>en</strong> skall vi komma upp med metoder för att räkna utfall för<br />
<strong>en</strong> typ av händelser som uppstår i många praktiska situationer. Ett utfall i<br />
ett slumpförsök är oftast <strong>en</strong> sammanslagning av ett antal <strong>en</strong>klare utfall som<br />
resulterat av att ett <strong>en</strong>kelt slumpförsök utförts vid upprepade tillfäll<strong>en</strong> eller<br />
att ett antal olika slumpförsök utförts. T.ex. behöver ett slumpförsök inte<br />
bestå i att kasta <strong>en</strong> tärning <strong>en</strong> gång utan att tärning<strong>en</strong> kastas flera gånger. Då<br />
vitarettstickprovfrån<strong>en</strong>storpopulationtarvisällanbara<strong>en</strong>personutan<br />
det <strong>en</strong>kla slumpförsöket utförs flera gånger tills vi har ett någorlunda stort<br />
stickprov. Det blir då besvärligare att komma fram till hur många utfall det<br />
totalt finns och hur många utfall det finns i dom händelser vi är intresserade<br />
av. Intressanta händelser utgörs ofta av dom utfall där lika många av dom<br />
valda har <strong>en</strong> viss eg<strong>en</strong>skap. I Exempel 6 är vi t.ex. mycket intresserade av<br />
att ta reda på antal utfall (kombinationer av tre personer) där exakt två<br />
av dessa cyklade till skolan. Då man skall bestämma hur många möjligheter<br />
det finns att utföra ett sådant sammanslaget slumpexperim<strong>en</strong>t överförs ofta<br />
problemet på <strong>en</strong> urnmodell, vilketinnebärattolikfärgadeellernumrerade<br />
bollar dras ur <strong>en</strong> urna. Problemet formuleras sedan som “På hur många sätt<br />
kan d<strong>en</strong>na dragning ske så att...?”. Svaret beror på förutsättningarna, dvs<br />
urnans sammansättning och på vilket sätt bollarna dras, och det visar sig<br />
vara två faktorer som är speciellt viktiga.<br />
1. Sker dragning<strong>en</strong> med eller utan återläggning,dvsskall<strong>en</strong>drag<strong>en</strong><br />
boll läggas tillbaks i urnan eller inte?<br />
• Kastas <strong>en</strong> tärning vid upprepade tillfäll<strong>en</strong> skall det finnas sex bollar<br />
i urnan numrerade från 1 till 6. När vi drar d<strong>en</strong> första boll<strong>en</strong><br />
repres<strong>en</strong>terar d<strong>en</strong> utfallet i det första kastet. Nästa kast skall ha<br />
samma möjligheter som det första varför boll<strong>en</strong> måste läggas tillbaka.<br />
I det här fallet är det dragning med återläggning.<br />
• Vid varje lottodragning bestämmer apparat<strong>en</strong> DraKula veckans<br />
vinstrad g<strong>en</strong>om att välja ut sju bollar bland de 35 i “urnan”. Varje<br />
nummer får dock vara med <strong>en</strong>dast <strong>en</strong> gång varför <strong>en</strong> drag<strong>en</strong> kula<br />
inte läggs tillbaks. Vid <strong>en</strong> lottodragning är det således dragning<br />
utan återläggning.<br />
2. Sker dragning med eller utan hänsyn till ordning<strong>en</strong>, dvs spelar<br />
det någon roll i vilk<strong>en</strong> ordning “bollarna” dras?<br />
• Antag att vi vill bestämma antalet tänkbara registreringsnummer<br />
på bilar. I det här fallet är det skillnad på t.ex. ABC123 och<br />
ACB123. Här tas således hänsyn till i vilk<strong>en</strong> ordning bollarna dras.<br />
13
• Vi återgår till problemet med dragning<strong>en</strong> av lottorad<strong>en</strong>. Antag<br />
att DraKula i tur och ordning väljer kulorna 1,2,3,4,5,6,7. Detta<br />
är dock exakt samma rad som om apparat<strong>en</strong> i tur och ordning<br />
valt 7,6,5,4,3,2,1. Vid lottodragning är det således dragning utan<br />
hänsyn till ordning<strong>en</strong>.<br />
Lyckas man klassificera slumpförsöket utifrån dessa båda faktorer har<br />
man antaglig<strong>en</strong> också löst problemet med att bestämma antalet utfall. Slår<br />
man ihop dessa båda faktorer blir det totalt fyra olika situationer av vilka<br />
vi på d<strong>en</strong> här kurs<strong>en</strong> <strong>en</strong>bart är intresserade av tre. Om inget annat anges<br />
förutsätts urnan bestå av N bollar varav vi skall välja ut n, dvsviskall<br />
successivt, på något sätt, dra n bollarururnan.<br />
1.5.1 Dragning med återläggning med hänsyn till ordning<strong>en</strong><br />
I det här fallet lägger vi efter varje dragning tillbaks d<strong>en</strong> dragna boll<strong>en</strong> och<br />
utför således n styck<strong>en</strong> id<strong>en</strong>tiska slumpförsök. Dessutom är det av vikt att<br />
känna till i vilk<strong>en</strong> ordning bollarna dragits. Eftersom urnan innehåller N<br />
bollar finns det i första försöket N möjliga utfall. Lika många möjligheter<br />
har vi vid varje dragning och eftersom ordning<strong>en</strong> är relevant får vi att totala<br />
antalet möjligheter blir<br />
N · N ·····N = N n<br />
Exempel 10 Hur många möjliga stryktipsrader finns det? Vi börjar med att<br />
bestämma urnans innehåll. Vid varje dragning finns tre möjligheter, 1, X och<br />
2, vilket betyder att urnan skall innehålla tre bollar (lämpligt markerade).<br />
Efter varje dragning skall boll<strong>en</strong> återföras till urnan eftersom samtliga tre<br />
tipsteck<strong>en</strong> kan förekomma flera gånger. Dessutom gäller att ordning<strong>en</strong> är av<br />
vikt eftersom t.ex. följd<strong>en</strong> 1X1 ... skiljer sig från X11 ....Viharsåledes<br />
dragning med återläggning med hänsyn till ordning<strong>en</strong> där vi skall dra n =13<br />
bollar ur <strong>en</strong> urna med N =3bollar. Antal möjliga tipsrader ges därför av<br />
¤<br />
3 13 = 1 594 323 rader<br />
En del slumpexperim<strong>en</strong>t består i att vi skall dra bollar ur olika urnor och<br />
det är inte säkert att samtliga dessa innehåller lika många bollar. Antag att<br />
vi i tur och ordning skall dra bollar ur k urnor som innehåller N1,N2,...,Nk<br />
bollar, respektive. Från ovan följer därmed att antal möjligheter ges av<br />
N1 · N2 ·····Nk<br />
Detta resultat kallas för multiplikationsprincip<strong>en</strong>.<br />
14
Exempel 11 Hur många registreringsnummer finns det till sv<strong>en</strong>ska bilar.<br />
Bland bokstäverna använder vi <strong>en</strong>bart de 26 första och vi antar att det är<br />
tillåtet att använda samtliga bokstavs- och nummerkombinationer. Det är<br />
åter dragning med återläggning eftersom samma bokstav och nummer får<br />
förekomma fler gånger och dessutom är ordning<strong>en</strong> av betydelse. Först drar vi<br />
tre bollar ur d<strong>en</strong> första urnan som innehåller N1 =26bollar och sedan tre<br />
bollar ur d<strong>en</strong> andra urnan som innehåller N2 =10bollar. Enligt multiplikationsprincip<strong>en</strong><br />
blir därför antalet möjliga registreringsnummer<br />
¤<br />
26 · 26 · 26 · 10 · 10 · 10 = 26 3 · 10 3 =17576000<br />
1.5.2 Dragning utan återläggning med hänsyn till ordning<strong>en</strong><br />
Nu ändrar vi förutsättningarna något och lägger inte tillbaka de dragna bollarna<br />
i urnan. I och med detta måste vi därför förutsätta att n ≤ N, dvs<br />
vi kan inte längre dra fler bollar än det finns i urnan. Vi förutsätter dock<br />
fortfarande att ordning<strong>en</strong> av de dragna bollarna är av betydelse. Eftersom<br />
urnans sammansättning nu ändras efter varje drag<strong>en</strong> boll kan vi se det som<br />
att bollarna dras ur olika urnor där d<strong>en</strong> första innehåller N bollar, d<strong>en</strong> andra<br />
N − 1 bollar osv. D<strong>en</strong> n:te boll<strong>en</strong> dras ur <strong>en</strong> urna med N − n +1bollar och<br />
<strong>en</strong>ligt multiplikationsprincip<strong>en</strong> följer därför att antal möjligheter ges av<br />
N · (N − 1) · (N − 2) ·····(N − n +1)<br />
I specialfallet då vi drar samtliga urnans bollar, dvs då n = N, får vi antal<br />
möjligheter till<br />
N · (N − 1) · (N − 2) ·····3 · 2 · 1=N!<br />
där d<strong>en</strong> sista beteckning<strong>en</strong> kallas för N-fakultet och är av stor vikt i sannolikhetsläran.<br />
Då vi utan återläggning drar bollar ur <strong>en</strong> urna och tar hänsyn<br />
till d<strong>en</strong> ordning i vilk<strong>en</strong> bollarna drogs får vi <strong>en</strong> sk ordnad delmängd eller<br />
permutation av urnans bollar. N-fakultet ger således hur många sådana permutationer<br />
det finns då samtliga urnans bollar dras.<br />
Exempel 12 I finalomgång<strong>en</strong> av Melodischlageruttagning<strong>en</strong> finns fem kandidaterkvar.Hurmångatänkbaraföljderfinns<br />
det för de fem första placeringarna?<br />
Ett bidrag kan förstås <strong>en</strong>bart finnas på <strong>en</strong> placering och ordning<strong>en</strong><br />
är av högsta betydelse vilket gör att vi söker antalet permutationer bland fem<br />
bidrag (bollar). Svaret ges således av<br />
¤<br />
5 · 4 · 3 · 2 · 1=5!=120<br />
15
Nu är det ju som sagt inte säkert att vi vill dra urnans samtliga bollar<br />
utan nöjer oss i det allmänna fallet med att dra n bollarururnan.Dock<br />
gäller att vi kan använda fakultetsbegreppet för att underlätta beteckning<strong>en</strong>.<br />
Detta görs g<strong>en</strong>om att utvidga utrycket så att multiplikation<strong>en</strong> sker för varje<br />
heltal ner till 1. För att inte resultatet skall påverkas måste vi dock införa<br />
<strong>en</strong> nämnarterm med motsvarande utvidgning. Antalet n-permutationer, eller<br />
ordnade delmängder av storlek n, ur <strong>en</strong> mängd med N objekt (bollar) ges av<br />
PN,n = N · (N − 1) · (N − 2) ·····(N − n +1)=<br />
= N · (N − 1) · (N − 2) ·····3 · 2 · 1<br />
(N − n) · (N − n − 1) ·····3 · 2 · 1 =<br />
N!<br />
(N − n)!<br />
Exempel 13 Utav tio personer skall tre personer väljas ut så att <strong>en</strong> blir<br />
ordförande, <strong>en</strong> blir sekreterare och <strong>en</strong> blir suppleant. På hur många sätt kan<br />
detta göras? Det är dragning utan återläggning och eftersom det är tre olika<br />
poster är det dessutom med hänsyn till ordning<strong>en</strong>. Vi kan se det som att d<strong>en</strong><br />
först valde är ordförande osv. Vi skall dra tre personer, dvs n =3,ur<strong>en</strong><br />
grupp om tio personer, dvs N =10,vilketinnebärattvisökertalet<br />
¤<br />
P10,3 = 10!<br />
7!<br />
=10· 9 · 8=720<br />
1.5.3 Dragning utan återläggning utan hänsyn till ordning<strong>en</strong><br />
Nu modifierar vi tillvägagångssättet ytterligare g<strong>en</strong>om att inte längre bry<br />
oss om i vilk<strong>en</strong> ordning bollarna dras. Då vi tog hänsyn till i vilk<strong>en</strong> ordning<br />
bollarna drogs intresserade vi oss för ordnade delmängder, m<strong>en</strong> nu är vi<br />
<strong>en</strong>bart intresserade av (oordnade) delmängder eller kombinationer.IExempel<br />
13 i föregå<strong>en</strong>de avsnitt skulle tre personer väljas till tre olika uppdrag. Antag<br />
nu istället att tre personer skall väljas till id<strong>en</strong>tiska uppdrag. Hur många<br />
möjligheter finns då? Eftersom uppdrag<strong>en</strong> är id<strong>en</strong>tiska är det nu oväs<strong>en</strong>tligt<br />
i vilk<strong>en</strong> ordning personerna väljs. Antag att personerna a, b och c valts. I<br />
Exempel 13 skulle vi förutom detta behövt information om i vilk<strong>en</strong> ordning<br />
dom valts. De olika möjligheterna är<br />
abc, acb, bac, bca, cab, cba<br />
Var och <strong>en</strong> av dessa sex följder skulle där gett olika resultat och måste därför<br />
beaktas. Nu kommer dock samtliga sex följder att ge samma resultat och skall<br />
därför betraktas som ett och samma utfall. Obero<strong>en</strong>de av vilka tre personer<br />
16
vi väljer ut kommer vi att få sex permutationer m<strong>en</strong> bara <strong>en</strong> kombination.<br />
Dvs i det här fallet kommer antalet permutationer vara sex gånger fler än<br />
antalet kombinationer. Vi får därför att antalet kombinationer i det här fallet<br />
blir<br />
720<br />
6 =120<br />
Hur kommer det sig att det blev just sex gånger fler permutationer? Eftersom<br />
tre personer valdes finns där 3! = 6 olika sätt att ordna dessa. Skulle vi<br />
istället valt fyra personer hade det funnits 4! = 24 olika sätt att ordna dessa<br />
vilket skulle inneburit 24 gånger fler permutationer än kombinationer. I det<br />
allmänna fallet väljs n bollar ur urnan vilket innebär att det då finns n! fler<br />
permutationer än kombinationer. Det allmänna resultatet blir därmed att<br />
antalet n-kombinationer, eller delmängder av storlek n, ur<strong>en</strong>mängdmedN<br />
objekt (bollar) ges av<br />
CN,n = PN,n<br />
n! =<br />
N!<br />
n! · (N − n)! =<br />
där d<strong>en</strong> sista beteckning<strong>en</strong> uttalas “N över n”.<br />
µ <br />
N<br />
n<br />
Exempel 14 Hur många lottorader finns det? Vi har redan tidigare kommit<br />
fram till att dragning<strong>en</strong> av lottorad<strong>en</strong> sker utan återläggning och utan hänsyn<br />
till ordning<strong>en</strong>. Eftersom n =7och N =35följer att antal lottorader är<br />
µ <br />
35<br />
C35,7 = =6724520<br />
7<br />
¤<br />
Exempel 15 Hur många (femkorts-)pokerhänder finns det? Här är det åter<br />
så att dragning<strong>en</strong> sker utan återläggning och ing<strong>en</strong> hänsyn tas till d<strong>en</strong> ordning<br />
i vilk<strong>en</strong> kort<strong>en</strong> kom. Eftersom n =5och N =52följer att antal pokerhänder<br />
ges av<br />
¤<br />
C52,5 =<br />
µ <br />
52<br />
=2598960<br />
5<br />
Vi kommer lite längre fram använda kombinatorik<strong>en</strong> för att bestämma<br />
sannolikheter för olika händelser m<strong>en</strong> vi ger redan här ett smakprov på hur<br />
detta kommer att gå till. Då alla utfall är lika sannolika har vi tidigare kommit<br />
fram till att<br />
Pr (A) =<br />
Antal utfall i A<br />
Totala antalet utfall<br />
17
Exempel 16 För att i Exempel 15 kunna bestämma sannolikheter för intressanta<br />
pokerhänder måste vi först definiera <strong>en</strong> händelse A och sedan bestämma<br />
antalet gynnsamma utfall. Låt t.ex.<br />
A = Flushpågiv<strong>en</strong><br />
där Flush, eller Färg, betyder att samtliga fem kort är i samma svit (hjärter,<br />
spader, ruter eller klöver). Antag att vi vill att samtliga fem kort är hjärter.<br />
Det finns tretton hjärter och således kan fem hjärter väljas på<br />
µ <br />
13<br />
C13,5 = =1287<br />
5<br />
sätt. Lika många möjligheter finns förstås för de övriga tre sviterna varför<br />
antalet gynnsamma utfall för händels<strong>en</strong> A ges av<br />
g (A) =4· 1 287 = 5 148<br />
Utav alla pokerhänder är det alltså 5 148 som innehåller <strong>en</strong> flush. Eftersom vi<br />
slumpmässigt väljer ut de fem kort<strong>en</strong> är samtliga pokerhänder lika sannolika,<br />
dvs sannolikhet<strong>en</strong> att få färg på giv<strong>en</strong> är<br />
Pr (A) = 4 · ¡ ¢ 13<br />
5 ¢ = 5148<br />
2598960 =0.00198<br />
¡ 52<br />
5<br />
eller ungefär <strong>en</strong> chans på 500. ¤<br />
1.5.4 Övningsuppgifter<br />
Uppgift 5 Lös uppgift 116.<br />
Uppgift 6 Lös uppgift 117.<br />
Uppgift 7 Lös uppgift 118.<br />
Uppgift 8 Lös uppgift 119.<br />
Uppgift 9 Adam och Bertil ingår i <strong>en</strong> grupp om sju personer<br />
a. På hur många sätt kan dessa sju personer placeras i <strong>en</strong> rad?<br />
b. I hur många uppställningar står Adam längst till vänster?<br />
c. I hur många uppställningar står Adam eller Bertil längst till vänster?<br />
18
d. I hur många uppställningar står Adam och Bertil på ytterplatserna?<br />
e. På hur många sätt kan dessa sju personer placeras i <strong>en</strong> ring?<br />
Uppgift 10 Jerry blir sug<strong>en</strong> på omelett och tar därför fyra ägg ur paketet.<br />
Vad han dock inte känner till är att bland äggpaketets tolv ägg finns två<br />
ruttna. Bestäm sannolikhet<strong>en</strong> att Jerry inte blir magsjuk (vilket han blir om<br />
han råkar få med ett ruttet ägg i omelett<strong>en</strong>). Jerry som inte är så hemma<br />
i köket märker inte i all hast om han skulle råka få ett ruttet ägg. Ledning:<br />
Räkna antalet utfall.<br />
1.6 Räkneregler för sannolikheter<br />
Från Kolmogorovs tre axiom följer ett antal användbara räkneregler för hur<br />
man räknar med sannolikheter för händelser som innebär att vi i många situationer<br />
slipper gå ner på elem<strong>en</strong>tarsannolikhetsnivå. Det visar sig nämlig<strong>en</strong><br />
att vi inte alltid behöver gå d<strong>en</strong> långa väg<strong>en</strong> för att bestämma sannolikheter<br />
utan kan utnyttja att vi redan känner sannolikheter för andra händelser.<br />
1.6.1 Komplem<strong>en</strong>tsannolikheter<br />
Definition<strong>en</strong> av komplem<strong>en</strong>thändelse ger att<br />
Av Axiom 1 följer därmed att<br />
A ∪ A = S<br />
Pr ¡ A ∪ A ¢ =Pr(S) =1<br />
och eftersom A och A dessutom är disjunkta ger Axiom 3 att<br />
1=Pr ¡ A ∪ A ¢ =Pr(A)+Pr ¡ A ¢<br />
eller ekvival<strong>en</strong>t<br />
Pr ¡ A ¢ =1− Pr (A)<br />
vilket är ett fullt logiskt resultat. Händer inte A händer garanterat dess<br />
komplem<strong>en</strong>t A. Detta är <strong>en</strong> räkneregel vi skall ha stor nytta av framöver.<br />
D<strong>en</strong> händelse vi är intresserade av är ofta relativt komplex och det kan då<br />
istället vara <strong>en</strong>klare att räkna ut sannolikhet<strong>en</strong> för komplem<strong>en</strong>thändels<strong>en</strong><br />
varmed sannolikhet<strong>en</strong> för d<strong>en</strong> aktuella händels<strong>en</strong> följer utan problem.<br />
19
1.6.2 Additionssats<strong>en</strong><br />
Om händelserna A och B är disjunkta ger oss Axiom 3 att<br />
Pr (A ∪ B) =Pr(A)+Pr(B)<br />
Vad gäller för unionsannolikhet<strong>en</strong> Pr (A ∪ B) då A och B nödvändigtvis inte<br />
är disjunkta? Följande exempel visar att det lätt kan gå fel om man inte<br />
tänker sig för.<br />
Exempel 17 Vi återgår till Exempel 9 iavsnitt1.4. Betrakta händelserna<br />
Enligt princip<strong>en</strong> att varje tärningsutfall är lika sannolikt följer att<br />
Pr (A) =Pr(B) = 3<br />
6 =0.5<br />
Som sannolikhetsnovis är det då <strong>en</strong>kelt att göra misstaget att<br />
Pr (A ∪ B) =Pr(A)+Pr(B) =0.5+0.5 =1<br />
dvs att A ∪ B är <strong>en</strong> säker händelse, dvs <strong>en</strong> händelse som alltid inträffar. Vi<br />
ser dock att så inte är fallet eftersom utfallet 2 inte är med. Istället gäller att<br />
dvs A ∪ B innehåller fem av de sex utfall<strong>en</strong> och därför måste<br />
Pr (A ∪ B) = 5<br />
6<br />
¤<br />
Vad var det då som gick snett i d<strong>en</strong> första beräkning<strong>en</strong>? Problemet i det<br />
här fallet är att utfallet 5 är med i både A och B vilket innebär att det<br />
utfallet räknas två gånger. Detta är ett problem i varje situation då A och B<br />
överlappar, dvs om dom har gem<strong>en</strong>samma utfall. Vi ser i figur<strong>en</strong> nedan att<br />
det är dom utfall som tillhör händels<strong>en</strong> A ∩ B som räknas två gånger.<br />
S<br />
A B<br />
A ∩ B<br />
20
Lösning<strong>en</strong> blir därför att subtrahera sannolikhet<strong>en</strong> för d<strong>en</strong>na händelse <strong>en</strong><br />
gång varefter alla berörda utfall räknas exakt <strong>en</strong> gång, dvs lösning<strong>en</strong> vi söker<br />
är<br />
Pr (A ∪ B) =Pr(A)+Pr(B) − Pr (A ∩ B)<br />
som går under b<strong>en</strong>ämning<strong>en</strong> additionssats<strong>en</strong>. Överlappningsproblemet uppkommer<br />
inte om A och B är disjunkta m<strong>en</strong> intressant är att additionssats<strong>en</strong><br />
fungerar för alla situationer. Då A och B är disjunkta gäller nämlig<strong>en</strong><br />
att A ∩ B = ∅, dvs d<strong>en</strong> tomma mängd<strong>en</strong> (utan utfall) vilket innebär att<br />
Pr (A ∩ B) =0och vi är tillbaka vid Axiom 3.<br />
Exempel 18 Vi återgår till tärningsproblematik<strong>en</strong> i Exempel 17. Vihardär<br />
att<br />
och därför måste gälla att<br />
Pr (A ∩ B) = 1<br />
6<br />
Additionssats<strong>en</strong> ger nu att<br />
Pr (A ∪ B) = 3 3 1 5<br />
+ − =<br />
6 6 6 6<br />
vilket stämmer över<strong>en</strong>s med d<strong>en</strong> faktiska situation<strong>en</strong>. ¤<br />
Vi kommer s<strong>en</strong>are att huvudsaklig<strong>en</strong> vara intresserade av sannolikheter av<br />
typ<strong>en</strong> “Bestäm sannolikhet<strong>en</strong> att åtminstone...” eller “Bestäm sannolikhet<strong>en</strong><br />
att högst...” vilket i stor utsträckning inkluderar unionssannolikheter. I fallet<br />
med de båda händelserna A och B repres<strong>en</strong>terar A ∪ B åtminstone <strong>en</strong> av<br />
händelserna. Som nämndes i föregå<strong>en</strong>de avsnitt är det vid dessa beräkningar<br />
ofta <strong>en</strong>klare att studera komplem<strong>en</strong>thändels<strong>en</strong><br />
A ∪ B = A ∩ B<br />
som illustreras i figur<strong>en</strong> nedan.<br />
A B<br />
21
Exempel 19 Vid <strong>en</strong> medicinsk undersökning studerar man förekomst<strong>en</strong> av<br />
två g<strong>en</strong>er A och B, och man är intresserade av att ta reda på hur stor andel<br />
av dom undersökta som har åtminstone <strong>en</strong> av g<strong>en</strong>erna. Det är då <strong>en</strong>klare att<br />
först ta reda på andel<strong>en</strong> som saknar båda g<strong>en</strong>erna som då utgör komplem<strong>en</strong>tet<br />
till aktuella händels<strong>en</strong>. Det skulle t.ex. kunna se ut som<br />
Andelar av grupp<strong>en</strong><br />
G<strong>en</strong> B<br />
Ja Nej<br />
G<strong>en</strong> A Ja 0.05 0.25<br />
Nej 0.20 0.50<br />
Här har vi <strong>en</strong> finare uppdelning än vad vi är vana vid vilket inses då vi<br />
åskådliggör d<strong>en</strong> givna information<strong>en</strong> i ett V<strong>en</strong>n-diagram<br />
S<br />
0,50<br />
A<br />
0.25<br />
0.05<br />
Vi har således fått information om sannolikheter för samtliga V<strong>en</strong>n-diagrammets<br />
delområd<strong>en</strong>, eller snitthändelser. Nu följer därför att<br />
B<br />
0.20<br />
Pr (A ∪ B) =0.05 + 0.25 + 0.20 = 0.50<br />
vilket vi äv<strong>en</strong> kan få fram via komplem<strong>en</strong>tsannolikhet<strong>en</strong><br />
Pr (A ∪ B) =1− 0.50 = 0.50<br />
Skall vi använda additionssats<strong>en</strong> blir det<br />
¤<br />
Pr (A ∪ B) =0.30 + 0.25 − 0.05 = 0.50<br />
Ett V<strong>en</strong>n-diagram är ofta ett mycket användbart redskap då man skall<br />
bestämma sannolikheter, framförallt då situation<strong>en</strong> blir mer komplex. I följande<br />
exempel får vi <strong>en</strong> situation med tre händelser där vi bestämmer sannolikheter<br />
för samtliga delområd<strong>en</strong> (snitthändelser). Efter att detta är gjort<br />
finner vi <strong>en</strong>kelt alla tänkbara sannolikheter.<br />
22
Exempel 20 I <strong>en</strong> marknadsundersökning är 50% av de intervjuade personerna<br />
män, 60% är över 40 år och 40% har <strong>en</strong> årsinkomst över 200 000 kronor.<br />
30% är män med <strong>en</strong> årsinkomst över 200 000 kronor. 30% är män över 40 år<br />
och av dessa har två tredjedelar <strong>en</strong> årsinkomst över 200 000 kronor. Av dem<br />
som är över 40 år och har <strong>en</strong> årsinkomst över 200 000 kronor är <strong>en</strong> tredjedel<br />
kvinnor. Vi vill få följande fråga besvarad.<br />
• Hurstorandelärkvinnorunder40 år med <strong>en</strong> årsinkomst under 200 000<br />
kronor?<br />
För att lösa uppgift<strong>en</strong> gör vi bäst i att beskriva problemet med ett V<strong>en</strong>ndiagram.<br />
Vi ser det som att vi slumpmässigt skall välja ut <strong>en</strong> person och<br />
använder händelserna<br />
A = D<strong>en</strong> valde är <strong>en</strong> man<br />
B = D<strong>en</strong> valde är över 40 år<br />
C = D<strong>en</strong> valde har <strong>en</strong> årsinkomst på över 200 000<br />
Ur information<strong>en</strong> finner vi då först de <strong>en</strong>kla sannolikheterna<br />
Pr (A) = 0.5<br />
Pr (B) = 0.6<br />
Pr (C) = 0.4<br />
och sedan äv<strong>en</strong> två av de parvisa snittsannolikheterna<br />
Pr (A ∩ B) = 0.3<br />
Pr (A ∩ C) = 0.3<br />
Nästa del av information<strong>en</strong> är att två tredjedelar av männ<strong>en</strong> över 40 år har<br />
<strong>en</strong> årsinkomst över 200 000 kronor, vilket översätts till<br />
Pr (A ∩ B ∩ C) = 2<br />
· Pr (A ∩ B) =2 · 0.3 =0.2<br />
3 3<br />
D<strong>en</strong> sista pusselbit<strong>en</strong> är något besvärligare. “Av dem som är över 40 år och<br />
har <strong>en</strong> årsinkomst över 200 000 kronor är <strong>en</strong> tredjedel kvinnor.” Detta betyder<br />
att det är dubbelt så många män som kvinnor som är över 40 år och har <strong>en</strong><br />
årsinkomst över 200 000 kronor. Eftersom vi precis räknat ut att 20% av<br />
personerna tillhör A ∩ B ∩ C måste 10% tillhöra A ∩ B ∩ C (kvinnor över 40<br />
år med <strong>en</strong> årsinkomst över 200 000 kronor). Nu är vi redo att fylla i V<strong>en</strong>ndiagrammet<br />
och börjar med att fylla i de “innersta” fält<strong>en</strong> och jobbar oss<br />
23
utåt. Vi får då<br />
S B<br />
A<br />
0.2<br />
0.1<br />
0.1<br />
C<br />
0.1<br />
0.2<br />
0<br />
Nu finner vi <strong>en</strong>kelt d<strong>en</strong> sökta sannolikhet<strong>en</strong> (andel<strong>en</strong>). Vi söker A ∩ B ∩ C,<br />
dvs d<strong>en</strong> del som inte tillhör någon av cirklarna. Vi får alltså att andel<strong>en</strong><br />
kvinnor under 40 år med <strong>en</strong> årsinkomst under 200 000 kronor är samma som<br />
¤<br />
1.6.3 Betingad sannolikhet<br />
Pr ¡ A ∩ B ∩ C ¢ =Pr ¡ A ∪ B ∪ C ¢ =0.2<br />
I föregå<strong>en</strong>de avsnitt fickviiochmedadditionssats<strong>en</strong><strong>en</strong>allmänformelför<br />
hur man kan beräkna unionssannolikhet<strong>en</strong> Pr (A ∪ B) förutsatt att vi känner<br />
snittsannolikhet<strong>en</strong> Pr (A ∩ B). Det är därför på tid<strong>en</strong> att vi äv<strong>en</strong> försöker<br />
klura ut hur vi finner <strong>en</strong> liknande formel för snittsannolikheter. Vi kommer<br />
i detta avsnitt att få fram <strong>en</strong> allmän formel som vi i nästa avsnitt finner ett<br />
mycket viktigt specialfall av.<br />
Antag att vi för ett slumpförsök är intresserade av att bestämma sannolikhet<strong>en</strong><br />
för <strong>en</strong> viss händelse A, dvsPr (A). Antag nu att slumpförsöket<br />
redan utförts och att vi fått information om att <strong>en</strong> annan händelse B inträffat.<br />
Detta är all information vi har tillgång till och frågan är hur detta<br />
påverkar vår uppfattning om sannolikhet<strong>en</strong> för A? I och med att händels<strong>en</strong><br />
B inträffat vet vi att det aktuella utfallet tillhör B m<strong>en</strong> inte vilket av dom<br />
det är. Vi kan därför se B som det nya utfallsrummet. D<strong>en</strong> “uppdatering” av<br />
Pr (A) som görs g<strong>en</strong>om information<strong>en</strong> om att händels<strong>en</strong> B inträffat kallas för<br />
d<strong>en</strong> betingade sannolikhet<strong>en</strong> för A givet B och betecknas Pr (A | B). För att<br />
lättare förstå formeln för betingade sannolikheter börjar vi med ett exempel.<br />
Exempel 21 Vi återgår till Exempel 19 där vi antar att d<strong>en</strong> undersökta<br />
grupp<strong>en</strong> bestod av 100 personer. Eftersom 30 av grupp<strong>en</strong>s medlemmar har<br />
24<br />
0.1<br />
0.2
g<strong>en</strong> A följer att sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt vald person har g<strong>en</strong> A blir<br />
Pr (A) = 30<br />
100 =0.3<br />
M<strong>en</strong> antag nu att vi får reda på att d<strong>en</strong> valde har g<strong>en</strong> B. Uppdatera nu<br />
sannolikhet<strong>en</strong> för A g<strong>en</strong>om att bestämma d<strong>en</strong> betingade sannolikhet<strong>en</strong> givet<br />
d<strong>en</strong>na information. I och med att vi vet att d<strong>en</strong> valda person<strong>en</strong> har g<strong>en</strong> B<br />
vet vi att person<strong>en</strong> är någon av dessa 25 personer. Bland dom är det 5 som<br />
äv<strong>en</strong> har g<strong>en</strong> A varför d<strong>en</strong> betingade sannolikhet<strong>en</strong> blir<br />
Pr (A | B) = 5<br />
25 =0.2<br />
dvs i och med d<strong>en</strong> nya information<strong>en</strong> är det nu något lägre sannolikhet att<br />
d<strong>en</strong> valde har g<strong>en</strong> A. ¤<br />
Vad är det då vi gör när vi räknar ut d<strong>en</strong> betingade sannolikhet<strong>en</strong>? När<br />
vi utan information beräknar Pr (A) kan detta ses som att vi relaterar antal<br />
utfall i A till det totala antalet utfall, dvs antalet utfall i utfallsrummet<br />
S. Nu gäller dock att det nya utfallsrummet utgörs av B och därför skall<br />
istället antal utfall i A ∩ B relateras till antal utfall i B, dvs d<strong>en</strong> betingade<br />
sannolikhet<strong>en</strong> för A givet B beräknas via formeln<br />
Pr (A | B) =<br />
Pr (A ∩ B)<br />
Pr (B)<br />
I ett V<strong>en</strong>n-diagram åskådliggörs d<strong>en</strong>na formel g<strong>en</strong>om att markera det nya<br />
utfallsrummet och sedan bedömma hur stor del av d<strong>en</strong>na som d<strong>en</strong> sökta<br />
händels<strong>en</strong> utgör.<br />
S<br />
A B<br />
A ∩ B<br />
Vi kan förstås äv<strong>en</strong> vända på det g<strong>en</strong>om att helt <strong>en</strong>kelt byta plats på A och<br />
B vilket ger<br />
Pr (A ∩ B)<br />
Pr (B | A) =<br />
Pr (A)<br />
25
Ett av mål<strong>en</strong> var här att finna <strong>en</strong> allmän formel för snittsannolikheter och<br />
utifrån formeln för betingade sannolikheter löser vi ut och får<br />
Pr (A ∩ B) =Pr(B) · Pr (A | B) =Pr(A) · Pr (B | A)<br />
som kallas för sannolikhetslärans multiplikationssats.<br />
Exempel 22 Vi återgår än <strong>en</strong> gång till tärningsproblematik<strong>en</strong> där vi åter<br />
studerar de båda händelserna<br />
Antag att vi söker Pr (A), dvs sannolikhet<strong>en</strong> att det blir ett udda utfall. Från<br />
tidigare vet vi att d<strong>en</strong>na sannolikhet är 0.5. Antag nu att tärning<strong>en</strong> kastas och<br />
att vi får reda på att det blev ett “högt utfall”, dvs att händels<strong>en</strong> B inträffat.<br />
Påverkar detta vår uppfattning om sannolikhet<strong>en</strong> för händels<strong>en</strong> A? Föratt<br />
ta reda på detta måste vi beräkna d<strong>en</strong> betingade sannolikhet<strong>en</strong> Pr (A | B).<br />
Exempel 18 gav att<br />
Pr (A ∩ B) = 1<br />
6<br />
varför det utifrån formeln för betingade sannolikheter följer att<br />
Pr (A | B) =<br />
Pr (A ∩ B)<br />
Pr (B)<br />
1/6 1<br />
= =<br />
3/6 3<br />
Sannolikhet<strong>en</strong> för ett udda utfall har alltså utifrån d<strong>en</strong> givna information<strong>en</strong><br />
minskat från 1/2 till 1/3. D<strong>en</strong> obetingade sannolikhet<strong>en</strong> för händels<strong>en</strong><br />
A innebär att vi relaterar antal utfall i A till det totala antalet utfall (i utfallsrummet<br />
S). D<strong>en</strong> betingade sannolikhetsberäkning<strong>en</strong> innebär att vi istället<br />
relaterar antal utfall i A ∩ B till antal utfall i B. ¤<br />
Låt oss studera ett något mer abstrakt exempel.<br />
Exempel 23 Låt A och B vara två händelser för vilka det gäller<br />
Pr (A) =0.6, Pr (A | B) =0.75, Pr (B | A) =0.5<br />
Beräkna sannolikhet<strong>en</strong> att händels<strong>en</strong> B inträffar.Studerarviformelnför<br />
betingade sannolikheter eller multiplikationssats<strong>en</strong> inser vi att vi först måste<br />
ta reda på Pr (A ∩ B). D<strong>en</strong>nafinner vi via<br />
och sedan följer det att<br />
¤<br />
Pr (A ∩ B) =Pr(A) · Pr (B | A) =0.6 · 0.5 =0.3<br />
Pr (B) =<br />
Pr (A ∩ B)<br />
Pr (A | B)<br />
26<br />
= 0.3<br />
0.75 =0.4
Det visar sig att vi kan ha ytterligare nytta av betingade sannolikheter.<br />
Det är vanligt att d<strong>en</strong> sökta händels<strong>en</strong> är komplex och därför svår att bestämma<br />
sannolikhet<strong>en</strong> för. Ibland kan dock A delas upp i mindre och mer lätthanterliga<br />
bitar för vilka det är <strong>en</strong>klare att bestämma sannolikheter. Sedan<br />
är det bara att lägga ihop dessa delsannolikheter för att få d<strong>en</strong> sökta sannolikhet<strong>en</strong>.<br />
Exempel 24 Antag att vi för <strong>en</strong> viss semesterort och <strong>en</strong> viss tidsperiod skall<br />
bestämma risk<strong>en</strong> för regn <strong>en</strong> slumpmässigt vald dag. Nu är det dock så att<br />
regnrisk<strong>en</strong> beror på vilka väderleksförhålland<strong>en</strong> som råder och grovt kan man<br />
göra följande uppdelning.<br />
B1 = Lågtryck<br />
B2 = Ostadigt<br />
B3 = Högtryck<br />
Erfar<strong>en</strong>het<strong>en</strong> visar att de olika vädertyperna förekommer med sannolikheterna<br />
0.2, 0.3 och 0.5. Sannolikhet<strong>en</strong> för regn vid de olika vädertyperna är 0.8,<br />
0.4 och 0.1. Vad blir då sannolikhet<strong>en</strong> att det regnar <strong>en</strong> slumpmässigt vald<br />
dag? Vi formaliserar information<strong>en</strong> g<strong>en</strong>om att ange de första sannolikheterna<br />
ovan som<br />
Pr (B1) = 0.2<br />
Pr (B2) = 0.3<br />
Pr (B3) = 0.5<br />
Skapar vi sedan händels<strong>en</strong><br />
A = Regn<br />
får vi dessutom fram de betingade sannolikheterna<br />
Pr (A | B1) = 0.8<br />
Pr (A | B2) = 0.4<br />
Pr (A | B3) = 0.1<br />
För att bestämma d<strong>en</strong> sökta sannolikhet<strong>en</strong> går vi stegvis tillväga. I första<br />
steget anger vi väderlektstyp<strong>en</strong>, de sk. apriorisannolikheterna och anger sedan<br />
för var och <strong>en</strong> av dessa de betingade sannolikheterna. Enligt multiplikationssats<strong>en</strong><br />
ger detta slutlig<strong>en</strong> i tredje steget de snittsannolikheter vilka vi använder<br />
för att lösa problemet. Vissa av dessa utgör nämlig<strong>en</strong> d<strong>en</strong> uppdelning av<br />
händels<strong>en</strong> A vi söker. Till vår hjälp i d<strong>en</strong>na process använder vi oss av ett<br />
träddiagram.<br />
27
Apriorisannolikheter Betingade sannolikheter Snittsannolikheter<br />
Pr(B )=0.2<br />
1<br />
Pr(B )=0.3<br />
2<br />
Pr(B )=0.5<br />
3<br />
Lågtryck<br />
Ostadigt<br />
Högtryck<br />
Pr(A I B 1)=0.8<br />
Pr(A I B 1)=0.2<br />
Pr(A I B 2)=0.4<br />
Pr(A I B 2)=0.6<br />
Pr(A I B 3)=0.1<br />
Pr(A I B 3)=0.9<br />
Regn<br />
Ej regn<br />
Regn<br />
Pr(B 1)Pr(A I B 1)=0.2*0.8=0.16<br />
Pr(B 1 )Pr(A I B 1 )=0.2*0.2=0.04<br />
Pr(B 2 )Pr(A I B 2)=0.3*0.4=0.12<br />
Ej regn Pr(B 2)Pr(A I B 2)=0.3*0.6=0.18<br />
Regn<br />
Ej regn<br />
Pr(B 3)Pr(A I B 3)=0.5*0.1=0.05<br />
Pr(B 3)Pr(A<br />
I B 3)=0.5*0.9=0.45<br />
De inramade snittsannolikheterna utgör tillsammans alla de gr<strong>en</strong>ar som leder<br />
till regn. Tillsammans ger dessa att<br />
dvs risk<strong>en</strong> för regn är ungefär 1/3. ¤<br />
Pr (A) =0.16 + 0.12 + 0.05 = 0.33<br />
Metod<strong>en</strong> ovan måste formaliseras och vi måste klargöra vilka förutsättningar<br />
som måste vara uppfyllda för att detta skall fungera. En anledning<strong>en</strong><br />
till att det fungerar är att “apriorihändelserna” B1,B2 och B3 är disjunkta<br />
ochuttömmande,dvsattdeinteöverlapparochattdetillsammanstäcker<br />
hela utfallsrummet. Vi säger att dessa mängder utgör <strong>en</strong> disjunkt uppdelning<br />
av utfallsrummet. Mer konkret kan vi se det som att händelserna utgör<br />
samtliga pusselbitar i ett pussel som utgör utfallsrummet eller att de utgör<br />
samtliga skärvor i d<strong>en</strong> sönderslagna glasrutan S. Detta innebär att äv<strong>en</strong> händels<strong>en</strong><br />
A blir disjunkt uppdelad i snitthändelserna A∩B1,A∩B2 och A∩B3,<br />
dvs<br />
A =(A ∩ B1) ∪ (A ∩ B2) ∪ (A ∩ B3)<br />
28
vilket framgår av figurerna nedan.<br />
S<br />
B 2<br />
B 1<br />
A<br />
B 3<br />
S<br />
A ∩ B 2<br />
och av det tredje av Kolmogorovs axiom följer därför att<br />
A ∩ B 1<br />
A ∩ B 3<br />
Pr (A) =Pr(A ∩ B1)+Pr(A ∩ B2)+Pr(A ∩ B3)<br />
vilket är precis vad som använts i Exempel 24 ovan. Nu känner vi möjlig<strong>en</strong><br />
inte dessa snittsannolikheter direkt utan dessa måste tas fram och detta görs<br />
g<strong>en</strong>om multiplikationssats<strong>en</strong> som t.ex. ger att<br />
Pr (A ∩ B1) =Pr(B1) · Pr (A | B1)<br />
Det är detta steg som lämplig<strong>en</strong> åskådliggörs med träddiagram. För att kunna<br />
använda metod<strong>en</strong> måste vi således dels känna “apriorisannolikheterna” för<br />
d<strong>en</strong> disjunkta uppdelning<strong>en</strong> och dels d<strong>en</strong> betingade sannolikhet<strong>en</strong> för d<strong>en</strong> aktuella<br />
händels<strong>en</strong> A på var och <strong>en</strong> av dessa “apriorihändelser”. Om båda dessa<br />
förutsättningar är uppfyllda fungerar metod<strong>en</strong> som går under b<strong>en</strong>ämning<strong>en</strong><br />
Sats<strong>en</strong> om total sannolikhet. Än mer formellt sammanfattar vi detta som<br />
Sats<strong>en</strong> om total sannolikhet Vi är intresserade av att bestämma sannolikhet<strong>en</strong><br />
för händels<strong>en</strong> A, dvsPr (A), vilketdockintegårattgöradirekt<br />
eftersom A är alltför komplex. Dock gäller att vi känner sannolikhet<strong>en</strong> för A<br />
på var och <strong>en</strong> av händelserna B1,B2,...,Bk, dvsPr(A | Bi). Förutsattatt<br />
B1,B2,...,Bk är <strong>en</strong> disjunkt uppdelning av utfallsrummet, dvs om<br />
Bi ∩ Bj = ∅, i 6= j<br />
B1 ∪ B2 ∪ ···∪ Bk = S<br />
gäller <strong>en</strong>ligt Axiom 3 och multiplikationssats<strong>en</strong> att<br />
Pr (A) =<br />
kX<br />
Pr (A ∩ Bi) =<br />
i=1<br />
29<br />
kX<br />
Pr (Bi) · Pr(A | Bi)<br />
i=1
Bayes’ sats Vi kan nu vända på frågeställning<strong>en</strong>. Antag att vi <strong>en</strong> morgon<br />
vaknar upp och konstaterar att det regnar. Vad är under d<strong>en</strong>na förutsättning<br />
sannolikhet<strong>en</strong> att vi har ett lågtryck? Vi är därmed nu istället intresserade<br />
av det omvända betinget<br />
Pr (B1 | A)<br />
Utifrån definition<strong>en</strong> av betingade sannolikheter följer att detta är samma<br />
som att<br />
Pr (A ∩ B1)<br />
Pr (B1 | A) =<br />
Pr (A)<br />
I och med sats<strong>en</strong> om total sannolikhet har vi ju visat att dessa båda sannolikheter<br />
kan skrivas på följande sätt<br />
Pr (B1 | A) =<br />
Pr(A | B1)Pr(B1)<br />
Pr(A | B1)Pr(B1)+Pr(A | B2)Pr(B2)+Pr(A | B3)Pr(B3)<br />
och mer allmänt för händels<strong>en</strong> Bj med <strong>en</strong> disjunkt uppdelning B1,B2,...,Bk<br />
gäller att<br />
Pr (Bj | A) = Pr (Bj) · Pr(A | Bj)<br />
Pk i=1 Pr (Bi) · Pr(A | Bi)<br />
vilket är <strong>en</strong> räkneregel som går under b<strong>en</strong>ämning<strong>en</strong> Bayes’ sats eller Bayes’<br />
regel.<br />
Exempel 25 Vi återgår till Exempel 24 och finner svaret på frågan om<br />
Pr (B1 | A). Enligt Bayes’ sats får vi att<br />
Pr (B1 | A) =<br />
0.2 · 0.8<br />
0.16<br />
=<br />
0.2 · 0.8+0.3 · 0.4+0.5 · 0.1 0.33 =0.485<br />
dvs om det regnar är det ungefär 50% chans att det är lågtryck. Nämnar<strong>en</strong><br />
iuttrycketäringetannatänPr (A) och om vi först använt sats<strong>en</strong> om total<br />
sannolikhet får vi då d<strong>en</strong>na automatiskt. I och med att vi nu vet att det<br />
regnar utgör A vårt nya utfallsrum och uppgift<strong>en</strong> blir att ta reda på hur stor<br />
del av A som B1 utgör. Med ett träddiagram använder vi först de<br />
inramade sannolikheterna för att bestämma sannolikhet<strong>en</strong> för A.<br />
Bayessannolikheterna finner vi sedan g<strong>en</strong>om att se hur stor del var<br />
och <strong>en</strong> av dessa inramade sannolikheter utgör av sannolikhet<strong>en</strong> för<br />
A. ¤<br />
Att arbeta med sannolikheter blir ofta abstrakt och speciellt vid användning<br />
av Bayes’ sats är det lätt att gå vilse. Det kan då vara bra att veta hur<br />
man gör problemet mer konkret.<br />
30
Exempel 26 På ett cigarettpaket läser vi följande: “Nio av tio strupcancerpati<strong>en</strong>ter<br />
är rökare”. Anta att detta påstå<strong>en</strong>de är korrekt samt att i befolkning<strong>en</strong><br />
10% är rökare och 0.1% drabbas av strupcancer. Vad är sannolikhet<strong>en</strong> att<br />
<strong>en</strong> rökare drabbas av strupcancer? Här gäller det att definiera händelser. Vi<br />
väljer slumpmässigt ut <strong>en</strong> person ur population<strong>en</strong> och låter<br />
A = Person<strong>en</strong> är rökare<br />
B = Person<strong>en</strong> har strupcancer<br />
Vi söker sannolikhet<strong>en</strong> att <strong>en</strong> rökare får strupcancer, dvs vi söker Pr (B | A).<br />
Till vår hjälp har vi följande information:<br />
Pr (A) = 0.1<br />
Pr (B) = 0.001<br />
Pr (A | B) = 0.9<br />
Med hjälp av betingade sannolikheter (eller Bayes’ sats) finner vi d<strong>en</strong> sökta<br />
sannolikhet<strong>en</strong> till<br />
Pr (B | A) =<br />
Pr (A ∩ B)<br />
Pr (A)<br />
= Pr (B) · Pr (A | B)<br />
Pr (A)<br />
= 0.001 · 0.9<br />
0.1<br />
=0.009<br />
dvs nio gånger större än folk i allmänhet. Tycker man att detta tillvägagångssätt<br />
är för abstrakt kan det konkretiseras på följande sätt. Antag att population<strong>en</strong><br />
består av 10 000 personer. Av information<strong>en</strong> följer då att 1000 av dessa är<br />
rökare och 10 drabbasavstrupcancer.Utavdom10 som drabbas av strupcancer<br />
är 9 rökare. Bestäm nu sannolikhet<strong>en</strong> att <strong>en</strong> rökare drabbas av strupcancer.<br />
Utav 1000 rökare är det 9 som har strupcancer och slutsats<strong>en</strong> blir<br />
därför att d<strong>en</strong> sökta sannolikhet<strong>en</strong> är 9/1000 = 0.009. ¤<br />
1.6.4 Obero<strong>en</strong>de händelser<br />
Många gånger kan multiplikationssats<strong>en</strong><br />
Pr (A ∩ B) =Pr(B) · Pr (A | B) =Pr(A) · Pr (B | A)<br />
för<strong>en</strong>klas ytterligare på ett sätt som gör det extra bekvämt att beräkna<br />
snittsannolikheter. Antag att vi som förut är intresserade av att ta reda på<br />
sannolikhet<strong>en</strong> för händels<strong>en</strong> A. Fråganviskallställaossär:Harviisammanhanget<br />
någon nytta av att känna till om händels<strong>en</strong> B inträffat, dvs kommer<br />
vår uppfattning om sannolikhet<strong>en</strong> för A därmed att förändras? Ibland gör det<br />
vark<strong>en</strong> från eller till med d<strong>en</strong>na extrainformation vilket gör d<strong>en</strong> överflödig.<br />
31
Om så är fallet säger vi att händelserna A och B är obero<strong>en</strong>de, och för sådana<br />
händelser gäller följaktlig<strong>en</strong> att<br />
Pr (A | B) =Pr(A)<br />
Exempel 27 Antag att vi spelar ett tärningsspel med två tärningar där vi<br />
vinner om summan av tärningarna blir sju. Antag vidare att vi har möjlighet<strong>en</strong><br />
att kasta <strong>en</strong> av tärningarna innan vi satsar några p<strong>en</strong>gar. Frågan<br />
är huruvida d<strong>en</strong>na möjlighet förbättrar våra chanser. För att undersöka detta<br />
beräknar vi vinstchans<strong>en</strong> både med och utan extrainformation<strong>en</strong> och ser<br />
om det är någon skillnad. Det finns totalt 36 olika utfall då man kastar två<br />
tärningar, dvs utfallsrummet blir<br />
S = {(1, 1) , (1, 2) , (1, 3) ,...,(6, 5) , (6, 6)}<br />
Av intresse för oss är att konstruera händels<strong>en</strong><br />
A = Vinst (eller summan är 7)<br />
och det följer att A innehåller sex utfall<br />
A = {(1, 6) , (2, 5) , (3, 4) , (4, 3) , (5, 2) , (6, 1)}<br />
Eftersom alla utfall är lika sannolika följer att vinstchans<strong>en</strong> utan information<br />
är<br />
Pr (A) = 6 1<br />
=<br />
36 6<br />
Vinstchans<strong>en</strong> är 6 chanser på 36, dvs vi vinner i g<strong>en</strong>omsnitt var sjätte gång.<br />
Antag nu att vi vet om att värdet på d<strong>en</strong> första tärning<strong>en</strong> är tre och låt<br />
B = Utfallet på d<strong>en</strong> första tärning<strong>en</strong> är tre<br />
Påverkar detta vinstchans<strong>en</strong>, dvs vad blir d<strong>en</strong> betingade sannolikhet<strong>en</strong> Pr (A | B)?<br />
För att vinna måste d<strong>en</strong> andra tärning<strong>en</strong> visa fyra. Detta innebär att av de<br />
sex möjliga utfall<strong>en</strong> på d<strong>en</strong> andra tärning<strong>en</strong> är det bara <strong>en</strong> som ger vinst,<br />
eller med andra ord<br />
Pr (A | B) = 1<br />
6<br />
dvs samma sannolikhet som utan information<strong>en</strong>. A och B är här obero<strong>en</strong>de.<br />
För att se om extrainformation<strong>en</strong> ändå kan vara av glädje måste vi utföra<br />
beräkning<strong>en</strong> för alla tänkbara utfall på d<strong>en</strong> första tärning<strong>en</strong>, dvs 1, 2,...,6<br />
och se om detta påverkar vinstchans<strong>en</strong>. Det visar sig dock (testa!) att vi får<br />
samma svar för samtliga utfall på d<strong>en</strong> första tärning<strong>en</strong>.<br />
32
Skulle vi däremot vinna om summan av de båda tärningarna är åtta får<br />
vi ett annat svar. Nu innehåller A bara fem utfall<br />
A = {(2, 6) , (3, 5) , (4, 4) , (5, 3) , (6, 2)}<br />
och vinstchans<strong>en</strong> utan information blir därmed<br />
Pr (A) = 5<br />
36<br />
Det är nu inte svårt att se att d<strong>en</strong>na vinstchans förändras i och med information<br />
om utfallet på d<strong>en</strong> första tärning<strong>en</strong>. Låt t.ex.<br />
B = Utfallet på d<strong>en</strong> första tärning<strong>en</strong> är ett<br />
Det finns då ing<strong>en</strong> möjlighet att summan av de båda tärningarna skall bli<br />
åtta varför<br />
Pr (A | B) =0<br />
I det här fallet är således A och B bero<strong>en</strong>de och vi accepterar gladelig<strong>en</strong><br />
möjlighet<strong>en</strong> till d<strong>en</strong>na extrainformation. ¤<br />
Vad innebär då det faktum att två händelser A och B är obero<strong>en</strong>de<br />
för multiplikationssats<strong>en</strong>? Vi får d<strong>en</strong> mycket användbara räkneregeln för<br />
snittsannolikheter rörande obero<strong>en</strong>de händelser.<br />
Pr (A ∩ B) =Pr(A) · Pr (B)<br />
dvs snittsannolikhet<strong>en</strong> blir då helt <strong>en</strong>kelt produkt<strong>en</strong> av marginalsannolikheterna.<br />
Exempel 28 En signal skall ta sig från vänster till höger i system<strong>en</strong> nedan<br />
A B<br />
A<br />
B<br />
33
Kompon<strong>en</strong>terna A och B fungerar obero<strong>en</strong>de av varandra och sannolikhet<strong>en</strong><br />
att <strong>en</strong> kompon<strong>en</strong>t fungerar är 0.8, dvs<br />
Pr (A) =Pr(B) =0.8<br />
Bestäm sannolikheterna för att de båda system<strong>en</strong> fungerar. I det övre seriekopplade<br />
systemet måste båda kompon<strong>en</strong>terna fungera för att systemet<br />
skall fungera vilket innebär att vi där söker sannolikhet<strong>en</strong> för snittet A ∩ B.<br />
Eftersom kompon<strong>en</strong>terna fungerar obero<strong>en</strong>de av varandra får vi att<br />
Pr (A ∩ B) =Pr(A) · Pr (B) =0.8 · 0.8 =0.64<br />
I det nedre parallellkopplade systemet räcker det med att d<strong>en</strong> <strong>en</strong>a kompon<strong>en</strong>t<strong>en</strong><br />
fungerar för att systemet skall fungera varför vi söker sannolikhet<strong>en</strong> för<br />
A ∪ B. Nu följer först av additionssats<strong>en</strong> att<br />
och sedan ger obero<strong>en</strong>det att<br />
¤<br />
Pr (A ∪ B) =Pr(A)+Pr(B) − Pr (A ∩ B)<br />
Pr (A ∪ B) = Pr(A)+Pr(B) − Pr (A) · Pr (B) =<br />
= 0.8+0.8− 0.8 · 0.8 =0.96<br />
1.6.5 Övningsuppgifter<br />
Uppgift 11 Lös uppgift 212.<br />
Uppgift 12 Lös uppgift 215.<br />
Uppgift 13 Lös uppgift 217.<br />
Uppgift 14 Lös uppgift 233.<br />
Uppgift 15 I <strong>en</strong> artikel i SDS d<strong>en</strong> 14 augusti kunde man läsa att 12.6% av<br />
alla män och 9.9% av alla kvinnor är vänsterhänta. Låt oss anta att dessa<br />
uppgifter är korrekta. Låt oss vidare anta att vi studerar <strong>en</strong> stor population<br />
där 40% är män och 60% är kvinnor. Från d<strong>en</strong> valda population<strong>en</strong> väljs<br />
slumpmässigt <strong>en</strong> person. Bestäm sannolikhet<strong>en</strong> att d<strong>en</strong> valda person<strong>en</strong><br />
a. är <strong>en</strong> vänsterhänt kvinna.<br />
b. är vänsterhänt.<br />
34
c. är <strong>en</strong> kvinna om vi vet att person<strong>en</strong> är vänsterhänt.<br />
Uppgift 16 I <strong>en</strong> viss population gäller att <strong>en</strong> proc<strong>en</strong>t av individerna är<br />
bärare av <strong>en</strong> viss smitta. Ett diagnostiskt test för att upptäcka smittbärare<br />
har <strong>en</strong> träffsäkerhet på 90% för individer som bär smittan, m<strong>en</strong> äv<strong>en</strong> <strong>en</strong><br />
5%-ig risk för feldiagnos av icke smittbärande individer.<br />
a. Bestäm sannolikhet<strong>en</strong> att testet ger ett korrekt resultat.<br />
b. Antag att testet ger att individ<strong>en</strong> är smittbärare. Bestäm sannolikhet<strong>en</strong><br />
att så verklig<strong>en</strong> är fallet.<br />
Uppgift 17 Lös uppgift 219.<br />
Uppgift 18 Lös uppgift 235.<br />
Uppgift 19 En torped av typ A har träffsannolikhet<strong>en</strong> 0.2 medan <strong>en</strong> torped<br />
av typ B har träffsannolikhet<strong>en</strong> 0.3. Ett mål skall beskjutas av anting<strong>en</strong> tre<br />
A-torpeder eller två B-torpeder. Vi förutsätter att torpedträffar (och missar)<br />
sker obero<strong>en</strong>de av varandra.<br />
a. Beräkna för de båda alternativ<strong>en</strong> sannolikhet<strong>en</strong> att målet blir träffat.<br />
b. Vad är sannolikhet<strong>en</strong> att målet blir träffat om alla fem torpederna avlossas?<br />
2 Diskreta slumpvariabler<br />
2.1 Vad är <strong>en</strong> slumpvariabel?<br />
Innan vi går vidare med mer formella teoretiska begrepp och resultat diskuterar<br />
vi kort hur sannolikhetsläran kommer att användas. Det är framförallt<br />
i samband med stickprov och slutsatser från dessa som d<strong>en</strong>na kunskap är<br />
oumbärlig. Antag för <strong>en</strong>kelhets skull att vårt stickprov består av <strong>en</strong> <strong>en</strong>da observation<br />
från någon mänsklig population. I statistiska sammanhang används<br />
inte det trevliga, m<strong>en</strong> ack så ineffektiva, angreppssättet “Nej m<strong>en</strong> tj<strong>en</strong>are Per<br />
var det du som blev utvald” utan nu kommer Per istället att bli värderad<br />
utifrån <strong>en</strong> eller flera eg<strong>en</strong>skaper. Han kommer således att bli <strong>en</strong> eller ett antal<br />
siffror i ett datamaterial. En värderad eg<strong>en</strong>skap kallas i dessa sammanhang<br />
för <strong>en</strong> variabel eftersom olika individer kan ha olika värd<strong>en</strong> på d<strong>en</strong>na eg<strong>en</strong>skap.<br />
Antag t.ex. att vi studerar variabeln “Antal barn”. Eftersom Per råkar<br />
ha två barn blir han i detta avse<strong>en</strong>de värderad till 2. Nuärdetjudockinte<br />
35
så att alla har två barn utan värd<strong>en</strong>a 0, 1, 3, 4 osv. kan också förekomma. Vi<br />
har alltså inget större intresse för Per som person utan <strong>en</strong>bart vilka värd<strong>en</strong><br />
han har på de aktuella variablerna. Stickprov skall i statistiska sammanhang<br />
göras slumpmässigt vilket innebär att vi på förhand inte vet vem som kommer<br />
att bli utvald. Med andra ord; detta är ett slumpförsök där alla individer<br />
som kan tänkas bli valda utgör utfall. Betrakta <strong>en</strong> lit<strong>en</strong> population bestå<strong>en</strong>de<br />
av sex personer<br />
S<br />
Per<br />
Leif<br />
Johan<br />
Kjell<br />
M<strong>en</strong> nu är vi inte intresserade av personerna i sig utan <strong>en</strong>bart vilket värde de<br />
har på någon variabel. Antag att vi studerar EMU-frågan och värderar personerna<br />
som 0 om dom är emot och 1 om dom är för ett EMU-medlemskap.<br />
Då kommer utfallsrummet (givetvis bero<strong>en</strong>de på åsikt<strong>en</strong>) att förändras till<br />
S<br />
1<br />
1<br />
1<br />
0<br />
Uppgift<strong>en</strong> i sannolikhetsläran är att utifrån någon variabel beskriva ett slumpförsök<br />
innan det utförs. Eftersom vi på förhand inte vet vilket värde d<strong>en</strong> valde har<br />
på variabeln kallas d<strong>en</strong>na för <strong>en</strong> slumpvariabel (eller stokastisk variabel). På<br />
kortform betecknas <strong>en</strong> slumpvariabel oftast med bokstav<strong>en</strong> X eller någon<br />
annan versal i slutet av alfabetet som Y,Z etc.. Vi kan då t.ex. bilda slumpvariabeln<br />
X = Inställning till ett EMU-medlemskap<br />
36<br />
Sofia<br />
1<br />
Annika<br />
0
med samma värdering som tidigare. G<strong>en</strong>om att konstruera händelser utav<br />
samtliga utfall som av slumpvariabeln värderas på samma sätt får man automatiskt<br />
<strong>en</strong> disjunkt uppdelning av utfallsrummet. Bildar vi händels<strong>en</strong><br />
får vi uppdelning<strong>en</strong><br />
A = D<strong>en</strong> valde är för ett EMU-medlemskap<br />
A<br />
S<br />
1<br />
1<br />
1<br />
dvs händels<strong>en</strong> A består av alla personer med värdet X =1ochom<strong>en</strong>person<br />
väljs slumpmässigt får vi att<br />
Pr (X =0) = Pr ¡ A ¢ = 2 1<br />
= ≈ 0.33<br />
6 3<br />
Pr (X =1) = Pr(A) = 4 2<br />
= ≈ 0.67<br />
6 3<br />
Att på detta sätt beskriva <strong>en</strong> slumpvariabel kallas för att bestämma dess<br />
sannolikhetsfördelning. Då man anger <strong>en</strong> slumpvariabels sannolikhetsfördelning<br />
anger man således dels vilka värd<strong>en</strong> som kan antas och dels med vilka<br />
sannolikheter dessa värd<strong>en</strong> antas. 4<br />
Vi kan konstruera ett oändligt antal slumpvariabler för ett och samma<br />
slumpförsök. Betraktar vi t.ex. ett tärningskast känns det kanske mest<br />
naturligt att värdera utfall<strong>en</strong> efter det antal prickar tärning<strong>en</strong> visar vilket då<br />
ger d<strong>en</strong> uppdelning av utfallsrummet som figur<strong>en</strong> visar<br />
4 Detta sätt att beskriva <strong>en</strong> slumpvariabels sannolikhetsfördelning fungerar <strong>en</strong>bart för<br />
diskreta slumpvariabler. Vi återkommer i Kapitel 3 med motsvarande repres<strong>en</strong>tation för<br />
kontinuerliga slumpvariabler.<br />
0<br />
37<br />
1<br />
0<br />
A
S<br />
Nu behöver vi inte alls värdera ett tärningskast på detta sätt utan vi kan<br />
värdera utfall<strong>en</strong> som vi behagar. Vi kan t.ex. fokusera på utfallet sex. De<br />
andra utfall<strong>en</strong> är då inte värda något och värderas därför till 0 medan sexan<br />
förslagsvis värderas till 1. Vi får då <strong>en</strong> disjunkt uppdelning som i figur<strong>en</strong><br />
nedan.<br />
S<br />
Vi har därmed för slumpförsöket att kasta <strong>en</strong> tärning studerat de båda slumpvariablerna<br />
X = Antal ögon tärning<strong>en</strong> visar<br />
Y = Sexa?<br />
där för Y ettJavärderastill1 och ett Nej till 0. Dessa båda slumpvariabler<br />
har inte samma sannolikhetsfördelning m<strong>en</strong> innan vi går in på dessa skall vi<br />
mer noggrant specificera hur dessa skall anges. När slumpmom<strong>en</strong>tet är över,<br />
dvs då försöket utförts, har slumpvariabeln fått ett värde och för att visa att<br />
så är fallet byter man då till små bokstäver, dvs x, y, z etc. Vi låter allmänt<br />
p (x) beteckna sannolikhet<strong>en</strong> att slumpvariabeln X antar värdet x, dvs<br />
p (x) =Pr(X = x)<br />
38
p (x) som <strong>en</strong> funktion kallas för sannolikhetsfunktion<strong>en</strong> för slumpvariabeln<br />
X. För alla (diskreta) sannolikhetsfunktioner gäller att<br />
p (x) ≥ 0<br />
X p (x) = 1<br />
Exempel 29 Uppgift<strong>en</strong> i detta exempel är att bestämma sannolikhetsfördelning<strong>en</strong><br />
för de båda slumpvariablerna X och Y ovan. X kan anta värd<strong>en</strong>a<br />
1, 2, 3, 4, 5, 6 och alla dessa är lika sannolika så sannolikhetsfördelning<strong>en</strong> blir<br />
p (x) =Pr(X = x) = 1<br />
, x =1, 2, 3, 4, 5, 6<br />
6<br />
vilket åskådliggörs i figur<strong>en</strong> nedan.<br />
Utfall Värdering (X) Sannolikhetsfördelning<br />
Y kan <strong>en</strong>bart anta värd<strong>en</strong>a 0 och 1 med<br />
vilket inses i figur<strong>en</strong> nedan<br />
¤<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
Pr(X=1)=1/6<br />
Pr(X=2)=1/6<br />
Pr(X=3)=1/6<br />
Pr(X=4)=1/6<br />
Pr(X=5)=1/6<br />
Pr(X=6)=1/6<br />
p (0) = Pr (Y =0)=5/6<br />
p (1) = Pr (Y =1)=1/6<br />
Utfall Värdering (Y) Sannolikhetsfördelning<br />
0<br />
1<br />
39<br />
Pr(Y=0)=5/6<br />
Pr(Y=1)=1/6
2.1.1 Övningsuppgifter<br />
Uppgift 20 Lös uppgift 302.<br />
2.2 Väntevärd<strong>en</strong><br />
2.2.1 Sannolikhetsfördelning<strong>en</strong>s medelvärde<br />
Då man beskriver ett statistiskt datamaterial med tabeller och diagram är<br />
det vanligt att man äv<strong>en</strong> sammanfattar detta med några få mått. De oftast<br />
använda mått<strong>en</strong> är medelvärde och standardavvikelse. På liknande sätt kan<br />
man sammanfatta <strong>en</strong> sannolikhetsfördelning. Medelvärdet för ett stickprov<br />
beräknas via<br />
x = x1<br />
P<br />
+ x2 + ···+ xn x<br />
=<br />
n<br />
n<br />
och repres<strong>en</strong>terar således ett g<strong>en</strong>omsnitt av observationerna. Då vi skall<br />
beräkna medelvärdet för <strong>en</strong> sannolikhetsfördelning måste vi ta hänsyn till att<br />
olika värd<strong>en</strong> ev<strong>en</strong>tuellt är olika sannolika vilket innebär att värd<strong>en</strong>a måste<br />
viktas utifrån deras respektive sannolikheter.<br />
Exempel 30 Betrakta ett lotteri med 100 lotter à 1 krona. I lotteriet är<br />
det <strong>en</strong> 50-kronorsvinst, tre 10-kronorsvinster och fem 2-kronorsvinster. Vi<br />
konstruerar slumpvariabeln<br />
X = “Återbäring” på <strong>en</strong> slumpmässigt vald lott<br />
Då inses att X kan anta värd<strong>en</strong>a 0, 2, 10 och 50. Vitrordockinteattd<strong>en</strong><br />
g<strong>en</strong>omsnittliga utfallet ligger på<br />
0+2+10+50<br />
=15.50<br />
4<br />
utan variabelvärd<strong>en</strong>a måste viktas utifrån hur ofta dom uppkommer. Vi har<br />
Antal lotter Vinst Sannolikhet<br />
91 0 91/100 = 0.91<br />
5 2 5/100 = 0.05<br />
3 10 3/100 = 0.03<br />
1 50 1/100 = 0.01<br />
Räknar vi samtliga lotter och tar “medelåterbäring<strong>en</strong>” får vi istället<br />
91 · 0+5· 2+3· 10 + 1 · 50<br />
100<br />
40<br />
= 90<br />
100 =0.9
dvs d<strong>en</strong> g<strong>en</strong>omsnittliga “återbäring<strong>en</strong>” på <strong>en</strong> lott är 90 öre vilket innebär att<br />
man i g<strong>en</strong>omsnitt kommer att göra <strong>en</strong> förlust på 10 öre. D<strong>en</strong>na beräkning kan<br />
istället utföras med sannolikhetsfördelning<strong>en</strong><br />
x 0 2 10 50<br />
p (x) 0.91 0.05 0.03 0.01<br />
där vi använder sannolikheterna som vikter<br />
och svaret blir korrekt. ¤<br />
0 · 0.91 + 2 · 0.05 + 10 · 0.03 + 50 · 0.01 = 0.9<br />
När man på detta sätt beräknar medelvärdet för <strong>en</strong> sannolikhetsfördelning<br />
(eller för <strong>en</strong> slumpvariabel) sägs man beräkna dess väntevärde,ellerdetvärde<br />
vi förväntas att få om vi slumpmässigt väljer ut <strong>en</strong> individ. Väntevärdet för<br />
slumpvariabeln X betecknas E (X), därE står för expectation, och beräknas<br />
således via formeln<br />
E (X) = X x · p (x)<br />
där summering<strong>en</strong> sker för alla de värd<strong>en</strong> X kan anta. B<strong>en</strong>ämning<strong>en</strong> väntevärde<br />
är dock något missvisande vilket framgår av följande exempel.<br />
Exempel 31 Vi konstaterade i Exempel 29 att för slumpförsöket att kasta<br />
<strong>en</strong> tärning ges sannolikhetsfördelning<strong>en</strong> för slumpvariabeln<br />
X = Antal ögon tärning<strong>en</strong> visar<br />
utav<br />
p (x) =Pr(X = x) = 1<br />
,<br />
6<br />
x =1, 2, 3, 4, 5, 6<br />
Det följer att väntevärdet för X blir<br />
E (X) =1· 1 1 1 1+2+3+4+5+6<br />
+2· + ···+6· = =<br />
6 6 6 6<br />
21<br />
6 =3.5<br />
dvs i det här fallet blir väntevärdet ett helt vanligt medelvärde eftersom samtliga<br />
variabelvärd<strong>en</strong> är lika sannolika. Vi noterar att det förväntade värdet blir<br />
3.5. ¤<br />
I ovanstå<strong>en</strong>de exempel såg vi att väntevärdet vid kast av <strong>en</strong> tärning är 3.5<br />
(då värdering<strong>en</strong> är det antal ögon tärning<strong>en</strong> visar). Detta är dock ett värde<br />
som aldrig kommer att uppkomma.Väntevärdet skall emellertid inte tolkas<br />
på detta sätt. Väntevärdet är ett populationsmedelvärde, dvs om det hade<br />
41
varit möjligt att mäta samtliga population<strong>en</strong>s individer och sedan beräknat<br />
medelvärdet för dessa på vanligt sätt skulle detta medelvärde över<strong>en</strong>sstämma<br />
med väntevärdet. I tärningsexemplet ovan går det dock inte att mäta<br />
samtliga “individer”, eller tärningskast, eftersom det inte finns någon begränsning<br />
för hur många gånger vi kan kasta tärning<strong>en</strong>. Vad som dock gäller<br />
är att om vi kastar <strong>en</strong> tärning riktigt många gånger kommer medelvärdet<br />
av dessa kast med största sannolikhet att ligga mycket nära väntevärdet<br />
3.5. Stickprovsmedelvärdet x varierar från stickprov till stickprov vilket betyder<br />
att det är <strong>en</strong> slumpvariabel. Innan stickprovet tas skall därför stickprovsmedelvärdet<br />
betecknas X (vilket vi återkommer till lite längre fram).<br />
Populationsmedelvärdet är dock konstant, <strong>en</strong> storhet eller parameter, och<br />
sådana brukar betecknas med grekiska bokstäver. Populationsmedelvärdet<br />
betecknas vanlig<strong>en</strong> med μ (my). För <strong>en</strong> diskret sannolikhetsfördelning har vi<br />
alltså att<br />
μ = E (X) = X x · p (x)<br />
Det är viktigt att man förstår skillnad<strong>en</strong> mellan stickprovsmedelvärdet x och<br />
populationsmedelvärdet μ eftersom båda dessa är viktiga i d<strong>en</strong> statistiska<br />
teorin.<br />
2.2.2 Sannolikhetsfördelning<strong>en</strong>s spridning<br />
Precis som för ett stickprov vill vi dessutom ha ett mått på hur utspridd<br />
sannolikhetsfördelning<strong>en</strong> (eller population<strong>en</strong>) är. För att mäta hur utspridda<br />
observationerna i ett stickprov är används vanlig<strong>en</strong> standardavvikels<strong>en</strong><br />
s<br />
P 2<br />
(x − x)<br />
s =<br />
n − 1<br />
eller dess kvadrat (stickprovs)varians<strong>en</strong><br />
s 2 P 2<br />
(x − x)<br />
=<br />
n − 1<br />
Stickprovsvarians<strong>en</strong> är ett mått på det g<strong>en</strong>omsnittliga kvadratavståndet mellan<br />
observationerna och stickprovsmedelvärdet vilket innebär att motsvarande<br />
spridningsmått för <strong>en</strong> sannolikhetsfördelning bör bli<br />
Var (X) =E ¡ (X − E (X)) 2¢ = E (X − μ) 2<br />
För <strong>en</strong> sannolikhetsfördelning blir således varians<strong>en</strong> det förväntade kvadratavståndet<br />
mellan slumpvariabeln och dess väntevärde (populationsmedelvärdet).<br />
Detta blir då äv<strong>en</strong> populationsvarians<strong>en</strong>, dvs om det hade varit möjligt<br />
42
att få tag i samtliga population<strong>en</strong>s individer och mäta deras g<strong>en</strong>omsnittliga<br />
kvadratavstånd till populationsmedelvärdet skulle vi fått Var(X). Precis<br />
som populationsmedelvärdet är populationsvarians<strong>en</strong> <strong>en</strong> populationsparameter,<br />
dvs <strong>en</strong> konstant storhet, och betecknas med <strong>en</strong> grekisk bokstav. Vi har<br />
alltså att<br />
σ 2 = Var (X) =E (X − μ) 2<br />
Tar vi sedan kvadratrot<strong>en</strong> ur populationsvarians<strong>en</strong> får vi populationsstandardavvikels<strong>en</strong><br />
σ (sigma).<br />
q<br />
σ = E (X − μ) 2<br />
Återig<strong>en</strong> är det viktigt att hålla isär stickprovsstandardavvikels<strong>en</strong> S som är<br />
<strong>en</strong> slumpvariabel och populationsstandardavvikels<strong>en</strong> σ som är <strong>en</strong> populationsparameter<br />
(konstant).<br />
Vi sammanfattar betydels<strong>en</strong> av dessa båda sammanfattande mått för<br />
slumpvariabler. Om vi upprepar slumpförsöket i all oändlighet kommer observationerna<br />
i g<strong>en</strong>omsnitt att ha populationsmedelvärdet μ. Alla observationer<br />
kommer dock inte att ha detta värde (ev<strong>en</strong>tuellt inte några) och populationsstandardavvikels<strong>en</strong><br />
σ anger hur långt från μ observationerna i g<strong>en</strong>omsnitt<br />
kommer att vara.<br />
För att komma fram till hur man skall beräkna varians<strong>en</strong> för X börjar<br />
vi med att förklara lite hur man beräknar väntevärd<strong>en</strong> för funktioner av<br />
slumpvariabler. En funktion av slumpvariabeln X skrivs allmänt som f (X)<br />
och kan t.ex. vara<br />
eller som i vårt fall<br />
f (X)<br />
f (X)<br />
=<br />
=<br />
3+X<br />
√ X<br />
f (X) = 4<br />
X<br />
f (X) =(X − μ) 2<br />
Dvs <strong>en</strong> funktion skapar <strong>en</strong> ny slumpvariabel f (X) g<strong>en</strong>om att matematiskt<br />
manipulera med X. Frågan är hur <strong>en</strong> sådan manipulering påverkar väntevärdet.<br />
Detta beror starkt på funktion<strong>en</strong>s utse<strong>en</strong>de och vi skall se lite längre<br />
fram i detta avsnitt att för sk. linjärfunktioner påverkas väntevärdet på ett<br />
mycket ang<strong>en</strong>ämt sätt. D<strong>en</strong> funktion vi nu studerar är dock ing<strong>en</strong> linjärfunktion<br />
m<strong>en</strong> man skall dock inte bli alltför skärrad, ett väntevärde är ett<br />
43
väntevärde och här skall det beräknas för (X − μ) 2 istället för X. För samtliga<br />
värd<strong>en</strong> x antas nu istället värdet (x − μ) 2 med motsvarande sannolikhet<br />
varför<br />
σ 2 = Var (X) =E (X − μ) 2 = X (x − μ) 2 · p (x)<br />
där summering<strong>en</strong> sker för alla de värd<strong>en</strong> X kan anta.<br />
Exempel 32 IExempel30 med lotteriet fick vi för slumpvariabeln<br />
X = “Återbäring” på <strong>en</strong> slumpmässigt vald lott<br />
att μ =0.9. Skall varians<strong>en</strong> bestämmas beräknas först sannolikhetsfördelning<strong>en</strong><br />
för f (X) =(X − μ) 2 via<br />
vilket ger att<br />
x (x − μ) 2<br />
p (x)<br />
0 (0 − 0.9) 2 =0.81 0.91<br />
2 (2 − 0.9) 2 =1.21 0.05<br />
10 (10 − 0.9) 2 =82.81 0.03<br />
50 (50 − 0.9) 2 =2410.81 0.01<br />
σ 2 = X (x − μ) 2 · p (x) =<br />
= 0.81 · 0.91 + 1.21 · 0.05 + 82.81 · 0.03 + 2410.81 · 0.01 =<br />
= 27.39<br />
och det följer att<br />
σ = √ 27.39 ≈ 5.23<br />
Då vi slumpmässigt drar <strong>en</strong> lott förväntas vi få tillbaka 90 öre på vår satsade<br />
krona. Ing<strong>en</strong> lott kommer dock att ge oss 90 öre tillbaka utan detta är<br />
bara ett mått på vad som i g<strong>en</strong>omsnitt kommer att hända i långa loppet.<br />
Standardavvikels<strong>en</strong> säger oss att i g<strong>en</strong>omsnitt kommer “återbäring<strong>en</strong>” från<br />
<strong>en</strong> slumpmässigt vald lott att avvika från det förväntade värdet med 5 kronor<br />
och 23 öre. Det är d<strong>en</strong> stora spridning<strong>en</strong> som gör att vi blir lockade att<br />
delta i dylika spel m<strong>en</strong> d<strong>en</strong> förväntade förlust<strong>en</strong> för lott-kund<strong>en</strong> försäkrar dock<br />
spelbolag<strong>en</strong> om vinst i långa loppet. ¤<br />
Exempel 33 Vi återgår åter till tärningsexempl<strong>en</strong> där det för slumpvariabeln<br />
X = Antal ögon tärning<strong>en</strong> visar<br />
44
visade sig att μ = E (X) =3.5. Viharatt<br />
och det följer därmed att<br />
x (x − μ) 2<br />
p (x)<br />
1 (1 − 3.5) 2 =6.25 1/6<br />
2 (2 − 3.5) 2 =2.25 1/6<br />
3 (3 − 3.5) 2 =0.25 1/6<br />
4 (4 − 3.5) 2 =0.25 1/6<br />
5 (5 − 3.5) 2 =2.25 1/6<br />
6 (6 − 3.5) 2 =6.25 1/6<br />
σ 2 = X (x − μ) 2 · p (x) =6.25 · 1 1<br />
1<br />
+2.25 · + ···+6.25 ·<br />
6 6 6 =<br />
= 17.5<br />
6<br />
35<br />
= ≈ 2.92<br />
12<br />
och det följer att<br />
r<br />
35<br />
σ = ≈ 1.71<br />
12<br />
Kastar vi <strong>en</strong> tärning ett mycket stort antal gånger kommer vi i g<strong>en</strong>omsnitt<br />
att få värdet 3.5. Nu vet vi dock att vi i ett <strong>en</strong>skilt kast aldrig kommer att få<br />
3.5 och standardavvikels<strong>en</strong> anger att kast<strong>en</strong> i g<strong>en</strong>omsnitt kommer att avvika<br />
från 3.5 med 1.71. ¤<br />
Som vi skall se längre fram är <strong>en</strong> sannolikhetsfördelnings medelvärde och<br />
varians/standardavvikelse oumbärliga vid analys av statistiska datamaterial.<br />
Uttrycket<br />
σ 2 = E (X − μ) 2<br />
(2)<br />
används framförallt för förståelse av vad varians<strong>en</strong> innebär. Vid praktiska<br />
beräkningar är d<strong>en</strong> dock något klumpig och det finns ett mer effektivt beräkningssätt.<br />
Vi har nämlig<strong>en</strong> att<br />
Var (X) =E ¡ X 2¢ − μ 2<br />
En förklaring till detta samband ges i App<strong>en</strong>dix A.1. Vad är det då som har<br />
blivit <strong>en</strong>klare? I båda uttryck<strong>en</strong> måste först μ beräknas så jämförels<strong>en</strong> skall<br />
göras mellan E (X − μ) 2 och E (X 2 ) där d<strong>en</strong> s<strong>en</strong>are är klart fördelaktig vid<br />
praktiska beräkningar.<br />
45
Exempel 34 Vi fortsätter åter med tärningsexemplet.<br />
x x 2 p (x)<br />
1 1 2 =1 1/6<br />
2 2 2 =4 1/6<br />
3 3 2 =9 1/6<br />
4 4 2 =16 1/6<br />
5 5 2 =25 1/6<br />
6 6 2 =36 1/6<br />
vilket innebär att sannolikhetsfördelning<strong>en</strong> för X 2 blir<br />
och därmed att<br />
Pr ¡ X 2 = x ¢ = 1<br />
, x =1, 4, 9, 16, 25, 36<br />
6<br />
E ¡ X 2¢ =1· 1 1<br />
1 1+4+···+36<br />
+4· + ···+36· = =<br />
6 6 6 6<br />
91<br />
≈ 15.17<br />
6<br />
Dvs om man kastar <strong>en</strong> tärning ett mycket stort (oändligt) antal gånger och<br />
hela tid<strong>en</strong> kvadrerar utfall<strong>en</strong> kommer man i g<strong>en</strong>omsnitt att få 15.17. Nufår<br />
vi varians<strong>en</strong> till<br />
σ 2 = E ¡ X 2¢ − μ 2 = 91<br />
6 − 3.52 = 35<br />
≈ 2.92<br />
12<br />
precis som tidigare. ¤<br />
2.2.3 Övningsuppgifter<br />
Uppgift 21 Lös uppgift 304.<br />
Uppgift 22 Beräkna medelvärde och varians/standardavvikelse för slumpvariabeln<br />
Y iExempel29. Tolka dessa värd<strong>en</strong>.<br />
2.3 Linjärfunktioner av slumpvariabler<br />
För att bestämma E (X − μ) 2 och E (X 2 ) måstevigåinidetaljochförst<br />
bestämma sannolikhetsfördelningarna för funktionerna f (X) = (X − μ) 2<br />
och f (X) =X 2 . Dessa sannolikhetsfördelningar beräknas utifrån motsvarande<br />
sannolikhetsfördelning för X. Om det <strong>en</strong>da ändamålet med d<strong>en</strong> aktuella funktion<strong>en</strong><br />
är att bestämma väntevärde och varians vore det dock <strong>en</strong> rejäl för<strong>en</strong>kling<br />
om vi istället direkt kunde använda att vi redan känner väntevärde och<br />
varians för X. D<strong>en</strong>na möjlighet finns inte för alla typer av funktioner, t.ex.<br />
46
går inte detta för de båda funktionerna ovan, m<strong>en</strong> för linjärfunktioner behöver<br />
<strong>en</strong> ny sannolikhetsfördelning inte bestämmas. En linjärfunktion (eller<br />
linjärtransformation) av X är <strong>en</strong> funktion på form<strong>en</strong><br />
f (X) =a + bX<br />
där a och b är konstanter, dvs vanliga reella tal. Då gäller nämlig<strong>en</strong> att<br />
E (a + b · X) = a + b · E (X) (3)<br />
Var (a + b · X) = b 2 · Var (X)<br />
En matematisk förklaring till dessa båda formler ges i App<strong>en</strong>dix A.2. Här ges<br />
istället <strong>en</strong> mer intuitiv förklaring. Att addera <strong>en</strong> slumpvariabel med konstant<strong>en</strong><br />
a innebär att hela population<strong>en</strong> flyttas på talaxeln som i figur<strong>en</strong> nedan<br />
μ a+μ<br />
a<br />
Eftersom populationsmedelvärdet är ett mått på var “mittpunkt<strong>en</strong>” är beläg<strong>en</strong><br />
är det då inte överraskande att äv<strong>en</strong> detta flyttas a steg, dvs<br />
E (a + X) =a + E (X)<br />
En sådan flytt påverkar däremot inte population<strong>en</strong>s spridning varför det bör<br />
gälla att<br />
Var (a + X) =Var (X)<br />
Om vi istället multiplicerar <strong>en</strong> slumpvariabel med <strong>en</strong> konstant b påverkas<br />
både population<strong>en</strong>s position och dess spridning vilket framgår av figur<strong>en</strong><br />
nedan<br />
μ b* μ<br />
47
Varje individs värde multipliceras med b vilket äv<strong>en</strong> borde påverka medelvärdet<br />
på samma sätt, dvs<br />
E (b · X) =b · E (X)<br />
Spridning<strong>en</strong> påverkas på samma sätt m<strong>en</strong> eftersom varians<strong>en</strong> mäter kvadrerade<br />
avstånd kommer<br />
Var (b · X) =b 2 · Var (X)<br />
Slår vi nu ihop dessa intuitiva formler får vi vad som angavs ovan.<br />
Exempel 35 Vi tar åter <strong>en</strong> titt på lotteriet i Exempel 30. För slumpvariabeln<br />
X = “Återbäring” på <strong>en</strong> slumpmässigt vald lott<br />
fann vi där att μ =0.9, dvsd<strong>en</strong>förväntadeåterbäring<strong>en</strong>på<strong>en</strong>lottär90<br />
öre. Antag nu att vi istället vill bestämma d<strong>en</strong> förväntade vinst<strong>en</strong>. En lott<br />
kostar <strong>en</strong> krona och antag dessutom att det tillkommer 30% vinstskatt vid <strong>en</strong><br />
ev<strong>en</strong>tuell vinst. Å andra sidan får vi tillbaks 30% i“förlustskatt”omviskulle<br />
få <strong>en</strong> nitlott. Låt nu<br />
Y = Vinst på <strong>en</strong> slumpmässigt vald lott<br />
Hur skall då Y beskrivas? Vinst<strong>en</strong> är lottutfallet minus lottpriset, dvs X − 1.<br />
De gällande skattereglerna ger sedan att vi får behålla 70% av detta vilket<br />
innebär att Y bör bli<br />
Y =0.7 · (X − 1)<br />
När vi nu skall beräkna d<strong>en</strong> förväntade vinst<strong>en</strong>, dvs E (Y ), harvinyttaav<br />
att Y är <strong>en</strong> linjärfunktion av X. Detta inses via omskrivning<strong>en</strong><br />
Y =0.7 · (X − 1) = −0.7+0.7 · X<br />
Vi har alltså att Y = a + b · X där a = −0.7 och b =0.7. Det följer således<br />
att<br />
E (Y )=−0.7+0.7 · 0.9 =−0.07<br />
dvs vi har <strong>en</strong> förväntad förlust på 7 öre då vi köper <strong>en</strong> lott. För att någon<br />
skall lockas till att köpa lotter måste det vara <strong>en</strong> stor spridning på vinst<strong>en</strong><br />
och vi får att<br />
Var (Y )=0.7 2 · 27.39 = 13.42<br />
och det följer att<br />
σ (Y )= √ 13.42 = 3.66<br />
dvs i g<strong>en</strong>omsnitt skiljer sig vinst<strong>en</strong> på <strong>en</strong> slumpmässigt vald lott med 3 kronor<br />
och 66 öre. ¤<br />
48
Låt X vara <strong>en</strong> slumpvariabel med väntevärde μ och standardavvikelse σ.<br />
En av de allra viktigaste linjärfunktionerna är d<strong>en</strong> standardiserade slump-<br />
variabeln<br />
X − μ<br />
Z =<br />
σ<br />
Man brukar normalt reservera bokstav<strong>en</strong> Z för just d<strong>en</strong>na linjärfunktion.<br />
Vad är det då för speciellt med d<strong>en</strong>na slumpvariabel? Skriver vi om uttrycket<br />
något ser vi att<br />
X − μ 1<br />
Z = = −μ + · X<br />
σ<br />
är <strong>en</strong> linjärfunktion med a = − μ<br />
σ<br />
gäller således att<br />
och<br />
och b = 1<br />
σ<br />
σ σ<br />
. Utifrån räknereglerna för dessa<br />
E (Z) =− μ 1<br />
μ<br />
+ · E (X) =−μ +<br />
σ σ σ σ =0<br />
Var (Z) =<br />
µ 2<br />
1<br />
σ<br />
· Var (X) = σ2<br />
=1<br />
σ2 och det följer att<br />
σ (Z) = √ 1=1<br />
Dvs Z är <strong>en</strong> slumpvariabel med väntevärde 0 och standardavvikelse 1.G<strong>en</strong>om<br />
att med X − μ subtrahera slumpvariabelns medelvärde från slumpvariabeln<br />
flyttar vi hela sannolikhetsfördelning<strong>en</strong> så att dess medelvärde istället hamnar<br />
i origo (nollpunkt<strong>en</strong>). G<strong>en</strong>om att sedan dividera med standardavvikels<strong>en</strong><br />
“pressar vi ihop” (σ >1) eller “drar vi isär” (σ
där för X ett Ja värderas till 1 och ett Nej till 0. Eftersom vi väljer slumpmässigt<br />
bland population<strong>en</strong>s individer blir sannolikhetsfördelning<strong>en</strong> för X<br />
Vi räknar nu snabbt och lätt ut att<br />
x p (x)<br />
0 1 − π<br />
1 π<br />
E (X) =0· (1 − π)+1· π = π<br />
och<br />
E ¡ X 2¢ =0 2 · (1 − π)+1 2 · π = π<br />
Beräkningsformeln för varians<strong>en</strong> ger sedan att<br />
Var (X) =E ¡ X 2¢ − μ 2 = π − π 2 = π · (1 − π)<br />
För <strong>en</strong> tvåpunktsfördelad variabel gäller således att medelvärdet är π och<br />
varians<strong>en</strong> är π · (1 − π) vilket är ett viktigt resultat som vi skall använda oss<br />
av <strong>en</strong> hel del. (Jämför detta resultat med det i Uppgift 22.)<br />
Nu väljer vi dock sällan bara <strong>en</strong> individ ur population<strong>en</strong> utan stickprovet<br />
kommer att bestå av n dragna individer. D<strong>en</strong> slumpvariabel vi då kommer<br />
att vara intresserade av är<br />
p = Andel individer med eg<strong>en</strong>skap<strong>en</strong> i stickprovet<br />
dvs stickprovsandel<strong>en</strong>. Återig<strong>en</strong> har vi <strong>en</strong> viktig distinktion mellan p som<br />
är <strong>en</strong> slumpvariabel eftersom d<strong>en</strong> varierar från stickprov till stickprov och π<br />
som är <strong>en</strong> populationsparameter (<strong>en</strong> konstant). Då vi studerar dom sannolikhetsmässiga<br />
eg<strong>en</strong>skaperna hos p för<strong>en</strong>klar vi dock situation<strong>en</strong> något och<br />
studerar istället<br />
X = Antal individer med eg<strong>en</strong>skap<strong>en</strong> i stickprovet<br />
Vi ser att<br />
p = X<br />
n<br />
dvs p är <strong>en</strong> <strong>en</strong>kel linjärfunktion av X och resultat för X överförs därför <strong>en</strong>kelt<br />
till p.<br />
Hur ser då sannolikhetsfördelning<strong>en</strong> för X ut? Något kryptiskt uttryckt<br />
beror detta på om population<strong>en</strong> är ändlig eller oändlig. Något annorlunda<br />
uttryckt beror sannolikhetsfördelning<strong>en</strong> för X på om förutsättningarna<br />
50
förändras från dragning till dragning under urvalsprocess<strong>en</strong>. Vi har här möjlighet<br />
att effektivt använda oss av de metoder vi använde i samband med<br />
kombinatorik<strong>en</strong> i avsnitt 1.5. Population<strong>en</strong> kan här ses som <strong>en</strong> urna med<br />
bollar i två färger. Vi kan t.ex. låta vita bollar repres<strong>en</strong>tera individer med<br />
eg<strong>en</strong>skap<strong>en</strong> och svarta bollar repres<strong>en</strong>tera individer utan eg<strong>en</strong>skap<strong>en</strong>. Andel<strong>en</strong><br />
vita bollar i urnan är π och uppgift<strong>en</strong> är att välja ut n bollarururnan<br />
och räkna hur många vita bollar vi fick. Med språkbruk från kombinatorik<strong>en</strong><br />
översätts oändlig och ändlig population till om det är dragning med eller utan<br />
återläggning. Dragning med återläggning är samma som att population<strong>en</strong> är<br />
oändlig, dvs urnans sammansättning förblir oförändrad efter varje dragning.<br />
Exempel 36 Antag att vi skall kasta <strong>en</strong> tärning ett antal gånger och räkna<br />
antalet erhållna sexor. Varje gång vi kastar tärning<strong>en</strong> är det exakt samma<br />
förutsättningar som vid kastet innan, dvs exakt <strong>en</strong> sjättedels chans att få <strong>en</strong><br />
sexa. Vid tärningskast förändras alltså inte urnans sammansättning vilket<br />
innebär att det är fråga om dragning med återläggning. ¤<br />
Exempel 37 Betrakta <strong>en</strong> tombola med tio lotter varav <strong>en</strong>dast <strong>en</strong> är <strong>en</strong> vinstlott.<br />
En person står framför dig och du är förstås oerhört intresserad av<br />
huruvida d<strong>en</strong>ne drar vinstlott<strong>en</strong>. Vi betraktar <strong>en</strong> urna med tio bollar, <strong>en</strong> vit<br />
och nio svarta. Dragning sker utan återläggning, vilket innebär att förutsättningarna<br />
förändras efter varje dragning. ¤<br />
Vi behandlar de båda situationerna separat och avslutar sedan med <strong>en</strong><br />
diskussion om samband<strong>en</strong> dem emellan.<br />
2.4.1 Binomialfördelning<strong>en</strong><br />
Vi studerar nu <strong>en</strong> situation där vi från <strong>en</strong> oändligt stor population skall välja<br />
ut n individer och räkna hur många av dessa som har <strong>en</strong> viss eg<strong>en</strong>skap. Ur<br />
<strong>en</strong> urna där andel<strong>en</strong> vita bollar är π skall vi således med återläggning välja<br />
n bollar och studera slumpvariabeln<br />
X = Antalet vita bollar i urvalet<br />
Hur ser då sannolikhetsfördelning<strong>en</strong> för X ut? Låt oss börja med ett <strong>en</strong>kelt<br />
exempel.<br />
Exempel 38 En viss urna innehåller fem bollar där fyra är vita och <strong>en</strong> är<br />
svart. Ur d<strong>en</strong>na urna skall vi med återläggning välja tre bollar och sedan räkna<br />
antalet vita bollar. Tar vi hänsyn till d<strong>en</strong> ordning bollarna dras finns det<br />
åtta utfall vilka åskådliggörs i figur<strong>en</strong> nedan<br />
51
S<br />
VSS<br />
SSS<br />
SVS<br />
SSV<br />
SVV<br />
Nu är vi dock inte intresserade av i vilk<strong>en</strong> ordning bollarna valts utan <strong>en</strong>bart<br />
av hur många av dom som är vita. Med avse<strong>en</strong>de på slumpvariabeln X får vi<br />
därför följande uppdelning av utfallsrummet<br />
X=0<br />
X=1<br />
S<br />
VSS<br />
SSS<br />
SVS<br />
SSV<br />
SVV<br />
ochviserförstochfrämstattX kan anta värd<strong>en</strong>a 0, 1, 2 och 3. Dessafyra<br />
värd<strong>en</strong> skall nu associeras med sannolikheter och då måste vi först vara medvetna<br />
om att utfall<strong>en</strong> inte är lika sannolika. I det här fallet är t.ex. utfallet<br />
VVV mer sannolikt än SSS eftersom det finns fler vita än svarta bollar i<br />
urnan. Eftersom <strong>en</strong> drag<strong>en</strong> boll direkt återförs till urnan kommer vi i varje<br />
dragning ha exakt samma förutsättningar, dvs<br />
VSV<br />
VSV<br />
VVS<br />
VVV<br />
VVS<br />
VVV<br />
X=2<br />
X=3<br />
Pr (D<strong>en</strong>dragnaboll<strong>en</strong>ärvit) = 4<br />
5 =0.8<br />
Pr (D<strong>en</strong> dragna boll<strong>en</strong> är svart) = 1<br />
5 =0.2<br />
och det följer att<br />
52
Utfall<br />
SSS<br />
VSS<br />
SVS<br />
SSV<br />
VVS<br />
VSV<br />
SVV<br />
VVV<br />
eller i utskriv<strong>en</strong> form<br />
¤<br />
Sannolikhet<br />
3<br />
0.2*0.2*0.2=0.2<br />
2<br />
0.8*0.2*0.2=0.8*0.2<br />
2<br />
0.2*0.8*0.2=0.8*0.2<br />
2<br />
0.2*0.2*0.8=0.8*0.2<br />
2<br />
0.8*0.8*0.2=0.8 *0.2<br />
2<br />
0.8*0.8*0.2=0.8 *0.2<br />
2<br />
0.8*0.8*0.2=0.8 *0.2<br />
3<br />
0.8*0.8*0.8=0.8<br />
Värdering (X)<br />
x p (x)<br />
0 0.008<br />
1 0.096<br />
2 0.384<br />
3 0.512<br />
0<br />
1<br />
2<br />
3<br />
Slh-fördelning<br />
3<br />
Pr(X=0)=0.2<br />
2<br />
Pr(X=1)=3*0.8*0.2<br />
2<br />
Pr(X=2)=3*0.8 *0.2<br />
3<br />
Pr(X=3)=0.8<br />
Då vi skall finna d<strong>en</strong> allmänna sannolikhetsfördelning<strong>en</strong> finns det <strong>en</strong> hel<br />
del intressanta iakttagelser att göra från föregå<strong>en</strong>de exempel. Då vi allmänt<br />
skall dra n bollar ser vi t.ex. att möjliga värd<strong>en</strong> på X är x =0, 1, 2,...,n.<br />
Samtidigt ser vi att följder som innehåller exakt lika många vita bollar alla<br />
är lika sannolika. För <strong>en</strong> urna där andel<strong>en</strong> vita bollar är π gäller att <strong>en</strong> viss<br />
följd som innehåller x vita bollar har sannolikhet<strong>en</strong><br />
π x · (1 − π) n−x<br />
eftersom dom resterande n − x bollarna följaktlig<strong>en</strong> måste vara svarta. För<br />
att kunna beräkna sannolikhet<strong>en</strong> att få <strong>en</strong> följd med x vita bollar återstår<br />
då <strong>en</strong>dast att bestämma hur många sådana följder det finns. Detta är lite<br />
besvärligare och kräver lite eftertanke. Vi tänker oss urvalet som n positioner<br />
som skall fyllas i med anting<strong>en</strong> ett S eller ett V . För att det skall bli exakt<br />
x vita bollar måste vi således välja ut exakt x av dessa positioner och i<br />
dessa placera ett V . På hur många sätt kan detta göras? Det är dragning<br />
utan återläggning eftersom varje position <strong>en</strong>dast kan innehålla <strong>en</strong> boll (dvs<br />
<strong>en</strong>bart <strong>en</strong> boll dras varje gång). Det är dragning utan hänsyn till ordning<strong>en</strong><br />
eftersom vi <strong>en</strong>bart är intresserade av vilka x positioner som blivit valda (och<br />
53
inte i vilk<strong>en</strong> ordning dom blev valda). Kombinatorik<strong>en</strong>s räkneregler ger oss<br />
därmed att vi söker antalet kombinationer, dvs<br />
µ <br />
n<br />
Cn,x =<br />
x<br />
Följaktlig<strong>en</strong> får vi sannolikhet<strong>en</strong> att få exakt x vita bollar till<br />
µ <br />
n<br />
p (x) =Pr(X = x) = · π<br />
x<br />
x · (1 − π) n−x , x =0, 1, 2,...,n<br />
Eftersom d<strong>en</strong>na sannolikhetsfördelning är vanligt förekommande i praktik<strong>en</strong><br />
har d<strong>en</strong> fått ett eget namn och <strong>en</strong> eg<strong>en</strong> beteckning. D<strong>en</strong> kallas för binomialfördelning<strong>en</strong><br />
och betecknas Bi(n, π).<br />
Exempel 39 Antag att vi slumpmässigt fyller i <strong>en</strong> <strong>en</strong>kelrad på <strong>en</strong> stryktipskupong.<br />
Det är tretton matcher som skall fyllas i med anting<strong>en</strong> 1, X eller<br />
2. Endast ett av dessa teck<strong>en</strong> är rätt vilket kan översättas till <strong>en</strong> urna med<br />
<strong>en</strong>dast tre bollar där <strong>en</strong> är vit (korrekt tipsteck<strong>en</strong>) och två är svarta (fel tipsteck<strong>en</strong>).<br />
Ur urnan dras med återläggning tretton bollar och vi räknar antalet<br />
erhållna vita bollar, eller ekvival<strong>en</strong>t<br />
X = Antal rätt på tipskupong<strong>en</strong><br />
Eftersom samtliga förutsättningar är uppfyllda följer att X är binomialfördelad<br />
med parametrar n =13och π =1/3. DvsXär Bi ¡ 13, 1<br />
¢<br />
och 3<br />
µ µ x µ n−x<br />
13 1 2<br />
p (x) =Pr(X = x) =<br />
, x =0, 1, 2,...,13<br />
x 3 3<br />
Vi finner nu t.ex. att sannolikhet<strong>en</strong> att få tio rätt ges av<br />
µ µ 10 µ 3<br />
13 1 2<br />
p (10) = Pr (X =10)=<br />
≈ 0.0014<br />
10 3 3<br />
dvs ungefär 0.14% chans. En rad med tio rätt kan ha följande utse<strong>en</strong>de<br />
1 2 3 4 5 6 7 8 9 10 11 12 13<br />
54
och <strong>en</strong> sådan rad har sannolikhet<strong>en</strong><br />
µ<br />
1<br />
3<br />
10<br />
·<br />
µ 3<br />
2<br />
3<br />
Nu bryr vi oss dock inte om vilka tio matcher vi har tippat rätt utan <strong>en</strong>bart<br />
att vi har tio rätt. Det finns ¡ ¢ 13<br />
olika sätt att tippa tio matcher rätt (eller<br />
10<br />
tre matcher fel) och därav d<strong>en</strong> angivna sannolikhet<strong>en</strong>. ¤<br />
I sannolikhetssammanhang är man ofta intresserade av frågor som “Bestäm<br />
sannolikhet<strong>en</strong> att åtminstone x av bollarna är vita” eller “Bestäm sannolikhet<strong>en</strong><br />
att högst x av bollarna är vita”. Sådana frågor besvaras med hjälp<br />
av d<strong>en</strong> sk. fördelningsfunktion<strong>en</strong><br />
xX<br />
F (x) =Pr(X≤x) = p (k)<br />
Fördelningsfunktion<strong>en</strong> summerar således samtliga sannolikheter p (k) upp till<br />
och med ett visst angivet värde x. Viharsåledesatt<br />
F (x) =Sannolikhet<strong>en</strong> att högst x av de dragna bollarna är vita<br />
För att beräkna d<strong>en</strong> andra sannolikhet<strong>en</strong> använder vi oss av komplem<strong>en</strong>tregeln<br />
Pr (X ≥ x) = Sannolikhet<strong>en</strong> att åtminstone x av de dragna bollarna är vita =<br />
= 1−Sannolikhet<strong>en</strong> att högst x − 1 av de dragna bollarna är vita =<br />
= 1−F (x − 1)<br />
I nästa exempel är det dock <strong>en</strong> omväg att gå via fördelningsfunktion<strong>en</strong>.<br />
Exempel 40 Vi fortsätter med Exempel 39. Vanligtvis blir det vinst om man<br />
åtminstone har tio rätt och vi söker därför<br />
k=0<br />
Pr (Vinst) =Pr(X ≥ 10) = 1 − Pr (X ≤ 9) = 1 − F (9)<br />
I fördelningsfunktion<strong>en</strong> ingår tio termer, p (0) ,p(1) ,...,p(9) och det är därför<br />
<strong>en</strong>klare att gå andra väg<strong>en</strong>, dvs att direkt beräkna<br />
Pr (Vinst) =<br />
=<br />
Pr(X≥10) = p (10) + p (11) + p (12) + p (13) =<br />
µ µ 10 µ 3 µ µ 13 µ 0<br />
13 1 2<br />
13 1 2<br />
+ ···+<br />
=<br />
10 3 3<br />
13 3 3<br />
= 0.00165<br />
dvs ungefär 0.165% chans. ¤<br />
55
Man inser snart att äv<strong>en</strong> med miniräknar<strong>en</strong> till hjälp blir beräkningarna<br />
snabbt betungande. Ibland kan vi ta hjälp av sannolikhetstabeller över<br />
binomialfördelning<strong>en</strong>. Se t.ex. Tabell 1 i “Körner: Tabeller och formler för statistiska<br />
beräkningar”. Här återges binomialfördelning<strong>en</strong>s fördelningsfunktion<br />
för några olika binomialfördelningar; n =2, 3,...,20 och π =0.1, 0.2,...,0.9.<br />
Binomialfördelning<strong>en</strong> som förknippades med tipskupong<strong>en</strong> finns alltså inte<br />
här och våra beräkningar ovan var nödvändiga.<br />
Exempel 41 För Exempel 38 ovan finns dock sannolikhetsfördelning<strong>en</strong> med<br />
i tabellsamling<strong>en</strong>. Det gäller att<br />
X = Antalet vita bollar i urvalet<br />
är Bi(3, 0.8) och vi ser från tabell<strong>en</strong> att<br />
x p (x) F (x)<br />
0 0.008 0.008<br />
1 0.096 0.104<br />
2 0.384 0.488<br />
3 0.512 1.000<br />
och det är lätt konstaterat att dessa sannolikheter stämmer överr<strong>en</strong>s med de<br />
tidigare beräkningarna.<br />
Exempel 42 Antag att vi i föregå<strong>en</strong>de exempel istället med återläggning drar<br />
20 bollar ur urnan. Då kommer X att vara Bi(20, 0.8) som också finns angiv<strong>en</strong><br />
i Tabell 1. Antag vidare att vi vill att åtminstone 14 av de dragna bollarna<br />
skall vara vita samt att åtminstone <strong>en</strong> av bollarna är svart. Vi söker således<br />
Pr (14 ≤ X ≤ 19)<br />
vilket skrivs om i “tabellvänligt skick” via fördelningsfunktion<strong>en</strong><br />
Pr (14 ≤ X ≤ 19) = F (19) − F (13) = 0.9885 − 0.0867 = 0.9018<br />
dvs ungefär 90% chans. För att utifrån tabell<strong>en</strong> bestämma sannolikhet<strong>en</strong> för<br />
<strong>en</strong>staka värd<strong>en</strong> som Pr (X =14)gör vi följande omskrivning<br />
Pr (X =14) = Pr(X≤14) − Pr (X ≤ 13) = F (14) − F (13) =<br />
= 0.1958 − 0.0867 = 0.1091<br />
vilket också kunde beräknats via<br />
¤<br />
Pr (X =14)=<br />
µ <br />
20<br />
· 0.8<br />
14<br />
14 · 0.2 6 =0.1091<br />
56
Tabell<strong>en</strong> är ofta användbar m<strong>en</strong> räcker inte på långa vägar till för alla<br />
de situationer där binomialfördelning<strong>en</strong> dyker upp. Vi skall dock se att<br />
då de manuella beräkningarna blir alltför betungande finns det oftast goda<br />
approximationsmöjligheter.<br />
Väntevärd<strong>en</strong> för binomialfördelning<strong>en</strong> 5 Det återstår nu <strong>en</strong>bart att<br />
finna de båda sammanfattande mått<strong>en</strong> för binomialfördelning<strong>en</strong>. Vi såg tidigare<br />
att då vi <strong>en</strong>bart drog <strong>en</strong> boll ur urnan och studerade slumpvariabeln<br />
följde att<br />
X = Var boll<strong>en</strong> vit?<br />
μ = E (X) =π<br />
σ 2 = Var (X) =π · (1 − π)<br />
Med beteckningarna ovan gäller således att dessa är de båda sammanfattande<br />
mått<strong>en</strong> för Bi(1,π). Hur många vita bollar förväntar vi oss då om vi<br />
med samma förutsättningar vid varje dragning drar n bollarururnan?Föga<br />
överraskande får vi svaret<br />
π + π + ···+ π = n · π<br />
Samma eg<strong>en</strong>skaper visar sig gälla för varians<strong>en</strong>, dvs<br />
π · (1 − π)+π · (1 − π)+···+ π · (1 − π) =n · π · (1 − π)<br />
För Bi(n, π) gäller således att<br />
μ = E (X) =n · π<br />
σ 2 = Var (X) =n · π · (1 − π)<br />
Här bör man observera att samma addering inte kan utföras för standardavvikelserna.<br />
Exempel 43 Vi återgår till Exempel 39 där vi konstaterade att slumpvariabeln<br />
X = Antal rätt på kupong<strong>en</strong><br />
5 De matematiskt korrekta bevis<strong>en</strong> för dessa väntevärd<strong>en</strong> är besvärliga m<strong>en</strong> återges för<br />
d<strong>en</strong> intresserade och något matematiskt bevandrade läsar<strong>en</strong> i Avsnitt B.1.<br />
57
var Bi ¡ 13; 1<br />
¢<br />
. Det följer således att<br />
3<br />
och följaktlig<strong>en</strong><br />
μ = E (X) =13· 1<br />
3 =4.33<br />
σ 2 = Var (X) =13· 1 2<br />
·<br />
3 3 =2.89<br />
σ = √ 2.89 = 1.7<br />
Om vi låter slump<strong>en</strong> fylla i <strong>en</strong> <strong>en</strong>kelrad på stryktipset förväntas vi få 4.33<br />
rätt med <strong>en</strong> standardavvikelse på 1.7 rätt. Vi kan givetvis inte få exakt 4.33<br />
rätt och istället tolkar vi väntevärdet på följande sätt. Låter vi slump<strong>en</strong> välja<br />
<strong>en</strong>kelrad vid upprepade tillfäll<strong>en</strong> kommer vi i g<strong>en</strong>omsnitt att få 4.33 rätt. Vi<br />
får dock inte exakt lika många rätt varje gång utan resultat<strong>en</strong> kommer att<br />
avvika från väntevärdet 4.33 med i g<strong>en</strong>omsnitt 1.7 rätt. ¤<br />
Vi sammanfattar binomialfördelning<strong>en</strong>s eg<strong>en</strong>skaper som<br />
Sammanfattning 1 (Binomialfördelning<strong>en</strong>) Drag med återläggning n bollar<br />
ur <strong>en</strong> urna där andel<strong>en</strong> vita bollar är π och studera slumpvariabeln<br />
Då gäller att<br />
och<br />
¥<br />
p (x) =Pr(X = x) =<br />
X = Antalet vita bollar i urvalet<br />
µ <br />
n<br />
π<br />
x<br />
x · (1 − π) n−x , x =0, 1, 2,...,n<br />
μ = E (X) =n · π<br />
σ 2 = Var (X) =n · π · (1 − π)<br />
2.4.2 Hypergeometrisk fördelning<br />
Vi studerar nu <strong>en</strong> situation där vi utan återläggning från <strong>en</strong> ändlig population<br />
skall välja ut n individer och räkna hur många av dessa som har <strong>en</strong><br />
viss eg<strong>en</strong>skap. Ur <strong>en</strong> urna där andel<strong>en</strong> vita bollar är π skallvisåledesutan<br />
återläggning välja n bollar och studera slumpvariabeln<br />
X = Antalet vita bollar i urvalet<br />
58
D<strong>en</strong> <strong>en</strong>da skillnad<strong>en</strong> jämfört med binomialfördelning<strong>en</strong> är alltså att det nu är<br />
dragning utan återläggning. Eftersom π inte kommer att vara samma under<br />
hela dragsekv<strong>en</strong>s<strong>en</strong> måste n och π kompletteras med <strong>en</strong> tredje parameter<br />
N = Antalet bollar i urnan<br />
dvs populationsstorlek<strong>en</strong>. Det följer nu att<br />
N · π = Antalet vita bollar i urnan<br />
N − N · π = Antalet svarta bollar i urnan<br />
Hur ser då sannolikhetsfördelning<strong>en</strong> för X ut? Återig<strong>en</strong> är tillvägagångssättet<br />
besvärligt och det krävs <strong>en</strong> del eftertanke för att förstå procedur<strong>en</strong>. För att<br />
underlätta låter vi samtliga bollar vara numrerade.<br />
v1,v2,...,vN·π,s1,s2,...,sN−N·π<br />
På detta sätt kan vi nämlig<strong>en</strong> se skillnad på alla bollarna och eftersom urvalet<br />
sker helt slumpmässigt kommer varje dragsekv<strong>en</strong>s bestå<strong>en</strong>de av n bollar att<br />
vara lika sannolika. Vi kan då använda resultat (1) på sidan 12 som säger att<br />
Pr (X = x) =<br />
Antal följder med exakt x vita bollar<br />
Antal följder<br />
Itäljar<strong>en</strong>skallviberäknapåhurmångasättnbollar kan väljas ur urnan<br />
så att exakt x av dem är vita. Utav de N · π vita bollarna skall således x<br />
väljas och av de N − N · π svarta bollarna skall de resterande n − x bollarna<br />
väljas. Det är dragning utan återläggning och utan hänsyn till ordning<strong>en</strong><br />
varför kombinatorik<strong>en</strong> ger oss att svaret blir<br />
Pr (X = x) =<br />
¡ ¢¡ N·π N−N·π<br />
x n−x<br />
¡ N<br />
n<br />
¢<br />
¢ , x =0, 1, 2,...,n<br />
förutsatt att det finns tillräckligt med vita och svarta bollar i urnan. Äv<strong>en</strong><br />
detta är <strong>en</strong> i praktik<strong>en</strong> ofta förekommande sannolikhetsfördelning och har<br />
därför äv<strong>en</strong> d<strong>en</strong> ett eget namn och beteckning. Sannolikhetsfördelning<strong>en</strong><br />
kallas för hypergeometrisk fördelning och betecknas Hyp(n, π, N) 6 .<br />
Exempel 44 Antag att vi fyller i <strong>en</strong> <strong>en</strong>kelrad på <strong>en</strong> lottokupong, dvs utav<br />
de 35 numr<strong>en</strong> väljer vi ut 7. Vid dragning<strong>en</strong> skall maskin<strong>en</strong> DraKula utan<br />
6 En annan vanlig beteckning på hypergeometrisk fördelning är Hyp(n, N · π,N), där<br />
man således istället för andel vita bollar i urnan anger antal vita bollar i urnan.<br />
59
återläggning välja 7 bollar. Utifrån vår lottorad är det nu 7 vita och 28 svarta<br />
bollar i urnan. Låter vi nu<br />
X = Antal rätt på lottokupong<strong>en</strong><br />
följer att X är Hyp ¡ 7, 7<br />
35 , 35¢ . sannolikhet<strong>en</strong> att få sex rätt ges därför av<br />
¢<br />
Pr (X =6)=<br />
eller ungefär <strong>en</strong> chans på 34 309. ¤<br />
¡ ¢¡ 7 28<br />
6 1 ¡ 35<br />
7<br />
¢ ≈ 0.000029<br />
Exempel 45 Vid <strong>en</strong> statistisk kvalitetskontroll undersöks fem <strong>en</strong>heter valda<br />
på måfå från <strong>en</strong> förpackning med 60 <strong>en</strong>heter. Om någon av de valda <strong>en</strong>heterna<br />
är felaktig avvisas hela förpackning<strong>en</strong>. Antag att förpackning<strong>en</strong> innehåller 10<br />
felaktiga <strong>en</strong>heter. Bestäm sannolikhet<strong>en</strong> att förpackning<strong>en</strong> avvisas. Låter vi<br />
X = Antal felaktiga <strong>en</strong>heter i urvalet<br />
följer att X är Hyp ¡ 5, 1<br />
6 , 60¢ .Visöker<br />
Pr (X ≥ 1) = 1 − Pr (X =0)=1−<br />
¡ ¢¡ 10 50<br />
0 5 ¡ 60<br />
5<br />
dvs ungefär 61% chans för att förpackning<strong>en</strong> avvisas. ¤<br />
¢<br />
¢ =0.6121<br />
Väntevärd<strong>en</strong> för hypergeometrisk fördelning 7 Det återstår nu <strong>en</strong>bart<br />
att finna de båda sammanfattande mått<strong>en</strong> för d<strong>en</strong> hypergeometriska fördelning<strong>en</strong>.<br />
Då vi <strong>en</strong>dast drar <strong>en</strong> boll ur urnan går det inte att skilja på fall<strong>en</strong><br />
med och utan återläggning vilket innebär att Bi(1,π) är samma som<br />
Hyp(1,π,N) obero<strong>en</strong>de av antal bollar i urnan. Det visar sig att det förväntade<br />
antalet vita bollar kommer att vara samma för hypergeometrisk fördelning<br />
som för binomialfördelning<strong>en</strong>, dvs<br />
μ = E (X) =n · π<br />
Varians<strong>en</strong> blir dock inte helt id<strong>en</strong>tisk. Man kan nämlig<strong>en</strong> på matematisk väg<br />
visa att<br />
σ 2 N − n<br />
= Var (X) =n · π · (1 − π) ·<br />
N − 1<br />
7 De matematiskt korrekta bevis<strong>en</strong> för dessa väntevärd<strong>en</strong> är besvärliga m<strong>en</strong> återges för<br />
d<strong>en</strong> intresserade och något matematiskt bevandrade läsar<strong>en</strong> i Avsnitt B.2.<br />
60
där term<strong>en</strong><br />
N − n<br />
N − 1<br />
kallas för korrektion för ändlig population. Variation<strong>en</strong> beror alltså på d<strong>en</strong><br />
urvalsmetod som används. Detta är inte så underligt. Då vi drar utan återläggning<br />
får vi efter varje drag<strong>en</strong> boll mer information om hur de återstå<strong>en</strong>de<br />
bollarna i urnan är fördelade. Mer information innebär mindre osäkerhet, dvs<br />
mindre spridning. Då vi drar med återläggning får vi aldrig d<strong>en</strong>na merinformation<br />
och därför blir varians<strong>en</strong> mindre för d<strong>en</strong> hypergeometriska fördelning<strong>en</strong><br />
jämfört med binomialfördelning<strong>en</strong>. Låt oss studera ytterlighetsfall<strong>en</strong> i ett<br />
exempel.<br />
Exempel 46 Väntevärdet μ skall tolkas som det medevärde vi får om vi utför<br />
slumpförsöket ett mycket stort antal gånger. Nu får vi antaglig<strong>en</strong> inte<br />
samma resultat varje gång utan σ anger med hur mycket utfallet i g<strong>en</strong>omsnitt<br />
skiljer sig från detta medelvärde. Antag att vi drar samtliga bollar ur<br />
urnan, dvs n = N. Eftersom dragning sker utan återläggning kommer vi att<br />
få samma resultat (μ) varje gång, dvs det kommer då inte att förekomma<br />
någon spridning kring medelvärdet, vilket återspeglar sig i variansterm<strong>en</strong><br />
N − N<br />
Var (X) =n · π · (1 − π) ·<br />
N − 1 =0<br />
Om vi å andra sidan <strong>en</strong>bart drar <strong>en</strong> boll ur urnan hinner vi inte få någon<br />
merinformation och därför blir varians<strong>en</strong> samma som för binomialfördelnin-<br />
g<strong>en</strong>.<br />
¤<br />
Var (X) =n · π · (1 − π) ·<br />
N − 1<br />
= n · π · (1 − π)<br />
N − 1<br />
Dessa båda ytterligheter speglar väl dom likheter och olikheter som gäller<br />
mellan binomialfördelning<strong>en</strong> och hypergeometrisk fördelning vilket vi återkommer<br />
till i nästa avsnitt. Låt oss först bestämma väntevärde och varians för<br />
lottoexemplet ovan.<br />
Exempel 47 Vi återgår till Exempel 44 där vi konstaterade att slumpvariabeln<br />
X = Antal rätt på kupong<strong>en</strong><br />
var Hyp ¡ 7, 7<br />
35 , 35¢ . Det följer således att<br />
μ = E (X) =7· 7<br />
35 =1.4<br />
σ 2 = Var (X) =7· 7 28 35 − 7<br />
· ·<br />
35 35 35 − 1 =0.92<br />
61
och följaktlig<strong>en</strong><br />
σ = √ 0.92 = 0.96<br />
I långa loppet kommer vi på vår <strong>en</strong>kelrad att i g<strong>en</strong>omsnitt få 1.4 rätt. Vi<br />
får dock inte exakt lika många rätt varje gång utan resultat<strong>en</strong> kommer att i<br />
g<strong>en</strong>omsnitt avvika från väntevärdet 1.4 med 1 rätt. ¤<br />
Vi sammanfattar d<strong>en</strong> hypergeometriska fördelning<strong>en</strong>s eg<strong>en</strong>skaper som<br />
Sammanfattning 2 (Hypergeometrisk fördelning) Drag utan återläggning<br />
n bollar ur <strong>en</strong> urna med N bollar där andel<strong>en</strong> vita bollar är π och<br />
studera slumpvariabeln<br />
Då gäller att<br />
Pr (X = x) =<br />
X = Antalet vita bollar i urvalet<br />
¡ ¢¡ N·π N−N·π<br />
x n−x<br />
¡ N<br />
n<br />
¢<br />
¢ , x =0, 1, 2,...,n<br />
förutsatt att det finns tillräckligt med vita och svarta bollar i urnan. Vidare<br />
gäller att<br />
¥<br />
μ = E (X) =n · π<br />
σ 2 = Var (X) =n · π · (1 − π) ·<br />
N − n<br />
N − 1<br />
2.4.3 Samband mellan Binomial- och Hypergeometrisk fördelning<br />
Ideflesta situationer då man tar stickprov kan <strong>en</strong> och samma individ <strong>en</strong>bart<br />
komma med <strong>en</strong> gång i urvalet, dvs det är då dragning utan återläggning.<br />
Detta borde således innebära att d<strong>en</strong> hypergeometriska sannolikhetsfördelning<strong>en</strong><br />
är mer använd än binomialfördelning<strong>en</strong>. Så är dock inte fallet och vi<br />
skall i detta avsnitt ge <strong>en</strong> förklaring till detta f<strong>en</strong>om<strong>en</strong>. D<strong>en</strong> hypergeometriska<br />
fördelning<strong>en</strong> ger snabbt besvärliga beräkningar och då population och stickprov<br />
är någorlunda stora kan till och med datorerna få svårt att hänga med i<br />
svängarna. Detta problem löser vi g<strong>en</strong>om att approximera hypergeometriska<br />
sannolikheter med d<strong>en</strong> mer lättanvända binomialfördelning<strong>en</strong>. Sedan är inte<br />
heller binomialfördelning<strong>en</strong> alltid speciellt <strong>en</strong>kel att arbeta med och då finns<br />
ytterligare approximationsmöjligheter. Vi skall se lite längre fram att det vid<br />
sannolikhetsberäkningar i praktik<strong>en</strong> i princip <strong>en</strong>bart förekommer approximationer.<br />
62
För att <strong>en</strong> approximation skall vara användbar måste d<strong>en</strong> förstås ligga<br />
nära d<strong>en</strong> verkliga sannolikhet<strong>en</strong>. Vad är det då som gör att vi kan använda<br />
binomialsannolikheter för att approximera hypergeometriska sannolikheter?<br />
D<strong>en</strong> <strong>en</strong>da skillnad<strong>en</strong> mellan dem är att det i binomialfallet är dragning med<br />
återläggning och i det hypergeometriska fallet är dragning utan återläggning.<br />
I det binomiala fallet ändras således inte urnans sammansättning efter varje<br />
dragning vilket sker i det hypergeometriska fallet. Frågan är hur mycket<br />
urnan förändras vid varje dragning?<br />
Exempel 48 I <strong>en</strong> tombola återstår 30 lotter varav 6 är vinstlotter. Antag att<br />
vi tänker ta fem lotter och är intresserade av att bestämma våra vinstchanser.<br />
Vi konstruerar slumpvariabeln<br />
X = Antal vinstlotter bland de dragna<br />
och vi söker alltså dess sannolikhetsfördelning. Utifrån förutsättningarna står<br />
det klart att X är Hyp ¡ 5, 6<br />
30 , 30¢ ,ellerför<strong>en</strong>klatHyp(5, 0.2, 30), ochd<strong>en</strong>na<br />
sannolikhetsfördelning beräknas nu via formeln. Antag nu att vi istället<br />
approximerar med binomialfördelning<strong>en</strong>, dvs att vi tänker oss <strong>en</strong> situation<br />
där vi tillämpar dragning med återläggning. Vi lägger således tillbaks varje<br />
drag<strong>en</strong> lott i tombolan vilket innebär att X nu är Bi(5, 0.2). Vifinner då<br />
sannolikhetsfördelning<strong>en</strong> för X <strong>en</strong>kelt från Tabell 1 och kan göra följande<br />
jämförelse.<br />
Sannolikheter<br />
Antal vinstlotter Hyp(5, 0.2, 30) Bi(5, 0.2)<br />
0 0.2983 0.3277<br />
1 0.4474 0.4096<br />
2 0.2130 0.2048<br />
3 0.0387 0.0512<br />
4 0.0025 0.0064<br />
5 0.00004 0.0003<br />
Vi ser att i stora drag följer sannolikheterna varandra m<strong>en</strong> det förekommer<br />
äv<strong>en</strong> stora skillnader. Sannolikhet<strong>en</strong> att samtliga fem lotter är vinstlotter blir<br />
ungefär åtta gånger större utifrån binomialapproximation<strong>en</strong> jämfört med d<strong>en</strong><br />
exakta sannolikhet<strong>en</strong>. I det här fallet är därför inte approximation<strong>en</strong> lämplig.<br />
¤<br />
Anledning<strong>en</strong> till d<strong>en</strong> stora skillnad<strong>en</strong> i föregå<strong>en</strong>de exempel var att urnans<br />
sammansättning förändrats alltför mycket jämfört med ursprungsläget. Om<br />
de fyra först dragna lotterna alla var vinstlotter är urnans sammansättning<br />
63
inför d<strong>en</strong> sista lott<strong>en</strong> att <strong>en</strong>dast två av de återstå<strong>en</strong>de 26 lotterna är vinslotter,<br />
dvs π =1/13 ≈ 0.077, vilket är <strong>en</strong> stor förändring från de 0.2 vi hade<br />
från början. För att approximation<strong>en</strong> skall vara lämplig skall <strong>en</strong> sådan kraftig<br />
förändring inte kunna ske.<br />
Exempel 49 Antag nu istället att lotteriet innehåller 100 lotter varav 20 är<br />
vinster. Med för övrigt samma situation som i föregå<strong>en</strong>de exempel har vi att<br />
X är Hyp ¡ 5, 20<br />
100 , 100¢ ,ellerHyp(5, 0.2, 100), vilket skall approximeras med<br />
Bi(5, 0.2) som förut. Motsvarande jämförelse blir nu<br />
Sannolikheter<br />
Antal vinstlotter Hyp(5, 0.2, 100) Bi(5, 0.2)<br />
0 0.3193 0.3277<br />
1 0.4201 0.4096<br />
2 0.2073 0.2048<br />
3 0.0478 0.0512<br />
4 0.0051 0.0064<br />
5 0.0002 0.0003<br />
och vi ser att respektive sannolikheter nu över<strong>en</strong>sstämmer i klart högre grad.<br />
I det här fallet verkar approximation<strong>en</strong> fungera tillfredsställande. ¤<br />
I det s<strong>en</strong>aste exemplet hinner inte urnans sammansättning förändras<br />
alltför mycket under urvalet vilket är anledning<strong>en</strong> till att approximation<strong>en</strong><br />
fungerar något sånär. Poäng<strong>en</strong> är således att urvalsstorlek<strong>en</strong> inte får vara<br />
alltför stor i jämförelse med populationsstorlek<strong>en</strong>. Vi måste sätta <strong>en</strong> gräns<br />
för hur stor del av population<strong>en</strong> urvalet får utgöra för att approximation<strong>en</strong><br />
skall vara tillåt<strong>en</strong> och ett vanligt krav är att urvalet högst får utgöra 10% av<br />
population<strong>en</strong>. 8 Något annorlunda uttryckt blir kravet att<br />
n<br />
< 0.1<br />
N<br />
D<strong>en</strong> uppsatta gräns<strong>en</strong> anger när approximation<strong>en</strong> inte längre är tillåt<strong>en</strong> pga<br />
att risk<strong>en</strong> för missvisande resultat blir för stor. Ju mindre urvalsandel<strong>en</strong> är ju<br />
bättre blir approximation<strong>en</strong>. En i praktik<strong>en</strong> vanlig situation är väljarundersökningar<br />
där ett urval av d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> väljs ut. Det är vanligt att<br />
man använder <strong>en</strong> urvalsstorlek på ungefär 2000personer vilket kan tyckas<br />
vara stort m<strong>en</strong> med tanke på att population<strong>en</strong> består att ett antal miljoner<br />
väljare blir urvalfraktion<strong>en</strong> mindre än 0.001 (eller 0.1%).<br />
8 En något mer restriktiv hållning som är vanlig i statistiklitteratur<strong>en</strong> är att urvalet<br />
högst får utgöra 5% av population<strong>en</strong>.<br />
64
Exempel 50 Antag att d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> består av fem miljoner personer<br />
och att vi ur d<strong>en</strong>na skall göra ett urval på 20 personer. Antag (r<strong>en</strong>t<br />
hypotetiskt) att hälft<strong>en</strong> av väljarkår<strong>en</strong> består av EMU-anhängare. Det gäller<br />
att<br />
X = Antal EMU-anhängare i urvalet<br />
är hypergeometriskt fördelad. Nu gäller dock att om vi ur väljarkår<strong>en</strong> tar bort<br />
t.ex. 20 EMU-anhängare kommer i princip fortfarande hälft<strong>en</strong> vara EMUanhängare<br />
varför det här fallet kan betraktas som binomialfördelat. I det här<br />
fallet är det oerhört besvärligt att använda d<strong>en</strong> hypergeometriska fördelning<strong>en</strong><br />
medan binomialfördelning<strong>en</strong> Bi(20, 0.5) bara är att läsa av ur Tabell 1. ¤<br />
I situationer där det anges “stor population” kommer förutsättas att urvalsandel<strong>en</strong><br />
är så lit<strong>en</strong> att binomialfördelning<strong>en</strong> används som exakt sannolikhetsfördelning<br />
trots att strikt sannolikhetsmässigt d<strong>en</strong> hypergeometriska<br />
fördelning<strong>en</strong> borde användas. Vi sammanfattar nu d<strong>en</strong>na viktiga approximationsmöjlighet.<br />
Sammanfattning 3 Förutsatt att urvalet inte utgör mer än 10% av population<strong>en</strong><br />
kan Hyp(n, π, N) approximeras med Bi(n, π). Då population<strong>en</strong> anges<br />
som “stor” används binomialfördelning<strong>en</strong> som exakt sannolikhetsfördelning<br />
trots att dragning sker utan återläggning. ¥<br />
2.4.4 Övningsuppgifter<br />
Uppgift 23 Lös uppgift 311.<br />
Uppgift 24 Lös uppgift 313.<br />
Uppgift 25 Lös uppgift 318.<br />
Uppgift 26 Lös uppgift 320.<br />
Uppgift 27 Lös uppgift 321.<br />
Uppgift 28 En viss statistikklass består av 84 kvinnliga och 56 manliga stud<strong>en</strong>ter.<br />
Av dessa skall fem väljas ut. Bestäm approximativt sannolikhet<strong>en</strong> att<br />
det blir fler män än kvinnor bland de utvalda. Ange anledning<strong>en</strong> till att d<strong>en</strong>na<br />
approximativa lösning är okej.<br />
65
2.5 Poissonfördelning<strong>en</strong><br />
Det nämndes i föregå<strong>en</strong>de avsnitt att äv<strong>en</strong> binomialfördelning<strong>en</strong> ofta behöver<br />
approximeras och det visar sig att <strong>en</strong> annan diskret sannolikhetsfördelning i<br />
vissa situationer är användbar till just detta. D<strong>en</strong>na sannolikhetsfördelning är<br />
dock äv<strong>en</strong> användbar i sig själv och vi ger därför först <strong>en</strong> ord<strong>en</strong>tlig beskrivning<br />
av d<strong>en</strong> innan vi övergår till approximationsmöjligheterna.<br />
2.5.1 Poissonprocesser<br />
Vi tänker oss <strong>en</strong> process där händelser inträffar över tid<strong>en</strong>. Det kan gälla<br />
någon form av kösystem som t.ex. inkommande telefonsamtal till <strong>en</strong> telefonväxel<br />
eller kunder som kommer till ett bankkontor. Det kan äv<strong>en</strong> gälla<br />
trafikolyckor på någon utsatt vägsträcka. Vi tänker oss nu <strong>en</strong> slumpvariabel<br />
X = Antal händelser på ett <strong>en</strong>hetsintervall<br />
där vi specificerat vad som skall m<strong>en</strong>as med ett <strong>en</strong>hetsintervall. Vanliga tids<strong>en</strong>heter<br />
är minut, timme, dag etc.. Med rätt förutsättningar kommer d<strong>en</strong>na<br />
slumpvariabel att få <strong>en</strong> användbar sannolikhetsfördelning. Vi kommer att<br />
förutsätta att<br />
1. Händelser inträffar med <strong>en</strong> viss int<strong>en</strong>sitet μ. Int<strong>en</strong>sitetsparametern μ<br />
anger hur ofta händelser inträffar i g<strong>en</strong>omsnitt, som t.ex. tre gånger i<br />
minut<strong>en</strong> eller <strong>en</strong> gång varannan timme etc..<br />
2. Antal händelser på disjunkta tidsintervall är obero<strong>en</strong>de. Omviexempelvis<br />
får reda på hur många händelser som inträffat under s<strong>en</strong>aste<br />
minut<strong>en</strong> påverkar inte detta vår sannolikhetsbedömning av antal händelser<br />
under nästkommande minut.<br />
3. På ett tillräckligt kort tidsintervall gäller att sannolikhet<strong>en</strong> för två eller<br />
fler händelser approximativt är noll. Vidare gäller att sannolikhet<strong>en</strong><br />
för exakt <strong>en</strong> händelse approximativt är proportionell mot int<strong>en</strong>sitet<strong>en</strong><br />
μ och intervallets längd h, dvs sannolikhet<strong>en</strong> är approximativt μ · h.<br />
Således gäller att sannolikhet<strong>en</strong> att ing<strong>en</strong> händelse inträffar på ett sådant<br />
kort intervall approximativt är 1 − μ · h.<br />
Om dessa förutsättningar är uppfyllda kan man visa (se App<strong>en</strong>dix B.3.1 9 )<br />
att sannolikhetsfördelning<strong>en</strong> för X ges av<br />
p (x) =Pr(X = x) = μx · e −μ<br />
x!<br />
, x =0, 1, 2,...<br />
9 För bättre förståelse bör man först gå ig<strong>en</strong>om binomialapproximation<strong>en</strong> nedan. Vidare<br />
gäller att redogörels<strong>en</strong> matematiskt befinner sig över MaC.<br />
66
(där e ≈ 2.718). De tre punkterna ovan brukar kallas för de tre poissonaxiom<strong>en</strong><br />
och därför kallas d<strong>en</strong>na sannolikhetsfördelning för Poissonfördelning<strong>en</strong><br />
och betecknas Po(μ). R<strong>en</strong>t teoretiskt kan <strong>en</strong> poissonfördelad slumpvariabel<br />
anta alla tänkbara icke-negativa heltalsvärd<strong>en</strong>.<br />
Exempel 51 Till <strong>en</strong> telefonväxel inkommer telefonsamtal med <strong>en</strong> int<strong>en</strong>sitet<br />
på två samtal i minut<strong>en</strong>. Förutsatt att äv<strong>en</strong> de båda andra krav<strong>en</strong> är uppfyllda<br />
gäller således att<br />
X = Antal samtal under <strong>en</strong> minut<br />
är poissonfördelad Po(2). sannolikhet<strong>en</strong> att exakt ett samtal inkommer under<br />
<strong>en</strong> viss minut ges därmed av<br />
dvs ungefär 27% chans. ¤<br />
p (1) = Pr (X =1)= 21 · e −2<br />
1! =2· e−2 =0.2707<br />
Vanligtvis är vi inte intresserade av <strong>en</strong>skilda värd<strong>en</strong> utan uttryck på form<strong>en</strong><br />
“Åtminstone fem händelser” eller “Högst fyra händelser” och då använder<br />
vi oss av fördelningsfunktion<strong>en</strong><br />
F (x) =Pr(X ≤ x) =<br />
xX<br />
p (k)<br />
som tidigare. Man inser dock snart att äv<strong>en</strong> med miniräknar<strong>en</strong>s hjälp blir<br />
dessa summeringar relativt betungande och därför har vi hjälp av att sådana<br />
sannolikheter finns tabellerade i Tabell 2 i “Tabeller och formler för statistiska<br />
beräkningar” för utvalda int<strong>en</strong>siteter.<br />
Exempel 52 Vi fortsätter på föregå<strong>en</strong>de exempel och ser t.ex. att sannolikhet<strong>en</strong><br />
för åtminstone tre samtal under <strong>en</strong> minut ges av<br />
Pr (X ≥ 3) = 1 − Pr (X ≤ 2) = 1 − F (2) = 1 − 0.6767 = 0.3233<br />
dvs ungefär <strong>en</strong> chans på tre. Vi kan äv<strong>en</strong> snabbt lösa problemet i föregå<strong>en</strong>de<br />
exempel via<br />
som förut. ¤<br />
Pr (X =1) = Pr(X≤1) − Pr (X =0)=F (1) − F (0) =<br />
= 0.4060 − 0.1353 = 0.2707<br />
67<br />
k=0
Det är inte alltid vi är intresserade av att bestämma sannolikheter för<br />
antal händelser på intervall av just <strong>en</strong>hetslängd. Detta problem är dock lättlöst.<br />
Antag att vi betraktar <strong>en</strong> Po(μ)-fördelad slumpvariabel. Detta innebär<br />
alltså att det i g<strong>en</strong>omsnitt inträffar μ händelser på ett intervall av längd<strong>en</strong><br />
1. Det borde då gälla att det i g<strong>en</strong>omsnitt inträffar μ · t händelser på ett<br />
intervall av längd<strong>en</strong> t. Vill vi bestämma sannolikhetsfördelning<strong>en</strong> för antal<br />
händelser på ett intervall av längd<strong>en</strong> t skall vi således använda Po(μ · t).<br />
Exempel 53 Antag nu att vi i de båda föregå<strong>en</strong>de exempl<strong>en</strong> istället är intresserade<br />
av slumpvariabeln<br />
X = Antal händelser under <strong>en</strong> tvåminutersperiod<br />
Det följer då att X är Po(2 · 2) = Po(4). Sannolikheter för X fås nu från<br />
Tabell 2 med μ =4. ¤<br />
2.5.2 Poissonapproximation av binomialfördelning<strong>en</strong><br />
Hur kan då poissonfördelning<strong>en</strong> användas för att approximera binomiala sannolikheter,<br />
dvs hur hänger dessa båda sannolikhetsfördelningar ihop? För att<br />
förstå detta studerar vi antal händelser på ett <strong>en</strong>hetsintervall utifrån de tre<br />
poissonaxiom<strong>en</strong>. Först delar vi in <strong>en</strong>hetsintervallet i n likadana delintervall.<br />
1 /n<br />
2 /n<br />
3 /n<br />
(n-1 )/n<br />
0 1<br />
Har intervall<strong>en</strong> valts tillräckligt korta, dvs om n valts tillräckligt stort, följer<br />
av axiom 3 att högst <strong>en</strong> händelse kan inträffa påettsådantdelintervall<br />
och att sannolikhet<strong>en</strong> för exakt <strong>en</strong> händelse ungefär är μ<br />
. Låter vi <strong>en</strong> vit<br />
n<br />
boll symbolisera att <strong>en</strong> händelse inträffat kan således händelseförloppet på<br />
ett delintervall approximativt beskrivas som att vi drar <strong>en</strong> boll ur <strong>en</strong> urna<br />
där andel<strong>en</strong> vita bollar är μ<br />
. Enligt axiom 2 gäller dessutom att händelseför-<br />
n<br />
lopp<strong>en</strong> på olika delintervall inte påverkar varandra vilket innebär att vi har<br />
exakt samma förutsättningar på vart och ett av intervall<strong>en</strong>. Vi kan således<br />
se det som att vi med återläggning drar n bollarururnan.Vihardärföratt<br />
68
slumpvariabeln<br />
X = Antal händelser på ett <strong>en</strong>hetsintervall<br />
som är Po(μ) ungefärärsammasom<br />
X = Antal vita bollar i urvalet<br />
som är Bi ¡ n, μ¢<br />
.Jufler delintervall vi delar in <strong>en</strong>hetsintervallet i ju min-<br />
n<br />
dre kommer sannolikhet<strong>en</strong> för två eller fler händelser på ett delintervall att<br />
bli och ju bättre kommer därför approximation<strong>en</strong> att bli. Om vi som vanligt<br />
låter π beteckna andel<strong>en</strong> vita bollar i urnan blir föregå<strong>en</strong>de uttalande<br />
samma som att approximation<strong>en</strong> förbättras ju större n ärochjumindreπ<br />
är. Nu är det ju dock inte poissonfördelning<strong>en</strong> som skall approximeras med<br />
binomialfördelning<strong>en</strong> utan omvänt och för detta konstaterar vi att<br />
π = μ<br />
n<br />
eller ekvival<strong>en</strong>t<br />
μ = n · π<br />
Förutsatt att n är stort och π litet kan således binomialfördelning<strong>en</strong> Bi(n, π)<br />
approximeras med Po(n · π). Vad skall då m<strong>en</strong>as med n stort och π litet?<br />
De villkor vi kommer att ställa här är att<br />
n ≥ 10<br />
π ≤ 0.1<br />
dvs vi måste dra åtminstone tio bollar ur urnan och andel<strong>en</strong> vita bollar i<br />
urnan får vara högst 10%. Dessa gränser är relativt löst satta och man skall<br />
vara medvet<strong>en</strong> om att approximation<strong>en</strong> blir bättre ju större n är och ju<br />
mindre π är. 10<br />
Exempel 54 För <strong>en</strong> viss författare av skönlitterära verk har det visat sig att<br />
sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt vald sida innehåller ett eller flera tryckfel<br />
är 0.005. Hans nya bok innehåller 400 sidor och uppgift<strong>en</strong> är att bestämma<br />
sannolikhet<strong>en</strong> att bok<strong>en</strong> inte innehåller några tryckfel. Vi konstruerar slumpvariabeln<br />
X = Antal sidor med tryckfel<br />
10Andra mer restriktiva gränser som används i litteratur<strong>en</strong> är att n ≥ 100, π≤ 0.01 och<br />
n · π ≤ 20.<br />
69
och om tryckfel på olika sidor uppkommer obero<strong>en</strong>de av varandra följer att<br />
X är Bi(400, 0.005) och vi söker<br />
µ <br />
400<br />
p (0) = Pr (X =0)= · 0.005<br />
0<br />
0 · 0.995 400 =0.995 400 =0.1347<br />
Iochmedattnär stort och π litet kan d<strong>en</strong>na sannolikhet approximeras via<br />
Po(400 · 0.005) = Po(2) och det följer från Tabell 2 att<br />
p (0) = Pr (X =0)≈ 0.1353<br />
vilket således är <strong>en</strong> mycket god approximation. ¤<br />
Exempel 55 I<strong>en</strong>visskommunbordet1000 röstberättigade personer. Utav<br />
dessa är det 5% som är miljöpartister. Antag att vi bland kommun<strong>en</strong>s väljarkår<br />
slumpmässigt väljer 30 personer. Bestäm sannolikhet<strong>en</strong> att högst <strong>en</strong><br />
av dessa är miljöpartister. Bildar vi slumpvariabeln<br />
X = Antal miljöpartister i urvalet<br />
följer att X är Hyp(30, 0.05, 1000) och d<strong>en</strong> sökta sannolikhet<strong>en</strong> ges av<br />
¡ ¢¡ ¢ 50 950 ¡ ¢¡ ¢ 50 950<br />
Pr (X ≤ 1) = Pr (X =0)+Pr(X =1)= 0 30 ¢ + 1 29 ¢ =0.5512<br />
¡ 1000<br />
30<br />
¡ 1000<br />
30<br />
vilket är <strong>en</strong> uträkning man inte vill behöva göra med <strong>en</strong>bart <strong>en</strong> miniräknare<br />
till hjälp. Istället noterar vi att urvalet <strong>en</strong>dast utgör 3% av population<strong>en</strong>, dvs<br />
n<br />
N<br />
30<br />
= =0.03 < 0.1<br />
1000<br />
ochdärförgällerattXapproximativt är Bi(30, 0.05) och det följer att<br />
µ <br />
30<br />
Pr (X ≤ 1) = · 0.05<br />
0<br />
0 · 0.95 30 µ <br />
30<br />
+ · 0.05<br />
1<br />
1 · 0.95 29 =0.5535<br />
vilket är <strong>en</strong> bra mycket <strong>en</strong>klare uträkning som dessutom ligger nära d<strong>en</strong> riktiga<br />
sannolikhet<strong>en</strong>. Vill man nu göra livet ännu <strong>en</strong>klare inses att<br />
n = 30 > 10<br />
π = 0.05 < 0.1<br />
vilket innebär att X approximativt är Po(30 · 0.05) = Po(1.5) och ur Tabell<br />
2 utläser vi<br />
Pr (X ≤ 1) = 0.5578<br />
som också det ligger nära sanning<strong>en</strong>. ¤<br />
70
Vi sammanfattar approximationsmöjligheterna så här långt via nedanstå<strong>en</strong>de<br />
figur.<br />
Approximationsmöjligheter<br />
Hyp(n, π,N)<br />
n/N10 π
vilket betyder att det under <strong>en</strong> <strong>en</strong>minutsperiod i g<strong>en</strong>omsnitt inkommer två<br />
samtal till växeln. Det kommer dock inte exakt två samtal varje minut utan<br />
antal samtal under <strong>en</strong> minut avviker från detta värde med i g<strong>en</strong>omsnitt 1.41<br />
samtal. ¤<br />
2.5.4 Övningsuppgifter<br />
Uppgift 29 På <strong>en</strong> viss vägsträcka kan antal olyckor under rusningstrafik betraktas<br />
som <strong>en</strong> poissonprocess med i g<strong>en</strong>omsnitt två olyckor i timm<strong>en</strong>. Morgonrusning<strong>en</strong><br />
pågår i <strong>en</strong> och <strong>en</strong> halv timme och kvällsrusning<strong>en</strong> i två timmar.<br />
a. Bestäm sannolikhet<strong>en</strong> att morgonrusning<strong>en</strong> blir olycksdrabbad.<br />
b. Bestäm sannolikhet<strong>en</strong> för högst två olyckor under kvällsrusning<strong>en</strong>.<br />
c. Bestäm sannolikhet<strong>en</strong> att det under rusningstrafik<strong>en</strong><strong>en</strong>slumpmässigt<br />
vald dag inte inträffar någon olycka.<br />
Uppgift 30 Det är känt att <strong>en</strong> viss medicin i sällsynta fall kan orsaka bieffekter.<br />
Man uppskattar att detta inträffar i 0.2% av fall<strong>en</strong>. Antag att medicin<strong>en</strong><br />
används av 300 personer. Låt<br />
X = Antal personer som får bieffekter<br />
a. Bestäm d<strong>en</strong> exakta sannolikhetsfördelning<strong>en</strong> för X.<br />
b. Bestäm approximativt sannolikhet<strong>en</strong> att högst tre av personerna uppvisar<br />
bieffekter.<br />
Uppgift 31 Antag att 10 000 personer kastar fem tärningar vardera och låt<br />
X = Antal personer för vilka samtliga tärningar är sexor<br />
a. Bestäm d<strong>en</strong> exakta sannolikhetsfördelning<strong>en</strong> för X.<br />
b. Bestäm, g<strong>en</strong>om att göra lämplig approximation, sannolikhet<strong>en</strong> att åtminstone<br />
fyra personer lyckas med att få fem sexor.<br />
72
3 Kontinuerliga slumpvariabler<br />
3.1 Vad är <strong>en</strong> kontinuerlig slumpvariabel?<br />
De slumpvariabler vi studerat hittills har varit diskreta, dvs de har <strong>en</strong>bart<br />
kunnat anta ändligt eller uppräkneligt oändligt antal värd<strong>en</strong>. En binomialfördelad<br />
slumpvariabel kan t.ex. <strong>en</strong>bart anta värd<strong>en</strong>a 0, 1, 2,...,n(ändligt)<br />
medan <strong>en</strong> poissonfördelad slumpvariabel kan anta värd<strong>en</strong>a 0, 1, 2,... (uppräkneligt<br />
oändligt). Det som utmärker diskreta variabler är att det är ett<br />
“hopp” mellan variabelvärd<strong>en</strong>a, dvs det finns reella tal på talaxeln som aldrig<br />
kan förekomma. T.ex. kan <strong>en</strong> familj inte ha 1.72 barn, och inte heller kan det<br />
till <strong>en</strong> telefonväxel komma 0.59 samtal under <strong>en</strong> viss minut. Det finns dock<br />
variabler där varje tänkbart värde på ett intervall på talaxeln kan förekomma.<br />
Sådana variabler kallas för kontinuerliga variabler.<br />
Exempel 57 I <strong>en</strong> medicinsk undersökning är man intresserade av feberutveckling<strong>en</strong><br />
hos ett visst influ<strong>en</strong>savirus. Antag att kroppstemperatur<strong>en</strong> d<strong>en</strong> andra<br />
influ<strong>en</strong>sadag<strong>en</strong> är av speciellt intresse. Då vi slumpmässigt väljer ut <strong>en</strong> smittad<br />
person vet vi inte exakt febernivån hos d<strong>en</strong> valde person<strong>en</strong>, dvs det gäller<br />
att<br />
X = Kroppstemperatur<strong>en</strong> d<strong>en</strong> andra influ<strong>en</strong>sadag<strong>en</strong><br />
är <strong>en</strong> slumpvariabel. Antag att vi med <strong>en</strong> vanlig termometer fann att d<strong>en</strong><br />
valde person<strong>en</strong>s feber var 39.2 ◦ C. Hade vi dock haft <strong>en</strong> mer exakt termometer<br />
skulle vi funnit att febern var 39.23 ◦ C. En än mer exakt termometer skulle<br />
visat 39.228 ◦ C,osv.Medetttillräckligtnoggrantmätinstrum<strong>en</strong>tkanvifåmed<br />
obegränsat antal decimaler i vår uppskattning av person<strong>en</strong>s feber. Alla värd<strong>en</strong><br />
på ett intervall (t.ex. mellan 35 ◦ C och 45 ◦ C) kan förekomma och således är<br />
X <strong>en</strong> kontinuerlig slumpvariabel. ¤<br />
Andra exempel på mänskliga eg<strong>en</strong>skaper som är kontinuerliga är t.ex.<br />
vikt, ålder och IQ. Hur kommer det sig då att vi måste särbehandla diskreta<br />
och kontinuerliga slumpvariabler? För att belysa orsak<strong>en</strong> till detta utgår vi<br />
från ett exempel där vi studerar <strong>en</strong> diskret och <strong>en</strong> kontinuerlig slumpvariabel.<br />
Exempel 58 Antag att det för <strong>en</strong> viss telefonväxel gäller att inkommande<br />
telefonsamtal kommer med <strong>en</strong> int<strong>en</strong>sitet på ett samtal i minut<strong>en</strong>, dvs<br />
Y = Antal samtal under <strong>en</strong> minut<br />
är Po(1). Nu kan vi dock vända på resonemanget och istället intressera oss<br />
för d<strong>en</strong> tid det tar mellan två inkommande samtal. Antag att vi med ett<br />
stoppur mäter d<strong>en</strong>na tid och finner att det tog 48 sekunder. Tittar vi extra<br />
73
noga på stoppuret ser vi kanske att det står 48.1 sekunder osv.. Har vi ett<br />
tillräckligt bra stoppur finns det ing<strong>en</strong> begränsning för hur många decimaler<br />
vi får med i beräkning<strong>en</strong> av tid<strong>en</strong>. Det gäller således att<br />
X = Väntetid<strong>en</strong> mellan två inkommande samtal<br />
är <strong>en</strong> kontinuerlig slumpvariabel. ¤<br />
Då vi beskriver sannolikhetsfördelning<strong>en</strong> för <strong>en</strong> diskret slumpvariabel använder<br />
vi dess sannolikhetsfunktion<br />
p (y) =Pr(Y = y)<br />
för de värd<strong>en</strong> som kan förekomma. I exemplet ovan har vi ju t.ex. att<br />
p (y) =Pr(Y = y) = e−1<br />
, y =0, 1, 2,...<br />
y!<br />
eftersom μ =1. Problemet med kontinuerliga slumpvariabler är att sådana<br />
sannolikhetsfunktioner inte existerar vilket resulterar i att<br />
Pr (X = x) =0, för alla x<br />
dvs alla värd<strong>en</strong> har sannolikhet<strong>en</strong> noll. Hur kommer sig då detta? I och med<br />
att <strong>en</strong> kontinuerlig slumpvariabel kan anta alla värd<strong>en</strong> på ett intervall är det<br />
omöjligt att gissa exakt vilket värde <strong>en</strong> slumpmässigt vald individ kommer<br />
att ha och därmed konstaterar vi att det för kontinuerliga slumpvariabler inte<br />
går att mäta sannolikheter för <strong>en</strong>skilda värd<strong>en</strong>. Målet är istället att finna <strong>en</strong><br />
kontinuerlig motsvarighet till d<strong>en</strong> diskreta sannolikhetsfunktion<strong>en</strong>.<br />
Det faktum att alla värd<strong>en</strong> har sannolikhet<strong>en</strong> noll betyder dock inte att<br />
alla värd<strong>en</strong> ter sig lika troliga. I Exempel 57 ovan tror vi antaglig<strong>en</strong> mer på <strong>en</strong><br />
feber runt 39 ◦ C än <strong>en</strong> feber runt 45 ◦ C. Det är här ordet “runt” vi skall spinna<br />
vidare på. När vi anger 39 ◦ C m<strong>en</strong>ar vi inte exakt detta utan avrundar utifrån<br />
det tillgängliga mätinstrum<strong>en</strong>tet. M<strong>en</strong> <strong>en</strong> vanlig febertermometer som mäter<br />
tiondels grader m<strong>en</strong>ar vi då antaglig<strong>en</strong> intervallet från 38.95 ◦ C till 39.05 ◦ C.<br />
Antag t.ex. att vi i Exempel 58 söker sannolikhet<strong>en</strong> att väntetid<strong>en</strong> mellan<br />
två samtal är <strong>en</strong> minut, dvs<br />
Pr (X =1)<br />
Om vi mäter tid<strong>en</strong> i hela sekunder m<strong>en</strong>ar vi med <strong>en</strong> minut antaglig<strong>en</strong> tidsintervallet<br />
från 59.5 sekunder till 60.5 sekunder och vi söker sannolikhet<strong>en</strong><br />
Pr (0m 59.5s
För varje kontinuerlig slumpvariabel är det möjligt att beräkna sannolikheter<br />
för intervall av värd<strong>en</strong> vilket är ett faktum vi skall använda för att bestämma<br />
d<strong>en</strong> kontinuerliga motsvarighet<strong>en</strong> till sannolikhetsfunktion<strong>en</strong>.<br />
Låt oss fortsätta med Exempel 58 ovan. För att beskriva sannolikhetsfördelning<strong>en</strong><br />
för Y kan vi använda ett stapeldiagram vilket visas i figur<strong>en</strong><br />
nedan (jämför med Tabell 2, μ =1, i formelsamling<strong>en</strong>)<br />
Sannolikhet<br />
0,4<br />
0,3<br />
0,2<br />
0,1<br />
0,0<br />
0<br />
1<br />
2<br />
Antal samtal under <strong>en</strong> minut<br />
3<br />
där vi <strong>en</strong>bart angivit värd<strong>en</strong> upp till sex eftersom sannolikheterna är mycket<br />
små för större värd<strong>en</strong>. Höjd<strong>en</strong> av <strong>en</strong> stapel repres<strong>en</strong>terar sannolikhet<strong>en</strong> för ett<br />
visst värde vilket innebär att ett sådant diagram inte kan konstrueras för <strong>en</strong><br />
kontinuerlig variabel. Om vi däremot delar in (avrundar) värd<strong>en</strong>a i intervall<br />
kan vi konstruera ett liknande diagram, ett sk. sannolikhetshistogram. Delas<br />
tidsskalan in i hela minuter kan man på teoretisk väg visa att sannolikhetshistogrammet<br />
Frekv<strong>en</strong>s (täthet)<br />
0,7<br />
0,6<br />
0,5<br />
0,4<br />
0,3<br />
0,2<br />
0,1<br />
0,0<br />
0<br />
1<br />
2<br />
3<br />
Väntetid (min)<br />
beskriver sannolikhetsfördelning<strong>en</strong> för väntetider (i hela minuter). 11 Ett san-<br />
11 D<strong>en</strong> kontinuerliga slumpvariabel som uppstår g<strong>en</strong>om att mäta tid<strong>en</strong> mellan två händelser<br />
i <strong>en</strong> poissonprocess med int<strong>en</strong>sitetsparameter μ kallas för Expon<strong>en</strong>tialfördelning<strong>en</strong><br />
75<br />
4<br />
4<br />
5<br />
5<br />
6<br />
6
nolikhetshistogram är konstruerat så att arean av varje rektangel motsvarar<br />
sannolikhet<strong>en</strong> att slumpvariabeln antar ett värde i det aktuella intervallet.<br />
Detta innebär att skalan på d<strong>en</strong> lodräta axeln inte nödvändigtvis behöver<br />
vara sannolikheter och d<strong>en</strong> kallas därför istället för frekv<strong>en</strong>s eller täthet (pga<br />
att man på <strong>en</strong>gelska använder terminologin d<strong>en</strong>sity). (I det här fallet anger<br />
dock skalan sannolikheter pga att bredd<strong>en</strong> på varje intervall är ett.) Med<br />
sannolikhetshistogrammet ovan kan vi dock <strong>en</strong>bart beräkna sannolikheter för<br />
tidsintervall som gäller hela minuter. Vill vi t.ex. bestämma sannolikhet<strong>en</strong><br />
att tid<strong>en</strong> mellan två samtal är mindre än 1.5 minuter fungerar inte detta histogram.<br />
För att kunna lösa d<strong>en</strong> uppgift<strong>en</strong> måste vi göra <strong>en</strong> finare indelning,<br />
t.ex. i halvminutsintervall. Gör vi detta får vi (på teoretisk väg) följande<br />
sannolikhetshistogram<br />
Frekv<strong>en</strong>s (täthet)<br />
0,8<br />
0,7<br />
0,6<br />
0,5<br />
0,4<br />
0,3<br />
0,2<br />
0,1<br />
0,0<br />
0 1 2 3 4 5 6<br />
Väntetid (min)<br />
och d<strong>en</strong> sökta sannolikhet<strong>en</strong> ges av d<strong>en</strong> sammanlagda arean av de tre rektanglarna<br />
till vänster som framgår av följande figur<br />
Frekv<strong>en</strong>s (täthet)<br />
0,8<br />
0,7<br />
0,6<br />
0,5<br />
0,4<br />
0,3<br />
0,2<br />
0,1<br />
0,0<br />
0<br />
1<br />
D<strong>en</strong> skuggade arean är sannolikhet<strong>en</strong><br />
att tid<strong>en</strong> mellan två samtal är mindre än<br />
1.5 minuter<br />
2<br />
3<br />
Väntetid (min)<br />
Söker vi sannolikheter för annat än halvminutsintervall uppstår dock samma<br />
problem som tidigare. Vill vi t.ex. bestämma sannolikhet<strong>en</strong> att det tar<br />
och betecknas Exp(μ).<br />
76<br />
4<br />
5<br />
6
mindre än <strong>en</strong> minut och femton sekunder måste vi skapa ett histogram med<br />
ännu finare indelning som nedan där d<strong>en</strong> angivna sannolikhet<strong>en</strong> är angiv<strong>en</strong><br />
Frekv<strong>en</strong>s (täthet)<br />
0,9<br />
0,8<br />
0,7<br />
0,6<br />
0,5<br />
0,4<br />
0,3<br />
0,2<br />
0,1<br />
0,0<br />
Arean av det skuggade området är sannolikhet<strong>en</strong><br />
att tid<strong>en</strong> mellan två samtal är mindre än <strong>en</strong> minut<br />
och 15 sekunder.<br />
0 1 2 3 4 5 6<br />
Väntetid (min)<br />
Hur fin intervallindelning vi än gör kommer det ändå att kunna uppstå intressanta<br />
intervall för vilka sannolikheter inte kan beräknas. Detta problem<br />
löser vi på matematisk väg g<strong>en</strong>om sk. gränsvärd<strong>en</strong>. Detta innebär att vi betraktar<br />
sannolikhetshistogram med finare och finare indelning vilket medför<br />
att “rektangeltak<strong>en</strong>” på dessa histogram mer och mer kommer att likna <strong>en</strong><br />
jämn funktionskurva. D<strong>en</strong>na kurva utgör det g<strong>en</strong>eraliserade sannolikhetshistogram<br />
d<strong>en</strong>na följd av histogram är på väg mot. För histogramföljd<strong>en</strong> ovan<br />
blir d<strong>en</strong>na funktionskurva som i figur<strong>en</strong> nedan.<br />
Frekv<strong>en</strong>s (täthet)<br />
1,0<br />
0,5<br />
0,0<br />
0<br />
1<br />
2<br />
3<br />
Väntetid (min)<br />
(4)<br />
Med ett g<strong>en</strong>eraliserat sannolikhetshistogram m<strong>en</strong>as ett histogram där intervallbredderna<br />
är oändligt små (och antal intervall oändligt många). Utifrån<br />
d<strong>en</strong>na funktionskurva är det nu möjligt att bestämma sannolikheter för alla<br />
tänkbara intervall. Låt a och b vara två tal (med a
som d<strong>en</strong> markerade arean i figur<strong>en</strong> nedan.<br />
Frekv<strong>en</strong>s (täthet)<br />
1,0<br />
0,5<br />
0,0<br />
a<br />
Arean av det skuggade området anger<br />
sannolikhet<strong>en</strong> att tid<strong>en</strong> mellan två<br />
samtal är mellan a och b minuter.<br />
b<br />
Väntetid (min)<br />
Vi går här inte in i detalj hur d<strong>en</strong>na beräkning görs utan nöjer oss med att<br />
konstatera att <strong>en</strong> sannolikhet för <strong>en</strong> kontinuerlig slumpvariabel kan repres<strong>en</strong>teras<br />
av arean för ett bestämt område under <strong>en</strong> funktionskurva. Eftersom<br />
areor repres<strong>en</strong>terar sannolikheter är d<strong>en</strong> totala arean under kurvan alltid 1.<br />
Precis som för diskreta slumpvariabler kan vi konstruera <strong>en</strong> fördelningsfunktion,<br />
dvs <strong>en</strong> funktion som mäter sannolikhet<strong>en</strong> att få ett värde som högst<br />
är det angivna.<br />
F (x) =Pr(X≤x) Studerar vi innebörd<strong>en</strong> av fördelningsfunktion<strong>en</strong> för kontinuerliga slumpvariabler<br />
finner vi via figur<strong>en</strong><br />
Frekv<strong>en</strong>s (täthet)<br />
1,0<br />
0,5<br />
0,0<br />
F(x)<br />
Arean av det skuggade området anger<br />
fördelningsfunktion<strong>en</strong>s värde i punkt<strong>en</strong> x.<br />
x<br />
Väntetid (min)<br />
att d<strong>en</strong>na fås g<strong>en</strong>om att beräkna arean av det område under kurvan som<br />
ligger under (till vänster) om d<strong>en</strong> angivna punkt<strong>en</strong>. D<strong>en</strong> kurva vi har använt<br />
oss av som exempel beskriver sannolikhetsfördelning<strong>en</strong> för d<strong>en</strong> sk. Expon<strong>en</strong>tialfördelning<strong>en</strong><br />
och har nu gjort sitt i d<strong>en</strong> här framställning<strong>en</strong>. Då kontinuerliga<br />
sannolikhetsfördelningar vanligtvis kräver matematikkunskaper över<br />
78
MaC innebär <strong>en</strong> ord<strong>en</strong>tlig g<strong>en</strong>omgång av dessa ett problem på dessa kurser.<br />
Lyckligtvis gäller dock att det går att arbeta med d<strong>en</strong> viktigaste av alla kontinuerliga<br />
sannolikhetsfördelningar utan att gå in på de tyngre matematiska<br />
detaljerna.<br />
3.2 Normalfördelning<strong>en</strong><br />
3.2.1 Normalfördelning<strong>en</strong>s eg<strong>en</strong>skaper<br />
D<strong>en</strong> utan jämförelse viktigaste sannolikhetsfördelning<strong>en</strong> är d<strong>en</strong> sk. Normalfördelning<strong>en</strong>,<br />
vilket kan verka mycket besynnerligt eftersom det inte finns någonting<br />
som är normalfördelat. Normalfördelning<strong>en</strong> är <strong>en</strong> teoretiskt konstruerad sannolikhetsmodell<br />
som matematiskt beskrivs via funktion<strong>en</strong><br />
f (x) = 1<br />
σ √ 1<br />
e− 2(<br />
2π x−μ<br />
σ ) 2<br />
, −∞
σ<br />
μ<br />
μ repres<strong>en</strong>terar som sagt populationsmedelvärdet och eftersom kurvan är helt<br />
symmetrisk måste därför μ ange kurvans mittpunkt. Om vi ändrar värdet på<br />
μ utan att förändra värdet på σ flyttar vi helt <strong>en</strong>kelt kurvan utan att på annat<br />
sätt ändra dess utse<strong>en</strong>de. Nedan ges <strong>en</strong> jämförelse av två normalfördelningar<br />
med olika medelvärd<strong>en</strong> m<strong>en</strong> med samma standardavvikelse (σ =4).<br />
0<br />
μ=10<br />
10<br />
Populationsstandardavvikels<strong>en</strong> anger hur utspridd population<strong>en</strong> är och därför<br />
betyder ett litet σ att kurvan är mer ihoptryckt och ett stort σ att kurvan<br />
är mer utdrag<strong>en</strong>. Ändrar vi värdet på σ utan att ändra värdet på μ “pressar<br />
vi ihop” eller “drar isär” kurvan utan att flytta dess mittpunkt. Nedan ges <strong>en</strong><br />
jämförelse av tre normalfördelningar med olika standardavvikelser m<strong>en</strong> med<br />
samma medelvärde (μ =20).<br />
80<br />
20<br />
μ=20<br />
30
σ=2<br />
σ=4<br />
σ=6<br />
0 10 20 30 40<br />
Normalfördelning<strong>en</strong> är helt bestämd utav sina båda parametrar, dvs om vi<br />
väl känner till att kurvan är normalfördelad behöver vi <strong>en</strong>bart ta reda på μ<br />
och σ för att exakt veta kurvans utse<strong>en</strong>de.<br />
Då man använder <strong>en</strong> sannolikhetskurva är resonemanget som följer<br />
Vi vill bestämma sannolikhet<strong>en</strong> att hamna i intervallet (a, b),<br />
vilket betyder att vi vill bestämma sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt<br />
vald individ har ett värde på variabeln någonstans mellan<br />
a och b. Detta är samma sak som att bestämma andel<strong>en</strong> individer<br />
i population<strong>en</strong> som har värde någonstans mellan a och b.<br />
Arean under kurvan mellan punkterna a och b anger d<strong>en</strong>na andel och<br />
därför är arean under hela kurvan lika med 1 (eller 100%).<br />
Sannolikhet<strong>en</strong> att <strong>en</strong><br />
slumpmässigt vald individ<br />
Andel<strong>en</strong> individer i population<strong>en</strong><br />
har ett värde mellan a och b med värde mellan a och b<br />
a b<br />
En oerhört användbar eg<strong>en</strong>skap hos normalfördelning<strong>en</strong> är att obero<strong>en</strong>de av<br />
81
vilk<strong>en</strong> normalfördelning man studerar så baseras sannolikhetsbedömning<strong>en</strong><br />
på avståndet mätt i standardavvikelser från medelvärdet. För samtliga normalfördelade<br />
populationer gäller t ex att ca 68% av individerna ligger inom <strong>en</strong><br />
standardavvikelse från medelvärdet och ca 95% inom två standardavvikelser<br />
från medelvärdet. Detta åskådliggörs i figur<strong>en</strong> nedan.<br />
μ−2σ μ−σ μ μ+σ μ+2σ<br />
+<br />
= 68%<br />
= 95%<br />
Nu är det dock inte säkert att de värd<strong>en</strong> vi vill bestämma sannolikheter<br />
förärjustdessapunkter.Attr<strong>en</strong>ttekniskt beräkna sannolikheter för normalfördelning<strong>en</strong><br />
inbegriper tyngre matematik och är ing<strong>en</strong>ting vi tänker fördjupa<br />
oss i här. Av d<strong>en</strong> föregå<strong>en</strong>de eg<strong>en</strong>skap<strong>en</strong> har vi dock fått insikt<strong>en</strong> att<br />
det är tillräckligt att beräkna sannolikheter för <strong>en</strong> viss utvald medlem av<br />
normalfördelningsfamilj<strong>en</strong>, pga att d<strong>en</strong>na sedan <strong>en</strong>kelt översätts till vilk<strong>en</strong><br />
annan normalfördelning som helst.<br />
Exempel 59 Betrakta två slumpvariabler X och Y sådana att X är N (10, 4)<br />
och Y är N (20, 6), där vi använder notation<strong>en</strong> N (μ, σ) från ovan. Antag att<br />
vi för d<strong>en</strong> första population<strong>en</strong> vill bestämma andel<strong>en</strong> individer vars värde<br />
understiger 2, eller ekvival<strong>en</strong>t<br />
Pr (X
N(10,4)<br />
De markerade områd<strong>en</strong>a<br />
har samma area<br />
N(20,6)<br />
0 2 8 10 20 30 40<br />
Då vi för just detta värde råkar veta sannolikhet<strong>en</strong> (på ett ungefär) finner vi<br />
att<br />
Pr (X
vi söker<br />
F (1.28) = Pr (Z ≤ 1.28)<br />
D<strong>en</strong>na finner vi g<strong>en</strong>om att i d<strong>en</strong> vänstra kolumn<strong>en</strong> söka upp rad<strong>en</strong> 1.2 och<br />
sedan i d<strong>en</strong> övre rad<strong>en</strong> finna kolumn 8.<br />
z ··· ··· 7 8 9<br />
.<br />
.<br />
1.1<br />
1.2 0.8997<br />
1.3<br />
.<br />
D<strong>en</strong>na rad och kolumn möts i värdet 0.8997 som är d<strong>en</strong> sökta sannolikhet<strong>en</strong>,<br />
dvs<br />
Pr (Z ≤ 1.28) = 0.8997<br />
Vi tolkar d<strong>en</strong>na sannolikhet som att ungefär 90% av <strong>en</strong> normalfördelad population<br />
ligger högst 1.28 standardavvikelser över medelvärdet, vilket äv<strong>en</strong><br />
framgår i figur<strong>en</strong> nedan.<br />
90%<br />
-3 -2 -1 0 1 2 3<br />
z 1.28<br />
Nu kan inte fördelningsfunktion<strong>en</strong> anges för varje tänkbart värde på z utan<br />
de angivna värd<strong>en</strong>a är begränsade till varje hel hundradel mellan 0 och 3.1<br />
och sedan för varje hel tiondel till z =3.7. Dåuppstårnågrafrågorvilkavi<br />
besvarar i tur och ordning.<br />
84
• Hur beräknar vi sannolikheter för punkter som befinner sig mer än<br />
3.7 standardavvikelser från medelvärdet? Det är <strong>en</strong> mycket lit<strong>en</strong> del<br />
av <strong>en</strong> normalfördelad population som befinner sig så långt bort från<br />
medelvärdet varför vi i dessa läg<strong>en</strong> oftast approximerar d<strong>en</strong>na sannolikhet<br />
med noll.<br />
• I tabell<strong>en</strong> anges <strong>en</strong>bart positiva värd<strong>en</strong> på z. Hur beräknar vi sannolikheter<br />
förknippade med negativa värd<strong>en</strong> på z? Avsymmetriskälöverför<br />
vi <strong>en</strong>kelt detta problem på sannolikheter förknippade med positiva<br />
värd<strong>en</strong> på z eftersom<br />
Pr (Z ≤ z) =Pr(Z ≥−z)<br />
vilket kanske bäst åskådliggörs med ett exempel.<br />
Exempel 60 Bestäm sannolikhet<strong>en</strong> att hamna åtminstone <strong>en</strong> standardavvikelse<br />
under medelvärdet i <strong>en</strong> normalfördelning, dvs vi söker<br />
Pr (Z ≤−1)<br />
Värdet z = −1 återges dock inte av utrymmesskäl vilket är möjligt <strong>en</strong>bart<br />
pga att d<strong>en</strong> standardiserade normalfördelning<strong>en</strong> är symmetrisk kring värdet<br />
0. Andel<strong>en</strong> individer som har värdet högst −1 är därför samma som andel<strong>en</strong><br />
individer som har värdet åtminstone 1. Dvs<br />
Pr (Z ≤−1) = Pr (Z ≥ 1)<br />
och på detta sätt har vi nu överfört problemet till positiva värd<strong>en</strong> på z. D<strong>en</strong><br />
sökta sannolikhet<strong>en</strong> gäller nu dock d<strong>en</strong> högra svans<strong>en</strong> vilket vi löser g<strong>en</strong>om<br />
att använda det faktum att d<strong>en</strong> totala arean under kurvan är 1 och således<br />
blir d<strong>en</strong> sökta sannolikhet<strong>en</strong><br />
Pr (Z ≤−1) = Pr (Z ≥ 1) = 1 − Pr (Z
¤<br />
Det är d<strong>en</strong>na<br />
sannolikhet som<br />
söks<br />
α<br />
D<strong>en</strong>na sannolikhet är<br />
id<strong>en</strong>tisk med d<strong>en</strong> som<br />
söks<br />
-3 -2 -1 0 1 2 3<br />
z<br />
α<br />
Det är d<strong>en</strong>na sannolikhet<br />
som ges i tabell<strong>en</strong><br />
1−α<br />
-3 -2 -1 0 1 2 3<br />
z<br />
• Hur gör vi om d<strong>en</strong> sökta sannolikhet<strong>en</strong> inte rör <strong>en</strong> exakt hundradel?<br />
Hur bestämmer vi t.ex. sannolikhet<strong>en</strong> förknippad med z =1.054? Hundradelar<br />
befinner sig sannolikhetsmässigt nära varandra varför vi utan<br />
någon större skada kan avrunda till närmaste hundradel vilket i det här<br />
fallet är z =1.05 och således gäller att<br />
Pr (Z ≤ 1.054) ≈ Pr (Z ≤ 1.05) = 0.8531<br />
D<strong>en</strong> sökta sannolikhet<strong>en</strong> ligger mellan sannolikheterna förknippade med<br />
z =1.05 och z =1.06 och vi kan göra något bättre ifrån oss g<strong>en</strong>om att<br />
interpolera, dvs g<strong>en</strong>om att beräkna ett vägt medelvärde mellan dessa<br />
båda sannolikheter. Eftersom z =1.054 ligger närmare z =1.05 bör<br />
d<strong>en</strong>na väga lite tyngre och interpolationsformeln blir<br />
Pr (Z ≤ 1.054) ≈ 0.6 · Pr (Z ≤ 1.05) + 0.4 · Pr (Z ≤ 1.06) =<br />
= 0.6 · 0.8531 + 0.4 · 0.8554 = 0.8540<br />
vilket kan jämföras med d<strong>en</strong> exakta sannolikhet<strong>en</strong><br />
Pr (Z ≤ 1.054) = 0.8541<br />
Vid mer komplicerade beräkningar kan det vara <strong>en</strong> fördel att dela upp<br />
problemet i <strong>en</strong>klare delar<br />
Exempel 61 Bestäm<br />
Pr (−0.3
För att kunna använda oss av tabell<strong>en</strong> måste vi skriva om så att sannolikheterna<br />
är på form<strong>en</strong> Pr (Z
α
<strong>en</strong> slumpvariabel med medelvärde 0 och standardavvikelse 1. För normalfördelning<strong>en</strong><br />
har vi dessutom d<strong>en</strong> viktiga eg<strong>en</strong>skap<strong>en</strong><br />
Resultat 1 Varje linjärfunktion av <strong>en</strong> normalfördelad slumpvariabel är själv<br />
normalfördelad. Låt X vara N (μ, σ). Dåföljerav(3) iavsnitt2.3 att<br />
Y = a + b · X är N (a + b · μ, | b |·σ)<br />
där | b | är absolutbeloppet av b, dvsdetpositivavärdet.¥<br />
Detta betyder alltså att Z är N (0, 1). Det är detta faktum som gör det<br />
möjligt att arbeta med samtliga normalfördelningar på samma sätt. En standardisering<br />
av <strong>en</strong> normalfördelning innebär att vi g<strong>en</strong>om subtraktion<strong>en</strong> X −μ<br />
först flyttar hela sannolikhetsfördelning<strong>en</strong> μ steg till vänster (eller åt höger<br />
om μ är negativ), dvs till att ha sitt c<strong>en</strong>trum i origo. G<strong>en</strong>om att sedan dividera<br />
med σ “pressar vi ihop” eller “drar isär” sannolikhetsfördelning<strong>en</strong> så<br />
att d<strong>en</strong> får exakt d<strong>en</strong> form som d<strong>en</strong> kurva som används i tabellsamling<strong>en</strong>.<br />
Tillvägagångssättet beskrivs i figurerna nedan<br />
0<br />
Subtraktion X - μ<br />
x-värd<strong>en</strong><br />
μ<br />
Standardiserad form<br />
Ursprunglig form<br />
-5<br />
-4<br />
-3<br />
-2<br />
Division med σ<br />
-1<br />
0<br />
1<br />
x-värd<strong>en</strong><br />
Det vanligaste sättet att åskådliggöra <strong>en</strong> standardisering grafiskt är dock att<br />
använda samma kurva m<strong>en</strong> med två olika skalor vilket visas i figur<strong>en</strong> nedan<br />
μ−3σ<br />
-3<br />
μ−2σ<br />
-2<br />
μ−σ<br />
-1<br />
μ μ+σ μ+2σ μ+3σ<br />
0<br />
89<br />
1<br />
2<br />
3<br />
Originalskala<br />
Standardiserad<br />
skala<br />
2<br />
3<br />
4<br />
5
Härnäst kommer några exempel på hur man sköter notation<strong>en</strong> vid standardisering<br />
av normalfördelning<strong>en</strong>.<br />
Exempel 63 Intellig<strong>en</strong>skvot<strong>en</strong> IQ är <strong>en</strong> eg<strong>en</strong>skap som brukar betraktas som<br />
approximativt normalfördelad i <strong>en</strong> stor population. D<strong>en</strong> g<strong>en</strong>omsnittliga IQkvot<strong>en</strong><br />
är 100 med <strong>en</strong> standardavvikelse på 15. Låter vi<br />
X = IQ för <strong>en</strong> slumpmässigt vald person<br />
blir således X <strong>en</strong> normalfördelad slumpvariabel N (100, 15).<br />
1. Beräkna sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt vald person har <strong>en</strong> IQ över<br />
118. Förattkunnabestämmad<strong>en</strong>nasannolikhetmåstevitaredapåhur<br />
många standardavvikelser över 100 värdet 118 befinner sig. Vi finner<br />
detta via kvot<strong>en</strong><br />
118 − 100<br />
z = =1.2<br />
15<br />
dvs det är 1.2 standardavvikelser över medelvärdet. Vi finner nu d<strong>en</strong><br />
sökta sannolikhet<strong>en</strong> via Tabell 3a till<br />
Pr (Z >1.2) = 1 − Pr (Z ≤ 1.2) = 1 − 0.8849 = 0.1151<br />
dvs det är ca. 11.5% chans att <strong>en</strong> slumpmässigt vald person har <strong>en</strong> IQ<br />
över 118. Vi kan också tolka resultatet som att ca. 11.5% av befolkning<strong>en</strong><br />
har <strong>en</strong> IQ över 118. Då man beräknar d<strong>en</strong>na sannolikhet använder man<br />
vanligtvis följande notation.<br />
µ<br />
X − 100<br />
Pr (X >118) = Pr ><br />
15<br />
118 − 100<br />
<br />
=Pr(Z>1.2)<br />
15<br />
och sedan är det bara att använda tabell<strong>en</strong> som ovan eftersom<br />
X − 100<br />
Z =<br />
15<br />
är N (0, 1). Åskådliggör vi detta grafiskt får vi figur<strong>en</strong><br />
55<br />
-3<br />
70<br />
-2<br />
90<br />
85<br />
-1<br />
100 115 130 145<br />
0<br />
1<br />
Arean av det skuggade<br />
området är 0.1151<br />
2<br />
3<br />
IQ<br />
Z
2. Inträdeskravet i för<strong>en</strong>ing<strong>en</strong> M<strong>en</strong>sa är d<strong>en</strong> intellig<strong>en</strong>snivå som bara de<br />
översta två proc<strong>en</strong>t<strong>en</strong> av population<strong>en</strong> presterar. Vilk<strong>en</strong> IQ-nivå innebär<br />
detta? Hur många standardavvikelser över medelvärdet måste vi minst<br />
ta oss för att <strong>en</strong>dast två proc<strong>en</strong>t av population<strong>en</strong> skall ha <strong>en</strong> högre intellig<strong>en</strong>skvot?<br />
Vi söker i Tabell 3b ochfinner värdet<br />
¤<br />
z0.02 =2.0537<br />
vilket omräknat till IQ-standardavvikelser blir<br />
2.0537 · 15 = 30.81<br />
och således måste man ha <strong>en</strong> IQ på åtminstone<br />
100 + 2.0537 · 15 = 130.81 ≈ 131<br />
Då man skriver ner detta använder man oftast följande notation. Vi<br />
söker det värde a sådant att<br />
µ<br />
X − 100<br />
0.02 = Pr (X >a)=Pr ><br />
15<br />
a − 100<br />
µ<br />
<br />
a − 100<br />
=Pr Z><br />
15<br />
15<br />
ITabell3b fannviattz0.02 =2.0537 vilket betyder att<br />
och<br />
som tidigare.<br />
a − 100<br />
15 =2.0537<br />
a =2.0537 · 15 + 100 = 130.8 ≈ 131<br />
Det är inte alltid det är <strong>en</strong> direkt standardisering av normalfördelning<strong>en</strong><br />
som söks. Det faktum att varje linjärfunktion av <strong>en</strong> normalfördelad slumpvariabel<br />
själv är normalfördelad ger fler möjligheter.<br />
Exempel 64 Antag att febertemperatur<strong>en</strong> mätt i ◦ C för <strong>en</strong> influ<strong>en</strong>sasjuk<br />
person kan ses som <strong>en</strong> normalfördelad slumpvariabel X som är N (39, 1).<br />
En amerikansk besökare vill dock få sannolikheterna uttryckta för Fahr<strong>en</strong>heitskalan<br />
istället. Nu råkar det vara så att om Y repres<strong>en</strong>terar ◦ F har vi<br />
följande samband mellan de båda slumpvariablerna<br />
Y =32+1.8 · X<br />
91
dvs Y är <strong>en</strong> linjärfunktion av X med a =32och b =1.8. Eftersom X är<br />
normalfördelad blir äv<strong>en</strong> Y detta och det gäller att<br />
Y är N (32 + 1.8 · 39, 1.8 · 1) = N (102.2, 1.8)<br />
Sannolikhetsfördelning<strong>en</strong> kan nu beskrivas med de två skalorna<br />
¤<br />
36<br />
96.8<br />
37<br />
98.6<br />
38<br />
100.4<br />
39 40 41 42<br />
102.2<br />
104.0<br />
105.8<br />
107.6<br />
Celsius<br />
Fahr<strong>en</strong>heit<br />
I och med att vi nu både kan arbeta med normalfördelning<strong>en</strong> och binomialfördelning<strong>en</strong><br />
gör det möjligt att konstruera mer komplicerade exempel<br />
där vi kombinerar dessa båda sannolikhetsfördelningar.<br />
Exempel 65 Bestäm sannolikhet<strong>en</strong> att någon av tjugo slumpmässigt valda<br />
personer har M<strong>en</strong>sa-pot<strong>en</strong>tial. Vi såg i Exempel 63 att andel<strong>en</strong> personer med<br />
M<strong>en</strong>sa-pot<strong>en</strong>tial är 2% vilket innebär att vi kan se det som <strong>en</strong> urna innehållande<br />
ett mycket stort antal bollar där 2% av dessa är vita (repres<strong>en</strong>terande<br />
personer med M<strong>en</strong>sa-pot<strong>en</strong>tial). Vi skall slumpmässigt välja 20 bollar ur d<strong>en</strong>na<br />
urna och det följer att<br />
X = Antal vita bollar i urvalet =<br />
= Antal personer i urvalet med M<strong>en</strong>sa-pot<strong>en</strong>tial<br />
är binomialfördelad, Bi(20, 0.02). Vi söker sannolikhet<strong>en</strong><br />
Pr (X ≥ 1) =<br />
µ <br />
20<br />
1 − Pr (X =0)=1−<br />
0<br />
= 1−0.98 20 =0.3324<br />
0.02 0 0.98 20 =<br />
dvs det är ungefär <strong>en</strong> chans på tre att någon av de utvalda har M<strong>en</strong>sapot<strong>en</strong>tial.<br />
¤<br />
92
Exempel 66 Då<strong>en</strong>visstypavtorpedavfyrasmotett250 meter brett mål<br />
gällerattd<strong>en</strong>ig<strong>en</strong>omsnittträffar mitt i målet med <strong>en</strong> standardavvikelse på<br />
100 meter. Dessutom gäller att träffbild<strong>en</strong> kan ses som normalfördelad. Låter<br />
vi<br />
X = En torpeds träffpunkt<br />
blir X <strong>en</strong> slumpvariabel med sannolikhetsfördelning N (0, 100) där värdet 0<br />
repres<strong>en</strong>terar “mitt i prick”.<br />
1. Bestäm sannolikhet<strong>en</strong> att <strong>en</strong> torped träffar målet. Detta är nu ekvival<strong>en</strong>t<br />
med att för X bestämma sannolikhet<strong>en</strong><br />
Pr (−125
¤<br />
dvs det är mer än 99% chans att målet blir oskadliggjort.<br />
3.2.4 Övningsuppgifter<br />
Uppgift 32 Vi betraktar nu <strong>en</strong> standardiserad normalfördelning, dvs <strong>en</strong> fördelning<br />
där μ =0och σ =1. Bestäm för var och <strong>en</strong> av figurerna arean av det<br />
skuggade området.<br />
i)<br />
iii)<br />
-3<br />
-3<br />
-2<br />
-2<br />
-1<br />
-1<br />
0<br />
0<br />
1<br />
1<br />
2<br />
2<br />
3<br />
3<br />
ii)<br />
iv)<br />
Uppgift 33 Vi betraktar åter <strong>en</strong> standardiserad normalfördelning. Bestäm<br />
för var och <strong>en</strong> av figurerna värdet av punkt<strong>en</strong> z.<br />
i)<br />
z<br />
2,5%<br />
Uppgift 34 Vi betraktar nu <strong>en</strong> normalfördelning med μ =10och σ =4.<br />
Bestäm för var och <strong>en</strong> av figurerna arean av det skuggade området.<br />
94<br />
ii)<br />
-3<br />
-3<br />
-2<br />
-2<br />
-1<br />
-1<br />
0<br />
0<br />
1<br />
1<br />
33%<br />
2<br />
z<br />
2<br />
3<br />
3
i)<br />
0<br />
10<br />
20<br />
ii)<br />
6 10 15<br />
Uppgift 35 Variabeln X är normalfördelad med parametrar μ och σ.<br />
a. Antag att vi känner att μ =104. Vidare är det känt att sannolikhet<strong>en</strong><br />
att hamna över 116 är 0.0668. Bestäm σ utifrån d<strong>en</strong>na information.<br />
b. Antag att vi känner att σ =4. Vidare är det känt att sannolikhet<strong>en</strong> att<br />
hamna under 10 är 0.1515. Bestäm μ utifrån d<strong>en</strong>na information.<br />
Uppgift 36 Vid <strong>en</strong> tomatodling sorteras tomaterna efter vikt. Vikt<strong>en</strong> av <strong>en</strong><br />
tomat kan anses som normalfördelad med μ =50och σ =10(<strong>en</strong>het: gram).<br />
Man vill sortera tomaterna i tre storleksklasser, så att 25% bedöms som små,<br />
50% som medelstora och 25% som stora. Hur skall dessa gränser väljas?<br />
Uppgift 37 Lös uppgift 505.<br />
Uppgift 38 Lös uppgift 507.<br />
3.3 Normalapproximation av binomialfördelning<strong>en</strong><br />
Vi nämnde tidigare att normalfördelning<strong>en</strong>s största förtjänst är att d<strong>en</strong> kan<br />
användas till att approximera sannolikheter i <strong>en</strong> mängd viktiga situationer.<br />
Vi tänker i detta avsnitt att redogöra för <strong>en</strong> sådan situation för att<br />
sedan i nästa avsnitt g<strong>en</strong>eralisera detta och redovisa det resultat som gör<br />
normalfördelning<strong>en</strong> till d<strong>en</strong> i särklass viktigaste sannolikhetsfördelning<strong>en</strong>. Vi<br />
har redan i avsnitt 2.5.2 sett att vi i vissa situationer kan använda Poissonfördelning<strong>en</strong><br />
för att approximera binomiala sannolikheter. Detta fungerar<br />
dock <strong>en</strong>bart om andel<strong>en</strong> individer med d<strong>en</strong> aktuella eg<strong>en</strong>skap<strong>en</strong> är lit<strong>en</strong>, dvs<br />
om fördelning<strong>en</strong> mellan vita och svarta bollar i urnan är tillräckligt sned.<br />
Hur gör vi då om så inte är fallet? Det visar sig att detta är <strong>en</strong> situation<br />
där normalfördelning<strong>en</strong> blir användbar. Det visar sig nämlig<strong>en</strong> att om bara<br />
urvalet är tillräckligt stort, dvs om antal dragna bollar är tillräckligt många,<br />
kommer stapeldiagrammet över de binomiala sannolikheterna att med god<br />
approximation över<strong>en</strong>sstämma med <strong>en</strong> normalfördelning. Låt oss visa detta<br />
med ett exempel.<br />
95
Exempel 67 Antag att var femte sv<strong>en</strong>sk är moderat, dvs att andel<strong>en</strong> moderater<br />
i d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> är 20%. Eftersom väljarkår<strong>en</strong> är mycket stor<br />
kommer<br />
X = Antal moderater i urvalet<br />
att vara binomialfördelad Bi(n, 0.2). Vikanalltsåseurvaletsomattvimed<br />
återläggning drar n bollar ur <strong>en</strong> urna innehållande fem bollar varav <strong>en</strong> är vit.<br />
Binomiala sannolikhetsfördelningar kan alltid beskrivas med stapeldiagram<br />
och för ett antal olika urvalsstorlekar fås följande diagram<br />
Sannolikhet<br />
0 1 2 3 4 5<br />
Antal moderater i urvalet, n=5<br />
Sannolikhet<br />
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />
Antal moderater i urvalet, n=20<br />
Sannolikhet<br />
0 1 2 3 4 5 6 7 8 9 10111213141516171819<br />
Antal moderater i urvalet, n=40<br />
Vi ser utifrån dessa diagram att sannolikhetsfördelning<strong>en</strong> för X blir mer<br />
och mer symmetrisk och normalfördelningslik då urvalsstorlek<strong>en</strong> ökar. Med<br />
god approximation borde vi därför vid större urval kunna använda <strong>en</strong> normalfördelningskurva<br />
för att beräkna binomiala sannolikheter vilket framgår<br />
då vi anpassar <strong>en</strong> normalfördelningskurva till det högra stapeldiagrammet.<br />
¤<br />
Frekv<strong>en</strong>s (täthet)<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9 10 11 12 13 14 15 16<br />
Antal moderater i urvalet<br />
Nu uppstår två frågor som måste besvaras.<br />
• Vilk<strong>en</strong> normalfördelning skall användas för approximation<strong>en</strong>?<br />
Normalfördelning<strong>en</strong> är helt bestämd av sina båda parametrar, μ och<br />
σ, ochförattfinna d<strong>en</strong> normalfördelning som bäst approximerar d<strong>en</strong><br />
96
aktuella binomialfördelning<strong>en</strong> måste vi finna dessa båda parametervärd<strong>en</strong>,<br />
dvs medelvärde och standardavvikelse. Vi såg i avsnitt 2.4.1 att<br />
för Bi(n, π) är<br />
μ = n · π<br />
σ = p n · π · (1 − π)<br />
varför d<strong>en</strong> sökta normalfördelning<strong>en</strong> är<br />
³<br />
N n · π, p ´<br />
n · π · (1 − π)<br />
Exempel 68 Vi återgår till föregå<strong>en</strong>de exempel där X är Bi(40, 0.2) varför<br />
d<strong>en</strong> sökta normalfördelning<strong>en</strong> är<br />
³<br />
N 40 · 0.2, √ ´<br />
40 · 0.2 · 0.8 = N (8, 2.53)<br />
¤<br />
• Hur stort måste urvalet vara för att approximation<strong>en</strong> skall<br />
vara acceptabel? Det visar sig att detta beror på hur symmetrisk<br />
population<strong>en</strong> är med avse<strong>en</strong>de på d<strong>en</strong> aktuella eg<strong>en</strong>skap<strong>en</strong>. Antag att<br />
vi hos de utvalda förutom eg<strong>en</strong>skap<strong>en</strong> “Moderat?” äv<strong>en</strong> är intresserade<br />
av huruvida man är för eller emot ett EMU-medlemskap. Antag<br />
vidare att halva väljarkår<strong>en</strong> är för ett EMU-medlemskap. Då vi betraktar<br />
tvåpunktsfördelade variabler kan population<strong>en</strong> alltid beskrivas med<br />
ett stapeldiagram med <strong>en</strong>dast två staplar, <strong>en</strong> för dom med eg<strong>en</strong>skap<strong>en</strong><br />
och <strong>en</strong> för dom som saknar d<strong>en</strong>. I de båda exempel vi hittills använt<br />
oss av beskrivs population<strong>en</strong> (d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong>) via<br />
Andel av väljarkår<strong>en</strong><br />
Moderat Ej moderat<br />
Andel av väljarkår<strong>en</strong><br />
EMU-anhängare EMU-motståndare<br />
och vi ser att population<strong>en</strong>s utse<strong>en</strong>de beror på d<strong>en</strong> studerade variabeln.<br />
I EMU-exemplet har vi det mest symmetriska utse<strong>en</strong>de <strong>en</strong> population<br />
kan ha för <strong>en</strong> tvåpunktsfördelad eg<strong>en</strong>skap, nämlig<strong>en</strong> 50—50, medan<br />
97
vi i moderat-exemplet har <strong>en</strong> snedfördelning, 20—80. Av d<strong>en</strong>na anledning<br />
blir för giv<strong>en</strong> urvalsstorlek normalapproximation<strong>en</strong> bättre i EMUexemplet.<br />
Hur stort urval måste vi då ta för att stapeldiagrammet över<br />
de binomiala sannolikheterna skall uppvisa tillräcklig symmetri? Detta<br />
blir förstås <strong>en</strong> subjektiv bedömning m<strong>en</strong> erfar<strong>en</strong>het<strong>en</strong> har visat att om<br />
n · π · (1 − π) ≥ 5<br />
dvs att varians<strong>en</strong> för d<strong>en</strong> aktuella binomialfördelning<strong>en</strong> överstiger 5,<br />
eller ekvival<strong>en</strong>t att<br />
5<br />
n ≥<br />
π · (1 − π)<br />
kommer approximation<strong>en</strong> i de flesta fall att bli tillfredsställande. I<br />
EMU-exemplet krävs t.ex. att n ≥ 5 =20medan det i moder-<br />
0.5·0.5<br />
atexemplet krävs att n ≥ 5 =31.25, dvsca32 personer.<br />
0.2·0.8<br />
Sammanfattningsvis gäller alltså att om vi för <strong>en</strong> tvåpunktsfördelad eg<strong>en</strong>skap<br />
känner värdet på π och har ett tillräckligt stort urval kan sannolikhetsberäkningar<br />
för antal individer i urvalet med d<strong>en</strong> aktuella eg<strong>en</strong>skap<strong>en</strong> med<br />
god approximation göras via normalfördelning<strong>en</strong>. En mer teoretisk förklaring<br />
till varför normalfördelning<strong>en</strong> kan användas till att approximera binomiala<br />
sannolikheter ges i nästa avsnitt.<br />
Innan vi tar ett exempel på normalapproximation av binomialfördelning<strong>en</strong><br />
finns <strong>en</strong> lit<strong>en</strong> finjustering för att göra approximation<strong>en</strong> ännu bättre. I<br />
och med att binomialfördelning<strong>en</strong> är diskret beskrivs dess sannolikhetsfördelning<br />
med ett stapeldiagram och sannolikheter beräknas utifrån dessa staplars<br />
höjder. För d<strong>en</strong> kontinuerliga normalfördelning<strong>en</strong> beräknas emellertid sannolikheter<br />
utifrån areor under normalkurvan och för att äv<strong>en</strong> de binomiala<br />
sannolikheterna skall bli areor delas talaxeln in i diskreta heltalsklasser.<br />
0 1 2 3 4 5 6<br />
vilket t.ex. innebär att det diskreta heltalsvärdet 4 motsvaras av d<strong>en</strong> heltalsklass<strong>en</strong><br />
4, dvs det kontinuerliga intervallet (3.5, 4.5). Allmänt motsvaras<br />
98
det diskreta heltalsvärdet k av klass<strong>en</strong> ¡ k − 1<br />
¢<br />
1 ,k+ . På detta sätt över-<br />
2 2<br />
förs stapeldiagrammet till ett sannolikhetshistogram<br />
Frekv<strong>en</strong>s (täthet)<br />
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16<br />
Antal moderater i urvalet<br />
Stapeldiagrammet...<br />
...blir ett sannolikhetshistogram<br />
Frekv<strong>en</strong>s (täthet)<br />
0<br />
5<br />
10<br />
Antal moderater i urvalet<br />
där de binomiala sannolikheterna som önskat beräknas som areor under rektanglarna.<br />
Nu inses något mycket intressant. Antag att vi söker sannolikhet<strong>en</strong><br />
att åtminstone 10 av de valda är moderater. D<strong>en</strong>na sannolikhet motsvaras<br />
av följande area<br />
Frekv<strong>en</strong>s (täthet)<br />
0<br />
5<br />
9.5<br />
10<br />
Antal moderater i urvalet<br />
Arean av det skuggade området<br />
är sannolikhet<strong>en</strong> att åtminstone<br />
10 av de valda är moderater<br />
och vi ser att d<strong>en</strong> kontinuerliga beräkning<strong>en</strong> inte skall börja i punkt<strong>en</strong> 10 utan<br />
i punkt<strong>en</strong> 9.5. Detta beror på att det diskreta heltalsvärdet 10 motsvaras av<br />
det kontinuerliga intervallet (9.5, 10.5). Normalapproximation<strong>en</strong> kommer då<br />
att bli<br />
Pr (X ≥ 10)<br />
| {z }<br />
Xär binomial<br />
15<br />
≈ Pr (X ≥ 9.5)<br />
| {z }<br />
Xär normal<br />
D<strong>en</strong>na lilla finjustering kallas för kontinuitetskorrektion, dvs <strong>en</strong> korrektion<br />
för att förbättra approximation<strong>en</strong> av <strong>en</strong> diskret sannolikhetsfördelning med<br />
<strong>en</strong> kontinuerlig.<br />
Exempel 69 Vi återgår till Exempel 67 där vi antar att vi har ett urval om<br />
n =150personer ur väljarkår<strong>en</strong>. Detta innebär alltså att<br />
X = Antal moderater i urvalet<br />
99<br />
15
är Bi(150, 0.2). Bestäm sannolikhet<strong>en</strong> att åtminstone 35 av de utvalda är<br />
moderater. Tabell 1 räcker inte till och att utifrån binomialformeln beräkna<br />
d<strong>en</strong>na sannolikhet är ing<strong>en</strong>ting man gärna ger sig i kast med. Dessutom gäller<br />
att andel<strong>en</strong> moderater i väljarkår<strong>en</strong>, π, är för stor för poissonapproximation.<br />
Vi undersöker därför möjligheterna för <strong>en</strong> normalapproximation och finner<br />
att<br />
n · π · (1 − π) =150· 0.2 · 0.8 =24> 5<br />
varför detta är tillåtet. D<strong>en</strong> normalfördelning vi skall använda är<br />
³<br />
N 150 · 0.2, √ ´<br />
150 · 0.2 · 0.8 = N (30, 4.9)<br />
Vi söker<br />
Pr (X ≥ 35)<br />
vilket med kontinuitetskorrektion motsvaras av<br />
Pr (X ≥ 34.5)<br />
vilket framgår av följande figur där vi markerat <strong>en</strong> utvald del av sannolikhetshistogrammet<br />
för Bi(150, 0.2) tillsammans med normalkurvan N (30, 4.9).<br />
Frekv<strong>en</strong>s (täthet)<br />
30<br />
34.5<br />
35<br />
Arean av det skuggade området<br />
anger sannolikhet<strong>en</strong> att åtminstone<br />
35 av de valda är moderater.<br />
40<br />
Antal moderater i urvalet<br />
Detta problem löses nu g<strong>en</strong>om att standardisera och läsa ur normalfördelningstabell<strong>en</strong><br />
(Tabell 3a). Vi får att<br />
µ <br />
X − 30 34.5 − 30<br />
Pr (X ≥ 35) ≈ Pr (X ≥ 34.5) =Pr ≥ =Pr(Z≥0.92) =<br />
| {z } | {z } 4.9 4.9<br />
Xär binomial<br />
Xär normal<br />
= 1−Pr (Z
3.3.1 Övningsuppgifter<br />
Uppgift 39 Lös uppgift 516.<br />
Uppgift 40 Lös uppgift 518.<br />
Uppgift 41 Lös uppgift 527.<br />
Uppgift 42 En maskin som tillverkar vinkorkar producerar korkar vars diameter<br />
kan betraktas som normalfördelad med medelvärde 3 cm och standardavvikelse<br />
0.1 cm. En kork är acceptabel om dess diameter ligger mellan 2.9<br />
cm och 3.1 cm.<br />
a. Bestäm sannolikhet<strong>en</strong> att <strong>en</strong> slumpmässigt vald kork är acceptabel.<br />
b. Antag att vi har 60 (ej bedömda) korkar i lager och att vi behöver 40<br />
acceptabla korkar för <strong>en</strong> omgång vinflaskor. Bestäm sannolikhet<strong>en</strong> att vi<br />
kan korka flaskorna utan att behöva låta maskin<strong>en</strong> tillverka nya korkar.<br />
Uppgift 43 D<strong>en</strong>na uppgift är <strong>en</strong> utökad version av uppgift 508 i bok<strong>en</strong>. En<br />
maskin fyller konservburkar med linssoppa. Vikt<strong>en</strong> av <strong>en</strong> burks soppinnehåll<br />
kan betraktas som normalfördelad med standardavvikels<strong>en</strong> 20 gram.<br />
a. Vilket medelvärde skall man inrikta sig på för att i långa loppet 99% av<br />
burkarna skall innehålla minst 750 gram linssoppa?<br />
b. Antag att vi använder oss av medelvärdet från a-uppgift<strong>en</strong>. Vi tänker<br />
nu göra ett stickprov om 200 burkar från produktion<strong>en</strong>. Bestäm sannolikhetsfördelning<strong>en</strong><br />
för<br />
X = Antal burkar i urvalet som väger mindre än 750 gram<br />
c. Bestäm, g<strong>en</strong>om att göra <strong>en</strong> lämplig approximation, sannolikhet<strong>en</strong> att<br />
stickprovet i b-uppgift<strong>en</strong> åtminstone innehåller fyra burkar som väger<br />
mindre än 750 gram. (Vilk<strong>en</strong> typ av approximation är tillåt<strong>en</strong>?)<br />
3.4 C<strong>en</strong>trala gränsvärdessats<strong>en</strong> (CGS)<br />
3.4.1 Ett inledande exempel<br />
I föregå<strong>en</strong>de avsnitt såg vi att normalfördelning<strong>en</strong> kan användas som approximativ<br />
sannolikhetsmodell för binomialfördelning<strong>en</strong>. I det här avsnittet skall<br />
vi se att normalfördelning<strong>en</strong>s approximativa eg<strong>en</strong>skaper sträcker sig mycket<br />
längre än så. Låt oss belysa problematik<strong>en</strong> med ett exempel.<br />
101
Exempel 70 Man planerar att bygga ett nytt bostadsområde för 100 familjer<br />
och vill veta hur många parkeringsplatser man skall förse detta bostadsområde<br />
med. Antag att det för d<strong>en</strong> familjetyp som flyttar till sådana bostadsområd<strong>en</strong><br />
gäller att eg<strong>en</strong>skap<strong>en</strong><br />
X = Antal bilar i <strong>en</strong> familj<br />
kan ses som <strong>en</strong> slumpvariabel med sannolikhetsfördelning<br />
x 0 1 2<br />
p (x) 0.3 0.5 0.2<br />
En familj har således anting<strong>en</strong> 0, 1 eller 2 bilar. Nu är det ju dock inte sannolikhetsfördelning<strong>en</strong><br />
för antal bilar i <strong>en</strong> familj som är av intresse utan det<br />
sammanlagda antalet bilar i hundra familjer. Låter vi X1,X2,...,X100 repres<strong>en</strong>tera<br />
antalet bilar i var och <strong>en</strong> av dessa hundra familjer följer att<br />
Y = Det sammanlagda antalet bilar i hundra familjer =<br />
= X1 + X2 + ···+ X100<br />
Att bestämma sannolikhetsfördelning<strong>en</strong> för slumpvariabeln Y visar sig vara<br />
lättare sagt än gjort. Låt oss börja lite försiktigt att bestämma sannolikhetsfördelning<strong>en</strong><br />
för det sammanlagda antalet bilar i två familjer. Vi förutsätter<br />
att familjerna väljs slumpmässigt och att det föreligger samma förutsättningar<br />
vid båda dessa slumpförsök. För<br />
Y = X1 + X2<br />
får vi då följande sannolikhetsfördelning<br />
dvs<br />
Utfall<br />
00<br />
10<br />
01<br />
11<br />
20<br />
02<br />
21<br />
12<br />
22<br />
Sannolikhet<br />
0.3*0.3=0.09<br />
Värdering (Y)<br />
Pr(Y=0)=0.09<br />
0.5*0.3=0.15<br />
0.3*0.5=0.15<br />
0.5*0.5=0.25<br />
1 Pr(Y=1)=0.30<br />
0.2*0.3=0.06<br />
0.3*0.2=0.06<br />
2 Pr(Y=2)=0.37<br />
0.2*0.5=0.1<br />
0.5*0.2=0.1<br />
3 Pr(Y=3)=0.20<br />
0.2*0.2=0.04 4 Pr(Y=4)=0.04<br />
0<br />
Slh-fördelning<br />
y 0 1 2 3 4<br />
p (y) 0.09 0.30 0.37 0.20 0.04<br />
102
Motsvarande beräkning för sammanlagt antal bilar i tre familjer<br />
Y = X1 + X2 + X3<br />
ger efter viss möda sannolikhetsfördelning<strong>en</strong><br />
y 0 1 2 3 4 5 6<br />
p (y) 0.027 0.135 0.279 0.305 0.186 0.060 0.008<br />
Man inser snart att utifrån detta angreppssätt finna sannolikhetsfördelning<strong>en</strong><br />
för sammanlagt antal bilar i hundra familjer är utsiktslöst. Vi måste<br />
helt <strong>en</strong>kelt släppa tank<strong>en</strong> att beräkna d<strong>en</strong> exakta sannolikhetsfördelning<strong>en</strong><br />
och istället söka <strong>en</strong> approximativ lösning. För att få <strong>en</strong> idé om <strong>en</strong> sådan<br />
studerar vi de stapeldiagram som dessa sannolikhetsfördelningar ger. Sannolikhetsfördelningarna<br />
för sammanlagt antal bilar i <strong>en</strong>, två samt tre familjer<br />
åskådliggörs nedan.<br />
Sannolikhet<br />
0<br />
En familj<br />
1<br />
Antal bilar<br />
2<br />
Sannolikhet<br />
0<br />
Två familjer<br />
1 2<br />
Antal bilar<br />
3<br />
4<br />
Sannolikhet<br />
0<br />
1<br />
Tre familjer<br />
Vi tycker oss skönja <strong>en</strong> viss symmetri i det högra diagrammet och då vi<br />
efter stor möda lyckas få fram exakta sannolikhetsfördelningar för sammanlagt<br />
antal bilar i fem respektive tio familjer besannas våra förhoppningar i de<br />
associerade stapeldiagramm<strong>en</strong> nedan<br />
Sannolikhet<br />
0<br />
1<br />
2<br />
Fem familjer<br />
3<br />
4<br />
5<br />
Antal bilar<br />
6<br />
7<br />
8<br />
9<br />
10<br />
Sannolikhet<br />
Tio familjer<br />
2<br />
3<br />
Antal bilar<br />
0 1 2 3 4 5 6 7 8 9 1011121314151617181920<br />
Antal bilar<br />
Sannolikhetsfördelning<strong>en</strong>försammanlagtantalbilarverkarblimerochmer<br />
normalfördelningslik ju fler familjer vi har med och därför borde normalfördelning<strong>en</strong><br />
kunna användas för att approximera d<strong>en</strong> sökta sannolikhetsfördelning<strong>en</strong>.<br />
Vi återkommer med beräkningar angå<strong>en</strong>de dessa parkeringsplatser. ¤<br />
103<br />
4<br />
5<br />
6
Vad är det som gör att normalapproximation fungerar i d<strong>en</strong> här situation<strong>en</strong>?<br />
3.4.2 Obero<strong>en</strong>de och likafördelade slumpvariabler (o.l.f.s.v.)<br />
Utifrån ovanstå<strong>en</strong>de exempel uppstår två frågor vars svar kommer att lösa<br />
många problem som uppstår vid praktiska sannolikhetsberäkningar.<br />
1. I vilka situationer kan vi använda normalfördelning<strong>en</strong> som approximativ<br />
sannolikhetsfördelning?<br />
2. Hur finner vi i <strong>en</strong> specifik situation d<strong>en</strong> normalfördelning som skall<br />
användas för approximation<strong>en</strong>?<br />
Det faktum som gör det möjligt att använda normalfördelning<strong>en</strong> i exempl<strong>en</strong><br />
ovan är att vi där summerar resultat<strong>en</strong> av ett stort antal likadana<br />
slumpförsök. Vi hade fått ett liknande resultat om vi istället för summan<br />
hade beräknat medelvärdet av slumpvariablerna, eftersom medelvärdet <strong>en</strong>dast<br />
är <strong>en</strong> <strong>en</strong>kel linjärfunktion av summan<br />
X = X1 + X2 + ···+ Xn<br />
n<br />
P<br />
X<br />
=<br />
n<br />
dvs <strong>en</strong> förflyttning och sammanpressning av sannolikhetsfördelning<strong>en</strong> för<br />
P X. Att det är ett stort antal likadana slumpförsök uttrycks mer sannolikhetsmässigt<br />
som att slumpvariablerna X1,X2,...,Xn är obero<strong>en</strong>de och<br />
likafördelade slumpvariabler, eller förkortat o.l.f.s.v. 12 .Attdomärobero<strong>en</strong>de<br />
innebär att resultatet i ett slumpförsök inte påverkar resultatet i något av de<br />
andra slumpförsök<strong>en</strong>, dvs antal bilar i <strong>en</strong> familj som flyttarinpåverkarinte<br />
antal bilar hos någon av de andra inflyttande familjerna. Att slumpvariablerna<br />
är likafördelade innebär att sannolikhetsfördelning<strong>en</strong> är exakt d<strong>en</strong>samma<br />
vid varje slumpförsök, dvs vi gör exakt samma sannolikhetsbedömning<br />
angå<strong>en</strong>de antal bilar för samtliga inflyttande familjer. Vi formulerar något<br />
diffust följande delresultat.<br />
Summan (eller medelvärdet) av ett stort antal obero<strong>en</strong>de och<br />
likafördelade slumpvariabler är approximativt normalfördelad. Approximation<strong>en</strong><br />
blir bättre ju fler av dessa slumpvariabler som ingår.<br />
12 I <strong>en</strong>gelsk/amerikansk litteratur används terminologin indep<strong>en</strong>d<strong>en</strong>t and id<strong>en</strong>tically distributed<br />
random variables, eller förkortat i.i.d.r.v.<br />
104
Nästa fråga att besvara är således vilk<strong>en</strong> normalfördelning vi skall använda<br />
för att approximera summan (eller medelvärdet). Normalfördelning<strong>en</strong><br />
bestäms av sina båda parametrar, μ och σ, vilket innebär att vi finner d<strong>en</strong><br />
sökta normalfördelning<strong>en</strong> g<strong>en</strong>om att finna medelvärde och standardavvikelse<br />
för d<strong>en</strong> aktuella summan (eller medelvärdet).<br />
3.4.3 Väntevärd<strong>en</strong> för summor och medelvärd<strong>en</strong> av o.l.f.s.v.<br />
Vi antar nu att n obero<strong>en</strong>de och likafördelade slumpvariabler skall summeras.<br />
Att dom är likafördelade innebär att dom alla följer <strong>en</strong> och samma sannolikhetsfördelning<br />
vilket i sin tur innebär att alla har samma medelvärde och<br />
samma standardavvikelse. Vi antar att dessa gem<strong>en</strong>samma parametrar är μ<br />
och σ. Det gäller att<br />
³X ´<br />
E X = E (X1 + X2 + ···+ Xn) =<br />
= E (X1)+E (X2)+···+ E (Xn) =<br />
= μ + μ + ···+ μ = n · μ<br />
och att<br />
³X ´<br />
Var X<br />
= Var (X1 + X2 + ···+ Xn) =<br />
= Var (X1)+Var (X2)+···+ Var (Xn) =<br />
= σ 2 + σ 2 + ···+ σ 2 = n · σ 2<br />
vilket därmed innebär att summans standardavvikelse blir<br />
r ³X ´<br />
Var X = √ n · σ2 = √ n · σ<br />
För att beräkna motsvarande parametrar för medelvärdet använder vi de<br />
resultat vi fann i ekvation (3) i avsnitt 2.3 (se sid 47). Det följer att<br />
E ¡ X ¢ µP <br />
X<br />
= E =<br />
n<br />
1<br />
³X ´<br />
· E X =<br />
n n · μ<br />
= μ<br />
n<br />
och<br />
Var ¡ X ¢ µP <br />
X<br />
= Var =<br />
n<br />
1<br />
³X ´<br />
· Var X =<br />
n2 n · σ2<br />
n2 σ2<br />
=<br />
n<br />
och således följer att medelvärdets standardavvikelse blir<br />
q<br />
Var ¡ X ¢ r<br />
σ2 =<br />
n = σ √<br />
n<br />
vilka alla är resultat vi skall använda oss mycket av i fortsättning<strong>en</strong>.<br />
105
Exempel 71 Vid tillverkning av byggelem<strong>en</strong>t varierar dessas längder slumpmässigt<br />
och kan ses som utfall av o.l.f.s.v. med medelvärde μ =2meter och<br />
standardavvikelse σ =0.005 meter (eller 5 mm). Vid ett tillfälle vill man ha<br />
tio elem<strong>en</strong>t som skall placeras intill varandra till <strong>en</strong> sammanlagd längd av 20<br />
meter. Man väljer mellan följande två metoder.<br />
1. Välj slumpmässigt ut ett elem<strong>en</strong>t och slipa därefter ytterligare nio elem<strong>en</strong>t<br />
till att ha exakt samma längd som det första elem<strong>en</strong>tet.<br />
2. Välj slumpmässigt ut tio elem<strong>en</strong>t.<br />
Vilk<strong>en</strong> av dessa båda metoder kommer i g<strong>en</strong>omsnitt att ge det bästa resultatet,<br />
i d<strong>en</strong> m<strong>en</strong>ing att det hamnar nära 20 meter?<br />
1. Här är det <strong>en</strong>bart längd<strong>en</strong> av det första elem<strong>en</strong>tet som är <strong>en</strong> slumpvariabel,<br />
X, och d<strong>en</strong> sammanlagda längd<strong>en</strong> Y ges av<br />
Y =10· X<br />
Räknereglerna för väntevärd<strong>en</strong> av linjärfunktioner (se ekvation (3) på<br />
sidan 47) geratt<br />
E (Y ) = E (10 · X) =10· E (X) =10· 2=20<br />
Var (Y ) = Var (10 · X) =10 2 · Var (X) =10 2 · 0.005 2 =0.0025<br />
2. Här utgör längd<strong>en</strong> av var och <strong>en</strong> av byggelem<strong>en</strong>t<strong>en</strong> slumpvariabler<br />
X1,X2,...,X10 och eftersom dom är o.l.f.s.v. följer att<br />
E (Y ) = E (X1 + X2 + ···+ X10) =10· 2=20<br />
Var (Y ) = Var (X1 + X2 + ···+ X10) =10· 0.005 2 =0.00025<br />
Vi finner således att båda metoderna i g<strong>en</strong>omsnitt kommer att ge korrekt<br />
sammanlagd längd på de tio byggelem<strong>en</strong>t<strong>en</strong>. Dock gäller att varians<strong>en</strong> för d<strong>en</strong><br />
första metod<strong>en</strong> blir tio gånger större än vad d<strong>en</strong> blir med d<strong>en</strong> andra metod<strong>en</strong>.<br />
För att med stor sannolikhet hamna nära 20 meter bör man således välja d<strong>en</strong><br />
andra metod<strong>en</strong>. ¤<br />
Vad är anledning<strong>en</strong> till d<strong>en</strong> stora skillnad<strong>en</strong> mellan de båda metoderna<br />
i exemplet ovan. Slump<strong>en</strong> medför att längd<strong>en</strong> av ett byggelem<strong>en</strong>t inte blir<br />
exakt två meter. Blir elem<strong>en</strong>tet kortare än två meter kommer i d<strong>en</strong> första<br />
metod<strong>en</strong> samtliga tio elem<strong>en</strong>t att bli kortare än två meter vilket medför att<br />
d<strong>en</strong> sammanlagda längd<strong>en</strong> antaglig<strong>en</strong> hamnar relativt långt från 20 meter.<br />
106
Det slumpmässiga felet ackumuleras. I d<strong>en</strong> andra metod<strong>en</strong> kommer troligtvis<br />
vissa elem<strong>en</strong>t att bli kortare än två meter och vissa elem<strong>en</strong>t bli längre än två<br />
meter vilket medför att dessa fel i viss utsträckning tar ut varandra. Detta<br />
är ett mycket viktigt resultat som framträder t.ex. i standardavvikels<strong>en</strong> för<br />
medelvärdet X. Väljer vi slumpmässigt <strong>en</strong> individ kommer vi i g<strong>en</strong>omsnitt att<br />
hamna i populationsmedelvärdet μ. Pga att det förekommer <strong>en</strong> viss spridning<br />
i population<strong>en</strong> kommer dock d<strong>en</strong> valde individ<strong>en</strong>s värde att avvika från detta<br />
värde med i g<strong>en</strong>omsnitt σ. Väljervislumpmässigtutn individer kommer<br />
deras medelvärde i g<strong>en</strong>omsnitt att hamna i populationsmedelvärdet μ. Dock<br />
kommer några av observationerna att hamna över μ och några att hamna<br />
under μ vilket medför att något större avstickare från detta värde i högre grad<br />
elimineras och att medelvärdet därmed i regel hamnar närmare μ än vad <strong>en</strong><br />
<strong>en</strong>skild observation gör. Detta faktum återspeglar sig i att standardavvikels<strong>en</strong><br />
för medelvärdet X är σ/ √ n.<br />
3.4.4 C<strong>en</strong>trala gränsvärdessats<strong>en</strong><br />
Vi är nu redo att sammanfatta våra upptäckter från de s<strong>en</strong>aste avsnitt<strong>en</strong> i<br />
det viktigaste resultatet i hela sannolikhetsteorin.<br />
Resultat 2 (C<strong>en</strong>trala gränsvärdessats<strong>en</strong>) Låt X1,X2,...,Xn vara ett stort<br />
antal obero<strong>en</strong>de och likafördelade slumpvariabler som alla har medelvärde μ<br />
och standardavvikelse σ. Dågällerattsumman<br />
X X = X1 + X2 + ···+ Xn<br />
approximativt är normalfördelad N (n · μ, √ n · σ). Vidare gäller att äv<strong>en</strong> medelvärdet<br />
P<br />
X<br />
X =<br />
n = X1 + X2 + ···+ Xn<br />
n<br />
³<br />
approximativt är normalfördelat N μ, σ ´<br />
√<br />
n . ¥<br />
Om bara slumpvariablerna är obero<strong>en</strong>de och följer samma sannolikhetsfördelning<br />
spelar det således ing<strong>en</strong> roll vilk<strong>en</strong> sannolikhetsfördelning dom följer.<br />
Är dom bara tillräckligt många kommer summan (och medelvärdet) av<br />
dom ändå att vara approximativt normalfördelad. Inte nog med att det inte<br />
spelar någon roll vilk<strong>en</strong> sannolikhetsfördelning dom följer, vi har dessutom<br />
inget behov av att känna dess utse<strong>en</strong>de helt och fullt. D<strong>en</strong> <strong>en</strong>da information<br />
vi behöver om d<strong>en</strong>na sannolikhetsfördelning är dess medelvärde μ och dess<br />
standardavvikelse σ.<br />
107
Vad m<strong>en</strong>as då med tillräckligt många slumpvariabler? C<strong>en</strong>trala gränsvärdessats<strong>en</strong><br />
är <strong>en</strong> process som successivt gör att sannolikhetsfördelning<strong>en</strong> för summan<br />
(eller medelvärdet) blir normalfördelningslik. Då normalfördelning<strong>en</strong> är<br />
helt symmetrisk är det inte överraskande att d<strong>en</strong>na process går snabbare om<br />
d<strong>en</strong> ursprungliga sannolikhetsfördelning<strong>en</strong> själv är symmetrisk. Är d<strong>en</strong> ursprungliga<br />
fördelning<strong>en</strong> själv normalfördelad räcker det förstås med <strong>en</strong> <strong>en</strong>da<br />
observation medan det för svårt asymmetriska fördelningar kan krävas hundratals<br />
observationer innan tillräckligt symmetri uppnås. Problemet är att vi<br />
ofta inte vet hur d<strong>en</strong> ursprungliga fördelning<strong>en</strong> ser ut och då är det svårt att<br />
bedöma hur många observationer som krävs. Av erfar<strong>en</strong>het har man funnit<br />
att för de flesta ursprungsfördelningar är 30 observationer (eller fler) tillräckligt<br />
för att summans (och medelvärdets) sannolikhetsfördelning skall kunna<br />
approximeras med normalfördelning<strong>en</strong>.<br />
Vi är nu redo att ta oss an det exempel vi lämnat ofullständigt löst i<br />
avsnitt 3.4.1<br />
Exempel 72 Antag att vi i Exempel 70 vill bestämma sannolikhet<strong>en</strong> att det<br />
är tillräckligt med 100 parkeringsplatser. Eftersom vi studerar slumpvariabeln<br />
Y = Det sammanlagda antalet bilar i hundra familjer<br />
kan vår sökta sannolikhet uttryckas i termer av Y som<br />
Pr (Y ≤ 100)<br />
Vi söker således sannolikheter associerade med slumpvariabeln<br />
Y = X1 + X2 + ···+ X100<br />
där X1,X2,...,X100 är o.l.f.s.v.. Eftersom vi har fler än 30 sådana slumpvariabler<br />
är villkor<strong>en</strong> för normalapproximation uppfyllda och vi behöver <strong>en</strong>bart<br />
ta reda på medelvärde och standardavvikelse för ursprungsfördelning<strong>en</strong>.<br />
D<strong>en</strong>na sannolikhetsfördelning ges av<br />
och det följer därför att<br />
och eftersom<br />
x 0 1 2<br />
p (x) 0.3 0.5 0.2<br />
μ = E (X) =0· 0.3+1· 0.5+2· 0.2 =0.9<br />
E ¡ X 2¢ =0 2 · 0.3+1 2 · 0.5+2 2 · 0.2 =1.3<br />
108
följer att<br />
Var (X) =1.3 − 0.9 2 =0.49<br />
och således att<br />
σ = p Var (X) = √ 0.49 = 0.7<br />
D<strong>en</strong>na familjetyp har alltså i g<strong>en</strong>omsnitt 0.9 bilar med <strong>en</strong> standardavvikelse<br />
på 0.7 bilar. C<strong>en</strong>trala gränsvärdessats<strong>en</strong> ger därför att Y approximativt är<br />
³<br />
N 100 · 0.9, √ ´<br />
100 · 0.7 = N (90, 7)<br />
Innan vi beräknar sannolikhet<strong>en</strong> konstaterar vi att Y är <strong>en</strong> diskret slumpvariabel<br />
varför normalapproximation<strong>en</strong> blir bättre om vi använder kontinu-<br />
itetskorrektion. Vi får att<br />
Pr (Y ≤ 100)<br />
| {z }<br />
Y är diskret<br />
µ<br />
Y − 90<br />
≈ Pr (Y ≤ 100.5) =Pr<br />
| {z } 7<br />
Y är normal<br />
= Pr(Z≤1.5) = 0.9332<br />
≤<br />
<br />
100.5 − 90<br />
=<br />
7<br />
dvs det är ungefär 93% chans att 100 parkeringsplatser kommer att räcka. ¤<br />
Vi fortsätter med ytterligare två exempel.<br />
Exempel 73 Antag att vi sätter vår dator till att lösa femtio uppgifter (av<br />
samma typ) innan vi går på vår <strong>en</strong>timmes lunchrast. Antag att det för datorn<br />
i g<strong>en</strong>omsnitt tar <strong>en</strong> minut att lösa d<strong>en</strong>na typ av uppgift. Dock tar det<br />
inte alltid exakt samma tid utan vi har dessutom <strong>en</strong> standardavvikelse på <strong>en</strong><br />
minut. Bestäm sannolikhet<strong>en</strong> att datorn är färdig när vi kommer tillbaks från<br />
lunchrast<strong>en</strong>. Eftersom<br />
Y = Sammanlagd datortid för att lösa 50 uppgifter<br />
följer att d<strong>en</strong> sökta sannolikhet<strong>en</strong> kan uttryckas i termer av Y via<br />
Pr (Y ≤ 60)<br />
Vi söker således sannolikheter associerade med slumpvariabeln<br />
Y = X1 + X2 + ···+ X50<br />
där X1,X2,...,X50 är o.l.f.s.v.. Eftersom vi har fler än 30 sådana slumpvariabler<br />
är villkor<strong>en</strong> för normalapproximation uppfyllda. Vi har dessutom<br />
fått information om att det för X-variablerna gäller<br />
μ = σ =1<br />
109
C<strong>en</strong>trala gränsvärdessats<strong>en</strong> ger sedan att sannolikhetsfördelning<strong>en</strong> för Y approximativt<br />
är ³<br />
N 50 · 1, √ ´<br />
50 · 1 = N (50, 7.07)<br />
Vi finner därmed att<br />
Pr (Y ≤ 60) ≈ Pr<br />
µ Y − 50<br />
7.07<br />
<br />
60 − 50<br />
≤ =Pr(Z≤1.414) = 0.9213<br />
7.07<br />
där vi interpolerat i Tabell 3a. I det här exemplet går det att på teoretisk väg<br />
finna d<strong>en</strong> verkliga sannolikhetfördelning<strong>en</strong> för Y som ger d<strong>en</strong> sökta sannolikhet<strong>en</strong><br />
är<br />
Pr (Y ≤ 60) = 0.9156<br />
vilket innebär att approximation<strong>en</strong> är fullt acceptabel. ¤<br />
Exempel 74 För <strong>en</strong> viss lärare tar det i g<strong>en</strong>omsnitt 20 minuter att rätta <strong>en</strong><br />
skrivning i statistik. Nu är det dock inte så att alla skrivningar tar lika lång<br />
tid utan det föreligger <strong>en</strong> relativt stor spridning vilket framgår av att standardavvikels<strong>en</strong><br />
är 12 minuter. På söndagsförmiddag<strong>en</strong> klockan 10.00 sätter<br />
sig lärar<strong>en</strong> med de sista 36 skrivningarna. Bestäm sannolikhet<strong>en</strong> att samtliga<br />
skrivningar är rättade innan sport<strong>en</strong> börjar 20.30. Låter vi X1,X2,...,X36<br />
repres<strong>en</strong>tera d<strong>en</strong> tid det tar att rätta var och <strong>en</strong> av skrivningarna följer att<br />
Y = Total rättningstid =<br />
= X1 + X2 + ···+ X36<br />
Förutsätter vi nu (något tveksamt) att rättningstid<strong>en</strong> för <strong>en</strong> skrivning inte<br />
påverkar rättningstid<strong>en</strong> för <strong>en</strong> annan följer att X1,X2,...,X36 är o.l.f.s.v.<br />
och vi kan använda normalapproximation för att bestämma sannolikhetsfördelning<strong>en</strong><br />
för Y . Eftersom det för ursprungsfördelning<strong>en</strong> gäller att<br />
μ = 20<br />
σ = 12<br />
följer att sannolikhetsfördelning<strong>en</strong> för Y kan approximeras med<br />
³<br />
N 36 · 20, √ ´<br />
36 · 12 = N (720, 72)<br />
D<strong>en</strong> tid lärar<strong>en</strong> har på sig innan sport<strong>en</strong> börjar är 10.5 timmar eller 630<br />
minuer varför sannolikhet<strong>en</strong> ges av<br />
µ <br />
Y − 720 630 − 720<br />
Pr (Y ≤ 630) ≈ Pr ≤ =Pr(Z≤−1.25) =<br />
72 72<br />
= Pr(Z≥1.25) = 1 − Pr (Z
3.4.5 Hur fungerar normalapproximation av binomialfördelning<strong>en</strong>?<br />
Vi såg i avsnitt 3.3 att normalfördelning<strong>en</strong> i vissa situationer kan användas för<br />
att approximera binomiala sannolikheter. Detta är <strong>en</strong> direkt följd av C<strong>en</strong>trala<br />
gränsvärdessats<strong>en</strong>. Vi vet att om vi med återläggning drar n bollar ur <strong>en</strong> urna<br />
där andel<strong>en</strong> vita bollar är π och betraktar slumpvariabeln<br />
Y = Antal vita bollar i urvalet<br />
kommer Y att vara binomialfördelad Bi(n, π). Vi upprepar alltså exakt samma<br />
slumpförsök n gånger och låter vi X1,X2,...,Xn repres<strong>en</strong>tera antalet vita<br />
bollar i var och <strong>en</strong> av dragningarna kommer<br />
Y = X1 + X2 + ···+ Xn<br />
dvs <strong>en</strong> summa av n o.l.f.s.v. som alla är Bi(1,π) (eller sk. Bernoullifördelade,<br />
Be(π)). Vi såg i avsnitt 2.4 att det för dessa slumpvariabler gäller att<br />
μ = π<br />
σ = p π · (1 − π)<br />
vilket om n är tillräckligt stort medför att sannolikhetsfördelning<strong>en</strong> för Y<br />
approximativt är ³<br />
N n · π, p ´<br />
n · π · (1 − π)<br />
som äv<strong>en</strong> konstaterades i avsnitt 3.3. C<strong>en</strong>trala gränsvärdessats<strong>en</strong> arbetar<br />
olika snabbt bero<strong>en</strong>de på ursprungsfördelning<strong>en</strong>s form och eftersom d<strong>en</strong>na<br />
symmetri för binomialfördelning<strong>en</strong> bestäms av parametern π använder vi för<br />
binomialfördelning<strong>en</strong> ett speciellt mått på vad som skall m<strong>en</strong>as med att n är<br />
tillräckligt stort. Då π är nära 0.5 är fördelning<strong>en</strong> som mest symmetrisk och<br />
då räcker det med runt 20 dragningar. Skulle dock π vara nära 0 eller 1 är<br />
fördelning<strong>en</strong> svårt asymmetrisk och det kan krävas hundratals observationer.<br />
För att normalapproximation skall få användas bör det gälla att<br />
n · π · (1 − π) > 5<br />
I dessa situationer är man ofta intresserade av d<strong>en</strong> närbesläktade slumpvariabeln<br />
p = Andel<strong>en</strong> individer i urvalet med d<strong>en</strong> aktuella eg<strong>en</strong>skap<strong>en</strong> = Y<br />
n<br />
111
och utifrån våra kunskaper om eg<strong>en</strong>skaper hos linjärfunktioner av slumpvariabler<br />
följer att<br />
µ <br />
Y<br />
E (p) = E =<br />
n<br />
1<br />
E (Y )=nπ = π<br />
n n<br />
µ <br />
Y<br />
Var (p) = Var =<br />
n<br />
1<br />
(1 − π)<br />
Var (Y )=nπ<br />
n2 n2 = π (1 − π)<br />
n<br />
Vidare vet vi att varje linjärfunktion av normalfördelade slumpvariabler själv<br />
är normalfördelad varför det följer att p approximativt är<br />
à r !<br />
π (1 − π)<br />
N π,<br />
n<br />
3.4.6 Normalapproximation av Poissonfördelning<strong>en</strong><br />
Det visar sig att äv<strong>en</strong> Poissonfördelning<strong>en</strong> kan skrivas som <strong>en</strong> summa av<br />
o.l.f.s.v.. Betraktar vi <strong>en</strong> process där händelser inträffar med int<strong>en</strong>sitet<strong>en</strong> μ<br />
gäller att<br />
Y = Antal händelser på ett <strong>en</strong>hetsintervall<br />
är Po(μ). Ett <strong>en</strong>hetsintervall kan dock delas upp i mindre intervall och om<br />
vi låter X1,X2,...,Xn repres<strong>en</strong>tera antal händelser på vart och ett av dessa<br />
intervall kommer dessa, <strong>en</strong>ligt resonemang i slutet av avsnitt 2.5.1, att vara<br />
o.l.f.s.v. som alla är Po ¡ ¢ μ<br />
. Eftersom<br />
n<br />
Y = X1 + X2 + ···+ Xn<br />
ger därför C<strong>en</strong>trala gränsvärdessats<strong>en</strong> att normalapproximation kan användas<br />
om n är tillräckligt stort. Här måste vi dock vara försiktiga eftersom ju<br />
större vi väljer n ju mindre kommer μ<br />
att bli, vilket medför att d<strong>en</strong> ursprungs-<br />
n<br />
fördelning, Po ¡ ¢ μ<br />
, som C<strong>en</strong>trala gränsvärdessats<strong>en</strong> har att arbeta med blir<br />
n<br />
mer asymmetrisk. Det hjälper således inte att välja n stort utan d<strong>en</strong> <strong>en</strong>da<br />
möjlighet<strong>en</strong> är att int<strong>en</strong>sitet<strong>en</strong> μ är tillräckligt stor. Om så är fallet kan vi<br />
välja n stort samtidigt som att ursprungsfördelning<strong>en</strong> Po ¡ ¢ μ<br />
är tillräckligt<br />
n<br />
symmetrisk. Erfar<strong>en</strong>het<strong>en</strong> har visat att om μ>5 blir normalapproximation<strong>en</strong><br />
acceptabel. Ju större μ är ju bättre blir approximation<strong>en</strong>. I avsnitt 2.5.3<br />
fann vi att<br />
E (Y )=Var (Y )=μ<br />
varför vi för Po(μ) kan använda N ¡ μ, √ μ ¢ som approximativ sannolikhetsfördelning.<br />
112
Exempel 75 Vi återgår nu till att studera problemet i Exempel 73 med att<br />
bestämma sannolikhet<strong>en</strong> att datorn är färdig med sina 50 uppgifter då vi<br />
återkommer till arbetet efter lunchrast<strong>en</strong>. Eftersom det handlar om väntetider<br />
kan vi förutsätta att<br />
är Po(1). Låter vi nu<br />
X = Antal utförda uppgifter under <strong>en</strong> minut<br />
Y = Antal utförda uppgifter på <strong>en</strong> timme<br />
följer <strong>en</strong>ligt resonemang i slutet av avsnitt 2.5.1 att Y är Po(60). Normalapproximation<br />
är tillåt<strong>en</strong> och d<strong>en</strong> aktuella normalfördelning<strong>en</strong> ges av<br />
³<br />
N 60, √ ´<br />
60 = N (60, 7.746)<br />
Vi söker sannolikhet<strong>en</strong><br />
Pr (Y ≥ 50)<br />
och eftersom Poissonfördelning<strong>en</strong> är diskret använder vi kontinuitetskorrektion<br />
för att förbättra approximation<strong>en</strong>. Vi får<br />
Pr (Y ≥ 50)<br />
| {z }<br />
≈<br />
µ <br />
Y − 60 49.5 − 60<br />
Pr (Y ≥ 49.5) =Pr ≥ =<br />
| {z } 7.746 7.746<br />
Y är poisson<br />
Y är normal<br />
= Pr(Z≥−1.356) = Pr (Z ≤ 1.356) = 0.9124<br />
där vi använt interpolation i Tabell 3a. Här kan vi med rätt hjälpmedel finna<br />
d<strong>en</strong> exakta sannolikhet<strong>en</strong> med Po(60) som ges av<br />
Pr (Y ≥ 50) = 0.9156<br />
som över<strong>en</strong>sstämmer med d<strong>en</strong> exakta beräkning som pres<strong>en</strong>terades i Exempel<br />
73. ¤<br />
3.4.7 Approximationsmöjligheter<br />
Som avslutning på detta viktiga avsnitt om C<strong>en</strong>trala gränsvärdessats<strong>en</strong> pres<strong>en</strong>terar<br />
vi <strong>en</strong> sammanfattning av de vanligaste approximationsmöjligheterna<br />
i sannolikhetsläran.<br />
113
3.4.8 Övningsuppgifter<br />
Uppgift 44 Lös uppgift 509.<br />
Approximationsmöjligheter<br />
n>10<br />
π5 N( μ, μ)<br />
Uppgift 45 I <strong>en</strong> hiss står angivet “Högst 10 personer eller 800 kg”. Antag<br />
att det för typiska hissres<strong>en</strong>ärer gäller att vikt<strong>en</strong> är normalfördelad med<br />
medelvikt<strong>en</strong> 75 kg och standardavvikels<strong>en</strong> 12 kg.<br />
a. Bestäm sannolikhet<strong>en</strong> att <strong>en</strong> personmässigt fylld hiss inte klarar det andra<br />
villkoret. Vi förutsätter att det inte finns något viktmässigt bero<strong>en</strong>de<br />
mellan hissres<strong>en</strong>ärerna.<br />
b. Hur mycket måste man förbättra hiss<strong>en</strong> (höja viktgräns<strong>en</strong> till) för att<br />
<strong>en</strong> personmässigt fylld hiss med 99%-sannolikhet klarar viktgräns<strong>en</strong>.<br />
Uppgift 46 Vid <strong>en</strong> godisfabrik packas “200g-påsar” med storsäljar<strong>en</strong> “chokladdoppade<br />
sockerbomber” i lådor om 100 påsar i varje. Det har visat sig att<br />
påsarna i g<strong>en</strong>omsnitt <strong>en</strong>dast väger 198g med <strong>en</strong> standardavvikelse på 12g.<br />
a. Bestäm sannolikhet<strong>en</strong> att innehållet i <strong>en</strong> låda väger mer än 20kg.<br />
b. Enligt nya EU-regler måste innehållet i åtminstone 1/3 av lådorna väga<br />
det dom utsäger sig att göra, vilket i det här fallet är 20kg. Vad måste<br />
man ställa om ifyllningsanordning<strong>en</strong> för godispåsarna till för att uppfylla<br />
detta krav? Vi förutsätter att standardavvikels<strong>en</strong> för innehållet i<br />
påsarna förblir oförändrad.<br />
114
Uppgift 47 Innan du går på din <strong>en</strong>timmes lunchrast sätter du din dator till<br />
att lösa 40 matematiska problem. Du vet att datorn i g<strong>en</strong>omsnitt löser d<strong>en</strong>na<br />
typ av problem på 1.4 minuter med <strong>en</strong> standardavvikelse på 0.4 minuter. När<br />
datorn har löst <strong>en</strong> uppgift startar d<strong>en</strong> omedelbart med nästa.<br />
a. Bestäm sannolikhet<strong>en</strong> att datorn är färdig när du återvänder från lunchrast<strong>en</strong>.<br />
b. Hur lång lunchrast måste du ta om du vill att datorn med 99% sannolikhet<br />
skall vara färdig när du kommer tillbaka?<br />
Uppgift 48 Antal fel som uppstår i <strong>en</strong> viss maskin under <strong>en</strong> arbetstimme<br />
kan ses som <strong>en</strong> stokastisk variabel X med sannolikhetsfunktion<br />
⎧<br />
⎨ 0.3 , x =0<br />
p (x) = 0.6<br />
⎩<br />
0.1<br />
,<br />
,<br />
x =1<br />
x =2<br />
a. Bestäm medelvärde och varians för X.<br />
b. Bestäm approximativt sannolikhet<strong>en</strong> att det under <strong>en</strong> arbetsvecka (dvs<br />
40 arbetstimmar) uppstår högst 30 fel i maskin<strong>en</strong>. Ange äv<strong>en</strong> de antagand<strong>en</strong><br />
du gör för att beräkna sannolikhet<strong>en</strong>.<br />
Uppgift 49 I ett visst tärningsspel skall man ta sig 100 steg (eller längre).<br />
Bestäm approximativt sannolikhet<strong>en</strong> att det räcker med 30 kast för att komma<br />
imål.<br />
3.5 Normalfördelade populationer<br />
Som avslutning på sannolikhetsläran och som övergång till infer<strong>en</strong>släran några<br />
ord om populationer och dess fördelningar. Då man pratar om <strong>en</strong> population<br />
tänker man instinktivt på <strong>en</strong> population av människor, som t.ex.<br />
d<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> eller pati<strong>en</strong>terna i <strong>en</strong> hälsoundersökning. Så behöver<br />
alls inte vara fallet. Andra tänkbara populationer är “Volvo 740”,“Konservburkar”,<br />
“Lottokombinationer” etc. Vidare gäller att d<strong>en</strong> sannolikhetsfördelning<br />
man associerar med <strong>en</strong> population beror på vilk<strong>en</strong> variabel man<br />
studerar. Det finns variabler som för <strong>en</strong> mänsklig population ger upphov<br />
till normalfördelning<strong>en</strong> (eller åtminstone ungefär). Intellig<strong>en</strong>skvot<strong>en</strong> “IQ” är<br />
<strong>en</strong> variabel som brukar betraktas som (approximativt) normalfördelad med<br />
parametrar μ = 100 och σ =15. D<strong>en</strong> g<strong>en</strong>omsnittlige medborgar<strong>en</strong> har alltså<br />
<strong>en</strong> IQ på 100. Dock har inte alla <strong>en</strong> IQ på 100 utan standardavvikels<strong>en</strong> 15<br />
115
anger d<strong>en</strong> g<strong>en</strong>omsnittliga avvikels<strong>en</strong> från medelvärdet. I och med att vi anger<br />
att IQ är normalfördelad har vi dessutom bestämt form<strong>en</strong> på d<strong>en</strong>na spridning<br />
i population<strong>en</strong>. Då man arbetar med normalfördelning<strong>en</strong> är det dock oftast<br />
inte d<strong>en</strong> “vanliga” (eller ursprungliga) population<strong>en</strong> som syftas på. För de<br />
flesta variabler är population<strong>en</strong> i sig inte normalfördelad, och några exempel<br />
på sådana fördelningar vi studerat här är<br />
D<strong>en</strong> sv<strong>en</strong>ska väljarkår<strong>en</strong> har följande fördelning<br />
Andel av väljarkår<strong>en</strong> med avse<strong>en</strong>de på variabeln "Moderat?"<br />
Moderat<br />
Ej moderat<br />
Sannolikhet<br />
En viss familjetyp har följande fördelning<br />
med avse<strong>en</strong>de på variabeln "Antal bilar"<br />
0 1 2<br />
Antal bilar<br />
Frekv<strong>en</strong>s (täthet)<br />
D<strong>en</strong> tid det tar <strong>en</strong> dator att lösa <strong>en</strong><br />
viss typ av uppgift har följande<br />
sannolikhetsfördelning.<br />
0 1 2 3 4 5 6<br />
vilka alla är långt ifrån att vara normalfördelade. Normalfördelning<strong>en</strong>s roll<br />
kommer i och med C<strong>en</strong>trala gränsvärdessats<strong>en</strong> istället då vi har tillgång till<br />
ett stort antal observationer från d<strong>en</strong>na grundfördelning pga av att både summan<br />
och medelvärdet av observationerna då är approximativt normalfördelade.<br />
I statistik<strong>en</strong> cirkulerar mycket kring information<strong>en</strong> i stickprov och då<br />
stickprov ofta kan ses som ett stort antal observationer från <strong>en</strong> och samma<br />
fördelning följer att det är här normalfördelning<strong>en</strong> kommer in i bild<strong>en</strong>. Vi<br />
skall se att det för kvantitativa variabler är stickprovsmedelvärdet x som<br />
är av intresse. För att på bästa sätt kunna använda d<strong>en</strong> information x innehåller<br />
måste vi känna dom sannolikhetseg<strong>en</strong>skaper X har innan stickprovet<br />
är taget. Nu råkar vi veta att om stickprovet är stort är stickprovsmedelvärdet<br />
X approximativt normalfördelat, dvs<br />
µ<br />
X är approximativt N μ, σ <br />
√<br />
n<br />
Återgår vi till figur<strong>en</strong> över d<strong>en</strong> tid det tar för datorn att lösa uppgifter och<br />
för d<strong>en</strong>na istället studerar stickprovsmedelvärdets fördelning får vi för några<br />
stickprovsstorlekar.<br />
116<br />
Tid (min)
Stickprovsmedelvärdet sannolikhetsfördelning<br />
Frekv<strong>en</strong>s (täthet)<br />
n=10<br />
n=5<br />
Tid (minuter)<br />
Fortsätter vi att studera stickprovsmedelvärdets sannolikhetsfördelning för<br />
ytterligare några stickprovsstorlekar, där vi dessutom markerat populationsmedelvärdet<br />
μ, får vi följande diagram<br />
Frekv<strong>en</strong>s (täthet)<br />
n=2<br />
Stickprovsmedelvärdets sannolikhetsfördelning<br />
n=40<br />
n=20<br />
n=10<br />
μ<br />
Tid (minuter)<br />
och vi ser (åtminstone) två intressanta eg<strong>en</strong>heter i diagramm<strong>en</strong>.<br />
• D<strong>en</strong> normalfördelning som skall användas för stickprovsmedelvärdet<br />
skall alltid c<strong>en</strong>treras i populationsmedelvärdet medan dess form beror<br />
på stickprovsstorlek<strong>en</strong>. Större stickprov ger lägre standardavvikelse för<br />
stickprovsmedelvärdet.<br />
• Normalfördelning<strong>en</strong> används som <strong>en</strong> approximation av d<strong>en</strong> verkliga<br />
sannolikhetsfördelning<strong>en</strong> och vi ser att d<strong>en</strong> symmetriska form<strong>en</strong> blir<br />
mer påtaglig ju större stickprovet är. Vi drar därför slutsats<strong>en</strong> att approximation<strong>en</strong><br />
blir bättre ju större storlek vi väljer på stickprovet.<br />
Vi ser därmed två fördelar med att ta stora stickprov. Dels blir sannolikhetsapproximation<strong>en</strong><br />
pålitligare och dels kommer stickprovsmedelvärdet<br />
med större sannolikhet att hamna i närhet<strong>en</strong> av populationsmedelvärdet.<br />
Således gäller att d<strong>en</strong> population vi vanligtvis förknippar med normalfördelning<strong>en</strong><br />
består av “Tänkbara stickprovsmedelvärd<strong>en</strong> för stickprovsstorlek<strong>en</strong><br />
117
n”. Antag att vi studerar <strong>en</strong> population och där är intresserade av <strong>en</strong> variabel<br />
med populationsmedelvärde μ och populationsstandardavvikelse σ. Antag<br />
vidare att vi har tillgång till alla tänkbara stickprov av storlek n och för<br />
var och <strong>en</strong> av dessa beräknar medelvärdet x. Då har vi ett datamaterial för<br />
<strong>en</strong> population där individerna består av stickprovsmedelvärd<strong>en</strong>. För d<strong>en</strong>na<br />
population gäller att populationsmedelvärdet är μ och populationsstandardavvikels<strong>en</strong><br />
är σ √ n . Detta resultat hade dock varit relativt ointressant om inte<br />
C<strong>en</strong>trala gränsvärdessats<strong>en</strong> funnits. För om stickprovet är tillräckligt stort<br />
gäller ju dessutom att själva form<strong>en</strong>, eller fördelning<strong>en</strong>, för d<strong>en</strong>na population<br />
är mycket lik <strong>en</strong> normalfördelning.<br />
118
A Formelförklaringar<br />
A.1 Beräkningsformel för varians<strong>en</strong><br />
Vi förklarar här beräkningsformeln (2) för varians<strong>en</strong> som angavs i avsnitt 2.2.<br />
Vi börjar med att skriva varians<strong>en</strong> som <strong>en</strong> summa och utveckla kvadrat<strong>en</strong><br />
g<strong>en</strong>om kvadratkomplettering.<br />
Var (X) = X (x − μ) 2 · p (x) = X ¡ x 2 − 2xμ + μ 2 ¢ · p (x) =<br />
Nu kan detta uttryck delas upp i tre summor och eftersom populationsmedelvärdet<br />
μ är <strong>en</strong> konstant kan det flyttas utanför summation<strong>en</strong>.<br />
X x 2 p (x) − 2μ X xp (x)+μ 2 X p (x) =<br />
D<strong>en</strong> vänstra term<strong>en</strong> anger det förväntade värdet av X2 ,dvsE (X2 ),och<br />
uttrycket i d<strong>en</strong> mittersta summan är inget annat än E (X) =μ. D<strong>en</strong> sista<br />
summan adderar samtliga sannolikheter varför det måste gälla att P p (x) =<br />
1. Vifårsåledesatt<br />
Var (X) = X x 2 p (x) − 2μ X xp (x)+μ 2 X p (x) =<br />
= E ¡ X 2¢ − 2μ 2 + μ 2 = E ¡ X 2¢ − μ 2<br />
vilket också var påstå<strong>en</strong>det.<br />
A.2 Väntevärd<strong>en</strong> av linjärfunktioner<br />
E (a + b · X) = X (a + b · x) · p (x) =a X p (x)+b X x · p (x) =<br />
= a + b · E (X) =a + b · μ<br />
Var (a + b · X) = X [a + b · x − (a + b · μ)] 2 · p (x) =<br />
= X [b · (x − μ)] 2 · p (x) =<br />
= b 2 X (x − μ) 2 · p (x) =b 2 · Var (X) =b 2 · σ 2<br />
B Diskreta sannolikhetsfördelningar<br />
B.1 Binomialfördelning<strong>en</strong><br />
Vi ger här ett matematiskt bevis för väntevärde och varians för binomialfördelning<strong>en</strong>.<br />
I bevis<strong>en</strong> använder vi ett välkänt knep för väntevärdesberäkningar.<br />
119
Oftakanmanstuvaomtermernaochflytta några utanför summatecknet så<br />
att det som blir kvar är sannolikheter. Summerar man därtill över samtliga<br />
värd<strong>en</strong> måste ju summan bli 1.<br />
E (X) =<br />
nX<br />
µ <br />
n<br />
x π<br />
x<br />
x=0<br />
x (1 − π) n−x nX n!<br />
= x ·<br />
x!(n − x)!<br />
x=0<br />
πx (1 − π) n−x =<br />
=<br />
nX n!<br />
(x − 1)! (n − x)!<br />
x=1<br />
πx (1 − π) n−x =<br />
=<br />
nX (n − 1)!<br />
nπ<br />
(x − 1)! (n − x)!<br />
x=1<br />
πx−1 (1 − π) n−x =<br />
=<br />
nX<br />
µ <br />
n − 1<br />
nπ<br />
π<br />
x − 1<br />
x=1<br />
x−1 (1 − π) n−x =<br />
=<br />
Xn−1<br />
µ <br />
n − 1<br />
nπ<br />
π<br />
x<br />
x (1 − π) n−1−x = nπ<br />
x=0<br />
eftersom termerna i summan är sannolikheter för Bi(n − 1,π) och därför<br />
måste summera till 1. Detta knep använder vi oss också av då varians<strong>en</strong> skall<br />
bestämmas. Först konstaterar vi att<br />
vilket betyder att<br />
E [X (X − 1)] = E ¡ X 2 − X ¢ = E ¡ X 2¢ − E (X)<br />
Var (X) = E ¡ X 2¢ − [E (X)] 2 = E ¡ X 2¢ − E (X)+E (X) − [E (X)] 2 =<br />
= E [X (X − 1)] + EX − [E (X)] 2<br />
och eftersom E (X) redan är bestämd räcker det att finna<br />
E [X (X − 1)] =<br />
nX<br />
µ <br />
n<br />
x (x − 1) π<br />
x<br />
x=0<br />
x (1 − π) n−x =<br />
=<br />
nX n!<br />
(x − 2)! (n − x)!<br />
x=2<br />
πx (1 − π) n−x =<br />
=<br />
n (n − 1) π 2<br />
nX<br />
µ <br />
n − 2<br />
π<br />
x − 2<br />
x=2<br />
x−2 (1 − π) n−x =<br />
=<br />
n (n − 1) π 2<br />
Xn−2<br />
µ <br />
n − 2<br />
π<br />
x<br />
x (1 − π) n−2−x = n (n − 1) π 2<br />
x=0<br />
120
där summan blir 1 eftersom det är <strong>en</strong> summering av alla sannolikheter för<br />
Bi(n − 2,π). Vifårdåatt<br />
Var (X) =n (n − 1) π 2 + nπ − n 2 π 2 = nπ − nπ 2 = nπ (1 − π)<br />
B.2 Hypergeometrisk fördelning<br />
Vi ger här ett matematiskt bevis för väntevärde och varians för hypergeometrisk<br />
fördelning. I bevis<strong>en</strong> använder vi samma knep för väntevärdesberäkningar<br />
som användes för binomialfördelning<strong>en</strong> i Avsnitt B.1 ovan.<br />
E (X) =<br />
nX<br />
x ·<br />
x=0<br />
= n<br />
N<br />
· Nπ<br />
¡ ¢¡ ¢<br />
Nπ N−Nπ<br />
nX<br />
¡ ¢¡ ¢<br />
Nπ−1 N−Nπ<br />
x n−x<br />
x−1 n−x<br />
¡ ¢ = Nπ ¡ ¢ =<br />
N<br />
N<br />
n<br />
x=1 n<br />
nX<br />
¡ ¢¡ ¢ ¡ ¢¡ Nπ−1 N−Nπ Xn−1<br />
Nπ−1 N−Nπ<br />
x−1 n−x<br />
x n−1−x<br />
¡ ¢ = nπ ¡ N−1<br />
N−1<br />
x=1 n−1<br />
x=0 n−1<br />
¢<br />
¢ = nπ<br />
eftersom termerna i summan är sannolikheter för Hyp(n − 1,π,N − 1) och<br />
därför måste summera till 1. Detta knep använder vi oss också av då varians<strong>en</strong><br />
skall bestämmas.<br />
E [X (X − 1)] =<br />
nX<br />
x (x − 1) ·<br />
x=0<br />
= Nπ(Nπ − 1)<br />
= n (n − 1)<br />
= n (n − 1) π (Nπ − 1)<br />
= n (n − 1) π (Nπ − 1)<br />
· Nπ(Nπ − 1)<br />
N (N − 1)<br />
N − 1<br />
N − 1<br />
¡ ¢¡ ¢<br />
Nπ N−Nπ<br />
x n−x<br />
¡ ¢ N =<br />
n<br />
nX<br />
¡ ¢¡ ¢<br />
Nπ−2 N−Nπ<br />
x−2 n−x<br />
¡ ¢ =<br />
N<br />
x=2 n<br />
nX<br />
¡ ¢¡ Nπ−2 N−Nπ<br />
x−2 n−x<br />
¡ N−2<br />
x=2 n−2<br />
¡ ¢¡ ¢<br />
Xn−2<br />
Nπ−2 N−Nπ<br />
x n−2−x<br />
¡ ¢ =<br />
N−2<br />
x=0 n−2<br />
121<br />
¢<br />
¢ =
eftersom termerna i summan är sannolikheter för Hyp(n − 2,π,N − 2) och<br />
därför måste summera till 1.Vi får då att<br />
Var (X) =<br />
n (n − 1) π (Nπ − 1)<br />
+ nπ − n<br />
N − 1<br />
2 π 2 =<br />
=<br />
µ <br />
(n − 1) (Nπ − 1)<br />
nπ<br />
+1− nπ =<br />
N − 1<br />
=<br />
1<br />
nπ [(n − 1) (Nπ − 1) + N − 1 − nπ (N − 1)] = ···=<br />
N − 1<br />
=<br />
N − n<br />
nπ (1 − π)<br />
N − 1<br />
B.3 Poissonfördelning<strong>en</strong><br />
B.3.1 Sannolikhetsfunktion<strong>en</strong><br />
Det spelar således ing<strong>en</strong> roll hur korta delintervall vi än väljer, sannolikhet<strong>en</strong><br />
ovan kommer ändå bara att vara <strong>en</strong> approximation. Dock gäller att d<strong>en</strong>na<br />
approximation blir bättre ju kortare intervall vi väljer, dvs ju större vi låter<br />
n vara. Exakt sannolikhetsfördelning kan därför fås g<strong>en</strong>om att bestämma<br />
gränsvärdet för sannolikhetsfördelning<strong>en</strong> då n →∞,dvs<br />
µ <br />
n<br />
³μ ´ x ³<br />
pX (x) = lim<br />
1 −<br />
n→∞ x n<br />
μ<br />
´ n−x<br />
n<br />
För att finna detta gränsvärde stuvar vi om lite i uttrycket och får istället<br />
μ<br />
lim<br />
n→∞<br />
x n (n − 1) ···(n − x +1)<br />
·<br />
x! nx ³<br />
· 1 − μ<br />
´ n ³<br />
1 −<br />
n<br />
μ<br />
´ −x<br />
n<br />
Räknereglerna för hur man bestämmer gränsvärd<strong>en</strong> ger att vi kan studera<br />
termvis. μx och x! påverkas inte i gränsvärdet och eftersom μ<br />
→ 0 då n →∞<br />
n<br />
kommer ³<br />
1 − μ<br />
´ −x<br />
→ (1 − 0)<br />
n<br />
−x =1.<br />
Sedan använder vi det välkända matematiska faktum att<br />
³<br />
lim 1+<br />
n→∞<br />
x<br />
´ n<br />
= e<br />
n<br />
x<br />
vilket alltså betyder att ¡ 1 − μ¢<br />
n −μ → e . Slutlig<strong>en</strong> studerar vi<br />
n<br />
n (n − 1) ···(n − x +1)<br />
lim<br />
n→∞ nx n − 1) (n − x +1)<br />
= lim ·(n ·· · ·· =1·1 ···1=1<br />
n→∞ n n<br />
n<br />
Följaktlig<strong>en</strong> får vi att sannolikhetsfördelning<strong>en</strong> blir<br />
som angavs i text<strong>en</strong>.<br />
pX (x) = μx e −μ<br />
x!<br />
122<br />
x =0, 1, 2,...
B.3.2 Väntevärde och varians<br />
Vi är nu intresserade av sammanfattande mått på Poissonfördelning<strong>en</strong>. För<br />
dessa väntevärdesberäkningar använder vi samma knep som vid motsvarande<br />
beräkningar för binomial- och hypergeometrisk fördelning i Avsnitt B.1 och<br />
B.2 ovan.<br />
Eftersom<br />
E (X) =<br />
E [X (X − 1)] =<br />
följer att<br />
∞X<br />
x=0<br />
∞X<br />
x=0<br />
x · μx e −μ<br />
x! =<br />
∞X<br />
x=1<br />
x (x − 1) · μx e −μ<br />
x! =<br />
μ x e −μ<br />
(x − 1)!<br />
∞X<br />
x=2<br />
= μ<br />
∞X<br />
x=1<br />
μ x e −μ<br />
(x − 2)!<br />
Var (X) =μ 2 + μ − μ 2 = μ<br />
μ x−1 e −μ<br />
(x − 1)!<br />
= μ2<br />
∞X<br />
x=2<br />
= μ<br />
μ x−2 e −μ<br />
(x − 2)!<br />
= μ2<br />
För Poissonfördelning<strong>en</strong> gäller således att väntevärde och varians samma. De<br />
sammanfaller båda med int<strong>en</strong>sitetsfaktorn μ.<br />
123
C Svar till övningsuppgifterna<br />
Här följer svar till dom övvningsuppgifter som pres<strong>en</strong>teras i komp<strong>en</strong>diet. För<br />
övriga uppgifter finns svar i lärobok<strong>en</strong> Statistisk dataanalys.<br />
9. a) 7!, b) 6!, c) 2*6!, d) 2*5!, e) 6!<br />
10. 0.424<br />
15. a) 0.0594, b) 0.1098, c) 0.541<br />
16. a) 0.9495, b) 0.1538<br />
19. a) 0.488 respektive 0.51, b) 0.749<br />
22. E(X)=1/6, Var(X)=5/36<br />
28. X är Hyp(5,0.4,140), m<strong>en</strong> approx Bi(5,0.4). Pr(X>=3)=0.3174.<br />
29. a) 0.9502, b) 0.2381, c) 0.0009<br />
30. a) X är Bi(300,0.002), b) 0.9966<br />
31. a) X är Bi(10000,(1/6)^5), b) 0.0431<br />
32. i) 0.3413, ii) 0.1359, iii) 0.8186, iv) 0.1587<br />
33. i) z=1.96, ii) z=-0.44<br />
34. i) 0.0124, ii) 0.7357<br />
35.a)8,b)14.12<br />
36. 43.26, 56.74<br />
42. a) 0.6826, b) 0.6554 (interpolering: 0.657) (exakt Bi: 0.6619)<br />
43. a) 796.5g, b) X är Bi(200,0.01), c) 0.1429 (exakt: 0.1420)<br />
45. a) 0.0934, b) 838.3 kg<br />
46. a) 0.0475, b) 199.5 g<br />
47. a) 0.9429, b) 61.9 min (dvs ca 62 min)<br />
48. a) E(X)=0.8, Var(X)=0.36, b) 0.3464 (interpolation)<br />
49. 0.7224<br />
124