21.01.2014 Views

här - IDA

här - IDA

här - IDA

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Kapitel 4<br />

Sannolikhetsfördelningar<br />

Sid 79-124<br />

Föreläsningsunderlagen är baserade på underlag skrivna av Karl<br />

Wahlin


Slumpvariabel<br />

En variabel för vilken slumpen bestämmer utfallet.<br />

Exempel:<br />

Slantsingling, tärningskast, längden på en slumpmässigt<br />

utvald person<br />

Väntevärde:<br />

Varians:<br />

Standardavvikelse:<br />

( X ) m = x p( x )<br />

E = å i<br />

×<br />

Var<br />

g<br />

i=1<br />

g<br />

i<br />

2<br />

2 2<br />

( X ) = s = p( x ) × ( x - m ) = x × p( x )<br />

å<br />

i=<br />

1<br />

2<br />

( ) s<br />

s = Var X =<br />

i<br />

i<br />

g<br />

å<br />

i=<br />

1<br />

i<br />

i<br />

2<br />

- m<br />

2


Linjära variabeltransformationer<br />

Låt X vara en variabel med väntevärde m X och standardavvikelse<br />

σ X och låt en annan variabel<br />

Y = a + b×<br />

X<br />

Då gäller att<br />

E<br />

( Y ) = m<br />

Y<br />

= E( a + b × X ) = a + b × m<br />

X<br />

2<br />

2 2<br />

( Y ) = s = Var( a + b × X ) = b × s<br />

Var<br />

Y<br />

X<br />

Exempel: En firma ska beräkna kostnaden för ett visst projekt.<br />

Materialkostnaden är 25000 kr, dessutom tillkommer en<br />

arbetskostnad på 900 kr per dag. Utifrån erfarenhet vet man att ett<br />

sådant projekt tar i genomsnitt 11.9 dagar att utföra med en<br />

varians på 1.29 dagar. Beräkna väntevärde och varians för<br />

kostnaden för projektet.<br />

3


Sannolikhetsfördelning<br />

Sammanställning av vilka värden en slumpvariabel kan anta och<br />

hur ofta respektive värde antas. På teoretisk väg eller genom att<br />

studera ett stickprovs fördelning för en variabel kan vi härleda<br />

variabeln till att tillhöra en viss sannolikhetsfördelning.<br />

Detta möjliggör annars mycket komplicerade<br />

sannolikhetsberäkningar vilket i sin tur ger möjlighet att dra<br />

slutsatser om populationen som stickprovet dragits ur.<br />

• Diskret sannolikhetsfördelning: när slumpvariabeln endast kan<br />

anta ett ändligt antal värden, eller ett oändligt men uppräkneligt<br />

antal<br />

• Kontinuerlig sannolikhetsfördelning: när slumpvariabeln kan<br />

anta ett oändligt antal värden<br />

4


Diskret sannolikhetsfördelning<br />

Diskreta sannolikhetsfördelningar är sannolikhetsfördelningar för<br />

variabler som endast kan anta ett uppräkneligt antal värden.<br />

De vanligaste diskreta sannolikhetsfördelningarna är uppbyggda<br />

av ett eller flera delförsök och för varje delförsök studerar vi om<br />

experimentet har lyckats eller inte.<br />

Varje delförsök sägs följa Bernoullifördelningen men man<br />

använder även beteckningen tvåpunktsfördelning eller säger att<br />

utfallet av varje delförsök är binärt. Innebörden är att varje<br />

delförsök endast kan anta ett av två möjliga värden (lyckat eller<br />

misslyckat delförsök).<br />

Exempel:<br />

Vi definierar händelsen<br />

A = sex ögon upp vid tärningskast<br />

och kastar en tärning. Varje tärningskast är då ett delförsök som<br />

antingen kan lyckas (sex ögon upp) eller inte lyckas (ej sex ögon<br />

upp) och kan därmed betraktas som Bernoullifördelat.<br />

5


Binomialfördelning<br />

Exempel:<br />

Grobarheten hos en viss typ av frön är 60%. Vi planterar 5 frön<br />

under samma förutsättningar och frågar oss: vad är<br />

sannolikheten för att två av fröna gror?<br />

Låt X vara en slumpvariabel. Givet att följande krav är uppfyllda:<br />

1. alla delförsök är oberoende av varandra<br />

2. varje delförsök är Bernoullifördelat med sannolikhet att lyckas= p<br />

gäller att X är binomialfördelad enligt<br />

X ~ bin(n; π)<br />

Sannolikheten för k lyckade utfall bland n beräknas då enligt<br />

ænö<br />

k<br />

( ) n -<br />

Pr( X = k)<br />

= ç ÷ p 1-<br />

p<br />

k<br />

èk<br />

ø<br />

Beskrivande mått för en binomialfördelad slumpvariabel:<br />

2<br />

( X ) = m np<br />

Var(<br />

X ) = s = np<br />

( 1-<br />

p )<br />

E =<br />

6


Hypergeometrisk fördelning<br />

Exempel:<br />

Vad är sannolikheten för triss i ess på en pokerhand?<br />

Givet att<br />

1. varje delförsök är Bernoullifördelat<br />

2. Ej oberoende mellan dragningarna<br />

gäller att slumpvariabeln X är hypergeometriskt fördelad enligt<br />

X ~ hyp(n; π; N)<br />

Sannolikheten för k lyckade utfall bland n beräknas då enligt<br />

Pr<br />

( X = k )<br />

æ Np<br />

ö æ N - Np<br />

ö<br />

ç ÷ × ç ÷<br />

è k ø è n - k<br />

=<br />

ø<br />

æ N ö<br />

ç ÷<br />

è n ø<br />

Beskrivande mått:<br />

( X ) = m np<br />

E =<br />

Var<br />

2<br />

( X ) = s = np<br />

( 1 - p )<br />

N<br />

N<br />

-<br />

-<br />

n<br />

1<br />

7


Poissonfördelning<br />

Används för att beskriva händelser som inträffar oberoende av varandra och där<br />

väntevärdet är detsamma som variansen. Kan användas för att approximera<br />

sannolikheten för k lyckade utfall bland n för en binomialfördelad slumpvariabel X<br />

när n är stort (minst 20) och π är litet (mindre än 0.05).<br />

Pr( X<br />

k<br />

m -m<br />

= k)<br />

= e<br />

k!<br />

där µ = nπ<br />

X ~ poi(µ)<br />

Sannolikheten för k lyckade utfall bland n beräknas enligt<br />

Exempel:<br />

Enligt SCB:s statistik fanns det den 24 oktober 2011 75217 personer i<br />

Sverige med efternamnet Gustafsson. Vid samma tidpunkt var antalet<br />

svenska medborgare 9 428 054 personer. Vi drar ett OSU om 1000 personer<br />

ur befolkningsregistret.<br />

Vad är sannolikheten för att minst 2 av dessa heter Gustafsson i<br />

efternamn?<br />

Beskrivande mått:<br />

( X ) = m np<br />

Var ( X ) = s<br />

2 = m = np<br />

E =<br />

8


Geometrisk fördelning<br />

Exempel:<br />

En person singlar slant, tills hon första gången får krona.<br />

Vad är sannolikheten att första kronan kommer på tredje kastet?<br />

Givet att<br />

1. alla delförsök är oberoende av varandra<br />

2. varje delförsök är Bernoullifördelat<br />

är slumpvariabeln X geometriskt fördelad enligt<br />

X ~ geo(π)<br />

Sannolikheten för att försöket lyckas vid delförsök k bestäms enligt<br />

Pr( X<br />

= k)<br />

=<br />

k-1<br />

( 1- p ) × p<br />

Beskrivande mått:<br />

E<br />

( X )<br />

Var<br />

( X )<br />

= m =<br />

= s<br />

1<br />

p<br />

=<br />

2 1<br />

( - p )<br />

2<br />

p<br />

Kraven är desamma vid<br />

binomialfördelning och<br />

geometrisk fördelning, men<br />

frågeställningarna olika!<br />

9


Kontinuerlig sannolikhetsfördelning<br />

Kontinuerliga sannolikhetsfördelningar är fördelningar för variabler som<br />

kan anta ett oändligt antal värden.<br />

Vi känner till att fördelningen för en kontinuerlig kvantitativ variabel<br />

beskrivs med histogram. Histogrammen baseras dock i allmänhet på<br />

stickprov, men genom att utgå från histogrammets utseende kan man<br />

”sammanfatta” variabelns utseende med en matematisk funktion, i syfte<br />

att generalisera resultaten till populationen och göra<br />

sannolikhetsberäkningar om denna. Det man gör kan liknas vid att lägga<br />

en mjuk kurva över histogrammet. Kurvan kallas för en täthetsfunktion. Vi<br />

kan uppfatta täthetsfunktionen som ett<br />

histogram, där varje stapel är oändligt<br />

tunn och där staplarna ligger oändligt<br />

tätt intill varandra. Täthetsfunktionen<br />

konstrueras så att arean under kurvan<br />

blir 1: detta gör det möjligt att använda<br />

den för sannolikhetsberäkningar.<br />

10


Normalfördelningen<br />

En mycket viktig kontinuerlig fördelning, därför att den väldigt ofta<br />

återkommer i statistiska beräkningar och spelar en mycket stor roll inom<br />

statistiken.<br />

Normalfördelningen är symmetrisk<br />

kring sitt väntevärde<br />

m - 3s<br />

m - 2s<br />

m - s<br />

m<br />

m + s<br />

m + 2s<br />

m + 3s<br />

f<br />

( x)<br />

1<br />

= × e<br />

s 2p<br />

2<br />

1æ x-m<br />

ö<br />

- ç ÷<br />

2è<br />

s ø<br />

Den funktion som beskriver normalfördelningen<br />

11


Att söka en sannolikhet för givet X<br />

Normalfördelning<br />

Exempel:<br />

Inom skidskytte är det känt att det avstånd från centrum av tavlan en<br />

slumpmässigt vald skytt träffar är en normalfördelad slumpvariabel<br />

med väntevärde 30 mm och standardavvikelse 10 mm. Hur stor andel<br />

av skotten kan förväntas träffa inom 20 mm från centrum?<br />

Standardiseringsformel:<br />

z<br />

= x - m<br />

s<br />

där<br />

µ och σ är den normalfördelade variabeln X parametrar och<br />

x är det värde vi är intresserade av.<br />

12


Att söka X för en given sannolikhet<br />

Normalfördelning<br />

Exempel:<br />

Vi fortsätter att betrakta skidskyttarna, för vilka det är känt att det<br />

avstånd för vilket en slumpmässigt vald skytt träffar centrum på<br />

tavlan är en normalfördelad slumpvariabel med väntevärde 30 mm<br />

och standardavvikelse 10 mm, och frågar oss: om vi vill rita en<br />

markering där 60% av skotten ska hamna innanför, hur långt från<br />

centrum ska då den cirkeln gå?<br />

13


Normalfördelningsapproximation av<br />

binomialfördelning<br />

Låt X vara en binomialfördelad slumpvariabel enligt<br />

X ~ bin(n; π)<br />

Givet att<br />

nπ(1 – π) > 5<br />

kan X approximeras enligt<br />

X<br />

( m = np; s = np<br />

( -p<br />

))<br />

» N<br />

1<br />

Approximationens syfte: underlätta beräkningar som annars skulle<br />

vara mycket tunga.<br />

Exempel:<br />

Vi definierar händelsen<br />

A = sexa vid tärningskast<br />

och kastar tärning 100 gånger. Vad är sannolikheten för att vi<br />

ska få sexa fler än 20 gånger?<br />

14


Normalfördelningsapproximation av<br />

binomialfördelning<br />

5<br />

10<br />

15<br />

20<br />

25<br />

30<br />

X<br />

Kontinuitetskorrektion:<br />

Metod för att förbättra approximationen. Tanken bakom kontinuitetskorrektion är att<br />

betrakta varje värde hos den binomialfördelade variabeln som ett intervall. Om vi<br />

exempelvis vill beräkna sannolikheten för att fler än 20 av 100 försök lyckas, så betraktar<br />

vi talet 21 som ett intervall [20.5; 21.5]. Principen är att vi inkluderar hela intervallet<br />

i sannolikhetsberäkningen.<br />

15

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!