21.01.2014 Views

n - IDA

n - IDA

n - IDA

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Föreläsning 5<br />

732G70<br />

Statistik A


Egenskaper hos stickprovsstatistikorna<br />

Stickprovsmedelvärde<br />

Stickprovssumma<br />

Stickprovsandel<br />

Lägesmått Spridning Medelfel<br />

EX<br />

VarX<br />

<br />

2<br />

<br />

<br />

n<br />

2<br />

E<br />

X n Var <br />

X <br />

n <br />

E<br />

P<br />

<br />

Var<br />

P<br />

<br />

X<br />

<br />

<br />

<br />

X<br />

<br />

<br />

n<br />

n <br />

1 <br />

1<br />

<br />

<br />

<br />

n<br />

<br />

P<br />

<br />

n<br />

Eftersom respektive i allmänhet är okända skattas de med s<br />

respektive p.<br />

Exempel stickprovssumma:<br />

Flygbolag räknar med att medelvikten på en passagerare är 80 kg<br />

med en standardavvikelse om 5 kg. En viss flygplanstyp rymmer 290<br />

passagerare. Totalvikten bland dessa 290 passagerare är exempel på<br />

en stickprovssumma.<br />

2


De stora talens lag<br />

Ju större stickprov vi drar, desto mer lika<br />

blir stickprovsstatistikorna<br />

populationsparametrarna<br />

3


Percent<br />

Samplingfördelning<br />

Hur ofta kommer vårt stickprovsmedelvärde att överensstämma<br />

med populationsmedelvärdet, om vi skulle dra många OSU ur<br />

samma population?<br />

Exempel:<br />

Vi studerar ett företag med 100 anställda, och vi är intresserade av<br />

medelinkomsten bland de anställda. Företagets anställda utgör alltså<br />

vår population, och med hjälp av företagets ekonomiavdelning kan vi<br />

faktiskt plocka fram lönenivån för samtliga 100 anställda vid en viss<br />

tidpunkt. Vi åskådliggör lönefördelningen vid företaget i ett histogram:<br />

35<br />

30<br />

25<br />

Ur lönestatistiken bestäms medellönen vid företaget<br />

till = 24265 kr<br />

20<br />

15<br />

Histogrammet visar tydligt att populationen ”lön för de anställda<br />

vid företaget” inte kan betraktas som normalfördelad!<br />

10<br />

5<br />

0<br />

10<br />

20<br />

30 40<br />

Inkomst (tkr)<br />

50<br />

60<br />

Vilken medellön skulle ett stickprov ge?<br />

4


Samplingfördelning (forts)<br />

Låt oss nu göra ett teoretiskt experiment: vi drar 50 oberoende<br />

stickprov om storleken n = 10, beräknar de 50<br />

stickprovsmedelvärdena och åskådliggör<br />

stickprovsmedelvärdena i ett histogram. Följande resultat<br />

erhålles.<br />

x 24381 kr<br />

Notera beteckningen för medelvärde av medelvärden<br />

19.5<br />

21.0<br />

22.5 24.0 25.5 27.0<br />

Medelvärde Inkomst i stickprovet (tkr) (tkr)<br />

28.5<br />

30.0<br />

5


Samplingfördelning (forts)<br />

Experimentet upprepas för 50 oberoende stickprov om storleken<br />

n = 20:<br />

x 24324<br />

kr<br />

22<br />

23<br />

24<br />

Medelvärde Inkomst i stickprovet (tkr) (tkr)<br />

25<br />

26<br />

6


Samplingfördelning (forts)<br />

Slutligen upprepas experimentet för 50 oberoende stickprov om<br />

storleken n = 30:<br />

x 24299<br />

kr<br />

21.6<br />

22.8<br />

24.0<br />

25.2<br />

Medelvärde Inkomst i stickprovet (tkr) (tkr)<br />

26.4<br />

7


Samplingfördelning (forts)<br />

• Fördelningen för stickprovsmedelvärdena kallas för en<br />

urvalsfördelning.<br />

• Urvalsfördelningen är alltså en förteckning över vilka värden vi<br />

kan förvänta oss få i vårt urval, och hur ofta de kan förväntas<br />

förekomma.<br />

• Vi kan betrakta urvalsfördelningen som en uppskattning av den<br />

fördelning som skulle fås om vi åskådliggjorde<br />

stickprovsmedelvärdena för samtliga möjliga stickprov av en<br />

viss storlek ur populationen, vilket kallas för en<br />

samplingfördelning.<br />

8


Centrala gränsvärdessatsen<br />

• samplingfördelningen blir mer och mer lik en normalfördelning<br />

(trots att populationen som stickproven drogs ur inte alls var<br />

normalfördelad!) när stickprovsstorleken ökar<br />

• samplingfördelningens medelvärde hamnar allt närmare<br />

populationsmedelvärdet när stickprovsstorleken ökar<br />

Centrala gränsvärdessatsen säger<br />

Samplingfördelningen för summor eller<br />

medelvärden av n oberoende slumpvariabler med<br />

samma fördelning är approximativt<br />

normalfördelad om n är tillräckligt stort<br />

Vanlig tumregel: n ≥ 30<br />

9


Fördelning för linjära<br />

variabeltransformationer<br />

Linjära variabeltransformationer av<br />

normalfördelade slumpvariabler är också<br />

normalfördelade<br />

Innebörden i detta är att samplingfördelningen för medelvärden,<br />

summor och andelar beräknade på observationer som följer<br />

normalfördelningen, genom att de dragits ur en population som är<br />

normalfördelad, också är normalfördelade, och detta oavsett<br />

stickprovets storlek.<br />

10


Stickprovsstatistikors fördelning<br />

Om n ≥ 30 gäller, tack vare centrala gränsvärdessatsen oavsett<br />

vilken fördelning populationen som stickprovet dragits ur har,<br />

att<br />

<br />

<br />

• Stickprovsmedelvärdet X N<br />

;<br />

<br />

X<br />

X<br />

<br />

<br />

n <br />

• Stickprovssumman<br />

<br />

X<br />

<br />

N<br />

<br />

<br />

<br />

n<br />

<br />

X<br />

;<br />

X<br />

<br />

n<br />

<br />

<br />

Om n < 30 krävs att populationen som stickprovet dragits ur är<br />

normalfördelad. Då gäller fortfarande ovanstående formler<br />

eftersom linjära variabeltransformationer av normalfördelade<br />

slumpvariabler också är normalfördelade.<br />

11


Stickprovsstatistikors fördelning (forts)<br />

• För en stickprovsandel n där X = antalet enheter i<br />

stickprovet med studerad egenskap gäller, givet att np(1-p) > 5,<br />

att<br />

<br />

P N<br />

P<br />

<br />

;<br />

<br />

P<br />

<br />

<br />

1<br />

n<br />

P <br />

<br />

<br />

<br />

<br />

Detta motiveras enligt följande: X betecknar antalet enheter i stickprovet med<br />

studerad egenskap, eller med andra ord antalet lyckade delförsök bland de totalt n<br />

delförsök som stickprovet utgör. Givet att populationen som stickprovet har dragits<br />

ur är tillräckligt stor gäller då att X är binomialfördelad. Från kapitel 4 känner vi att<br />

binomialfördelningen konvergerar mot normalfördelningen när n är tillräckligt stor,<br />

och att normalfördelningsapproximation av binomialfördelningen är möjlig om<br />

n 1<br />

<br />

5<br />

Vi skattar den okända populationsandelen med P, och sätter alltså som tumregel<br />

att samplingfördelningen för en stickprovsandel går att betrakta som approximativt<br />

normalfördelad om<br />

np 1 p <br />

5<br />

X<br />

12


Exempel<br />

En grossist importerar 500-grams påsar med ris i partier om 10000<br />

påsar. Grossisten kontrollerar de leveranser om 10000 påsar<br />

man mottar genom att kontrollväga ett slumpmässigt urval om<br />

50 påsar ur varje parti. Vid en viss leverans uppmäts<br />

genomsnittsvikten till 496.7 gram bland 50 slumpmässigt<br />

utvalda påsar.<br />

• Beräkna sannolikheten att få en genomsnittsvikt bland 50<br />

slumpmässigt valda påsar som är 496.7 gram eller lägre, givet<br />

att det är sant att genomsnittsvikten per påse i hela partiet är<br />

500 gram och standardavvikelsen mellan påsar är 10.0 gram,<br />

vilket leverantören hävdar.<br />

• Vad är sannolikheten för att den sammanlagda vikten bland de<br />

50 slumpmässigt valda påsarna överstiger 25.2 kg, givet att det<br />

är sant att genomsnittsvikten per påse i hela partiet är 500 gram<br />

och standardavvikelsen mellan påsar är 10.0 gram?<br />

13


Kapitel 6<br />

Inferens om en population<br />

Sid 151-185


Punktskattning och intervallskattning<br />

Statistisk inferens om populationsmedelvärde<br />

• Punktskattning: att använda en stickprovsstatistika som en uppskattning av<br />

motsvarande populationsparameter<br />

Dock: stickprovsstatistikor är slumpvariabler och antar olika värden för varje<br />

stickprov. Hur ska vi hantera den osäkerheten?<br />

• Vi börjar med att göra två antaganden:<br />

1. stickprovet är draget som ett OSU.<br />

Detta garanterar oberoende mellan observationerna, vilket är den egenskap vi<br />

eftersöker här.<br />

2. samplingfördelningen för stickprovsmedelvärdet kan betraktas som<br />

normalfördelad<br />

• Om stickprovet är stort (enligt tumregeln bestående av minst 30 enheter) kan vi<br />

tillämpa centrala gränsvärdessatsen (kapitel 5), vilken säger att<br />

samplingfördelningen för summor eller medelvärden av n oberoende<br />

slumpvariabler med samma fördelning är approximativt normalfördelad om n är<br />

tillräckligt stort.<br />

• Om stickprovet är litet, enligt tumregel färre än 30 enheter, krävs att populationen<br />

som stickprovet dragits ur kan betraktas som normalfördelad. Ett OSU draget ur en<br />

normalfördelad population ger, som vi har lärt oss i kapitel 5, att<br />

samplingfördelningen för stickprovsmedelvärdet också blir normalfördelad, och<br />

detta oavsett stickprovets storlek.<br />

15


Punktskattning och intervallskattning<br />

Statistisk inferens om populationsmedelvärde<br />

• Om kraven är uppfyllda kan vi bilda ett konfidensintervall för<br />

populationsmedelvärdet: vi lägger ett osäkerhetsintervall kring<br />

punktskattningen vilket tillåter oss att med en viss säkerhet<br />

säga att den okända populationsparametern täcks av<br />

intervallet.<br />

16


Dubbelsidigt konfidensintervall för<br />

populationsmedelvärde när σ är okänd<br />

Givet att<br />

• stickprovet är draget som ett OSU<br />

• samplingfördelningen för stickprovsstatistikan kan<br />

betraktas som normalfördelad<br />

bildas ett dubbelsidigt konfidensintervall för<br />

populationsmedelvärdet µ enligt<br />

x tn <br />

1;1<br />

<br />

/ 2<br />

s<br />

n<br />

där värdet på t hämtas ur t-fördelningen (Appendix B)<br />

17


t-fördelningen<br />

t-fördelningen används för att lösa liknande typer av problem som<br />

normalfördelningen, men lämpar sig när stickprovet är relativt litet och<br />

populationsstandardavvikelsen är okänd.<br />

t-fördelningen är precis som normalfördelningen symmetrisk.<br />

t-fördelningen definieras av antalet frihetsgrader, eller enklare uttryckt<br />

antalet oberoende bitar av information. Antalet frihetsgrader bestäms<br />

av hur mycket data man har och hur många bitar av information som<br />

den statistiska metodik man använder sig av kräver.<br />

En viktig egenskap hos t-fördelningen är<br />

att den närmar sig (konvergerar mot)<br />

normalfördelningen när antalet frihetsgrader<br />

ökar. En vanlig tumregel är att betrakta<br />

t-fördelningen som approximativt<br />

normalfördelad om stickprovet består av 30<br />

enheter eller fler.<br />

Frihetsgrader<br />

5<br />

50<br />

5000<br />

18<br />

-5<br />

-4<br />

-3<br />

-2<br />

-1<br />

0<br />

1<br />

2<br />

3<br />

4<br />

5


Exempel<br />

Ett slumpmässigt urval om 40 studenter vid Linköpings universitet<br />

ger medelåldern 21.2 år och standardavvikelsen 4.4 år.<br />

Bestäm ett intervall som med 95 procents säkerhet täcker den<br />

sanna medelåldern bland studerande vid Linköpings universitet.<br />

19


Enkelsidiga konfidensintervall för<br />

populationsmedelvärde när är okänd<br />

• Nedåt begränsat konfidensintervall:<br />

• Uppåt begränsat konfidensintervall:<br />

<br />

<br />

<br />

1<br />

x tn<br />

1; <br />

<br />

1<br />

x tn<br />

1; <br />

Exempel:<br />

Styrelsen i en bostadsrättsförening får in klagomål på att<br />

golvvärmen i badrummen är för låg. Man drar ett OSU om 30 badrum<br />

bland de omkring 400 badrum som finns i föreningens fastigheter<br />

och mäter golvvärmen där. Medeltemperaturen beräknas till 21<br />

grader och standardavvikelsen till 1.6 grader.<br />

Energimyndigheten rekommenderar att golvvärmen ska ligga på<br />

minst 20 grader för att man ska undkomma problem med fuktskador.<br />

Föreligger risk för fuktskador i föreningens badrum?<br />

s<br />

n<br />

s<br />

n<br />

20


Konfidensintervall för populationsandel<br />

Givet att<br />

1. stickprovet är draget som ett OSU<br />

2. det gäller att np(1-p) > 5<br />

bildas dubbelsidigt konfidensintervall för populationsandelen π<br />

enligt<br />

p 1 p<br />

p z1 / 2<br />

n<br />

<br />

<br />

där värdet på z hämtas ur normalfördelningstabellen (Appendix B)<br />

• Nedåt begränsat konfidensintervall:<br />

p1<br />

p<br />

p z1 <br />

n<br />

• Uppåt begränsat konfidensintervall:<br />

<br />

p <br />

z<br />

1<br />

<br />

p 1<br />

p<br />

n<br />

<br />

21


Exempel<br />

I en hälsoenkät tillfrågades 100 slumpmässigt utvalda anställda vid<br />

ett stort företag om huruvida man regelbundet motionerar eller ej.<br />

Svar erhölls från 84 anställda och av dessa svarade 65 ja.<br />

Bestäm ett 95-procentigt konfidensintervall för andelen av de<br />

anställda vid det stora företaget som regelbundet motionerar.<br />

22

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!