n - IDA
n - IDA
n - IDA
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Föreläsning 5<br />
732G70<br />
Statistik A
Egenskaper hos stickprovsstatistikorna<br />
Stickprovsmedelvärde<br />
Stickprovssumma<br />
Stickprovsandel<br />
Lägesmått Spridning Medelfel<br />
EX<br />
VarX<br />
<br />
2<br />
<br />
<br />
n<br />
2<br />
E<br />
X n Var <br />
X <br />
n <br />
E<br />
P<br />
<br />
Var<br />
P<br />
<br />
X<br />
<br />
<br />
<br />
X<br />
<br />
<br />
n<br />
n <br />
1 <br />
1<br />
<br />
<br />
<br />
n<br />
<br />
P<br />
<br />
n<br />
Eftersom respektive i allmänhet är okända skattas de med s<br />
respektive p.<br />
Exempel stickprovssumma:<br />
Flygbolag räknar med att medelvikten på en passagerare är 80 kg<br />
med en standardavvikelse om 5 kg. En viss flygplanstyp rymmer 290<br />
passagerare. Totalvikten bland dessa 290 passagerare är exempel på<br />
en stickprovssumma.<br />
2
De stora talens lag<br />
Ju större stickprov vi drar, desto mer lika<br />
blir stickprovsstatistikorna<br />
populationsparametrarna<br />
3
Percent<br />
Samplingfördelning<br />
Hur ofta kommer vårt stickprovsmedelvärde att överensstämma<br />
med populationsmedelvärdet, om vi skulle dra många OSU ur<br />
samma population?<br />
Exempel:<br />
Vi studerar ett företag med 100 anställda, och vi är intresserade av<br />
medelinkomsten bland de anställda. Företagets anställda utgör alltså<br />
vår population, och med hjälp av företagets ekonomiavdelning kan vi<br />
faktiskt plocka fram lönenivån för samtliga 100 anställda vid en viss<br />
tidpunkt. Vi åskådliggör lönefördelningen vid företaget i ett histogram:<br />
35<br />
30<br />
25<br />
Ur lönestatistiken bestäms medellönen vid företaget<br />
till = 24265 kr<br />
20<br />
15<br />
Histogrammet visar tydligt att populationen ”lön för de anställda<br />
vid företaget” inte kan betraktas som normalfördelad!<br />
10<br />
5<br />
0<br />
10<br />
20<br />
30 40<br />
Inkomst (tkr)<br />
50<br />
60<br />
Vilken medellön skulle ett stickprov ge?<br />
4
Samplingfördelning (forts)<br />
Låt oss nu göra ett teoretiskt experiment: vi drar 50 oberoende<br />
stickprov om storleken n = 10, beräknar de 50<br />
stickprovsmedelvärdena och åskådliggör<br />
stickprovsmedelvärdena i ett histogram. Följande resultat<br />
erhålles.<br />
x 24381 kr<br />
Notera beteckningen för medelvärde av medelvärden<br />
19.5<br />
21.0<br />
22.5 24.0 25.5 27.0<br />
Medelvärde Inkomst i stickprovet (tkr) (tkr)<br />
28.5<br />
30.0<br />
5
Samplingfördelning (forts)<br />
Experimentet upprepas för 50 oberoende stickprov om storleken<br />
n = 20:<br />
x 24324<br />
kr<br />
22<br />
23<br />
24<br />
Medelvärde Inkomst i stickprovet (tkr) (tkr)<br />
25<br />
26<br />
6
Samplingfördelning (forts)<br />
Slutligen upprepas experimentet för 50 oberoende stickprov om<br />
storleken n = 30:<br />
x 24299<br />
kr<br />
21.6<br />
22.8<br />
24.0<br />
25.2<br />
Medelvärde Inkomst i stickprovet (tkr) (tkr)<br />
26.4<br />
7
Samplingfördelning (forts)<br />
• Fördelningen för stickprovsmedelvärdena kallas för en<br />
urvalsfördelning.<br />
• Urvalsfördelningen är alltså en förteckning över vilka värden vi<br />
kan förvänta oss få i vårt urval, och hur ofta de kan förväntas<br />
förekomma.<br />
• Vi kan betrakta urvalsfördelningen som en uppskattning av den<br />
fördelning som skulle fås om vi åskådliggjorde<br />
stickprovsmedelvärdena för samtliga möjliga stickprov av en<br />
viss storlek ur populationen, vilket kallas för en<br />
samplingfördelning.<br />
8
Centrala gränsvärdessatsen<br />
• samplingfördelningen blir mer och mer lik en normalfördelning<br />
(trots att populationen som stickproven drogs ur inte alls var<br />
normalfördelad!) när stickprovsstorleken ökar<br />
• samplingfördelningens medelvärde hamnar allt närmare<br />
populationsmedelvärdet när stickprovsstorleken ökar<br />
Centrala gränsvärdessatsen säger<br />
Samplingfördelningen för summor eller<br />
medelvärden av n oberoende slumpvariabler med<br />
samma fördelning är approximativt<br />
normalfördelad om n är tillräckligt stort<br />
Vanlig tumregel: n ≥ 30<br />
9
Fördelning för linjära<br />
variabeltransformationer<br />
Linjära variabeltransformationer av<br />
normalfördelade slumpvariabler är också<br />
normalfördelade<br />
Innebörden i detta är att samplingfördelningen för medelvärden,<br />
summor och andelar beräknade på observationer som följer<br />
normalfördelningen, genom att de dragits ur en population som är<br />
normalfördelad, också är normalfördelade, och detta oavsett<br />
stickprovets storlek.<br />
10
Stickprovsstatistikors fördelning<br />
Om n ≥ 30 gäller, tack vare centrala gränsvärdessatsen oavsett<br />
vilken fördelning populationen som stickprovet dragits ur har,<br />
att<br />
<br />
<br />
• Stickprovsmedelvärdet X N<br />
;<br />
<br />
X<br />
X<br />
<br />
<br />
n <br />
• Stickprovssumman<br />
<br />
X<br />
<br />
N<br />
<br />
<br />
<br />
n<br />
<br />
X<br />
;<br />
X<br />
<br />
n<br />
<br />
<br />
Om n < 30 krävs att populationen som stickprovet dragits ur är<br />
normalfördelad. Då gäller fortfarande ovanstående formler<br />
eftersom linjära variabeltransformationer av normalfördelade<br />
slumpvariabler också är normalfördelade.<br />
11
Stickprovsstatistikors fördelning (forts)<br />
• För en stickprovsandel n där X = antalet enheter i<br />
stickprovet med studerad egenskap gäller, givet att np(1-p) > 5,<br />
att<br />
<br />
P N<br />
P<br />
<br />
;<br />
<br />
P<br />
<br />
<br />
1<br />
n<br />
P <br />
<br />
<br />
<br />
<br />
Detta motiveras enligt följande: X betecknar antalet enheter i stickprovet med<br />
studerad egenskap, eller med andra ord antalet lyckade delförsök bland de totalt n<br />
delförsök som stickprovet utgör. Givet att populationen som stickprovet har dragits<br />
ur är tillräckligt stor gäller då att X är binomialfördelad. Från kapitel 4 känner vi att<br />
binomialfördelningen konvergerar mot normalfördelningen när n är tillräckligt stor,<br />
och att normalfördelningsapproximation av binomialfördelningen är möjlig om<br />
n 1<br />
<br />
5<br />
Vi skattar den okända populationsandelen med P, och sätter alltså som tumregel<br />
att samplingfördelningen för en stickprovsandel går att betrakta som approximativt<br />
normalfördelad om<br />
np 1 p <br />
5<br />
X<br />
12
Exempel<br />
En grossist importerar 500-grams påsar med ris i partier om 10000<br />
påsar. Grossisten kontrollerar de leveranser om 10000 påsar<br />
man mottar genom att kontrollväga ett slumpmässigt urval om<br />
50 påsar ur varje parti. Vid en viss leverans uppmäts<br />
genomsnittsvikten till 496.7 gram bland 50 slumpmässigt<br />
utvalda påsar.<br />
• Beräkna sannolikheten att få en genomsnittsvikt bland 50<br />
slumpmässigt valda påsar som är 496.7 gram eller lägre, givet<br />
att det är sant att genomsnittsvikten per påse i hela partiet är<br />
500 gram och standardavvikelsen mellan påsar är 10.0 gram,<br />
vilket leverantören hävdar.<br />
• Vad är sannolikheten för att den sammanlagda vikten bland de<br />
50 slumpmässigt valda påsarna överstiger 25.2 kg, givet att det<br />
är sant att genomsnittsvikten per påse i hela partiet är 500 gram<br />
och standardavvikelsen mellan påsar är 10.0 gram?<br />
13
Kapitel 6<br />
Inferens om en population<br />
Sid 151-185
Punktskattning och intervallskattning<br />
Statistisk inferens om populationsmedelvärde<br />
• Punktskattning: att använda en stickprovsstatistika som en uppskattning av<br />
motsvarande populationsparameter<br />
Dock: stickprovsstatistikor är slumpvariabler och antar olika värden för varje<br />
stickprov. Hur ska vi hantera den osäkerheten?<br />
• Vi börjar med att göra två antaganden:<br />
1. stickprovet är draget som ett OSU.<br />
Detta garanterar oberoende mellan observationerna, vilket är den egenskap vi<br />
eftersöker här.<br />
2. samplingfördelningen för stickprovsmedelvärdet kan betraktas som<br />
normalfördelad<br />
• Om stickprovet är stort (enligt tumregeln bestående av minst 30 enheter) kan vi<br />
tillämpa centrala gränsvärdessatsen (kapitel 5), vilken säger att<br />
samplingfördelningen för summor eller medelvärden av n oberoende<br />
slumpvariabler med samma fördelning är approximativt normalfördelad om n är<br />
tillräckligt stort.<br />
• Om stickprovet är litet, enligt tumregel färre än 30 enheter, krävs att populationen<br />
som stickprovet dragits ur kan betraktas som normalfördelad. Ett OSU draget ur en<br />
normalfördelad population ger, som vi har lärt oss i kapitel 5, att<br />
samplingfördelningen för stickprovsmedelvärdet också blir normalfördelad, och<br />
detta oavsett stickprovets storlek.<br />
15
Punktskattning och intervallskattning<br />
Statistisk inferens om populationsmedelvärde<br />
• Om kraven är uppfyllda kan vi bilda ett konfidensintervall för<br />
populationsmedelvärdet: vi lägger ett osäkerhetsintervall kring<br />
punktskattningen vilket tillåter oss att med en viss säkerhet<br />
säga att den okända populationsparametern täcks av<br />
intervallet.<br />
16
Dubbelsidigt konfidensintervall för<br />
populationsmedelvärde när σ är okänd<br />
Givet att<br />
• stickprovet är draget som ett OSU<br />
• samplingfördelningen för stickprovsstatistikan kan<br />
betraktas som normalfördelad<br />
bildas ett dubbelsidigt konfidensintervall för<br />
populationsmedelvärdet µ enligt<br />
x tn <br />
1;1<br />
<br />
/ 2<br />
s<br />
n<br />
där värdet på t hämtas ur t-fördelningen (Appendix B)<br />
17
t-fördelningen<br />
t-fördelningen används för att lösa liknande typer av problem som<br />
normalfördelningen, men lämpar sig när stickprovet är relativt litet och<br />
populationsstandardavvikelsen är okänd.<br />
t-fördelningen är precis som normalfördelningen symmetrisk.<br />
t-fördelningen definieras av antalet frihetsgrader, eller enklare uttryckt<br />
antalet oberoende bitar av information. Antalet frihetsgrader bestäms<br />
av hur mycket data man har och hur många bitar av information som<br />
den statistiska metodik man använder sig av kräver.<br />
En viktig egenskap hos t-fördelningen är<br />
att den närmar sig (konvergerar mot)<br />
normalfördelningen när antalet frihetsgrader<br />
ökar. En vanlig tumregel är att betrakta<br />
t-fördelningen som approximativt<br />
normalfördelad om stickprovet består av 30<br />
enheter eller fler.<br />
Frihetsgrader<br />
5<br />
50<br />
5000<br />
18<br />
-5<br />
-4<br />
-3<br />
-2<br />
-1<br />
0<br />
1<br />
2<br />
3<br />
4<br />
5
Exempel<br />
Ett slumpmässigt urval om 40 studenter vid Linköpings universitet<br />
ger medelåldern 21.2 år och standardavvikelsen 4.4 år.<br />
Bestäm ett intervall som med 95 procents säkerhet täcker den<br />
sanna medelåldern bland studerande vid Linköpings universitet.<br />
19
Enkelsidiga konfidensintervall för<br />
populationsmedelvärde när är okänd<br />
• Nedåt begränsat konfidensintervall:<br />
• Uppåt begränsat konfidensintervall:<br />
<br />
<br />
<br />
1<br />
x tn<br />
1; <br />
<br />
1<br />
x tn<br />
1; <br />
Exempel:<br />
Styrelsen i en bostadsrättsförening får in klagomål på att<br />
golvvärmen i badrummen är för låg. Man drar ett OSU om 30 badrum<br />
bland de omkring 400 badrum som finns i föreningens fastigheter<br />
och mäter golvvärmen där. Medeltemperaturen beräknas till 21<br />
grader och standardavvikelsen till 1.6 grader.<br />
Energimyndigheten rekommenderar att golvvärmen ska ligga på<br />
minst 20 grader för att man ska undkomma problem med fuktskador.<br />
Föreligger risk för fuktskador i föreningens badrum?<br />
s<br />
n<br />
s<br />
n<br />
20
Konfidensintervall för populationsandel<br />
Givet att<br />
1. stickprovet är draget som ett OSU<br />
2. det gäller att np(1-p) > 5<br />
bildas dubbelsidigt konfidensintervall för populationsandelen π<br />
enligt<br />
p 1 p<br />
p z1 / 2<br />
n<br />
<br />
<br />
där värdet på z hämtas ur normalfördelningstabellen (Appendix B)<br />
• Nedåt begränsat konfidensintervall:<br />
p1<br />
p<br />
p z1 <br />
n<br />
• Uppåt begränsat konfidensintervall:<br />
<br />
p <br />
z<br />
1<br />
<br />
p 1<br />
p<br />
n<br />
<br />
21
Exempel<br />
I en hälsoenkät tillfrågades 100 slumpmässigt utvalda anställda vid<br />
ett stort företag om huruvida man regelbundet motionerar eller ej.<br />
Svar erhölls från 84 anställda och av dessa svarade 65 ja.<br />
Bestäm ett 95-procentigt konfidensintervall för andelen av de<br />
anställda vid det stora företaget som regelbundet motionerar.<br />
22