21.01.2014 Views

Kompendium för kursen 732G81 Statistik för internationella ... - IDA

Kompendium för kursen 732G81 Statistik för internationella ... - IDA

Kompendium för kursen 732G81 Statistik för internationella ... - IDA

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Kompendium</strong> för <strong>kursen</strong><br />

<strong>732G81</strong> <strong>Statistik</strong> för<br />

<strong>internationella</strong> ekonomprogrammet<br />

Eva Leander<br />

Claudia Libiseller<br />

Bearbetat av Stig Danielsson (2007) och Karl Wahlin (2008 och 2009)<br />

Institutionen för Datavetenskap<br />

Avdelningen för statistik<br />

Linköpings Universitet


Innehållsförteckning<br />

INNEHÅLLSFÖRTECKNING 2<br />

1. OM TABELLER, MEDELTAL OCH STANDARDVÄGNING 4<br />

1.1 VÄGDA MEDELTAL 4<br />

1.2 TVÅVÄGSINDELADE FREKVENSTABELLER 7<br />

1.3 TREVÄGSINDELADE FREKVENSTABELLER 10<br />

1.4 TVÅVÄGSINDELADE MEDELTALSTABELLER 10<br />

1.5 STANDARDVÄGNING 12<br />

1.6 LITE TERMINOLOGI 13<br />

2. OM VARIABELTRANSFORMATIONER 15<br />

2.1 LINJÄR VARIABELTRANSFORMATION 15<br />

2.2 SUMMOR OCH DIFFERENSER AV SLUMPVARIABLER 15<br />

3. OM STATISTISKA UNDERSÖKNINGAR – INFÖR OCH UNDER PROJEKTET 16<br />

3.1 DEL I: OM VARIABLER, POPULATIONER OCH STICKPROV 16<br />

3.1.1 VARIABLER 16<br />

3.1.2 POPULATION OCH STICKPROV 19<br />

3.1.3 URVALSRAMAR OCH DERAS PROBLEM 20<br />

3.1.4 HUR DRA STICKPROV? 21<br />

3.1.5 OBUNDET SLUMPMÄSSIGT URVAL 21<br />

3.1.6 STRATIFIERAT URVAL 22<br />

3.1.7 HUR STORT STICKPROV BÖR VI DRA? 22<br />

3.1.8 LATHUND FÖR STICKPROVSMETODER 23<br />

3.2 DEL II: DATAANALYS 23<br />

3.2.1 TYPVÄRDE 23<br />

3.2.2 MEDIAN 24<br />

3.2.3 KVARTILER OCH KVARTILAVSTÅND 24<br />

3.2.4 MEDELVÄRDEN, ANDELAR OCH KONFIDENSINTERVALL VID OSU 24<br />

3.2.5 MEDELVÄRDEN, ANDELAR OCH KONFIDENSINTERVALL VID STRATIFIERAT URVAL 27<br />

3.2.6 KORRELATION (ENDAST VID METRISK SKALA PÅ BÄGGE VARIABLERNA!) 28<br />

3.2.7 REGRESSION (ENDAST VID METRISK SKALA PÅ BÄGGE VARIABLERNA!) 28<br />

3.2.8 KORSTABELLER (ENDAST VID NOMINAL- ELLER ORDINALSKALA!) 28<br />

3.2.9 CHITVÅ-TEST (ENDAST VID NOMINAL- ELLER ORDINALSKALA!) 30<br />

3.3 DEL III: ENKÄTENS KONSTRUKTION OCH KODNING 32<br />

3.3.1 ATT FORMULERA ETT FRÅGEFORMULÄR 32<br />

3.3.2 KODNING 33<br />

3.3.3 KODNING AV SAKNADE SVAR 35<br />

3.3.4 BORTFALL 35<br />

3.3.5 KORT OM ANALYS AV INSAMLAT DATAMATERIAL 37<br />

3.4 SAMMANFATTNINGSVIS: ATT GÖRA EN STATISTISK UNDERSÖKNING 38<br />

2


4. SEMINARIEUPPGIFTER 41<br />

4.1 SEMINARIUM 1 41<br />

4.2 SEMINARIUM 2 43<br />

4.3 SEMINARIUM 3 45<br />

4.4 SEMINARIUM 4 47<br />

4.5 SEMINARIUM 5 49<br />

5. INLÄMNINGSUPPGIFTER 51<br />

6. ÖVNINGSUPPGIFTER 65<br />

6.1 FACIT TILL ÖVNINGSUPPGIFTER 73<br />

7. ORDLISTA 75<br />

Observera att detta föreläsningsunderlag är en sammanställning av författarnas<br />

egna anteckningar. Det kan därför finnas fel i text och formler, och underlaget kan<br />

inte användas som källitteratur eftersom det inte är fackgranskat eller publicerat.<br />

För projektet inom denna kurs skull är det dock okej!<br />

3


Linköpings universitet<br />

MAI/<strong>Statistik</strong><br />

Eva Leander<br />

1. Om tabeller, medeltal och standardvägning<br />

Här följer ett antal sidor som behandlar tabeller, vägda medeltal och standardvägning.<br />

Avsnittet om vägda medeltal förbereder för avsnittet om standardvägning som är en viktig<br />

och mycket användbar metod för tabellanalys när man vill analysera data från olika<br />

grupper, där det finns ”störande” variabler.<br />

1.1 Vägda medeltal<br />

Betrakta följande exempel. Man har registrerat antalet syskon, y, för vart och ett av de 8<br />

barnen i en barngrupp i syftet att beräkna medelantalet syskon per barn. Följande resultat<br />

erhölls:<br />

Anna 2<br />

Lena 2<br />

Jan 0<br />

Karin 1<br />

Pia 0<br />

Lotta 2<br />

Per 1<br />

Ann 2<br />

Materialet kan också framställas i en frekvenstabell:<br />

y Absolut frekvens<br />

Relativ frekvens = summa absolut frekvens/totalantalet<br />

undersökta barn<br />

0 2 0.25<br />

1 2 0.25<br />

2 4 0.50<br />

Medelantalet syskon per barn (detta brukar kallas det aritmetiska medelvärdet) tecknas<br />

vanligen µ och beräknas:<br />

(1)<br />

µ =<br />

2 + 2 + 0 + 1+<br />

0 + 2 + 1+<br />

2<br />

8<br />

vilket istället kan skrivas<br />

4


(2)<br />

0 + 0 + 1+<br />

1+<br />

2 + 2 + 2 + 2<br />

µ =<br />

8<br />

=<br />

2 ⋅ 0 + 2 ⋅1+<br />

4 ⋅ 2<br />

8<br />

=<br />

2 2 4<br />

⋅ 0 + ⋅1+<br />

⋅ 2 = 0.25⋅0<br />

+ 0.25⋅1+<br />

0.50⋅<br />

2 = 1.25<br />

8 8 8<br />

Här kan man se att det i aritmetiska medelvärdet i materialet dels kan ses som medelvärdet<br />

av de 8 observationerna (ekvation 1) och dels som ett vägt medelvärde av de tre variabelvärden<br />

0, 1 och 2 (ekvation 2). Dessa tre värden vägs ihop med vikter proportionella<br />

mot antalet personer med respektive syskonantal.<br />

Det värdet kan tecknas<br />

µ = ω ⋅ + ω ⋅1+<br />

ω ⋅ 2<br />

↓<br />

1<br />

0.25<br />

0<br />

2 3<br />

↓<br />

0.25<br />

↓<br />

0.50<br />

där vikterna ω<br />

1, ω2<br />

och ω<br />

3<br />

är hämtade ur frekvenstabellen. Vi kan notera att summan av<br />

vikterna är 1.<br />

Vi skall se att µ kan beräknas som ett vägt medelvärde också på ett annat sätt.<br />

Medeltalet för flickorna, som vi betecknar µ F , beräknas som<br />

µ<br />

F<br />

=<br />

summan av flickornas y − värden<br />

=<br />

antalet flickor<br />

2 + 2 + 1+<br />

0 + 2 + 2<br />

= 1.5<br />

6<br />

Ur uttrycket ovan kan man lösa ut<br />

Summan av flickornas y-värden = antalet flickor<br />

∑ y = ⋅ µ<br />

F<br />

i<br />

N F<br />

På motsvarande sätt beräknas för pojkarna<br />

F<br />

⋅ µ<br />

F<br />

eller enklare<br />

∑ yi<br />

P 0 + 1<br />

µ<br />

P<br />

= = = 0.5 och summan av pojkarnas y-värden, ∑ y<br />

i<br />

= N P<br />

⋅ µ<br />

P<br />

N 2<br />

P<br />

P<br />

Vi beräknar nu µ, medelvärdet i hela materialet, igen<br />

5


summan av alla y − värden 2 + 2 + 0 + 1+<br />

0 + 2 + 1+<br />

2<br />

µ =<br />

=<br />

=<br />

N<br />

8<br />

∑ yi<br />

∑ yi<br />

F<br />

6444<br />

74448<br />

P<br />

}<br />

2 + 2 + 1+<br />

0 + 2 + 2 + 0 + 1 9 + 1 6 ⋅ µ<br />

F<br />

+ 2 ⋅ µ<br />

P<br />

= =<br />

=<br />

8<br />

8 8<br />

6 2<br />

µ<br />

F<br />

+ µ<br />

P<br />

= 0.75µ<br />

F<br />

+ 0.25µ<br />

P<br />

=<br />

8 8<br />

0.75⋅1.5<br />

+ 0.25⋅<br />

0.5 = 1.25<br />

↓<br />

Relativa<br />

frekvensen<br />

flickor<br />

↓<br />

Relativa<br />

frekvensen<br />

pojkar<br />

Vi ser att µ här utgör ett vägt medelvärde av flickornas medeltal 1.5 och pojkarnas medeltal<br />

0.5 med vikter proportionella mot antalet flickor respektive pojkar. Medelvärdet i<br />

hela materialet om 8 barn -totalmedelvärdet µ- kan alltså ses som en kompromiss mellan<br />

medelvärdena i materialets delar -de betingade medelvärdena µ F och µ P . Eftersom andelen<br />

flickor är mycket större än andelen pojkar blir “flickvikten” mycket större än “pojkvikten”<br />

och detta leder till att totalmedelvärdet ligger mycket närmare flickmedeltalet än<br />

pojkmedeltalet.<br />

Sammanfattningsvis kan det aritmetiska medelvärdet i ett material med N observationer<br />

på en variabel ses som<br />

i) summan av samtliga observationer dividerad med N, något som skulle kunna<br />

kallas det ovägda medelvärdet av materialets observationer<br />

ii)<br />

iii)<br />

ett vägt medelvärde av samtliga olika variabelvärden i materialet med vikter<br />

proportionella mot antalet observationer med respektive värde<br />

ett vägt medelvärde av medelvärdena i materialets delar -de betingade medelvärdena-<br />

med vikter proportionella mot antalet observationer i respektive del.<br />

Generellt gäller om vägda medeltal, vare sig det handlar om ett vägt medeltal av materialets<br />

k stycken värden<br />

ω y + ω y + ... + ω<br />

1<br />

1<br />

2<br />

2<br />

k y k<br />

eller ett vägt medeltal av medeltalen i materialets l stycken delar<br />

ω<br />

1<br />

µ<br />

1<br />

+ ω2µ<br />

2<br />

+ ... + ω l<br />

µ l<br />

6


att summan av vikterna ω<br />

i<br />

skall vara 1 och att ingen vikt får vara negativ.<br />

Detta avsnitt handlar om hur man skapar och tolkar två- och trevägsindelade tabeller.<br />

Det kan också ses som en förberedelse för nästa del som handlar om standardvägning.<br />

Vi arbetar även fortsättningsvis med ett mycket enkelt exempel.<br />

Vi tänker oss att de 40 barnen, som är inskrivna vid ett fritidshem, beskrivs med avseende<br />

på de tre variablerna kön (u), ålder (x) och veckopeng (y) på sätt som antyds nedan:<br />

Barn nr Kön Ålder Veckopeng<br />

1 P 6 10<br />

2 F 8 12<br />

3 P 8 15<br />

4 F 9 18<br />

. . . .<br />

. . . .<br />

. . . .<br />

39 P 10 15<br />

40 P 7 12<br />

Vi kan beskriva hur de 40 barnen fördelar sig på ålder enligt<br />

Tabell 1. Barn fördelade på ålder<br />

Ålder Antal Procent<br />

6 6 15<br />

7 10 25<br />

8 10 25<br />

9 8 20<br />

10 6 15<br />

Totalt 40 100<br />

1.2 Tvåvägsindelade frekvenstabeller<br />

Kanske vill vi jämföra flickor och pojkar med avseende på ålder. Man kan då utgå från<br />

nedanstående tvåvägsindelade frekvenstabell med absoluta frekvenser:<br />

7


Tabell 2. Barn fördelade på kön och ålder<br />

Ålder Flickor<br />

antal<br />

Pojkar<br />

antal<br />

Samtliga<br />

antal<br />

6 1 5 6<br />

7 2 8 10<br />

8 4 6 10<br />

9 5 3 8<br />

10 4 2 6<br />

Totalt 16 24 100<br />

Ur tabellen framgår t ex att av de 10 stycken 8-åringarna är 4 flickor medan 6 är pojkar,<br />

och att det finns dubbelt så många 10-åriga flickor (4 stycken) som 10-åriga pojkar (2<br />

stycken).<br />

Om man vill jämföra flickornas åldersfördelning med pojkarnas måste man emellertid<br />

också ta hänsyn till att pojkarna är betydligt fler än flickorna. Detta gör man lämpligen<br />

genom att överföra ovanstående tabell till nedan givna tvåvägsindelade frekvenstabell<br />

med relativa frekvenser (här i procent).<br />

Tabell 3. Barn fördelade på kön och ålder<br />

Ålder Flickor<br />

procent<br />

Pojkar<br />

procent<br />

Samtliga<br />

procent<br />

6 6 21 15<br />

7 13 33 25<br />

8 25 25 25<br />

9 31 13 20<br />

10 25 8 15<br />

Totalt 100 100 100<br />

Ur tabellen framgår att åldersfördelningarna är mycket olika för könen. Detta ser man lätt<br />

om man gör “radvisa” jämförelser. T ex gäller att andelen 6-åringar bland pojkarna är<br />

mer än 3 ggr så stor som bland flickorna, (21% jmf 6%). Bland flickorna är andelen barn<br />

under 8 mindre än 20% medan motsvarande andel bland pojkarna ar större än 50%. Andelen<br />

8-åringar är lika stor (25%) bland båda könen medan de 4 stycken 10-åriga flickorna<br />

utgör en mer än 3 ggr så stor andel som de 2 stycken 10-åriga pojkarna (25% jmf 8%).<br />

Sammanfattningsvis tenderar flickorna att vara äldre medan pojkarna i större utsträckning<br />

är yngre. Detta slår igenom i medeltalen för ålder som här betecknas med variabelbeteckningen<br />

med en “ribba” över (x-bar).<br />

8


1 2 4 5 4<br />

X F<br />

= ⋅ 6 + ⋅ 7 + ⋅8<br />

+ ⋅ 9 + ⋅10<br />

=<br />

16 16 16 16 16<br />

0.06 ⋅ 6 + 0.13⋅<br />

7 + 0.25⋅8<br />

+ 0.31⋅<br />

9 + 0.25 ⋅10<br />

= 8.56<br />

↑ ↑ ↑ ↑ ↑<br />

6% 13% 25% 31% 25%<br />

från tabell<br />

3<br />

X<br />

P<br />

= 0 .21⋅<br />

6 + 0.33⋅<br />

7 + 0.25⋅8<br />

+ 0.13⋅9<br />

+ 0.08⋅10<br />

= 7.54<br />

Flickorna är alltså i genomsnitt (aritmetiskt medelvärde) drygt ett år äldre än pojkarna.<br />

Nu övergår vi till problemet att jämföra könen med avseende på veckopeng.<br />

Vi kan tänka oss att först betrakta en tvåvägsindelad frekvenstabell eller -ännu enklareatt<br />

jämföra medelveckopengen för könen. Beräkning av aritmetiskt medelvärde med avseende<br />

på veckopeng ger<br />

Y<br />

F<br />

= 16.56 kronor respektive Y<br />

P<br />

= 15.67 kronor,<br />

dvs flickorna har i medeltal lite högre veckopeng än pojkarna.<br />

Om vi önskar något mer detaljerad information betraktar vi tvåvägsindelade frekvenstabeller<br />

med variabeln veckopeng klassindelad. Om man vill nöja sig med en mycket grov<br />

klassindelning kan man betrakta nedanstående tabeller.<br />

Tabell 4. Barn fördelade på kön och ålder – antal<br />

Veckopeng Flickor Pojkar<br />

Under 16:50 9 17<br />

16:50 eller mer 7 17<br />

Totalt 16 24<br />

Tabell 5. Barn fördelade på kön och ålder – procent<br />

Veckopeng Flickor Pojkar<br />

Under 16:50 56 71<br />

16:50 eller mer 44 29<br />

Totalt 100 100<br />

Man jämför radvis procenttalen i tabell 5 och finner att andelen med låg veckopeng (här<br />

under 16:50) är högre bland pojkarna än bland flickorna medan andelen med hög veckopeng<br />

är högre bland flickorna än pojkarna. (Ett annat val av klassgräns kunde ha gett en<br />

annan bild.)<br />

Båda de valda sätten att beskriva materialet ger alltså vid handen att flickorna har högre<br />

veckopeng än pojkarna.<br />

9


1.3 Trevägsindelade frekvenstabeller<br />

I det aktuella materialet har vi förutom kunskap om kön och veckopeng även information<br />

om åldern för varje barn. Att åldern är en faktor som har stor betydelse för veckopengens<br />

storlek torde vara ovedersägligt. Låt oss därför ta hänsyn till åldern när vi analyserar<br />

sambandet mellan kön och veckopeng.<br />

Problemet är då att beskriva tre variabler samtidigt. Man kan här välja att göra trevägsindelade<br />

frekvenstabeller, t ex som nedan<br />

Tabell 6. Barn i olika ålder fördelade på kön och veckopeng – procent<br />

Veckopeng 6-åringar 7-åringar 10-åringar<br />

Flickor Pojkar Flickor Pojkar … Flickor Pojkar<br />

Under 16:50 100 100 100 75 … 25 0<br />

16:50 eller mer 0 0 0 25 … 75 100<br />

Totalt 100 100 100 100 … 100 100<br />

Vi kan uppfatta denna trevägsindelade tabell som 5 tvåvägsindelade tabeller (en för 6-<br />

åringar, en för 7-åringar, osv) där man jämför flickor och pojkar med avseende på veckopeng.<br />

Man gör radvisa jämförelser av procenttalen inom varje åldersgrupp. Härav kan man<br />

möjligen ana att andelen pojkar med högre veckopeng (16:50 eller mer) är lika stor eller<br />

större än motsvarande andel bland flickorna för samtliga åldrar.<br />

Den trevägsindelade frekvenstabellen är i detta fall mindre lämplig. Den delar de facto in<br />

totalt 40 personer i 20 grupper. Tabellen blir svåröverskådlig, många “celler” blir tomma<br />

eller nästan tomma och procenttalen baseras i flera fall på en eller ett par individer.<br />

1.4 Tvåvägsindelade medeltalstabeller<br />

Ett bättre alternativ är att bilda en tvåvägsindelad medeltalstabell enligt nedan:<br />

Tabell 7. Genomsnittlig veckopeng för barn i olika åldrar – kronor<br />

Ålder Flickor Pojkar<br />

6 10.0 13.0<br />

7 13.0 14.0<br />

8 14.0 16.0<br />

9 17.0 19.0<br />

10 22.0 23.0<br />

Samtliga 16.56 15.67<br />

Av praktiska skäl är materialet konstruerat så att samtliga betingade medeltal antar heltalsvärden.<br />

Totalmedeltalen är däremot icke heltal.<br />

10


Tabellen konstrueras så att man räknar ut det aritmetiska medelvärdet av veckopengarna<br />

för alla barn av visst kön och viss ålder och för in på därför avsedd plats i tabellen. T ex<br />

fanns 4 stycken 10-åriga flickor (jmf tabell 2). Dessa har följande veckopengar: 20 kr, 22<br />

20 + 22 + 22 + 24<br />

kr, 22 kr, 24 kr och alltså i medeltal = 22 kr.<br />

4<br />

En jämförelse mellan könen med hjälp av tabellen ger vid handen att flickorna i genomsnitt<br />

har lägre veckopeng än pojkarna för samtliga åldrar. Ändå har vi tidigare funnit att<br />

flickorna har högre genomsnittlig veckopeng än pojkarna (16.56 jmf 15.67). Alltså ger<br />

jämförelse av totalmedeltalet en annan bild av sambandet mellan kön och veckopeng än<br />

en jämförelse mellan de betingade medeltalen. Orsaken till denna skenbara anomali utreds<br />

i det följande.<br />

Den genomsnittliga veckopengen för de 16 flickorna kan ses som ett vägt medeltal av de<br />

olika åldrarnas medelveckopeng - de betingade medeltalen. ω<br />

F1<br />

= vikten för 6-åringar,<br />

ω<br />

F 2<br />

= vikten för 7-åringar osv<br />

YF<br />

=<br />

F<br />

ω<br />

F1 ⋅10 + ωF<br />

2<br />

⋅13<br />

+ ω<br />

F 3<br />

⋅14<br />

+ ωF<br />

4<br />

⋅17<br />

+ ω<br />

5<br />

⋅ 22<br />

Den genomsnittliga veckopengen för de 24 pojkarna kan på motsvarande sätt ses som ett<br />

vägt medeltal av pojkarnas betingade medeltal<br />

YP<br />

=<br />

P<br />

ω<br />

P1 ⋅13 + ω<br />

P2<br />

⋅14<br />

+ ωP3<br />

⋅16<br />

+ ω<br />

P4<br />

⋅19<br />

+ ω<br />

5<br />

⋅ 23<br />

Både bland flickorna och bland pojkarna är de betingade medeltalen högre ju högre ålder.<br />

Viktsystemen ωFi<br />

respektive ω<br />

Pi<br />

hämtas från åldersfördelningen för flickorna respektive<br />

pojkarna i tabell 3 (barn fördelade på kön och ålder, uttryckt i procent), dvs<br />

och<br />

ω<br />

F1<br />

= 0.06 ω<br />

F 2<br />

= 0. 13 ω = 0. F 3<br />

25 ω<br />

F 4<br />

= 0. 31 ω = 0. F 5<br />

25<br />

ω<br />

P1<br />

= 0.21 ω<br />

P2<br />

= 0. 33 ω = 0. P3<br />

25 ω<br />

P4<br />

= 0. 13 ω = 0. P5<br />

08<br />

Sålunda blir de två totalmedeltalen<br />

Y<br />

F<br />

= 0.06 · 10 + 0.13 · 13 + 0.25 · 14 + 0.31 · 17 + 0.25 · 22 = 16.56<br />

Y<br />

P<br />

= 0.21 · 13 + 0.33 · 14 + 0.25 · 16 + 0.13 · 19 + 0.08 · 23 = 15.67<br />

11


Skälet till att flickornas totalmedeltal blir högre än pojkarnas är alltså att flickorna har<br />

höga vikter där det är högre veckopeng (äldre barn) medan pojkarna har höga vikter där<br />

det är låg veckopeng (yngre barn).<br />

Att skillnaden mellan totalmedeltalen har blivit som den blivit beror i hög grad på att<br />

flickorna är äldre än pojkarna. Om man vill ge ett mått på skillnaden i veckopeng mellan<br />

flickor och pojkar för barn i samma ålder, blir skillnaden mellan totalmedeltalen här<br />

missvisande. I nästa avsnitt kommer en metod för att konstruera ett bättre mått.<br />

Nu kommer vi till standardvägning och vi anknyter direkt till det tidigare exemplet med<br />

barnen och deras veckopengar.<br />

1.5 Standardvägning<br />

Låt oss göra ett tankeexperiment. I en annan barngrupp uppvisar barnen samma genomsnittliga<br />

veckopeng för varje kombination kön och ålder som i vårt exempel. Emellertid<br />

fördelar sig såväl flickor som pojkar på ålder enligt tabell 8:<br />

Tabell 8. Genomsnittlig veckopeng (kronor) och åldersfördelning (procent) för en<br />

grupp barn<br />

Ålder Genomsnittlig veckopeng<br />

Åldersfördelning<br />

(procent)<br />

(kronor)<br />

Flickor Pojkar Flickor Pojkar<br />

6 10 13 15 15<br />

7 13 14 25 25<br />

8 14 16 25 25<br />

9 17 19 20 20<br />

10 22 23 15 15<br />

Samtliga 14.95 16.70 100 100<br />

Totalmedelvärden för könen Y<br />

F<br />

och Y<br />

P<br />

:<br />

Y<br />

F<br />

= 0.15 · 10 + 0.25 · 13 + 0.25 · 14 + 0.20 · 17 + 0.15 · 22 = 14.95<br />

Y<br />

P<br />

= 0.15 · 13 + 0.25 · 14 + 0.25 · 16 + 0.20 · 19 + 0.15 · 23 = 16.70<br />

Skillnaden mellan könen kan skrivas<br />

Y P<br />

− Y F<br />

= 0.15(13 −10)<br />

+ 0.25(14 −13)<br />

+ 0.25(16 −14)<br />

+ 0.20(19 −17)<br />

+ 0.15(23 − 22) =<br />

0.15⋅<br />

3 + 0.25⋅1+<br />

0.25⋅<br />

2 + 0.20 ⋅ 2 + 0.15⋅1<br />

= 1.75<br />

12


och vi kan notera att resultatet är ett vägt medeltal av de i tabellen observerade radskillnaderna,<br />

något som känns ”rimligt och rättvist”. Detta beror på att pojkar och flickor har<br />

samma åldersfördelning.<br />

Noteras kan att just de valda ”vikterna” (0.15, 0.25, 0.25, 0.20, 0.15) motsvarar den totala<br />

åldersfördelningen i vårt tidigare exempel med de 40 barnen, jmf tabell 3.<br />

I praktiken arbetar man ofta just på detta sätt. Om könen fördelar sig mycket olika på ålder<br />

(som i vårt exempel med de 40 barnen) bildar man standardvägda medeltal, där man<br />

på det sätt vi gjorde ovan beräknar de totalmedeltal, som skulle uppstått om både pojkar<br />

och flickor fördelat sig på ålder som samtliga barn i materialet gör och vi hade fått fram<br />

samma medeltalstabell som den vi har observerat.<br />

Om, som i vårt exempel, samtliga radskillnader har samma tecken, kommer detta tecken<br />

att synas också i skillnaden mellan de standardvägda medeltalen.<br />

1.6 Lite terminologi<br />

Om vi vill undersöka vilken betydelse kön har för veckopengens storlek utgör ”veckopeng”<br />

beroende variabel eller resultatsvariabel, medan kön är undersökningsvariabel. Åldern,<br />

som vi konstanthåller genom att vi gör jämförelser inom varje åldersgrupp, utgör<br />

standardiseringsvariabel eller kontrollvariabel.<br />

I de olika tabeller vi har sett i detta kapitel har vi genomgående låtit vår undersökningsvariabel<br />

dela in materialet i tabellkolumner. Indelning i rader i tabellen bestäms av den beroende<br />

variabeln i frekvenstabeller (jmf t ex tabellerna 4, 5, 6) och av standardiseringsvariablerna<br />

i medeltalstabeller.<br />

Vid beräkningen av standardvägda medeltal på föregående sida valde vi samtliga barns<br />

fördelning på ålder som standardfördelning Det förekommer att man hämtar sina standardvikter<br />

från någon annan standardfördelning. T ex kan man beräkna standardvägda<br />

medeltal baserade på att både flickor och pojkar fördelar sig på ålder som flickorna gör,<br />

dvs använda flickornas åldersfördelning som standardfördelning.<br />

Antag att vi vill jämföra veckopengen för pojkar och flickor i samma ålder och även sortera<br />

med hänsyn till ”förekomst av äldre syskon”. I så fall kan vi bilda en tabell på följande<br />

form:<br />

13


Genomsnittlig veckopeng<br />

Ålder Har äldre syskon Flickor Pojkar<br />

. . . .<br />

7 Nej 11 12<br />

7 Ja 15 16<br />

8 Nej 12 15<br />

. . . .<br />

och arbeta på den på liknande sätt som ovan. Varje ålderskategori hade då delats upp i två<br />

delar och vi hade fått 2 standardiseringsvariabler (kontrollvariabler) nämligen ålder och<br />

”förekomst av äldre syskon”.<br />

1.7 Uppgift<br />

På ett medelstort företag sammanställer man på personalavdelningen uppgifter om de anställdas<br />

sjukfrånvaro. Man finner att under föregående verksamhetsår var den genomsnittliga<br />

sjukfrånvaron bland kvinnorna 6.77 dagar och bland männen 8.90 dagar. Med<br />

ledning av nedanstående medeltalstabell kan man närmare analysera statistiken över sjukfrånvaro.<br />

Tabellen redovisar den genomsnittliga sjukfrånvaron bland männen och kvinnorna<br />

i företaget med uppdelning på ”arbetsplats” och ålder.<br />

Genomsnittlig sjukfrånvaro 1999 i antal dagar (antal anställda anges inom parantes):<br />

Arbetsplats Ålder Kvinnor Män<br />

Avdelning I Yngre 6.2 (40) 6.4 (15)<br />

Äldre 5.4 (110) 5.5 (35)<br />

Avdelning II Yngre 9.4 (50) 9.9 (400)<br />

Äldre 7.6 (50) 8.1 (300)<br />

Totalt 6.77 (250) 8.90 (750)<br />

a) Jämför kvinnors sjukfrånvaro med männens med hjälp av standardvägning. Standardvikterna<br />

skall hämtas från samtliga anställdas fördelning på arbetsplats och ålder.<br />

b) Jämför resultaten i a) med den bild man får om man jämför kvinnor och män i hela företaget<br />

(6.77 respektive 8.90 dagar). Förklara vad som orsakar skillnaden.<br />

Svar<br />

a) Standardvägda medeltal för kvinnorna 8.01 och för männen 8.44.<br />

14


2. Om variabeltransformationer<br />

2.1 Linjär variabeltransformation<br />

Om<br />

Y<br />

= a + b ⋅ X<br />

där<br />

• a och b är vilka konstanter som helst<br />

• X har väntevärde µ<br />

X<br />

2<br />

• X har varians σ<br />

X<br />

och alltså standardavvikelse σ<br />

X<br />

så gäller att<br />

µ<br />

Y<br />

= a + b ⋅ µ<br />

X<br />

σ<br />

2<br />

Y<br />

= b<br />

2<br />

⋅σ<br />

2<br />

X<br />

σ<br />

Y<br />

=<br />

σ<br />

2<br />

Y<br />

2.2 Summor och differenser av slumpvariabler<br />

Om en slumpvariabel, W, utgör summan av (eller differensen mellan) två oberoende<br />

slumpvariabler U och Z, enligt<br />

W = U +<br />

eller<br />

Z<br />

W<br />

= U − Z<br />

så gäller att<br />

σ = σ + σ<br />

2<br />

W<br />

2<br />

U<br />

2<br />

Z<br />

15


3. Om statistiska undersökningar – inför och under projektet<br />

Statistiska undersökningar handlar om att kontakta ett stort antal personer, vanligtvis genom<br />

enkäter, och till varje person ställa frågor med ett antal i förväg konstruerade svarsalternativ<br />

för att sedan med statistiska metoder bearbeta och dra slutsatser från denna information.<br />

Centrala begrepp är population och stickprov – vi drar ett stickprov, kontaktar<br />

dessa individer och använder deras svar för att dra slutsatser om populationen.<br />

Vad karaktäriserar då en statistisk undersökning? Den första och uppenbara faktorn är att<br />

vi använder oss av siffror, och därmed kan vi upptäcka och dra slutsatser från mycket<br />

små skillnader som uppträder i materialet. Vi kan även ställa upp hypoteser och på statistisk<br />

väg testa dessa hypoteser mot data vi samlat in. Dessutom har vi möjlighet att kvantifiera<br />

samband mellan olika faktorer, det vill säga ta reda på hur starka sambanden är och<br />

hur mycket de olika faktorerna påverkar varandra.<br />

Inom ramen för projektarbetet kommer ni att få pröva på metodiken för att göra en enkätundersökning,<br />

samt få en inblick i svårigheter och potentiella felkällor med detta undersökningsupplägg.<br />

Vi kommer också att få lära oss, genom att studera varandras arbeten,<br />

att kritiskt tolka resultaten av redan gjorda statistiska undersökningar.<br />

Det följande materialet är uppbyggt i tre delar. I den första delen diskuteras populationer,<br />

stickprov och variabler, och det beskrivs vilka statistiska metoder som bör användas beroende<br />

på vilken studiedesign vi väljer. Den andra delen hänvisar kortfattat till de metoder<br />

som beskrivs i kursboken. Den tredje delen beskriver metodiken för att genomföra en<br />

statistisk undersökning. I filen Exempel på statistisk rapport på kurshemsidan finns enkät<br />

och rapport från en studie av östgötars e-handelsvanor. Från denna kan ni hämta idéer<br />

och få konkreta tips på enkätkonstruktion, studiedesign och rapportupplägg.<br />

3.1 Del I: Om variabler, populationer och stickprov<br />

3.1.1 Variabler<br />

Vi börjar med att fundera kring begreppet variabel. Vad är en variabel? Jo, förstås något<br />

som varierar, och vi vet ungefär vilka utfallen kan tänkas bli men inte vilket. Att fråga sig<br />

om det ska bli krona eller klave när vi singlar slant är exempel på en variabel: antingen<br />

blir det krona eller så blir det klave, men vi vet inte på förhand vilket det blir. När vi arbetar<br />

med en enkät är varje fråga en variabel. I det följande kommer orden fråga och variabel<br />

att användas omväxlande beroende på sammanhanget, men håll hela tiden i bakhuvudet<br />

att vi i sammanhanget av statistiska undersökningar betraktar orden variabel och<br />

fråga som synonymer.<br />

Det finns två typer av variabler.<br />

16


1. Kvalitativa variabler. Kvalitativa variabler är variabler som inte har något numeriskt<br />

värde: det går inte att på ett naturligt sätt beskriva variabeln med siffror.<br />

Exempel på kvalitativa variabler: kön, nationalitet, om man har husdjur eller ej.<br />

2. Kvantitativa variabler. Kvantitativa variabler är variabler som antar siffervärden.<br />

Här skiljer vi på<br />

- diskreta kvantitativa variabler: variabler som endast kan anta heltalsvärden<br />

samt på<br />

- kontinuerliga kvantitativa variabler: variabler som kan mätas med<br />

många decimalers noggrannhet.<br />

Exempel på kvantitativa variabler: antalet syskon (diskret), en persons längd och vikt<br />

(kontinuerliga).<br />

Med utgångspunkt från vilken typ av variabel vi har (kvantitativ eller kvalitativ) så finns<br />

det olika skalor (eller mätnivåer som det också kallas), för vilka vi konstruerar svarsalternativen<br />

för frågorna. Varför behöver vi veta detta? Jo, det avgör vilka statistiska metoder<br />

vi har möjlighet att använda oss av när vi ska analysera svaren vi fått på frågan. Det<br />

finns tre olika skalor:<br />

1. Nominalskala:<br />

när vi bara kan betrakta svaren som olika grupper. Till denna skala hör endast<br />

kvalitativa variabler. Hur ska vi då veta om vi har att göra med nominalskala? Det<br />

är ofta väldigt enkelt att inse: om svaren helt uppenbart inte har med siffror att<br />

göra, och det inte finns någon logisk rangordning av svarsalternativen.<br />

Exempel: kön, bostadsområde, politisk uppfattning, Ja/Nej-frågor<br />

Exempel: Har du träningskort i Campushallen?<br />

( )Ja ( )Nej<br />

2. Ordinalskala:<br />

när vi betraktar svaren som grupper, men kan rangordna dem. Svarsalternativen<br />

har alltså en inbördes storleksordning, men avstånden kan ändå vara olika mellan<br />

svarsalternativen. Till denna skala hör både kvalitativa och kvantitativa variabler.<br />

Exempel: attityder till olika påståenden, frekvenser (i ord) för olika aktiviteter (t<br />

ex hur ofta man reser till Göteborg)<br />

Exempel: Hur ofta besöker du Campushallen?<br />

( )Varje dag ( )Några gånger i veckan ( )Några gånger i månaden ( )Mer sällan<br />

3. Metrisk skala (kallas även intervallskala):<br />

för kvantitativa variabler, det vill säga när svaren erhålls i siffror. Avstånd kan<br />

mätas mellan svarsalternativen.<br />

Exempel: Frågor med svarsalternativ där ett numeriskt värde skall anges (Hur<br />

lång är du? __________), frågor med svar i intervall av likadan storlek<br />

Exempel: Hur många av förra veckans dagar tränade du på Campushallen?<br />

17


( )0 ( )1 ( )2 ( )3 ( )4 ( )5 ( )6 ( )7<br />

För respektive mätnivå, finns det olika statistiska metoder för att analysera resultaten på<br />

frågan. Närmare bestämt gäller följande (OBS: Beroende på när du läser det här har du<br />

kanske inte hunnit lära dig vad var och en av dessa metoder innebär, men jag kommer att<br />

gå igenom dem på föreläsningarna innan de behöver användas! I kompendiet finns också<br />

djupa förklaringar av vart och ett av dem som du kan använda för självstudier, se del II).<br />

Nominalskala:<br />

1. Typvärde<br />

2. Andelar<br />

3. Konfidensintervall för andelar<br />

4. Hypotesprövning för andelar<br />

5. Chi-tvåtest<br />

Ordinalskala:<br />

1. Median<br />

2. Kvartiler<br />

3. Kvartilavstånd<br />

4. Andelar<br />

5. Konfidensintervall för andelar<br />

6. Hypotesprövning för andelar<br />

7. Chi-tvåtest<br />

Metrisk skala:<br />

1. Medeltal<br />

2. Standardavvikelse<br />

3. Median<br />

4. Kvartiler<br />

5. Kvartilavstånd<br />

6. Andelar<br />

7. Konfidensintervall för medelvärde<br />

8. Konfidensintervall för andelar<br />

9. Hypotesprövning för medelvärde<br />

10. Hypotesprövning för andelar<br />

11. Korrelationskoefficient<br />

12. Regressionsanalys<br />

Vi sammanfattar:<br />

18


FRÅGA<br />

KVALITATIVA<br />

SVARSALTERNATIV<br />

KVANTITATIVA<br />

SVARSALTERNATIV<br />

Nominalskala<br />

Ordinalskala<br />

Ordinalskala<br />

Metrisk skala<br />

Förutom dessa typer av svarsalternativ ska vi också komma ihåg öppna frågor, det vill<br />

säga frågor utan givna svarsalternativ. Öppna frågor är svåra att analysera på statistisk<br />

väg, så istället nöjer man sig oftast med att göra en sammanställning av vilka svar man<br />

fått. Trots detta är det ofta lämpligt att ha med i alla fall en öppen fråga i en enkät, för att<br />

kunna täcka in alla åsikter och minska risken att förvrida undersökningen i en viss riktning.<br />

3.1.2 Population och stickprov<br />

Låt oss nu definiera begreppen population och stickprov. En population är en samling<br />

individer (eller någon annan enhet) som på ett tydligt sätt kan avgränsas, och som vi vill<br />

dra slutsatser om. Exempel på populationer är alla som bor i Linköping eller alla som besökt<br />

ICA Maxi den senaste veckan. Den population som vi vill undersöka kallas målpopulation.<br />

De individer som det faktiskt finns ett register över, och som vi vet att det finns<br />

en teoretisk chans att vi kan få tag i, kallas rampopulation. Men vi kan inte undersöka<br />

alla individer i rampopulationen, eftersom somliga inte går att få tag i, andra inte vill svara<br />

och framförallt är det väldigt dyrt att göra en stor undersökning. Istället väljer vi ut en<br />

delmängd ur populationen: vi drar ett stickprov.<br />

Population<br />

Stickprov<br />

19


3.1.3 Urvalsramar och deras problem<br />

Som vi inser är målpopulation och rampopulation sällan identiska. Det register som definierar<br />

rampopulationen kallas med statistiskt språkbruk för urvalsram. Det inses att register<br />

knappast kan hållas ständigt uppdaterade, och därför finns det skillnader/problem med<br />

urvalsramen jämfört med målpopulationen. De vanligaste problem som kan inträffa är<br />

övertäckning, undertäckning och replikat.<br />

Övertäckning<br />

Om urvalsramen innehåller enheter (individer) som inte tillhör målpopulationen kallas<br />

dessa övertäckning. Exempel är personer i ett register som har flyttat, avlidit, utgått ur en<br />

förening och liknande. Om urvalsramen utgörs av en lokal, kan det i lokalen vid tidpunkten<br />

för vår studie vistas personer som inte tillhör den population som vi vill undersöka.<br />

Problemet är inte så allvarligt som det låter, eftersom vi genom att ställa lämpliga frågor i<br />

enkäten enkelt kan identifiera ”främmande” individer i det urval som tas. När de väl är<br />

identifierade kan vi helt enkelt plocka bort de enkäterna, och justera den totala stickprovsstorleken.<br />

Värre är det om en mycket stor andel av urvalet utgörs av övertäckning. I<br />

sådana fall är ram- och målpopulation så skilda att en ny urvalsram krävs.<br />

Undertäckning<br />

Undertäckning är motsatsen till övertäckning, det vill säga att det finns individer i målpopulationen<br />

som saknas i urvalsramen.<br />

Undertäckning uppstår lika naturligt som övertäckning, men är ett mycket allvarligare<br />

problem eftersom det kan inte upptäckas under själva undersökningen. Undertäckning<br />

kan därför bara förebyggas genom att välja en så pass uppdaterad urvalsram att problemet<br />

minimeras.<br />

Undertäckning kan bedömas vara ett mindre bekymmer om det finns anledning att tro att<br />

den del av populationen som inte kommer med i urvalet kan förväntas ha samma åsikter<br />

som de som finns i urvalsramen. Försiktighet gäller dock vid sådana överväganden.<br />

Replikat<br />

Det finns fler ramproblem än de nämnda. Bland annat är det ganska vanligt att urvalsramen<br />

innehåller replikat av enheter.<br />

Exempel: Om vi avser att studera en population av hushåll, men väljer en urvalsram som<br />

består av individer inser vi att det finns risk att vi väljer två personer som tillhör samma<br />

hushåll.<br />

Risken för replikat är viktig att känna till när undersökningar planeras.<br />

20


3.1.4 Hur dra stickprov?<br />

Så, då inställer sig naturligt frågan, hur ska vi dra stickprovet ur populationen för att det<br />

ska bli så representativt som möjligt, det vill säga spegla populationen så väl som möjligt?<br />

Det finns många olika sätt som alla har sina fördelar och nackdelar. Vi inriktar oss<br />

mot urval som är av typen sannolikhetsurval. Med detta menas att vi tar slumpen till hjälp<br />

för att göra urval som är så lika populationen som möjligt.<br />

Vi kommer att gå igenom två metoder för att dra urval i denna kurs: obundet slumpmässigt<br />

urval och stratifierat urval men i sammanhanget nämns också systematiskt urval<br />

samt på stan-urval.<br />

3.1.5 Obundet slumpmässigt urval<br />

Obundet slumpmässigt urval (OSU) är den absolut vanligaste metoden för att dra stickprov.<br />

Denna princip bygger på att alla individer i populationen har lika stor sannolikhet att bli<br />

utvalda i stickprovet, och den sannolikheten är stickprovsstorleken/populationsstorleken<br />

(där stickprovsstorleken betecknas n och populationsstorleken N, dvs sannolikheten att en<br />

viss individ blir utvald är n/N).<br />

Exempel: Om vi tänker oss alla i ett klassrum som vår population, och vi vill undersöka<br />

genomsnittsvikten. Att väga alla studenter i klassrummet skulle ta längre tid än vad vi<br />

har, så då kan det ju vara lämpligt med ett stickprov om säg, 20 personer. Det enklaste<br />

sättet att göra ett OSU skulle då vara att skriva ned allas namn på lappar, lägga dem i en<br />

låda och dra 20 lappar ur lådan. Då har slumpen valt ut 20 personer åt oss och alla har<br />

lika stor chans att bli utvalda. Risken för att resultaten ska bli snedvridna är minimerad.<br />

I anslutning till OSU bör även nämnas systematiskt urval. Metoden bygger på att vi har<br />

en förteckning över individer, och att vi sedan bestämmer oss för att exempelvis plocka<br />

ut var femte individ från den listan. Metoden förutsätter givetvis att vi har en god förteckning<br />

som alla individer finns med på.<br />

Exempel: Låt oss utgå från klasslistan för populationen i föregående exempel. Antag att<br />

det finns 120 namn på listan. Vi vill fortfarande ha ett urval om 20 personer, så vi börjar<br />

exempelvis på plats nummer fyra på listan och plockar sedan ut individen på plats nummer<br />

fyra, plats nummer åtta, plats nummer tolv och så vidare, tills vi har fått 20 personer.<br />

På stan-urval är också en variant på OSU. Detta är den urvalsmetod som vi oftast kommer<br />

i kontakt med. Principen för ett på stan-urval är att vi aktivt söker upp respondenterna,<br />

exempelvis genom att stå på en välfylld gata och tillfråga folk som passerar förbi. Här<br />

gäller det dock att dra sig till minnes idén med sannolikhetsurval, och ta slumpen till<br />

21


hjälp. Detta kan vi göra genom att exempelvis tillfråga var tionde person som passerar<br />

oss. Syftet med detta är förstås att göra ett urval bland alla individer som passerar förbi,<br />

inte bara de som ser vänliga ut och som verkar ha tid. Ytterligare att tänka på är att dela<br />

ut enkäterna vid några olika tidpunkter, för att undvika att bara få en viss sorts respondenter.<br />

Om vår population är alla boende i Linköping, och vi delar ut enkäter på en affärsgata<br />

under dagtid får vi en övervikt av pensionärer, barnfamiljer och arbetslösa i urvalet. Om<br />

vår population är studerande vid Linköpings Universitet och vi delar ut enkäter utanför<br />

C-huset får vi mest med teknologer och studerande vid filosofiska fakulteten men få lärare<br />

eller hälsostuderande.<br />

I samband med projektet kommer det (högst antagligen) vara ett på stan-urval ni genomför,<br />

exempelvis med populationen ekonomstuderande vid Linköpings Universitet och urvalsram<br />

de studenter som befinner sig i klassrummet när ni går dit för att dela ut enkäter.<br />

3.1.6 Stratifierat urval<br />

Låt oss nu utgå från en population som på ett tydligt sätt kan delas upp i grupper med avseende<br />

på den egenskap som vi är intresserade av att undersöka (detta kallas för en heterogen<br />

population, till skillnad från den population som vi drog OSU ur som istället kallas<br />

homogen). Dessa grupper kallas strata, och ett OSU görs sedan ur varje strata. Detta är<br />

principen för stratifierat urval, och syftet är att minska standardavvikelsen, vilket i sin tur<br />

ger smalare konfidensintervall och därmed säkrare slutsatser.<br />

Hur görs då indelningen i strata? Har vi information från en tidigare studie kan det förstås<br />

vara värdefullt, eller så får vi använda sunt förnuft. Om vi exempelvis vill studera inkomstnivåer<br />

skulle det kunna vara en god idé att stratifiera med avseende på om individen<br />

bor i villa, bostadsrätt eller hyresrätt, eller med avseende på i vilket av stadens områden<br />

individen bor. På det sättet kan vi komma fram till lämpliga sätt att dela upp populationen.<br />

Exempel: I vårt exempel med vikter i klassrummet skulle vi kunna tänka oss att vi delar<br />

upp studenterna i klassrummet i kvinnor och män, och sedan gör vi om idén med namn i<br />

en låda fast med en separat låda för kvinnor och en för män, med 10 lappar i varje. Detta<br />

att vi delar upp populationen i kvinnor och män kallas att vi delar upp den i två strata.<br />

3.1.7 Hur stort stickprov bör vi dra?<br />

Hur stort stickprov som bör dras är en mycket komplex fråga som avgörs av faktorer såsom<br />

krav på maximal osäkerhet, kostnader, tillgänglig tid osv. Generellt gäller att man<br />

inte bör göra ett urval om mindre än 100 enheter. Syftet med detta är att ett mindre urval<br />

än så kommer att vara mycket svårt att analysera, då de statistiska metoder vi tar upp här<br />

annars inte kommer att fungera.<br />

22


Merarbetet att dela ut fler enkäter understiger vida de problem vi måste lösa om vi gjort<br />

en för liten undersökning.<br />

För projektets skull rekommenderar jag att ni får in svar på minst 100 enkäter.<br />

3.1.8 Lathund för stickprovsmetoder<br />

Kan vi undersöka<br />

hela populationen?<br />

Ja<br />

Nej<br />

Gör en<br />

totalundersökning<br />

Hurdan är<br />

populationen?<br />

Homogen<br />

Heterogen<br />

Har vi något<br />

register över<br />

populationen?<br />

Stratifierat<br />

urval<br />

Ja<br />

Nej<br />

Vet vi något<br />

om<br />

spridningen i<br />

populationen?<br />

Systematiskt<br />

urval<br />

OSU<br />

Ja<br />

Nej<br />

Neymanallokering<br />

Proportionell<br />

allokering<br />

3.2 Del II: Dataanalys<br />

3.2.1 Typvärde<br />

Typvärdet är det vanligaste värdet, det vill säga det alternativ som flest har valt på den<br />

aktuella frågan. Engelsk benämning är mode och vi kallar ibland måttet för modalvärde.<br />

Vi får fram det helt enkelt genom att räkna antalet svar på respektive svarsalternativ för<br />

en fråga, och det svarsalternativ som fått flest kryss är typvärdet.<br />

23


3.2.2 Median<br />

Medianen är det mittersta värdet när vi har storleksordnat alla värden. Medianens position<br />

kan räknas ut genom där n är antalet observationer (observera att ekvationen<br />

n +1<br />

2<br />

inte ger medianens värde, utan endast på vilken plats i datamaterialet vi hittar den!).<br />

Mer om medianen hittar vi i kursbokens kapitel 2.<br />

3.2.3 Kvartiler och kvartilavstånd<br />

Kvartiler är mått på spridningen.<br />

• Första (eller nedre) kvartil: medianen i den första halvan av de storleksordnade<br />

värdena<br />

• Tredje (eller övre) kvartil: medianen i den andra halvan av de storleksordnade<br />

värdena<br />

• Kvartilavstånd: differensen mellan tredje och första kvartil<br />

Mer om kvartiler hittar vi i kursbokens kapitel 2.<br />

3.2.4 Medelvärden, andelar och konfidensintervall vid OSU<br />

Låt oss anta att vi gjort ett OSU och vill analysera resultaten på en fråga. Det finns två<br />

typer av parametrar vi kan räkna på när vi har gjort ett stickprov:<br />

• medelvärden (när vi har metriska svarsalternativ) och<br />

• andelar (när vi har nominala eller ordinala svarsalternativ).<br />

För både medelvärden och andelar kan vi beräkna punktskattningar (stickprovsmedelvärdet<br />

respektive stickprovsandelen är punktskattningar av det sanna populationsmedelvärdet<br />

respektive populationsandelen) och konfidensintervall (när vi lägger ett osäkerhetsintervall<br />

kring punktskattningen, för att kunna uttala oss med statistisk säkerhet om hur väl<br />

parametern vi räknat fram från stickprovet stämmer med populationen). Vi använder oss<br />

av begreppen populationsstatistikor (det okända sanna värdet på en parameter som vi<br />

hade fått fram om vi undersökt alla individer i hela populationen) och stickprovsstatistikor<br />

(det värde på en parameter som vi fått från stickprovet).<br />

24


Tabell med i statistisk litteratur vanligt förekommande beteckningar på populations- och<br />

stickprovsstatistikor<br />

Typ<br />

Populationsstatistika<br />

Stickprovsstatistika<br />

(resultat från stickprovet)<br />

(okänd sanning)<br />

Medelvärde µ x<br />

Andel p pˆ<br />

Varians (för medelvärde)<br />

Standardavvikelse<br />

(för medelvärde)<br />

2<br />

σ<br />

σ<br />

Exempel på medelvärden: Om vi vill undersöka vilken genomsnittslängden på studenterna<br />

i ett klassrum är, då räknar vi på medelvärden.<br />

Exempel på andelar: Om vi vill veta hur stor andel av personerna i ett klassrum som är<br />

kvinnor, då räknar vi på andelar.<br />

Medelvärden och konfidensintervall<br />

Medelvärden och tillhörande konfidensintervall beräknas som följer. Kom ihåg att vi endast<br />

kan beräkna medelvärden när vi har metriska svarsalternativ på en fråga.<br />

• Punktskattning för medelvärde:<br />

∑ x<br />

x =<br />

n<br />

• Standardfel 1 för medelvärde:<br />

2<br />

s ⎛ n<br />

SE = ⎜1<br />

−<br />

n ⎝ N<br />

• Konfidensintervall för medelvärde:<br />

2<br />

s ⎛ n<br />

x ± z ⎜1<br />

−<br />

n ⎝ N<br />

⎞<br />

⎟<br />

⎠<br />

⎞<br />

⎟<br />

⎠<br />

Här känner vi igen z som tabellvärdet från normalfördelningen. Jag har här valt att uttrycka<br />

formlerna med z istället för t (tabellvärdet från t-fördelningen) trots att σ är<br />

okänd. Anledningen till att jag tar mig denna frihet är att t-fördelningen konvergerar mot<br />

(övergår i) normalfördelningen när stickprovsstorleken är stor (titta i t-tabellen så ser ni<br />

det!), och i de sammanhang vi kommer att använda dessa formler kommer n att vara stor<br />

nog för att detta ska gälla. Fördelen med denna förenkling är förstås att vi slipper fundera<br />

över antalet frihetsgrader i t-fördelningen.<br />

2<br />

s<br />

s<br />

1 Standardfel (i kursboken standard error) är det mått på standardavvikelse som vi använder när vi baserar<br />

skattningen på ett stickprov. I uttrycket för standardfelet ingår s, som är den vanliga standardavvikelsen.<br />

25


s, som ingår i standardfelet (se fotnot) är stickprovsstandardavvikelsen och beräknas som<br />

1<br />

2<br />

s = ∑(<br />

x − x)<br />

.<br />

n −1<br />

⎛ n ⎞<br />

Delen ⎜1 − ⎟ kallas för ändlighetskorrektion. Den ingår i ekvationen för att justera för<br />

⎝ N ⎠<br />

hur stor andel av populationen som vårt stickprov utgör. Ju större stickprovet är relativt<br />

populationen, desto säkrare blir förstås våra slutsatser. Det är inte alltid vi inkluderar ändlighetskorrektionen<br />

i beräkningen: i kursboken görs det exempelvis inte. Jag har valt att<br />

inkludera den i dessa ekvationer därför att (i) det är bra att känna till den och (ii) när ni<br />

arbetar med projektet kan ni prova på att använda den i praktiken (om ni känner populationsstorleken!)<br />

och se hur mycket den påverkar beräkningarna. När ska vi då använda<br />

den? Om N (= populationsstorleken) är känd så skadar det inte att inkludera ändlighetskorrektionen,<br />

annars använder vi den inte!<br />

Andelar och konfidensintervall<br />

Andelar kan vi beräkna när en fråga har ordinala eller nominala svarsalternativ:<br />

• Punktskattning för andel:<br />

antal _ som _ uppfyller _ egenskap<br />

pˆ =<br />

totalantalet<br />

• Standardfel för andel:<br />

pˆ(1<br />

− pˆ)<br />

⎛<br />

SE = ⎜1<br />

−<br />

n ⎝<br />

n<br />

N<br />

⎞<br />

⎟<br />

⎠<br />

• Konfidensintervall för andel:<br />

pˆ(1<br />

− pˆ)<br />

⎛<br />

pˆ<br />

± z ⎜1<br />

−<br />

n ⎝<br />

n<br />

N<br />

⎞<br />

⎟<br />

⎠<br />

där z är tabellvärde från normalfördelningen 2 .<br />

Information om<br />

• medelvärden, varians och standardavvikelse hittar vi i kursbokens kapitel 2<br />

• konfidensintervall för medelvärden i kapitel 14<br />

• andelar i kursbokens kapitel 20<br />

• konfidensintervall för medelvärden i kapitel 20.<br />

2 Kom ihåg att vi alltid, oavsett stickprovsstorlek, använder normalfördelningen när vi arbetar med andelar!<br />

26


3.2.5 Medelvärden, andelar och konfidensintervall vid stratifierat urval<br />

Låt oss nu anta att populationen är indelad i L strata med stratumstorlekarna N 1 , N 2 ,…,N L<br />

där N 1 + N 2 + … + N L = N (det vill säga, summan av de individuella stratumstorlekarna<br />

är den totala populationsstorleken). Enklaste fallet är då L = 2 och nedan redovisas teorin<br />

för detta.<br />

Så snart vi har gjort en uppdelning av populationen i L = 2 strata kan vi göra stickprov<br />

med hjälp av OSU från respektive strata. Närmare bestämt väljer vi med slumpens hjälp<br />

ut n 1 individer från stratum 1 (t ex n 1 män) och n 2 individer från stratum 2 (t ex n 2 kvinnor).<br />

I det första urvalet får vi medelvärdet x1och standardavvikelsen s 1 samt andelen ˆp<br />

1.<br />

I det andra urvalet får vi medelvärdet x2<br />

och standardavvikelsen s 2 samt andelen ˆp<br />

2<br />

.<br />

Baserat på denna information kan vi nu väga samman informationen från de två strata till<br />

en punktskattning av medelvärde för hela populationen, en punktskattning av andel för<br />

hela populationen samt korresponderande konfidensintervall:<br />

• Punktskattning av medelvärde:<br />

N1<br />

N<br />

2<br />

x STR<br />

= x1<br />

+ x2<br />

N N<br />

• Standardfel för medelvärde:<br />

2 2<br />

⎛ N1<br />

⎞ s ⎛<br />

⎜ ⎟<br />

1<br />

n<br />

=<br />

⎜ −<br />

1<br />

SE STR<br />

1<br />

⎝ N ⎠ n1<br />

⎝ N1<br />

⎞ ⎛ N<br />

⎟ + ⎜<br />

⎠ ⎝ N<br />

2<br />

⎞ ⎟<br />

⎠<br />

2<br />

s<br />

n<br />

2<br />

2<br />

2<br />

⎛ n<br />

⎜1<br />

−<br />

⎝ N<br />

2<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

• Konfidensintervall för medelvärde 3 :<br />

x STR<br />

± z<br />

⎛<br />

⎜<br />

⎝<br />

2<br />

N1<br />

⎞ ⎟<br />

N ⎠<br />

s<br />

n<br />

2<br />

1<br />

1<br />

⎛ n<br />

⎜1<br />

−<br />

⎝ N<br />

1<br />

1<br />

⎞ ⎛ N<br />

⎟ + ⎜<br />

⎠ ⎝ N<br />

2<br />

⎞ ⎟<br />

⎠<br />

2<br />

s<br />

n<br />

2<br />

2<br />

2<br />

⎛ n<br />

⎜1<br />

−<br />

⎝ N<br />

2<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

• Punktskattning av andel:<br />

N N<br />

1 2<br />

pˆ<br />

ˆ ˆ<br />

STR<br />

= p1<br />

+ p2<br />

N N<br />

• Standardfel för andel:<br />

SE STR<br />

=<br />

⎛<br />

⎜<br />

⎝<br />

N<br />

N<br />

1<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

pˆ<br />

1(1<br />

− pˆ<br />

1)<br />

⎛ n<br />

⎜1<br />

−<br />

n1<br />

⎝ N<br />

1<br />

1<br />

⎞ ⎛ N<br />

⎟ + ⎜<br />

⎠ ⎝ N<br />

2<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

pˆ<br />

2<br />

(1 − pˆ<br />

n<br />

2<br />

2<br />

) ⎛ n<br />

⎜1<br />

−<br />

⎝ N<br />

2<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

3 Återigen använder jag här z, dvs normalfördelningen. Detta baserat på samma argument som på sidan 25.<br />

27


• Konfidensintervall för andel:<br />

ˆ<br />

p STR<br />

± z<br />

⎛<br />

⎜<br />

⎝<br />

N<br />

N<br />

1<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

pˆ<br />

1(1<br />

− pˆ<br />

1)<br />

⎛ n<br />

⎜1<br />

−<br />

n1<br />

⎝ N<br />

1<br />

1<br />

⎞ ⎛ N<br />

⎟ + ⎜<br />

⎠ ⎝ N<br />

2<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

pˆ<br />

2<br />

(1 − pˆ<br />

n<br />

2<br />

2<br />

) ⎛ n<br />

⎜1<br />

−<br />

⎝ N<br />

2<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

Hur stort stickprov ska vi dra ur respektive strata?<br />

Hur ska vi då, när vi står inför att planera en undersökning, bestämma hur många individer<br />

som ska väljas ut ur respektive strata? Detta kallas för att välja allokering.<br />

Ofta väljer man proportionell allokering, där då stickprovsstorleken ur respektive strata<br />

baseras på hur stora strata är. Ur precisionssynpunkt bäst blir det dock om man även tar<br />

hänsyn till stratumspridningarna.<br />

Grovt sett kan man satsa på följande regler:<br />

• fler observationer ur större strata än ur mindre<br />

• fler observationer ur strata med större stratumvarians än ur strata med mindre<br />

stratumvarians<br />

• fler observationer ur strata där det är billigare att göra observationer än ur strata<br />

där det är dyrare att göra observationer.<br />

I situationer, där observationskostnaden är densamma i alla strata uppnås optimal allokering<br />

(minsta möjliga varians för punktskattningen) om urvalet allokeras proportionellt<br />

mot produkten av stratumstorlek och stratumstandardavvikelse. Om kostnaden för att<br />

göra observationer varierar kraftigt mellan olika strata bör hänsyn tas även till den, om<br />

optimal allokering skall uppnås.<br />

3.2.6 Korrelation (endast vid metrisk skala på bägge variablerna!)<br />

Om vi har två variabler med metrisk skala, kan vi ibland vilja beräkna korrelationskoefficienten<br />

mellan dem (kapitel 4 i kursboken).<br />

3.2.7 Regression (endast vid metrisk skala på bägge variablerna!)<br />

Vi kan också tänka oss att vi vill göra en regression av sambandet mellan två (metriska)<br />

variabler. Mer om regression kan vi läsa i kursbokens kapitel 5.<br />

3.2.8 Korstabeller (endast vid nominal- eller ordinalskala!)<br />

Hittills (korrelation och regression) har vi diskuterat hur vi kan analysera sambandet mellan<br />

två variabler på metrisk skala. Nu ska vi övergå till metoder för att analysera sambandet<br />

mellan två (kvalitativa) variabler som är på nominalskala eller ordinalskala.<br />

28


En korstabell (eller tvåvägstabell som det också kallas) är ungefär vad det låter som: på<br />

ena axeln i tabellen har vi de olika klasserna för den ena variabeln, på den andra axeln har<br />

vi klasserna för den andra variabeln. Anledningen till att det heter tvåvägstabell är just att<br />

vi har en tabell för två variabler. Inne i tabellen presenteras sedan antalet individer i varje<br />

grupp.<br />

Exempel:<br />

Borde SVT reklamfinansieras? 1198 slumpmässigt utvalda personer tillfrågades om detta.<br />

Samtidigt noterades om den svarande var kvinna eller man.<br />

Män<br />

Kvinnor<br />

Negativa 410 373<br />

Positiva 120 295<br />

Men detta är inte all information vi kan få från en tvåvägstabell – vi kan också ta fram<br />

vad som kallas marginalfördelningarna! Om vi summerar totalen för respektive variabel<br />

får vi fram marginalfördelningarna.<br />

Exempel (forts):<br />

Män Kvinnor Totalt<br />

Negativa 410 373 783<br />

Positiva 120 295 415<br />

Totalt 530 668 1198<br />

Ofta är dock procent ett bättre mått än absoluta tal för oss.<br />

Exempel (forts):<br />

Män Kvinnor Totalt<br />

Negativa 410 (77%) 373 (56%) 783<br />

Positiva 120 (23%) 295 (44%) 415<br />

Totalt 530 (100%) 668 (100%) 1198<br />

Vi noterar att vi lika gärna skulle ha kunnat räkna ut procentsatserna på andra axeln.<br />

Detta är ett logiskt övervägande – vilken blir lättast att tolka?<br />

Närmare bestämt konstaterar vi att procentsatserna som summerar till 100% för kvinnor<br />

och män kallas betingade fördelningar.<br />

Hur undersöker vi då om det finns något samband mellan två kvalitativa variabler? För<br />

kvantitativa variabler var det ju enkelt, tack vare att vi kunde rita scatterplottar eller genom<br />

att beräkna korrelationskoefficienten. För kvalitativa variabler handlar det istället<br />

om att beräkna procentsatser och dra slutsatser utifrån dem. Vi kan i detta sammanhang<br />

ofta vara hjälpta av att rita diagram för att undersöka svarsfördelningen mellan olika<br />

grupper.<br />

29


90<br />

%<br />

80<br />

Negativa<br />

70<br />

60<br />

Negativa<br />

50<br />

Positiva<br />

40<br />

30<br />

20<br />

Positiva<br />

10<br />

0<br />

Män<br />

Kvinnor<br />

Fig: Ska SVT reklamfinansieras? Diagrammet baserat på svar från 1198 slumpmässigt<br />

utvalda personer.<br />

Från detta diagram ser vi tydligt att en övervägande del av såväl kvinnorna som männen<br />

är negativa till reklamfinansiering av SVT, men att andelen negativa bland männen är<br />

större än bland kvinnorna.<br />

3.2.9 Chitvå-test (endast vid nominal- eller ordinalskala!)<br />

Tänk er att vi har en tvåvägstabell, och att vi vill göra ett test för att undersöka om det<br />

finns någon statistiskt signifikant skillnad mellan de olika grupperna. Vi använder oss då<br />

av chitvå-test (eller χ 2 -test som det också betecknas).<br />

Precis som vid andra test börjar vi med att ställa upp hypoteser.<br />

H 0 : det finns inga skillnader mellan grupperna/ inget samband finns mellan grupperna<br />

H 1 : skillnader finns/ samband finns<br />

Testvariabeln ser ut som följer:<br />

2 ( observerad _ frekvens − förväntad _<br />

χ = ∑<br />

förväntad _ frekvens<br />

frekvens)<br />

2<br />

30


Vi kan alltså tänka oss chi-tvåtestet som en jämförelse mellan vilka värden vi observerat<br />

och vilka värden vi hade kunnat förvänta oss om inga skillnader hade funnits mellan<br />

grupperna. Stora värden på testvariabeln är då ett bevis mot nollhypotesen.<br />

Vad är då observerad och förväntad frekvens? Jo, de beräknas för varje cell i tabellen<br />

som<br />

Förväntad frekvens = (radtotal*kolumntotal)/total<br />

Vi fortsätter med samma exempel.<br />

Exempel (fortsättning):<br />

Finns det statistiskt signifikanta skillnader mellan kvinnor och män i fråga om hur SVT<br />

ska finansieras på 5% signifikansnivå?<br />

H 0 : Inga skillnader finns mellan kvinnor och män i fråga om SVT:s finansiering<br />

H 1 : Skillnader finns<br />

Män Kvinnor Total<br />

Negativa 410 (530*783)/1198 373 437 783<br />

= 346<br />

Positiva 120 184 295 231 415<br />

Total 530 668 1198<br />

(Förväntade frekvenser med fetstil).<br />

Chi-två-värdet kan då räknas ut som<br />

2<br />

χ<br />

(410 − 346)<br />

=<br />

346<br />

2<br />

(373 − 437)<br />

+<br />

437<br />

2<br />

(295 − 231)<br />

+ ... +<br />

231<br />

2<br />

= 61.2<br />

Hur vet vi om nollhypotesen ska förkastas eller ej?<br />

Vi måste då använda oss av en chitvåtabell (kursboken sidan 692), alternativt tittar vi på<br />

p-värdet från utskriften om vi gjort testet i Excel eller Minitab. Som vi ser i en chitvåtabell<br />

definieras chitvåfördelningen av antalet frihetsgrader. Dessa räknar vi ut som<br />

(antalet rader - 1) * (antalet kolumner - 1).<br />

Exempel (fortsättning):<br />

(2-1)(2-1) = 1 Vi hittar värdet 3,84<br />

61,2 > 3,84 => H 0 kan förkastas! Det finns följaktligen signifikanta skillnader mellan<br />

grupperna.<br />

När kan vi då använda chitvåtestet? Kravet är att<br />

1. max 20% av de förväntade frekvenserna är mindre än 5 och<br />

2. att alla förväntade frekvenser är större än 1.<br />

31


Om dessa krav inte uppfylls, vilket ofta inträffar när vi har en enkät med många svarsalternativ<br />

men få respondenter, måste vi slå samman flera svarsalternativ.<br />

3.3 Del III: Enkätens konstruktion och kodning<br />

3.3.1 Att formulera ett frågeformulär<br />

Filen Exempel på statistisk rapport på kurshemsidan innehåller en exempelenkät. Ha<br />

denna i åtanke när du läser följande kapitel.<br />

Nedan följer 11 minnesregler för utformning av enkäter. Tänk dock på att det inte finns<br />

en enda strategi för att utforma en enkät. Varje enkät är unik och intimt kopplad till problemställningen.<br />

1. Eftersträva enkelhet i frågorna. Tänk på att skriva korta frågor.<br />

2. Håll nere antalet frågor. Man tröttnar fort på att fylla i enkäter.<br />

3. Ställ bara frågor som konkretiserar problemställningen. Ställ aldrig några onödiga<br />

frågor, och ställ heller aldrig fler bakgrundsfrågor (kön, ålder, och liknande) än<br />

vad som verkligen behövs.<br />

4. Formulera varje fråga så tydligt som möjligt. Var nästintill naiv i språket.<br />

5. Se till att det finns svarsalternativ för samtliga tänkbara åsikter på varje fråga.<br />

Detta kräver ofta ett alternativ av typen ”Vet ej”.<br />

6. Använd minst en fråga med öppet svarsalternativ. Syftet med detta är naturligtvis<br />

att respondenten ska få möjlighet att ”skriva av sig”. Vi kan även hantera denna<br />

information statistiskt: om flera respondenter skrivit samma sak kan vi beräkna<br />

andelen som gett detta svar.<br />

7. Undvik att be respondenten att rangordna alternativ (frågor av typen sätt en etta<br />

på det tvättmedel du helst köper, en tvåa på det som du näst helst köper osv).<br />

Tänk igenom om ni själva verkligen kan rangordna de alternativ som ges. Det är<br />

ofta svårt. Dessutom krånglar rangordning till de statistiska analyserna.<br />

8. Undvik att låta respondenten ”hoppa” för mycket i enkäten (du som svarat ”Nej”<br />

på fråga 12, gå till fråga 15). Dela hellre upp enkäten så att man successivt ”betar<br />

av” respondenterna efter hur de indelas av enkätfrågorna.<br />

9. Formulera alltid frågorna neutralt. Undvik ledande frågor!<br />

32


10. Undvik hypotetiska frågor. Det är svårt för en respondent att sätta sig in i en situation<br />

på det sätt ni som undersökare vill.<br />

11. Vid frågor som rör attityder, se till att skalan alltid går åt samma håll (t ex alltid<br />

från positivt till negativt).<br />

Till en enkät skall alltid följeinformation finnas. Till postenkäter bifogas ett introduktionsbrev<br />

eller följebrev av vilket skall framgå:<br />

• Vem som har skickat enkäten (och på vems uppdrag)<br />

• Vad undersökningen handlar om<br />

• Varför det finns identifikationsnummer (om sådana finns. Identifikationsnummer<br />

används ofta vid postenkäter, för att vi ska veta vilka som har besvarat enkäten<br />

och vilka som behöver få en påminnelse).<br />

• Var, när och hur man kan ta del av resultaten av undersökningen<br />

• Vem man skall vända sig till (namn och telefonnummer) om man har problem att<br />

fylla i enkäten.<br />

Webbenkäter kan förses med motsvarande introduktionsbrev och vid telefonintervjuer<br />

eller på-stanundersökningar ges muntlig information av liknande slag.<br />

Generellt är principen för konstruktion av frågeformulär att vi börjar med enkla bakgrundsfrågor.<br />

Tänk i detta sammanhang också på att aldrig utlova anonymitet i studien –<br />

för det kan vi aldrig garantera. Däremot kan och bör vi se till att de ifyllda enkäterna hanteras<br />

konfidentiellt, och detta kan vi också skriva i introduktionsbrevet.<br />

För projektet i denna kurs skull är det lagom med cirka 10-12 frågor, inklusive några<br />

bakgrundsfrågor.<br />

3.3.2 Kodning<br />

Det finns olika skolor för hur man kodar besvarade enkäter, och den som kodar har<br />

mycket stora valmöjligheter. Börja alltid, när ni sitter med bunten med ifyllda enkäter<br />

framför er, med att tilldela varje enkät ett löpnummer. Detta löpnummer skriver<br />

vi också in i första kolumnen i Excel när vi kodar. På så sätt är det lätt att gå tillbaka och<br />

spåra eventuella fel.<br />

Nedan följer ett antal exempel på frågor, och hur dessa på ett lämpligt sätt kodas.<br />

Exempel 1: Fråga med endast två svarsalternativ.<br />

Äger du något motorfordon?<br />

( ) Ja ( ) Nej<br />

En fråga av denna typ kodas bäst som 1 och 0: 1 för ja och 0 för nej. Generellt gäller för<br />

frågor med endast två svarsalternativ att de lämpligtvis kodas med 0 och 1 (dvs inte med<br />

1 och 2, som en stor del av litteraturen föreslår).<br />

33


Exempel 2: Fråga med många svarsalternativ, men det är endast tillåtet att fylla i ett<br />

enda svarsalternativ på frågan.<br />

Hur reser du oftast till Göteborg idag?<br />

( ) Med buss och byten mellan olika bussar<br />

( ) Med tåg och byten mellan olika tåg<br />

( ) Med buss och tåg och lämpliga byten<br />

( ) Med bil (egen bil eller samåkning med andra)<br />

( ) Med flyg<br />

( ) På annat sätt än ovanstående<br />

Koda alternativen med siffrorna 1, 2, 3, 4, 5 och 6.<br />

Exempel 3: Fråga med många svarsalternativ, där det är tillåtet att fylla i flera alternativ.<br />

Hur reser du till Göteborg idag? (Flera svarsalternativ får ges)<br />

( ) Med buss<br />

( ) Med tåg<br />

( ) Med bil (egen bil eller samåkning)<br />

( ) Med flyg<br />

( ) På annat sätt än ovanstående<br />

Här är det lämpligt att låta varje svarsalternativ utgöra en egen kolumn i Excel när vi<br />

kodar, och om respondenten valt ett specifikt alternativ får det koden 1, annars koden 0.<br />

Exempel 4: Attitydfrågor ges ofta med svarsskalor av typen<br />

Mycket positiv ( ) ( ) ( ) ( ) ( ) Mycket negativ<br />

Instämmer inte alls ( ) ( ) ( ) ( ) Instämmer helt och hållet<br />

Svarsstegen kodas med värdena 1, 2, 3,… beroende på hur många skalsteg som finns. I<br />

anslutning till denna typ av svarsalternativ bör vi tänka på att alltid ha ett udda antal rutor,<br />

fem brukar vara lagom. Syftet med detta är att vi vill ha ett neutralt mittalternativ.<br />

Exempel 5: Frekvensfrågor<br />

Jag reser till Göteborg<br />

( ) mindre än en gång per år<br />

( ) 1-6 gånger per år<br />

( ) nästan varje månad<br />

( ) 1-3 gånger per månad<br />

( ) 1-3 gånger per vecka<br />

( ) varje dag eller nästan varje dag<br />

Svarsstegen kodas med värdena 1, 2, 3, ... beroende på hur många skalsteg som finns.<br />

Exempel 6: Som tidigare konstaterats bör frågor där vi ber respondenten att rangordna<br />

svarsalternativ undvikas men om vi ändå väljer sådana svarsalternativ gäller: I frågan<br />

34


skall tydligt framgå hur ranger skall sättas, dvs vad ”1” står för och vad t ex ”5” står för<br />

om det är fem svarsalternativ. Sedan kodar vi helt enkelt så som respondenten har skrivit.<br />

Exempel 7: Hur gammal är du? ______________<br />

Här blir koden helt enkelt den ålder som respondenten uppgett.<br />

3.3.3 Kodning av saknade svar<br />

Om svar saknas på en fråga där respondenten förutsätts svara brukar koden i de flesta statistiska<br />

dataprogram vara *. Programmen kan nämligen hantera denna kod och bortser<br />

automatiskt från detta svar vid statistiska beräkningar. I Excel som vi använder är emellertid<br />

den bästa metoden att helt enkelt lämna cellen tom. Om vi kopierar över materialet<br />

till Minitab ersätts de tomma cellerna automatiskt med *.<br />

Om svar saknas på en fråga där respondenten inte förutsätts svara (kallas legalt bortfall)<br />

sätts en speciell bortfallskod. Denna väljer man ofta till ett stort negativt tal som ligger<br />

långt borta från de vanliga siffrorna man kodar med. Ett vanligt exempel är av någon anledning<br />

värdet −49.<br />

Exempel:<br />

Fråga 4: Reser du med buss när du reser till Göteborg?<br />

( ) Ja ( ) Nej<br />

Fråga 5: Om du svarat Nej på föregående fråga, fortsätt till fråga 6<br />

Vilket bussbolag reser du oftast med vid starten från Linköping?<br />

( ) WeekendBus ( ) CrossSwede ( ) Annat, nämligen ____________<br />

Om respondenten svarat Nej på fråga 4 skall inget svar ges på fråga 5. Bortfallet är då<br />

legalt och kodas med −49<br />

3.3.4 Bortfall<br />

I undersökningar där vi baserar analysen på data insamlade via enkäter eller intervjuer –<br />

t ex opinionsundersökningar och olika typer av marknadsundersökningar – uppstår så<br />

gott som alltid bortfall. Bortfall uppstår genom att personer, som utvalts att ingå i undersökningen,<br />

ej ger upphov till användbara svar. Vanligen tänker man i första hand på det<br />

som skulle kunna kallas totalbortfallet, d v s icke inlämnade enkäter eller intervjuer som<br />

ej kunnat genomföras.<br />

Vi skiljer på två typer av bortfall:<br />

35


1. Totalbortfall: Enkäten har inte besvarats alls<br />

2. Partiellt bortfall (kallas också informulärsbortfall): En eller flera av frågorna på<br />

enkäten har inte besvarats<br />

Bortfall är ett stort problem som kan förskjuta slutsatserna från vår undersökning på ett<br />

allvarligt sätt. Noggrant planerade undersökningar där dimensionering av urvalsstorlek<br />

gjorts enligt konstens alla regler och förberedelser för långtgående analyser finns kan falla<br />

helt och hållet till följd av stort totalbortfall. Bortfall inträffar ofta på frågor av känslig<br />

karaktär.<br />

Bortfall mäts i termen svarsprocent, vilket definieras som<br />

Totalt _ antal _ som _ s var at<br />

S var sprocent =<br />

× 100<br />

Totala _ antalet _ enheter _ i _ det_ ursprungliga _ urvalet<br />

Bortfallsprocenten blir då förstås 100 – svarsprocenten.<br />

Vad är då stort bortfall?<br />

Inga tumregler finns egentligen, men bortfall över 20% brukar ge stora problem.<br />

Varför är bortfall ett problem?<br />

Först kan vi se att bortfall inte vore något allvarligt problem om de som inte svarar liknar<br />

dom som svarar ur för undersökningen viktiga frågor. Emellertid finns det ofta anledning<br />

att tro att så inte är fallet. Vi tar ett par enkla exempel:<br />

• Man vill uppskatta den potentiella marknaden för en ny produkt med hjälp av en<br />

marknadsundersökning av enkättyp. Det visar sig att 40 % av dem, som svarar<br />

uppger att de har behov av den nya produkten. Om detta resultat kunde appliceras<br />

på populationen konsumenter (antag att det handlar om 100 tusen) skulle god<br />

lönsamhet kunna uppnås för den nya produkten. Emellertid är det ett stort antal<br />

av de utvalda personerna som avstår från att svara. Erfarenheten talar för att icke<br />

intresserade är överrepresenterade bland dem som inte svarar.<br />

• Man vill uppskatta den genomsnittliga alkoholkonsumtionen bland vuxna med<br />

hjälp av en enkätundersökning. Mycket talar för att storkonsumenterna i större<br />

utsträckning än andra kommer att avstå från att svara och att man därför får en<br />

underskattning om man applicerar svararnas uppgifter på hela populationen.<br />

Vad kan vi göra åt bortfall?<br />

Ja, först försöker man förstås få bortfallet litet genom en god planering och ett noggrant<br />

genomförande av undersökningen. Det är viktigt med ett bra och tydligt frågeformulär,<br />

som inte är alltför långt, och ett bra följebrev. Och man bör i normalfallet försöka göra<br />

påminnelser, åtminstone en gång.<br />

36


Men vad gör man sedan när man ändå har fått ett bortfall. Nedan följer ett antal tänkbara<br />

åtgärder från mindre lämpliga till mer lämpliga.<br />

• Vanligt är att man låtsas som det regnar och helt bortser från bortfallet, efter ett<br />

konstaterande av typen att ”bortfallet är bara xx % och eftersom svarandeprocenten<br />

alltså är hög så anser vi att resultaten är statistiskt korrekta” (eller något liknande).<br />

Detta är nästan alltid olämpligt, om inte bortfallet är väldigt litet.<br />

• Man ersätter den icke svarande med en mer svarsbenägen (kallas ibland för substitution).<br />

Detta är oftast det sätt man använder när man gör ett på stan-urval.<br />

• Man undersöker hur bortfallet ser ut med avseende på kända faktorer och funderar<br />

kring vilken effekt det kan tänkas ha. Låt oss som exempel anta att man vill undersöka<br />

dagens attityd till avveckling av kärnkraften med hjälp av en postenkät.<br />

Låt oss också anta att man genom tidigare undersökningar funnit att kvinnor är<br />

mer positiva till en snabb avveckling än män. Om männen blir kraftigt överrepresenterade<br />

i bortfallet skulle man kanske snarast luta åt slutsatsen att den skattning<br />

vi får när vi ser på enbart de svarande snarast är en överskattning av andelen positiva.<br />

• Man gör kalkyler med hjälp av antaganden om bortfallet. Ett exempel ges i övning<br />

4:b och i inlämningsuppgift 9).<br />

• Man försöker skaffa information från bortfallet med mer krävande metoder t ex<br />

genom personlig intervju sedan man misslyckats att få svar via postenkät. Man<br />

väljer då ut en mindre del av bortfallet slumpmässigt och sätter till alla klutar för<br />

att få svar: Om man exempelvis vill skatta medelvärdet i en population med ett<br />

konfidensintervall så låter man det lilla urvalet ur bortfallet representera hela bortfallet<br />

och genom vägning (tänk stratifiering!) bildar man en punktskattning och en<br />

felmarginal, där alltså hänsyn tas till bortfallet.<br />

3.3.5 Kort om analys av insamlat datamaterial<br />

Analys av enkätdata kan göras på flera nivåer. En ”komplexitetsgradering” av dessa är<br />

följande:<br />

1. Tabeller, diagram och beskrivande mått<br />

2. Konfidensintervall/hypotesprövning för intressanta storheter (medeltal, andelar,<br />

totalsummor)<br />

3. Jämförelser mellan parametrar med konfidensintervall/hypotesprövning<br />

4. Analys av samband mellan olika frågor på ordinal- eller nominalskala genom χ2-<br />

test<br />

5. Analys av samband mellan olika frågor på metrisk skala med korrelationsmått och<br />

regressionsanalys<br />

37


3.4 Sammanfattningsvis: att göra en statistisk undersökning<br />

Grovt sett, skulle vi kunna säga att det finns 11 steg att gå igenom när vi ska göra en statistisk<br />

undersökning.<br />

1. Första steget när vi ska göra en statistisk undersökning, liksom vid varje typ av<br />

studie, är att formulera syfte. Syftet kan vi sedan bryta ned i några konkreta punkter,<br />

som utgör vår problemformulering. Detta kallas operationalisering.<br />

För att lyckas med en statistisk undersökning, ställs höga krav på frågorna vi ställer.<br />

Närmare bestämt måste vi<br />

• Konstruera frågor som alla kan besvara<br />

• Konstruera svarsalternativ som tolkas entydigt<br />

• Välja skalor på svarsalternativen så att tillräcklig information erhålls<br />

Alla undersökta enheter (individer) hanteras på samma sätt: vi är inte intresserade<br />

av vad en specifik individ tycker eftersom vi vill dra slutsatser om populationen.<br />

Kontakten med individerna sker genom likadana enkäter, i motsats till den kvalitativa<br />

ansatsens djupintervjuer där varje intervju blir unik och där inriktningen<br />

under intervjuns gång kan ändras.<br />

2. Definiera målpopulation för undersökningen och omsätt målpopulationen i en<br />

rampopulation, som utgörs av de individer som vi faktiskt vet existerar och som<br />

vi kan få tag i. Rampopulationen kan exempelvis vara ett register såsom folkbokföringen.<br />

3. Välj om undersökningen skall göras som totalundersökning, där samtliga enheter<br />

i populationen skall ingå, eller som en urvalsundersökning, i vilken endast ett urval<br />

av enheter undersöks. Detta är oftast en kostnadsfråga, samt en fråga om det<br />

faktiskt är möjligt att få tag i alla individer som ingår i rampopulationen.<br />

Om vi bestämmer oss för en urvalsundersökning, vilket är det vanligaste, så måste<br />

vi välja urvalsdesign med utgångspunkt från målpopulationens utseende.<br />

§ Homogen målpopulation Ł OSU<br />

§ Heterogen målpopulation Ł Stratifiering<br />

Vi måste också välja stickprovsstorlek. Denna bestämts framförallt av tillgänglig<br />

tid och budget, men i egenskap av att vara den som genomför undersökningen är<br />

det dessutom viktigt att väga in hur stor precision vi vill uppnå i slutsatserna, det<br />

vill säga bredd hos konfidensintervallen.<br />

4. Välj mätinstrument för frågor:<br />

• Postenkät (”+”: billig, enkel, ”−”: tidskrävande, stor bortfallsrisk)<br />

• Webbenkät (”+”: billig, snabb, ”−”: svårigheter med population)<br />

• Telefonintervju (”+”: snabb, ”−”: dyr)<br />

• Besöksintervju (”+”: säker, ”−”: mycket dyr)<br />

• På stan-undersökning (”+”: billig, enkel, snabb, ”-”: svårt att hantera bortfall)<br />

38


5. Utforma frågeformuläret. I detta steg av undersökningen vill vi göra om abstrakta<br />

begrepp och funderingar till något mätbart.<br />

Börja med att fundera på vilken typ av analyser som vi vill kunna göra. Vill vi<br />

göra hypotesprövning och dra slutsatser genom konfidensintervall? Då krävs det<br />

att vi har frågor som passar till detta. Framförallt gäller att om vi vill kunna göra<br />

regressionsanalyser för att hitta samband, så måste vi skapa frågor där den svarande<br />

själv får skriva in siffror. Hypotesprövningar och konfidensintervall kan vi<br />

bilda utifrån kvalitativa variabler, men då måste vi komma ihåg att vi ska räkna på<br />

andelar.<br />

Vi måste också fundera över undersökningens inriktning:<br />

• Explorativ (för kunskapsbildning på området)<br />

• Deskriptiv (för kartläggning av fakta och enkla samband)<br />

• Förklarande (för detaljinformation om samband)<br />

• Prediktiv (för att skapa underlag för prognoser)<br />

Vi lägger sedan till bakgrundsfrågor om enheterna, som behövs för att samband<br />

skall kunna analyseras (t ex kön, ålder, bostadsort etc.). Lägg inte till bakgrundsfrågor<br />

som inte skall användas!<br />

Slutligen prövar vi vårt frågeformulär på ett litet antal försökspersoner – vi gör en<br />

så kallad pilotstudie.<br />

6. Genomför datainsamling.<br />

7. Koda svaren i enkäterna enligt en kodningsmall och mata in svaren på fil i ett datorprogram<br />

(Excel, Minitab etc.). Lämpligt format är att varje enhet (individ) motsvarar<br />

en rad och varje fråga/delfråga en kolumn.<br />

8. Analysera data statistiskt med utgångspunkt från vilken skala respektive fråga har.<br />

Gör tabeller, diagram, punktskattningar, konfidensintervall, χ2-test, ev, korrelationsberäkningar<br />

och enkla regressionsmodeller.<br />

Givet att vi inte gjort en totalundersökning, är det här viktigt att komma ihåg att vi<br />

faktiskt räknar på resultaten av ett stickprov, men vill dra slutsatser om en population.<br />

9. Analysera resultaten med den referensram som utarbetats för problemområdet.<br />

10. Sammanfatta resultaten av analyserna i konkreta slutsatser och ge förslag till<br />

handlingsprogram utifrån slutsatserna.<br />

11. Ge självkritik<br />

Som vi noterar av ovanstående, ligger en mycket stor del – huvuddelen – av arbetet med<br />

en statistisk undersökning i förberedelser innan datainsamlingen sker. Detta kommer sig<br />

39


av att vi arbetar med standardiserade frågeformulär, som gör det oerhört viktigt att alla<br />

svarsalternativ finns med redan från början.<br />

40


4. Seminarieuppgifter<br />

Kapitelindelningen ansluter till veckobreven (1, 2 o.s.v.) Observera att de numeriska<br />

uppgifterna i normalfallet är påhittade av författaren om det inte tydligt framgår att data<br />

hämtats från en extern källa. Detta gäller för övrigt såväl seminarie- som inlämningsoch<br />

övningsuppgifter.<br />

4.1 Seminarium 1<br />

Uppgift 1:A<br />

Här presenteras data rörande hushållsstorlek (antal personer i hushållet) för de 40 hushåll<br />

som bor i ett visst villaområde:<br />

2 6 4 6 3 4 4 4 4 4 3 7 4 4 5 5 2<br />

5 3 3 5 3 4 5 5 3 6 2 4 4 3 5 1 4<br />

5 4 5 1 5 4<br />

1. Beskriv materialet i en enkel frekvenstabell med såväl absoluta, som relativa frekvenser<br />

och absoluta och relativa kumulerade frekvenser.<br />

2. Beskriv materialet i ett stolpdiagram.<br />

3. Beskriv materialet i ett lådagram.<br />

4. Beräkna medelvärde, varians och standardavvikelse i materialet.<br />

5. Beräkna andelen observationer som är större än 5. Beräkna också andelen observationer<br />

som är större än eller lika med 5.<br />

6. Approximera fördelningen med en normalfördelning med medelvärde och standardavvikelse<br />

som i det faktiska materialet. Beräkna nu utifrån normalfördelningen andelen<br />

av observationerna, som har värden som är större än 5 (med hjälp av normalfördelningstabellen<br />

i boken) respektive större än eller lika med 5. Jämför med resultatet<br />

enligt pkt 5.<br />

7. Som i föregående uppgift men beräkna andelen av observationerna, som har värden<br />

som är mindre än 4 respektive motsvarande andel som har värden mindre än eller lika<br />

med 4. Jämför med motsvarande andelar i det faktiska datamaterialet.<br />

8. I de två föregående punkterna har man jämfört det faktiska datamaterialet med den<br />

approximerande normalfördelningen. Fundera kring vad som egentligen är problemet<br />

och försök tänka ut något sätt att hantera det.<br />

9. Beräkna (med hjälp av normalfördelningsapproximationen) den 90:e percentilen i materialet<br />

(använd alltså normalfördelningstabellen). Jämför med värdet på 90:e percentilen<br />

som man får om man räknar på de 40 observationerna.<br />

Här presenteras nu elförbrukningen i 1000-tal kilowattimmar för de 40 hushållen från A.<br />

9 27 16 22 14 24 24 22 19 21 14 31 19 18 22 15 11<br />

16 13 17 22 14 17 15 24 15 32 12 26 21 22 31 10 25<br />

22 16 12 10 19 11<br />

41


10. Beskriv materialet av elförbrukningsobservationer i ett stam- och blad-diagram.<br />

11. Beräkna medianen.<br />

12. Klassindela materialet i fem klasser och beskriv det klassindelade materialet i en tabell<br />

och i ett histogram.<br />

Uppgift 1:B<br />

Tio slumpmässigt utvalda högskolestuderande med praktikarbete sommaren 2007 beskrivs<br />

med avseende på X: antal studieår vi högskola och Y: månadslön under sommaren<br />

i tkr<br />

Följande data föreligger (x,y):<br />

Person nr 1 2 3 4 5 6 7 8 9 10<br />

(1, 11) (2, 11) (2, 14) (3, 12) (3, 14) (3, 16) (4, 13) (4,14) (4,15) (4, 18)<br />

1. Beskriv materialet i ett spridningsdiagram.<br />

2. Beräkna a respektive b enligt regressionsekvationen y = a + bx .<br />

3. Rita in regressionslinjen i diagrammet.<br />

4. Beräkna korrelationskoefficienten r mellan x och y.<br />

5. Bestäm ”förklaringsgraden” (r-kvadrat).<br />

6. Ta fram residualerna och beskriv dem på lämpligt sätt.<br />

7. Sammanfatta vad man kan säga om sambandet mellan studietid och månadslön.<br />

Uppgift 1:C<br />

Man har i en kommun gjort en studie av kostnaderna för färdtjänst. I kommunen finns<br />

3800 färdtjänstberättigade personer. Personerna delas in i sex grupper efter kön och var i<br />

kommunen som man bor. I tabellen nedan redovisas den genomsnittliga kostnaden per<br />

person för färdtjänst under en vecka under hösten i år.<br />

Genomsnittlig kostnad per person den aktuella veckan<br />

Boende Kvinnor Män<br />

Centralt i tätorten 82 kr 80 kr<br />

I utkanten av tätorten 130 kr 120 kr<br />

På landet 162 kr 160 kr<br />

Av tabellen nedan framgår hur de 3800 personerna fördelar sig på de sex grupperna.<br />

Boende Kvinnor Män<br />

Centralt i tätorten 1700 280<br />

I utkanten av tätorten 500 220<br />

På landet 300 800<br />

Totalt 2500 1300<br />

1. Beskriv var och en av de två tabellerna med avseende på om den är en frekvens- eller<br />

en kvottabell, respektive hur mångvägsindelad den är.<br />

2. Beskriv med hjälp av den andra tabellen marginalfördelningen för boende med såväl<br />

absoluta som relativa frekvenser.<br />

3. Beskriv de betingade fördelningarna för boende bland kvinnor respektive bland män<br />

med relativa frekvenser. Respektive kolumn skall alltså summera till 100 procent.<br />

42


4. Beräkna med hjälp av uppgifterna i de båda tabellerna den genomsnittliga kostnaden<br />

för färdtjänst (medeltalet) för kvinnor respektive för män under den aktuella veckan.<br />

5. Beräkna standardvägda medeltal för färdtjänstkostnaden för män respektive kvinnor<br />

den aktuella veckan. Använd standardvikter proportionella mot totala antalet personers<br />

fördelning på boende.<br />

Ledning: Innebörden i detta är att man tänker sig att såväl kvinnorna som männen fördelar sig på<br />

boende som samtliga 3800 personer tillsammans. Läs mer i kompendiet sid 1-14.<br />

6. Jämför kostnaden för kvinnor och män med ledning av dels de båda medeltalen från<br />

4 och dels de båda standardvägda medeltalen från 5 ovan. Försök att förklara varför<br />

de båda könsjämförelserna blir olika.<br />

4.2 Seminarium 2<br />

Uppgift 2:A<br />

Givet är en population med sex element med följande värden på variabeln X:<br />

2 4 4 6 10 16<br />

1. Beräkna medelvärde och standardavvikelse i populationen.<br />

Tänk er nu att man gör ett slumpmässigt urval om n=2 element ur populationen, med lika<br />

sannolikheter och med återläggning mellan dragningarna och bildar urvalsmedeltalet x .<br />

2. Ta fram samplingfördelningen för x genom att dra alla möjliga urval om n=2 enligt<br />

beskrivningen ovan.<br />

3. Beskriv samplingfördelningen i ett stolpdiagram.<br />

4. Beräkna medelvärde och standardavvikelse i samplingfördelningen.<br />

Ledning: Tanken är alltså att man skall räkna ut medelvärde och standardavvikelse bland de x - värden<br />

som man tagit fram i pkt 2 ovan.<br />

5. Undersök/visa att de relationer mellan populationsparametrarna och motsvarande parametrar<br />

i samplingfördelningen för x som enligt litteratur bör gälla faktiskt också<br />

gäller.<br />

6. Är x en unbiased estimator av populationsmedelvärdet?<br />

Uppgift 2:B<br />

Man kastar en röd sexsidig tärning med sidor markerade på ”vanligt” sätt med ett, två,<br />

tre, fyra, fem respektive sex ögon och registrerar antalet ögon upp. Följande händelser<br />

definieras:<br />

A: Minst 4 ”ögon” upp (4, 5, 6) och B: Udda antal ”ögon” upp (1, 3, 5).<br />

Ledning: Använd Dig gärna av Venn-diagram, när Du skall ta ställning till de följande frågorna.<br />

1. Beskriv försökets utfallsrum och de båda händelserna.<br />

2. Bestäm sannolikheterna P(A) och P(B).<br />

3. Bestäm sannolikheterna för komplementhändelserna ”icke-A” och ”icke-B”.<br />

Ledning: Lägg märke till att ”icke-A” är lika med ”Högst tre ögon upp” medan ”icke-B” motsvarar<br />

”Jämnt antal ögon upp”.<br />

43


4. Är A och B oförenliga (disjoint) händelser? Undersök.<br />

5. Är A och B oberoende (independent) händelser? Undersök.<br />

6. Bilda nu slumpvariabeln X som ”antal ögon i ett kast” och beskriv dess sannolikhetsfördelning<br />

i en tabell och i ett diagram.<br />

7. Beräkna förväntat värde/väntevärde (medeltal), varians och standardavvikelse för<br />

slumpvariabeln X.<br />

Man kastar nu två tärningar, vår tidigare röda och en likadan men grön. Beteckna antalet<br />

ögon upp på röd tärning med X och antalet ögon upp på grön tärning med Y. Man bildar<br />

slumpvariabeln ”summan av antalet ögon upp på de två tärningarna” W, d.v.s. W=X+Y<br />

och definierar händelsen C: minst 10 ögon upp.<br />

8. Beskriv försökets utfallsrum och händelsen och bestäm sannolikheten för händelsen<br />

C.<br />

9. Beräkna väntevärde (medelvärde), varians och standardavvikelse för slumpvariabeln<br />

W.<br />

Uppgift 2:C<br />

Vår population utgörs av samtliga småföretag. Vi studerar kostnaderna för sjukfrånvaro,<br />

varabeln X, under en viss period (i tusental kronor). Vi tror att den genomsnittliga kostnaden<br />

(µ) är 60 tkr per företag och att standardavvikelsen (σ) är 16 tkr och arbetar därför<br />

med följande antagande: Det gäller faktiskt att (µ = 60 och σ = 16).<br />

1. Vi gör Obundet Slumpmässigt Urval (OSU, engelska SRS) om n = 400 företag ur<br />

den mycket stora populationen och beräknar urvalsmedeltalet, x . Vad kan vi säga<br />

om fördelningen (samplingfördelningen) för x (enligt Centrala gränsvärdessatsen,<br />

Central limit theorem)?<br />

2. Vad blir väntevärde (medelvärde) och standardavvikelse i samplingfördelningen<br />

för x .<br />

3. Hur stor är sannolikheten att vårt observerade värde på x hamnar mellan 58.43<br />

och 61.57?<br />

4. Om det skulle visa sig att vårt antagande är felaktigt, hur skulle då resultaten under<br />

punkterna 1-3 påverkas?<br />

Uppgift 2:D<br />

Ett livsmedelsföretag saluför bland annat nötkärnor i 100-gramspåsar. Nötpåsarna levereras<br />

till grossist i lådor om 1200 påsar. En grossist mottar en låda nötpåsar. Låt påsvikten<br />

betecknas med X. Vi antar att de 1200 påsvikterna i lådan kan betraktas som N(100, 1.5).<br />

1. Beräkna hur stor andel av nötpåsarna som väger mindre än 99 gram.<br />

2. Hur stor är chansen att en slumpmässigt vald nötpåse ur lådan väger mindre än 99<br />

gram.<br />

3. Om grossisten slumpmässigt väljer två nötpåsar ur lådan, hur stor är då chansen att<br />

båda väger mindre än 99 gram.<br />

Vi återgår till företaget som saluför nötkärnorna. Man har där ett behov av att kontrollera<br />

44


att produktionsprocessen fungerar bra och genomför följande kontrollåtgärd. Ur varje<br />

låda<br />

som skall säljas väljer man slumpmässigt 10 påsar bland de 1200 och beräknar medelvikten,<br />

x . Om x avviker från µ (100 gram) med mer än 1 gram så kasseras hela lådan.<br />

Ledning: Vi antar här liksom i pkt 3. ovan, att vi kan betrakta resultaten av de olika dragningarna som<br />

oberoende observationer. Här är detta antagande mer tveksamt än i pkt 3. Varför?<br />

4. Beräkna chansen att en låda kasseras givet att det faktiskt gäller att µ = 100 g och σ =<br />

1.5 g.<br />

Företaget vill inte förkasta mer än högst 2 % av de korrekta lådorna (µ =100 och σ = 1.5).<br />

Vi har sett (föregående uppgift) att om man kräver att avvikelsen skall vara högst 1 gram<br />

så kommer en högre andel att förkastas.<br />

5. Beräkna storleken på den avvikelse som man måste acceptera om högst 2% av de<br />

korrekta lådorna skall förkastas.<br />

Samtidigt som man vill ha en liten chans (risk) att förkasta en korrekt låda så vill man att<br />

chansen skall vara hög att förkasta en låda som inte är korrekt. Antag att i en låda är<br />

µ =103 g och σ =1.5 g. Lådan är alltså ej korrekt eftersom µ är för stort.<br />

6. Hur stor är chansen att man skall kassera lådan om det tidigare kravet om en avvikelse<br />

på högst 1 gram gäller.<br />

Ledning: Man kasserar alltså lådan om medelvikten av de 10 utvalda påsarna är mindre än 99 gram<br />

eller mer än 101 gram.<br />

7. Hur stor är risken att lådan i punkten ovan inte kommer att förkastas.<br />

4.3 Seminarium 3<br />

Uppgift 3:A<br />

Vi återvänder nu till den population med sex element som användes i uppgift 2:A. Vi delar<br />

nu in populationen i två strata (delar/delpopulationer) med de fyra minsta värdena,<br />

nämligen 2 4 4 6, i ett stratum och de två största, 10 16, i ett. Tänk er sedan att man väljer<br />

ett element ur vart och ett av de båda strata och bildar medeltalet av de båda observationerna.<br />

1. Ta fram samplingfördelningen för medelvärdet av de två observationerna genom att<br />

bilda alla möjliga kombinationer av ett element ur stratum 1 och ett element ur stratum<br />

2. Beskriv samplingfördelningen i ett stolpdiagram.<br />

2. Beräkna medelvärde och standardavvikelse i den nya samplingfördelningen.<br />

3. Jämför samplingfördelningen med den som togs fram i uppgift 2:A 3).<br />

45


Uppgift 3:B<br />

Vi har en population bestående av samtliga småföretag (här definierat som företag med<br />

mindre än 10 anställda, N=ca 560 000) där vi studerar kostnaderna för sjukfrånvaro under<br />

en viss period (i tusental kronor). Vi gör ett obundet slumpmässigt urval (OSU) om n =<br />

1400 företag ur den mycket stora populationen och beräknar medelvärdet i urvalet, x ,<br />

som visar sig vara lika med 61.5. Vi antar att vi egendomligt nog vet att standardavvikelsen<br />

i hela populationen, σ, är 26.<br />

1. Beräkna ett approximativt 95-%igt konfidensintervall för µ.<br />

2. Pröva hypotesen att µ = 60 mot hypotesen att µ är skild från 60. Sikta på 5 % signifikansnivå<br />

(risknivå) . Ta fram testvariabel och kritiskt värde (signifikansgräns).<br />

3. Beräkna också P-värdet för testet ovan.<br />

4. Vad förändras om alternativhypotesen i stället är att µ är större än 60?<br />

Antag nu att urvalet (OSU) bestod av n = 16 företag i stället för n = 1400 och att urvalsmedeltalet<br />

var 61.5 precis som ovan. Antagandet om standardavvikelsen i populationen<br />

gäller även här.<br />

5. Hur skulle svaren under de fyra förra frågorna påverkas om vi haft den mindre urvalsstorleken<br />

i stället för den större?<br />

Låt oss nu tänka oss att vi släpper det något orealistiska antagandet att vi känner populationens<br />

standardavvikelse. I stället utnyttjar vi informationen från vårt urval om n = 1400<br />

företag ur populationen. Urvalet antas ha gett medeltalet 61.5 tkr och standardavvikelsen<br />

24.8 tkr.<br />

6. Beräkna ett approximativt 95 %-igt konfidensintervall för µ.<br />

Antag nu att vi erhållit samma resultat som användes i punkten 6 ovan, men att urvalet<br />

bestod av bara n = 16 observationer OSU.<br />

7. Beräkna återigen ett approximativt 95 %-igt konfidensintervall för µ.<br />

Antag nu att vi i stället skulle ha stratifierat (delat upp) populationen i två strata (delar) ett<br />

innehållande 400 000 "enmansföretag" (stratum 1) och ett innehållande 160 000 företag<br />

med mellan 1 och 9 anställda (stratum 2). Vi betecknar medelvärdet i stratum 1 med µ(1)<br />

och medelvärdet i stratum 2 med µ(2).<br />

8. Bestäm medelvärdet, µ, i hela populationen om 560 000 småföretag.<br />

Ur stratum 1 väljer man nu 1000 företag (OSU) och oberoende av detta väljer man 400<br />

företag (OSU) ur stratum 2. För de sammanlagt 1400 utvalda företagen registreras kostnaden<br />

för sjukfrånvaro under den aktuella perioden. Antag att vi erhåller följande resultat:<br />

urval ur stratum 1: n(1)=1000, x (1) = 30 tkr, urval ur stratum 2: n(2)= 400, x (2) =<br />

136 tkr.<br />

46


9. Bilda en punktskattning för µ, där vi låter µ(1) skattas med x (1) och µ(2) med x (2)<br />

och sedan väger ihop de båda skattningarna på samma sätt som vi gjorde i punkt 8.<br />

10. Hur stor andel av företagen har vi valt till urvalen ur stratum 1 respektive ur stratum<br />

2?<br />

Vi skall nu utnyttja reglerna för linjära variabeltransformationer och reglerna för variansen<br />

för en summa av oberoende slumpvariabler (kapitel 2) för att bilda standardavvikelsen<br />

för punktskattningen i punkt 9. Vi antar också att vi (konstigt nog) vet att standardavvikelsen<br />

bland de 400 tusen enmansföretagen är 10 tkr och att standardavvikelsen bland<br />

de 160 tusen flermansföretagen är 30 tkr.<br />

11. Bilda standardavvikelsen för punktskattningen (medelfel, eng: standard error) enligt<br />

punkt 9.<br />

12. Bilda med hjälp av punktskattningen och medelfelet ett 95-%-igt konfidensintervall<br />

för µ.<br />

13. Om vi i stället valt 700 företag ur vardera stratumet och råkat få just de medeltal som<br />

vi fick förut (30 respektive 136), vad skulle då bli annorlunda jämfört med konfidensintervallet<br />

ovan. Bilda konfidensintervall och utred skillnaden.<br />

14. Jämför längden på de fyra konfidensintervall som beräknats i punkterna 1, 6, 12 och<br />

13 ovan.<br />

4.4 Seminarium 4<br />

Uppgift 4:A<br />

Man genomför – i tre olika situationer - ett slumpmässigt försök som blir antingen lyckat<br />

(med sannolikheten p) eller misslyckat (med sannolikheten 1-p). Man definierar slumpvariabeln<br />

S = 1 för lyckat försök och S=0 för misslyckat. Försöket upprepas 4 gånger och<br />

slumpvariabeln X = antalet lyckade försök. X är en binomialfördelad variabel.<br />

Här följer de tre situationerna<br />

• Ett symmetriskt mynt kastas. Lyckat försök är krona medan klave är misslyckat.<br />

• En vanlig symmetrisk sexsidig tärning kastas. Högst två ögon upp är lyckat försök<br />

medan tre eller fler ögon upp är misslyckat.<br />

• Ur en påse med 50 godisbitar varav 20 sura och 30 söta väljs slumpmässigt en bit. Söt<br />

godisbit betraktas som lyckat utfall på försöket.<br />

Genomför för var och en av de tre situationerna följande:<br />

1. Bestäm sannolikhetsfördelningen för X, beskriv den i ett stolpdiagram och beräkna<br />

sannolikheten att X antar värdet 3 eller högre.<br />

2. Beräkna medelvärde (väntevärde) och standardavvikelse för X.<br />

Antag nu att man väljer 12 godisbitar ur en stor låda med 5000 bitar varav 2000 sura och<br />

47


3000 söta. X betecknar antalet söta (antalet lyckade försök) bland de 12.<br />

3. Bestäm medelvärde och standardavvikelse i sannolikhetsfördelningen för X.<br />

Vi bildar nu variabeln<br />

. Bestäm medelvärde och standardavvikelse i sannolikhetsfördelningen<br />

för pˆ .<br />

p ˆ =<br />

X<br />

n<br />

4. Beräkna sannolikheten att pˆ antar ett värde som är högst 0.25.<br />

5. Skissa på ungefär hur sannolikhetsfördelningen för pˆ kan tänkas se ut. Approximera<br />

fördelningen med en lämplig normalfördelning. Bestäm approximativt sannolikheten<br />

för att pˆ antar ett värde som är högst 0.25.<br />

Uppgift 4:B<br />

Man vill undersöka (den vuxna) befolkningens inställning till det svenska medlemskapet<br />

i EU. Bland 120 tillfrågade slumpmässigt utvalda personer uppger 48 att de är negativa<br />

till det svenska medlemskapet.<br />

1. Bilda ett approximativt 95-%igt konfidensintervall för p (andelen i hela populationen<br />

som är negativa till det svenska medlemskapet).<br />

2. Pröva hypotesen att 45 % av populationen är negativa till det svenska medlemskapet.<br />

Fundera på hur alternativhypotesen rimligen bör formuleras.<br />

3. Om man i stället valt 1200 personer (OSU) och 480 sagt sig vara negativa till det<br />

svenska medlemskapet, hur skulle då testet under 2 ovan påverkas?<br />

Uppgift 4:C<br />

En vara säljs i tre olika typer av enkilosförpackningar, typerna A, B och C. Man undrar<br />

om tonåringars preferenser för olika förpackningar skiljer sig från vad som gäller för äldre<br />

personer. Bland 200 slumpmässigt valda tonåringar är preferenserna följande: 88 personer<br />

föredrar A, 58 personer föredrar B, 54 personer föredrar C.<br />

Bland 300 slumpmässigt valda äldre personer ser preferenserna ut som följer: 162 personer<br />

föredrar A, 72 personer föredrar B och 66 föredrar C.<br />

1. Bilda en flerfältstabell med absoluta frekvenser med en kolumn för yngre och en för<br />

äldre personer och tre rader, en för varje förpackningstyp. Tabellen skall alltså visa<br />

hur de 500 personerna fördelar sig på ålder och preferens.<br />

2. Bilda en motsvarande tabell med den procentuella fördelningen för vardera åldersgruppen<br />

(kolumnerna summerar till 100 % var). Bedöm om det finns någon skillnad<br />

mellan åldersgrupperna när det gäller preferenser för förpackningstyp.<br />

3. Analysera frågeställningen med hjälp av chi-två-test. Formulera hypoteser, beräkna<br />

förväntade frekvenser och observerat värde på testvariabeln, ange risknivå (signifikansnivå)<br />

- välj nivå själva - och dra slutsats.<br />

48


4.5 Seminarium 5<br />

Uppgift 5:A<br />

Året innan (säg år t-1) gjordes en liknande undersökning som den som gjordes nu (år t) i<br />

uppgift 3:B. Man undersökte då – det tidigare året - ett urval (OSU) av 1250 småföretag<br />

och fick ett urvalsmedelvärde om 58 tkr och en standardavvikelse i urvalet om 17.2 tkr.<br />

a) Bilda ett 95-%igt konfidensintervall för den genomsnittliga sjukfrånvarokostnaden<br />

det tidigare året (år t-1). Jämför också detta konfidensintervall med det som gjordes<br />

under 3:B 1. Vad - i princip - skiljer dem åt?<br />

b) Bilda ett 95-%igt konfidensintervall för skillnaden i genomsnittlig sjukfrånvarokostnad<br />

mellan innevarande år (år t) och året före (år t-1). Vi antar då att undersökningen<br />

från uppgift 3:B gav till resultat urvalsmedelvärdet 61.5 tkr och standardavvikelsen i<br />

urvalet 24.8 tkr.<br />

c) Undersök om det kan anses fastställt att den genomsnittliga kostnaden i populationen<br />

är högre i år (år t) än förra året (år t-1). Formulera hypoteser, bilda testvariabel, välj<br />

risk-/signifikansnivå och beräkna kritiskt värde. Ta också ställning via testets P-<br />

värdet.<br />

Vi tänker oss nu en alternativuppläggning av undersökningen sådan att vi valde ut (OSU)<br />

ett antal företag förra året, tog reda på deras sjukfrånvarokostnader under en viss period<br />

och därefter undersökte samma företag ett år senare och tog reda på motsvarande kostnader<br />

i år. Vi tänker oss ett urval om bara 12 företag (för att underlätta räknandet) med följande<br />

resultat:<br />

Företag nr 1 2 3 4 5 6 7 8 9 10 11 12<br />

Kostnad år 1 28 27 58 88 65 88 39 69 82 32 29 43<br />

Kostnad år 2 36 34 66 94 70 86 44 78 84 36 35 45<br />

d) Ta ställning till samma hypotes som ovan (5:A 3).<br />

Ledning: Tänk igenom vad som i princip skiljer de båda undersökningsuppläggningarna åt.<br />

Uppgift 5:B<br />

Vi anknyter till uppgiften 4:B, som handlade om inställningen till det svenska EUmedlemskapet.<br />

Man ville där undersöka (den vuxna) befolkningens inställning. Bland<br />

120 tillfrågade slumpmässigt utvalda personer uppgav 48 att de var negativa till det<br />

svenska medlemskapet.<br />

En opinionsundersökning riktad till ett slumpmässigt urval (OSU) om 1080 personer för<br />

ett år sedan visade att andelen som då var negativa till det svenska medlemskapet var<br />

35.5 %.<br />

1. Bilda ett 95-%igt konfidensintervall för skillnaden i andelen ”EU-negativa” i dag<br />

jämfört med för ett år sedan.<br />

2. Undersök med hjälp av ett signifikanstest om andelen ”EU-negativa” bland den vux-<br />

49


na befolkningen i dag är högre än motsvarande andel för ett år sedan.<br />

Uppgift 5:C<br />

Vi använder här samma datamaterial som i uppgift 1:B och som handlar om tio slumpmässigt<br />

utvalda högskolestuderande med praktikarbete under sommaren som beskrivs<br />

med avseende på X: antal studieår vi högskola och Y: månadslön under sommaren i tkr.<br />

Följande data föreligger (x,y):<br />

Person nr 1 2 3 4 5 6 7 8 9 10<br />

(1, 11) (2, 11) (2, 14) (3, 12) (3, 14) (3, 16) (4, 13) (4,14) (4,15) (4, 18)<br />

Ta fram spridningsdiagrammet och beräkningarna från uppgift 1:B.<br />

1. Pröva hypotesen β=0 med ett dubbelsidigt test på 5 % signifikansnivå.<br />

2. Gör ett 95%igt konfidensintervall för den genomsnittliga månadslönen för personer<br />

med 3 års högskolestudier.<br />

3. Gör ett prediktionsintervall för en ny observation med antalet studieår (X) lika<br />

med 3 år.<br />

4. Gör nu ett prediktionsintervall för en ny observation med antalet studieår (X) lika<br />

med 5 år. Jämför intervallet med intervallet under föregående punkt.<br />

5. Antag att personerna 1, 4, 5 samt 7 och 8 är studerande vid medellånga vårdutbildningar<br />

medan övriga personer är studerande vid tekniska högskolor. Konstruera<br />

en tredje variabel, Z, som en indikator- (dummy-) variabel som skiljer fakulteterna<br />

åt.<br />

6. Beskriv i ett vanligt spridningsdiagram sambandet mellan de tre variablerna genom<br />

att använda olika symboler för de med z=1 respektive z=0. Vad tycks fakultet<br />

betyda?<br />

7. Beskriv i symboltermer den modell som skulle kunna användas för att analysera<br />

sambandet mellan både studietid och fakultet å den ena sidan och månadslön å<br />

den andra.<br />

50


5. Inlämningsuppgifter<br />

Inlämningsuppgift 1<br />

I den studentägda bokhandeln vid en högskola arbetar fyra heltidsanställda personer (som<br />

dock har flextid) samt ett antal studenter, som arbetar mellan 2 och 10 timmar per vecka<br />

under terminstid. Under en majvecka noterade man följande arbetstider för de 16 personer<br />

som arbetat den aktuella veckan, och dessa 16 tider (i timmar) utgör vårt datamaterial:<br />

42, 36, 39, 35, 8, 10, 8, 5, 7, 6, 2, 9, 8, 8, 9, 8<br />

a) Beräkna medelvärde och median i datamaterialet. Förklara varför de båda måtten skiljer<br />

sig åt på det sätt som de gör.<br />

b) Beräkna standardavvikelsen i datamaterialet.<br />

c) Beskriv datamaterialet i ett lådagram.<br />

d) Beräkna medelarbetstiden bland de 4 heltidsanställda (de fyra första personerna) respektive<br />

bland de 12 timanställda. Bilda sedan medelarbetstiden bland samtliga som<br />

ett vägt medelvärde av de båda medelarbetstiderna.<br />

Inlämningsuppgift 2<br />

Sextio studenter registreras en viss termin på en fristående 20-poängskurs i statistik. Kursen<br />

är uppbyggd av fyra 5-poängsmoduler, som tenteras en och en. Efter en termin kan<br />

man därmed ha uppnått högst 20 poäng på <strong>kursen</strong>, och minst 0 (om man inte klarat någon<br />

av de fyra modulerna). Vid terminens slut sammanfattas resultaten med avseende på antal<br />

avklarade poäng för de 60 studenterna enligt tabellen nedan:<br />

Antal poäng Antal personer, som uppnått vidstående antal poäng<br />

0 6<br />

5 8<br />

10 10<br />

15 16<br />

20 20<br />

a) Beräkna medelantalet avklarade poäng per registrerad student.<br />

b) Beräkna standardavvikelsen bland de 60 poängtalen.<br />

c) Beskriv studieresultaten för de 60 studenterna i ett lådagram.<br />

De ekonomiska resurser som institutionen disponerar för att ge den aktuella <strong>kursen</strong> baseras<br />

på två storheter, nämligen så kallade ”Helårsstudenter” (HÅS) och ”Helårsprestationer”<br />

(HÅP). En person som är registrerad på kurser omfattande 20 poäng under en termin<br />

motsvarar en halv HÅS medan en total prestation om 20 poäng under en termin motsvarar<br />

en halv HÅP. Antag att en hel HÅS utgör 7 tkr och att en hel HÅP utgör 12 tkr.<br />

d) Beräkna det belopp som institutionen kan disponera för att genomföra den aktuella<br />

<strong>kursen</strong>.<br />

51


Inlämningsuppgift 3<br />

På studentcentrum vid en mindre högskola har man efter antagningen en hösttermin,<br />

sammanställt statistik över antal sökande uppdelat i antal antagna och antal som ej antagits<br />

för vartdera könet och för de olika utbildningsprogrammen. Som exempel presenteras<br />

här data för två utbildningsprogram, ett ingenjörsprogram (med 330 platser) och ett psykologprogram<br />

med 55 platser, se tabellen på nästa sida.<br />

Utbildningsprogram Kön Får plats Får ej plats<br />

Ingenjörsutbildning Kvinnor 90 10<br />

Ingenjörsutbildning Män 240 60<br />

Psykologutbildning Kvinnor 50 100<br />

Psykologutbildning Män 5 45<br />

a) Beräkna procentandelen som får plats bland de 250 kvinnorna respektive bland de<br />

350 männen. Vilket av könen har högst andel antagna?<br />

b) Bilda en tvåvägsindelad tabell med två kolumner och två rader svarande mot de två<br />

könen (kolumner) och de två utbildningsprogrammen (rader). I varje ruta anges<br />

procentandelen antagna.<br />

c) Kommentera resultaten och försök förklara varför det blir som det blir. Jämför härvid<br />

resultaten från a) och b).<br />

Inlämningsuppgift 4<br />

De tolv boende i ett litet serviceboende beskrivs här med avseende på hur stort hjälpbehovet<br />

(hjälp med städning, inköp, personlig omvårdnad etc) bedömts vara i timmar per vecka och hur<br />

väl de boende trivs samt kön och ålder.<br />

Person nr Kön Ålder Hjälpbehov, tim/vecka Trivsel i boendet<br />

1 k 76 2 god<br />

2 m 82 6 god<br />

3 m 93 11 dålig<br />

4 k 98 10 dålig<br />

5 k 87 3 dålig<br />

6 m 81 3 god<br />

7 k 79 3 god<br />

8 k 95 14 dålig<br />

9 k 88 8 dålig<br />

10 m 81 2 god<br />

11 m 81 10 god<br />

12 k 79 12 god<br />

a) Beskriv hur de boende fördelar sig på ålder i ett stam-och-blad-diagram<br />

b) Beskriv i ett punkt- eller stolpdiagram hur de boende fördelar sig på hjälpbehov.<br />

c) Beskriv sambandet mellan kön och trivsel i boendet i en tvåvägsindelad<br />

frekvenstabell.<br />

d) Trivs män eller kvinnor bäst? Kan skillnaden mellan könen snarare vara ett<br />

uttryck för skillnaden mellan åldrar? Försök att utreda.<br />

52


Inlämningsuppgift 5<br />

Vid en vårdcentral finns 16 personer anställda. Deras månadslöner för april ett<br />

visst år i tusental kronor ges, tillsammans med uppgift om ålder och kön nedan:<br />

Person nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16<br />

Lön, tkr 15 17 17 31 26 20 24 16 20 18 26 30 30 26 34 22<br />

Ålder 21 26 23 32 39 22 43 57 63 42 28 32 47 44 59 49<br />

Kön k k k k k k k k k k m m m m m m<br />

a) Beräkna medellönen för samtliga anställda i september.<br />

b) Beräkna fyra medellöner, nämligen för männen respektive för kvinnorna liksom för<br />

de yngre (under 40 år) respektive de äldre (40 år eller mer). Beräkna också skillnaden<br />

i medellön mellan män och kvinnor respektive mellan äldre och yngre.<br />

c) Bilda en tabell särskilt lämpad att jämföra de yngre och äldre med avseende<br />

på lön så att man också kan se skillnaden mellan könen. Lämpligen gör man då en<br />

fyrfältstabell med två kolumner, en för yngre och en för äldre, och två rader, en för<br />

kvinnor och en för män. I varje ruta placeras medelvärdet för den aktuella gruppen<br />

samt antalet personer.<br />

d) Beräkna skillnaden i medellön mellan yngre och äldre bland männen och bland kvinnorna.<br />

Jämför dessa skillnader med skillnaden mellan åldersgrupperna i b).<br />

e) Vilka tjänar egentligen genomsnittligt bäst, yngre eller äldre. Utred frågan.<br />

f) Kan man hävda att det föreligger lönediskriminering av kvinnorna på vårdcentralen?<br />

Skulle slutsatsen förändras om Du fick veta att personerna nr 4, 5, 11, 12, 13,<br />

14 och 15 är läkare och/eller chefer medan de övriga är annan vårdpersonal och administrativ<br />

personal? Formulera några tankar.<br />

Inlämningsuppgift 6<br />

Studerande från tre olika utbildningsprogram har skrivit en och samma tentamensskrivning<br />

i engelska. Provet bedöms med vanlig tregradig skala, U, G och VG. De tre betygsnivåerna<br />

fördelar sig procentuellt över de tre programmen enligt tabellen:<br />

Betygsnivåer fördelade över program, procent<br />

Betyg Program 1 Program 2 Program 3 Summa<br />

Underkänd 40 40 20 100<br />

Godkänd 53 35 12 100<br />

Väl godkänd 42 36 22 100<br />

Du skall för vart och ett av följande fem påståenden ange om det är sant eller falskt med<br />

en liten motivering.<br />

Påståenden: Ur tabellen ovan kan följande utläsas:<br />

a) Bland de underkända är andelen studerande som kommer från program 2 dubbelt så<br />

stor som andelen som kommer från program 3.<br />

b) Bland de godkända är andelen studerande som kommer från program 1 cirka 34 %<br />

högre än andelen som kommer från program 2.<br />

c) I program 3 är andelen studerande som är väl godkända större än andelen som är underkända.<br />

53


d) Totalt sett kommer 45 % av eleverna från program 1, 37 % från program 2 och 18 %<br />

från program 3.<br />

e) Det är totalt sett ett mindre antal studerande från program 3 jämfört med de skrivande<br />

från de båda övriga programmen.<br />

Inlämningsuppgift 7<br />

I en studie syftande till att kartlägga hur äldre utnyttjar sin tid, har man tagit reda på hur<br />

lång tid de undersökta personerna lagt på att läsa dagstidningar. Här följer data avseende<br />

18 äldre kvinnor. Observationerna anger antalet minuter per dag som personerna uppgett<br />

sig läsa dagstidning en "vanlig" vardag, benämnt lästid.<br />

5 5 10 10 14 40 60 80<br />

0 0 17 30 35 50<br />

5 15 18 20<br />

Beräkna genomsnittlig lästid (aritmetiskt medelvärde) per person i gruppen om 18 kvinnor.<br />

Inlämningsuppgift 8<br />

Om 22 äldre mäns tidningsläsande får man veta den genomsnittliga (aritmetiskt<br />

medelvärde) lästiden för olika åldersgrupper, se tabellen som följer. Tabellen visar<br />

t ex att 5 män i åldern 70-79 år i genomsnitt haft en lästid om 35 minuter.<br />

Ålder Genomsnittlig lästid Antal personer<br />

60-69 år 35 min 5<br />

70-79 år 25 min 5<br />

80-89 år 17 min 12<br />

a) Beräkna genomsnittlig lästid (aritmetiskt medelvärde) per person i gruppen om 22<br />

män<br />

Betrakta nu kvinnornas lästider från föregående uppgift. Det gäller att de åtta tiderna på<br />

första raden (5 5 10 …) avser kvinnor i åldern 60-69 år, de sex tiderna på nästa rad avser<br />

kvinnor i åldern 70-79 år och de fyra tiderna på den sista raden avser kvinnor i åldrarna<br />

80-89 år.<br />

b) Konstruera för de 18 kvinnorna en tabell liknande den som gavs för männen ovan.<br />

Jämför därefter de genomsnittliga lästiderna i de olika åldersgrupperna för män och<br />

kvinnor. Förklara i enkla ordalag hur jämförelsen mellan könen utfaller.<br />

c) Jämför nu kvinnornas medelvärde från föregående uppgift med männens från a) i denna<br />

uppgift. Kommentera vad man ser och förklara skillnaden mot resultatet b). Vilketdera<br />

könet läser egentligen mest och hur uppstår paradoxen?<br />

d) Bilda standardvägda medeltal för lästiden för männen respektive kvinnorna. Välj standardvikter<br />

proportionella mot samtliga 40 personers fördelning på ålder.<br />

Inlämningsuppgift 9<br />

Vi tänker oss en totalundersökning riktad till de studerande och anställda vid en liten<br />

högskola. Man vill undersöka om det kan finnas underlag för ett bankkontor på<br />

campus. En mycket enkel enkät med några få frågor distribueras via postfack och<br />

54


internpost till samtliga studerande och anställda. 540 besvarade formulär utgör resultatet.<br />

Bland dessa har 405 svarat ja på frågan ”anser Du att det behövs ett bankkontor<br />

på campus?”.<br />

a) Beräkna med utgångspunkt från undersökningsresultatet procentandelen<br />

i populationen, som anser att det behövs ett bankkontor.<br />

Antag nu att vi får veta att det finns sammanlagt 980 anställda och studerande vid<br />

högskolan i fråga. Det finns alltså ett stort bortfall i undersökningen.<br />

b) Beräkna hur stor andelen jasvar skulle ha kunnat bli som minst respektive mest,<br />

om hänsyn tas till bortfallet.<br />

c) Fundera lite kring vad man kan tro om bortfallet.<br />

Inlämningsuppgift 10<br />

Företaget ÄT RÄTT tillverkar och säljer bland annat mysli. På marknadsavdelningen på<br />

ÄT RÄTT vill man närmare undersöka konsumtionsvanorna när det gäller mysli. Man<br />

samlar in uppgifter från ett urval av kunder. Vi låtsas nu att urvalet bestod av bara 10<br />

kunder, så att vi får ett litet datamaterial som vi kan räkna på. Från urvalet samlar man in<br />

uppgift om de 10 kundernas familjestorlek, liksom om man har barn under 18 år eller ej<br />

(uppgiften används ej här) och myslikonsumtion i kg per månad. Följande data erhålls<br />

Kund nummer Familjestorlek Myslikonsumtion<br />

1 1 1<br />

2 5 1<br />

3 6 5<br />

4 2 1<br />

5 1 2<br />

6 3 1<br />

7 5 2<br />

8 2 3<br />

9 3 3<br />

10 2 1<br />

a) Beskriv samband mellan familjestorlek och myslikonsumtion i ett<br />

spridningsdiagram. Låt familjestorlek vara x och myslikonsumtion y.<br />

b) Beräkna korrelationskoefficienten mellan myslikonsumtion och familjestorlek.<br />

c) Vad kan man säga om styrkan av sambandet? Beräkna förklaringsgraden och<br />

försök säga ut i vanliga ord, vad man kommit fram till. Verkar sambandet vara starkt?<br />

Man hittar sedan ett fel i datafilen. Man har förväxlat konsumtionssiffran för kund nr 2<br />

och nr 8. Det skulle alltså vara så att kund nummer 2 har x=5 och y=3 medan kund nr 8<br />

har x=2 och y=1.<br />

d) Beräkna den rätta korrelationskoefficienten.<br />

e) Beskriv kort vad Du lärt Dig av att man rättade felet i data.<br />

55


f) Sammanfatta för styrelsen på ÄT RÄTT vad man lärt om sambandet mellan<br />

familjestorlek och myslikonsumtion.<br />

Inlämningsuppgift 11<br />

På två utbildningsprogram vid en högskola har man genomfört kursvärdering enligt ett<br />

fastställt formulär. Bland annat ställer man följande fråga: ”Är Du i huvudsak nöjd med<br />

Din utbildning på programmet?” På ekonomprogrammet finns 60 studerande varav 42<br />

personer besvarar frågorna och 24 svarar ja. På lärarprogrammet finns 50 studerande. Antalet<br />

svarande är 45 personer och 30 av dem svarar ja.<br />

a) Beräkna procentandelen nöjda (ja-svarare) bland de svarande på vart och ett av programmen<br />

samt hur många procent högre (eller lägre) som andelen nöjda är på lärarprogrammet<br />

jämfört med ekonomprogrammet.<br />

b) De, som arbetar med ekonomprogrammet hävdar att jämförelsen är orättvis och att<br />

man mycket väl skulle kunna haft minst lika hög andel nöjda som "lärarna" om bara<br />

antalet svarande varit större. Utred om det ligger något i detta påstående.<br />

Inlämningsuppgift 12<br />

Följande månadslöner (tusental kronor) utbetalas till de fem anställda på ett litet företag:<br />

18 20 20 22 25<br />

a) Beräkna medellön, varians och standardavvikelse i materialet av fem observationer på<br />

variabeln X=månadslön.<br />

Till jul utgår en ”extralön i form av 10 tkr” till var och en av de anställda.<br />

b) Bilda de fem observationerna på variabeln årslön, Y = 10 + 12X.<br />

c) Beräkna årsmedellönen, variansen och standardavvikelsen i materialet av fem Y-<br />

observationer.<br />

d) Vilka relationer mellan måtten i a och måtten i c gäller?<br />

e) Gäller dessa relationer generellt? Resonera och försök visa formelmässigt hur det ser<br />

ut.<br />

f) Vi tänker oss nu en godtycklig variabel X med medelvärde och standardavvikelse lika<br />

med µ respektive σ. Beräkna medelvärdet, variansen och standardavvikelsen för variabeln.<br />

Z = X ( − µ )<br />

σ<br />

Ledning: Reglerna för linjär variabeltransformation i kapitel 2.<br />

Inlämningsuppgift 13<br />

I en fabrik produceras inlagda rödbetor på burk som säljs under beteckningen Bettans<br />

rödbetor, 1000 gram. Man anser sig veta att standardavvikelsen bland tillverkade burkar<br />

är 8 gram.<br />

a) Ungefär hur stor del av burkarna väger minst 1010 gram?<br />

b) Om man slumpmässigt väljer ut en burk hur stor är då sannolikheten att den skall visa<br />

sig väga mindre än 995 gram?<br />

56


Från en veckas produktion (ca 10000 burkar) väljer man regelmässigt ett OSU-urval om<br />

125 burkar och väger dem. Om medelvikten bland de utvalda burkarna då avviker från<br />

1000 gram med mer än 3 gram avbryter man produktionen och letar efter fel i produktionsprocessen.<br />

Vi betraktar produktionen i en godtycklig vecka som vår undersökningspopulation.<br />

c) Om det är sant att populationen av burkar i genomsnitt väger just 1000 g hur stor är<br />

då sannolikheten att få en medelvikt i urvalet som med minst 3 g avviker från 1000 g?<br />

d) Om i själva verket populationen av burkar i genomsnitt väger bara 998 g med en<br />

standardavvikelse som är 16 gram, hur stor är då sannolikheten att få en medelvikt i<br />

urvalet som med minst 3 g avviker från 1000 g?<br />

Inlämningsuppgift 14<br />

Man vill undersöka studieresultaten i ett visst ämne under hösten 2005. Bland annat är<br />

man intresserad av att se om studieresultaten skiljer sig mellan dem som antagits på gymnasiebetyg<br />

(betygsgruppen) och dem som antagits på resultat från högskoleprovet (provgruppen).<br />

Man undersöker hur många poäng som genomsnittligt producerats på kurser på<br />

olika nivå av studerande i de två grupperna. Resultatet av undersökningen redovisas i tabellen<br />

nedan. I tabellen anges alltså dels genomsnittligt antal poäng per studerande på<br />

olika kursnivå och dels (inom parantes) antalet studerande i var och en av grupperna. Vi<br />

ser alltså exempelvis att 22 personer i provgruppen som läst på lägre nivå i genomsnitt<br />

producerat 14.0 poäng.<br />

Kursnivå Betygsgrupp Provgrupp<br />

Lägre (A-B-nivå) 14.8 (48) 14.0 (22)<br />

Högre (C-D-nivå) 17.9 (16) 17.6 (24)<br />

a) Beräkna med utgångspunkt från tabellen genomsnittligt antal poäng för studerande i<br />

betygsgruppen och motsvarande mått för de studerande i provgruppen.<br />

b) Jämför de båda grupperna (betygs- och provgrupp) med avseende på producerade poäng<br />

med hjälp av dels resultatet från a) och dels det som man ser i själva tabellen. Diskutera.<br />

c) Bilda standardvägda medeltal för producerade poäng, dels för studerande i betygsgruppen<br />

och dels för dem som tillhör provgruppen. Använd samtligas fördelning på<br />

kursnivå som underlag för standardvikterna.<br />

Inlämningsuppgift 15<br />

Givet en population med sex element med följande värden på variabeln X:<br />

2 4 4 6 10 16<br />

Man gör urval om n=2 element med lika sannolikheter men utan återläggning och bildar<br />

urvalsmedeltalet x .<br />

a) Ta fram samplingfördelningen för urvalsmedeltalet.<br />

b) Avbilda samplingfördelningen i ett stolpdiagram.<br />

c) Beräkna medelvärde och standardavvikelse i samplingfördelningen.<br />

d) Jämför de framräknade parametrarna med motsvarande värden i populationen.<br />

57


e) Jämför de framräknade parametrarna med motsvarande mått som togs fram i seminarieuppgift<br />

2:A.<br />

f) Jämför samplingfördelningen enligt stolpdiagrammet (pkt b ovan) med motsvarande<br />

diagram i seminarieuppgiften 2:A.<br />

Inlämningsuppgift 16<br />

Man ville med hjälp av ett chi-två-test på 5 % risknivå undersöka om det fanns någon<br />

åldersskillnad när det gäller val av nyhetsprogram i TV. Femhundra personer hade uppgett<br />

vilket program de föredrog av Rapport, Aktuellt och Nyheter i TV4. Var och en av<br />

de tillfrågade uppgav också sin ålder och man har därmed kunnat göra följande tabell,<br />

som beskriver hur de sammanlagt 500 personerna fördelade sig på ålder och program.<br />

TV-program Under 20 år 20-39 år 40 år och mer<br />

Rapport 76 86 58<br />

Aktuellt 48 66 56<br />

Nyheter i TV4 26 48 36<br />

a) Beskriv marginalfördelningen för ålder i en enkel frekvenstabell med relativa frekvenser.<br />

b) Beskriv i en tabell lämpad för att jämföra de tre åldersgrupperna hur var och en av de<br />

tre åldersgrupperna procentuellt fördelar sig på TV-program. Vilken av grupperna är<br />

mest ”Rapportpositiv”?<br />

c) Undersök om de observerade skillnaderna är tillräckligt stora för att ett chi-två-test<br />

skall ge signifikant resultat. Ange hypoteser, beräkna testvariabelns värde och dra<br />

slutsats.<br />

Inlämningsuppgift 17<br />

En population består av de fyra elementen 1, 2, 4 och 13. Ur denna population väljer man<br />

slumpmässigt utan återläggning tre element. X MIN betecknar det minsta och X MAX det<br />

största av de erhållna värdena. Man skattar populationsmedelvärdet µ med intervallet<br />

X MIN ≤ µ ≤ X MAX . Bestäm intervallets konfidensgrad.<br />

Inlämningsuppgift 18<br />

Man har gjort två urval av företag i en viss bransch, det ena bestående av 100 bland totalt 10000<br />

småföretag och det andra bestående av 100 bland totalt 4000 större företag. Urvalen har gjorts<br />

helt oberoende av varandra. Syftet med undersökningen är att få ett grepp om företagens kostnader<br />

för sjukfrånvaro. Man har undersökt kostnaderna för september månad ett visst år. Följande<br />

resultat erhölls:<br />

Små Större<br />

företag företag<br />

Medeltal, tkr 27.8 108.5<br />

Vi antar orealistiskt – att standardavvikelsen för sjukkostnaderna är känd inom vartdera stratumet.<br />

I stratum 1 är standardavvikelsen 15 tkr och i stratum 2 är den 75 tkr.<br />

58


a) Beräkna ett 95-%igt konfidensintervall för den genomsnittliga kostnaden för sjukfrånvaron<br />

bland större företag under september det aktuella året. Uttala resultatet så att<br />

icke statistikkunniga förstår vad undersökningen visat.<br />

b) Beräkna ett 95-%igt konfidensintervall för den genomsnittliga kostnaden för<br />

sjukfrånvaron bland samtliga 14000 företag under den aktuella månaden.<br />

c) Denna situation är ett exempel på stratifierat urval. Ta ställning till följande påstående<br />

och ange om det är sant eller ej med kort motivering: Vid stratifiering bör man försöka<br />

få så liten standardavvikelse som möjligt inom varje stratum (delpopulation).<br />

Inlämningsuppgift 19<br />

Inom en mils radie från ett nyöppnat köpcenter bor 4 tusen hushåll. Man överväger att<br />

öppna ett apotek i köpcentret och för att bedöma kundunderlaget görs ett urval av hushåll<br />

(OSU) bland de 4 tusen och dessa kontaktas. Man ställer frågan ”Räknar du med att ditt<br />

hushåll kommer att köpa merparten av sina apoteksvaror vid det eventuellt nya apoteket?”<br />

Av 120 svar är 72 ja-svar.<br />

a) Beräkna ett 95-%igt konfidensintervall för p, andelen ”ja-svarare” bland de 4 tusen<br />

hushållen (alltså den andel ja-svar som man skulle fått om man kunnat göra en totalundersökning<br />

av populationen).<br />

Inom en radie om fyra mil från det nya köpcentret bor 20 tusen hushåll (alltså har 16 tusen<br />

hushåll mellan en och fyra mil till köpcentret.). Man gör ett urval bland dessa 16 tusen<br />

hushåll och ställer samma fråga som tidigare. Bland 400 svar är 28 ja-svar.<br />

b) Använd nu data från båda undersökningarna och skatta andelen ja-svar bland de 20<br />

tusen hushållen med ett 95-%igt konfidensintervall.<br />

c) Bilda också ett 95-%igt konfidensintervall för antalet ja-svarande hushåll i populationen.<br />

Inlämningsuppgift 20<br />

Man vill bilda sig en uppfattning om hur mycket pengar som hushållen i Älvhaga lägger<br />

på apoteksvaror. Antag att man tänker sig en undersökning baserad på ett urval (OSU)<br />

om n hushåll ur hela populationen om 20 tusen hushåll. Syftet är att ta reda på den genomsnittliga<br />

kostnaden per hushåll för apoteksvaror under den senaste månaden. Frågan<br />

är hur stort urval man skall välja.<br />

I en liknande undersökning som genomförts i Östermo, en kommun av liknande storlek i<br />

en annan del av landet, fann man i sitt urval att den genomsnittliga kostnaden per hushåll<br />

för apoteksvaror under mars månad var 124 kr och standardavvikelsen var 80 kr.<br />

a) Bilda ett 95-%igt konfidensintervall för den genomsnittliga kostnaden per hushåll i<br />

Östermo under mars, givet att urvalet bestod av 500 hushåll (OSU), där samtliga faktiskt<br />

svarade.<br />

59


) Beräkna hur stort urval som man borde ta i Älvhaga om vi antar att standardavvikelsen<br />

i populationen om 20 tusen hushåll är just 80 kr och vi siktar på ett konfidensintervall<br />

med en felmarginal om högst 10 kronor.<br />

Ledning: Felmarginalen i ett konfidensintervall är tabellvärde * standard error.<br />

Antag nu att urvalet i Älvhaga faktiskt kom att bestå av 300 hushåll med ett medelvärde<br />

om 138 kr och en standardavvikelse om 88 kr. Undersökningen skedde i maj månad.<br />

c) Går det med hjälp av dessa data att fastställa om den genomsnittliga apoteksvarukostnaden<br />

är högre i Älvhaga än i Östermo? Genomför en formell hypotesprövning. Antag<br />

härvid att apoteksvarukonsumtionen är ungefär densamma i mars som i maj.<br />

Inlämningsuppgift 21<br />

600 personer i åldrarna 21-60 år har svarat på frågor rörande TV-program. I tabellen redovisas<br />

hur de svarande fördelar sig på sådana som svarar ja respektive nej på frågan<br />

“Brukar Du titta på de svenska uttagningarna till schlagerfestivalen?“<br />

Kön Ålder Antal som brukar titta Antal som ej brukar titta<br />

Kvinnor 21-40 82 28<br />

Kvinnor 41-60 80 60<br />

Män 21-40 112 68<br />

Män 41-60 70 100<br />

a) Hur ser sambandet mellan ålder och “tittarvanor“ (tittar/tittar ej) ut? Ställ upp en<br />

lämplig tabell för att studera sambandet. Tolka sambandet i ord.<br />

b) Hur ser sambandet mellan kön och ålder ut i gruppen av personer. Ställ upp en lämplig<br />

tabell för att studera detta samband. Tolka sambandet i ord.<br />

Inlämningsuppgift 22<br />

Vi är intresserade av skolelevers TV-tittande (i timmar per vecka) och använder följande<br />

data som illustration. Vi har 12 flickor och 12 pojkar till vårt förfogande.<br />

De tolv flickorna har följande värden: 14, 23, 30, 16, 18, 34, 8, 10, 19, 4, 14, 14<br />

De tolv pojkarna har följande värden: 15, 25, 25, 18, 34, 40, 9, 10, 22, 6, 17, 19<br />

a) Beräkna ett 95-%-igt konfidensintervall för den genomsnittliga TV-tittartiden<br />

bland högstadieungdom och anta därvid att våra 24 ungdomar är slumpmässigt<br />

(OSU) valda bland samtliga (knappt 300000) högstadieungdomar i landet. Formulera<br />

slutsatsen i ord.<br />

b) Pröva på 5 % signifikansnivå hypotesen att det inte finns någon skillnad mellan könen<br />

när det gäller antal timmars TV-tittande. Anta härvid att vi har två slumpmässiga<br />

urval, som gjorts helt oberoende av varandra, ett om 12 flickor bland samtliga högstadieflickor<br />

och ett om 12 pojkar bland samtliga högstadiepojkar.<br />

Antag nu att de tolv flickorna är slumpmässigt valda bland de 200 flickorna medan de<br />

tolv pojkarna är slumpmässigt valda bland de 600 pojkarna i en tekniskt inriktad gymnasieskola<br />

med totalt 800 elever.<br />

60


c) Beräkna med utgångspunkt från antagandena ovan ett 95-%-igt konfidensintervall för<br />

den genomsnittliga TV-tittartiden bland gymnasisterna i den aktuella gymnasieskolan.<br />

d) Samma hypotes som i b) prövas men vi antar nu att det slumpmässigt valts 12 syskonpar<br />

om en bror och en syster. Syskonen är angivna i samma ordning. I det första<br />

syskonparet har flickan tittat 14 timmar och pojken 15 osv.<br />

Inlämningsuppgift 23<br />

I samband med en vinprovning avsmakas två sorters Riojavin av vardera tio vinkännare,<br />

som poängsätter vinerna på en skala från 1 (uselt) till 20 (utsökt). 4 Följande resultat erhålls:<br />

Person 1 2 3 4 5 6 7 8 9 10<br />

Vin A 12 11 14 12 13 10 15 16 14 14<br />

Vin B 11 10 12 11 10 11 16 13 13 15<br />

Vi vill pröva hypotesen att vinerna är likvärdiga med två olika metoder. För vart och ett<br />

av fallen gäller att hypoteserna noggrant skall formuleras, testvariabel anges och slutsats<br />

dras.<br />

a) Vi antar att vi har två oberoende stickprov om 10 personer, ett bestående av de 10<br />

personer som testat vin A och ett bestående av de tio personer som testat vin B.<br />

Genomför en hypotesprövning av vanlig typ med t-metod.<br />

b) Vi antar att tio personer dragits med OSU ur en stor population av vinkännare och att<br />

var och en av dem testat både vin A och vin B. Genomför ett t-test enligt matchadepar-design.<br />

Inlämningsuppgift 24<br />

Tänk Dig att Du får i uppgift att undersöka om den genomsnittliga viktökning som man<br />

kunnat se hos unga män under senare år har sin motsvarighet bland medelålders män. Låt<br />

oss anta att vi vet att bland medelålders män för 10 år sedan var 13.9 % överviktiga. Antag<br />

så att Du gör ett obundet slumpmässigt urval om 800 medelålders män, väger dem och<br />

finner att 15.6 % är överviktiga enligt samma definition av övervikt som tidigare använts.<br />

På grundval av undersökningen vill Du ta ställning till om andelen överviktiga bland medelålders<br />

män ökat eller ej under 10-årsperioden och genomför därför en statistisk hypotesprövning.<br />

a) Formulera nollhypotes och alternativhypotes.<br />

b) Förklara i relation till Dina hypoteser vad som menas med fel av första slaget och fel<br />

av andra slaget.<br />

c) Antag att Du genomför testet på 5 % signifikansnivå. Vad är innebörden i detta?<br />

d) Vad kan man säga om risken för fel av andra slaget i detta test?<br />

e) Vad menas med testets P-värde?<br />

f) Antag nu att testets P-värde blir 0.15 (15 %). Vilken slutsats drar Du av testet. Är re-<br />

4 Data hämtade från Vejde-Leander, Ordbok i statistik, sid 308.<br />

61


sultatet signifikant eller ej?<br />

g) Har medelålders män ökat i vikt genomsnittligt sett eller ej? Förklara för uppdragsgivaren.<br />

Inlämningsuppgift 25<br />

I en stor kommun vill man bland de anställda jämföra antalet sjukskivningsdagar bland<br />

män och kvinnor. Man har data från två obundna slumpmässiga urval, dragna oberoende<br />

av varandra, ett bestående av män och ett av kvinnor bland de kommunanställda. För vardera<br />

urvalet har man för varje utvald person tagit reda på antalet frånvarodagar under den<br />

aktuella perioden. Man har därefter beräknat medelvärde respektive standardavvikelse<br />

bland observationerna. Följande resultat erhölls:<br />

Grupp antal observationer medeltal standardavvikelse<br />

Kvinnor 18 36.9 18.6<br />

Män 14 32.2 14.3<br />

a) Pröva hypotesen att den genomsnittliga sjukfrånvaron i hela kommunen är lika stor<br />

bland kvinnor som bland män. Använd dubbelsidig mothypotes.<br />

b) Går det att "fastställa" att kvinnorna i kommunen i genomsnitt troligen har större<br />

sjukfrånvaro än männen? Genomför en lämplig hypotesprövning. Glöm ej att formulera<br />

såväl hypoteser som slutsats.<br />

Inlämningsuppgift 26<br />

Man undrar hur stor del av Norrköpings vuxna befolkning som är positiva till vårt EUmedlemskap.<br />

Av 1000 slumpmässigt utvalda personer uppger 520 att de är EU-positiva.<br />

a) Bilda ett 95-%-igt konfidensintervall för andelen EU-positiva bland Norrköpings<br />

vuxna befolkning.<br />

b) Bilda ett 95-%igt konfidensintervall för antalet EU-positiva bland Norrköpings vuxna<br />

befolkning, som antas bestå av cirka 100 tusen personer.<br />

Inlämningsuppgift 27<br />

Man vill undersöka sambandet mellan nedlagd studietid och tentamensresultat på en nationalekonomitenta<br />

med 20 studerande, vilka samtliga uppgett nedlagd studietid på <strong>kursen</strong><br />

i timmar per vecka. För var och en av de studerande har man noterat tentaresultatet i<br />

antal poäng på en 50-gradig skala. Man har därefter genomfört en enkel regressionsanalys<br />

med tentaresultatet som beroende och arbetstiden som oberoende variabel och dessutom<br />

tagit fram beskrivande mått för de båda variablerna enligt nedan.<br />

Betrakta de 20 studerande som vore de slumpmässigt valda bland samtliga studenter på<br />

den aktuella <strong>kursen</strong> under den senaste treårsperioden (cirka 500 studenter).<br />

Descriptive Statistics<br />

Variable N Mean Median TrMean StDev SE Mean<br />

Arbetsti 20 31.55 30.00 31.33 10.47 2.34<br />

Resultat 20 30.75 29.00 30.78 12.23 2.74<br />

62


Variable Minimum Maximum Q1 Q3<br />

Arbetsti 15.00 52.00 22.75 39.50<br />

Resultat 11.00 50.00 22.25 41.00<br />

Regression analysis<br />

The regression equation is<br />

Resultat = - 0.95 + 1.00 Arbetstid<br />

Predictor Coef StDev T P<br />

Constant -0.948 4.662 -0.20 0.841<br />

Arbetsti 1.0047 0.1406 7.15 0.000<br />

S = 6.417 R-Sq = 73.9%<br />

a) Tolka i vanliga ord lutningskoefficienten (b 1 ) i ovanstående regressionsekvation.<br />

b) Bestäm ett 95-%igt konfidensintervall för den genomsnittliga arbetstiden per person i<br />

populationen<br />

c) Beräkna korrelationskoefficienten mellan arbetstid och resultat.<br />

d) Pröva hypotesen att det inte finns något (linjärt) samband mellan arbetstid och tentaresultat.<br />

Sikta på 5 % signifikansnivå.<br />

e) Kommentera antagandet om att se de 20 personerna som ett slumpmässigt urval.<br />

Inlämningsuppgift 28<br />

Man genomför en postenkätundersökning på ett OSU-urval om 2000 villaboende hushåll<br />

ur en mycket stor population i syfte att dels skatta den genomsnittliga boendekostnaden<br />

(nettokostnad inklusive el och vatten och efter avdrag för skattereduktion, bostadsbidrag<br />

etc.) i september ett visst år och dels andelen av hushållen som har direktverkande el för<br />

uppvärmning. Man fick svar från 1200 hushåll och alltså ett bortfall om 40 %. Av de svarande<br />

uppgav 390 hushåll att de hade direktverkande el och för boendekostnaden bland<br />

svararna gällde ett medelvärde om 7200 kr och en standardavvikelse om 2100kr.<br />

a) Beräkna lägsta respektive högsta värde på punktskattningen för andelen hushåll med<br />

direktverkande el i populationen genom antaganden om bortfallet.<br />

Antag att man gjorde ett OSU-urval om 80 hushåll ur bortfallet och att man med hjälp av<br />

personlig intervju lyckades få svar från samtliga 80. Den genomsnittliga boendekostnaden<br />

bland de 80 befanns vara 9600kr och standardavvikelsen blev 1800kr. Antalet hushåll<br />

med direktverkande el bland de 80 befanns vara 60.<br />

b) Beräkna en punktskattning för den genomsnittliga boendekostnaden i september i populationen.<br />

c) Gör ett försök att beräkna en felmarginal - att användas i ett 95-%igt konfidensintervall<br />

- till punktskattningen under b).<br />

Ledning: Betrakta populationen som stratifierad i ett svarandestratum och ett bortfallsstratum. Den<br />

relativa stratumstorleken för respektive stratum skattas med hjälp av urvalets fördelning på svarare och<br />

bortfall.<br />

63


6. Övningsuppgifter<br />

Rekommenderade övningsuppgifter för varje vecka hittas i veckobreven.<br />

Övning 1:a<br />

Åtta hushåll uppvisar en kostnad för elkonsumtion (i tusental kronor) under en viss tidsperiod<br />

enligt följande: 9, 11, 27, 21, 17, 17, 22, 12. Beräkna<br />

a) Aritmetiskt medelvärde, median och typvärde.<br />

b) Undre och övre kvartil samt kvartilavstånd.<br />

c) Beskriv materialet i ett lådagram (boxplot)<br />

d) Beräkna varians och standardavvikelse<br />

Övning 1:b<br />

Man vill bilda sig en uppfattning om den genomsnittliga årliga körsträckan bland privatbilarna<br />

i ett land. Det handlar alltså om en mycket stor population. Man gör inledningsvis<br />

en provundersökning med ett slumpmässigt urval om n = 30 privatbilägare och erhåller<br />

följande observationer på variabeln körsträcka i 1000-tal mil under perioden 1.7 2000<br />

- 30.6 2001 :<br />

0.8 1.4 2.7 1.8 0.9 1.7 1.4 3.0 2.4 1.7 2.1 2.9 3.2 1.2 0.8 2.5 2.8<br />

1.8 1.9 2.6 3.2 3.1 0.4 1.1 1.4 1.9 1.8 2.8 0.9 2.9<br />

a) Beskriv de 30 körsträckorna i ett stam-och-blad-diagram (stemplot)<br />

b) Beräkna den 20:e respektive 80:e percentilen i materialet om 30 körsträckor.<br />

c) De i uppräkningen ovan 12 första bilarna har kvinnliga ägare medan de 18<br />

följande har manlig ägare. Beskriv körsträckorna för bilar med manliga respektive<br />

kvinnliga ägare i ett ”back-to-back” stam-och-blad-diagram.<br />

d) Beräkna mediansträcka respektive aritmetiskt medelvärde för såväl män<br />

som kvinnor.<br />

Övning 1:c<br />

Man studerar lönerna på två vårdcentraler i en kommun. De 12 respektive 16 personer<br />

som är verksamma på de båda arbetsplatserna har i september 2001 följande löner i tusental<br />

kronor, kkr, (för enkelhets skull antar vi att alla har lön i hela tusental):<br />

Vårdcentralen i C-mora<br />

Pers nr: 1 2 3 4 5 6 7 8 9 10 11 12<br />

Lön i kkr: 40 27 29 16 18 13 15 16 14 12 12 8<br />

Vårdcentralen i D-lunda<br />

Pers nr: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16<br />

Lön i kkr: 23 19 17 27 27 23 13 16 13 12 9 33 18 6 6 7<br />

65


a) Beskriv lönefördelningen för de anställda vid vårdcentralen i C-mora med hjälp av<br />

dels en lämplig tabell och dels ett diagram lämpade för en föredragning för kommunledningen.<br />

Kommentera resultaten.<br />

b) Genomför motsvarande beskrivning med avseende på vårdcentralen i D-lunda.<br />

c) Beräkna lönesumman för vardera vårdcentralen samt medellönen per anställd på<br />

vardera arbetsplatsen. Kommentera resultaten.<br />

För att kunna göra en rättvisande jämförelse mellan lönerna på de båda vårdcentralerna<br />

behöver man ta hänsyn till att inte alla anställda arbetar heltid. Följande gäller:<br />

Heltid (40 tim/vecka) 3/4-tid (30 t/v) 1/2-tid (20t/v)<br />

C-mora: person nr 1-9 person nr 10-11 person nr 12<br />

D-lunda:person nr 1-9 person nr 10-13 person nr 14-16<br />

Lönerna som ges i början av uppgiften är alltså givna i ordning från heltidsanställda via<br />

3/4- till halvtidsanställda. När man nu vill jämföra löneläget på de båda arbetsplatserna är<br />

det naturligt att göra jämförelsen på heltidstjänstbasis. Varje lön skall alltså omräknas till<br />

lön motsvarande heltidsanställning.<br />

d) Beräkna medellönen per anställd, om alla varit heltidsanställda, (halvtidslön multipliceras<br />

med 2 etc) för vardera vårdcentralen.<br />

På vardera vårdcentralen finns anställda i tre olika kategorier, nämligen läkare, övrig<br />

vårdpersonal respektive övrig personal (lokalvårdare, läkarsekreterare m.fl.). De anställda<br />

fördelar sig på tjänst enligt nedan, där ”personnummer” anges för respektive kategori.<br />

Läkare Övrig vårdpersonal Övrig personal<br />

C-mora: 1, 2, 3 4, 5, 8, 9, 10, 11 6, 7, 12<br />

D-lunda:1, 4, 5, 6, 12, 13 2, 3, 7, 8, 10, 11, 14 9, 15, 16<br />

e) Ta fram en tvåvägsindelad tabell med två kolumner svarande mot de två vårdcentralerna<br />

och tre rader svarande mot de tre tjänstekategorierna. I tabellcellerna skall såväl<br />

medellönen (för heltidstjänst) för de anställda som antalet anställda i var och en av de<br />

6 cellerna finnas. Beräkna därefter standardvägda medellöner för var och en av vårdcentralerna.<br />

Välj standardvikter proportionella mot totala antalet i respektive tjänstekategori.<br />

Övning 1:d<br />

I en undersökning vill man bl a studera storleken på bostäderna i ett bostadsområde.<br />

Som ett led i undersökningen sammanställer man följande tabell:<br />

66


Antal bostadsrum Antal bostäder med Procent<br />

(utom kök och badrum) vidstående antal rum<br />

_________________________________________________________________<br />

2 130 26<br />

3 140 28<br />

4 120 24<br />

5 40 8<br />

6 50 10<br />

7 20 4<br />

Totalt 500 100<br />

a) Beräkna medelantalet bostadsrum per bostad<br />

b) Beräkna standardavvikelsen för antal bostadsrum<br />

c) Beräkna medianantalet bostadsrum<br />

d) Beräkna kvartilavstånd (interquartile range)<br />

Övning 1:e<br />

En fristående kurs på totalt 20 poäng är uppdelad i 4 delkurser om vardera 5 poäng. De<br />

30 personer, som varit registrerade på <strong>kursen</strong> har vid <strong>kursen</strong>s slut uppnått varierande<br />

antal poäng. Fördelningen ser ut som följer:<br />

Uppnått antal poäng, X Antal personer<br />

0 3<br />

5 2<br />

10 5<br />

15 8<br />

20 12<br />

a) Beräkna medelpoäng, µ, i gruppen om 30 personer<br />

b) Beräkna standardavvikelsen, σ, i gruppen om 30 personer<br />

c) Beskriv resultatet för de 30 personerna i ett lådagram<br />

d) Beskriv materialet i ett stapeldiagram<br />

Övning 1:f<br />

Du vill jämföra lönenivån mellan två mindre företag. Eftersom lönen oftast hänger ihop<br />

med den anställdes utbildningsnivå, skaffar du information om dels månadslön och dels<br />

utbildning för var och en av de anställda. Du grupperar utbildningen i följande fyra kategorier,<br />

där varje anställd finns i en och endast en kategori<br />

F: Forskarutbildning<br />

H: Högskoleutbildning<br />

G: Gymnasieskola<br />

Ö: Övrig utbildning<br />

67


Så här ser resultatet ut för de 15 anställda i A och de 12 anställda i B:<br />

Varje persons månadslön är angiven i antal tusen kronor (tkr)<br />

Utbildning Företag A Företag B<br />

F 32, 30, 25 31, 29, 27, 25<br />

H 27, 23, 19, 19, 24, 20, 18, 18<br />

G 18, 17, 16, 15, 14 16, 14<br />

Ö 16, 15, 14 14, 14<br />

a) Beräkna medellönen för de 15 anställda i företag A och motsvarande mått för de 12<br />

anställda i förtag B.<br />

b) Bilda en tabell som lämpar sig väl som underlag för beräkning av standardvägda medeltal.<br />

Tabellen skall innehålla en kolumn för varje företag och en rad för varje utbildningsnivå.<br />

I varje cell skall Du placera medellönen för de personer som finns i<br />

"cellen" samt hur många personerna är. Bilda därefter standardvägda medeltal för<br />

vardera företaget. Standardisera med avseende på utbildningskategori.<br />

c) Jämför resultaten under a) och b) och kommentera eventuella skillnader. Förklara<br />

varför det blir så i just det här fallet.<br />

Övning 1:g<br />

I en kommun avser man byta ekonomiskt redovisningssystem. Det kommer därför bli<br />

aktuellt att utbilda personalen på det nya systemet. Man tar fram två utbildningsmaterial<br />

avsedda i huvudsak för självstudier och testar de båda materialen på två av kommunens<br />

förvaltningar, det ena materialet på en förvaltning och det andra på den andra. Syftet är<br />

att komma underfund med vilken metod som ger kortast inlärningstid och därmed är<br />

minst resurskrävande.<br />

De anställda på de två förvaltningarna för noggrann bok över den tid som går åt för att ta<br />

sig igenom studiematerialet, så att man klarar av ”slutprovet”. Resultaten redovisas i tabellen,<br />

där man delat in de anställda på de båda förvaltningarna efter ålder i två grupper -<br />

Äldre och Yngre - och efter datorvana i två grupper med stor respektive liten vana. Följande<br />

resultat erhålls:<br />

Genomsnittlig inlärningstid i timmar samt antal anställda (inom parantes)<br />

Grupp Material A, Förvaltning I Material B, Förvaltning II<br />

Äldre, stor vana 18 (22) 16 (16)<br />

Äldre, liten vana 27 (18) 26 (32)<br />

Yngre, stor vana 17 (36) 16 (22)<br />

Yngre, liten vana 26 (14) 23 (40)<br />

a) Beräkna den genomsnittliga inlärningstiden för vart och ett av de båda utbildningsmaterialen.<br />

b) Beräkna standardvägda medeltal för inlärningstiden för vart och ett av de båda utbildningsmaterialen.<br />

Välj standardvikter proportionella mot samtligas fördelning på<br />

68


åldersgrupp och datorvana.<br />

c) Jämför resultaten under a) och b) och kommentera. Förklara varför det blir så här i<br />

just detta fall.<br />

Övning 2:a<br />

Ett bageri bakar och säljer skorpor i helkilospåsar. En viss variation blir det dock i påsvikten.<br />

Räkna med att påsarna i genomsnitt väger 1000 gr med en standardavvikelse om 5<br />

gram. Fördelningen för påsvikten anses vara ungefär normal.<br />

a) Ungefär hur stor del av skorppåsarna väger minst 1008 gram?<br />

b) Om man slumpmässigt väljer ut en påse, hur stor är då risken (sannolikheten) att den<br />

skall visa sig väga mindre än 995 gram?<br />

c) Hur mycket skall en skorppåse minst väga för att den skall tillhöra de 25 % tyngsta<br />

paketen (övre kvartilen)?<br />

d) Antag nu att man slumpmässigt väljer ut 8 påsar ur en månads produktion. Beräkna<br />

sannolikheten att medelvikten av de 8 påsarna överstiger 1002 gram.<br />

Övning 3:a<br />

Man vill genomföra en urvalsundersökning (OSU) i syfte att kartlägga TV-tittande hos<br />

svenska ungdomar. Bl a vill man med ett 95-%igt konfidensintervall skatta hur många<br />

timmar i genomsnitt som 12-åringar ser på TV en "vanlig" vecka. Man vill göra en intervallskattning<br />

av den genomsnittliga tiden, µ, med en felmarginal om högst 0.5 timme.<br />

a) Antag att vi har anledning att räkna med att standardavvikelsen i populationen är cirka<br />

8 timmar per vecka. Beräkna hur stort urval som man minst bör ta.<br />

b) Antag nu att undersökningen gjorts utan att man först gjort utredningen under a) och<br />

att man i ett OSU-urval om 500 12-åringar erhöll medeltiden 28.6 timmar och standardavvikelsen<br />

9.5 timmar. Bilda ett 95-%igt konfidensintervall för µ.<br />

Övning 3:b<br />

Man har gjort två urval av företag i en viss bransch, det ena bestående av 100 bland totalt 10000<br />

småföretag och det andra bestående av 100 bland totalt 4000 större företag. Urvalen har gjorts<br />

helt oberoende av varandra. Syftet med undersökningen är att få ett grepp om företagens kostnader<br />

för sjukfrånvaro. Man har undersökt kostnaderna för november månad år 2005. Följande resultat<br />

erhölls:<br />

Små<br />

Större<br />

företag företag<br />

Medeltal, tkr 27.8 108.5<br />

Standardavvikelse, tkr 15.1 38.2<br />

a) Beräkna ett 95-%igt konfidensintervall för den genomsnittliga kostnaden för sjukfrånvaron<br />

bland större företag under november månad 2005. Uttala resultatet så att ickestatistik-kunniga<br />

förstår vad undersökningen visat.<br />

b) Beräkna ett 95-%igt konfidensintervall för den genomsnittliga kostnaden för sjukfrånvaron<br />

bland samtliga 14000 företag.<br />

69


c) Den situation som behandlas i denna övning är ett exempel på stratifierat urval. Försök<br />

bedöma om följande påstående är korrekt eller ej: ”Vid stratifiering bör man försöka få<br />

så liten standardavvikelse som möjligt inom varje stratum (delpopulation).”<br />

Övning 3:c<br />

Vi tänker oss en stor population om sammanlagt 10 000 företag som vart och ett gjort<br />

vissa investeringar under en given period. För enkelhets skull tänker vi oss att det handlar<br />

om 8000 mindre företag och 2000 större. Vi avser med hjälp av ett stratifierat urval om<br />

sammanlagt 400 företag bilda ett 95%igt konfidensintervall för de genomsnittliga investeringarna<br />

per företag i populationen.<br />

a) Beräkna felmarginalens storlek vid ”kändsigmavariant” om vi väljer n=200 OSU<br />

från vardera stratat och antar att stratumspridningarna är 7.0 respektive 20.<br />

b) Hur skall observationerna fördelas på de två strata om proportionell allokering skall<br />

användas?<br />

Antag att vi slumpmässig väljer 320 mindre företag och 80 större och erhåller följande<br />

resultat:<br />

Stratum 1 n=320 x = 16.5 s = 6.9<br />

Stratum 2 n= 80 x = 415.8 s = 22.4<br />

c) Beräkna felmarginalens storlek om vi vill skatta medelvärdet per företag i hela populationen.<br />

d) Beräkna ett approximativt 95%igt konfidensintervall för de totala investeringarna som<br />

gjorts i populationen under den aktuella perioden.<br />

e) Fundera kring hur om man skulle kunna fördela de totalt 400 observationerna på de<br />

båda strata på ett ur ”felmarginalsynpunkt” mera förnuftigt sätt.<br />

Övning 4:a<br />

280 slumpmässigt valda personer ur en stor population delas in efter ålder och åsikt om<br />

trafiken i Linköpings stadskärna på sätt som framgår av följande tabell:<br />

Tabell 1 Urvalets fördelning på ålder och åsikt. Antal personer<br />

Åsikt Yngre Äldre<br />

___________________________________________________________<br />

Trafiken mycket störande 48 72<br />

Trafiken något störande 32 72<br />

Trafiken ej störande 40 16<br />

___________________________________________________________<br />

Summa 120 160<br />

Hypotesen att det föreligger oberoende mellan kön och åsikt om trafiken skall prövas<br />

med chitvåtest på 5 % risknivå.<br />

a) Beräkna det aktuella chitvåvärdet och ta ställning till om hypotesen kan förkastas el-<br />

70


ler ej.<br />

b) Beräkna ett 95-%igt konfidensintervall för procentandelen personer i populationen<br />

som anser att trafiken ej är störande.<br />

Övning 4:b<br />

Man genomför en totalundersökning av en population som innehåller N=1000 personer i<br />

syfte att bestämma p - andelen ”positiva” (ettor) - i populationen. Man får svar från Ns<br />

personer. Övriga Nb = (1000-Ns) utgör bortfall. Beräkna för var och en av uppgifterna a-<br />

d dels bortfalls-andelen, Nb/N, dels ett intervall för p, sådant att p säkert ligger inom intervallet.<br />

Ledning: Antag att ickesvararna består av enbart positiva (1:or) respektive enbart<br />

negativa (0:or).<br />

a) Ns=800 och antalet positiva bland svararna är 200<br />

b) Ns=800 och antalet positiva bland svararna är 500<br />

c) Ns=400 och antalet positiva bland svararna är 100<br />

d) Ns=400 och antalet positiva bland svararna är 200<br />

e) sammanfatta vad bortfallet tycks betyda för slutsatserna i ett fall som detta.<br />

Övning 4:c<br />

Antag att vi vet att andelen ensamstående bland samtliga kvinnor i 20-25-årsåldern är 30<br />

%. Vi väljer slumpmässigt (OSU) 5 kvinnor över 20 år och definierar variabeln X=antal<br />

ensamstående bland de fem utvalda.<br />

a) Beräkna sannolikheten att minst 2 kvinnor är ensamstående.<br />

b) Antag nu att vi i stället ska välja 50 kvinnor med OSU. Beräkna sannolikheten att vi<br />

då skulle få minst 20 ensamstående.<br />

Övning 5:a<br />

Betrakta situationen i övning 4:a som om vi hade två oberoende OSU-urval (ett ur populationen<br />

äldre och ett ur populationen yngre).<br />

Undersök om andelen som tycker att trafiken är mycket störande är signifikant högre<br />

bland äldre än bland yngre. Testet skall genomföras på 1 % signifikansnivå. Formulera<br />

hypoteser, redovisa testvariabel och beräkna P-värde. Glöm ej att formulera slutsatsen i<br />

ord.<br />

Övning 5:b<br />

Vi arbetar här med data hämtade från en (gammal) undersökning av sambandet mellan<br />

inkomst, banktillgångar och nysparande (sparande under året) i hushåll. Sorten på de<br />

ekonomiska variablerna är tusental kronor. Materialet som använts här består av 9 hushåll<br />

och uppgifterna har analyserats i MINITAB. Nysparande betraktas i regressionsanalyserna<br />

som beroende variabel (Y ).<br />

I tabellen finns samlad information från tre enkla regressionsanalyser med nysparande<br />

som beroende variabel och var och en av de tre övriga som förklaringsvariabel i varsin<br />

analys.<br />

71


Variabel<br />

Medelvärde<br />

Standardavvikelse<br />

Korrelation<br />

med Nysparande<br />

Residualkvadratsumma<br />

e<br />

( )<br />

∑ 2<br />

∑ ( X − X )<br />

Nysparande 7.33 2.828<br />

Inkomst 80.0 15.81 +0.839 19.011 1999.64<br />

Bankmedel 90.0 47.4 - 0.680 34.406 17974.08<br />

Antal barn 2.556 1.333 - 0.685 33.972 14.22<br />

Här följer en regressionsanalys med en förklaringsvariabel<br />

Regression Analysis<br />

The regression equation is<br />

Nysparande = 11.0 - 0.0406 Bankmedel<br />

Predictor Coef StDev<br />

Constant 10.983 1.660<br />

Bankmedel -0.04056 0.01652<br />

S = 2.217 R-Sq = 46.3%<br />

a) Tolka i vanliga ord lutningskoefficienten (b 1 ) i ovanstående regressionsekvation.<br />

b) Pröva hypotesen att det inte finns något linjärt samband mellan bankmedel och nysparande.<br />

Det skulle ju vara möjligt att göra tre olika regressionsanalyser med nysparande som beroende<br />

variabel och inkomst eller bankmedel eller antal barn som förklarande variabel.<br />

(Du har all information Du behöver för de följande deluppgifterna i tabellen.)<br />

c) Vilken av dessa tre analyser skulle Du välja om Du var tvungen att satsa på bara en.<br />

Motivera Ditt val väl.<br />

d) Bilda ett 95-%igt konfidensintervall för lutningskoefficienten för förklaringsvariabeln<br />

som Du valt i deluppgift c. Tolka intervallet.<br />

2<br />

72


6.1 Facit till övningsuppgifter<br />

1:a a) 17, 17, 17 b) 11.5 och 21.5, 10<br />

c) De fem talen är 9, 11.5, 17, 21.5, 27 d) 33.25 respektive 5.77<br />

1:b b) 1.15 respektive 28.5<br />

d) Kvinnliga: 1.9 respektive 1.75 tusen mil, manliga: 2.02 respektive 1.9 tusen mil<br />

1:c c) 220 tkr respektive 269 tkr, 18.33 tkr respektive 16.81 tkr<br />

d) 19.67 respektive 19.50<br />

e)<br />

Tjänstekategori C-mora, medellön + (antal) D-lunda, medellön + (antal)<br />

Läkare 32 (3) 28 (6)<br />

Övr vårdpersonal 16 (6) 15 (7)<br />

Övrig personal 14.7 (3) 13 (3)<br />

Standardvägda medeltal 20.86 respektive 18.75<br />

1:d a) 3.6 b) varians 2.0 och standardavvikelse 1.414<br />

c) 3 d) kvartilerna 2 och 4, kvartilavståndet 2.<br />

1:e a) 14 b) 6.51 c) 0, 10, 15, 20, 20 (de fem måtten)<br />

1:f a) 20 tkr respektive 20.8 tkr<br />

b) 21.0 tkr respektive 19.7 tkr, med standardvikter proportionella mot samtliga 27<br />

personers fördelning på utbildning.<br />

1:g a) 20.6 och 21.5 b) 22.1 och 20.4<br />

c) I a) får material B längre genomsnittlig tid än material A (21.5 respektive 20.6)<br />

trots att material A har högre genomsnittstid på varje rad i tabellen. Detta beror på att<br />

material A testas på en majoritet av personer med stor vana (22+36=58 personer av<br />

90) och som därför får kort inlärningstid medan material B testas på en majoritet av<br />

ovana (72 av 110) som får lång inlärningstid. När samma vikter används för båda materialen,<br />

som i b) slår det faktum att A ger längre genomsnittstider än B i varje grupp<br />

igenom och ger A ett större standardvägt medeltal än B (22.1 jmf med 20.4).<br />

2:a a) 5.48 % b) 0.16 (15.87 %) c) 1003.35 g (motsvarar z-värdet 0.67)<br />

d) 0.13 (12.92 %)<br />

3:a a) 984 b) 27.77 till 29.43<br />

3:b a) 101 till 116 b) 47.86 till 53.86<br />

c) Påståendet är sant. I formeln för felmarginalen kan man se att ju mindre stratumvarianser<br />

desto kortare felmarginal.<br />

3:c a) 0.95(38) b) 320 respektive 80<br />

73


c) 1.15(31) d) 952100 till 975100<br />

e) Eftersom standardavvikelsen är så mycket större i stratum två skulle det förmodligen<br />

löna sig (ge kortare felmarginal) om man tog lite fler ur det stratumet än de 80, som<br />

vi räknat med i c) och d). Man kan ju pröva sig fram lite och se om inte drygt 200 små<br />

och knappt 200 stora kanske vore att föredra.<br />

4:a a) Beräknat chitvåvärde=25.29, kritiskt värde=5.99. Nollhypotesen förkastas.<br />

b) 0.2 +/- 0.047<br />

4:b a) 0.2, 0.2 till 0.4 b) 0.2, 0.5 till 0.7<br />

c) 0.6, 0.1 till 0.7 d) 0.6, 0.2 till 0.8<br />

e) Intervallängden tycks vara lika med bortfallets storlek.<br />

4:c a) 0.47 b) 0.062<br />

5:a Testvariabelns beräknade värde 0.86, kritiskt värde 2.33. Nollhypotesen förkastas ej.<br />

5:b a) För varje extra 1000-tal kronor i bankmedel så minskar nysparandet enligt modellen<br />

med 40.6 kronor.<br />

b) Det observerade t-värdet är –2.455 och tabellvärdet –2.365. H(noll) förkastas alltså.<br />

c) Ett möjligt svar (i komprimerad form): Den med den bästa förklaringsgraden, nämligen<br />

modellen med inkomst. Denna modell känns också mest logisk.<br />

d) 0.15 +/- 0.088.<br />

74


7. Ordlista<br />

aritmethic mean<br />

association<br />

bar graph<br />

boxplot<br />

categorical variable<br />

central limit theorem<br />

chart<br />

complement<br />

conditional<br />

confidence interval<br />

confidence level<br />

correlation coefficient<br />

coverage<br />

deviation<br />

density function<br />

disjoint<br />

distribution<br />

estimate<br />

event<br />

expected value<br />

explained fraction of variance<br />

explorative data analysis<br />

frame<br />

independent<br />

interquartile range<br />

intersection<br />

least-squares regression line<br />

margin of error<br />

mode<br />

mutually exclusive<br />

nonresponse<br />

ogive<br />

outlier<br />

probability<br />

random<br />

random variabel<br />

reject<br />

pie chart<br />

range<br />

power<br />

quantile<br />

quartile<br />

sample space<br />

sampling distribution<br />

scatterplot<br />

significance level<br />

simple random sample (SRS)<br />

standard deviation<br />

standard error<br />

stem-and-leaf-plot<br />

stemplot<br />

tree diagram<br />

aritmetiskt medelvärde<br />

samband<br />

stapeldiagram<br />

lådagram<br />

kategorivariabel<br />

centrala gränsvärdessatsen<br />

diagram<br />

komplement<br />

betingad<br />

konfidensintervall<br />

konfidensnivå, konfidensgrad<br />

korrelationskoefficient<br />

täckning<br />

avvikelse<br />

täthetsfunktion<br />

oförenliga<br />

fördelning<br />

skatta, skattning<br />

händelse<br />

förväntat värde, väntevärde, förväntan<br />

förklaringsgrad<br />

explorativ dataanalys<br />

ram, urvalsram<br />

oberoende<br />

kvartilavstånd<br />

snitt<br />

minsta-kvadrat-linjen<br />

felmarginal, slumpmarginal<br />

typvärde<br />

oförenliga, ömsesidigt uteslutande<br />

bortfall<br />

summapolygon<br />

extremvärde, (uteliggare förekommer även)<br />

sannolikhet<br />

slump-, slumpmässig<br />

slumpvariabel<br />

förkasta<br />

cirkeldiagram (ibland paj/tårtdiagram)<br />

variationsbredd<br />

styrka<br />

kvantil<br />

kvartil<br />

utfallsrum<br />

samplingfördelning<br />

spridningsdiagram<br />

signifikansnivå/risknivå<br />

obundet slumpmässigt urval (OSU)<br />

standardavvikelse<br />

medelfel, avser standardavvikelsen för den aktuella punktskattningen<br />

stam-och-blad-diagram<br />

stam-och-blad-diagram<br />

träddiagram<br />

75


type I error<br />

type II error<br />

undercoverage<br />

unbiased<br />

uniform<br />

voluntary response sample<br />

fel av första slaget<br />

fel av andra slaget<br />

undertäckning<br />

väntevärdesriktig<br />

likformig<br />

självurval<br />

76

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!