28.07.2013 Views

C:\mol\noter\Statistik\Statistiske grundbegreber-v11\s1v11-forside.wpd

C:\mol\noter\Statistik\Statistiske grundbegreber-v11\s1v11-forside.wpd

C:\mol\noter\Statistik\Statistiske grundbegreber-v11\s1v11-forside.wpd

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

MOGENS ODDERSHEDE LARSEN<br />

18<br />

15<br />

12<br />

9<br />

6<br />

3<br />

0<br />

STATISTISKE<br />

GRUNDBEGREBER<br />

med anvendelse af TI 89 og Excel<br />

Histogram for pH<br />

6,9 7,1 7,3 7,5 7,7 7,9<br />

pH<br />

11. udgave 2010


FORORD<br />

Der er i denne bog søgt at give letlæst og anskuelig fremstilling af de statistiske <strong>grundbegreber</strong> til<br />

brug ved en indledende undervisning i statistik. De væsentligste definitioner og sætninger forklares<br />

derfor fortrinsvist ved hjælp af figurer og gennemregnede praktiske eksempler. Ønskes en mere<br />

matematisk uddybende forklaring, bevis for sætninger osv. kan dette ofte findes i et særskilt tillæg<br />

til bogen, som findes på nettet under titlen “Supplement til statistiske <strong>grundbegreber</strong>”.<br />

Læsning: Bogen er bygget således op, at der hurtigt nås frem til normalfordelingen og de vigtige<br />

normalfordelingstest. Disse vigtige begreber kan derfor blive grundigt indarbejdet, selv om der kun<br />

er kort tid til rådighed. Er det af tidsmæssige grunde svært at nå hele notatet kan man uden skade for<br />

helheden overspringe kapitlerne 10 og 11, ligesom man eventuelt kan tage kapitlerne 1 og 9 mere<br />

oversigtsagtigt.<br />

Sidst i hver kapitel findes en række opgaver, der yderligere kan fremme forståelsen.<br />

Bagerst i bogen findes en facitliste til alle opgaverne.<br />

I et længere kursusforløb er denne bog tænkt at skulle efterfølges af M. Oddershede Larsen:<br />

Videregående Statistik”, som kan hentes gratis på e-mailadressen www.larsen-net.dk<br />

Regnemidler. Det er hensigtsmæssigt, at man har adgang til en lommeregner eller en PC med<br />

normalfordeling, t - fordeling, binomialfordeling og Poissonfordeling indbygget.<br />

I eksemplerne angives således, hvorledes beregningerne kan foretages med den i øjeblikket mest<br />

populære lommeregner TI-89, samt med det meget udbredte regneark Excel.<br />

Endvidere er der i et afsnit sidst i bogen også angivet hvorledes beregningerne kan udføres med<br />

lommeregneren TI-83 og matematikprogrammerne Maple og Mathcad.<br />

I 8- udgave findes tabeller over de sædvanlige statistiske funktioner, samt forklaret hvordan<br />

tabellerne anvendes<br />

I denne 11. udgave er der ingen statistiske tabeller, men alle eksempler regnes med anvendelse af<br />

lommeregneren TI89 og regnearkprogrammet Excel.<br />

Endvidere er der indsat et kapitel om deskriptiv statistik, som viser hvordan man kan anvende Excel<br />

til tegning af histogrammer m.m.<br />

Denne udgave, samt 8 udgave kan sammen med en række andre noter findes på adressen:<br />

www.larsen-net.dk<br />

Jeg vil gerne takke ingeniørdocent L. Brøndum og J. D. Monrad for de mange gode råd gennem<br />

årene.<br />

En særlig tak til lektor Bjarne Hellesen, som dels har skrevet afsnit 11 , dels er kommet med mange<br />

værdifulde kommentarer og bidrag til forbedringer.<br />

august 2010 Mogens Oddershede Larsen<br />

i


INDHOLD<br />

1 INTRODUKTION TIL STATISTIK .......................................... 1<br />

2 DESKRIPTIV STATISTIK<br />

2.1 Kvalitative data ......................................................... 2<br />

2.2 Kvantitative data ........................................................ 4<br />

2.3 Karakteristiske tal....................................................... 7<br />

Opgaver ................................................................. 12<br />

3 KONTINUERT STOKASTISK VARIABEL<br />

3.1 Sandsynlighed......................................................... 15<br />

3.2 Stokastisk variabel ..................................................... 16<br />

3.3 Tæthedsfunktion, middelværdi og spredning for kontinuert stokastisk variabel ...... 17<br />

3.4 Linearkombination af stokastiske variable................................... 21<br />

3.5 Usikkerhedsberegning .................................................. 23<br />

Opgaver ................................................................. 26<br />

4 NORMALFORDELINGEN<br />

4.1 Indledning ........................................................... 28<br />

4.2 Definition og sætninger om normalfordeling ................................. 29<br />

4.3 Beregning af sandsynligheder ............................................ 32<br />

Opgaver ................................................................. 36<br />

5 STIKPRØVER<br />

5.1 Udtagning af stikprøver ................................................... 38<br />

5.2 Fordeling og spredning ag gennemsnit ..................................... 39<br />

5.3 Konfidensinterval for middelværdi .......................................... 40<br />

5.3.1 Definition af konfidensinterval ........................................ 40<br />

5.3.2 Populationens spredning kendt eksakt .................................. 41<br />

5.3.3 Populationens spredning ikke kendt eksakt .............................. 43<br />

5.4 Konfidensinterval for spredning ............................................ 48<br />

5.5 Oversigt over centrale formler i kapitel 5 ..................................... 50<br />

Opgaver ................................................................. 51<br />

6 HYPOTESETESTNING (1 NORMALFORDELT VARIABEL)<br />

6.1 Grundlæggende begreber ................................................ 53<br />

6.2 Eksempler på hypotesetest regnet med TI89 og Excel ......................... 56<br />

6.3 Fejl af type I og typr II .................................................. 59<br />

6.4 Oversigt over centrale formler i kapitel 6 ..................................... 63<br />

Opgaver ................................................................. 66<br />

7 HYPOTESETESTNING (2 NORMALFORDELTE VARIABLE)<br />

7.1 Indledning ........................................................... 70<br />

7.2 Sammenligning af 2 normalfordelte variable ................................. 71<br />

7.3 Oversigt over centrale formler i kapitel 7 ..................................... 76<br />

Opgaver ................................................................. 77<br />

ii


Indhold<br />

8 REGNEREGLER FOR SANDSYNLIGHED, KOMBINATORIK<br />

8.1 Regneregler for sandsynlighed ............................................ 80<br />

8.2 Betinget sandsynlighed ................................................. 82<br />

8.3 Kombinatorik ......................................................... 84<br />

8.3.1 Indledning ........................................................ 84<br />

8.3.2 Multiplikationsprincippet ............................................ 84<br />

8.3.3 Ordnet stikprøveudtagelse ............................................ 85<br />

8.3.4 Uordnet stikprøveudtagelse ........................................... 86<br />

Opgaver ................................................................. 88<br />

9 VIGTIGE DISKRETE FORDELINGER<br />

9.1 Indledning ........................................................... 91<br />

9.2 Hypergeometrisk fordeling .............................................. 91<br />

9.3 Binomialfordeling ..................................................... 94<br />

9.4 Poissonfordeling ...................................................... 100<br />

9.5 Den generaliserede hypergeometriske fordeling ............................. 103<br />

9.6 Polynomialfordeling ................................................... 104<br />

9.7 Approksimationer ..................................................... 104<br />

9.8 Oversigt over centrale formler i kapitel 9 ................................... 105<br />

Opgaver ................................................................ 107<br />

10 ANDRE KONTINUERTE FORDELINGER<br />

10.1 Indledning .......................................................... 113<br />

10.2 Den rektangulære fordeling ............................................. 113<br />

10.3 Eksponentialfordelingen .............................................. 115<br />

10.4 Weibullfordelingen ................................................. 117<br />

10.5 Den logaritmiske fordeling ............................................. 118<br />

10.6 Den todimensionale normalfordeling ...................................... 118<br />

Opgaver ................................................................ 119<br />

11 FLERDIMENSIONAL STATISTISK VARIABEL<br />

11.1 Essens ............................................................. 120<br />

11.2 Indledning ......................................................... 121<br />

11.2 Kovarians og korrelationskoefficient ..................................... 123<br />

11.3 Linearkombination ................................................... 126<br />

Opgaver ................................................................ 128<br />

STATISTISKE BEREGNINGER UDFØRT PÅ LOMMEREGNER OG PC<br />

TI-89................................................................... 131<br />

Excel................................................................... 133<br />

TI-83................................................................... 136<br />

Maple .................................................................. 138<br />

Mathcad ................................................................ 139<br />

APPENDIX. OVERSIGT OVER APPROKSIMATIONER ....................... 141<br />

iii


TABEL OVER FRAKTILER I NORMERET NORMALFORDELING ............. 143<br />

FACITLISTE .............................................................. 144<br />

STIKORD ................................................................. 148<br />

iv


1<br />

1 Introduktion til statistik<br />

1 INTRODUKTION TIL STATISTIK<br />

Ved næsten alle ingeniørmæssige problemer vil de indsamlede data udvise variation. Måler man<br />

således gentagne gange indholdet (i %) af et bestemt stof i et levnedsmiddel, vil det procentvise<br />

indhold ikke blive præcis samme tal for hver gang man foretager en måling. Dette kunne naturligvis<br />

være en usikkerhed ved målemetoden, men det vil sjældent være den væsentligste årsag.<br />

Ved mange industrielle processer vil en række ukontrollable forhold indvirke på det endelige<br />

resultat. Eksempelvis vil udbyttet af en kemisk proces variere fra dag til dag, fordi man ikke har<br />

fuldstændig kontrol over forsøgsbetingelser som temperatur, omrøringstid, tidspunkt for<br />

tilsætning af råmaterialer, fugtighed osv. Endvidere er forsøgsmaterialerne muligvis ikke<br />

homogene nok. Råmaterialerne kan f.eks. være af varierende kvalitet, der må bruges forskelligt<br />

apparatur under produktionsprocessen, forskelligt personale deltager i arbejdet osv.<br />

Statistik drejer sig om at samle, præsentere og analysere data med henblik på at foretage<br />

beslutninger og løse problemer.<br />

I den deskriptive statistik beskrives data ved tabeller, grafisk (lagkagediagrammer, søjlediagrammer)<br />

og ved beregning af karakteristiske tal såsom gennemsnit og spredning.<br />

Man kan eksempelvis i “Danmarks Statistik” (findes på nettet under adressen www.statistikbanken.dk<br />

) finde, hvor mange personbiler der er i Danmark i 2009 opdelt efter alder.<br />

Man kender her populationen (biler i Danmark), kan grafisk vise deres fordeling i et søjlediagram<br />

og beregne deres gennemsnitlige alder.<br />

I den mere analyserende statistik (kaldet inferentiel statistik) søger man ved mere avancerede<br />

statistiske metoder ud fra en repræsentativ stikprøve at konkludere noget om hele populationen.<br />

Eksempelvis udtages ved en meningsmåling en forhåbentlig repræsentativ stikprøve på 1000<br />

vælgere, som man spørger om hvilket politisk parti de ville stemme på, hvis der var valg i<br />

morgen.<br />

Man vil så ud fra stikprøven konkludere, at hvis man spurgte hele populationen (alle vælgere i<br />

Danmark) , så ville man med en vis usikkerhed få samme resultat.<br />

Viser stikprøven, at partiet “Venstre” vil gå 2.5% tilbage, så vil det samme ske, hvis der var valg<br />

i morgen.<br />

Et sådant tal er naturligvis usikkert. Man må derfor anvende passende statistiske metoder til<br />

eksempelvis at beregne, at usikkerheden er på 2%.


2 Deskriptiv statistik<br />

2. DESKRIPTIV STATISTIK<br />

I den deskriptive statistik (eller beskrivende statistik) beskrives de indsamlede data i form af<br />

tabeller, søjlediagrammer, lagkagediagrammer, kurver samt ved udregning af centrale tal som<br />

gennemsnit, typetal, spredning osv.<br />

Kurver og diagrammer forstås lettere og mere umiddelbart end kolonner af tal i en tabel. Øjet er<br />

uovertruffet til mønstergenkendelse (“en tegning siger mere end 1000 ord”).<br />

2.1 KVALITATIVE DATA<br />

Hvis der er en naturlig opdeling af talmaterialet i klasser eller kategorier siges, at man har<br />

kategorisk eller kvalitative data .<br />

Alle spørgeskemaundersøgelser, hvor man eksempelvis bliver bedt om at sætte kryds i nogle<br />

rubrikker “meget god” , god, acceptabel osv. er af denne type.<br />

De følgende 2 eksempler viser anvendelse af henholdsvis lagkagediagram og søjlediagram<br />

Eksempel 2.1 Lagkagediagram<br />

Nedenfor er angivet hvordan en kommunes udgifter fordeler sig på de forskellige områder.<br />

Udligning 23,1<br />

øvrige 8,4<br />

Socialområdet,øvrige 9,4<br />

Ældre 18,6<br />

Børnepasning 10,4<br />

Bibliotek 1,9<br />

fritid 3,8<br />

Skoler 10,5<br />

Administration 7,3<br />

Teknik,anlæg 6,6<br />

Dan et lagkagediagram til anskueliggørelse heraf.<br />

Løsning:<br />

Data opskrives i Excel og der gives følgende “ordrer”<br />

2003: Marker udskriftsområde Vælg på værktøjslinien “Guiden diagram” Cirkel Marker ønsket figur Næste Navn<br />

på kategori Udfør<br />

2007: Marker udskriftsområde Vælg på værktøjslinien “Indsæt” Cirkel Marker ønsket figur<br />

Ønskes tekst placeret som på figur<br />

Cursor på figur Formater dataetiketter Vælg “kategorinavn” og “udenfor”.<br />

Skoler<br />

Fritid<br />

kultur<br />

Børnepasning<br />

Administr.<br />

Teknik<br />

Udgifter<br />

Ældre<br />

2<br />

Æ<br />

udligning<br />

Øvrige<br />

socialområdetøvrige


3<br />

2.1 Kvalitative data<br />

Eksempel 2.2 (kvalitative data)<br />

Følgende tabel angiver mandattallet ved de to sidste folketingsvalg.<br />

Partier A B C F K O V Ø<br />

Mandater 2001 52 9 16 12 4 22 56 4<br />

2005 47 17 18 11 0 24 52 6<br />

A = Socialdemokraterne, B =Radikale venstre, C = Konservative folkeparti , F =Socialistisk<br />

folkeparti, K = Kristendemokraterne,<br />

O = Dansk Folkeparti, V = Venstre, Ø = Enhedslisten<br />

Anskueliggør disse mandattal ved i Excel at tegne et søjlediagram<br />

Løsning:<br />

Et søjlediagram fås i Excel ved at opskrive<br />

A B C F K O V Ø<br />

52 9 16 12 4 22 56 4<br />

47 17 18 11 0 24 52 6<br />

2003: Vælg på værktøjslinien “Guiden diagram” Søjle Marker ønsket figur Næste marker udskriftsområde<br />

Næste Næste Udfør<br />

2007: Marker udskriftområde Vælg på værktøjslinien “Indsæt” Søjle Marker ønsket figur<br />

Cursor på vandret akse, højre musetast data Under “rediger kategoriakse” marker bogstavrækken<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

A B C F K O V Ø<br />

Fordelen ved en grafisk fremstilling er, at de væsentligste egenskaber ved data opnås hurtigt og<br />

sikkert. Men netop det, at figurer appellerer umiddelbart til os, gør at vi kan komme til at lægge<br />

mere i dem, end det som tallene egentlig kan bære. Eksempelvis viser forsøg, at i lagkagediagrammer,<br />

hvor man skal sammenligne vinkler (eller arealer), da vil denne sammenligning<br />

afhænge noget af i hvilken retning vinklens ben peger.<br />

Nedenstående eksempel viser hvordan en figur kan være misvisende uden direkte at være forkert.<br />

Serie1<br />

Serie2


2 Deskriptiv statistik<br />

Eksempel 2.3. Misvisende figur<br />

Tønderne i figuren nedenfor skal illustrere hvordan osteeksporten fordeler sig på de forskellige<br />

verdensdele. Den giver imidlertid et helt forkert indtryk. Det er højderne på tønderne der angiver<br />

de korrekte forhold, men af tegningen vil man tro, at det er rumfangene af tønderne. De 3 små<br />

tønder kan umiddelbart være flere gange indeni den store tønde, men det svarer jo ikke til<br />

talforholdene.<br />

De mest almindelige figurer til at give et visuelt overblik over større talmaterialer er histogrammer<br />

(søjlediagrammer) og kurver i et koordinatsystem.<br />

2.2. KVANTITATIVE DATA (VARIABLE)<br />

Kvantitative data er data, hvor registreringen i sig selv er tal, der angiver en bestemt rækkefølge,<br />

f. eks. som i eksempel 1.4 hvor data registreres efter det tidspunkt hvor registreringen foregår<br />

eller som i eksempel 1.5, hvor det er størrelsen af registrerede værdi der er af interesse.<br />

Eksempel 2.4. Kvantitativ variabel: tid<br />

Fra “statistikbanken (adresse http://www.statistikbanken.dk/) er hentet følgende data ind i Excel,<br />

der beskriver hvorledes indvandringer og udvandringer er sket gennem tiden.<br />

Excel: Vælg “Befolkning og valg” Ind- og udvandring Ind- og udvandring på måned under “bevægelse” vælges<br />

alle og under “måned” vælges år og derefter alle Tryk på tabel Drej tabel med uret Gem som Excel fil<br />

Indvandringer og udvandringer efter tid og bevægelseIndvandrede<br />

Udvandrede<br />

1983 27718 25999<br />

1984 29035 25053<br />

1985 36214 26715<br />

1986 38932 27928<br />

1987 36296 30123<br />

1988 35051 34544<br />

1989 38391 34949<br />

1990 40715 32383<br />

1991 43567 32629<br />

1992 43377 31915<br />

1993 43400 32344<br />

1994 44961 34710<br />

1995 63187 34630<br />

1996 54445 37312<br />

1997 50105 38393<br />

1998 51372 40340<br />

1999 50236 41340<br />

2000 52915 43417<br />

2001 55984 43980<br />

2002 52778 43481<br />

2003 49754 43466<br />

2004 49860 45017<br />

2005 52458 45869<br />

2006 56750 46786<br />

2007 64656 41566<br />

2008 72749 43490<br />

2009 67161 44874<br />

Giv en grafisk beskrivelse af disse data.<br />

4


5<br />

2.2 Kvantitative data<br />

Løsning:<br />

Da dataene er registreret efter tid (år) (den kvantitative variabel “tid”) tegnes to kurver i samme<br />

koordinatsystem:<br />

Excel:2003: Marker udskriftsområde Vælg på værktøjslinien “Guiden diagram” Kurve Marker ønsket figur<br />

Næste Næste Næste Udfør<br />

Excel 2007:Marker udskriftsområde Vælg på værktøjslinien “ Indsæt” Streg Marker ønsket figur<br />

Der er foretaget enkelte andre justeringer inden følgende figur fremkom.<br />

80000<br />

70000<br />

60000<br />

50000<br />

40000<br />

30000<br />

20000<br />

10000<br />

0<br />

1983198519871989 1991199319951997199920012003200520072009<br />

Indvandrede<br />

Udvandrede<br />

Eksempel 2.5. Kvantitativ variabel , størrelse af brintionkoncentrationen pH<br />

I menneskers led udskiller den inderste hinde en "ledvæske" som "smører" leddet. For visse<br />

ledsygdomme kan brintionkoncentrationen (pH) i denne væske tænkes at have betydning. Som<br />

led i en nordisk medicinsk undersøgelse af en bestemt ledsygdom udtog man blandt samtlige<br />

patienter der led af denne sygdom en repræsentativ stikprøve ved simpel udvælgelse 75 patienter<br />

og målte pH i ledvæsken i knæet.<br />

Resultaterne (som kan findes som excel-fil på adressen www.larsen-net.dk ) var følgende:<br />

7.02 7.26 7.31 7.16 7.45 7.32 7.21 7.35 7.25 7.24 7.20 7.21 7.27 7.28 7.19<br />

7.39 7.40 7.33 7.32 7.35 7.34 7.41 7.28 7.27 7.28 7.33 7.20 7.15 7.42 7.35<br />

7.38 7.32 7.71 7.34 7.10 7.35 7.15 7.19 7.44 7.12 7.22 7.12 7.37 7.51 7.19<br />

7.30 7.24 7.36 7.09 7.32 6.95 7.35 7.36 7.52 7.29 7.31 7.35 7.40 7.23 7.16<br />

7.26 7.47 7.61 7.23 7.26 7.37 7.16 7.43 7.08 7.56 7.07 7.08 7.17 7.29 7.20<br />

Giv en grafisk beskrivelse af disse data.<br />

Løsning:<br />

I dette tilfælde, hvor vi er interesseret i at få et overblik over tallenes indbyrdes størrelse er det<br />

fordelagtigt at tegne et histogram.<br />

Et histogram ligner et søjlediagram, men her gælder, at antallet af enheder i hver søjle repræsenteres<br />

ved søjlens areal (histo er græsk for areal). Man bør så vidt muligt sørge for at grupperne<br />

er lige brede, da antallet af enheder så svarer til højden af søjlen.<br />

Excel kan umiddelbart tegne er histogram, men af hensyn til det følgende forklares hvordan man<br />

bestemmer intervalopdeling m.m.<br />

Først findes det største tal x max og det mindste tal x min i materialet og derefter beregne variationsbredden<br />

x max - x min. Vi ser, at største tal er 7.71 og mindste tal er 6.95 og variationsbredden<br />

derfor 7.71 - 6.95 = 0.76.


2 Deskriptiv statistik<br />

Dernæst deles tallene op i et passende antal intervaller (klasser). Som det første bud vælges ofte<br />

et antal nær n . Da<br />

076 .<br />

75 ≈ 9 vælges ca. 9 klasser. Da ≈ 008 . deler vi op i de klasser, der<br />

9<br />

ses af tabellen. Dette giver 10 intervaller. Vi tæller op hvor mange tal der ligger i hvert interval<br />

(gøres nemmest ved at starte forfra og sæt en streg i det interval som tallet tilhører).<br />

Klasser Antal n<br />

]6.94 - 7.02] // 2<br />

]7.02 - 7.10] ///// 5<br />

]7.10 - 7.18] //////// 8<br />

]7.18 - 7.26] ///////////////// 17<br />

]7.26 - 7.34] ////////////////// 18<br />

]7.34 - 7.42] //////////////// 16<br />

]7.42 - 7.50] //// 4<br />

]7.50 - 7.58] /// 3<br />

]7.58 - 7.66] / 1<br />

]7.66 - 7.74] / 1<br />

Allerede her kan man se, at antallet er størst omkring 7.30, og så falder hyppigheden nogenlunde<br />

symmetrisk til begge sider.<br />

I Excel sker det på følgende måde:<br />

Data indtastes i eksempelvis søjle A1 til A75 ( data findes på adressen www.larsen-net.dk )<br />

2003: Vælg “Funktioner” Dataanalyse Histogram<br />

2007: Vælg “Data” Dataanalyse Histogram<br />

I den fremkomne tabel udfyldes “inputområdet” med A1:A75 og man vælger “diagramoutput”..<br />

1) Trykkes på OK fås en tabel med hyppigheder, og en figur, hvor intervalgrænserne er fastlagt af Excel.<br />

2) Ønsker man selv at bestemme grænserne, skal man også udfylde intervalområdet. Dette gøres ved at skrive de<br />

øvre grænser i en søjle (f.eks. i B1 6.94, i B2 7.02 osv. til B10: 7.66) og så skrive B1:B10 i inputområdet<br />

Nedenstående figurer er blevet gjort lidt “pænere” ved<br />

cursor på en søjle tryk højre musetast formater dataserie indstilling mellemrumsbredde = 0 ok<br />

I tilfælde 1 fremkommer så følgende udskrift og tegning:<br />

Interval Hyppighed<br />

6,95 1<br />

7,045 1<br />

7,14 7<br />

7,235 17<br />

7,33 22<br />

7,425 18<br />

7,52 6<br />

7,615 2<br />

Mere 1<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

6<br />

Hyppighed<br />

6,95 7,045 7,14 7,235 7,33 7,425 7,52 7,615 Mere<br />

Hyppighed


I tilfælde 2 følgende<br />

Interval Hyppighed<br />

6,94 0<br />

7,02 2<br />

7,1 5<br />

7,18 8<br />

7,26 17<br />

7,34 18<br />

7,42 16<br />

7,5 4<br />

7,58 3<br />

7,66 1<br />

Mere 1<br />

7<br />

2.3 Karakteristiske tal<br />

Histogrammet er et "klokkeformet histogram", hvor der er flest tal fra 7.19 til 7.42, og derefter<br />

falder antallet til begge sider.<br />

Man regner normalt med, at resultaterne af forsøg, hvor man har foretaget målinger (hvis man<br />

lavede nok af dem) har et sådant klokkeformet histogram og siger, at resultaterne er normalfordelt<br />

(beskrives nærmere i næste kapitel)<br />

2.3 KARAKTERISTISKE TAL<br />

20<br />

18<br />

16<br />

14<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

Hyppighed<br />

6,94 7,02 7,1 7,18 7,26 7,34 7,42 7,5 7,58 7,66 Mere<br />

Skal man sammenligne to talmaterialer, eksempelvis sammenligne de 75 pH-værdier i eksempel<br />

1.4 med 200 dårlige knæ fra Tyskland, har det ingen mening at sammenligne hyppighederne<br />

Man må i sådanne tilfælde angive nogle tal, som gør det muligt at foretage en sammenligning.<br />

Dette kunne blandt andet ske ved at man udregnede de relative hyppigheder<br />

2.3.1 Relativ hyppighed<br />

Ved den relative hyppighed forstås hyppigheden divideret med det totale antal.<br />

I eksempel 2.5 er den relative hyppighed for pH - værdier i intervallet ]7.18 - 7.26]:<br />

17<br />

= 02267 . = 2257% .<br />

75<br />

Man kunne sige, at “sandsynligheden” er 22.57% for at pH ligger i dette interval.<br />

Hyppighed<br />

2.3.2 Middelværdi<br />

Kendes hele “populationen” (målt højden på alle danske mænd) kan beregnes en “korrekt midterværdi”<br />

kaldet middelværdi µ (græsk my)<br />

Ud fra stikprøven vil en tilnærmet værdi (kaldet et estimat) for µ være gennemsnittet x (kaldt<br />

x streg).<br />

x1 + x2 + ... + xn<br />

Kaldes observationerne i en stikprøve x1, x2,..., xner x =<br />

n


2 Deskriptiv statistik<br />

Eksempel 2.6: Gennemsnit<br />

Find gennemsnittet af tallene 6, 17, 7, 13, 5, 3<br />

Løsning: x = + + + + + 6 17 7 13 5 3<br />

= 85 .<br />

6<br />

TI 89: Catalog mean ({6, 17, 7, 13, 5, 3}) .<br />

Excel: Tast tallene i en kolonne eksempelvis A1 til A6 Vælg på værktøjslinien fx Middel( A1..A6)<br />

2.3.3 Median:<br />

Medianen beregnes på følgende måde:<br />

1) Observationerne ordnes i rækkefølge efter størrelse.<br />

2a) Ved et ulige antal observationer er medianen det midterste tal<br />

2b) Ved et lige antal er medianen gennemsnittet af de to midterste tal.<br />

Eksempel 2.7: Median<br />

Find medianen af tallene 6, 17, 7, 13, 5, 3.<br />

Løsning: Ordnet i rækkefølge: 3, 5, 6, 7 13, 17. Median 6,5<br />

TI 89: Catalog median ({ 6, 17, 7, 13, 5, 2}) .<br />

Excel: Tast tallene i en kolonne eksempelvis A1 til A6 Vælg fx Median( A1..A6)<br />

Medianen kaldes også for 50% fraktilen, fordi den brøkdel (fraktil) der ligger under medianen<br />

er ca. 50% .<br />

Er median og gennemsnit nogenlunde lige store fordeler tallene sig nogenlunde symmetrisk<br />

omkring middelværdien.<br />

Er medianen mindre end gennemsnittet er der muligvis tale om<br />

en “højreskæv” fordeling som har den “lange” hale til højre.(se<br />

figuren)<br />

Er medianen større end gennemsnittet, er der muligvis tale om en<br />

venstreskæv fordeling<br />

At man eksempelvis i lønstatistikker 1 angives medianen og ikke<br />

gennemsnittet fremgår af følgende lille eksempel.<br />

Lad os antage at en virksomhed har 10 ansatte, med månedslønninger ordnet efter størrelse på<br />

20000, 21000, 22000, 23000, 24000, 25000, 26000, 27000, 28000, 100000<br />

Gennemsnittet er her 31600, mens medianen er 24500.<br />

Medianen ændrer sig ikke selv om den højeste løn vokser fra 100000 til 1 million, mens gennemsnittet<br />

naturligvis vokser. Medianen giver derfor en mere rimelig beskrivelse af middellønnen i<br />

firmaet.<br />

I nævnte lønstatistik er også angivet “nedre og øvre Kvartil” som er det tal som henholdsvis 25%<br />

og 75% af tallene ligger under.<br />

Nedre og øvre kvartil kaldes også 25% fraktil og 75% fraktil.<br />

1<br />

jævnfør statistisk årbog 2005 tabel 144 eller se www.statistikbanken.dk Og vælg løn\lønstatistik for den statslige<br />

sektor\løn32\klik for at vælge\alle værdier\hovedgrupper\ledelse på højt niveau+kontorarbejde<br />

8


Ved at angive dem får man et indtryk af, hvor stor lønspredningen er.<br />

9<br />

2.3 Karakteristiske tal<br />

2.3.4 Spredningsmål<br />

Egentlige målefejl, såsom at nogle af observationerne ikke bliver korrekt registreret, uklarheder<br />

i spørgeskemaet osv. skal naturligvis fjernes.<br />

Derudover er der den “naturlige” variation som også kunne kaldes “ren støj” (pure error), som<br />

skyldes, at man ikke kan forvente, at to personer der på alle områder er stillet fuldstændigt ens<br />

også vil svare ens på et spørgsmål. Tilsvarende hvis man måler udbyttet ved en kemisk proces,<br />

så vil udfaldet af to forsøg ikke være ens, da der altid er en række ukontrollable støjkilder<br />

(urenheder i råmaterialer, lidt forskel på personer og apparatur osv.)<br />

Denne naturlige variation skal naturligvis inddrages i den statistiske behandling af problemet,<br />

og dertil spiller et mål for, hvor meget tallene spreder sig naturligvis en væsentlig rolle..<br />

2.3.4.1 Spredning (engelsk: standard deviation)<br />

Hvis spredningen baserer sig på hele populationen benævnes den σ (sigma) .<br />

Baserer spredningen sig kun på en stikprøve benævnes den s.<br />

Man siger, at s er et estimat (skøn) for σ .<br />

n<br />

∑<br />

( )2<br />

s beregnes af formlen s =<br />

i=<br />

1<br />

xi−x n −1<br />

hvor observationerne i en stikprøve er<br />

Varians er s .<br />

2<br />

Eksempel 2.8: Spredning<br />

Find varians og spredning af tallene 6, 17, 7, 13, 5, 3<br />

Løsning:<br />

I eksempel 2.6 findes gennemsnittet x = 85 .<br />

Variansen s 2 ( 6− 85 . ) + ( 17− 85 . ) + ( 7− 85 . ) + ( 13− 85 . ) + ( 5− 85 . ) + ( 3−85 . )<br />

=<br />

6−1 Spredningen s = =<br />

28 7 5357<br />

. .<br />

TI 89: Catalog Variance ({6, 17, 7, 13, 5, 3}),<br />

Catalog stdDev ({6, 17, 7, 13, 5, 3})<br />

Excel: Tast tallene i en kolonne eksempelvis A1 til A6,<br />

vælg fx Varians( A1..A6)<br />

vælg fx STDDEV( A1..A6)<br />

2 2 2 2 2 2<br />

x1, x2,..., xn = 28. 7


2 Deskriptiv statistik<br />

Anskuelig forklaring på formlen for s.<br />

At formlen for s skulle være særlig velegnet til at angive, hvor meget resultaterne “spreder sig” (hvor megen støj der<br />

er ) er ikke umiddelbart indlysende. I det følgende gives en anskuelig forklaring.<br />

Lad os betragte 2 forsøgsvariable X og Y, hvorpå der for hver er udført en stikprøve på 4 forsøg.<br />

Resultaterne var: X: 35.9, 33.3, 34.7, 34.1 med gennemsnittet x = 34.5 , og<br />

Y: 34.3, 34.6, 34.7, 34.4 med gennemsnittet y = 34.5.<br />

De to forsøgsvariable har samme gennemsnit, men det er klart, at Y-resultaterne grupperer sig meget tættere om<br />

gennemsnittet end X-resultaterne, dvs. Y-stikprøven har mindre spredning (der er mindre støj på Y - forsøget) end Xstikprøven.<br />

For at få et mål for stikprøvens spredning beregnes resultaternes afvigelser fra gennemsnittet.<br />

xi−x y y<br />

10<br />

i −<br />

35.9 - 34.5 = 1.4 34.3 - 34.5 = - 0.2<br />

33.3 -34.5 = - 1.2 34.6 - 34.5 = 0.1<br />

34.7 - 34.5 = 0.2 34.7 - 34.5 = 0.2<br />

34.1 - 34.5 = - 0.4 34.4 - 34.5 = -0.1<br />

Summen af disse afvigelser er naturligvis altid 0 og kan derfor ikke bruges som et mål for stikprøvens spredning.<br />

I stedet betragtes summen af kvadraterne på afvigelserne (forkortet SS: Sum of Squares eller SAK: Sum af afvigelsernes<br />

Kvadrat).<br />

n<br />

∑<br />

2 2 2 2 2<br />

SAK = ( x − x)<br />

= 14 . + ( − 12 . ) + 02 . + ( − 04 . ) = 360 .<br />

x i<br />

i=<br />

1<br />

n<br />

∑<br />

2 2 2 2 2<br />

SAK = ( y − y)<br />

= ( − 02 . ) + 01 . + 02 . + ( − 01 . ) = 010 .<br />

y i<br />

i=<br />

1<br />

Da et mål for variansen ikke må være afhængig af antallet af forsøg, divideres med n - 1.<br />

Umiddelbart ville det være mere rimeligt at dividere med n. Imidlertid kan det vises, at i middel bliver et skøn for<br />

variansen for lille, hvis man dividerer med n, mens den “rammer” præcist, hvis man dividerer med n - 1. Det kan<br />

forklares ved, at tallene xi har en tendens til at ligge tættere ved deres gennemsnit x end ved middelværdien µ .<br />

2 360<br />

sx . og<br />

4 1 12 = − =<br />

.<br />

2 01 .<br />

. sy = = 0. 0333 sx = 12 . = 1095 . sy = 0. 0333 = 0183 .<br />

4− 1<br />

Som vi forudså, er stikprøvens spredning betydelig større for X-resultaterne end for Y-resultaterne.<br />

Frihedsgrader. Man siger, at stikprøvens varians er baseret på f = n - 1 frihedsgrader. Navnet<br />

skyldes, at kun n -1 af de n led xix kan vælges frit, idet summen af de n led er nul. Eksempel-<br />

−<br />

vis ser vi af ovenstående eksempel, at der er 3 frihedsgrader, da kendskab til de første 3 led på<br />

1.4, -1.2 og 0.2 er nok til at bestemme det fjerde led, da summen er nul.<br />

Vurdering af størrelsen af stikprøvens spredning.<br />

Man kan vise, at for tæthedsfunktioner med kun et maksimumspunkt gælder, at mellem x − 2⋅<br />

s<br />

og x + 2⋅s<br />

ligger ca. 89% af resultaterne, og mellem<br />

x −3⋅s og x + 3⋅sligger<br />

ca. 95% af resultaterne.<br />

For såkaldte normalfordelte resultater, er de tilsvarende tal ca. 95% og 99.7 %


1<br />

jævnfør statistisk årbog 2005 tabel 144 eller se www.statistikbanken.dk<br />

under løn\lønstatistik for den offentlige sektor \løn 32<br />

11<br />

2.3 Karakteristiske tal<br />

2.3.4.2 Kvartilafstand:<br />

Hvis fordelingen ikke er rimelig symmetrisk, er medianen det bedste skøn for en midterværdi, og<br />

kvartilafstanden kan være et mål for spredningen.<br />

I den tidligere omtalte lønstatistik 1 findes bl.a. følgende tal, idet de to sidste kolonner er vor<br />

bearbejdning af tallene.<br />

Løn pr. præsteret time<br />

nr gennemsnit x nedre kvartil<br />

k1<br />

median m øvre kvartil<br />

k3<br />

1 Ledelse på højt<br />

niveau<br />

353.41 231.63 313.38 433.78 1.13 0.64<br />

2 Kontorarbejde 196.82 158.86 186.99 222.78 1.05 0.34<br />

x<br />

m<br />

k3−k1 m<br />

x<br />

Af kolonnen ses, at for begge rækker er gennemsnittet større end medianen dvs. begge<br />

m<br />

fordelinger er højreskæv, men det gælder mest for række nr. 1. Her gælder åbenbart, at nogle få<br />

forholdsvis høje lønninger trækker gennemsnittet op.<br />

Skal man sammenligne lønspredningen i de to tilfælde, må man tage hensyn til, at medianen er<br />

meget forskellig. Man vil derfor som der er sket i sidste kolonne beregne den relative kvartilafstand.<br />

Den viser også, at lønspredningen er væsentlig mindre for række 2 end for række 1 .<br />

Eksempel 2.9 Kvartil<br />

Find kvartiler og median af de 12 tal 7 , 9 , 11, 3 , 16, 12, 15, 8, 2, 18, 22, 10<br />

Løsning:<br />

TI89:APPS Stat/List Indtast tal i en liste F4 1-Var Stats Angiv listens navn Enter<br />

Blandt mange tal fås 1 kvartil 7.5 og 3 kvartil 15.5<br />

Excel: 2003 og 2007: Data indtastes i eksempelvis søjle A1 til A12 På værktøjslinien foroven:<br />

f x<br />

Der fremkommer en tabel med anvisning på, hvordan den skal udfyldes<br />

Resultat : 1. kvartil 7.75 3 kvartil 15.25<br />

Tryk på = På rullemenu vælges “Kvartil” (evt. først vælg kategorien “statistik”)<br />

Ligesom man på TI 89 kan få mange karakteristiske tal på en gang ved at vælge “1-Var Stats” har<br />

Excel en tilsvarende menu.<br />

Excel: 2003: Funktioner Dataanalyse Beskrivende statistik udfyld inputområde Resumestatistik<br />

2007: Data Dataanalyse Beskrivende statistik udfyld inputområde Resumestatistik


2 Deskriptiv statistik<br />

OPGAVER<br />

Opgave 2.1.<br />

I www.statistikbanken.dk/luft4 er følgende oplysninger for året 2003 hentet ind i Excel.<br />

Udslip til luft af drivhusgasser efter enhed, type, kilde og tid<br />

2003<br />

Mia. C02-ækvivalenter I alt Energisektoren 32<br />

Industri og produktion 8<br />

Transport 13<br />

Affaldsbehandling 2<br />

Landbrug 10<br />

Andet 9<br />

a) Hent selv disse data ind i Excel, og opstil et lagkagediagram til belysning af tallene.<br />

b) Find de tilsvarende tal for 1996, og vælg en passende grafisk fremstilling til sammenligning<br />

af tallene fra 1996 og 2003.<br />

c) Beregn i Excel for årene 1990 til 2003 energisektorens udslip i forhold til det samlede udslip<br />

af drivhusgasser (i %), og tegn dette grafisk.<br />

Opgave 2.2<br />

Følgende tabel angiver for et udvalgt antal lande oplysning om middellevetid for befolkningen<br />

og indbyggerantal.<br />

Land Middellevetid Indbyggertal i millioner<br />

Australien 80.3 19.9<br />

Canada 80.0 32.5<br />

Danmark 77,5 5.5<br />

Frankrig 79.4 60.4<br />

Marokko 70.4 32.2<br />

Polen 74.2 38.6<br />

Sri Lanka 72.9 19.9<br />

USA 77.4 293.0<br />

1) Indskriv ovenstående tabel i Excel, hvor landene er opskrevet alfabetisk.<br />

Benyt Excel til<br />

1) at ordne landene efter middellevetid (længst levetid først), og afbild dem grafisk.<br />

2) tegn i et koordinatsystem to kurver, som angiver såvel landenes størrelse som middellevetid<br />

Opgave 2.3<br />

I http://www.statistikbanken.dk/statbank5a/default.asp?w=1600 findes nogle oplysninger om<br />

Danmarks forbrug af energi efter type og mængde.<br />

1) Hent produktion af naturgas og råolie ind målt i tons for de sidste 2 år (i måneder) ind i Excel<br />

2) Tegn i Excel i samme koordinatsystem to kurver for henholdsvis produktionen af naturgas og<br />

råolie.<br />

12


13<br />

Opgaver til kapitel 2<br />

Opgave 2.4<br />

Færdselspolitiet overvejede, om der burde indføres en fartgrænse på 70 km/h på en bestemt<br />

landevejsstrækning, hvor der hidtil havde været en fartgrænse på 80 km/h.<br />

Som et led i analysen af hensigtmæssigheden af den overvejede ændring observeredes inden for<br />

et bestemt tidsrum ved hjælp af radarkontrol de forbipasserende bilers fart.<br />

Resultatet af målingerne (som kan findes som excel-fil på adressen www.larsen-net.dk ) var:<br />

50 observationer<br />

64<br />

50<br />

59<br />

75<br />

98<br />

72<br />

63<br />

49<br />

74<br />

55<br />

82<br />

35<br />

55<br />

64<br />

85<br />

52<br />

60<br />

99<br />

74<br />

80<br />

60<br />

77<br />

65<br />

62<br />

78<br />

1) Foretag en vurdering af, om fordelingen er nogenlunde symmetrisk (normalfordelt) ved<br />

a) at tegne et histogram<br />

b) at beregne karakteristiske værdier<br />

2) Angiv hvor stor en procent af bilisterne, der “approksimativt” overstiger hastighedsgrænsen<br />

på 80 km/h. (Vink: Anvend histogram og kumulativ frekvens samt hensigtsmæssige intervalgrænser).<br />

Opgave 2.5<br />

Til fabrikation af herreskjorter benyttes et råmateriale, som indeholder en vis procentdel uld. For<br />

nærmere at undersøge uldprocenten, måles denne i 64 tilfældigt udvalgte batch.<br />

Resultatet (som kan findes som excel-fil på adressen www.larsen-net.dk ) var (i %):<br />

34.2 33.1 34.5 35.6 36.3 35.1 34.7 33.6 33.6 34.7 35.0 35.4 36.2 36.8 35.1 35.3<br />

95<br />

41<br />

76<br />

70<br />

53<br />

33.8 34.2 33.4 34.7 34.6 35.2 35.0 34.9 34.7 33.6 32.5 34.1 35.1 36.8 37.9 36.4<br />

37.8 36.6 35.4 34.6 33.8 37.1 34.0 34.1 32.6 33.1 34.6 35.9 34.7 33.6 32.9 33.5<br />

35.8 37.6 37.3 34.6 35.5 32.8 32.1 34.5 34.6 33.6 24.1 34.7 35.7 36.8 34.3 32.7<br />

1) Foretag en vurdering af, om fordelingen er nogenlunde symmetrisk (normalfordelt) ved<br />

a) at tegne et histogram<br />

b) at beregne karakteristiske værdier<br />

Der er i datamaterialet en såkaldte outliers (en mulig fejlmåling). En sådan kan ødelægge<br />

enhver analyse. Det er i dette tilfælde tilladeligt at fjerne den, da vi går ud fra det er en fejlmåling.<br />

2) Beregn stikprøvens relative kvartilafstand<br />

86<br />

47<br />

76<br />

85<br />

96<br />

70<br />

88<br />

68<br />

73<br />

71<br />

63<br />

62<br />

51<br />

93<br />

84<br />

48<br />

66<br />

80<br />

65<br />

103


2 Deskriptiv statistik<br />

Opgave 2.6<br />

Den følgende tabel (som kan findes som excel-fil på adressen www.larsen-net.dk ) viser vægtene<br />

(i kg) af 80 kaniner.<br />

2.90<br />

2.60<br />

2.45<br />

2.75<br />

2.60<br />

2.55<br />

2.45<br />

2.70<br />

2.75<br />

2.80<br />

2.95<br />

2.65<br />

2.65<br />

2.85<br />

2.45<br />

2,70<br />

3.15<br />

2.95<br />

2.70<br />

2.95<br />

3.20<br />

3.40<br />

2.80<br />

2.95<br />

2.65<br />

2.75<br />

2.90<br />

2.85<br />

2.75<br />

2.90<br />

3.20<br />

3.00<br />

2.70<br />

2.70<br />

2.95<br />

2.85<br />

2.50<br />

2.95<br />

2.65<br />

2.90<br />

2.60<br />

2.95<br />

3.05<br />

3.05<br />

2.95<br />

14<br />

2.90<br />

3.00<br />

2.65<br />

2.90<br />

2.75<br />

2.85<br />

3.25<br />

2.70<br />

3.00<br />

2.75<br />

2.70<br />

2.80<br />

2.70<br />

2.75<br />

2.80<br />

2.80<br />

2.70<br />

3.00<br />

2.60<br />

3.00<br />

2.55<br />

2.60<br />

2.80<br />

3.00<br />

2.50<br />

3.10<br />

2.80<br />

2.70<br />

3.15<br />

3.00<br />

1) Foretag en vurdering af, om fordelingen er nogenlunde symmetrisk (normalfordelt) ved<br />

a) at tegne et histogram<br />

b) at beregne karakteristiske værdier<br />

2) Angiv hvor stor en procent af kaninerne, der “approksimativt” overstiger en vægt på 3 kg<br />

(Vink: Anvend histogram og kumulativ frekvens).<br />

2.90<br />

2.70<br />

3.00<br />

2.60<br />

3.15<br />

Opgave 2.7<br />

I “statistikbanken” finder man under punktet “Uddannelse og kultur”,”Fuldførte kompetancegivende<br />

uddannelser ved bacheloruddannelserne” en statistik over antal elever i “Maskinteknik”<br />

og “Design og Innovation” i 2008 fordelt efter alder fra 20 til 36 år for hele landet.<br />

1) Indsæt data i Excel for de to uddannelser.<br />

2) Lav et søjlediagram over aldersfordelingen for de to uddannelser<br />

3) Beregn på basis af ovennævnte tal den gennemsnitlige alder af de studerende for de to uddannelser<br />

i.<br />

Opgave 2.8<br />

I “statistikbanken” find under Løn ,fortjeneste for privatansatte efteruddannelse osv., Højere<br />

uddannelse, Teknisk, ledere i 2008<br />

“Gennemsnit, median, øvre og nedre kvartil for såvel mænd som kvinder “<br />

1) Overfør data til Excel på egen harddisk<br />

2) Angiv om de to fordelinger er symmetrisk, højre eller venstreskæv<br />

3) Er der forskel på lønspredningen for mænd og kvinder<br />

(Vink: Beregn den relative kvartilafstand)


15<br />

3.1 Sandsynlighed<br />

3 KONTINUERT STOKASTISK VARIABEL<br />

3.1 SANDSYNLIGHED<br />

Statistik bygger på sandsynlighedsteorien, som giver metoder til at finde, hvor stor chancen<br />

(sandsynligheden) er for at et bestemt resultat af et eksperiment forekommer.<br />

DEFINITION af tilfældigt eksperiment. Et eksperiment som kan resultere i forskellige<br />

udfald, selv om eksperimentet gentages på samme måde hver gang, kaldes et tilfældigt<br />

eksperiment (engelsk : random experiment).<br />

Det er karakteristisk for tilfældige eksperimenter, at man kan afgrænse en mængde kaldet<br />

eksperimentets udfaldsrum U, der indeholder de mulige udfald. Derimod kan man ikke forudsige,<br />

hvilket udfald der vil indtræffe ved udførelsen af eksperimentet.<br />

Består eksperimentet eksempelvis i kast med en terning er udfaldsrummet U = {1, 2, 3, 4 ,5, 6},<br />

men man kan ikke forudsige udfaldet af næste kast (eksperiment). Selv om man 4 gange i træk<br />

har fået udfaldet “øjental 1", kan man ikke forudsige, hvilket udfald der indtræffer næste gang.<br />

Resultatet af 5. kast afhænger ikke af resultaterne af de foregående 4 spil. Man siger, at eksperimenterne<br />

er "statistisk uafhængige" (en præcis definition ses i kapitel 9).<br />

Som eksempler på tilfældige eksperimenter kan nævnes:<br />

a) Ét kast med en mønt. Udfaldsrum U = Plat, Krone .<br />

{ }<br />

b) Fremstilling af et parti levnedsmiddel og måling af det procentvise indhold af protein.<br />

U = mængden af reelle tal fra 0 til 100.<br />

c) Udtage en stikprøve på 400 elektroniske komponenter af en dagsproduktion og optælling af<br />

0, 1, 2, 3, 4, 5,..., 400<br />

antallet af defekte komponenter. U = { }<br />

d) Udtagning af et tilfældigt TV-apparat fra en dagsproduktion af TV-apparater og optælling af<br />

antallet af loddefejl. U = mængden af positive hele tal.<br />

En hændelse er en delmængde af et eksperiments udfaldsrum.<br />

Eksempelvis er A: “At få et lige øjental” en hændelse ved kast med en terning.<br />

Hændelsen A siges at indtræffe, hvis et udfald fra A forekommer.<br />

Sandsynlighedsbegrebet tager udgangspunkt i det i kapitel 1 omtalte begreb “relativ hyppighed”.<br />

DEFINITION af relativ hyppighed for hændelse A. Gentages et eksperiment n gange,<br />

og forekommer hændelsen A netop n A gange af de n gange, er A’s relative<br />

n<br />

hyppighed hA ( )=<br />

n<br />

A


3. Kontinuert stokastisk variabel<br />

Lad eksempelvis eksperimentet være kast med en terning og hændelsen A være at få et lige<br />

øjental. Kastes terningen 100 gange og bliver resultatet et lige øjental 45 af de 100 gange er h(A)<br />

= 0.45.<br />

Det er en erfaring, at øges antallet af gentagelser af eksperimentet, vil den relative hyppighed af<br />

hændelsen A stabilisere sig. Når n går mod ∞ ,vil den relative hyppighed erfaringsmæssigt<br />

nærme sig til en grænseværdi ("de store tals lov").<br />

Ved sandsynligheden for A som benævnes P(A) forstås denne grænseværdi. (P = probability)<br />

Da definitionen af sandsynlighed bygger på relativ hyppighed, er det naturligt, at det for ethvert<br />

par af hændelser A og B i udfaldsrummet U skal gælde :<br />

0≤ P( A)<br />

≤1,<br />

PU ( )= 1 og<br />

P(enten A eller B) = P(A) + P(B) forudsat A og B ingen elementer har fælles (er disjunkte).<br />

Den sidste regel skrives kort P( A∪ B) = P( A) + P( B)<br />

Eksempel 3.1 Anvendelse af regel P( A∪ B) = P( A) + P( B)<br />

Lad A = at få et lige øjental ved kast med en terning<br />

B = at få en sekser ved et kast mad en terning<br />

Find sandsynligheden for enten at få et lige øjental eller en sekser ved kast med en terning.<br />

Løsning:<br />

1 1<br />

1 1 2<br />

P(A) = . P(B) =<br />

P( A∪ B) = P( A) + P( B)<br />

= + =<br />

2 6<br />

2 6 3<br />

De 3 regler kaldes sandsynlighedsregningens aksiomer.<br />

I kapitel 8 udledes på dette grundlag en række regler for regning med sandsynligheder.<br />

3.2 STOKASTISK VARIABEL<br />

Ethvert statistisk problem må det på en eller anden måde være muligt at behandle talmæssigt.<br />

Betragtes et eksempel med kast med en mønt, kunne man til udfaldet plat tilordne tallet 0 og til<br />

udfaldet krone tilordne tallet 1 og på den måde få problemet overført til noget, hvor man kan<br />

foretage beregninger. Man siger, man har indført en stokastisk (eller statistisk) variabel X, som<br />

er 0, når udfaldet er plat, og 1 når udfaldet er krone.<br />

Generelt gælder følgende definition:<br />

DEFINITION af stokastisk variabel (engelsk: random variable). En stokastisk variabel<br />

(også kaldet statistisk variabel) er en funktion, som tilordner et reelt tal til hvert udfald i<br />

udfaldsrummet for et tilfældigt eksperiment.<br />

En stokastisk variabel betegnes med et stort bogstav såsom X, mens det tilsvarende lille bogstav<br />

x betegner en mulig værdi af X.<br />

Er eksempelvis eksperimentet “udtagning af en kasse med 100 møtrikker, ud af en løbende<br />

produktion af kasser”, kunne den stokastiske variabel X være defineret som “ antal defekte<br />

møtrikker i kassen”.<br />

16


17<br />

3.3 Tæthedsfunktion<br />

Et andet eksempel kunne være eksperimentet “anvendelse af en ny metode til fremstilling af et<br />

produkt”. Her kunne den stokastiske variabel Y være det målte procentvise udbytte ved forsøget.<br />

Ved en diskret variabel (eller tællevariabel) forstås en variabel, hvis mulige værdier udgør en<br />

endelig eller tællelig mængde.<br />

I eksemplet hvor X er antal defekte møtrikker, er X en diskret variabel, da den kun kan antage<br />

heltallige værdier fra 0 til 100.<br />

Vi vil i senere afsnit behandle diskrete variable.<br />

Ved en kontinuert stokastisk variabel forstås en stokastisk variabel, hvis mulige værdier er alle<br />

reelle tal i et vist interval.<br />

I eksemplet, hvor Y er det målte procentiske udbytte, er Y en kontinuert variabel, da den kan<br />

antage alle værdier fra 0% til 100%.<br />

3.3 TÆTHEDSFUNKTION<br />

Vi vil benytte eksempel 1.5 til illustration.<br />

Eksempel 3.2. Kontinuert stokastisk variabel<br />

I menneskers led udskiller den inderste hinde en "ledvæske" som "smører" leddet. For visse<br />

ledsygdomme kan koncentrationen af brintioner (pH) i denne væske tænkes at have betydning.<br />

Som led i en nordisk medicinsk undersøgelse af en bestemt ledsygdom udtog man blandt samtlige<br />

patienter der led af denne sygdom tilfældigt 75 patienter og målte pH i ledvæsken i knæet.<br />

Resultaterne findes i eksempel 1.5<br />

Population og stikprøve. Samtlige indbyggere i Norden med denne sygdom udgør populationen.<br />

Da det er ganske uoverkommeligt at undersøge alle, udtages en stikprøve på 75 patienter.<br />

Det er målet ved hjælp af statistiske metoder på basis af en stikprøve at sige noget generelt om<br />

populationen.<br />

Histogram. For at få et overblik over et større datamateriale, vil man sædvanligvis starte med<br />

at tegne et histogram. Hvorledes dette gøres fremgår af eksempel 1.5.<br />

I skemaet ses resultatet af en opdeling i 10 klasser med en bredde på 0.08.<br />

Endvidere er der beregnet en søjle ved at dividere den relative hyppighed med intervallængden.<br />

Klasser Antal n Relativ hyppighed<br />

n<br />

75<br />

Skalering<br />

]6.94 - 7.02] 2 0.0267 0.3333<br />

]7.02 - 7.10] 5 0.0667 0.8333<br />

]7.10 - 7.18] 8 0.1067 1.3333<br />

]7.18 - 7.26] 17 0.2267 2.8333<br />

]7.26 - 7.34] 18 0.2400 3.0000<br />

]7.34 - 7.42] 16 0.2133 2.6667<br />

]7.42 - 7.50] 4 0.0533 0.6667<br />

]7.50 - 7.58] 3 0.0400 0.5000<br />

]7.58 - 7.66] 1 0.0133 0.1667<br />

]7.66 - 7.74] 1 0.0133 0.1667<br />

n<br />

75⋅ 0. 08


3. Kontinuert stokastisk variabel<br />

Vi får det nedenfor tegnede histogram (kan ses beregnet i eksempel 1.5)<br />

Dette viser et "klokkeformet histogram", hvor der er flest tal fra 7.19 til 7.42, og derefter falder<br />

antallet til begge sider.<br />

18<br />

15<br />

12<br />

9<br />

6<br />

3<br />

Histogram for pH<br />

0<br />

6,9 7,1 7,3 7,5 7,7 7,9<br />

pH<br />

Man regner normalt med, at resultaterne af forsøg hvor man har foretaget målinger (hvis man<br />

lavede nok af dem) har et sådant klokkeformet histogram. Hvis man tænker sig antallet af forsøg<br />

stiger (for eksempel undersøger hele populationen på måske 1 million nordiske knæ), samtidig<br />

6<br />

med at man øger antallet af klasser tilsvarende (til for eksempel 10 ≈ 1000 ) , vil histogrammet<br />

blive mere og mere fintakket, og til sidst nærme sig til en kontinuert klokkeformet kurve (indtegnet<br />

på grafen).<br />

Hvis man benytter den skalerede skala fra skemaet, som også er afsat på højre side af tegningen,<br />

vil arealet af hver søjle være den relative hyppighed, og for den idealiserede kontinuerte kurve,<br />

vil arealet under kurven i et bestemt interval fra a til b være sandsynligheden for at få en værdi<br />

mellem a og b.<br />

Det samlede areal under kurven er naturligvis 1.<br />

Man siger, at den kontinuerte stokastiske variabel X (pH værdien) har en tæthedsfunktion f(x)<br />

hvis graf er den ovenfor nævnte kontinuerte kurve.<br />

Da arealet under en kontinuert kurve beregnes ved et bestemt integral, følger heraf følgende<br />

definition:<br />

DEFINITION af tæthedsfunktion f(x) for kontinuert variabel X.<br />

Pa ( ≤ X≤ b) = f( xdx ) for ethvert interval af reelle tal<br />

∫ [ a; b]<br />

∞<br />

a<br />

b<br />

∫ f ( x) dx = 1, f ( x)≥0for<br />

alle x<br />

−∞<br />

Bemærk, at for kontinuerte variable er<br />

Pa ( ≤ X≤ b) = Pa ( < X≤ b) = Pa ( ≤ X< b) = Pa ( < X< b).<br />

18


19<br />

3.3 Tæthedsfunktion<br />

Et eksempel på en tæthedsfunktion for en kontinuert variabel er den i næste kapitel beskrevne<br />

normalfordeling.<br />

Måleresultater vil sædvanligvis være værdier af normalfordelte variable, så en rimelig hypotese<br />

for den i eksempel 3.2 angivne kontinuerte stokastiske variabel X = pH er således, at den er<br />

normalfordelt. Dette bestyrkes af at grafen for sådanne netop er klokkeformede .<br />

Det er væsentlig at finde en central værdi i populationen, samt angive et spredningsmål<br />

Disse angives i de følgende kapitler for de konkrete funktioner, der behandles.<br />

Generelt gælder følgende definitioner<br />

DEFINITION af middelværdi for kontinuert variabel. Middelværdi for en kontinuert variabel X med tætheds-<br />

∞<br />

funktion f ( x ) benævnes µ eller E ( X ) og er defineret som µ = E( X) = x⋅ f ( x) dx<br />

DEFINITION af varians og spredning for kontinuert variabel. Variansen for en kontinuert variabel X med<br />

tæthedsfunktion f ( x ) benævnes σ eller V( X ) og er defineret som<br />

2 2<br />

σ = V( X) =<br />

∞<br />

2<br />

( x−µ ) ⋅ f ( x) dx<br />

Spredningen (engelsk: standard deviation) for en diskret variabel X med tæthedsfunktion f(x) benævnes σ og er<br />

defineret som σ = V( X)<br />

Eksempel 3.3 Kontinuert stokastisk variabel.<br />

3 2<br />

⎧⎪<br />

⋅x for 0≤ x<<br />

2<br />

8<br />

Lad der være givet følgende funktion: f ( x)=<br />

⎨<br />

.<br />

⎩⎪ 0 ellers<br />

∫<br />

a) Vis, at f ( x) dx = 1<br />

∞<br />

−∞<br />

I det følgende antages, at f ( x ) er tæthedsfunktion for en kontinuert stokastisk variabel X.<br />

b) Skitser grafen for f.<br />

c) Beregn middelværdi og spredning for X.<br />

Løsning:<br />

x<br />

a) f ( x) dx = x dx = .<br />

⎡ ⎤<br />

⎢ ⎥<br />

⎣ ⎦<br />

=<br />

∞<br />

2<br />

3<br />

3 2<br />

∫−∞ ∫<br />

1<br />

0<br />

8<br />

8<br />

b) Grafen, som er en del af en parabel, ses på Fig 3.1.<br />

c) µ = = ⋅ = ⋅ = .<br />

⎡ ⎤<br />

⎢ ⎥<br />

⎣ ⎦<br />

=<br />

∞<br />

2<br />

4<br />

2<br />

3 2 x 3<br />

E( X) ∫ x f ( x) dx<br />

−∞ ∫ x x dx 3<br />

0 8 32 2<br />

2<br />

0<br />

0<br />

2 5<br />

∫<br />

−∞<br />

∫<br />

−∞<br />

Fig.3.1 Tæthedsfunktion<br />

x<br />

V( X) = x ⋅ f ( x) dx − = x ⋅ x dx − . . . .<br />

⎛ ⎞<br />

⎜ ⎟ =<br />

⎝ ⎠<br />

⎡<br />

∞<br />

2<br />

2 2 2 3 2 3 ⎤<br />

∫ µ ⎢ ⎥ − =<br />

−∞<br />

∫<br />

3 225 015 σ ( X ) = 015 . = 0. 387<br />

0 8 2 ⎣ 40⎦<br />

2<br />

0


3. Kontinuert stokastisk variabel<br />

Fordelingsfunktion. I visse situationer er det en fordel at betragte den kontinuerte variabels fordelingsfunktion F(x)<br />

DEFINITION af fordelingsfunktion F(x) for kontinuert variabel.<br />

x<br />

Fordelingsfunktionen for en kontinuert variabel X er defineret ved F( x) = P( X ≤ x) = ∫ f ( x) dx<br />

−∞<br />

DEFINITION af p-fraktil . Lad p være et vilkårligt tal mellem 0 og 1.<br />

Ved p-fraktilen eller 100 p % fraktilen forstås det tal , for hvilket det gælder, at<br />

F( x ) = P( X ≤ x ) = p ( ( ) )<br />

p p<br />

x p<br />

= ∫ f x dx<br />

0<br />

x p<br />

Særlig ofte benyttede fraktiler er 50% fraktilen, som kaldes medianen (eller 2. kvartil), 25 % fraktilen, som kaldes<br />

nedre kvartil (eller 1. kvartil) og 75% fraktilen, som kaldes øvre kvartil (eller 3. kvartil).<br />

Eksempel 3.4. Fordelingsfunktion for kontinuert variabel.<br />

For den i eksempel 3.3 angivne kontinuerte variabel X med tæthedsfunktion f (x) ønskes fundet:<br />

1) Fordelingsfunktionen F (x).<br />

x<br />

2) Medianen .<br />

dx x<br />

Løsning:<br />

x<br />

x<br />

x x x<br />

1) F( x) = f ( x) dx = + xdx=<br />

x<br />

.<br />

x<br />

+ dx=<br />

⎡<br />

⎧<br />

⎪∫<br />

0<br />

−∞<br />

⎪<br />

⎪<br />

⎤<br />

∫<br />

⎨0<br />

⎢ ⎥ = ≤ ≤<br />

−∞ ∫<br />

0 2<br />

⎪<br />

⎣ 8 ⎦ 8<br />

⎪<br />

⎪0<br />

+<br />

⎩⎪<br />

∫<br />

2<br />

= 0 for < 0<br />

3<br />

3<br />

3 2<br />

for<br />

0<br />

8<br />

0<br />

3<br />

0 1 for x > 2<br />

8 2<br />

3<br />

x<br />

3<br />

2) Medianen er bestemt ved F( x)<br />

= 05 . ⇔ = 05 . ⇔ x = 4⇔ x = 159 . .<br />

8<br />

20


3.4 Linearkombination af stokastiske variable<br />

3.4 LINEARKOMBINATION AF STOKASTISKE VARIABLE<br />

Vi betragter i dette afsnit flere stokastiske variable.<br />

Eksempel 3.5 vil blive benyttet som gennemgående eksempel<br />

Eksempel 3.5. To variable.<br />

Insektpulver sælges i papkartoner. Lad den stokastiske variable X 1 være vægten af pulveret, mens<br />

X 2 er vægten af papkartonen. I middel fyldes der 500 gram insektpulver i hver karton med en<br />

spredning på 5 gram. Kartonen vejer i middel 10 gram med en spredning på 1.0 gram.<br />

Y = X 1 + X 2 er da bruttovægten.<br />

1) Find middelværdien af Y<br />

2) Find spredning af Y.<br />

Mere generelt haves:<br />

Lad X1, X2,..., Xnvære n stokastiske variable.<br />

Ved en linearkombination af disse forstås<br />

Y = a0 + a1 ⋅ X1 + a2 ⋅ X2 + ... + an ⋅ Xn<br />

, hvor a0, a1, a2,..., aner konstanter.<br />

Man kan vise (se eventuelt kapitel 9) at der gælder følgende<br />

Linearitetsregel: E( Y) = a + a ⋅ E( X ) + a ⋅ E( X ) + ... + a ⋅E(<br />

X ) .<br />

0 1 1 2 2<br />

21<br />

n n<br />

I eksempel 3.5 synes det rimeligt at antage, at vægten af pulveret og vægten af papkartonen er<br />

uafhængige ( påfyldningen kan tænkes at ske maskinelt, uden at den er afhængig på nogen måde<br />

af hvilken vægt, kartonen tilfældigvis har).<br />

Man kan vise (se eventuelt kapitel 11, for en mere udførlig behandling af uafhængighed m.m.),<br />

at hvis X1, X2,..., Xner statistisk uafhængige, gælder<br />

Kvadratregel for statistisk uafhængige variable:<br />

2<br />

VY ( ) = a ⋅ V( X<br />

2<br />

) + a ⋅ V( X<br />

2<br />

) + ... + a ⋅V(<br />

X )<br />

1<br />

1 2<br />

2<br />

n n<br />

Eksempel 3.5. (fortsat) To variable.<br />

Spørgsmål 1: E(Y) = E(X1) + E(X2) = 500 + 10 = 510 gram.<br />

Spørgsmål 2: V(Y) = V(X1) + V(X2) = 5 2 + 1 2 = 26. σ ( Y ) = 26 = 51 . gram.<br />

Ensfordelte uafhængige variable.<br />

Lad os antage, at vi uafhængigt af hinanden og under de samme betingelser udtager n elementer<br />

fra en population med middelværdi og spredning . Lad være den stokastiske variabel,<br />

µ σ X 1<br />

der er resultatet af første udtagning af et element i stikprøven, være den stokastiske variabel,<br />

X 2<br />

der er resultatet af anden udtagning, osv.<br />

X1, X2,..., Xnvil da være ensfordelte uafhængige stokastiske variable, dvs. have samme<br />

fordeling med middelværdi µ og spredning σ<br />

.<br />

.


3. Kontinuert stokastisk variabel<br />

Eksempel 3.6. Ensfordelte variable<br />

Bruttovægten af det i eksempel 3.4 nævnte karton insektpulver havde middelvægten 510 g med<br />

en spredning på 5.1 g.<br />

Vi udtager nu tilfældigt og uafhængigt af hinanden 10 pakker insektpulver.<br />

a) Hvad bliver i middel den samlede vægt af de 10 kartonner<br />

b) Hvad bliver i middel spredningen på den samlede vægt af de 10 kartoner<br />

Løsning:<br />

Lad X1 være vægten af karton 1, X2 være vægten af karton 2 osv. X10 være vægten af karton 10.<br />

Y= X1 + X2 + ... + X10 er da vægten af alle 10 kartonner.<br />

a) E(Y) = E(X1)+E(X2)+ . . . +E(X10) =10⋅ 510 = 5100 g<br />

b) V(Y) = V(X1)+V(X2)+ . . . +V(X10) =10⋅ 26 = 260 g<br />

σ ( Y ) = 260 = 1612 .<br />

Bemærk: En almindelig fejl er her, at man tror, at Y=10 X og dermed V(Y)=102 ⋅ ⋅ V(X)=2600<br />

Vi har her at gøre med 10 ensfordelte uafhængige variable, og ikke 10 ⋅ vægten af 1 karton.<br />

For ensfordelte uafhængige stokastiske variable gælder:<br />

SÆTNING 3.1 (middelværdi og spredning for stikprøves gennemsnit )<br />

σ<br />

X1 + X2 + ...<br />

+ Xn<br />

E( X)=<br />

µ og σ ( X ) = , hvor X =<br />

n<br />

n<br />

⎛ X + X + ... + X<br />

Bevis: Af linearitetsreglen fås n<br />

E( X) = E⎜<br />

1 2<br />

⎞ 1<br />

⎟<br />

⎜<br />

⎟ ( ( ) ( ) ... ( ) )<br />

n n E X E X E X = + + + = µ<br />

⎝<br />

⎠ 1 2 n<br />

X + X + ... X 2 2<br />

⎛ 1 1 n ⎞ 1<br />

n ⋅ σ ο<br />

Af kvadratreglen fås V( X) = V⎜<br />

⎟ = ( V( X ) + V( X ) + ... + V( Xn) ) = = .<br />

⎝ n ⎠ 2 1 2<br />

2<br />

n<br />

n n<br />

Eksempel 3.7. Spredning på gennemsnit (eksempel 3.5 fortsat)<br />

Hvis der udtages 5 kartoner insektpulver, hvad vil da være spredningen på gennemsnittet af<br />

vægten af insektpulveret .<br />

Løsning:<br />

Da spredningen på 1 karton er 5.1 gram, vil spredningen på gennemsnittet af 5 kartoner være<br />

σ 51 .<br />

σ ( X ) = = = 228 .<br />

n 5<br />

22


3.5 USIKKERHEDSBEREGNING<br />

23<br />

3.5 Usikkerhedsberegning<br />

Ved enhver måling kan den fysiske størrelse aldrig måles eksakt. Målingen behæftes altid med<br />

en vis usikkerhed. Det kan skyldes usikkerhed på objektet, måleinstrumentet, brugeren af<br />

instrumentet osv.<br />

Systematiske fejl er fejl, hvor man eksempelvis har glemt at korrigere for temperaturens indflydelse<br />

på måling af et stofs hårhed.<br />

Er målingen befriet for systematiske fejl, er der kun tilbage “tilfældige fejl”.<br />

Eksempelvis vil der ofte på et instrument være anført en “instrumentusikkerhed”, som viser hvor<br />

nøjagtigt instrumentet kan måle.<br />

En sådan usikkerhed kan eksempelvis findes ved at man foretager en måling flere gange eventuelt<br />

af forskellige personer.<br />

Lad der eksempelvis være foretaget 5 målinger og resultaterne er x1, x2, x3, x4, x5<br />

Lad gennemsnittet af de 5 målinger være x .<br />

“Maksimal” usikkerhed<br />

Den maksimale usikkerhed ∆x er så defineret som den numerisk største afvigelse mellem en målt<br />

værdi og gennemsnittet.<br />

Er eksempelvis en temperatur angivet som 30.45 0<br />

± 0.05 menes hermed, at i værst tænkelige<br />

tilfælde kunne målingen være 30.40 0 eller 30.50 0 .<br />

Eksempel 3.8. Maksimal usikkerhed<br />

Lad x = 153 ± 1m og y = 25 ± 2 m<br />

Den maksimale usikkerhed på x - y er da 3m , dvs. x-y = 128 ± 3 m<br />

Statistisk usikkerhed<br />

Ved den statistiske usikkerhed regner man populært sagt med at fejlene til en vis grad ophæver<br />

hinanden. Det er jo ret usandsynligt, hvis man har mange målinger, at de alle ligger i den samme<br />

høje ende af usikkerhedsintervallet<br />

Her siger man derfor at spredningen er et mål for usikkerheden.<br />

Eksempel 3.9 Statistisk usikkerhed<br />

Lad x = 153 med en spredning på 1m og y = 25 med en spredning på 2m<br />

X og Y antages at være uafhængige målinger,<br />

2 2<br />

Den statistiske usikkerhed på x-y vil ifølge kvadratsætningen være σ = 1 + 2 = 5 = 224 . m<br />

Relativ usikkerhed<br />

∆x<br />

Ved den relative usikkerhed på en størrelse x forstås størrelsen henholdsvis<br />

x<br />

1<br />

I eksemplerne 3.7 og 3.8 er den relative usikkerhed på x således = 0. 65%<br />

153<br />

Usikkerheden på to størrelser kan jo godt være den samme , f.eks. 1 cm, men hvis den ene<br />

størrelse er usikkerheden på diameteren af et rør på 10 cm og den anden er højden på en skyskraber,<br />

så er det klart, at det er den relative usikkerhed, der siger mest.<br />

s<br />

x


3. Kontinuert stokastisk variabel<br />

Eksempel 3.8 og 3.9 viser forskellen mellem de to definitioner af usikkerhed.<br />

Vi vil i det følgende koncentrere os om den statistiske usikkerhed σ , som vi i det følgende kort<br />

vil benævne usikkerheden.<br />

Vi vil dog også kort angive, hvorledes tilsvarende beregninger af maksimal usikkerhed vil<br />

forløbe.<br />

Som eksemplerne 3.8 og 3.9 viser, er det let at udregne usikkerheden på summer og differenser<br />

af to eller flere størrelser.<br />

De følgende formler viser hvorledes man beregner usikkerheden på mere komplicerede udtryk.<br />

Eksempel 3.10 Usikkerhed på sammensat udtryk<br />

Måles trykket P, volumenet V og temperaturen T af en ideal gas , optræder der tilfældige<br />

målefejl, som gør værdierne usikre. Beregnes molantallet n nu af ligningen<br />

PV ⋅<br />

PV ⋅ = n⋅RT ⋅ ⇔ n=<br />

, bliver værdien af n derfor også usikker. Vi ønsker at kunne<br />

RT ⋅<br />

beregne usikkerheden på n ud fra usikkerhederne på P, V og T.<br />

Sætning 3.2. (ophobningsloven for usikkerheder)<br />

Lad X1,X2, . . . , X være uafhængige stokastiske variable, som hidrører fra målinger.<br />

og lad X1 have usikkerheden σ 1 ,X2 have usikkerheden σ 2 osv.<br />

Beregnes en ny størrelse Y = f ( X1, X2 ,..., Xn) , i et punkt P = ( x1, x2, ,..., xn) får Y en usikker-<br />

hed σ ( Y)<br />

som kan beregnes på følgende måde:<br />

Lad ∂Y<br />

∂Y<br />

∂Y<br />

( P) = a1,<br />

( P) = a2,...,<br />

( P) = an<br />

∂X<br />

∂X<br />

∂X<br />

1<br />

Der gælder da<br />

2<br />

n<br />

Ved den praktiske brug af formlerne for relative fejl og den ophobede fejl kan man erstatte alle<br />

middelværdier med de faktisk målte værdier.<br />

Bevis for ophobningsloven, Funktionen Y = f ( X1, X2,..., Xn) tilnærmes ved sit 1. Taylorpolynomium med<br />

∂Y<br />

∂Y<br />

∂Y<br />

udviklingspunkt i punktet P: Y = f ( X1, X2,..., Xn) ≈ Y( P)<br />

+ ⋅( X1− x1)<br />

+ ⋅( X2 − x2)<br />

+ ... + ⋅( Xn −xn),<br />

∂X1<br />

∂X<br />

2<br />

∂X<br />

n<br />

hvor de partielle afledede er beregnet i punktet P. Vi finder derfor<br />

∂Y<br />

∂<br />

∂<br />

Y = f ( X1, X2,..., Xn) ≈ konstant + ⋅ + ⋅ + + ⋅<br />

∂X<br />

∂<br />

∂<br />

X<br />

Y<br />

Y<br />

⎛<br />

∂Y<br />

∂Y<br />

∂Y<br />

⎞<br />

1 X 2 ... X k , VY ( ) ≈ V⎜konstant<br />

+ ⋅ X 1 + ⋅ X 2 + ... + ⋅ X k ⎟<br />

1 X 2<br />

X k<br />

⎝ ∂X<br />

1 ∂X<br />

2<br />

∂X<br />

k ⎠<br />

Da X1, X2,..., Xk er forudsat statistisk uafhængige, får vi ifølge kvadratreglen<br />

Y<br />

Y<br />

Y<br />

VY ( ) ≈ V( X ) V( X ) ... V( Xk)<br />

X<br />

X<br />

X<br />

⎛ ⎞<br />

⎜ ⎟ ⋅ +<br />

⎝ ⎠<br />

⎛ ⎞<br />

⎜ ⎟ ⋅ + +<br />

⎝ ⎠<br />

⎛<br />

∂<br />

∂<br />

∂ ⎞<br />

1<br />

2 ⎜ ⎟ ⋅<br />

∂<br />

∂<br />

⎝ ∂ ⎠<br />

1<br />

2<br />

2<br />

2<br />

∂Y<br />

∂Y<br />

∂Y<br />

σ ( Y)<br />

≈ V( X ) V( X ) ... V( Xk)<br />

∂X<br />

∂X<br />

∂X<br />

⎛ ⎞<br />

⎜ ⎟ ⋅ +<br />

⎝ ⎠<br />

⎛ ⎞<br />

⎜ ⎟ ⋅ + +<br />

⎝ ⎠<br />

⎛ ⎞<br />

1<br />

2 ⎜ ⎟ ⋅<br />

⎝ ⎠<br />

1<br />

2<br />

2<br />

2<br />

σ( Y) ≈ a1⋅ σ1+ a2⋅ σ2+ ... + an ⋅σn<br />

2<br />

2<br />

2<br />

2 2 2<br />

For den maksimale usikkerhed gælder med de samme betegnelser som ved ophobningsloven:<br />

∆Y = a1 ∆x1 + a2 ∆x2 + ... + an ∆xn<br />

(svarer til differentialet for en funktion)<br />

k<br />

k<br />

2<br />

2<br />

24


25<br />

3.5 Usikkerhedsberegning<br />

Eksempel 3.11. Usikkerhedsberegning.(fortsættelse af eksempel 3.10)<br />

PV ⋅<br />

−1 −1<br />

En ideal gas opfylder ligningen n = , hvor R = 8314 . J⋅K⋅mol .<br />

RT ⋅<br />

Man har målt P = 123400 Pa , V = 567 . m ,<br />

3<br />

T = 678 K<br />

med usikkerheder σ ( P ) = 1000 Pa , σ ( V ) = 006 . m og .<br />

3 σ ( T ) = 3K<br />

Det kan antages, at måleresultaterne for P, V og T er statistisk uafhængige.<br />

a) Find molantallet n, usikkerheden σ ( n) , samt den relative usikkerhed rel( n)<br />

.<br />

Man skønner, at der for de maksimale absolutte fejl gælder<br />

P = 123400 3000 Pa V = 5.67 0.18 m3 ± ± og T = 678 ± 9 K<br />

b) Find den maksimale usikkerhed på n , og den relative maksimale usikkerhed på n.<br />

Løsning<br />

Håndregning:<br />

n mol<br />

PV ⋅ 123400 ⋅ 5. 67<br />

= =<br />

= 12412 .<br />

R ⋅ T 8314 . ⋅ 678<br />

Af ophobningsloven for usikkerheder fås usikkerheden på n:<br />

∂n<br />

V<br />

=<br />

∂P<br />

RT ⋅ =<br />

567 .<br />

∂n<br />

P<br />

= 0. 001006<br />

=<br />

8. 314⋅ 678<br />

∂V<br />

RT ⋅ =<br />

123400<br />

= 218915 .<br />

8. 314⋅ 678<br />

∂n<br />

PV<br />

=<br />

∂T<br />

RT<br />

− ⋅<br />

=<br />

⋅<br />

− ⋅ 123400 567 .<br />

= 0183075 .<br />

2 2<br />

8. 314 ⋅678<br />

a) σ<br />

2<br />

∂n<br />

∂n<br />

∂n<br />

( n)<br />

= σ ( P)<br />

σ ( V ) σ ( T)<br />

∂P<br />

∂V<br />

∂T<br />

⎛ ⎞<br />

⎜ ⎟ ⋅ +<br />

⎝ ⎠<br />

⎛ ⎞<br />

⎜ ⎟ ⋅ +<br />

⎝ ⎠<br />

⎛<br />

2<br />

2 ⎞ 2<br />

⎜ ⎟ ⋅<br />

⎝ ⎠<br />

2<br />

= 0. 001006 ⋅ 1000 + 218915 . ⋅ 0. 06 + 0183075 . ⋅3<br />

2 2 2 2 2 2<br />

= 101178 . + 172526 . + 0. 30165 = 174318 . = 174 . mol<br />

2<br />

σ ( n)<br />

174318 .<br />

og dermed den relative usikkerhed rel( n)<br />

= = = 0. 0140443 ≈140%<br />

. .<br />

n 124. 12<br />

n<br />

b) d n = dn<br />

mol<br />

P dP<br />

n<br />

V dV<br />

n<br />

T dT<br />

∂ ∂ ∂<br />

= + + = 0. 00106⋅ 3000 + 218915 . ⋅ 018 . + 0183075 . ⋅ 9 = 8. 768<br />

∂ ∂ ∂<br />

dn ( ) 18. 768<br />

rel( n)<br />

= = = 706% .<br />

n 12412 .<br />

TI 89<br />

p*v/(8.314*t) STO n<br />

n v=5.67 and p=123400 and t=678 Resultat n = 124.12<br />

d(n,p) v=5.67 and p=123400 and t=678 STO a<br />

d(n,v) v=5.67 and p=123400 and t=678 STO b<br />

d(n,t) v=5.67 and p=123400 and t=678 STO c<br />

a) ((a*1000)^2+(b*0.06)^2+(c*3)^2) Resultat σ( n ) = 17432 .<br />

rel(n) =1.7432/124.12 = 0.0140 = 1.4%<br />

b) a*3000+b*0.18+c*9 = rel(n)=8.768//12412 )= 0.0706<br />

Excel Ikke muligt, da ikke kan differentiere.<br />

,


Statistiske <strong>grundbegreber</strong><br />

OPGAVER<br />

Opgave 3.1<br />

Givet følgende funktion:<br />

1<br />

⎧ 4 ( 3− x) for 0< x<<br />

2<br />

f ( x)<br />

= ⎨<br />

⎩0<br />

ellers<br />

∫<br />

1) Vis, at f (x) opfylder betingelsen f ( x) dx = 1 der indgår i kravet til en tæthedsfunktion.<br />

a<br />

b<br />

Idet følgende antages, at f ( x ) er tæthedsfunktion for en stokastisk variabel X .<br />

2) Skitser grafen for f (x ) , find den tilsvarende fordelingsfunktion F ( x ) og skitser også dennes graf.<br />

3) Beregn middelværdien E(X), variansen V (X ) og spredningen σ ( X ) .<br />

4) Bestem P(. 025≤ X < 05 .)<br />

Opgave 3.2<br />

Givet følgende funktion:<br />

⎧ 3<br />

⎪ for 1≤ x<br />

4<br />

f ( x) = ⎨ x<br />

⎪<br />

⎩0<br />

ellers<br />

b<br />

1) Vis, at f (x) opfylder betingelsen f ( x) dx = 1 der indgår i kravet til en tæthedsfunktion.<br />

∫<br />

a<br />

Idet følgende antages, at f ( x ) er tæthedsfunktion for en stokastisk variabel X .<br />

2) Skitser grafen for f (x ) , find den tilsvarende fordelingsfunktion F ( x ) og skitser dens graf.<br />

3) Beregn middelværdien E(X), variansen V (X ) og spredningen σ ( X ) .<br />

4) Bestem P( 2≤ X ≤3)<br />

.<br />

Opgave 3.3<br />

Vægten af en (tilfældigt udvalgt) tablet af en vis type imod hovedpine har middelværdien<br />

µ = 065 . g og spredningen σ = 004 . g<br />

Beregn middelværdi og spredning af den sammenlagte vægt af 100 (tilfældigt udvalgte) tabletter<br />

Opgave 3.4<br />

En mængde råmateriale til en produktion ligger i kegleformet bunke. En kegle med radius R og<br />

højde H har volumenet V = R H .<br />

π 2<br />

3<br />

Man har målt R = 12. 0 m , H = 110 . m ,<br />

med usikkerheder σ ( R ) = 02 . m , σ ( H ) = 01 . m .<br />

Det kan antages, at måleresultaterne for R og H er statistisk uafhængige.<br />

Find volumenet V, usikkerheden σ ( V ) , samt den relative usikkerhed rel( V ).<br />

Opgave 3.5<br />

For en rektangulær flade har man målt længden L og bredden B :<br />

L = 12. 3 m , B = 84 . m<br />

med usikkerheder<br />

σ ( L ) = 01 . m , σ ( B ) = 02 . m .<br />

Det kan antages, at måleresultaterne for L og B er statistisk uafhængige.<br />

Find fladens areal A, usikkerheden σ ( A) , samt den relative usikkerhed rel( A)<br />

.<br />

26


27<br />

Opgaver til kapitel 3<br />

Opgave 3.6<br />

For et bassin af form som en retvinklet kasse har man målt længden L , bredden B og højden H<br />

:<br />

L = 18. 0 m , B = 12. 3 m H = 45 . m<br />

med usikkerheder σ ( L ) = 02 . m , σ ( B ) = 01 . m , σ ( H ) = 02 . m.<br />

Det kan antages, at måleresultaterne for L, B og H er statistisk uafhængige.<br />

Find bassinets volumen V, usikkerheden σ ( V ) , samt den relative usikkerhed rel( V ).<br />

Opgave 3.7<br />

På den viste forsøgsopstilling kan man foretage målinger til bestemmelse af et stofs længdeudviddelseskoefficient.<br />

l1 er længden af stangen ved starttemeraturen t1. l2 er længden af stangen ved sluttemeraturen t2. Under forsøget er følgende størrelser bestemt.<br />

l1 = 500 ± 0.1 mm<br />

l2 = 500.48 ± 0.1 mm<br />

t2 - t1 = 78 0 0.1 0 ± C<br />

l2 − l1<br />

Længdeudvidelseseskoefficienten k kan bestemmes af udtrykket k =<br />

l2( t2 − t1)<br />

a) Find den maksimale usikkerhed på k<br />

b) Find den relative maksimale usikkerhed på k.<br />

Idet man nu antager, at man har den erfaring, at spredningen på størrelserne er 0.1, skal man<br />

c) Finde den statistiske usikkerhed på k<br />

d) Find den relative statistiske usikkerhed på k.


4.Normalfordelingen.<br />

4 NORMALFORDELINGEN<br />

4.1 INDLEDNING<br />

Lad os som eksempel tænke os et kemisk forsøg, hvor vi måler udbyttet af et stof A. Selv om vi<br />

gentager forsøget ved anvendelse af den samme metode og i øvrigt søger at gøre forsøgsbetingelserne<br />

så ensartet som muligt, varierer udbyttet dog fra forsøg til forsøg. Disse variationer fra den<br />

ene forsøg til det næste må skyldes forhold vi ikke kan styre. Det kan skyldes små ændringer i<br />

temperaturen, i luftens relative fugtighed, vibrationer under fremstillingen, små forskelle i de<br />

anvendte råmaterialer (kornstørrelse, renhed), forskelle i menneskelig reaktionsevne osv. Hvis<br />

ingen af disse variationsårsager er dominerende, der er et stort antal af dem, de er uafhængige og<br />

lige så godt kan have en positiv som en negativ indvirkning på resultatet, så vil den totale fejl<br />

sædvanligvis approksimativt være fordelt efter den såkaldte normalfordeling. (også kaldet<br />

Gauss-fordelingen)<br />

Som illustration af dette kan anvendes Galtons apparat.<br />

Eksempel 4.1. Eksperiment med et Galton-apparat.<br />

På den anførte figur er skitseret et Galton-apparat.<br />

A er en tragt; B er sømrækker, hvor sømmene i en<br />

underliggende række er anbragt midt ud for mellemrummene<br />

mellem sømmene i den overliggende række;<br />

C er opsamlingskanaler.<br />

Lader man mange kugler passere gennem tragten A<br />

ned gennem sømrækkerne B til opsamlingskanalerne<br />

C, vil man konstatere, at de enkelte kugler nok bliver<br />

tilfældigt fordelt i opsamlingskanalerne, men at kuglernes<br />

samlede fordeling giver et mønster, som gentages,<br />

hver gang man udfører eksperimentet. Fordelingen er hver gang med tilnærmelse en<br />

klokkeformet symmetrisk fordeling som skitseret på tegningen, noget som er karakteristisk<br />

for normalfordelingen.<br />

Galton-apparatet illustrerer, hvorfor man så ofte antager, at måleresultater er værdier af en<br />

normalfordelt variabel: Hver sømrække repræsenterer en faktor, hvis niveau det ikke er muligt<br />

at holde konstant fra måling til måling, og sømrækkernes påvirkning af kuglens bane symboliserer<br />

den samlede virkning, som de ukontrollerede faktorer har på størrelsen af den målte<br />

egenskab.<br />

28


4.2 Definition og sætning om normalfordeling<br />

En anden illustration af under hvilke omstændigheder en normalfordelt variabel kan forekomme<br />

i praksis så vi i kapitel 2 eksempel 2.5 hvor man på 75 mennesker med en bestemt ledsygdom<br />

målte pH i knæleddet.<br />

Histogrammet som er gentaget nedenfor har et klokkeformet udseende, som kraftigt antyder, at<br />

den kontinuerte stokastiske variabel X = pH er normalfordelt.<br />

I den teoretiske statistik giver den centrale grænseværdisætning en forklaring på, hvorfor<br />

normalfordelingen er en god model ved mange anvendelser.<br />

Den centrale grænseværdi 1 siger (løst sagt), at selvom man ikke kender fordelingen for de n<br />

ensfordelte stikprøvevariable X1, X2,..., Xn, så vil gennemsnittet X være approksimativt<br />

normalfordelt blot n er tilstrækkelig stor (i praksis over 30) . 2<br />

4.2 DEFINITION OG SÆTNINGER OM NORMALFORDELING<br />

Definition af normalfordeling n( µ , σ )<br />

Nornalfordelingen er sandsynlighedsfordelingen for en kontinuert stokastisk variabel X med<br />

tæthedsfunktionen f(x) bestemt ved f ( x)= Den har middelværdi µ og spredning σ<br />

2<br />

1 ⎛ x−<br />

µ ⎞<br />

− ⋅ 1<br />

⎜ ⎟<br />

2 ⎝ σ ⎠<br />

⋅ e<br />

2 ⋅π ⋅σ<br />

for ethvert x<br />

Grafen er klokkeformet og symmetrisk om linien x = µ .<br />

1<br />

Den centrale grænseværdi sætning. Lad som ovenfor X være gennemsnittet for en stikprøve af størrelsen n taget fra<br />

en population med middelværdi µ og spredning σ .<br />

StørrelsenU vil da for n gående mod være normeret normalfordelt.<br />

X − µ<br />

=<br />

∞<br />

σ<br />

n<br />

2 ⎛ ( X − µ ) n⎞<br />

P⎜ ⎟ →φ( u) for n→<br />

∞<br />

⎝ σ ⎠<br />

20<br />

18<br />

16<br />

14<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

Hyppighed<br />

6,94 7,02 7,1 7,18 7,26 7,34 7,42 7,5 7,58 7,66 Mere<br />

At f (x ) virkelig er en tæthedsfunktion med de angivne egenskaber vises i “Supplement til<br />

statistiske <strong>grundbegreber</strong> afsnit 2.A”<br />

29<br />

Hyppighed


4.Normalfordelingen.<br />

For at få et overblik over betydningen af µ og σ er der nedenfor afbildet tæthedsfunktionen for<br />

normalfordelingerne n(0 , 1), n(4.8 , 2.2), n(4.8 , 0.7) og n(10 , 1).<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0<br />

-7 -3 1 5 9 13 17<br />

Fig 4.1 Forskellige normalfordelinger<br />

30<br />

0,1<br />

4,8,2,2<br />

4,8,0,7<br />

10,1<br />

Det ses, at tæthedsfunktionerne er klokkeformede, og at et interval på [ µ −3⋅ σ ; µ + 3⋅σ]<br />

indeholder stort set hele sandsynlighedsmassen.<br />

Vi nævner uden bevis følgende sætning:<br />

SÆTNING 4.1 (Additionssætning for linearkombination af normalfordelte variable).<br />

Er Y en linearkombination af n stokastisk uafhængige , normalfordelte variable, vil Y også<br />

være normalfordelt.<br />

Kendes middelværdi og spredning for de n normalfordelte variable , kan man ved anvendelse af<br />

linearitetsregel og kvadratregel finde Y’s middelværdi og spredning.<br />

Endvidere følger det af additionssætningen, og sætning 3.1, at gennemsnittet x er normalfordelt<br />

σ<br />

med en spredning på .<br />

n


3<br />

Normeret normalfordeling<br />

Af særlig interesse er den såkaldte normerede normalfordeling.<br />

Den er bestemt ved at have middelværdien 0 og spredningen 1.<br />

Grafen for den er tegnet i figur 4.1<br />

1<br />

ϕ(<br />

u) = e<br />

2⋅<br />

π<br />

2<br />

u<br />

−<br />

2<br />

for ethvert u<br />

4 1 u −<br />

Φ ( u) = ⋅ e 2 dt<br />

2 ⋅ π ∫∞<br />

t<br />

2<br />

4.2 Definition og sætning om normalfordeling<br />

Den kaldes sædvanligvis U eller Z og dens fordeling U- eller Z-fordelingen . Dens tæthedsfunktion<br />

3 benævnes og dens fordelingsfunktion 4 .<br />

ϕ Φ<br />

Specielt vil dens p - fraktil u p indgå i adskillige formler i de næste afsnit.<br />

Den kan naturligvis beregnes ved anvendelse af eksempelvis TI89 eller Excel, (se afsnit 4.3) men<br />

da de så ofte indgår i beregningerne er der i tabel 1 angivet værdier af den for specielt ofte<br />

forekommende p -værdier.<br />

En vigtig sammenhæng mellem fraktiler for X og fraktiler for U er følgende<br />

xp = up<br />

⋅ σ + µ<br />

31<br />

(4.1)<br />

Beviset for denne relation indgår i beviset for den følgende sætning, som også viser, at man kan<br />

overføre en vilkårlig normalfordeling til den normerede normalfordeling.<br />

Det er derfor nok at lave en tabel over den normerede normalfordeling.<br />

Dette er det man udnytter, hvis man ikke har rådighed over et program, der som beskrevet i afsnit<br />

4.3 direkte kan beregne værdierne.<br />

Der gælder følgende


4.Normalfordelingen.<br />

SÆTNING 4.2. (normering af normalfordeling). Når X er normalfordelt<br />

er den variable U normalfordelt , og der gælder<br />

X − µ<br />

=<br />

n( 01 ,)<br />

σ<br />

⎛ b − µ ⎞<br />

P( X ≤ b)<br />

= Φ⎜<br />

⎟<br />

⎝ σ ⎠<br />

og<br />

⎛ b−µ ⎞ ⎛ a−µ<br />

⎞<br />

Pa ( < X≤ b)<br />

= Φ⎜⎟−Φ⎜⎟. ⎝ σ ⎠ ⎝ σ ⎠<br />

Endvidere gælder xp = up<br />

⋅ σ + µ<br />

Bemærk, at det for de to formler er ligegyldigt, om ulighederne er med eller uden lighedstegn.<br />

Bevis:<br />

At U også er normalfordelt vises ikke her.<br />

∞<br />

∞<br />

∞<br />

⎛ X − µ ⎞ x − µ 1 µ<br />

1 µ<br />

EU ( ) = E⎜ ⎟ = f( xdx ) = x⋅ f( xdx ) − f( xdx ) = E( X)<br />

− = 0<br />

⎝ σ ⎠ ∫−∞<br />

σ σ∫−∞<br />

σ∫−∞ σ σ<br />

∞ 2<br />

∞<br />

⎛ X − µ ⎞ ⎛ x − µ ⎞<br />

1<br />

2 V( X)<br />

VU ( ) = V⎜ ⎟ = ⎜ ⎟ f ( x) dx = ( x − µ ) ⋅ f ( x) dx = = 1<br />

⎝ σ ⎠ ∫−∞⎝<br />

σ ⎠<br />

2<br />

σ ∫<br />

2<br />

−∞<br />

σ<br />

U har derfor middelværdi 0 og spredning 1.<br />

X − b<br />

b b<br />

Endvidere fås P( X ≤ b) = P ≤ PU og<br />

−<br />

⎛<br />

⎞<br />

⎜<br />

⎟ = ≤<br />

⎝<br />

⎠<br />

− ⎛<br />

µ µ<br />

µ ⎞ ⎛ − µ ⎞<br />

⎜ ⎟ = Φ⎜<br />

⎟<br />

σ σ ⎝ σ ⎠ ⎝ σ ⎠<br />

Pa X b P a ⎛ − µ b−µ ⎞ ⎛ b−µ ⎞ ⎛ a−µ<br />

⎞<br />

( < ≤ ) = ⎜ < U≤ ⎟ = Φ⎜⎟−Φ⎜⎟ ⎝ σ σ ⎠ ⎝ σ ⎠ ⎝ σ ⎠<br />

⎛ x p − ⎞ x p<br />

Bevis for formel 2.1: P( X ≤ xp) = p⇔<br />

⎜ ⎟ = p ⇔ up xp up<br />

⎝ ⎠<br />

−<br />

µ<br />

µ<br />

Φ<br />

= ⇔ = ⋅ σ + µ<br />

σ<br />

σ<br />

4.3. BEREGNING AF SANDSYNLIGHEDER<br />

Stikprøves gennemsnit og spredning.<br />

Ofte er middelværdien µ og spredningen σ ukendt i en foreliggende normalfordeling. I så fald<br />

erstattes fordelingen n( µ , σ ) i praksis med en approksimerende fordeling nxs ( , ) , såfremt der<br />

foreligger et rimelig stort antal observationer fra den givne fordeling.<br />

På basis af den i eksempel 1.5 angivne stikprøve på 75 patienter beregnes et gennemsnit af pH<br />

værdierne på 546. 52<br />

SAK<br />

x = = 7. 2868 og en s værdi på s =<br />

.<br />

75<br />

n − = 0134355 .<br />

1<br />

Vi vil altså antage, at pH værdierne er approksimativt normalfordelt n (7.29, 0.134).<br />

32<br />

n( µ , σ )


Ønsker vi at benytte ovenstående normal<br />

fordeling n (7.29, 0.134) til at finde sandsynligheden<br />

for, at pH er mindre end 7.2, er<br />

denne sandsynlighed lig med arealet af det<br />

skraverede areal under tæthedsfunktionen.<br />

Ønsker vi tilsvarende at beregne sandsynligheden<br />

for, at pH ligger mellem 7.2 og 7.5 er sandsynligheden<br />

lig med det skraverede areal<br />

under kurven på omstående figur.<br />

Eksempel 4.1. Beregning med TI89 og Excel<br />

Lad X være normalfordelt n( µ , σ ) , hvor µ = 7.29 og σ = 0.134.<br />

1) Find P( X ≤ 72 . )<br />

2) Find P(. 72≤ X ≤75<br />

.)<br />

3) Find P( X ≥ 76 . )<br />

4) Find 90% fraktilen<br />

Løsning:<br />

x09 .<br />

33<br />

4.3. Beregn af sandsynligheder<br />

TI89: Man finder de benyttede sandsynlighedsfordelinger ved at trykke på CATALOG F3<br />

1) normCdf( , 7.2, 7.29, 0.134) = 0.2509<br />

P( X ≤ 72 . ) = −∞<br />

2) P(. 72≤ X ≤75<br />

.) = normCdf( 7.2,7,5, 7.29, 0.134) = 0.691<br />

3) P( X ≤ 76 . ) = normCdf( 7.6, ∞ 7.29, 0.134) = 0.2509<br />

4) Har man omvendt givet en sandsynlighed p = 0.9 og ønsker at finde den tilsvarende<br />

værdi x p for hvilken P( X ≤ xp) = 09 . betyder det, at man kender arealet 0.9 og skal<br />

finde x-værdien.<br />

Det svarer jo til at finde den inverse (omvendte) funktion af normalfordelingen.<br />

x09 . = invnorm(0.6, 7.29, 0.134) = 7.462<br />

Excel: Man finder de benyttede sandsynlighedsfordelinger ved på værktøjslinien foroven:<br />

Tryk f x Vælg kategorien “Statistisk”<br />

1) P( X ≤ 72 . ) = NORMFORDELING(7,2;7,29;0,134,1)=0.2509.<br />

2) Beregningen sker i Excel ved (se det skraverede areal på figuren ) at beregne arealet fra −∞til<br />

7.5 og<br />

derfra trække arealet fra til 7.2, dvs.<br />

−∞<br />

P( 72 . ≤ X ≤ 75 .) = P( X ≤72 .) − P( X ≤ 75 .) =<br />

NORMFORDELING(7,5;7,29;0,134;1)-NORMFORDELING(7,2;7,29;0,134;1)=0,691


4.Normalfordelingen.<br />

3) Da arealet under kurven er 1, fås<br />

P( X ≥ 76 . ) = 1− P( X < 76 . )<br />

4) x09 . = NORMINV(0.9, 7.29, 0.134) = 7.462 .<br />

=1-NORMFORDELING(7,6;7,29;0,134;1)= 0,01035<br />

Eksempel 4.2. Kvalitetskontrol.<br />

En fabrik støber plastikkasser. Fabrikken får en ordre på kasser, som blandt andet har den<br />

specifikation, at kasserne skal have en længde på 90 cm. Kasser, hvis længder ikke ligger mellem<br />

tolerancegrænserne 89.2 og 90.8 cm bliver kasseret.<br />

Det vides, at fabrikken producerer kasserne med en længde X, som er normalfordelt med en<br />

spredning på 0.5 cm.<br />

a) Hvis X har en middelværdi på 89.6, hvad er så sandsynligheden for, at en kasse har en længde,<br />

der ligger indenfor tolerancegrænserne.<br />

b) Hvor stor er sandsynligheden for at en kasse bliver kasseret, hvis man justerer støbningen, så<br />

middelværdien bliver den der giver den mindste procentdel kasserede (spredningen kan man<br />

ikke ændre).<br />

Fabrikanten finder, at selv efter den i spørgsmål 2 foretagne justering kasseres for stor en<br />

procentdel af kasserne. Der ønskes højst 5% af kasserne kasseret.<br />

c) Hvad skal spredningen σ formindskes til, for at dette er opfyldt?<br />

Hvis det er umuligt at ændre σ , kan man prøve at få ændret tolerancegrænserne.<br />

d) Find de nye tolerancegrænser (placeret symmetrisk omkring middelværdien 90,0) idet spredningen<br />

stadig er 0.5, og højst 5% må kasseres.<br />

En ny maskine indkøbes, og som et led i en undersøgelse af, om der dermed er sket ændringer<br />

i middelværdi og spredning produceres 12 kasser ved anvendelse af denne maskine.<br />

Man fandt følgende længder: 89.2 90.2 89.4 90.0 90.3 89.7 89.6 89.9 90.5 90.3 89.9 90.6.<br />

e) Angiv på dette grundlag et estimat for middelværdi og spredning.<br />

LØSNING:<br />

TI89: Man finder de benyttede sandsynlighedsfordelinger ved at trykke på CATALOG F3<br />

a) P( 89. 2 ≤ X ≤ 908 . ) = normCdf(89.2, 90.8, 89.6, 0.5)= 0.7799 = 77.99%<br />

b) Middelværdien justeres til midtpunktet 90.0<br />

P( X > 908 . ) + P( X < 89. 2) = normCdf(90.8 , ∞ , 90, 0.5)+normCdf(- ∞ ,89.2, 90, 0.5)= 10.96%<br />

c) Da der ligger 5% udenfor intervallet, så må af symmetrigrunde 2,5% ligge på hver sin side<br />

af intervallet. Vi har følgelig, at vi skal finde spredningenσ så P( X ≤ 89. 2) = 0. 025<br />

08 .<br />

Metode 1:Af relationen (4.1) fås 89. 2 = 0025 . ⋅ + 90 ⇔ = .<br />

−<br />

u σ σ<br />

u<br />

34<br />

0025 .<br />

Da =−196 . ( findes af tabel 2 eller ved invNorm(0.025,0,1)) fås σ = 0. 408<br />

u0. 025<br />

Metode 2: solve( normCdf( −∞ ,89.2, 90,x)=0.025,x) x > 0<br />

eller solve(invNorm(0.025,90,x)=89.2,x) x > 0 Resultat x = σ = 0. 408<br />

d) Kaldes den nedre tolerancegrænse for a fås med samme begrundelse som i punkt c :<br />

P( X ≤ a)<br />

= 0. 025.<br />

Vi kan her benytte den “inverse” normalfordeling


Nedre grænse a = invNorm(0.025, 90,0.05) = 89.02<br />

Øvre grænse b = 90 +(90 - 89.02) = 90.98<br />

e) APPS Stat/List indtastning af de 12 tal i list1 F4 :Calc Udfylde menu<br />

Man finder x = 89. 97 og s = 0435 .<br />

Excel: Man finder de benyttede sandsynlighedsfordelinger ved<br />

På værktøjslinien foroven: Tryk f x Vælg kategorien “Statistisk”<br />

a) P( 89. 2 ≤ X ≤ 908 . ) = P( X ≤908 . ) − P( X ≤ 89. 2)<br />

=<br />

NORMFORDELING(90,8;89,6;0,5;1) - NORMFORDELING(89,2;89,6;0,5;1)=0,7799<br />

b) Middelværdien justeres til midtpunktet 90.0<br />

P( X > 908 . ) + P( X < 89. 2) = 1−P( X ≤ 908 . ) + P( X < 892 . ) =<br />

1 -NORMFORDELING(90,8;90;0,5;1) - NORMFORDELING(89,2;90;0,5;1) = 0.1096<br />

35<br />

4.3. Beregn af sandsynligheder<br />

89. 2 − 90<br />

c) Metode 1:Ved indsættelse i ligningen xp = up<br />

⋅ σ + µ fås 89. 2 = u0025<br />

. ⋅ σ + 90 ⇔ σ =<br />

u0025<br />

.<br />

σ =(89,2-90)/NORMINV(0,025;0;1)=0,408171 ≈ 0.408<br />

Metode 2: I celle A1 skrives en startværdi for σ eksempelvis 0,5.<br />

I celle B1 skrives =NORMFORDELING(89,2;90;A1;1)<br />

2003: Funktioner “Målsøgning”<br />

2007: Data Hvad-hvis analyse ”Målsøgning<br />

I “Angiv celle” skrives B1. I “Til Værdi” skrives 0,025. I “Ved ændring af celle” skrives A1.<br />

Facit :0,408444<br />

d) Med samme begrundelse som under punkt c fås:<br />

P( 90. 0 − d < X < 90. 0 + d) = 0. 95 ⇔ P( X ≤ 90. 0 − d) = 0. 025 og P( X ≤ 90. 0 + d)<br />

= 0. 975 .<br />

Vi får nedre grænse =NORMINV(0,025;90;0,5) = 89,02002 = 89.0<br />

Øvre grænse =NORMINV(0,975;90;0,5) = 90,97998 = 91.0<br />

5) Ved indtastning af de 12 tal i Excel i cellerne A1 til A12 findes<br />

x = Middel( A1: A12)<br />

= 8997 . og s = STDAFV(A1:A2) = 0.435<br />

Eksempel 4.3. Additionssætning.<br />

En boreproces fremstiller huller med en diameter X 1 , der er normalfordelt med en middelværdi µ 1<br />

og en spredning på 0.04. En anden proces fremstiller aksler med en diameter X 2 , der er<br />

normalfordelt med en middelværdi µ 2 og en spredning på 0.03.<br />

Antag, at µ 1 = 10. 00 , og at µ 2 = 994 . .<br />

Find sandsynligheden for, at en tilfældig valgt aksel har en mindre diameter end en tilfældig valgt<br />

borehul.<br />

LØSNING:<br />

P( X2 < X1) = P( X2 − X1<br />

< 0).<br />

Sættes Y = X − X er Y normalfordelt.<br />

2 1<br />

EY ( ) = E( X2) − E( X1)<br />

= 994 . − 1000 . = −006<br />

.<br />

2<br />

2<br />

2 2<br />

V( Y) = 1 V( X ) + ( − 1) V( X ) = 0. 04 + 0. 03 = 0. 025<br />

.<br />

σ ( Y ) = 0. 0025 = 0. 05<br />

2<br />

1<br />

TI89: PX ( 2 < X1) = PY ( < 0)<br />

= normCdf( − ∞ , 0, -0.06, 0.05) = 0.8849 = 88.49%<br />

Excel: P( X2 < X1) = P( Y < 0)<br />

=<br />

NORMFORDELING(0;-0,06;0,05;1) = 0.8849


4.Normalfordelingen.<br />

OPGAVER<br />

Opgave 4.1<br />

1) En stokastisk variabel X er normalfordelt med µ = 0 og σ = 1.<br />

Find P( X ≤ 075 . ), P( X > 16 . ) og P(. 075< X < 16 .).<br />

2) En stokastisk variabel X er normalfordelt med µ = 25.1 og σ = 2.4.<br />

Find P( 22. 3 < X ≤ 27. 8)<br />

.<br />

Opgave 4.2<br />

Maksimumstemperaturen, der opnås ved en bestemt opvarmningsproces, har en variation der er<br />

tilfældig og kan beskrives ved en normalfordeling med en middelværdi på 113.3 o og en spredning<br />

på 5.6 o C.<br />

1) Find procenten af maksimumstemperaturer, der er mindre end 116.1 o C.<br />

2) Find procenten af maksimumstemperaturer, der ligger mellem 115 o C og 116.7 o C.<br />

3) Find den værdi, som overskrides af 57.8% af maksimumstemperaturerne.<br />

Man overvejer at gå over til en anden opvarmningsproces. Man udfører derfor 16 gange i løbet<br />

af en periode forsøg, hvor man måler maksimumstemperaturen, der opnås ved denne nye proces.<br />

Resultaterne var<br />

116.6 , 116,6 , 117,0 , 124,5 , 122,2 , 128,6 , 109,9 , 114,8 , 106,4 , 110,7, 110,7 , 113,7 , 128,1,<br />

118,8 , 115,4 , 123,1<br />

4) Giv et estimat for middelværdien og spredningen.<br />

Opgave 4.3<br />

En fabrik planlægger at starte en produktion af rør, hvis diametre skal opfylde specifikationerne<br />

2,500 cm ± 0,015 cm.<br />

Ud fra erfaringer med tilsvarende produktioner vides, at de producerede rør vil have diametre,<br />

der er normalfordelte med en middelværdi på 2,500 cm og en spredning på 0,010 cm. Man ønsker<br />

i forbindelse med planlægningen svar på følgende spørgsmål:<br />

1) Hvor stor en del af produktionen holder sig indenfor specifikationsgrænserne.<br />

2) Hvor meget skal spredningen σ ned på, for, at 95% af produktionen holder sig indenfor<br />

specifikationsgrænserne (middelværdien er uændret på 2,500 cm).<br />

3) Fabrikken overvejer, om det er muligt at få indført nogle specifikationsgrænser (symmetrisk<br />

omkring 2,500), som bevirker, at 95% af dets produktion falder indenfor grænserne. Find disse<br />

grænser, idet det stadig antages at middelværdien er 2.500 og spredningen 0.010 cm.<br />

Opgave 4.4<br />

En automatisk dåsepåfyldningsmaskine fylder hønskødssuppe i dåser. Rumfanget er normalfordelt<br />

med en middelværdi på 800 ml og en spredning på 6,4 ml.<br />

1) Hvad er sandsynligheden for, at en dåse indeholder mindre end 790 ml?.<br />

2) Hvis alle dåser, som indeholder mindre end 790 ml og mere end 805 ml bliver kasseret, hvor<br />

stor en procentdel af dåserne bliver så kasseret?<br />

3) Bestem de specifikationsgrænser der ligger symmetrisk omkring middelværdien på 800 ml,<br />

og som indeholde 99% af alle dåser.<br />

36


37<br />

Opgaver til kapitel 4<br />

Opgave 4.5<br />

I et laboratorium lægges et nyt gulv.<br />

Det forudsættes, at vægten Y der hviler på gulvet, er summen af vægten X1 af maskiner og<br />

apparater og vægten X2 af varer og personale, dvs. Y = X1 + X2 Da både X1 og X2 er sum af mange relativt små vægte, antages det, at de er normalfordelte.<br />

Det antages endvidere at X1 og X2 er statistisk uafhængige.<br />

Erfaringer fra tidligere gør det rimeligt at antage, at der gælder følgende middelværdier og<br />

spredninger (målt i tons):<br />

E(X1) = 6.0, σ ( X 1) = 1.2, E(X2) = 3.5, σ ( ) = 0.4.<br />

1) Beregn E(Y) og σ ( Y)<br />

.<br />

X 2<br />

2) Beregn det tal y 0 , som vægten Y med de ovennævnte forudsætninger kun har en sandsynlighed<br />

på 1% for at overskride.<br />

3) Beregn sandsynligheden for, at vægten af varer og personale en tilfældig dag, efter at det nye<br />

gulv er lagt, er større end vægten af maskiner og apparater. (Vink: se på differensen X 2 - X 1)<br />

Opgave 4.6<br />

Ved fabrikation af et bestemt mærke opvaskemiddel fyldes vaskepulver i papkartoner.<br />

I middel fyldes 4020 g pulver i hver karton, idet der herved er en spredning på 12 g.<br />

Pulverfyldningen kan forudsættes ikke at afhænge af kartonernes vægt, der i middel er 250 g med<br />

en spredning på 5g.<br />

Beregn sandsynligheden p for, at en tilfældig pakke opvaskemiddel har en bruttovægt mellem<br />

4250 g og 4300 g.<br />

Opgave 4.7<br />

Et system er af sikkerhedsmæssige grunde opbygget af to apparater A, der er parallelforbundne<br />

(se figur) således, at systemet virker, så længe blot et af apparaterne<br />

virker.<br />

Svigter et af apparaterne, startes reparation. Det antages, at<br />

reparationstiden er normalfordelt med middelværdien<br />

µ rep = 10 timer og spredning σ rep = 3 timer.<br />

I reparationstiden overbelastes den anden komponent, og det<br />

antages, at dens levetid fra reparationens start (approksimativt) er normalfordelt med middelværdi<br />

µ og spredning σ = 4 timer.<br />

1) Find sandsynligheden for, at reparationen er afsluttet, inden den anden komponent fejler, hvis<br />

µ = 20 timer.<br />

2) Hvor stor skal µ være, for at sandsynligheden for, at reparationen kan afsluttes før den anden<br />

komponent fejler, er mere end 99.9%?<br />

Opgave 4.8<br />

Vægten af en (tilfældig udvalgt) tablet af en vis type mod hovedpine har middelværdien 0.65 g<br />

og spredningen 0.04 g.<br />

1) Beregn middelværdi og spredning af den sammenlagte vægt af 100 (tilfældigt udvalgte )<br />

tabletter.<br />

2) Antag, at man benytter følgende metode til at fylde tabletter i et glas. Man placerer glasset på<br />

en vægt og fylder tabletter på, indtil vægten af tabletterne i glasset overstiger 65,3 g. Beregn<br />

sandsynligheden for, at glasset kommer til at indeholde mere end 100 tabletter (se bort fra<br />

vægtens fejlvisning).


5 Stikprøver<br />

5. STIKPRØVER<br />

5.1 UDTAGNING AF STIKPRØVER<br />

I langt de fleste i praksis forekomne tilfælde vil det bl.a. af tidsmæssige og omkostningsmæssige<br />

grunde være umuligt at foretage en totaltælling af hele populationen. Helt klart er dette ved<br />

afprøvningen ødelægger emnet (åbning af konservesdåser) eller populationen i princippet er<br />

uendelig ( for at undersøge om en metode giver et større udbytte end et andet, udføres en række<br />

kemiske forsøg og her er der teoretisk ingen øvre grænse for antal delforsøg)<br />

Som det senere vil fremgå kan selv en forholdsvis lille repræsentativ stikprøve give svar på<br />

væsentlige forhold omkring hele populationen.<br />

Det er imidlertid klart, at en betingelse herfor er, at stikprøven er repræsentativ, dvs. at<br />

stikprøven med hensyn til den egenskab der ønskes er et “mini-billede” af populationen.<br />

For at opnå det, foretager man en eller anden form for lodtrækning (kaldes randomisering).<br />

Afhængig af problemet kan dette gøres på forskellig måde.<br />

Simpel udvælgelse: Den enkleste form for stikprøveudtagning er, at man nummererer<br />

populationens elementer, og så randomiserer (ved lodtrækning, evt. ved at benyttet et program<br />

der generer tilfældige tal) udtager de N elementer der skal indgå i stikprøven.<br />

Eksempel: For at undersøge om en ændring af vitaminindholdet i foderet for svin ændrede deres<br />

vægt, udvalgte man ved randomisering de svin, som fik det nye foder.<br />

Stratificeret udvælgelse.<br />

Under visse omstændigheder er det fordelagtigt (mindre stikprøvestørrelse for at opnå samme<br />

sikkerhed) at opdele populationen i mindre grupper (kaldet strada), og så foretage en simpel<br />

udvælgelse indenfor hver gruppe. Dette er dog kun en fordel, hvis elementerne indenfor hver<br />

gruppe er mere ensartet end mellem grupperne.<br />

Eksempel: Ønsker man at spørge vælgerne om deres holdning til et politisk spørgsmål (f.eks. om<br />

deres holdning til et skattestop) kunne det måske være en fordel at dele dem op i indkomstgrupper<br />

(høj, mellem og lav) .<br />

Systematisk udvælgelse:<br />

Ved en såkaldt systematisk udvælgelse, vælger man at udtage hver k’te element fra populationen.<br />

Eksempel: En detailhandler ønsker at måle tilfredsheden hos sine kunder. Der ønskes udtaget 40<br />

kunder i løbet af en speciel dag.<br />

Da man naturligvis ikke på forhånd kender de kunder der kommer i butikken, vælges en<br />

systematisk udvælgelse, ved at vælge hver 7'ende kunde der forlader butikken. Man starter dagen<br />

med ved lodtrækning at vælge et af tallene fra 1 til 7. Lad det være tallet 5. Man udtager nu kunde<br />

nr. 5, 5+ 1⋅ 7 = 12, 5+ 2⋅ 7 = 19,..., 5+ 39⋅ 7 = 278 . Derved har man fået valgt i alt 40 kunder.<br />

Problemet er naturligvis, om tallet 7 er det rigtige tal. Hvis man får valgt tallet for stort,<br />

eksempelvis sætter det til 30, så vil en stikprøve på 40 kræve, at der er 1175 kunder den dag, og<br />

det behøver jo ikke at være tilfældet. Omvendt hvis tallet er for lille, så får man måske udtaget<br />

de 40 kunder i løbet af formiddagen, og så er stikprøven nok ikke repræsentativ, da man ikke får<br />

eftermiddagskunderne med.<br />

38


5.2 Fordeling og spredning af gennemsnit<br />

Klyngeudvælgelse (Cluster sampling)<br />

Denne metode kan med fordel benyttes, hvis populationen består af eller kan inddeles i<br />

delmængder (klynger) . Metoden består i, at man ved randomisering vælger et mindre antal<br />

klynger, som så totaltælles.<br />

Eksempel: I et vareparti på 2000 emner fordelt på 200 kasser hver med 10 emner ønsker man en<br />

vurdering af fejlprocenten.<br />

Man udtager randomiseret 5 kasser, og undersøger alle emnerne i kasserne.<br />

5.2. FORDELING OG SPREDNING AF GENNEMSNIT<br />

Udtages en stikprøve fra en population er det jo for, at man ud fra stikprøven kan fortælle noget<br />

centralt om hele populationen.<br />

I eksempel 1.5 var vi således interesseret i koncentrationen af brintioner (pH) i ledvæsken i knæet<br />

hos patienter, der led af denne sygdom.<br />

Som led i en nordisk medicinsk undersøgelse udtog man blandt patienter der led af denne sygdom<br />

tilfældigt en stikprøve på 75.<br />

På basis heraf beregnede man gennemsnittet af pH værdierne til x = 7.2868 og spredningen<br />

s = 0.134355 .<br />

Man vil nu sige, at et estimat (skøn) for den “sande” middelværdi µ for hele populationen er 7.29<br />

og den “sande” spredning” σ er 0.134.<br />

Det er imidlertid klart, at disse tal er behæftet med en vis usikkerhed.<br />

Havde vi valgt 75 andre patienter havde vi uden tvivl fået lidt andre tal.<br />

Det er derfor ikke nok, at angive at den “sande” middelværdi er x , vi må også angive et<br />

“usikkerhedsinterval”.<br />

For at kunne beregne et sådant interval er det nødvendigt at kende fordelingen.<br />

Her spiller den tidligere nævnte centrale grænseværdisætning en vigtig rolle, idet den jo (løst<br />

sagt) siger, at selv om man ikke kender fordelingen af den kontinuerte stokastiske variabel, så vil<br />

gennemsnittet af værdierne i en stikprøve på n tal vil være tilnærmelsesvis normalfordelt, hvis<br />

blot n er tilstrækkelig stor ( i praksis over 30).<br />

Dette er af stor praktisk betydning, idet det så ikke er så vigtigt, om selve populationen er<br />

normalfordelt. Ofte er det jo kun af interesseret at kunne forudsige noget om hvor middelværdien<br />

af fordelingen er placeret.<br />

σ<br />

Endvidere fremgik det af sætning 3.1 , at spredningen på x er σ(<br />

x)<br />

= , hvor σ er<br />

n<br />

spredningen på den enkelte værdi i stikprøven.<br />

Heraf fremgår, at gennemsnittet kan man “stole” mere på end den enkelte måling, da den har en<br />

mindre spredning.<br />

39


5 Stikprøver<br />

Eksempel 5.1. Fordeling af gennemsnit<br />

Den tid, et kunde må venter i en lufthavn ved en check-in disk, er givet at være en stokastisk<br />

variabel med en ukendt fordeling. Man har dog erfaring for, at ventetiden i middel er på 8.2<br />

minutter med en spredning på 3 minutter.<br />

Udtages en stikprøve på 50 kunder, ønskes fundet sandsynligheden for, at den gennemsnitlige<br />

ventetid for disse kunder er mellem 7 og 9 minutter<br />

Løsning:<br />

Da antallet n i stikprøven på 50 er større end 30, kan vi antage at gennemsnittet er approksimativt<br />

σ 3<br />

normalfordelt med en middelværdi på 8.2 og en spredning på σ = = = 0. 424<br />

x<br />

.<br />

n 50<br />

Vi har derfor<br />

P( 7< X < 9)<br />

=<br />

TI89: normCdf(7,9,8.2,0.424) = 0.9681 = 96.8%<br />

Excel: P( 7< X < 9) = P( X < 9) − P( X < 7)<br />

=<br />

NORMFORDELING(9;8,2;0,424;1)-NORMFORDELING(7;8,2;0,429;1) =0,9681 = 96.8%<br />

5.3. KONFIDENSINTERVAL FOR MIDDELVÆRDI<br />

5.3.1 Definition af konfidensinterval<br />

Udtages en stikprøve fra en population er det jo for, at man ud fra stikprøven kan fortælle noget<br />

centralt om hele populationen.<br />

Man vil eksempelvis beregne gennemsnittet x og angive det som et estimat (skøn) for den<br />

“sande” middelværdi µ for hele populationen<br />

Det er imidlertid klart, at selv om et gennemsnit har en mindre spredning end den enkelte måling,<br />

så er det stadig behæftet med et vis usikkerhed<br />

Det er derfor ikke nok, at angive at den “sande” middelværdi er x , vi må også angive et<br />

“usikkerhedsinterval”.<br />

Et interval indenfor hvilket den “sande værdi” µ med eksempelvis 95% “sikkerhed” vil ligge,<br />

kaldes et 95% konfidensinterval for middelværdien.<br />

Mere præcist gælder det, at hvis man for et stort antal stikprøver på den samme stokastiske<br />

variabel angav 95% konfidensintervaller, så ville den sande middelværdi tilhøre 95% af disse<br />

intervaller. 1<br />

1<br />

Præcis definition af konfidensinterval. Lad være givet en stikprøve for en stokastisk variabel X, lad være et tal<br />

mellem 0 og 1. Lad endvidere Θ være en punktestimator for parameteren θ og lad L og U være stokastiske variable,<br />

for hvilke det gælder, at PL ( ≤θ ≤ U)<br />

= β . På basis af den givne stikprøve findes tal l og u som bestemmer det ønskede<br />

interval l ≤θ≤u. Dette kaldes et 100 ⋅ β procent konfidensinterval for den ukendte parameter θ .<br />

40<br />

β


5.3.2. Populationens spredning kendt eksakt<br />

Et 95% konfidensinterval [ x − r; x + r]<br />

må ligge symmetrisk<br />

omkring gennemsnittet, og således, at<br />

Px ( −r≤ X≤ x+ r)<br />

= 095 . .<br />

Heraf følger, at hvis den sande middelværdi µ ligger i et af<br />

de farvede områder på figur 5.1, så er der mindre end 2.5%<br />

chance for, at vi ville have fået det fundne gennemsnit x .<br />

For at finde grænsen for intervallet, må vi finde en middelværdi<br />

µ så P( X ≤ x)<br />

= 0. 025 .<br />

Man kan vise, at der gælder følgende formel<br />

5.3 Konfidensinterval for middelværdi<br />

2<br />

I celle A1 skrives en startværdi for µ eksempelvis 90. I celle B1 skrives<br />

=NORMFORDELING(90;A1;0,5/0.1443;1) Funktioner “Målsøgning” I “Angiv celle” skrives B1. I “Til<br />

Værdi” skrives 0,025. I “Ved ændring af celle” skrives A1. Resultat 90,2841<br />

41<br />

x − r x x + r<br />

Fig 5.1. 95% konfidensinterval<br />

Er spredningen eksakt kendt er et 95% konfidensinterval bestemt ved formlen<br />

σ<br />

σ<br />

x −u0. 975 ⋅ ≤ µ ≤ x + u0.<br />

975 ⋅<br />

(1)<br />

n<br />

n<br />

Forklaring på formel for 95% konfidensinterval<br />

Lad gennemsnittet af 12 målinger være x = 90 , og lad os antage, at spredningen kendes eksakt<br />

til σ = 0.5.<br />

σ 05 .<br />

Vi ved, at spredningen på gennemsnittet er “standardfejlen” σ(<br />

X ) = = = 01443 . .<br />

n 12<br />

Hvis den sande middelværdi µ afviger stærkt fra 90 er det yderst usandsynligt, at vi ville have fået<br />

et gennemsnittet på 90.<br />

Eksempelvis, hvis µ = 92 er P( X ≤ 90)<br />

= 0.0000<br />

TI89: P( X ≤ 90) = normCdf( −∞ ,90, 92, 0.1443) = 0<br />

Excel: NORMFORDELING(90;92;0,5/KVROD(12);1) = 0<br />

P( X ≤ 90)<br />

=<br />

dvs. det er ganske usandsynligt at den sande middelværdi var 92.<br />

For at finde grænsen kunne man finde µ af ligningen PX ( ≤ 90) = 0. 025<br />

TI89: solve(normCdf ( −∞ ,90, x, 0.1443) =0.025,x) hvilket giver 90.283<br />

Excel 2<br />

Da der er symmetri omkring x<br />

fås konfidensintervallet [89.717 ; 90.283]


5 Stikprøver<br />

Lettere er det at benytte formlen xp = µ + up<br />

⋅σ<br />

som ved benyttelse af, at σ(<br />

X ) =<br />

σ<br />

giver<br />

n<br />

µ = x −u0. 025 ⋅<br />

σ<br />

. Indsættes fra tabel 1 u0. 025 =−196<br />

. (eller =NORMINV(0,025;0;1)) fås, at øvre<br />

12<br />

grænse for konfidensintervallet er µ = x + 196⋅<br />

σ<br />

= 90 + 196⋅ 12<br />

= .<br />

05<br />

. .<br />

.<br />

90. 283<br />

12<br />

Da der er symmetri omkring x fås konfidensintervallet [89.717 ; 90.283]<br />

Sædvanligvis udtrykkes de generelle formler ved signifikansniveauet α , som er sandsynligheden<br />

for at begå en fejl . α sættes sædvanligvis til 10%, 5%, 1 % eller 0.1% svarende til henholdsvis<br />

90%, 95%, 99% og 99.9% konfidensintervaller.<br />

σ<br />

σ<br />

x −u x u<br />

I så fald bliver formlen (udtrykt ved α ) α ⋅ ≤ µ ≤ + α ⋅<br />

− n<br />

− n<br />

(2)<br />

Eksempel 5.3. Konfidensinterval hvis spredningen er kendt eksakt<br />

Lad os antage, at vi spredningen for en population kendes eksakt til σ = 58 ,<br />

Bestem et 95% konfidensinterval for en stikprøve på 5 elementer, der har gennemsnittet x = 774 .<br />

Løsning:<br />

“Radius” r i et 95% konfidensinterval er r = u0975⋅<br />

= 196⋅ =5.08<br />

n n<br />

58<br />

σ .<br />

. .<br />

95% konfidensinterval: 774 . −508 . ≤ µ ≤ 774 . + 508 . ⇔266 . ≤ µ ≤1282<br />

.<br />

Lettere er det at finde konfidensintervallet ved at benytte<br />

TI89: APPS STAT/LIST F7, 2: Z-Interval Vælg Stats Udfyld menuen med 5.8 7.74 osv.<br />

Resultat [2.66 ; 12.82 ]<br />

Excel: På værktøjslinien foroven: Tryk på = eller f x Vælg kategorien “Statistisk” Vælg “konfidensinter-<br />

val” udfylde menuen : KONFIDENSINTERVAL(0,05;5,8;5)=5,08<br />

95% konfidensinterval: 774 . −508 . ≤ µ ≤ 774 . + 508 . ⇔266 . ≤ µ ≤1282<br />

.<br />

Vi ved derfor med 95% “sikkerhed”, at populationens sande middelværdi ligger indenfor disse<br />

intervaller 3 .<br />

3<br />

Mere præcist, at af de 100 stikprøver med tilhørende 95% konfidensintervaller, vil i middel kun 5 af disse<br />

intervaller ikke indeholde den sande værdi.<br />

42<br />

1 2<br />

1 2


43<br />

5.3 Konfidensinterval for middelværdi<br />

5.3.3. Populationens spredning ikke kendt eksakt<br />

Sædvanligvis er populationens spredning σ jo ikke eksakt kendt, men man regner et estimat s<br />

ud for den.<br />

Da s jo også varierer fra stikprøve til stikprøve, giver dette en ekstra usikkerhed, så konfidensintervallet<br />

for µ bliver bredere.<br />

Hvis stikprøvestørrelsen er over 30 er denne usikkerhed dog uden væsentlig betydning, så i<br />

sådanne tilfælde kan man i formel (1) (eller formel (2)) blot erstatte σ med s.<br />

Er stikprøvestørrelsen under 30 bliver denne usikkerhed på s så stor, at man i formel (1) må<br />

erstatte U- fraktilen med en såkaldt t - fraktil t0.975(f) (også benævnt ) hvor<br />

u0975 . t0975 . , f<br />

frihedsgradstallet f = n - 1, og n = antal målinger).<br />

(eller udtrykt ved i formel (2) erstatte U- fraktilen med t - fraktilen t .)<br />

α u<br />

1− 2<br />

α<br />

Er spredningen ukendt er et 95 % konfidensinterval bestemt ved formlen:<br />

x−t0, 975( n−1)<br />

⋅<br />

s<br />

≤ µ<br />

≤ x+ t0. 975(<br />

n−1)<br />

⋅<br />

n<br />

s<br />

n<br />

1− f<br />

2<br />

α ,<br />

(eller udtrykt ved α x − t ⋅ ≤ µ ≤ x + t ⋅<br />

(4)<br />

s<br />

n<br />

α α<br />

1− , n−1 1− , n−1<br />

2<br />

2<br />

t-fordelinger<br />

En t - fordeling har samme klokkeformede udseende som en U - fordeling (en normalfordeling<br />

med middelværdi 0 og spredning 1)<br />

I modsætning til U - fordelingen afhænger dens udseende imidlertid af antallet n af tal i<br />

stikprøven.<br />

Er frihedsgradstallet f = n -1 stort (over 30) er forskellen mellem en U- fordeling og en tfordeling<br />

uden praktisk betydning.<br />

Er f lille bliver t - fordelingen så meget bredere end U - fordelingen, at t-fordelingen må anvendes<br />

i stedet for U-fordelingen.<br />

Grafen viser tæthedsfunktionen for t-fordelingerne for f = 1, 5 og 30.<br />

s<br />

n<br />

(3)


5 Stikprøver<br />

Eksempel 5.4. Beregning af t-værdier.<br />

1) Find t0. 975( 12)<br />

og t0025 . ( 12)<br />

.<br />

2) Find P( X ≥ 1)<br />

, hvor X er t - fordelt med 12 frihedsgrader.<br />

Løsning:<br />

TI-89:<br />

1) t0. 975( 12)<br />

= inv_t(0.975,12) = 2.18<br />

t0025 . ( 12)<br />

= inv_t(0.025,12) = -2.18<br />

2) P( X ≥ 1) = tCdf(1, ∞ ,12) = 0.1685 = 16.85%<br />

Excel:<br />

f x<br />

Der fremkommer en tabel med anvisning på, hvordan den skal udfyldes.<br />

På værktøjslinien foroven: Tryk på = eller Vælg kategorien “Statistisk” Vælg “TINV”<br />

Bemærk: TINV( α ; f) udregner den fraktil, der svarer til 1 -<br />

Sætter vi således α = 5% fås t0975 . , dvs. der beregnes arealet af “øverste hale” hvilket jo også altid er det man<br />

har brug for.<br />

1) t0. 975( 12)<br />

= TINV(0.05;12) = 2,178813<br />

t 0. 025 ( 12)<br />

= - 2,178813<br />

2) =TFORDELING(1;12;1) = 0,168525<br />

P( X ≥ 1)<br />

Eksempel 5.5. Konfidensinterval, hvis spredningen ikke er kendt eksakt.<br />

Ved fremstilling af et bestemt levnedsmiddel er det vigtigt, at et tilsætningsstof findes i<br />

levnedsmidlet i en koncentration på 8.50 (g/l).<br />

For at kontrollere dette udtager levnedsmiddelkontrollen 6 prøver af levnedsmidlet. Resultaterne<br />

var:<br />

Måling nr 1 2 3 4 5 6<br />

koncentration x (g/l) 8.54 7.89 8.50 8.21 8.15 8.32<br />

Idet man antager, på baggrund af tidligere lignende målinger, at resultaterne er normalfordelte,<br />

skal man besvare følgende spørgsmål:.<br />

a) Angiv et estimat for koncentrationens middelværdi og spredning.<br />

b) Angiv et 95% konfidensinterval for koncentrationen, og vurder herudfra om kravet på 8.50<br />

er opfyldt.<br />

Løsning<br />

Såvel TI89 som Excel har indbygget programmer, så man ikke behøver at anvende formlerne<br />

direkte.<br />

a) TI-89:<br />

APPS Stat/List Indtast tal i en liste F7, 2: T-Interval Vælg Data Udfyld menuen<br />

Resultater: x = 8268 . og s = 0241 . .<br />

b) C Int :[ 802 . ; 852 . ]<br />

Da intervallet indeholder 8.50, er kravet opfyldt, men da intervallet kun lige netop indeholder<br />

tallet 8.50, så det vil nok være rimeligt, at foretage en ny vurdering på basis af nogle flere<br />

målinger.<br />

44<br />

α<br />

2


Excel: Data indtastes i cellerne A1 til A6<br />

45<br />

5.3 Konfidensinterval for middelværdi<br />

Excel: 2003: Funktioner 2007: Data<br />

derefter Dataanalyse Beskrivende statistik udfyld inputområde vælg Resumestatistik og konfidensniveau<br />

Middelværdi 8,268333333<br />

Standardfejl 0,098434976<br />

Median 8,265<br />

Tilstand #I/T<br />

Standardafvigelse 0,241115463<br />

Stikprøvevarians 0,058136667<br />

Kurtosis -0,2376446<br />

Skævhed -0,500530903<br />

Område 0,65<br />

Minimum 7,89<br />

Maksimum 8,54<br />

Sum 49,61<br />

Antal 6<br />

Konfidensniveau(95,0%) 0,25303516<br />

a) Resultater: x = 8268 . og s = 0241 . .<br />

b) 95% konfidensinterval: x ± r = 49. 086 ± r hvor r = 0.253<br />

[8.268 -0.253 ; 8.268 + 0.253] =[8.02 ; 8.52]<br />

Eksempel 5.6 Konfidensinterval, hvis originale data ikke kendt<br />

Find konfidensintervallet for middelværdien , idet stikprøven er på 20 tal, som har et<br />

µ<br />

gennemsnit på 50 og en spredning på 12.<br />

Løsning:<br />

TI89:APPS Stat/List F7, 2: T-Interval Vælg Stats Udfyld menuen<br />

C Int :[44.38 ; 55.62]<br />

Excel : Har intet færdigt program, så her må man anvende formlen for konfidensinterval<br />

I kolonne D er de formler angivet, som er brugt i kolonne E, men kolonne D er naturligvis<br />

strengt taget unødvendig.<br />

A B C D E<br />

1 Eksempel 4.6 Konfidensradius r = TINV(B6;B3-1)*B5/KVROD(B3) = 5,616173<br />

2 nedre grænse = B4-E1 44,38383<br />

3 n = 20 øvre grænse = B4+E1 55,61617<br />

4 gennemsnit = 50<br />

5 spredning s = 12<br />

6 Signifikansniveau " = 0,05<br />

95% konfidensinterval: [44.38 ; 55.62]


5 Stikprøver<br />

Prædistinationsinterval. Ved mange anvendelser ønsker man at forudsige, hvor værdien af<br />

en kommende observation af den variable med 95%”sikkerhed” vil falde, snarere end at give<br />

et 95% konfidensinterval for middelværdien af den variable. Man siger, at man ønsker at<br />

bestemme et 95% prædistinationsinterval (forudsigelsesinterval).<br />

SÆTNING 4.2 ( 100 ⋅ ( 1 − α ) % prædiktionsinterval for en enkelt observation ).<br />

Et 100 ⋅( 1 −α)<br />

% prædiktionsinterval for en enkelt fremtidig observation Xn+1 er bestemt ved<br />

X n+1<br />

Bevis: Lad være en enkelt fremtidig observation. Eftersom er uafhængig af de øvrige X’er, er<br />

X n+1 også uafhængig af X .<br />

2<br />

σ 2 2<br />

Variansen af differensen X − Xn+1er følgelig V( X − Xn ) = V( X) + V( Xn<br />

) = + =<br />

⎛ 1<br />

⎜ +<br />

⎞<br />

+ 1 + 1 σ σ 1 ⎟ .<br />

n ⎝ n⎠<br />

Da man sædvanligvis først regner konfidensintervallet ud, så er den nemmeste måde at<br />

beregne det tilsvarende prædistinationsinterval at benytte, at radius rp i prædistinationsinterval<br />

fås af radius rk i konfidensintervallet ved formlen r = r ⋅ 1+<br />

n<br />

46<br />

p k<br />

Bevis: r s s<br />

n<br />

n 1 + 1 1+<br />

n s<br />

p = ⋅ 1+ = = s = 1+ n = rk1+ n<br />

n n n<br />

Eksempel 5.7. Prædistinations-interval for middelværdi af normalfordeling.<br />

Samme problem som i eksempel 5.5, men nu ønskes bestemt et 95% prædistinationsinterval<br />

for en enkelt ny måling af koncentrationen.<br />

Løsning<br />

Da konfidensintervallet har længden 8.52 - 8.02 = 0.50 er radius rk = 0.25<br />

Vi har derfor rp= 025 . ⋅ 6+ 1= 066 . og dermed<br />

95% konfidensinterval = 827 . − 066 . ; 827 . + 066 . == 761 . ; 893 . .<br />

X n+1<br />

[ ] [ ]<br />

Bestemmelse af stikprøvens størrelse<br />

Før man starter sine målinger, kunne det være nyttigt på forhånd at vide nogenlunde hvor<br />

mange målinger man skal foretage, for at få resultat med en given nøjagtighed.<br />

Hvis spredningen antages kendt , ved vi, at radius i konfidensintevallet er<br />

σ<br />

r = u α ⋅<br />

− n<br />

1 2<br />

Løses denne ligning med hensyn til n fås<br />

⎛ u<br />

⎜<br />

n = ⎜<br />

⎜<br />

⎝<br />

2<br />

α ⋅σ<br />

1− 2<br />

r<br />

1<br />

1<br />

x −t α ( n−1) ⋅s⋅ 1+<br />

≤ µ ≤ x + t α ( n−1) ⋅s⋅ 1+<br />

.<br />

− n<br />

−<br />

n<br />

⎞<br />

⎟<br />

⎟<br />

⎟<br />

⎠<br />

1 2<br />

1 2


47<br />

5.3 Konfidensinterval for middelværdi<br />

Det grundlæggende problem er her, at man næppe kender spredningen eksakt.<br />

Man kender muligvis på basis af tidligere erfaringer størrelsesordenen af spredningen. Hvis<br />

ikke må man eventuelt lave nogle få målinger, og beregne et s på basis heraf.<br />

Som en første tilnærmelse antages, at antallet af gentagelser n er over 30, så man kan bruge Ufordelingen.<br />

Hvis det derved viser sig, at n er under 30 anvendes i stedet en t-fordeling, idet vi løser<br />

ligningen<br />

⎛ t α ( n−1)<br />

⋅σ⎞<br />

⎜ 1− 2 ⎟<br />

n = ⎜<br />

⎟<br />

⎜ r ⎟<br />

⎝<br />

⎠<br />

Det følgende eksempel illustrerer fremgangsmåden.<br />

Eksempel 5.8. Bestemmelse af stikprøvens størrelse.<br />

En forstmand er interesseret i at bestemme middelværdien af diameteren af voksne egetræer i<br />

en bestemt fredet skov.<br />

Der blev målt diameteren på 7 tilfældigt udvalgte egetræer (i 1 meters højde over jorden)<br />

På basis af målingerne på de 7 træer sættes s ≈ 14 .<br />

a) Find hvor mange træer der skal måles, hvis et 95% konfidensinterval højst skal have en<br />

radius på ca. 5 cm.<br />

b) Find hvor mange træer der skal måles, hvis et 95% konfidensinterval højst skal have en<br />

radius på ca. 6 cm.<br />

Løsning:<br />

a) Da = 196 . fås<br />

u0975 .<br />

2 2<br />

⎛ u0975 . ⋅ s⎞⎛196<br />

. ⋅14⎞<br />

n = ⎜ ⎟ = ⎜ ⎟ ≈ 31<br />

⎝ r ⎠ ⎝ 5 ⎠<br />

TI89: (invNorm(0.975)*14)/5)^2 = 30.1 = 31<br />

Excel: (NORMINV(0,975;0;1)*14/5)^2 = 30.1<br />

Da n > 30 er det rimeligt, at benytte en U- fordeling frem for en t-fordeling.<br />

Der skal altså tilfældigt udvælges ca. 32 egetræer.<br />

2 2<br />

⎛ u0975 . ⋅ s⎞<br />

b)<br />

⎛ 196 . ⋅14⎞<br />

n = ⎜ ⎟ = ⎜ ⎟ ≈ 21<br />

⎝ r ⎠ ⎝ 6 ⎠<br />

2<br />

⎛ t0975 . n− ⋅s<br />

Da n < 30 burde man have anvendt en t - fordeling. ,( 1)<br />

⎞<br />

n = ⎜<br />

⎟<br />

⎝ r ⎠<br />

TI 89: solve(x=(invt(0.975,x-1)*14/6)^2,x) x>21<br />

Efter nogen tid fås x = 23.37<br />

Excel: I celle A1 skrives en startværdi for n eksempelvis 21.<br />

I celle B1 skrives= (TINV(0,05;A1)*14/6)^2-A1<br />

2003: Funktioner “Målsøgning”<br />

2007: Data Hvad-hvis analyse ”Målsøgning<br />

I “Angiv celle” skrives B1. I “Til Værdi” skrives 0. I “Ved ændring af celle” skrives A1. Facit :23,29865<br />

Der skal altså tilfældigt udvælges ca. 24 egetræer.<br />

2


5 Stikprøver<br />

Da overslaget jo er afhængigt af om vurderingen af s er korrekt, bør man dels for en<br />

sikkerheds skyld vælge s lidt rigelig stor, dels efter at man har målt de 31/24 træer lige<br />

kontrollere beregningen af konfidensintervallet.<br />

5.4 KONFIDENSINTERVAL FOR SPREDNING<br />

I visse situationer ønsker man at finde et konfidensinterval for spredningen.<br />

Vi vil ikke gå nærmere ind på teorien herfor, men blot henvise til formlerne i appendix 5.1.<br />

2<br />

2<br />

( n−1) s 2 ( n−1) s<br />

Formel 4 i appendix 5.1 benyttes:<br />

≤σ≤ 2<br />

2<br />

χ ( n −1)<br />

χ ( n −1)<br />

χ 2<br />

1<br />

Definition af -fordelingen. Lad U1, U2,..., U f være uafhængige normerede normalfor-delte variable.<br />

Sandsynlighedsfordelingen for den stokastiske variabel χ kaldes -fordelingen med<br />

2 2 2 2<br />

= U1+ U2+ ,..., U f χ 2<br />

frihedsgradstallet f og betegnes χ 2 ( f )<br />

α α<br />

1− 2<br />

2<br />

I formlerne indgår den såkaldte χ - fordeling, (udtales ki i anden) .<br />

2<br />

χ 2<br />

-fordelinger<br />

χ -fordelingen benyttes ved beregninger omkring varianser, når disse er erstattet af et<br />

2<br />

estimat s 2 . 1<br />

På figuren er afbildet tæthedsfunktionen for χ - fordelingerne , og .<br />

2<br />

χ 2 () 5 χ 2 ( 10)<br />

χ 2 ( 20)<br />

Det ses, at χ kun er defineret for tal større end eller lig nul, og at -fordelinger ikke er<br />

2<br />

χ 2<br />

symmetriske om middelværdien. Jo større frihedsgradstallet bliver jo mere symmetriske bliver<br />

de dog, og for store f - værdier - i praksis f > 30 - kan en χ -fordeling approksimeres<br />

2<br />

χ 2 ( f )<br />

med normalfordelingen n( µ , σ ), hvor µ = f og σ = 2 ⋅ f .<br />

TI89 og Excel har en kumuleret - fordeling ligesom naturligvis alle statistikprogrammer<br />

χ 2<br />

har det.<br />

48


Eksempel 5.9. Beregning af χ - værdier.<br />

2<br />

2<br />

2<br />

1) Find χ0. 025()<br />

8 og χ 0. 975()<br />

8 .<br />

2) Find P( X ≤ 5)<br />

,<br />

hvor X er χ - fordelt med 8 frihedsgrader.<br />

2<br />

Løsning:<br />

2<br />

TI89: 1) χ0. 025()<br />

8 =invChi2(0.025, 8) = 2.18<br />

2<br />

χ 0. 975()<br />

8 =invChi2(0.975, 8) = 17.5<br />

(se det skraverede areal på figuren)<br />

2) P( X ≤ 5)<br />

= chi2Cdf(0, 5, 8) = 0.242<br />

2<br />

Excel:1) χ0. 025()<br />

8 =CHIINV(0,975;8)=2.18<br />

2<br />

χ 0. 975()<br />

8 =CHIINV(0,025;8)=17.5<br />

P( X ≤ 5)<br />

2) =1-CHIFORDELING(5;8) = 0.242<br />

Bemærk Excel beregner den “øvre hale”<br />

49<br />

5.4 konfidensinterval for spredningen<br />

Eksempel 5.10. Konfidensinterval for varians og spredning af normalfordeling.<br />

En virksomhed ønsker at kontrollere med hvilken spredning en bestemt målemetode angiver<br />

saltindholdet i en opløsning. Der foretages følgende 12 målinger af en opløsning af det<br />

pågældende salt. Resultaterne var:<br />

Måling nr 1 2 3 4 5 6 7 8 9 10 11 12<br />

% opløsning 6.8 6.0 6.4 6.6 6.8 6.1 6.4 6.3 6.0 6.2 5.8 6.2<br />

a) Angiv på basis af måleresultaterne et estimat for opløsningens spredning.<br />

b) Angiv et 95% konfidensinterval for variansen og for spredningen.<br />

Løsning:<br />

TI-89 og Excel har intet færdigt program.<br />

2<br />

2<br />

( n−1) s 2 ( n−1) s<br />

Begge må anvende formel 4 i appendix 5.1 :<br />

≤σ≤ 2<br />

2<br />

χ ( n −1)<br />

χ ( n −1)<br />

α α<br />

1− 2<br />

2<br />

TI89: a) Data indtastes i list 1 F4 1 var Stats menu udfyldes<br />

b)<br />

Vi finder s = 0.3162 .<br />

Nedre grænse: (11*0.3162^2/ invChi2(0.975,11) = 0.0502<br />

Øvre grænse : (11*0.3162^2/ invChi2(0.025,11) = 0.288<br />

2<br />

0. 0502 ≤σ≤0. 288 . 0. 0502 ≤σ ≤ 0. 2880 ⇔ 0. 2241≤σ ≤05366<br />

. .<br />

Excel: a) Data indtastes i cellerne A1 til A12<br />

På værktøjslinien foroven: Tryk på f x Vælg kategorien “Statistisk” Vælg “STDAFV”<br />

Tabel udfyldes: s =STDAFV(A1:A7)= 0,316228<br />

b) Lad s være gemt i A14<br />

Nedre grænse := (12-1)*A14^2/CHIINV(0,025;11) = 0,050182 gemt i A16<br />

Øvre grænse: =(12-1)*A14^2/CHIINV(0,975;11) = 0,288279 gemt i A 17<br />

95% konfidensinterval for variansen: [0.0502 ; 0.288]<br />

95% konfidensinterval for spredningen:<br />

KVROD(A16) = 0.2241 KVROD(A17) =0.5366<br />

95% konfidensinterval for spredningen:[0.2241 ; 0.5366]


5 Stikprøver<br />

5.5. OVERSIGT over centrale formler i kapitel 5<br />

n( µ , σ )<br />

x<br />

X antages normalfordelt .Givet stikprøve af størrelsen n med gennemsnit og spredning s<br />

Oversigt over konfidensintervaller<br />

nr Forudsætninger Estimat for parameter 100 (1 - α ) % konfidensinterval for parameter<br />

1<br />

2<br />

3<br />

4<br />

µ ukendt.<br />

σ kendt<br />

µ ukendt.<br />

σ ukendt<br />

µ kendt<br />

σ ukendt.<br />

µ ukendt<br />

σ ukendt.<br />

For µ : x<br />

For µ : x<br />

For σ :<br />

2<br />

n − 1 s + n x −<br />

n<br />

2 ( ) ( µ )<br />

s µ =<br />

For σ :<br />

2 s 2<br />

2 2<br />

Oversigt over prædistinationsintervaller<br />

σ<br />

σ<br />

x −u α ⋅ ≤ µ ≤ x + u α ⋅<br />

− n<br />

− n<br />

50<br />

1 2<br />

1 2<br />

TI89 :F7: Z-interval<br />

Excel: Konfidensinterval (= radius)<br />

s<br />

x −t α ( n−1)<br />

⋅ ≤ µ ≤ x + t α ( n−1)<br />

⋅<br />

− n<br />

−<br />

1 2<br />

1 2<br />

TI89 :F7: t-interval<br />

Excel: Konfidensniveau (= radius)<br />

2 2<br />

( n − 1) s + n( x − µ ) 2 ( n − 1)<br />

s + n( x − µ )<br />

2<br />

≤ σ ≤<br />

2<br />

χ ( n)<br />

χ ( n)<br />

α α<br />

1− 2<br />

2<br />

2<br />

2<br />

( n − 1)<br />

s 2 ( n − 1)<br />

s<br />

2 ≤ σ ≤ 2<br />

χ ( n − 1)<br />

χ ( n − 1)<br />

α α<br />

1− 2<br />

2<br />

2 2<br />

nr Forudsætninger Estimat for parameter 100 (1 - α ) % konfidensinterval for parameter<br />

1<br />

2<br />

µ ukendt.<br />

σ kendt<br />

µ ukendt.<br />

σ ukendt<br />

For µ : x<br />

For µ : x<br />

σ<br />

radius i konfidensinterval rk = u α ⋅<br />

− n<br />

1 2<br />

radius i prædistinationsinterval r = r 1+<br />

n<br />

p k<br />

radius i konfidensinterval rk = t α ( n−1)<br />

⋅<br />

1− 2<br />

s<br />

n<br />

radius i prædistinationsinterval r = r 1+<br />

n<br />

p k<br />

Bestemmelse af stikprøvens størrelse n.<br />

Ønsket værdi af radius r i 100 (1 - α ) % konfidensinterval konfideninterval<br />

1<br />

2<br />

σ kendt<br />

eller n > 30<br />

σ ukendt, men antag<br />

den højst er s n<br />

⎛ u<br />

⎜<br />

n = ⎜<br />

⎜<br />

⎝<br />

2<br />

α ⋅σ<br />

⎞<br />

TI89: (invNorm(1- α /2)* σ /r)^2<br />

⎟ Excel:(NORMINV(1- α /2);0;1)* σ /r)^2<br />

⎟<br />

r ⎟<br />

⎠<br />

1− 2<br />

2<br />

⎛ t α ( n−1) ⋅s⎞<br />

Løs ligning , se eksempel 5.8<br />

⎜ 1− 2 ⎟<br />

= ⎜<br />

⎟<br />

⎜ r ⎟<br />

⎝<br />

⎠<br />

s<br />

n


OPGAVER<br />

51<br />

Opgaver til kapitel 5<br />

Opgave 5.1<br />

Lad der være givet 10 uafhængige observationer af en syres koncentration (i %).<br />

12.4 10.8 12.1 12.0 13.2 12.6 11.5 11.9 12.8 12.0<br />

1) Find et estimat for koncentrationens middelværdi µ og spredning σ .<br />

2) Angiv et 95% konfidensinterval for µ .<br />

3) Angiv et 95% prædistinationsinterval for en enkelt ny måling af koncentrationen..<br />

4) Angiv et 95% konfidensinterval for µ , idet det antages, at man fra tidligere målinger ved,<br />

at σ = 0.65.<br />

Opgave 5.2<br />

Trykstyrken i beton blev kontrolleret ved at man støbte 12 betonklodser og testede dem.<br />

Resultatet var:<br />

2216 2225 2318 2237 2301 2255 2249 2281 2275 2204 2263 2295<br />

1) Find et estimat for trykstyrkens middelværdi µ og spredning σ .<br />

2) Angiv et 95% konfidensinterval for µ .<br />

3) Angiv et 95% prædistinationsinterval for en enkelt måling af trykstyrken på en ny<br />

betonklods.<br />

4) Man fandt, at radius i konfidensintervallet var for stor.<br />

Bestem med tilnærmelse antallet af målinger der skal udføres, hvis radius højst skal være<br />

15.<br />

Opgave 5.3<br />

En fabrik producerer stempelringe til en bilmotor. Det vides, at stempelringenes diameter er<br />

approksimativt normalfordelt. Stempelringene bør have en diameter på 74.036 mm og en<br />

spredning på 0.001 mm. For at kontrollere dette udtog man tilfældigt 15 stempelringe af<br />

produktionen og målte diameteren. I resultaterne har man for simpelheds skyld, kun angivet de<br />

3 sidste cifre, altså 74.0365 angives som 365.<br />

Man fandt følgende resultater<br />

342 364 370 361 351 368 357 374 340 362 378 384 354 356 369<br />

1) Find et estimat for ringenes diameter µ og spredning σ .<br />

2) Angiv et 99% konfidensinterval for µ .<br />

Opgave 5.4<br />

En polymer produceres i batch. Viskositetsmålinger udført på hver batch gennem et stykke tid<br />

har vist, at variationen i processen er meget stabil med spredning σ = 20.<br />

På 15 batch gav viskositetsmålingerne følgende resultater:<br />

724 718 776 760 745 759 795 756 742 740 761 749 739 747 742<br />

1) Find et estimat for viskositetens middelværdi µ .<br />

2) Angiv et 95% konfidensinterval for µ idet man antager spredningen er 20.<br />

3) Find et estimat for viskositetens spredning σ .<br />

4) Angiv et 95% konfidensinterval for σ , for at kontrollere påstanden om, at σ<br />

= 20.


5 Stikprøver<br />

Opgave 5.5<br />

Ved en fabrikation af et bestemt sprængstof er det vigtigt, at en reaktoropløsning har en pHværdi<br />

omkring 8.0. Der foretages 6 målinger på en bestemt reaktantopløsning.<br />

Resultaterne var:<br />

pH 8.42 7.36 8.04 7.71 7.65 7.82<br />

Den benyttede pH-målemetode antages på baggrund af tidligere lignende målinger at give<br />

normalfordelte resultater.<br />

1) Angiv et estimat for opløsningens middelværdi og spredning.<br />

2) Angiv et 95% konfidensinterval for pH.<br />

3) Man finder, at radius i konfidensintervallet er for bredt.<br />

Angiv med tilnærmelse antallet af målinger der skal foretages, hvis radius skal være 0.1.<br />

Opgave 5.6<br />

Samme tal som i opgave 5.2<br />

Find et 95% konfidensinterval for trykprøvens spredning.<br />

Opgave 5.7<br />

Samme tal som i opgave 5.3<br />

Find ud fra stikprøven et 99% konfidensinterval for diameterens spredning.<br />

Opgave 5.8<br />

De 10 øverste ark papir i en pakke med printerpapir har følgende vægt<br />

4.21 4.33 4.26 4.27 4.19 4.30 4.24 4.24 4.28 4.24<br />

a) Angiv et 95%-konfidensinterval for middelværdi af papirets vægt.<br />

b) Angiv med tilnærmelse antallet af ark, der skal anvendes, hvis radius i konfidensintervallet<br />

højst skal være r = 0.02<br />

c) Angiv et 95%-prædistinationsinterval for en enkelt nyt ark papir.<br />

d) Angiv et 95%-konfidensinterval for spredningen af papirets vægt.<br />

Opgave 5.9<br />

Til undersøgelse af alkoholprocenten i en persons blod foretages 4 uafhængige målinger, som<br />

gav følgende resultater (i ‰):<br />

108 102 107 98<br />

1) Opstil et 95% konfidensinterval for personens alkoholkoncentration.<br />

2) Opstil et 95% konfidensinterval for målemetodens spredning.<br />

52


53<br />

6.1 Grundlæggende begreber<br />

6 HYPOTESETEST<br />

(ÉN NORMALFORDELT VARIABEL)<br />

6.1 GRUNDLÆGGENDE BEGREBER<br />

Ofte vil man se vendinger som” Stikprøven viser, at udbyttet ved den ny metode er signifikant<br />

større end ved den hidtidig anvendte metode”<br />

Statistiske problemer, hvor man på basis af en stikprøve ønsker med eksempelvis 95% “sikkerhed”<br />

at bevise en påstand om hele populationen kaldes hypotesetest.<br />

De forskellige begreber der indgår i en hypotesetest vil blive gennemgået i forbindelse med<br />

følgende eksempel.<br />

Eksempel 6.1. Hypotesetest.<br />

En fabrik har gennem mange år benyttet en metode, der på basis af en given mængde råmateriale<br />

gav et middeludbytte af et produceret stof på µ 0 = 69.2 kg og spredningen σ = 1.0 kg.<br />

En nyansat ingeniør får til opgave at søge at forøge middeludbyttet ved en passende (billig)<br />

modifikation af procesbetingelserne.<br />

Efter en række lovende eksperimenter i laboratoriet synes opgaven at være lykkedes, men det<br />

endelige bevis herfor er, ud fra et passende antal driftsforsøg statistisk at kunne “bevise”, at<br />

middeludbyttet er blevet forøget.<br />

Ud fra kendskab til de forskellige mulige støjfaktorer antages spredningen at være uændret på<br />

1.0 kg.<br />

Da driftsforsøgene er meget ressourcekrævende, bevilges der kun 12 delforsøg.<br />

Der foretages 12 uafhængige delforsøg og udbyttet x måltes:<br />

Forsøg nr 1 2 3 4 5 6 7 8 9 10 11 12<br />

x 68.8 70.7 70.3 70.1 70.7 68.7 69.2 68.9 70.0 69.6 71.0 69.1<br />

1) Kan man ud fra disse data bevise på signifikansniveau α = 0.05 , at middeludbyttet er blevet<br />

forøget ?<br />

2) Hvis svaret i spørgsmål 1 er bekræftende, så angiv et estimat for det nye middeludbytte, og<br />

angiv et 95% konfidensinterval herfor.


Hypotesetestning (1 normalfordelt variabel)<br />

Løsning:<br />

1) Løsningen opdeles for overskuelighedens skyld i en række trin<br />

1a) Definition af stokastisk variabel X.<br />

X = udbyttet ved den modificerede proces.<br />

1b) Valg af X’s fordelingstype.<br />

X antages at være approksimativt normalfordelt n( µ , 10 . ) .<br />

1c) Opstilling af nulhypotese og alternativ hypotese.<br />

Der opstilles en såkaldt Nulhypotesen H0 : µ = 69.2 kg.<br />

Nulhypotesen skal indeholde en konkret påstand (her et lighedstegn). Påstanden er, at<br />

modifikationen ingen (nul) virkning har<br />

Der opstilles endvidere en alternativ hypotese H: µ > 69.2 kg.<br />

Den alternative hypotese skal så vidt muligt indeholde det, der ønskes bevist. I dette<br />

tilfælde ønskes vist, at middeludbyttet er vokset, dvs. µ > 69.2 kg.<br />

Testen kaldes en ensidet test i modsætning til en tosidet test :<br />

H0 : µ = 69.2 kg contra H: µ ≠ 69.2 kg,<br />

hvor vi blot ønsker at vise, at middeludbyttet har ændret sig.<br />

1d) Angivelse af testens signifikansniveau.<br />

Hvis stikprøvens gennemsnit x er meget større end 69.2 kg ( måske helt op mod 100<br />

kg), så er der stor sandsynlighed for at udbyttet er steget. Man siger så, at nulhypotesen<br />

forkastes, eller at x ligger i forkastelsesområdet (se figur 6.1).<br />

Hvis derimod x kun ligger lidt over 69.2 kg, så kan det skyldes tilfældige udsving, og<br />

man kan ikke med nogen stor sikkerhed konkludere, at udbyttet er steget. Man siger, at<br />

nulhypotesen accepteres, eller at x ligger i acceptområdet.<br />

x 0<br />

Fig. 6.1 Accept- og forkastelsesområde<br />

Lad være grænsen mellem acceptområdet og forkastelsesområdet. skal bestemmes<br />

sådan, at forudsat H0 : µ = 69.2 kg er sand, så er det yderst usandsynligt, at en<br />

stikprøves gennemsnit x vil komme til at ligge i forkastelsesområdet. Hvis stikprøvens<br />

gennemsnit alligevel ligger i forkastelsesområdet, må det være forudsætningen H0 der<br />

er forkert, d.v.s. middeludbyttet må være blevet større.<br />

Det er naturligvis ikke entydigt bestemt, hvad det vil sige, at noget er yderst usandsynligt.<br />

Man starter derfor enhver test med at fastlægge det såkaldte signifikansniveau α .<br />

Er α valgt til 5% ,så har man derved fastlagt, at sandsynligheden for fejlagtigt at<br />

påstå, at middeludbyttet er steget, er under 5%.<br />

Da det kan have alvorlige økonomiske konsekvenser fejlagtigt at påstå at middeludbyttet<br />

54<br />

x 0


Fig 6.2 P-værdi<br />

55<br />

6.1 Grundlæggende begreber<br />

er steget (produktionen omstilles osv.) ,så er man naturligvis interesseret i, at dette ikke<br />

sker.<br />

Det normale i industriel produktion er, at sætte α = 5%, men er det eksempelvis medi-<br />

cinske forsøg, hvor det kan have alvorlige menneskelige konsekvenser, sættes α måske<br />

så lavt som 1% eller 0.1%, mens man i andre situationer måske sætter signifikansniveauet<br />

til 10%.<br />

I dette eksempel er α sat til 5%.<br />

1e) Beregning af P - værdi<br />

Gennemsnittet af de 12 resultater giver x = 69.76 kg.<br />

Under forudsætning af at nulhypotesen H0 : µ = 69.2 kg er sand, så er X er normalforσ<br />

10 .<br />

delt med middelværdi µ 0 = 69.2 og spredning = = 0. 2887 .<br />

n 12<br />

Vi kan derfor nemt finde den præcise adskillelse mellem accept og forkastelsesområdet,<br />

da den jo er bestemt ved at arealet skal være 95%<br />

TI89: invNorm(0.95,69.2,1.0/12)= 69.67<br />

Da 69.76 > 69.76 ligger det målte gennemsnit altså i forkastelsesområdet.<br />

Imidlertid vælger man i stedet at beregne den såkaldte P-værdi (Probability value) som<br />

er sandsynligheden for at få en værdi på det fundne stikprøvegennemsnit 69.76 eller<br />

derover, dvs. P-værdi = P( X ≥ 69. 76)<br />

Er denne P-værdi er mindre end α =0.05 må x = 69.76 ligge i forkastelsesområdet (se<br />

figur 6.2)<br />

Hvis P-værdien ligger over α ligger x = 69.76 i acceptområdet, dvs. vi kan ikke bevise<br />

at middeludbyttet er steget.<br />

TI89: P - værdi = normCdf(69.76, 6921 12 =0.0262<br />

P( X ≥ 69. 76) =<br />

∞, . , / ( ))<br />

Excel: P - værdi = 1-NORMFORDELING(69,76;69,2;1/KVROD(12);1)=0,026196<br />

P( X ≥ 69. 76)<br />

=<br />

1f) Konklusion<br />

Da P - værdi = 2.62% < 5% forkastes H0 ,<br />

Vi har et statistisk bevis for, at den modificerede proces giver et større middeludbytte.


Hypotesetestning (1 normalfordelt variabel)<br />

Alternativt kunne vi have benyttet nogle testfunktioner:<br />

TI-89: APPS STAT/LIST data indtastes i list1 F6, 1: Z-Test<br />

Menu udfyldes : µ 0 = 69. 2 , σ =1 , list =list1, Alternate Hyp: µ > µ 0 , Calculate<br />

Excel: Data indtastes i A1 til A12 fx Statistisk Z-test ZTEST(A1:A12;69,2;1)<br />

Vi får i begge tilfælde P-værdi = 0.0265, dvs. samme værdi som før.<br />

2) Udbyttet kan i middel forventes at være ca. x = 69. 76 kg<br />

99% konfidensinterval:<br />

TI-89: APPS STAT/LIST data indtastes i list1 F7, 2: Z-Interval C Int : [ 6919 . ; 70. 32]<br />

Excel: f x Statistisk konfidensinterval KONFIDENSINTERVAL(0,05;1;12) 0,565793<br />

[69.76 - 0.57;69.76+0.57] = [69.19 ; 70.32]<br />

At konfidensintervallet indeholder tallet 69.2 er klart i modstrid med at vi lige har vist, at<br />

middelværdien er større end 69.2.<br />

Det skyldes, at konfidensintervallet forkaster med 2.5% til hver side, mens en ensidet test<br />

forkaster kun til en side med 5%.<br />

Mere logisk ville det være, at lave en ensidet 95% konfidensinterval,<br />

⎡<br />

⎤ ⎡<br />

⎤<br />

⎢x<br />

−u095⋅ ∞⎥<br />

= ⎢69<br />

76 −165⋅ ∞⎥<br />

= [ ∞]<br />

⎣ n ⎦ ⎣<br />

⎦<br />

10<br />

σ<br />

.<br />

. ; . . ; 69. 28;<br />

12<br />

Det er imidlertid ikke standard, nok fordi det er sværere at forklare en udenforstående, at<br />

middelværdien med 95% sikkerhed ligger over 69.28 .<br />

Eksempel 6.2. Hypotesetest, hvor man får accept af H0. Samme problem som i eksempel 6.1, men nu er signifikansniveauet α =1%.<br />

Løsning:<br />

H0: µ = 69.2 mod H: H0: µ > 69.2<br />

I eksemplet fandt vi på basis af 12 forsøg, at P-værdi = 2.6%.<br />

Konklusion: H0 accepteres , dvs.<br />

vi kan ikke på et signifikansniveau på 1% bevise, at middelværdien var steget.<br />

Bemærk: Vi skriver ikke at vi har bevist den ikke er steget, det kan meget vel være tilfældet.<br />

Vi kan bare ikke bevise det med den ønskede sikkerhed.<br />

56


6.2 Eksempler på hypotesetest regnet med TI89 og Excel<br />

6.2 EKSEMPLER PÅ HYPOTESETEST REGNET MED TI89 OG EXCEL<br />

I eksempel 6.1 blev baggrunden for testen gennemgået. Samtidig antog vi, at spredningen var<br />

kendt eksakt. Dette er sjældent tilfældet, men havde vi haft over 30 målinger i stikprøven, ville<br />

det være tilladeligt, at erstatte den eksakte værdi med den beregnede spredning s, og foretage de<br />

samme beregninger<br />

Havde vi under 30 målinger bliver det for upræcist, og man må i stedet benytte en t-fordeling.<br />

Eksempel 6.2. Ensidet hypotesetest om middelværdi (spredning ikke kendt eksakt)<br />

Samme problem som i eksempel 6.1, men nu er spredningen ikke kendt eksakt.<br />

Løsning:<br />

1) X = udbyttet ved den modificerede proces.<br />

X antages at være approksimativt normalfordelt n( µ , 10 . ) .<br />

H0 : µ = 69.2 kg. H: µ > 69.2 kg.<br />

Beregning<br />

TI89: APPS STAT/LIST data indtastes i list1 F6, 2: T-Test<br />

Menu udfyldes : = 69. 2 , list =list1, Alternate Hyp: µ µ , Calculate<br />

µ 0<br />

P-værdi = 0.0185 =1.85%.<br />

Excel Her benyttes formlen i appendix 6.1.<br />

( x − µ 0)<br />

⋅ n<br />

PT ( ≥ t)<br />

, hvor t =<br />

og T er t-fordelt med n -1 frihedsgrader<br />

s<br />

Data indtastes i A1 til A12<br />

x streg = MIDDEL(A1:A12) 69,75833<br />

s= STDAFV(A1:A12) 0,816265<br />

Ho 0= 69,2<br />

t= (E1-E3)*KVROD(12)/E2 2,369481<br />

P-værdi= TFORDELING(ABS(E5);11;1) 0,018593<br />

Da P-værdi < 5% forkastes H 0 , dvs. vi har et statistisk bevis for, at den modificerede proces<br />

giver et større middeludbytte.<br />

2) TI-89: APPS Stat/List F7, 2: T-Interval Vælg Data Udfyld menuen C Int :[69.24 ; 70.28]<br />

Excel: 2003: Funktioner 2007: Data<br />

Dataanalyse Beskrivende statistik udfyld inputområde vælg konfidensniveau<br />

Resultat : Konfidensniveau(95,0%) 0,51863<br />

Konfidensinterval [69.758-0.517;69.758-0.5179] = [69.24 ; 70.28]<br />

57<br />

> 0


Hypotesetestning (1 normalfordelt variabel)<br />

Eksempel 6.3 Tosidet hypotesetest om middelværdi (spredning ikke kendt eksakt).<br />

Ved fremstilling af et bestemt levnedsmiddel er det vigtigt, at et tilsætningsstof findes i<br />

levnedsmidler i en koncentration på 8.40 (g/l).<br />

For at kontrollere om tilsætningsstoffet har en koncentration på ca. 8.40, udtager levnedsmiddelkontrollen<br />

6 prøver af levnedsmidler. Resultaterne var:<br />

Måling nr 1 2 3 4 5 6 7 8<br />

Koncentration x (g/l) 8.54 7.89 8.50 8.21 8.15 8.32 8.45 8.31<br />

Det ønskes på denne baggrund undersøgt om koncentrationen har den ønskede værdi.<br />

Signifikansniveau sættes til 5%.<br />

Løsning:<br />

Lad X være koncentrationen af tilsætningsstoffet i levnedsmidlet.<br />

Det antages, at X er normalfordelt<br />

n( µ , σ )<br />

Da det både er uønsket, at koncentrationen er for lille og at den er for stor, bliver nulhypotesen<br />

H0: µ = 8.4 mod H: µ ≠ 84 . , dvs. vi har en tosidet test.<br />

Bemærk, at selv om man vel egentlig hellere ville bevise, at koncentrationen er 8.4 og derfor<br />

helst ville have denne påstand i den alternative hypotese, er dette ikke muligt, da nulhypotesen<br />

skal indeholde et lighedstegn.<br />

TI-89: APPS STAT/LIST data indtastes i list1 F6, 2: T-Test<br />

Menu udfyldes : µ 0 = 84 . , list =list1, Alternate Hyp: µ ≠ µ 0 , Calculate<br />

Vi får P-værdi = 0.2117 =21.78%.<br />

Da P-værdi > 5% accepteres nulhypotesen , dvs. vi kan ikke bevise, at koncentrationen<br />

afviger signifikant fra 8.4 g/l<br />

Bemærk, at TI-89 beregner begge “haler” , så vi skal sammenligne med 5% .<br />

Excel Benytter formler i appendix 6.1<br />

Data indtastes i A1 til A8<br />

x streg = MIDDEL(A1:A8) 8,29625<br />

s= STDAFV(A1:A8) 0,213537<br />

Ho 0= 8,4<br />

n= 8<br />

t= (E1‐E3)*KVROD(e4)/E2 ‐1,37423<br />

P‐værdi= TFORDELING(ABS(E5);e4‐1;1) 0,105877<br />

Da P-værdi > 2.5 % accepteres nulhypotesen , dvs. vi kan ikke bevise, at koncentrationen<br />

afviger signifikant fra 8.4 g/l<br />

Bemærk, at da det er en tosidet test hvor man forkaster til begge sider sammenlignes<br />

med 2,5%<br />

58


59<br />

6.3 Fejl af type I og type II<br />

Eksempel 6.7. Test af spredning<br />

En fabrikant af læskedrikke har købt en automatisk “påfyldningsmaskine”.<br />

Ved købet af maskinen har man betinget sig, at rumfanget af den påfyldte væske i middel skal<br />

have en spredning, der ikke overstiger 0.20 ml.<br />

Efter kort tids anvendelse får man mistanke om, at spredningen er for stor. Mange klager over<br />

underfyldte flasker.<br />

Derfor foretages en kontrol, hvor man tilfældigt udtager 20 flasker med læskedrik, og måler<br />

rumfanget af væsken i flasken. Det viser sig, at stikprøvens spredning er s = 0.24 ml.<br />

Med et signifikansniveau på 5% er det da et statistisk bevis for, at den nye maskine ikke opfylder<br />

det stillede krav?<br />

Løsning:<br />

Lad X = rumfang af drik i flaske.<br />

X antages normalfordelt n( µ , σ ) , hvor såvel µ som σ er ukendte.<br />

Ho: σ = 02 . imod H: σ > 0.2,<br />

eller udtrykt ved variansen σ :<br />

2<br />

2 2<br />

2 2<br />

Ho: σ = 02 . mod H: σ > 02 . .<br />

Ifølge appendix 6.3 ses, at vi skal beregne teststørrelsen χ , hvor<br />

2<br />

2<br />

2 ( n−1) ⋅s<br />

χ =<br />

dvs. i det foreliggende tilfælde χ .<br />

2<br />

σ<br />

2<br />

2<br />

( 20 −1) ⋅0.<br />

24<br />

=<br />

= 27. 36<br />

2<br />

02 .<br />

0<br />

TI 89: P- værdi = PQ ( ≥ 27. 36) = chiCdf(27.36, ∞ ,19) = 0.0965 = 9.65%<br />

Excel:<br />

chi i anden= (20-1)*0,24^2/0,2^2 27,36<br />

P-værdi= CHIFORDELING(C1;19) 0,096543<br />

Da P-værdi=9.65% > 5 %, accepteres H0 , dvs. det er ikke påvist, at spredningen ved påfyldningen<br />

er for stor, men der er dog nær ved at være signifikans.<br />

6.3. FEJL AF TYPE I OG TYPE II:<br />

Ved enhver test kan der være to typer fejl, hvoraf vi hidtil kun har taget hensyn til den ene<br />

type. For bedre at forstå problemstillingen vil vi se på følgende skema.<br />

Beslutning<br />

Forudsætning<br />

H 0 accepteres H 0 forkastes<br />

H 0 er sand Rigtig beslutning Forkert beslutning<br />

Type I fejl<br />

H 0 er falsk Forkert beslutning<br />

Type II fejl<br />

Rigtig beslutning<br />

Det må være et krav til en god test, at der kun er en lille sandsynlighed for at begå en fejl af<br />

type I eller type II.


Hypotesetestning (1 normalfordelt variabel)<br />

I eksempel 6.1 ville en type I fejl være, hvis man konkluderer, at den modificerede proces<br />

giver et større udbytte, selv om det ikke er tilfældet. Virksomheden bruger måske millionbeløb<br />

på at omlægge produktionen, og det er ganske forgæves.<br />

En type II fejl ville være, at man ikke opdager, at den modificerede proces giver et større udbytte.<br />

Dette er naturligvis uheldigt, men hvis det skyldes, at forbedringen ikke blev opdaget,<br />

fordi den er ganske ringe, har det muligvis ingen praktisk betydning.<br />

Hvis en test har signifikansniveau α og den beregnede P-værdi < α så forkastes Ho .<br />

Vi ved hermed, at P(type I fejl) ≤ α , dvs. vi rimelig sikre på, at have foretaget en korrekt<br />

beslutning.<br />

P-værdien angiver jo nogenlunde sandsynligheden for at vi træffer en forkert beslutning.<br />

Hvis α = 5% og P-værdien er 4.25% forkastes H0. Det samme sker, hvis P-værdi = 0.001%,<br />

men vi er her unægtelig noget sikrere på, at vi at vi træffer en korrekt beslutning.<br />

Hvis vi accepterer H o er det blot udtryk for, at vi ikke kan forkaste(svag konklusion: "H o<br />

frikendes på grund af bevisets stilling").<br />

Man kan have begået en type II fejl, dvs. ikke opdaget, at den alternative hypotese var sand.<br />

Eksempel 6.8. Fejl af type 2<br />

Samme problem som i eksempel 6.1, men nu er signifikansniveauet α =1%<br />

Løsning:<br />

H0: µ = 69.2 mod H: H0: µ > 69.2<br />

I eksemplet fandt vi på basis af 12 forsøg, at P-værdi = 2.6%.<br />

Konklusion: H0 accepteres , dvs.<br />

vi kan ikke på et signifikansniveau på 1% bevise, at middelværdien var steget.<br />

Imidlertid kan middeludbyttet meget vel være steget, men vi kunne bare ikke bevise det med<br />

den ønskede sikkerhed. Vi kan have begået en fejl af type 2.<br />

Som det ses af eksempel 6.8, så vil en formindskelse af muligheden for at begå en type 1 fejl<br />

( α formindskes) forøge sandsynligheden for at begå en type 2 fejl.<br />

Den eneste måde hvorpå begge kan formindskes er at øge antallet n af forsøg.<br />

Problemet hermed er, at man derved måske opdager en så lille forbedring, at det ikke er rentabelt<br />

at foretage en dyr ændring af fremstillingsprocessen.<br />

Først når udbyttet overstiger en bagatelgrænse ∆ vil man reagere.<br />

Dimensionering af forsøg (vælge stikprøvestørrelse n).<br />

Lad os antage, at virksomheden i eksempel 6.1 finder, at hvis stigningen i udbyttet ved den<br />

modificerede proces er mindre end ∆ = 0.5 kg, så har det ingen praktisk interesse ( ∆ = 0.5<br />

kg er bagatelgrænsen), og derfor gør det intet, hvis man ikke opdager det (begår en type II<br />

fejl).<br />

Hvis derimod stigningen ∆ er større end 0.5 kg, så har det stor betydning, og sandsynligheden<br />

for at begå en type II fejl må derfor være lille. Lad os sætte den til højst β = 10%.<br />

Problemet er nu, hvor stor en stikprøvestørrelse n (antallet af delforsøg) der skal udføres, for<br />

at ovennævnte krav er opfyldt.<br />

60


61<br />

6.3 Fejl af type I og type II<br />

En sådan vurdering kaldes en dimensionering af forsøget. Udfører man det ud fra en dimensionering<br />

nødvendige antal forsøg, vil en accept af nulhypotesen nu betyde, at nok kan udbyttet<br />

være steget, men ikke så meget, at det har praktisk interesse.<br />

I appendix 6.1 og 6.2 er angivet de formler, der skal anvendes ved en dimensionering.<br />

De følgende 2 eksempler viser anvendelsen heraf.<br />

Eksempel 6.9. Dimensionering (kendt spredning).<br />

Inden man i eksempel 6.1 begyndte at lave de dyre delforsøg, vil ingeniøren gerne have en<br />

vurdering af, hvor mange driftsforsøg der er nødvendige, når det vides, at det først er økonomisk<br />

rentabelt at gå over til den nye metode, hvis middeludbyttet er steget med mindst 0.5 kg.<br />

1) Find stikprøvestørrelsen n, i det tilfælde, hvor ∆ = 0.5 kg og β = 10%.<br />

Det antages stadig, at σ = 1.0 kg og signifikansniveauet er α = 5 %.<br />

Lad n være den i spørgsmål 1 fundne stikprøvestørrelse.<br />

2) Idet der udføres n delforsøg skal man besvare følgende spørgsmål:<br />

a) Hvilken konklusion kan drages, hvis man finder, at x = 69.8<br />

b) Hvilken konklusion kan drages, hvis man finder, at x = 69.4<br />

Løsning<br />

1) X = udbyttet ved den modificerede proces.<br />

X antages at være approksimativt normalfordelt n( µ , 10 . ) .<br />

H0 : µ = 69.2 kg. H: µ > 69.2 kg.<br />

⎛ u1−α + u1−β ⎞ ⎛ u + u<br />

Da testen er ensidet fremgår det af appendix 6.2) at: n ≥ ⎜ ⎟ = ⎜ 05 .<br />

⎝ ⎠ ⎝<br />

∆<br />

σ<br />

TI89: ((invNorm(0.95)+invNorm(0.90))/(0.5/1.0))^2 = 34.25 , dvs. n = 35 .<br />

2<br />

095 . 090 .<br />

Excel: =((NORMINV(0,95;0;1)+NORMINV(0,9;0;1))/(0,5/0,1))^2 Resultat 0,342554 dvs. n = 35<br />

2a) H0: µ = 69.2 mod H: H0: µ > 69.2<br />

TI89: APPS STAT/LIST F6, 1: Z-Test Vælg Stats, da data ikke kendt<br />

Menu udfyldes : µ 0 = 69. 2 , σ =1 , x = 69.8, n = 35, Alternate Hyp: µ > µ 0 , Calculate<br />

P-værdi = 0.019%,<br />

Excel: P-værdi = =1 - NORMFORDELING(69,8;69,2;1/KVROD(35);1) = 0,000193<br />

Da P_værdi < 0.05 forkastes H0: µ = 69.2 kg , dvs. vi er på et Signifikansniveau på 5%<br />

sikre på at middelværdien er over 69.2 kg.<br />

Imidlertid kan vi ikke være sikre på at den er over bagatelgrænsen 69.2 + 0.5 = 69.7 kg<br />

Lad H0: µ = 69.7 mod H: H0: µ > 69.7<br />

Vi finder på samme måde som ovenfor, at P-værdi = 27.7%, dvs. en påstand om at middeludbyttet<br />

ligger over 69.7 kg vil være fejlagtig i ca. 28% af tilfældene.<br />

Vi vil derfor næppe på den baggrund gå over til den nye metode.<br />

2b) H0: µ = 69.2 mod H: H0: µ > 69.2<br />

Vi finder på samme måde som i punkt 2a) , at P-værdi = 11.8%%,<br />

H0: µ = 69.2 kg accepters, dvs. vi kan ikke vise, at middeludbyttet er steget, men da vi<br />

har dimensioneret er vi rimeligt sikre på, at en eventuel stigning ikke har praktisk interesse.<br />

10 .<br />

⎞<br />

⎟<br />

⎠<br />

2


Hypotesetestning (1 normalfordelt variabel)<br />

Eksempel 6.10. Dimensionering, (ukendt spredning)<br />

En virksomhed bliver af miljøkontrollen pålagt at formindske indholdet i sit spildevand af et<br />

stof A, der mistænkes for at kunne forurene grundvandet. Indholdet af stoffet A i spildevandet<br />

skal under 1.7 mg/l, og miljøkontrollen henviser til en ny metode, som burde kunne formindske<br />

indholdet til det ønskede niveau. For at vurdere den nye metode ønskes foretaget en række<br />

delforsøg.<br />

Hvor mange forsøg skal der mindst foretages, hvis α = 5%, β = 10%, ∆ = 0.10 mg/l og et<br />

overslag over hvor stor σ er sætter denne til 0.15 mg/l.<br />

Løsning:<br />

Lad X = indhold af A (i mg/l) efter benyttelse af den ny metode.<br />

X antages normalfordelt n( µ , σ ) , hvor såvel µ som σ er ukendte.<br />

Da indholdet af stoffet A ønskes formindsket, bliver<br />

nulhypotesen H0: µ = 17 . mg/l mod H: µ < 17 . mg/l, dvs. vi har en ensidet test.<br />

Da σ ikke er kendt (kun et løst skøn kendes), er testen en t - test.<br />

Formlen i appendix 6.1 anvendes:<br />

2<br />

⎛ u + u ⎞<br />

Først beregnes 095 . 090 .<br />

n ≥ ⎜ ⎟<br />

∆<br />

⎝ σ ⎠<br />

TI89: ((invnorm(0.95)+invnorm(0.90))/(0.10/0.15))^2 Resultat n = 19.27<br />

2<br />

⎛ t095 . ( n−1)<br />

⎞<br />

Da n < 30 løses nu ligningen n = 19. 27⋅⎜<br />

⎟<br />

⎝ u095<br />

. ⎠<br />

solve(x = 19.27 ⋅ (inv_t(0.95,x-1)/invnorm(0.95))^2,x) x > 19<br />

Heraf følger x = 21.17, dvs. n = 22<br />

Den ønskede dimensionering kræver altså 22 forsøg.<br />

Excel: ((NORMINV(0,95;0;1)+NORMINV(0,9;0;1))/(0,1/0,15))^2 Resultat n = 19.27<br />

2<br />

⎛ t095 . ( n−1)<br />

⎞<br />

Da n < 30 løses nu ligningen 19. 27⋅<br />

⎜ ⎟ − n = 0<br />

⎝ u ⎠<br />

095 .<br />

Resultatet 19.27 anbringes i celle A1<br />

I celle B1 skrives som startværdi for n tallet 19 .<br />

I celle C1 skrives =A1*(TINV(0,10;B1-1)/NORMINV(0,95;0;1))^2-B1<br />

2003: Funktioner “Målsøgning”<br />

2007: Data Hvad-hvis analyse ”Målsøgning<br />

I “Angiv celle” skrives C1. I “Til Værdi” skrives 0.<br />

“Ved ændring af celle” skrives B1<br />

Resultat: I celle B1står 21,18523 dvs. n = 22<br />

62


6.4. OVERSIGT over centrale formler i kapitel 6<br />

n( µ , σ )<br />

x<br />

63<br />

6.4 Oversigt<br />

X antages normalfordelt .Givet stikprøve af størrelsen n med gennemsnit og spredning s<br />

Signifikansniveau: α . er en given konstant<br />

µ 0<br />

Oversigt over test af middelværdi µ<br />

T er en stokastisk variabel der er t - fordelt med f = n - 1.<br />

σ<br />

Y er en stokastisk variabel, der er normalfordelt n(<br />

µ 0 ,<br />

n<br />

Forudsætninger Alternativ<br />

hypotese H<br />

σ ukendt.<br />

( x − µ 0)<br />

⋅ n<br />

t =<br />

.<br />

s<br />

σ kendt eks-<br />

akt<br />

P - værdi Beregning H 0 forkastes<br />

H: µ > µ 0 PT ( ≥ t)<br />

TI89: tCdf (, t ∞, n −1)<br />

eller F6: t-test<br />

Excel:tfordeling(t,n-1,1)<br />

H: µ < µ 0 PT ( ≤ t)<br />

TI89: tCdf ( −∞, t, n −1)<br />

eller F6: t-test<br />

Excel:1-tfordeling(t,n-1,1)<br />

H: µ ≠ µ 0 PT ( ≥ t)<br />

for x > µ 0<br />

PT ( t)<br />

for<br />

som række 1<br />

som række 2<br />

H: µ > µ PY ( ≥ x)<br />

0<br />

H: µ < µ 0<br />

H: µ ≠ µ 0<br />

≤ x ≤ µ 0<br />

PY ( ≤ x)<br />

PY ( x)<br />

for<br />

≥ x > µ 0<br />

PY ( x)<br />

for<br />

≤ x ≤ µ 0<br />

σ<br />

TI89: normCdf ( x,<br />

∞ , µ 0 , )<br />

n<br />

eller F6: Z-test<br />

⎛ σ<br />

Excel:1-normfordeling x,<br />

µ ,<br />

eller ztest<br />

⎜<br />

⎝<br />

0<br />

⎞<br />

⎟<br />

n ⎠<br />

⎛ σ ⎞<br />

TI89: normCdf ⎜−∞,<br />

x,<br />

µ 0 , ⎟<br />

⎝<br />

n ⎠<br />

eller F6: Z-test<br />

⎛ σ ⎞<br />

Excel:normfordeling x,<br />

µ ,<br />

eller ztest<br />

som række 1<br />

som række 2<br />

⎜<br />

⎝<br />

0<br />

⎟<br />

n ⎠<br />

P - værdi < α<br />

P - værdi < 1<br />

2 α<br />

dog hvis t-test<br />

P - værdi < α<br />

P - værdi < α<br />

P - værdi < 1<br />

2 α<br />

dog hvis Z-test<br />

anvendes<br />

P - værdi < α


Hypotesetestning (1 normalfordelt variabel)<br />

Dimensionering<br />

∆ = −<br />

µ µ 0 µ<br />

er den mindste ændring i der har praktisk interesse.<br />

α =P(type I fejl), β = P(type II fejl)<br />

Forudsætning Hypotese Formel Beregning<br />

σ kendt eksakt<br />

σ er ukendt,<br />

men erstattes i<br />

formlerne af<br />

det bedste estimat<br />

eller gæt<br />

for spredningen.<br />

Ensidet<br />

Tosidet<br />

⎛<br />

⎜ u + u<br />

n ≥ ⎜<br />

⎜<br />

∆<br />

⎝ σ<br />

1−α 1−β<br />

⎛ u + u<br />

⎜ 1− 2<br />

n ≥ ⎜<br />

⎜<br />

∆<br />

⎝ σ<br />

α 1−<br />

β<br />

⎞<br />

⎟<br />

⎟<br />

⎟<br />

⎠<br />

⎞<br />

⎟<br />

⎟<br />

⎟<br />

⎠<br />

2<br />

2<br />

TI89: ((invNorm(1- α )+invNorm(1- β ))/( ∆ / σ ))^2<br />

Excel: =((NORMINV(1- α ;0;1)+NORMINV(1- β ;0;1))/ ( ∆ / σ ))^2<br />

TI89: ((invNorm(1- α /2)+invNorm(1- β ))/( ∆ / σ ))^2<br />

Excel: =((NORMINV(1- α /2;0;1)+NORMINV(1- β ;0;1))/ ( ∆ / σ ))^2<br />

Ensidet 2<br />

Løse ligning, se eksempel 6.10<br />

Tosidet<br />

⎛ ⎞<br />

⎜ u + u ⎟<br />

1−α 1−β<br />

⎛ t1−α( n−1)<br />

⎞<br />

n ≥ ⎜ ⎟ ⋅⎜<br />

⎟<br />

⎜ ∆<br />

u<br />

⎜<br />

⎟ ⎝ 1−α<br />

⎠<br />

⎟<br />

⎝ σ ⎠<br />

⎛ u + u ⎞ t n<br />

⎜ α 1−β<br />

⎛<br />

⎟ α ( −1)<br />

⎞<br />

1− ⎜ 1− ⎟<br />

2<br />

2<br />

n ≥ ⎜ ⎟ ⋅⎜<br />

⎟<br />

⎜ ∆<br />

u<br />

⎜<br />

⎟ ⎜ α ⎟<br />

⎝ ⎠ ⎝ 1− σ<br />

2 ⎠<br />

2<br />

64<br />

2<br />

2<br />

Løse ligning, se eksempel 6.10


Oversigt over test af varians<br />

χ 2<br />

Q er fordelt med f = n - 1.<br />

er en given konstant<br />

σ 0<br />

σ 2<br />

65<br />

6.4 Oversigt<br />

Forudsætning Alternativ<br />

hypotese H<br />

P - værdi Beregning H0 forkastes<br />

µ ukendt<br />

2<br />

H:σ<br />

2<br />

> σ0<br />

2<br />

PQ ( ≥ χ )<br />

TI89:<br />

2<br />

chi2Cdf ( χ , ∞, n −1)<br />

2<br />

χ<br />

2<br />

( n − 1)<br />

s<br />

= 2<br />

σ 0<br />

2 2<br />

H:σ < σ0PQ<br />

( ≤ χ )<br />

Excel: se eksempel 6.7 P-værdi< α<br />

2 TI89:<br />

2<br />

chi2Cdf ( −∞, χ , n −1)<br />

µ kendt<br />

2 ( n − 1)<br />

s + n( x − µ )<br />

χ =<br />

2<br />

σ<br />

2 2<br />

0<br />

2 2<br />

H:σ ≠ σ PQ ( ≥ χ ) for<br />

2<br />

0<br />

PQ ( ) for<br />

≤ χ 2<br />

2 2<br />

H:σ > σ0PQ<br />

( ≥ χ )<br />

2 2<br />

H:σ < σ0PQ<br />

( )<br />

2 2<br />

H:σ ≠ σ PQ ( ≥ χ ) for<br />

2<br />

0<br />

χ 2<br />

χ 2<br />

χ 2<br />

≥ n −<br />

< n −<br />

1<br />

1<br />

som række 1<br />

som række 2<br />

2 TI89:<br />

2<br />

chi2Cdf ( χ , ∞,<br />

n)<br />

≤ χ 2 TI89:<br />

≥ n −<br />

1<br />

PQ ( ≤ χ ) for<br />

2<br />

χ 2<br />

< n −<br />

1<br />

P-værdi< 1<br />

2 α<br />

Excel: se eksempel 6.7 P-værdi< α<br />

2<br />

chi2Cdf ( −∞, χ , n)<br />

som række 1<br />

som række 2<br />

P-værdi< 1<br />

2 α


Hypotesetestning (1 normalfordelt variabel)<br />

OPGAVER<br />

Opgave 6.1<br />

Et levnedsmiddel (“corned beef”) forhandles i pakker på 100 g.<br />

Ved fabrikationen tilsættes traditionelt et konserveringsmiddel B (nitrit).<br />

Da man har mistanke om, at B anvendt i større mængder kan have uønskede bivirkninger, må<br />

der højst tilsættes 2.5 mg B pr. 100 g.<br />

Fabrikanten reklamerer med, at der i middel højst er 2 mg B pr. pakke.<br />

En konkurrent tvivler herpå, og vil teste påstanden.<br />

Der købes i forskellige butikker i alt 36 pakker, og indholdet af B blev målt.<br />

x<br />

Man fandt et gennemsnit af B på = 2.10 mg med et estimat på spredningen på s = 0.30 mg<br />

.<br />

Kan man ud fra disse data bevise på signifikansniveau α = 0.01, at reklamen lyver.<br />

Opgave 6.2<br />

Et flyselskab overvejer at lukke en flyrute, såfremt µ = “middelværdien af antal solgte pladser<br />

pr. afgang” er under 60.<br />

På de sidste n = 100 afgange er der i gennemsnit solgt x = 58.0 pladser med en standardafvi-<br />

gelse på s =11.0 pladser.<br />

1) Kan man ud fra disse data bevise på signifikansniveau α = 0.05, at der i middel er solgt<br />

under 60 pladser pr. afgang? (Husk at anføre: Hvad X er. Antagelser. Nulhypotese. Beregninger.<br />

Konklusion.).<br />

2) Angiv et estimat ~µ for middelværdien µ .<br />

3) Forudsat, at man i spørgsmål 1 kan bevise, at der er solgt under 60 pladser, skal der angives<br />

et 95% konfidensinterval for middelværdien µ .<br />

Opgave 6.3<br />

En fabrikation er baseret på en kemisk reaktion, hvor processen forudsætter tilstedeværelse af<br />

en katalysator. Med den hidtil benyttede katalysatortype C1 udnyttes i middel kun ca. 70% af<br />

den dyreste råvare. Firmaet overvejer at gå over til en mere effektiv katalysatortype C2 ved<br />

produktionen. Omlægning hertil vil imidlertid kræve betydelige etableringsomkostninger,<br />

hvorfor firmaet kun vil lægge produktionen om, såfremt i middel mindst 80% af den dyreste<br />

råvare udnyttes, når C2 benyttes. Til vurdering heraf foretoges en række forsøg med benyttelse<br />

af C2. Følgende udnyttelsesprocenter fandtes:<br />

68.3 87.7 80.0 84.2 84.0 83.6 76.4 79.9 89.3 75.8<br />

96.1 88.0 79.8 83.7 84.4 95.5 84.2 92.1 92.4 83.9<br />

1) Lad X = udnyttelsesprocenten når C2 benyttes.<br />

Beregn estimater x og s for middelværdi E(X) og spredning σ ( X ) .<br />

2) Vurder, om de opnåede forsøgsresultater kan opfattes som et eksperimentelt bevis for, at i<br />

middel over 80% af den dyreste råvare udnyttes, når C2 benyttes.<br />

3) Forudsat, at man i spørgsmål 2 kan bevise, at i middel over 80% udnyttes. Skal opstilles et<br />

(tosidet) 95% konfidensinterval for E(X).<br />

Vi antager i det følgende, at X (approksimativt) er normalfordelt nxs ( , ) .<br />

4) Beregn sandsynligheden for, at udnyttelsesprocenten X er mindre end 80%, når C 2 benyttes.<br />

66


67<br />

Opgaver til kapitel 6<br />

Opgave 6.4<br />

Et kemikalium fremstilles industrielt ved inddampning af en bestemt opløsning. Det var vigtigt,<br />

at denne opløsning var svagt basisk med pH = 8.0. Man foretog derfor kontrolmæssigt<br />

nogle pH-bestemmelser for den benyttede opløsning. Følgende værdier fandtes:<br />

8.2 8.3 7.9 8.2 7.8 8.6 8.9 7.8 8.2<br />

a) Foretag en testning af om opløsningen kan antages at opfylde kravet til pH-værdi<br />

b) Forudsat, at man i spørgsmål a kan bevise, at opløsningen ikke opfylder kravet, skal opstilles<br />

et 95% konfidensinterval for pH-værdien.<br />

Opgave 6.5<br />

Man frygter, at den såkaldte “ syreregn er årsag til, at en bestemt skov er stærkt medtaget.<br />

Man måler SO 2 - koncentrationen forskellige steder i skovbunden (i g/m 3 ) og finder:<br />

µ<br />

32.7 23.9 21.7 18.6 27.6 35.1 42.2 36.5 13.4 41.8 34.3 30.0<br />

I ubeskadede skove er SO2 - koncentrationen 20 g/m 3 µ .<br />

a) Giver forsøgene et bevis for, at middelkoncentrationen af SO2 i den beskadigede skov er<br />

større end normalt?<br />

b) Forudsat, at man i spørgsmål a kan bevise, at middelkoncentrationen af SO2 i den beskadigede<br />

skov er større end normalt, skal man angive et tosidet 95%-konfidensinterval for SO2 - koncentrationen.<br />

Opgave 6.6<br />

Et nyt måleapparat påstås at give måleresultater med spredningen σ = 1.8 mg/l ved måling af<br />

salt-indholdet i en opløsning. Da dette er mindre end det sædvanlige, køber et laboratorium et<br />

eksemplar af apparatet for at kontrollere påstanden.<br />

Der foretages 15 målinger med følgende resultater:<br />

3.4 7.7 6.0 8.1 8.4 2.7 4.9 1.2 2.1 5.4 3.5 1.5 5.2 4.1 3.9<br />

Test på basis af disse resultater, om spredningen afviger fra 1.8 mg/l.<br />

(Husk altid at anføre: Hvad X er. Antagelser. Nulhypotese. Beregninger. Konklusion.).<br />

Opgave 6.7<br />

En medicinalvarefabrik overvejer at indføre en ny analysemetode.<br />

Det formodes, at spredningen er mindre end 2.0 mg/l.<br />

Man ved, at den nye metode er uden systematiske fejl.<br />

Der fremstilles ved afvejning et præparat med nøjagtig 40.5 mg/l, dvs. middelværdien er kendt.<br />

Følgende måleresultater (i mg/l) findes med den nye metode:<br />

42.8 39.3 41.2 40.9 40.2 40.7 40.6 40.0 41.5<br />

1) Bekræfter de foretagne observationer forhåndsformodningen om spredningen.<br />

(Husk altid at anføre: Hvad X er. Antagelser. Nulhypotese. Beregninger. Konklusion.).<br />

2) Angiv et estimat for spredningen.<br />

3) Angiv et 95% konfidensinterval for spredningen.


Hypotesetestning (1 normalfordelt variabel)<br />

Opgave 6.8<br />

Ved indkøbet af et nyt måleapparat oplystes det, at apparatet målte med en spredning på 2.8<br />

enheder. Efter at have brugt apparatet et stykke tid nærede køberen mistanke om, at apparatet<br />

målte med større spredning end oplyst.<br />

For at få spørgsmålet undersøgt lod køberen en bestemt måling udføre et antal gange.<br />

Følgende resultater fandtes:<br />

18.8 15.5 12.2 14.8 4.80 1.20 1.43 9.60 1.39 1.17 5.60 1.27 1.35<br />

8.70 1.23 1.40 1.02 1.65 1.91 1.14 1.46 1.59 1.54 1.01 1.80<br />

Hvilke konklusioner kan køberen drage ud fra en statistisk analyse af de fundne forsøgsresultater?<br />

Opgave 6.9<br />

En sukkerfabrik leverer sukkeret i 1 kg-poser og 2 kg-poser. Vægten af de fyldte poser varierer.<br />

1) For 1 kg-posernes vedkommende antages vægten at have en middelværdi på 1000 gram.<br />

En række forsøg har vist, at sandsynligheden for, at en tilfældig udtaget 1 kg-pose vejer<br />

mere ned 1025 gram, er 10%. Giv på det grundlag en vurdering af spredningen.<br />

2) For 2 kg-posernes vedkommende bør middelværdien være 200 gram, og spredningen må<br />

ikke overstige 25 gram. For at kontrollere, om en ny pakkemaskine overholder disse normer,<br />

udtages tilfældigt 100 pakker af denne maskines produktion. Gennemsnittet beregnes<br />

til x = 2008 gram, og et estimat for spredningen til s = 25 gram.<br />

Det formodes på forhånd, at den nye maskine overholder de ovennævnte normer. Foretag<br />

en statistisk vurdering af, om dette kan antages at være tilfældet.<br />

Opgave 6.10<br />

Under produktionen forekommer blandt en fabriks affaldsprodukter 1,5 mg/l af et stof A,<br />

som i større mængder kan være kræftfremkaldende. Man håber ved en ny og mere kostbar<br />

metode, at formindske indholdet af det pågældende stof.<br />

1) Inden man lavede forsøgene, foretog man en dimensionering. Hvis formindskelsen er under<br />

0.2 mg/l, er det ikke rimeligt at gå over til den nye metode. Man ønsker derfor at finde<br />

det mindste antal målinger, der skal indgå i undersøgelsen, for at man ved en ændring i<br />

indholdet af A på ∆ = 0.2 mg/l højst har, at P (type II fejl) = β = 10%.<br />

Man har en begrundet formodning om, at spredningen i resultaterne højst kan være 0.21<br />

mg/l ( α = 0.05 ).<br />

2) Ved en række kontrolmålinger efter tilsætning af additivet fandtes følgende resultater (i<br />

mg/l)<br />

1.12 1.47 1.35 1.27 1.17 1.26 1.83 1.10 1.39 1.25 1.44 1.14<br />

Test på 5% niveau, om målingerne beviser, at der er sket en formindskelse af middelindholdet<br />

af stoffet A. (Husk altid at anføre: Hvad X er. Antagelser. Nulhypotese. Beregninger.<br />

Konklusion.).<br />

3) Er det på basis af resultaterne muligt at vurdere, om den fundne formindskelse er stor nok<br />

til, at man vil gå over til den nye metode?<br />

68


69<br />

Opgaver til kapitel 6<br />

Opgave 6.11<br />

På et kraftvarmeværk mener man, at en ny metode vil kunne formindske svovlindholdet i de<br />

slagger, der bliver tilbage efter kulfyringen. Med en bestemt kvalitet kul, har det hidtidige svovlindhold<br />

været 2.70 %.<br />

For at vurdere den nye metode ønsker ingeniøren at foretage en række forsøg.<br />

1) Hvor mange forsøg skal der mindst foretages, hvis α = 5%, β = 10%, ∆ = 0.05 og et over-<br />

slag over spredningens størrelse sætter den til højst 0.08%.<br />

2) Uanset resultatet af dimensioneringen i spørgsmål 1), er der kun praktiske muligheder for at<br />

lave 16 forsøg. Følgende værdier af svovlindholdet fandtes (%).<br />

2.58 2.64 2.80 2.50 2.52 2.69 2.60 2.73 2.61 2.62 2.65 2.58 2.70 2.67 2.62 2.64<br />

Test om disse måleresultater beviser, at svovlindholdet ved den nye metode i middel er blevet<br />

mindre.<br />

3) Er det på basis af resultaterne muligt at vurdere, om den fundne formindskelse er stor nok til,<br />

at man vil gå over til den nye metode?<br />

Opgave 6.12<br />

På pakken af en iscreme står, at portionen indeholder 14 gram fedt. For at kontrollere dette købes<br />

n pakker is, og fedtindholdet måles.<br />

1) Bestem den nødvendige stikprøvestørrelse n, for at man ved en forskel i fedtindhold på ∆<br />

= 0.50 gram højst har, at P (type I fejl) = α = 0.01 og P (type II fejl) = β = 0.05.<br />

( σ ≈ 042 . gram).<br />

2) Man finder et gennemsnit på 13.1 gram og et estimat s for spredningen på 0.42 gram.<br />

Kan man ud fra disse data bevise på signifikansniveau α = 0.01, at middelindholdet afviger<br />

fra 14 gram? (Husk altid at anføre: Hvad X er. Antagelser. Nulhypotese. Beregninger.<br />

Konklusion.).<br />

2) Angiv et estimat for middelindholdet.<br />

3) Forudsat, at man i spørgsmål 1 kan bevise, at middelindholdet afviger fra 14 gram, skal angives<br />

et 95% konfidensinterval for middelindholdet.


7. Hypotesetest 2 variable<br />

7 . HYPOTESETEST<br />

TO NORMALFORDELTE VARIABLE<br />

7.1 INDLEDNING<br />

I dette kapitel benyttes følgende eksempel til at forklare problemstilling, metode osv.<br />

Eksempel 7.1. Sammenligning af 2 normalfordelte variable<br />

To produktionsmetoder M1 og M2 ønskes sammenlignet. Der udvælges tilfældigt 20 personer,<br />

hvoraf de 10 bliver sat til at arbejde med den ene metode, og de 10 andre med den anden.<br />

Efter 2 ugers forløb, beregnede man for hver person det gennemsnitlige tidsforbrug pr. enhed.<br />

Da metode 1 er mere kostbar end metode 2, ønsker man kun at gå over til den, hvis tidsforbruget<br />

pr. enhed ved metode 1 er mindst 2 minutter mindre end ved metode 2.<br />

Man fik følgende resultater.<br />

87.8 91.9 89.8 89.0 92.6 89.4 91.4 88.7 90.1 92.4<br />

M 1<br />

M 2<br />

92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92.8 93.4<br />

For at forsøgsresultaterne skal være “statistisk gyldige”, skal målingerne være uafhængige og<br />

repræsentative for det man skal undersøge.<br />

Det er således ikke korrekt, hvis man i eksempel 7.1 først udtager 10 personer, foretager målingerne,<br />

laver en test, opdager man ikke kan vise at metode 1 giver 2 minutters lavere tidsforbrug,<br />

udtager yderligere 10 personer , tester på de samlede fremkomne tal, osv. indtil man opnår den<br />

ønskede signifikans.<br />

Forsøg bør udføres så der er lige mange gentagelser.<br />

Det er klart, at det ville være forkert, at udtage 2 personer til at arbejde med metode M 1 og 18<br />

personer til at arbejde med metode M 2.<br />

Hvis en af personerne bliver syg under arbejdet, så der kun er 9 på det ene hold, ødelægger det<br />

dog ikke testen.<br />

Ved sammenligning af 2 normalfordelte variable er der afhængigt af hvordan stikprøven er<br />

indsamlet valg mellem 2 metoder.<br />

Er stikprøverne for de to variable som i eksempel 7.1 indsamlet ” uafhængigt af hinanden “<br />

benyttes sædvanligvis den i appendix 7.1 angivne metode.<br />

Er observationerne indsamlet “parvist” skal man benytte den i eksempel 7.3 angivne metode.<br />

70


7.2 Sammenligning af 2 normalfordelte variable<br />

7.2. SAMMENLIGNING AF 2 NORMALFORDELTE VARIABLE<br />

Eksempel 7.1. Sammenligning af 2 normalfordelte variable<br />

To produktionsmetoder M1 og M2 ønskes sammenlignet. Der udvælges tilfældigt 20 personer,<br />

hvoraf de 10 bliver sat til at arbejde med den ene metode, og de 10 andre med den anden.<br />

Efter 2 ugers forløb, beregnede man for hver person det gennemsnitlige tidsforbrug pr. enhed.<br />

Da metode 1 er mere kostbar end metode 2, ønsker man kun at gå over til den, hvis tidsforbruget<br />

pr. enhed ved metode 1 er mindst 2 minutter mindre end ved metode 2.<br />

Man fik følgende resultater.<br />

87.8 91.9 89.8 89.0 92.6 89.4 91.4 88.7 90.1 92.4<br />

M 1<br />

M 2<br />

92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92.8 94.6<br />

1) Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at<br />

tidsforbruget ved metode M1 er 2 minutter mindre end ved metode M2 2) Hvis dette kan påvises, skal der angives et 95% konfidensinterval for differensen i tidsforbrug.<br />

Løsning:<br />

a) Lad X1 = udbyttet ved anvendelse af metode M1 og<br />

X2 = udbyttet ved anvendelse af metode M2. X1 og X2 antages approksimativt normalfordelte med middelværdi og spredning henholdsvis<br />

µ , σ og µ , σ .<br />

1 1 2 2<br />

H0: µ 2 − µ 1 = 2<br />

H: µ 2 − µ 1 > 2<br />

Begrundelse: Nulhypotesen udtrykker jo, at intet er ændret (nul virkning),<br />

så den angiver, at differensen i middeltidsforbruget er præcist 2.<br />

Begrundelse: Den alternative metode udtrykker jo det vi ønsker at bevise,<br />

så den angiver, at differensen i middeltidsforbruget er større end 2.<br />

Såvel TI89 som Excel anvender et færdigt program, der anvender en testmetode (Satterthwaites metode), som<br />

er robust overfor mindre afvigelser fra kravet om normalitet, når blot antallet af gentagelser er (næsten) den<br />

samme.<br />

Er det ikke tilfældet kan man stadig foretage testen, men så stilles der større krav til, at de variable X 1 og X 2<br />

virkelig er normalfordelte.<br />

Formlen for Satterthwaites metode kan findes i oversigt 7.<br />

TI89: Hypoteserne omskrives til<br />

: µ + 2 = µ H: µ + 2 < µ<br />

H 0 1 2<br />

1 2<br />

APPS, STAT/LIST , indtast data i list1 og list 2 F6, 4: 2 - SampTtest ENTER<br />

I den fremkomne menu vælg Data ok<br />

71<br />

µ < µ<br />

I menu for “list 1" skrives list1+2, for “alternative Hyp”<br />

Man får P-værdi = 0.0464.<br />

Excel: Tallene for metode 1 indtastes i A1 til A10<br />

Tallene for metode 2 indtastes i B1 til B10<br />

1 2 og pooled til “NO” OK<br />

I C1 til C10 indsættes tallene fra A-kolonnen +2 (Skriv i C1 =A1+2 , og kopiere resultat ned)<br />

På værktøjslinien foroven: Tryk på f x Vælg kategorien “Statistisk” Vælg “TTEST”<br />

Tabel udfyldes: =TTEST(C1:C10;B1:B10;1;3)<br />

P-værdi= 0,0464<br />

Da P-værdi =4.64% < 5% forkastes H 0, dvs. vi har bevist, at tidsforbruget ved metode M 1 er 2<br />

minutter mindre end ved metode M 2.


7. Hypotesetest 2 variable<br />

2) 95% Konfidensinterval for differens<br />

TI89: F7, 4: 2 - SampTint ENTER I den fremkomne menu vælg Data ok<br />

I menu for “list 1" skrives blot list2, osv. poole til “No” OK<br />

Differensen er 3.21 og 95% konfidensinterval for differensen er [1.77 ; 4.64]<br />

Excel:<br />

Excel har intet program til beregning af konfidensinterval, så man må benytte formlen<br />

µ 1 − µ 2:<br />

x1− x2− t0975 , ( f ) ⋅ c ≤ µ 1− µ 2 ≤ x1− x2+ t0975 , ( f ) ⋅<br />

2<br />

s1<br />

c , hvor c = +<br />

n<br />

2<br />

s2<br />

n<br />

c<br />

og frihedsgradstallet f er det nærmeste hele tal der er større end g =<br />

⎛ s ⎞ s<br />

⎜ ⎟<br />

⎝ n ⎠ n<br />

n − n<br />

+<br />

2<br />

2<br />

2<br />

2<br />

2<br />

⎛ ⎞<br />

1<br />

2<br />

⎜ ⎟<br />

1 ⎝ 2 ⎠<br />

1 −1<br />

xA streg= MIDDEL(A1:A10) 90,31<br />

xB streg= MIDDEL(B1:B10) 93,52<br />

vA= VARIANS(A1:A10) 2,785444<br />

VB= VARIANS(B1:B10) 1,839556<br />

n1= 10<br />

n2= 10<br />

c= G3/G5+G4/G6 0,4625<br />

f= AFRUND.LOFT(G7^2/((G3/G5)^2/(G5-1)+(G4/G6)^2/(G6-1));1) 18<br />

Differens G2-G1 3,21<br />

Nedre grænse G2-G1-TINV(0,05;G8)*KVROD(G3/G5+G4/G6) 1,781219<br />

Øvre grænse G2-G1+TINV(0,05;G8)*KVROD(G3/G5+G4/G6) 4,638781<br />

Differensen er 3.21 og 95% konfidensinterval for differensen er [1.77 ; 4.64]<br />

Gemmes ovenstående excelfil, kan man nu hurtigt finde konfidensinterval for andre data.<br />

Eksempel 7.2. Sammenligning af 2 normalfordelte variable (oprindelige data ikke givet)<br />

Et luftfartsselskab A hævder, at dets fly til USA i gennemsnit afgår mere præcist end et konkurrerende<br />

luftfartsselskab.<br />

En forbrugergruppe undersøger denne påstand ved i en given periode at bestemme forsinkelserne<br />

for samtlige flyafgange til USA for hver af de to selskaber.<br />

Man fandt følgende tal:<br />

Luftfartsselskab Antal afgange x s<br />

A 100 55 minutter 30 minutter<br />

B 80 60 minutter 35 minutter<br />

Støtter undersøgelsen luftfartsselskab A's påstand?<br />

72<br />

1<br />

2<br />

1<br />

2


7.2 Sammenligning af 2 normalfordelte variable<br />

Løsning:<br />

XA = forsinkelsen i minutter for luftfartselskab A.<br />

XB =forsinkelsen i minutter for luftfartselskab B.<br />

XA og XB antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ A, σ A<br />

og µ B, σ B .<br />

Da vi ønsker at vise, at A er mere præcise end B, så haves:<br />

H : µ = µ H:<br />

µ < µ<br />

0<br />

A B A B<br />

TI89 Da antal forsøg er over 30 kunne man strengt taget nøjes med at lave en Z - test, i stedet<br />

for den normale t - test.<br />

t - test: APPS STAT/LIST F6, 4 2 - SampTtest ENTER<br />

I den fremkomne menu vælg STATS OK (da forsøgsresultaterne resultater ikke er kendt)<br />

µ < µ<br />

Menuen udfyldes bl.a. “alternative Hyp” 1 2 og poole til “N” OK<br />

P-værdi = 0.156<br />

Konklusion: Da P-værdi > 0.05 accepteres H 0 , dvs.<br />

vi kan ikke vise, at A er mere præcis end B.<br />

Excel har intet program til beregning af P-værdi, så man må benytte formlen fra oversigt 7<br />

x1 −x2 −d<br />

t =<br />

c<br />

2<br />

s1<br />

, hvor c = +<br />

n<br />

2<br />

s2<br />

P-værdi = P(T < t)<br />

n<br />

1<br />

2<br />

c<br />

=<br />

⎛ s ⎞ s<br />

⎜ ⎟<br />

⎝ n ⎠ n<br />

n − n<br />

+<br />

2<br />

2<br />

2<br />

2<br />

2 ⎛ ⎞<br />

1<br />

2<br />

⎜ ⎟<br />

1 ⎝ 2 ⎠<br />

1 1 2 −1<br />

A B C D E<br />

1<br />

2<br />

Eksempel 7.2<br />

3 XA =forsinkelsen for luftfartselskab A XA er normalfordelt med middelværdi :A<br />

4 XB =forsinkelsen for luftfartselskab A XB er normalfordelt med middelværdi :B<br />

5 H0: :A =B H: A < B<br />

6 Data Beregning<br />

7 nA = 100 a= B9^2/B7 9<br />

8 x-streg-A= 55 b= B12^2/B10 15,3125<br />

9 sA = 30 c= E7+E8 24,3125<br />

10 nB = 80 t= (B8-B11-B13)/KVROD(E9) -1,01404<br />

11 x-streg-B= 60 g= E9^2/(E7^2/(B7-1)+E8^2/(B10-1)) 156,1194<br />

12 sB = 35 f = RUND.OP(E11;0) 157<br />

13 d= 0 P-værdi= TFORDELING(ABS(E10);E12;1) 0,156062<br />

14 Konklusion: Da p -værdi > 0.05 accepteres H0, dvs.<br />

15 det kan ikke på dette grundlag vises, at A er mere præcis end B<br />

og frihedsgradstallet f er det nærmeste hele tal der er større end g<br />

73


7. Hypotesetest 2 variable<br />

Parvise observationer<br />

Parvise observationer (Matched pairs samples) kan anvendes, hvis det har mening at sammen<br />

ligne observationerne to og to (i par)<br />

Som et eksempel herpå vil vi igen betragte problemstillingen i eksempel 7.1, men nu antage, at<br />

forsøget er foretaget på en anden måde.<br />

Eksempel 7.3. Parvise observationer<br />

To produktionsmetoder M1 og M2 ønskes sammenlignet. Der udvælges tilfældigt 10 personer.<br />

Efter lodtrækning bliver 5 personer sat til først i 2 uger, at arbejde med produktionsmetode M1<br />

og derefter i de næste 2 uger med produktionsmetode M2.<br />

De øvrige 5 personer arbejder omvendt først med metode M2 og derefter med metode M1.<br />

Efter 2 ugers forløb, beregnede man for hver person det gennemsnitlige tidsforbrug pr. enhed.<br />

Da metode 1 er mere kostbar end metode 2, ønsker man kun at gå over til den, hvis tidsforbruget<br />

pr. enhed ved metode 1 er mindst 2 minutter mindre end ved metode 2.<br />

Man fik følgende resultater.<br />

Person nr. 1 2 3 4 5 6 7 8 9 10<br />

M 1 87.8 91.9 89.8 89.0 92.6 89.4 91.4 88.7 90.1 92.4<br />

M 2 92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92.8 93.4<br />

1) Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at<br />

tidsforbruget ved metode M 1 er 2 minutter mindre end ved metode M 2<br />

2) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter.<br />

Forklaring på metode:<br />

Da en forsøgsperson kan være hurtig og en anden langsom (person 1 er således hurtigere end<br />

person 2) kan spredningen på M 1 og M 2 være så stor, at man intet kan vise.<br />

Hvis man i stedet tager differenserne M2 - M1 vil disse forskelle jo udjævnes, da person 1 jo er<br />

hurtig under arbejdet med begge metoder, mens person 2 er langsom ved begge.<br />

Person nr. 1 2 3 4 5 6 7 8 9 10<br />

M 1 87.8 91.9 89.8 89.0 92.6 89.4 91.4 88.7 90,1 92,4<br />

M 2 92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92,8 94,6<br />

D = M 2 - M 1 4.6 2.7 3.2 5 -0.2 3.5 5 3.4 2,7 2,2<br />

I stedet for at benytte metoden i eksempel 7.1 kan vi nu teste nulhypotesen<br />

H : D=<br />

2 mod H: D > 2 ved metoden i eksempel 6.2 (en variabel)<br />

0<br />

Løsning:<br />

1) D = forskellen i tidsforbruget ved metode M2 og metode M1 D antages approksimativt normalfordelt med middelværdi µ og spredning σ .<br />

H 0: D = 2 H: D > 2<br />

TI89:Data indtastes (de samme som i eksempel 6.1)<br />

APPS STAT/LIST data indtastes i list 1 og list 2 Cursor på list 3 list2 - list 1<br />

Enter F6 t-test menu udfyldes<br />

P-værdi = 0.0178<br />

74


7.2 Sammenligning af 2 normalfordelte variable<br />

Excel<br />

Tallene for metode 1 indtastes i A1 til A10<br />

Tallene for metode 2 indtastes i B1 til B10<br />

I C1 til C10 indsættes tallene fra A-kolonnen +2 (Skriv i C1 =A1+2 , og kopiere resultat ned)<br />

På værktøjslinien foroven: Tryk på f x Vælg kategorien “Statistisk” Vælg “TTEST”<br />

Tabel udfyldes: =TTEST(C1:C10;B1:B10;1;1)<br />

P-værdi= 0,017836<br />

Konklusion: Da P-værdi < 0.05 forkastes H 0, dvs.<br />

M1 er signifikant 2 minutter lavere end M2, dvs. man vil gå over til at benytte metode M1<br />

2) Konfidensinterval for differens:<br />

TI89:F6 t-interval menu udfyldes<br />

Differens = 2.31 KONFIDENSINTERVAL [2.10 ; 4.32 ]<br />

Excel: Danner en kolonne D1 til D10 med differenserne mellem A og B kolonner.<br />

På værktøjslinien foroven: Tryk på f x Vælg kategorien “Statistisk” Middel<br />

Excel: 2003: Funktioner 2007: Data<br />

derefter Dataanalyse Beskrivende statistik udfyld inputområde vælg konfidensniveau<br />

Resultat<br />

x streg 3,21<br />

Konfidensniveau(95,0%) 1,10896985<br />

nedre grænse 2,1011<br />

øvre grænse 4,3190<br />

75


7. Hypotesetest 2 variable<br />

7.3 OVERSIGT over centrale formler i kapitel 7<br />

Test af middelværdier µ og µ og konfidensinterval for differens µ − µ for 2 normalfordelte<br />

1 2<br />

1 2<br />

variable .<br />

X1 og X2 antages normalfordelte henholdsvis n( µ 1, σ1)<br />

og n( µ 2, σ2)<br />

.<br />

Givet 2 stikprøver af X1 og X2. Størrelse, gennemsnit og spredning henholdsvis n1, x1 , s1 og n2, x2 , s2. Signifikansniveau er Lad d være en given konstant.<br />

α<br />

Forudsætninger Alternativ<br />

hypotese H<br />

σ , σ ukendte<br />

1 2<br />

x1 − x2 − d<br />

t =<br />

c<br />

f er det nærmeste<br />

hele tal, som<br />

er større end g<br />

Forudsætninger<br />

s<br />

n<br />

2<br />

1<br />

s<br />

n<br />

2<br />

2<br />

Forkortelser: a =<br />

1<br />

, b =<br />

2<br />

c<br />

, c = a + b, g =<br />

a b<br />

n − n<br />

+<br />

2<br />

2<br />

2<br />

1 1 2 −1<br />

T er t - fordelt med frihedsgradstallet f.<br />

P - værdi Beregning H 0 forkastes<br />

µ 1 > µ 2 +d PT ( ≥ t)<br />

TI89: tCdf (, t ∞,<br />

f ) eller<br />

F6: 2-sampTtest,pooled, No<br />

Excel:TTEST(se eksempel 7.1)<br />

µ 1 < µ 2 +d PT ( t)<br />

≤ TI89: tCdf ( −∞,<br />

t, f ) eller<br />

µ 1 ≠ µ 2 +d PT ( ≥ t)<br />

for x1 > x2 + d<br />

PT ( ≤ t)<br />

for x < x + d<br />

1 2<br />

76<br />

F6: 2-sampTtest,pooled, No<br />

Excel:TTEST(se eksempel 7.1)<br />

som række 1<br />

som række 2<br />

100⋅ ( 1−<br />

α )% konfidensinterval for differens µ 1 − µ 2 :<br />

x − x − t ( f ) ⋅ c ≤ µ − µ ≤ x − x + t ( f ) ⋅ c<br />

1 2<br />

α 1 2 1 2 α<br />

1− 1− 2<br />

2<br />

TI89: F7, 2-SampTint Excel: Formel benyttes: se eksempel 7.1<br />

2 2<br />

σ1σ2 Forkortelser: x = x1 −x2 −d<br />

σ = + Y er normalfordelt<br />

n n<br />

Alternativ<br />

hypotese H<br />

1<br />

2<br />

P - værdi x2 + d<br />

PY ( ≤ x)<br />

for x < x + d<br />

1 2<br />

normCdf ( −∞ , x,<br />

µ , σ )<br />

eller F6: 2-sampZtest<br />

Excel: ZTEST<br />

som række 1<br />

som række 2<br />

100⋅( 1−α<br />

)% konfidensinterval for differens µ 1 − µ 2 :<br />

x −x −u ⋅σ ≤ µ −µ ≤ x − x + u ⋅σ<br />

1 2<br />

α 1 2 1 2 α<br />

1− 1− 2<br />

2<br />

TI89: F7, 2-SampZint Excel: Formel benyttes:<br />

P - værdi


OPGAVER<br />

77<br />

Opgaver til kapitel 7<br />

Opgave 7.1<br />

Det påstås at modstanden i en tråd af type A er større end modstanden i en tråd af type B. Til afklaring af denne<br />

påstand udtages tilfældigt 6 tråde af hver type og deres modstande måles.<br />

Følgende resultater fandtes:<br />

Modstand i tråd A (i ohm) 0.140 0.138 0.143 0.142 0.144 0.137<br />

Modstand i tråd B (i ohm) 0.135 0.140 0.142 0.136 0.138 0.140<br />

Hvilke konklusioner kan drages med hensyn til påstanden?<br />

Opgave 7.2<br />

Et levnedsmiddelfirma havde udviklet en diæt, som har lavt indhold af fedt, kulhydrater og kolesterol. Diæten er<br />

udviklet med henblik på patienter med hjerteproblemer, men firmaet ønsker nu at undersøge diætens virkning på folk<br />

med vægtproblemer.<br />

To stikprøver på hver 100 personer med vægtproblemer blev udtaget tilfældigt. Gruppe A fik den nye diæt, mens<br />

gruppe B fik den diæt, man normalt gav. For hver person blev registreret størrelsen af vægttabet i en 3 ugers periode.<br />

Man fandt følgende værdier for gennemsnit og spredning:<br />

Gruppe A: x A = 931 . kg , sA = 467 .<br />

Gruppe B: xB = 740 . kg , sB = 404 . .<br />

α = 5%<br />

1) Undersøg om vægttabet for gruppe A er signifikant større end for gruppe B. Signifikansniveau .<br />

2) I tilfælde af signifikans beregn da et 95% konfidensinterval for differensen mellem de to gruppers middelværdier.<br />

Opgave 7.3<br />

I et laboratorium foretoges 15 uafhængige bestemmelser af furfurols kogepunkt, idet 8 af bestemmelserne foretoges<br />

af én kemiingeniør, de resterende bestemmelser af en anden kemiingeniør. Resultaterne var ( 0 C ) :<br />

1. ingeniør 162.2 161.3 161.9 161.2 163.4 162.4 162.5 162.0<br />

2. ingeniør 163.3 162.6 161.8 163.8 163.0 163.2 164.1<br />

Undersøg, om de to ingeniørers resultater i middel er ens.<br />

Opgave 7.4<br />

På et laboratorium undersøgtes filtreringstiden for en opløsning af et bestemt gødningsstof ved benyttelsen af to<br />

forskellige filtertyper (F1) og (F2). Følgende stikprøveværdier observeredes:<br />

(F1) 8 10 12 13 13 9 14 10<br />

(F2) 9 10 10 7 9 11 7<br />

Det antages, at filtreringstiderne X1 og X2 er normalfordelte n( µ , σ ) og<br />

Test om det kan antages, at filtreringstiderne i middel er forskellige.<br />

1 1 n( µ , σ )<br />

Opgave 7.5<br />

En produktion af plastikvarer må omlægges på grund af bestemmelser i en ny miljølov.<br />

Ved den fremtidige produktion kan inden for miljølovens rammer vælges mellem 2 pro- duktionsmetoder I og II.<br />

Metode I er den dyreste, og fabrikanten har regnet ud, at det (kun) kan betale sig at benytte metode I, såfremt den<br />

giver et middeludbytte, som er mindst 10 måleenheder (udbytteprocenter) større end udbyttet ved benyttelse af metode<br />

II.<br />

Ved et fuldstændigt randomiseret forsøg fandtes følgende måleresultater:<br />

Metode I 35.2 38.1 37.6 37.6 34.9 37.9 36.5 40.0 36.2 37.4 37.2 37.9<br />

Metode II 26.2 22.2 24.3 24.5 22.0 27.6 23.8 22.8 23.4 20.8<br />

Fabrikanten valgte herefter at benytte metode I.<br />

a) Foretag en undersøgelse af, om valget var statistisk velmotiveret.<br />

b) Hvis forslaget er velmotiveret skal der opstilles et 95% - konfidensinterval for differensen mellem middeludbytterne<br />

ved benyttelse af metoderne l og II.<br />

2 2


7. Hypotesetest 2 variable<br />

Opgave 7.6<br />

To sjællandske fabrikker producerer begge en bestemt type kvægfoder, for hvilken det ønskes, at proteinindholdet i<br />

færdigvaren skal være 26%. På de 2 fabrikkers driftslaboratorier foretoges følgende målinger af proteinindholdet i en<br />

uges produktion:<br />

Fabrik 1 27.3 26.1 26.9 24.8 26.2 25.7 26.5<br />

Fabrik 2 26.0 26.7 25.6 26.1 26.2 25.5 26.0 26.1 26.2 25.9<br />

Foretag en statistisk vurdering af, om de to produktioner kan antages i middel at give kvægfoder med samme proteinindhold.<br />

Opgave 7.7<br />

Måling af intelligenskvotient på 16 tilfældigt udvalgte studerende ved en diplom-retning (med mere end 200 stu-<br />

2<br />

derende) viste et gennemsnit på = 107 og en empirisk varians på =100, medens en tilsvarende måling på 14<br />

x1 s1 tilfældigt udvalgte studerende fra en anden diplomretning viste et gennemsnit på x2 =112 og en empirisk varians på<br />

2<br />

s2 = 64.<br />

Tyder disse tal på en forskel på studentermaterialet på de to retninger?<br />

Opgave 7.8<br />

Et bestemt medikament ønskes testet for dets effekt på blodtrykket. 12 mænd fik deres blodtryk målt før og efter<br />

indtagelse af medikamentet. Resultaterne var:<br />

mand nr 1 2 3 4 5 6 7 8 9 10 11 12<br />

Før 120 124 130 118 140 128 140 135 126 130 126 127<br />

Efter 128 131 131 127 132 125 141 137 118 132 129 135<br />

Udfør en testning af, om disse tal tyder på, at medikamentet påvirker blodtrykket.<br />

Opgave 7.9<br />

Et diætprodukt påstår i en reklame, at brug af produktet i en måned vil resultere i et vægttab på 3 kg.<br />

En forbrugerorganisation ønsker at teste denne påstand, dvs. om vægttabet er netop 3 kg<br />

8 personer bruger produktet i en måned, og resultatet fremgår af nedenstående tabel:<br />

Person nr 1 2 3 4 5 6 7 8<br />

Startvægt 81 101 98 99 78 71 75 93<br />

Slutvægt 79 95 95 97 73 69 71 89<br />

1) Undersøg på grundlag af disse tal, om det på basis af disse tal på et signifikansniveau på 5% kan vises, at reklamens<br />

påstand er fejlagtig, dvs. om vægttabet afviger signifikant fra 3 kg?<br />

2) Opstil et 95% tosidet konfidensinterval for middelværdien af vægttabet, og giv på grundlag heraf en vurdering af<br />

virkningen af diætproduktet.<br />

78


79<br />

Opgaver til kapitel 7<br />

Opgave 7.10 (parvise observationer).<br />

En producent af malervarer har laboratorieresultater, der tyder på, at en ny lak A, har en større slidstyrke end den<br />

sædvanlige lak B. Han ønsker en afprøvning i praksis og aftaler med ejerne af 6 bygninger med mange trapper, at han<br />

må lakere deres trapper. Efter 3 måneders forløb måles graden af slid (i %) i hver bygning.<br />

1) Angiv hvorledes du ville foretage forsøget.<br />

2) De målte værdier af slid efter valg af plan var<br />

Bygning nr 1 2 3 4 5 6<br />

Ny lak 20.3 25.1 21.8 19.6 18.9 23.5<br />

Sædvanlig lak 19.5 28.4 21.6 22.0 20.9 25.8<br />

Undersøg om observationerne leverer et eksperimentelt bevis for, at den nye lak er mere slidstærk end den sædvanlige<br />

lak.


8. Regneregler for sandsynlighed, Kombinatorik<br />

8. REGNEREGLER FOR SANDSYNLIGHED,<br />

KOMBINATORIK<br />

8.1 REGNEREGLER FOR SANDSYNLIGHEDER<br />

Vi har tidligere omtalt sandsynlighed.<br />

I dette kapitel omtales nogle af de grundlæggende definitioner og begreber<br />

Det følgende eksempel blive benyttet til illustration af definitioner og begreber.<br />

Eksempel 8.1. Gennemgående eksempel.<br />

To skytter Anders og Brian skyder hver ét skud mod en skydeskive. Sandsynligheden for at<br />

Anders rammer skiven er 0.80 mens Brian har en træfsandsynlighed på 0,60.<br />

Et eksperiment består i at de hver skyder et skud.<br />

Lad A være hændelsen at Anders rammer skiven og lad B være sandsynligheden for at Brian<br />

rammer skiven.<br />

Vi har derfor, at P(A) = 0.80 og P(B) = 0.60.<br />

Lad os ved at sætte en streg over A forstå “ikke A”.<br />

Generelt gælder P( A)<br />

= 1 - P ( A )<br />

I eksempel 8.1 er A hændelsen at Anders ikke rammer skiven.<br />

Vi har derfor, at P( A ) = 1 - P(A) = 1 - 0.8 = 0.20<br />

Fællesmængden til A og B benævnes A ∩ B og er<br />

mængden af alle udfald i udfaldsrummet U, der tilhører<br />

både A og B (Den skraverede mængde i figur 8.1 ).<br />

Eksempelvis er A ∩ B i eksempel 8.1 hændelsen, at<br />

både Anders og Brian rammer skiven<br />

Foreningsmængden af A og B benævnes A∪B og<br />

er mængden af alle udfald i udfaldsrummet U, der<br />

enten tilhører A eller B eventuelt dem begge (den<br />

skraverede mængde på figur 8.2 )<br />

Eksempelvis er A∪B i eksempel 6.1 den hændelse,<br />

at enten rammer Anders eller også rammer Brian<br />

skiven eventuelt gør de det begge.<br />

Man kunne også udtrykke det ved at mindst en af dem<br />

rammer skiven.<br />

80<br />

Fig 8.1. Fællesmængde<br />

Fig. 8.2 Foreningsmængde


Der gælder nu følgende sætninger:<br />

Additionssætning: P( A∪ B) = P( A) + P( B) − P( A∩B). Sætningen fremgår umiddelbart ved at betragte arealerne i figur 8.3.<br />

P( AUB) PA ( )<br />

81<br />

6.2 Regneregler for sandsynligheder<br />

Statistisk uafhængighed.<br />

To hændelser A og B siges at være statistisk uafhængige, såfremt sandsynligheden for, at den<br />

ene hændelse indtræffer, ikke afhænger af, om den anden hændelse indtræffer.<br />

I eksempel 8.1 må man eksempelvis antage, at om Anders rammer skiven har ingen indflydelse<br />

på om Brian rammer, så her må man antage A og B er uafhængige.<br />

Et andet eksempel er kast med en terning. Her vil sandsynligheden for at få en sekser i andet kast<br />

være uafhængigt af udfaldet i første kast<br />

Der gælder følgende sætning:<br />

Produktsætning for uafhængige hændelser:<br />

Eksempel 8.2 (eksempel 8.1 fortsat)<br />

Lad A være hændelsen, at Anders rammer skiven, og lad B være hændelsen, at Brian rammer<br />

skiven. Det er givet, at P(A) = 0.80 og P(B) = 0.60.<br />

Find sandsynligheden for<br />

a) At både Anders og Brian rammer skiven<br />

b) At enten Anders eller Brian (evt. begge) rammer skiven, dvs. mindst en af dem rammer<br />

skiven.<br />

c) At hverken Anders elle Brian rammer skiven<br />

Løsning:<br />

a) Da hændelserne antages at være uafhængige gælder ifølge produktsætningen<br />

P( A∩ B)<br />

= 08 . ⋅ 06 . = 048 .<br />

PB<br />

Fig.8.3 Additionssætning<br />

For to uafhængige hændelser gælder P( A∩ B) = P( A) ⋅<br />

P( B)<br />

( ) PA ( I B)<br />

b) Ifølge additionssætningen gælder P( A∪ B)<br />

= 06 . + 08 . − 048 . = 092 .


8. Regneregler for sandsynlighed, Kombinatorik<br />

c) P( A∩ B) = P( A) ⋅ P( B)<br />

= ( 1−08 . )( 1− 06 . ) = 008 .<br />

Produktsætning og additionssætning kan generaliseres til flere hændelser end 2.<br />

For tre hændelser A, B og C gælder således<br />

P( A∪B∪ C) = P( A) + P( B) + P( C) − P( A∩B) − P( A∩C) − P( B∩C) I tilfælde af at hændelserne A, B og C er uafhængige gælder således:<br />

P( A∩B∩ C) = P( A) ⋅P( B) ⋅P(<br />

C)<br />

.<br />

Er hændelserne A og B ikke uafhængige, kan man som beskrevet i afsnit 11.3 udlede en mere<br />

generel produktsætning<br />

8.2. Betinget sandsynlighed<br />

Er hændelserne A og B ikke uafhængige vil PA ( ∩ B) ≠ PA ( ) ⋅ PB ( )<br />

Eksempel 8.3. Ikke uafhængige hændelser<br />

En fabrik har erfaring for, at den daglige produktion af glasfigurer indeholder 10 % misfarvede, 20% har ridser, og<br />

1 % af produktionen er både ridsede og misfarvede.<br />

Et eksperiment består i tilfældigt at udtage en glasfigur af produktionen. Lad A være hændelsen at få en misfarvet<br />

og lad B være hændelsen at få en ridset.<br />

Her er P( A) ⋅ P( B) = 01 . ⋅ 02 . = 002 . ≠ P( A∩ B)<br />

= 001 . .<br />

For at få en mere generel regel indføres PBA ( ) som kaldes sandsynligheden for, at B indtræffer, når A er indtruffet<br />

(den af A betingede sandsynlighed for B).<br />

For at forklare den følgende definition, vil vi simplificere eksempel<br />

8.3, idet vi antager, at den daglige produktion er 100 glasfigurer.<br />

I så fald er der 10 misfarvede figurer, 20 ridsede figurer, og<br />

1 figur der er både misfarvet og ridset.<br />

Hvis vi begrænser vort udfaldsrum til A, så er<br />

1<br />

1 P( A B)<br />

PBA ( ) = =<br />

100 ∩<br />

= .<br />

10 10 P( A)<br />

100<br />

Denne beregning begrunder rimeligheden i følgende definition:<br />

82<br />

Fig. 8.4 Taleksempel<br />

Den af A betingede sandsynlighed for B PBA ( ) (eller sandsynligheden for, at B indtræffer, når A er indtruffet )<br />

PA ( ∩ B)<br />

defineres ved PBA ( ) = .<br />

P( A)<br />

Ved multiplikation fås Produktsætningen: P( A∩ B) = P( A) ⋅P(<br />

B A)<br />

.<br />

Benyttes produktsætningen på eksempel 8.1 fås P( A∩ B) = P( A) ⋅ P( B A)<br />

= 01 . ⋅ 01 . = 001<br />

. .


83<br />

8.2 Betinget sandsynlighed<br />

Eksempel 8.4: Betinget sandsynlighed.<br />

En beholder indeholder 3 røde og 3 hvide kugler. Vi udtrækker successivt 2 kugler fra urnen.<br />

Vi betragter følgende 2 hændelser:<br />

A: Den først udtrukne kugle er rød. B: Den anden udtrukne kugle er rød.<br />

Beregn P( A∩B) hvis<br />

1) kugleudtrækningen foregår, ved at den først udtrukne kugle lægges tilbage før den anden udtrækkes.<br />

2) kugleudtrækningen foregår, ved at den først udtrukne kugle ikke lægges tilbage før den anden udtrækkes.<br />

Løsning<br />

1) Her er PBA ( )= og derfor ifølge produktsætningen<br />

3<br />

P( A∩ B) = P( A) ⋅ P( B A)<br />

=<br />

6<br />

1<br />

4<br />

2) Her er PBA ( )= og derfor<br />

2<br />

3 2 1<br />

5 P( A∩ B)<br />

= ⋅ = 6 5 5<br />

Bayes sætning<br />

For to hændelser A og B for hvilken P(A) > 0 gælder<br />

Bevis:<br />

P( A∩B) PB ( ∩ A)<br />

PB ( ) ⋅ PAB ( )<br />

Af definitionen på betinget sandsynlighed og produktsætningen fås PBA ( ) = = =<br />

P( A)<br />

P( A)<br />

P( A)<br />

Bayes sætning gør, at det er let at omskrive fra den ene betingende sandsynlighed til den anden.<br />

Dette er tilfældet, hvis den ene af de to betingede sandsynligheder PBA ( ) og PAB ( ) er meget lettere at<br />

beregne end den anden.<br />

PB ( ) ⋅<br />

PAB ( )<br />

Bayes sætning: PBA ( ) =<br />

P( A)<br />

Eksempel 8.5 (Bayes sætning)<br />

I en officeruddannelse kan man vælge mellem en “teknisk” linie og en “operativ”linie. På en bestemt årgang har 60<br />

% valgt den operative linie og af disse er 20% kvinder. På den tekniske linie er 10% kvinder.<br />

Ved lodtrækning vælges en elev.<br />

a) Find sandsynligheden for, at denne er en kvinde.<br />

Ved ovenstående lodtrækning viste det sig at eleven var en kvinde.<br />

b) Hvad er sandsynligheden for, at hun kommer fra den tekniske linie.<br />

Løsning:<br />

Vi definerer følgende hændelser:<br />

T: Den udtrukne er tekniker<br />

K: Den udtrukne er en kvinde.<br />

a) PK ( ) = PT ( ∩ K) + PO ( ∩ K) = PKT ( ) ⋅ PT ( ) + PKO ( ) ⋅ PO ( ) = 01 . ⋅ 04 . + 02 . ⋅ 06 . = 016 . = 16%<br />

PKT ( ) ⋅ PT ( ) 01 . ⋅04<br />

. 1<br />

b) Af Bayes sætning fås: PTK ( ) =<br />

= = = 25%<br />

PK ( ) 016 . 4<br />

En anden metode ville det være, at antage, at der bliver optaget 100 elever.<br />

Vi har så følgende skema<br />

Kvinder I alt<br />

Operativ 12 60<br />

Teknisk 4 40<br />

16<br />

4<br />

Heraf fås umiddelbart PK ( ) = = 16% og PTK ( ) = = 25%<br />

100<br />

16


8. Regneregler for sandsynlighed, Kombinatorik<br />

8.3. Kombinatorik<br />

8.3.1. Indledning:<br />

Såfremt et udfaldsrum U indeholder n udfald som alle er lige sandsynlige, vil sandsynligheden<br />

for hvert udfald være ( ) = . 1<br />

Pu n<br />

En hændelse A som indeholder a udfald vil da have sandsynligheden a P( A) = .<br />

n<br />

Dette udtrykkes ofte kort ved at sige, at sandsynligheden for A er antal gunstige udfald i A<br />

divideret med det totale antal udfald i udfaldsrummet.<br />

I sådanne tilfælde, bliver problemet derfor, hvorledes man let kan optælle antal udfald. Dette kan<br />

ofte gøres ved benyttelse af kombinatorik.<br />

8.3.2. Multiplikationsprincippet<br />

Multiplikationsprincippet: Lad et valg bestå af n delvalg, hvoraf det første valg<br />

har valgmuligheder, det næste valg har valgmuligheder, . . . og det n’te valg har<br />

r n<br />

r 1<br />

valgmuligheder.<br />

Det samlede antal valgmuligheder er da r1⋅r2⋅.... ⋅rn<br />

Multiplikationsprincippet illustreres ved følgende eksempel.<br />

Eksempel 8.6. Multiplikationsprincippet<br />

En mand ejer 2 forskellige jakker, 3 slips og 4 forskellige fabrikater skjorter.<br />

På hvor mange forskellige måder kan han sammensætte sin påklædning af jakke, slips og skjorte.<br />

Løsning:<br />

1) Valg af jakke giver 2 valgmuligheder<br />

2) Valg af slips giver 3 valgmuligheder<br />

3) Valg af skjorte giver 4 valgmuligheder<br />

Ifølge multiplikationsprincippet giver det i alt 234 ⋅ ⋅ = 24muligheder<br />

Man kunne illustrere løsningen ved følgende “forgreningsgraf”<br />

r 2<br />

84


Eksempel 8.7 Fakultet<br />

På hvor mange måder kan 5 personer opstilles i en kø (i rækkefølge)<br />

Løsning:<br />

Pladserne i køen nummereres 1,2,3,4,5.<br />

Plads nr. 1 i køen besættes 5 valgmuligheder<br />

Plads nr. 2 i køen besættes 4 valgmuligheder<br />

Plads nr. 3 i køen besættes 3 valgmuligheder<br />

Plads nr. 4 i køen besættes 2 valgmuligheder<br />

Plads nr. 5 i køen besættes 1 valgmulighed<br />

I alt 5⋅4⋅3⋅2⋅ 1 = 120 forskellige rækkefølger.<br />

Ved n fakultet (n udråbstegn) forstås n! = n⋅( n−1) ⋅ ( n−2)<br />

⋅ ... ⋅ 2⋅1 Endvidere defineres 0! = 1.<br />

TI89: 5 MATH Probability ! 5! = 120<br />

Excel: f x Math/trig FAKULTET(5) 120<br />

85<br />

8.4 Kombinatorik<br />

8.3.3 Ordnet stikprøveudtagelse<br />

Lad os tænke os vi har en beholder indeholdende 9 kugler med numrene 1, 2, 3, ..., 9 .<br />

Vi udtager nu en stikprøve på 4 kugler. Det kan ske<br />

1) uden tilbagelægning: En kugle er taget op, nummeret noteres, men den lægges ikke tilbage inden man tager en<br />

ny kugle op.<br />

2) med tilbagelægning: En kugle tages op, nummeret noteres, og derefter lægges kuglen tilbage inden man tager en<br />

ny kugle op. Man kan følgelig få den samme kugle op flere gange.<br />

Ved en ordnet stikprøveudtagelse lægges vægt på den rækkefølge hvori kuglerne udtages, .<br />

dvs. der er forskel på 2,1,3,5 og 3,1,2,5<br />

a) Uden tilbagelægning<br />

Eksempel 8.8. Ordnet uden tilbagelægning<br />

I en forening skal der blandt 10 kandidater vælges en bestyrelse<br />

På hvor mange forskellige måder kan man sammensætte denne bestyrelse, hvis<br />

1) Bestyrelsen består af en formand og en kasserer<br />

2 Bestyrelsen består af en formand, en næstformand, en kasserer og en sekretær.<br />

Løsning:<br />

1) En formand vælges blandt 10 kandidater 10 valgmuligheder<br />

En Kasserer vælges blandt de resterende 9 kandidater 9 valgmuligheder<br />

Da der for hvert valg af formand er 9 muligheder for kasserer, følger af multiplikationsprincippet, at det totale<br />

antal forskellige bestyrelser er 10⋅ 9 = 90 .<br />

2) Analogt fås ifølge multiplikationsprincippet at antal forskellige bestyrelser er 10987 ⋅ ⋅ ⋅ = 5040<br />

TI89: MATH Probability nPr(10,4) . Resultat: = 5040<br />

Excel: f x Statistisk PERMUT(10;4) 5040<br />

Eksempel 8.8 begrunder følgende definition<br />

Permutationer. Antal måder (rækkefølger eller “permutationer”) som m elementer kan udtages (ordnet og<br />

uden tilbagelægning) ud af n elementer er Pnm ( , ) = n⋅( n−1) ⋅( n−2)...( ⋅ ⋅ n− m+<br />

1)


8. Regneregler for sandsynlighed, Kombinatorik<br />

b) Med tilbagelægning<br />

Eksempel 8.9. Ordnet, med tilbagelægning<br />

I en forening skal 4 tillidshverv fordeles mellem 10 personer. En person kan godt have flere tillidshverv. På<br />

hvor mange forskellige måder kan disse hverv fordeles.?<br />

Løsning:<br />

Tillidshverv 1 placeres. 10 valgmuligheder<br />

Tillidshverv 2 placeres 10 valgmuligheder<br />

Tillidshverv 3 placeres 10 valgmuligheder<br />

Tillidshverv 4 placeres 10 valgmuligheder<br />

I alt (ifølge multiplikationsprincippet) 10 10 10 10 10 4<br />

⋅ ⋅ ⋅ =<br />

8.3.4. Uordnet stikprøveudtagelse<br />

Eksempel 8.10 Uordnet uden tilbagelægning<br />

En beholder indeholdende 5 kugler med numrene k1, k2, k3, k4, k5<br />

Vi udtager nu en stikprøve på 3 kugler uden tilbagelægning. Rækkefølgen kuglen tages op er<br />

uden betydning, dvs. der er ikke forskel på eksempelvis k1, k4, k2og<br />

k4, k1, k2<br />

Hvor mange forskellige stikprøver kan forekomme?<br />

Løsning:<br />

Antallet er ikke flere end man kan foretage en simpel optælling:<br />

k , k , k , k , k , k k , k , k k , k , k k , k , k k , k , k k , k , k k , k , k k3, k , k<br />

{ } { }{ }{ }{ }{ }{ }{ }{ }<br />

1 2 3 1 2 4 1 2 5 1 3 4 1 3 5 2 3 4 2 3 5 2 4 5 4 5<br />

Antal stikprøver = 10<br />

Det er klart, at ren optælling er uoverkommeligt, hvis mængden er stor.<br />

Definition af kombination<br />

Lad M være en mængde med n elementer.<br />

En kombination af r elementer fra M er et udvalg af r elementer udtaget af M uden at tage<br />

hensyn til rækkefølgen af elementer<br />

⎛n<br />

Antallet af kombinationer med r elementer betegnes K(n,r) eller ⎜ (n over r).<br />

⎝r<br />

⎞<br />

⎟<br />

⎠<br />

Sætning 8.1 (Antal kombinationer).<br />

Antal kombinationer med r elementer fra en mængde på n elementer er Knr<br />

86<br />

n!<br />

( , ) =<br />

r!( ⋅ n−r)! Bevis: Beviset knyttes for enkelheds skyld til et taleksempel, som let kan generaliseres.<br />

Lad os antage, vi på tilfældig måde udtager 3 kugler af en kasse, der indeholder 5 kugler med numrene<br />

k1, k2, k3, k4, k5.<br />

5!<br />

Vi skal nu vise, at k( 53 ,) =<br />

3! ⋅2!<br />

Lad os først gå ud fra, at rækkefølgen hvori kuglerne trækkes er af betydning, Der er altså eksempelvis forskel på k1, k3, k4<br />

og k , k , k . Dette kan gøres på P(5,3) = 5⋅4⋅3 måder.<br />

3 1 4


87<br />

8.4 Kombinatorik<br />

Hvis de 3 kugler udtages, så rækkefølgen ikke spiller en rolle, har vi vedtaget, det kan gøres på K(5,3) måder. Lad<br />

en af disse måder være k1, k3, k4.<br />

Disse 3 elementer kan ordnes i rækkefølge på 3! = 3⋅2⋅1måder. P(,)<br />

53<br />

543 54321 5!<br />

Vi har følgelig, at P(,) 53 = K(,) 53 ⋅3! ⇔ K(,)<br />

53 = ⇔ K(,)<br />

53 =<br />

3!<br />

3!<br />

3! 2!<br />

3! 2!<br />

⋅ ⋅ ⋅ ⋅ ⋅ ⋅<br />

= =<br />

⋅ ⋅<br />

Eksempel 8.11. Antal kombinationer<br />

I en forening skal der blandt 10 kandidater vælges 4 personer til en bestyrelse<br />

På hvor mange forskellige måder kan man sammensætte denne bestyrelse?<br />

Løsning:<br />

Antal måder man kan sammensætte bestyrelsen er<br />

10!<br />

10987 ⋅ ⋅ ⋅<br />

K(10,4) = = = 10⋅3⋅ 7 = 210 måder<br />

4! ⋅6!<br />

4!<br />

TI89: MATH Probability nCr(10,4) . Resultat: = 210<br />

Excel: f x Matematik og trig KOMBIN(10;4) 210


8. Regneregler for sandsynlighed, Kombinatorik<br />

OPGAVER<br />

Opgave 8.1<br />

I en mindre by viser en undersøgelse, at 60% af alle husstande holder en lokal avis, mens 30%<br />

holder en landsdækkende avis. Endvidere holder 10% af husstandene begge aviser.<br />

Lad en husstand være tilfældig udvalgt, og lad A være den hændelse, at husstanden holder en<br />

lokal avis, og B den hændelse, at husstanden holder en landsdækkende avis.<br />

Beregn sandsynlighederne for følgende hændelser.<br />

C: Husstanden holder begge aviser .<br />

D: Husstanden holder kun den lokale avis.<br />

E: Husstanden holder mindst én af aviserne.<br />

F: Husstanden holder ingen avis<br />

G: Husstanden holder netop én avis.<br />

Opgave 8.2<br />

1) I figur 1 er vist et elektrisk apparat, som kun fungerer, hvis enten alle komponenter 1a, 1b og<br />

1c i den øverste ledning eller alle komponenter 2a, 2b og 2c i den nederste ledning fungerer.<br />

Sandsynligheden for at hver komponent fungerer er vist på tegningen, og det antages, at<br />

sandsynligheden for at en komponent fungerer er uafhængig af om de øvrige komponenter<br />

fungerer.<br />

88<br />

1) Hvad er sandsynligheden for at apparatet<br />

i figur 1 fungerer.<br />

2) I figur 2 er vist et andet elektrisk apparat,<br />

som tilsvarende kun fungerer, hvis alle de<br />

tre kredsløb I, II og III fungerer, og det er<br />

kun tilfældet hvis enten den øverste eller<br />

den nederste komponent fungerer.<br />

Hvad er sandsynligheden for at apparatet<br />

i figur 2 fungerer.


89<br />

Opgaver til kapitel 8<br />

Opgave 8.3<br />

Tre skytter skyder hver ét skud mod en skydeskive. De har træfsandsynligheder 0.75, 0.50 og<br />

0.30.<br />

Beregn sandsynligheden for<br />

1) ingen træffere, 2) én træffer, 3) to træffere, 4) tre træffere.<br />

Opgave 8.4<br />

En “terning” har form som et regulært polyeder med 20 sideflader. På 4 sideflader er der skrevet<br />

1, på 8 sideflader er der skrevet 6 mens der er skrevet 2, 3 , 4 og 5 på hver 2 sideflader.<br />

Find sandsynligheden for i tre kast med denne terning at få<br />

1) tre seksere<br />

2) mindst én sekser<br />

3) enten tre seksere eller tre enere<br />

Opgave 8.5<br />

Fire projektgrupper på en virksomhed antages at have sandsynlighederne 0.6, 0.7, 0.8 og 0.9 for at få succes med<br />

deres projekt. Grupperne antages at arbejde uafhængigt af hinanden. Find sandsynligheden for, at<br />

a) alle grupper får succes,<br />

b) ingen grupper får succes,<br />

c) mindst 1 gruppe får succes,<br />

d) i alt netop 1 gruppe får succes,<br />

e) i alt netop 3 grupper får succes,<br />

f) i alt netop 2 grupper får succes.<br />

Opgave 8.6<br />

En klasse med 21 elever skal under en øvelse fordeles på 5 grupper. 4 af grupperne skal være på 4 elever, og 1 gruppe<br />

skal være på 5 elever.<br />

På hvor mange måder kan fordelingen af eleverne på de 5 grupper foregå?<br />

Opgave 8.7<br />

Af en forsamling på 8 kvinder og 4 mænd skal udtages en arbejdsgruppe på 5 personer.<br />

a) Gør rede for, at gruppen kan udvælges på 448 forskellige måder, når det forlanges, at den skal bestå af højst 3<br />

kvinder og højst 3 mænd.<br />

b) Beregn antallet af måder, hvorpå gruppen kan udvælges, når det forlanges, at de 5 personer ikke alle må være af<br />

samme køn.<br />

Opgave 8.8<br />

a) Bestem det antal måder, hvorpå bogstaverne A, B og C kan stilles rækkefølge.<br />

b) Samme opgave for A, B, C og D.<br />

Opgave 8.9.<br />

På et spisekort er opført 6 forretter, 10 hovedretter og 4 desserter.<br />

1) Hvor mange forskellige middage bestående enten af forret og hovedret eller af hovedret og dessert kan man<br />

sammensætte.<br />

2) Hvor mange forskellige middage bestående af en forret, en hovedret og en dessert kan man sammensætte.<br />

Opgave 8.10<br />

Bestem antallet af 5-cifrede tal, der kan skrives med to l-taller, et 2- tal og to 3-taller.


8. Regneregler for sandsynlighed, Kombinatorik<br />

Opgave 8.11<br />

En virksomhed fremstiller en bestemt slags apparater. Hvert apparat er sammensat af 5 komponenter. Heraf er 3<br />

tilfældigt udvalgt blandt komponenter af typen a og 2 blandt komponenter af typen b. Det vides, at 10% af akomponenterne<br />

er defekte og 20% af b-komponenterne er defekte. Et apparat fungerer hvis og kun hvis det ikke<br />

indeholder nogen defekt komponent.<br />

Der udtages på tilfældig måde et apparat fra produktionen. Lad os betragte hændelserne:<br />

A: Det udtagne apparat indeholder mindst 1 defekt a-komponent.<br />

B: Det udtagne apparat indeholder mindst 1 defekt b-komponent.<br />

1) Find P( A), P( B)<br />

og P( A∩B) .<br />

2) Find sandsynligheden for, at et apparat, der på tilfældig måde udtages af produktionen ikke fungerer.<br />

3) Et apparat udtages på tilfældig måde fra produktionen og det konstateres ved afprøvning at det ikke fungerer. Find<br />

sandsynligheden for, at apparatet ikke indeholder nogen defekt a-komponent.<br />

Opgave 8.12<br />

En test består af 40 spørgsmål, der alle skal besvares med ,'ja'. 'nej' og 'ved ikke'. På hvor mange forskellige måder<br />

kan prøven besvares?<br />

Opgave 8.13<br />

I en virksomhed skal der installeres et kaldesystem. I hvert lokale<br />

opsættes et batteri af n lamper, og hver af de ansatte har sin bestemte<br />

lampekombination.<br />

1) Hvis n = 5, hvor mange ansatte kan da have deres eget kaldesystem<br />

(se figuren)<br />

2) Hvis virksomheden har 500 ansatte, hvor stor skal n så være.<br />

Opgave 8.14<br />

Normale personbilers indregistreringsnumre består af to bogstaver og et nummer mellem 20000 og 59999 .<br />

Lad os antage, at man er nået til numre der begynder med UV. Et eksempel på en nummerplade er da UV 54755<br />

Hvad er sandsynligheden for, at en nyindregistreret bil får et registreringsnummer med lutter forskellige cifre, når<br />

vi antager, at alle cifre har samme sandsynlighed?<br />

Opgave 8.15<br />

Hvor mange forskellige telefonnumre på 8 cifre kan man danne, når første ciffer ikke må være nul?<br />

90


91<br />

9.2 Hypergeometrisk fordeling<br />

9. VIGTIGE DISKRETE FORDELINGER<br />

9.1 INDLEDNING<br />

Vi vil i dette kapitel betragte diskrete stokastiske variable, hvis værdier er hele tal.<br />

Vi vil især behandle de diskrete fordelinger:<br />

“Den hypergeometriske fordeling”, “Binomialfordelingen” og “Poissonfordelingen”<br />

9.2 HYPERGEOMETRISK FORDELING<br />

Den “hypergeometriske fordeling”, finder bl.a. anvendelse ved kvalitetskontrol af varepartier<br />

(jævnfør eksempel 9.2), ved markedsundersøgelser, hvor man uden tilbagelægning udtager en<br />

repræsentativ stikprøve på eksempelvis 500 personer<br />

I det følgende eksempel “udledes” formlen for den hypergeometriske fordeling.<br />

Eksempel 9.1. Hypergeometrisk fordeling<br />

I en forening skal der blandt 5 kvindelige og 8 mandlige kandidater vælges en bestyrelse på 4<br />

personer. Find sandsynligheden for, at der er netop 1 kvinde i bestyrelsen..<br />

Løsning:<br />

X = antal kvinder i bestyrelsen<br />

At der skal være netop 1 kvinde i bestyrelsen forudsætter, at vi udtager 1 kvinde ud af de 5<br />

kvinder og 3 mænd ud af de 8 mænd.<br />

At udtage 1 kvinde ud af 5 kvinder kan gøres på K(5,1) måder<br />

At udtage 3 mænd ud af 8 mænd kan gøres på K(8,3) måder.<br />

Antal gunstige udfald er ifølge multiplikationsprincippet K(5,1) ⋅K(8,3)<br />

Det totale antal udfald fås ved at udtage 4 personer ud af de 13 kandidater<br />

Dette kan gøres på K(13,4) måder.<br />

K(,) 51 ⋅ K(,)<br />

83<br />

P( X = 1)<br />

=<br />

K(<br />

13, 4)<br />

TI-89: Vælg MATH\Probability\nCr nCr(5,1) ⋅ nCr(8,3)/nCr(13,4) =0.3916<br />

Excel: Vælg f x Matematik og trig KOMBIN(5;1)*KOMBIN(8;3)/KOMBIN(13;4) =0,391608<br />

Karakteristisk for en hypergeometrisk fordeling er, at elementerne i udfaldsrummet (kugler i en<br />

beholder) kan opdeles i to grupper.<br />

En opdeling kunne som i eksempel 9.1 være kvinder og mænd eller som i kvalitetskontrol være<br />

i defekte varer og ikke-defekte varer.


9. Vigtige diskrete fordelinger<br />

Lad os antage, at vi har en beholder med N kugler, hvoraf de M er røde og resten har en anden<br />

farve.<br />

Der udtrækkes en stikprøve på n kugler uden tilbagelægning.<br />

Lad X være antallet af røde kugler blandt de n kugler.<br />

X er hypergeometrisk fordelt med parametrene N, M, n (kort skrevet h(N,M,n))<br />

P(X = x) er sandsynligheden for at netop x kugler er røde blandt de n udtrukne kugler.<br />

X siges at være hypergeometrisk fordelt med parametrene N, M, n (kort skrevet h(N,M,n))<br />

hvor<br />

K( M, x) ⋅K( N − M, n−x) PX ( = x)<br />

=<br />

K( N, n)<br />

Formlen udledes på samme måde som det skete i eksempel 9.1<br />

Sætte x = 0, 1, 2, ... finder vi forskellige værdier af tæthedsfunktionen.<br />

I “Supplement til statistiske <strong>grundbegreber</strong>” afsnit 9A bevises, at den hypergeometriske fordeling<br />

N − n<br />

har middelværdien E( X) = n⋅ p og spredningen σ ( X) = n⋅ p⋅( 1−<br />

p) ⋅ , hvor p .<br />

N − 1<br />

M<br />

=<br />

N<br />

Eksempel 9.2: Hypergeometrisk fordeling h (10, 6, 3 ).<br />

I en urne findes 10 kugler, hvoraf 6 er sorte, 4 er hvide.<br />

Vi betragter det tilfældige eksperiment: "Udtrækning af en kugle og observation af farven på<br />

kuglen”. Eksperimentet gentages 3 gange, idet den udtrukne kugle ikke lægges tilbage mellem<br />

hver udtrækning.<br />

Lad X betegne antallet af udtrukne sorte kugler.<br />

Find og skitser tæthedsfunktionen for X, og beregn middelværdi og spredning for X.<br />

LØSNING:<br />

X er en diskret stokastisk variabel, der som er hypergeometrisk fordelt h (10, 6, 3) med<br />

tæthedsfunktionen f (x) = P(X = x):<br />

⎧ K( 60 , ) ⋅ K(<br />

43 , ) 4<br />

⎪<br />

= = 0. 033 for x = 0<br />

K(<br />

10, 3)<br />

120<br />

⎪<br />

⎪<br />

K(,) 61 ⋅ K(,)<br />

42 36<br />

= = 0. 300 for x = 1<br />

⎪ K(<br />

10, 3)<br />

120<br />

⎪<br />

f ( x) = P( X = x)<br />

= ⎨ K( 62 , ) ⋅ K(<br />

41 , ) 60<br />

⎪<br />

= = 0500 . for x = 2<br />

K(<br />

10, 3)<br />

120<br />

⎪<br />

K( 63 , ) ⋅ K(<br />

40 , ) 20<br />

⎪<br />

= = 0167 . for x = 3<br />

⎪ K(<br />

10, 3)<br />

120<br />

⎩⎪<br />

0<br />

ellers<br />

Stolpediagram for h (10, 6, 3).<br />

92


Sættes p er middelværdien og<br />

M<br />

= =<br />

N<br />

6<br />

E( X) = n⋅ p=<br />

3⋅ = .<br />

10<br />

6<br />

10 18<br />

N − n<br />

N − 1<br />

⎛<br />

3 ⎜<br />

⎝<br />

6<br />

10 1<br />

spredningen σ ( X) = n⋅ p⋅( 1−<br />

p) ⋅ = ⋅ ⋅ − = 0.748<br />

93<br />

6 ⎞ 10 − 3<br />

⎟ ⋅<br />

10⎠<br />

10 − 1<br />

9.2 Hypergeometrisk fordeling<br />

Den hypergeometriske fordeling finder bl.a. anvendelse i kvalitetskontrol, hvilket følgende<br />

eksempel viser.<br />

Eksempel 9.3: Stikprøveudtagning (kvalitetskontrol)<br />

En producent fabrikerer komponenter, som sælges i æsker med 600 komponenter i hver.<br />

Som led i en kvalitetskontrol udtages hvert kvarter tilfældigt en æske produceret indenfor de<br />

sidste 15 minutter, og 25 tilfældigt udvalgte komponenter i denne undersøges, hvorefter det<br />

foregående kvarters produktion godkendes, såfremt der højst er én defekt komponent i stikprøven.<br />

Hvor stor er acceptsandsynligheden p, hvis æsken indeholder i alt 10 defekte komponenter,<br />

såfremt udtrækningen sker uden mellemliggende tilbagelægninger ?<br />

Løsning:<br />

X = antal defekte blandt de 25 komponenter<br />

Da partiet godkendes, hvis der enten er 0 defekte eller 1 defekt, følger af additionssætningen at<br />

p = P (X = 0) + P (X = 1).<br />

Hændelsen "X = 0" forudsætter, at vi i alt udtager 0 af de 10 defekte og 25 forskellige af de 590<br />

K( 10, 0) ⋅ K(<br />

590, 25)<br />

ikke-defekte, dvs. P( X = 0)<br />

=<br />

= 06512 . .<br />

K(<br />

600, 25)<br />

Hændelsen "X = 1" forudsætter, at vi i alt udtager 1 af de 10 defekte og 24 forskellige af de 590<br />

K( 10, 1) ⋅ K(<br />

590, 24)<br />

ikke-defekte, dvs. P( X = 1)<br />

=<br />

= 0. 2876 .<br />

K(<br />

600, 25)<br />

Vi har altså p = 0.6512 + 0.2876 = 0.9388 = 93.88%.<br />

TI-89: Vælg MATH\Probability\nCr<br />

(nCr(10,0) nCr(590,25)+nCr(10,1) nCr(590,24))/nCr(600,25) = 0.9388<br />

⋅ ⋅<br />

Excel: Vælg f x Statistik HYPGEOFORDELING Udfyld menu<br />

HYPGEOFORDELING(0;25;10;600)+HYPGEOFORDELING(1;25;10;600) = 0,938876


9. Vigtige diskrete fordelinger<br />

9.3 BINOMIALFORDELING<br />

Binomialfordelingen benyttes som model for antallet af "succeser" ved n uafhængige gentagelser<br />

af et eksperiment, som hver gang har samme sandsynlighed p for "succes".<br />

Problemstillingen fremgår af følgende eksempel.<br />

Eksempel 9.4. En binomialfordelt variabel.<br />

En drejebænk producerer 1 % defekte emner.<br />

Lad X være antallet af defekte blandt de næste 5 emner der produceres.<br />

Vi ønsker at finde sandsynligheden for at finde netop 2 defekte blandt disse 5, det vil sige<br />

P( X = 2)<br />

.<br />

Løsning:<br />

Lad et eksperiment være at udtage et emne fra produktionen.<br />

Resultatet af eksperimentet har to udfald: defekt, ikke defekt.<br />

Eksperimentet gentages 5 gange uafhængigt af hinanden.<br />

Der er en bestemt sandsynlighed for at få en defekt, nemlig p = 0.01.<br />

Lad d være det udfald at få en defekt, og d være det udfald at få en fejlfri.<br />

Vi opskriver nu samtlige forløb, der giver 2 defekte ud af 5<br />

ddddd , , , ,<br />

ddddd , , , ,<br />

ddddd , , , ,<br />

ddddd , , , ,<br />

ddddd , , , ,<br />

ddddd , , , ,<br />

ddddd , , , , .<br />

ddddd , , , ,<br />

ddddd , , , ,<br />

ddddd , , , ,<br />

Da eksperimenterne gentages uafhængigt af hinanden, følger det af produktsætningen (både -og),<br />

at det første forløb må have sandsynligheden<br />

2 3<br />

0. 01⋅0. 01⋅( 1−0. 01) ⋅( 1−0. 01) ⋅( 1− 0. 01) = 0. 01 ⋅( 1−0. 01)<br />

.<br />

Det næste forløb må have sandsynligheden<br />

2 3<br />

001 . ⋅( 1−001 . ) ⋅001 . ⋅( 1−001 . ) ⋅( 1− 001 . ) = 001 . ⋅( 1−001 . )<br />

Vi ser, at alle gunstige forløb har samme sandsynlighed.<br />

Antal forløb må være lig antal måder man kan placere 2 d’er på 5 tomme pladser (eller antal<br />

måder man kan tage 2 kugler ud af en mængde på 5).<br />

Dette ved vi kan gøres på K(5,2)=10 måder (svarende til de 10 forløb).<br />

2 3<br />

Vi får følgelig, at p = K(,)<br />

52 ⋅001 . ⋅( 1− 001 . ) = 000097 .<br />

TI-89: CATALOG\F3\binomPdf(5, 0.01,2) = 0.00097<br />

Excel: Vælg f x Statistik BINOMIALFORDELING Udfyld menu BINOMIALFORDELING(2;5;0,01;0) =<br />

0,00097<br />

94


95<br />

9.3 Binomialfordelingen<br />

DEFINITION af binomialfordeling.<br />

1) Lad et tilfældigt eksperiment have 2 udfald “succes” og “fiasko”<br />

2) Lad eksperimentet blive gentaget n gange uafhængigt af hinanden, og lad<br />

sandsynligheden for succes være en konstant p<br />

Lad X være antallet af succeser blandt de n gentagelser<br />

X er en diskret stokastisk variabel med tæthedsfunktionen<br />

⎧<br />

x n−x ⎪Knx<br />

( , ) ⋅p⋅( 1− p) f ( x) = P( X = x)<br />

= ⎨<br />

⎩⎪ 0<br />

X siges at være binomialfordelt b ( n, p).<br />

for<br />

ellers<br />

x∈{ 012 , , ,..., n}<br />

I eksemplet har vi “udledt” den såkaldte binomialfordeling, som er defineret på følgende måde:<br />

SÆTNING 9.1. (middelværdi og spredning for binomialfordeling).<br />

Lad X være binomialfordelt b (n, p).<br />

Der gælder da E ( X )= n ⋅ p<br />

og σ σ ( X ) = n ⋅ p ⋅ ( 1<br />

−<br />

p<br />

)<br />

. .<br />

Bevis:<br />

Lad os betragte et eksperiment, hvor resultatet “succes” har sandsynligheden p for at ske.<br />

Lad os foretage n uafhængige gentagelser af eksperimentet. At gentagelserne er uafhængige betyder, at udfaldet<br />

af et eksperiment ikke afhænger af udfaldet af de forrige eksperimenter.<br />

Lad os betragte n stokastiske variable X1, X2,..., Xn, hvor X i = ⎧1 hvis i' te gentagelse af eksperimentet giver succes.<br />

⎨<br />

⎩0<br />

ellers<br />

Vi har E( Xi) = ∑ xi f ( xi) = 1⋅ p+ 0⋅( 1−<br />

p) = p,<br />

og<br />

i<br />

2 2 2 2<br />

V( Xi) = ∑ ( xi − µ ) f ( xi) = ( 1− p) ⋅ p+ ( 0− p) ⋅( 1− p) = p− p = p⋅( 1−<br />

p)<br />

i<br />

Idet X = X1 + X2 + ... + Xner binomialfordelt b ( n, p) fås af linearitetsreglen (kapitel 1afsnit 5), at<br />

E( X) = E( X1) + E( X2) + E( X3) + ... + E( Xn) = p+ p+ p+ ... + p= n⋅ p.<br />

Endvidere fås af kvadratreglen i kapitel 1 afsnit 5, idet vi har uafhængige gentagelser, at<br />

V( X) = V( X1) + V( X2) + ... + V( Xn) = p⋅( 1− p) + p⋅( 1− p) + ... + p⋅( 1−<br />

p)<br />

,<br />

eller V( X) = n⋅ p⋅( 1 − p)<br />

.


9. Vigtige diskrete fordelinger<br />

Eksempel 9.5: Tæthedsfunktion for binomialfordelt variabel .<br />

Lad der på to af sidefladerne på en terning være skrevet tallet 1, på to andre sideflader være<br />

skrevet tallet 2 og på de sidste to sideflader være skrevet tallet 3.Vi betragter det tilfældige<br />

eksperiment:<br />

"7 kast med en terningen og observation af det fremkomne tal.<br />

Lad X betegne antallet af toere ved de 7 kast. X antages at være binomialfordelt b( 7 ) . 1 , 3<br />

1) Angiv tæthedsfunktionen f (x) for X (3 betydende cifre), og tegn et stolpediagram for f (x).<br />

2) Find middelværdi og spredning for X<br />

En person foretager eksperimentet 11 gange, d.v.s. foretager 11 gange en serie på 7 kast med<br />

terningen. Stikprøven gav følgende resultat<br />

Antal toere i en serie 0 1 2 3 4 5 6 7<br />

Antal gange dette skete 1 2 4 3 1 0 0 0<br />

3) Giv på grundlag af stikprøven et estimat for p i binomialfordelingen.<br />

4) Giv på grundlag af stikprøven et estimat for middelværdi og spredning<br />

Løsning:<br />

x n x<br />

1) f ( x) = P( X = x) = K( , x)<br />

⋅ ⎛<br />

⎜<br />

⎝<br />

⎞<br />

−<br />

1 ⎛ ⎞<br />

7 ⎟ ⋅⎜1− ⎟<br />

3⎠<br />

⎝ ⎠<br />

1<br />

3<br />

TI89: binomPdf(7,1/3,x) x = 0 og derefter x = 1 osv.<br />

Excel:BINOMIALFORDELING(0;7;1/3;0), og derefter BINOMIALFORDELING( 1;7;1/3;0) osv.<br />

⎧0059<br />

. for x = 0<br />

⎪<br />

⎪<br />

205<br />

⎪0307<br />

.<br />

⎪<br />

⎪0.<br />

256<br />

⎪<br />

f ( x) = P( X = x)<br />

= ⎨0128<br />

.<br />

⎪0.<br />

038<br />

⎪<br />

⎪0.<br />

006<br />

⎪<br />

⎪<br />

0. 000<br />

⎩⎪<br />

for<br />

for<br />

for<br />

for<br />

for<br />

for<br />

for<br />

ellers 0<br />

x = 1<br />

x = 2<br />

x = 3<br />

x = 4<br />

x = 5<br />

x = 6<br />

x = 7<br />

0<br />

Stolpediagram for binomialfordelingen<br />

2) E( X) = n⋅ p=<br />

7 ⋅ = . og<br />

1<br />

⎛ ⎞<br />

233 σ ( X) = n⋅ p⋅( 1− p)<br />

= 7⋅ ⋅⎜− ⎟ = .<br />

3<br />

⎝ ⎠<br />

1<br />

1<br />

3<br />

1<br />

125<br />

3<br />

3) Der er i alt 10 ⋅ + 21 ⋅ + 42 ⋅ + 33 ⋅ + 14 ⋅ = 23 toere i 77 kast.<br />

23<br />

Et estimat for p er p $ = = 0299 .<br />

77<br />

23<br />

4) Stikprøvens middelværdi er x = = 209 . , og stikprøvens spredning er<br />

11<br />

⎛ ⎞<br />

σ ( X) = n⋅ p⋅( 1− p)<br />

= 7⋅ ⋅⎜− ⎟ = .<br />

⎝ ⎠<br />

23 23<br />

1 121<br />

77 77<br />

96


97<br />

9.3 Binomialfordelingen<br />

Hypotesetest for binomialfordelt variabel.<br />

I kapitel 6 gennemgik vi ved en række eksempler de grundlæggende begreber for<br />

hypotesetestning for én normalfordelt variabel. Disse begreber kan uændret overføres til<br />

hypotesetestning for binomialfordelt variabel.<br />

Konfidensintervaller.<br />

Som beskrevet i appendix er det ofte muligt at approksimere med en normalfordeling.<br />

Derved fremkommer de formler som er beskrevet i appendix 4.1 punkt 5.<br />

Kan approksimationen ikke anvendes, kan man ved løsning af en passende ligning finde de<br />

eksakte grænser for konfidensintervallerne. Da det er ret besværligt, foretrækkes så vidt muligt<br />

(selv i statistikprogrammer) at anvende approksimationen med normalfordelingen.<br />

De følgende to eksempler viser anvendelser heraf.<br />

Eksempel 9.6. Ensidet binomialfordelingstest.<br />

En levnedsmiddelproducent fremstiller et levnedsmiddel A, som imidlertid har en ret ringe<br />

holdbarhed. Efter en række eksperimenter lykkedes det at frembringe et produkt B, som i alt<br />

væsentligt er identisk med A, men som har en bedre holdbarhed. Af markedsmæssige grunde er<br />

det vigtigt, at der ikke er forskel på smagen af B og af det velkendte produkt A. For at undersøge<br />

dette, lader producenten et panel af 24 ekspertsmagere vurdere, om man kan smage forskel. Man<br />

foretog derfor følgende smagsprøvningseksperiment.<br />

Hver ekspertsmager fik 3 ens udseende portioner, hvoraf en portion var af det ene levnedsmiddel<br />

og de to andre portioner var af det andet levnedsmiddel.<br />

Hvilket af de 3 portioner der skulle indeholde et andet levnedsmiddel end de to andre, og om det<br />

skulle være levnedsmiddel A eller B , afgjordes hver gang ved lodtrækning. Kun forsøgslederen<br />

havde kendskab til resultatet.<br />

Hver ekspertsmager fik besked på, at de skulle fortælle forsøgslederen hvilken af de tre portioner<br />

der smagte anderledes. Hvis man ikke kunne smage forskel, skulle man gætte.<br />

Resultatet viste, at af de 24 svar var 13 svar rigtige.<br />

1<br />

Ved ren gætning kunne man forvente ca. 3 dvs. ca. 8 rigtige svar. 13 rigtige svar er betydeligt<br />

flere, men kan det alligevel tilskrives tilfældigheder ved gætning?<br />

Kan der på et signifikansniveau på 5% statistisk påvist, at ekspertsmagerne kan smage forskel<br />

på smagen af A og B?<br />

Løsning:<br />

Lad X = antallet af rigtige svar.<br />

X er binomialfordelt b (n, p), hvor n = 24 og p er ukendt.<br />

1<br />

Nulhypotese H0: p = mod den alternative hypotese Hp : ><br />

3<br />

1<br />

3<br />

TI89: P - værdi = P( X ≥ 13)<br />

= binomCdf(24, 1/3, 13, 24) = 0.0284 = 2.84%<br />

Excel: P - værdi = 1− P( X ≤12)<br />

= 1-BINOMIALFORDELING(12;24;1/3;1) = 0,028441<br />

Da P - værdi < 5% forkastes nulhypotesen (enstjernet), dvs. der må konkluderes, at der er en<br />

smagsforskel mellem produkt A og B.


9. Vigtige diskrete fordelinger<br />

Eksempel 9.7. Konfidensinterval for parameteren p i binomialfordeling.<br />

En plastikfabrik har udviklet en ny type affaldsbeholdere. Man overvejer at give en 6 års garanti<br />

for holdbarheden. For at få et skøn over om det er økonomisk rentabelt, bliver 100 beholdere<br />

udsat for et accelereret livstidstest som simulerer 6 års brug af beholderne. Det viste sig, at af de<br />

100 beholdere overlevede de 85 testen.<br />

Idet antallet af overlevende beholdere antages at være binomialfordelt, skal man<br />

1) Angive et estimat for sandsynligheden p for at en beholder “overlever” i 6 år .<br />

2) Angive et 95% konfidensinterval for p.<br />

Løsning:<br />

1) Lad X være antallet af “overlevende” beholdere.<br />

X forudsættes binomialfordelt b (100, p).<br />

Appendix 4.1 punkt 5 anvendes. Et estimat for p er ~ x 85<br />

p = = = 085 .<br />

n 100<br />

2) Da 10 ≤ x ≤n−10 er forudsætningerne for at benytte normalfordelingsapproksimation opfyldt.<br />

Vi får:<br />

~<br />

~ p⋅( 1−<br />

~ p)<br />

085 . ⋅( 1−085 . )<br />

p ± u α ⋅<br />

= 085 . ± 196 . ⋅<br />

= 085 . ± 007 .<br />

− n<br />

100<br />

1 2<br />

dvs. 078 . ≤ p ≤092<br />

.<br />

TI 89 og Excel benytter denne formel, dvs. man skal altid først undersøge om forudsætningen<br />

er opfyldt.<br />

TI89: APPS\STATS/List\F7\5:1-PropZInt\ENTER<br />

Menuen udfyldes med x: 85 n: 100 C-level: 0.95 ENTER<br />

Resultat: C Int : [0.78 ; 0.92 ]<br />

Excel:<br />

radius= NORMINV(0,975;0;1)*KVROD(0,85*(1-0,85)/100) 0,069985<br />

Nedre grænse 0,85-I3 0,780015<br />

Øvre grænse 0,85+I3 0,919985<br />

Eksakt løsning:<br />

Er betingelsen ikke opfyldt (eller vil man have det “eksakte” resultat) benyttes formel i appendix 4.1 nr 6.<br />

Øvre grænse: Løs ligningen P( X ≤ 85)<br />

= 0.025 med hensyn til p.<br />

TI89: solve(binomCdf(100, p,0,85)=0.025,p) p > 0 Resultatet blev p = 0.914.<br />

Nedre grænse: Løs ligningen P( X ≥ 85)<br />

= 0.025 med hensyn til p.<br />

TI89: solve(binomCdf(100, p,85,100)=0.025,p) p > 0 Resultatet blev p = 0.765.<br />

95% Konfidensinterval: [0.765; 0.914]<br />

Bemærk, at konfidensintervallet ikke ligger helt symmetrisk omkring 0.85, da binomialfordelingen ikke er<br />

helt symmetrisk omkring 0.85<br />

Forklaring på formlen:<br />

Udenfor et 95% konfidensinterval ligger 5%, og af symmetrigrunde ligger der 2,5% på hver side. (jævnfør<br />

figuren)<br />

Jo større den sande værdi p er i forhold til 0.85 jo mindre bliver sandsynligheden for at 85 eller færre<br />

overlevede testen. Vi leder derfor i grænsen efter et p > 0.85 , så P( X ≤ 85)<br />

= 0.025.<br />

Dernæst findes nedre grænse ved at lade p falde, indtil PX ( ≥ 85) ≈ 0. 025<br />

Bestemmelse af stikprøvens størrelse<br />

98


99<br />

9.3 Binomialfordelingen<br />

Før man starter sine målinger, kunne det være nyttigt på forhånd at vide nogenlunde hvor<br />

mange målinger man skal foretage, for at få resultat med en given nøjagtighed.<br />

Hvis man antager, at man kan approksimere med normalfordelingen, ved vi, at radius for et<br />

p$ ⋅( 1−<br />

p$)<br />

95% konfidensinterval er r = u0975<br />

. ⋅<br />

.<br />

n<br />

Løses denne ligning med hensyn til n fås<br />

u<br />

n = p p<br />

r<br />

⎛ 0975 . ⎞<br />

⎜ ⎟ $ ⋅( 1−<br />

$)<br />

⎝ ⎠<br />

2<br />

Det grundlæggende problem er her, at man næppe kender $p eksakt.<br />

Man kender muligvis på basis af tidligere erfaringer størrelsesordenen af $p . Hvis ikke<br />

kunne man eventuelt udtage en lille stikprøve, og beregne et $p på basis heraf.<br />

Endelig er der den mulighed, at sætter $p = 0.5, som er maksimumsværdien af p$ ⋅( 1−<br />

p$)<br />

Benyttes denne værdi får man den størst mulige værdi af n for en given værdi af r.<br />

Ulempen er, at dette fører til en større stikprøvestørrelse end nødvendigt.<br />

Det følgende eksempel illustrerer fremgangsmåden.<br />

Eksempel 9.8. Bestemmelse af antal i stikprøve.<br />

I en opinionsundersøgelse vil man spørge et repræsentativt antal vælgere om hvilket parti de<br />

vilde stemme på, hvis der var valg i morgen.<br />

I denne undersøgelse ønskes inden udtagning af stikprøven, at antallet skal være så stort, at<br />

radius i konfidensintervallet højst er 2%.<br />

Løsning:<br />

Metode 1. For at få en øvre grænse, sættes $p = 0.5.<br />

2 2<br />

Vi får<br />

u<br />

n = p p<br />

r<br />

⎛ ⎞<br />

⎜ ⎟ ⋅ − =<br />

⎝ ⎠<br />

⎛<br />

0975 . 196 . ⎞ 1 1<br />

$ ( 1 $) ⎜ ⎟ ⋅ = 2401<br />

⎝ 002 . ⎠ 2 2<br />

Metode 2 Da man på forhånd ved, at ved sidste valg fik ingen partier mere end 30% af<br />

stemmerne sættes $p = 0.3.<br />

2 2<br />

u<br />

n = p p<br />

r<br />

⎛ ⎞<br />

⎜ ⎟ ⋅ − =<br />

⎝ ⎠<br />

⎛<br />

0975 . 196 .<br />

$<br />

⎞<br />

( 1 $) ⎜ ⎟ 03 . ⋅ 07 . = 2017<br />

⎝ 002 . ⎠


9. Vigtige diskrete fordelinger<br />

Approksimation af hypergeometrisk fordeling med binomialfordeling.<br />

At erstatte den hypergeometriske fordeling h (N, M, n) med binomialfordelingen b (n, p) vil<br />

for de fleste anvendelser kunne gøres med en passende nøjagtighed, hvis stikprøvestørrelsen n<br />

N n 1<br />

er mindre end eller lig 10% af partistørrelsen N ( n ≤ ⇔ ≤ ).<br />

10 N 10<br />

I så fald sættes i binomialfordelingen p .<br />

M<br />

=<br />

N<br />

Eksempel 9.9. Approksimation af hypergeometrisk fordeling til binomialfordeling.<br />

I eksempel 9.3, hvor man udtog 25 komponenter fra æsker på 600 komponenter, skete<br />

udtagningen logisk nok uden tilbagelægning. Imidlertid er det klart, at da æskerne indeholder<br />

mange komponenter vil sandsynligheden for at få en defekt ikke ændrer sig meget, hvis man i<br />

stedet havde foretaget udtagningen med tilbagelægning.<br />

Der blev antaget, at der var 10 defekte i en sådan æske med 600, og dette antal defekte vil så<br />

være konstant, under hver udtrækning.<br />

10 1<br />

Vi har derfor, at P(at få en defekt) = = . Betingelserne for at benytte<br />

600 60<br />

binomialfordelingen er nu til stede.<br />

Løsningen af problemet i eksempel 9.3 vil derfor nu være:<br />

TI89: pa = P( X ≤ 1) = P( X = 0) + P( X = 1)<br />

= binomCdf(25,1/60,0,1) = 0.9353<br />

Det ses, at vi får praktisk samme resultat som i eksempel 9.3.<br />

9.4 POISSONFORDELINGEN<br />

Poissonfordelinger benyttes ofte som statistisk model for antallet af "impulser" pr. tidsenhed.<br />

Disse impulser antages at komme tilfældigt og uafhængigt af hinanden.<br />

Som eksempler kan nævnes: Antal trafikuheld på en bestemt vejstrækning i løbet af et år,<br />

antal biler, der passerer en militær kontrolpost, antal varevogne der ankommer pr. time til et<br />

stort varehus og antal telefonsamtaler der føres fra en telefoncentral, der er oprettet under en<br />

øvelse.<br />

Modellen kan dog også anvendes på andet end pr. tidsenhed, eksempelvis også på antal<br />

revner pr. km kabel, hvis disse revner forekommer tilfældigt og uafhængigt af hinanden.<br />

Under sådanne omstændigheder kan man ofte benytte den i det følgende omtalte<br />

Poissonfordeling som statistisk model for antallet af "impulser" pr. tidsenhed eller<br />

volumenenhed eller længdeenhed osv.<br />

100


101<br />

9.4 Poissonfordelingen<br />

SÆTNING 9.2 (Poissonfordeling). Lad X være en stokastisk variabel, som angiver antallet<br />

af impulser i et givet tidsrum (eller areal, volumen, produktionsenhed osv.), idet ethvert<br />

tidspunkt i tidsrummet har samme mulighed for at være impulstidspunkt som ethvert andet<br />

tidspunkt. Endvidere skal impulserne indtræffe tilfældigt og uafhængigt af hinanden * ) .<br />

Hvis det gennemsnitlige antal impulser i tidsrummet er µ > 0 , så siges X at være<br />

Poissonfordelt p ( µ ) med sandsynlighedsfordelingen (tæthedsfunktionen) f(x) = P(X = x)<br />

bestemt ved<br />

⎧ x<br />

⎪<br />

µ − µ<br />

f ( x) = P( X = x) =<br />

⋅e for x ∈{,,,...}<br />

012<br />

⎨ x!<br />

⎩<br />

⎪ 0 ellers<br />

Middelværdien for p( µ ) er E ( X ) = µ og spredningen er σ ( X ) = µ .<br />

I formuleringen af de ovennævnte betingelser kan efter behov "et lille tidsrum ∆ t" erstattes<br />

med "en lille længde ∆ l ", "et lille areal ∆ A" eller "et lille volumen ∆ V".<br />

*) Præcis formulering: Følgende 3 betingelser skal være opfyldt:<br />

1) Sandsynligheden for netop én impuls i et meget lille tidsrum ∆ t er med tilnærmelse proportional med ∆ t<br />

.<br />

P( X = 1)<br />

(Matematisk formulering lim = λ ( λ er en positiv konstant)<br />

∆t→0 ∆t<br />

2) Sandsynligheden for 2 eller flere impulser i det meget lille tidsrum ∆ t er lille sammenlignet med ∆ t .<br />

P( X > 1)<br />

(Matematisk formulering lim = 0 )<br />

∆t→0 ∆t<br />

3) Antal impulser i forskellige, ikke overlappende tidsrum er statistisk uafhængige.<br />

En bevisskitse for sætningen kan ses i “Supplement til statistiske <strong>grundbegreber</strong>” afsnit<br />

9.C.<br />

Eksempel 9.10: Antal revner p. meter i et tyndt kobberkabel.<br />

På en fabrik fremstilles kobberkabler af en bestemt tykkelse. Mikroskopiske revner<br />

forekommer tilfældigt langs disse kabler. Man har erfaring for, at der i gennemsnit er 12.3 af<br />

den type revner p. 10 meter kabel.<br />

Beregn sandsynligheden for, at der<br />

1) ingen ridser er i 1 meter tilfældigt udvalgt kabel.<br />

2) er mindst 2 ridser i 1 meter tilfældigt udvalgt kabel.<br />

3) er højst 4 ridser i 2 meter tilfældigt udvalgt kabel<br />

Fabrikken går nu over til en anden og billigere produktionsmetode. For at få et estimat for<br />

middelværdien ved den nye metode måltes antallet af revner på 12 kabelstykker på hver 10<br />

meter.<br />

Resultaterne var<br />

Kabel nr. 1 2 3 4 5 6 7 8 9 10 11 12<br />

Antal revner 8 4 14 6 8 10 10 16 2 2 6 8<br />

4) Angiv på basis heraf et estimat for middelværdien af antal revner pr. 10 m kabel.


Vigtige diskrete fordelinger<br />

Løsning:<br />

X = antal revner i 1 meter kabel.<br />

X antages Poissonfordelt p ( µ ). (idet vi med tilnærmelse kan antage, at betingelserne i<br />

sætning 9.2 er opfyldt (impuls er her ridser).<br />

12. 3<br />

Da det gennemsnitlige antal revner pr. 1m kabel er µ = = 123 . fås:<br />

10<br />

0<br />

123 . −123<br />

.<br />

1) P( X = 0)<br />

= ⋅ e = 0. 292 .<br />

0!<br />

TI89: PoissPdf(1.23,0) = 0.292<br />

Excel: POISSON(0;1,23;0) =0,292293<br />

2) TI-89: P( X ≥ 2) = 1− P( X ≤ 1)<br />

= 1-PoissCdf(1.23, 0, 1) = 0.3482<br />

Excel: P( X ≥ 2) = 1− P( X ≤ 1)<br />

= 1 - POISSON(1;1,23;1) = 0,348188<br />

3) Y = antal revner i 2 meter kabel.<br />

Da der i gennemsnit er 2,46 revner i 2 meter kabel, er 2.46 et estimat for µ .<br />

Vi har derfor TI89: = poissCdf(2.46, 0, 4) = 0.8965<br />

P( X ≤ 4)<br />

Excel: P( X ≤ 4)<br />

=POISSON(4;2,46;1) = 0,896458<br />

4) Der er i alt 94 revner i 12 kabelstykker på hver 10 meter. Et estimat for µ er derfor<br />

~ 94<br />

µ = = 783 . .<br />

12<br />

Hypotesetest for Poissonfordelt variabel.<br />

I kapitel 5 gennemgik vi ved en række eksempler de grundlæggende begreber for<br />

hypotesetestning for én normalfordelt variabel. Disse begreber kan uændret overføres til<br />

hypotesetestning for Possonfordelt variabel.<br />

Har man rådighed over en lommeregner med kumuleret Poissonfordeling kan testene<br />

gennemføres eksakt. (se appendix 5.5)<br />

Konfidensintervaller.<br />

Som beskrevet i næste afsnit er det ofte muligt at approksimere med en normalfordeling.<br />

Derved fremkommer de formler som er beskrevet i appendix 4.1 punkt 5.<br />

Eksempel 9.11. Ensidet Poissontest.<br />

I eksempel 9.8 betragtede vi mikroskopiske revner i et kobberkabel. Fabrikken gik over til en<br />

anden og billigere produktionsmetode.<br />

1) Test, om den nye metode giver færre revner end den gamle metode.<br />

2) Forudsat, den nye metode giver signifikant færre revner end den gamle metode, skal man<br />

2a) Angiv et 95% konfidensinterval for middelværdien µ af antal revner pr. 120 meter<br />

kabel .<br />

2b) Angiv et 95% konfidensinterval for middelværdien µ 1 af antal revner pr. 10 meter<br />

kabel.<br />

102


103<br />

9.6 Polynomialfordelingen<br />

Løsning:<br />

1) Lad X betegne antallet af revner i 120 meter kabel ved ny metode<br />

X antages Poissonfordelt p( µ ) , hvor vi i eksempel 9.8 fandt at et estimat for µ var<br />

~<br />

µ = 94 .<br />

Ved gammel metode er antal revner i 120 m kabel i middel 12. 3⋅ 12 = 147. 6<br />

Nulhypotese H0: µ = 147. 6 mod den alternative hypotese H: µ < 147. 6 .<br />

TI89:P - værdi = PY ( ≤ 94)<br />

= PoissCdf(147.6, 0 , 94) = 0.000002<br />

Excel:P - værdi = PY ( ≤ 94)<br />

= Poisson(94;147,6;1) = 1,52403E-06<br />

Da P - værdi < 0.05 forkastes nulhypotesen (stærkt) ,dvs. vi er sikre på, at middelantallet af<br />

revner er blevet formindsket ved at anvende den nye metode<br />

2a) Idet m= 94>10 kan formel 6 i appendix 4.1 anvendes.<br />

Antal revner pr 120 m kabel:<br />

Idet<br />

94<br />

x = = 94<br />

1<br />

er et 95% konfidensinterval for µ<br />

x ± u0.<br />

975 ⋅<br />

x<br />

= 94 ± 196 . ⋅<br />

n<br />

94<br />

1<br />

2b) Antal revner pr 10 m kabel:<br />

⎡75<br />

113⎤<br />

⎢ ; [ 625 . ; 941 . ]<br />

⎣12<br />

12 ⎥<br />

⎦<br />

=<br />

. [75 ; 113].<br />

9.5 Den generaliserede hypergeometriske fordeling.<br />

Den hypergeometriske fordeling benyttes som model ved stikprøveudtagning uden tilbagelægning, hvor hvert<br />

element har enten en bestemt egenskab (defekt) eller ikke har denne egenskab (ikke defekt). Hvis der foreligger<br />

flere end to egenskaber, f.eks. udtagning af møtrikker, hvis diameter enten tilhører et givet toleranceinterval eller<br />

er for stor eller for lille, kan man generalisere den hypergeometriske fordeling. Dette illustreres ved følgende<br />

eksempel:<br />

Eksempel 9.12. Generaliseret hypergeometrisk fordeling.<br />

I en urne findes 12 kugler, hvoraf 5 er sorte, 4 er hvide og 3 er røde.<br />

Vi betragter det tilfældige eksperiment: "Udtrækning af 6 kugler uden tilbagelægning og observation af farven<br />

på kuglerne”. Beregn sandsynligheden for at få 2 sorte, 3 hvide og 1 rød kugle.<br />

LØSNING:<br />

Lad X1 være antallet af sorte kugler, X2 være antallet af hvide kugler og X3 være antallet af røde kugler.<br />

Analogt med begrundelsen for den hypergeometriske fordeling fås:<br />

K(,) 52 ⋅K(,) 43 ⋅K(,)<br />

31 10⋅ 4 ⋅ 3<br />

P( X1 = 2, X2 = 3, X3<br />

= 1)<br />

=<br />

= =<br />

013 .<br />

K(<br />

12, 6)<br />

924


Vigtige diskrete fordelinger<br />

9.6 Polynomialfordelingen.<br />

Binomialfordelingen benyttes som model ved uafhængige gentagelser af samme eksperiment. Eksperimentet har<br />

to udfald succes eller ikke succes og der er en konstant sandsynlighed for succes. Hvis der foreligger flere end to<br />

udfald, f.eks. udtagning af møtrikker fra en løbende produktion, hvor diameter enten tilhører et givet<br />

toleranceinterval eller er for stor eller for lille, kan man generalisere til polynomialfordelingen. Idet formlen for<br />

binomialfordelingen kan skrives<br />

n x n x n!<br />

x n x n!<br />

x x<br />

f ( x)<br />

= p ( p)<br />

p ( p)<br />

p p , hvor<br />

x<br />

x!( n x)!<br />

x ! x !<br />

⎛<br />

⎜<br />

⎝<br />

⎞<br />

− −<br />

1 2<br />

⎟ ⋅ ⋅ 1− =<br />

⋅ ⋅ 1−<br />

= ⋅ 1 ⋅ 2<br />

⎠<br />

⋅ −<br />

⋅<br />

p1 + p2<br />

= 1 og x1 + x2 = n fås analogt<br />

104<br />

1 2<br />

DEFINITION af polynomialfordeling.<br />

p1 + p2+ ... + pk= 1 x + x + ... + x = n<br />

Lad n være et positivt helt tal, og lad og hvor alle pér er positive tal<br />

1 2<br />

og alle xér er hele tal.<br />

Sandsynlighedsfordelingen for en polynomialfordelt stokastisk variabel er<br />

( X1, X2,..., Xk) n!<br />

x1 x2<br />

P( X1 = x1, X2 = x2,..., Xk = xk)<br />

=<br />

p1 ⋅ p2 ⋅... ⋅p<br />

x ! ⋅x ! ⋅... ⋅x<br />

!<br />

1 2<br />

Dette illustreres ved følgende eksempel:<br />

Eksempel 9.11. Polynomialfordelingen<br />

En stor produktion af glaskugler indeholder 40% sorte, 35% hvide og 25% røde kugler.<br />

Vi betragter det tilfældige eksperiment: "Udtrækning af 6 kugler observation af farven på kuglerne”.<br />

Beregn sandsynligheden for at få 2 sorte, 3 hvide og 1 rød kugle.<br />

LØSNING:<br />

Lad X1 være antallet af sorte kugler, X2 være antallet af hvide kugler og X3 være antallet af røde kugler.<br />

6!<br />

2 3 1<br />

Vi får nu P( X1 = 2, X2 = 3, X3<br />

= 1)<br />

= 0. 4 ⋅0. 35 ⋅ 0. 25 = 01029 .<br />

2! ⋅3! ⋅1!<br />

9.7 APPROKSIMATIONER<br />

Vi har undertiden benyttet os af, at det under visse forudsætninger er muligt med en rimelig<br />

nøjagtighed, at foretage approksimationer, f.eks. at approksimere en binomialfordeling eller<br />

en Poissonfordeling med en normalfordeling.<br />

Dette kan give nogle simplere beregninger, eksempelvis når man approksimerer en<br />

hypergeometrisk fordeling med en binomialfordeling eller når man ved udregning af<br />

konfidensintervaller for binomialfordeling approksimerer med normalfordeling.<br />

I appendix 9.1 er angivet en samlet oversigt over de mulige approksimationer.<br />

k<br />

k<br />

xk k


9.8. OVERSIGT over centrale formler i kapitel 9<br />

9.8 Oversigt over centrale formler i kapitel 9<br />

X er binomialfordelt bnp ( , ) , hvor n er kendt og p ukendt. Givet stikprøveværdi x<br />

Konfidensinterval<br />

Forudsætninger Estimat for parameter 100 (1 - α ) % konfidensinterval for parameter<br />

10 ≤ x ∧<br />

x ≤n−10 For p: ~ p =<br />

x<br />

n<br />

~ p − u ⋅<br />

105<br />

~ p( 1−~ p)<br />

~<br />

~<br />

p( 1−~<br />

p)<br />

≤ p ≤ p + u ⋅<br />

n<br />

n<br />

α α<br />

1− 1− 2<br />

2<br />

TI89: F7: 1-prop Z-interval<br />

Excel: Se eksempel 9.7<br />

eksakt α<br />

nedre grænse:Løs ligning P( X ≥ x)<br />

= 1− med hensyn til p.<br />

2<br />

øvre grænse: Løs ligning P( X ≤ x)<br />

= α − med hensyn til p<br />

Test af parameter p for binomialfordelt variabel<br />

Der foreligger en stikprøve på X . Observeret stikprøveværdi x. Signifikansniveau er α .<br />

Y er binomialfordelt bnp ( , ) , hvor er en given konstant.<br />

Alternativ<br />

hypotese H<br />

H p p<br />

: > 0 P Y x<br />

H: p< p0<br />

H: p p<br />

0<br />

p 0<br />

P - værdi Beregning H 0 forkastes<br />

( ≥ )<br />

TI89:binomCdf(n, p0, x, ∞ )<br />

Excel:1-Binomialfordeling(x-1;n;p,1) P-værdi < α<br />

P( Y ≤ x)<br />

TI89:binomCdf(n, p0,- ∞ , x)<br />

Excel: Binomialfordeling(x;n;p;1)<br />

P( Y ≥ x)<br />

P( Y ≤ x)<br />

x > n⋅ p0<br />

for x ≤ n⋅ p0<br />

= 0 for<br />

som række 1<br />

som række 2<br />

1 2<br />

P-værdi < 1<br />

2 α


Vigtige diskrete fordelinger<br />

X er Poissonfordelt p( µ ) , hvor µ ukendt. Stikprøve er af størrelsen n, og der optælles i alt m impulser<br />

Konfidensinterval<br />

Forudsætninger Estimat for parameter 100 (1 - α ) % konfidensinterval for parameter<br />

m ≥ 10<br />

For :<br />

µ x m<br />

= x<br />

n x − u α ⋅ ≤ µ ≤ x + u α ⋅<br />

− n<br />

−<br />

Test af parameter µ for Poissonfordelt variabel .<br />

Der foreligger en stikprøve på X af størrelsen n med gennemsnit x . Signifikansniveau er α .<br />

Y er Poissonfordelt pn ( ) , hvor er en given konstant.<br />

Alternativ<br />

hypotese H<br />

H: µ µ<br />

H: µ µ<br />

H: µ ≠ µ 0<br />

> 0 PY n x<br />

⋅ µ 0<br />

µ 0<br />

106<br />

1 2<br />

P - værdi Beregning på TI 89 H 0 forkastes<br />

( ≥ ⋅ )<br />

TI89: poissCdf ( n⋅µ 0 , n⋅x, 1000)<br />

Excel: 1-Poisson( n x -1; ;1)<br />

< 0 PY n x<br />

1 2<br />

⋅ n⋅ µ 0<br />

( ≤ ⋅ )<br />

poissCdf ( n⋅µ 0 , 0,<br />

n⋅x) Excel: Poisson( n x ; ;1)<br />

≥ ⋅µ 0<br />

< ⋅µ 0<br />

PY ( ≥n⋅x) for x n<br />

PY ( ≤n⋅x) for x n<br />

som række 1<br />

som række 2<br />

⋅ n⋅ µ 0<br />

x<br />

n<br />

P - værdi<br />

< α<br />

P-værdi < 1<br />

2 α


OPGAVER<br />

107<br />

APPENDIX 7.1<br />

Opgave 9.1<br />

Ved en lodtrækning fordeles 3 gevinster blandt 25 lodsedler. En spiller har købt 5 lodsedler.<br />

1) Beregn sandsynligheden for at spilleren vinder netop én gevinst.<br />

Lad den stokastiske variable X være bestemt ved<br />

X = Spilleren vinder x gevinster<br />

2) Find og skitser tæthedsfunktionen for X<br />

3) Beregn middelværdien for X<br />

Opgave 9.2<br />

I en urne findes 2 blå, 3 røde og 5 hvide kugler. 3 gange efter hinanden optages tilfældigt en<br />

kugle fra urnen uden mellemliggende tilbagelægning.<br />

1) Find sandsynligheden for hændelsen A, at der højst optages 2 hvide kugler,<br />

2) Find sandsynligheden for, at de tre kugler har samme farve,<br />

Opgave 9.3<br />

En fabrikant fremstiller en bestemt type radiokomponenter. Disse leveres i æsker med 30<br />

komponenter i hver æske. En køber har den aftale med fabrikanten, at hvis en æske<br />

indeholder 4 defekte komponenter eller derover, kan køberen returnere æsken, i modsat fald<br />

skal den godkendes. Køberen kontrollere hver æske ved en stikprøve, idet han af æsken<br />

udtager 10 komponenter tilfældigt. Lad X være antal defekte i stikprøven. Der overvejes nu to<br />

planer:<br />

1) Hvis X = 0, så godkendes æsken, ellers undersøges æsken nærmere.<br />

2) Hvis X ≤ 1,<br />

så godkendes æsken, ellers undersøges æsken nærmere.<br />

Hvad er sandsynligheden for, at en æske, der indeholder netop 4 defekte komponenter, bliver<br />

godkendt af køberen ved metode 1 og ved metode 2.<br />

Opgave 9.4<br />

En tipskupon har 13 kampe med 3 mulige tegn - 1, x og 2 - for hver kamp. En person<br />

bestemmer tegnet, der skal sættes for hver kamp, ved tilfældig udtrækning af en seddel fra 3<br />

sedler med tegnene henholdsvis 1, x og 2.<br />

Angiv sandsynligheden for, at personen opnår netop 8 rigtige tippede kampe på sin kupon.<br />

Opgave 9.5<br />

I et elektrisk specialapparat indgår 30 komponenter, som hver er indkapslet i et heliumfyldt<br />

hylster. Beregn, idet sandsynligheden for, at et komponenthylster lækker, er 0.2%,<br />

sandsynligheden for, at mindst ét af de 30 komponenthylstre lækker.<br />

Opgave 9.6<br />

En “sypigetipper” (M/K) deltog i tipning 42 gange i løbet af et år. På hver tipskupon var der<br />

13 kampe, ved hver af hvilke tipperen ved systematisk gætning satte et af de 3 tegn: 1, x, 2.<br />

Beregn sandsynligheden p for, at tipperen det pågældende år tippede mindst 200 kampe<br />

rigtigt.<br />

Opgave 9.7<br />

Blandt familier med 3 børn udvælges 50 familier tilfældigt. Angiv sandsynligheden for, at der<br />

i mindst 8 af disse familier udelukkede er børn af samme køn.


Vigtige diskrete fordelinger<br />

Opgave 9.8.<br />

Ved en fabrikation af plastikposer leveres disse i æsker med 100 poser i hver. Ved en<br />

godkendelseskontrol af et parti plastikposer udtages og undersøges en tilfældigt udtaget æske,<br />

og partiet godkendes, såfremt æsken højst indeholder én defekt pose.<br />

Vi antager, at den løbende produktion af poser er således, at hver produktion med<br />

sandsynligheden 2% giver en pose, der er defekt; vi vil senere formulere dette således, at<br />

produktionen er i statistisk kontrol med fejlsandsynligheden p = 2%.<br />

Hvor stor er sandsynligheden for, at partiet under disse omstændigheder accepteres?<br />

Opgave 9.9<br />

Det er oplyst, at der for en given vaccine er 80% sandsynlighed for, at den ved anvendelse har<br />

den ønskede virkning.<br />

På et hospital foretoges vaccination af 100 personer med den pågældende vaccine.<br />

Beregn sandsynligheden for, at 15 eller færre af de foretagne vaccinationer er uden virkning.<br />

Opgave 9.10<br />

En ny vaccine formodes med en sandsynlighed på mindst 85% at have en forebyggende<br />

virkning over for en bestemt influenzatype.<br />

Før en truende influenzaepedemi vaccineres et hospitalspersonale på 600 personer med den<br />

pågældende vaccine. 125 af disse bliver smittet af sygdommen.<br />

Kan dette opfattes som en eksperimentel påvisning af, at vaccinen er mindre virksom end<br />

ventet?<br />

Opgave 9.11<br />

1) Antag, at en vis type af fostermisdannelse normalt forekommer med hyppigheden 164<br />

tilfælde p. 100000 fødsler. Beregn sandsynligheden for 3 eller flere fostermisdannelser<br />

blandt 256 fødsler.<br />

2) For at undersøge om forholdene i et bestemt arbejdsmiljø forøger hyppigheden af denne<br />

type misdannelse, undersøgte man hyppigheden af misdannelser for mødre, som under<br />

graviditeten havde haft den aktuelle type af arbejde, og fandt 3 misdannelser blandt 256<br />

fødsler. Kan den forøgede relative hyppighed i dette materiale skyldes tilfældigheder?<br />

Opgave 9.12<br />

Udsættes planterne af en bestemt sort roser for meldugssmitte, bliver i middel brøkdelen p<br />

angrebet, hvor p er mindst 0.20. En rosengartner fremavler en rosenstamme, som han påstår<br />

er mere modstandsdygtig over for meldugssmitte. For at kontrollere denne påstand bliver 100<br />

roser af den nye stamme udsat for meldugssmitte. Det viser sig, at 12 roser bliver angrebet.<br />

1) Bekræfter dette resultat rosengartnerens påstand? (Husk altid at anføre: Hvad X er.<br />

Antagelser. Nulhypotese. Beregninger. Konklusion.).<br />

2) Angiv et estimat ~ p for den nye stammes p.<br />

3) Angiv et 95% konfidensinterval for den nye stammes p.<br />

108


109<br />

Opgaver til kapitel 9<br />

Opgave 9.13<br />

En fabrikant af chip til computere reklamerer med, at højst 2% af en bestemt type chip, som<br />

fabrikken sender ud på markedet er defekte.<br />

Et stort computerfirma vil købe et meget stort parti af disse chip, hvis påstanden er rigtigt. For<br />

at teste påstanden købes 1000 af dem. Det viser sig, at 33 ud af de 1000 er defekte.<br />

Kan fabrikantens påstand på denne baggrund forkastes på signifikansniveau 5% ?<br />

Opgave 9.14<br />

En producent af billigt plastiklegetøj får mange klager over at en bestemt type legetøj er<br />

defekt ved salget. Legetøjet sælges til butikkerne i kasser på 10 stk, og som et led i en<br />

kvalitetetskontrol udtages 100 kasser og antallet x af defekt legetøj optaltes. Følgende<br />

resultater fandtes:<br />

x 0 1 2 3 4 5 6<br />

Antal kasser 34 38 19 6 2 0 1<br />

Lad p være sandsynligheden for at få et defekt stykke legetøj.<br />

1) Find et estimat ~ p for p.<br />

2) Angiv et 95% konfidensinterval for p.<br />

Opgave 9.15<br />

Af 1000 tilfældigt udvalgte patienter, der led af lungekræft, var 823 døde senest 5 år efter<br />

sygdommen blev opdaget.<br />

Angiv på dette grundlag et 95% konfidensinterval for sandsynligheden for at dø af denne<br />

sygdom senest 5 år efter at sygdommen bliver opdaget.<br />

Opgave 9.16<br />

En fabrikant af lommeregnere vurderer, at ca. 1% af de producerede lommeregnere er defekte.<br />

For at få en nøjere vurdering heraf ønskes udtaget en stikprøve, der er så stor, at radius i et<br />

95% konfidensinterval for fejlprocenten p er højst 0.5%.<br />

Find stikprøvens størrelse n.<br />

Opgave 9.17<br />

Ved et køb af 100000 plastikbægre aftaltes med leverandøren, at det skal være en<br />

forudsætning for købet, at partiet godkendes ved en stikprøvekontrol.<br />

Kontrollen udøves ved, at 100 bægre udtages tilfældigt af partiet og kontrolleres. Partiet<br />

godkendes, såfremt ingen af de 100 bægre er defekte.<br />

Beregn sandsynligheden for, at partiet godkendes, hvis det i alt indeholder 250 defekte bægre.<br />

Opgave 9.18<br />

En fabrikant får halvfabrikata hjem i partier på 200000 enheder. Fra hvert parti udtages en<br />

stikprøve på 100 enheder og antallet af fejlagtige blandt disse noteres.<br />

Hvis dette antal er mindre end eller lig med 2, accepteres hele partiet; i modsat fald<br />

undersøges partiet yderligere.<br />

1) Hvad er sandsynligheden for, at et parti med en fejlprocent på 1 vil blive yderligere<br />

undersøgt.<br />

2) Hvor stor er sandsynligheden for, at et parti med en fejlprocent på 5 vil blive accepteret.


Vigtige diskrete fordelinger<br />

Opgave 9.19<br />

En maskinfabrikant påtænker at købe 100000 møtrikker af en bestemt type. Man beslutter sig<br />

til at købe et tilbudt parti af den nævnte størrelse, såfremt en stikprøve på 150 møtrikker højst<br />

indeholder 4% defekte møtrikker.<br />

1) Beregn sandsynligheden for, at partiet bliver godkendt af maskinfabrikken, såfremt det<br />

indeholder<br />

a) 4% defekte møtrikker,<br />

b) 2,5% defekte møtrikker,<br />

c) 7,5% defekte møtrikker,<br />

2) Bestem, for hvilken procentdel defekte møtrikker det ovennævnte parti (approksimativt)<br />

har 50% sandsynlighed for at blive godkendt af maskinfabrikken.<br />

Opgave 9.20<br />

På en fabrik fremstilles gulvtæpper, som har størrelsen 20 m 2 . Ved fabrikationen er der<br />

gennemsnitlig 6 vævefejl p. 100 m 2 klæde.<br />

1) Beregn sandsynligheden for, at et tilfældigt gulvtæppe ingen vævefejl har.<br />

2) Beregn sandsynligheden for, at et tilfældigt gulvtæppe højst har 2 vævefejl.<br />

Fabrikken køber en ny væv. For at få et estimat for middelværdien måltes antallet af vævefejl<br />

i 12 gulvtæpper hver på 20 m 2 . Resultaterne var<br />

Gulvtæppe nr 1 2 3 4 5 6 7 8 9 10 11 12<br />

Antal vævefejl 4 2 7 3 4 5 5 8 1 1 3 5<br />

3) Find et estimat for middelværdien af antal vævefejl p. 20 m 2 klæde.<br />

Opgave 9.21<br />

Et radioaktivt præparat undergår gennemsnitligt 100 desintegrationer (sønderdelinger) p.<br />

minut. Lad X betegne antal desintegrationer i et sekund (som er lille i forhold til præparatets<br />

halveringstid).<br />

Find P( X ≤ 1)<br />

.<br />

Opgave 9.22<br />

Ved en TV-fabrikation optælles som led i en godkendelseskontrol antal loddefejl p. 5 TVapparater.<br />

Fabrikanten ønsker at få et overblik over antal loddefejl, og optalte derfor antal<br />

loddefejl på 24 tilfældigt udtagne TV apparater. Resultatet fremgår af skemaet:<br />

Antal loddefejl 0 1 2 3 4 5 6 7 8 9<br />

Antal TV apparater 3 2 4 6 5 2 1 0 1 0<br />

Lad X være antallet af loddefejl i 5 TV apparater.<br />

1) Angiv den sandsynlighedsfordeling X approksimativt kan antages at følge, og giv et<br />

estimat for parameteren i fordelingen.<br />

2) Beregn på basis af svaret i spørgsmål 1 sandsynligheden for, at der på 5 tilfældigt udtagne<br />

TV-apparater højst er i alt 18 loddefejl?<br />

110


111<br />

Opgaver til kapitel 9<br />

Opgave 9.23<br />

På et teknisk universitet er et centralt edb-anlæg i konstant brug. Man har erfaring for, at<br />

anlægget i løbet af en 20 ugers periode har gennemsnitligt 7 maskinstop.<br />

Beregn sandsynligheden p for, at anlægget i en 4 ugers periode har mindst ét maskinstop.<br />

Opgave 9.24<br />

På en fabrik indtræffer i gennemsnit 72 ulykker om året. Antag, at de forskellige ulykker<br />

indtræffer uafhængigt af hinanden, og at de er nogenlunde jævnt fordelt over året.<br />

Beregn, idet et arbejdsår sættes lig med 48 uger, sandsynligheden for at der i en uge<br />

indtræffer flere end 3 ulykker.<br />

Opgave 9.25<br />

Til et bestemt telefonnummer er der i løbet af aftenen i middel 300 opkald i timen.<br />

Beregn sandsynligheden for, at der i løbet af et minut er højst 8 opkald.<br />

Opgave 9.26<br />

En fabrikation af fortinnede plader finder sted ved en kontinuerlig elektrolytisk proces.<br />

Umiddelbart efter produktionen kontrolleres for pladefejl. Man har erfaring for, at der i<br />

middel er 1 pladefejl hvert 5'te minut.<br />

Beregn sandsynligheden for, at der højst er 5 pladefejl ved en halv times produktion.<br />

Opgave 9.27<br />

Lastbiler med affald ankommer tilfældigt og indbyrdes uafhængigt til en losseplads.<br />

Lossepladsens maksimale kapacitet er beregnet til, at der i middel ankommer 90 lastbiler p.<br />

time. Ledelsen af pladsen føler, at travlheden er blevet større i den sidste tid, således at<br />

antallet af lastbiler overskrider den maksimale kapacitet. For at undersøge dette, foretages en<br />

optælling af lastbiler i perioder à 10 minutter. Følgende resultater fremkom:<br />

13 16 17 15 18 12 22 16 21 18<br />

1) Bekræfter disse resultater ledelsens formodning? (Husk altid at anføre: Hvad X er.<br />

Antagelser. Nulhypotese. Beregninger. Konklusion.).<br />

2) Angiv et estimat ~µ for middelværdien µ [lastbiler/time].<br />

3) Angiv et 95% konfidensinterval for middelværdien µ [lastbiler/time].<br />

Opgave 9.28<br />

Nedenstående tabel viser fordelingen af 400 volumenenheder med hensyn til antal gærceller<br />

p. volumenenhed.<br />

Antal gærceller 0 1 2 3 4 5 6 7 8 9 10 11 12<br />

Antal volumenenheder 0 20 43 53 86 70 54 37 18 10 5 2 2<br />

Lad X være antal gærceller p. volumenenhed. Det antages, at X er en stokastisk variabel der er<br />

Poissonfordelt p ( µ ).<br />

1) Find et estimat ~µ for µ .<br />

2) Angiv et 95% konfidensinterval for µ .<br />

3) Forudsat at X er Poissonfordelt p ( ~µ ) ønskes beregnet det forventede antal<br />

volumenenheder, hvori der forekommer 5 gærceller (for x = 5).


Vigtige diskrete fordelinger<br />

Opgave 9.29<br />

Ved inspektion af en produktion med isolering af kobberledning taltes der i løbet af 50<br />

minutter i alt 11 isoleringsfejl.<br />

Idet antallet af isoleringsfejl p. 50 minutter antages at være Poissonfordelt p ( µ 1 ), skal man<br />

1a) angive et estimat for .<br />

µ 1<br />

µ 1<br />

1b) angive et 95% konfidensinterval for .<br />

Det oplyses nu, at man i hver 5 minutters periode i den ovenfor omtalte 50 minutters periode<br />

havde observeret følgende antal isoleringsfejl:<br />

Periode 1 2 3 4 5 6 7 8 9 10<br />

Antal fejl 1 0 2 2 1 1 3 0 1 0<br />

Idet antallet af isoleringsfejl p. 5 minutter antages at være Poissonfordelt p ( ), skal man<br />

2a)<br />

2b)<br />

angive et estimat for µ 2 .<br />

angive et 95% konfidensinterval for .<br />

µ 2<br />

Opgave 9.30<br />

I en urne findes 10 røde kugler, 5 hvide kugler og 3 sorte kugler.6 gange efter hinanden optages tilfældigt en kugle fra urnen.<br />

Bestem sandsynligheden for, at der i alt er optaget 1 rød, 2 hvide og 3 sorte kugler, når<br />

1) kuglerne optages uden tilbagelægning<br />

2) kuglerne optages med tilbagelægning.<br />

Opgave 9.31<br />

En virksomhed fabrikerer farvede glasklodser til dekorationsbrug. Defekte glasklodser frasorteres. Man har erfaring for, at af<br />

de frasorterede klodser har i middel 50% kun revner, 35% kun farvefejl, medens resten har begge disse fejl.<br />

Beregn sandsynligheden for, at af 12 tilfældige defekte klodser har 6 kun revner, 4 kun farvefejl og 2 begge disse fejl.<br />

Opgave 9.32<br />

I et kortspil med de sædvanlige 52 spillekort har en spiller modtaget 13 kort. Angiv i procent med 2 decimaler<br />

sandsynligheden for, at 3 af disse er esser og 5 er billedkort.<br />

112<br />

µ 2


113<br />

10.2 Den rektangulære fordeling<br />

10 ANDRE KONTINUERTE FORDELINGER<br />

10.1 INDLEDNING<br />

Vi vil i dette kapitel kort orientere om en række fordelinger, som er vigtige i specielle<br />

sammenhænge,<br />

10.2 DEN REKTANGULÆRE FORDELING<br />

DEFINITION af rektangulær fordeling med parametrene a og b.<br />

Lad a og b være to reelle tal, hvor a


Eksempel 10.1 Kontinuert variabel.<br />

Lad randen af en roulette være ækvidistant inddelt efter en<br />

skala fra 0 til 12, jævnfør figuren.<br />

Ved et roulettespil bringes roulettens viser til at rotere,<br />

hvorefter den standser ud for et tilfældigt punkt på skalaen.<br />

Lad X være det tal som roulettens viser peger på.<br />

Idet X må kunne antage ethvert tal mellem 0 og 12, må X<br />

være en kontinuert variabel.<br />

Angiv tæthedsfunktion og fordelingsfunktion for X og<br />

skitser disse.<br />

LØSNING:<br />

x<br />

Da P( 0 ≤ X ≤ x)<br />

= for 0≤ x ≤12<br />

12<br />

er fordelingsfunktionen for X<br />

⎧0<br />

for x ≤ 0<br />

⎪ x<br />

F( x)=<br />

⎨ for 0≤ x ≤12<br />

⎪12<br />

⎪<br />

⎩1<br />

for x ≥ 12<br />

Ved differentiation fås tæthedsfunktionen<br />

⎧ 1<br />

⎪ for 0≤ x ≤12<br />

f ( x)=<br />

⎨12<br />

⎪<br />

⎩0<br />

ellers<br />

114


10.3 EKSPONENTIALFORDELINGEN<br />

115<br />

10.3 Eksponentialfordelingen<br />

I kapitel 7 betragtede vi antallet N af revner pr. meter langs et kobberkabel. Vi antog, at N var<br />

Poissonfordelt. Hvis vi i stedet havde betragtet afstanden X mellem revnerne, havde vi fået en ny<br />

stokastisk variabel, som må være kontinuert. Som det fremgår af følgende sætning er X<br />

eksponentialfordelt.<br />

SÆTNING 10.2 (Eksponentialfordeling).<br />

Lad W være en Poissonfordelt stokastisk variabel.<br />

Lad det gennemsnitlige antal impulser i en tidsenhed være λ . Lad X være tiden indtil<br />

næste impuls.<br />

X er da en kontinuert stokastisk variabel med sandsynlighedsfordelingen<br />

(tæthedsfunktionen)<br />

f ( x ) = P ( X = x) bestemt ved<br />

x ⎧ 1 −<br />

µ<br />

⎪ ⋅ e for x><br />

0<br />

f ( x)=<br />

⎨ µ<br />

⎪<br />

⎩0<br />

ellers<br />

hvor<br />

Bevis:<br />

I tidsrummet fra x0 til x0 + x er der I gennemsnit λ ⋅ x impulser. Lad W være det aktuelle antal impulser i tidsrummet<br />

[x0 ; x0 + x ]. W er da Poissonfordelt p( λ ⋅ x)<br />

.<br />

Idet X er tiden fra én impuls til den næste, er P( X > x) = P( W = 0)<br />

, da der ingen impulser er i tidsrummet<br />

[x0 ; x0 + x ].<br />

0<br />

( λ ⋅ x) −λ⋅x −λ⋅x − ⋅x<br />

Da PW ( = 0)<br />

= ⋅ e = e , er P( X > x)<br />

= e .<br />

0!<br />

λ<br />

− ⋅x<br />

Vi har derfor F( x) = P( X ≤ x) = 1− P( X > x)<br />

= 1−e . λ<br />

−λ⋅x Ved differentiation fås tæthedsfunktionen: f ( x) = F'( x)<br />

= λ ⋅e. Sættes λ = fås formlen.<br />

µ<br />

1<br />

Bevis for middelværdi og spredning:<br />

∞<br />

∞<br />

−λ⋅x ⎡ −λ⋅x 1 ⎤ 1<br />

E( X) = ∫ λ ⋅x⋅ e dx = -e ( x−<br />

= = µ<br />

0<br />

⎣⎢<br />

− λ⎦⎥ λ<br />

∞<br />

2 2 ⎡ ⎛<br />

⎞ ⎤<br />

2 −λ⋅x 2<br />

V( X) = E( X ) − ( E( X) ) = ∫ λ ⋅x ⋅e dx − µ = ⎜ − + ⎟<br />

0<br />

⎢<br />

⎣ ⎝<br />

⎠ ⎥<br />

⎦<br />

−<br />

− ⋅<br />

-e λ x 2 2x2 x<br />

2<br />

λ λ<br />

0<br />

µ =<br />

λ<br />

1<br />

X siges at være eksponentialfordelt exp ( µ ) med parameteren µ<br />

.<br />

∞<br />

0<br />

2 2<br />

2<br />

2 2<br />

µ = − µ = µ .<br />

λ<br />

Som det fremgår af beviset for sætning 10.2, er fordelingsfunktionen for en eksponentialfordelt<br />

variabel bestemt ved udtrykket<br />

x<br />

⎧ −<br />

⎪ µ<br />

F( x) = P( X ≤ x)<br />

=<br />

1− e for x > 0<br />

⎨<br />

⎩<br />

⎪0<br />

ellers


Andre kontinuerte fordelinger<br />

På nedenstående graf er afbildet tæthedsfunktionen for eksponentialfordelingerne exp(1.0) og<br />

exp(2.0)<br />

1<br />

0,8<br />

0,6<br />

0,4<br />

0,2<br />

0<br />

0 2 4 6 8 10 12<br />

Fig 10.1 Eksponentialfordelingerne exp(1) og exp(2)<br />

Eksempel 10.2. Afstanden mellem successive revner i kabel.<br />

Vi betragter det i eksempel 5.1 omtalte problem, hvor man fandt, at antallet N af mikroskopiske<br />

revner i et kobberkabel er Poissonfordelt. Der var i gennemsnit 12.3 af den type revner pr. 10<br />

meter. Lad X være afstanden mellem to på hinanden følgende revner.<br />

Beregn sandsynligheden for, at der er mere end 1 meter mellem to revner.<br />

LØSNING:<br />

1<br />

Da der i gennemsnit er 1.23 revner pr. meter, må der i gennemsnit være = 0812 . meter mellem<br />

123 .<br />

to revner. Vi har derfor at X er eksponentialfordelt med µ = 0.813.<br />

1<br />

⎛ − ⎞ 0813 .<br />

−123<br />

.<br />

P( X > 1) = 1− P( X ≤ 1) = 1− ⎜1<br />

− e ⎟ =e = 0. 2923<br />

⎝ ⎠<br />

Levetider. I apparater, som består af elektroniske komponenter (eksempelvis lommeregnere),<br />

er der et meget ringe mekanisk slid. Apparatets fremtidige levetid vil derfor (næsten ikke)<br />

afhænge af, hvor længe det har fungeret indtil nu. I sådanne tilfælde vil eksponentialfordelingen<br />

erfaringsmæssigt være en god approksimativ model for apparatets levetid.<br />

Det kan nemlig vises, at eksponentialfordelingen er den eneste kontinuerte fordeling, som har<br />

ovennævnte egenskab (er uden hukommelse)<br />

Bevis: Lad X være eksponentialfordelt med middelværdi µ og lad b > a > 0 være vilkårlige konstanter. Der gælder<br />

da:<br />

( ( > + ) ∧ ( > ) )<br />

P X a b X a<br />

P( X > a + bX > a)<br />

=<br />

P( X > a)<br />

116<br />

a b<br />

− +<br />

µ<br />

P( X > a + b)<br />

e<br />

−<br />

µ<br />

=<br />

= b =e = P( X > b)<br />

P( X > a)<br />

−<br />

µ<br />

e<br />

b


1)<br />

Γ ( x)<br />

10.6 Den 2-dimensionale normalfordeling<br />

Eksempel 10.3. Levetid for elektriske pærer.<br />

Man har erfaring for, at en bestemt type elektriske pærer har en "brændtid" T (målt i timer), som<br />

approksimativt er eksponentialfordelt. På basis af et stort antal målinger ved man , at<br />

middellevetiden er µ = 1500 timer.<br />

1) Hvor stor er sandsynligheden for, at en tilfældig pære brænder over, inden den har været tændt<br />

i 1200 timer?<br />

2) Find sandsynligheden for, at en tilfældig pære brænder i mere end 1800 timer.<br />

3) En pære har brændt i 800 timer. Hvad er sandsynligheden for, at den brænder i mindst 1800<br />

timer mere.<br />

LØSNING:<br />

1) PT ( < ) = F(<br />

) = − . .<br />

−<br />

1200<br />

1500<br />

1200 1200 1 e = 1- 0.449 = 551%<br />

1800<br />

−<br />

2) 1500<br />

PT ( > 1800) = 1− F(<br />

1800) = e = 3012% .<br />

3) Da eksponentialfordelingen ingen hukommelse har, vil svaret blive som i spørgsmål 2, dvs.<br />

30.12%.<br />

10.4 WEIBULLFORDELINGEN<br />

Hvis komponenterne i et elektronisk apparat ikke “slides”, dvs. den fremtidige levetid ikke<br />

afhænger af den foregående tid, er som nævnt i afsnit 10.3 eksponentialfordelingen velegnet som<br />

model for apparatets levetid.<br />

Hvis derimod de pågældende komponenters eventuelle svigten afhænger af den forløbne tid, kan<br />

man ofte med fordel benytte den i det følgende nævnte Weibullfordeling som approksimativ<br />

model for apparatets levetid (model for apparatets pålidelighed).<br />

DEFINITION af Weibulfordeling. Lad k og µ være positive tal. Sandsynlighedsfordelingen<br />

for en kontinuert stokastisk variabel X med tæthedsfunktionen f ( x ) bestemt ved<br />

x<br />

k k<br />

f x<br />

x for x<br />

k<br />

ellers<br />

k<br />

⎧<br />

−<br />

⎪<br />

−<br />

( ) =<br />

⋅ ⋅ ><br />

⎨<br />

⎪<br />

⎩<br />

⎛ ⎞<br />

⎜ ⎟<br />

1 ⎝ µ ⎠<br />

e<br />

0<br />

µ<br />

0<br />

siges at være Weibullfordelingen wei( k,<br />

µ<br />

) .<br />

⎛ k + 1⎞<br />

µ E( X)<br />

= µ ⋅Γ⎜<br />

⎟<br />

⎝ k ⎠<br />

⎛ k + 2⎞⎛⎛k+ 1⎞⎞ Γ⎜⎟−⎜ ⎟<br />

⎝ k ⎠<br />

⎜ Γ<br />

⎝ ⎝ k ⎠<br />

⎟<br />

⎠<br />

2<br />

Det kan vises, at Weibullfordelingen wei( k,<br />

) har middelværdien<br />

og spredningen σ ( X ) = µ ⋅<br />

Det ses, at Weibullfordelingen kan opfattes som en generalisation af eksponentialfordelingen,<br />

idet wei( 1 , µ ) = exp( µ ) .<br />

Såfremt levetiderne for komponenter i et apparat aftager jo længere tid apparatet har været i<br />

funktion (på grund af slid), kan man benytte en Weibullfordeling med k > 1 som approksimativ<br />

model for apparatets levetid.<br />

Gammafunktionen<br />

<strong>grundbegreber</strong>” 3A<br />

er defineret i “Supplement til statistiske<br />

117<br />

1 )


Andre kontinuerte fordelinger<br />

10.5 DEN LOGARITMISKE NORMALFORDELING<br />

Indenfor det biokemiske eller biologiske område (forsøgsdyrs reaktionstid, cellevækst m.v.) er<br />

den stokastiske variabel X ikke normalfordelt, men hvis man foretager en logaritmisk<br />

transformation Y = ln X er Y (approksimativt) normalfordelt.<br />

Man siger så, at X er logaritmisk normalfordelt.<br />

Tæthedsfunktionen for X er bestemt ved f x<br />

for x > 0.<br />

x e<br />

2<br />

1 ⎛ ln x−<br />

µ ⎞<br />

1 1 − ⋅⎜<br />

⎟<br />

2 ⎝ σ ⎠<br />

( ) =<br />

2π<br />

⋅σ<br />

Det kan vises, at mens Y = ln X har middelværdi µ og spredning σ har X middelværdi<br />

µ 2<br />

E( X) = e ⋅e<br />

2µ<br />

σ<br />

og V( X)<br />

= e ⋅e σ<br />

⋅( e −1)<br />

.<br />

Nedenfor er tegnet en logaritmisk normalfordeling med middelværdi 8 og spredning 5.<br />

density<br />

1 2<br />

− ⋅σ<br />

0,15<br />

0,12<br />

0,09<br />

0,06<br />

0,03<br />

0<br />

Lognormal Distribution<br />

0 10 20 30 40<br />

x<br />

2 2<br />

118<br />

Mean,Std. dev<br />

8,5<br />

10.6 DEN 2-DIMENSIONALE NORMALFORDELING<br />

Flerdimensionale fordelinger vil blive omtalt nærmere i kapitel 9. Her nævnes uden forklaring<br />

et eksempel herpå.<br />

DEFINITION af 2-dimensional normalfordeling Lad µ 1, µ 2 være reelle tal og σ1, σ 2 være<br />

positive tal. Sandsynlighedsfordelingen for 2-dimensional kontinuert stokastisk variabel (X1,X2) med tæthedsfunktion bestemt ved<br />

1<br />

−<br />

⋅ −<br />

⎛<br />

2<br />

2<br />

⎛ x − ⎞ x − x − ⎛ x − ⎞ ⎞<br />

⋅⎜<br />

1 µ 1<br />

⎜ ⎟ −2<br />

1 µ 1⋅2<br />

µ 2 + 2 µ<br />

ρ<br />

2<br />

⎜ ⎟ ⎟<br />

σ ⎝ ⎠ ⎟<br />

2 σ 2 ⎠<br />

1<br />

f ( x) =<br />

2π ⋅σ1⋅σ2 2<br />

1−<br />

ρ<br />

2 ( 1<br />

⋅ e<br />

2<br />

ρ ) ⎜<br />

⎝ ⎝ σ1<br />

⎠ σ1<br />

kaldes den 2-dimensionale normalfordeling med<br />

parametrene µ µ , og .<br />

1, 2 σ 1 σ 2<br />

Det kan vises, at E( X1)<br />

= µ 1,<br />

E( X2)<br />

= µ 2,<br />

σ( X 1) = σ1,<br />

σ( X 2) = σ 2 og ρ( X1, X2<br />

) = ρ<br />

( defineres i kapitel 9).<br />

Grafen ses overfor.


119<br />

Opgaver til kapitel 10<br />

OPGAVER<br />

Opgave 10.1<br />

På et betalingsnummer måltes man i tidsrummet fra kl 20 til 22 tiden t (antal minutter) mellem<br />

på hinanden følgende telefonopkald. Følgende resultater fandtes:<br />

Beliggenhed af t ]0;1] ]1;2] ]2;3] ]3;4] ]4;5] ]5;6] ]6;7] ]7;8] ]8;9] ]9;10] ]10; ∞ [<br />

Antal observationer. 36 21 16 13 7 9 6 1 2 6 0<br />

Det antages, at antallet N af telefonopkald til nummeret er Poissonfordelt. Lad T være tiden<br />

mellem to opkald.<br />

1) Angiv fordelingsfunktionen for T, og giv et estimat for middelværdien µ .<br />

Vink: Antage, at for alle observationer i et interval er tidsrummet mellem observationerne<br />

intervallets midterværdi.<br />

2) På baggrund af den i spørgsmål 1 fundne estimat for µ , ønskes bestemt P( 2< T ≤3)<br />

.<br />

3) Af tabellen ses, at i intervallet ]2; 3] forekommer i alt 16 observationer. Angiv hvor mange<br />

observationer man må forvente, ud fra resultatet i spørgsmål 2.<br />

Opgave 10.2<br />

Om en bestemt type elektriske komponenter vides, at deres levetider er eksponentialfordelte med<br />

en middellevetid på 800 timer.<br />

1) Find sandsynligheden for, at en komponent holder mindst 200 timer.<br />

2) Find sandsynligheden for, at en komponent holder mellem 600 og 800 timer.<br />

3) En komponent har holdt i 900 timer. Find sandsynligheden for, at den kan holde i mindst 200<br />

timer mere.<br />

4) I et elektrisk system indgår netop én komponent af denne type. Hver gang komponenten<br />

svigter, udskiftes den øjeblikkeligt med en ny komponent af samme type. Find<br />

sandsynligheden for, at komponenten udskiftes 12 gange i løbet af 8000 timer.<br />

Opgave 10.3<br />

Antag, at levetiderne for en bestemt slags elektroniske komponenter er uafhængige og alle er<br />

eksponentialfordelt med en middellevetid på 3 (år). Betragt et delsystem bestående af 3 sådanne<br />

komponenter i seriekobling:<br />

(en seriekobling ophører at fungere, når én af komponenterne ophører at fungere).<br />

Bestem middellevetiden for et sådant system.<br />

Opgave 10.4<br />

Nedbrydningstiden i den menneskelige organisme for et givet kvantum af et bestemt stof antages<br />

at være eksponentialfordelt med middelværdien 5 timer.<br />

Ved et forsøg indsprøjtes stoffet samtidig i 10 patienter.<br />

1) Beregn sandsynligheden (afrundet til et helt antal procent) for, at stoffet hos en tilfældig valgt<br />

patient vil være nedbrudt efter 8 timers forløb.<br />

2) Beregn sandsynligheden for, at stoffet efter 8 timers forløb vil være nedbrudt hos mindst 5 af<br />

patienterne.<br />

3) Efter hvor mange timers forløb vil der være ca. 90% sandsynlighed for, at stoffet er nedbrudt<br />

hos samtlige 10 patienter?<br />

4) Hvor mange patienter skal indgå i en ny undersøgelse, hvis der skal være ca. 95%<br />

sandsynlighed for, at der er mindst en patient, hvis organisme efter 8 timers forløb endnu ikke<br />

har nedbrudt stoffet?


Bjarne Hellesen:<br />

11 FLERDIMENSIONAL<br />

STOKASTISK VARIABEL<br />

ESSENS<br />

Kovariansen V( Xi, X j) = E ( Xi − µ 1) ⋅( X2<br />

− µ 2)<br />

er et mål for to variables tendens til<br />

at variere i takt med hinanden (samvarians). Kovariansen er f.eks. positiv(negativ), når afvigelsen<br />

X i − µ i har en tendens til at være positivt (negativt) proportional med afvigelsen X j − µ j.<br />

Er<br />

X og X i j statistisk uafhængige, bliver kovariansen 0 (men man kan ikke slutte den anden vej).<br />

V( Xi, X j)<br />

Korrelationskoefficienten ρ(<br />

Xi, X j)<br />

≡<br />

er normeret , så − 1≤ρ( Xi, X j)<br />

≤ 1 .<br />

σ ⋅σ<br />

X2<br />

95<br />

85<br />

75<br />

65<br />

55<br />

45<br />

150 160 170 180 190 200<br />

X1<br />

( )<br />

X3<br />

45<br />

150 160 170 180 190 200<br />

X1<br />

Stikprøve viser positiv<br />

Stikprøve viser ingen<br />

korrelation: ρ( X1, X2)<br />

≈ 084 . . korrelation: ρ( X , X ) = .<br />

.<br />

85<br />

75<br />

65<br />

55<br />

120<br />

i j<br />

1 2 000<br />

X4<br />

64<br />

54<br />

44<br />

34<br />

24<br />

14<br />

150 160 170 180 190 200<br />

X1<br />

Stikprøve viser negativ<br />

korrelaton: ρ( X , X ) ≈− . .<br />

1 2 084<br />

2<br />

Poolet estimat spool<br />

=<br />

2 2 2<br />

fs 1 1+<br />

fs 2 2 + ... + fs k k<br />

med fpool f1 + f2+ ... + fk<br />

= f1 + f2 + ... + fkfrihedsgrader<br />

benyttes,<br />

når man har k uafhængige estimater for den samme varians σ :<br />

2<br />

2 SAK1<br />

2 SAK2<br />

2 SAKk<br />

s1<br />

= , s2<br />

= ,..., sk<br />

= ,<br />

f1<br />

f 2<br />

f k<br />

2<br />

Har to stikprøver givet estimaterne s1 2<br />

= 2345 . , s2 = 3456 . med f1 = 6, f2<br />

= 4 frihedsgrader,<br />

2<br />

bliver det poolede estimat spool<br />

=<br />

2<br />

fs 1 1 +<br />

f1 +<br />

2<br />

fs 2 2<br />

=<br />

f2<br />

6 ⋅ 2. 345 + 4 ⋅3456<br />

.<br />

= 2. 7894 ≈ 2. 789<br />

6+ 4<br />

med f pool = f1 + f2<br />

= 6+ 4 = 10<br />

frihedsgrader.


121<br />

11.1 Indledning<br />

Linearitetsreglen E( a0 + a1X1 + a2X2+ ... + akXk) = a0 + a1E( X1) + a2E( X2) + ... + akE( Xk)<br />

,<br />

(a’erne er konstanter).<br />

Er E( X1)<br />

= 2 , E( X2)<br />

= 3 fås<br />

E( 4+ 5X + 6X ) = 4+ 5E( X ) + 6E( X ) = 4+ 5⋅ 2+ 6⋅ 3= 32.<br />

1 2 1 2<br />

Kvadratreglen V( a + a X + a X + ... + a X )<br />

0 1 1 2 2<br />

k k<br />

2<br />

2<br />

2<br />

= aV( X) + aV( X ) + ... + aV( X ) + 2 aaV( X, X )<br />

1<br />

1 2<br />

2<br />

k<br />

∑<br />

∑<br />

k k i j i j<br />

i=<br />

1 j=+ i 1<br />

Er V( X1) = 2, V( X2) = 3, V( X1, X2)<br />

= 15 . , fås<br />

2<br />

2<br />

V( 4 + 5X1 + 6X2) = 5 V( X1) + 6 V( X2) + 2⋅5⋅6⋅V( X1, X2)<br />

2 2<br />

= 5 ⋅ 2 + 6 ⋅ 3+ 2⋅5⋅6⋅ 15 . = 248<br />

11.1 INDLEDNING<br />

Ved anvendelserne optræder der ofte rflere<br />

stokastiske variable X1, X2,..., Xkad gangen. Det kan da være<br />

naturligt at samle dem i et ordnet sæt X = ( X1, X2,..., Xk) , som kaldes en k-dimensional stokastisk variabel.<br />

Eksempelvis:<br />

* Et levnedsmiddel kan af en tilfældig r udtaget forbruger bedømmes ved en karakter for smagen og en<br />

karakter for lugten. Så er X = ( X , X ) = ( ) en 2-dimensional stokastisk variabel.<br />

X 2<br />

1 2 Smag,Lugt<br />

* Et tilfældigt eksperiment r går ud på at udtage en tilfældig person og måle vedkommendes højde og masse<br />

X 2 . Så er X = ( X , X ) = ( ) en 2-dimensional stokastisk variabel.<br />

1 2 Højde, Masse<br />

r<br />

* Ugens 7 lottotal udgør en 7-dimensional stokastisk variabel X = ( X , X ,..., X ) .<br />

1 2 7<br />

r<br />

* Et tilfældigt eksperiment går ud på at kaste en rød og en hvid terning. Så er X = ( X , X ) = (Antal øjne op<br />

1 2<br />

på rød terning, Antal øjne op på hvid terning) en 2-dimensional stokastisk variabel.<br />

For hver af de 1-dimensionale stokastiske variable X1, X2,..., Xkhar vi tidligere defineret:<br />

* Fordelingsfunktioner F1, F2,..., Fk: F( X ) ≡ P( X ≤ x ), F ( X ) ≡ P( X ≤ x ), . . . , F ( X ) ≡ P( X ≤ x ) .<br />

1 1 1 1<br />

2 2 2 2<br />

k<br />

k k k k<br />

* Tæthedsfunktioner f1, f2,..., fk, når X X X er diskrete variable:<br />

1, 2,...,<br />

k<br />

f ( x ) ≡ P( X = x ) , f ( x ) ≡ P( X = x ) , . . . , f ( x ) ≡ P( X = x ) ,<br />

1 1 1 1<br />

2 2 2 2<br />

og når de er kontinuerte variable:<br />

dF1( x1)<br />

dF2( x2)<br />

dFk( x k)<br />

f1( x1)<br />

≡ , f2( x2)<br />

≡ , . . . , f k( xk)<br />

≡ .<br />

dx<br />

dx<br />

dx<br />

1<br />

2<br />

k k k k<br />

* Middelværdier, når X1, X2,..., Xker diskrete variable:<br />

E( g( X ) ≡ g( x ) ⋅ f ( x ) , . . . , E( g( X ) ≡ g( x ) ⋅ f ( x ) ,<br />

( )<br />

∑ ( )<br />

1 1 1 1<br />

x1<br />

∑<br />

k<br />

k k k k<br />

xk og når de er kontinuerte variable:<br />

E( g( X ) ≡<br />

∞<br />

g( x ) ⋅ f ( x ) dx , . . . , E( g( X ) ≡<br />

∞<br />

g( x ) ⋅ f ( x ) dx ,<br />

( )<br />

∫ ( )<br />

1 1 1 1 1<br />

−∞<br />

∫<br />

k k k k k<br />

−∞<br />

specielt<br />

µ 1 ≡ E( X1) ≡ ∑ x1⋅ f1( x1)<br />

, . . . , µ k ≡ E( X2) ≡ ∑ xk ⋅ fk( xk)<br />

,<br />

og<br />

x1<br />

xk<br />

≡ E X ≡<br />

∞<br />

x ⋅ f x dx , . . . , ≡ E( X ) ≡<br />

∞<br />

x ⋅ f ( x )<br />

dx .<br />

∫<br />

µ 1 ( 1) 1 1( 1) 1 µ k k k k k k<br />

−∞<br />

−∞<br />

∫<br />

.<br />

X 1<br />

X 1


Flerdimensional statistisk variabel<br />

Af definitionen på middelværdi følger linearitetsreglen:<br />

Ea ( ⋅ gX ( i) + bhX ⋅ ( i) ) = a⋅ EgX ( ( i) ) + bEhX ⋅ ( ( i)<br />

) .<br />

r<br />

For en k-dimensional stokastisk variabel X = ( X X X definerer vi analogt:<br />

1, 2,...,<br />

k )<br />

* Fordelingsfunktionen F : ( ∧ betyder “både og”)<br />

F( x1, x2, ..., xk) ≡ P( X1 ≤ x1) ∧ P( X2 ≤ x2) ∧... ∧P( X k ≤ xk)<br />

.<br />

* Tæthedsfunktionen f, når X1, X2,..., X k er diskrete variable:<br />

f ( x1, x2, ..., xk) ≡ P( X1 = x1) ∧ P( X2 = x2) ∧... ∧ P( X k = xk)<br />

k<br />

F( x1, x2,..., xk)<br />

og når de er kontinuerte variable: f ( x1, x2, ..., xk)<br />

≡ .<br />

x1 x2,..., xk<br />

∂<br />

∂ ∂ ∂<br />

* Middelværdier, når X1, X2,..., Xker diskrete variable:<br />

E g( X , X ,..., X ) = ... g( x , x ,..., x ) ⋅ f ( x , x ,..., x )<br />

( )<br />

∑∑<br />

∑<br />

1 2 k 1 2 k 1 2<br />

x1 x2<br />

xk<br />

og når de er kontinuerte variable:<br />

( )<br />

∫<br />

∞<br />

∞<br />

∫ ∫<br />

∞<br />

EgX ( 1, X2,..., X k) = dx1 dx2... gx ( 1, x2,..., xk) ⋅ f( x1, x2,..., xk) dxk<br />

−∞ −∞<br />

−∞<br />

r r r r<br />

Af definitionen på middelværdi følger linearitetsreglen: Ea ( ⋅ gX ( ) + bhX ⋅ ( ) ) = a⋅ EgX ( ( ) ) + bEhX ⋅ ( ( ) )<br />

De variable X1, X2,..., Xkkaldes stokastisk uafhængige, såfremt de for alle værdier af x1, x2,..., xkopfylder betingelsen: f ( x , x ..., x ) = f ( x ) ⋅ f ( x ) ⋅... ⋅ f ( x ) ,<br />

1 2 k 1 1 2 2<br />

k k<br />

der kan vises at være ækvivalent med betingelsen: Fx ( , x..., x) = F( x) ⋅F( x) ⋅... ⋅F(<br />

x)<br />

.<br />

122<br />

k<br />

1 2 k 1 1 2 2<br />

k k<br />

r<br />

En rstikprøve r raf<br />

størrelsen n på en stokastisk variabel X = ( X , X ,..., X defineres som<br />

1 2 k )<br />

( X1, X2,..., Xn) = ( ( X11, X21,..., Xk1),( X12, X22,..., Xk2),...,( X1n, X2n,..., Xkn)<br />

r r r<br />

) r<br />

hvor X1, X2,..., Xner statistisk uafhængige variable, der hver har samme fordeling som X .<br />

Eksempel 11.1. 2-dimensional stokastisk variabel.<br />

Et levnedsmiddel kan af en tilfældig forbruger bedømmes ved en karakter for smagen og en karakter for<br />

X 1<br />

lugten. Karakteren kan antage værdierne 0, 1 og 2, mens kun kan antage værdierne 0 og 2.<br />

a) Antag, at man teoretisk kender tæthedsfunktionen f ( x , x ) :<br />

x 2<br />

f ( x1, x2)<br />

x1 1 2<br />

X 2<br />

X 1<br />

0 1 2<br />

0 0.2 0.1 0.1<br />

2 0.1 0.2 0.3<br />

a1) Find de 1-dimensionale tæthedsfunktioner f1( x1)<br />

og f2( x2)<br />

.<br />

a2) Er X 1 og X 2 statistisk uafhængige ?<br />

a3) Find middelværdierne µ 1 = E( X1)<br />

og µ 2 = E( X2)<br />

samt spredningerne σ1 = σ(<br />

X1) og σ 2 = σ(<br />

X 2)<br />

.<br />

a4) Find middelværdien E( X1, X2)<br />

.<br />

b) Antag, at man i stedet kender en stikprøve på ( X1, X2)<br />

:<br />

(1,2), (0,0), (2,2), (2,2), (1,0), (2,2), (0,2), (2,2), (0,2 ), (2,2).<br />

b1) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a3).<br />

LØSNING:<br />

a1) Ved summation ned gennem de lodrette søjler i tabellen for tæthedsfunktionen<br />

f ( x1, x2) ≡ P( X1 = x1 ∧ X2 = x2)<br />

fås den 1-dimensionale tæthedsfunktion f1( x1) = P( X1 = x1)<br />

:<br />

f1( 0) = 02 . + 01 . = 03 . , f1() 1 = 01 . + 02 . = 03 . , f1( 2) = 01 . + 03 . = 04 . .<br />

Ved summation hen gennem de vandrette rækker i tabellen for tæthedsfunktionen f ( x1, x2)<br />

fås analogt den<br />

1-dimensionale tæthedsfunktion f2( x2)<br />

:<br />

f 2( 0) 02 . 01 . 01 . 04 . , ( ) = . + . + . =<br />

. .<br />

= + + = f 2 2 01 02 03 06<br />

X 2


123<br />

11.1 Indledning<br />

a2) De variable X 1 og X 2 er statistisk uafhængige, hvis og kun hvis f ( x1, x2) = f1( x1) ⋅ f2( x2)<br />

for alle<br />

værdier af ( x1, x2)<br />

i definitionsmængden. Men da f.eks. f1( 0) ⋅ f2(<br />

0) = 03 . ⋅ 04 . = 012 . er forskellig fra<br />

f (,) 00 02 . , er og ikke statistisk uafhængige.<br />

= X 1 X 2<br />

a3) Vi finder<br />

µ 1 = E( X1) = ∑ x1 ⋅ f1( x1) = 0⋅ f1( 0) + 1⋅ f1( 1) + 2⋅ f1(<br />

2)<br />

= 003 ⋅ . + 103 ⋅ . + 204 ⋅ . = 11 .<br />

= E( X ) = x ⋅ f ( x ) = 0⋅ f ( 0) + 2⋅ f ( 2) = 0⋅ 04 . + 2⋅ 06 . = 12 .<br />

∑<br />

µ 2 2 2 2 2 2 2<br />

2 ( )<br />

2<br />

σ = σ ( X ) ≡ V( X ) ≡ E ( X − µ ) = ( x − µ ) ⋅ f ( x )<br />

1 1 1 1 1<br />

∑<br />

1 1<br />

2 2 2<br />

= ( 0 −11 . ) ⋅ 0. 3 + ( 1−11 . ) ⋅ 0. 3 + ( 2 −11 . ) ⋅ 0. 4 = 0. 69 = 083067 .<br />

2 ( )<br />

1 1<br />

2<br />

σ = σ ( X ) ≡ V( X ) ≡ E ( X − µ ) = ( x − µ ) ⋅ f ( x )<br />

2 2 2 2 2<br />

∑<br />

2 2<br />

2 2<br />

=<br />

2 2<br />

( 0 −12 . ) ⋅ 0. 4 + ( 2 −12 . ) ⋅ 0. 6 = 0. 96 = 0. 97980<br />

a4) Vi finder<br />

E( X1 ⋅ X2) ≡ ∑ ∑ x1 ⋅ x2 ⋅ f ( x1, x2)<br />

= 00 ⋅ ⋅ f ( 00 , ) + 10 ⋅ ⋅ f ( 10 , ) +<br />

x1<br />

x2<br />

2⋅0⋅ f (,) 20 + 0⋅2⋅ f (,) 02 + 1⋅2⋅ f (,) 12 + 2⋅ 2⋅ f (,) 22<br />

= 0⋅ 02 . + 0⋅ 01 . + 0⋅ 01 . + 0⋅ 01 . + 2⋅ 02 . + 4⋅ 03 . = 16 . .<br />

b1) Stikprøvens x1 -værdier 1, 0, 2, 2, 1, 2, 0, 2, 0, 2 kan indtastes på en lommeregner, der finder gennemsnittet<br />

x1 og standardafvigelsen s1 som tilnærmelser til middelværdi µ 1 og spredning σ1 for X 1 . Man finder:<br />

µ 1 ≡ E( X1) ≈ x1=<br />

12 . , σ1 = σ(<br />

X1) ≈ s1<br />

= 09189 . .<br />

x 2<br />

Analogt indtastes stikprøvens - værdier 2, 0, 2, 2, 0, 2, 2, 2, 2, 2, og man finder<br />

µ 2 ≡ E( X2) ≈ x2=<br />

16 . , σ = σ(<br />

X ) ≈ s = .<br />

2 2 2 08433<br />

Det ses, at estimaterne har en vis lighed med de eksakte værdier i spørgsmål a3).<br />

11.2 KOVARIANS OG KORRELATIONSKOEFFICIENT<br />

Vi har omtalt, at hver stokastisk variabel har en varians. Men et par variable og kan have en tendens til at<br />

variere i overensstemmelse med hinanden (samvarians), således at afvigelserne X1 − µ 1 og X 2 − µ 2 overvejende<br />

har samme fortegn (positiv korrelation) eller overvejende har modsat fortegn (negativ korrelation). Eksempelvis kan<br />

en høj forekomst af ét vitamin i et levnedsmiddel ofte være ledsaget af en høj forekomst af et andet vitamin (positiv<br />

korrelation).<br />

Og studerendes højde og masse kan også have en positiv rkorrelation.<br />

Vi betragter igen en k-dimensional stokastisk variabel X = ( X X X . For et par af variable og<br />

1, 2,..., k )<br />

X X i j<br />

defineres kovariansen (“samvariansen”)<br />

( µ µ )<br />

V( X , X ) ≡ E ( X − ) ⋅( X − )<br />

i j i i j j<br />

(den giver jo et vist mål for, om afvigelserne X i − µ og X i<br />

j − µ j i middel har samme fortegn eller modsat<br />

fortegn).<br />

Sættes i = j, fås V( Xi, Xi) = E( ( Xi<br />

− µ i)<br />

) , som er identisk med variansen for variablen<br />

2<br />

V( Xi) X i<br />

( )<br />

2 2<br />

Man kan vise (se nedenfor), at V( Xi, X j) = E Xi ⋅X j − i ⋅ j,<br />

som for i = j giver V( X ) = E X − µ .<br />

X 1<br />

X 2<br />

µ µ ( )<br />

i i i<br />

Bevis:<br />

V( Xi, X j) ≡ E( ( Xi − µ i) ⋅( X j − µ j) ) = E( XiX j − µ iX j −<br />

Anvendes linearitetsreglen kan sidste led omformes:<br />

Xiµ<br />

j + µ iµ j)<br />

.<br />

= E( X X ) − µ E( X ) − E( X ) µ + µ µ = E( X X ) − µ µ − µ µ + µ µ = E( X X ) − µµ<br />

i j i j i j i j i j i j i j i j<br />

i j i j


Flerdimensional stokastisk variabel<br />

For bedre at kunne vurdere hvor meget de variable varierer i “takt” med hinanden, divideres kovariansen med<br />

spredningerne, så man får den såkaldte korrelationskoefficient:<br />

V( Xi, X j)<br />

ρ(<br />

Xi, X j)<br />

≡<br />

σ ⋅ σ<br />

1 2<br />

Man kan vise (se nedenfor) , at −1≤ ρ( Xi, X j)<br />

≤ 1.<br />

Bevis: Vi har<br />

2<br />

0 ≤ E<br />

⎛⎜<br />

⎝ ( λ ⋅ X − + X −<br />

⎞ ) ⎟<br />

i µ i j µ j ⎠ = E λ ⋅( Xi − µ i) + 2λ<br />

( Xi − µ i)( X j − µ j) + ( X j − µ j)<br />

2 2 2<br />

( ) ( ) ( )<br />

2<br />

( ( i i) ) 2 ( ( i i)( j j) ) ( ( j j)<br />

) = λ ⋅ V Xi + 2V<br />

Xi X j λ + V X j<br />

= λ ⋅ E X − µ + λ E X − µ X − µ + E X − µ<br />

2 2 2<br />

λ<br />

124<br />

( ) ( , ) ( )<br />

Da dette andengradspolynomium i aldrig er negativt, kan diskriminanten ikke være positiv, dvs.<br />

( )<br />

2<br />

V( Xi, X j)<br />

2<br />

4( V( Xi, X j) ) −4⋅V( Xi) ⋅V( X j)<br />

≤0⇔ ≤1⇔ ( ρ( Xi, X j)<br />

) ≤1<br />

⇔−1≤ρ( Xi, X j)<br />

≤1<br />

.<br />

V( X ) ⋅V(<br />

X )<br />

i j<br />

Man kan (som det ses nedenfor) vise, at<br />

X 1 og X 2 stat. uafhængige ⇒ E( X ⋅ X ) = E( X ) ⋅ E( X ) ⇔ V( X , X ) = 0 ⇔ ρ(<br />

X , X ) = 0<br />

Bevis: Vi har<br />

og stat. uafhængige<br />

X 1 X 2 ⇔ f xi x j = fi xi ⋅ f j x j<br />

2<br />

i j i j i j i j<br />

( , ) ( ) ( )<br />

∑∑ ∑∑<br />

⇒ E( X ⋅ X ) = x ⋅x ⋅ f ( x , x ) = x ⋅x ⋅ f ( x ) ⋅ f ( x )<br />

∑<br />

i j i j i j<br />

xi<br />

x j<br />

xi<br />

x j<br />

∑<br />

i j i i j j<br />

= xi ⋅ fi( xi) xj ⋅ f j( xj) = E( Xi) ⋅E(<br />

X j)<br />

xi x j<br />

⇔ V( Xi, X j) = E( Xi ⋅ X j) − µ i ⋅ µ j =<br />

V( Xi, X j)<br />

E( Xi) ⋅ E( X j) − µ i ⋅ µ j = 0 ⇔ ρ(<br />

Xi, X j)<br />

=<br />

= 0.<br />

σ ⋅ σ<br />

Estimater for kovarians, varians og korrelationskoefficient<br />

Ud fra en stikprøve ( x1, y1),( x2, y2), ...,( xn, yn)<br />

kan man beregne<br />

SAPXY n<br />

≡ ∑ ( xi − x) ⋅( yi − y)<br />

,<br />

n<br />

2<br />

SAKX ≡ ∑ ( xi − x)<br />

,<br />

n<br />

SAKX ≡ ∑ ( xi − x)<br />

i=<br />

1<br />

( SAP = “Sum af Afvigelsers Produkter” , SAK = “Sum af Afvigelsers Kvadrater” )<br />

og heraf danne estimater for kovarians, varianser og korrelationskoefficient:<br />

SAPXY<br />

SAK X SAKY<br />

kovarians: V( X, Y)<br />

≈ og varianser: V( X)≈<br />

, VY ( )≈<br />

n − 1<br />

n − 1 n − 1<br />

korrelationskoefficient: ρ( XY , ) ≈r≡ i=<br />

1<br />

SAPXY<br />

SAK ⋅ SAK<br />

X Y<br />

Det kan således vises (for enhver fordelingstype), at<br />

E , ,<br />

SAP ⎛ XY ⎞<br />

⎜ ⎟ = V( X, Y)<br />

⎝ n − 1 ⎠<br />

E SAK ⎛ X ⎞<br />

⎜ ⎟ = V( X)<br />

⎝ n − 1 ⎠<br />

E SAK ⎛ Y ⎞<br />

⎜ ⎟ = VY ( )<br />

⎝ n − 1 ⎠<br />

i=<br />

1<br />

2<br />

i j


Bevis: Vi har<br />

n<br />

n<br />

∑ ( )( ) ∑ ( ( i µ x) ( µ x) ( ( i µ Y) ( µ Y)<br />

)<br />

SAP = X − X Y − Y = X − − X − ⋅ Y − − Y −<br />

XY i i<br />

i=<br />

1 i=<br />

1<br />

n<br />

n<br />

∑ ∑<br />

∑ ∑<br />

= ( X − µ )( Y − µ ) + ( X − µ )( Y − µ ) − ( X − µ )( Y − µ ) − ( X − µ )( Y − µ )<br />

i x i Y<br />

x Y i x Y<br />

x i Y<br />

i=<br />

1 i=<br />

1<br />

i=<br />

1 i=<br />

1<br />

n<br />

∑ ( Xi i=<br />

1<br />

n<br />

µ x)( Yi µ Y)<br />

n ( X µ x)( Y µ Y) ( nX n µ x)( Y µ Y) ( X µ x)( nY n µ Y)<br />

= − − + ⋅ − − − − ⋅ − − − − ⋅<br />

= ∑ ( Xi − µ x)( Yi − µ Y)<br />

− n⋅( X − µ x)( Y − µ Y)<br />

.<br />

i=<br />

1<br />

Altså fås ved hjælp af linearitetsreglen:<br />

n<br />

E( SAPXY ) = ∑ E ( Xi− µ x )( Yi− µ Y ) − n⋅E ( X − µ x )( Y − µ Y )<br />

i=<br />

1<br />

( ) ( )<br />

n<br />

1<br />

= ∑ V( Xi, Yi)<br />

− ⋅ E ( X1 + X2+ ... + Xn − n⋅ i=<br />

1 n<br />

x)( Y1 + Y2+ ... + Yn − n⋅<br />

Y)<br />

n<br />

⎛ n<br />

n<br />

1<br />

⎞<br />

= ∑V( X, Y)<br />

− ⋅E⎜∑( Xi− µ x) ∑(<br />

Yj<br />

− µ Y ) ⎟<br />

i=<br />

1 n ⎝ i=<br />

1 j=<br />

1 ⎠<br />

n<br />

( µ µ )<br />

n n<br />

n n<br />

1 1<br />

= nV ⋅ ( XY , ) − ∑∑<br />

E( ( Xi − µ x)( Yj − µ Y) = n⋅V( X, Y)<br />

− ∑∑V(<br />

Xi, Yj)<br />

n<br />

n<br />

i=<br />

1 j=<br />

1<br />

n<br />

1<br />

= nV ⋅ ( XY , ) − ∑V(<br />

Xi, Yi)<br />

n<br />

i=<br />

1<br />

125<br />

i=<br />

1 j=<br />

1<br />

( idet V( X , Y )= 0 for i ≠ j i en stikprøve)<br />

i j<br />

n<br />

11.1 Indledning<br />

1<br />

= nV ⋅ ( XY , ) − ⋅nV ⋅ ( XY , ) = ( n−1) ⋅V(<br />

XY , ) , dvs. E .<br />

n SAP ⎛ XY ⎞<br />

⎜ ⎟ = V( X, Y)<br />

⎝ n − 1 ⎠<br />

Erstattes Y med X i beviset, bliver SAPXY erstattet med SAK X , og V( X, Y)<br />

bliver erstattet med V( X)<br />

,<br />

hvorved vi også får bevist, at E . Erstattes X med Y , fås endelig<br />

SAK ⎛ X ⎞<br />

⎜ ⎟ = V( X)<br />

E<br />

⎝ n − 1 ⎠<br />

SAK ⎛ Y ⎞<br />

⎜ ⎟ = VY ( )<br />

⎝ n − 1 ⎠<br />

Poolet estimat<br />

Som nævnt er SAK en forkortelse for “Sum af Afvigelsers Kvadrater”. De afvigelser der tænkes på er de n differenser<br />

X1 − X, X2 − X,..., Xn− X . De har summen 0, så når n - 1 af dem er kendt, er den sidste fastlagt. Da SAK således<br />

kun er baseret på n - 1 uafhængige differenser, siger man, at SAK har f = n - 1 frihedsgrader. Det er også antallet<br />

2 SAKX<br />

af frihedsgrader der optræder i estimatet for varians: s =<br />

f<br />

Ofte har man taget k stikprøver på variable med samme varians σ , så vi får k uafhængige estimater for den samme<br />

2<br />

varians σ : 2<br />

2 SAK1<br />

2 SAK2<br />

2 SAKk<br />

s1<br />

= , s2<br />

= ,. . . . . ., sk<br />

=<br />

f1<br />

f 2<br />

f k<br />

og det er da fordelagtigt at forene dem i et såkaldt fællesestimat eller poolet estimat:<br />

2<br />

spool<br />

=<br />

2 2 2<br />

fs 1 1+<br />

fs 2 2+<br />

... + fs k k<br />

f1 + f2 + ... + fk<br />

med f pool = f1 + f2+ ... + fkfrihedsgrader<br />

.<br />

Dette kan også skrives<br />

2 SAK1 + SAK2+ ... + SAKk<br />

spool<br />

=<br />

, med fpool =<br />

f1 + f2+ ... + fk<br />

f1 + f2 + ... + fkfrihedsgrader.<br />

2<br />

Det ses, at spool har den rigtige middelværdi σ , idet linearitetsreglen giver<br />

2<br />

2<br />

Es ( pool ) =<br />

2<br />

2 2<br />

fEs 1 ( 1)<br />

+ fEs 2 ( 2)<br />

+ ... + fkEs ( k)<br />

=<br />

f + f + ... + f<br />

2 2 2<br />

f1σ + f2σ + ... + fkσ<br />

2<br />

= σ<br />

.<br />

f + f + ... + f<br />

1 2<br />

k<br />

1 2<br />

k


Flerdimensional stokastisk variabel<br />

Eksempel 11.2. Kovarians. Korrelationskoefficient.<br />

Vi betragter igen den 2-dimensionale fordeling fra eksempel 11.1.<br />

a5) Find kovariansen og korrelationskoefficienten.<br />

b2) Benyt stikprøven til at finde estimater for kovariansen og korrelationskoefficienten.<br />

LØSNING:<br />

a5) Idet vi i eksempel 11.1 har fundet µ 1 = 11 .,µ 2 = 12 . , σ = 069 . og σ = 096 . , finder vi nu kovariansen<br />

V( X1, X2)<br />

og korrelationskoefficienten ρ( X1, X2)<br />

:<br />

( )<br />

V( X , X ) ≡ E ( X − µ ) ⋅( X − µ ) = ( x − µ )( x − µ ) f ( x , x )<br />

i j i i j j<br />

∑∑<br />

x1<br />

x2<br />

1 1 2 2 1 2<br />

= ( 0− µ 1) ⋅( 0− µ 2) ⋅ f ( 00 , ) + ( 1− µ 1) ⋅( 0− µ 2) ⋅ f ( 10 , ) + ( 2−µ 1) ⋅ ( 0−µ 2)<br />

⋅ f ( 20 , )<br />

+ ( 0− µ 1) ⋅( 2 − µ 2) ⋅ f ( 02 , ) + ( 1− µ 1) ⋅( 2 − µ 2) ⋅ f ( 12 , ) + ( 2 − µ 1) ⋅ ( 2 − µ 2)<br />

⋅ f ( 22 , )<br />

= ( 0−11 . ) ⋅( 0−1.. 2) ⋅ 02 . + ( 1−11 . ) ⋅( 0− 12 . ) ⋅ 01 . + ( 2− 11 . ) ⋅ ( 0− 12 . ) ⋅ 01 .<br />

+ ( 0− 11 . ) ⋅( 2 − 1.. 2) ⋅ 01 . + ( 1− 11 . ) ⋅( 2 − 12 . ) ⋅ 02 . + ( 2 − 11 . ) ⋅ ( 2 − 12 . ) ⋅ 03 . = 028 .<br />

V( X1, X2)<br />

028 .<br />

ρ(<br />

X1, X2)<br />

≡<br />

=<br />

= 0. 3440 .<br />

σ( X ) ⋅σ(<br />

X ) 069 . ⋅ 096 .<br />

1 2<br />

b2) Stikprøvens værdier (1,2), (0,0), (2,2), (2,2), (1,0), (2,2), (0,2), (2,2), (0,2), (2,2) kan indtastes på en<br />

lommeregner, der finder tilnærmelser (estimater) til kovariansen V( X1, X2)<br />

og korrelationskoefficienten<br />

ρ( X , X ) :<br />

1 2<br />

n<br />

∑<br />

( x1i − x1)( x2i − x2)<br />

SAP12<br />

i=<br />

1<br />

V( X1, X2)<br />

≈ =<br />

= 03111 .<br />

n − 1 n − 1<br />

ρ( X , X ) ≈ r ≡<br />

1 2<br />

SAP12<br />

SAK ⋅ SAK<br />

1 2<br />

=<br />

i=<br />

1<br />

n<br />

∑<br />

i=<br />

1<br />

n<br />

∑<br />

( x − x )( x − x )<br />

1i 1 2i 2<br />

( x − x ) ⋅ ( x − x )<br />

n<br />

∑<br />

1i 1 j<br />

j<br />

2<br />

2 2 2<br />

= 1<br />

126<br />

= 04015 .<br />

Det ses, at estimaterne har en vis lighed med de eksakte værdier i spørgsmål a5).<br />

11.3 LINEARKOMBINATION<br />

Når vi skal tage en stikprøve ( X1, X2,..., Xn) på en 1-dimensional stokastisk variabel X, så skal vi n gange skaffe<br />

et r tal X fra et tilfældigt eksperiment. Derfor kan vi opfatte stikprøven som en n-dimensional stokastisk variabel<br />

X = ( X X X .<br />

1, 2,...,<br />

n )<br />

X X X<br />

Vi bruger ofte stikprøven til at danne gennemsnittet X<br />

n n X<br />

n X<br />

n X<br />

1 + 2+<br />

... + n 1 1 1<br />

=<br />

= 1 + 2+<br />

... + n<br />

som er en speciel linearkombination af X1, X2,..., Xn. r<br />

Ved en linearkombination L for en k-dimensional stokastisk variabel X = ( X X X forstås et udtryk af<br />

1, 2,...,<br />

k )<br />

formen<br />

L = a0 + a1X1 + a2X2 + ... + akXk , hvor a0, a2, a3,..., aker konstanter.<br />

For middelværdien af L giver linearitetsreglen:<br />

E( L) = a0 + a1E( X1) + a2E( X2) + ... + akE( Xk)<br />

.<br />

Eksempelvis kan vi se, at et gennemsnit X altid har den “rigtige” middelværdi µ :<br />

1 1 1 1 1 1<br />

E( X)<br />

= E( X1)<br />

+ E( X2<br />

) + ... + E( Xn)<br />

= µ + µ + ... + µ = µ .<br />

n n n n n n<br />

For variansen af en linearkombination L gælder kvadratreglen:<br />

2<br />

2<br />

2<br />

V( L) = a ⋅ V( X ) + a ⋅ V( X ) + ... + a ⋅ V( X ) + 2<br />

a a V( X , X )<br />

1<br />

1 2<br />

2<br />

k<br />

k k i j i j<br />

i=<br />

1 j=+ i 1<br />

k<br />

∑ ∑<br />

.


127<br />

11.3 Linearkombination<br />

Eksempelvis:<br />

2 2<br />

a) V( a + bX + cY) = b V( X) + c V( Y) + 2bcV(<br />

X, Y)<br />

b) V( a + bX + cY + dZ)<br />

2 2 2<br />

= b V ( X ) + c V ( Y) + d V ( Z) + 2bcV ( X , Y) + 2cdV( Y, Z) + 2dbV<br />

( Z, X ) .<br />

c) V X V X V X<br />

(X’erne statistisk uafhængige)<br />

n n n V X 1 1 1<br />

( ) = 2 ( 1) + 2 ( 2) + ... + 2 ( n)<br />

2<br />

1 2 1 2 1 2 σ<br />

σ(<br />

X )<br />

= + + + = , dvs. .<br />

2 σ 2 σ ... 2 σ<br />

σ(<br />

X ) =<br />

n n n n<br />

n<br />

Den sidste ligning viser, at spredningen på et gennemsnit kun er omvendt proportional med kvadratroden på<br />

stikprøvestørrelsen n. For at få et gennemsnit med en 10 gange mindre spredning, skal stikprøven altså gøres 100 gange<br />

større!<br />

Bevis for kvadratreglen. Vi finder<br />

( 2)<br />

( 0 1 1 k k 0 1µ 1 kµ k<br />

2)<br />

( ( µ ) ... (<br />

2<br />

µ ) )<br />

V( L) ≡ E ( L− E( L)) = E ( a + a X + ... + a X − a − a −... −a<br />

)<br />

( 1 1 1<br />

k k k )<br />

= E a X − + + a X −<br />

⎛<br />

k k<br />

⎞<br />

2<br />

2 2 2<br />

= E⎜a X − + + a X − + ∑ ∑ a a X − X − ⎟<br />

1 ( 1 µ 1)<br />

... k( k µ k) 2<br />

i j( i µ i)( j µ j)<br />

⎝<br />

i=<br />

1 j=<br />

1<br />

⎠<br />

k k<br />

2 2 2<br />

( ( 1 µ 1)<br />

) ... k ( ( k µ k) ) 2∑<br />

∑ i j ( ( i µ i)( j µ j)<br />

)<br />

2<br />

= a E X − + + a E X − + a a E X − X −<br />

1<br />

∑ ∑<br />

i=<br />

1 j=<br />

1<br />

2<br />

2<br />

= aV( X) + ... + aV( X ) + 2 aaV( X, X ).<br />

1<br />

1<br />

k<br />

k k i j i j<br />

i=<br />

1 j=<br />

1<br />

k<br />

Eksempel 11.3. Linearkombination af stokastiske variable.<br />

Et levnedsmiddel leveres i poser. Lad X 1 og X 2 [mg/kg] betegne koncentrationerne af to stoffer A og B i en<br />

tilfældig udvalgt pose. Det vides, at E( X1)<br />

= 20. 0,<br />

E( X2)<br />

= 30. 0 , σ( X 1)<br />

= 20 . , σ( X 2 ) = 40 . og<br />

V( X1, X2)<br />

= −40 . . Holdbarheden Y er teoretisk givet ved Y = 5+ 4X1 + 3X2[dage]<br />

.<br />

Find holdbarhedens middelværdi EY ( ) og spredning σ( Y)<br />

.<br />

LØSNING:<br />

Vi finder<br />

EY ( ) = E( 5+ 4X1 + 3X2) = 5+ 4⋅ E( X1) + 3⋅E(<br />

X2<br />

) = 5 + 4 ⋅ 20. 0 + 3⋅ 30. 0 = 1750 .<br />

2<br />

2<br />

VY ( ) = V( 5+ 4X1 + 3X2) = 4 ⋅ V( X1) + 3 ⋅ V( X2) + 243 ⋅ ⋅ ⋅V(<br />

X1, X2)<br />

2 2 2 2<br />

= 4 ⋅ 20 . + 3 ⋅ 40 . + 2⋅4⋅3⋅( − 40 . ) = 112<br />

σ( Y) ≡ V( Y)<br />

= 112 = 105830<br />

. .


Flerdimensional stokastisk variabel<br />

OPGAVER<br />

Opgave 11.1.1 (2-dimensional stokastisk variabel)<br />

Et spil i et casino går ud på at trække en tilfældig seddel fra en urne (og lægge sedlen tilbage igen). Urnen indeholder<br />

10 sedler, og på hver seddel står 2 tal ( X1, X2)<br />

:<br />

(1,0) (3,0) (4,0)<br />

(1,0) (3,3) (4,3)<br />

(1,3)<br />

(1,3)<br />

(1,3)<br />

(4,3)<br />

a1) Find den 2-dimensionale tæthedsfunktion f ( x1, x2)<br />

:<br />

a2) Find de 1-dimensionale tæthedsfunktioner f1( x1)<br />

og f2( x2)<br />

.<br />

a3) Er X 1 og X 2 statistisk uafhængige ?<br />

a4) Find middelværdierne µ 1 = E( X1)<br />

og µ 2 = E( X2)<br />

samt spredningerne σ1( X 1)<br />

og σ 2( X 2)<br />

.<br />

2<br />

a5) Find middelværdien E( X1⋅X2) .<br />

b) Antag, at man i stedet kender en stikprøve på ( X1, X2)<br />

:<br />

(1,3), (1,0), (1,0), (4,3), (3,0), (4,3), (1,0), (3,0), (3,3 ), (1,3).<br />

b1) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a4).<br />

Opgave 11.1.2 (kovarians, korrelationskoefficient)<br />

a6) Find kovariansen V( X1, X2)<br />

og korrelationskoefficienten ρ( X1, X2)<br />

.<br />

b2) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a6).<br />

Opgave 11.1.3 (linearkombination)<br />

For det i opgave 11.1.1 og 11.1.2 omtalte casino aftales et spil, hvor gevinsten er<br />

G = 20 + 10X1 + 5X2.<br />

a7) Find gevinstens middelværdi E( G)<br />

og spredning σ( G)<br />

.<br />

b3) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a7).<br />

Opgave 11.2.1 (2-dimensional stokastisk variabel)<br />

Under en produktion kan der optræde fejl. Lad ( X1, X2)<br />

=( Antal gange der optræder fejl af type 1, Antal gange der<br />

optræder fejl af type 2) i en tilfældig produktion. Variablen X 1 kan antage værdierne 0, 1 og 2, mens X 2 kun kan antage<br />

værdierne 0 og 1.<br />

a) Antag, at man teoretisk kender tæthedsfunktionen f ( x , x ) :<br />

1 2<br />

f ( x1, x2)<br />

x1 0 1 2<br />

x2 0 0.3 0.1 0.1<br />

1 0.1 0.2 0.2<br />

a1) Find de 1-dimensionale tæthedsfunktioner f1( x1)<br />

og f2( x2)<br />

.<br />

a2) Er X 1 og X 2 statistisk uafhængige ?<br />

a3) Find middelværdierne µ 1 = E( X1)<br />

og µ 2 = E( X2)<br />

samt spredningerne σ1( X 1)<br />

og σ 2( X 2)<br />

.<br />

a4) Find middelværdien E( X1 + X2)<br />

.<br />

b) Antag, at man i stedet kender en stikprøve på ( X1, X2)<br />

:<br />

(0,1), (0,0), (1,1), (1,1), (0,0), (0,0), (0,1), (2,1), (0,0 ), (2,1).<br />

b1) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a3).<br />

Opgave 11.2.2 (kovarians, korrelationskoefficient)<br />

Vi betragter igen produktionsprocessen fra opgave 11.2.1.<br />

a5) Find kovariansen V( X1, X2)<br />

og korrelationskoefficienten ρ( X1, X2)<br />

.<br />

b2) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a5).<br />

128


Opgave 11.2.3 (linearkombination)<br />

For den i opgave 11.2.1 og 11.2.2 omtalte produktionsproces er fortjenesten<br />

F = 20000 − 3000X1 − 4000X2.<br />

a6) Find fortjenestens middelværdi E( F)<br />

og spredning σ( F)<br />

.<br />

b3) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a6).<br />

129<br />

Opgaver til kapitel 11<br />

Opgave 11.3.1 (2-dimensional stokastisk variabel)<br />

År 4001. En sonde er vendt hjem med oplysninger om individer på en fremmed planet. De kan have 2, 4 eller 6 øjne,<br />

og 2 eller 4 ører. Lad ( X , X ) = (Antal øjne, Antal ører) for et tilfældigt udtaget individ på planeten.<br />

1 2<br />

a) Professor Cosmussen har teoretisk opstillet tæthedsfunktionen f ( x , x ) :<br />

f ( x1, x2)<br />

x 2<br />

x 1<br />

1 2<br />

2 4 6<br />

2 0.1 0.2 0.1<br />

4 0.1 0.3 0.2<br />

a1)<br />

a2)<br />

a3)<br />

Find de 1-dimensionale tæthedsfunktioner f1( x1)<br />

og f2( x2)<br />

.<br />

Er X 1 og X 2 statistisk uafhængige ?<br />

Find middelværdierne µ 1 = E( X1)<br />

og µ 2 = E( X2)<br />

samt spredningerne σ1( X 1)<br />

og σ 2( X 2)<br />

.<br />

⎛ 1<br />

a4) Find middelværdien E⎜ ⎝ X<br />

1 ⎞<br />

+ ⎟ .<br />

X ⎠<br />

1 2<br />

b) Antag, at man i stedet kender en stikprøve på ( X1, X2)<br />

:<br />

(6,2), (2,4), (6,4), (2,2), (6,4), (4,4), (2,2), (4,2), (4,4 ), (4,4).<br />

b1) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a3).<br />

Opgave 11.3.2 (kovarians, korrelationskoefficient)<br />

Vi betragter igen individerne fra opgave 11.2.1.<br />

a5) Find kovariansen V( X1, X2)<br />

og korrelationskoefficienten ρ( X1, X2)<br />

.<br />

b2) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a5).<br />

Opgave 11.3.3 (linearkombination)<br />

For de i opgave 11.3.1 og 11.3.2 omtalte individer har professor Cosmussen opstillet en formel for deres masse:<br />

M = 200 + 20X1 + 10X2<br />

kg.<br />

a6) Find massens middelværdi E( M)<br />

og spredning σ( M)<br />

.<br />

b3) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a6).<br />

Opgave 11.4.1 (2-dimensional stokastisk variabel)<br />

Lad ( X1, X2)<br />

= ( Højde [cm], Masse [kg] ) af en tilfældigt udtaget studerende på 3. halvår.<br />

Der foreligger følgende stikprøve:<br />

(178,63), (186,85), (180,68), (183,75), (164,55), (193,77),<br />

(193,84), (160,55), (165,63), (180,84), (169,74), (189,79) .<br />

Find estimater for middelværdierne = E X og = E X samt spredningerne ( ) og ( X ) .<br />

µ 1 ( 1)<br />

µ 2 ( 2)<br />

σ1 X 1 σ 2 2<br />

Opgave 11.4.2 (kovarians, korrelationskoefficient)<br />

Benyt stikprøven i opgave 11.4.1 til at finde estimater for kovariansen V( X1, X2)<br />

og korrelationskoefficienten<br />

ρ( X , X ) .<br />

1 2<br />

Opgave 11.4.3 (linearkombination)<br />

Vi betragter igen de i opgave 11.4.1 og 11.4.2 omtalte studerende. En frugtavler har opstillet en formel for den timeløn,<br />

han vil give dem som frugtplukkere:<br />

L = 100 + 0. 3X1 − 0. 2 X2<br />

kroner/time.<br />

Benyt stikprøven til at finde estimater for timelønnens middelværdi E( L)<br />

og spredning σ( L)<br />

.


Flerdimensional stokastisk variabel<br />

Opgave 11.5 (poolet estimat)<br />

Koncentrationen af et stof A blev målt i 3 partier råvarer:<br />

Råvare 1: 56, 60, 54, 49, 61<br />

Råvare 2: 78, 73, 80<br />

Råvare 3: 66, 62, 70, 72, 60<br />

Det antages, at der er samme spredning i de 3 tilfælde. Find et estimat for spredningen .<br />

Opgave 11.6 (poolet estimat)<br />

Koncentrationen af et stof A blev målt i 2 levnedsmidler:<br />

Levnedsmiddel 1: 87, 89, 94, 86, 89, 95 Levnedsmiddel 2: 93, 99, 94, 91, 98 .<br />

Det antages, at der er samme spredning i de 2 tilfælde. Find et estimat for spredningen .<br />

Opgave 11.7 (poolet estimat)<br />

Koncentrationen af et stof A blev målt i mælken fra 5 køer:<br />

Ko 1: 44, 48, 46, 43, 45 Ko 2: 40, 38, 41<br />

Ko 3: 43, 45, 42, 42<br />

Ko 5: 50<br />

Ko 4: 36, 32<br />

Det antages, at der er samme spredning i de 5 tilfælde. Find et estimat for spredningen .<br />

130<br />

s pool<br />

s pool<br />

s pool<br />

σ<br />

σ<br />

σ


Statistiske beregninger på lommeregner og PC-er<br />

STATISTISKE BEREGNINGER PÅ LOMMEREGNERNE TI89<br />

og TI83 SAMT PÅ PC-PROGRAMMERNE EXCEL, MAPLE OG<br />

MATHCAD<br />

TI 89<br />

1) Generelt:<br />

Metode 1: Vælg HOME\ CATALOG,, F3\ vælg den ønskede fordeling\ENTER<br />

(benyt evt. ALPHA,+ forbogstav for hurtigt at komme til det ønskede navn).<br />

Fordel: Hurtig ved beregning af sandsynligheder, såsom P(X < 0.87) da resultatet straks<br />

indsættes på HOME-linien.<br />

Ulempe: Man skal huske parametrenes rækkefølge (de kan dog ses nederst på skærmen<br />

Metode 2: Vælg APPS\ Stats/List\ indtast eventueller data i eksempelvis “list1" \ vælg en relevant “F- knap”.<br />

Fordel: Der fremkommer nu en menu, som er næsten selvforklarende.<br />

Ulempe: Skal resultatet ned på HOME-linien (man vil regne videre), bliver det lidt besværligt:<br />

HOME, Var-Link\I StatsVar mappen markeres den ønskede størrelse, ENTER<br />

Oprette en “Folder”: VAR-Link\ F1\ 5: Create Folder\ Skriv navn på folder.<br />

Vælg en mappe som den aktuelle mappe: MODE\ Current Folder\navn<br />

Formål: Det kan være praktisk ikke at gemme alle sine resultater i MAIN.<br />

2) Sandsynlighedsfordelinger.<br />

Normalfordeling n( µ , σ )<br />

a) Find p = P( a ≤ X ≤b)<br />

, hvor a ,b, µ , σ er givne konstanter. p = normcdf( ab , , µ , σ )<br />

Eksempel: p = P( X ≤116<br />

. ) , hvor µ = 113 ., σ = 5 p = normcdf( − ∞ ,11.6, 11.3,5) = 0.524<br />

b) Find : ( ≤ ) = , hvor p, µ , σ er givne konstanter. x p =invNorm( p, µ , σ )<br />

x p<br />

P X xp p<br />

Eksempel: P( X ≤ xp) = 07 . ,hvor µ = 11,, 4 σ = 6 x p =invNorm(0.7,11.4,6) =14.55<br />

t - fordeling. Lad T være t - fordelt med frihedsgradstallet f.<br />

a) Find p = P( a ≤T ≤b)<br />

, hvor a og b er givne konstanter. tCdf(a,b,f)<br />

Eksempel: p = P( T ≤ −13<br />

. ) , med f = 14 p = tCdf(- ∞ ,-1.3,14) = 0.1073<br />

b) Find tα ( f ): P( T ≤ tα ( f )) = α ( α given konstant). invt( α ,f )<br />

Eksempel: t0975 . ( 12)<br />

= invt(0.975,12) = 2.179<br />

χ fordeling. Lad Q være fordelt med frihedsgradstallet f.<br />

2 − χ 2 −<br />

a) Find p= P( a ≤Q≤b) , hvor a og b er givne konstanter. p = chi2Cdf(a,b,f)<br />

Eksempel:Find p = P( Q≥27.<br />

3)<br />

, med f = 19 p = chi2Cdf(27.3, ∞ ,19) = 0.0979<br />

2<br />

b) Find fraktilen χα ( f ) : PQ ( ≤ χ ( f))<br />

= α ( given konstant). invChi2( ,f)<br />

α 2 α α<br />

2<br />

Eksempel: χ 0. 025 () 8 = invChi2(0.025,8) = 2.18<br />

Binomialfordeling. Lad X være binomialfordelt b(n,p)<br />

Find Pl ( ≤ X≤m) , hvor 0 ≤ l < m∧m≤n og l og m er hele tal. binomtCdf(n,p,l,m)<br />

Eksempel :p = P( 3≤X ≤ 6)<br />

hvor n = 10 og p = 0.3 p = binomtCdf(10, 0.3, 3, 6) = 0.6066<br />

µ<br />

Poissonfordeling. Lad X være Poissonfordelt p( )<br />

Find Pl ( ≤ X≤m) , hvor 0 ≤ l < m og l og m er hele tal. poissCdf( µ ,l,m)<br />

Eksempel: p = P( X ≤ 94 ) , hvor µ<br />

= 147.6 p = poissCdf(147.6,0,94) = 0.00002<br />

131


Statistiske beregninger på lommeregner og PC-er<br />

3) Gennemsnit, varians og spredning<br />

Find gennemsnit , varians og spredning af tallene 1, 3, 4, 8<br />

Metode 1. HOME\ MATH\6.Statistics\ Anvendes med få tal og kun ønsker beregning af en enkelt størrelse.<br />

Gennemsnit: Mean (liste) Eksempel : Mean({1,3,4,8}) = 4<br />

Varians: Variance(liste) Eksempel : Variance({1,3,4,8}) = 8.667<br />

Spredning: stdDev (liste) Eksempel : stdDev({1,3,4,8}) = 2.944<br />

Metode 2. APPS\ Stats/List\ Data indtastes i “list1"\ F4\ 1: 1-Var Stats<br />

I menu sættes “List” til “List1" (Benyt evt. Var-Link til at finde List1)<br />

Udskriften består af en række statistiske størrelser. Man finder =4, =2.944<br />

x σ x<br />

4) Hypotesetest og konfidensintervaller<br />

APPS\ STAT/LIST hvorefter eventuelle data indtastes i list1<br />

4.1. Normalfordeling. 1 variabel<br />

a1) Hypotesetest; σ kendt: F6\ 1: Z-Test\<br />

Eksempel: Lad data være gemt i list1: {1,3,4,8} , σ = 3 og H: µ < 5<br />

Vælg Data: I menu: µ 0 =5 , σ = 3 , list = list1, Altern. Hyp µ < µ 0 P-værdi = 0.25<br />

x = 4, σ = 3, n = 10 µ < 5<br />

Eksempel: Opgivet , H:<br />

Vælg Stats: I menu: µ 0 =5 , σ = 3 , x = 4, n = 10 , Altern. Hyp µ < µ 0 P-værdi = 0.145<br />

a2) Konfidensinterval σ kendt: F7\ 1: Z-Interval<br />

Eksempel: Lad data være gemt i list1: {1,3,4,8} , σ = 3<br />

Vælg Data: I menu: σ = 3 , list = list1, C Level =.95<br />

Eksempel: Opgivet x = 5, σ = 3, n = 10,<br />

C Int =[1,05; 6.54]<br />

Vælg Stats: I menu: σ = 3 , x = 5, n = 10<br />

C Int =[3.14;6.85]<br />

b1) Hypotesetest; σ ukendt: F6\ 2: T - Test\<br />

Eksempel: Lad data være gemt i list1: {1,3,4,8} H: µ < 5<br />

µ 0 µ µ<br />

Vælg Data: I menu: =5 , list = list1, Altern. Hyp < 0<br />

P-værdi = 0.27<br />

Eksempel: Opgivet x = 4, s= 3, n = 10,<br />

H: µ < 5<br />

Vælg Stats: I menu: µ 0 =5 , x = 4, s= 3, n = 10,<br />

Altern. Hyp µ < µ 0 P-værdi = 0.160<br />

b2) Konfidensinterval σ ukendt: F7\ 1: T-Interval<br />

Eksempel: Lad data være gemt i list1: {1,3,4,8}<br />

Vælg Data: I menu: list = list1, C Level =.95 C Int =[-0.684; 8.684]<br />

Eksempel: Opgivet x = 4, s= 3, n = 10,<br />

Vælg Stats: I menu: x = 4, s= 3, n = 10<br />

C Int =[1.85;6.15]<br />

4.2. Binomialfordeling.<br />

a1) Hypotesetest: F6, 5: 1-Prop-ZTest (Kræver der kan approksimeres til normalfordeling)<br />

Eksempel: X er binomialfordelt b(24, p) , x = 13, H: p > 0.3<br />

Vælg: p0= 0.3, Successes = 13, n= 24, Alternate Hyp : prop > po P -værdi = 0.00489<br />

a2) Konfidensinterval: F7, 5: 1-Prop-ZInt (Kræver der kan approksimeres til normalfordeling)<br />

Eksempel: Af 24 forsøg de 13 en succes:<br />

Vælg: Successes = 13, n= 24, C Int =[0.34; 0.74]<br />

Poissonfordeling: findes ikke, så her må formel for konfidensinterval benytttes<br />

5. Normalfordeling. 2 variable<br />

a1) Hypotesetest; F6\ 4: 2-SampTtest\ udfyld menu (se eksempel 7.1 eller 7.2)<br />

Konfidensinterval: F7\ 4: 2-SampTint\ udfyld menu(se eksempel 7.1)<br />

132


133<br />

Excel<br />

Excel<br />

1) Generelt<br />

Forudsætninger.<br />

Da ikke alle de anvendte statistiske funktioner er indbygget fra starten, skal man først vælge et tilføjelsesprogram:<br />

I Excel 2003: Vælg “Funktioner”, “Tilføjelsesprogrammer”, marker “Problemløser”<br />

I Excel 2007: Vælg “Excel-Office-knappen”, “Excel indstillinger (findes forneden)”, Tilføjelsesprogrammer”,<br />

”Udfør”, ”marker Problemløser”, “Installer”.<br />

Inddata.<br />

Vi vil i det følgende for kortheds skyld antage, at den første stikprøves værdier står i cellerne A1, A2, A3 . . . A10.<br />

Kræves der flere variable vil den næste stå i cellerne B1, B2, B3 . . . B8, osv.<br />

Man angiver “udskriftsområdet” eller “inputområdet” f.eks en søjle placere i cellerne A1:A10 ved<br />

a) at markere området A1 til A10<br />

b) at skrive eksempelvis A1:A10<br />

c) at give det et navn: Vælg “Indsæt” i Excel 2003: Navn i Excel 2007:Formler Definer i menu skriv søjlens<br />

navn og (nederst)A1:A10<br />

Skrive , beregne og kopiere formler.<br />

Vælg den celle hvor resultatet skal stå. Lad det være B1: På værktøjslinien foroven skriv = formel skrives<br />

ENTER Resultatet står nu i celle B1<br />

Hvis selve formlen skal stå i en anden celle. Lad det være A1: Cursor placeres i B1 I formelfelt markeres formlen<br />

uden lighedstegn og man kopierer den (CTRL C)” ENTER (så formlen igen er beregnet i B1 Cursor over i A1<br />

og paste (CTRL V)<br />

Udskrive gitterlinier og række og kolonneoverskrifter<br />

Excel 2003: Vælg Filer Sideopsætning Ark Marker gitterlinier marker række- og kolonneoverskrifter.<br />

Excel 2007: Vælg Sidelayout Under“Gitterlinier” marker “Udskriv” Under “Overskrifter” marker “Udskriv”<br />

2: Indsætte og tegne diagrammer<br />

Lagkage eller søjle: se eksempel 2.1 side 2<br />

Kurve: se eksempel 2.4 side 4<br />

Tegne histogram: se eksempel 2.5 side 6<br />

3: Beregne statistiske størrelser og funktioner<br />

Beregning af “Karakteristiske tal” (se evt. side 11)<br />

Data indtastes i eksempelvis søjle A1 til A10<br />

Excel 2003: Funktioner Dataanalyse Beskrivende statistik udfyld inputområde Resumestatistik<br />

Excel 2007: Data Dataanalyse Beskrivende statistik udfyld inputområde Resumestatistik<br />

Valg af statistiske størrelser (funktioner)<br />

1) Vælg den celle hvor resultatet skal stå (eksempelvis A1).<br />

2) På værktøjslinien foroven:<br />

2a) Tryk på<br />

f x<br />

2b) På den fremkommne menu vælges den ønskede funktion eksempelvis “NORMALFORDELING”<br />

2c) Der fremkommer en menu med anvisning på, hvordan den skal udfyldes.<br />

Gennemsnit, spredning, median, kvartil<br />

Navnene anføres nedenunder, men den fremkomne menu gør det let at indsætte de rette parametre.<br />

Gennemsnit x = MIDDEL(A1:A10)<br />

Spredning s = STDAFV (A1:A10)<br />

Median m = MEDIAN(A1:A10) (= KVARTIL(A1:A10;2) )<br />

1. Kvartil = KVARTIL(A1:A10;1)<br />

Fakultet, kombination, Permutation (se evt. side 80)<br />

Fakultet n! = FAKULTET(n) Eksempel: 5! =FAKULTET(5) = 120


Statistiske beregninger på lommeregner og PC-er<br />

Kombination K(n,p) = KOMBIN(n;p) Eksempel: K(5,3)==KOMBIN(5;3) = 10<br />

Permutation P(n,p = PERMUT(n;p) Eksempel: P(5,3) = PERMUT(5;3) = 60<br />

Normalfordeling.<br />

Lad X være normalfordelt med middelværdi µ og spredning σ<br />

1) P( X ≤ x)<br />

= NORMFORDELING(x ; µ ; σ ;1)<br />

2) P( X ≥ x)<br />

= 1 - NORMFORDELING(x ; µ ; σ ;1)<br />

3) Pa ( ≤ X≤ b) = P( X≤ b) − P( X≤ a)<br />

= NORMFORDELING(b ; µ ; σ ;1) -NORMFORDELING(a ; µ ; σ ;1)<br />

Fraktil x p : P( X ≤ x ) = p⇔<br />

NORMINV(p; µ ; σ )<br />

p<br />

Eksempel: u0975 . = NORMINV(0,975;0;1) = 1,959961<br />

t - fordeling. (se evt. side 44)<br />

Lad T være t - fordelt med f frihedsgrader..<br />

1) PT ( ≥ t)<br />

= TFORDELING(abs(t); f ;1)<br />

(bemærk: TFORDELING(abs(t); f ;1) udregner “øvre hale” af fordelingen)<br />

2) PT ( ≤−t) + PT ( ≥ t)<br />

= TFORDELING(abs(t); f ;2) (udregner “halen” til begge sider)<br />

Fraktil<br />

tα ( f ) = TINV(2(1 - α ) ; f) , α > 0.5<br />

tα ( f ) = - TINV(2 α ; f) , α < 0.5<br />

α<br />

Bemærk: TINV( α ;f) udregner “øvre hale”, svarende til 1 -<br />

2<br />

Bemærk: Man må må udnytte symmetrien i t-fordelingen, for værdier mindre end 0 (svarende til α < 0.5)<br />

Eksempel:<br />

Lad T være t - fordelt med 12 frihedsgrader<br />

1) P( X ≤−1) = P( X ≥ 1)<br />

= TFORDELING(abs(-1);12;1) = 0,168525<br />

2) t0 975 12 = TINV(0,05;12) = 2,178813<br />

. ( )<br />

t0. 025 ( 12)<br />

χ - fordeling. (se evt.side 49)<br />

2<br />

= - TINV(0,05;12) = - 2,178813<br />

Lad X være χ - fordelt med f frihedsgrader<br />

2<br />

P( X ≥ x)<br />

= CHIFORDELING(x;f)<br />

(bemærk: CHIFORDELING(x;f) udregner “øvre hale” af fordelingen)<br />

Fraktil<br />

2<br />

χα ( f ) =CHIINV(1- α ;f)<br />

(bemærk: CHIINV( α ;f) udregner “øvre hale”)<br />

Eksempel:<br />

Lad X være χ - fordelt med 8 frihedsgrader<br />

2<br />

1) P( X ≤ 5)<br />

= 1- CHIFORDELING(5;8) = 0,242424<br />

2)<br />

2<br />

() 8 =CHIINV(0,025;8) = 17,53454<br />

χ 0. 975<br />

2<br />

χ 0. 025<br />

() 8 =CHIINV(0,975;8) = 2,179725<br />

Hypergeometrisk fordeling (se evt. side 88)<br />

Lad X være hypergeometrisk fordelt med parametrene N, M og n<br />

P( X = x)<br />

= HYPGEOFORDELING(x ; n ; M ; N)<br />

Eksempel: Lad N = 600, M = 10 og n = 25<br />

P( X ≤ 1)<br />

= HYPGEOFORDELING(1;25;10;600)+HYPGEOFORDELING(0;25;10;600) = 0,938876<br />

Binomialfordeling ( se evt. side 91)<br />

Lad X være binomialfordelt med parametrene n og p<br />

P( X = x)<br />

= BINOMIALFORDELING(x ; n; p; 0)<br />

P( X ≤<br />

x)<br />

= BINOMIALFORDELING(x ; n; p; 1)<br />

134


Eksempel (jævnfør eksempel 72)<br />

Lad X være binomialfordelt med n = 6 og p = 0.15<br />

P( X = 3)<br />

= BINOMIALFORDELING(3;6;0,15;0) = 0,041453<br />

P( X ≥ 3) = 1- P( X ≤ 2)<br />

=1 - BINOMIALFORDELING(2;6;0,15;1) = 0,047339<br />

Poissonfordeling (se evt. side 97)<br />

Lad X være Poissonfordelt med middelværdien µ<br />

P( X = x)<br />

= POISSON(x; µ ; 0)<br />

P( X ≤ x)<br />

= POISSON(x; µ ; 1)<br />

Eksempel<br />

Lad X være Poissonfordelt med middelværdien 10<br />

P(X = 4) = POISSON(4; 10;0) = 0.018917<br />

P( X ≥ 4)<br />

= 1 - POISSON(4;10;1) = 0,970747<br />

Eksponentialfordeling<br />

Lad T være eksponentialfordelt med middelværdien µ .<br />

PT ( ≤ t)<br />

= EKSPFORDELING(t,1/ µ ,1)<br />

Eksempel:<br />

Lad T være eksponentialfordelt med middelværdi µ =2<br />

PT ( ≤ 3)<br />

=<br />

Konfidensintervaller<br />

EKSPFORDELING(3;1/2;1) = 0,77687<br />

Konfidensinterval middelværdi for 1 normalfordelt variabel. kendt eksakt<br />

σ<br />

Radius r i et 95% konfidensinterval for µ : x ± r = x ± u0975<br />

. (se evt. side 42)<br />

n<br />

r = KONFIDENSINTERVAL(0,05; σ , n).<br />

Eksempel. Lad stikprøven have n =6 værdier, lad spredning σ = 0.25 og gennemsnit x =8<br />

r =KONFIDENSINTERVAL(0,05;0,25;6). Resultat 0,200038<br />

95% konfidensinterval: 8,0 ± 0.200<br />

Konfidensinterval for middelværdi for 1 normalfordelt variabel . σ ikke kendt eksakt<br />

se side 45<br />

Konfidensinterval for sandsynlighed p for 1 binomialfordelt variabel.<br />

se side 93<br />

Hypotesetest<br />

1 normalfordelt variabel<br />

σ kendt eksakt se eksempel 6.1 side 55<br />

σ ikke kendt eksakt se eksempel 6.2 side 56<br />

2 normalfordelte variable<br />

1) Ikke parvise observationer:<br />

data givet: se Excel-program i eksempel 7.1 side 67<br />

data ikke givet: se Excel-program i eksempel 7.2 side 69<br />

2) Parvise observationer:<br />

se Excel-program i eksempel 7.3 side 70<br />

1 binomialfordelt variabel<br />

se eksempel 9.6 side 92<br />

135<br />

σ<br />

Excel


Statistiske beregninger på lommeregner og PC-er<br />

TI 83<br />

1) Sandsynlighedsfordelinger.<br />

Man vælger 2nd DISTR<br />

Normalfordeling n( )<br />

µ , σ<br />

a) Find p = P( a ≤ X ≤b)<br />

, hvor a ,b, µ , σ er givne konstanter. p = normcdf( ab , , µ , σ )<br />

Eksempel: p = P( X ≤116<br />

. ) , hvor µ = 113 ., σ = 5<br />

Bemærk: nedre grænse er sat til -1000<br />

p = normcdf(-1000,11.6, 11.3,5) = 0.524<br />

b) Find x p : P( X ≤ x ) = p,<br />

hvor p, µ , σ er givne konstanter. x p =invNorm( p, µ , σ)<br />

p<br />

Eksempel: P( X ≤ xp) = 07 . ,hvor µ = 11,, 4<br />

t - fordeling.<br />

Lad T være t - fordelt med frihedsgradstallet f.<br />

σ = 6<br />

x p =invNorm(0.7,11.4,6) =14.55<br />

a) Find p = P( a ≤T ≤b)<br />

, hvor a og b er givne konstanter. tCdf(a,b,f)<br />

Eksempel: p = P( T ≤ −13<br />

. ) , med f = 14 p = tCdf(- ∞ ,-1.3,14) = 0.1073<br />

b) Find tα ( f ): P( T ≤ tα ( f )) = α ( α given konstant).<br />

Kan ikke findes dirkte (mærkværdigt) så lettest at slå op i tabel.<br />

Kan dog besværligt findes ved at løse den tilsvarende ligning:<br />

χ 2<br />

Eksempel: Find t0975 . ( 12)<br />

Vi løser ligningen tCdf(-100,x,12)-0.975=0 med hensyn til x, idet vi som startgæt vælger 1<br />

CATALOG, solve(tCdf(-100,x,12)-0.975,x,1) Resultat: 2.179<br />

fordeling.<br />

a) Find p= P( a ≤Q≤b) , hvor a og b er givne konstanter. p = chi2Cdf(a,b,f)<br />

Eksempel:Find p = P( Q≥27.<br />

3)<br />

, med f = 19 p = chi2Cdf(27.3,1000,19) = 0.0979<br />

2<br />

b) Find fraktilen χα ( f ) : PQ ( ≤<br />

som ovenfor.<br />

χ ( f))<br />

= α ( given konstant).Findes ikke, så enten tabelopslag eller løse ligning<br />

α 2 α<br />

Binomialfordeling.<br />

Lad X være binomialfordelt b(n,p)<br />

Find Pl ( ≤ X≤m) , hvor 0 ≤ l < m∧m≤n og l og m er hele tal. binomtCdf(n,p,l,m)<br />

Eksempel :p = P( 3≤X ≤ 6)<br />

hvor n = 10 og p = 0.3<br />

p = binomtCdf(10, 0.3, 6)- binomtCdf(10, 0.3, 2)= 0.6066<br />

Poissonfordeling.<br />

Lad X være Poissonfordelt p( µ )<br />

Find Pl ( ≤ X≤m) , hvor 0 ≤ l < m og l og m er hele tal. poissCdf( µ ,l,m)<br />

Eksempel: p = PX ( ≤ 94 ) , hvor µ = 147.6 p = poissCdf(147.6,94) = 0.00002<br />

Find gennemsnit , varians og spredning af tallene 1, 3, 4, 8<br />

Metode 1. List\ MATH\<br />

Anvendes hvis man har få tal og kun ønsker beregning af en enkelt størrelse.<br />

Gennemsnit: Mean (liste) Eksempel : Mean({1,3,4,8}) = 4<br />

Varians: Variance(liste) Eksempel : Variance({1,3,4,8}) = 8.667<br />

Spredning: stdDev (liste) Eksempel : stdDev({1,3,4,8}) = 2.944<br />

Metode 2. STAT\ Edit<br />

I listen L1 skrives 1 ENTER 3 ENTER 4 ENTER 8 ENTER (slet eventuelle allerede indtastede tal med DEL<br />

STAT hvorved cursor står på CALC. ENTER vælg 1 -Var STATS ENTER<br />

2nd L1 ENTER Resultat blandt meget andet: =4 og = 2.9439<br />

136<br />

x s x<br />

Beregn binomialkoefficient K(8,3) = 8 MATH, PROB, nCr 3. ENTER Resultat 560<br />

2. Hypotesetest og konfidensintervaller<br />

Eventuelle data indtastes i list1. Derefter vælges STAT, TESTS


2.1. Normalfordeling.<br />

a1) Hypotesetest\ σ kendt: 1: Z-Test<br />

Eksempel: Lad data være gemt i list1: {1,3,4,8} , σ = 3 og H: µ < 5<br />

137<br />

TI - 83<br />

Vælg Data: I menu: µ 0 =5 , σ = 3 , List = L1, µ < µ 0 CALCULATE P-værdi = 0.25<br />

x = 4, σ = 3, n = 10 µ < 5<br />

Eksempel: Opgivet , H:<br />

Vælg Stats: I menu: µ 0 =5 , σ = 3 , x = 4, n = 10 , µ < µ 0<br />

P-værdi = 0.145<br />

a2) Konfidensinterval σ kendt: 7: Z-Interval<br />

Eksempel: Lad data være gemt i list1: {1,3,4,8} ,σ = 3<br />

Vælg Data: I menu: σ = 3 , list = L1, C Level =.95<br />

Eksempel: Opgivet x = 5, σ = 3, n = 10,<br />

C Int =[1,05; 6.54]<br />

Vælg Stats: I menu: σ = 3 , x = 5, n = 10<br />

C Int =[3.14;6.86]<br />

b1) Hypotesetest; σ ukendt: 2: T - Test\<br />

Eksempel: Lad data være gemt i list1: {1,3,4,8} H: µ < 5<br />

µ 0 µ µ<br />

Vælg Data: I menu: =5 , list = L1, < 0<br />

P-værdi = 0.27<br />

Eksempel: Opgivet x = 4, s= 3, n = 10,<br />

H: µ < 5<br />

Vælg Stats: I menu: µ 0 =5 , x = 4, s= 3, n = 10,<br />

µ < µ 0<br />

P-værdi = 0.160<br />

b2) Konfidensinterval σ ukendt: 8: T-Interval<br />

Eksempel: Lad data være gemt i list1: {1,3,4,8}<br />

Vælg Data: I menu: list = list1, C Level =.95 C Int =[-0.684; 8.684]<br />

Eksempel: Opgivet x = 4, s= 3, n = 10,<br />

Vælg Stats: I menu: x = 4, s= 3, n = 10<br />

C Int =[1.85;6.15]<br />

2.2. Binomialfordeling.<br />

a1) Hypotesetest: 5: 1-Prop-ZTest (Kræver der kan approksimeres til normalfordeling)<br />

Eksempel: X er binomialfordelt b(24, p) , x = 13, H: p > 0.3<br />

Vælg: p0= 0.3, x = 13, n= 24, prop > po P -værdi = 0.00489<br />

a2) Konfidensinterval: A: 1-Prop-ZInt (Kræver der kan approksimeres til normalfordeling)<br />

Eksempel: Af 24 forsøg er de 13 en succes:<br />

Vælg: x = 13, n= 24, C Int =[0.34; 0.74]<br />

Poissonfordeling: findes ikke, så her må formel for konfidensinterval benyttes


Statistiske beregninger på lommeregner og PC-er<br />

MAPLE<br />

Beregn gennemsnit og spredning af tallene 1 3 4 8<br />

> with(stats):<br />

data:=[1,3,4,8];<br />

data := [1, 3, 4, 8]<br />

> describe[mean](data);<br />

4<br />

> describe[standarddeviation[1]](data);<br />

Beregne korrelationskoefficient for den i eksempel 9.2 nævnte stikprøve<br />

(1,2), (0,0), (2,2), (2,2), (1,0), (2,2), (0,2), (2,2), (0,2), (2,2) .<br />

Programudførelse:<br />

> data1:=[1,0,2,2,1,2,0,2,0,2]; x- værdier<br />

data1 := [1, 0, 2, 2, 1, 2, 0, 2, 0, 2] udskrift<br />

> data2:=[2,0,2,2,0,2,2,2,2,2]; y-værdier<br />

data2 := [2, 0, 2, 2, 0, 2, 2, 2, 2, 2] udskrift<br />

> describe[linearcorrelation](data1,data2): evalf(");<br />

.4014775343 resultat<br />

Normalfordeling.<br />

Find for n(113.3,5.6) P( X ≤ 116.1) .<br />

Programudførelse:<br />

> with(stats):<br />

> with(statevalf):<br />

> cdf[normald[113.3,5.6]](116.1);<br />

Facit .6914624613<br />

χ 2<br />

fordeling.<br />

Find en tests P-værdi: P( Q ≥ 27.26) idet frihedsgradstallet er 19 (jævnfør eksempel 5.6)<br />

Programudførelse:<br />

> with(stats):<br />

> with(statevalf):<br />

> 1-cdf[chisquare[19]](27.36);<br />

Facit: .0965431211<br />

t - fordeling.<br />

Find en tests P-værdi: PT ( ≤ -1.31) idet frihedsgradstallet er 14 (jævnfør eksempel 5.5)<br />

Programudførelse:<br />

> with(stats):<br />

> with(statevalf):<br />

> cdf[studentst[14]](-1.31);<br />

Facit: .1056420798<br />

Find for binomialfordelingen b(100,0.3) P( X ≤ 35)<br />

Programudførelse:<br />

> with(stats):<br />

> with(statevalf):<br />

> dcdf[binomiald[100,0.3]](35);<br />

Facit: .8839213940<br />

138


MATHCAD<br />

1) Generelt:<br />

Sandsynlighedsfunktioner :<br />

Skriv funktionens navn eller vælg fra (øverste) værktøjslinie<br />

f ( x)<br />

\Probability Density (dfunktionsnavn). Tæthedsfunktion PX ( = a)<br />

,<br />

f ( x)<br />

\Probability Distribution (pfunktionsnavn). Fordelingsfunktion PX ( ≤ a)<br />

eller<br />

f ( x)<br />

\Probability Distribution (qfunktionsnavn) Invers tæthedsfunktion: P( X ≤ xp) = pFind<br />

x p .<br />

Rækkefølgen af parametrene kan findes ved at placere cursor på navnet og trykke på tasten F1.<br />

2) Sandsynlighedsfordelinger.<br />

Normalfordeling n( µ , σ )<br />

p = P( a ≤ X ≤b)<br />

µ , σ<br />

139<br />

MATHCAD<br />

a) Find , hvor a ,b, er givne konstanter.<br />

p= P( a≤ X ≤ b) = P( X ≤b) − P( X ≤ a)<br />

= pnorm(b, µ , σ ) - pnorm(a, µ , σ )<br />

Eksempel: p = P( X ≤116<br />

. ) , hvor µ = 113 ., σ = 5<br />

p = pnorm(11.6, 11.3,5) = 0.524<br />

b) Find x p : P( X ≤ x ) = p,<br />

hvor p, µ , σ er givne konstanter. x p =qnorm( p, µ , σ )<br />

p<br />

Eksempel: P( X ≤ xp) = 07 . ,hvor µ = 11,, 4 σ = 6<br />

x p =qnorm(0.7,11.4,6) =14.55<br />

t - fordeling.<br />

Lad T være t - fordelt med frihedsgradstallet f.<br />

a) Find p = P( a ≤T ≤b)<br />

, hvor a og b er givne konstanter.<br />

p= P( a≤ X ≤ b) = P( X ≤b) − P( X ≤ a)<br />

= pt(b,f) -pt(a,f)<br />

Eksempel: p = P( T ≤ −13<br />

. ) , med f = 14 p = pt(-1.3,14) = 0.1073<br />

b) Find tα ( f ): P( T ≤ tα ( f )) = α ( α given konstant). tα ( f ) = qt( α ,f )<br />

Eksempel: t0975 . ( 12)<br />

= qt (0.975,12) = 2.179<br />

χ 2 −<br />

fordeling.<br />

Lad Q være χ fordelt med frihedsgradstallet f.<br />

2 −<br />

a) Find p= P( a ≤Q≤b) , hvor a og b er givne konstanter. p = pchisq(b,f) - pshisq(a,f)<br />

Eksempel:Find p = P( Q≥27.<br />

3) , med f = 19 p= 1− P( Q≤273<br />

. ) =1- pchisq(27.3,19) = 0.0979<br />

2<br />

b) Find fraktilen χα ( f ) : PQ ( ≤ χ ( f))<br />

= α ( given konstant). f = qchisq( α ,f )<br />

α 2 α χ α 2 ( )<br />

2<br />

Eksempel: χ 0. 025 () 8 = qchisq(0.025,8) = 2.18<br />

Binomialfordeling.<br />

Lad X være binomialfordelt b(n,p)<br />

a) P(X=x) =dbinom(x,n,p)<br />

P( X ≤ x)<br />

= pbinom(x,n,p)<br />

Eksempel :q = P( 3≤ X ≤6)<br />

, hvor n = 10 og p = 0.3<br />

q = P( X≤6) − P( X≤2)<br />

= pbinom(6,10, 0.3)-pbinom(2,10,0.3) = 0.6066<br />

b) Find det hele tal m for hvilket P( X≤ m)<br />

=α m = qbinom(p, n, α )<br />

Eksempel: Lad X være binomialfordelt med p = 0.3 og n = 10.<br />

Find det hele tal m for hvilket PX ( ≤ m)<br />

=095<br />

.<br />

m = qbinom(0.3, 10,0.95 ) = 9


Statistiske beregninger på lommeregner og PC-er<br />

Poissonfordeling.<br />

Lad X være Poissonfordelt p( )<br />

µ<br />

a) P(X=x) =dpois(x, µ )<br />

P( X ≤ x)<br />

= ppois(x, µ )<br />

Eksempel: p = , hvor = 147.6 p = ppois(94,147.6) = 1.54 10-6 P( X≤<br />

94 ) µ ⋅<br />

b) Find det hele tal m for hvilket P( X≤ m)<br />

=α m = qpois( α , µ )<br />

Eksempel: Lad X være Poissonfordelt med = 147.6.<br />

µ<br />

Find det hele tal m for hvilket PX ( ≤ m)<br />

=095 .<br />

m = qpois(0.95, 147.6 ) =168<br />

Hypergeometrisk fordeling:<br />

Lad X være hyprgeometrisk fordelt h(N,M,n)<br />

a) P(X=x) =dhypgeo(x,M, N-M,n)<br />

P( X ≤ x)<br />

= phypgeo(x,M,N-M,n)<br />

3) Gennemsnit, varians og spredning<br />

Find gennemsnit , varians og spredning af tallene 1, 3, 4, 8<br />

⎛1⎞<br />

⎜ ⎟<br />

⎜ 3⎟<br />

Opret en søjlematrix v:=<br />

⎜4⎟<br />

⎜ ⎟<br />

⎝8⎠<br />

Vælg fra værktøjslinie f ( x)<br />

\ Category: Statistics \ Function Name: eksempelvis mean<br />

Eksempel : Gennemsnit: mean (v) =4 Mean({1,3,4,8}) = 4<br />

Varians: Var(v) = 8.667<br />

Spredning: Stdev (v) = 2.944<br />

140


APPENDIX . Oversigt over approksimationer.<br />

1<br />

10<br />

n<br />

N<br />

p ≤ 1<br />

10<br />

≤ 1<br />

10<br />

9<br />

< p< ∧5≤n⋅p≤n−5 10<br />

n 1 M 1<br />

1) Når > og ≤ benyttes, at hNMn ( , , ) = hNnM ( , , ) .<br />

N 10 N 10<br />

141<br />

M<br />

N<br />

APPENDIX<br />

2) For p ≥ benyttes, i stedet for at tælle Xgammel = “antal af successer”, så at tælle X = antal fiaskoer dvs.<br />

9<br />

10<br />

p = 1 − pgammel<br />

og X = n − Xgammel<br />

.<br />

3) Husk heltalskorrektion ved approksimation med normalfordeling. (se næste side)


APPENDIX<br />

Approksimation af binomialfordeling til normalfordeling.<br />

Det kan vises, at tæthedsfunktionen for binomialfordelingen b (n, p) nærmer sig ubegrænset til normalfordelingen<br />

, hvor og , når n vokser ubegrænset1) n( µ , σ ) µ = n ⋅ p σ = n⋅ p⋅( 1−<br />

p)<br />

.<br />

Approksimation af en binomialfordeling med en normalfor-<br />

1 9<br />

deling anses, når < p < i praksis for at være tilfreds-<br />

10 10<br />

stillende, såfremt n⋅ p≥5(og<br />

n⋅( 1− p)<br />

≥5).<br />

Da binomialfordelingen kun antager heltalsværdier,<br />

medens en normalfordeling kan antage alle værdier på<br />

talaksen, svarer hvert helt tal ved binomialfordelingen til et<br />

interval af længden 1 ved normalfordelingen. På figur 1 er<br />

derfor tegnet en firkant, der har bredden 1, og hvis højde er<br />

P( X = 4)<br />

udregnet ved binomialfordelingen. Arealet<br />

under normalfordelingskurven fra x = 3.5 til x = 4,5 er med<br />

tilnærmelse lig firkantens areal. Man siger, at man ved<br />

approksimationen må heltalskorrigere (korrigeres for<br />

Fig. 1. Heltalskorrektion<br />

kontinuitet).<br />

Ved approksimationen benyttes derfor følgende anførte formler, gældende for en binomialfordelt variabel X fordelt<br />

1 9<br />

b (n, p), hvor ≤ p ≤ og 5≤n⋅ p≤n−5. 10 10<br />

Eksempel 7.13: Approksimation af binomialfordeling med normalfordeling.<br />

En kunde til de i eksempel 2.3 producerede plastikkasser køber kasserne i partier på 2000. Kunden godkender<br />

et parti efter en stikprøvekontrol, hvor der udtages 100 kasser. Hvis antallet af defekte kasser i stikprøven højst<br />

er 14 godkendes hele partiet. I modsat fald kasseres partiet.<br />

Hvor stor er sandsynligheden for at et parti bliver godkendt, hvis der er 300 defekte kasser i hele partiet på de<br />

2000.<br />

Løsning:<br />

Lad X være antallet af defekte kasser i stikprøven. Vi ønsker at udregne P( X ≤ 14)<br />

.<br />

Umiddelbart er X hypergeometrisk fordelt med N = 2000, M = 300, og n = 100.<br />

⎛ n 100 1 ⎞<br />

Da stikprøvestørrelsen er lille ⎜ = < ⎟ kan fordelingen af X umiddelbart approksimeres med<br />

⎝ N 2000 10⎠<br />

binomialfordelingen b (100, p), hvor p . Dette giver ved benyttelse af en lommeregner som<br />

M 300<br />

= = = 015 .<br />

N 2000<br />

TI-89 at P( X ≤ 14)<br />

= 45.72%.<br />

Idet n⋅ p=<br />

15 > 5 , kan i stedet for approksimeres med normalfordelingen med µ = 15 og σ = 15⋅ 085 . = 357 . .<br />

Ved hjælp af denne approksimation kan vi beregne:<br />

P( X ≤ 14)<br />

= normCdf( −∞,<br />

14.5, 15, 3.57) = 44.43%<br />

Det ses, at der er ca. 1.5 % afvigelse, hvilket normalt ingen betydning har.<br />

1) Matematisk formulering: Når X er fordelt b(n, p), vil for den tilsvarende normerede variabel<br />

Y =<br />

X −n⋅ p<br />

n⋅ p⋅( 1 − p)<br />

gælde, at PY ( ≤ y) ⎯ ⎯→∞→ ( y)<br />

for ethvert tal y.<br />

Φ<br />

n<br />

142


u p<br />

Tabel over fraktiler i normeret normalfordeling<br />

Tabel over fraktiler i normeret normalfordeling n( 01 , ) . PU ( ≤ u ) = p.<br />

Bemærk: u p = - u 1 - p<br />

p 0.0005 0.001 0.005 0.01 0.025 0.05 0.10<br />

u p<br />

-3.291 -3.090 -2.576 -2.326 -1.960 -1.645 -1.282<br />

p 0.90 0.95 0.975 0.99 0.995 0.999 0.9995<br />

u p<br />

Eksempel: u 0.975 = 1.960<br />

1.282 1.645 1.960 2.326 2.576 3.090 3.291<br />

143<br />

p


Facitliste<br />

FACITLISTE<br />

KAPITEL 2<br />

2.1 -<br />

2.2 -<br />

2.3<br />

2.4 (1) - (2) ca 24%<br />

2.5 (1) - (2) ca 0.052<br />

2.6 (1) - (2) ca 13%<br />

2.7 (1) - (2) 24.8 24.5<br />

2.8 (1) - (2) - (3) -<br />

KAPITEL 3<br />

3.1 (1) - (2) - (3) 0.833 0.3056 0.5528 (4) 0.1641<br />

3.2 (1) - (2) - (3) 1.5 0.75 0.866 (4) 0.088<br />

3.3 65 0.4<br />

3.4 1658.76 57.31 3.46%<br />

3.5 103.32 2.6 2.52%<br />

3.6 996.3 46.36 4.65%<br />

3.7 (a) 515 10 (b) 41.8% (c ) (d) 20.9%<br />

6 −<br />

. ⋅<br />

258 10 4 −<br />

. ⋅<br />

KAPITEL 4<br />

4.1 (1) 0.7734 0.0548 0.1718 (2) 0.7480<br />

4.2 (1) 69.15% (2) 10.88% (3) 112.2 (4) 117.3 6.535<br />

4.3 (1) 86.64% (2) 0.008 (3) 0.020<br />

4.4 (1) 5.94% (2) 27.71% (3) [783.51; 816.49]<br />

4.5 (1) 9.5 1.265 (2) 12.45 (3) 2.41%<br />

4.6 (1) 92.8%<br />

4.7 (1) 97.71% (2) 25.45<br />

4.8 (1) 65 0.4 (2) 77.34%<br />

KAPITEL 5<br />

5.1 (1) 12.13 0.6783 (2) [11.65 ; 12.61] (3) [10.52 ; 13.74] (4) [11.73 ; 12.53]<br />

5.2 (1) 2259.92 35.569 (2) [2237 ; 2283] (3) [2178 ; 2341]<br />

5.3 (1) 74.0362 0.00124 (2) [74.035; 74.037] (3) [74.036 ; 74.037]<br />

5.4 (1) 750.2 (2) [740.1 ; 760.3] (3) 19.13 (4) [14.0 ; 30.2]<br />

5.5 (1) 7.83 0.363 (2) [7.45 ; 8.22] (3) 53<br />

5.6 [25.21 ; 60.36]<br />

5.7 [0.00083 ; 0.00231]<br />

5.8 (a) [4.23 ; 4.29] (b) 22 (c ) [4.16 ; 4.36] (d) [0.028 ; 0.076]<br />

5.9 (1) [0.965 ; 1.111] (2) [0.0263; 0.1714]<br />

144


145<br />

Facitliste<br />

KAPITEL 6<br />

6.1 (1) nej P-værdi = 2.28% (2.67%)<br />

6.2 ja 3.45% (2) 58.0 (3) [55.84; 60.16]<br />

6.3 (1) 84.47 6.85 (2) ja P-værdi = 0.44% (3) [81.27 ; 87.67] (4) 25.7%<br />

6.4 (a)nej P-værdi = 12.1% (b) [7.93 ; 8.49 ]<br />

6.5 (a) ja P-værdi = 0.157% (b) [24.07 ; 35.56]<br />

6.6 nej P-værdi = 6.45%<br />

6.7 (1) ja, P-værdi = 0.012 (2) 0.987 (3) [0.68 ; 1.80 ]<br />

. ⋅<br />

6.8 ja, P-værdi =18 10 9 −<br />

6.9 (1) 19.5 (2) nej, P-værdi =0.1% , (eller P-værdi =0.135%)<br />

6.10 (1) 12 (2) ja P-værdi = 0.48 (3) nej<br />

6.11 (1) 24 (2) ja P-værdi = 0.16% (3) nej [2.59 ; 2.67]<br />

6.12 (1) 26 (2) ja P-værdi = 25 10 (3) ja<br />

13 −<br />

. ⋅<br />

KAPITEL 7<br />

7.1 P - værdi = 0.1044<br />

7.2 (1) P - værdi = 0.001 (2) [0.70 ; 3.12]<br />

7.3 P - værdi = 0.0204<br />

7.4 (1) P - værdi = 0.0714 (2) P - værdi = 0.401<br />

7.5 (1) 18 (2) P - værdi = 0.00017 , [11.9 ; 15.0]<br />

7.6 P - værdi = 0.589<br />

7.7 P - værdi = 0.1398<br />

7.8 (1) nej P-værdi =14.95%<br />

7.9 (1) nej, P-værdi =9.85% (2) [0.22 ;7.28 ]<br />

7.10 (1) - (2) Ja, P-værdi =3.63%<br />

KAPITEL 8<br />

8.1 0.1 0.8 0.2 0.7<br />

8.2 (1) 0.9134 (2) 0.9678<br />

8.3 (1) 8.75% (2) 38.75% (3) 41.25% (4)11.25%<br />

8.4 (1) 6.4% (2) 78.4% (3) 7.2%<br />

8.5 (a) 30.24% (b) 0.24% (c ) 99.76% (d) 4.04% (e) 44.04% (f) 21.44%<br />

8.6 1.283 ⋅ 10 12<br />

8.7 (a) - (b) 736<br />

8.8 (a) 6 (b) 24<br />

8.9 (a) 100 /b) 2400<br />

8.10 60<br />

8.11 (1) 27.1% 36.0% 9.756% (2) 53.34% (3) 49.20%<br />

8.12 3 40<br />

8.13 (1) 5 (2) 9<br />

8.14 30.24%<br />

8.15 910 7<br />


Facitliste<br />

KAPITEL 9<br />

9.1 (1) - )2) 0.6<br />

9.2 (1) 91.67% (2) 9.167%<br />

9.3 (1) 17.68% (2) 59.28%<br />

9.4 2.58%<br />

9.5 5.83%<br />

9.4 (1) 0.988%<br />

9.5 (1) - 73.75 30.08 (2) 221.25 kr 57.48%<br />

9.6 5.6%<br />

9.7 94.9%<br />

9.8 40.87%<br />

9.9 13%<br />

9.10 nej, P-værdi =0.08%<br />

9.11 (1) 0.9% (2) nej<br />

9.12 (1) ja, P-værdi = 2.53% (2) 0.12 (3) [0.056 ; 0.184]<br />

9.13 ja p = 0.43%<br />

9.14 (1) 0.108 (2) [0.089 ; 0.127]<br />

9.15 [0.799 ; 0.847]<br />

9.16 1522<br />

9.17 77.86%<br />

9.18 (1) 7.94% (2) 11.8%<br />

9.19 (1) (a) 60.6% (b) 91.6% (c) 6.2% (2) 4.4%<br />

9.20 (1) 30.1% (2) 87.9% (3) 4<br />

9.21 50.37%<br />

9.22 (1) 15 (2) 81.9%<br />

9.23 75.3%<br />

9.24 6.56%<br />

9.25 92.2%<br />

9.26 44.6%<br />

9.27 (1) nej P-værdi = 7.84% (2) 100.8 (4) [85.56 ; 116.04]<br />

9.28 (1) 4.68 (2) [4.47 ; 4.89] (3) 69.44<br />

9.29 (1a) 11 (1b) [4.5 ; 17.5] (2a) 1.1 (2b) [0.45 ; 1.75]<br />

9.30 (1) 0.539% (2) 0.119%<br />

9.31 7.31%<br />

9.32 0.188%<br />

KAPITEL 10<br />

10.1 (1) 2.90 (2) 14.6% (3) 16.98<br />

10.2 (1) 77.88% (2) 10.45% (3) 77.88% (4) 9.48%<br />

10.3 1<br />

10.4 (1) 79.8% (2) 99.33% (3) 22.8 (4) 14<br />

146


147<br />

Facitliste<br />

KAPITEL 11<br />

11.1.1 (a1) - (a2) - (a3) nej (a4) 2.3 1.8 1.345 1.470 (a5) 12.6 (b1) 2.2 1.5 1.316<br />

1.5811<br />

11.1.2 (a6) 0.06 0.0304 (b2) 0.6667 0.3203<br />

11.1.3 (a7) 52 15.52 (b3) 53.33 17.51<br />

11.2.1 (a1) - (a2) nej (a3) 0.9 0.5 0.830 0.5 (a4) 0.9707 (b1) 0.6 0.6 0.843<br />

0.516<br />

11.2.2 (a5) 0.15 0.36 (b2) 0.2667 0.6124<br />

11.2.3 (a6) 15300 3716.18 (b3) 15800 4131.18<br />

11.3.1 (a1) - (a2) nej a3) 4.2 3.2 1.4 0.9798 (a4) 0.625 (b1) 4 3.2 1.633 1.033<br />

11.3.2 (a5) 0.16 0.0342 (b2) 0.4444 0.2635<br />

11.3.3 (a6) 316 44.36 (b3) 300 28.28<br />

11.4.1 178.33 71.833 11.428 10,870<br />

11.4.2 100.97 0.8128<br />

11.4.3 139.13 2.089<br />

11.5 4.6344<br />

11.6 3.559<br />

11.7 3.3466


Stikord<br />

STIKORDSREGISTER<br />

A<br />

acceptområde 54<br />

additionssætning<br />

for sandsynligheder 81<br />

for linearkomb. af normalf. variable 30, 35<br />

alternativ hypotese 58<br />

approksimation 104<br />

binomial til normalfordeling 141<br />

binomial til Poissonfordeling 141<br />

hypergeometrisk til binomialford. 100, 141<br />

Poisson til normalfordeling 141<br />

B<br />

bagatelgrænse 60<br />

Bayes sætning 83<br />

betinget sandsynlighed 82<br />

binomialfordeling<br />

binomialfordelingstest 97, 105<br />

både A og B 80<br />

C<br />

centrale grænseværdisætning 39<br />

chi i anden fordeling 49<br />

D<br />

deskriptiv statistik 2<br />

dimensionering 60, 64<br />

diskret variabel 16, 91<br />

E<br />

eksperiment, tilfældigt 15<br />

eksponentialfordeling 115<br />

ensfordelte variable 21<br />

ensidet<br />

binomialtest 97, 105<br />

chi-i-anden test 59<br />

Poissontest 102, 106<br />

t -test 57, 63<br />

test 53<br />

enten A eller B 80<br />

estimat 7<br />

Excel, oversigt 133<br />

148<br />

F<br />

fakultet 85<br />

fejl af type I 59<br />

fejl af type II 59<br />

flerdimensional variabel 120<br />

fordeling<br />

binomial- 94<br />

chi i anden- 49<br />

eksponential- 115<br />

hypergeometrisk- 91<br />

kontinuert 17<br />

logaritmisk normal- 119<br />

normal- 28<br />

rektangulær 113<br />

t- 43<br />

To-dimensional normal- 118<br />

Weibull- 117<br />

fordelingsfunktion<br />

kontinuert variabel 20<br />

foreningsmængde 80<br />

forkastelsesområde 54<br />

fraktil 9, 20<br />

fraktiltabel for normalfordeling 144<br />

frihedsgrad 10<br />

fællesmængde 80<br />

G<br />

Galton apparat 29<br />

Gauss fordeling 29<br />

generaliseret hypergeometrisk ford. 103<br />

gennemsnit 7, 32, 39<br />

H<br />

heltalskorrektion 142<br />

histogram 5, 17<br />

hypergeometrisk fordeling 91<br />

hypotesetest<br />

1 normalfordelt variabel 53<br />

2 normalfordelte variable 70<br />

binomialfordeling 97<br />

Poissonfordeling 102<br />

hyppighed, relativ 7, 15<br />

hændelse 15<br />

additionssætning 81<br />

både A og B 80<br />

enten A eller B 80


Stikord<br />

foreningsmængde 80<br />

fællesmængde 80<br />

ikke A 80<br />

uafhængige 81<br />

I,J<br />

ikke A 80<br />

inferentiel statistik 1<br />

K<br />

karakteristiske tal 7<br />

kombination 86<br />

kombinatorik 84<br />

konfidensinterval 40, 42 , 44, 48, 49<br />

konfidensinterval<br />

1 normalfordelt variabel 40, 42, 44, 48, 49<br />

2 normalfordelte variable , differens 72, 76<br />

binomialfordeling 98, 105<br />

Poissonfordeling 103, 106<br />

kontinuert stokastisk variabel 17<br />

korrelationskoefficient 120, 123<br />

kovarians 120, 23<br />

kvadratregel 21<br />

kvalitative data 2<br />

kvalitetskontrol 34<br />

kvantitative data 4<br />

kvartil 8<br />

kvartilafstand 11<br />

kvartilafstand, relativ 11<br />

L<br />

lagkagediagram 2<br />

levetid 116<br />

linearitetsregel 21<br />

linearkombination 21<br />

logaritmisk normalfordeling 118<br />

lommeregner<br />

TI - 83 137<br />

TI - 89 132<br />

M<br />

Maple 138<br />

Mathcad 139<br />

median 8<br />

middelværdi 7<br />

diskret variabel 91, 95, 191<br />

kontinuert variabel 19<br />

multiplikationsprincip 84<br />

149<br />

N<br />

nedre kvartil 9<br />

n fakultet 85<br />

normalfordeling 28<br />

logaritmisk 118<br />

normeret 31<br />

todimensional 118<br />

nulhypotese 54<br />

O<br />

observationer, parvise 74<br />

opgaver kapitel<br />

2 12<br />

3 26<br />

4 36<br />

5 51<br />

6 66<br />

7 77<br />

8 88<br />

9 107<br />

10 119<br />

11 128<br />

ophobningslov 24<br />

oversigt<br />

kap 5 50<br />

kap6 63<br />

kap 7 76<br />

kap 9 105<br />

P<br />

parvise observationer 74<br />

Poissonfordeling 100<br />

Poissonfordelingstest 102<br />

polynomialfordeling 104<br />

population 1, 17<br />

produktsætning 81, 82<br />

prædistinationsinterval 46<br />

P-værdi 55<br />

R<br />

randomisering 38<br />

rektangulær fordeling 113<br />

relativ hyppighed 7<br />

relativ usikkerhed 23<br />

repræsentativ stikprøve 38<br />

Facitliste


Stikord<br />

S<br />

SAK 10<br />

sandsynlighed 16, 80<br />

additionssætning 81<br />

betinget 82<br />

produktsætning 81<br />

Satterwaithes metode 71<br />

signifikansniveau 54<br />

simpel udvælgelse 38<br />

spredning 9, 32<br />

på gennemsnit 28<br />

SS 10<br />

standard deviation 9<br />

statistisk uafhængige 81<br />

stikprøve 17 , 38<br />

gennemsnit 7, 32<br />

ordnet 85<br />

spredning 9, 32<br />

udvælgelse 38<br />

uordnet 86<br />

varians 9<br />

stikprøvestørrelse 46, 99<br />

stokastisk variabel 16<br />

stratificeret udvælgelse 38<br />

systematisk udvælgelse 38<br />

søjlediagram 3<br />

T<br />

tabel over fraktiler i normalfordeling 143<br />

test<br />

af middelværdi 53, 63<br />

af spredning 59, 65<br />

fejl af type I 59<br />

fejl af type II 59<br />

P-værdi 53<br />

testfunktioner<br />

χ 2<br />

- fordeling 49<br />

t - fordelingen 43<br />

t-fordeling 43<br />

to-dimensional normalfordeling 118<br />

tosidet test 58<br />

Ti-83 136<br />

TI - 89 131<br />

t-test, ensidet 57<br />

tæthedsfunktion<br />

diskret variabel 92, 96<br />

kontinuert variabel 17<br />

150<br />

U<br />

uafhængige hændelser 15<br />

uafhængige stokastiske variable 15<br />

udfald 15<br />

udfaldsrum 15<br />

usikkerhed<br />

maksimal 23<br />

relativ 23<br />

statistisk 23<br />

usikkerhedsberegning 23<br />

U-fordeling 31<br />

V<br />

variabel<br />

binomialfordelt 94<br />

diskret 1<br />

kontinuert 17<br />

stokastisk 16<br />

varians 9<br />

diskret variabel 16, 91<br />

kontinuert variabel 19<br />

variationsbredde 5<br />

W<br />

Weibullfordeling 117<br />

Z<br />

Z - fordeling 31<br />

Ø<br />

øvre kvartil 9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!