07.05.2013 Views

Loeng.

Loeng.

Loeng.

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

YMR0070, 2010/2011 kevad 1/8<br />

TÕENÄOSUSTEOORIA JA MATEMAATILINE STATISTIKA<br />

Objekt (element, indiviid) — katse käigus mõõdetav ühik.<br />

Üldkogum — kõikide objektide hulk, mille omaduste vastu tuntakse huvi. Objektide arvu<br />

üldkogumis tähistatakse tavaliselt N.<br />

Valim — üldkogumi alamhulk, objektide arvu valimis tähistatakse tavaliselt n.<br />

Andmed — arvud ja muud faktid, mida kogutakse, analüüsitakse ja summeeritakse.<br />

Andmestik — uuringu käigus kogutud andmete kogu, saadakse katse tulemusi registreerides.<br />

Tunnus (muutuja) — näitaja, mida objektil mõõdetakse. Kui tunnus võib omandada mistahes<br />

väärtuse mingilt lõigult, siis nimetatakse seda tunnust pidevaks. Kui tunnuse väärtused määratakse<br />

loendamise teel, st tunnus võib omandada ainult täisarvulisi väärtusi, siis nimetatakse tunnust<br />

diskreetseks.<br />

Kvalitatiivsed andmed — elementide nimed või sildid.<br />

Kvantitatiivsed andmed — näitavad objekti iseloomustavat arvulist suurust.<br />

1. Kirjeldav statistika — andmete korrastamine, nähtavaks tegemine, lihtsamate karakteristikute<br />

arvutamine. Kirjeldav statistika ei vaja tõenäosusteooria alaseid teadmisi.<br />

2. Tõenäosusteooria.<br />

3. Järeldav (matemaatiline) statistika — suhteliselt väikese osa objektide (valimi) andmete abil<br />

järelduste tegemine kõigi objektide kogumi (üldkogumi) omaduste kohta. Järelduste tegemine<br />

põhineb tõenäosusteoorial.<br />

KIRJELDAV STATISTIKA<br />

1. Tabelite koostamine<br />

2. Graafikud ja joonised<br />

3. Lihtsamate karakteristikute arvutamine<br />

Näide. Olgu antud andmestik<br />

NIMI SUGU VANUS PIKKUS KAAL<br />

1 ALFRED M 14 69,0 112,5<br />

2 ALICE F 13 56,5 84,0<br />

3 BARBARA F 13 65,3 98,0<br />

4 CAROL F 14 62,8 102,5<br />

5 HENRY M 14 63,5 102,5<br />

6 JAMES M 12 57,3 83,0<br />

7 JANE F 12 59,8 84,5<br />

8 JANET F 15 62,5 112,5<br />

9 JEFFREY M 13 62,5 84,0<br />

10 JOHN M 12 59,0 99,5<br />

11 JOYCE F 11 51,3 50,5<br />

12 JUDY F 14 64,3 90,0<br />

13 LOUISE F 12 56,3 77,0<br />

14 MARY F 15 66,5 112,0<br />

15 PHILIP M 16 72,0 150,0<br />

16 ROBERT M 12 64,8 128,0<br />

17 RONALD M 15 67,0 133,0<br />

18 THOMAS M 11 57,5 85,0<br />

19 WILLIAM M 15 66,5 112,0<br />

E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10


YMR0070, 2010/2011 kevad 2/8<br />

Iga õpilast iseloomustab mitu tunnust ehk muutujat.NIMI ja SUGU on kvalitatiivsed tunnused<br />

(“sildid”), VANUS, PIKKUS ja KAAL on kvantitatiivsed tunnused. On mõõdetud 19 õpilast<br />

Ühemõõtmelised tabelid<br />

Kahemõõtmeline tabel<br />

Tulpdiagrammid<br />

Õpilaste jaotus soo järgi<br />

Sugu Arv<br />

F 9<br />

M 10<br />

Kokku 19<br />

Õpilaste jaotus vanuse järgi (sageduste tabel)<br />

Vanus Arv<br />

11 2<br />

12 5<br />

13 3<br />

14 4<br />

15 4<br />

16 1<br />

Kokku 19<br />

Õpilaste jaotus soo ja vanuse järgi<br />

Vanus<br />

Sugu 11 12 13 14 15 16 Kokku<br />

F 1 2 2 2 2 0 9<br />

M 1 3 1 2 2 1 10<br />

Kokku 2 5 3 4 4 1 19<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

Õpilaste jaotus soo järgi<br />

F M<br />

E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10


YMR0070, 2010/2011 kevad 3/8<br />

Sektordiagrammid<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

4<br />

3<br />

2<br />

1<br />

0<br />

Õpilaste jaotus vanuse järgi<br />

11 12 13 14 15 16<br />

Õpilaste jaotus soo ja vanuse järgi<br />

11 12 13 14 15 16<br />

Õpilaste jaotus soo järgi<br />

Õpilaste jaotus vanuse järgi<br />

E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10<br />

F<br />

M<br />

11<br />

12<br />

13<br />

14<br />

15<br />

16<br />

F<br />

M


YMR0070, 2010/2011 kevad 4/8<br />

Lihtsaimad karakteristikud<br />

Olgu mõõdetud üldkogumi kõikide objektide i=1, 2, ... , N puhul tunnuse x väärtus xi .<br />

(Aritmeetiline) keskmine<br />

= x 1 x 2 ...x N<br />

N<br />

= ∑ N<br />

x i =1 i<br />

Exceli funktsioon aritmeetilise keskmise arvutamiseks — AVERAGE<br />

N<br />

Kaalutud keskmine — kui on teada m rühma keskmised ja objektide arvud:<br />

Rühm 1 2 ... m<br />

Rühma keskmine 1 2 ... m<br />

Objektide arv rühmas N1 N2 ... Nm<br />

Üldine keskmine: = N 1<br />

N 1 N 2<br />

N 2 ... N m<br />

N m , kus N = N1 + N2 +...+ Nm .<br />

Mediaan<br />

.<br />

Kui N is paaritu, siis on mediaan järjestatud statistilise rea ehk variatsioonrea keskmine liige. Kui<br />

N on paaris, siis on mediaan variatsioonrea kahe keskmise liikme poolsumma.<br />

Exceli funktsioon mediaani arvutamiseks — MEDIAN<br />

Mood<br />

Mood on arvrea suurima sagedusega liige.<br />

Exceli funktsioon moodi arvutamiseks — MODE<br />

Protsentiilid<br />

p-protsentiil on arv, millest p protsenti andmetest on temast väiksem või võrdne ja (100-p) protsenti<br />

suurem või võrdne.<br />

25-protsentiili nimetatakse esimeseks kvartiiliks.<br />

Mediaan on 50-protsentiil ehk teine kvartiil.<br />

75-protsentiili nimetatakse kolmandaks kvartiiliks.<br />

Exceli funktsioon kvartiilide arvutamiseks — QUARTILE<br />

Dispersioon<br />

σ 2 = x 1 −2 x 2 − 2 ...x N − 2<br />

N<br />

N<br />

= ∑ i =1<br />

x i− 2<br />

N<br />

E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10


YMR0070, 2010/2011 kevad 5/8<br />

Excel — VARP, arvutuste lihtsustamiseks võib kasutada valemit σ 2 = ∑ i=1<br />

σ= σ 2<br />

Standardhälve<br />

Excel — STDEVP<br />

Variatsioonikordaja e suhteline viga<br />

CV = σ<br />

<br />

Haare on arvrea suurima ja vähima väärtuse vahe.<br />

Olgu igal objektil on mõõdetud rohkem kui üks tunnus<br />

Jrk.<br />

nr.<br />

x y ...<br />

1 x1 y1 ...<br />

2 x2 y2 ...<br />

... ...<br />

N xN yN ...<br />

Iga mõõdetud tunnuse väärtused moodustavad arvrea ehk statistilise rea .<br />

σ xy = ∑ i=1<br />

Tunnuste x ja y vaheline kovariatsioon:<br />

N<br />

x i− x y i− y<br />

N<br />

, kus x on x keskmine ja y on y keskmine.<br />

Excel — COVAR, arvutamiseks lihtsam valem σ xy = ∑ x i=1 i yi −x y<br />

N<br />

(Pearsoni) korrelatsioonikordaja ρ<br />

N<br />

N<br />

2<br />

xi N −2 (tõestus lisas).<br />

ρxy = σxy σ x σ y<br />

,kus σ x on x standardhälve ja and σ y on y standardhälve. Kehtib ∣∣≤1<br />

(tõestus lisas).<br />

Excel: CORREL<br />

E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10


YMR0070, 2010/2011 kevad 6/8<br />

Näide. Lk. 1 antud andmestiku puhul õpilaste pikkuste aritmeetiline keskmine ehk keskmine pikkus<br />

on<br />

x= x 1 x 2...x 19<br />

19<br />

= 69,056,5...66,5<br />

=62,3<br />

19<br />

ja keskmine kaal<br />

y= y1 y2... y19 =<br />

19<br />

112,584,0...112,0<br />

=100,0<br />

19<br />

Pikkuse mediaani leidmiseks järjestame õpilaste pikkused minimaalsest maksimaalseni. Pikkuste<br />

variatsioonrida on<br />

51,3 56,3 56,5 57,3 57,5 59,0 59,8 62,5 62,5 62,8 63,5 64,3 64,8 65,3 66,5 66,5 67,0 69,0 72,0<br />

Pikkuse mediaan on pikkuse järjestatud väärtuste keskmine element 62,8.<br />

Kaal järjestatuna minimaalsest maksimaalseni ehk kaalu variatsioonrida on<br />

50,5 77,0 83,0 84,0 84,0 84,5 85,0 90,0 98,0 99,5 102,5 102,5 112,0 112,0 112,5 112,5 128,0 133,0 150,0<br />

Kaalu mediaan on kaalu järjestatud väärtuste keskmine element 99,5.<br />

Pikkuse esimene kvartiil: (57,5 + 59,0 )/2 = 58,3, pikkuse kolmas kvartiil (65,3+66,5)/2=65,9<br />

51,3 56,3 56,5 57,3 57,5 59,0 59,8 62,5 62,5 62,8 63,5 64,3 64,8 65,3 66,5 66,5 67,0 69,0 72,0<br />

Kaalu esimene kvartiil (84,0+84,5)/2=84,3, kaalu kolmas kvartiil (112,0+112,5)/2=112,3<br />

50,5 77,0 83,0 84,0 84,0 84,5 85,0 90,0 98,0 99,5 102,5 102,5 112,0 112,0 112,5 112,5 128,0 133,0 150,0<br />

Pikkuse miinimum 51,3, pikkuse maksimum 72,0, pikkuse haare 72,0 – 51,3 = 20,7<br />

Kaalu miinimum 50,5, kaalu maksimum 150,0, kaalu haare 150,0 – 50,5 = 99,5.<br />

Enne kovariatsiooni ja korrelatsioonikordaja leidmist vt. hajusdiagrammi<br />

kaal<br />

160<br />

140<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

Pikkuse ja kaalu seos<br />

0 10 20 30 40 50 60 70 80<br />

pikkus<br />

E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10


YMR0070, 2010/2011 kevad 7/8<br />

Diagrammilt on näha, et kui õpilase pikkus on keskmisest suurem (väiksem), siis enamikul<br />

juhtudest on selle õpilase kaal niisamuti keskmisest suurem (väiksem). Peale selle võib täheldada, et<br />

pikkuse ja kaalu vaheline sõltuvus on enam-vähem lineaarne. Sellisel juhul öeldakse, et pikkus ja<br />

kaal on positiivselt (negatiivselt) korreleeritud. Pikkuse ja kaalu vaheline kovariatsioon on 97,1 ja<br />

korrelatsioonikordaja 0,88 (vt. arvutusi alljärgnevas tabelis).<br />

Jrk.nr. NIMI SUGU VANUS PIKKUS (x) KAAL (y) x x*y<br />

2<br />

y 2<br />

1 ALFRED M 14 69,0 112,5 4761,0 12656,3 7762,5<br />

2 ALICE F 13 56,5 84,0 3192,3 7056,0 4746<br />

3 BARBARA F 13 65,3 98,0 4264,1 9604,0 6399,4<br />

4 CAROL F 14 62,8 102,5 3943,8 10506,3 6437<br />

5 HENRY M 14 63,5 102,5 4032,3 10506,3 6508,75<br />

6 JAMES M 12 57,3 83,0 3283,3 6889,0 4755,9<br />

7 JANE F 12 59,8 84,5 3576,0 7140,3 5053,1<br />

8 JANET F 15 62,5 112,5 3906,3 12656,3 7031,25<br />

9 JEFFREY M 13 62,5 84,0 3906,3 7056,0 5250<br />

10 JOHN M 12 59,0 99,5 3481,0 9900,3 5870,5<br />

11 JOYCE F 11 51,3 50,5 2631,7 2550,3 2590,65<br />

12 JUDY F 14 64,3 90,0 4134,5 8100,0 5787<br />

13 LOUISE F 12 56,3 77,0 3169,7 5929,0 4335,1<br />

14 MARY F 15 66,5 112,0 4422,3 12544,0 7448<br />

15 PHILIP M 16 72,0 150,0 5184,0 22500,0 10800<br />

16 ROBERT M 12 64,8 128,0 4199,0 16384,0 8294,4<br />

17 RONALD M 15 67,0 133,0 4489,0 17689,0 8911<br />

18 THOMAS M 11 57,5 85,0 3306,3 7225,0 4887,5<br />

19 WILLIAM M 15 66,5 112,0 4422,3 12544,0 7448<br />

Kui on mõõdetud üldkogumi osahulk ehk valim mahuga n, siis valimi karakteristikud on<br />

analoogilised üldkogumi vastavate karakteristikutega.<br />

Valimkeskmine<br />

Sum ma 1184,4 1900,5 74304,92 199435,75 120316,05<br />

Keskm ine 62,34 100,03 3910,79 10496,62 6332,42<br />

Dispersioon 24,9 491,35<br />

Standardhälve 4,99 22,17<br />

Kovariatsioon=6332,42–62,34*100,03=<br />

x= x 1 x 2 ...x n<br />

n<br />

valimdispersioon<br />

= ∑ n<br />

x i=1 i<br />

s 2 = x 1 −x 2 x 2 −x 2 ... x n −x 2<br />

n−1<br />

Exceli funktsioon VAR,<br />

n<br />

,<br />

97,10<br />

Korrelatsioonikordaja= 97,1/( 4,99*22,17)=<br />

0,88<br />

n<br />

= ∑ i =1<br />

x i−x 2<br />

n−1<br />

valimstandardhälve s=s 2 , Exceli funktsioon STDEV. Valimi mood, mediaan, kvartiilid ja<br />

haare arvutatakse analoogiliselt vastavate karakteristikutega üldkogumis.<br />

E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10<br />

,


YMR0070, 2010/2011 kevad 8/8<br />

Lisa. Tõestused<br />

1. Hälvete summa on 0<br />

N<br />

N<br />

∑ x<br />

i=1 i−=∑ x<br />

i=1 i−N =N −N =0<br />

2. Dispersiooni arvutamise lihtsam valem<br />

N<br />

σ 2 = ∑ i=1<br />

x i− 2<br />

=<br />

N<br />

1<br />

N<br />

N ∑ i=1<br />

2<br />

x i −2 xi 2 = 1<br />

N ∑<br />

N<br />

N<br />

2<br />

x<br />

i=1 i −2∑ i=1<br />

= 1<br />

N ∑ N<br />

2 2<br />

x<br />

i=1 i −<br />

N ∑ N<br />

x<br />

i=1 i 2 = 1<br />

N ∑ N<br />

2 2 1<br />

x<br />

i=1 i −2 =<br />

N ∑ N<br />

2 2<br />

x<br />

i =1 i −<br />

N<br />

x i ∑ i=1<br />

Kovariatsiooni arvutusvalemi σ xy = 1<br />

N ∑ N<br />

x<br />

i=1 i yi−x y tõestus analoogiline.<br />

3. Korrelatsioonikordaja absoluutväärtus on väiksem või võrdne ühega<br />

Olgu λ suvaline arv. Koostame ruutvõrrandi<br />

1<br />

N<br />

N ∑ i=1<br />

= 1<br />

N 2<br />

[ x i− x− y i− y] 2 =<br />

N<br />

∑ x<br />

i=1 i− x 2 −2 <br />

N<br />

N ∑ i=1<br />

x i − x y i − y 1<br />

N<br />

N ∑ i=1<br />

y i − y 2<br />

2 =<br />

Võrrandi vasak pool on mittenegatiivne, järelikult ka parem pool on mittenegatiivne, mis on<br />

võimalik ainult siis, kui diskriminant b 2 –4ac on mittepositiivne:<br />

a= 1<br />

, b= 2<br />

c= 1<br />

N<br />

N ∑ i=1<br />

N ∑ i=1<br />

N<br />

N<br />

N ∑ i=1<br />

x i− x 2<br />

x i − x y i − y <br />

y i− y 2<br />

,<br />

ja<br />

b2 –4ac = [2 xy ] 2 2 2<br />

−4 x<br />

y0<br />

, millest ∣ xy∣ x y ja seega ∣ xy∣= xy<br />

1<br />

x y<br />

Kalkulaatorid internetis, näiteks http://home.ubalt.edu/ntsbarsh/Businessstat/otherapplets/Descriptive.htm,<br />

http://www.ruf.rice.edu/~lane/stat_analysis/descriptive.html,<br />

http://bcs.whfreeman.com/ips4e/cat_010/applets/histogramIPS.html .<br />

E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!