You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
YMR0070, 2010/2011 kevad 1/8<br />
TÕENÄOSUSTEOORIA JA MATEMAATILINE STATISTIKA<br />
Objekt (element, indiviid) — katse käigus mõõdetav ühik.<br />
Üldkogum — kõikide objektide hulk, mille omaduste vastu tuntakse huvi. Objektide arvu<br />
üldkogumis tähistatakse tavaliselt N.<br />
Valim — üldkogumi alamhulk, objektide arvu valimis tähistatakse tavaliselt n.<br />
Andmed — arvud ja muud faktid, mida kogutakse, analüüsitakse ja summeeritakse.<br />
Andmestik — uuringu käigus kogutud andmete kogu, saadakse katse tulemusi registreerides.<br />
Tunnus (muutuja) — näitaja, mida objektil mõõdetakse. Kui tunnus võib omandada mistahes<br />
väärtuse mingilt lõigult, siis nimetatakse seda tunnust pidevaks. Kui tunnuse väärtused määratakse<br />
loendamise teel, st tunnus võib omandada ainult täisarvulisi väärtusi, siis nimetatakse tunnust<br />
diskreetseks.<br />
Kvalitatiivsed andmed — elementide nimed või sildid.<br />
Kvantitatiivsed andmed — näitavad objekti iseloomustavat arvulist suurust.<br />
1. Kirjeldav statistika — andmete korrastamine, nähtavaks tegemine, lihtsamate karakteristikute<br />
arvutamine. Kirjeldav statistika ei vaja tõenäosusteooria alaseid teadmisi.<br />
2. Tõenäosusteooria.<br />
3. Järeldav (matemaatiline) statistika — suhteliselt väikese osa objektide (valimi) andmete abil<br />
järelduste tegemine kõigi objektide kogumi (üldkogumi) omaduste kohta. Järelduste tegemine<br />
põhineb tõenäosusteoorial.<br />
KIRJELDAV STATISTIKA<br />
1. Tabelite koostamine<br />
2. Graafikud ja joonised<br />
3. Lihtsamate karakteristikute arvutamine<br />
Näide. Olgu antud andmestik<br />
NIMI SUGU VANUS PIKKUS KAAL<br />
1 ALFRED M 14 69,0 112,5<br />
2 ALICE F 13 56,5 84,0<br />
3 BARBARA F 13 65,3 98,0<br />
4 CAROL F 14 62,8 102,5<br />
5 HENRY M 14 63,5 102,5<br />
6 JAMES M 12 57,3 83,0<br />
7 JANE F 12 59,8 84,5<br />
8 JANET F 15 62,5 112,5<br />
9 JEFFREY M 13 62,5 84,0<br />
10 JOHN M 12 59,0 99,5<br />
11 JOYCE F 11 51,3 50,5<br />
12 JUDY F 14 64,3 90,0<br />
13 LOUISE F 12 56,3 77,0<br />
14 MARY F 15 66,5 112,0<br />
15 PHILIP M 16 72,0 150,0<br />
16 ROBERT M 12 64,8 128,0<br />
17 RONALD M 15 67,0 133,0<br />
18 THOMAS M 11 57,5 85,0<br />
19 WILLIAM M 15 66,5 112,0<br />
E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10
YMR0070, 2010/2011 kevad 2/8<br />
Iga õpilast iseloomustab mitu tunnust ehk muutujat.NIMI ja SUGU on kvalitatiivsed tunnused<br />
(“sildid”), VANUS, PIKKUS ja KAAL on kvantitatiivsed tunnused. On mõõdetud 19 õpilast<br />
Ühemõõtmelised tabelid<br />
Kahemõõtmeline tabel<br />
Tulpdiagrammid<br />
Õpilaste jaotus soo järgi<br />
Sugu Arv<br />
F 9<br />
M 10<br />
Kokku 19<br />
Õpilaste jaotus vanuse järgi (sageduste tabel)<br />
Vanus Arv<br />
11 2<br />
12 5<br />
13 3<br />
14 4<br />
15 4<br />
16 1<br />
Kokku 19<br />
Õpilaste jaotus soo ja vanuse järgi<br />
Vanus<br />
Sugu 11 12 13 14 15 16 Kokku<br />
F 1 2 2 2 2 0 9<br />
M 1 3 1 2 2 1 10<br />
Kokku 2 5 3 4 4 1 19<br />
12<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
Õpilaste jaotus soo järgi<br />
F M<br />
E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10
YMR0070, 2010/2011 kevad 3/8<br />
Sektordiagrammid<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
4<br />
3<br />
2<br />
1<br />
0<br />
Õpilaste jaotus vanuse järgi<br />
11 12 13 14 15 16<br />
Õpilaste jaotus soo ja vanuse järgi<br />
11 12 13 14 15 16<br />
Õpilaste jaotus soo järgi<br />
Õpilaste jaotus vanuse järgi<br />
E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10<br />
F<br />
M<br />
11<br />
12<br />
13<br />
14<br />
15<br />
16<br />
F<br />
M
YMR0070, 2010/2011 kevad 4/8<br />
Lihtsaimad karakteristikud<br />
Olgu mõõdetud üldkogumi kõikide objektide i=1, 2, ... , N puhul tunnuse x väärtus xi .<br />
(Aritmeetiline) keskmine<br />
= x 1 x 2 ...x N<br />
N<br />
= ∑ N<br />
x i =1 i<br />
Exceli funktsioon aritmeetilise keskmise arvutamiseks — AVERAGE<br />
N<br />
Kaalutud keskmine — kui on teada m rühma keskmised ja objektide arvud:<br />
Rühm 1 2 ... m<br />
Rühma keskmine 1 2 ... m<br />
Objektide arv rühmas N1 N2 ... Nm<br />
Üldine keskmine: = N 1<br />
N 1 N 2<br />
N 2 ... N m<br />
N m , kus N = N1 + N2 +...+ Nm .<br />
Mediaan<br />
.<br />
Kui N is paaritu, siis on mediaan järjestatud statistilise rea ehk variatsioonrea keskmine liige. Kui<br />
N on paaris, siis on mediaan variatsioonrea kahe keskmise liikme poolsumma.<br />
Exceli funktsioon mediaani arvutamiseks — MEDIAN<br />
Mood<br />
Mood on arvrea suurima sagedusega liige.<br />
Exceli funktsioon moodi arvutamiseks — MODE<br />
Protsentiilid<br />
p-protsentiil on arv, millest p protsenti andmetest on temast väiksem või võrdne ja (100-p) protsenti<br />
suurem või võrdne.<br />
25-protsentiili nimetatakse esimeseks kvartiiliks.<br />
Mediaan on 50-protsentiil ehk teine kvartiil.<br />
75-protsentiili nimetatakse kolmandaks kvartiiliks.<br />
Exceli funktsioon kvartiilide arvutamiseks — QUARTILE<br />
Dispersioon<br />
σ 2 = x 1 −2 x 2 − 2 ...x N − 2<br />
N<br />
N<br />
= ∑ i =1<br />
x i− 2<br />
N<br />
E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10
YMR0070, 2010/2011 kevad 5/8<br />
Excel — VARP, arvutuste lihtsustamiseks võib kasutada valemit σ 2 = ∑ i=1<br />
σ= σ 2<br />
Standardhälve<br />
Excel — STDEVP<br />
Variatsioonikordaja e suhteline viga<br />
CV = σ<br />
<br />
Haare on arvrea suurima ja vähima väärtuse vahe.<br />
Olgu igal objektil on mõõdetud rohkem kui üks tunnus<br />
Jrk.<br />
nr.<br />
x y ...<br />
1 x1 y1 ...<br />
2 x2 y2 ...<br />
... ...<br />
N xN yN ...<br />
Iga mõõdetud tunnuse väärtused moodustavad arvrea ehk statistilise rea .<br />
σ xy = ∑ i=1<br />
Tunnuste x ja y vaheline kovariatsioon:<br />
N<br />
x i− x y i− y<br />
N<br />
, kus x on x keskmine ja y on y keskmine.<br />
Excel — COVAR, arvutamiseks lihtsam valem σ xy = ∑ x i=1 i yi −x y<br />
N<br />
(Pearsoni) korrelatsioonikordaja ρ<br />
N<br />
N<br />
2<br />
xi N −2 (tõestus lisas).<br />
ρxy = σxy σ x σ y<br />
,kus σ x on x standardhälve ja and σ y on y standardhälve. Kehtib ∣∣≤1<br />
(tõestus lisas).<br />
Excel: CORREL<br />
E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10
YMR0070, 2010/2011 kevad 6/8<br />
Näide. Lk. 1 antud andmestiku puhul õpilaste pikkuste aritmeetiline keskmine ehk keskmine pikkus<br />
on<br />
x= x 1 x 2...x 19<br />
19<br />
= 69,056,5...66,5<br />
=62,3<br />
19<br />
ja keskmine kaal<br />
y= y1 y2... y19 =<br />
19<br />
112,584,0...112,0<br />
=100,0<br />
19<br />
Pikkuse mediaani leidmiseks järjestame õpilaste pikkused minimaalsest maksimaalseni. Pikkuste<br />
variatsioonrida on<br />
51,3 56,3 56,5 57,3 57,5 59,0 59,8 62,5 62,5 62,8 63,5 64,3 64,8 65,3 66,5 66,5 67,0 69,0 72,0<br />
Pikkuse mediaan on pikkuse järjestatud väärtuste keskmine element 62,8.<br />
Kaal järjestatuna minimaalsest maksimaalseni ehk kaalu variatsioonrida on<br />
50,5 77,0 83,0 84,0 84,0 84,5 85,0 90,0 98,0 99,5 102,5 102,5 112,0 112,0 112,5 112,5 128,0 133,0 150,0<br />
Kaalu mediaan on kaalu järjestatud väärtuste keskmine element 99,5.<br />
Pikkuse esimene kvartiil: (57,5 + 59,0 )/2 = 58,3, pikkuse kolmas kvartiil (65,3+66,5)/2=65,9<br />
51,3 56,3 56,5 57,3 57,5 59,0 59,8 62,5 62,5 62,8 63,5 64,3 64,8 65,3 66,5 66,5 67,0 69,0 72,0<br />
Kaalu esimene kvartiil (84,0+84,5)/2=84,3, kaalu kolmas kvartiil (112,0+112,5)/2=112,3<br />
50,5 77,0 83,0 84,0 84,0 84,5 85,0 90,0 98,0 99,5 102,5 102,5 112,0 112,0 112,5 112,5 128,0 133,0 150,0<br />
Pikkuse miinimum 51,3, pikkuse maksimum 72,0, pikkuse haare 72,0 – 51,3 = 20,7<br />
Kaalu miinimum 50,5, kaalu maksimum 150,0, kaalu haare 150,0 – 50,5 = 99,5.<br />
Enne kovariatsiooni ja korrelatsioonikordaja leidmist vt. hajusdiagrammi<br />
kaal<br />
160<br />
140<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0<br />
Pikkuse ja kaalu seos<br />
0 10 20 30 40 50 60 70 80<br />
pikkus<br />
E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10
YMR0070, 2010/2011 kevad 7/8<br />
Diagrammilt on näha, et kui õpilase pikkus on keskmisest suurem (väiksem), siis enamikul<br />
juhtudest on selle õpilase kaal niisamuti keskmisest suurem (väiksem). Peale selle võib täheldada, et<br />
pikkuse ja kaalu vaheline sõltuvus on enam-vähem lineaarne. Sellisel juhul öeldakse, et pikkus ja<br />
kaal on positiivselt (negatiivselt) korreleeritud. Pikkuse ja kaalu vaheline kovariatsioon on 97,1 ja<br />
korrelatsioonikordaja 0,88 (vt. arvutusi alljärgnevas tabelis).<br />
Jrk.nr. NIMI SUGU VANUS PIKKUS (x) KAAL (y) x x*y<br />
2<br />
y 2<br />
1 ALFRED M 14 69,0 112,5 4761,0 12656,3 7762,5<br />
2 ALICE F 13 56,5 84,0 3192,3 7056,0 4746<br />
3 BARBARA F 13 65,3 98,0 4264,1 9604,0 6399,4<br />
4 CAROL F 14 62,8 102,5 3943,8 10506,3 6437<br />
5 HENRY M 14 63,5 102,5 4032,3 10506,3 6508,75<br />
6 JAMES M 12 57,3 83,0 3283,3 6889,0 4755,9<br />
7 JANE F 12 59,8 84,5 3576,0 7140,3 5053,1<br />
8 JANET F 15 62,5 112,5 3906,3 12656,3 7031,25<br />
9 JEFFREY M 13 62,5 84,0 3906,3 7056,0 5250<br />
10 JOHN M 12 59,0 99,5 3481,0 9900,3 5870,5<br />
11 JOYCE F 11 51,3 50,5 2631,7 2550,3 2590,65<br />
12 JUDY F 14 64,3 90,0 4134,5 8100,0 5787<br />
13 LOUISE F 12 56,3 77,0 3169,7 5929,0 4335,1<br />
14 MARY F 15 66,5 112,0 4422,3 12544,0 7448<br />
15 PHILIP M 16 72,0 150,0 5184,0 22500,0 10800<br />
16 ROBERT M 12 64,8 128,0 4199,0 16384,0 8294,4<br />
17 RONALD M 15 67,0 133,0 4489,0 17689,0 8911<br />
18 THOMAS M 11 57,5 85,0 3306,3 7225,0 4887,5<br />
19 WILLIAM M 15 66,5 112,0 4422,3 12544,0 7448<br />
Kui on mõõdetud üldkogumi osahulk ehk valim mahuga n, siis valimi karakteristikud on<br />
analoogilised üldkogumi vastavate karakteristikutega.<br />
Valimkeskmine<br />
Sum ma 1184,4 1900,5 74304,92 199435,75 120316,05<br />
Keskm ine 62,34 100,03 3910,79 10496,62 6332,42<br />
Dispersioon 24,9 491,35<br />
Standardhälve 4,99 22,17<br />
Kovariatsioon=6332,42–62,34*100,03=<br />
x= x 1 x 2 ...x n<br />
n<br />
valimdispersioon<br />
= ∑ n<br />
x i=1 i<br />
s 2 = x 1 −x 2 x 2 −x 2 ... x n −x 2<br />
n−1<br />
Exceli funktsioon VAR,<br />
n<br />
,<br />
97,10<br />
Korrelatsioonikordaja= 97,1/( 4,99*22,17)=<br />
0,88<br />
n<br />
= ∑ i =1<br />
x i−x 2<br />
n−1<br />
valimstandardhälve s=s 2 , Exceli funktsioon STDEV. Valimi mood, mediaan, kvartiilid ja<br />
haare arvutatakse analoogiliselt vastavate karakteristikutega üldkogumis.<br />
E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10<br />
,
YMR0070, 2010/2011 kevad 8/8<br />
Lisa. Tõestused<br />
1. Hälvete summa on 0<br />
N<br />
N<br />
∑ x<br />
i=1 i−=∑ x<br />
i=1 i−N =N −N =0<br />
2. Dispersiooni arvutamise lihtsam valem<br />
N<br />
σ 2 = ∑ i=1<br />
x i− 2<br />
=<br />
N<br />
1<br />
N<br />
N ∑ i=1<br />
2<br />
x i −2 xi 2 = 1<br />
N ∑<br />
N<br />
N<br />
2<br />
x<br />
i=1 i −2∑ i=1<br />
= 1<br />
N ∑ N<br />
2 2<br />
x<br />
i=1 i −<br />
N ∑ N<br />
x<br />
i=1 i 2 = 1<br />
N ∑ N<br />
2 2 1<br />
x<br />
i=1 i −2 =<br />
N ∑ N<br />
2 2<br />
x<br />
i =1 i −<br />
N<br />
x i ∑ i=1<br />
Kovariatsiooni arvutusvalemi σ xy = 1<br />
N ∑ N<br />
x<br />
i=1 i yi−x y tõestus analoogiline.<br />
3. Korrelatsioonikordaja absoluutväärtus on väiksem või võrdne ühega<br />
Olgu λ suvaline arv. Koostame ruutvõrrandi<br />
1<br />
N<br />
N ∑ i=1<br />
= 1<br />
N 2<br />
[ x i− x− y i− y] 2 =<br />
N<br />
∑ x<br />
i=1 i− x 2 −2 <br />
N<br />
N ∑ i=1<br />
x i − x y i − y 1<br />
N<br />
N ∑ i=1<br />
y i − y 2<br />
2 =<br />
Võrrandi vasak pool on mittenegatiivne, järelikult ka parem pool on mittenegatiivne, mis on<br />
võimalik ainult siis, kui diskriminant b 2 –4ac on mittepositiivne:<br />
a= 1<br />
, b= 2<br />
c= 1<br />
N<br />
N ∑ i=1<br />
N ∑ i=1<br />
N<br />
N<br />
N ∑ i=1<br />
x i− x 2<br />
x i − x y i − y <br />
y i− y 2<br />
,<br />
ja<br />
b2 –4ac = [2 xy ] 2 2 2<br />
−4 x<br />
y0<br />
, millest ∣ xy∣ x y ja seega ∣ xy∣= xy<br />
1<br />
x y<br />
Kalkulaatorid internetis, näiteks http://home.ubalt.edu/ntsbarsh/Businessstat/otherapplets/Descriptive.htm,<br />
http://www.ruf.rice.edu/~lane/stat_analysis/descriptive.html,<br />
http://bcs.whfreeman.com/ips4e/cat_010/applets/histogramIPS.html .<br />
E:\TTU_kevad_2011\YMR0170\loeng_00_kirj_stat.odt 12/12/10