2 na stran
2 na stran
2 na stran
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
STATISTIKA Z ELEMENTI<br />
INFORMATIKE<br />
http://www.fgg.uni-lj.si/~/sdrobne/Pouk/SEI/SEI_VSS1.htm<br />
Samo Drobne<br />
UL FGG, Jamova 2, Ljublja<strong>na</strong><br />
(01) 4768 649 (telefon)<br />
(01) 4250 704 (faks)<br />
sdrobne@fgg.uni-lj.si<br />
http://www.fgg.uni-lj.si/~/sdrobne/<br />
Cilj predmeta<br />
• osvojiti temelje pristopa k <strong>na</strong>črtovanju statističnih<br />
opazovanj,<br />
• sez<strong>na</strong>niti se s temeljnimi pojmi in uporabo programske<br />
opreme za obdelavo statističnih podatkov.<br />
2<br />
•1
Vsebi<strong>na</strong> predavanj<br />
• temeljni pojmi statistike;<br />
• opis<strong>na</strong> statistika ene in več spremenljivk;<br />
• kombi<strong>na</strong>torika in verjetnostni račun;<br />
• sklepanje iz vzorca <strong>na</strong> populacijo;<br />
• preizkušanje domnev;<br />
• bivariat<strong>na</strong> a<strong>na</strong>liza.<br />
3<br />
Vsebi<strong>na</strong> vaj (<strong>na</strong> raču<strong>na</strong>lniku)<br />
• Vaja 1: Prikazovanje podatkov v preglednicah in <strong>na</strong><br />
grafikonih<br />
• Vaja 2: Številski prikaz podatkov<br />
• Vaja 3: V skupine razvrščeni podatki<br />
• Vaja 4: Verjetnostni račun<br />
• Vaja 5: Diskretne slučajne spremenljivke<br />
• Vaja 6: Intervali zaupanja<br />
• Vaja 7: Preizkušanje domnev<br />
• Vaja 8: Bivariat<strong>na</strong> a<strong>na</strong>liza<br />
4<br />
•2
Literatura<br />
• S. Drobne, 2002: Statistika z elementi informatike,<br />
Prosojnice predavanj za I. letnik VSŠ geodezije, UL FGG,<br />
Ljublja<strong>na</strong>.<br />
• S. Drobne in G. Turk, 2002: Statistika z elementi<br />
informatike – Vaje, Navodila za izvedbo vaj za I. letnik<br />
VSŠ geodezije, UL FGG, Ljublja<strong>na</strong>.<br />
5<br />
Druga (priporoče<strong>na</strong> študijska)<br />
literatura<br />
• G. Turk, 2002: Verjetnostni račun in statistika, UL FGG,<br />
Ljublja<strong>na</strong>.<br />
• Bogataj M. in S. Drobne: Statistika z elementi informatike,<br />
FGG, Ljublja<strong>na</strong>, (delov<strong>na</strong> različica v knjižnici FGG).<br />
... več o drugi priporočeni študijski literaturi <strong>na</strong>jdete <strong>na</strong><br />
spletni <strong>stran</strong>i predmeta:<br />
http://www.fgg.unilj.si/~/sdrobne/Pouk/SEI/SEI_VSS1.htm<br />
6<br />
•3
Predgovor<br />
To je delov<strong>na</strong> različica prosojnic iz osnov statistike, ki jo<br />
uporabljamo pri predavanjih pri predmetu Statistika z elementi<br />
informatike v I. letniku visokošolskega strokovnega študija<br />
geodezije.<br />
V prosojnicah so <strong>na</strong>vedene zgolj pomembnejše definicije, formule in<br />
postopki. Dokaze in izpeljave študent sliši <strong>na</strong> predavanjih in vajah,<br />
oziroma <strong>na</strong>jde v priporočeni študijski literaturi.<br />
Prosojnice, ki so pred vami, služijo zgolj kot <strong>na</strong>potek, katere<br />
vsebine študirate v priporočeni študijski literaturi.<br />
Napisati dovolj preprost in stokovno neoporečen študijski<br />
pripomoček je težko. Zato bom zelo hvaležen vsem, ki me bodo<br />
opozorili <strong>na</strong> tipkarske, računske in druge <strong>na</strong>pake. Prav tako bom<br />
hvaležen tudi za vse morebitne pripombe in komentarje.<br />
Samo Drobne<br />
7<br />
(sdrobne@fgg.uni-lj.si)<br />
Kazalo<br />
1. UVOD<br />
1.1 Osnovni pojmi<br />
1.2 Vrste spremenljivk<br />
1.3 Tipi statističnih a<strong>na</strong>liz<br />
1.4 Koraki statistične a<strong>na</strong>lize<br />
1.5 Prikazovanje podatkov<br />
1.6 Zgodovi<strong>na</strong> statistike<br />
2. KVANTILI<br />
3. FREKVENČNA PORAZDELITEV<br />
3.1 Opredeljevanje skupin vrednosti<br />
3.1.1 Opredeljevanje skupin za opisne spremenljivke<br />
3.1.2 Opredeljevanje skupin za številske spremenljivke<br />
3.2 Kvantili frekvenčne porazdelitve<br />
3.3 Grafično prikazovanje frekvenčnih porazdelitev<br />
3.4 Oblike frekvenčnih porazdelitev<br />
8<br />
•4
Kazalo / 2<br />
4. SREDNJE VREDNOSTI<br />
4.1 Media<strong>na</strong><br />
4.2 Modus<br />
4.3 Aritmetič<strong>na</strong> sredi<strong>na</strong> ali povprečje<br />
4.4 Primerjava aritmetične sredine, modusa in mediane<br />
4.5 Geometrijska sredi<strong>na</strong><br />
4.6 Harmonič<strong>na</strong> sredi<strong>na</strong><br />
4.7 Primerjava aritmetične, geometrijske in harmonične sredine<br />
4.8 Kvadrat<strong>na</strong> sredi<strong>na</strong><br />
5. MERE RAZPRŠENOSTI<br />
5.1 Variacijski razmik<br />
5.2 Kvartilni razmik<br />
5.3 Kvartilni odklon<br />
5.4 Povprečni absolutni odklon<br />
5.5 Varianca in standardni odklon<br />
5.6 Relativne mere razpršenosti<br />
9<br />
Kazalo / 3<br />
6. NORMALNA PORAZDELITEV<br />
6.1 Splošne lastnosti<br />
6.2 Standardizacija spremenljivke<br />
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> porazdelitev<br />
7. MERE ASIMETRIJE IN SPLOŠČENOSTI<br />
7.1 Meri asimetrije<br />
7.2 Meri sploščenosti<br />
7.3 Meri asimetrije in sploščenosti s centralnimi momenti<br />
8. STATISTIKA IN VERJETNOSTNI RAČUN<br />
9. KOMBINATORIKA<br />
9.1 Permutacija in variacija<br />
9.2 Osnovni izrek kombi<strong>na</strong>torike<br />
9.3 Število variacij, permutacij in kombi<strong>na</strong>cij<br />
10<br />
•5
Kazalo / 4<br />
10. VERJETNOSTNI RAČUN<br />
10.1 Poskus<br />
10.2 Dogodek<br />
10.2.1 Raču<strong>na</strong>nje z dogodki<br />
10.3 Verjetnost dogodka<br />
10.3.1 Statistič<strong>na</strong> definicija verjetnosti dogodka<br />
10.3.2 Klasič<strong>na</strong> definicija verjetnosti dogodka<br />
10.3.3 Aksiomska definicija verjetnosti dogodka<br />
10.4 Pogoj<strong>na</strong> verjetnost<br />
10.5 Bernoullijevo zaporedje neodvisnih poskusov<br />
11<br />
11. SLUČAJNA SPREMENLJIVKA<br />
11.1 Diskret<strong>na</strong> slučaj<strong>na</strong> spremenljivka<br />
11.1.1 E<strong>na</strong>komer<strong>na</strong> diskret<strong>na</strong> porazdelitev<br />
11.1.2 Binomska porazdelitev<br />
11.2 Zvez<strong>na</strong> slučaj<strong>na</strong> spremenljivka<br />
11.2.1 E<strong>na</strong>komer<strong>na</strong> zvez<strong>na</strong> porazdelitev<br />
11.2.2 Normal<strong>na</strong> porazdelitev<br />
11.3 Pričakova<strong>na</strong> vrednost slučajne spremenljivke<br />
11.4 Razpršenost slučajne spremenljivke<br />
11.5 Momenti in centralni momenti porazdelitve<br />
Kazalo / 5<br />
12. VZORČENJE<br />
12.1 Osnove vzorčenja<br />
12.2 Porazdelitev vzorčnih statistik<br />
12.2.1 Porazdelitev vzorčnih aritmetičnih sredin<br />
12.2.2 Porazdelitev vzorčnih deležev<br />
12.2.3 Porazdelitev razlik vzorčnih aritmetičnih sredin<br />
12.2.4 Porazdelitev razlik vzorčnih deležev<br />
13. INTERVALI ZAUPANJA<br />
13.1 Pomen stopnje zaupanja pri intervalih zaupanja<br />
13.2 Intervali zaupanja pri velikih vzorcih<br />
13.2.1 Interval zaupanja za aritmetično sredino pri velikih vzorcih<br />
13.2.2 Interval zaupanja za varianco pri velikih vzorcih<br />
13.2.3 Interval zaupanja za delež pri velikih vzorcih<br />
13.2.4 Interval zaupanja za razliko aritmetičnih sredin pri velikih vzorcih<br />
13.2.5 Interval zaupanja za razliko deležev pri velikih vzorcih<br />
13.2.6 Določanje velikosti vzorca<br />
13.2.6.1 Določanje velikosti vzorca, ko ocenjujemo aritmetično sredino<br />
13.2.6.2 Določanje velikosti vzorca, ko ocenjujemo delež<br />
12<br />
•6
Kazalo / 6<br />
13. INTERVALI ZAUPANJA (<strong>na</strong>daljevanje)<br />
:<br />
13.3 Porazdelitev vzorčnih statistik pri majhnih vzorcih<br />
13.4 Porazdelitev t<br />
2<br />
13.5 Porazdelitev χ<br />
13.6 Intervali zaupanja pri majhnih vzorcih<br />
13.6.1 Interval zaupanja za aritmetično sredino pri majhnih vzorcih<br />
13.6.2 Interval zaupanja za varianco pri majhnih vzorcih<br />
13.6.3 Interval zaupanja za delež pri majhnih vzorcih<br />
13.6.4 Interval zaupanja za razliko aritmetičnih sredin pri majhnih vzorcih<br />
14. PREIZKUŠANJE DOMNEV<br />
14.1 Napaki I. in II. vrste<br />
14.2 Postopek preizkušanja domnev<br />
14.2.1 Preizkušanje domneve o pričakovani vrednosti<br />
14.2.2 Preizkušanje domneve o razliki pričakovanih vrednosti<br />
14.2.3 Preizkušanje domneve o varianci<br />
14.2.4 Preizkušanje domneve o homogenosti populacij<br />
14.2.5 Preizkušanje domneve o deležu<br />
14.2.6 Preizkušanje domneve o razliki deležev<br />
13<br />
Kazalo / 7<br />
15. BIVARIATNA ANALIZA<br />
15.1 Uni- in bivariat<strong>na</strong> a<strong>na</strong>liza<br />
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih spremenljivk<br />
15.3 Preizkušanje domneve o povezanosti dveh številskih spremenljivk<br />
15.4 Regresija<br />
15.4.1 Linear<strong>na</strong> regresija<br />
15.4.2 Preizkušanje domneve o regresijskem koeficientu<br />
15.4.3 Pojasnje<strong>na</strong> varianca<br />
Literatura<br />
Nekaj zanimivih spletnih <strong>na</strong>slovov<br />
14<br />
•7
1. UVOD<br />
• Statistika je veda, ki proučuje množične pojave.<br />
• Statistika se ukvarja z zbiranjem, predstavitvijo, a<strong>na</strong>lizo<br />
ter interpretacijo podatkov in rezultatov a<strong>na</strong>liz.<br />
• Beseda “statistika” izvira <strong>na</strong>jverjetneje iz latinske besede<br />
“status” (država).<br />
Izvorno je statistika služila opisovanju ekonomskih in socialnih razmer razvitih držav antike.<br />
• V vsakdanjem pogovoru:<br />
• zbirko številskih in opisnih podatkov;<br />
• publikacije (publikacijske preglednice, grafikone, včasih tudi z<br />
zbirkami definicij);<br />
• delo pri zbiranju statističnih podatkov;<br />
• statistično službo.<br />
15<br />
1. UVOD / 2<br />
• Registri,<br />
• evidence in<br />
• katastri,<br />
kot poseben primer pisnih in grafičnih zbirk podatkov,<br />
sami po sebi še niso statistika, saj njihov <strong>na</strong>men ni<br />
proučevanje posamezne vrste množičnih pojavov kot<br />
celote, ampak opazovanje in a<strong>na</strong>liza posameznih enot.<br />
16<br />
•8
1. UVOD / 3<br />
• Statistični urad RS<br />
(http://www.stat.si/)<br />
• Statističen letopis RS (http://www.stat.si/letopis_n.htm)<br />
17<br />
1.1 Osnovni pojmi<br />
• Enota – posamezni element proučevanja.<br />
Primer 1.1: redni študent <strong>na</strong> UL FGG Oddelku za<br />
geodezijo v šolskem letu 2002/03.<br />
• Populacija –množica vseh proučevanih elementov;<br />
pomemb<strong>na</strong> je <strong>na</strong>tanč<strong>na</strong> opredelitev populacije (stvarno,<br />
časovno in prostorsko); parametre populacije oz<strong>na</strong>čujemo<br />
z velikimi črkami (npr. N – število enot v populaciji).<br />
Primer 1.2: vsi redni študentje <strong>na</strong> UL FGG Oddelku za<br />
geodezijo šolskem letu 2002/03.<br />
Množični pojav je vsak pojav, ki se v prostoru in času pojavlja večkrat.<br />
18<br />
•9
1.1 Osnovni pojmi / 2<br />
• Vzorec – podmnožica populacije, <strong>na</strong> osnovi katere<br />
po<strong>na</strong>vadi sklepamo o lastnostih cele populacije;<br />
parametre vzorca oz<strong>na</strong>čujemo z malimi črkami<br />
(npr. n – število enot v vzorcu).<br />
Primer 1.3: slučajni vzorec 15-tih rednih študentov <strong>na</strong><br />
UL FGG Oddelku za geodezijo v šolskem letu 2002/03.<br />
19<br />
• Spremenljivka – lastnost enot; oz<strong>na</strong>čujemo jih z<br />
velikimi poševnimi črkami; npr. X, Y, Z, X 1, X 2 . Vrednost<br />
spremenljivke X <strong>na</strong> i-ti enoti oz<strong>na</strong>čimo z malo poševno<br />
črko in indeksom x i .<br />
Primeri 1.4: • spol, • viši<strong>na</strong> mesečnih dohodkov v<br />
družini študenta <strong>na</strong> čla<strong>na</strong> družine, • število poskusov<br />
študenta geodezije, da bi v šolskem letu 2001/2002<br />
opravil izpit pri predmetu Statistika z elementi<br />
informatike.<br />
1.2 Vrste spremenljivk<br />
• Vrste spremenljivk glede <strong>na</strong> tip izražanja<br />
vrednosti:<br />
1. opisne (ali atributivne) spremenljivke – vrednosti<br />
lahko opišemo le z besedami (npr. spol, poklic,<br />
uspeh);<br />
2. številske (ali numerične) spremenljivke – vrednosti<br />
lahko izražamo s števili (npr. starost, viši<strong>na</strong>,<br />
temperatura).<br />
20<br />
•10
1.2 Vrste spremenljivk / 2<br />
21<br />
• Vrste spremenljivk glede <strong>na</strong> tip merjenja:<br />
1. nomi<strong>na</strong>lne spremenljivke – vrednosti lahko le<br />
razlikujemo med seboj, ne moremo pa jih urediti po<br />
logičnem zaporedju; dve vrednosti sta e<strong>na</strong>ki ali<br />
različni (npr. spol, krvne skupine in vzroki telesnih<br />
poškodb);<br />
2. ordi<strong>na</strong>lne spremenljivke – vrednosti lahko uredimo<br />
od <strong>na</strong>jmanjše do <strong>na</strong>jvečje (npr. starost, viši<strong>na</strong>);<br />
3. intervalne spremenljivke – lahko primerjamo razlike<br />
med vrednostima dvojic enot (npr. temperatura);<br />
4. razmernostne spremenljivke – lahko primerjamo<br />
razmerja med vrednostima dvojic enot (npr. starost).<br />
Urejeno glede <strong>na</strong> kvaliteto merskih lastnosti: od tistih z <strong>na</strong>jslabšimi merskimi<br />
lastnostmi (nomi<strong>na</strong>lne spremenljivke) do tistih z <strong>na</strong>jboljšimi (razmernostne<br />
spremenljivke, ki zadoščajo lastnostim, ki jih imajo prve tri spremenljivke).<br />
1.3 Tipi statističnih a<strong>na</strong>liz<br />
• Tipi statističnih a<strong>na</strong>liz glede <strong>na</strong> sklepanje:<br />
• opis<strong>na</strong> statistika – statistič<strong>na</strong> a<strong>na</strong>liza, ki raziskuje<br />
sestavo in zveze med opazovanimi podatki;<br />
(Brez težnje po posploševanju čez njihov obseg: ne vključuje statističnega sklepanja);<br />
• sklep<strong>na</strong> (inferenč<strong>na</strong>) statistika – statistič<strong>na</strong><br />
a<strong>na</strong>liza, ki temelji <strong>na</strong> statističnem sklepanju iz vzorca<br />
(dela populacije) <strong>na</strong> populacijo:<br />
• ocenjevanje z<strong>na</strong>čilnosti populacije (intervali zaupanja);<br />
• preizkušanje domnev.<br />
22<br />
•11
1.3 Tipi statističnih a<strong>na</strong>liz / 2<br />
• Tipi statističnih a<strong>na</strong>liz glede <strong>na</strong> število<br />
obrav<strong>na</strong>vanih spremenljivk:<br />
• univariat<strong>na</strong> statistič<strong>na</strong> a<strong>na</strong>liza – a<strong>na</strong>liza ene<br />
spremenljivke;<br />
• bivariat<strong>na</strong> statistič<strong>na</strong> a<strong>na</strong>liza – a<strong>na</strong>liza dveh<br />
spremenljivk;<br />
• multivariat<strong>na</strong> statistič<strong>na</strong> a<strong>na</strong>liza – a<strong>na</strong>liza več<br />
spremenljivk.<br />
23<br />
1.4 Koraki statistične a<strong>na</strong>lize<br />
1. določitev vsebine in <strong>na</strong>me<strong>na</strong> statističnega<br />
proučevanja:<br />
• opredelitev predmeta opazovanja (enote in populacije);<br />
• opredelitev vsebine opazovanja (spremenljivke);<br />
2. izdelava <strong>na</strong>črta opazovanja in metod proučevanja<br />
(kako <strong>na</strong>tančno);<br />
3. statistično opazovanje; vrste opazovanj:<br />
• opazovanje cele populacije (popis, tekoča registracija ...);<br />
• opazovanje vzorca (anketa ...);<br />
4. osnov<strong>na</strong> obdelava:<br />
• urejanje podatkov;<br />
• razvrščanje podatkov;<br />
• izračun osnovnih statističnih z<strong>na</strong>čilnosti;<br />
5. a<strong>na</strong>litič<strong>na</strong> obdelava.<br />
24<br />
•12
1.4 Koraki statistične a<strong>na</strong>lize / 2<br />
Primer 1.5: Zaledje neke regije želimo močneje povezati s<br />
središčem. V ta <strong>na</strong>men moramo zagotoviti ustrezen javni promet<br />
med središčem in okolico.<br />
• Namen: zagotovitev ustrezne povezave;<br />
• Vsebi<strong>na</strong> proučevanja: potrebe in željen nivo uslug javnega potniškega<br />
prometa ter možnosti fi<strong>na</strong>nčnega pokritja teh odločitev;<br />
• Izdelava <strong>na</strong>črta: ankete, merjenje prometa, čakalnih časov <strong>na</strong><br />
postajališčih, potovalnih časov, individualno vrednotenja časa,<br />
pripravljenost potnikov <strong>na</strong> višje tarife, itd.<br />
Skratka: ugotovitev vrednosti parametrov, ki vplivajo <strong>na</strong> večjo dostopnost, in<br />
stroškov za zagotavljanje večje dostopnosti. Odločimo se za število opazovanj, čas<br />
opazovanja, itd.<br />
• Izvedba opazovanj po <strong>na</strong>črtu;<br />
• Osnov<strong>na</strong> obdelava: vnos v raču<strong>na</strong>lnik, urejanje, razvrščanje v razrede,<br />
prikaz preglednic in osnovnih grafikonov;<br />
• A<strong>na</strong>litič<strong>na</strong> obdelava in kvalitativ<strong>na</strong> a<strong>na</strong>liza, ki daje podporo odločitvam<br />
o posegih v sam prometni sistem.<br />
25<br />
1.5 Prikazovanje podatkov<br />
• Statistične podatke <strong>na</strong>vadno primerjamo med seboj.<br />
Zato jih združujemo v statistične vrste, te pa<br />
prikazujemo v preglednicah in grafikonih.<br />
• Prikaz podatkov v preglednici - prednost pred prikazom<br />
v grafikonu je predvsem v možnosti poljubno<br />
<strong>na</strong>tančnega prikaza.<br />
• Prikaz podatkov v grafikonu - bolj <strong>na</strong>zorno prikažemo<br />
zveze med več podatki kot v preglednici:<br />
• enostavni grafikoni – z njimi prikazujemo temeljne<br />
statistične vrste <strong>na</strong> čim bolj razumljiv <strong>na</strong>čin;<br />
• a<strong>na</strong>litični grafikoni -omogočajo celo grafično a<strong>na</strong>lizo pojava.<br />
Prikaz podatkov v grafikonu je tudi bolj privlačen in neposreden od prikaza<br />
podatkov v preglednicah, zato ga pogosto uporabljamo pri popularizaciji<br />
določenega pojava.<br />
26<br />
•13
1.5 Prikazovanje podatkov / 2<br />
Primer 1.6: Shematični prikaz preglednice<br />
g l a v a<br />
č<br />
e<br />
l<br />
o<br />
s<br />
t<br />
o<br />
l<br />
p<br />
e<br />
c<br />
v r s t i c a<br />
polje<br />
z s<br />
b t<br />
i o<br />
r l<br />
n p<br />
i e<br />
c<br />
z b i r n a<br />
v r s t i c a<br />
27<br />
1.5 Prikazovanje podatkov / 3<br />
Primer 1.7: Primer preglednice (vir: Statističen letopis 1991, SURS, Ljublja<strong>na</strong>) -<br />
<strong>na</strong>slov preglednice enolično pojasnjuje gradivo v preglednici; osrednji del preglednice je<br />
sestavljen je iz tekstovnega in številskega dela; v tekstovnem delu opredelimo pomen<br />
števil v preglednici; številski del preglednice je razdeljen v polja, v katere vpisujemo<br />
podatke.<br />
1.4 Stanovanjske in nestanovanjske stavbe, njihova gradbe<strong>na</strong> velikost in stanovanja v njih, po regijah, Slovenija, 2000 1)<br />
Residential and non-residential buildings, their size and dwellings in them, by regions, Slovenia, 2000 1)<br />
Število stavb Površi<strong>na</strong> Prostorni<strong>na</strong> Stanovanja v stavbi<br />
Number of buildings stavbe stavbe Dw ellings in buildings<br />
skupaj stano- nestano- število površi<strong>na</strong><br />
total vanjske vanjske<br />
non - Floor Volume number useful<br />
residental residental area of of floor<br />
buildings buildings buildings buildings area<br />
m2 m3 m2<br />
Slovenija / Slovenia 6100 3650 2450 1994620 7125120 5815 662796<br />
Pomurska 497 250 247 145050 487535 332 42566<br />
Podravska 1003 633 370 323800 1086786 788 103553<br />
Koroška 234 142 92 72191 257326 239 23209<br />
Savinjska 875 528 347 215321 682983 808 91246<br />
Zasavska 77 45 32 23202 70133 77 8240<br />
Spodnjeposavska 312 154 158 105320 459948 171 22986<br />
Jugovzhod<strong>na</strong> Slovenija 531 263 268 136256 519206 334 34249<br />
Osrednjeslovenska 963 725 238 453552 1692724 1769 182510<br />
Gorenjska 551 364 187 169602 607596 444 58184<br />
Notranjsko-kraška 151 77 74 36379 136336 100 12857<br />
Goriška 638 312 326 202266 690639 454 56832<br />
Obalno-kraška 268 157 111 111681 433908 299 26364<br />
28<br />
1) Zajete so stavbe, za katere so bila izda<strong>na</strong> gradbe<strong>na</strong> dovoljenja. Covered are buildings for w hich building permits w ere issued.<br />
•14
1.5 Prikazovanje podatkov / 4<br />
Primer 1.8: V stolpičnem grafikonu predstavimo število<br />
<strong>na</strong>rodnostno opredeljenih v Republiki Sloveniji ob statističnem<br />
popisu leta 1991<br />
Število <strong>na</strong>rodnostno opredeljenih v RS<br />
ob popisu 1991<br />
10000<br />
8503<br />
7500<br />
število<br />
5000<br />
2500<br />
4396<br />
3064<br />
2293<br />
0<br />
Črnogorci Italijani Madžari Romi<br />
<strong>na</strong>rodnostno opredeljeni<br />
29<br />
1.5 Prikazovanje podatkov / 5<br />
Primer 1.9: V strukturnem krogu predstavimo strukturo stavb v<br />
Osrednjeslovenski statistični regiji v letu 1999<br />
Vrsta stavb v osrednjeslovenski statistični<br />
regiji leta 1999<br />
26%<br />
74%<br />
stanovanjske stavbe<br />
nestanovanjske stavbe<br />
30<br />
•15
1.5 Prikazovanje podatkov / 6<br />
Primer 1.10: V kartogramu predstavimo strukturo izdanih gradbenih<br />
dovoljenj po statističnih regijah RS v obdobju 1998 - 2000<br />
31<br />
1.6 Zgodovi<strong>na</strong> statistike<br />
• Z opisno statistiko so se ukvarjali že v starem veku, ko so<br />
zbirali in a<strong>na</strong>lizirali podatke o davkih, voj<strong>na</strong>h, pridelkih ...<br />
• Inferenč<strong>na</strong> statistika pa sloni <strong>na</strong> verjetnostnem računu.<br />
• Pomembnejša ime<strong>na</strong> iz zgodovine (inferenčne) statistike:<br />
• Abraham de Moivre (1667 - 1754; leta 1733 je odkril e<strong>na</strong>čbo normalne<br />
porazdelitve);<br />
• Carl Friedrich Gauss (1777 – 1855; neodvisno od de Moivra je izpeljal<br />
e<strong>na</strong>čbo normalne porazdelitve, ko je študiral <strong>na</strong>pake po<strong>na</strong>vljajočih<br />
meritev iste količine);<br />
• Adolph Quetelet (1796 – 1874; pokazal je uporabnost statističnih metod<br />
v različnih z<strong>na</strong>nstvenih discipli<strong>na</strong>h);<br />
• Karl Pearson (1857 – 1936; s statistikom v družboslovju sirom<br />
Francisom Galtonom sta postavila osnove korelacijske in regresijske<br />
a<strong>na</strong>lize);<br />
• William Gosset (1876 – 1937; razvil je metode statističnega sklepanja<br />
<strong>na</strong> osnovi majhnih množic podatkov; pod psevdonimom Student je<br />
objavil e<strong>na</strong>čbo t-porazdelitve);<br />
• Sir Ro<strong>na</strong>ld Fischer (1890 – 1962; <strong>na</strong>jpomembnejši statistik 20. stoletja).<br />
32<br />
•16
2. KVANTILI<br />
• Ranžir<strong>na</strong> vrsta je ureje<strong>na</strong> vrsta enot opazovanj od tiste z<br />
<strong>na</strong>jmanjšo do tiste z <strong>na</strong>jvečjo vrednostjo.<br />
• Rang R je zaporedno mesto enote v ranžirni vrsti.<br />
• Kvantilni rang P pove, <strong>na</strong> katerem delu celotnega<br />
ranžirnega razmika leži določe<strong>na</strong> enota (oziroma koliki del<br />
celotnega razmika ima manjše vrednosti od dane vrednosti).<br />
Izraču<strong>na</strong>mo ga po formuli:<br />
P =<br />
R − 0.5<br />
N<br />
kjer je R rang enote, N pa število opazovanih enot.<br />
(2.1)<br />
33<br />
2. KVANTILI / 2<br />
• Kvantil je vrednost spremenljivke, ki pripada<br />
določenemu kvantilnemu rangu.<br />
• Običajni kvantili so:<br />
• media<strong>na</strong>:<br />
• kvartili:<br />
• decili:<br />
• centili:<br />
Me (P=0.5)<br />
Q 1 (P=0.25), Q 2 (P=0.50), Q 3 (P=0.75)<br />
D 1 (P=0.1), D 2 (P=0.2),..., D 9 (P=0.9)<br />
C 1 (P=0.01), C 2 (P=0.02),..., C 99 (P=0.99)<br />
• Pri izračunu kvantilov uporabljamo linearno interpolacijo:<br />
R − R0<br />
R − R<br />
1<br />
0<br />
x − x0<br />
=<br />
x − x<br />
1<br />
Če je R med rangoma R 0 in R 1 , je ustrezni x med x 0 in x 1<br />
.<br />
0<br />
(2.2)<br />
34<br />
•17
2. KVANTILI / 3<br />
• Pri linearni interpolaciji upoštevamo, da je R 1 - R 0 = 1:<br />
• poljuben kvantil x z rangom R, ki leži med kvantiloma<br />
x 0 in x 1 z rangoma R 0 in R 1 , izraču<strong>na</strong>mo po e<strong>na</strong>čbi:<br />
x = x<br />
+ ( x1<br />
− x0)(<br />
R −<br />
0)<br />
0<br />
R<br />
(2.3)<br />
• poljuben rang R kvantila x, ki leži med rangoma R 0 in<br />
R 1 kvantilov x 0 in x 1 , pa izraču<strong>na</strong>mo po e<strong>na</strong>čbi:<br />
R = R<br />
0<br />
x − x0<br />
+<br />
x − x<br />
1<br />
0<br />
(2.4)<br />
35<br />
2. KVANTILI / 4<br />
Primer 2.1: Uredimo <strong>na</strong> pisnem delu izpita dosežene točke<br />
(0-100) dva<strong>na</strong>jstih študentov:<br />
36<br />
• Spremenljivka: <strong>na</strong> pisnem<br />
delu izpita dosežene točke;<br />
• Število enot: 12;<br />
• Podatki:<br />
60, 35, 90, 40, 95, 15<br />
45, 25, 60, 10, 85, 65<br />
• Ranžir<strong>na</strong> vrsta je:<br />
x i R i<br />
10 1<br />
15 2<br />
25 3<br />
35 4<br />
40 5<br />
45 6<br />
60 7<br />
60 8<br />
65 9<br />
85 10<br />
90 11<br />
95 12<br />
•18
2. KVANTILI / 5<br />
Primer 2.2: Za točke iz primera 2.1 izraču<strong>na</strong>jmo mediano<br />
(P=0.5).<br />
x i<br />
10<br />
15<br />
25<br />
35<br />
40<br />
45<br />
60<br />
60<br />
65<br />
85<br />
90<br />
95<br />
R i<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
10<br />
11<br />
12<br />
Rang mediane izraču<strong>na</strong>mo po formuli (2.1):<br />
R = N ⋅ P + 0 .5 = 12⋅0.5<br />
+ 0.5 = 6.5<br />
Rang mediane leži med rangoma R 0 = 6 in<br />
R 1 = 7 in ustrez<strong>na</strong> media<strong>na</strong> med vrednostima<br />
x 0 = 45 in x 1 = 60.<br />
Me = x0.5<br />
= x0<br />
+ ( x1<br />
− x0)(<br />
R − R0<br />
) =<br />
= 45 + 15⋅0.5<br />
= 52.5<br />
Število doseženih točk, ki razdeli ranžirno<br />
vrsto <strong>na</strong> polovico, je 52.5 (media<strong>na</strong> je 52.5).<br />
37<br />
2. KVANTILI / 6<br />
Primer 2.3: Za podatke iz primera 2.1 izraču<strong>na</strong>jmo kvantilni<br />
rang za 50 doseženih točk (x=50).<br />
x i<br />
10<br />
15<br />
25<br />
35<br />
40<br />
45<br />
60<br />
60<br />
65<br />
85<br />
90<br />
95<br />
R i<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
10<br />
11<br />
12<br />
Sosednji vrednosti sta med x 0 = 45 in x 1 = 60<br />
in ustrez<strong>na</strong> ranga sta R 0 = 6 in R 1 = 7:<br />
R = R<br />
0<br />
x − x<br />
+<br />
x − x<br />
1<br />
0<br />
0<br />
= 6 +<br />
5<br />
15<br />
= 6.33<br />
R − 0.5 6.33 − 0.5<br />
P = = = 0,486<br />
N 12<br />
Skoraj 49% študentov je <strong>na</strong> pisnem izpitu<br />
doseglo manj kot 50 točk.<br />
38<br />
•19
3. FREKVENČNA<br />
PORAZDELITEV<br />
• Frekvenč<strong>na</strong> porazdelitev spremenljivke je preglednica,<br />
ki jo določajo vrednosti ali skupine vrednosti ter<br />
njihove frekvence f i .<br />
• Če je spremenljivka vsaj ordi<strong>na</strong>lnega z<strong>na</strong>čaja, vrednosti ali<br />
skupine vrednosti uredimo v ranžirno vrsto od <strong>na</strong>jmanjše<br />
do <strong>na</strong>jvečje.<br />
39<br />
3. FREKVENČNA PORAZDELITEV / 2<br />
Primer 3.1: Spodaj <strong>na</strong> levi so podane ocene zadnjega roka izpita<br />
pri predmetu Statistika z elementi informatike v šolskem letu<br />
2001/2002. Določimo frekvenčno porazdelitev.<br />
• Spremenljivka: oce<strong>na</strong><br />
zadnjega roka pri predmetu<br />
SEI v š.l. 2001/2002;<br />
• Število enot: 19;<br />
• Podatki:<br />
5, 7, 8, 7, 3, 4, 2, 8, 6, 1, 9,<br />
6, 6, 6, 7, 2, 6, 5, 4<br />
• Frekvenč<strong>na</strong> porazdelitev je:<br />
x i f i<br />
1 1<br />
2 2<br />
3 1<br />
4 2<br />
5 2<br />
6 5<br />
7 3<br />
8 2<br />
9 1<br />
10 0<br />
19<br />
40<br />
•20
3.1 Opredeljevanje skupin<br />
vrednosti<br />
• Število vseh možnih vrednosti proučevane spremenljivke<br />
je lahko preveliko za pregledno prikazovanje podatkov v<br />
preglednici. V takih primerih podatke razvrstimo v<br />
skupine.<br />
• Posamezni skupini priredimo ustrezno predstavitveno<br />
vrednost oziroma predstavnika skupine, ki je nova<br />
vrednost spremenljivke.<br />
• Skupine vrednosti morajo biti enolično določene: vsaka<br />
enota s svojo vrednostjo je lahko uvršče<strong>na</strong> v samo eno<br />
skupino.<br />
41<br />
3.1.1 Opredeljevanje skupin za<br />
opisne spremenljivke<br />
• Opredeljevanje skupin za opisne spremenljivke, ki imajo<br />
malo vrednosti je enostavno.<br />
• Pri opisnih spremenljivkah, ki imajo veliko vrednosti, pa<br />
je opredeljevanje skupin težje:<br />
• Temeljno pri takšnem opredeljevanju skupin je dobro<br />
poz<strong>na</strong>vanje obrav<strong>na</strong>vanega področja.<br />
• Zato skupine za tovrstne vrednosti <strong>na</strong>vadno oblikujejo<br />
strokovnjaki s posameznih področij.<br />
• Pritem vrednostiopisnihz<strong>na</strong>kovsistematično razvrščajo in<br />
izdelujejo klasifikacije.<br />
• Klasifikacije so sistematično, po skupi<strong>na</strong>h in podskupi<strong>na</strong>h, urejene<br />
vrednosti opisnih spremenljivk.<br />
42<br />
•21
3.1.1 Opredeljevanje skupin za opisne ... / 2<br />
Primer 3.2: Opredelimo skupini spola.<br />
• Za spol lahko opredelimo le dve skupini:<br />
1. moški spol in<br />
2. ženski spol.<br />
43<br />
3.1.2 Opredeljevanje skupin za<br />
številske spremenljivke<br />
• Opredeljevanje skupin za številske spremenljivke ima<br />
mnogo posebnosti.<br />
• Skupine, ki jih opredelimo za številske spremenljivke,<br />
imenujemo razrede.<br />
• Po<strong>na</strong>vadi <strong>na</strong>jprej preverimo razmik vrednosti proučevane<br />
spremenljivke, to je variacijski razmik VR (tudi totalni<br />
razmik):<br />
VR = x max<br />
− x min<br />
(3.1)<br />
kjer je x max <strong>na</strong>jvečja vrednost, x min pa <strong>na</strong>jmanjša vrednost<br />
opazovane spremenljivke.<br />
44<br />
•22
3.1.2 Opredeljevanje skupin za številske ... / 2<br />
• Nato izberemo število razredov (k), v katere bomo<br />
razvrstili vrednosti spremenljivke.<br />
• Razredov mora biti toliko, da ostane prikaz podatkov<br />
pregleden, razredi pa niso premajhni.<br />
• Število razredov lahko določimo <strong>na</strong> več <strong>na</strong>činov.<br />
Najpogosteje uporablje<strong>na</strong> je Sturgesova formula:<br />
k<br />
= 1+<br />
3.32⋅log(<br />
N)<br />
(3.2)<br />
kjer je k število razredov, N pa število vseh opazovanj<br />
(enot, ki jih želimo razvrstiti v razrede).<br />
45<br />
3.1.2 Opredeljevanje skupin za številske ... / 3<br />
Primer 3.3: Predpostavimo katastrsko občino s 5000 parcelami.<br />
Zaradi velike množice podatkov želimo le-te razvrstiti v razrede. V<br />
koliko razredov je priporočljivo razvrstiti opazovanja?<br />
Če vstavimo n = 5000 v formulo (3.2), dobimo k = 13.281:<br />
k = 1 + 3.32⋅log(<br />
n)<br />
= 1+<br />
3.32⋅log(5000)<br />
= 1+<br />
3.32⋅3,699<br />
= 13,281<br />
Celotno populacijo parcel obrav<strong>na</strong>vane K.O. bomo predstavili v<br />
frekvenčni porazdelitvi s pomočjo 13-tih razredov.<br />
46<br />
•23
3.1.2 Opredeljevanje skupin za številske ... / 4<br />
• V razredih se spreminja vrednost spremenljivke od<br />
spodnje meje razreda (x i,min ) do zgornje meje razreda<br />
(x i,max );<br />
• Razlika med obema mejama se imenuje širi<strong>na</strong> razreda in<br />
jo oz<strong>na</strong>čimo z d i :<br />
d<br />
i<br />
= x<br />
− x<br />
i, max i,min<br />
kjer je i oz<strong>na</strong>ka razreda; i=1,2,...,k.<br />
(3.3)<br />
47<br />
3.1.2 Opredeljevanje skupin za številske ... / 5<br />
• V razrede lahko uvrščamo zvezne ali diskretne vrednosti<br />
spremenljivk:<br />
• Diskret<strong>na</strong> ureditev podatkov v razrede je enostav<strong>na</strong>:<br />
zgornja meja določenega razreda je različ<strong>na</strong> od<br />
spodnje meje <strong>na</strong>slednjega razreda.<br />
• Pri zveznih številskih spremenljivkah moramo<br />
<strong>na</strong>tančno opredeliti, kam spadajo mejni primeri.<br />
48<br />
•24
3.1.2 Opredeljevanje skupin za številske ... / 6<br />
Primer 3.4: Primer diskretne ureditve meja razredov<br />
Meje razredov<br />
1−<br />
9<br />
10 −19<br />
20 − 29<br />
30 − 39<br />
40 − 49<br />
oziroma<br />
Meje razredov<br />
1≤<br />
x ≤ 9<br />
10 ≤ x ≤ 19<br />
20 ≤ x ≤ 29<br />
30 ≤ x ≤ 39<br />
40 ≤ x ≤ 49<br />
49<br />
3.1.2 Opredeljevanje skupin za številske ... / 7<br />
Primer 3.5: Primer zvezne ureditve meja razredov<br />
Meje razredov<br />
[1,10)<br />
[10,20)<br />
[20,30)<br />
[30,40)<br />
[40,50)<br />
oziroma<br />
Meje razredov<br />
1 ≤ x < 10<br />
10 ≤ x < 20<br />
20 ≤ x < 30<br />
30 ≤ x < 40<br />
40 ≤ x < 50<br />
50<br />
•25
3.1.2 Opredeljevanje skupin za številske ... / 8<br />
• Širi<strong>na</strong> razredov opredeljenih za številske spremenljivke je<br />
lahko e<strong>na</strong>ka ali različ<strong>na</strong>.<br />
• Zaradi boljše preglednosti ter <strong>na</strong>daljnje statistične a<strong>na</strong>lize<br />
<strong>na</strong>jvečkrat uporabljamo e<strong>na</strong>ko široke razrede. V tem<br />
primeru določimo meje razredov s pomočjo<br />
aritmetičnega zaporedja meja, kjer velja:<br />
x<br />
max<br />
= x min<br />
+ k ⋅<br />
d i<br />
d i<br />
=<br />
x<br />
max −<br />
k<br />
x<br />
min<br />
oziroma (3.4)<br />
51<br />
3.1.2 Opredeljevanje skupin za številske ... / 9<br />
• Kadar so razlike med vrednostmi opazovane spremenljivke<br />
zelo velike, je primerneje uporabiti razrede, kjer je količnik<br />
med zgornjo in spodnjo mejo e<strong>na</strong>k za vse razrede.<br />
q =<br />
i,max<br />
i,min<br />
• V takem primeru uporabimo princip geometričnega<br />
zaporedja meja:<br />
x<br />
= x min<br />
⋅q<br />
k<br />
x<br />
x<br />
q =<br />
max oziroma k<br />
(3.6)<br />
x<br />
x<br />
max<br />
min<br />
(3.5)<br />
52<br />
•26
3.1.2 Opredeljevanje skupin za številske ... / 10<br />
• Meje razredov lahko določimo tudi tako, da je v vsakem<br />
razredu približno e<strong>na</strong>ko število enot. Pri tem si pomagamo<br />
s kvantili:<br />
1<br />
P = ,<br />
(3.7)<br />
k<br />
• oziroma rangom (mestom enote v ranžirni vrsti):<br />
R = N ⋅ P + 0.5<br />
(3.8)<br />
53<br />
3.1.2 Opredeljevanje skupin za številske ... / 11<br />
• Ko smo vrednosti številske spremenljivke uvrstili v razrede<br />
(postavili meje razredov ter prešteli frekvence razredov f i ),<br />
lahko izraču<strong>na</strong>mo predstavnike razredov:<br />
x<br />
x<br />
+ x<br />
i, min i,max<br />
i<br />
= (3.9)<br />
2<br />
54<br />
•27
3.1.2 Opredeljevanje skupin za številske ... / 12<br />
• Izraču<strong>na</strong>mo lahko tudi kumulativne frekvence razredov,<br />
ki so vsote frekvenc do spodnje meje določenega razreda.<br />
Kumulativno frekvenco i-tega razreda izraču<strong>na</strong>mo po<br />
formuli:<br />
F<br />
i+1<br />
= Fi<br />
+ fi<br />
(3.6)<br />
kjer je F i kumulativ<strong>na</strong> frekvenca in f i frekvenca v i-tem<br />
razredu.<br />
• Relativno frekvenco in kumulativo pa izraču<strong>na</strong>mo po<br />
formulah:<br />
fi<br />
fi<br />
% = ⋅100 N (3.7)<br />
Fi<br />
F % = ⋅100 N<br />
i<br />
(3.8)<br />
55<br />
3.2 Kvantili frekvenčne<br />
porazdelitve<br />
• Ranžir<strong>na</strong> vrsta s pripadajočimi rangi je v primeru<br />
frekvenčne porazdelitve določe<strong>na</strong> s spodnjimi mejami<br />
razredov in pripadajočimi kumulativami.<br />
• Izračun kvantilnih rangov in kvantilov <strong>na</strong>daljujemo tako,<br />
kot je opisano v poglavju 2 (Kvantili).<br />
56<br />
•28
3.3 Grafično prikazovanje<br />
frekvenčnih porazdelitev<br />
• Predpostavimo, da so razredi e<strong>na</strong>ko široki (d i je e<strong>na</strong>k za<br />
vsak i=1,2,...,k):<br />
• Histogram – drug poleg drugega rišemo stolpce (od spodnje<br />
meje do zgornje meje razreda) oziroma pravokotnike, katerih<br />
viši<strong>na</strong> je sorazmer<strong>na</strong> frekvenci v razredu. Širi<strong>na</strong><br />
pravokotnikov je e<strong>na</strong>ka, saj so razredi e<strong>na</strong>ko široki.<br />
• Poligon – v koordi<strong>na</strong>tnem sistemu zaz<strong>na</strong>mujemo točke<br />
(x i<br />
, f i<br />
), kjer je x i<br />
sredi<strong>na</strong> i-tega razreda in f i<br />
njegova<br />
frekvenca. Tem točkam dodamo še točki (x 0<br />
, 0) in (x k+1<br />
, 0),<br />
če je v frekvenčni porazdelitvi k razredov. Točke zvežemo z<br />
daljicami.<br />
• Ogiva –grafič<strong>na</strong> predstavitev kumulativne frekvenčne<br />
porazdelitve s poligonom, kjer v koordi<strong>na</strong>tni sistem v<strong>na</strong>šamo<br />
točke (x i,min<br />
, F i<br />
).<br />
57<br />
3.3 Grafično prikazovanje ... / 2<br />
Primer 3.6: Narišimo histogram, poligon in ogivo (poligon<br />
kumulativnih frekvenc) za ocene izpita iz primera 3.1, ki so podane<br />
v <strong>na</strong>slednji frekvenčni porazdelitvi (predpostavimo, da je bila oce<strong>na</strong><br />
5 že pozitiv<strong>na</strong> oce<strong>na</strong>):<br />
meji<br />
f i<br />
x i,min<br />
x i,max<br />
x i<br />
F i<br />
1-2<br />
3<br />
0.5<br />
2.5<br />
1.5<br />
0<br />
3-4<br />
3<br />
2.5<br />
4.5<br />
3.5<br />
3<br />
5-6<br />
7<br />
4.5<br />
6.5<br />
5.5<br />
6<br />
7-8<br />
5<br />
6.5<br />
8.5<br />
7.5<br />
13<br />
9-10<br />
1<br />
8.5<br />
10.5<br />
9.5<br />
18<br />
19<br />
19<br />
58<br />
•29
3.3 Grafično prikazovanje ... / 3<br />
Primer 3.6 <strong>na</strong>daljevanje: Histogram frekvenc<br />
8<br />
meji<br />
1-2<br />
f i<br />
3<br />
x i<br />
1.5<br />
3-4<br />
3<br />
3.5<br />
6<br />
5-6<br />
7-8<br />
7<br />
5<br />
5.5<br />
7.5<br />
9-10<br />
1<br />
9.5<br />
f<br />
4<br />
2<br />
59<br />
0<br />
0 1 2 3 4 5 6 7 8 9 10 11<br />
X<br />
3.3 Grafično prikazovanje ... / 4<br />
Primer 3.6 <strong>na</strong>daljevanje: Poligon frekvenc<br />
meji<br />
f i<br />
x i<br />
8<br />
1-2<br />
3-4<br />
3<br />
3<br />
1.5<br />
3.5<br />
5-6<br />
7<br />
5.5<br />
6<br />
7-8<br />
5<br />
7.5<br />
9-10<br />
1<br />
9.5<br />
f<br />
4<br />
2<br />
60<br />
0<br />
-2 0 2 4 6 8 10 12<br />
X<br />
•30
3.3 Grafično prikazovanje ... / 5<br />
Primer 3.6 <strong>na</strong>daljevanje: Ogiva (poligon kumulativnih frekvenc)<br />
20<br />
x i,min<br />
0.5<br />
F i<br />
0<br />
16<br />
2.5<br />
4.5<br />
3<br />
6<br />
F<br />
12<br />
8<br />
6.5<br />
8.5<br />
10.5<br />
13<br />
18<br />
19<br />
4<br />
61<br />
0<br />
0 2 4 6 8 10 12<br />
X<br />
3.4 Oblike frekvenčnih<br />
porazdelitev<br />
• Frekvenč<strong>na</strong> porazdelitev prikazuje variiranje ali<br />
razpršenost vrednosti spremenljivke.<br />
• Razpršenost je rezultat posamičnih faktorjev, ki<br />
vplivajo <strong>na</strong> posamezne enote. Ti vplivi so <strong>na</strong>jrazličnejši<br />
in njihova posledica so različne oblike frekvenčnih<br />
porazdelitev.<br />
• Frekvenč<strong>na</strong> porazdelitev, s katero običajno primerjamo<br />
drugo frekvenčno porazdelitev, je normal<strong>na</strong><br />
porazdelitev, ki je unimodal<strong>na</strong> (ima en vrh),<br />
simetrič<strong>na</strong> in zvo<strong>na</strong>ste oblike.<br />
62<br />
•31
3.4 Oblike frekvenčnih porazdelitev... / 2<br />
• Oblika porazdelitev se lahko od normalne bolj ali manj<br />
razlikuje zaradi nehomogenosti populacije, okrnjenega<br />
delovanja določenih faktorjev itd. Zato je oblika<br />
porazdelitve lahko:<br />
• asimetrič<strong>na</strong> v desno – če se rep vleče <strong>na</strong> desno;<br />
• asimetrič<strong>na</strong> v levo – če se rep vleče <strong>na</strong> levo;<br />
• J ali U oblike;<br />
• dvovrh<strong>na</strong> – če ima dva vrhova;<br />
• večvrh<strong>na</strong> – če ima več vrhov;<br />
• bolj koničasta ali splošče<strong>na</strong> od normalne porazdelitve;<br />
• itd.<br />
63<br />
3.4 Oblike frekvenčnih porazdelitev... / 2<br />
64<br />
•32
4. SREDNJE VREDNOSTI<br />
• Pregled vrednosti opazovane spremenljivke dobimo z<br />
ranžirno vrsto ali v primeru večjega števila enot s<br />
frekvenčno porazdelitvijo.<br />
• Iz pregleda vrednosti običajno opazimo, da se enote<br />
gostijo okoli neke vrednosti, ki jo imamo za predstavitveno<br />
vrednost spremenljivke in jo imenujemo srednja<br />
vrednost.<br />
• Čim bolj vrednosti variirajo (predvsem zaradi izrazitih<br />
posamičnih vplivov), tem bolj se posamezne vrednosti<br />
odklanjajo od srednje vrednosti in tem slabše ta srednja<br />
vrednost predstavlja spremenljivko.<br />
65<br />
4. SREDNJE VREDNOSTI / 2<br />
Najpogosteje uporabljene srednje vrednosti so:<br />
1. media<strong>na</strong> Me<br />
2. modus Mo<br />
3. aritmetič<strong>na</strong> sredi<strong>na</strong> ali povprečje<br />
4. geometrijska sredi<strong>na</strong> G<br />
5. harmonič<strong>na</strong> sredi<strong>na</strong> H<br />
μ<br />
66<br />
•33
4.1 Media<strong>na</strong><br />
• Media<strong>na</strong> Me je tista vrednost spremenljivke, od katere<br />
ima polovica enot ranžirne vrste manjše, polovica pa<br />
večje vrednosti spremenljivke.<br />
• Media<strong>na</strong> je vrednost, ki leži <strong>na</strong> sredini ranžirne vrste: je<br />
vrednost, ki pripada kvantilnemu rangu P=0.5.<br />
• Na mediano vplivajo samo vrednosti v sredini ranžirne<br />
vrste.<br />
• Media<strong>na</strong> je primer<strong>na</strong> srednja vrednost za vsaj<br />
ordi<strong>na</strong>lne spremenljivke.<br />
67<br />
4.1 Media<strong>na</strong> / 2<br />
• Če je v ranžirni vrsti liho število enot N = 2m + 1, je<br />
media<strong>na</strong> (m+1)-ta vrednost v ranžirni vrsti.<br />
Primer 4.1: Podatki so 2, 3, 6, 7, 8, 10, 11, 21, 23. Ker<br />
imamo liho število enot N = 9, je media<strong>na</strong> <strong>na</strong> 5. mestu;<br />
in sicer Me = 8.<br />
• Če pa je v ranžirni vrsti sodo število enot N = 2m,<br />
izraču<strong>na</strong>mo mediano po formuli:<br />
Me<br />
x m<br />
+ x<br />
2<br />
m+1<br />
=<br />
(4.1)<br />
68<br />
Primer 4.2: Podatki so 2, 3, 6, 8, 10, 11, 21, 23. Ker<br />
imamo sodo število enot N = 8, je media<strong>na</strong> Me = 9.<br />
•34
4.1 Media<strong>na</strong> / 3<br />
• Iz frekvenčne porazdelitve lahko mediano le ocenimo<br />
(oce<strong>na</strong> temelji <strong>na</strong> domnevi, da so enote v razredu<br />
e<strong>na</strong>komerno porazdeljene od spodnje do zgornje meje<br />
razreda):<br />
1. Iz podatkov o kumulativnih frekvencah ugotovimo, v<br />
katerem razredu leži media<strong>na</strong>. Ta razred imenujemo<br />
medianin razred.<br />
69<br />
2. Mediano izraču<strong>na</strong>mo po e<strong>na</strong>čbi:<br />
N ⋅ PMe + 0.5 − F<br />
Me = x0,min+<br />
d0<br />
f<br />
1. kjer sta x 0,min<br />
spodnja meja in d 0<br />
širi<strong>na</strong> medianinega<br />
razreda, f 0<br />
frekvenca in F 0<br />
kumulativ<strong>na</strong> frekvenca<br />
medianinega razreda, N število enot, P Me<br />
pa kvantilni<br />
rang mediane.<br />
0<br />
0<br />
(4.2)<br />
4.1 Media<strong>na</strong> / 4<br />
Primer 4.3: Za frekvenčno porazdelitev ocen iz primera 3.6<br />
izraču<strong>na</strong>jmo mediano.<br />
meji<br />
1-2<br />
3-4<br />
5-6<br />
7-8<br />
9-10<br />
f i<br />
3<br />
3<br />
7<br />
5<br />
1<br />
x i,min<br />
0.5<br />
2.5<br />
4.5<br />
6.5<br />
8.5<br />
10.5<br />
F i<br />
0<br />
3<br />
6<br />
13<br />
18<br />
19<br />
Iz kumulativnih frekvenc<br />
ugotovimo, da leži media<strong>na</strong> v<br />
tretjem razredu:<br />
Me = x<br />
0<br />
+ d<br />
0<br />
N ⋅ P<br />
Me<br />
+ 0.5 − F<br />
f<br />
19⋅0.5<br />
+ 0.5 − 6<br />
= 4.5 + 2⋅<br />
= 5.64<br />
7<br />
0<br />
0<br />
=<br />
Media<strong>na</strong> je 5.64.<br />
70<br />
•35
4.1 Media<strong>na</strong> / 5<br />
Grafično določimo mediano iz ogive; za primer 4.3:<br />
71<br />
F<br />
20<br />
18<br />
16<br />
14<br />
12<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
100%<br />
50%<br />
Me<br />
0 1 2 3 4 5 6 7 8 9 10 11 12<br />
X<br />
4.2 Modus<br />
• Modus Mo je vrednost spremenljivke, ki se v množici<br />
opazovanj <strong>na</strong>jpogosteje pojavlja.<br />
• Lahko je več modusov (polimodal<strong>na</strong> porazdelitev populacije),<br />
lahko pa nobenega.<br />
• Modus pravilno ugotovimo le za razmeroma velik vzorec<br />
(populacijo).<br />
• Modus je primer<strong>na</strong> srednja vrednost tudi za nomi<strong>na</strong>lne<br />
spremenljivke in edi<strong>na</strong> srednja vrednost za opisne<br />
spremenljivke.<br />
72<br />
•36
4.2 Modus / 2<br />
Primer 4.4: Za spodnje tri ranžirne vrste določimo modus.<br />
2,3,5,5,6,8,9,11,14,16 Mo = 5<br />
2,3,5,5,6,8,9,9,11,14,16 Mo 1 = 5; Mo 2 = 9<br />
2,3,4,5,6,8,9,10,11,14,16 ni modusa<br />
73<br />
4.2 Modus / 3<br />
• Modus lahko razumemo kot vrednost spremenljivke,<br />
okoli katere se vrednosti <strong>na</strong>jbolj gostijo. Zato ga<br />
<strong>na</strong>jlažje določamo iz frekvenčne porazdelitve.<br />
• Modus se <strong>na</strong>haja v razredu z <strong>na</strong>jvečjo frekvenco,<br />
ki ga imenujemo modalni razred.<br />
• Prvi približek modusa je lahko sredi<strong>na</strong> modalnega<br />
razreda, <strong>na</strong>tančneje pa ga izraču<strong>na</strong>mo po formuli:<br />
Mo = x<br />
0,min<br />
+ d<br />
f<br />
−<br />
0 −1<br />
0<br />
2 f0<br />
− f−<br />
1<br />
− f+<br />
1<br />
f<br />
(4.2)<br />
74<br />
• kjer sta x 0 spodnja meja in d 0 širi<strong>na</strong> modalnega<br />
razreda, f 0 , f 1 in f -1 pa frekvence modalnega,<br />
prejšnjega in <strong>na</strong>slednjega razreda.<br />
•37
4.2 Modus / 4<br />
Primer 4.5: Za frekvenčno porazdelitev ocen iz primera 3.6<br />
izraču<strong>na</strong>jmo modus.<br />
meji<br />
1-2<br />
3-4<br />
5-6<br />
7-8<br />
9-10<br />
f i<br />
3<br />
3<br />
7<br />
5<br />
1<br />
x i,min<br />
0.5<br />
2.5<br />
4.5<br />
6.5<br />
8.5<br />
10.5<br />
Modus leži v tretjem razredu, kjer je<br />
frekvenca <strong>na</strong>jvečja :<br />
Mo = x<br />
0,min<br />
+ d<br />
0 −1<br />
0<br />
2 f0<br />
− f−<br />
1<br />
− f+<br />
1<br />
7 − 3<br />
= 4.5 + 2⋅<br />
= 5.83<br />
2⋅7<br />
− 3−<br />
5<br />
f<br />
−<br />
f<br />
=<br />
Modus je 5.83.<br />
75<br />
4.2 Modus / 5<br />
Grafično določimo modus iz histograma; za primer 4.5:<br />
8<br />
6<br />
f<br />
4<br />
2<br />
76<br />
0<br />
Mo<br />
0 1 2 3 4 5 6 7 8 9 10 11<br />
X<br />
•38
4.3 Aritmetič<strong>na</strong> sredi<strong>na</strong><br />
ali povprečje<br />
• Aritmetič<strong>na</strong> sredi<strong>na</strong> ali povprečje je vsota vseh<br />
vrednosti delje<strong>na</strong> s številom enot v populaciji (vzorcu):<br />
1<br />
μ =<br />
N<br />
∑ x i<br />
N i=<br />
1<br />
(4.3)<br />
• Primer<strong>na</strong> je za številske, približno normalno porazdeljene<br />
spremenljivke.<br />
• Vsaka posamez<strong>na</strong> vrednost x i (i=1,2,...n) se od<br />
aritmetične sredine odklanja <strong>na</strong>vzgor ali <strong>na</strong>vzdol: odklon<br />
(x i - ) je pozitiven ali negativen; velja:<br />
μ<br />
N<br />
∑<br />
i=<br />
1<br />
( x<br />
i<br />
− μ)<br />
= 0<br />
μ<br />
(4.4)<br />
77<br />
4.3 Aritmetič<strong>na</strong> sredi<strong>na</strong> / 2<br />
Primer 4.6: Za ocene iz primera 3.1 izraču<strong>na</strong>jmo<br />
aritmetično sredino.<br />
• Število enot: 19<br />
• Podatki:<br />
5, 7, 8, 7, 3, 4, 2,<br />
8, 6, 1, 9, 6, 6, 6,<br />
7, 2, 6, 5, 4<br />
Aritmetič<strong>na</strong> sredi<strong>na</strong> je:<br />
N<br />
1<br />
μ = ∑<br />
N<br />
x i<br />
i=<br />
1<br />
=<br />
102<br />
19<br />
= 5,37<br />
Povpreč<strong>na</strong> oce<strong>na</strong> je 5.37.<br />
78<br />
•39
4.3 Aritmetič<strong>na</strong> sredi<strong>na</strong> / 3<br />
• Včasih je smiselno, da imajo vrednosti x 1 ,x 2 ,...,x N<br />
različen vpliv pri izračunu povprečja.<br />
• Vsaka vrednost ima svojo utež p 1 ,p 2 ,...,p N . Če<br />
upoštevamo uteži, izraču<strong>na</strong>mo tehtano aritmetično<br />
sredino:<br />
μ =<br />
1<br />
N<br />
∑<br />
N<br />
i<br />
∑ = 1<br />
pi<br />
i=<br />
1<br />
p x<br />
i<br />
i<br />
(4.4)<br />
79<br />
4.3 Aritmetič<strong>na</strong> sredi<strong>na</strong> / 4<br />
Primer 4.7: Geodet je hodil od geodetske točke A do B pet<br />
minut s hitrostjo 1.4 m/s, od točke B do C pa deset minut s<br />
hitrostjo 1.1 m/s. Kolikš<strong>na</strong> je bila povpreč<strong>na</strong> hitrost <strong>na</strong> celotni poti?<br />
Povprečno hitrost izraču<strong>na</strong>mo kot tehtano aritmetično<br />
sredino, kjer so uteži časi:<br />
s<br />
v = t<br />
5⋅1.4<br />
+ 10⋅1.1<br />
=<br />
= 1,2<br />
5 + 10<br />
Povpreč<strong>na</strong> hitrost <strong>na</strong> celotni poti je bila 1.2 m/s.<br />
80<br />
•40
4.3 Aritmetič<strong>na</strong> sredi<strong>na</strong> / 5<br />
• Tehtano aritmetično sredino uporabljamo za izračun<br />
aritmetične sredine vrednosti, ki so uvrščene v<br />
frekvenčno porazdelitev:<br />
1. za vsak razred določimo predstavnika razreda x i<br />
(po formuli 3.9);<br />
Ker ne poz<strong>na</strong>mo posamičnih vrednosti v razredu, predpostavimo, da so vse vrednosti v<br />
razredu e<strong>na</strong>ke sredini razreda.<br />
81<br />
2. predstavnika razreda upoštevamo f i<br />
-krat:<br />
1<br />
μ =<br />
k<br />
∑<br />
f x<br />
=<br />
∑<br />
N i=<br />
1<br />
i i k<br />
∑ fi<br />
i=<br />
1<br />
i=<br />
1<br />
kjer je f i frekvenca i-tega razreda, k pa število<br />
razredov.<br />
1<br />
k<br />
f x<br />
i<br />
i<br />
(4.4)<br />
4.3 Aritmetič<strong>na</strong> sredi<strong>na</strong> / 6<br />
Primer 4.8: Za frekvenčno porazdelitev ocen iz primera 3.6<br />
izraču<strong>na</strong>jmo aritmetično sredino.<br />
f i<br />
3<br />
3<br />
7<br />
5<br />
1<br />
x i<br />
1.5<br />
3.5<br />
5.5<br />
7.5<br />
9.5<br />
Aritmetič<strong>na</strong> sredi<strong>na</strong> frekvenčne porazdelitve<br />
je:<br />
k<br />
1<br />
μ = ∑ fixi<br />
=<br />
k<br />
i 1<br />
f<br />
=<br />
1<br />
19<br />
∑ =<br />
i<br />
i=<br />
1<br />
⋅(4.5<br />
+ 10.5 + 38.5 + 37.5 + 9.5) = 5.29<br />
Povpreč<strong>na</strong> oce<strong>na</strong> je 5.29.<br />
82<br />
•41
4.4 Primerjava aritmetične<br />
sredine, modusa in mediane<br />
• Za unimodalne, simetrične porazdelitve je<br />
μ = Me = Mo<br />
• Za unimodalne porazdelitve, asimetrične v levo je<br />
< Me < Mo<br />
μ<br />
83<br />
4.4 Primerjava ... / 2<br />
• Za unimodalne porazdelitve, asimetrične v desno je<br />
Mo < Me < μ<br />
84<br />
•42
4.4 Primerjava ... / 3<br />
• Za unimodalne in ne preveč asimetrično porazdeljene<br />
spremenljivke približno velja <strong>na</strong>slednja zveza<br />
μ − Mo ≈ 3(<br />
μ − Me)<br />
(4.5)<br />
• Primer 4.9: Zopet vzemimo primer frekvenčno<br />
porazdeljenih ocen iz 3.6 in izraču<strong>na</strong>ne vrednosti,<br />
mediane, modusa in aritmetične sredine:<br />
Me = 5.50, Mo = 5.83, μ= 5.29.<br />
μ < Me < Mo<br />
Vidimo, da velja<br />
, zato je frekvenč<strong>na</strong><br />
porazdelitev ocen asimetrič<strong>na</strong> v levo.<br />
Približno velja tudi e<strong>na</strong>kost (4.5): -0.54 ≈ -0.63.<br />
85<br />
4.5 Geometrijska sredi<strong>na</strong><br />
• Geometrijska sredi<strong>na</strong> G je e<strong>na</strong>ka N-temu korenu iz<br />
produkta N vrednosti številske spremenljivke, kjer<br />
morajo vse vrednosti x i biti večje od 0 ( ):<br />
G =<br />
N<br />
x1 ⋅ x2<br />
⋅...<br />
⋅<br />
N<br />
x N N<br />
= ∏ xi<br />
i=<br />
1<br />
(4.6)<br />
• Dokazati se da, da je logaritem geometrijske sredine<br />
e<strong>na</strong>k aritmetični sredini logaritmov vrednosti<br />
spremenljivke:<br />
1<br />
logG<br />
=<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
log<br />
x i<br />
x i<br />
< 0<br />
(4.7)<br />
86<br />
•43
4.5 Geometrijska sredi<strong>na</strong> / 2<br />
Primer 4.10: Za ocene iz primera 3.1 izraču<strong>na</strong>jmo<br />
geometrijsko sredino.<br />
• Število enot: 19<br />
• Podatki:<br />
5, 7, 8, 7, 3, 4, 2,<br />
8, 6, 1, 9, 6, 6, 6,<br />
7, 2, 6, 5, 4<br />
Geometrijska sredi<strong>na</strong> je ocen je:<br />
G = N<br />
∏<br />
=<br />
19<br />
N<br />
i=<br />
1<br />
x i<br />
=<br />
73 74186 086 400 = 4.76<br />
87<br />
4.6 Harmonič<strong>na</strong> sredi<strong>na</strong><br />
• Harmonič<strong>na</strong> sredi<strong>na</strong> H je e<strong>na</strong>ka recipročni vrednosti<br />
aritmetične sredine, izraču<strong>na</strong>ne iz recipročne vrednosti<br />
spremenljivke:<br />
H =<br />
1<br />
x<br />
1<br />
N<br />
1<br />
+<br />
x<br />
2<br />
+ ⋅⋅⋅ +<br />
1<br />
x N<br />
(4.8)<br />
88<br />
•44
4.6 Harmonič<strong>na</strong> sredi<strong>na</strong> / 2<br />
Primer 4.11: Za ocene iz primera 3.1 izraču<strong>na</strong>jmo<br />
harmonično sredino.<br />
• Število enot: 19<br />
• Podatki:<br />
5, 7, 8, 7, 3, 4, 2,<br />
8, 6, 1, 9, 6, 6, 6,<br />
7, 2, 6, 5, 4<br />
Harmonič<strong>na</strong> sredi<strong>na</strong> ocen je:<br />
N<br />
H =<br />
1 1 1<br />
+ + ⋅⋅⋅+<br />
x1<br />
x2<br />
x N<br />
19<br />
= 3.91<br />
1 1 1<br />
+ + ⋅⋅⋅ +<br />
5 7 4<br />
=<br />
89<br />
4.7 Primerjava aritmetične,<br />
geometrijske in harmonične sredine<br />
• Primerjava aritmetične, geometrijske in harmonične<br />
sredine pokaže,da velja:<br />
H ≤ G ≤ μ<br />
• Vse tri sredine so e<strong>na</strong>ke samo v primeru, ko so vse<br />
proučevane x 1 , x 2 ,...,x N e<strong>na</strong>ke.<br />
(4.9)<br />
• Primer 4.12: Zopet vzemimo primer ocen 3.1 ter<br />
primerjajmo njihovo aritmetično, geometrijsko in<br />
harmonično sredino.<br />
Vidimo, da velja:<br />
H = 3 .91 ≤ G = 4.76 ≤ μ = 5.37<br />
90<br />
•45
4.8 Kvadrat<strong>na</strong> sredi<strong>na</strong><br />
• Kvadrat<strong>na</strong> sredi<strong>na</strong> RMS je e<strong>na</strong>ka pozitivni vrednosti<br />
kvadratnega kore<strong>na</strong> sredine vsote kvadratov opazovanih<br />
vrednosti:<br />
RMS<br />
N<br />
∑<br />
i=<br />
1<br />
=<br />
N<br />
x<br />
2<br />
i<br />
(4.10)<br />
91<br />
4.8 Kvadrat<strong>na</strong> sredi<strong>na</strong> / 2<br />
Primer 4.13: Za ocene iz primera 3.1 izraču<strong>na</strong>jmo<br />
kvadratno sredino.<br />
• Število enot: 19<br />
Kvadrat<strong>na</strong> sredi<strong>na</strong> ocen je:<br />
• Podatki:<br />
5, 7, 8, 7, 3, 4, 2,<br />
8, 6, 1, 9, 6, 6, 6,<br />
7, 2, 6, 5, 4<br />
RMS =<br />
=<br />
5<br />
2<br />
N<br />
∑<br />
i=<br />
1<br />
N<br />
x<br />
2<br />
i<br />
=<br />
2<br />
+ 7 + ⋅⋅⋅ + 4<br />
19<br />
2<br />
= 5.79<br />
92<br />
•46
5. MERE RAZPRŠENOSTI<br />
• Mere razpršenosti (tudi variacije ali variabilnosti)<br />
oz<strong>na</strong>čujejo stopnjo razpršenosti opazovanih vrednosti<br />
okrog srednje vrednosti.<br />
• Ločimo več mer razpršenosti, ki jih delimo <strong>na</strong>:<br />
• absolutne mere razpršenosti – proučujemo razpršenost ene<br />
populacije (vzorca);<br />
• relativne mere razpršenosti – za primerjavo razpršenosti<br />
dveh ali več populacij (vzorcev).<br />
93<br />
5. MERE RAZPRŠENOSTI / 2<br />
• Absolutne mere razpršenosti delimo, glede <strong>na</strong> to kako<br />
vrednotijo razpršenost spremenljivke:<br />
• razmiki - upoštevajo le dve vrednosti :<br />
• variacijski razmik,<br />
• kvartilni razmik,<br />
• itd.;<br />
94<br />
• odkloni - upoštevajo vse vrednosti spremenljivke<br />
(razen kvartilnega odklo<strong>na</strong>):<br />
• kvartilni odklon,<br />
• povprečni absolutni odklon,<br />
• povprečni kvadratni odklon,<br />
• standardni odklon,<br />
• itd.<br />
•47
5.1 Variacijski razmik<br />
• Variacijski razmik VR je <strong>na</strong>jbolj preprosta mera<br />
razpršenosti; e<strong>na</strong>ka je razliki med <strong>na</strong>jvečjo in <strong>na</strong>jmanjšo<br />
vrednostjo opazovane spremenljivke (glej tudi 3.1):<br />
VR = x max<br />
− x min<br />
(5.1)<br />
kjer je x max <strong>na</strong>jvečja vrednost, x min pa <strong>na</strong>jmanjša<br />
vrednost opazovane spremenljivke.<br />
• Na vrednost variacijskega razmika vplivajo osamelci –<br />
to so opazovane vrednosti, ki se tako razlikujejo od<br />
drugih vrednosti, da je vprašljiva njihova vključitev v<br />
vzorec.<br />
95<br />
5.1 Variacijski razmik / 2<br />
Primer 5.1: Za ocene iz primera 3.1 izraču<strong>na</strong>jmo variacijski<br />
razmik.<br />
• Podatki:<br />
5, 7, 8, 7, 3, 4, 2,<br />
8, 6, 1, 9, 6, 6, 6,<br />
7, 2, 6, 5, 4<br />
Variacijski razmik opazovanih<br />
vrednosti je:<br />
VR X<br />
= xmax − xmin<br />
= 9 −1<br />
= 8<br />
96<br />
•48
5.2 Kvartilni razmik<br />
• Kvartilni razmik QR je razlika med tretjim in prvim<br />
kvartilom:<br />
QR = Q 3<br />
− Q 1<br />
kjer sta Q 1 in Q 3 prvi in tretji kvartil.<br />
(5.2)<br />
• Na vrednost kvartilnega razmika ne vplivajo osamelci,<br />
saj je med Q 1 in Q 3 le polovica vseh opazovanj: četrti<strong>na</strong><br />
jih je levo od Q 1 , četrti<strong>na</strong> pa desno od Q 3 .<br />
97<br />
5.2 Kvartilni razmik / 2<br />
Primer 5.2: Za ocene iz primera 3.1 izraču<strong>na</strong>jmo kvartilni<br />
razmik.<br />
• Podatki:<br />
5, 7, 8, 7, 3, 4, 2,<br />
8, 6, 1, 9, 6, 6, 6,<br />
7, 2, 6, 5, 4<br />
Po formulah (2.1) in (2.2) <strong>na</strong>jprej<br />
izraču<strong>na</strong>mo prvi in tretji kvartil,<br />
<strong>na</strong>to pa kvartilni razmik:<br />
Q<br />
Q<br />
1<br />
3<br />
= 4<br />
= 7<br />
QR = Q<br />
3<br />
− Q<br />
1<br />
= 7 − 4 = 3<br />
Kvartilni razmik ocen je 3.<br />
98<br />
•49
5.3 Kvartilni odklon<br />
• Kvartilni odklon Q je polovica razlike med tretjim in<br />
prvim kvartilom oziroma polovica kvartilnega razmika:<br />
Q3 − Q1<br />
QR<br />
Q = =<br />
2 2<br />
(5.3)<br />
• Primer 5.3: Za ocene iz primera 3.1 izraču<strong>na</strong>jmo<br />
kvartilni odklon.<br />
Kvartilni razmik smo izraču<strong>na</strong>li v primeru 5.2 in je<br />
QR = 3; torej z<strong>na</strong>ša kvartilni odklon Q = 1.5.<br />
99<br />
5.4 Povprečni absolutni odklon<br />
• Povprečni absolutni odklon raču<strong>na</strong>mo za aritmetično<br />
sredino in mediano po formulah:<br />
AD<br />
μ<br />
=<br />
1<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
x i<br />
− μ<br />
(5.4)<br />
AD<br />
Me<br />
=<br />
1<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
x − Me<br />
i<br />
(5.5)<br />
100<br />
•50
5.4 Povprečni absolutni odklon / 2<br />
x i<br />
78<br />
5<br />
7<br />
8<br />
|x i<br />
-μ|<br />
0,37<br />
1,63<br />
2,63<br />
|x i<br />
-Me|<br />
1<br />
1<br />
2<br />
Primer 5.4: Za ocene iz primera 3.1<br />
izraču<strong>na</strong>jmo povprečni absolutni odklon<br />
od aritmerične sredine in od mediane.<br />
7<br />
1,63<br />
1<br />
3<br />
4<br />
2<br />
8<br />
2,37<br />
1,37<br />
3,37<br />
2,63<br />
3<br />
2<br />
4<br />
2<br />
AD<br />
μ<br />
N<br />
1<br />
= ∑<br />
N<br />
i=<br />
1<br />
x i<br />
− μ = 1.<br />
6<br />
1<br />
9<br />
6<br />
0,63<br />
4,37<br />
3,63<br />
0,63<br />
0<br />
5<br />
3<br />
0<br />
AD<br />
Me<br />
N<br />
1<br />
= ∑<br />
N<br />
i=<br />
1<br />
x − Me<br />
i<br />
= 1.68<br />
6<br />
0,63<br />
0<br />
6<br />
0,63<br />
0<br />
7<br />
1,63<br />
1<br />
2<br />
3,37<br />
4<br />
6<br />
0,63<br />
0<br />
5<br />
0,37<br />
1<br />
101<br />
4<br />
1,37<br />
2<br />
5.4 Povprečni absolutni odklon / 3<br />
• Za frekvenčno porazdelitev izraču<strong>na</strong>mo povprečni<br />
absolutni odklon s frekvencami kot utežmi:<br />
AD<br />
μ<br />
=<br />
1<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
f i<br />
x i<br />
− μ<br />
(5.6)<br />
AD<br />
Me<br />
=<br />
1<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
f<br />
i<br />
x − Me<br />
i<br />
(5.7)<br />
102<br />
•51
5.4 Povprečni absolutni odklon / 4<br />
Primer 5.5: Za frekvenčno porazdelitev ocen iz primera 3.6<br />
izraču<strong>na</strong>jmo povprečni absolutni odklon od aritmetične<br />
sredine.<br />
meji<br />
1-2<br />
3-4<br />
f i<br />
3<br />
3<br />
x i<br />
1.5<br />
3.5<br />
f i<br />
|x i<br />
-μ|<br />
11.37<br />
5.37<br />
V primeru 5.4 smo izraču<strong>na</strong>li<br />
aritmetično sredino za frekvenčno<br />
porazdelitev :<br />
μ = 5.29<br />
5-6<br />
7-8<br />
9-10<br />
7<br />
5<br />
1<br />
19<br />
5.5<br />
7.5<br />
9.5<br />
1.47<br />
11.05<br />
4.21<br />
33.47<br />
AD<br />
=<br />
μ<br />
33.47<br />
19<br />
N<br />
1<br />
= ∑ f i<br />
x i<br />
− μ =<br />
N<br />
i=<br />
1<br />
= 1.76<br />
Povprečni absolutni odklon od<br />
aritmetične sredine je 1.76.<br />
103<br />
5.5 Varianca in standardni odklon<br />
2<br />
σ<br />
• Varianco izraču<strong>na</strong>mo kot povprečje kvadratov<br />
odklonov opazovanj od aritmetične sredine:<br />
2<br />
σ =<br />
1<br />
N<br />
2<br />
∑(<br />
x i<br />
− μ)<br />
N i=<br />
1<br />
(5.8)<br />
• Pozitiv<strong>na</strong> vrednost kvadratnega kore<strong>na</strong> iz variance je<br />
standardni odklon :<br />
σ<br />
σ =<br />
2<br />
σ<br />
(5.9)<br />
Standardni odklon ima isto mersko enoto kot proučeva<strong>na</strong> spremenljivka.<br />
104<br />
•52
5.5 Varianca in ... / 2<br />
x i<br />
(x i<br />
-μ) 2<br />
105<br />
5<br />
7<br />
8<br />
7<br />
3<br />
4<br />
2<br />
8<br />
6<br />
1<br />
9<br />
6<br />
6<br />
6<br />
7<br />
2<br />
6<br />
5<br />
4<br />
0.14<br />
2.66<br />
6.93<br />
2.66<br />
5.61<br />
1.87<br />
11.35<br />
6.93<br />
0.40<br />
19.08<br />
13.19<br />
0.40<br />
0.40<br />
0.40<br />
2.66<br />
11.35<br />
0.40<br />
0.14<br />
1.87<br />
Primer 5.6: Za ocene iz primera 3.1<br />
izraču<strong>na</strong>jmo varianco in standardni odklon.<br />
Varianco in standardni odklon izraču<strong>na</strong>mo<br />
po e<strong>na</strong>čbah 5.8 in 5.9:<br />
N<br />
2 1<br />
σ = ∑(<br />
N<br />
2<br />
σ = σ<br />
i=<br />
1<br />
=<br />
x i<br />
− μ)<br />
Varianca je 4.65, standardni odklon pa<br />
2.16.<br />
2<br />
4.65 = 2.16<br />
88.42<br />
= = 4.65<br />
19<br />
5.5 Varianca in ... / 3<br />
• Za frekvenčno porazdelitev izraču<strong>na</strong>mo varianco s<br />
frekvencami kot utežmi:<br />
2<br />
σ =<br />
1<br />
N<br />
∑<br />
f i<br />
( x i<br />
− μ)<br />
2<br />
N i=<br />
1<br />
(5.10)<br />
106<br />
•53
5.5 Varianca in ... / 4<br />
Primer 5.7: Za frekvenčno porazdelitev ocen iz primera 3.6<br />
izraču<strong>na</strong>jmo varianco in standardni odklon.<br />
meji<br />
1-2<br />
3-4<br />
f i<br />
3<br />
3<br />
x i<br />
1.5<br />
3.5<br />
f i<br />
(x i<br />
-μ) 2<br />
43.08<br />
9.61<br />
V primeru 5.4 smo izraču<strong>na</strong>li<br />
aritmetično sredino za frekvenčno<br />
porazdelitev :<br />
μ = 5.29<br />
5-6<br />
7-8<br />
9-10<br />
7<br />
5<br />
1<br />
5.5<br />
7.5<br />
9.5<br />
0.31<br />
24.43<br />
17.73<br />
2<br />
σ<br />
N<br />
1<br />
= ∑<br />
N<br />
i=<br />
1<br />
f i<br />
( x i<br />
− μ)<br />
2<br />
95.16<br />
= = 5.01<br />
19<br />
19<br />
95.16<br />
2<br />
σ = σ<br />
=<br />
5.01 = 2.24<br />
Varianca je 5.01, standardni odklon pa<br />
2.24.<br />
107<br />
5.5 Varianca in ... / 5<br />
• Nekaj lastnosti variance:<br />
1. varianco lahko izraču<strong>na</strong>mo tudi takole:<br />
σ<br />
N<br />
2 1<br />
2 ⎛ 1<br />
∑ fi<br />
( xi<br />
− μ)<br />
= ⎜<br />
N i=<br />
1<br />
N<br />
= ∑ x<br />
⎝ i=<br />
1<br />
N<br />
2<br />
i<br />
⎞ 2<br />
⎟ − μ<br />
⎠<br />
(5.11)<br />
2. varianca je e<strong>na</strong>ka, če vsem vrednostim<br />
spremenljivke prištejemo ali odštejemo isto<br />
konstanto.<br />
108<br />
•54
5.5 Varianca in ... / 6<br />
• Sheppardov popravek – Varianca, ki jo izraču<strong>na</strong>mo iz<br />
podatkov, urejenih v frekvenčno porazdelitev, je le<br />
oce<strong>na</strong> prave vrednosti variance. Dokazano je, da je ta<br />
oce<strong>na</strong> za spremenljivke, ki so porazdeljene približno<br />
normalno (v obliki zvo<strong>na</strong>ste in simetrične porazdelitve),<br />
sistematično prevelika. Zato je Sheppard predlagal<br />
popravek ocene variance:<br />
σ<br />
2<br />
2 2 d<br />
pop<br />
= σ −<br />
12<br />
(5.12)<br />
kjer je d širi<strong>na</strong> razreda.<br />
109<br />
5.5 Varianca in ... / 7<br />
Primer 5.8: V primeru 5.7 smo izraču<strong>na</strong>li varianco za<br />
frekvenčno porazdelitev ocen. Izraču<strong>na</strong>jmo po Sheppardu<br />
popravljeno varianco.<br />
meji<br />
f i<br />
x i,min<br />
x i,max<br />
Ker je širi<strong>na</strong> razreda 2, je:<br />
1-2<br />
3-4<br />
5-6<br />
7-8<br />
9-10<br />
3<br />
3<br />
7<br />
5<br />
1<br />
0.5<br />
2.5<br />
4.5<br />
6.5<br />
8.5<br />
2.5<br />
4.5<br />
6.5<br />
8.5<br />
10.5<br />
2<br />
2<br />
2 2 d 2<br />
σ pop = σ − = 5.01−<br />
=<br />
12 12<br />
= 5.01−<br />
0.33 = 4.67<br />
S Sheppardovim popravkom<br />
popravlje<strong>na</strong> varianca je 4.67.<br />
19<br />
110<br />
•55
5.5 Varianca in ... / 8<br />
• Predpostavimo, da se spremenljivka X porazdeljuje<br />
normalno (glej poglavje 6) z aritmetično sredino μ in<br />
standardnim odklonom . Tedaj velja, da v razmiku:<br />
[ μ −σ<br />
, μ + σ ]<br />
σ<br />
• leži 68.27 % enot populacije;<br />
[ μ − 2σ<br />
, μ + 2σ<br />
]<br />
• leži 95.45 % enot populacije;<br />
[ μ − 3σ<br />
, μ + 3σ<br />
]<br />
• leži 99.73 % enot populacije.<br />
111<br />
5.5 Varianca in ... / 9<br />
112<br />
•56
5.6 Relativne mere razpršenosti<br />
• Absolutne mere razpršenosti redko primerjamo med<br />
seboj. Za primerjavo razpršenosti dveh ali več množic<br />
podatkov (populacij ali vzorcev) uporabljamo relativne<br />
mere razpršenosti.<br />
• Relativno mero razpršenosti izraču<strong>na</strong>mo tako<br />
absolutno mero delimo z ustrezno srednjo vrednostjo.<br />
113<br />
5.6 Relativne mere razpršenosti / 2<br />
• relativni variacijski razmik je:<br />
x<br />
RVR = 2⋅<br />
x<br />
max<br />
max<br />
− x<br />
+ x<br />
min<br />
min<br />
(5.13)<br />
• relativni kvartilni odklon je:<br />
Q3<br />
− Q1<br />
RQ = 2 ⋅ Me<br />
(5.14)<br />
114<br />
•57
5.6 Relativne mere razpršenosti / 3<br />
• relativni povprečni absolutni odklon je:<br />
RAD<br />
Me =<br />
AD<br />
Me<br />
Me<br />
(5.15)<br />
• relativni standardni odklon ali koeficient variacije je:<br />
KV<br />
σ<br />
=<br />
μ<br />
(5.16)<br />
115<br />
5.6 Relativne mere razpršenosti / 4<br />
Primer 5.9: Primerjajmo razpršenost podatkov za ocene<br />
prvega in zadnjega roka izpita pri predmetu Statistika z<br />
elementi informatike v šolskem letu 2001/2002.<br />
116<br />
• N X : 21<br />
• X: 3, 3, 3, 3, 7, 3,<br />
8, 1, 2, 1, 1, 8, 6,<br />
3, 2, 1, 3, 6, 3, 2,<br />
3<br />
• N Y : 19<br />
• Y: 5, 7, 8, 7, 3, 4,<br />
2, 8, 6, 1, 9, 6, 6,<br />
6, 7, 2, 6, 5, 4<br />
Iz podatkov izraču<strong>na</strong>mo obe<br />
aritmetični sredini, standard<strong>na</strong><br />
odklo<strong>na</strong> ter koeficienta variacije:<br />
μ = 3.43, σ<br />
X<br />
μ = 5.37, σ<br />
Y<br />
Y<br />
X<br />
= 2.17, KV<br />
= 2.16, KV<br />
= 0.63<br />
= 0.40<br />
Podatki kažejo, da so <strong>na</strong> prvem<br />
roku izpita študenti v povprečju<br />
slabše pisali kot <strong>na</strong> zadnjem.<br />
Čeprav sta standard<strong>na</strong> odklo<strong>na</strong><br />
ocen <strong>na</strong> prvem in zadnjem roku<br />
izpita skoraj e<strong>na</strong>ka, pa je relativ<strong>na</strong><br />
razpršenost ocen prvega roka<br />
večja.<br />
Y<br />
X<br />
•58
6. NORMALNA<br />
PORAZDELITEV<br />
• Gaussova ali normal<strong>na</strong> porazdelitev.<br />
• Nekaj primerov pojavov in spremenljivk, katerih<br />
porazdelitve <strong>na</strong> teh pojavih so podobne normalni<br />
porazdelitvi:<br />
• demografska in družbe<strong>na</strong> statistika:<br />
• viši<strong>na</strong> in teža za večjo skupino ljudi iste starosti in spola,<br />
• število rojstev, porok in smrti v določenih stalnih razmerah,<br />
• plače velikega števila zaposlenih v podobnih razmerah itd.<br />
• psihološka in pedagoška statistika:<br />
• rezultati testov in z<strong>na</strong>nja,<br />
• inteligentnost merje<strong>na</strong> s standardiziranimi testi itd.<br />
117<br />
6.1 Splošne lastnosti<br />
• po<strong>na</strong>zarja jo enovrh<strong>na</strong>, simetrič<strong>na</strong>, zvo<strong>na</strong>sta in gladka<br />
krivulja;<br />
• je teoretič<strong>na</strong> porazdelitev, ki se ji lahko nekatere<br />
dejanske porazdelitve zelo približajo;<br />
• določata jo dva parametra: aritmetič<strong>na</strong> sredi<strong>na</strong> , ki<br />
vpliva <strong>na</strong> lego krivulje porazdelitve, ter standardni<br />
odklon σ , ki vpliva <strong>na</strong> obliko krivulje (večji σ pomeni<br />
večjo raztegnjenost v smeri abscisne osi);<br />
− ∞<br />
[ μ − 3σ<br />
, μ + 3σ<br />
]<br />
• teoretično se razteza med in , čeprav je v<br />
razmiku<br />
kar 99.73 % enot populacije;<br />
∞<br />
μ<br />
118<br />
•59
6.1 Splošne lastnosti / 2<br />
• celot<strong>na</strong> plošči<strong>na</strong> pod krivuljo predstavlja 100% vseh<br />
vrednosti porazdelitve;<br />
• <strong>na</strong>jveč vrednosti se <strong>na</strong>haja okrog sredine;<br />
• mnoge različne množične pojave - predvsem <strong>na</strong>ravne -<br />
opisuje z razmeroma visoko stopnjo <strong>na</strong>tančnosti.<br />
119<br />
6.1 Splošne lastnosti / 3<br />
• Denimo, da se spremenljivka X porazdeljuje normalno z<br />
aritmetično sredino μ in standardnim odklonom σ . Tedaj<br />
velja, da v razmiku:<br />
[ μ −σ<br />
, μ + σ ]<br />
• leži 68.27 % enot populacije;<br />
[ μ − 2σ<br />
, μ + 2σ<br />
]<br />
• leži 95.45 % enot populacije;<br />
[ μ − 3σ<br />
, μ + 3σ<br />
]<br />
• leži 99.73 % enot populacije.<br />
120<br />
•60
6.1 Splošne lastnosti / 4<br />
121<br />
6.1 Splošne lastnosti / 5<br />
Primer 6.1: Predpostavimo, da se trajanje nosečnosti<br />
porazdeljuje približno normalno z aritmetično sredino 260 dni<br />
in standardnim odklonom 16 dni.<br />
Iz povedanega vemo, da traja nosečnost pri 95.45 %<br />
ženskah med 228 in 292 dnevi:<br />
μ − 2 σ = 260 − 32 = 228<br />
μ + 2 σ = 260 + 32 = 292<br />
122<br />
•61
6.2 Standardizacija spremenljivke<br />
Aritmetič<strong>na</strong> sredi<strong>na</strong> in standardni odklon dajeta dobro informacijo o porazdelitvi populacije<br />
opazovane spremenljivke – z njima lahko ugotavljamo položaj vrednosti v porazdelitvi.<br />
123<br />
• Denimo, da vsaki vrednosti x i spremenljivke X<br />
odštejemo njeno aritmetično sredino μ in delimo z<br />
njenim standardnim odklonom :<br />
z<br />
i<br />
= i<br />
x − μ<br />
σ<br />
• Dobimo novo spremenljivko Z, ki jo imenujemo<br />
standardizira<strong>na</strong> spremenljivka Z.<br />
(6.1)<br />
• Vrednosti z i - standardizirani odkloni - povedo, za<br />
koliko standardnih odklonov je izbra<strong>na</strong> vrednost x i<br />
večja (z i je pozitiven) ali manjša od aritmetične sredine<br />
(z i je negativen).<br />
σ<br />
6.2 Standardizacija spremenljivke / 2<br />
Primer 6.2: Zanima <strong>na</strong>s, kje v populaciji se <strong>na</strong>haja mama,<br />
ki je rodila otroka v 244 dnevu nosečnosti. Iz primera 6.1<br />
vemo, da se trajanje nosečnosti porazdeljuje približno<br />
normalno z aritmetično sredino 260 dni in standardnim<br />
odklonom 16 dni.<br />
Izraču<strong>na</strong>jmo standardiziran odklon z 244 :<br />
z<br />
244 − 260<br />
= =<br />
16<br />
244<br />
−<br />
Mama, ki je rodila otroka v 244 dnevu nosečnosti, se<br />
<strong>na</strong>haja točno en standardni odklon pod aritmetično sredino.<br />
1<br />
124<br />
•62
6.3 Standardizira<strong>na</strong> normal<strong>na</strong><br />
porazdelitev<br />
• S standardizacijo normalno porazdeljene spremenljivke X<br />
dobimo standardizirano normalno porazdelitev<br />
spremenljivke Z (Z~N(0,1)).<br />
• Aritmetič<strong>na</strong> sredi<strong>na</strong> in varianca spremenljivke Z sta:<br />
N<br />
N<br />
1 1 xi<br />
− μ<br />
X<br />
μZ<br />
= ∑ zi<br />
= ∑<br />
N N σ<br />
i=<br />
1<br />
i=<br />
1<br />
X<br />
= 0<br />
(6.2)<br />
125<br />
2 1<br />
σ<br />
Z<br />
=<br />
N<br />
1<br />
2<br />
σ<br />
X<br />
1<br />
⋅<br />
N<br />
∑<br />
i=<br />
1<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
( z − μ )<br />
2<br />
2<br />
1<br />
=<br />
N<br />
( x − μ ) = 1<br />
i<br />
i<br />
Z<br />
X<br />
N<br />
∑<br />
i=<br />
1<br />
⎛ xi<br />
− μ<br />
X<br />
⎜<br />
⎝ σ<br />
X<br />
⎞<br />
⎟<br />
⎠<br />
2<br />
=<br />
(6.3)<br />
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> ... / 2<br />
• Standardizira<strong>na</strong> normal<strong>na</strong> porazdelitev ima aritmetično<br />
sredino in standardni odklon .<br />
μ = 0<br />
= 1<br />
Z<br />
• Zato lahko takšno porazdelitev uporabimo za določanje<br />
položajev posameznih vrednosti x i za katerokoli<br />
spremenljivko X, ki se porazdeljuje normalno.<br />
• V preglednici standardizirane normalne porazdelitve<br />
(Preglednice porazdelitev v Navodilih za izvedbo vaj)<br />
lahko za vse vrednosti od 0 ≤ z ≤ 3.79 odčitamo, koliko<br />
odstotkov celotne ploščine pod krivuljo normalne<br />
porazdelitve je med in izbrano z-vrednostjo:<br />
− ∞<br />
σ Z<br />
• Odstotkom ploščine ustrezajo odstotki vrednosti<br />
porazdelitve, ki so <strong>na</strong> intervalu med -∞ in izbrano<br />
z-vrednostjo.<br />
126<br />
•63
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> ... / 3<br />
Primer 6.3: Zanima <strong>na</strong>s, kolikšen odstotek vrednosti<br />
porazdelitve se <strong>na</strong>haja med aritmetično sredino slučajne<br />
spremenljivke Z in izbrano pozitivno vrednostjo z = 1.10.<br />
− ∞<br />
V preglednici porazdelitve vidimo, da se od do z = 1.10<br />
<strong>na</strong>haja pod krivuljo normalne porazdelitve P(z=1.10) = 0.86433<br />
dela celotne ploščine.<br />
Ker se levo od aritmetične sredine slučajne spremenljivke Z <strong>na</strong>haja<br />
prav tolikšen del opazovanj kot desno od nje, to je 50 %, sledi, da<br />
je P(z)% = 86.43 % - 50 % = 36.43 %<br />
vseh vrednosti.<br />
To pomeni, da se <strong>na</strong>haja 36.43 %<br />
vseh vrednosti med aritmetično<br />
sredino slučajne spremenljivke Z<br />
in pozitivno vrednostjo z = 1.10.<br />
127<br />
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> ... / 4<br />
Primer 6.4: Zanima <strong>na</strong>s, kolikšen odstotek vrednosti<br />
porazdelitve se <strong>na</strong>haja med izbrano negativno vrednostjo<br />
z = -1.10 in aritmetično sredino slučajne spremenljivke Z.<br />
V preglednici standardizirane normalne porazdelitve imamo<br />
izpisane ploščine za z i<br />
≥ 0 . Ker je normal<strong>na</strong> krivulja simetrič<strong>na</strong>,<br />
se med negativno z-vrednostjo in sredino μ z<br />
= 0 <strong>na</strong>haja prav toliko<br />
vrednosti kot med sredino μ z<br />
= 0 in e<strong>na</strong>ko pozitivno z-vrednostjo<br />
(glej primer 6.3).<br />
To pomeni, da se <strong>na</strong>haja 36.43 % vseh<br />
vrednosti med izbrano negativno<br />
vrednostjo z = -1.10 in aritmetično<br />
sredino slučajne spremenljivke Z.<br />
128<br />
•64
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> ... / 5<br />
Primer 6.5: Zanima <strong>na</strong>s, kolikšen odstotek vrednosti<br />
porazdelitve slučajne spremenljivke Z se <strong>na</strong>haja <strong>na</strong>d izbrano<br />
pozitivno vrednostjo z = 1.10.<br />
Ko iščemo odstotek vrednosti P(z)% <strong>na</strong>d izbrano pozitivno<br />
z-vrednostjo, moramo od skupne ploščine pod krivuljo normalne<br />
porazdelitve, ki z<strong>na</strong>ša 1, odšteti odčitek iz preglednice<br />
porazdelitve; to je ploščino od − ∞ do izbrane pozitivne<br />
z-vrednosti: P( z >1.10 ) = 1 - 0.86433 = 0.13567.<br />
To pomeni, da se <strong>na</strong>haja 13.57 %<br />
vseh vrednosti <strong>na</strong>d izbrano<br />
vrednostjo z = 1.10.<br />
129<br />
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> ... / 5<br />
Primer 6.6: Zanima <strong>na</strong>s, kolikšen odstotek vrednosti<br />
porazdelitve slučajne spremenljivke Z se <strong>na</strong>haja med izbrano<br />
negativno vrednostjo z 1<br />
= -1.10 in e<strong>na</strong>ko pozitivno vrednostjo<br />
z 2<br />
= 1.10.<br />
V tem primeru moramo od ploščine P(z=1.10) = 0.86433 dela<br />
celotne ploščine odšteti P( z < −1.10 ) = P( z >1. 10 ), kar zapišemo:<br />
P( −1 .10 < z < 1.10 ) = P(z 2<br />
=1.10) - P(z 2<br />
=-1.10) =<br />
= 0.86433 – 0.13567 = 0.72866.<br />
To pomeni, da se <strong>na</strong>haja 72.87 % vseh<br />
vrednosti med izbrano negativno<br />
vrednostjo z 1<br />
= -1.10 in e<strong>na</strong>ko<br />
pozitivno z-vrednostjo.<br />
130<br />
•65
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> ... / 6<br />
Primer 6.7: Zanima <strong>na</strong>s, kolikš<strong>na</strong> je z-vrednost, ki ji ustreza<br />
odstotek vrednosti porazdelitve P(z)% = 88.1 %.<br />
V preglednici standardizirane normalne porazdelitve poiščemo<br />
v stolpcih z vrednostmi deležev porazdelitve vrednost<br />
P(z)% = 88.1 % oziroma P(z) = 0.88100.<br />
Temu odstotku deleža porazdelitve ustreza vrednost z = 1.18:<br />
P( z)%<br />
= 88.1% ⇒ z = 1.18<br />
131<br />
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> ... / 7<br />
Primer 6.8: Zanima <strong>na</strong>s, kolikš<strong>na</strong> je z-vrednost, ki ji ustreza<br />
odstotek vrednosti porazdelitve P(z)% = 58 %.<br />
132<br />
V preglednici standardizirane normalne porazdelitve ne <strong>na</strong>jdemo<br />
vrednosti P(z)% = 58 % oziroma P(z) = 0.58000. Ugotovimo le,<br />
da se <strong>na</strong>haja med vrednostima P(z m<br />
) = 0.57926 in P(z v<br />
) =<br />
0.58317; ustrezni vrednosti sta z m<br />
= 0.20 in z v<br />
= 0.21. Pravo<br />
z-vrednost, ki leži med z m<br />
in z v<br />
poiščemo s pomočjo linearne<br />
interpolacije:<br />
z = z<br />
m<br />
P(<br />
z)<br />
− P(<br />
zm)<br />
+<br />
10⋅(<br />
P(<br />
z ) − P(<br />
z<br />
= 0.20 + 0.0189 = 0.20189 ⇒<br />
v<br />
m<br />
0.58000 − 0.57926<br />
= 0.20 +<br />
=<br />
)) 10⋅(0.58317<br />
− 0.57926)<br />
z = 0.202<br />
Interpolacija je prinesla popravek šele <strong>na</strong> mestu tretje decimalke.<br />
V <strong>na</strong>šem primeru torej ne bi <strong>na</strong>redili večje <strong>na</strong>pake, če bi kot<br />
rezultat vzeli kar manjšo z-vrednost. Dobro je, da poz<strong>na</strong>mo<br />
postopek interpolacije, v večini primerov pa bomo z-vrednost, ki ji<br />
ustreza nek odstotek vrednosti porazdelitve, kar prebrali v<br />
preglednici porazdelitve.<br />
•66
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> ... / 8<br />
Primer 6.9: Iz primera 6.1 vemo, da se trajanje nosečnosti<br />
porazdeljuje približno normalno z aritmetično sredino 260 dni in<br />
standardnim odklonom 16 dni. Zanimata <strong>na</strong>s dneva rojstva, med<br />
katerima leži srednjih 70 % populacije.<br />
Srednjih 70 % populacije ustreza 35 % pod ter 35 % populacije<br />
<strong>na</strong>d aritmetično sredino. Iz preglednice porazdelitve preberemo, da<br />
je:<br />
P z)%<br />
= 35 % ⇒ z = −1.04,<br />
z 1.04<br />
(<br />
1 2<br />
=<br />
z 1<br />
in z 2<br />
sta standardizira<strong>na</strong> odklo<strong>na</strong> vrednosti x 1<br />
in x 2<br />
slučajne<br />
spremenljivke X.<br />
Po pravilu<br />
x = μ + z ⋅σ<br />
i<br />
X<br />
i<br />
X<br />
izraču<strong>na</strong>mo<br />
x = 260 −1.04⋅16<br />
= 243.36<br />
x<br />
1<br />
2<br />
= 260 + 1.04⋅16<br />
= 276.64<br />
133<br />
Srednjih 70 % vseh otrok se rodi med 243-tim in 277-tim dnevom<br />
nosečnosti.<br />
6.3 Standardizira<strong>na</strong> normal<strong>na</strong> ... / 9<br />
Primer 6.10: Za podatke iz primera 6.1 izraču<strong>na</strong>jmo, kolikšen<br />
odstotek otrok se rodi med 220-tim in 236-tim dnevom<br />
nosečnosti.<br />
V preglednici standardizirane normalne porazdelitve preberemo<br />
deleže pod ploščino krivulje za ustrezne z-vrednosti:<br />
x − μ<br />
220 − 260<br />
= =<br />
16<br />
1 X<br />
1<br />
=<br />
−<br />
σ<br />
X<br />
z<br />
2.5<br />
x − μ<br />
236 − 260<br />
= =<br />
16<br />
2 X<br />
2<br />
=<br />
−<br />
σ<br />
X<br />
in ustrezne deleže ploščine pod krivuljo normalne porazdelitve:<br />
P(<br />
z1 , z2)<br />
= P(<br />
z2)<br />
− P(<br />
z1)<br />
= (1 − 0.93319) − (1 − 0.99379) = 0.0606<br />
Med 220-tim in 236-tim dnevom nosečnosti se rodi 6.06 % vseh<br />
otrok.<br />
z<br />
1.5<br />
134<br />
•67
7. MERE ASIMETRIJE<br />
IN SPLOŠČENOSTI<br />
• Aritmetič<strong>na</strong> sredi<strong>na</strong> in standardni odklon sta dobra<br />
predstavnika populacije, <strong>na</strong> kateri se opazova<strong>na</strong><br />
spremenljivka porazdeljuje približno normalno.<br />
• V primeru enovrhne porazdelitve spremenljivke, ki je<br />
bolj ali manj asimetrič<strong>na</strong> ter bolj ali manj splošče<strong>na</strong><br />
(koničasta), pa je potrebno izraču<strong>na</strong>ti še stopnjo<br />
asimetrije in sploščenosti (koničavosti).<br />
• Stopnjo asimetrije merimo <strong>na</strong> več <strong>na</strong>činov s koeficienti<br />
asimetrije stopnjo sploščenosti oziroma koničavosti pa<br />
s koeficienti sploščenosti.<br />
135<br />
7.1 Meri asimetrije<br />
• Pri zvezah med srednjimi vrednostmi smo omenili<br />
(poglavje 4.4), da so razlike med srednjimi vrednostmi<br />
tem večje, čim bolj je porazdelitev asimetrič<strong>na</strong>.<br />
136<br />
• Ustrezni meri asimetrije sta:<br />
Velja:<br />
KA Mo<br />
KA Me<br />
μ − Mo<br />
=<br />
σ<br />
3⋅(μ − Me)<br />
=<br />
σ<br />
(7.1)<br />
(7.2)<br />
• KA Mo<br />
ali KA Me<br />
< 0, porazdelitev je asimetrič<strong>na</strong> v levo;<br />
• KA Mo<br />
ali KA Me<br />
= 0, porazdelitev je simetrič<strong>na</strong>;<br />
• KA Mo<br />
ali KA Me<br />
> 0, porazdelitev je asimetrič<strong>na</strong> v desno.<br />
•68
7.1 Meri asimetrije / 2<br />
Primer 7.1: Za ocene iz primera 3.6 (frekvenč<strong>na</strong> porazdelitev ocen)<br />
izraču<strong>na</strong>jmo koeficient asimetričnosti od modusa ter koeficient<br />
asimetričnosti od mediane.<br />
V primerih 4.3, 4.5 in 4.8 smo izraču<strong>na</strong>li srednje vrednosti v<br />
primeru 5.7 pa standardni odklon:<br />
Me = 5.64 Mo = 5.83 μ = 5.29 σ = 2.24<br />
Koeficienta asimetrije sta:<br />
μ − Mo 5.29 − 5.83<br />
KA Mo<br />
= = = −0,24<br />
σ 2.24<br />
3⋅(<br />
μ − Me)<br />
3⋅(5.29<br />
− 5.64)<br />
KA Me<br />
=<br />
=<br />
= −0.<br />
47<br />
σ<br />
2.24<br />
Oba koeficienta asimetrije sta negativ<strong>na</strong>: porazdelitev je<br />
asimetrič<strong>na</strong> v levo.<br />
137<br />
7.2 Mera sploščenosti<br />
• Sploščenost merimo s pomočjo kvantilov. Koeficient<br />
sploščenosti je izražen kot razmerje med kvartili in decili:<br />
Q<br />
KS = 1.9⋅<br />
D<br />
Velja:<br />
• KS < 1, porazdelitev je koničasta;<br />
• KS = 1, porazdelitev je normal<strong>na</strong>;<br />
• KS > 1, porazdelitev je splošče<strong>na</strong>.<br />
3<br />
9<br />
− Q1<br />
− D<br />
1<br />
(7.3)<br />
138<br />
•69
7.3 Meri asimetrije in sploščenosti<br />
s centralnimi momenti<br />
• Centralni moment r-tega reda je:<br />
m<br />
( r)<br />
=<br />
1<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
r<br />
( x − μ)<br />
i<br />
(7.4)<br />
• iz zgornje e<strong>na</strong>čbe sledi, da je:<br />
m<br />
m<br />
(1)<br />
(2)<br />
= 0<br />
2<br />
= σ<br />
139<br />
7.3 Meri asimetrije in ... / 2<br />
• S centralnimi momenti izraču<strong>na</strong>n koeficient asimetrije:<br />
g =<br />
1<br />
m<br />
3<br />
m<br />
3<br />
2<br />
(7.5)<br />
Velja:<br />
• g 1<br />
< 0, porazdelitev je asimetrič<strong>na</strong> v levo;<br />
• g 1<br />
= 0, porazdelitev je simetrič<strong>na</strong>;<br />
• g 1<br />
> 0, porazdelitev je asimetrič<strong>na</strong> v desno.<br />
140<br />
•70
7.3 Meri asimetrije in ... / 3<br />
• S centralnimi momenti izraču<strong>na</strong>n koeficient sploščenosti:<br />
g<br />
= m<br />
m<br />
4<br />
2<br />
−<br />
2<br />
2<br />
3<br />
(7.6)<br />
Velja:<br />
• g 2<br />
< 1, porazdelitev je splošče<strong>na</strong>;<br />
• g 2<br />
= 1, porazdelitev je normal<strong>na</strong>;<br />
• g 2<br />
> 1, porazdelitev je koničasta.<br />
141<br />
8. STATISTIKA IN<br />
VERJETNOSTNI RAČUN<br />
• Statistika proučuje lastnosti populacije tako, da a<strong>na</strong>lizira<br />
spremenljivke, ki opisujejo to populacijo.<br />
• Zanima <strong>na</strong>s porazdelitev obrav<strong>na</strong>vane spremenljivke<br />
ter določene z<strong>na</strong>čilnosti te porazdelitve (npr. povprečje,<br />
standardni odklon).<br />
142<br />
•71
8. STATISTIKA IN ... / 2<br />
Primer 8.1: Denimo, da proučujemo aktivnost študentov <strong>na</strong><br />
UL FGG zadnjih pet šolskih let. Zanima <strong>na</strong>s, koliko časa <strong>na</strong><br />
teden študent v povprečju <strong>na</strong>meni za študij, koliko za<br />
športno dejavnost ter ali sta ti dve količini povezani?<br />
V tem primeru proučujemo tri z<strong>na</strong>čilnosti: povprečje dveh<br />
spremenljivk ter mero povezanosti teh dveh spremenljivk.<br />
Če bi imeli podatke za vse enote obrav<strong>na</strong>vane populacije, bi<br />
lahko te količine izraču<strong>na</strong>li.<br />
Praktični problemi (dosegljivost študentov, zavračanje<br />
anketiranja, preveliki stroški) pa <strong>na</strong>rekujejo, da izberemo<br />
določeno število študentov v vzorec in jih anketiramo.<br />
Na osnovi dobljenih vrednosti izraču<strong>na</strong>mo vzorčne ocene.<br />
Iz vzorčnih ocen sklepamo o tem, kaj velja za celotno<br />
populacijo.<br />
143<br />
8. STATISTIKA IN ... / 3<br />
• Vrednotenje lastnosti populacije:<br />
Je informacija<br />
za vse enote populacije<br />
razpoložljiva?<br />
NE<br />
Izbira enot<br />
v vzorec<br />
DA<br />
Vrednotenje<br />
lastnosti<br />
populacije<br />
Izračun<br />
vzorčne ocene<br />
za lastnost<br />
populacije<br />
144<br />
•72
8. STATISTIKA IN ... / 4<br />
• Verjetnostni račun je matematič<strong>na</strong> discipli<strong>na</strong>, ki<br />
predstavlja osnovno orodje statistike pri delu z<br />
nepopolno informacijo.<br />
• Na verjetnostnih predpostavkah temeljijo:<br />
• metode za <strong>na</strong>črtovanje poskusov oziroma<br />
opazovanj,<br />
• metode za izračun vzorčnih ocen,<br />
• metode za sklepanje iz vzorčnih vrednosti <strong>na</strong><br />
populacijske vrednosti.<br />
145<br />
8. STATISTIKA IN ... / 5<br />
• Vloga verjetnostnega raču<strong>na</strong> v statistiki:<br />
Populacija<br />
Načrtovan<br />
poskus ali<br />
opazovanje<br />
Vzorec<br />
VERJETNOSTNI<br />
RAČUN<br />
A<strong>na</strong>liza vzorčnih<br />
podatkov<br />
Lastnost<br />
populacije<br />
Statistično<br />
sklepanje<br />
Vzorč<strong>na</strong> oce<strong>na</strong><br />
lastnosti<br />
populacije<br />
146<br />
•73
8. STATISTIKA IN ... / 6<br />
• Teorija verjetnostnega raču<strong>na</strong> spada med “težja”<br />
poglavja matematike, zato podajamo v <strong>na</strong>daljevanju<br />
nekaj osnov iz te teorije, ki jih bomo potrebovali pri<br />
statističnem sklepanju.<br />
147<br />
9. KOMBINATORIKA<br />
9.1 Permutacija in variacija<br />
148<br />
• Denimo, da imamo n elementov v danem vrstnem redu.<br />
Permutacija se imenuje vsaka preureditev teh n<br />
elementov.<br />
Npr. za n = 4 elementov<br />
2 3 4 5<br />
je e<strong>na</strong> možnih permutacij brez po<strong>na</strong>vljanja,<br />
4 3 2 5<br />
ali permutacija s po<strong>na</strong>vljanjem<br />
2 3 3 4 .<br />
Zanima <strong>na</strong>s, koliko je vseh možnih permutacij<br />
(brez ali s po<strong>na</strong>vljanjem).<br />
•74
9.1 Permutacija in variacija / 2<br />
• Če iz množice n elementov vzamemo r elementov in jih <strong>na</strong><br />
nek <strong>na</strong>čin razporedimo, to imenujemo variacija reda r iz<br />
n elementov. Če se smejo elementi po<strong>na</strong>vljati, pravimo,<br />
da gre za variacijo s po<strong>na</strong>vljanjem.<br />
149<br />
Če vzamemo prejšnjo množico 4 elementov<br />
2 3 4 5<br />
je variacija reda 2 iz 4 elementov brez po<strong>na</strong>vljanja, npr.:<br />
2 3<br />
ali variacija reda 2 iz 4 elementov s po<strong>na</strong>vljanjem, npr.:<br />
3 3<br />
Zanima <strong>na</strong>s, koliko je vseh možnih variacij reda r iz<br />
n elementov (brez ali s po<strong>na</strong>vljanjem).<br />
9.2 Osnovni izrek kombi<strong>na</strong>torike<br />
Zanima <strong>na</strong>s, koliko je vseh možnih permutacij (brez ali s po<strong>na</strong>vljanjem).<br />
Zanima <strong>na</strong>s, koliko je vseh možnih variacij reda r iz n elementov (brez ali s po<strong>na</strong>vljanjem).<br />
• Na zastavljeni vprašanji <strong>na</strong>m omogoča odgovoriti<br />
osnovni izrek kombi<strong>na</strong>torike, ki govori o številu<br />
možnosti pri zaporednem (sestavljenem) izboru:<br />
Pri sestavljenem izboru izbiramo prvič med n<br />
možnostmi, po prvem izboru pa lahko vsakič<br />
izbiramo med m možnostmi. Tedaj je skupaj<br />
n ⋅m možnosti, do katerega vodi sestavljen<br />
izbor.<br />
150<br />
•75
9.2 Osnovni izrek kombi<strong>na</strong>torike / 2<br />
Primer 9.1: Od doma do postaje v Ljubljani, gremo lahko z<br />
avtomobilom, z avtobusom ali z vlakom. Od postaje do<br />
fakultete pa lahko gremo peš ali z avtobusom. Na koliko<br />
<strong>na</strong>činov lahko pridemo od doma do fakultete?<br />
Ker prvič izbiram med n = 3 možnostmi in drugič med m =<br />
2 možnosti, je vseh <strong>na</strong>činov šest:<br />
n⋅m = 3 ⋅2<br />
=<br />
6<br />
151<br />
9.2 Osnovni izrek kombi<strong>na</strong>torike / 3<br />
Posplošen izrek kombi<strong>na</strong>torike:<br />
Imejmo izbor, sestavljen iz k delnih izborov. Prvič izbiramo<br />
med n 1 možnostmi, drugič med n 2 možnostmi, ... in k-tič<br />
med n k možnostmi. Pri tako sestavljenem izboru je vseh<br />
možnosti<br />
n = n1<br />
⋅n2<br />
⋅⋅⋅<br />
n k<br />
(9.1)<br />
152<br />
•76
9.2 Osnovni izrek kombi<strong>na</strong>torike / 4<br />
Primer 9.2: Prvošolček ima <strong>na</strong> voljo 3 pare obuval, 4 hlače<br />
in 9 majic. Na koliko različnih <strong>na</strong>činov se lahko obleče?<br />
Upoštevamo posplošeni izrek kombi<strong>na</strong>torike:<br />
n = 3 ⋅ 4⋅9<br />
= 108<br />
... ki pa pri prvošolčku popolnoma odpove,<br />
saj ima vedno iste hlače, majico in športne copate!<br />
153<br />
9.3 Število variacij, permutacij<br />
in kombi<strong>na</strong>cij<br />
• Število variacij reda r iz n elementov s<br />
po<strong>na</strong>vljanjem:<br />
Vsakič izbiramo iz množice n elementov, izbor pa je<br />
sestavljen iz r delnih izborov. Zato je vseh variacij reda r<br />
iz n elementov s po<strong>na</strong>vljanjem<br />
( p)<br />
V = n<br />
r<br />
n<br />
r<br />
(9.2)<br />
154<br />
•77
9.3 Število variacij ... / 2<br />
• Število variacij reda r iz n elementov brez<br />
po<strong>na</strong>vljanja:<br />
Vsako variacijo dosežemo s sestavljenim izborom:<br />
<strong>na</strong>jprej izberemo prvi element, <strong>na</strong>to drugi, ..., <strong>na</strong>zadnje<br />
r-ti element. Vsak element lahko izberemo le enkrat.<br />
Prvi element izberemo med n elementi, drugi (ker smo<br />
prvega že izbrali) med n-1, tretji med n-2, ..., zadnji<br />
element med n-r+1 elementi. Vseh variacij reda r iz n<br />
elementov brez po<strong>na</strong>vljanja je tedaj<br />
V r<br />
n<br />
= n⋅( n −1)<br />
⋅⋅⋅(<br />
n − r + 1)<br />
(9.3)<br />
155<br />
9.3 Število variacij ... / 3<br />
• Število permutacij:<br />
Vseh permutacij je<br />
n<br />
Pn = Vn<br />
= n⋅( n −1)<br />
⋅(<br />
n − 2) ⋅⋅⋅ 2⋅1<br />
= n!<br />
(9.4)<br />
Pri tem je 0! = 1.<br />
156<br />
•78
9.3 Število variacij ... / 3<br />
• Število kombi<strong>na</strong>cij:<br />
157<br />
Denimo, da izbiramo r elementov iz množice z n<br />
elementi. V mislih imamo variacije brez po<strong>na</strong>vljanja. Če<br />
vzamemo, da so <strong>na</strong>bori, ki so sestavljeni iz istih<br />
elementov, e<strong>na</strong>ki, tako variacijo imenujemo kombi<strong>na</strong>cija<br />
reda r iz n elementov. Vseh kombi<strong>na</strong>cij je<br />
C<br />
r<br />
n<br />
r<br />
Vn<br />
=<br />
P<br />
r<br />
n⋅(<br />
n −1)<br />
⋅⋅⋅(<br />
n − r + 1)<br />
=<br />
r ⋅(<br />
r −1)<br />
⋅(<br />
r − 2) ⋅⋅⋅1<br />
Če števec in imenovalec pomnožimo z (n-r)!, je število<br />
kombi<strong>na</strong>cij<br />
C r n<br />
n!<br />
⎛n⎞<br />
= = ⎜ ⎟<br />
r!(<br />
⋅ n − r)!<br />
⎝r<br />
⎠<br />
(9.5)<br />
9.3 Število variacij ... / 4<br />
Številu<br />
⎛n⎞<br />
⎜ ⎟<br />
⎝r<br />
⎠<br />
rečemo tudi binomsko število.<br />
Dokazati se da, da velja:<br />
⎛ n ⎞ ⎛n⎞<br />
⎜ ⎟ = ⎜ ⎟<br />
⎝n<br />
− r ⎠ ⎝r<br />
⎠<br />
⎛0⎞<br />
⎛n⎞<br />
⎜ ⎟ = ⎜ ⎟ = 1<br />
⎝0⎠<br />
⎝0⎠<br />
⎛n⎞<br />
⎛ n ⎞ ⎛n<br />
+ 1⎞<br />
⎜ ⎟ + ⎜ ⎟ = ⎜ ⎟<br />
⎝r<br />
⎠ ⎝r<br />
+ 1⎠<br />
⎝r<br />
+ 1⎠<br />
158<br />
in še precej podobnih zanimivih lastnosti.<br />
•79
9.3 Število variacij ... / 5<br />
Primer 9.3: Iz populacije 5 moških in 3 žensk tvorimo<br />
vzorec 3 ljudi, tako da osebe v njem ne smejo <strong>na</strong>stopiti<br />
večkrat (vzorec brez po<strong>na</strong>vljanja). Na koliko <strong>na</strong>činov lahko<br />
tvorimo vzorec?<br />
V tem primeru gre za kombi<strong>na</strong>cijo reda 3 iz 8 elementov:<br />
C<br />
⎛8⎞<br />
8!<br />
= ⎜ ⎟ =<br />
⎝3⎠<br />
3!5! ⋅<br />
3<br />
8<br />
=<br />
56<br />
Vzorec lahko tvorimo <strong>na</strong> 56 <strong>na</strong>činov.<br />
159<br />
9.3 Število variacij ... / 6<br />
Primer 9.4: Iz populacije 5 moških in 3 žensk tvorimo<br />
vzorec 3 ljudi, tako da osebe v njem ne smejo <strong>na</strong>stopiti<br />
večkrat (vzorec brez po<strong>na</strong>vljanja). Na koliko <strong>na</strong>činov lahko<br />
tvorimo vzorec, tako da je v njem 1 ženska in 2 moška?<br />
Rešitev:<br />
C<br />
⎛5⎞<br />
⎛3⎞<br />
5! 3!<br />
= ⎜ ⎟⋅⎜<br />
⎟ = ⋅<br />
⎝2⎠<br />
⎝1⎠<br />
2!3! ⋅ 1!2! ⋅<br />
2 1<br />
5<br />
⋅C3<br />
=<br />
Če mora biti v vzorcu 1 ženska in 2 moška, lahko vzorec<br />
tvorimo <strong>na</strong> 30 različnih <strong>na</strong>činov.<br />
30<br />
160<br />
•80
9.3 Število variacij ... / 7<br />
(Kombi<strong>na</strong>torično) pravilo vsote:<br />
Če se lahko pri izbiranju odločimo ali za eno od n možnosti<br />
iz prve množice izborov ali pa za eno od m možnosti iz<br />
druge množice izborov, ki so nezdružljivi z izbori prve<br />
množice, je vseh možnih izborov n+m.<br />
161<br />
9.3 Število variacij ... / 8<br />
Primer 9.5: Iz populacije 5 moških in 3 žensk tvorimo<br />
vzorec 3 ljudi, tako da osebe v njem ne smejo <strong>na</strong>stopiti<br />
večkrat (vzorec brez po<strong>na</strong>vljanja). Na koliko <strong>na</strong>činov lahko<br />
tvorimo vzorec, tako da je v njem vsaj 1 moški?<br />
V vzorcu je lahko 1, 2 ali 3 moški, zato uporabimo<br />
kombi<strong>na</strong>torično pravilo vsote:<br />
C ⋅C<br />
1<br />
5<br />
2<br />
3<br />
+ C<br />
2<br />
5<br />
⋅C<br />
⎛5⎞<br />
⎛3⎞<br />
⎛5⎞<br />
⎛3⎞<br />
⎛5⎞<br />
⎛3⎞<br />
= ⎜ ⎟⋅⎜<br />
⎟ + ⎜ ⎟⋅⎜<br />
⎟ + ⎜ ⎟⋅⎜<br />
⎟ =<br />
⎝1⎠<br />
⎝2⎠<br />
⎝2⎠<br />
⎝1⎠<br />
⎝3⎠<br />
⎝0⎠<br />
5! 3! 5! 3! 5!<br />
= ⋅ + ⋅ + = 55<br />
1!4! ⋅ 2!1! ⋅ 2!3! ⋅ 1!2! ⋅ 3!2! ⋅<br />
Vzorec lahko tvorimo <strong>na</strong> 55 različnih <strong>na</strong>činov.<br />
1<br />
3<br />
+ C<br />
3<br />
5<br />
⋅C<br />
0<br />
3<br />
=<br />
162<br />
•81
10. VERJETNOSTNI RAČUN<br />
• Verjetnostni račun je matematič<strong>na</strong> discipli<strong>na</strong>, ki se<br />
ukvarja z vrednotenjem možnosti, da se bodo nekateri<br />
slučajni dogodki zgodili.<br />
163<br />
• Že v starem Egiptu 3500 let pr.n.št. so igrali igre s kockami<br />
podobne da<strong>na</strong>šnjim.<br />
• Okoli leta 1560 je Girolamo Cardano (italijanski zdravnik,<br />
profesor geometrije in vnet kockar) v knjigi “Knjiga o igrah s<br />
kockami” zapisal, da se vsaka ploskev kocke e<strong>na</strong>ko pogosto<br />
pojavlja. Ugotovil je tudi, da je verjetnost vsake ploskve 1/6.<br />
• Hiter razvoj statistične in matematične verjetnostne<br />
teorije.<br />
• Oseb<strong>na</strong> verjetnost je močno poveza<strong>na</strong> s človekovimi željami<br />
in upi. Spada med psihološke pojme: “Dogodkom, ki <strong>na</strong>m bi<br />
prinesli srečo, pripisujemo visoko verjetnost, dogodkom, za<br />
katere želimo, da se ne bi zgodili, pa nizko verjetnost”.<br />
10. VERJETNOSTNI RAČUN / 2<br />
• Verjetnostni račun obrav<strong>na</strong>va zakonitosti, ki se pokažejo v<br />
velikih množicah e<strong>na</strong>kih ali vsaj zelo podobnih pojavov.<br />
• Predmet verjetnostnega raču<strong>na</strong> je izkustvene <strong>na</strong>rave:<br />
njegovi osnovni pojmi so prevzeti iz izkušnje.<br />
• Osnovni pojmi v verjetnostnem računu so:<br />
• poskus,<br />
• dogodek in<br />
• verjetnost dogodka.<br />
164<br />
•82
10.1 Poskus<br />
• Poskus je izvedba neke množice skupaj <strong>na</strong>stopajočih<br />
dejstev (kompleksa pogojev). Poskus je torej vsako<br />
dejanje, ki ga opravimo v <strong>na</strong>tanko določenih pogojih.<br />
• Primer:<br />
• met igralne kocke;<br />
• iz kupa 50-tih igralnih kart izberemo eno karto.<br />
• Poskuse oz<strong>na</strong>čujemo z velikimi poševnimi črkami s<br />
konca abecede:<br />
X, Y, Z,... ali X 1 , X 2 , ..., X n ...<br />
165<br />
10.2 Dogodek<br />
• Dogodek je pojav, ki se pri poskusu lahko zgodi ali pa<br />
ne.<br />
• ... je rezultat izvedbe poskusa.<br />
• Primer:<br />
• dogodek v poskusu meta igralne kocke je, <strong>na</strong> primer, da<br />
vržemo 6 pik;<br />
• dogodek v poskusu, da iz kupa 50-tih igralnih kart izvlečemo<br />
eno karto, je, <strong>na</strong> primer, da izvlečemo rdečo karto.<br />
166<br />
• Dogodke oz<strong>na</strong>čujemo z velikimi poševnimi črkami z<br />
začetka abecede:<br />
A, B, C,... ali A 1 , A 2 , ..., A n ...<br />
•83
10.2 Dogodek / 2<br />
• Dogodek je lahko:<br />
• gotov dogodek (G) – dogodek, ki se zgodi ob vsaki<br />
ponovitvi poskusa.<br />
• nemogoč dogodek (N) – dogodek, ki se nikoli ne<br />
zgodi.<br />
• slučajen dogodek – dogodek, ki se včasih zgodi,<br />
včasih pa ne; sem spadajo vsi dogodki, ki niso gotovi<br />
ali nemogoči.<br />
167<br />
10.2 Dogodek / 3<br />
Primer 10.1: Opišimo primer gotovega, nemogočega ter<br />
slučajnega dogodka.<br />
Primer gotovega dogodka je dogodek, da pri metu kocke<br />
vržemo 1, 2, 3, 4, 5 ali 6 pik.<br />
Primer nemogočega dogodka je dogodek, da pri metu<br />
kocke vržemo 7 pik.<br />
Primer slučajnega dogodka pa je dogodek, da pri metu<br />
kocke vržemo 1 piko.<br />
168<br />
•84
10.2.1 Raču<strong>na</strong>nje z dogodki<br />
1. Dogodek A je <strong>na</strong>čin dogodka B ( A ⊂ B ), če se vsakič,<br />
ko se zgodi dogodek A, zagotovo zgodi tudi dogodek B.<br />
Primer 10.2: Pri metu kocke je dogodek A, da pade<br />
šest pik, <strong>na</strong>čin dogodka B, da pade sodo število pik.<br />
2. Če je dogodek A <strong>na</strong>čin dogodka B in sočasno dogodek B<br />
<strong>na</strong>čin dogodka A, sta dogodka e<strong>na</strong>ka:<br />
A ⊂ B ∧ B ⊂ A ⇔ A = B<br />
Primer 10.3: Pri metu kocke je dogodek A, da pade 1<br />
pika, dogodek B pa, da pade manj kot 2 piki. Glede <strong>na</strong><br />
zgoraj zapisano sta dogodka A in B e<strong>na</strong>ka.<br />
169<br />
10.2.1 Raču<strong>na</strong>nje z dogodki / 2<br />
3. Vsota dogodkov A in B ( A∪ B ) je, če se zgodi vsaj<br />
eden od dogodkov A in B.<br />
Primer 10.4: Vsota dogodka A, da vržemo sodo število<br />
pik, in dogodka B, da vržemo liho število pik, je gotov<br />
dogodek.<br />
Velja:<br />
A∪<br />
B = B ∪ A<br />
A∪<br />
N = A<br />
A∪G<br />
= G<br />
A∪<br />
A = A<br />
170<br />
•85
10.2.1 Raču<strong>na</strong>nje z dogodki / 3<br />
4. Produkt dogodkov A in B ( A∩ B ) se imenuje<br />
dogodek, če se zgodita dogodka A in B hkrati.<br />
Primer 10.5: Produkt dogodka A, da vržemo sodo<br />
število pik, in dogodka B, da vržemo liho število pik, je<br />
nemogoč dogodek.<br />
Velja:<br />
A∩<br />
B = B ∩ A<br />
A∩<br />
N = N<br />
A∩G<br />
= A<br />
A∩<br />
A = A<br />
171<br />
10.2.1 Raču<strong>na</strong>nje z dogodki / 4<br />
5. Dogodku A <strong>na</strong>sproten dogodek A imenujemo<br />
negacijo dogodka A .<br />
Primer 10.6: Nasproten dogodek dogodku, da vržemo<br />
sodo število pik, je dogodek, da vržemo liho število pik.<br />
Velja:<br />
A∩<br />
A = N<br />
A∪<br />
A = G<br />
N = G<br />
A = A<br />
172<br />
•86
10.2.1 Raču<strong>na</strong>nje z dogodki / 5<br />
6. Dogodka A in B sta nezdružljiva, če se ne moreta<br />
zgoditi hkrati, njun produkt je torej nemogoč dogodek:<br />
A ∩ B =<br />
N<br />
Primer 10.7: Dogodka, da pri metu kocke pade sodo<br />
število pik (A) in da pade liho število pik (B), sta<br />
nezdružljiva.<br />
Poljuben dogodek in njegov <strong>na</strong>sprotni dogodek, sta<br />
vedno nezdružljiva. Ob vsaki ponovitvi poskusa se<br />
zagotovo zgodi eden od njiju, zato je nju<strong>na</strong> vsota gotov<br />
dogodek:<br />
A ∩ A = N ∧ A∪<br />
A = G<br />
173<br />
10.2.1 Raču<strong>na</strong>nje z dogodki / 6<br />
7. Če lahko dogodek A izrazimo kot vsoto nezdružljivih<br />
in mogočih dogodkov, rečemo, da je A sestavljen<br />
dogodek. Dogodek, ki ni sestavljen, imenujemo<br />
elementaren dogodek.<br />
Primer 10.8: Pri metu kocke je šest elementarnih<br />
dogodkov: E 1 , da pade 1 pika, E 2 , da padeta 2 piki, ...,<br />
E 6 , da pade 6 pik. Dogodek, da pade sodo število pik je<br />
sestavljen dogodek iz treh elementarnih dogodkov (E 2 ,<br />
E 4 in E 6 ).<br />
174<br />
•87
10.2.1 Raču<strong>na</strong>nje z dogodki / 7<br />
8. Množico dogodkov S = { A1 , A2<br />
,..., An}<br />
imenujemo popoln<br />
sistem dogodkov, če se v vsaki ponovitvi poskusa<br />
zgodi <strong>na</strong>tanko eden od dogodkov iz množice S.<br />
To pomeni, da so vsi dogodki mogoči<br />
A i<br />
≠ N<br />
paroma nezdružljivi<br />
A ∩ A<br />
= N<br />
in njihova vsota je gotov dogodek<br />
i<br />
j<br />
i ≠<br />
Ai ∪ Aj<br />
∪...<br />
∪ An<br />
= G<br />
j<br />
175<br />
Primer 10.9: Popoln sistem dogodkov pri metu igralne<br />
kocke sestavljajo, <strong>na</strong> primer, elementarni dogodki ali pa<br />
tudi dva nezdružljiva dogodka: dogodek, da vržemo<br />
sodo število pik, in dogodek, da vržemo liho število pik.<br />
10.3 Verjetnost dogodka<br />
• Za slučajni dogodek ni mogoče nikoli reči v <strong>na</strong>prej, da se<br />
bo zgodil ali ne. Ponovitve, v katerih se slučajni dogodek<br />
zgodi, in tiste, v katerih se ne, si sledijo povsem<br />
neurejeno. Zato tudi rečemo, da je takšen dogodek<br />
slučajen dogodek.<br />
• Dokazano je, da je tudi slučajen dogodek podrejen<br />
nekim zakonitostim, ki pridejo do izraza šele pri<br />
velikem številu ponovitev poskusa.<br />
• Poz<strong>na</strong>mo več vrst definicij verjetnosti dogodka:<br />
• statistič<strong>na</strong> definicija,<br />
• klasič<strong>na</strong> definicija,<br />
• aksiomatska definicija.<br />
176<br />
•88
10.3.1 Statistič<strong>na</strong> definicija verjetnosti<br />
dogodka<br />
• Denimo, da smo nek poskus n-krat ponovili in da se je<br />
n A -krat zgodil dogodek A. Ponovitve poskusa, v katerih<br />
se je A zgodil, imenujemo ugodne za dogodek A,<br />
število<br />
nA<br />
(10.1)<br />
f ( A)<br />
=<br />
pa je relativ<strong>na</strong> frekvenca dogodka A v opravljenih<br />
poskusih.<br />
• Statistični zakon, ki ga kaže izkušnja:<br />
Če nek poskus dolgo po<strong>na</strong>vljamo, se relativ<strong>na</strong><br />
frekvenca slučajnega dogodka ustali, in sicer toliko<br />
bolj, kolikor več ponovitev poskusa opravimo.<br />
n<br />
177<br />
10.3.1 Statistič<strong>na</strong> definicija ... / 2<br />
178<br />
• Statistično zakonitost so izkustveno preverjali <strong>na</strong> več<br />
<strong>na</strong>činov. Najbolj z<strong>na</strong>n je poskus s kovancem, kjer so<br />
določali relativno frekvenco, da pade grb (f(A)):<br />
• Buffon (Georges Louis Leclerc Comte, francoski matematik,<br />
1707-1788) je v 4040 metih dobil f(A)=0.5069;<br />
• Morgan (Augustos, anleški matematik, 1806-1871) je v<br />
12000 metih dobil f(A)=0.5016;<br />
• Pearson (Karl, anleški matematik, 1857-1936) je v 24000<br />
metih dobil f(A)=0.5005;<br />
• Mathematica (matematičen program, Wolfram Research) je<br />
v simulaciji 1 000 000 ponovitev poskusa zabeležila<br />
f(A)=0.499726<br />
• Relativ<strong>na</strong> frekvenca, da pade grb, se torej približuje<br />
0.5, vendar tudi po velikem številu ponovitev ni<br />
<strong>na</strong>tančno 0.5.<br />
•89
10.3.1 Statistič<strong>na</strong> definicija ... / 3<br />
• Statistič<strong>na</strong> definicijo verjetnosti:<br />
Verjetnost dogodka A v danem poskus je P[A], pri<br />
katerem se <strong>na</strong>vadno ustali relativ<strong>na</strong> frekvenca<br />
dogodka A v velikem številu ponovitev tega poskusa,<br />
oziroma:<br />
nA<br />
P[<br />
A]<br />
= lim<br />
(10.2)<br />
n→∞<br />
kjer je n število ponovitev poskusa, n A pa število<br />
ponovitev dogodka A.<br />
n<br />
179<br />
10.3.2 Klasič<strong>na</strong> definicija verjetnosti<br />
dogodka<br />
• Včasih si pomagamo s klasično definicijo<br />
verjetnosti (ki je zelo podob<strong>na</strong> statistični definiciji):<br />
180<br />
Vzemimo, da so dogodki iz popolnega sistema<br />
dogodkov {E 1 , E 2 ,...,E n } e<strong>na</strong>ko verjetni:<br />
P E ] = P[<br />
E ] = ... = P[<br />
En ] =<br />
[<br />
1<br />
12<br />
Tedaj je verjetnost enega od dogodkov<br />
1<br />
P[ E i<br />
] = i = 1,2,...,<br />
n<br />
n<br />
Če je nek dogodek A sestavljen iz n A dogodkov iz tega<br />
popolnega sistema dogodkov, potem je njegova<br />
verjetnost<br />
nA<br />
P[<br />
A]<br />
=<br />
(10.3)<br />
n<br />
p<br />
•90
10.3.2 Klasič<strong>na</strong> definicija ... / 2<br />
Primer 10.10: Izraču<strong>na</strong>jmo verjetnost dogodka A, da pri<br />
metu kocke pade manj kot 3 pike.<br />
Popolni sistem e<strong>na</strong>ko verjetnih dogodkov sestavlja šest<br />
dogodkov. Od teh sta le dva ugod<strong>na</strong> za dogodek A<br />
(1 in 2 piki). Zato je verjetnost dogodka A:<br />
nA<br />
2<br />
P[ A]<br />
= = = n 6<br />
Verjetnost, da pri metu kocke pade manj kot 3 pike<br />
je 33.3 %.<br />
1<br />
3<br />
181<br />
10.3.3 Aksiomska definicija<br />
verjetnosti dogodka<br />
• Aksiomsko definicijo verjetnosti sestavljajo trije<br />
aksiomi in izreki, ki jih <strong>na</strong> osnovi teh aksiomov lahko<br />
dokažemo:<br />
1. Verjetnost poljubnega dogodka leži med e<strong>na</strong> in nič:<br />
0 ≤ P[<br />
A]<br />
≤1<br />
(10.4)<br />
2. Verjetnost gotovega dogodka je e<strong>na</strong>ka 1:<br />
P[ G]<br />
= 1<br />
(10.5)<br />
182<br />
3. Verjetnost vsote dveh nezdružljivih dogodkov A in<br />
B je vsota njunih verjetnosti:<br />
P [ A ∪ B]<br />
= P[<br />
A]<br />
+ P[<br />
B]<br />
(10.6)<br />
•91
10.3.3 Aksiomska definicija ... / 2<br />
• Iz treh osnovnih aksiomov aksiomske definicije<br />
izhajata še dve pomembni lastnosti verjetnosti:<br />
1. Za poljub<strong>na</strong> združljiva dogodka A in B ( A∩<br />
B ≠ N )<br />
velja:<br />
P[ A ∪ B]<br />
= P[<br />
A]<br />
+ P[<br />
B]<br />
− P[<br />
A∩<br />
B]<br />
(10.7)<br />
2. Velja tudi:<br />
P[ A]<br />
= 1−<br />
P[<br />
A]<br />
(10.8)<br />
183<br />
10.3.3 Aksiomska definicija ... / 3<br />
Primer 10.11: Denimo, da je verjetnost, da študent <strong>na</strong>redi<br />
izpit iz Statistike P[S]=2/3. Verjetnost, da <strong>na</strong>redi izpit iz<br />
Matematike pa P[M]=5/9. Če je verjetnost, da <strong>na</strong>redi vsaj<br />
enega od obeh izpitov P[S ∪ M]= 4/5, kolikš<strong>na</strong> je verjetnost,<br />
da <strong>na</strong>redi oba izpita?<br />
P[<br />
S ∩ M ] = P[<br />
S]<br />
+ P[<br />
M ] − P[<br />
A ∪ B]<br />
=<br />
2 5 4<br />
= + − = 0.422<br />
3 9 5<br />
Verjetnost, da študent <strong>na</strong>redi oba izpita je 42.2 %.<br />
184<br />
•92
10.3.3 Aksiomska definicija ... / 4<br />
Primer 10.12: Iz kupa 32 kart povlečemo tri karte. Kolikš<strong>na</strong> je<br />
verjetnost, da je med tremi kartami vsaj en as (dogodek A)?<br />
Pri izračunu si pomagamo z <strong>na</strong>sprotnim dogodkom. Nasprotni<br />
dogodek A dogodka A je, da med tremi kartami ni asa. Njegova<br />
verjetnost po klasični definiciji verjetnosti je določe<strong>na</strong> s kvocientom<br />
števila vseh ugodnih dogodkov v popolnem sistemu dogodkov s<br />
številom vseh dogodkov v tem sistemu dogodkov. Vseh dogodkov v<br />
⎛ ⎞<br />
⎜32<br />
⎟<br />
popolnem sistemu dogodkov je ⎜ ⎟, ugodni pa so tisti, kjer zbiramo<br />
⎛ ⎞<br />
⎜28<br />
⎝ 3 ⎠<br />
⎟<br />
med ne-asi ⎜ ⎟. Torej je<br />
3<br />
⎝<br />
⎠<br />
⎛28⎞<br />
⎜ ⎟<br />
3<br />
P[ A]<br />
=<br />
⎝ ⎠<br />
= 0.66 P[A] = 1- P[A] = 1- 0.66 = 0.34<br />
⎛32⎞<br />
⎜ ⎟<br />
⎝ 3 ⎠<br />
185<br />
Verjetnost je 34 %.<br />
10.4 Pogoj<strong>na</strong> verjetnost<br />
• Denimo, da imamo dva dogodka A in B, ki se zgodita z<br />
verjetnostima P[A] in P[B].<br />
• Verjetnost, da se zgodi dogodek A, ob pogoju, da se je<br />
zgodil dogodek B, imenujemo pogoj<strong>na</strong> verjetnost in jo<br />
oz<strong>na</strong>čimo z izrazom P[ A | B]<br />
.<br />
• Podobno P[ B | A]<br />
predstavlja pogojno verjetnost<br />
dogodka B, ob pogoju, da se je zgodil dogodek A.<br />
• Velja lastnost:<br />
0 ≤ P[<br />
A | B]<br />
≤1<br />
186<br />
•93
10.4 Pogoj<strong>na</strong> verjetnost / 2<br />
187<br />
• Klasič<strong>na</strong> definicija: Predpostavimo, da smo n-krat<br />
ponovili poskus in da se je ob tem n B -krat zgodil<br />
dogodek B, dogodek A∩ B pa se je zgodil n AB .<br />
Verjetnosti dogodkov B in A∩ B sta:<br />
nB nAB<br />
P[<br />
B]<br />
= P[<br />
A∩<br />
B]<br />
=<br />
n<br />
n<br />
Po klasični definiciji verjetnosti zapišemo verjetnost, da<br />
se je zgodil dogodek A pri pogoju, da se je zgodil<br />
dogodek B z izrazom:<br />
nAB<br />
nAB<br />
P [ A | B]<br />
= n → P[<br />
A | B]<br />
=<br />
(10.11)<br />
nB<br />
nB<br />
n<br />
in pogojem P[B]>0.<br />
10.4 Pogoj<strong>na</strong> verjetnost / 3<br />
• Aksiomska definicija: Če se je zgodil dogodek B,<br />
potem ni več slučajen, ampak gotov, torej ima<br />
verjetnost 1. Lahko rečemo, da se je verjetnostni<br />
prostor skrčil <strong>na</strong> dogodek B.<br />
Zato verjetnost, da se zgodi dogodek A, ob pogoju, da<br />
se je zgodil dogodek B, določimo tako, da verjetnost, da<br />
se je zgodil produkt dogodkov A in B, delimo z<br />
verjetnostjo dogodka B:<br />
P[<br />
A∩<br />
B]<br />
P[ A | B]<br />
=<br />
→ P[<br />
A | B]<br />
⋅ P[<br />
B]<br />
= P[<br />
A∩<br />
B]<br />
P[<br />
B]<br />
ob pogoju P[B]>0.<br />
(10.12)<br />
188<br />
•94
10.4 Pogoj<strong>na</strong> verjetnost / 4<br />
Primer 10.13: Denimo, da je v nekem <strong>na</strong>selju 900 polnoletnih<br />
prebivalcev. Zanima <strong>na</strong>s struktura prebivalcev po spolu<br />
(M-moški, Ž-ženski spol) in po zaposlenosti (Z–zaposlen(a),<br />
N–nezaposlen(a)). Podatke po obeh spremenljivkah uredimo v<br />
dvodimenzio<strong>na</strong>lno frekvenčno porazdelitev, ki jo imenujemo tudi<br />
kontingenč<strong>na</strong> preglednica. Kolikš<strong>na</strong> je verjetnost, da bo<br />
slučajno izbra<strong>na</strong> oseba zaposlen moški?<br />
spol \ zap.<br />
M<br />
Ž<br />
Z<br />
460<br />
240<br />
700<br />
N<br />
40<br />
160<br />
200<br />
500<br />
400<br />
900<br />
700<br />
460<br />
P[<br />
Z]<br />
= , P[<br />
M ∩ Z]<br />
=<br />
900<br />
900<br />
P[<br />
M ∩ Z]<br />
460⋅900<br />
460<br />
P[<br />
M | Z]<br />
= = = = 0.657<br />
P[<br />
Z]<br />
900⋅700<br />
700<br />
189<br />
ali neposredno iz<br />
kontingenčne preglednice:<br />
460<br />
P[ M | Z]<br />
= = 0.657<br />
700<br />
10.4 Pogoj<strong>na</strong> verjetnost / 5<br />
• Ker je:<br />
P[<br />
A∩<br />
B]<br />
P[<br />
A | B]<br />
= ⇒ P[<br />
A ∩ B]<br />
= P[<br />
B]<br />
⋅ P[<br />
A | B]<br />
P[<br />
B]<br />
P[<br />
A∩<br />
B]<br />
P[<br />
B | A]<br />
= ⇒ P[<br />
A ∩ B]<br />
= P[<br />
A]<br />
⋅ P[<br />
B | A]<br />
P[<br />
A]<br />
je tudi<br />
P[ A]<br />
⋅ P[<br />
B | A]<br />
= P[<br />
B]<br />
⋅ P[<br />
A | B]<br />
(10.13)<br />
190<br />
Dogodka A in B sta neodvis<strong>na</strong>, če velja<br />
P [ A | B]<br />
= P[<br />
A]<br />
Zato za neodvis<strong>na</strong> dogodka velja<br />
P[ A ∩ B]<br />
= P[<br />
A]<br />
⋅ P[<br />
B]<br />
(10.14)<br />
•95
10.4 Pogoj<strong>na</strong> verjetnost / 6<br />
Primer 10.14: Iz posode, v kateri imamo 8 belih in 2 rdeči kroglici,<br />
dvakrat <strong>na</strong> slepo izberemo po eno kroglico. Kolikš<strong>na</strong> je verjetnost<br />
dogodka, da je prva kroglica bela (B 1<br />
) in druga rdeča (R 2<br />
)?<br />
1. Če po prvem izbiranju izvlečeno kroglico ne vrnemo v posodo<br />
(odvisnost), je:<br />
8 2<br />
P[ B ∩ R2]<br />
= P[<br />
B1<br />
] ⋅ P[<br />
R2<br />
| B1<br />
] = ⋅<br />
10 9<br />
1<br />
=<br />
0.1777<br />
Če prvo izvlečeno kroglico ne vrnemo, je verjetnost 17.8 %.<br />
2. Če po prvem izbiranju izvlečeno kroglico vrnemo v posodo<br />
(neodvisnost), je :<br />
8 2<br />
P[ B ∩ R2]<br />
= P[<br />
B1<br />
] ⋅ P[<br />
R2<br />
| B1<br />
] = P[<br />
B1<br />
] ⋅ P[<br />
R2<br />
] = ⋅<br />
10 10<br />
1<br />
=<br />
0.16<br />
Če pa po prvem izbiranju izvlečeno kroglico vrnemo v posodo,<br />
je verjetnost 16 %.<br />
191<br />
10.5 Bernoullijevo zaporedje<br />
neodvisnih poskusov<br />
• O zaporedju neodvisnih poskusov X 1 , X 2 , ..., X n , ...<br />
govorimo tedaj, ko so verjetnosti izidov v enem poskusu<br />
neodvisne od tega, kaj se zgodi v drugih poskusih:<br />
Zaporedje neodvisnih poskusov se imenuje<br />
Bernoullijevo zaporedje, če se more<br />
zgoditi v vsakem poskusu iz zaporedja<br />
neodvisnih poskusov le dogodek A z<br />
verjetnostjo P [ A]<br />
= p ali dogodek A z<br />
verjetnostjo P [ A]<br />
= 1−<br />
P[<br />
A]<br />
= 1−<br />
p = q.<br />
192<br />
•96
10.5 Bernoullijevo zaporedje ... / 2<br />
Primer 10.15: Primer Bernoullijevega zaporedja poskusov<br />
... je met kocke, kjer ob vsaki ponovitvi poskusa pade<br />
šestica (dogodek A) z verjetnostjo P[ A]<br />
= p = 1/ 6<br />
ali ne pade šestica (dogodek A ) z verjetnostjo<br />
P[ A]<br />
= q = 5/ 6.<br />
193<br />
10.5 Bernoullijevo zaporedje ... / 3<br />
• V Bernoullijevem zaporedju neodvisnih poskusov <strong>na</strong>s<br />
zanima, kolikš<strong>na</strong> je verjetnost, da se v n zaporednih<br />
poskusih zgodi dogodek A <strong>na</strong>tanko k-krat.<br />
To se lahko zgodi, <strong>na</strong> primer, tako, da se <strong>na</strong>jprej zgodi k-<br />
krat dogodek A in <strong>na</strong>to v preostalih (n-k) poskusih zgodi<br />
dogodek A :<br />
P[<br />
A∩<br />
A∩⋅⋅⋅∩<br />
A∩<br />
A ∩ A ∩⋅⋅⋅∩ A]<br />
=<br />
= P[<br />
A]<br />
⋅ P[<br />
A]<br />
⋅⋅⋅ P[<br />
A]<br />
⋅ P[<br />
A]<br />
⋅ P[<br />
A]<br />
⋅⋅⋅ P[<br />
A]<br />
=<br />
= p ⋅ p ⋅⋅⋅ p ⋅q<br />
⋅q<br />
⋅⋅⋅q<br />
= p<br />
k<br />
⋅q<br />
( n−k<br />
)<br />
... <strong>na</strong>daljevanje <strong>na</strong> <strong>na</strong>slednji <strong>stran</strong>i<br />
194<br />
•97
10.5 Bernoullijevo zaporedje ... / 4<br />
... <strong>na</strong>daljevanje:<br />
Dogodek P n (k), da se dogodek A v n zaporednih poskusih<br />
zgodi <strong>na</strong>tanko k-krat, se lahko zgodi tudi <strong>na</strong> druge<br />
<strong>na</strong>čine. Teh <strong>na</strong>činov je toliko, <strong>na</strong> koliko <strong>na</strong>činov lahko<br />
⎛ n ⎞<br />
izberemo k poskusov iz n poskusov. Teh je ⎜ ⎟ .<br />
⎝ k ⎠<br />
Ker so ti <strong>na</strong>čini nezdružljivi med seboj, je<br />
verjetnost dogodka P n (k) e<strong>na</strong>ka<br />
⎛n⎞<br />
k ( n−k<br />
)<br />
Pn<br />
( k)<br />
= ⎜ ⎟ p (1 − p)<br />
(10.15)<br />
⎝k<br />
⎠<br />
To formulo imenujemo Bernoullijev obrazec.<br />
195<br />
10.5 Bernoullijevo zaporedje ... / 5<br />
Primer 10.16: Iz posode, v kateri imamo 8 belih in 2 rdeči kroglici,<br />
<strong>na</strong> slepo izberemo po eno kroglico in po izbiranju izvlečeno kroglico<br />
vrnemo v posodo. Kolikš<strong>na</strong> je verjetnost, da v petih poskusih<br />
izberemo 3-krat belo kroglico?<br />
Dogodek A je, da izvlečemo belo kroglico. Potem je<br />
8<br />
p = P[<br />
A]<br />
= = 0.8<br />
10<br />
q = 1−<br />
p = 1−<br />
0.8 = 0.2<br />
Verjetnost, da v petih poskusih izberemo 3-krat belo kroglico, je:<br />
⎛5⎞<br />
3<br />
5−3<br />
P5 (3) = ⎜ ⎟⋅0.8<br />
⋅(1<br />
− 0.8) = 0.205<br />
⎝3⎠<br />
196<br />
•98
11. SLUČAJNA<br />
SPREMENLJIVKA<br />
• Denimo, da imamo poskus, katerega izidi so števila (npr.<br />
pri metu kocke so izidi števila pik).<br />
• Poskusom je prireje<strong>na</strong> torej neka količi<strong>na</strong>, ki more imeti<br />
različne vrednosti.<br />
• Tej količini rečemo spremenljivka.<br />
• Katero od vrednosti zavzame v določeni ponovitvi<br />
poskusa, je odvisno od slučaja.<br />
• Zato takšni spremenljivki rečemo slučaj<strong>na</strong><br />
spremenljivka.<br />
197<br />
11. SLUČAJNA SPREMENLJIVKA / 2<br />
• Slučajne spremenljivke opisujemo z:<br />
• zalogo vrednosti - vse vrednosti, ki jih slučaj<strong>na</strong><br />
spremenljivka lahko zavzame;<br />
• porazdelitvenim zakonom – predpis, ki določa,<br />
kolikš<strong>na</strong> je verjetnost vsake izmed možnih vrednosti<br />
ali intervala vrednosti.<br />
198<br />
•99
11. SLUČAJNA SPREMENLJIVKA / 3<br />
• Slučajne spremenljivke o<strong>na</strong>čujemo s poševnimi velikimi<br />
tiskanimi črkami s konca abecede, vrednosti<br />
spremenljivke pa z e<strong>na</strong>kimi malimi črkami.<br />
• Na primer, (X = x i ) je dogodek, da slučaj<strong>na</strong><br />
spremenljivka X zavzame vrednost x i .<br />
Primer 11.1: Denimo, da je število pik, ki jih lahko<br />
vržemo s kocko, slučaj<strong>na</strong> spremenljivka X. Zaloga<br />
vrednosti te slučajne spremenljivke je torej x = 1, 2, 3,<br />
4, 5 in 6.<br />
199<br />
11. SLUČAJNA SPREMENLJIVKA / 4<br />
• Pravimo, da je porazdelitveni zakon slučajne<br />
spremenljivke X poz<strong>na</strong>n, če je mogoče za vsako realno<br />
število x določiti verjetnost<br />
F( x)<br />
= P[<br />
X ≤ x]<br />
(11.1)<br />
• F(x) imenujemo porazdelitve<strong>na</strong> funkcija (tudi<br />
kumulativa verjetnosti) slučajne spremenljivke X:<br />
200<br />
Pri danem x je vrednost funkcije F(x)<br />
e<strong>na</strong>ka verjetnosti P, da slučaj<strong>na</strong><br />
spremenljivka zavzame vrednosti, ki<br />
so manjše ali e<strong>na</strong>ke x.<br />
•100
11. SLUČAJNA SPREMENLJIVKA / 5<br />
• Ločimo dva tipa slučajnih spremenljivk:<br />
1. diskretne slučajne spremenljivke, pri katerih je<br />
zaloga vrednosti neka konč<strong>na</strong> množica števil (ali<br />
intervalov števil);<br />
2. zvezne slučajne spremenljivke, ki lahko zavzamejo<br />
vsako realno število znotraj določenega intervala.<br />
201<br />
11. SLUČAJNA SPREMENLJIVKA / 6<br />
Primer 11.2: Primeri diskretne slučajne spremenljivke:<br />
• število pik, ki jih vržemo s kocko;<br />
• število parcel v določeni katastrski občini;<br />
• število prebivalcev nekega <strong>na</strong>selja;<br />
• ...<br />
202<br />
Primer 11.3: Primeri zvezne slučajne spremenljivke:<br />
• količi<strong>na</strong> padavin v obrav<strong>na</strong>vanem kraju ter izbranem<br />
časovnem obdobju;<br />
• razdalja izmerje<strong>na</strong> z razdaljemerom;<br />
• čas, med dvema zaporednima dogodkoma;<br />
• ...<br />
•101
11.1 Diskret<strong>na</strong> slučaj<strong>na</strong><br />
spremenljivka<br />
• Zaloga vrednosti diskretne slučajne spremenljivke X<br />
je konč<strong>na</strong> množica {x 1 , x 2 , ..., x m }, kjer dogodki X = x i ;<br />
i = 1,2,...,m tvorijo popoln sistem dogodkov.<br />
• Porazdelitev diskretne slučajne spremenljivke opišemo z<br />
verjetnostno funkcijo:<br />
p<br />
X<br />
( x ) p = P[<br />
X = x ]; i = 1,2,...,m<br />
i<br />
=<br />
i<br />
i<br />
(11.2)<br />
kjer je p i verjetnost posameznega dogodka x i .<br />
203<br />
• Velja:<br />
0 ≤ p ≤1<br />
p<br />
i<br />
1<br />
+ p2<br />
+ ⋅⋅⋅+ pm<br />
=<br />
1<br />
(11.3)<br />
in (11.4)<br />
11.1 Diskret<strong>na</strong> slučaj<strong>na</strong> spremenljivka / 2<br />
• Verjetnost<strong>na</strong> shema prikazuje diskretno slučajno<br />
spremenljivko v preglednici tako, da so v prvi vrstici<br />
zapisane vrednosti x i , pod njimi pa so pripisane<br />
pripadajoče verjetnosti:<br />
⎛ x<br />
X :<br />
⎜<br />
⎝ p<br />
1<br />
1<br />
x<br />
p<br />
2<br />
2<br />
⋅⋅⋅<br />
⋅⋅⋅<br />
x<br />
p<br />
m<br />
m<br />
⎞<br />
⎟<br />
⎠<br />
(11.5)<br />
204<br />
• Porazdelitve<strong>na</strong> funkcija (tudi kumulativ<strong>na</strong><br />
porazdelitve<strong>na</strong> funkcija) diskretne slučajne<br />
spremenljivke je:<br />
F ( x ) = P[<br />
X ≤ x ] =<br />
X<br />
i<br />
i<br />
∑<br />
x ≤x<br />
i<br />
p<br />
i<br />
(11.6)<br />
•102
11.1.1 E<strong>na</strong>komer<strong>na</strong> diskret<strong>na</strong><br />
porazdelitev<br />
• E<strong>na</strong>komer<strong>na</strong> porazdelitev diskretne slučajne<br />
spremenljivke – diskret<strong>na</strong> slučaj<strong>na</strong> spremenljivka se<br />
porazdeljuje e<strong>na</strong>komerno, če so vse njene vrednosti<br />
e<strong>na</strong>ko verjetne.<br />
Primer 11.4: Primer e<strong>na</strong>komerno diskretno<br />
porazdeljene slučajne spremenljivke je število pik pri<br />
metu kocke:<br />
⎛ 1<br />
X : ⎜<br />
⎝1/<br />
6<br />
2<br />
1/ 6<br />
3<br />
1/ 6<br />
4<br />
1/ 6<br />
5<br />
1/ 6<br />
6 ⎞<br />
⎟<br />
1/ 6⎠<br />
205<br />
11.1.1 E<strong>na</strong>komer<strong>na</strong> diskret<strong>na</strong> porazdelitev / 2<br />
Primer 11.5: Grafično prikažemo verjetnostno funkcijo iz<br />
primera 11.4 s črtnim grafikonom.<br />
1/6<br />
p X<br />
0<br />
0 1 2 3 4 5 6<br />
X<br />
206<br />
•103
11.1.1 E<strong>na</strong>komer<strong>na</strong> diskret<strong>na</strong> porazdelitev / 3<br />
Primer 11.6: Grafično prikažemo (kumulativno)<br />
porazdelitveno funkcijo iz primera 11.4 s stopničasto črto.<br />
1<br />
5/6<br />
2/3<br />
F X<br />
1/2<br />
1/3<br />
1/6<br />
207<br />
0<br />
0 1 2 3 4 5 6 7<br />
X<br />
11.1.2 Binomska porazdelitev<br />
• E<strong>na</strong> <strong>na</strong>jpomembnejših porazdelitev diskretne slučajne<br />
spremenljivke je binomska porazdelitev z zalogo<br />
vrednosti {0, 1, 2, ..., n} in verjetnostmi, ki jih<br />
raču<strong>na</strong>mo po Bernoullijevem obrazcu:<br />
⎛n⎞<br />
k (<br />
P(<br />
X = k)<br />
= ⎜ ⎟ p (1 − p)<br />
⎝k<br />
⎠<br />
n−k<br />
)<br />
k = 0,1,2, ⋅⋅⋅,<br />
n<br />
(11.7)<br />
• Binomska porazdelitev je <strong>na</strong>tanko določe<strong>na</strong> z dvema<br />
podatkoma – parametroma: n in p.<br />
• Če se slučaj<strong>na</strong> spremenljivka porazdeljuje binomsko s<br />
parametroma n in p, to zapišemo:<br />
X : b(<br />
n,<br />
p)<br />
(11.8)<br />
208<br />
•104
11.1.2 Binomska porazdelitev / 2<br />
Primer 11.7: Naj bo spremenljivka Y določe<strong>na</strong> s številom<br />
fantkov v družini s 4 otroki. Denimo, da je e<strong>na</strong>ko verjetno,<br />
da se v družini rodi fantek ali deklica. Izdelajmo verjetnostno<br />
shemo spremenljivke Y.<br />
209<br />
Verjetnost, da se rodi fantek ali deklica je e<strong>na</strong>ka:<br />
1<br />
1 1<br />
P[ F]<br />
= p = , P[<br />
D]<br />
= q = 1−<br />
p = 1−<br />
=<br />
2<br />
2 2<br />
Ker <strong>na</strong>s zanima v n ponovitvah k uspehov, se spremenljivka<br />
Y porazdeljuje binomsko b(4,0.5) . Nje<strong>na</strong> verjetnost<strong>na</strong> shema<br />
je :<br />
⎛ 0<br />
Y : ⎜<br />
⎝1/16<br />
1<br />
4 /16<br />
2<br />
6 /16<br />
Na primer:<br />
⎛4⎞<br />
2<br />
P[<br />
Y = 2] = ⎜ ⎟0.5<br />
(1 − 0.5)<br />
⎝2⎠<br />
3<br />
4 /16<br />
(4−2)<br />
=<br />
6<br />
16<br />
4 ⎞<br />
⎟<br />
1/16⎠<br />
11.2 Zvez<strong>na</strong> slučaj<strong>na</strong><br />
spremenljivka<br />
• Zaloga vrednosti zvezne slučajne spremenljivke X je<br />
vsako realno število znotraj določenega intervala<br />
a ≤ X ≤ b .<br />
• Verjetnost, da zvez<strong>na</strong> slučaj<strong>na</strong> spremenljivka zavzame<br />
vrednost manjšo od neke vrednosti x (porazdelitve<strong>na</strong><br />
funkcija zvezne slučajne spremenljivke), je<br />
FX ( x)<br />
= P[<br />
X ≤ x]<br />
= ∫ f<br />
X<br />
( x)<br />
dx<br />
kjer f X (x) imenujemo gostota verjetnosti.<br />
b<br />
a<br />
(11.9)<br />
210<br />
•105
11.2 Zvez<strong>na</strong> slučaj<strong>na</strong> spremenljivka / 2<br />
• Gostoto verjetnosti zvezne slučajne spremenljivke<br />
predstavimo grafično v koordi<strong>na</strong>tnem sistemu, kjer <strong>na</strong><br />
abscisno os <strong>na</strong><strong>na</strong>šamo vrednosti slučajne spremenljivke,<br />
<strong>na</strong> ordi<strong>na</strong>tno os pa gostoto verjetnosti f X (x).<br />
• Verjetnost, da zvez<strong>na</strong> slučaj<strong>na</strong> spremenljivka zavzame<br />
vrednost manjšo od neke vrednosti x, je tedaj<br />
predstavlje<strong>na</strong> kot plošči<strong>na</strong> pod krivuljo gostote<br />
verjetnosti f X (x).<br />
211<br />
• Velja<br />
b<br />
∫<br />
a<br />
f<br />
X<br />
( x)<br />
dx = 1<br />
(11.10)<br />
11.2 Zvez<strong>na</strong> slučaj<strong>na</strong> spremenljivka / 3<br />
• Grafikon gostote verjetnosti:<br />
f(x)<br />
X<br />
212<br />
a b X<br />
•106
11.2.1 E<strong>na</strong>komer<strong>na</strong> zvez<strong>na</strong><br />
porazdelitev<br />
• E<strong>na</strong>komer<strong>na</strong> porazdelitev zvezne slučajne<br />
spremenljivke – gostota verjetnosti zvezne slučajne<br />
spremenljivke je:<br />
f X<br />
{<br />
1<br />
a ≤ X ≤ b<br />
( x)<br />
= b - a<br />
0 drugod<br />
(11.11)<br />
213<br />
11.2.1 E<strong>na</strong>komer<strong>na</strong> zvez<strong>na</strong> porazdelitev / 2<br />
• Grafično si predstavljamo gostoto verjetnosti<br />
e<strong>na</strong>komerno porazdeljene zvezne slučajne spremenljivke<br />
takole:<br />
f(x) X<br />
1<br />
b-a<br />
214<br />
a b X<br />
•107
11.2.2 Normal<strong>na</strong> porazdelitev<br />
• Normal<strong>na</strong> porazdelitev – zaloga vrednosti normalno<br />
porazdeljene slučajne spremenljivke so vsa real<strong>na</strong><br />
števila, gostota verjetnosti pa je :<br />
f<br />
X<br />
( x)<br />
1<br />
e<br />
σ 2π<br />
2<br />
1⎛<br />
x−μ<br />
⎞<br />
2<br />
⎜<br />
X<br />
−<br />
⎟<br />
⎝ σ ⎠<br />
=<br />
X<br />
X<br />
(11.12)<br />
• Normal<strong>na</strong> porazdelitev je <strong>na</strong>tanko določe<strong>na</strong> z dvema<br />
parametroma: in .<br />
μ<br />
• Če se slučaj<strong>na</strong> spremenljivka X porazdeljuje normalno<br />
s parametroma in , to zapišemo takole:<br />
X<br />
X<br />
μ<br />
X<br />
σ<br />
X<br />
σ<br />
X<br />
:<br />
X X<br />
N(<br />
μ , σ )<br />
(11.13)<br />
215<br />
11.2.2 Normal<strong>na</strong> porazdelitev / 2<br />
• Grafično si predstavljamo gostoto verjetnosti normalno<br />
porazdeljene zvezne slučajne spremenljivke takole:<br />
216<br />
•108
11.2.2 Normal<strong>na</strong> porazdelitev / 3<br />
217<br />
• Če slučajno spremenljivko X, ki se porazdeljuje<br />
normalno, standardiziramo<br />
Z =<br />
X − μ<br />
X<br />
σ<br />
je slučaj<strong>na</strong> spremenljivka Z še vedno normalno<br />
porazdelje<strong>na</strong> s parametroma<br />
Z : N(0,1)<br />
in ima preprostejšo gostoto verjetnosti:<br />
f<br />
Z<br />
( z)<br />
=<br />
X<br />
1<br />
e<br />
2π<br />
2<br />
z<br />
−<br />
2<br />
(11.14)<br />
(11.15)<br />
11.2.2 Normal<strong>na</strong> porazdelitev / 4<br />
218<br />
• V splošnem <strong>na</strong>s zanimajo verjetnosti dogodkov, da<br />
zavzame slučaj<strong>na</strong> spremenljivka X vrednosti v intervalu<br />
[x 1 , x 2 ]:<br />
Ker velja:<br />
1<br />
P[ x < X < x ] 2<br />
=<br />
1<br />
⎡ x1<br />
− μ<br />
X<br />
P[<br />
x1<br />
≤ X ≤ x2]<br />
= P⎢<br />
≤<br />
⎣ σ<br />
X<br />
= P[<br />
z ≤ Z ≤ z ]<br />
2<br />
je dovolj, da z<strong>na</strong>mo poiskati poljubne verjetnosti<br />
dogodkov standardizirane normalno porazdeljene<br />
slučajne spremenljivke.<br />
x<br />
2<br />
∫<br />
x<br />
1<br />
f<br />
X<br />
( x)<br />
dx<br />
X − μ<br />
X<br />
σ<br />
X<br />
x2<br />
− μ<br />
X<br />
≤<br />
σ<br />
X<br />
⎤<br />
⎥<br />
⎦<br />
(11.16)<br />
=<br />
•109
11.3 Pričakova<strong>na</strong> vrednost<br />
slučajne spremenljivke<br />
• Denimo, da proučujemo diskretno slučajno<br />
spremenljivko X z verjetnostno shemo:<br />
⎛ x<br />
X :<br />
⎜<br />
⎝ p<br />
1<br />
1<br />
x<br />
p<br />
2<br />
2<br />
⋅⋅⋅<br />
⋅⋅⋅<br />
x<br />
p<br />
m<br />
m<br />
⎞<br />
⎟<br />
⎠<br />
(11.17)<br />
219<br />
Ponovimo poskus, pri katerem <strong>na</strong>stopa ta slučaj<strong>na</strong><br />
spremenljivka, n-krat in pri tem beležimo, kolikokrat se<br />
je zgodila posamez<strong>na</strong> vrednost slučajne spremenljivke.<br />
Dobimo <strong>na</strong>slednjo frekvenčno porazdelitev:<br />
⎛ x<br />
X :<br />
⎜<br />
⎝ f<br />
1<br />
1<br />
x<br />
f<br />
2<br />
2<br />
⋅⋅⋅<br />
⋅⋅⋅<br />
(11.18)<br />
kjer so f i frekvence posamezne vrednost (i=1,2,...m).<br />
x<br />
f<br />
m<br />
m<br />
⎞<br />
⎟<br />
⎠<br />
11.3 Pričakova<strong>na</strong> vrednost ... / 2<br />
• ... <strong>na</strong>daljevanje:<br />
Aritmetič<strong>na</strong> sredi<strong>na</strong> spremenljivke X je tedaj:<br />
1<br />
n<br />
m<br />
∑<br />
i=<br />
1<br />
f x<br />
i<br />
i<br />
=<br />
m<br />
∑<br />
i=<br />
1<br />
fi<br />
xi<br />
n<br />
(11.19)<br />
f<br />
kjer so i<br />
relativne frekvence.<br />
n<br />
Če poskus ponovimo zelo velikokrat, se relativne<br />
frekvence običajno ustalijo pri verjetnostih:<br />
]<br />
p = P =<br />
i<br />
[ X xi<br />
(11.20)<br />
220<br />
•110
11.3 Pričakova<strong>na</strong> vrednost ... / 3<br />
• ... <strong>na</strong>daljevanje:<br />
Zato se pri velikem številu poskusov aritmetič<strong>na</strong> sredi<strong>na</strong><br />
slučajne spremenljivke X običajno ustali pri vrednosti:<br />
E ( X ) =<br />
m<br />
∑<br />
i=<br />
1<br />
p i x<br />
(11.21)<br />
Število E(X) je aritmetič<strong>na</strong> sredi<strong>na</strong> slučajne<br />
spremenljivke X in ga imenujemo pričakova<strong>na</strong><br />
vrednost (angl. “expected value”) (tudi matematično<br />
upanje) slučajne spremenljivke X.<br />
i<br />
221<br />
11.3 Pričakova<strong>na</strong> vrednost ... / 4<br />
Primer 11.8: Zopet vzemimo slučajno spremenljivko Y,<br />
določeno s številom fantkov v družini s 4 otroki.<br />
Spremenljivka Y se porazdeljuje binomsko z verjetnostno<br />
shemo spodaj. Izraču<strong>na</strong>jmo matematično upanje slučajne<br />
spremenljivke Y.<br />
⎛ 0<br />
Y : ⎜<br />
⎝1/16<br />
1<br />
4 /16<br />
6 /16<br />
4 /16<br />
4 ⎞<br />
⎟<br />
1/16⎠<br />
Pričakovano vrednost izraču<strong>na</strong>mo po formuli (11.21):<br />
1 4 6 4 1<br />
E(<br />
Y ) = ⋅0<br />
+ ⋅1+<br />
⋅2<br />
+ ⋅3+<br />
⋅4<br />
= 2<br />
16 16 16 16 16<br />
2<br />
Ker je porazdelitev te slučajne spremenljivke simetrič<strong>na</strong><br />
(p=0.5; glej primer 11.7), je doblje<strong>na</strong> pričakov<strong>na</strong> vrednost<br />
(2 fantka v družini) zares “pričakova<strong>na</strong>”.<br />
3<br />
222<br />
•111
11.3 Pričakova<strong>na</strong> vrednost ... / 5<br />
• Pri raču<strong>na</strong>nju pričakovane vrednosti slučajne<br />
spremenljivke velja (a in b sta konstanti):<br />
E ( aX + b)<br />
= aE(<br />
X ) + b<br />
(11.22)<br />
• Dokazati se da, da je pričakova<strong>na</strong> vrednost slučajne<br />
spremenljivke X, ki se porazdeljuje binomsko b( n,<br />
p)<br />
e<strong>na</strong>ka<br />
E(<br />
X ) = n⋅<br />
p<br />
(11.23)<br />
223<br />
11.3 Pričakova<strong>na</strong> vrednost ... / 6<br />
• Pričakova<strong>na</strong> vrednost zvezne slučajne spremenljivke X,<br />
ki je definira<strong>na</strong> <strong>na</strong> intervalu [a,b], je a<strong>na</strong>logno:<br />
b<br />
E ( X ) = ∫ x f<br />
a<br />
E(<br />
X ) = μ<br />
X<br />
X<br />
( x)<br />
dx<br />
(11.24)<br />
• Dokazati se da, da je pričakova<strong>na</strong> vrednost slučajne<br />
spremenljivke X, ki se porazdeljuje normalno N( μ<br />
X<br />
, σ<br />
X<br />
)<br />
e<strong>na</strong>ka<br />
(11.25)<br />
224<br />
•112
11.4 Razpršenost<br />
slučajne spremenljivke<br />
• Razpršenost ali varianca slučajne spremenljivke X<br />
meri razpršenost slučajne spremenljivke in je definira<strong>na</strong><br />
takole:<br />
2<br />
(11.26)<br />
D( X ) = E(<br />
X − E(<br />
X ))<br />
225<br />
• Razpršenost diskretne slučajne spremenljivke z m<br />
vrednostmi je:<br />
D(<br />
X ) =<br />
m<br />
∑<br />
i=<br />
1<br />
( x − E(<br />
X ))<br />
2<br />
i<br />
p i<br />
(11.27)<br />
• Razpršenost zvezne slučajne spremenljivke definirane<br />
<strong>na</strong> intervalu [a,b] pa je:<br />
b<br />
D ( X ) = ∫ ( x − E(<br />
X ))<br />
a<br />
2<br />
f<br />
X<br />
( x)<br />
dx<br />
(11.28)<br />
11.4 Razpršenost slučajne spremenljivke / 2<br />
• Pozitiv<strong>na</strong> vrednost kvadratnega kore<strong>na</strong> iz variance je<br />
standardni odklon.<br />
• Za razpršenost velja:<br />
in<br />
D ( X + b)<br />
= D(<br />
X )<br />
D ( aX ) = a<br />
2<br />
D(<br />
X )<br />
(11.29)<br />
(11.30)<br />
kjer sta a in b konstanti.<br />
226<br />
•113
11.4 Razpršenost slučajne spremenljivke / 3<br />
Primer 11.9: Zopet vzemimo slučajno spremenljivko Y,<br />
določeno s številom fantkov v družini s 4 otroki, ki se<br />
porazdeljuje binomsko b(4,0.5) . Izraču<strong>na</strong>jmo razpršenost te<br />
slučajne spremenljivke.<br />
S pomočjo pričakovane vrednosti izraču<strong>na</strong>ne v primeru 11.8<br />
izraču<strong>na</strong>mo razpršenost oz. varianco po formuli (11.27):<br />
D(<br />
Y ) =<br />
+<br />
4<br />
16<br />
1<br />
16<br />
⋅(3<br />
− 2)<br />
⋅(0<br />
− 2)<br />
2<br />
+<br />
1<br />
16<br />
2<br />
+<br />
4<br />
16<br />
⋅(4<br />
− 2)<br />
⋅(1<br />
− 2)<br />
2<br />
= 1<br />
2<br />
+<br />
6<br />
16<br />
⋅(2<br />
− 2)<br />
2<br />
+<br />
227<br />
11.4 Razpršenost slučajne spremenljivke / 4<br />
Pokazati se da, da je:<br />
• razpršenost ali varianca slučajne spremenljivke X, ki<br />
se porazdeljuje binomsko b( n,<br />
p)<br />
, e<strong>na</strong>ka:<br />
D(<br />
X ) = n⋅<br />
p ⋅q<br />
(11.31)<br />
• razpršenost ali varianca slučajne spremenljivke X, ki<br />
se porazdeljuje normalno N μ , σ ), pa je:<br />
2<br />
D( X ) = σ X<br />
(<br />
X X<br />
(11.32)<br />
228<br />
•114
11.5 Momenti in centralni<br />
momenti porazdelitve<br />
• Pogosto se zgodi, da imamo <strong>na</strong> voljo premalo podatkov,<br />
da bi lahko v celoti določili porazdelitveni zakon.<br />
• Včasih je za inženirja dovolj, da poz<strong>na</strong> le določene<br />
lastnosti porazdelitvenega zako<strong>na</strong> (momente<br />
porazdelitve).<br />
• Pričakovano vrednost in razpršenost porazdelitve lahko<br />
izraču<strong>na</strong>mo tudi iz momentov oz. centralnih<br />
momentov porazdelitve.<br />
229<br />
11.5 Momenti porazdelitve / 2<br />
• Moment r-tega reda za diskretno in zvezno slučajno<br />
spremenljivko X je:<br />
m<br />
( r)<br />
X<br />
=<br />
m<br />
∑<br />
i=<br />
1<br />
x<br />
r<br />
i<br />
p<br />
X<br />
( x )<br />
i<br />
(11.33)<br />
∞<br />
∫<br />
−∞<br />
( r)<br />
r<br />
mX = x f<br />
X<br />
( x)<br />
dx<br />
(11.34)<br />
• Iz lastnosti verjetnostne funkcije in gostote verjetnosti<br />
velja, da je moment ničtega reda e<strong>na</strong>k 1.<br />
230<br />
•115
11.5 Momenti porazdelitve / 3<br />
• Moment prvega reda predstavlja srednjo vrednost<br />
ali pričakovano vrednost ali matematično upanje<br />
slučajne spremenljivke X:<br />
m<br />
(1)<br />
X<br />
= μ<br />
X<br />
= E(<br />
X ) =<br />
m<br />
∑<br />
i=<br />
1<br />
x p<br />
i<br />
X<br />
( x )<br />
i<br />
(11.35)<br />
∞<br />
∫<br />
−∞<br />
(1)<br />
mX = μ<br />
X<br />
= E(<br />
X ) = x f<br />
X<br />
( x)<br />
dx<br />
(11.36)<br />
231<br />
11.5 Momenti porazdelitve / 4<br />
• Centralni moment r-tega reda za diskretno in zvezno<br />
slučajno spremenljivko X pa je:<br />
m<br />
( r)<br />
X<br />
=<br />
m<br />
∑<br />
i=<br />
1<br />
( x − μ )<br />
i<br />
X<br />
r<br />
p<br />
X<br />
( x )<br />
i<br />
(11.37)<br />
m<br />
( r)<br />
X<br />
∞<br />
∫<br />
−∞<br />
= ( x − μ )<br />
X<br />
r<br />
f<br />
X<br />
( x)<br />
dx<br />
(11.38)<br />
• Centralni moment ničtega reda je e<strong>na</strong>k 1.<br />
232<br />
•116
11.5 Momenti porazdelitve / 4<br />
• Najpogosteje uporabljen centralni moment je centralni<br />
moment drugega reda, s katerim opišemo razpršenost<br />
slučajne spremenljivke X:<br />
m<br />
(2)<br />
X<br />
=<br />
m<br />
∑<br />
i=<br />
1<br />
( x − μ )<br />
i<br />
X<br />
2<br />
p<br />
X<br />
( x )<br />
i<br />
(11.39)<br />
∞<br />
∫<br />
−∞<br />
(2)<br />
2<br />
mX = ( x − μ<br />
X<br />
) f<br />
X<br />
( x)<br />
dx<br />
(11.40)<br />
233<br />
11.5 Momenti porazdelitve / 5<br />
• Centralni moment tretjega reda je mera za<br />
asimetričnost porazdelitve. Z njim definiramo koeficient<br />
asimetrije:<br />
KA = γ =<br />
1<br />
(3)<br />
m X<br />
3<br />
σ<br />
X<br />
(11.41)<br />
• Centralni moment četrtega reda pa je mera za<br />
sploščenost porazdelitve. Z njim definiramo koeficient<br />
sploščenosti:<br />
KS = γ =<br />
2<br />
(4)<br />
m X<br />
4<br />
σ<br />
X<br />
(11.42)<br />
234<br />
•117
11.5 Momenti porazdelitve / 6<br />
• Pomen pričakovanih vrednosti, razpršenosti ter<br />
koeficientov asimetričnosti in sploščenosti pri neki zvezni<br />
slučajni spremenljivki (po metodi momentov)<br />
Pozor: Primerjaj s koeficienti asimetričnosti (136) in<br />
sploščenosti (138) opredeljenih s primerjavo<br />
srednjih vrednosti!<br />
235<br />
12. VZORČENJE<br />
12.1 Osnove vzorčenja<br />
• Statistične z<strong>na</strong>čilnosti imenujemo:<br />
• parametri, če so izraču<strong>na</strong>ne <strong>na</strong> populaciji,<br />
• statistike, če so izraču<strong>na</strong>ne <strong>na</strong> vzorcu.<br />
• Statistične z<strong>na</strong>čilnosti za:<br />
236<br />
• populacijo oz<strong>na</strong>čujemo z grškimi črkami, npr.:<br />
• aritmetič<strong>na</strong> sredi<strong>na</strong> μ<br />
• standardni odklon σ<br />
• delež oz. p<br />
π<br />
• vzorec oz<strong>na</strong>čujemo z latinskimi črkami, npr.:<br />
• aritmetič<strong>na</strong> sredi<strong>na</strong> X<br />
• standardni odklon s<br />
• delež pˆ<br />
•118
12.1 Osnove vzorčenja / 2<br />
237<br />
• Namen zbiranja podatkov o enotah populacije je odvisen<br />
od z<strong>na</strong>čilnosti te populacije in <strong>na</strong>me<strong>na</strong> raziskovanja.<br />
Uporabimo lahko:<br />
• popolno opazovanje množičnega pojava – popišemo<br />
vse enote, ki sestavljajo statistično populacijo (običajno<br />
je dolgotrajno, drago in včasih težko izvedljivo);<br />
• delno opazovanje množičnega pojava – popišemo<br />
samo določene enote iz populacije. Pri tem se lahko<br />
odločamo za:<br />
• izbiro tipičnih enot – izberemo samo nekatere enote, ki so<br />
z<strong>na</strong>čilne za populacijo (subjektiv<strong>na</strong> metoda);<br />
• metoda vzorčenja – izbiramo enote neodvisno od posamične<br />
presoje: vse enote obrav<strong>na</strong>vane populacije <strong>na</strong>j bi imele e<strong>na</strong>ko<br />
možnost izbire v vzorec.<br />
12.1 Osnove vzorčenja / 3<br />
• Poz<strong>na</strong>mo več vrst vzorčenja:<br />
• enostavno vzorčenje – iz množice enot <strong>na</strong>ključno izbiramo enote<br />
(ni potrebno poz<strong>na</strong>ti z<strong>na</strong>čilnosti statistične množice);<br />
• stratificirano vzorčenje (vzorčenje po plasteh) – <strong>na</strong>jprej množico<br />
enot razdelimo <strong>na</strong> homogene dele (razpršenost opazovane<br />
spremenljivke znotraj posameznih delov <strong>na</strong>j bi bila čim manjša); <strong>na</strong>to<br />
v teh delih izvedemo slučajno vzorčenje;<br />
• vzorčenje v skupi<strong>na</strong>h – iz celotne populacije <strong>na</strong>jprej izberemo<br />
določeno število skupin enot, ki jih opazujemo v celoti;<br />
• vzorčenje v več stopnjah – je <strong>na</strong>daljevanje vzorčenja v skupi<strong>na</strong>h;<br />
uporabljamo ga takrat, ko je mogoče osnovno populacijo urediti <strong>na</strong><br />
več, hierarhično urejenih skupin; enote znotraj teh skupin izbiramo<br />
<strong>na</strong>ključno;<br />
• sistematično vzorčenje –<strong>na</strong>ključno izberemo le prvo enoto, druge<br />
pa izberemo v e<strong>na</strong>kih razmikih.<br />
238<br />
•119
12.2 Porazdelitve vzorčnih<br />
statistik<br />
• Denimo, da je v populaciji N enot in da iz te populacije<br />
slučajno izbiramo n enot v enostaven slučajen vzorec ali<br />
<strong>na</strong> kratko slučajen vzorec (vsaka enota ima e<strong>na</strong>ko<br />
1<br />
verjetnost, da bo izbra<strong>na</strong> v vzorec; t.j. ).<br />
• Če hočemo dobiti slučajen vzorec, moramo izbrane<br />
enote pred ponovnim izbiranjem vrniti v populacijo<br />
(vzorec s po<strong>na</strong>vljanjem).<br />
• Če je velikost vzorca v primerjavi s populacijo majh<strong>na</strong>,<br />
se ne zmotimo dosti, če imamo za slučajen vzorec tudi<br />
vzorec, ki <strong>na</strong>stane s slučajnim izbiranjem brez<br />
vračanja.<br />
N<br />
239<br />
12.2 Porazdelitve vzorčnih statistik / 2<br />
• Predstavljajmo si, da smo iz populacije izbrali vse<br />
možne vzorce. Dobili smo populacijo vseh možnih<br />
vzorcev.<br />
• Teh je v primeru enostavnih slučajnih vzorcev (s<br />
n<br />
po<strong>na</strong>vljanjem) N , če je N število enot populacije in n<br />
število enot v vzorcu.<br />
• Število slučajnih vzorcev brez po<strong>na</strong>vljanja pa je:<br />
⎛ N ⎞<br />
⎜ ⎟<br />
•<br />
⎝ n ⎠<br />
, če ne upoštevamo vrstnega reda izbranih<br />
elementov v vzorcu, oziroma<br />
⎛ N + n −1⎞<br />
⎝ n ⎠<br />
• ⎜ ⎟, če upoštevamo vrstni red.<br />
240<br />
•120
12.2 Porazdelitve vzorčnih statistik / 3<br />
Primer 12.1: Vzemimo populacijo z N = 4 enotami, ki imajo<br />
<strong>na</strong>slednje vrednosti slučajne spremenljivke X: 0, 1, 2, 3.<br />
Grafično si lahko porazdelitev spremenljivke X predstavimo:<br />
1/4<br />
p X<br />
241<br />
0<br />
0 1 2 3<br />
X<br />
12.2 Porazdelitve vzorčnih statistik / 4<br />
... <strong>na</strong>daljevanje:<br />
Izraču<strong>na</strong>mo populacijsko aritmetično sredino in varianco:<br />
μ =<br />
X<br />
1<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
x<br />
i<br />
=<br />
3<br />
2<br />
σ<br />
2<br />
X<br />
=<br />
1<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
( x<br />
i<br />
− μ )<br />
X<br />
2<br />
=<br />
5<br />
4<br />
242<br />
•121
12.2 Porazdelitve vzorčnih statistik / 5<br />
... <strong>na</strong>daljevanje:<br />
243<br />
Sedaj pa tvorimo vse možne vzorce velikosti n = 2<br />
s po<strong>na</strong>vljanjem in <strong>na</strong> vsakem vzorcu izraču<strong>na</strong>mo vzorčno<br />
aritmetično sredino X:<br />
vzorci X vzorci X<br />
0, 0 0<br />
2, 0<br />
1<br />
0, 1<br />
0, 2<br />
0, 3<br />
1, 0<br />
1, 1<br />
1, 2<br />
1, 3<br />
0.5<br />
1<br />
1.5<br />
0.5<br />
1<br />
1.5<br />
2<br />
2, 1<br />
2, 2<br />
2, 3<br />
3, 0<br />
3, 1<br />
3, 2<br />
3, 3<br />
1.5<br />
2<br />
2.5<br />
1.5<br />
2<br />
2.5<br />
3<br />
1<br />
X =<br />
n<br />
n<br />
∑ x i<br />
i=<br />
1<br />
12.2 Porazdelitve vzorčnih statistik / 6<br />
... <strong>na</strong>daljevanje:<br />
Zapišimo verjetnostno shemo slučajne spremenljivke<br />
vzorčno povprečje X :<br />
⎛ 0<br />
X : ⎜<br />
⎝1/16<br />
0.5<br />
2 /16<br />
1<br />
3/16<br />
1.5<br />
4 /16<br />
2<br />
3/16<br />
2.5<br />
2 /16<br />
3 ⎞<br />
⎟<br />
1/16⎠<br />
244<br />
•122
12.2 Porazdelitve vzorčnih statistik / 7<br />
... <strong>na</strong>daljevanje:<br />
Verjetnostno funkcijo predstavimo grafično:<br />
1/4<br />
p X<br />
245<br />
0<br />
-0.5 0 0.5 1 1.5 2 2.5 3<br />
X<br />
12.2 Porazdelitve vzorčnih statistik / 8<br />
... <strong>na</strong>daljevanje:<br />
... in izraču<strong>na</strong>mo matematično upanje ter razpršenost<br />
vzorčnega povprečja:<br />
E(<br />
X ) =<br />
D(<br />
X ) =<br />
m<br />
∑<br />
i=<br />
1<br />
m<br />
∑<br />
i=<br />
1<br />
0 + 1+<br />
3+<br />
6 + 6 + 5 + 3 3<br />
X<br />
i<br />
pi<br />
=<br />
=<br />
16 2<br />
( X − E(<br />
X ))<br />
2<br />
p<br />
i<br />
=<br />
S tem smo pokazali, da je statistika “vzorč<strong>na</strong> aritmetič<strong>na</strong><br />
sredi<strong>na</strong>” slučaj<strong>na</strong> spremenljivka s svojo porazdelitvijo.<br />
5<br />
8<br />
246<br />
• Poglejmo, kaj lahko rečemo v splošnem o porazdelitvi<br />
vzorčnih aritmetičnih sredin.<br />
•123
12.2.1 Porazdelitev vzorčnih<br />
aritmetičnih sredin<br />
• Denimo, da se spremenljivka X <strong>na</strong> populaciji porazdeljuje<br />
normalno N( μ<br />
X<br />
, σ<br />
X<br />
) . Na vsakem vzorcu (s po<strong>na</strong>vljanjem)<br />
izraču<strong>na</strong>mo vzorčno aritmetično sredino X . Dokazati se<br />
da, da je porazdelitev vzorčnih aritmetičnih sredin<br />
normal<strong>na</strong>, kjer:<br />
• pričakova<strong>na</strong> vrednost vzorčnih aritmetičnih sredin je<br />
e<strong>na</strong>ka aritmetični sredini spremenljivke <strong>na</strong> populaciji<br />
E(<br />
X ) = μ<br />
X<br />
(12.1)<br />
247<br />
• standardni odklon vzorčnih aritmetičnih sredin je e<strong>na</strong>k<br />
SE(<br />
X ) =<br />
σ<br />
X<br />
n<br />
(12.2)<br />
12.2.1 Porazdelitev vzorčnih aritmetičnih ... / 2<br />
• Če tvorimo vzorce iz končne množice populacije brez<br />
vračanja, pa je standardni odklon vzorčnih aritmetičnih<br />
sredin<br />
σ<br />
X<br />
SE(<br />
X ) =<br />
n<br />
N − n<br />
N −1<br />
(12.3)<br />
• Standardni odklon statistike imenujemo tudi standard<strong>na</strong><br />
<strong>na</strong>paka (angl. “Standard Error”) statistike.<br />
248<br />
•124
12.2.1 Porazdelitev vzorčnih aritmetičnih ... / 3<br />
• Za dovolj velike vzorce (n>30) je porazdelitev vzorčnih<br />
aritmetičnih sredin približno normal<strong>na</strong>, tudi če<br />
spremenljivka X ni normalno porazdelje<strong>na</strong> <strong>na</strong> populaciji.<br />
• Vzorč<strong>na</strong> aritmetič<strong>na</strong> sredi<strong>na</strong> izraču<strong>na</strong><strong>na</strong> <strong>na</strong> i-tem<br />
vzorcu je oce<strong>na</strong> populacijske aritmetične sredine .<br />
• Ta je le e<strong>na</strong> od vrednosti, ki jo lahko zavzame slučaj<strong>na</strong><br />
spremenljivka “vzorč<strong>na</strong> aritmetič<strong>na</strong> sredi<strong>na</strong> “.<br />
• Vzorčno aritmetično sredino imenujemo tudi cenilka<br />
populacijske aritmetične sredine .<br />
X i<br />
μ X<br />
X i<br />
μ X<br />
249<br />
12.2.1 Porazdelitev vzorčnih aritmetičnih ... / 4<br />
• Vrednosti cenilk se od ocenjevanega parametra bolj ali<br />
manj odklanjajo. Rečemo, da je cenilka parametra dobra,<br />
če ima nekaj dobrih lastnosti, kot npr.:<br />
1. nepri<strong>stran</strong>ska cenilka –povprečje vseh vzorčnih<br />
ocen (pričakova<strong>na</strong> vrednost cenilke) je e<strong>na</strong>ko<br />
ocenjevanemu parametru;<br />
2. doslednja cenilka –z večanjem vzorca se vzorč<strong>na</strong><br />
oce<strong>na</strong> bliža parametru.<br />
• Cenilka aritmetične sredine je nepri<strong>stran</strong>ska cenilka, ker<br />
velja<br />
E(<br />
X ) = μ<br />
X<br />
250<br />
•125
12.2.1 Porazdelitev vzorčnih aritmetičnih ... / 5<br />
Primer 12.2: Denimo, da se spremenljivka inteligenčni<br />
kvocient <strong>na</strong> populaciji porazdeljuje normalno z aritmetično<br />
sredino μ =100 in standardnim odklonom = 15.<br />
X<br />
X : N(100,15)<br />
Denimo, da imamo vzorce velikosti n = 225. Tedaj se<br />
vzorčne aritmetične sredine porazdeljujejo normalno:<br />
15<br />
X : N(100,<br />
) = N(100,1)<br />
225<br />
Izraču<strong>na</strong>jmo, kolikšne vzorčne aritmetične sredine ima 90 %<br />
vzorcev (simetrično <strong>na</strong> povprečje):<br />
P[<br />
X<br />
1<br />
P[<br />
−z<br />
1<br />
≤ X ≤ X<br />
≤ Z ≤ z ] = 0.90<br />
P[Z<br />
< z ] = 0.95<br />
1<br />
1<br />
2<br />
] = 0.90<br />
⇒<br />
z = 1.65<br />
1<br />
σ X<br />
251<br />
12.2.1 Porazdelitev vzorčnih aritmetičnih ... / 6<br />
Primer 12.2: ... <strong>na</strong>daljevanje 1<br />
Potem se vzorčne aritmetične sredine <strong>na</strong>hajajo v intervalu<br />
P<br />
[ μ X<br />
− z ⋅ SE X ) ≤ X ≤ μ + z ⋅ SE(<br />
X )] 0. 90<br />
⎡<br />
P⎢μ<br />
X<br />
− z<br />
⎣<br />
1<br />
(<br />
X 1<br />
=<br />
σ<br />
σ ⎤<br />
n<br />
⎥<br />
⎦<br />
X<br />
X<br />
1<br />
⋅ ≤ X ≤<br />
X<br />
+ z1<br />
⋅ =<br />
n<br />
μ<br />
0.90<br />
oziroma konkretno<br />
P[100<br />
−1.65⋅1≤<br />
X ≤100<br />
+ 1.65⋅1]<br />
= 0.90<br />
P[98.35<br />
≤ X ≤101.65]<br />
= 0.90<br />
252<br />
90 % vseh slučajnih vzorcev velikosti 225 enot bo imelo<br />
povprečja za inteligenčni kvocient v intervalu<br />
(98.35,101.65).<br />
•126
12.2.1 Porazdelitev vzorčnih aritmetičnih ... / 7<br />
Primer 12.2: ... <strong>na</strong>daljevanje 2<br />
Lahko preverimo, da bi bil ta interval v primeru večjega<br />
vzorca ožji. V primeru vzorcev velikosti n = 2500 je ta<br />
interval<br />
⎡<br />
P⎢100<br />
−1.65⋅<br />
⎣<br />
15<br />
≤ X<br />
2500<br />
≤100<br />
+ 1.65⋅<br />
15 ⎤<br />
⎥ = 0.90<br />
2500 ⎦<br />
P[99.5<br />
≤ X<br />
≤100.5]<br />
= 0.90<br />
253<br />
12.2.2 Porazdelitev vzorčnih deležev<br />
254<br />
• Denimo, da želimo <strong>na</strong> populaciji oceniti delež enot p z<br />
določeno lastnostjo. Zato <strong>na</strong> vsakem vzorcu poiščemo<br />
vzorčni delež pˆ . Pokazati se da, da se za dovolj velike<br />
slučajne vzorce s po<strong>na</strong>vljanjem (za deleže okoli 0.5 je<br />
dovolj 20 enot ali več) vzorčni deleži porazdeljujejo<br />
približno normalno z<br />
• pričakovano vrednostjo vzorčnih deležev, ki je e<strong>na</strong>ka<br />
deležu <strong>na</strong> populaciji<br />
E ( pˆ)<br />
= p<br />
• standardnim odklon vzorčnih deležev<br />
SE(<br />
pˆ)<br />
=<br />
p ⋅(1<br />
− p)<br />
n<br />
(12.4)<br />
(12.5)<br />
•127
12.2.2 Porazdelitev vzorčnih deležev / 2<br />
• Za manjše vzorce se vzorčni deleži porazdeljujejo<br />
binomsko.<br />
• Cenilka populacijskega deleža je nepri<strong>stran</strong>ska cenilka,<br />
ker velja<br />
E ( pˆ)<br />
= p<br />
(12.6)<br />
255<br />
12.2.2 Porazdelitev vzorčnih deležev / 3<br />
Primer 12.3: V izbrani populaciji prebivalcev je polovica<br />
žensk (p = 0.5). Če tvorimo vzorce po n = 25 enot, <strong>na</strong>s<br />
zanima, kolikš<strong>na</strong> je verjetnost, da je v vzorcu več kot 55 %<br />
žensk?<br />
To pomeni, da iščemo verjetnost P[ pˆ >0.55].<br />
Vzorčni deleži pˆ se porazdeljujejo približno normalno:<br />
pˆ<br />
: N(<br />
p,<br />
p ⋅(1<br />
− p)<br />
) = N(0.5,<br />
n<br />
0.5⋅0.5<br />
) = N(0.5,0.1)<br />
25<br />
⎡ 0.55−<br />
0.5⎤<br />
P[<br />
pˆ<br />
> 0.55] = P<br />
⎢<br />
Z > = [ > 0.5] =<br />
⎣ 0.1 ⎥<br />
P Z<br />
⎦<br />
= 1−<br />
P[<br />
Z < 0.5] = 0.3085<br />
256<br />
Rezultat pomeni, da lahko pričakujemo pri približno 31 %<br />
vzorcev delež žensk večji od 0.55.<br />
•128
12.2.2 Porazdelitev vzorčnih deležev / 4<br />
Primer 12.3: ... <strong>na</strong>daljevanje<br />
Poglejmo, kolikš<strong>na</strong> je ta verjetnost, če bi tvorili vzorce<br />
velikosti n = 2500 enot:<br />
P<br />
⎡<br />
⎢<br />
⎤<br />
0.55 − 0.5 ⎥<br />
0.5⋅(1<br />
− 0.5) ⎥<br />
2500 ⎥<br />
⎦<br />
[ pˆ > 0.55] = P⎢Z<br />
><br />
⎥ = P[<br />
Z > 5] = 0<br />
⎢<br />
⎢<br />
⎣<br />
Če bi tvorili vzorce po 2500 enot ne moremo pričakovati več<br />
kot 55 % žensk v vzorcu.<br />
257<br />
12.2.3 Porazdelitev razlik vzorčnih<br />
aritmetičnih sredin<br />
• Denimo, da imamo dve populaciji velikosti N 1 in N 2 ter<br />
se spremenljivka X <strong>na</strong> prvi populaciji porazdeljuje<br />
normalno N( μ<br />
X1,<br />
σ<br />
X<br />
), <strong>na</strong> drugi populaciji pa prav tako<br />
N( μ<br />
X 2,<br />
σ<br />
X<br />
) (standard<strong>na</strong> odklo<strong>na</strong> sta <strong>na</strong> obeh populacijah<br />
e<strong>na</strong>ka!).<br />
• V vsaki od obeh populacij neodvisno tvorimo slučajne<br />
vzorce velikosti n 1 in n 2 .<br />
• Na vsakem vzorcu (s po<strong>na</strong>vljanjem) prve populacije<br />
izraču<strong>na</strong>mo vzorčno aritmetično sredino X 1<br />
in podobno<br />
<strong>na</strong> vsakem vzorcu druge populacije .<br />
X 2<br />
258<br />
•129
12.2.3 Porazdelitev razlik vzorčnih aritmetičnih ... / 2<br />
• Dokazati se da, da je porazdelitev razlik vzorčnih<br />
aritmetičnih sredin normal<strong>na</strong>, kjer je:<br />
• pričakova<strong>na</strong> vrednost razlik vzorčnih aritmetičnih<br />
sredin e<strong>na</strong>ka<br />
E<br />
( X1 − X<br />
2)<br />
= E(<br />
X1)<br />
− E(<br />
X<br />
2)<br />
= μ<br />
X 1<br />
−<br />
X 2<br />
μ<br />
(12.7)<br />
• razpršenost razlik vzorčnih aritmetičnih sredin e<strong>na</strong>ka<br />
D(<br />
X −<br />
= σ<br />
2<br />
X<br />
1<br />
X<br />
2)<br />
D(<br />
X1)<br />
D(<br />
X<br />
2)<br />
n1<br />
+ n<br />
⋅<br />
n ⋅n<br />
1<br />
2<br />
=<br />
2<br />
+<br />
σ<br />
=<br />
n<br />
2<br />
X<br />
1<br />
σ<br />
+<br />
n<br />
2<br />
X<br />
2<br />
=<br />
(12.8)<br />
259<br />
12.2.3 Porazdelitev razlik vzorčnih aritmetičnih ... / 3<br />
Primer 12.4: Dvema populacijama študentov <strong>na</strong> neki univerzi<br />
(tehnikom in družboslovcem) so izmerili sposobnost branja kart s<br />
povprečjem μ<br />
Xt<br />
= 80 in μ Xd<br />
= 70 in standardnim odklonom, ki je <strong>na</strong><br />
obeh populacijah e<strong>na</strong>k, σ X<br />
= 7. Kolikš<strong>na</strong> je verjetnost, da je<br />
aritmetič<strong>na</strong> sredi<strong>na</strong> slučajnega vzorca tehnikov (n Xt<br />
= 36) večja<br />
za več kot 12 točk od aritmetične sredine vzorca družboslovcev<br />
(n Xd<br />
= 64)?<br />
Zanima <strong>na</strong>s torej verjetnost:<br />
P[<br />
X − X<br />
t<br />
d<br />
⎡<br />
⎤<br />
⎢ 12 −10<br />
⎥<br />
> 12] = P⎢Z<br />
><br />
⎥ = P[<br />
Z > 1.37] =<br />
⎢ 36 + 64 ⎥<br />
⎢ 7⋅<br />
⎣ 36⋅64<br />
⎥<br />
⎦<br />
= 1−<br />
P[<br />
Z < 1.37] = 0.0853<br />
Torej, približno 8.5 % parov vzorcev je takih, da je povprečje<br />
tehnikov glede sposobnosti branja kart večje od povprečja<br />
družboslovcev za 12 točk.<br />
260<br />
•130
12.2.4 Porazdelitev razlik vzorčnih<br />
deležev<br />
• Podobno kot pri porazdelitvi razlik vzorčnih aritmetičnih<br />
sredin <strong>na</strong>j bosta dani dve populaciji velikosti N 1 in N 2 z<br />
deležema enot z neko lastnostjo p 1 in p 2 .<br />
• Iz prve populacije tvorimo slučajne vzorce velikosti n 1 in<br />
<strong>na</strong> vsakem izraču<strong>na</strong>mo delež enot s to lastnostjo ˆp 1 .<br />
• Podobno <strong>na</strong>redimo tudi <strong>na</strong> drugi populaciji: tvorimo<br />
vzorce velikosti n 2 in <strong>na</strong> njih izraču<strong>na</strong>mo deleže ˆp 2 .<br />
261<br />
12.2.4 Porazdelitev razlik vzorčnih deležev / 2<br />
• Pokazati se da, da se za dovolj velike vzorce razlike<br />
vzorčnih deležev porazdeljujejo normalno z<br />
• pričakovano vrednost razlik vzorčnih deležev<br />
E( pˆ<br />
pˆ<br />
E pˆ<br />
E pˆ<br />
= p − p<br />
1<br />
−<br />
2)<br />
= (<br />
1)<br />
− (<br />
2)<br />
1<br />
2<br />
(12.9)<br />
• razpršenostjo razlik vzorčnih deležev<br />
D(<br />
pˆ<br />
− pˆ<br />
) = D(<br />
pˆ<br />
) + D(<br />
pˆ<br />
) =<br />
1<br />
1<br />
2<br />
p1<br />
⋅(1<br />
− p1)<br />
p2<br />
⋅(1<br />
− p2)<br />
= +<br />
n n<br />
1<br />
2<br />
2<br />
(12.10)<br />
262<br />
•131
13. INTERVALI ZAUPANJA<br />
263<br />
• Denimo, da s slučajnim vzorcem ocenjujemo parameter .<br />
• Poskušamo <strong>na</strong>jti statistiko g, ki je nepri<strong>stran</strong>ska E(g) = γ<br />
in se <strong>na</strong> vseh možnih vzorcih vsaj približno normalno<br />
porazdeljuje s standardno <strong>na</strong>pako SE(g).<br />
• Nato poskušamo <strong>na</strong>jti interval, v katerem se bo z dano<br />
stopnjo zaupanja oz. gotovostjo ( 1−α)<br />
<strong>na</strong>hajal<br />
ocenjevani parameter:<br />
P[ a ≤ γ ≤ b] = 1−α<br />
(13.1)<br />
a je spodnja meja zaupanja, b je zgornja meja zaupanja,<br />
α verjetnost tveganja oziroma 1− verjetnost gotovosti.<br />
• Ta interval imenujemo interval zaupanja in ga razlagamo<br />
takole: “Z verjetnostjo tveganja α se parameter γ <strong>na</strong>haja<br />
v intervalu zaupanja.”<br />
α<br />
γ<br />
13. INTERVALI ZAUPANJA / 2<br />
• Na osnovi omenjenih predpostavk o porazdelitvi<br />
statistike g lahko zapišemo, da se statistika<br />
g − E(<br />
g)<br />
g −γ<br />
Z = =<br />
SE(<br />
g)<br />
SE(<br />
g)<br />
porazdeljuje standardizirano normalno N(0,1) .<br />
(13.2)<br />
α<br />
• Če tveganje porazdelimo polovico <strong>na</strong> levo in polovico<br />
<strong>na</strong> desno <strong>na</strong> konce porazdelitve, lahko zapišemo<br />
⎡ g −γ<br />
⎤<br />
P⎢−<br />
zα<br />
2<br />
≤ ≤ zα<br />
2⎥<br />
= 1−α<br />
⎣ SE(<br />
g)<br />
⎦<br />
(13.3)<br />
264<br />
•132
13. INTERVALI ZAUPANJA / 3<br />
• Po ustrezni preureditvi lahko izpeljemo <strong>na</strong>slednji interval<br />
zaupanja za parameter γ<br />
P<br />
[ g − z ⋅ SE(g) ≤ γ ≤ g + z ⋅ ] = 1−α<br />
α 2 α 2<br />
SE(g)<br />
(13.4)<br />
z α 2<br />
• v e<strong>na</strong>čbi (13.4) je določen le s tveganjem<br />
α<br />
265<br />
13. INTERVALI ZAUPANJA / 4<br />
z α<br />
• Vrednosti<br />
2<br />
preberemo iz preglednice verjetnosti za<br />
standardizirano normalno porazdelitev v prilogi <strong>na</strong>vodil<br />
za izvedbo vaj (Statistika – Vaje, S. Drobne in G. Turk)<br />
ali izraču<strong>na</strong>mo v Excelu s funkcijo NORMSINV, ali v<br />
programu STATKALK.<br />
• z α 2<br />
za nekaj <strong>na</strong>jbolj standardnih tveganj je:<br />
• α = 0.10,<br />
z = α 2<br />
1.65<br />
• α = 0.05,<br />
z = α 2<br />
1.96<br />
• α 0.01,<br />
z = 2<br />
2.58<br />
= α<br />
266<br />
•133
13.1 Pomen stopnje zaupanja<br />
pri intervalih zaupanja<br />
• Za slučajni vzorec lahko ob omenjenih predpostavkah<br />
izraču<strong>na</strong>mo ob izbrani stopnji zaupanja ( 1−α)<br />
interval<br />
zaupanja za ocenjevani parameter γ .<br />
• Ker se podatki vzorcev razlikujejo, se razlikujejo<br />
vzorčne ocene parametrov in zato tudi izraču<strong>na</strong>ni<br />
intervali zaupanja za ocenjevani parameter γ .<br />
• Meji intervala zaupanja sta slučajni spremenljivki.<br />
−α<br />
• Vzemimo stopnjo zaupanja ( 1 = 1−<br />
0.05 = 0.95) in<br />
100 slučajnih vzorcev, kjer smo za vsak vzorec<br />
izraču<strong>na</strong>li interval zaupanja za parameter γ . Tedaj lahko<br />
pričakujemo, da bo 95 intervalov zaupanja od 100<br />
pokrilo iskani parameter γ.<br />
267<br />
Primer 13.1: Primer predstavitve<br />
več intervalov zaupanja za<br />
aritmetično sredino μ pri tveganju<br />
10 %: približno 90 % intervalov<br />
zaupanja pokrije parameter .<br />
13.1 Pomen stopnje zaupanja ... / 2<br />
μ<br />
268<br />
•134
13.2 Intervali zaupanja pri<br />
velikih vzorcih<br />
• V <strong>na</strong>daljevanju bomo pokazali, da se cenilke<br />
obrav<strong>na</strong>vanih parametrov populacije porazdeljujejo<br />
normalno ali približno normalno, če jih raču<strong>na</strong>mo iz<br />
velikih vzorcev (praviloma n > 30).<br />
• V primerih, ko določamo intervale zaupanja iz majhnih<br />
vzorcev, pa je nekaj posebnosti, ki jih bomo pokazali v<br />
poglavju 13.3.<br />
269<br />
13.2.1 Interval zaupanja za<br />
aritmetično sredino pri velikih vzorcih<br />
• Interval zaupanja za aritmetično sredino je:<br />
⎡ σ<br />
X<br />
σ<br />
X ⎤<br />
P⎢X<br />
− zα<br />
2<br />
⋅ ≤ μ<br />
X<br />
≤ X + zα<br />
2<br />
⋅ ⎥ = 1−α<br />
⎣ n<br />
n ⎦<br />
• Pogosto populacijskega standardnega odklo<strong>na</strong> ne<br />
poz<strong>na</strong>mo. Ocenimo ga <strong>na</strong> vzorcu in sicer takole:<br />
σ x<br />
(13.5)<br />
s<br />
*<br />
X<br />
n<br />
∑ ( x − X )<br />
i=<br />
1 i<br />
=<br />
n −1<br />
2<br />
(13.6)<br />
*2<br />
s X<br />
ker je tako definira<strong>na</strong> vzorč<strong>na</strong> varianca nepri<strong>stran</strong>ska<br />
2 2<br />
cenilka populacijske variance: E<br />
* ) = σ .<br />
( s X X<br />
270<br />
•135
13.2.1 Interval zaupanja za aritmetično sredino ... / 2<br />
• Če lahko predpostavimo, da se spremenljivka X <strong>na</strong><br />
populaciji porazdeljuje normalno in če imamo dovolj<br />
velik vzorec (n>30), je interval zaupanja za aritmetično<br />
sredino populacije :<br />
μ x<br />
*<br />
*<br />
⎡ s<br />
⎤<br />
X<br />
sX<br />
P⎢X<br />
− zα<br />
2<br />
⋅ ≤ μ<br />
X<br />
≤ X + zα<br />
2<br />
⋅ ⎥ = 1−α<br />
⎣ n<br />
n ⎦<br />
(13.7)<br />
271<br />
13.2.1 Interval zaupanja za aritmetično sredino ... / 3<br />
Primer 13.2: Na vzorcu velikosti n = 151 podjetnikov v majhnih<br />
podjetjih v Sloveniji, so izraču<strong>na</strong>li, da je povpreč<strong>na</strong> starost<br />
anketiranih podjetnikov X = 40.4 leta in standardni odklon<br />
*<br />
s X = 10.2 leti. Pri stopnji zaupanja 95 % želimo z intervalom<br />
zaupanja oceniti povprečno starost podjetnikov v majhnih podjetjih<br />
v Sloveniji.<br />
Ker imamo velik vzorec, izraču<strong>na</strong>mo interval zaupanja po e<strong>na</strong>čbi<br />
(13.7):<br />
*<br />
*<br />
⎡ s<br />
⎤<br />
X<br />
sX<br />
P⎢X<br />
− zα<br />
2<br />
⋅ ≤ μ<br />
X<br />
≤ X + zα<br />
2<br />
⋅ ⎥ = 1−α<br />
⎣ n<br />
n ⎦<br />
1.96⋅10.2<br />
1.96⋅10.2<br />
40.4 − ≤ μ<br />
X<br />
≤ 40.4 +<br />
151<br />
151<br />
40.4 −1.6<br />
≤ μ ≤ 40.4 + 1.6<br />
38.8 ≤ μ<br />
X<br />
X<br />
≤ 42.0<br />
S tveganjem 5 % lahko trdimo, da je povpreč<strong>na</strong> starost podjetnikov<br />
majhnih podjetij v Sloveniji med 38.8 in 42.0 leti.<br />
272<br />
•136
13.2.2 Interval zaupanja za varianco<br />
pri velikih vzorcih<br />
• Interval zaupanja za varianco raču<strong>na</strong>mo e<strong>na</strong>ko pri velikih<br />
kot tudi pri majhnih vzorcih.<br />
• Pri opredelitvi intervala zaupanja za varianco populacije<br />
2<br />
je nekaj posebnosti (porazdelitev χ, število prostostnih<br />
stopenj ν ), ki jih posebej omenjamo pri intervalih<br />
zaupanja pri majhnih vzorcih.<br />
• Zato bomo interval zaupanja za varianco opredelili v<br />
poglavju 13.6.2 Interval<strong>na</strong> oce<strong>na</strong> variance pri<br />
majhnih vzorcih.<br />
273<br />
13.2.3 Interval zaupanja za delež<br />
pri velikih vzorcih<br />
• Interval zaupanja za populacijski delež je:<br />
⎡ pˆ(1<br />
− pˆ)<br />
pˆ(1<br />
− pˆ)<br />
⎤<br />
P⎢<br />
pˆ − zα<br />
⋅ ≤ ≤ ˆ<br />
2<br />
p p + zα<br />
2<br />
⋅ ⎥ = 1−α<br />
⎣<br />
n<br />
n ⎦<br />
(13.8)<br />
kjer smo v standardni <strong>na</strong>paki SE( pˆ ) upoštevili <strong>na</strong>mesto<br />
populacijskega deleža p njegovo vzorčno oceno pˆ .<br />
• Tudi v tem primeru se vzorčni deleži za dovolj velike<br />
vzorce porazdeljujejo približno normalno.<br />
274<br />
•137
13.2.3 Interval zaupanja za delež ... / 2<br />
Primer 13.3: Na vzorcu iz primera 13.2 so izraču<strong>na</strong>li, da je delež<br />
obrtnih podjetij od vseh malih podjetij pˆ = 0.50. Pri tveganju 5 %<br />
želimo z intervalom zaupanja oceniti delež obrtnih majhnih podjetij<br />
v Sloveniji.<br />
Ker imamo velik vzorec, izraču<strong>na</strong>mo interval zaupanja po e<strong>na</strong>čbi<br />
(13.8):<br />
⎡ pˆ(1<br />
− pˆ)<br />
P⎢<br />
pˆ − z<br />
ˆ<br />
α 2<br />
⋅ ≤ p ≤ p + zα<br />
2<br />
⋅<br />
⎣<br />
n<br />
0.50 −1.96⋅<br />
0.50(1 − 0.50)<br />
≤ p ≤ 0.50 + 1.96⋅<br />
151<br />
0.50 − 0.08 ≤ p ≤ 0.50 + 0.08<br />
0.42 ≤ p ≤ 0.58<br />
pˆ(1<br />
− pˆ)<br />
⎤<br />
⎥ = 1−α<br />
n ⎦<br />
0.50(1 − 0.50)<br />
151<br />
S tveganjem 5 % lahko trdimo, da je delež obrtnih majhnih podjetij<br />
v Sloveniji glede <strong>na</strong> vsa majh<strong>na</strong> podjetja med 42 in 58 %.<br />
275<br />
13.2.4 Interval zaupanja za razliko<br />
aritmetičnih sredin pri velikih vzorcih<br />
• Ker se razlike aritmetičnih sredin pri velikih vzorcih<br />
porazdeljujejo normalno<br />
⎛<br />
X ⎜<br />
1<br />
− X<br />
2<br />
: N μ<br />
X1<br />
− μ<br />
X 2,<br />
⎜<br />
⎝<br />
2 2<br />
σ σ<br />
X X<br />
+<br />
n n<br />
je interval zaupanja za razliko aritmetičnih sredin<br />
1<br />
2<br />
⎞<br />
⎟<br />
⎟<br />
⎠<br />
⎡<br />
P⎢X1<br />
− X<br />
⎢<br />
⎣<br />
= 1−α<br />
2<br />
− z<br />
α 2<br />
⋅<br />
2<br />
σ<br />
n<br />
X<br />
1<br />
2<br />
σ<br />
X<br />
+<br />
n<br />
2<br />
≤ μ<br />
X1<br />
− μ<br />
X 2<br />
≤ X<br />
1<br />
− X<br />
2<br />
+ z<br />
α 2<br />
⋅<br />
2 2<br />
σ σ<br />
X X<br />
+<br />
n n<br />
1<br />
2<br />
(13.9)<br />
⎤<br />
⎥ =<br />
⎥<br />
⎦<br />
276<br />
•138
13.2.4 Interval zaupanja za razliko aritmetičnih ... / 2<br />
277<br />
2<br />
σ X<br />
• Običajno populacijske variance ne poz<strong>na</strong>mo, zato jo<br />
ocenimo <strong>na</strong> vzorcu prve in druge populacije:<br />
s<br />
1<br />
n1<br />
n2<br />
*2<br />
2<br />
*2<br />
2<br />
X 1<br />
= ∑(<br />
xi<br />
− X1)<br />
sX<br />
2<br />
= ∑(<br />
xi<br />
− X<br />
2)<br />
n1<br />
−1<br />
i=<br />
1<br />
n2<br />
−1<br />
i=<br />
1<br />
• Ob predpostavki, da se spremenljivka X <strong>na</strong> obeh<br />
populacijah porazdeljuje normalno in če imamo dovolj<br />
velika vzorca, je interval zaupanja za razliko<br />
aritmetičnih sredin<br />
⎡<br />
P⎢X1<br />
− X<br />
⎢<br />
⎣<br />
= 1−α<br />
2<br />
− z<br />
α 2<br />
⋅<br />
s<br />
n<br />
*2<br />
X 1<br />
1<br />
s<br />
X<br />
+<br />
n<br />
*2<br />
2<br />
2<br />
≤ μ<br />
X1<br />
− μ<br />
X 2<br />
≤ X<br />
1<br />
− X<br />
1<br />
2<br />
+ z<br />
α 2<br />
⋅<br />
s<br />
n<br />
*2<br />
X 1<br />
1<br />
s<br />
X<br />
+<br />
n<br />
*2<br />
2<br />
2<br />
(13.10)<br />
⎤<br />
⎥ =<br />
⎥<br />
⎦<br />
13.2.5 Interval zaupanja za razliko<br />
deležev pri velikih vzorcih<br />
• Interval zaupanja za razliko deležev dveh populacij je:<br />
P[<br />
pˆ<br />
− pˆ<br />
1<br />
≤ pˆ<br />
1<br />
2<br />
− pˆ<br />
− z<br />
2<br />
α 2<br />
+ z<br />
⋅<br />
α 2<br />
⋅<br />
pˆ<br />
(1 − ˆ ) ˆ<br />
1<br />
p1<br />
p<br />
+<br />
n<br />
1<br />
pˆ<br />
(1 − ˆ ) ˆ<br />
1<br />
p1<br />
p<br />
+<br />
n<br />
1<br />
2<br />
(1 − pˆ<br />
n<br />
2<br />
2<br />
(1 − pˆ<br />
n<br />
2<br />
2<br />
)<br />
≤ p<br />
2<br />
1<br />
− p<br />
2<br />
)<br />
] = 1−α<br />
≤<br />
(13.11)<br />
kjer smo v standardni <strong>na</strong>paki SE( pˆ<br />
1<br />
− pˆ 2) upoštevali<br />
<strong>na</strong>mesto populacijskih deležev p 1 in p 2 njihove vzorčne<br />
ocene ˆp<br />
1in ˆp<br />
2.<br />
278<br />
•139
13.2.6 Določanje velikosti vzorca<br />
• Raziskovalci po<strong>na</strong>vadi vedo, kako <strong>na</strong>tančno želijo <strong>na</strong><br />
osnovi vzorčnih podatkov oceniti parametre, ki jih<br />
potrebujejo (npr. aritmetično sredino neke<br />
spremenljivke ali delež neke lastnosti <strong>na</strong> populaciji).<br />
279<br />
• Na osnovi vedenja, kolikš<strong>na</strong> je lahko <strong>na</strong>jvečja razlika E<br />
med iskanim parametrom γ in njegovo vzorčno oceno g<br />
(dovoljeno odstopanje)<br />
γ − g < E<br />
lahko izraču<strong>na</strong>mo, kako velik vzorec potrebujemo.<br />
• Iz intervala zaupanja lahko razberemo, da je pri izbrani<br />
stopnji zaupanja<br />
1−α<br />
γ − g = z ⋅ SE(<br />
g)<br />
< E<br />
α 2<br />
(13.12)<br />
13.2.6.1 Določanje velikosti vzorca, ko ocenjujemo<br />
aritmetično sredino<br />
• V primeru določanja velikosti vzorca za ocenjevanje<br />
aritmetične sredine <strong>na</strong> populaciji, vstavimo v nee<strong>na</strong>čbo<br />
(13.12) standardno <strong>na</strong>pako za aritmetično sredino<br />
z ⋅ σ X<br />
α 2<br />
< E<br />
(13.13)<br />
n<br />
in po krajšem premisleku dobimo<br />
⎛ z<br />
n ><br />
⎜<br />
⎝<br />
α 2<br />
⋅σ X<br />
E<br />
⎞<br />
⎟<br />
⎠<br />
2<br />
(13.14)<br />
280<br />
•140
13.2.6.1 Določanje velikosti vzorca ... / 2<br />
Primer 13.4: Denimo, da želimo oceniti povprečno starost<br />
podjetnikov majhnih podjetij v Sloveniji, tako da bo razlika med<br />
populacijskim povprečjem in ocenjenim povprečjem manjša od<br />
enega leta (E = 1). Če vemo, da je populacijski standardni odklon<br />
σ X = 10 let in izberemo tveganje 5 %, lahko ocenimo, kako velik<br />
vzorec potrebujemo:<br />
⎛ z<br />
n ><br />
⎜<br />
⎝<br />
α 2<br />
⋅σ X<br />
E<br />
⎞<br />
⎟<br />
⎠<br />
2<br />
2<br />
⎛1.96⋅10<br />
⎞<br />
= ⎜ ⎟<br />
⎝ 1 ⎠<br />
= 384.2<br />
Če želimo doseči dogovorjeno <strong>na</strong>tančnost ocenjevanja, potrebujemo<br />
vsaj 385 enot v slučajnem vzorcu.<br />
281<br />
13.2.6.2 Določanje velikosti vzorca, ko ocenjujemo<br />
delež<br />
• Podobno lahko ocenimo velikost vzorca, če želimo<br />
ocenjevati z določeno <strong>na</strong>tančnostjo populacijski delež:<br />
n<br />
z<br />
2<br />
2<br />
> α<br />
⋅ p ⋅(1<br />
− p)<br />
E<br />
2<br />
(13.15)<br />
282<br />
•141
13.3 Porazdelitev vzorčnih<br />
statistik pri majhnih vzorcih<br />
• Za velike vzorce smo ugotovili, da se cenilke<br />
obrav<strong>na</strong>vanih parametrov porazdeljujejo normalno ali<br />
približno normalno.<br />
• Poglejmo, kakšne so porazdelitve statistik, če parametre<br />
ocenjujemo <strong>na</strong> osnovi majhnih vzorcev.<br />
283<br />
13.3 Porazdelitve vzorčnih statistik pri majhnih vzorcih / 2<br />
• Če se spremenljivka X porazdeljuje <strong>na</strong> populaciji normalno<br />
in je populacijski standardni odklon σ X<br />
z<strong>na</strong>n, potem za<br />
vsako velikost vzorca velja, da se vzorčne aritmetične<br />
sredine porazdeljujejo normalno<br />
oziroma<br />
σ<br />
X<br />
X : N(<br />
μ<br />
X<br />
, )<br />
n<br />
X − μ<br />
X<br />
Z =<br />
σ n<br />
X<br />
N(0,1)<br />
(13.16)<br />
284<br />
•142
13.3 Porazdelitve vzorčnih statistik pri majhnih vzorcih / 3<br />
• Če se spremenljivka X ne porazdeljuje <strong>na</strong> populaciji<br />
normalno in je populacijski standardni odklon σ X<br />
z<strong>na</strong>n,<br />
potem za velike vzorce (n>30) velja, da se vzorčne<br />
aritmetične sredine porazdeljujejo približno normalno<br />
oziroma<br />
σ<br />
X<br />
X : N(<br />
μ<br />
X<br />
, )<br />
n<br />
X − μ<br />
X<br />
Z =<br />
σ n<br />
X<br />
N(0,1)<br />
(13.17)<br />
285<br />
13.3 Porazdelitve vzorčnih statistik pri majhnih vzorcih / 4<br />
• Če se spremenljivka X porazdeljuje <strong>na</strong> populaciji normalno<br />
in parameter σ X<br />
ni z<strong>na</strong>n, potem za velike vzorce (n>30)<br />
velja, da se vzorčne aritmetične sredine porazdeljujejo<br />
približno normalno<br />
oziroma<br />
X : N(<br />
*<br />
X<br />
μ X<br />
X − μ<br />
Z = X<br />
s n<br />
*<br />
sX<br />
, )<br />
n<br />
N(0,1)<br />
(13.18)<br />
286<br />
• Velikost vzorca, pri katerem velja, da se spremenljivka Z<br />
porazdeljuje približno normalno (13.17 in 13.18), je<br />
odvis<strong>na</strong> od simetričnosti porazdelitve.<br />
•143
13.3 Porazdelitve vzorčnih statistik pri majhnih vzorcih / 5<br />
• Če se spremenljivka X porazdeljuje <strong>na</strong> populaciji normalno<br />
in σ X<br />
ni z<strong>na</strong>n, potem za male vzorce ( n ≤ 30 ) velja, da se<br />
statistika<br />
t<br />
X − μ<br />
X<br />
=<br />
* ν = n−1<br />
sX<br />
n<br />
t<br />
(13.19)<br />
porazdeljuje po Studentovi porazdelitvi t z<br />
prostostno stopnjo.<br />
ν = n −1<br />
• Porazdelitev t je pojasnje<strong>na</strong> v posebnem poglavju v<br />
<strong>na</strong>daljevanju (poglavje 13.4).<br />
287<br />
13.3 Porazdelitve vzorčnih statistik pri majhnih vzorcih / 6<br />
• Če se spremenljivka X porazdeljuje <strong>na</strong> populaciji normalno<br />
N( μ<br />
X<br />
, σ<br />
X<br />
) , potem tako za velike kot tudi majhne vzorce<br />
velja, da se statistika<br />
χ<br />
(n -1) ⋅<br />
*2<br />
2 s 2<br />
= X<br />
χ<br />
2<br />
ν = n−1<br />
σ<br />
X<br />
2<br />
(13.20)<br />
porazdeljuje po porazdelitvi z ν = n −1 prostostno<br />
*2<br />
stopnjo, kjer je vzorč<strong>na</strong> varianca.<br />
2<br />
χ<br />
s X<br />
• Porazdelitev je pojasnje<strong>na</strong> v posebnem poglavju v<br />
<strong>na</strong>daljevanju (poglavje 13.5).<br />
χ<br />
288<br />
•144
13.3 Porazdelitve vzorčnih statistik pri majhnih vzorcih / 7<br />
289<br />
• Denimo, da imamo dve populaciji. Spremenljivka X se <strong>na</strong><br />
obeh populacijah porazdeljuje normalno z e<strong>na</strong>kima<br />
variancama: N( μ<br />
X1,<br />
σ<br />
X<br />
) in N( μ<br />
X 2,<br />
σ<br />
X<br />
) . Če neodvisno<br />
izberemo iz vsake populacije slučajne vzorce (tudi<br />
majhne), se statistika<br />
X1<br />
− X<br />
2<br />
− ( μ<br />
X1<br />
− μ<br />
X 2)<br />
n1<br />
⋅n2<br />
t = t<br />
*<br />
ν = n 2 (13.21)<br />
1+<br />
n2<br />
−<br />
sX<br />
n1<br />
+ n2<br />
kjer je oce<strong>na</strong> populacijske variance, ki jo dobimo takole<br />
*2<br />
s X<br />
*2<br />
*2<br />
*2 ( n1<br />
−1)<br />
⋅ sX1<br />
+ ( n2<br />
−1)<br />
⋅ sX<br />
2<br />
sX<br />
=<br />
n1<br />
+ n2<br />
− 2<br />
porazdeljuje po porazdelitvi t z ν = n + n<br />
prostostnima stopnjama.<br />
1 2<br />
−<br />
2<br />
(13.22)<br />
13.4 Porazdelitev t<br />
• Porazdelitev t ali tudi Studentova porazdelitev je<br />
zelo podob<strong>na</strong> normalni porazdelitvi.<br />
• Matematično upanje slučajne spremenljivke, ki se<br />
porazdeljuje po porazdelitvi t je e<strong>na</strong>ko 0 ( E(<br />
t)<br />
= 0) ,<br />
porazdelitev je enovrh<strong>na</strong> in simetrič<strong>na</strong> ter ima večjo<br />
razpršenost, čim manjše je število prostostnih stopenj.<br />
• Ob večanju števila enot v vzorcu se porazdelitev t vedno<br />
bolj približuje standardizirani normalni porazdelitvi.<br />
290<br />
•145
13.4 Porazdelitev t / 2<br />
• Gostota verjetnosti porazdelitve t glede <strong>na</strong> različne<br />
stopnje prostosti:<br />
291<br />
13.5 Porazdelitev<br />
2<br />
χ<br />
2<br />
χ<br />
• Porazdelitev je definira<strong>na</strong> le za pozitivne vrednosti<br />
slučajne spremenljivke, je enovrh<strong>na</strong> in tem bolj<br />
asimetrič<strong>na</strong> v desno, čim manjše je število prostostnih<br />
stopenj.<br />
• Ob večanju števila enot v vzorcu se porazdelitev<br />
vedno bolj približuje standardizirani normalni<br />
porazdelitvi.<br />
2<br />
χ<br />
292<br />
•146
2<br />
13.5 Porazdelitev χ / 2<br />
2<br />
χ<br />
• Porazdelitev glede <strong>na</strong> različne stopnje prostosti:<br />
293<br />
13.6 Intervali zaupanja pri<br />
majhnih vzorcih<br />
13.6.1 Interval zaupanja za<br />
aritmetično sredino pri majhnih vzorcih<br />
294<br />
• V primeru, da raču<strong>na</strong>mo interval zaupanja iz malega<br />
vzorca ( n ≤ 30 ) ter da je populacijski standardni odklon<br />
σ X<br />
z<strong>na</strong>n, je interval zaupanja za populacijsko<br />
aritmetično sredino μ<br />
X<br />
pri dani stopnji zaupanja 1−α<br />
⎡ σ<br />
X<br />
σ<br />
X ⎤<br />
P⎢X<br />
− zα<br />
2<br />
⋅ ≤ μ<br />
X<br />
≤ X + zα<br />
2<br />
⋅ ⎥ = 1−α<br />
(13.23)<br />
⎣ n<br />
n ⎦<br />
Vrednosti z α 2<br />
preberemo iz preglednice porazdelitev<br />
(Statistika – Vaje, S. Drobne in G. Turk) ali izraču<strong>na</strong>mo<br />
v Excelu s funkcijo NORMSINV, ali v programu<br />
STATKALK.<br />
•147
13.6.1 Interval zaupanja za aritmetično sredino ... / 2<br />
• V primeru, da raču<strong>na</strong>mo interval zaupanja iz malega<br />
vzorca ( n ≤ 30 ) ter da je populacijski standardni odklon<br />
σ X<br />
ni z<strong>na</strong>n, je interval zaupanja za populacijsko<br />
aritmetično sredino μ<br />
X<br />
pri dani stopnji zaupanja 1−α<br />
*<br />
*<br />
⎡ s<br />
⎤<br />
x<br />
sx<br />
P⎢X<br />
− tα<br />
2<br />
⋅ ≤ μ<br />
X<br />
≤ X + tα<br />
2<br />
⋅ ⎥ = 1−α<br />
(13.24)<br />
⎣ n<br />
n ⎦<br />
Vrednosti t α 2<br />
preberemo iz preglednice porazdelitev<br />
(Statistika – Vaje, S. Drobne in G. Turk) ali izraču<strong>na</strong>mo<br />
v Excelu s funkcijo TINV, ali v programu STATKALK.<br />
295<br />
13.6.1 Interval zaupanja za aritmetično sredino ... / 3<br />
• Gostota verjetnosti statistike t in dvo<strong>stran</strong>ski interval<br />
zaupanja<br />
296<br />
•148
13.6.1 Interval zaupanja za aritmetično sredino ... / 4<br />
• Gostota verjetnosti statistike t in eno<strong>stran</strong>ski interval<br />
zaupanja<br />
297<br />
13.6.1 Interval zaupanja za aritmetično sredino ... / 5<br />
298<br />
Primer 13.5: Vzemimo, da se spremenljivka X (število ur branja<br />
dnevnih časopisov <strong>na</strong> teden) porazdeljuje normalno N( μ<br />
X<br />
, σ<br />
X<br />
) . Na<br />
osnovi podatkov za sedem slučajno izbranih oseb ocenimo interval<br />
zaupanja za aritmetično sredino pri tveganju 10 % (x i<br />
= 5, 7, 9, 7,<br />
6, 10, 5).<br />
n<br />
n<br />
1 49<br />
*2 1<br />
X = ∑ xi<br />
= = 7 sX<br />
= ∑(<br />
xi<br />
n 7<br />
n −1<br />
i=<br />
1<br />
Iz preglednice za porazdelitev t preberemo, da je<br />
in interval zaupanja je<br />
⎡<br />
P⎢X<br />
−<br />
⎣<br />
⎡<br />
P⎢7<br />
−1.943<br />
⎣<br />
i=<br />
1<br />
t α<br />
*<br />
sx<br />
tα<br />
2<br />
⋅ ≤ μ<br />
X<br />
≤ X + tα<br />
2<br />
⋅<br />
n<br />
3.67<br />
⋅ ≤ μ<br />
X<br />
≤ 7 + 1.943⋅<br />
7<br />
P[ 5.6 ≤ μ ≤ 8.4] = 0. 9<br />
2<br />
( n −1)<br />
= t0.<br />
05(6)<br />
= 1.943<br />
X<br />
− X )<br />
2<br />
*<br />
s ⎤<br />
x<br />
⎥ = 1−α<br />
n ⎦<br />
22<br />
= = 3.67<br />
6<br />
3.67 ⎤<br />
⎥ = 1−<br />
0.1<br />
7 ⎦<br />
•149
13.6.2 Interval zaupanja za varianco<br />
pri majhnih in velikih vzorcih<br />
• Interval zaupanja za varianco pri velikih kot tudi pri<br />
majhnih vzorcih raču<strong>na</strong>mo<br />
⎡<br />
*2<br />
*2<br />
( n −1)<br />
⋅ s<br />
⎤<br />
X 2 ( n −1)<br />
⋅ sX<br />
P⎢<br />
≤ σ ≤ ⎥ = 1−α<br />
2<br />
X<br />
2<br />
(13.25)<br />
⎢⎣<br />
χ1<br />
−α<br />
2<br />
χα<br />
2 ⎥⎦<br />
2<br />
2<br />
kjer vrednosti χ1 − α 2 in χ α 2 preberemo iz preglednice<br />
porazdelitve (Statistika – Vaje, S. Drobne in G. Turk) ali<br />
izraču<strong>na</strong>mo v Excelu s funkcijo CHIINV, ali v programu<br />
STATKALK.<br />
2<br />
χ<br />
• Porazdelitev ni simetrič<strong>na</strong> (s povprečjem 0), zato<br />
moramo poiskati vsako vrednost posebej.<br />
299<br />
13.6.2 Interval zaupanja za varianco ... / 2<br />
2<br />
χ<br />
• Gostota verjetnosti statistike in dvo<strong>stran</strong>ski interval<br />
zaupanja<br />
300<br />
•150
13.6.2 Interval zaupanja za varianco ... / 3<br />
Primer 13.6: Vzemimo prejšnji primer (13.5) spremenljivke<br />
o številu ur branja dnevnih časopisov <strong>na</strong> teden. Za omenjene<br />
podatke iz vzorca ocenimo z intervalom zaupanja varianco pri<br />
10% tveganju.<br />
Iz preglednice za porazdelitev<br />
χ<br />
χ<br />
2<br />
α 2<br />
2<br />
1−α<br />
2<br />
2<br />
( n −1)<br />
= χ<br />
2<br />
( n −1)<br />
= χ<br />
2<br />
χ<br />
(6) = 1.64<br />
0.95<br />
in interval zaupanja za varianco je<br />
0.5<br />
preberemo, da je<br />
(6) = 12.59<br />
⎡<br />
*2<br />
*2<br />
( n −1)<br />
⋅ s ( 1) ⎤<br />
X 2 n − ⋅ sX<br />
P⎢<br />
≤ σ<br />
1<br />
2<br />
X<br />
≤<br />
2 ⎥ = −α<br />
⎢⎣<br />
χ1<br />
−α<br />
2<br />
χα<br />
2 ⎥⎦<br />
⎡(7<br />
−1)<br />
⋅3.67<br />
2 (7 −1)<br />
⋅3.67⎤<br />
P⎢<br />
≤ σ<br />
X<br />
≤<br />
= 1−<br />
0.1<br />
12.6<br />
1.64 ⎥<br />
⎣<br />
⎦<br />
P<br />
2<br />
[ 1.75 ≤ σ ≤13.43] = 0. 9<br />
X<br />
301<br />
13.6.3 Interval zaupanja za razliko<br />
aritmetičnih sredin pri majhnih vzorcih<br />
• Interval zaupanja za razliko aritmetičnih sredin pri<br />
majhnih vzorcih raču<strong>na</strong>mo<br />
P[<br />
X<br />
1<br />
− X<br />
≤ X<br />
1<br />
2<br />
− t<br />
− X<br />
α 2<br />
2<br />
+ t<br />
⋅ s<br />
*<br />
X<br />
α 2<br />
⋅<br />
⋅ s<br />
*<br />
X<br />
n1<br />
+ n<br />
n ⋅n<br />
⋅<br />
1<br />
n1<br />
+ n<br />
n ⋅n<br />
1<br />
2<br />
2<br />
≤ μ<br />
2<br />
2<br />
X 1<br />
− μ<br />
X 2<br />
] = 1−α<br />
≤<br />
(13.26)<br />
*<br />
s X<br />
kjer je pojasnje<strong>na</strong> v (13.22).<br />
302<br />
•151
13.6.4 Interval zaupanja za delež<br />
pri majhnih vzorcih<br />
• Interval zaupanja za delež pri majhnih vzorcih je:<br />
1<br />
P[<br />
pˆ<br />
−<br />
2<br />
z<br />
1+<br />
n<br />
1−α<br />
2<br />
1<br />
≤ pˆ<br />
+<br />
2<br />
z<br />
1+<br />
n<br />
1−α<br />
2<br />
2<br />
z<br />
⋅(<br />
pˆ<br />
+<br />
2n<br />
1−α<br />
2<br />
2<br />
z<br />
⋅(<br />
pˆ<br />
+<br />
2n<br />
1−α<br />
2<br />
− z<br />
− z<br />
1−α<br />
2<br />
1−α<br />
2<br />
2<br />
pˆ<br />
⋅(1<br />
− pˆ)<br />
z<br />
+<br />
n 4n<br />
1−α<br />
2<br />
2<br />
2<br />
pˆ<br />
⋅(1<br />
− pˆ)<br />
z<br />
+<br />
n 4n<br />
1−α<br />
2<br />
2<br />
) ≤ p ≤<br />
(13.27)<br />
)] = 1−α<br />
kjer je<br />
pˆ<br />
vzorčni delež.<br />
303<br />
14. PREIZKUŠANJE<br />
DOMNEV<br />
• Statistič<strong>na</strong> domneva (hipoteza) je vsaka domneva o<br />
nez<strong>na</strong>ni porazdelitvi vrednosti slučajne spremenljivke.<br />
• Domneva je lahko:<br />
• parametrič<strong>na</strong>, to je domneva o vrednosti nekega<br />
parametra porazdelitve, ali<br />
• neparametrič<strong>na</strong>, to je domneva o neki neparametrični<br />
lastnosti (tip porazdelitve, neodvisnost ...) porazdelitve<br />
slučajne spremenljivke.<br />
• Preizkušanje domneve ali test je vsak postopek, po<br />
katerem lahko <strong>na</strong> temelju vzorca slučajne spremenljivke<br />
domnevo, ki jo preizkušamo, zavrnemo ali ne.<br />
304<br />
•152
14. PREIZKUŠANJE DOMNEV / 2<br />
Primer 14.1: Postavimo domnevo o vrednosti nekega<br />
parametra ter jo preizkusimo.<br />
• Postavimo domnevo vrednosti parametra, npr. deleža enot<br />
populacije z določeno lastnostjo (p). Denimo, da je<br />
domneva<br />
H : p H<br />
= 0.36<br />
• Tvorimo vse slučajne vzorce velikosti, <strong>na</strong> primer, n = 900<br />
enot in <strong>na</strong> vsakem vzorcu določimo vzorčni delež pˆ (delež<br />
enot v vzorcu z določeno lastnostjo).<br />
• Ob predpostavki, da je domneva pravil<strong>na</strong>, vemo, da se<br />
vzorčni deleži porazdeljujejo približno normalno<br />
N(<br />
p<br />
H<br />
,<br />
p<br />
H<br />
⋅(1<br />
− p<br />
n<br />
H<br />
)<br />
)<br />
305<br />
14. PREIZKUŠANJE DOMNEV / 3<br />
• Vzemimo en slučajen vzorec z vzorčnim deležem pˆ .<br />
Ta se lahko bolj ali manj razlikuje od p H . Če se zelo<br />
razlikuje, lahko podvomimo o resničnosti p H<br />
. Zato<br />
<strong>na</strong>redimo okoli p H območje sprejemanja domneve<br />
in izven tega območja območje zavračanja domneve<br />
(tudi kritično območje).<br />
• Denimo, da je območje zavračanja določeno s 5 %<br />
vzorcev, ki imajo ekstremne vrednosti deležev<br />
(2.5 % <strong>na</strong> levo in 2.5 % <strong>na</strong> desno).<br />
306<br />
•153
14. PREIZKUŠANJE DOMNEV / 4<br />
• Vzorč<strong>na</strong> deleža, ki ločita območje sprejemanja od območja<br />
zavračanja domneve lahko izraču<strong>na</strong>mo takole:<br />
pˆ<br />
pˆ<br />
1,2<br />
1,2<br />
= p<br />
H<br />
± z<br />
α 2<br />
= 0.36 ± 1.96<br />
p<br />
H<br />
⋅(1<br />
− p<br />
n<br />
H<br />
)<br />
0.36⋅(1<br />
− 0.36)<br />
900<br />
= 0.36 ± 0.03<br />
307<br />
14. PREIZKUŠANJE DOMNEV / 5<br />
• ... oziroma prikažemo takole:<br />
pˆ<br />
pˆ<br />
308<br />
•154
14.1 Napaki I. in II. vrste<br />
309<br />
• Sprejemanje ali zavračanje domnev po opisanem<br />
postopku (glej primer 14.1) je lahko <strong>na</strong>pačno v dveh<br />
smislih:<br />
α<br />
1. Napaka I. vrste ( ):<br />
Če vzorč<strong>na</strong> vrednost deleža pade v območje<br />
zavračanja, domnevo p H zavrnemo. Pri tem pa<br />
vemo, da ob resnični domnevi p H<br />
obstajajo vzorci,<br />
ki imajo vrednosti v območju zavračanja. α je<br />
verjetnost, da vzorč<strong>na</strong> vrednost pade v območje<br />
zavračanja ob predpostavki, da je domneva<br />
resnič<strong>na</strong>. Zato je α verjetnost, da zavrnemo<br />
pravilno domnevo. To verjetnost imenujemo<br />
<strong>na</strong>paka I. vrste. Ta <strong>na</strong>paka je merljiva in jo lahko<br />
poljubno manjšamo.<br />
14.1 Napaki I. in II. vrste / 2<br />
310<br />
β<br />
2. Napaka II. vrste ( ):<br />
Vzorč<strong>na</strong> vrednost lahko pade v območje<br />
sprejemanja, čeprav je domnev<strong>na</strong> vrednost<br />
parametra <strong>na</strong>pač<strong>na</strong>. V primeru, ki ga obrav<strong>na</strong>vamo<br />
(14.1), <strong>na</strong>j bo prava vrednost deleža <strong>na</strong> populaciji<br />
p=0.40. Tedaj je porazdelitev vzorčnih deležev<br />
p ⋅(1<br />
− p)<br />
N ( p,<br />
) = N(0.40;0.0163)<br />
n<br />
Ker je območje sprejemanja domneve v intervalu<br />
0.33<br />
≤ p ≤ 0.39, lahko izraču<strong>na</strong>mo verjetnost, da<br />
bomo sprejeli <strong>na</strong>pačno domnevo takole:<br />
β = P[ 0.33 ≤ p ≤ 0.39] = 0.27<br />
Napako II. vrste lahko izraču<strong>na</strong>mo le, če imamo<br />
z<strong>na</strong>no resnično vrednost parametra p. Ker ga<br />
po<strong>na</strong>vadi ne poz<strong>na</strong>mo, tudi ne poz<strong>na</strong>mo <strong>na</strong>pake II.<br />
vrste. Zato takšne domneve ne moremo sprejeti.<br />
•155
14.1 Napaki I. in II. vrste / 3<br />
• Verjetnost, da bomo sprejeli <strong>na</strong>pačno domnevo<br />
= P[ 0.33 ≤ p ≤ 0.39] = 0.27<br />
β<br />
izraču<strong>na</strong>mo takole:<br />
Poz<strong>na</strong>mo torej pravo vrednost p=0.40. Zanima <strong>na</strong>s torej<br />
plošči<strong>na</strong> pod krivuljo normalne porazdelitve okrog prave<br />
vrednosti p za 0.33<br />
≤ p ≤ 0.39:<br />
pˆ<br />
1<br />
− p 0.33−<br />
0.40<br />
z1<br />
= = = −4.294<br />
SE(<br />
pˆ)<br />
0.0163<br />
pˆ<br />
2<br />
− p 0.39 − 0.40<br />
z2<br />
= = = −0.613<br />
SE(<br />
pˆ)<br />
0.0163<br />
311<br />
<strong>na</strong>to pa poiščemo ploščino pod krivuljo standardizirane<br />
normalne porazdelitve (0.27).<br />
14.2 Postopek preizkušanja<br />
domnev<br />
1. Postavimo ničelno in alter<strong>na</strong>tivno domnevo o<br />
parametru porazdelitve<br />
H 0 – ničel<strong>na</strong> domneva je domneva, ki jo v danih<br />
okolišči<strong>na</strong>h želimo preizkusiti;<br />
H 1 – alter<strong>na</strong>tiv<strong>na</strong> (osnov<strong>na</strong>) domneva je domneva,<br />
ki je z ničelno domnevo nezdružljiva.<br />
2. Za parameter poiščemo kar se da dobro cenilko (npr.<br />
nepri<strong>stran</strong>sko) in njeno porazdelitev ali porazdelitev<br />
ustrezne statistike (izraz, v katerem <strong>na</strong>stopa cenilka).<br />
α<br />
3. Izberemo tveganje . Na osnovi izbranega tveganja<br />
in porazdelitve statistike določimo kritično območje<br />
oziroma območje zavračanja ničelne domneve.<br />
312<br />
•156
14.2 Postopek preizkušanja domnev / 2<br />
4. Na vzorčnih podatkih izraču<strong>na</strong>mo vrednost statistike.<br />
5. Sklep:<br />
• Če vrednost (eksperimentalne) statistike pade v<br />
kritično območje, ničelno domnevo zavrnemo in<br />
sprejmemo alter<strong>na</strong>tivno domnevo s tveganjem .<br />
• Če vrednost (eksperimentalne) statistike ne pade<br />
v kritično območje, ničelne domneve ne moremo<br />
zavrniti s tveganjem .<br />
α<br />
α<br />
313<br />
• Slika <strong>na</strong> <strong>na</strong>slednji <strong>stran</strong>i prikazuje območje zavrnitve<br />
ničelne domneve pri preizkušanju domneve o<br />
populacijskem deležu pri eno<strong>stran</strong>skem oziroma<br />
dvo<strong>stran</strong>skem testu ter pri tveganju .<br />
α<br />
14.2 Postopek preizkušanja domnev / 3<br />
pˆ<br />
pˆ<br />
314<br />
pˆ<br />
•157
14.2 Postopek preizkušanja domnev / 4<br />
• Primeri domnev:<br />
• parametrični domnevi dvo<strong>stran</strong>skega testa:<br />
H : = 12<br />
0<br />
1<br />
μ<br />
X<br />
H : μ<br />
X<br />
≠ 12<br />
• parametrični domnevi eno<strong>stran</strong>skega testa:<br />
H : = 12<br />
0<br />
H : σ<br />
1<br />
σ<br />
X<br />
X<br />
< 12<br />
• neparametrični domnevi:<br />
H : porazdelitev je normal<strong>na</strong><br />
H<br />
0<br />
1<br />
: porazdelitev ni normal<strong>na</strong><br />
315<br />
14.2.1 Preizkušanje domneve<br />
o pričakovani vrednosti<br />
• Če je spremenljivka X porazdelje<strong>na</strong> normalno, N( X<br />
,<br />
X<br />
),<br />
z z<strong>na</strong>nim standardnim odklonom σ X<br />
in nez<strong>na</strong>no<br />
pričakovano vrednostjo μ X<br />
in velja ničel<strong>na</strong> domneva<br />
H : μ = μ 0 X 0<br />
potem je statistika<br />
X − μ<br />
X<br />
Z =<br />
(14.1)<br />
σ<br />
X<br />
n<br />
porazdelje<strong>na</strong> standardizirano normalno, Z:N(0,1), kjer<br />
je X povprečje vzorčnih podatkov ter n velikost vzorca.<br />
μ<br />
σ<br />
316<br />
•158
14.2.1 Preizkušanje domneve o pričakovani vrednosti / 2<br />
• Če je spremenljivka X porazdelje<strong>na</strong> normalno, N( μ<br />
X<br />
, σ<br />
X<br />
),<br />
z nez<strong>na</strong>nim standardnim odklonom σ X<br />
in nez<strong>na</strong>no<br />
pričakovano vrednostjo in velja ničel<strong>na</strong> domneva<br />
H : μ = μ 0 X 0<br />
potem je statistika<br />
X − μ<br />
X<br />
T =<br />
*<br />
s n<br />
X<br />
μ X<br />
porazdelje<strong>na</strong> po porazdelitvi t z<br />
stopnjo.<br />
ν = n −1<br />
prostostno<br />
(14.2)<br />
317<br />
14.2.1 Preizkušanje domneve o pričakovani vrednosti / 3<br />
318<br />
Primer 14.2: Vzemimo vzorec sedmih odgovorov glede<br />
povprečnega števila ur branja dnevnih časopisov <strong>na</strong> teden iz<br />
primera 13.5, za katere smo izraču<strong>na</strong>li X = 7 in s *2<br />
X<br />
= 3. 67. Pri<br />
tveganju 10 % preizkusimo domnevo, da je povprečno število ur<br />
branja dnevnih časopisov v Sloveniji večje od 6 ur tedensko.<br />
Postavimo ničelno in alter<strong>na</strong>tivno domnevo, izraču<strong>na</strong>mo testno<br />
statistiko, ki jo primerjamo s kritično vrednostjo t:<br />
H : μ = 6<br />
0<br />
1<br />
X<br />
H : μ<br />
X<br />
X −<br />
T =<br />
*<br />
s<br />
X<br />
> 6<br />
μ X<br />
7 − 6<br />
= = 1.378<br />
n 1.92 7<br />
Alter<strong>na</strong>tiv<strong>na</strong> domneva kaže eno<strong>stran</strong>ski test: možnost <strong>na</strong>pake I.<br />
vrste je le <strong>na</strong> desni <strong>stran</strong>i porazdelitve t, kjer zavračamo ničelno<br />
domnevo. Iz preglednice porazdelitve t preberemo, da je<br />
tα<br />
= 0 .1, ν = n−1=<br />
6<br />
= ± 1.440 .<br />
Sklep: Statistika T ne pade v kritično območje (T ni večja od t),<br />
zato ničelne domneve ne moremo zavrniti.<br />
Odgovor: Pri tveganju 10 % ne moremo trditi, da Slovenci beremo<br />
dnevne časopise v povprečju več kot 6 ur tedensko.<br />
•159
14.2.1 Preizkušanje domneve o pričakovani vrednosti / 4<br />
Primer 14.3: Koliko tvegamo ob trditi, da drži domneva<br />
postavlje<strong>na</strong> v primeru 14.2.<br />
V tem primeru moramo ničelno domnevo zavrniti. To lahko<br />
zavrnemo le takrat, ko statistika T pade v kritično območje<br />
(T>t). Torej je potrebno poiskati prvo takšno kritično<br />
vrednost t, da bo manjša od statistike T.<br />
Iz preglednice porazdelitve t odčitamo, da je<br />
1.134<br />
t α = 0 .15, ν = 6<br />
=<br />
S tveganjem 15 % lahko trdimo, da Slovenci beremo dnevne<br />
časopise v povprečju več kot 6 ur tedensko.<br />
319<br />
14.2.2 Preizkušanje domneve<br />
o razliki pričakovanih vrednosti<br />
320<br />
• Če sta slučajni spremenljivki X in Y porazdeljeni<br />
normalno, N( μ<br />
X<br />
, σ<br />
X<br />
) in N( μY<br />
, σ<br />
Y<br />
) z z<strong>na</strong>nim e<strong>na</strong>kim<br />
standardnim odklonom σ X<br />
= σ Y<br />
= σ ter nez<strong>na</strong>nima<br />
pričakovanima vrednostima μ X<br />
in μ Y<br />
in velja ničel<strong>na</strong><br />
domneva<br />
H<br />
0<br />
: μ X<br />
− μ Y<br />
= δ<br />
potem je statistika<br />
X Y −δ<br />
Z =<br />
−1 1<br />
σ + (14.3)<br />
n X<br />
n Y<br />
porazdelje<strong>na</strong> standardizirano normalno, kjer sta nX<br />
in nY<br />
velikosti vzorcev slučajnih spremenljivk X in Y.<br />
•160
14.2.2 Preizkušanje domneve o razliki pričakovanih ... / 2<br />
321<br />
• Če sta slučajni spremenljivki X in Y porazdeljeni<br />
normalno, N( μ<br />
X<br />
, σ<br />
X<br />
) in N( μY<br />
, σ<br />
Y<br />
) z nez<strong>na</strong>nim, vendar<br />
e<strong>na</strong>kim standardnim odklonom σ X<br />
= σ Y<br />
= σ ter<br />
nez<strong>na</strong>nima pričakovanima vrednostima μ<br />
X<br />
in μY<br />
in velja<br />
ničel<strong>na</strong> domneva<br />
H<br />
0<br />
: μ X<br />
− μ Y<br />
= δ<br />
potem je statistika<br />
X −Y<br />
−δ<br />
T =<br />
* 1 1<br />
s<br />
p<br />
+<br />
(14.4)<br />
nX<br />
nY<br />
porazdelje<strong>na</strong> po porazdelitvi t z ν = n X<br />
+ nY<br />
− 2 , kjer<br />
2 2<br />
oceno variance σ ≈ s p<br />
izraču<strong>na</strong>mo po e<strong>na</strong>čbi (14.5) <strong>na</strong><br />
<strong>na</strong>slednji <strong>stran</strong>i.<br />
14.2.2 Preizkušanje domneve o razliki pričakovanih ... / 3<br />
• ... če se slučajni spremenljivki X in Y porazdeljujeta<br />
normalno, z nez<strong>na</strong>nim, vendar e<strong>na</strong>kim standardnim<br />
odklonom, ocenimo skupno varianco takole:<br />
s<br />
*2<br />
p<br />
( n<br />
=<br />
X<br />
*2<br />
−1)<br />
⋅ sX<br />
+ ( nY<br />
−1)<br />
⋅ s<br />
n + n − 2<br />
*2<br />
s X<br />
X<br />
*2<br />
s Y<br />
Y<br />
*2<br />
Y<br />
(14.5)<br />
kjer sta in nepri<strong>stran</strong>ski oceni vzorčnih varianc v<br />
vzorcu X oziroma Y.<br />
322<br />
•161
14.2.2 Preizkušanje domneve o razliki pričakovanih ... / 4<br />
323<br />
• V primeru, da preizkušamo domnevo o razliki<br />
pričakovanih vrednosti in da nez<strong>na</strong><strong>na</strong> standard<strong>na</strong><br />
odklo<strong>na</strong> nista e<strong>na</strong>ka, je statistika:<br />
X −Y<br />
−δ<br />
T =<br />
*2 *2<br />
sX<br />
sY<br />
(14.6)<br />
+<br />
n n<br />
X<br />
Y<br />
porazdelje<strong>na</strong> približno po porazdelitvi t z ν prostostnimi<br />
stopnjami, ki jih izraču<strong>na</strong>mo takole:<br />
*2 *2<br />
2<br />
⎛ s ⎞<br />
X<br />
sY<br />
⎜ +<br />
⎟<br />
⎝ nX<br />
nY<br />
ν =<br />
⎠<br />
*2 2 *2 2<br />
( s ) ( )<br />
(14.7)<br />
X<br />
nX<br />
sY<br />
nY<br />
+<br />
n −1<br />
n −1<br />
X<br />
Y<br />
14.2.2 Preizkušanje domneve o razliki pričakovanih ... / 5<br />
324<br />
Primer 14.4: Denimo, da velja sedem odgovorov o povprečnem<br />
številu ur branja dnevnih časopisov <strong>na</strong> teden iz primera 13.5 za<br />
moške (spremenljivka X). Podobno vprašanje smo zastavili šest<br />
<strong>na</strong>ključno izbranim ženskam ter dobili spodnje rezultate<br />
(sprememenljivka Y). Predpostavimo, da sta standard<strong>na</strong> odklo<strong>na</strong><br />
populacij e<strong>na</strong>ka. Pri tveganju 5 % preizkusimo domnevo, da obstaja<br />
razlika v branju dnevnih časopisov med spoloma.<br />
*2<br />
*2<br />
n = 7, X = 7, s = 3.67 n = 6, Y = 4.5, s 3.99<br />
X<br />
Postavimo ničelno in alter<strong>na</strong>tivno domnevo, po (14.5) ocenimo<br />
skupno varianco, po (14.4) izraču<strong>na</strong>mo statistiko T in jo primerjamo<br />
s kritično vrednostjo t pri α 2 = 0.025 in ν n X<br />
+ n − 2 = 7 + 6 − 2 = 11.<br />
H : μ − μ = 0<br />
0<br />
1<br />
X<br />
H : μ − μ ≠ 0<br />
X<br />
Y<br />
Y<br />
X Y<br />
Y<br />
=<br />
*2<br />
s p<br />
=<br />
Y<br />
(7 −1)<br />
⋅3.67<br />
+ (6 −1)<br />
⋅3.99<br />
=<br />
= 3.81<br />
7 + 6 − 2<br />
7 − 4.5 − 0<br />
T =<br />
= 2.304 t α 2 = 0.025, ν = 11<br />
= ± 2. 201<br />
1 1<br />
1.95 +<br />
7 6<br />
Z gotovostjo 95 % lahko trdimo, da obstaja razlika v branju<br />
dnevnih časopisov med spoloma v Sloveniji.<br />
•162
14.2.3 Preizkušanje domneve<br />
o varianci<br />
• Denimo, da je spremenljivka X porazdelje<strong>na</strong> normalno,<br />
N μ , σ ) , in da velja ničel<strong>na</strong> domneva<br />
(<br />
X X<br />
H : σ = σ 0 X 0<br />
potem je statistika<br />
*2<br />
( n −1)<br />
⋅ s<br />
H =<br />
X<br />
(14.8)<br />
2<br />
σ<br />
0<br />
2<br />
porazdelje<strong>na</strong> po porazdelitvi χ z ν = n −1<br />
prostostno<br />
stopnjo.<br />
Opomba: Pri dvo<strong>stran</strong>skem testu moramo pri odčitku<br />
2<br />
kritičnih vrednosti χ iz preglednice upoštevati spodnjo in<br />
zgornjo kritično vrednost, saj porazdelitev ni simetrič<strong>na</strong>.<br />
325<br />
14.2.3 Preizkušanje domneve o varianci / 2<br />
Primer 14.5: Obrav<strong>na</strong>vajmo podatke iz primera 14.4 o branju<br />
dnevnih časopisov <strong>na</strong> teden za moške in ženske skupaj. Iz <strong>na</strong>ših<br />
podatkov za sedem moških in šest žensk izraču<strong>na</strong>mo varianco<br />
*2<br />
s S<br />
= 3.81 . Podobne raziskave v tujini kažejo, da je standardni<br />
odklon večji od 1 ure in 30 minut. S tveganjem 10 % preizkusimo,<br />
ali lahko to trdimo tudi za slovenske razmere.<br />
Postavimo ničelno in alter<strong>na</strong>tivno domnevo, izraču<strong>na</strong>mo testno<br />
statistiko H po obrazcu (14.8) in jo primerjamo s kritično vrednostjo<br />
2<br />
χ :<br />
H<br />
0<br />
1<br />
: σ<br />
H : σ<br />
X<br />
X<br />
= 1.5<br />
> 1.5<br />
H<br />
( n −1)<br />
⋅<br />
=<br />
2<br />
σ<br />
0<br />
*2<br />
s S<br />
(13−1)<br />
⋅3.81<br />
=<br />
= 20.32<br />
2.25<br />
χ<br />
2<br />
1 −α<br />
= 0.9, ν = 12<br />
=<br />
18.549<br />
326<br />
Eksperimental<strong>na</strong> statistika pade v kritično območje, zato lahko<br />
ničelno domnevo zavrnemo. S tveganjem 10 % lahko trdimo, da je<br />
standardni odklon branja dnevnih časopisov <strong>na</strong> teden v Sloveniji<br />
večji od ene ure in pol.<br />
•163
14.2.4 Preizkušanje domneve<br />
o homogenosti populacij<br />
• Test homogenosti populacij (tud test F) uporabljamo<br />
za preizkušanje domneve o e<strong>na</strong>kosti varianc dveh<br />
populacij.<br />
• Če sta dve slučajni spremenljivki X in Y porazdeljeni<br />
normalno, N( μ<br />
X<br />
, σ<br />
X<br />
) in N( μ , z nez<strong>na</strong>nima<br />
Y<br />
, σ<br />
Y<br />
)<br />
standardnima odklonoma σ<br />
X<br />
in σ<br />
Y<br />
, potem je statistika<br />
*2 2<br />
sX<br />
σ<br />
X<br />
F =<br />
*2 2<br />
(14.9)<br />
sY<br />
σ<br />
Y<br />
porazdelje<strong>na</strong> po porazdelitvi F (Fischer-Snedercorjevi<br />
porazdelitvi) s prostostnima stopnjama ν X<br />
= n X<br />
−1 in<br />
ν Y<br />
n −1 .<br />
= Y<br />
327<br />
14.2.4 Preizkušanje domneve o homogenosti ... / 2<br />
• Pri preizkušanju ničelne domneve<br />
H<br />
σ = σ<br />
: 2 2<br />
0 X Y<br />
se test<strong>na</strong> statistika F poenostavi in dobimo:<br />
s<br />
F =<br />
s<br />
*2<br />
X<br />
*2<br />
Y<br />
(14.10)<br />
Statistiko F primerjamo s kritično vrednostjo f, ki jo<br />
odčitamo iz preglednic. Pri tem je potrebno upoštevati<br />
<strong>na</strong>vodila <strong>na</strong> <strong>na</strong>slednji <strong>stran</strong>i!<br />
328<br />
•164
14.2.4 Preizkušanje domneve o homogenosti ... / 3<br />
Pomembno:<br />
• Pri odčitku kritične vrednosti f iz preglednic moramo paziti,<br />
katero vzorčno varianco smo upoštevali v števcu in katero v<br />
imenovalcu e<strong>na</strong>čbe (14.10):<br />
• Varianca slučajne spremenljivke, ki je v števcu določa prvo<br />
2<br />
število prostostnih stopenj ( σ<br />
X<br />
⇒ ν<br />
X<br />
ali ν1<br />
), varianca<br />
slučajne spremenljivke, ki je v imenovalcu, pa določa drugo<br />
2<br />
število prostostnih stopenj ( σ ⇒ ν ali ν ).<br />
• V preglednicah porazdelitev imamo običajno izračune samo<br />
za f . Kritično vrednost pa izraču<strong>na</strong>mo po formuli:<br />
f<br />
α<br />
1−α<br />
2, ν1,<br />
ν 2<br />
2, ν1,<br />
ν 2<br />
= f<br />
1<br />
1−α<br />
2, ν 2 , ν1<br />
Y<br />
f α 2,<br />
ν1,<br />
ν 2<br />
Y<br />
2<br />
(14.11)<br />
329<br />
14.2.4 Preizkušanje domneve o homogenosti / 3<br />
Primer 14.6: Vzemimo podatke iz primera 14.4 o branju dnevnih<br />
časopisov <strong>na</strong> teden za moške in ženske. S stopnjo zaupanja 0.95<br />
preizkusimo domnevo, da populaciji nista homogeni (da sta<br />
standard<strong>na</strong> odklo<strong>na</strong> <strong>na</strong> populacijah različ<strong>na</strong>).<br />
330<br />
Iz primera (14.4) prevzemimo rezultate vzorčnih varianc:<br />
*2<br />
*2<br />
n X<br />
7, s = 3.67 n = 6, s 3.99<br />
=<br />
X Y<br />
Y<br />
=<br />
Postavimo ničelno in alter<strong>na</strong>tivno domnevo, izraču<strong>na</strong>jmo testno<br />
statistiko F ter jo primerjajmo s kritično vrednostjo f pri ν X<br />
=<br />
in = 6 −1<br />
= 5 prostostnih stopnjah:<br />
ν Y<br />
2 2<br />
H<br />
0<br />
: σ<br />
X<br />
= σ<br />
Y<br />
H : σ ≠ σ<br />
1<br />
s<br />
F =<br />
s<br />
2<br />
X<br />
*2<br />
X<br />
*2<br />
Y<br />
2<br />
Y<br />
3.67<br />
= = 0.920<br />
3.99<br />
f<br />
1−α<br />
2=<br />
0.975, ν1=<br />
6, ν 2 = 5<br />
f<br />
α 2=<br />
0.025, ν1=<br />
6, ν 2 = 5<br />
= 6.978<br />
S tveganjem 5 % ne moremo trditi, da je razpršenost branja<br />
dnevnih časopisov <strong>na</strong> teden med spoloma različ<strong>na</strong>.<br />
=<br />
f<br />
1<br />
1−α<br />
2=<br />
0.975, ν1=<br />
5, ν 2 = 6<br />
7 −1<br />
= 6<br />
= 0.167<br />
•165
14.2.5 Preizkušanje domneve<br />
o deležu<br />
331<br />
• Iz primera 14.1 vemo, da se, ob predpostavki, da<br />
je slučaj<strong>na</strong> spremenljivka X porazdelje<strong>na</strong> normalno<br />
N( μ , ) , vzorčni deleži porazdeljujejo približno<br />
X<br />
σ<br />
X<br />
normalno pH<br />
⋅(1<br />
− pH<br />
)<br />
N(<br />
pH<br />
,<br />
)<br />
n<br />
Če velja ničel<strong>na</strong> domneva<br />
H : p = p 0 0<br />
potem je statistika<br />
pˆ<br />
− p0<br />
Z =<br />
p ⋅(1<br />
− p ) n<br />
0<br />
0<br />
(14.12)<br />
porazdelje<strong>na</strong> po standardizirani normalni porazdelitvi,<br />
kjer je pˆ delež enot z določeno lastnostjo v vzorcu,<br />
pa testiran delež.<br />
p 0<br />
14.2.5 Preizkušanje domneve o deležu / 2<br />
Primer 14.7: Vzemimo vzorec 151 majhnih podjetij iz<br />
primera 13.3, kjer smo izraču<strong>na</strong>li delež obrtnih majhnih<br />
podjetij pˆ = 0.5. S tveganjem 0.05 preizkusimo domnevo, da<br />
je delež obrtnih majhnih podjetij v Sloveniji manjši od 0.6.<br />
Postavimo ničelno in alter<strong>na</strong>tivno domnevo, izraču<strong>na</strong>mo<br />
testno statistiko Z po obrazcu (14.12) in jo primerjamo s<br />
kritično vrednostjo:<br />
H<br />
0<br />
1<br />
: p = 0.6<br />
H : p < 0.6<br />
Z =<br />
0<br />
z α = 0.05<br />
= −<br />
pˆ<br />
− p<br />
p ⋅(1<br />
− p )<br />
1.645<br />
0<br />
0.5 − 0.6<br />
=<br />
0.6⋅(1<br />
− 0.6) 151<br />
0<br />
=<br />
−<br />
n<br />
2.508<br />
S tveganjem 5 % lahko trdimo, da je delež obrtnih majhnih<br />
podjetij v Sloveniji manjši od 60 %.<br />
332<br />
•166
14.2.6 Preizkušanje domneve<br />
o razliki deležov<br />
• Če sta slučajni spremenljivki X in Y porazdeljeni<br />
normalno, N( μ<br />
X<br />
, σ<br />
X<br />
) in N( μY<br />
, σ<br />
Y<br />
) in če velja ničel<strong>na</strong><br />
domneva<br />
H :<br />
0<br />
p X<br />
− p<br />
= δ<br />
potem je statistika<br />
Z =<br />
Y<br />
pˆ<br />
X<br />
− pˆ<br />
Y<br />
p ⋅(1<br />
− p)<br />
⋅(1<br />
n<br />
−δ<br />
X<br />
+ 1 n<br />
Y<br />
)<br />
(14.13)<br />
porazdelje<strong>na</strong> standardizirano normalno, kjer sta pˆ<br />
X<br />
in pˆ<br />
Y<br />
vzorč<strong>na</strong> deleža, pX<br />
in pY<br />
deleža v populacijah, p pa je<br />
skupen populacijski delež, ki ga ocenimo ...<br />
333<br />
14.2.6 Preizkušanje domneve o razliki deležev / 2<br />
• V primeru, da velja ničel<strong>na</strong> domneva pX = pY<br />
= p,<br />
ocenimo populacijski delež z obteženim povprečenjem<br />
vzorčnih deležev pˆ in pˆ :<br />
n<br />
p =<br />
X<br />
p<br />
n<br />
X<br />
X<br />
X<br />
+ nY<br />
p<br />
+ n<br />
Y<br />
Y<br />
Y<br />
k<br />
=<br />
n<br />
(14.14)<br />
kjer sta k 1 in k 2 števili elementov prvega oz. drugega<br />
vzorca z določeno lastnostjo.<br />
X<br />
X<br />
+ k<br />
+ n<br />
Y<br />
Y<br />
334<br />
•167
14.2.6 Preizkušanje domneve o razliki deležev / 3<br />
Primer 14.8: Želimo preveriti, ali je predsedniški kandidat različno<br />
priljubljen med mestnimi in vaškimi prebivalci. Zato smo izbrali dva<br />
slučaj<strong>na</strong> vzorca: od 300 vprašanih iz mesta bi jih 90 glasovalo za<br />
kandidata, od 200 vprašanih iz vasi pa bi za kandidata glasovalo 40<br />
vaščanov. Domnevo, da je predsedniški kandidat različno priljubljen<br />
pri teh dveh skupi<strong>na</strong>h preverimo pri tveganju 10 %.<br />
n 300 , k = 90 n = 200, k = 40<br />
X<br />
=<br />
X<br />
Y<br />
Y<br />
Postavimo ničelno in alter<strong>na</strong>tivno domnevo, po obrazcu (14.14)<br />
izraču<strong>na</strong>mo skupni populacijski delež, izraču<strong>na</strong>mo testno statistiko po<br />
(14.13), ki jo primerjamo s kritično vrednostjo (dvo<strong>stran</strong>ski test):<br />
H<br />
Z =<br />
0<br />
1<br />
: p<br />
X<br />
H : p<br />
X<br />
− p<br />
− p<br />
Y<br />
Y<br />
pˆ<br />
X<br />
= 0<br />
≠ 0<br />
− pˆ<br />
Y<br />
p ⋅(1<br />
− p)<br />
⋅(1<br />
n<br />
X<br />
+ 1 n<br />
Y<br />
k<br />
p =<br />
n<br />
=<br />
)<br />
X<br />
X<br />
+ k<br />
+ n<br />
Y<br />
Y<br />
90 + 40<br />
= = 0.26<br />
300 + 200<br />
0.30 − 0.20<br />
= 2.497<br />
0.26⋅(1<br />
− 0.26) ⋅(1 300 + 1 200)<br />
335<br />
z α 2 = 0.05<br />
= ±<br />
1.645<br />
S tveganjem 10 % lahko trdimo, da je predsedniški kandidat različno<br />
priljubljen med vaščani in meščani.<br />
15. BIVARIATNA ANALIZA<br />
15.1 Uni- in bivariat<strong>na</strong> a<strong>na</strong>liza<br />
• V prejšnjih poglavjih statistične a<strong>na</strong>lize je bila vsa<br />
pozornost <strong>na</strong>menje<strong>na</strong> eni opazovani spremenljivki.<br />
• V stvarnem svetu pa se pogosto pojavijo vprašanja kot<br />
so, <strong>na</strong> primer:<br />
• Zakaj imajo spremenljivke takšne lastnosti?<br />
• V kakšnem odnosu je opazova<strong>na</strong> spremenljivka z<br />
drugimi spremenljivkami?<br />
• Kako se bodo spreminjale vrednosti spremenljivk, če<br />
spremi<strong>na</strong>jmo vrednost neke druge, z njo povezane<br />
spremenljivke?<br />
336<br />
• Na takš<strong>na</strong> vprašanja poskušamo odgovoriti z metodami<br />
bivariatne a<strong>na</strong>lize (“bis” (latinsko) = dvakrat).<br />
•168
15.1 Uni- in bivariat<strong>na</strong> a<strong>na</strong>liza / 2<br />
• Bivariat<strong>na</strong> a<strong>na</strong>liza, za razliko od univariatne a<strong>na</strong>lize,<br />
ugotavlja kvantiteto in kvaliteto odnosa med dvema<br />
spremenljivkama.<br />
• Pomemb<strong>na</strong> kakovost<strong>na</strong> razlika med obema a<strong>na</strong>lizama je<br />
v obsegu z<strong>na</strong>nja oziroma vedenja o lastnostih<br />
proučevane populacije <strong>na</strong> začetku ene in druge a<strong>na</strong>lize:<br />
• V univariatno a<strong>na</strong>lizo vstopimo <strong>na</strong> podlagi <strong>na</strong>črta statistične<br />
a<strong>na</strong>lize, toda samo populacijo (opazovane spremenljivke)<br />
spoz<strong>na</strong>mo šele med urejanjem podatkov, ugotavljanjem<br />
središčne težnje, razpršenosti itd.<br />
• Drugače je <strong>na</strong> vhodu bivariatne a<strong>na</strong>lize. Tukaj moramo<br />
imeti z<strong>na</strong>nje o domnevnih lastnostih populacije po<br />
opazovanih dveh spremenljivkah.<br />
337<br />
15.1 Uni- in bivariat<strong>na</strong> a<strong>na</strong>liza / 3<br />
338<br />
• Z<strong>na</strong>nje o domnevnih lastnostih populacije, ki ga<br />
moramo imeti ob vstopu v bivariatno a<strong>na</strong>lizo je lahko<br />
rezultat:<br />
• informacij, ki jih pridobimo z univariatno a<strong>na</strong>lizo obeh<br />
spremenljivk;<br />
• teoretičnega z<strong>na</strong>nja in<br />
• izkušenj.<br />
• Poz<strong>na</strong>mo metode bivariatne a<strong>na</strong>lize za ugotavljanje<br />
statističnega razmerja med nomi<strong>na</strong>lnimi, ordi<strong>na</strong>lnimi in<br />
številskimi spremenljivkami.<br />
• V <strong>na</strong>daljevanju si bomo pogledali nekaj metod<br />
ugotavljanja statistične povezanosti med:<br />
• dvema nomi<strong>na</strong>lnima ter<br />
• med dvema številskima spremenljivkama.<br />
•169
15.2 Preizkušanje domneve o<br />
povezanosti dveh<br />
nomi<strong>na</strong>lnih spremenljivk<br />
• Problem preizkušanja domneve o povezanosti (tudi<br />
statistični odvisnosti) si poglejmo <strong>na</strong> konkretnem<br />
primeru.<br />
• Primer 15.1: Zanima <strong>na</strong>s, ali je vrsta <strong>na</strong>pake pri<br />
geodetskih izmerah (slučaj<strong>na</strong> spremenljivka Y)<br />
statistično odvis<strong>na</strong> od delovnih izkušenj (slučaj<strong>na</strong><br />
spremenljivka X); oziroma ali sta slučajni spremenljivki<br />
X in Y povezani. V ta <strong>na</strong>men smo <strong>na</strong>ključno zbrali<br />
podatke 23-tih takšnih primerov po <strong>na</strong>ključno izbranih<br />
geodetskih izpostavah Slovenije ter tveganje 5 %.<br />
339<br />
Podatke uredimo v dvodimenzio<strong>na</strong>lno frekvenčno<br />
porazdelitev. Takšno preglednico imenujemo tudi<br />
kontingenč<strong>na</strong> preglednica.<br />
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 2<br />
• V kontingenčni preglednici praviloma zapišemo<br />
neodvisno spremenljivko v stolpce, odvisno pa v vrstice.<br />
< 10 let ≥10 let<br />
skupaj<br />
manjše <strong>na</strong>pake<br />
4<br />
8<br />
12<br />
grobe <strong>na</strong>pake<br />
9<br />
2<br />
11<br />
skupaj<br />
13<br />
10<br />
23<br />
340<br />
•170
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 3<br />
• Zanima <strong>na</strong>s, ali strokovni kolegi z manj delovnih izkušenj<br />
v splošnem delajo več grobih <strong>na</strong>pak od tistih z daljšim<br />
delovnim stažem, zato moramo porazdelitev <strong>na</strong>pak pri<br />
mlajših primerjati s porazdelitvijo pri starejših kolegih.<br />
Ker je število manj izkušenih različno od števila bolj<br />
izkušenih kolegov, moramo zaradi primerjave izraču<strong>na</strong>ti<br />
relativne frekvence.<br />
< 10 let ≥10 let<br />
skupaj<br />
manjše <strong>na</strong>pake<br />
30.8<br />
80<br />
52.2<br />
grobe <strong>na</strong>pake<br />
69.2<br />
20<br />
47.8<br />
skupaj<br />
100<br />
100<br />
100<br />
341<br />
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 4<br />
• Če med manj in bolj izkušenimi ne bi bilo razlik, bi bili<br />
obe porazdelitvi (za tiste, ki imajo manj kot 10 let<br />
izkušenj, in za tiste, ki imajo več kot 10 let izkušenj)<br />
e<strong>na</strong>ki porazdelitvi pod “skupaj”.<br />
• Naš primer kaže, da se odstotki razlikujejo, <strong>na</strong> primer:<br />
le 20 % grobih <strong>na</strong>pak so <strong>na</strong>redili starejši kolegi, in kar<br />
69.2 % grobih <strong>na</strong>pak so <strong>na</strong>redili tisti z manj kot 10 let<br />
delovnih izkušenj.<br />
• Odstotki pri manjših <strong>na</strong>pakah pa kažejo ravno obratno:<br />
več manjših <strong>na</strong>pak <strong>na</strong>redijo starejši kolegi.<br />
• Že sam pregled relativnih frekvenc (po stolpcih) kaže,<br />
da sta spremenljivki povezani med seboj.<br />
342<br />
•171
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 5<br />
• Relativne frekvence lahko izraču<strong>na</strong>mo tudi po vrsticah:<br />
< 10 let ≥10 let<br />
skupaj<br />
manjše <strong>na</strong>pake<br />
33.3<br />
66.7<br />
100<br />
grobe <strong>na</strong>pake<br />
81.8<br />
18.2<br />
100<br />
skupaj<br />
56.5<br />
43.5<br />
100<br />
• Relativne frekvence lahko prikažemo s stolpci ali s krogi.<br />
343<br />
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 6<br />
• Kontingenč<strong>na</strong> preglednica kaže podatke za slučajen<br />
vzorec. Zato <strong>na</strong>s zanima, ali so razlike v porazdelitvi<br />
vrste <strong>na</strong>pake pri geodetskih izmerah glede <strong>na</strong> delovne<br />
izkušnje statistično z<strong>na</strong>čilne in ne le učinek vzorca.<br />
• Postavimo ničelno in alter<strong>na</strong>tivno domnevo:<br />
H<br />
0<br />
1<br />
: spremenljivki nista<br />
povezani(sta neodvisni)<br />
H :spremenljivki sta povezani(sta odvisni)<br />
• Za preizkušanje domneve o povezanosti med dvema<br />
nomi<strong>na</strong>lnima spremenljivkama <strong>na</strong> osnovi vzorčnih<br />
podatkov, podanih v dvorazsežni frekvenčni porazdelitvi<br />
2<br />
(kontingenčni preglednici), lahko uporabimo test χ .<br />
344<br />
•172
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 7<br />
345<br />
2<br />
χ<br />
• Test sloni <strong>na</strong> primerjavi empiričnih (dejanskih)<br />
frekvenc s teoretičnimi frekvencami, ki so v tem primeru<br />
frekvence, ki bi bile v kontingenčni preglednici, če<br />
spremenljivki ne bi bili povezani med seboj.<br />
• V <strong>na</strong>šem primeru to pomeni, da bi bili porazdelitvi vrste<br />
<strong>na</strong>pak in delovnih izkušenj e<strong>na</strong>ki.<br />
• Če spremenljivi nista povezani med seboj, so verjetnosti<br />
hkratne zgoditve posameznih vrednosti prve in druge<br />
slučajne spremenljivke e<strong>na</strong>ke produktu verjetnosti<br />
posameznih vrednosti. Na primer, verjetnost, da bo<br />
strokovni kolega mlajši od 10 let <strong>na</strong>redil grobo <strong>na</strong>pako<br />
je:<br />
P[<br />
ML]<br />
= 13 23 = 0.565 P[<br />
GN]<br />
= 11 23 = 0.478<br />
P[<br />
ML ∩GN]<br />
= P[<br />
ML]<br />
⋅ P[<br />
GN]<br />
= 0.270<br />
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 8<br />
• Teoretične frekvence pa dobimo tako, da verjetnost<br />
hkratnega dogodka pomnožimo s številom vseh enot v<br />
vzorcu; <strong>na</strong> primer:<br />
13 11<br />
n⋅<br />
P[ ML ∩GN]<br />
= 23⋅<br />
⋅ = 6.217<br />
23 23<br />
• Podobno izraču<strong>na</strong>mo teoretične frekvence za druge<br />
hkratne dogodke oziroma celice v kontingenčni<br />
preglednici:<br />
n<br />
ij<br />
= n⋅<br />
P[ X = xi<br />
∩Y<br />
= y<br />
j<br />
] = n⋅<br />
P[<br />
X = xi<br />
] ⋅ P[<br />
Y = y<br />
j<br />
]<br />
(15.1)<br />
346<br />
•173
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 9<br />
• Če teoretične frekvence zaokrožimo <strong>na</strong> cela števila, je<br />
preglednica izraču<strong>na</strong>nih teoretičnih frekvenc :<br />
n ij<br />
manjše <strong>na</strong>pake<br />
grobe <strong>na</strong>pake<br />
skupaj<br />
< 10 let ≥10 let<br />
7<br />
5<br />
6<br />
5<br />
13<br />
10<br />
skupaj<br />
12<br />
11<br />
23<br />
• Spomnimo se empiričnih (dejanskih) frekvenc :<br />
nˆij<br />
manjše <strong>na</strong>pake<br />
grobe <strong>na</strong>pake<br />
skupaj<br />
< 10 let ≥10 let<br />
4<br />
8<br />
9<br />
2<br />
13<br />
10<br />
skupaj<br />
12<br />
11<br />
23<br />
347<br />
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 10<br />
• Statistiko H, ki primerja dejanske s teoretičnimi<br />
frekvencami, izraču<strong>na</strong>mo takole:<br />
H =<br />
k<br />
∑<br />
i=<br />
1<br />
( n<br />
ij<br />
− nˆ<br />
)<br />
n<br />
ij<br />
ij<br />
2<br />
(15.2)<br />
348<br />
kjer je k število celic v kontingenčni preglednici.<br />
2<br />
χ<br />
• Statistika H se porazdeljuje po porazdelitvi s<br />
ν = ( s −1)<br />
⋅(<br />
v −1)<br />
prostostnimi stopnjami, kjer je s število<br />
stolpcev in v število vrstic v kontingenčni preglednici.<br />
• Ničel<strong>na</strong> in alter<strong>na</strong>tiv<strong>na</strong> domneva sta v primeru testa :<br />
H<br />
0<br />
: χ<br />
H : χ<br />
1<br />
2<br />
2<br />
= 0<br />
> 0<br />
(spremenljivki nista<br />
(spremenljivki sta<br />
povezani)<br />
povezani)<br />
2<br />
χ<br />
•174
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 11<br />
• Izraču<strong>na</strong>jmo torej H-je in jih primerjajmo s teoretično<br />
2<br />
vrednostjo χ pri ( s −1)<br />
⋅(<br />
v −1)<br />
= (2 −1)<br />
⋅(2<br />
−1)<br />
= 1 prostostni<br />
stopnji in tveganju 0.05 :<br />
k<br />
2<br />
ˆ<br />
2<br />
2<br />
2<br />
2<br />
( nij<br />
− nij<br />
) (7 − 4) (5 −8)<br />
(6 − 9) (5 − 2)<br />
H = ∑ = + + +<br />
n 7 5 6 5<br />
i=<br />
1<br />
ij<br />
= 6.386<br />
Opomba: Za bolj točen izračun statistike H teoretičnih frekvenc ne<br />
zaokrožujemo (v <strong>na</strong>šem primeru bi bila statistika H=5.490).<br />
2<br />
χ α = 0 .05, ν = 1<br />
=<br />
3.841<br />
Statistika H pade v kritično območje, zato lahko ničelno<br />
domnevo zavrnemo. S tveganjem 5 % lahko trdimo, da<br />
sta slučajni spremenljivki statistično z<strong>na</strong>čilno povezani.<br />
349<br />
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 12<br />
• Statistika H je lahko le pozitiv<strong>na</strong>: zavzame lahko le<br />
vrednosti v intervalu [ 0, H<br />
max]<br />
, kjer je H<br />
max<br />
= n⋅(<br />
k −1)<br />
,<br />
če je k = min( v,<br />
s)<br />
.<br />
• Dokazati se da, da nobe<strong>na</strong> od teoretičnih frekvenc ne<br />
sme biti premajh<strong>na</strong>. Veljata <strong>na</strong>slednji omejitvi:<br />
• če je več kot 20 % teoretičnih frekvenc manjših od<br />
5, je treba združevati sosednje celice;<br />
• za kontingenčne preglednice dimenzij 2x2 (v=2,<br />
s=2) smemo izraču<strong>na</strong>ti statistiko H samo za vzorce,<br />
kjer je n > 40; če je 20 < n < 40 , se sme statistika H<br />
izraču<strong>na</strong>ti le v primeru, da nobe<strong>na</strong> od teoretičnih<br />
frekvenc ni manjša od 5.<br />
350<br />
•175
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 13<br />
• Statistika H v splošnem ni primerljiva. Za primerjavo je<br />
definiranih več kontingenčnih koeficientov:<br />
• Pearsonov koeficient:<br />
2 H<br />
φ =<br />
n<br />
2<br />
ki ima zgornjo mejo φ = k −1<br />
.<br />
max<br />
• Cramerjev koeficient:<br />
2<br />
φ H<br />
α = =<br />
k −1<br />
n⋅(<br />
k −1)<br />
ki je definiran <strong>na</strong> intervalu [0,1].<br />
(15.3)<br />
(15.4)<br />
351<br />
15.2 Preizkušanje domneve o povezanosti dveh nomi<strong>na</strong>lnih ... / 14<br />
• ... več koeficientov:<br />
• Kontingenčni koeficient:<br />
H<br />
C =<br />
H + n<br />
ki je definiran <strong>na</strong> intervalu [0,C max ], kjer je<br />
k −1<br />
Cmax<br />
=<br />
k<br />
.<br />
(15.5)<br />
352<br />
•176
15.3 Preizkušanje domneve o<br />
povezanosti dveh<br />
številskih spremenljivk<br />
• Primer 15.2: Obrav<strong>na</strong>vajmo dve številski spremenljivki:<br />
X – zrač<strong>na</strong> oddaljenost poslovnega prostora od<br />
središča mesta<br />
Y – ce<strong>na</strong> za m 2 poslovnega prostora izraže<strong>na</strong> v točkah<br />
• Grafično lahko po<strong>na</strong>zorimo povezanost med dvema<br />
številskima spremenljivkama z razsevnim grafikonom.<br />
To je, da v koordi<strong>na</strong>tni sistem, kjer sta koordi<strong>na</strong>ti obe<br />
spremenljivki, vrišemo enote s pari vrednosti<br />
(koordi<strong>na</strong>tnimi pari).<br />
353<br />
15.2 Preizkušanje domneve o povezanosti dveh številskih ... / 2<br />
Če privzamemo spodnje podatke za primer 15.2, lahko<br />
grafično po<strong>na</strong>zorimo povezanost med ceno za m 2 poslovnega<br />
prostora (X) in zračno oddaljenostjo od središča mesta (Y).<br />
X<br />
210<br />
30<br />
60<br />
110<br />
20<br />
330<br />
270<br />
30<br />
80<br />
390<br />
Y<br />
60<br />
98<br />
88<br />
77<br />
90<br />
66<br />
72<br />
95<br />
75<br />
67<br />
Y : ce<strong>na</strong> za m 2 poslovnega prostora (točke)<br />
110<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
0 50 100 150 200 250 300 350 400 450<br />
X : zrač<strong>na</strong> oddaljenost poslovnega prostora od središča mesta (m)<br />
354<br />
•177
15.3 Preizkušanje domneve o povezanosti dveh številskih ... / 3<br />
• Poz<strong>na</strong>mo več tipov povezanosti številskih spremenljivk:<br />
• funkcijska povezanost, kjer vse točke v<br />
razsevnem grafikonu ležijo <strong>na</strong> krivulji;<br />
• korelacijska (stohastič<strong>na</strong>) povezanost, kjer se<br />
točke v razsevnem grafikonu od neke krivulje bolj<br />
ali manj odklanjajo (manjša ali večja povezanost).<br />
355<br />
15.3 Preizkušanje domneve o povezanosti dveh številskih ... / 4<br />
• Primeri linearne povezanosti spremenljivk:<br />
356<br />
X<br />
•178
15.3 Preizkušanje domneve o povezanosti dveh številskih ... / 5<br />
• Primer nelinearne povezanosti spremenljivk:<br />
357<br />
15.3 Preizkušanje domneve o povezanosti dveh številskih ... / 6<br />
• Linearno povezanost med dvema spremenljivkama<br />
merimo s kovarianco:<br />
N<br />
1<br />
CXY<br />
= ∑(<br />
xi<br />
− μ<br />
X<br />
) ⋅(<br />
yi<br />
− μY<br />
)<br />
(15.6)<br />
N i=<br />
1<br />
Opomba: Ko varianco raču<strong>na</strong>mo iz vzorca, jo<br />
oz<strong>na</strong>čimo s s XY .<br />
• Za kovarianco velja:<br />
C XY<br />
C XY<br />
C XY<br />
> 0<br />
= 0<br />
< 0<br />
pozitiv<strong>na</strong> linear<strong>na</strong> povezanost<br />
ni linearne povezanosti<br />
negativ<strong>na</strong> linera<strong>na</strong> povezanost<br />
358<br />
•179
15.3 Preizkušanje domneve o povezanosti dveh številskih ... / 7<br />
• S kovarianco redko primerjamo linearno povezanost več<br />
parov spremenljivk. Brezdimenzijska mera linearne<br />
povezanosti je Pearsonov koeficient korelacije:<br />
ρ<br />
XY<br />
CXY<br />
=<br />
σ ⋅σ<br />
X<br />
Y<br />
=<br />
∑i<br />
N<br />
∑ (<br />
i=<br />
1<br />
N<br />
= 1<br />
( x − μ ) ⋅(<br />
y<br />
i<br />
i<br />
(15.7)<br />
• Koeficient korelacije leži <strong>na</strong> intervalu [-1,1]; velja:<br />
ρ XY<br />
≈1 moč<strong>na</strong> pozitiv<strong>na</strong> linear<strong>na</strong> povezanost (z večanjem<br />
vrednosti spremenljivke X se večajo tudi vrednosti Y);<br />
ρ XY<br />
≈ 0 ni linearne povezanosti;<br />
ρ XY<br />
≈ −1 moč<strong>na</strong> negativ<strong>na</strong> linear<strong>na</strong> povezanost (z večanjem<br />
vrednosti spremenljivke X se manjšajo vrednosti Y).<br />
X<br />
X<br />
2<br />
x − μ ) ⋅<br />
∑<br />
N<br />
i<br />
i=<br />
1<br />
− μ )<br />
i<br />
Y<br />
2<br />
( y − μ )<br />
Y<br />
359<br />
15.3 Preizkušanje domneve o povezanosti dveh številskih ... / 8<br />
• Primeri linearne povezanosti spremenljivk in<br />
koeficientov korelacije:<br />
r = 0.9059<br />
= −0. 9428<br />
XY<br />
r XY<br />
r = 0.7353<br />
r XY<br />
= 0. 0189<br />
XY<br />
360<br />
•180
15.3 Preizkušanje domneve o povezanosti dveh številskih ... / 9<br />
Primer 15.3: Izraču<strong>na</strong>jmo korelacijo ter koeficient korelacije za<br />
podatke o oddaljenosti poslovnih prostorov od središča mesta ter<br />
njihovi ceni za kvadratni meter iz primera 15.2.<br />
Korelacijo in korelacijski koeficient izraču<strong>na</strong>mo po obrazcih (15.6) in<br />
(15.7) z upoštevanjem, da imamo vzorec podatkov:<br />
X<br />
210<br />
Y<br />
60<br />
x i<br />
− X<br />
57<br />
y i<br />
− Y ( x − X ) ⋅(<br />
y −Y<br />
)<br />
-18.8<br />
i<br />
-1071.6<br />
i<br />
30<br />
98<br />
-123<br />
19.2<br />
-2361.6<br />
60<br />
110<br />
20<br />
330<br />
270<br />
30<br />
80<br />
390<br />
88<br />
77<br />
90<br />
66<br />
72<br />
95<br />
75<br />
67<br />
-93<br />
-43<br />
-133<br />
177<br />
117<br />
-123<br />
-73<br />
237<br />
9.2<br />
-1.8<br />
11.2<br />
-12.8<br />
-6.8<br />
16.2<br />
-3.8<br />
-11.8<br />
-855.6<br />
77.4<br />
-1489.6<br />
-2265.6<br />
-795.6<br />
-1992.6<br />
277.4<br />
-2796.6<br />
s<br />
r<br />
XY<br />
XY<br />
n<br />
1<br />
= ∑(<br />
xi<br />
n<br />
i=<br />
1<br />
sXY<br />
=<br />
s ⋅ s<br />
X<br />
Y<br />
− X ) ⋅(<br />
y<br />
i<br />
−Y<br />
) = −1327.4<br />
−1327.4<br />
=<br />
= −0.819<br />
129.696⋅12.496<br />
Pozor: Upoštevamo standardne odklone vzorca<br />
(in ne nepri<strong>stran</strong>ske ocene).<br />
361<br />
Obstaja dokaj moč<strong>na</strong> negativ<strong>na</strong> korelacija med oddaljenostjo<br />
poslovnih prostorov od središča mesta ter njihovo ceno za m 2 .<br />
15.3 Preizkušanje domneve o povezanosti dveh številskih ... / 10<br />
• Postavimo ničelno in alter<strong>na</strong>tivno domnevo:<br />
H : ρ = 0 (spremenljivki nista linearnopovezani)<br />
0<br />
H : ρ<br />
1<br />
XY<br />
XY<br />
≠ 0<br />
(spremenljivki sta linearno povezani)<br />
Tedaj se statistika T<br />
rXY<br />
⋅ n − 2<br />
T =<br />
(15.8)<br />
2<br />
1−<br />
rXY<br />
porazdeljuje po Studentovi porazdelitvi t z ν = n − 2<br />
prostostnima stopnjama. Z r XY<br />
oz<strong>na</strong>čujemo koeficient<br />
korelacije <strong>na</strong> vzorcu, z ρ XY pa koeficient korelacije <strong>na</strong><br />
populaciji.<br />
362<br />
•181
15.3 Preizkušanje domneve o povezanosti dveh številskih ... / 11<br />
Primer 15.4: Pri tveganju 5 % preizkusimo domnevo, da sta<br />
oddaljenost poslovnih prostorov od središča mesta ter njihova ce<strong>na</strong><br />
za kvadratni meter iz primera 15.2 linearno poveza<strong>na</strong> med seboj.<br />
Postavimo ničelno in alter<strong>na</strong>tivno domnevo, po (15.8) izraču<strong>na</strong>mo<br />
statistiko T, iz preglednice porazdelitve t pa odčitamo vrednost za t<br />
kritično pri = 0.05 in prostostnih stopnjah:<br />
H : ρ<br />
0<br />
H : ρ<br />
1<br />
XY<br />
XY<br />
= 0<br />
≠ 0<br />
α ν = 10 − 2 = 8<br />
− 0.819⋅<br />
10 − 2<br />
T =<br />
= −4.037<br />
t α 2 = 0.025, ν = 8<br />
= ± 2. 306<br />
2<br />
1−<br />
( −0.819)<br />
Eksperimental<strong>na</strong> vrednost (statistika T) pade v kritično območje,<br />
zato lahko ničelno domnevo zavrnemo in sprejmemo alter<strong>na</strong>tivno<br />
domnevo.<br />
S tveganjem 5 % lahko trdimo, da je oddaljenost poslovnih<br />
prostorov od središča mesta linearno poveza<strong>na</strong> s ceno za m 2<br />
poslovnega prostora.<br />
363<br />
15.4 Regresija<br />
• Regresijska funkcija Y ˆ = f ( X ) kaže, kakšen vpliv bi<br />
bil vpliv spremenljivke X <strong>na</strong> Y, če razen vpliva<br />
spremenljivke X ne bi bilo drugih vplivov <strong>na</strong><br />
spremenljivko Y.<br />
• Ker so po<strong>na</strong>vadi še drugi vplivi <strong>na</strong> proučevano<br />
spremenljivko Y, se točke, ki predstavljajo enote v<br />
razsevnem grafikonu, odklanjajo od idealne regresijske<br />
krivulje:<br />
Y = Yˆ<br />
+ ε = f ( X ) + ε<br />
(15.9)<br />
kjer X imenujemo neodvis<strong>na</strong> spremenljivka, Y odvis<strong>na</strong><br />
spremenljivka ter ε <strong>na</strong>paka (ali motnja, disturbanca).<br />
364<br />
•182
15.4 Regresija / 2<br />
• Če je regresijska funkcija linear<strong>na</strong>:<br />
Y ˆ = f ( X ) = a + bX<br />
(15.10)<br />
je regresijska odvisnost<br />
Y = Yˆ<br />
+ ε = a + bX + ε<br />
(15.11)<br />
oziroma z i-to enoto<br />
y = yˆ<br />
+ ε = a + bx + ε<br />
i<br />
i<br />
i<br />
i<br />
i<br />
(15.12)<br />
365<br />
15.4 Regresija / 3<br />
• Regresijsko odvisnost <strong>na</strong>zorno prikažemo v razsevnem<br />
grafikonu:<br />
y i<br />
ŷ i<br />
}<br />
ε i<br />
Y ˆ = a + bX<br />
x i<br />
366<br />
•183
15.4 Regresija / 4<br />
• Regresijsko funkcijo lahko v splošnem zapišemo:<br />
Y ˆ = f ( X , a,<br />
b,...)<br />
kjer so a, b, ... parametri funkcije.<br />
(15.13)<br />
• Po<strong>na</strong>vadi se moramo <strong>na</strong> osnovi razsevnega grafiko<strong>na</strong><br />
odločiti za tip regresijske funkcije in <strong>na</strong>to oceniti<br />
parametre funkcije, tako da se regresijska krivulja kar se<br />
da dobro prilega točkam. Kot merilo prilagojenosti<br />
krivulje točkam vzamemo<br />
N<br />
∑<br />
i=<br />
1<br />
N<br />
2<br />
εi<br />
= ∑(<br />
yi<br />
i=<br />
1<br />
− yˆ<br />
)<br />
i<br />
2<br />
= min<br />
(15.14)<br />
367<br />
• To metodo ocenjevanja parametrov regresijske funkcije<br />
imenujemo metoda <strong>na</strong>jmanjših kvadratov.<br />
15.4.1 Linear<strong>na</strong> regresija<br />
• V primeru linearne regresijske funkcije Y ˆ = a + bX<br />
lahko ocenimo parametra a in b po metodi <strong>na</strong>jmanjših<br />
kvadratov takole:<br />
N<br />
2<br />
2<br />
S = ∑ε<br />
= ∑(<br />
− ˆ ) = ∑<br />
i<br />
yi<br />
yi<br />
( yi<br />
i=<br />
1<br />
N<br />
i=<br />
1<br />
N<br />
i=<br />
1<br />
− aˆ<br />
− bˆ<br />
x )<br />
i<br />
2<br />
= min<br />
(15.15)<br />
368<br />
• Minimum funkcije S lahko določimo tako, da parcialno<br />
odvajamo po obeh parametrih ∂S<br />
∂S<br />
= 0 , = 0<br />
∂aˆ<br />
∂bˆ<br />
Dobimo sistem dveh linearnih e<strong>na</strong>čb, iz katerih<br />
izraču<strong>na</strong>mo cenilki â in bˆ :<br />
s<br />
s<br />
bˆ<br />
XY<br />
XY<br />
= , aˆ<br />
= Y − ⋅ X<br />
2 2<br />
s<br />
s<br />
X<br />
X<br />
(15.16)<br />
•184
15.4.1 Linear<strong>na</strong> regresija / 2<br />
• Dokazati se da, da so vse tri cenilke Yˆ,<br />
aˆ<br />
in bˆ<br />
nepri<strong>stran</strong>ske, kar pomeni, da je njihova pričakova<strong>na</strong><br />
vrednost e<strong>na</strong>ka pravi vrednosti parametra.<br />
2<br />
σ Y<br />
• Njihove variance so odvisne od variance , povprečja<br />
2<br />
vzorca X in variance vzorca :<br />
2<br />
2<br />
σ ⎛ ⎞<br />
= =<br />
Y<br />
X<br />
E( aˆ)<br />
a,<br />
D( aˆ)<br />
⋅ ⎜1<br />
+<br />
⎟<br />
2<br />
n ⎝ sX<br />
⎠<br />
2<br />
σ<br />
Y<br />
E(<br />
bˆ)<br />
= b,<br />
D(<br />
bˆ)<br />
=<br />
2<br />
n⋅<br />
sX<br />
2<br />
2<br />
σ ⎛<br />
Y<br />
( x0<br />
− X )<br />
E(<br />
Yˆ(<br />
x = +<br />
= ⋅<br />
⎜<br />
0))<br />
a bx0,<br />
D(<br />
Yˆ(<br />
x0))<br />
1+<br />
2<br />
n ⎝ sX<br />
s X<br />
⎞<br />
⎟<br />
⎠<br />
(15.17)<br />
(15.18)<br />
(15.19)<br />
369<br />
15.4.1 Linear<strong>na</strong> regresija / 3<br />
• Porazdelitev cenilk Yˆ,<br />
aˆ<br />
in bˆ<br />
je v primeru, da<br />
poz<strong>na</strong>mo, normal<strong>na</strong>.<br />
2<br />
σ Y<br />
2<br />
σ Y<br />
• Ker variance običajno ne poz<strong>na</strong>mo, jo moramo<br />
oceniti:<br />
2 n 2 2<br />
ˆ σ<br />
Y<br />
= ⋅ sY<br />
⋅(1<br />
− rXY<br />
)<br />
n −1<br />
(15.17)<br />
2<br />
2<br />
• Cenilka je porazdelje<strong>na</strong> po porazdelitvi χ σˆY<br />
z ν = n − 2<br />
prostostnima stopnjama.<br />
2<br />
σ Y<br />
• V primeru, ko variance ne poz<strong>na</strong>mo, so cenilke<br />
Yˆ,<br />
aˆ<br />
in bˆ<br />
porazdeljene po studentovi porazdelitvi t z<br />
ν = n − 2 prostostnima stopnjama.<br />
370<br />
•185
15.4.1 Linear<strong>na</strong> regresija / 4<br />
• Sedaj lahko zapišemo intervale zaupanja za vse zgoraj<br />
<strong>na</strong>vedene cenilke.<br />
• Interval zaupanja za vrednost Y( x 0<br />
) je tako:<br />
⎡<br />
⎢aˆ<br />
+ bˆ<br />
⋅ x0<br />
− t<br />
⎢<br />
P⎢<br />
⎢<br />
⎢<br />
⎢aˆ<br />
+ bˆ<br />
⋅ x0<br />
+ t<br />
⎢⎣<br />
1−α<br />
2<br />
1−α<br />
2<br />
ˆ σ<br />
Y<br />
⋅ ⋅<br />
n<br />
≤ Y(<br />
x ) ≤<br />
0<br />
ˆ σ<br />
Y<br />
⋅ ⋅<br />
n<br />
( x<br />
1+<br />
0<br />
( x<br />
1+<br />
0<br />
− X<br />
2<br />
s<br />
X<br />
− X<br />
2<br />
s<br />
X<br />
2<br />
2<br />
)<br />
)<br />
2<br />
2<br />
⎤<br />
⎥<br />
⎥<br />
⎥ = 1−α<br />
⎥<br />
⎥<br />
⎥<br />
⎥⎦<br />
(15.18)<br />
371<br />
X<br />
15.4.1 Linear<strong>na</strong> regresija / 5<br />
Primer 15.5: Vzemimo podatke iz primera 15.2 o oddaljenosti<br />
poslovnih prostorov od središča mesta ter njihovi ceni za kvadratni<br />
meter. Ocenimo parametra regresijske premice, ki se opazovanjem<br />
<strong>na</strong>jbolje prilega.<br />
V primeru (15.3) smo že izraču<strong>na</strong>li kovarianco s XY<br />
= −1327.4 ,<br />
parametra regresijske premice pa ocenimo po obrazcih (15.16):<br />
210<br />
30<br />
60<br />
110<br />
20<br />
330<br />
270<br />
30<br />
80<br />
390<br />
Y<br />
60<br />
98<br />
88<br />
77<br />
90<br />
66<br />
72<br />
95<br />
75<br />
67<br />
2<br />
( x i<br />
− X )<br />
3249<br />
15129<br />
8649<br />
1849<br />
17689<br />
31329<br />
13689<br />
15129<br />
5329<br />
56169<br />
2<br />
( y i<br />
−Y )<br />
353.44<br />
368.64<br />
84.64<br />
3.24<br />
125.44<br />
163.84<br />
46.24<br />
262.44<br />
14.44<br />
139.24<br />
s<br />
2<br />
X<br />
⎛<br />
⎜ s<br />
⎝<br />
2<br />
Y<br />
1<br />
=<br />
n<br />
1<br />
=<br />
n<br />
ˆ s<br />
b =<br />
s<br />
XY<br />
2<br />
X<br />
n<br />
∑<br />
i=<br />
1<br />
n<br />
∑<br />
i=<br />
1<br />
s<br />
aˆ<br />
= Y −<br />
s<br />
( x<br />
XY<br />
2<br />
X<br />
i<br />
( y<br />
− X )<br />
i<br />
2<br />
−Yˆ)<br />
2<br />
= 16821<br />
⎞<br />
= 156.16⎟<br />
⎠<br />
-1327.4<br />
= = -0.079<br />
16821<br />
-1327.4<br />
⋅ X = 78.8 − ⋅153<br />
= 90.874<br />
16821<br />
372<br />
Regresijska premica ima obliko:<br />
Yˆ<br />
= 90.874 − 0. 079X<br />
•186
15.4.2 Statistično sklepanje o<br />
regresijskem koeficientu<br />
373<br />
• Vpeljimo <strong>na</strong>slednje oz<strong>na</strong>ke:<br />
Y ˆ = a + bX - regresijska premica <strong>na</strong> populaciji<br />
Yˆ = aˆ<br />
+ bX ˆ - regresijska premica <strong>na</strong> vzorcu<br />
• Denimo, da želimo preizkusiti domnevo o regresijskem<br />
koeficientu b. Postavimo ničelno in alter<strong>na</strong>tivno<br />
domnevo:<br />
H0<br />
: b = b0<br />
H1<br />
: b ≠ b0<br />
• Nepri<strong>stran</strong>ska cenilka za regresijski koeficient b je ˆ sXY<br />
b = ,<br />
2<br />
ki ima pričakovano vrednost in standardno <strong>na</strong>pako: sX<br />
E(<br />
bˆ)<br />
= b,<br />
ˆ<br />
sY<br />
SE(b) =<br />
s<br />
X<br />
1−<br />
r<br />
2<br />
XY<br />
n − 2<br />
15.4.2 Statistično sklepanje o regresijskem koeficientu / 2<br />
• Test<strong>na</strong> statistika za ničelno domnevo o regresijskem<br />
koeficientu je:<br />
s<br />
T =<br />
s<br />
Y<br />
X<br />
n − 2<br />
⋅(<br />
bˆ<br />
− b0<br />
)<br />
2<br />
1−<br />
r<br />
ki se porazdeljuje po porazdelitvi t z<br />
prostostnima stopnjama.<br />
XY<br />
ν = n − 2<br />
(15.19)<br />
374<br />
•187
15.4.2 Statistično sklepanje o regresijskem koeficientu / 3<br />
Primer 15.6: Vzemimo podatke iz primera 15.2 (X - oddaljenost<br />
poslovnih prostorov od središča mesta, Y - ce<strong>na</strong> za kvadratni meter).<br />
Pri tveganju 5 % preizkusimo domnevo, da je regresijski koeficient<br />
različen od 0.<br />
V primeru (15.5) smo že izraču<strong>na</strong>li regresijski koeficient ˆ = -0.079 .<br />
Postavimo ničelno in alter<strong>na</strong>tivno domnevo, po obrazcu (15.18)<br />
izraču<strong>na</strong>mo testno statistiko T , iz preglednice porazdelitve t pa<br />
odčitamo vrednost za t kritično pri α = 0.05 in ν = 10 − 2b<br />
= 8<br />
prostostnih stopnjah.<br />
H<br />
0<br />
1<br />
: b = 0<br />
H : b ≠ 0<br />
sX<br />
n − 2 ˆ 129.696⋅<br />
10 − 2<br />
T = ⋅(<br />
b − b0<br />
) =<br />
2<br />
2<br />
s 1−<br />
r<br />
12.496⋅<br />
1−<br />
( −0.819)<br />
Y<br />
XY<br />
t α 2 = 0.025, ν = 8<br />
= ±<br />
2.306<br />
⋅(<br />
−0.079<br />
− 0) = −4.042<br />
375<br />
S tveganjem 5 % lahko trdimo, da je regresijski koeficient različen<br />
od 0.<br />
15.4.3 Pojasnje<strong>na</strong> varianca<br />
• Vrednost odvisne spremenljivke y i lahko razstavimo <strong>na</strong><br />
tri komponente:<br />
y = μ<br />
i<br />
Y<br />
+ (yˆ<br />
-μ<br />
i<br />
Y<br />
) + (y − yˆ<br />
)<br />
i<br />
i<br />
(15.20)<br />
kjer so pomeni posameznih komponent:<br />
μ Y<br />
: rezultat splošnih vplivov<br />
ŷ -μ : rezultat vpliva spremenljivke X<br />
i Y<br />
y − yˆ<br />
: rezultat vpliva drugih dejavnikov<br />
i<br />
i<br />
376<br />
•188
15.4.3 Pojasnje<strong>na</strong> varianca / 2<br />
• Če e<strong>na</strong>kost (15.20) <strong>na</strong>jprej <strong>na</strong> obeh <strong>stran</strong>eh e<strong>na</strong>čaja<br />
kvadriramo, <strong>na</strong>to seštejemo po vseh enotah in <strong>na</strong>to<br />
delimo s številom enot (N), dobimo:<br />
1<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
( y<br />
i<br />
− μ )<br />
Y<br />
i=<br />
1<br />
• To lahko zapišemo tudi takole:<br />
2<br />
1<br />
=<br />
N<br />
N<br />
∑<br />
2<br />
( yˆ<br />
− μ )<br />
i<br />
Y<br />
1<br />
+<br />
N<br />
N<br />
∑<br />
i=<br />
1<br />
( y<br />
i<br />
− yˆ<br />
)<br />
i<br />
2<br />
(15.21)<br />
σ +<br />
2 2<br />
Y<br />
= σ Y ˆ<br />
2<br />
σ ε<br />
(15.22)<br />
377<br />
kjer posamezni členi pomenijo:<br />
2<br />
σ Y : celot<strong>na</strong> varianca spremenljivke Y<br />
2<br />
σ Ŷ<br />
: pojasnje<strong>na</strong> varianca spremenljivke Y<br />
2<br />
: nepojasnje<strong>na</strong> varianca spremenljivke Y<br />
σ ε<br />
15.4.3 Pojasnje<strong>na</strong> varianca / 3<br />
• Delež pojasnjene variance spremenljivke Y s<br />
spremenljivko X je:<br />
Imenujemo ga determi<strong>na</strong>cijski koeficient in je<br />
definiran <strong>na</strong> intervalu [0, 1].<br />
• Pokazati se da, da je v primeru linearne regresijske<br />
odvisnosti determi<strong>na</strong>cijski koeficient e<strong>na</strong>k<br />
kjer je<br />
ρ XY<br />
R<br />
2<br />
σ<br />
=<br />
σ<br />
2<br />
Yˆ<br />
2<br />
Y<br />
2 2<br />
R = ρ XY<br />
koeficient korelacije.<br />
(15.23)<br />
(15.24)<br />
378<br />
•189
15.4.3 Pojasnje<strong>na</strong> varianca / 4<br />
• Kvadratni koren iz nepojasnjene variance<br />
imenujemo standard<strong>na</strong> <strong>na</strong>paka regresijske ocene,<br />
ki meri razpršenost točk okoli regresijske krivulje.<br />
• Standard<strong>na</strong> <strong>na</strong>paka (regresijske) ocene meri<br />
kakovost ocenjevanja vrednosti odvisne spremenljivke z<br />
regresijsko funkcijo.<br />
• V primeru linearne regresijske odvisnosti je standard<strong>na</strong><br />
<strong>na</strong>paka e<strong>na</strong>ka:<br />
σ ε<br />
σ ε<br />
σ ε<br />
= σ Y<br />
ρ<br />
2<br />
1−<br />
XY<br />
(15.25)<br />
379<br />
15.4.3 Pojasnje<strong>na</strong> varianca / 5<br />
Primer 15.7: Vzemimo podatke iz primera 15.2 o oddaljenosti<br />
poslovnih prostorov od središča mesta ter njihovi ceni za kvadratni<br />
meter. Z linearno regresijsko funkcijo ocenimo, koliko bi stal poslovni<br />
prostor <strong>na</strong> oddaljenosti 500 m od središča mesta, če predpostavimo<br />
e<strong>na</strong>ke pogoje kot v primeru 15.2. Kolikš<strong>na</strong> je standard<strong>na</strong> <strong>na</strong>paka?<br />
Kolikšen delež variance cene za kvadratni meter poslovnega prostora<br />
lahko pojasnimo z oddaljenostjo od središča mesta?<br />
Regresijsko premico smo že izraču<strong>na</strong>li v primeru (15.5), koeficient<br />
korelacije ter standardni odklon vzorca Y pa v primeru (15.3):<br />
Y ˆ = 90.874 − 0.079X<br />
= 90.874 − 0.079⋅500<br />
= 51.374<br />
σ ε<br />
2<br />
= s Y<br />
1−<br />
rXY<br />
= 12.496⋅<br />
1−<br />
( −0.819)<br />
2<br />
= 7.17<br />
Kvadratni meter poslovnega prostora <strong>na</strong> oddaljenosti 500 m od<br />
središča mesta, bi stal 51.4 točke, pri čemer je standard<strong>na</strong> <strong>na</strong>paka<br />
7.17 točke.<br />
380<br />
R<br />
2 2<br />
= r XY<br />
= ( −0.819)<br />
2<br />
= 0.671<br />
67 % variance cene za kvadratni meter poslovnega prostora lahko<br />
pojasnimo z oddaljenostjo od središča mesta.<br />
•190
Literatura<br />
381<br />
• Benjamin, J.R.; Cornell, C.A.: Probability, Statistics, and Decision<br />
for Civil Engineers, McGraw-Hill, 1970.<br />
• Blejec, M.: Statistične metode za ekonomiste, Ekonomska<br />
fakulteta, Univerza v Ljubljani, Ljublja<strong>na</strong>, 1976.<br />
• Drobne S., Turk, G.: Statistika – Vaje, Fakulteta za gradbeništvo<br />
in geodezijo, Univerza v Ljubljani, Ljublja<strong>na</strong>, 2002.<br />
• Ferligoj, A.: Osnove statistike <strong>na</strong> prosojnicah, samozaložba,<br />
Ljublja<strong>na</strong>, 1995 (<strong>na</strong> voljo v fotokopirnici UL, FDV).<br />
• Jamnik, R.: Verjetnostni račun in statistika, DMFA Slovenije,<br />
1986.<br />
• Kirk, E.R.: Statistics, An Introduction, Harcourt Brace College<br />
Publishers, New York, 1999.<br />
• Košmelj, B.: Vaje iz statistike II, Ekonomska fakulteta v Ljubljani,<br />
Univerza v Ljubljani, Ljublja<strong>na</strong>, 1993.<br />
Literatura / 2<br />
• Košmelj, B., Arh, F., Doberšek Urbanc, A., Ferligoj, A., Omladič<br />
M.: Statistični terminološki slovar, Statistično društvo Slovenije,<br />
Statistični urad Republike Slovenije, 2001.<br />
• Košmelj, K.: Uporab<strong>na</strong> statistika, Biotehniška fakulteta, Univerza<br />
v Ljubljani, Ljublja<strong>na</strong>, 2001.<br />
• Moore, D.S.; McCabe, G.P.: Introduction to the Practice of<br />
Statistics, W. H. Freeman and Company, New York, 1998.<br />
• Spiegel, M.R: Statistics, Schaum’s Outlines, McGraw-Hill, New<br />
York, 1998.<br />
• Vad<strong>na</strong>l, A.: Elementarni uvod v verjetnostni račun, DZS, 1979.<br />
• Walpole, R. E.; Myres, R.H.; Myres, S.L.: Probability and<br />
Statistics for Engineers and Scientists, Prentice Hall<br />
Inter<strong>na</strong>tio<strong>na</strong>l, Inc. New Jersey, 1998.<br />
382<br />
•191
Nekaj zanimivih spletnih <strong>na</strong>slovov<br />
• Cedilnik, A., Valantič,T.: Statistični urad republike Slovenije.<br />
http://www.stat.si/<br />
• Drobne, S.: Statistika z elementi informatike, Prosojnice s<br />
predavanja za 1. letnik VSŠ geodezije, v pripravi, Ljublja<strong>na</strong>,<br />
2002.<br />
http://www.fgg.uni-lj.si/~/sdrobne/Pouk/SEI/SEI_VSS1.htm<br />
• Grinstead, C.M.; Snell, J. L.: Introduction to Probability, 1998.<br />
http://www.dartmouth.edu/~chance/teaching_aids/books_artic<br />
les/probability_book/book.html<br />
• Hopkins, W.G.: A New View of Statistics, 2002.<br />
http://www.sportsci.org/resource/stats/index.html<br />
383<br />
• NIST/SEMATECH e-Handbook of Statistical Methods,<br />
Engineering statistics Handbook, 2002.<br />
http://www.itl.nist.gov/div898/handbook/index.htm<br />
Nekaj zanimivih spletnih <strong>na</strong>slovov / 2<br />
• Piele D.,: Introduction to Probability, Mathematica notebooks.<br />
http://www.uwp.edu/academic/mathematics/probability/index.ht<br />
m<br />
• Pollett, P., Bob Dobrow, B.: The Probability Web, 1995-2002.<br />
http://www.mathcs.carleton.edu/probweb/probweb.html<br />
• StatSoft, Inc. Electronic Statistics Textbook. Tulsa, OK: StatSoft,<br />
2002. http://www.statsoft.com/textbook/stathome.html<br />
• Turk, G.: Verjetnostni račun in statistika, Učbenik v pripravi,<br />
Ljublja<strong>na</strong>, 2002.<br />
http://www.km.fgg.uni-lj.si/predmeti/sei/vrs1.pdf<br />
• Wolfram Research, Statistics with Mathematica, 2002.<br />
http://www.wri.com/solutions/statistics/<br />
384<br />
•192