Harjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt<br />
Syksy 2006<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Harjoituksen tavoitteet<br />
• Satunnaismuuttujat ja todennäköisyysjakaumat<br />
• Pistetodennäköisyysfunktio, tiheysfunktio, kertymäfunktio<br />
• Odotusarvo, varianssi ja keskihajonta<br />
• Tilastollisten jakaumien estimointi<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 2
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Mittaaminen<br />
• Tilastollisen tutkimuksen kohdetta kuvaavat numeeriset ja<br />
kvantitatiiviset tiedot saadaan mittaamalla.<br />
• Mitta-asteikot:<br />
- Nominaali- eli laatueroasteikko. Omena vai appelsiini?<br />
- Ordinaali- eli järjestysasteikko. Monesko?<br />
- Intervalli- eli välimatka-asteikko. Kuinka suuri ero?<br />
- Suhdeasteikko. Kuinka monta kertaa enemmän tai<br />
vähemmän?<br />
• Kvalitatiivisia ominaisuuksia kuvataan laatueroasteikollisilla<br />
muuttujilla ja kvantitatiivisia puolestaan välimatka- tai<br />
suhdeasteikollisilla muuttujilla.<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 3
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Käsitteitä<br />
• Satunnaismuuttuja on satunnaisilmiön tulosvaihtoehtoihin<br />
liitetty reaaliarvoinen funktio. Satunnaismuuttuja on funktiona<br />
täysin määrätty, mutta sattuma määrää mikä alkeistapahtumista<br />
realisoituu ja sitä kautta myös minkä arvon satunnaismuuttuja<br />
saa.<br />
• Todennäköisyysjakauma kuvaa otosavaruuden<br />
todennäköisyysmassan (= 1) jakautumista otosavaruudessa<br />
määritellyn satunnaismuuttujan arvoalueelle.<br />
• Tilastollinen malli on satunnaismuuttujan ja sen jakauman<br />
yhdistelmä.<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 4
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Satunnaismuuttujien tyyppejä<br />
• Diskreetit satunnaismuuttujat<br />
- Satunnaismuuttuja on diskreetti, jos sen arvoalue on<br />
diskreetti joukko eli sen arvoalue muodostuu erillisistä<br />
reaaliakselin pisteistä.<br />
- Diskreetin muuttujan jakauma määrittelee alkeistapahtumien<br />
todennäköisyydet.<br />
• Jatkuvat satunnaismuuttujat<br />
- Satunnaismuuttuja on jatkuva, jos sen arvoalue on jokin<br />
reaaliakselin osaväli.<br />
- Jatkuvan muuttujan jakauma määrittelee muuttujan<br />
arvoalueeseen kuuluvien reaaliakselin välien<br />
todennäköisyydet.<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 5
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Diskreettejä satunnaismuuttujia<br />
• Kone tekee tuotetta n kpl päivässä. Satunnaisesti valittu tuote<br />
on viallinen todennäköisyydellä p. Viallisten tuotteiden<br />
lukumäärä päivän aikana tehtyjen tuotteiden joukossa on<br />
satunnaismuuttuja, joka noudattaa binomijakaumaa.<br />
• Pyydystetään järvestä joukko kaloja, merkitään ne ja päästetään<br />
takaisin järveen. Pyydystetään myöhemmin uusi joukko kaloja.<br />
Merkittyjen kalojen määrä uudessa saaliissa on<br />
satunnaismuuttuja, joka noudattaa hypergeometrista jakaumaa.<br />
• Palvelujonoon tulee keskimäärin k asiakasta aikayksikköä<br />
kohden. Jonakin aikavälinä saapuvien asiakkaiden lukumäärä on<br />
satunnaismuuttuja joka noudattaa Poisson-jakaumaa.<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 6
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Pistetodennäköisyysfunktio 1/2<br />
• Merkitään satunnaismuuttujan ξ arvojen joukkoa kirjaimella T:<br />
T = {x1, x2, . . .,xn}, jos S on äärellinen<br />
T = {x1, x2, . . . }, jos S on numeroituvasti ääretön<br />
• Todennäköisyyttä Pr(ξ = xi) = pi sanotaan<br />
pistetodennäköisyydeksi.<br />
• Reaaliarvoinen funktio f määrittelee<br />
pistetodennäköisyysfunktion ξ:lle, jos<br />
1. f(xi) = Pr(ξ = xi) ∀ xi ∈ T<br />
2. f(xi) ≥ 0 ∀ xi ∈ T<br />
3. <br />
T f(xi) = 1<br />
• Pistetodennäköisyysfunktion vakiot eli parametrit määräävät<br />
pistetodennäköisyysfunktion muodon ts. jakauman muodon.<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 7
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Pistetodennäköisyysfunktio 2/2<br />
• Esim. Binomijakauman pistetodennäköisyysfunktio on muotoa:<br />
f(x|n, p) =<br />
0.25<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
n!<br />
x!(n − x)! · px (1 − p) (n−x)<br />
Binomijakauman pistetodennäköisyysfunktio, n=10; p=0.5<br />
0<br />
0 2 4 6 8 10<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 8
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Jatkuvia satunnaismuuttujia<br />
• Vapaasti pyörivän onnenpyörä osoittimen kulman muutos<br />
osoitinta pyöräytettäessä on tasajakautunut eli tasaisesti<br />
jakautunut jatkuva satunnaismuuttuja.<br />
• Palvelujonoon tulee keskimäärin k asiakasta aikayksikköä<br />
kohden. Aika, joka kuluu kunnes seuraava asiakas saapuu jonoon<br />
on jatkuva satunnaismuuuttuja, joka noudattaa<br />
eksponenttijakaumaa.<br />
• Viisivuotiaden tyttöjen pituus on jatkuva satunnaismuuttuja,<br />
jonka voidaan sanoa noudattavan approksimatiivisesti<br />
normaalijakaumaa.<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 9
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Tiheysfunktio<br />
• Reaaliarvoinen funktio f määrittelee (todennäköisyys-)<br />
tiheysfunktion jatkuvalle satunnaismuuttujalle ξ, jos<br />
1. f(x) on x:n jatkuva funktio<br />
2. f(x) ≥ 0 ∀ x ∈ R<br />
3. +∞<br />
f(x)dx = 1<br />
−∞<br />
4. Pr(a ≤ ξ ≤ b) = b<br />
a f(x)dx<br />
• Tiheysfunktion vakioita sanotaan jakauman parametreiksi ja ne<br />
määräävät tiheysfunktion muodon ts. jakauman muodon.<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 10
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Jatkuvan jakauman todennäköisyydet<br />
• Edellisten lisäksi on hyvä huomata:<br />
Pr(ξ = b) = lim<br />
a→b Pr(a ≤ ξ ≤ b) = lim<br />
a→b<br />
b<br />
a<br />
f(x)dx = 0<br />
• Tiheysfunktio voidaan määritellä myös paloittain. Esim. olkoon<br />
⎧<br />
⎨x<br />
+ b, kun 0 ≤ x ≤ 1<br />
f(x) =<br />
⎩0,<br />
muulloin<br />
Tällöin<br />
1<br />
0<br />
f(x)dx = 1<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 11
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Diskreetti vs. jatkuva<br />
• Diskreettiä satunnaisfunktiota ξ vastaavan<br />
pistetodennäköisyysfunktion f arvo pisteessä xi on<br />
todennäköisyys:<br />
Näin ollen<br />
f(xi) = Pr(ξ = xi)<br />
0 ≤ f(xi) ≤ 1<br />
• Jatkuvaa satunnaismuuttujaa ξ vastaavan tiheysfunktion f arvo<br />
pisteessä x ei ole todennäköisyys, joten on mahdollista, että<br />
f(x) > 1<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 12
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Kertymäfunktio<br />
• Satunnaismuuttujan ξ kertymäfunktio<br />
F(x) = Pr(ξ ≤ x)<br />
kuvaa todennäköisyysmassan kertymistä argumentin x kasvaessa.<br />
Pr(ξ > x) = 1 − F(x)<br />
Pr(a ≤ ξ ≤ b) = F(b) − F(a)<br />
• Diskreetissä tapauksessa kertymäfunktio saadaan kaavalla<br />
F(x) = Pr(ξ ≤ x) = <br />
i|xi≤x<br />
• Jatkuvassa tapauksessa kertymäfunktio saadaan kaavalla<br />
F(x) = Pr(ξ ≤ x) =<br />
x<br />
−∞<br />
pi<br />
f(x)dx<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 13
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Tiheys- ja kertymäfunktio<br />
>> x = -5:0.1:5;<br />
>> pdf = normpdf(x); % Normaalijakauman tiheysfunktio<br />
>> plot(x,pdf)<br />
>> cdf = normcdf(x); % Normaalijakauman kertymäfunktio<br />
>> plot(x,cdf)<br />
0.4<br />
0.35<br />
0.3<br />
0.25<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
Normaalijakauman tiheysfunktio<br />
0<br />
−5 0 5<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
Normaalijakauman kertymäfunktio<br />
0<br />
−5 0 5<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 14
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Frekvenssit ja havaintoarvojen jakauma<br />
• Diskreetti muuttuja: Havaittujen arvojen jakaumaa kuvataan<br />
frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka<br />
on pylväsdiagrammi.<br />
• Jatkuva muuttuja: Havaittujen arvojen jakaumaa kuvataan<br />
luokitellulla frekvessijakaumalla ja sitä vastaavalla graafisella<br />
esityksellä, joka on histogrammi.<br />
• Histogrammissa pinta-ala vastaa frekvenssiä ja<br />
pylväsdiagrammissa korkeus.<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 15
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Pylväsdiagrammi<br />
Frekvenssi eli havaintojen lukumäärä<br />
250<br />
200<br />
150<br />
100<br />
50<br />
Pylväsdiagrammi binomijakaumasta generoiduista satunnaisluvuista<br />
0<br />
0 2 4 6 8 10<br />
Satunnaismuuttujan arvo<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 16
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Histogrammi<br />
>> % Generoidaan 1000 satunnaislukua normaalijakaumasta<br />
>> y=normrnd(0,1,1000,1);<br />
>> % Muodostetaan histogrammi<br />
>> hist(y)<br />
Frekvenssi eli havaintojen lukumäärä<br />
300<br />
250<br />
200<br />
150<br />
100<br />
50<br />
Histogrammi normaalijakaumasta generoiduista satunnaisluvuista<br />
0<br />
−4 −3 −2 −1 0 1 2 3 4<br />
Satunnaismuuttujan arvo<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 17
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Tunnuslukuja suhdeasteikolliselle aineistolle 1/2<br />
• Aritmeettinen keskiarvo:<br />
• Otosvarianssi:<br />
s 2 = 1<br />
n − 1<br />
n<br />
i=1<br />
• Otoskeskihajonta: s = √ s 2<br />
¯x = 1<br />
n<br />
n<br />
i=1<br />
xi<br />
(xi − ¯x) 2 = 1<br />
n − 1<br />
n <br />
i=1<br />
x 2 i − n¯x 2<br />
<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 18
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Tunnuslukuja suhdeasteikolliselle aineistolle 2/2<br />
• Standardoitujen havaintoarvojen<br />
zi = xi − ¯x<br />
sx<br />
, i = 1, 2, . . ., n<br />
aritmeettinen keskiarvo ja otosvarianssi ovat<br />
¯z = 1<br />
n<br />
n<br />
i=1<br />
zi = 0 s 2 z = 1<br />
n − 1<br />
n<br />
(zi − ¯z) 2 = 1<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 19<br />
i=1
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Odotusarvo<br />
• Satunnaismuuttujan X odotusarvo on jakauman painopiste.<br />
Samalla se on piste, jonka ympärillä satunnaismuuttujan arvot<br />
vaihtelevat koetoistosta toiseen.<br />
• Diskreetille jakaumalle odotusarvo määritellään seuraavasti:<br />
E(X) = µX = <br />
xipi = <br />
xif(xi)<br />
i<br />
• Vastaavasti jatkuvalle jakaumalle odotusarvo määritellään näin:<br />
E(X) = µX =<br />
+∞<br />
−∞<br />
i<br />
xf(x)dx<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 20
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Varianssi ja keskihajonta<br />
• Satunnaismuuttujan X varianssi on satunnaismuuttujan<br />
odotusarvosta lasketun poikkeaman neliön odotusarvo. Ts.<br />
varianssi kuvaa vaihtelun neliötä.<br />
• Diskreetin satunnaismuuttujan varianssi:<br />
D 2 (X) = Var(X) = σ 2 X = <br />
(xi − µx) 2 pi = <br />
(xi − µx) 2 f(xi)<br />
• Jatkuvan satunnaismuuttujan varianssi:<br />
D 2 (X) = Var(X) = σ 2 X =<br />
i<br />
+∞<br />
−∞<br />
i<br />
(x − µx) 2 f(x)dx<br />
• Standardipoikkeama eli keskihajonta saadaan varianssin<br />
neliöjuurena:<br />
D(X) = D 2 (X) = Var(X)<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 21
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Estimointi<br />
• Tilastollisen tutkimuksen tärkeimpiä osatehtäviä on estimoida eli<br />
arvioida tutkimuksen kohteena olevaa ilmiötä koskevat havainnot<br />
generoineen prosessin mallina käytettävän<br />
todennäköisyysjakauman tuntemattomat parametrit ilmiötä<br />
koskevien havaintojen perusteella.<br />
• Havaintojen funktiota, joka tuottaa estimaatteja parametrin<br />
todelliselle arvolle, kutsutaan parametrin estimaattoriksi.<br />
• Piste-estimointi: Todennäköisyysjakauman parametrin arvon<br />
estimointi.<br />
• Väliestimointi: Parametrin estimaattiin liittyvän luottamusvälin<br />
määrääminen.<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 22
<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />
Kysymyksiä<br />
1. Mitä asteikkoa (nominaali/ordinaali/intervalli/suhde) käyttäisit<br />
lämpötilan kuvaamiseen? Entä ajan?<br />
2. Jos pankkiin tulee asiakkaita eksponentiaalijakautuneesti, mitä<br />
jakaumaa tietyllä aikavälillä tulevien asiakkaiden määrä<br />
noudattaa?<br />
3. Mitä eroa on diskreetillä ja jatkuvalla satunnaismuuttujalla?<br />
4. Laske eksponentiaalijakauman (f(x) = λe −λx , λ > 0)<br />
kertymäfunktio.<br />
5. Miten histogrammi muodostetaan?<br />
6. Mitä on piste-estimointi?<br />
Mat-2.2107 Sovelletun matematiikan tietokonetyöt 23