01.05.2013 Views

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt<br />

Syksy 2006<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Harjoituksen tavoitteet<br />

• Satunnaismuuttujat ja todennäköisyysjakaumat<br />

• Pistetodennäköisyysfunktio, tiheysfunktio, kertymäfunktio<br />

• Odotusarvo, varianssi ja keskihajonta<br />

• Tilastollisten jakaumien estimointi<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 2


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Mittaaminen<br />

• Tilastollisen tutkimuksen kohdetta kuvaavat numeeriset ja<br />

kvantitatiiviset tiedot saadaan mittaamalla.<br />

• Mitta-asteikot:<br />

- Nominaali- eli laatueroasteikko. Omena vai appelsiini?<br />

- Ordinaali- eli järjestysasteikko. Monesko?<br />

- Intervalli- eli välimatka-asteikko. Kuinka suuri ero?<br />

- Suhdeasteikko. Kuinka monta kertaa enemmän tai<br />

vähemmän?<br />

• Kvalitatiivisia ominaisuuksia kuvataan laatueroasteikollisilla<br />

muuttujilla ja kvantitatiivisia puolestaan välimatka- tai<br />

suhdeasteikollisilla muuttujilla.<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 3


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Käsitteitä<br />

• Satunnaismuuttuja on satunnaisilmiön tulosvaihtoehtoihin<br />

liitetty reaaliarvoinen funktio. Satunnaismuuttuja on funktiona<br />

täysin määrätty, mutta sattuma määrää mikä alkeistapahtumista<br />

realisoituu ja sitä kautta myös minkä arvon satunnaismuuttuja<br />

saa.<br />

• Todennäköisyysjakauma kuvaa otosavaruuden<br />

todennäköisyysmassan (= 1) jakautumista otosavaruudessa<br />

määritellyn satunnaismuuttujan arvoalueelle.<br />

• Tilastollinen malli on satunnaismuuttujan ja sen jakauman<br />

yhdistelmä.<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 4


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Satunnaismuuttujien tyyppejä<br />

• Diskreetit satunnaismuuttujat<br />

- Satunnaismuuttuja on diskreetti, jos sen arvoalue on<br />

diskreetti joukko eli sen arvoalue muodostuu erillisistä<br />

reaaliakselin pisteistä.<br />

- Diskreetin muuttujan jakauma määrittelee alkeistapahtumien<br />

todennäköisyydet.<br />

• Jatkuvat satunnaismuuttujat<br />

- Satunnaismuuttuja on jatkuva, jos sen arvoalue on jokin<br />

reaaliakselin osaväli.<br />

- Jatkuvan muuttujan jakauma määrittelee muuttujan<br />

arvoalueeseen kuuluvien reaaliakselin välien<br />

todennäköisyydet.<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 5


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Diskreettejä satunnaismuuttujia<br />

• Kone tekee tuotetta n kpl päivässä. Satunnaisesti valittu tuote<br />

on viallinen todennäköisyydellä p. Viallisten tuotteiden<br />

lukumäärä päivän aikana tehtyjen tuotteiden joukossa on<br />

satunnaismuuttuja, joka noudattaa binomijakaumaa.<br />

• Pyydystetään järvestä joukko kaloja, merkitään ne ja päästetään<br />

takaisin järveen. Pyydystetään myöhemmin uusi joukko kaloja.<br />

Merkittyjen kalojen määrä uudessa saaliissa on<br />

satunnaismuuttuja, joka noudattaa hypergeometrista jakaumaa.<br />

• Palvelujonoon tulee keskimäärin k asiakasta aikayksikköä<br />

kohden. Jonakin aikavälinä saapuvien asiakkaiden lukumäärä on<br />

satunnaismuuttuja joka noudattaa Poisson-jakaumaa.<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 6


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Pistetodennäköisyysfunktio 1/2<br />

• Merkitään satunnaismuuttujan ξ arvojen joukkoa kirjaimella T:<br />

T = {x1, x2, . . .,xn}, jos S on äärellinen<br />

T = {x1, x2, . . . }, jos S on numeroituvasti ääretön<br />

• Todennäköisyyttä Pr(ξ = xi) = pi sanotaan<br />

pistetodennäköisyydeksi.<br />

• Reaaliarvoinen funktio f määrittelee<br />

pistetodennäköisyysfunktion ξ:lle, jos<br />

1. f(xi) = Pr(ξ = xi) ∀ xi ∈ T<br />

2. f(xi) ≥ 0 ∀ xi ∈ T<br />

3. <br />

T f(xi) = 1<br />

• Pistetodennäköisyysfunktion vakiot eli parametrit määräävät<br />

pistetodennäköisyysfunktion muodon ts. jakauman muodon.<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 7


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Pistetodennäköisyysfunktio 2/2<br />

• Esim. Binomijakauman pistetodennäköisyysfunktio on muotoa:<br />

f(x|n, p) =<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

n!<br />

x!(n − x)! · px (1 − p) (n−x)<br />

Binomijakauman pistetodennäköisyysfunktio, n=10; p=0.5<br />

0<br />

0 2 4 6 8 10<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 8


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Jatkuvia satunnaismuuttujia<br />

• Vapaasti pyörivän onnenpyörä osoittimen kulman muutos<br />

osoitinta pyöräytettäessä on tasajakautunut eli tasaisesti<br />

jakautunut jatkuva satunnaismuuttuja.<br />

• Palvelujonoon tulee keskimäärin k asiakasta aikayksikköä<br />

kohden. Aika, joka kuluu kunnes seuraava asiakas saapuu jonoon<br />

on jatkuva satunnaismuuuttuja, joka noudattaa<br />

eksponenttijakaumaa.<br />

• Viisivuotiaden tyttöjen pituus on jatkuva satunnaismuuttuja,<br />

jonka voidaan sanoa noudattavan approksimatiivisesti<br />

normaalijakaumaa.<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 9


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Tiheysfunktio<br />

• Reaaliarvoinen funktio f määrittelee (todennäköisyys-)<br />

tiheysfunktion jatkuvalle satunnaismuuttujalle ξ, jos<br />

1. f(x) on x:n jatkuva funktio<br />

2. f(x) ≥ 0 ∀ x ∈ R<br />

3. +∞<br />

f(x)dx = 1<br />

−∞<br />

4. Pr(a ≤ ξ ≤ b) = b<br />

a f(x)dx<br />

• Tiheysfunktion vakioita sanotaan jakauman parametreiksi ja ne<br />

määräävät tiheysfunktion muodon ts. jakauman muodon.<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 10


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Jatkuvan jakauman todennäköisyydet<br />

• Edellisten lisäksi on hyvä huomata:<br />

Pr(ξ = b) = lim<br />

a→b Pr(a ≤ ξ ≤ b) = lim<br />

a→b<br />

b<br />

a<br />

f(x)dx = 0<br />

• Tiheysfunktio voidaan määritellä myös paloittain. Esim. olkoon<br />

⎧<br />

⎨x<br />

+ b, kun 0 ≤ x ≤ 1<br />

f(x) =<br />

⎩0,<br />

muulloin<br />

Tällöin<br />

1<br />

0<br />

f(x)dx = 1<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 11


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Diskreetti vs. jatkuva<br />

• Diskreettiä satunnaisfunktiota ξ vastaavan<br />

pistetodennäköisyysfunktion f arvo pisteessä xi on<br />

todennäköisyys:<br />

Näin ollen<br />

f(xi) = Pr(ξ = xi)<br />

0 ≤ f(xi) ≤ 1<br />

• Jatkuvaa satunnaismuuttujaa ξ vastaavan tiheysfunktion f arvo<br />

pisteessä x ei ole todennäköisyys, joten on mahdollista, että<br />

f(x) > 1<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 12


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Kertymäfunktio<br />

• Satunnaismuuttujan ξ kertymäfunktio<br />

F(x) = Pr(ξ ≤ x)<br />

kuvaa todennäköisyysmassan kertymistä argumentin x kasvaessa.<br />

Pr(ξ > x) = 1 − F(x)<br />

Pr(a ≤ ξ ≤ b) = F(b) − F(a)<br />

• Diskreetissä tapauksessa kertymäfunktio saadaan kaavalla<br />

F(x) = Pr(ξ ≤ x) = <br />

i|xi≤x<br />

• Jatkuvassa tapauksessa kertymäfunktio saadaan kaavalla<br />

F(x) = Pr(ξ ≤ x) =<br />

x<br />

−∞<br />

pi<br />

f(x)dx<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 13


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Tiheys- ja kertymäfunktio<br />

>> x = -5:0.1:5;<br />

>> pdf = normpdf(x); % Normaalijakauman tiheysfunktio<br />

>> plot(x,pdf)<br />

>> cdf = normcdf(x); % Normaalijakauman kertymäfunktio<br />

>> plot(x,cdf)<br />

0.4<br />

0.35<br />

0.3<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

Normaalijakauman tiheysfunktio<br />

0<br />

−5 0 5<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

Normaalijakauman kertymäfunktio<br />

0<br />

−5 0 5<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 14


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Frekvenssit ja havaintoarvojen jakauma<br />

• Diskreetti muuttuja: Havaittujen arvojen jakaumaa kuvataan<br />

frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka<br />

on pylväsdiagrammi.<br />

• Jatkuva muuttuja: Havaittujen arvojen jakaumaa kuvataan<br />

luokitellulla frekvessijakaumalla ja sitä vastaavalla graafisella<br />

esityksellä, joka on histogrammi.<br />

• Histogrammissa pinta-ala vastaa frekvenssiä ja<br />

pylväsdiagrammissa korkeus.<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 15


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Pylväsdiagrammi<br />

Frekvenssi eli havaintojen lukumäärä<br />

250<br />

200<br />

150<br />

100<br />

50<br />

Pylväsdiagrammi binomijakaumasta generoiduista satunnaisluvuista<br />

0<br />

0 2 4 6 8 10<br />

Satunnaismuuttujan arvo<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 16


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Histogrammi<br />

>> % Generoidaan 1000 satunnaislukua normaalijakaumasta<br />

>> y=normrnd(0,1,1000,1);<br />

>> % Muodostetaan histogrammi<br />

>> hist(y)<br />

Frekvenssi eli havaintojen lukumäärä<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

Histogrammi normaalijakaumasta generoiduista satunnaisluvuista<br />

0<br />

−4 −3 −2 −1 0 1 2 3 4<br />

Satunnaismuuttujan arvo<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 17


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Tunnuslukuja suhdeasteikolliselle aineistolle 1/2<br />

• Aritmeettinen keskiarvo:<br />

• Otosvarianssi:<br />

s 2 = 1<br />

n − 1<br />

n<br />

i=1<br />

• Otoskeskihajonta: s = √ s 2<br />

¯x = 1<br />

n<br />

n<br />

i=1<br />

xi<br />

(xi − ¯x) 2 = 1<br />

n − 1<br />

n <br />

i=1<br />

x 2 i − n¯x 2<br />

<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 18


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Tunnuslukuja suhdeasteikolliselle aineistolle 2/2<br />

• Standardoitujen havaintoarvojen<br />

zi = xi − ¯x<br />

sx<br />

, i = 1, 2, . . ., n<br />

aritmeettinen keskiarvo ja otosvarianssi ovat<br />

¯z = 1<br />

n<br />

n<br />

i=1<br />

zi = 0 s 2 z = 1<br />

n − 1<br />

n<br />

(zi − ¯z) 2 = 1<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 19<br />

i=1


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Odotusarvo<br />

• Satunnaismuuttujan X odotusarvo on jakauman painopiste.<br />

Samalla se on piste, jonka ympärillä satunnaismuuttujan arvot<br />

vaihtelevat koetoistosta toiseen.<br />

• Diskreetille jakaumalle odotusarvo määritellään seuraavasti:<br />

E(X) = µX = <br />

xipi = <br />

xif(xi)<br />

i<br />

• Vastaavasti jatkuvalle jakaumalle odotusarvo määritellään näin:<br />

E(X) = µX =<br />

+∞<br />

−∞<br />

i<br />

xf(x)dx<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 20


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Varianssi ja keskihajonta<br />

• Satunnaismuuttujan X varianssi on satunnaismuuttujan<br />

odotusarvosta lasketun poikkeaman neliön odotusarvo. Ts.<br />

varianssi kuvaa vaihtelun neliötä.<br />

• Diskreetin satunnaismuuttujan varianssi:<br />

D 2 (X) = Var(X) = σ 2 X = <br />

(xi − µx) 2 pi = <br />

(xi − µx) 2 f(xi)<br />

• Jatkuvan satunnaismuuttujan varianssi:<br />

D 2 (X) = Var(X) = σ 2 X =<br />

i<br />

+∞<br />

−∞<br />

i<br />

(x − µx) 2 f(x)dx<br />

• Standardipoikkeama eli keskihajonta saadaan varianssin<br />

neliöjuurena:<br />

D(X) = D 2 (X) = Var(X)<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 21


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Estimointi<br />

• Tilastollisen tutkimuksen tärkeimpiä osatehtäviä on estimoida eli<br />

arvioida tutkimuksen kohteena olevaa ilmiötä koskevat havainnot<br />

generoineen prosessin mallina käytettävän<br />

todennäköisyysjakauman tuntemattomat parametrit ilmiötä<br />

koskevien havaintojen perusteella.<br />

• Havaintojen funktiota, joka tuottaa estimaatteja parametrin<br />

todelliselle arvolle, kutsutaan parametrin estimaattoriksi.<br />

• Piste-estimointi: Todennäköisyysjakauman parametrin arvon<br />

estimointi.<br />

• Väliestimointi: Parametrin estimaattiin liittyvän luottamusvälin<br />

määrääminen.<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 22


<strong>Harjoitus</strong> 2: <strong>Matlab</strong> - <strong>Statistical</strong> <strong>Toolbox</strong><br />

Kysymyksiä<br />

1. Mitä asteikkoa (nominaali/ordinaali/intervalli/suhde) käyttäisit<br />

lämpötilan kuvaamiseen? Entä ajan?<br />

2. Jos pankkiin tulee asiakkaita eksponentiaalijakautuneesti, mitä<br />

jakaumaa tietyllä aikavälillä tulevien asiakkaiden määrä<br />

noudattaa?<br />

3. Mitä eroa on diskreetillä ja jatkuvalla satunnaismuuttujalla?<br />

4. Laske eksponentiaalijakauman (f(x) = λe −λx , λ > 0)<br />

kertymäfunktio.<br />

5. Miten histogrammi muodostetaan?<br />

6. Mitä on piste-estimointi?<br />

Mat-2.2107 Sovelletun matematiikan tietokonetyöt 23

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!