30.07.2013 Views

StatDataN: Middelværdi og varians

StatDataN: Middelværdi og varians

StatDataN: Middelværdi og varians

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong><br />

JLJ<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 1/33


Repetition<br />

Stokastisk variabel: funktion fra udfaldsrum over i de hele<br />

tal eller over i de reelle tal<br />

Ex: Ω = alle egetræer,<br />

X(ω) = antallet af blade på træet ω<br />

Y (ω) = højden af træet ω<br />

Sandsynlighedsfunktion (tæthed) <strong>og</strong> fordelingsfunktion:<br />

fX(x) = P(X = x), FX(x) = P(X ≤ x)<br />

To stokastiske variable: simultan sandsynlighed <strong>og</strong> betinget<br />

sandsynlighed<br />

P(X = i|Y = j) =<br />

P(X=i,Y =j)<br />

P(Y =j)<br />

X’s fordeling: beskrivelse af fX eller FX<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 2/33


Betinget sandsynlighed<br />

Cykeltur: ss p for punktering på baghjul (B)<br />

ss 1 2p for punktering på forhjul (F)<br />

de to hjul er uafhængige<br />

Vi betinger med at ét hjul punkterer (et)<br />

P(forhjul|ét hjul) = P(F |et)<br />

= P(F,et<br />

P(et)<br />

=<br />

=<br />

= P(F, ikke B)<br />

P(et)<br />

P(F, ikke B)<br />

P(F, ikke B) + P(ikke F,B)<br />

1<br />

2<br />

≈ 1<br />

3<br />

1<br />

2p(1 − p)<br />

p(1 − p) + (1 − 1<br />

2<br />

p lille<br />

p)p = 1 − p<br />

3 − 2p<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 3/33


Gevinst i mange spil<br />

Spil: Taber 1 kr ved plat, vinder 1 kr ved krone<br />

Ét spil: Enten gevinst eller tab<br />

Mange spil?: Er der tab i det lange løb?<br />

n spil: vinder i kn <strong>og</strong> taber i n − kn<br />

gennemsnitlige gevinst:<br />

jvf "fysiske" definition af ss<br />

1<br />

n [1 · kn − 1 · (n − kn)]<br />

= 1 · kn kn<br />

− 1 · (1 −<br />

n n )<br />

→ 1 · P(plat) − 1 · P(krone)<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 4/33


<strong>Middelværdi</strong> af diskret sv<br />

Definition på middelværdi E(X) af diskret stokastisk<br />

variabel<br />

E(X) = <br />

i · P(X = i)<br />

<strong>Middelværdi</strong>en er en egenskab ved ss-fordelingen<br />

i<br />

Fortolkning: gennemsnitlige værdi ved mange uafhængige<br />

gentagelser<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 5/33


Populationsgennemsnit<br />

Ω=population<br />

P : tilfældig udvælgelse, P(Peter Mathisen) = 1<br />

|Ω|<br />

X: stokastisk variabel<br />

E(X) kaldes populations-gennemsnittet<br />

Ωi = {ω|X(ω) = i}, |Ωi| = antal elementer,<br />

E(X) = <br />

i · P(X = i) = <br />

i<br />

= 1<br />

|Ω|<br />

= 1<br />

|Ω|<br />

<br />

i <br />

i<br />

<br />

i<br />

ω∈Ωi<br />

<br />

ω∈Ωi<br />

i<br />

1 = 1<br />

|Ω|<br />

i · |Ωi|<br />

|Ω|<br />

<br />

X(ω) = 1<br />

|Ω|<br />

i<br />

<br />

ω∈Ωi<br />

<br />

ω∈Ω<br />

i<br />

X(ω)<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 6/33


Chevalier de Meré<br />

Spil: 24 kast med 2 terninger<br />

<br />

1 mindst én dobbelt sekser<br />

X = gevinst =<br />

−1 ingen dobbelt sekser<br />

Hvad er den gennemsnitlige gevinst i det lange løb?<br />

E(X) = 1 · P(..) − 1 · (1 − P(..))<br />

Chevalier de Meré (∼1650) fandt empirisk (!) at E(X) < 0<br />

eller P(..) < 1 2<br />

Han havde ellers beregnet at P(..) > 1 2<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 7/33


Chevalier de Meré<br />

P(ingen dobbelt 6-er) =<br />

P(mindst én dobbelt 6-er) = 1 −<br />

24 35<br />

36<br />

24 35<br />

36<br />

E(X) = 1 · 0.4914039 − 1 · 0.5085961 = −0.01719<br />

= 0.5085961<br />

= 0.4914039<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 8/33


p er en parameter<br />

Bernoulli variabel<br />

X =<br />

<br />

E(X) = 1 · p + 0 · (1 − p) = p<br />

X 2 = X, E(X 2 ) = E(X) = p<br />

1 med ss p<br />

0 med ss 1 − p<br />

V (X) = E(X 2 ) − [E(X)] 2 = p − p 2 = p(1 − p)<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 9/33


<strong>Middelværdi</strong>=ligevægt<br />

Vægtstangprincip:<br />

1 kg placeret i afstand r fra omdrejningspunkt har samme<br />

effekt som 2 kg placeret i den halve afstand<br />

Den samlede effekt af masserne m1,...,mk placeret i<br />

afstandene r1,...,rk er<br />

m1r1 + m2r2 + · · · + mkrk<br />

Placer massen P(X = i) i punktet i: hvor skal vi placere<br />

omdrejningspunkt o for at få ligevægt:<br />

<br />

P(X = i)(i − o) = 0<br />

i<br />

⇔ <br />

iP(X = i) − o <br />

P(X = i) = 0<br />

i<br />

⇔ E(X) = o · 1 = o<br />

i<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 10/33


<strong>Middelværdi</strong> af en funktion af X<br />

Lad Y = h(X) med h : N → N<br />

P(Y = j) = <br />

{x så at h(x)=j}<br />

P(X = x)<br />

Ex: h(x) = (x − 5) 2<br />

{x : h(x) = 1} = {4, 6}, {x : h(x) = 4} = {3, 7}<br />

E(Y ) = <br />

j · P(Y = j) = <br />

j <br />

j<br />

= <br />

j<br />

<br />

x:h(x)=j<br />

= <br />

h(x)P(X = x)<br />

x<br />

j<br />

x:h(x)=j<br />

jP(X = x) = <br />

j<br />

P(X = x)<br />

<br />

x:h(x)=j<br />

h(x)P(X = x)<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 11/33


<strong>Middelværdi</strong> af en funktion af X<br />

E(h(X)) = <br />

h(x)P(X = x)<br />

Vi bruger samme formel generelt for Y = h(X) hvor<br />

h : N → R<br />

Ex: Y = X 2<br />

x −2 −1 0 1 2<br />

P(X = x) 0.2 0.2 0.2 0.2 0.2<br />

y 4 1 0 1 4<br />

E(X) = 0.2(−2 − 1 + 0 + 1 + 2) = 0,<br />

E(Y ) = 0 · 0.2 + 1 · 0.4 + 4 · 0.4 = 2<br />

x<br />

y 0 1 4<br />

P(Y = y) 0.2 0.4 0.4<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 12/33


Lad a <strong>og</strong> b være konstanter:<br />

Regneregler<br />

E(a + bX) = <br />

(a + bi)P(X = i)<br />

i<br />

= a <br />

P(X = i) + b <br />

iP(X = i)<br />

i<br />

= a + bE(X)<br />

i<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 13/33


Lad h : N × N → R<br />

Regneregler: sum<br />

E(h(X,Y )) = <br />

h(i,j)P(X = i,Y = j)<br />

E(X + Y ) = <br />

(i + j)P(X = i,Y = j)<br />

i,j<br />

i,j<br />

= <br />

i <br />

P(X = i,Y = j) + <br />

j <br />

P(X = i,Y = j)<br />

i<br />

j<br />

= <br />

iP(X = i) + <br />

jP(Y = j)<br />

i<br />

= E(X) + E(Y )<br />

<strong>Middelværdi</strong> af sum er sum af middelværdier<br />

j<br />

j<br />

i<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 14/33


Geometrisk fordeling<br />

X = antal mislykkede forsøg før man bliver gravid<br />

ss for graviditet i hvert forsøg = 1 − p<br />

P(X = k) = p · p · p · · · p · (1 − p) = p k (1 − p), k = 0, 1, 2,...,<br />

0 < p < 1<br />

(1 − θ) n<br />

k=0 θk =<br />

(1 + θ + θ 2 + · · · + θ n ) − (θ + θ 2 + · · · + θ n+1 ) = 1 − θ n+1<br />

∞<br />

k=0 θk = 1<br />

1−θ<br />

∞<br />

k=1 kθk−1 = 1<br />

(1−θ) 2<br />

E(X) = ∞<br />

k=0 kpk (1 − p) = p(1 − p) ∞<br />

k=1 kpk−1 = p<br />

1−p<br />

Ex: 1 − p = 1 4<br />

→ E(X) = 3<br />

OBS: E(X − n|X > n) = p<br />

1−p<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 15/33


Geometrisk fordeling<br />

∞<br />

k=1 kθk−1 = 1<br />

(1−θ) 2 ,<br />

E(X 2 ) =<br />

∞<br />

k=0<br />

= p 2 (1 − p)<br />

k 2 p k (1 − p) =<br />

∞<br />

k=2 k(k − 1)θk−2 = 2<br />

(1−θ) 3<br />

∞<br />

k(k − 1 + 1)p k (1 − p)<br />

k=0<br />

∞<br />

k(k − 1)p k−2 + E(X)<br />

k=2<br />

= p 2 2 p<br />

(1 − p) +<br />

(1 − p) 3 1 − p<br />

=<br />

2p2 p<br />

+<br />

(1 − p) 2 1 − p<br />

V (X) = E(X 2 ) − [E(X)] 2 = 2p2<br />

(1−p) 2 + p<br />

1−p<br />

− p2<br />

(1−p) 2 = p<br />

(1−p) 2<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 16/33


Kontinuert sv<br />

Husk P(X ∈ [x − ɛ 2 ,x + ɛ 2 ]) ≈ fX(x) · ɛ<br />

E(X) =<br />

∞<br />

−∞<br />

Regneregler som før:<br />

E(h(X)) = ∞<br />

−∞ h(x)fX(x)dx<br />

E(a + bX) = a + bE(X)<br />

E(X + Y ) = E(X) + E(Y )<br />

xfX(x)dx ≈ værdi · P(værdi)<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 17/33


Uniform fordeling<br />

Vi betragter den uniforme fordeling på intervallet [0, 1].<br />

Denne har tæthed 1 på [0, 1] <strong>og</strong> 0 ellers.<br />

E(X) = 1<br />

0 x · 1 · dx = [1 2 x2 ] 1 0 = 1 2 · 12 − 0 = 1 2<br />

E(X 2 ) = 1<br />

0 x2 · 1 · dx = [ 1 3 x3 ] 1 0 = 1 3 · 13 − 0 = 1 3<br />

V (X) = E(X 2 ) − [E(X)] 2 = 1 3 − (1 2 )2 = 4<br />

12<br />

− 3<br />

12<br />

= 1<br />

12<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 18/33


Eksponentialfordeling<br />

X ventetid indtil klik i geigertæller<br />

fX(x) = e −x , x ≥ 0,<br />

P(X ≥ z) = ∞<br />

z e−x dx = [−e −x ] ∞ z = −0 + e −z = e −z<br />

E(X) = ∞<br />

0 xe−x dx = [−(x + 1)e −x ] ∞ 0<br />

E(X 2 ) = ∞<br />

0 x2 e −x dx = [−(x 2 + 2x + 2)e −x ] ∞ 0<br />

V (X) = E(X 2 ) − [E(X)] 2 = 2 − 1 2 = 1<br />

= 0 − (−(0 + 1)) = 1<br />

= 2<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 19/33


Varians<br />

En statistisk undersøgelse går ud på at vurdere om n<strong>og</strong>et<br />

er typisk eller atypisk. Til dette skal vi udover midddelværdi<br />

<strong>og</strong>så bruge et udtryk for spredningen omkring<br />

middelværdien<br />

Definition: Varians V (X)<br />

V (X) = E([X − E(X)] 2 )<br />

Ex: Kast med en terning. X= antal øjne<br />

E(X) = 1 · 1<br />

6<br />

+ 2 · 1<br />

6<br />

+ 3 · 1<br />

6<br />

+ 4 · 1<br />

6<br />

+ 5 · 1<br />

6<br />

+ 6 · 1<br />

6<br />

= 21<br />

6<br />

V (X) = (1 − 3.5) 2 · 1<br />

6 + (2 − 3.5)2 · 1<br />

6 + (3 − 3.5)2 · 1<br />

6<br />

+(4 − 3.5) 2 · 1<br />

6 + (5 − 3.5)2 · 1<br />

6 + (6 − 3.5)2 · 1<br />

6<br />

= 3.5<br />

= 35<br />

12<br />

= 2.92<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 20/33


Spredning<br />

V (X) har ikke samme måleenhed som X. Istedet:<br />

Definition: Spredning eller standardafvigelse<br />

σ(X) = V (X)<br />

Ex: terningekast. Spredning = 35/12 ≈ 1.71<br />

Hvordan kan vi forstå spredningen: Grov regel:<br />

cirka 30% af observationerne afviger mere end<br />

1·spredning fra middelværdien<br />

cirka 5% af observationerne afviger mere end<br />

2·spredning fra middelværdien<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 21/33


Regneregel: Lad µ = E(X):<br />

Varians<br />

V (X) = E([X − µ] 2 ) = E(X 2 − 2µX + µ 2 )<br />

= E(X 2 ) − 2µE(X) + µ 2<br />

= E(X 2 ) − [E(X)] 2<br />

Bernoulli V (X) = p(1 − p)<br />

Terning V (X) = 35<br />

Geometrisk<br />

12<br />

V (X) = p<br />

(1−p) 2<br />

Uniform V (X) = 1 12<br />

Eksponential V (X) = 1<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 22/33


Regneregler: a + bX<br />

Lad a <strong>og</strong> b være konstanter<br />

V (a + bX) = E([a + bX − {a + bE(X)}] 2 )<br />

= E([b{X − E(X)}] 2 )<br />

= b 2 E([X − E(X)] 2 )<br />

= b 2 V (X)<br />

σ(a + bX) = |b|σ(X)<br />

V (konstant) = 0<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 23/33


Regneregler<br />

Hvis X <strong>og</strong> Y er uafhængige så er<br />

E[g(X)h(Y )] = <br />

g(i)h(j)P(X = i,Y = j)<br />

i,j<br />

= <br />

g(i)h(j)P(X = i)P(Y = j)<br />

i,j<br />

= <br />

g(i)P(X = i) <br />

h(j)P(Y = j)<br />

i<br />

= <br />

g(i)P(X = i) [E(h(Y ))]<br />

i<br />

= [E(g(X))] [E(h(Y ))]<br />

j<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 24/33


Regneregler: sum<br />

Hvis X <strong>og</strong> Y er uafhængige så er<br />

V (X + Y ) = V (X) + V (Y )<br />

Varians af sum af uafhængige = sum af <strong>varians</strong>er<br />

E[(X + Y ) 2 ] = E[X 2 + Y 2 + 2XY ]<br />

= E(X 2 ) + E(Y 2 ) + 2E(X)E(Y ),<br />

[E(X) + E(Y )] 2 = [E(X)] 2 + [E(Y )] 2 + 2E(X)E(Y ),<br />

V (X + Y ) = E(X 2 ) + E(Y 2 ) − [E(X)] 2 − [E(Y )] 2<br />

= V (X) + V (Y )<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 25/33


Regneregler: gennemsnit<br />

For n uafhængige <strong>og</strong> identisk fordelte variable:<br />

V ( 1<br />

n<br />

n<br />

i=1<br />

Xi) = 1<br />

n 2V (X1 + [X2 + · · · + Xn])<br />

= 1<br />

n 2[V (X1) + V (X2 + · · · + Xn)]<br />

= ... = 1<br />

n 2[V (X1) + V (X2) + · · · + V (Xn)]<br />

= 1<br />

n2nV (X1) = 1<br />

V (X1)<br />

n<br />

σ( ¯X) = 1<br />

√ n σ(X1) ¯X = 1<br />

n<br />

4-dobling af n giver halvering af spredning<br />

n<br />

i=1<br />

Xi<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 26/33


Ko<strong>varians</strong><br />

Når X <strong>og</strong> Y ikke er uafhængige er<br />

V (X + Y ) = V (X) + V (Y ) + 2Cov(X,Y )<br />

hvor Cov(X,Y ) = E([X − E(X)][Y − E(Y )]) kaldes<br />

ko<strong>varians</strong>en<br />

Korrelationskoefficienten:<br />

ρ(X,Y ) =<br />

Cov(X,Y )<br />

V (X)V (Y )<br />

−1 ≤ ρ(X,Y ) ≤ 1, (ρ(X,Y ) = ±1) ⇔ (Y = a + bX)<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 27/33


Ko<strong>varians</strong><br />

Ex: Kast med to terninger, X = max, Y = sum.<br />

Vis R-beregninger<br />

E(X) = 4.4, V (X) = 1.97, σ(X) = 1.40<br />

E(Y ) = 7, V (Y ) = 5.83, σ(Y ) = 2.42<br />

Cov(X,Y ) = 2.92, ρ(X,Y ) = 0.86<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 28/33


Ko<strong>varians</strong><br />

Ex: Y = βX + Z, X <strong>og</strong> Z er uafhængige, β er en parameter<br />

E(Y ) = βE(X) + E(Z), V (Y ) = β 2 V (X) + V (Z)<br />

E(Y |X = x) = E(Z) + βx, V (Y |X = x) = V (Z)<br />

Cov(X,Y ) = Cov(X,βX + Z) = Cov(X,βX) + Cov(X,Z)<br />

ρ(X,Y ) =<br />

= βV (X)<br />

βV (X)<br />

V (X)[β 2 V (X) + V (Z)] =<br />

β<br />

β 2 + V (Z)/V (X)<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 29/33


Fraktil<br />

p-fraktilen xp for en fordelingsfunktion F er den værdi af x<br />

som opfylder<br />

F(xp) ≥ p <strong>og</strong> F(x) < p for x < xp<br />

I ord betyder dette at xp er det første punkt hvor den<br />

kumulerede ss når op på eller over p<br />

Ex: (Vis R-plot) x0.25 = 0.5, x0.75 = 1, x0.6 = 1<br />

F(x) =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

0 x < 0<br />

1<br />

2<br />

3<br />

4<br />

x 0 ≤ x < 1<br />

1 + 4 (x − 1) 1 ≤ x < 2<br />

1 2 ≤ x<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 30/33


Fraktil<br />

For en standard normalfordeling (som I ikke kender endnu)<br />

er der 97.5% ss for at ligge under 1.96 <strong>og</strong> 2.5% ss for at<br />

ligge over. 97.5%-fraktilen er altså 1.96<br />

Fraktiler finder man ved at slå op i en tabel: Tabel 1-6<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 31/33


Fraktil<br />

Ex: Møntkast:<br />

⎧<br />

X = 1 hvis krone <strong>og</strong> X = 0 hvis plat<br />

⎪⎨ 0 x < 0<br />

FX(x) = 0.5 0 ≤ x < 1<br />

⎪⎩<br />

1 x ≥ 1<br />

<br />

0 0 < p ≤ 0.5<br />

xp =<br />

1 0.5 < p ≤ 1<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 32/33


Resume<br />

<strong>Middelværdi</strong> = sum af værdi · ss for denne værdi<br />

E(h(X) = <br />

i h(i)P(X = i)<br />

<strong>Middelværdi</strong> af sum = sum af middelværdier<br />

Varians: E[E − E(X)] 2 , spredning = √ <strong>varians</strong><br />

V (bX) = b 2 V (X)<br />

Varians af sum af uafhængige = sum af <strong>varians</strong>er<br />

Fraktiler → tabeller<br />

<strong>StatDataN</strong>: <strong>Middelværdi</strong> <strong>og</strong> <strong>varians</strong> – p. 33/33

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!