25.06.2015 Views

Statistiek Deel 1 Beschrijvende statistiek - Studiant

Statistiek Deel 1 Beschrijvende statistiek - Studiant

Statistiek Deel 1 Beschrijvende statistiek - Studiant

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

<strong>Statistiek</strong><br />

4 examenvragen:<br />

- tabel aanvullen met spreidings- en centrummaten<br />

- poisson- en binomiale verdeling<br />

<strong>Deel</strong> 1 <strong>Beschrijvende</strong> <strong>statistiek</strong><br />

1 Soorten variabelen<br />

Kwalitatief: geen getallen<br />

- ordinaal: ordening (rangschikbaar)<br />

- nominaal: geen ordening<br />

Kwantitatief: getallen<br />

- discreet: in stapjes<br />

- continu: kommagetallen<br />

- ratio: natuurlijk nulpunt<br />

- interval: geen natuurlijk nulpunt<br />

2 Grafieken<br />

(relatieve) frequenties: histogram<br />

cumulatieve (relatieve) frequenties: cumulatief frequentiepolygoon of ogief<br />

! Bliksemschichtje bij assen die niet vanaf 0 beginnen.<br />

2.1 Kwantitatief discrete variabele<br />

- histogram of staafdiagram: staafjes raken elkaar niet<br />

- ogief: snijden op x-as, midden van de klasse, verbinding met punten in lijnen<br />

2.2 Kwantitatief continu ratio variabele<br />

- ogief: punt op rechterklassegrens<br />

- stengel-bladdiagram<br />

2.3 Kwalitatief nominale variabele<br />

- strookdiagram in relatieve frequentie in percentage<br />

- cirkel- taart- of schijfdiagram in relatieve frequentie in percentage<br />

Jolien De Veirman 1/10


Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

3 Centrummaten voor discrete gegroepeerde gegevens<br />

3.1 Rekenkundig gemiddelde<br />

3.1.1 Ongewogen gemiddelde<br />

Som van Xi waarden (soms . Fi), delen door n (of door de som van Fi)<br />

3.1.2 Gewogen gemiddelde<br />

Som van Xi . Wi gedeeld door de som van Wi waarbij W= wegingsfactor<br />

3.2 Mediaan<br />

Middelste waarneming of rekenkundig gemiddelde van de 2 middelste waarnemingen<br />

3.2.1 Mediaan bij continue gegroepeerde gegevens<br />

Linkerklassegrens + aantal waarnemingen kleiner dan de mediaan . klassenbreedte<br />

aantal waarnemingen kleiner dan de mediaan<br />

+ aantal waarnemingen groter dan de mediaan<br />

Opmerking: Indien n = even mediaan tussen 2 getallen links en rechts meetellen voor<br />

het aantal waarnemingen<br />

Indien n = oneven mediaan is 1 getal mediaan niet meetellen<br />

3.3 Modus<br />

Meest voorkomende waarneming. 2 modussen “bestaan niet”.<br />

3.4 Kwartielen<br />

Q1: 25% crf, helft van MED<br />

Q3: 75% crf, heft van MED<br />

Jolien De Veirman 2/10


Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

4 Spreidingsmaten<br />

4.1 Variatiebreedte<br />

Grootste – kleinste waarneming<br />

Rechtergrens grootste klasse – linkergrens kleinste klasse<br />

4.2 Interkwartielafstand (IQR)<br />

Q3 – Q1<br />

4.3 Gemiddelde afwijking (gemiddelde absolute fout)<br />

Absolute som van Xi – rekenkundig gemiddelde, gedeeld door n<br />

1 n<br />

∑ x x fi<br />

i i<br />

.<br />

1<br />

n =<br />

−<br />

4.4 Standaardafwijking<br />

Vergelijking met het gemiddelde in hoeverre deze van het gemiddelde afwijkt<br />

σ =<br />

1<br />

n<br />

2<br />

( x − x) fi<br />

n<br />

∑ i = i<br />

.<br />

1<br />

[ x −σ<br />

, x + σ ] = 70% waarne min gen<br />

Opm:<br />

[ x − 2σ<br />

, x + 2σ<br />

] = 95% waarne min gen<br />

4.5 Variantie<br />

Standaardafwijking zonder vierkantswortel<br />

4.6 Variatiecoëfficiënt<br />

Spreidingsvergelijking met een verschillend gemiddelde<br />

σ<br />

x<br />

4.7 Boxplot<br />

Xmin, Xmax, MED, Q1, Q3, onderaan as<br />

Jolien De Veirman 3/10


Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

5 Verband tussen kwalitatieve ordinale verbanden<br />

5.1 Spearman rangcorrelatie coëfficiënt<br />

r<br />

s<br />

6<br />

= 1 −<br />

n<br />

n<br />

∑ i = 1<br />

3<br />

d<br />

− n<br />

2<br />

i<br />

Di = rang 1 - rang 2<br />

- 1 - 0,7 - 0,3 0 0,3 0,7 1<br />

- 1 tot – 0,7 perfect omgekeerd verband<br />

1 tot 0,7 perfect verband<br />

- 0,3 tot 0,3 geen verband<br />

Bij exaeco voor rangschikken van kwalitatieve nominale gegevens:<br />

Neem de gemiddelde waarde van wat er nog overblijft.<br />

6 Verband tussen kwantitatieve variabelen<br />

6.1 Rangcorrelatie coëfficiënt<br />

r =<br />

∑<br />

n<br />

i=<br />

1<br />

n<br />

( x − )( − )<br />

i=<br />

i<br />

x . yi<br />

y<br />

1<br />

2 n<br />

( x − x) . ( y − y)<br />

∑<br />

i<br />

∑<br />

i=<br />

1<br />

i<br />

2<br />

X: gegevens kolom 1<br />

Y: gegevens kolom 2<br />

Uitkomst: zie as hierboven<br />

Weergave: puntenwolk of Scatterdiagram<br />

Jolien De Veirman 4/10


Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

6.2 Puntenwolk<br />

Jolien De Veirman 5/10


Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

6.3 Regressielijn<br />

Rechte die het beste door de puntenwolk gaat<br />

m =<br />

n<br />

∑i=<br />

1<br />

∑<br />

q = y − mx<br />

y = mx + q<br />

( xi<br />

− x)( . yi<br />

− y)<br />

n<br />

2<br />

( x − x)<br />

i=<br />

1<br />

i<br />

6.3.1 Voorspelling op basis van de regressielijn<br />

Het missende cijfer (x) ingeven in de formule y = mx + q<br />

6.4 Seizoenspatroon<br />

Formule van de regressierechte + gemiddelde vd som vd positieve(Yi – Ykansberekening)<br />

Ykansberekening = voor iedere x-waarde, regressierechte opnieuw berekenen.<br />

7 Verband tussen nominale variabelen of tussen nominale en<br />

ordinale variabelen<br />

Bvb verband opleidingsniveau en supermarkt<br />

7.1 Verwachte frequenties Eij<br />

(kolomtotaal . rijtotaal) / volledig totaal<br />

7.2 Chi-kwadraat test<br />

χ<br />

²<br />

obs<br />

( f e )<br />

= ∑ − ij<br />

e<br />

ij<br />

ij<br />

²<br />

Waarbij Fij = waargenomen (gegeven) frequenties<br />

7.3 Vrijheidsgraad of degree of freedom (df)<br />

(aantal kolommen – 1) . (aantal rijen -1)<br />

7.4 Kritieke waarden<br />

²<br />

χ<br />

krit<br />

In gegeven tabel bij 5% rechteroverschrijdingskans kijken, per berekende vrijheidsgraad.<br />

Kritieke waarden kleiner dan chi obs verband met 5% foutkans<br />

Jolien De Veirman 6/10


Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

<strong>Deel</strong> 2: Kansberekening<br />

1 Regel van Laplace<br />

Kans (P) = aantal gunstige uitkomsten<br />

aantal mogelijke uitkomsten<br />

1.1 Complementaire gebeurtenissen<br />

P (niet A) = 1 – P(A)<br />

1.2 Productregel<br />

Als A en B onafhankelijke gebeurtenissen zijn, dan is P(A en B) = P(A).P(B)<br />

Vb. Kans om lotto te winnen (6 juiste kruisjes uit 42)<br />

6/42 . 5/41 . 4/40 . 3/39 . 2/38 . 1/37 = 0,00000019 (1 / 5245786)<br />

Vb. Kans dat persoon 30 jaar lang wekelijks lotto speelt ooit zou winnen?<br />

52 . 30 deelnames = 1560 deelnames<br />

1. Kans om bij 1 deelname te winnen: 1 / 5245786<br />

2. Kans om bij 1 deelname niet te winnen: 1 – (1 / 5245786) = 5245785 / 5245786<br />

3. Kans om bij 1560 deelnames niet te winnen: (5245785 / 5245786) 1560<br />

4. Kans om ooit te winnen bij 1560 deelnames: 1 – (5245785 / 5245786) 1560<br />

2 Discrete kansverdelingen<br />

De kansverdeling van een discrete variabele x is een tabel die voor elke mogelijke waarde k<br />

van X aangeeft wat de kans is dat X precies gelijk is aan k.<br />

k 0<br />

P (X=k) x/n<br />

2.1 Verwachtingswaarde<br />

µ = E<br />

n<br />

[ X ] = ∑ =<br />

k.<br />

P( X = k)<br />

k<br />

0<br />

Vb. Hoeveel keer kruis gooi je gemiddeld met 2 munten?<br />

µ = E[ X ]= 0 . 1/4 + 1 . 2/4 + 2 . 1/4 = 1<br />

Jolien De Veirman 7/10


Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

2.2 Standaardafwijking<br />

( k − µ) 2 ).P<br />

( X )<br />

σ = ∑ = k<br />

Hoe groter, hoe gevaarlijker de kans.<br />

2.3 Binomiale verdeling<br />

X is het aantal successen van een veranderlijke x, bij het n keer herhalen van een experiment<br />

met een vaste kans p op een succes bij elk experiment<br />

Als X ~ Bin (n, p)<br />

dan<br />

P(<br />

X<br />

n!<br />

k!(<br />

n − k)!<br />

2.4 Poisson verdeling<br />

k n−k<br />

= k)<br />

= p (1 − p)<br />

Telt het aantal keer iets gebeurt (per tijdseenheid) als je weet dat het gemiddeld aantal keer<br />

(per tijdseenheid) gelijk is aan µ .<br />

Als X ~Pois ( µ )<br />

dan P(<br />

X<br />

= k)<br />

=<br />

e<br />

k!<br />

k µ<br />

µ −<br />

3 Continue kansverdelingen<br />

3.1 Normale verdeling (heeft veel invloeden)<br />

De normale verdeling met gemiddelde µ en standaardafwijking σ .<br />

Als X ~ N ( µ ,σ )<br />

X − µ<br />

dan (= Z) ~ N (0,1)<br />

σ<br />

P (Z < a): rechtstreeks aflezen in tabel<br />

P (Z > a): 1 – P (Z < a)<br />

P (a < Z < b): P (Z < b) – P (Z < a)<br />

Jolien De Veirman 8/10


Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

4 Verdelingen benaderen met andere verdelingen<br />

4.1 Possion ipv Bin als<br />

Als n ≥ 30 dan Bin (n , p) ≈ P (n . p)<br />

n . p ≤ 5<br />

of n (1 – p) ≤ 5<br />

4.2 Normaal ipv Bin als<br />

Als n ≥ 30 dan Bin (n,p) ≈ N( n.<br />

p,<br />

n.<br />

p(1<br />

− p)<br />

)<br />

N . p > 5<br />

En n (1 – 5) > 5<br />

4.3 Vuistregeltjes<br />

P ( x ≤ a ) rechtstreeks uit tabel<br />

P ( x ≥ a ) 1 – P ( x ≤ a )<br />

P ( x = a ) P ( x ≤ a ) – P ( x ≤ a -1 )<br />

P (a ≤ x ≤ b ) P ( x ≤ b ) – P ( x ≤ a - 1 )<br />

5 Kansen over het gemiddelde<br />

Populatie (N)<br />

Steekproef (n)<br />

Gemiddelde µ X<br />

Standaardafwijking σ s<br />

5.1 σ bekend<br />

Als X ~ N ( µ ,σ )<br />

dan X ~ N ( µ ,<br />

σ )<br />

n<br />

5.2 σ onbekend (maar wordt geschat door steekproef s)<br />

Als X ~ N ( µ ,σ )<br />

dan X ~ t<br />

n<br />

− 1 (<br />

s<br />

X − µ<br />

)<br />

n<br />

Jolien De Veirman 9/10


Samenvatting <strong>statistiek</strong> Academiejaar 2006-2007<br />

6 Betrouwbaarheidsintervallen over het gemiddelde<br />

6.1 σ bekend<br />

⎡<br />

⎢X<br />

⎣<br />

−<br />

z<br />

α<br />

2<br />

σ<br />

; x +<br />

n<br />

z<br />

α<br />

2<br />

σ ⎤<br />

⎥<br />

n ⎦<br />

% zekerheid tabel normale verdeling<br />

90 1,64<br />

95 1,96<br />

99 2,57<br />

6.2 σ onbekend (met steekproefstandaardafwijking s)<br />

⎡<br />

⎢X<br />

⎣<br />

− t<br />

n<br />

s<br />

−1α<br />

; x + tn<br />

−1α<br />

n<br />

2<br />

2<br />

s<br />

n<br />

⎤<br />

⎥<br />

⎦<br />

Jolien De Veirman 10/10

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!