08.09.2013 Views

Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid

Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid

Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

3.1.6 Datamining<br />

App<strong>en</strong>dix 7. <strong>Statistisch</strong> <strong>analyseplan</strong>.doc<br />

Datamining kan gedefinieerd word<strong>en</strong> als het proces van het zoek<strong>en</strong> naar impliciete, voorhe<strong>en</strong><br />

onbek<strong>en</strong>de <strong>en</strong> pot<strong>en</strong>tieel bruikbare informatie uit zeer grote databases door gebruik te mak<strong>en</strong> van<br />

efficiënte 'k<strong>en</strong>nis-zoeksystem<strong>en</strong>'. Specifiek zull<strong>en</strong> classificatie- <strong>en</strong> regressiebom<strong>en</strong> aangew<strong>en</strong>d word<strong>en</strong><br />

om relaties, structur<strong>en</strong> <strong>en</strong> interacties te ontdekk<strong>en</strong>. Daar dit e<strong>en</strong> niet-parametrische techniek is<br />

moet<strong>en</strong> er ge<strong>en</strong> assumpties over de response variabele gemaakt word<strong>en</strong>. Ook de vorm van de relatie<br />

(lineair, kwadratisch,...) moet niet gespecificeerd word<strong>en</strong>. Bov<strong>en</strong>di<strong>en</strong> wordt er op e<strong>en</strong> elegante manier<br />

om gegaan met ontbrek<strong>en</strong>de gegev<strong>en</strong>s. Voor elke merker zal e<strong>en</strong> boom ontwikkeld word<strong>en</strong>.<br />

3.2 INFERENTIËLE STATISTIEK<br />

Bij de keuze van de aangewez<strong>en</strong> statistische techniek om de eerder geformuleerde<br />

onderzoekshypothes<strong>en</strong> te onderzoek<strong>en</strong>, di<strong>en</strong>t er rek<strong>en</strong>ing gehoud<strong>en</strong> te word<strong>en</strong> met het opzet van de<br />

studie, type gegev<strong>en</strong>s <strong>en</strong> de doeleinde van de verwerking<strong>en</strong>. We besprek<strong>en</strong> hier de consequ<strong>en</strong>ties van<br />

het type gegev<strong>en</strong>s <strong>en</strong> het doeleinde van de verwerking.<br />

3.2.1 (Niet-gecorrigeerde) gebiedsvergelijking<strong>en</strong> (onderzoekshypothes<strong>en</strong> 1 <strong>en</strong> 2)<br />

- Vergelijk<strong>en</strong> van de onderzoeksgebied<strong>en</strong> voor continue gegev<strong>en</strong>s:<br />

o Indi<strong>en</strong> de gegev<strong>en</strong>s binn<strong>en</strong> elk onderzoeksgebied (bij b<strong>en</strong>adering) normaal verdeeld<br />

zijn (boxplots, histogram, Shapiro Wilk test,…) <strong>en</strong> indi<strong>en</strong> de varianties voor elke<br />

onderzoeksgebied gelijk zijn (Lev<strong>en</strong>e-test) kunn<strong>en</strong> parametrische method<strong>en</strong><br />

toegepast word<strong>en</strong>: variantie analyse (ANOVA).<br />

o Indi<strong>en</strong> de ruwe gegev<strong>en</strong>s niet aan deze voorwaard<strong>en</strong> voldo<strong>en</strong> kan m<strong>en</strong> gebruik mak<strong>en</strong><br />

van e<strong>en</strong> transformatie. Er zal geopteerd word<strong>en</strong> voor e<strong>en</strong> natuurlijke logaritmische<br />

transformatie daar deze ook vaak in de literatuur gebruikt wordt voor dit type<br />

blootstellingmerkers.<br />

o Anders moet e<strong>en</strong> niet-parametrische methode uitgevoerd word<strong>en</strong>: Kruskall-Wallis<br />

test.<br />

- Vergelijk<strong>en</strong> van de onderzoeksgebied<strong>en</strong> voor ordinale/binaire gegev<strong>en</strong>s:<br />

o Voor het vergelijk<strong>en</strong> van proporties tuss<strong>en</strong> de onderzoeksgebied<strong>en</strong> zal de Chikwadraat<br />

toets gebruikt word<strong>en</strong>.<br />

o Indi<strong>en</strong> meer dan 80% van de cell<strong>en</strong> in de kruistabel e<strong>en</strong> verwachte celfrequ<strong>en</strong>tie van<br />

minder dan 5 heeft, zal Fisher’s Exact test gebruikt word<strong>en</strong>. Omwille van de grote<br />

steekproev<strong>en</strong> is dit praktisch niet haalbaar zijn.<br />

7

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!