Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid
Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid
Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
3.1.6 Datamining<br />
App<strong>en</strong>dix 7. <strong>Statistisch</strong> <strong>analyseplan</strong>.doc<br />
Datamining kan gedefinieerd word<strong>en</strong> als het proces van het zoek<strong>en</strong> naar impliciete, voorhe<strong>en</strong><br />
onbek<strong>en</strong>de <strong>en</strong> pot<strong>en</strong>tieel bruikbare informatie uit zeer grote databases door gebruik te mak<strong>en</strong> van<br />
efficiënte 'k<strong>en</strong>nis-zoeksystem<strong>en</strong>'. Specifiek zull<strong>en</strong> classificatie- <strong>en</strong> regressiebom<strong>en</strong> aangew<strong>en</strong>d word<strong>en</strong><br />
om relaties, structur<strong>en</strong> <strong>en</strong> interacties te ontdekk<strong>en</strong>. Daar dit e<strong>en</strong> niet-parametrische techniek is<br />
moet<strong>en</strong> er ge<strong>en</strong> assumpties over de response variabele gemaakt word<strong>en</strong>. Ook de vorm van de relatie<br />
(lineair, kwadratisch,...) moet niet gespecificeerd word<strong>en</strong>. Bov<strong>en</strong>di<strong>en</strong> wordt er op e<strong>en</strong> elegante manier<br />
om gegaan met ontbrek<strong>en</strong>de gegev<strong>en</strong>s. Voor elke merker zal e<strong>en</strong> boom ontwikkeld word<strong>en</strong>.<br />
3.2 INFERENTIËLE STATISTIEK<br />
Bij de keuze van de aangewez<strong>en</strong> statistische techniek om de eerder geformuleerde<br />
onderzoekshypothes<strong>en</strong> te onderzoek<strong>en</strong>, di<strong>en</strong>t er rek<strong>en</strong>ing gehoud<strong>en</strong> te word<strong>en</strong> met het opzet van de<br />
studie, type gegev<strong>en</strong>s <strong>en</strong> de doeleinde van de verwerking<strong>en</strong>. We besprek<strong>en</strong> hier de consequ<strong>en</strong>ties van<br />
het type gegev<strong>en</strong>s <strong>en</strong> het doeleinde van de verwerking.<br />
3.2.1 (Niet-gecorrigeerde) gebiedsvergelijking<strong>en</strong> (onderzoekshypothes<strong>en</strong> 1 <strong>en</strong> 2)<br />
- Vergelijk<strong>en</strong> van de onderzoeksgebied<strong>en</strong> voor continue gegev<strong>en</strong>s:<br />
o Indi<strong>en</strong> de gegev<strong>en</strong>s binn<strong>en</strong> elk onderzoeksgebied (bij b<strong>en</strong>adering) normaal verdeeld<br />
zijn (boxplots, histogram, Shapiro Wilk test,…) <strong>en</strong> indi<strong>en</strong> de varianties voor elke<br />
onderzoeksgebied gelijk zijn (Lev<strong>en</strong>e-test) kunn<strong>en</strong> parametrische method<strong>en</strong><br />
toegepast word<strong>en</strong>: variantie analyse (ANOVA).<br />
o Indi<strong>en</strong> de ruwe gegev<strong>en</strong>s niet aan deze voorwaard<strong>en</strong> voldo<strong>en</strong> kan m<strong>en</strong> gebruik mak<strong>en</strong><br />
van e<strong>en</strong> transformatie. Er zal geopteerd word<strong>en</strong> voor e<strong>en</strong> natuurlijke logaritmische<br />
transformatie daar deze ook vaak in de literatuur gebruikt wordt voor dit type<br />
blootstellingmerkers.<br />
o Anders moet e<strong>en</strong> niet-parametrische methode uitgevoerd word<strong>en</strong>: Kruskall-Wallis<br />
test.<br />
- Vergelijk<strong>en</strong> van de onderzoeksgebied<strong>en</strong> voor ordinale/binaire gegev<strong>en</strong>s:<br />
o Voor het vergelijk<strong>en</strong> van proporties tuss<strong>en</strong> de onderzoeksgebied<strong>en</strong> zal de Chikwadraat<br />
toets gebruikt word<strong>en</strong>.<br />
o Indi<strong>en</strong> meer dan 80% van de cell<strong>en</strong> in de kruistabel e<strong>en</strong> verwachte celfrequ<strong>en</strong>tie van<br />
minder dan 5 heeft, zal Fisher’s Exact test gebruikt word<strong>en</strong>. Omwille van de grote<br />
steekproev<strong>en</strong> is dit praktisch niet haalbaar zijn.<br />
7