Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid

More documents

Recommendations

Info

3.7 MODELBOUW 3.7.1 Selectie van een goed model. Appendix 7. Statistisch analyseplan.doc Uit de verzameling van kandidaat regressoren (covariaten) willen we een deelverzameling kiezen die het beste de variabiliteit in de uitkomstparameter verklaart. Helaas is er geen éénduidig antwoord op de vraag wat de ‘beste’ deelverzameling is. Er zijn verschillende criteria en die leiden niet noodzakelijk tot dezelfde conclusie. We opteren voor gebruik van automatische selectie procedures. De stapsgewijze procedure zal toegepast worden. De methode waarbij alle mogelijke regressiemodellen vergeleken worden (bijv de R-square of Cp,...) is omwille van het groot aantal verklarende parameters niet aangewezen. Toepassing van automatische selectieprocedures moet wel voorzichtig gebeuren; er dient bijv. opgelet te worden dat de hoofdeffecten in het model opgenomen zijn indien de interactieterm significant is. 3.7.2 Multicollineariteit Men spreekt van multicollineariteit indien de onafhankelijke variabelen onderling gecorreleerd zijn. Multicollineariteit heeft een effect op de interpretatie en het gebruik van een gefit regressie model. De techniek van Variance Inflation Factors (VIF) zal toegepast worden om dit probleem te onderzoeken. 3.7.3 Modelvalidatie Indien beschikbaar zullen de resultaten vergeleken worden met theoretische verwachtingen en empirische resultaten. In een tweede verwerkingsfase zal cross-validatie gebruikt worden om het regressiemodel te valideren. Bij cross-validatie wordt de dataset in twee sets verdeeld. De eerste, model-building, set wordt gebruikt om het model te ontwikkelen. De tweede set, validatie of predictie set, wordt als onafhankelijke data gebruikt om de predictieve waarde van het geselecteerde model te bestuderen. 3.8 MEERVOUDIG TOETSEN Enkel indien de globale vergelijking van de onderzoeksgebieden statistisch significant is op het 5% significantieniveau, zullen verschillen met het laagste onderzoeksgebieden en de gewogen referentiewaarde op hun significantie getest worden. Door deze twee-traps-procedure toe te passen is het niet nodig bij deze vergelijkingen te corrigeren voor de type I fout. 3.9 MODEL MET MEERDERE BLOOTSTELLINGSMERKERS Om het effect van het samenspel van de verschillende blootstellingsmerkers op een effectmerker in beeld te brengen worden in een tweede verwerkingsfaze meervoudige regressie modellen opgesteld 16
Appendix 7. Statistisch analyseplan.doc die alle blootstellingmerkers bevatten. Dit model wordt vervolgens vereenvoudigd met de procedure voordien beschreven. 4 DOSIS-EFFECT RELATIES Een dosis-effect relatie geeft de samenhang tussen een effectmerker (effect) en een blootstellingmerkers (dosis) weer. Een argumentatie voor de onderzochte verbanden is opgenomen in Sectie 8 Om deze verbanden te kwantificeren wordt gebruik gemaakt van lineaire regressiemodellen voor continue effectmerker en logistische regressiemodellen voor binaire effectmerkers. Elk model bevat steeds de confounders die reeds eerder geïdentificeerd werden voor de effectmerker; daarnaast is ook de blootstellingmerker opgenomen in het model. Om de functionele vorm van de blootstellingmerker in het model te onderzoeken wordt vertrokken van een model waar de blootstellingmerker in zijn kubische vorm wordt opgenomen. Vervolgens wordt de functionele vorm van de blootstellingmerker vereenvoudigd (kwadratisch of lineair). Hoofdeffecten van gebied en interacties tussen gebied en de blootstellingmerker worden niet beschouwd. Dit betekent dat we veronderstellen dat de relatie tussen de effectmerker en de blootstellingmerker in de 8 gebieden hetzelfde is. De blootstellingmerkers worden in hun logaritmisch getransformeerde vorm mee genomen. Hierdoor is de interpretatie van het effect van de blootstellingmerker in het model niet eenvoudig. Indien de functionele vorm van de blootstellingmerker x lineair is dan ziet het model er zo uit voor een binaire effectmerker (ci zijn de confounders): log(p/(1 − p) = α + β ln (x) + γ1 c1 + γ2 c2 +… De odds na een verdubbeling van de waarde van de blootstellingmerker x; is gelijk aan [e β ] ln(2) keer de odds. Dus de odds voor 2*x is gelijk aan [e β ] ln(2) keer de odds voor x. 5 BIJKOMENDE VERWERKINGEN 5.1 HET INDUSTRIEGEBIED Het industriegebied omvat enerzijds het Antwerps havengebied en de Gentse kanaalzone. In de verwerkingen voorzien in dit analyseplan worden de gegevens van beide havengebieden steeds als één onderzoeksgebied verwerkt en gepresenteerd. Beide gebieden hebben echter sterk verschillende industriële activiteiten. Er valt dus te argumenteren dat het industriegebied niet echt een ‘type- 17
Page 1 and 2: Appendix 7. Statistisch analyseplan
Page 5 and 6: 3 STATISTISCHE TECHNIEKEN De statis
Page 7 and 8: 3.1.6 Datamining Appendix 7. Statis
Page 13 and 14: 3.4.3 Gebiedsverschillen Appendix 7
Page 15: 3.6 ANDERE VERKLARENDE PARAMETERS 3
Page 23 and 24: Effectmerker Confounders TSH in nav
Page 27 and 28: - aantal maanden…. Appendix 7. St
Page 31 and 32: L) Ouderdom woning: Oude woning? ne
Page 33 and 34: 7.5 COVARIATEN VOOR DE EFFECTMERKER
Page 35 and 36: Effectmerkers fertiliteit moeder Ap
Page 37 and 38: Effectmerkers kind Lengte baby Gewi
Page 39 and 40: 8 BLOOTSTELLINGS-EFFECT RELATIES Ap
Page 43 and 44: Referenties: Appendix 7. Statistisc
Page 45 and 46: PCBs - luchtwegklachten, allergie,
Page 47 and 48: PCBs - TSH Appendix 7. Statistisch
Page 51 and 52: Literatuur: Appendix 7. Statistisch

Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid

Create successful ePaper yourself

Delete template?

Save as template?