Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid

More documents

Recommendations

Info

Appendix 7. Statistisch analyseplan.doc De interpretatie van deze resultaten moet voorzichtig gebeuren. Statistisch significante verschillen tussen de gebieden kunnen mogelijks verklaard worden door verschillen in de samenstelling van de populatie van de onderzoeksgebieden (bijv. verschillen in leeftijdsverdeling). Tal van factoren waaronder leeftijd, geslacht, levensstijlfactoren, beroep, sociaal-economische status,... kunnen een invloed hebben op de gezondheid en op de biomerkers. Deze factoren kunnen verschillen tussen de onderzochte gebieden. Wanneer deze risicofactoren de bestudeerde relatie vertekenen, worden ze ‘verstorende’ variabelen genoemd (zie Sectie 3.6.1) Bij vergelijking van de merkers tussen de gebieden evenals bij de blootsteling-effectrelaties moet rekening gehouden worden met deze confounding factoren. Meervoudige regressie technieken zullen aangewend worden om dit te onderzoeken (zie Sectie 3.3). 3.3 REGRESSIE Meervoudige regressie technieken zullen gebruikt worden om de afhankelijkheid van de uitkomstparameter met twee of meer variabelen gelijktijdig te onderzoeken. Deze technieken kunnen dus toegepast worden om: 1. de relatie tussen enerzijds een effectmerker (of blootstellingsmerker) en anderzijds het onderzoeksgebied en andere verklarende parameters te onderzoeken (onderzoekshypothese 1 en 2). 2. de relatie tussen enerzijds een blootstellingsmerker en anderzijds een effectmerker te onderzoeken (onderzoekshypothese 3). 3.3.1 Eenvoudige Regressie In een eerste fase van de verwerkingen worden regressiemodellen met slechts één parameter als verklarende parameter gefit (enkelvoudige regressies), namelijk het gebied. Voor het opstellen van de relatie voor een continue merker (blootstelling- of effectmerker) maken we gebruik van lineaire regressie modellen. Indien de gegevens (bij benadering) niet normaal verdeeld zijn zal gebruik gemaakt worden van een natuurlijke log-transformatie. Indien de merker een binaire merker is, worden logistische regressie modellen gebruikt. a) Lineaire regressie Regressie-analyse is een techniek die gebruikt wordt om het verband te bestuderen tussen een respons stochastische veranderlijke Y en een regressor veranderlijke (onafhankelijke veranderlijke) x. Het verband dat bestudeerd wordt is een functioneel verband. Dit wil zeggen dat het verband 8
Appendix 7. Statistisch analyseplan.doc vastgelegd wordt door een wiskundige functie f(x). Deze functie beschrijft hoe de gemiddelde response varieert met x: E(Yx) = f(x) De meest eenvoudig situatie is deze waarbij f een lineaire functie is: f(x)= α+β x. Dus E(Yx) = α+β x We spreken van enkelvoudige regressie omdat we slechts één regressor variabele meenemen. De waarden van α en β worden geschat door middel van het criterium der kleinste kwadraten. Deze methode berust er op dat men hiermee de meest nauwkeurige te verwachte verandering van de respons-variabele Y kan schatten, bij een zekere constante waarde van de onafhankelijke x-variabele. Indien we veronderstellen dat de Ei~N(0,σ 2 ), met andere woorden dat de storingstermen normaal verdeeld zijn met gemiddelde 0 en met dezelfde variantie, dan kunnen betrouwbaarheidsintervallen voor β opgesteld worden; en kunnen hypothesen getoetst worden. - Is β = 0 dan is sprake van een monotone horizontale lijn, evenwijdig met de X-as. Er is dus geen verband tussen X en Y. - Is β < 0 dan is sprake van een omgekeerd evenredig (dalend) X,Y verband. - Is β > 0 dan is sprake van een evenredig (stijgend) X,Y verband. b) Logistische regressie Indien de response binair is werkt men met kansverhoudingen, die meestal met het Engelse woord odds wordt aangeduid. De odds is de verhouding tussen de fracties bij twee mogelijke uitkomsten. Als p de kans op de eerste uitkomst is, dan is 1− p de kans op de tweede uitkomst en is de ODDS = p/(1− p) Bij logistische regressie zijn we geïnteresseerd in het modelleren van de kans p in termen van de verklarende variabele x. We zouden dit kunnen proberen met de relatie p = α + βx. Helaas is dit geen goed model. Zolang β ≠ 0 geven zeer hoge of lage waarden van x voor α + βx een waarde die niet in overeenstemming is met het gegeven dat 0 ≤ p ≤ 1. De bij logistische regressie gekozen oplossing voor dit probleem is het transformeren van de kansverhouding p/(1 − p) met behulp van de natuurlijke logaritme. We gebruiken voor deze transformatie de term logaritmische kansverhouding of log odds. Deze modelleren we als een lineaire functie van de verklarende variabele: Log[p/(1 − p)] = α + βx De helling in dit logistische regressiemodel is het verschil tussen de log(ODDS) voor een eenheid toename in x (dus bijvoorbeeld het verschil tussen de log(ODDS) van x en x+1). De interpretatie van de resultaten in termen van de helling van de regressielijn is moeilijk. Gewoonlijk wordt een transformatie toegepast die de situatie verduidelijkt. Met enige algebra kan worden aangetoond dat 9
Page 1 and 2: Appendix 7. Statistisch analyseplan
Page 5 and 6: 3 STATISTISCHE TECHNIEKEN De statis
Page 7: 3.1.6 Datamining Appendix 7. Statis
Page 13 and 14: 3.4.3 Gebiedsverschillen Appendix 7
Page 15 and 16: 3.6 ANDERE VERKLARENDE PARAMETERS 3
Page 23 and 24: Effectmerker Confounders TSH in nav
Page 27 and 28: - aantal maanden…. Appendix 7. St
Page 31 and 32: L) Ouderdom woning: Oude woning? ne
Page 33 and 34: 7.5 COVARIATEN VOOR DE EFFECTMERKER
Page 35 and 36: Effectmerkers fertiliteit moeder Ap
Page 37 and 38: Effectmerkers kind Lengte baby Gewi
Page 39 and 40: 8 BLOOTSTELLINGS-EFFECT RELATIES Ap
Page 43 and 44: Referenties: Appendix 7. Statistisc
Page 45 and 46: PCBs - luchtwegklachten, allergie,
Page 47 and 48: PCBs - TSH Appendix 7. Statistisch
Page 51 and 52: Literatuur: Appendix 7. Statistisch

Statistisch analyseplan.pdf - Steunpunt Milieu en Gezondheid

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?