12.07.2015 Views

Multipel regression 22. Maj, 2012

Multipel regression 22. Maj, 2012

Multipel regression 22. Maj, 2012

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

• Data: Det færøske kviksølv-studie• Simpel linær <strong>regression</strong>• Confounding• <strong>Multipel</strong> lineær <strong>regression</strong>• Fortolkning af parametre• Vekselvirkning• Kollinearitet• Modelkontrol<strong>Multipel</strong> <strong>regression</strong> <strong>22.</strong> <strong>Maj</strong>, <strong>2012</strong>Esben Budtz-JørgensenBiostatistisk Afdeling, Københavns Universitet


Grinde hvaler


Study DesignEXPOSURE:1. Cord Blood Mercury2. Maternal Hair Mercury3. Maternal Seafood IntakeRESPONSE:Neuropsychological Tests❄✻❄✻✲Age:Calendar:Children:Birth1986-8710227 Years1993-94917


Neuropsykologisk Testing


Boston Naming Test


Scatterplots: Boston Naming vs Hg-koncentrationhg1$bostot10 20 30 40hg1$bostot10 20 30 400 50 100 150 200 250 300 350hg1$bhg1 2 5 10 20 50 100 200hg1$bhgplot(hg1$bhg,hg1$bostot)plot(hg1$bhg,hg1$bostot,log="x")Svag sammenhæng mellem barnets score og Hg-eksponeringEnkelte højt eksponerede bliver meget indflydelsesrige hvis jeg ikke bruger log-transformation.


Logaritme transformation eller ej?Jeg vil lave en <strong>regression</strong> af barnets score på eksponeringen. Men skal jeg logaritmetransformereHg-koncentrationerne?To mulige modellerModel 1: bostot = α + βB-Hg + ǫModel 2: bostot = α + β log 10 (B-Hg) + ǫ


Hvilken model beskriver bedst sammenhængen i data?Modellerne beskriver data lige godt, men jeg vælger log-transformationen fordi jeg hermed undgår atenkelte højt eksponerede børn får meget stor indflydelse.


Fortolkning af <strong>regression</strong>skoefficienten βModel: bostot = α + β log 10 (B-Hg) + ǫ where ǫ ∼ N(0, σ 2 ).β: ændring i respons når log 10 (B-Hg) vokser med 1.log 10 (B-Hg 1 ) − log 10 (B-Hg 0 ) = log 10 ( B-Hg 1B-Hg 0) = 1 →B-Hg 1B-Hg 0= 10 1 = 10β: ændring i respons når koncentrationen B-Hg 10-dobles


h |t|)(Intercept) 30.8615 0.7173 43.027 < 2e-16 ***logbhg -2.5458 0.5081 -5.011 6.61e-07 ***Residual standard error: 5.455 on 847 degrees of freedom(68 observations deleted due to missingness)Multiple R-squared: 0.02879, Adjusted R-squared: 0.02764F-statistic: 25.11 on 1 and 847 DF, p-value: 6.608e-07Fortolkning af resultat: når logbhg vokser med 1 falder Boston Naming scoren med 2.55. Eller mererelevant: Når B-Hg 10-dobles falder Boston Naming scoren med 2.55. Effekten er stærkt signifikant(p


ConfoundingHg-eksponering❅❅❅❅❅Morens intelligens1. intelligente mødre får intelligente børn✲ ✒Barnets score2. børn med intelligente mødre har lavere Hg-eksponeringI simpel lineær <strong>regression</strong> ignorerer vi confounderen maternel intelligens og over-estimerer Hg’s skadeligeeffekt. Højt eksponerede børn klarer sig dårligt også fordi deres mødre er mindre intelligente.Ideelt, ville vi sammenligne børn med forskellig grad af eksponering, men med samme værdi af maternelintelligens.


<strong>Multipel</strong> <strong>regression</strong> analyseMEGET nyttig modelklasse som tillader at responsen kan afhænge af mere end enkovariat.Kovariaterne: kontinuerte eller gruppe-variableResponsen: skal være kontinuert.Næste gang: logistisk <strong>regression</strong> hvor responsen er 0/1.


<strong>Multipel</strong> <strong>regression</strong> analyse, IIDATA: n individer, p forklarende variable + en respons:subject x 1 ....x p y1 x 11 ....x 1p y 12 x 21 ....x 2p y 23 x 31 ....x 3p y 3. . . . . . . .n x n1 ....x np y nDen multiple lineære <strong>regression</strong>s model med p kovariater:y i = β 0 + β 1 x i1 + · · · + β p x ip + ε irespons middelværdi funktion biologiskvariationParametreβ 0β 1 , · · · , β pintercept<strong>regression</strong>skoefficienter


<strong>Multipel</strong> <strong>regression</strong>, 2 kontinuerte kovariatery i = β 0 + β 1 x i1 + β p x i2 + ε i ,i = 1, · · · , nAntagelse: ε i ∼ N(0, σ 2 ), uafhængigeEstimation: Hvilket plan i rummet ligger tættest på data?


Fortolkning af <strong>regression</strong>skoefficienterne βModel Y i = β 0 + β 1 X i1 + β 2 X i2 + ǫ hvor ǫ ∼ N(0, σ 2 )Eks. Y: blodtryk X 1 : alder X 2 : vægtBetragt to individer:A har kovariatværdier (35,75); B har kovariatværdier (36,75)Forventet forskel i blodtryk (B − A)β 0 + β 1 · 36 + β 2 · 75 − [β 0 + β 1 · 35 + β 2 · 75] = β 1β 1 : ændring i blodtryk når X 1 forøges med en enhed og de andre kovariater holdes uændretBemærk, at effekten ikke afhænger af udgangspunktet for X 1 (her 35). Uanset hvor vi starter, ereffekten af en forøgelse på en enhed den samme. Sammenhængen er lineær.Bemærk også, at effekten ikke afhænger af niveauet af X 2 (her 75). Effekten af en ændring i X 1 påen enhed er den samme for alle værdier af X 2 . Dette kan ændres med et vekselvirkningsled.


Fortolkning af <strong>regression</strong> koefficienterne: Hg-effekten• Simpel <strong>regression</strong>: Y = α + β log 10 (B-Hg) + ǫβ: forventet forskel i neuro-score mellem to børn med en forskel i log 10 (B-Hg)på en, dvs hvor det en barn har en Hg-koncentration der er 10 gange større• <strong>Multipel</strong> <strong>regression</strong>: Y = α + β log 10 (B-Hg) + β 1 X 1 + ... + β p X p + ǫ β:forventet forskel i neuro-score mellem to børn med en forskel i log 10 (B-Hg) påen, men som er ens på de øvrige kovariater (køn, maternel intelligens,...)Vi har justeret for effekten af de andre kovariater.Det er vigtigt at justere for variable der er associeret med både eksponering og respons.


<strong>Multipel</strong> <strong>regression</strong> i R> h


R-output - Boston Naming Test> summary(h)Call:lm(formula = bostot ~ logbhg + kon + age + risk + childcar +mattrain + pattrain + patempl + raven + town71, data = hg1)Residuals:Min 1Q Median 3Q Max-18.4391 -2.6519 0.1869 3.2275 15.8037


Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -6.06855 4.08034 -1.487 0.137349logbhg -1.69835 0.49644 -3.421 0.000656 ***kon -0.70928 0.35080 -2.022 0.043530 *age 4.35370 0.55633 7.826 1.64e-14 ***risk -1.70229 0.49913 -3.411 0.000682 ***childcar 1.61980 0.37801 4.285 2.06e-05 ***mattrain 0.95720 0.38910 2.460 0.014108 *pattrain 0.99168 0.41436 2.393 0.016934 *patempl 0.83446 0.47609 1.753 0.080039 .raven 0.08981 0.02308 3.892 0.000108 ***town71 0.98736 0.39414 2.505 0.012444 *Residual standard error: 4.907 on 780 degrees of freedom(126 observations deleted due to missingness)Multiple R-squared: 0.2112, Adjusted R-squared: 0.2011F-statistic: 20.89 on 10 and 780 DF, p-value: < 2.2e-16


Var Hg-effekten virkelig signifikant?Eksponeringer blev grupperet og gennemsnittet af bostot beregnet i hver gruppe


h summary(h)Samme analyse - Digit Spans (digwf)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 4.2776 0.1890 <strong>22.</strong>635


h summary(h)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -0.429049 1.170661 -0.367 0.7141logbhg -0.208496 0.142175 -1.466 0.1429kon 0.426334 0.100271 4.252 2.37e-05 ***age 0.381959 0.159984 2.387 0.0172 *risk -0.190137 0.144468 -1.316 0.1885childcar 0.116431 0.107987 1.078 0.2813mattrain 0.075268 0.110911 0.679 0.4976pattrain 0.090527 0.118287 0.765 0.4443patempl 0.108780 0.136872 0.795 0.4270raven 0.021700 0.006572 3.302 0.0010 **town71 0.139283 0.112358 1.240 0.2155Efter korrektion forsvinder effekten


PrædiktionEstimeret model:bostot = −4.8−1.66·log 10 (B-Hg) i −0.70·SEX i +...+0.98·TOWN7 i +ǫ, ǫ ∼ N(0,4.9 2 )Forventet respons for det første barn i data:̂ bostot = −4.8 − 1.66 · log 10 (92.2) − 0.70 · 0 + ... + 0.98 · 0 = 27.8Observert bostot=21, Residual ̂ǫ 1 =21 − 27.8 = −6.8Prædiktionsusikkerhed:95% prædiktionsinterval: forventet værdi ±1.96 · 4.9 = (18.2;37.4)(her har vi ignoreret estimationsusikkerheden i <strong>regression</strong>skoefficienterne)


Håndtering af gruppe-variable - brug factor> h summary(h)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 28.7679 0.4217 68.220 < 2e-16 ***factor(grind)1 -1.3606 0.5462 -2.491 0.01292 *factor(grind)2 -1.5107 0.5658 -2.670 0.00772 **factor(grind)3 -1.3100 0.7333 -1.786 0.07438 .factor(grind)4 -2.4927 0.6151 -4.053 5.52e-05 ***factor(grind)5 -4.7679 3.1837 -1.498 0.13461factor(grind)6 3.2321 5.4820 0.590 0.55562factor(grind)8 -6.7679 2.7652 -2.447 0.01458 *factor(grind)10 -1.7679 3.8878 -0.455 0.64943Residual standard error: 5.466 on 859 degrees of freedom(49 observations deleted due to missingness)Multiple R-squared: 0.02582, Adjusted R-squared: 0.01674F-statistic: 2.846 on 8 and 859 DF, p-value: 0.003997


Illustration af model med factor


Uden factor> h summary(h)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 28.3203 0.2954 95.87 < 2e-16 ***grind -0.4969 0.1258 -3.95 8.46e-05 ***Residual standard error: 5.466 on 866 degrees of freedom(49 observations deleted due to missingness)Multiple R-squared: 0.0177, Adjusted R-squared: 0.01656F-statistic: 15.6 on 1 and 866 DF, p-value: 8.461e-05


Illustration: factor eller ej


Forskel på lungekapacitet i mænd og kvinder• 32 patienter skal have foretaget hjerte/lunge transplantation• tlc (Total Lung Capacity) bestemmes ved hjælp af helkrops plethysmografi• Er der forskel på mænd og kvinder?sex age height tlc1 35 149 3.401 11 138 3.412 12 148 3.80. . . .. . . .. . . .1 20 162 8.052 25 180 8.102 22 173 8.702 25 171 9.45


Box plotstotal lung capacity4 6 8femalemaleheight140 160 180femalemale


h summary(h)Ujusteret sammenligning (t-test)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 5.1981 0.3428 15.164 1.31e-15 ***factor(sex)2 1.7787 0.4848 3.669 0.000939 ***Residual standard error: 1.371 on 30 degrees of freedomMultiple R-squared: 0.3098, Adjusted R-squared: 0.2868F-statistic: 13.46 on 1 and 30 DF, p-value: 0.0009392


h summary(h)Mænd og kvinder er ikke lige højeCoefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 160.812 2.509 64.097 < 2e-16 ***factor(sex)2 13.250 3.548 3.734 0.000788 ***Residual standard error: 10.04 on 30 degrees of freedomMultiple R-squared: 0.3173, Adjusted R-squared: 0.2946F-statistic: 13.95 on 1 and 30 DF, p-value: 0.0007879


Relation mellem tlc og heightHøjden er relateret til tlc og er derfor en confounder.


Model med både sex og height som kovariaterMODEL: Y gi = α g + βx gi + ǫ gi g = 1,2; i = 1, . . . , n gModellen tillader at responsen kan afhænge af både højde og køn.Modellen angiver altså to parallelle linjer (kovariansanalyse).Forskellen α 1 −α 2 angiver forskellen i tlc mellem kvinder og mænd med samme højde(x).


Analyse i R> h summary(h)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -7.03443 3.40153 -2.068 0.04766 *factor(sex)2 0.77086 0.49571 1.555 0.13078height 0.07607 0.02108 3.609 0.00114 **Efter korrektion for højde ligger mænd stadig over kvinder, men forskellen er ikke statistisksignifikant.


Hvem siger, at linjerne skal være parallelle?VekselvirkningMere generel model: y gi = α g + β g x gi + ǫ gi g = 1,2; i = 1, . . . , n gNår β 1 ≠ β 2 , siger vi, at der er vekselvirkning, eller interaktion.Det betyder:• Effekten af højde afhænger af kønnet• Forskellen på kønnene afhænger af højdenI tilfælde af vekselvirkning kan man altså ikke udtale sig om en generel effekt af højde eller om engenerel kønsforskel.Ulla talte om vekselvirning i 2-sidet variansanalyse.


Vekselvirkning i RTo mulighder>h h


Vekselvirning - output> summary(h)Call:lm(formula = tlc ~ factor(sex) * height, data = bone)Residuals:Min 1Q Median 3Q Max-1.65193 -0.82127 -0.03884 0.62470 2.75770Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -7.555635 5.232018 -1.444 0.1598factor(sex)2 1.727664 7.221161 0.239 0.8127height 0.079308 0.032483 2.442 0.0212 *factor(sex)2:height -0.005744 0.043242 -0.133 0.8953Residual standard error: 1.179 on 28 degrees of freedomMultiple R-squared: 0.524, Adjusted R-squared: 0.473F-statistic: 10.28 on 3 and 28 DF, p-value: 9.896e-05


Hvor er de to linjer i outputtet?Som sædvanlig vælger R en reference gruppe (her sex=1, kvinder); for den gruppe kanlinjen direkte aflæsestlc = −7.56 + 0.079 ∗heightder ses altså en positiv effekt af højde.Intercept og hældning for den anden gruppe (mænd) er angivet som forskelle til referencegruppentlc = (−7.56 + 1.72) + (0.079 − 0.006) ∗heightså her er effekten af højde mindre, men forskellen (0.006) ikke er statistisk signifikant(p=0.895) - hvilket betyder at effekten af højde kan antages at være ens i de to grupper- vekselvirkningen er ikke statistisk signifikant.


Scatterplot i Rbone$tlc4 5 6 7 8 9femalemale140 150 160 170 180 190bone$height


R-kode til scatterplotetplot(bone$height,bone$tlc,pch=bone$sex)legend(locator(n=1),legend=c("female","male"),pch=1:2)female


Mulige modeller


Om vekselvirkninger• Involverer mindst 3 variable: effekten af x 1 på y afhænger af x 2• Ofte medtages disse led kun som modelkontrol: de testes og fjernes igen hvis de erinsignifikante• Råd til den uerfarne: medtag ikke for mange vekselvirkningsled. Start evt. medat lave en analyse uden vekselvirkning. Angiv og fortolk resultat. Herefter udvidesmodellen med relevante vekselvirkninger.


Færøske data: Afhænger Hg-effekten af PCB-niveauet?Fra tekst: “The p-value for no effect modification was between 0.21 and 0.75, thus suggesting thatno interaction occured.”EBJ et al., Environmental health perspectives, 1999.


Illustration


Begrænsninger i multipel <strong>regression</strong> - kollinearitetEks. O’Neill et.al. (1983): Lungefunktion i 25 patienter med systisk fribrose


Hvilke forklarende variable har en marginal effekt på PE max ?Nogle af disse effekter kan være artefakter opstået ved confounding. De kausale variable findes i enmultipel model med alle kovariater


Model med alle kovariaterlm(pemax~age+sex+height+weight+bmp+fev1+rv+frc+tlc,pemax)Parameter StandardVariable Estimate Error t Value Pr > |t|Intercept 176.05821 225.89116 0.78 0.4479age -2.54196 4.80170 -0.53 0.6043sex -3.73678 15.45982 -0.24 0.8123height -0.44625 0.90335 -0.49 0.6285weight 2.99282 2.00796 1.49 0.1568bmp -1.74494 1.15524 -1.51 0.1517fev1 1.08070 1.08095 1.00 0.3333rv 0.19697 0.19621 1.00 0.3314frc -0.30843 0.49239 -0.63 0.5405tlc 0.18860 0.49974 0.38 0.7112


Korrelerede kovariaterUnivariate analyser viste stærke effekterEn multipel analyse fandt ingen effekterHvordan kan det ske i de samme data?Når vi inkludere mange korrelerede kovariater i samme model, så falder styrken til atdetektere effekter. For eksempel, vil der være begrænset information i data om effektenaf en ændring i højde for fastholdt værdi af vægt, fordi når højden ændres vil vægtenogså have en tendens til at ændres. Højt korrelerede kovariater bør undgås.Dette fænomen kaldes kollinearitet


Illustration


KollinearitetTo eller flere kovariater er stærkt associeret.Konsekvenser:• Nogle koefficienter har store standard errors• R 2 er høj, men ingen af kovariaterne er signifikante• Resultatet er ikke som forventet• Resultatet ændres meget når en kovariat udeladesDårligt studie design. Nogle gange uundgåeligt.


Automatisk model-selektion• Backward elimination– start med at inkludere alle kovariaters, fjern kovariaten med den højeste p-værdi– fit modellen igen– fortsæt indtil alle variable er signifikanteI eksemplet vælges: weight, bmp og fev1.Advarsel: Outputtet fra den valgte model tager ikke højde for modelusikkerheden. Effekten af devalgte kovariater overvurderes.Sådanne metoder bruges for ofte. F.eks ikke optimale til identifikation af confoundere (EBJ, 2007).Kan bruges til bestemmelse af en simpel model til prædiktion.Budtz-Jørgensen, E., Keiding, N., Grandjean, P., Weihe, P. Confounder Selection in Environmental Epidemiology: Assessmentof Health Effects of Prenatal Mercury Exposure. Annals of Epidemiology 17, 27-35, 2007.


PCB-korrektionPCB koncentration målt i navlestreng men kun i halvdelen af børnene. (Median koncentration ≈ 2ng/g).Hg and PCB er korrelerede: corr[log 10 (B-Hg), log 10 (PCB)] = 0.40, p < 0.0001Respons: bostotCord Blood HgPCBβ s.e. p β s.e. p−1.93 0.74 0.009 - - -- - - −1.55 0.71 0.029−1.54 0.83 0.063 −0.89 0.80 0.27• Baseret på de separate analyser har begge variable en effekt.• Hvis begge variable er inkluderet i samme model har ingen af variablene en effekt.• Konklusion: mindst en af disse variable har en effekt, men det er svært at afgøre hvilken af demdet er. Dog ser det ud til at være Hg.• I en backward eliminations procedure ville PCB blive udeladt. Det endelige resultat ville væregivet ved 1. række.


ModelkontrolModel Y i = β 0 + β 1 X i1 + β 2 X i2 + ... + β p X ip + ǫ where ǫ ∼ N(0, σ 2 ).Hvilke antagelser skal vi checke?• linearitet• varianshomogenitet i residualer• normalfodelte residualerBemærk: ingen krav om normalfordeling på kovariaterne


Residual plotsFittede værdier Ŷi = ̂β 0 + ̂β 1 X i1 + ̂β 2 X i2 + ... + ̂β p X ipResidual ̂ǫ i = Y i − ŶiStandardiserede residualer: standardiseret så variansen er 1Plots (som for simpel lineær <strong>regression</strong>) :• residualer vs kovariater: tester linearitet• residualer vs fittede værdier: for at teste varianshomogenitet. En trompet-formindikerer en log-transformation [var{log(Y )} ≈ var(Y )/Y 2 ]Skal ikke vise nogen struktur


Boston Naming Test: Standardiseret residual vs fittet værdi


Boston Naming Test: Standardiseret residual vs Hg-koncentration


Test af linearitet: Polynomial <strong>regression</strong>Y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + ǫBemærk: relationen mellem X og Y er ikke lineær, men modellen er en multipel lineær<strong>regression</strong>smodel (Y er lineær i β-erne)Modellen kan fittes med lm. Man skal bare lave kovariaterne x 2 , x 3 .Test of linearitet: H 0 : β 2 = β 3 = 0The model is tested against a more general (flexible) model.Modellen der antager en lineær sammenhæng mellem X og Y testes mod en meregenerel model.


Test af linearitetSammenhæng: prænatal Hg-eksponering og blodtrykSystolisk blodtryk (mmHg) regressers på barnets vægt (kg) og prænatal Hg-eksponeringT for H0: Pr > |T| Std Error ofParameter Estimate Parameter=0 EstimateINTERCEPT 86.91645496 44.84 0.0001 1.93827135WEIGHT 0.53336582 7.61 0.0001 0.07011630LOGBHG 0.01320824 0.02 0.9856 0.73105266Hg-effekt er klart insignifikant


Inklusion af led af højere ordenh1 |t|)(Intercept) 71.95203 3.74180 19.229 < 2e-16 ***weight 0.55714 0.06971 7.992 4.23e-15 ***logbhg 34.15425 8.51041 4.013 6.51e-05 ***I(logbhg^2) -23.67909 7.07723 -3.346 0.000856 ***I(logbhg^3) 4.91006 1.86543 2.632 0.008637 **2. og 3. gradsleddet er signifikante. Sammenhæng mellem bp1 og logbhg kan ikkeantages at være lineær. Resultatet af den foregående analyse er derfor ugyldigt.Undersøg om problemet skyldes et enelte outliers. Lav en tegning af den estimerederelation:Beregn y = 34.2 · logbhg − 23.7 · logbhg 2 + 4.9 · logbhg 3 for hver person ogplot y som en funktion of logbhg


Estimated dose-response function


Test for ingen Hg-effekt: anovah1


Indflydelsesrige observationerLeverage i : måler hvor ekstremt kovariatværdierne for den i’te observation er. (Onecovariate: h ii = 1/n + (x i − ¯x) 2 /Σ j (x j − ¯x) 2 )Cooks D i : måler hvor meget all regresionskoefficenterne ændres hvis i’te observationudeladesdfbeta i : måler hvor meget en specifik regresionskoefficent ændres hvis i’te observationudeladesdfbeta i = [ ̂β − ̂β (i) ]/s.e.( ̂β)̂β (i) : coefficient without i’th observation


Hvornår skal man transformere sine kovariater?Når relationen melle x and y ikke er lineær: transformer x (or y)Hvorfor blev B-Hg log-transformet når log-modellen ikke fitter meget bedre end den lineære model?


Leverage


dfbeta


Sammenfatning• multipel <strong>regression</strong>: flere kovariater påvirker en kontinuert responsherved korrigeres for confounding• specialtilfælde: t-test, ANOVA, simpel <strong>regression</strong>• kollinearitet: kovariater er korrelerede → styrken går ned• vekselvirkning: en kovariats effekt på responsen afhænger at niveauet af en andenkovariat• fint nok, men min respons er 0/1: så skal du bruge multipel logistisk <strong>regression</strong>.Susanne R næste gang.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!