Multipel regression 22. Maj, 2012
Multipel regression 22. Maj, 2012
Multipel regression 22. Maj, 2012
- No tags were found...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
• Data: Det færøske kviksølv-studie• Simpel linær <strong>regression</strong>• Confounding• <strong>Multipel</strong> lineær <strong>regression</strong>• Fortolkning af parametre• Vekselvirkning• Kollinearitet• Modelkontrol<strong>Multipel</strong> <strong>regression</strong> <strong>22.</strong> <strong>Maj</strong>, <strong>2012</strong>Esben Budtz-JørgensenBiostatistisk Afdeling, Københavns Universitet
Grinde hvaler
Study DesignEXPOSURE:1. Cord Blood Mercury2. Maternal Hair Mercury3. Maternal Seafood IntakeRESPONSE:Neuropsychological Tests❄✻❄✻✲Age:Calendar:Children:Birth1986-8710227 Years1993-94917
Neuropsykologisk Testing
Boston Naming Test
Scatterplots: Boston Naming vs Hg-koncentrationhg1$bostot10 20 30 40hg1$bostot10 20 30 400 50 100 150 200 250 300 350hg1$bhg1 2 5 10 20 50 100 200hg1$bhgplot(hg1$bhg,hg1$bostot)plot(hg1$bhg,hg1$bostot,log="x")Svag sammenhæng mellem barnets score og Hg-eksponeringEnkelte højt eksponerede bliver meget indflydelsesrige hvis jeg ikke bruger log-transformation.
Logaritme transformation eller ej?Jeg vil lave en <strong>regression</strong> af barnets score på eksponeringen. Men skal jeg logaritmetransformereHg-koncentrationerne?To mulige modellerModel 1: bostot = α + βB-Hg + ǫModel 2: bostot = α + β log 10 (B-Hg) + ǫ
Hvilken model beskriver bedst sammenhængen i data?Modellerne beskriver data lige godt, men jeg vælger log-transformationen fordi jeg hermed undgår atenkelte højt eksponerede børn får meget stor indflydelse.
Fortolkning af <strong>regression</strong>skoefficienten βModel: bostot = α + β log 10 (B-Hg) + ǫ where ǫ ∼ N(0, σ 2 ).β: ændring i respons når log 10 (B-Hg) vokser med 1.log 10 (B-Hg 1 ) − log 10 (B-Hg 0 ) = log 10 ( B-Hg 1B-Hg 0) = 1 →B-Hg 1B-Hg 0= 10 1 = 10β: ændring i respons når koncentrationen B-Hg 10-dobles
h |t|)(Intercept) 30.8615 0.7173 43.027 < 2e-16 ***logbhg -2.5458 0.5081 -5.011 6.61e-07 ***Residual standard error: 5.455 on 847 degrees of freedom(68 observations deleted due to missingness)Multiple R-squared: 0.02879, Adjusted R-squared: 0.02764F-statistic: 25.11 on 1 and 847 DF, p-value: 6.608e-07Fortolkning af resultat: når logbhg vokser med 1 falder Boston Naming scoren med 2.55. Eller mererelevant: Når B-Hg 10-dobles falder Boston Naming scoren med 2.55. Effekten er stærkt signifikant(p
ConfoundingHg-eksponering❅❅❅❅❅Morens intelligens1. intelligente mødre får intelligente børn✲ ✒Barnets score2. børn med intelligente mødre har lavere Hg-eksponeringI simpel lineær <strong>regression</strong> ignorerer vi confounderen maternel intelligens og over-estimerer Hg’s skadeligeeffekt. Højt eksponerede børn klarer sig dårligt også fordi deres mødre er mindre intelligente.Ideelt, ville vi sammenligne børn med forskellig grad af eksponering, men med samme værdi af maternelintelligens.
<strong>Multipel</strong> <strong>regression</strong> analyseMEGET nyttig modelklasse som tillader at responsen kan afhænge af mere end enkovariat.Kovariaterne: kontinuerte eller gruppe-variableResponsen: skal være kontinuert.Næste gang: logistisk <strong>regression</strong> hvor responsen er 0/1.
<strong>Multipel</strong> <strong>regression</strong> analyse, IIDATA: n individer, p forklarende variable + en respons:subject x 1 ....x p y1 x 11 ....x 1p y 12 x 21 ....x 2p y 23 x 31 ....x 3p y 3. . . . . . . .n x n1 ....x np y nDen multiple lineære <strong>regression</strong>s model med p kovariater:y i = β 0 + β 1 x i1 + · · · + β p x ip + ε irespons middelværdi funktion biologiskvariationParametreβ 0β 1 , · · · , β pintercept<strong>regression</strong>skoefficienter
<strong>Multipel</strong> <strong>regression</strong>, 2 kontinuerte kovariatery i = β 0 + β 1 x i1 + β p x i2 + ε i ,i = 1, · · · , nAntagelse: ε i ∼ N(0, σ 2 ), uafhængigeEstimation: Hvilket plan i rummet ligger tættest på data?
Fortolkning af <strong>regression</strong>skoefficienterne βModel Y i = β 0 + β 1 X i1 + β 2 X i2 + ǫ hvor ǫ ∼ N(0, σ 2 )Eks. Y: blodtryk X 1 : alder X 2 : vægtBetragt to individer:A har kovariatværdier (35,75); B har kovariatværdier (36,75)Forventet forskel i blodtryk (B − A)β 0 + β 1 · 36 + β 2 · 75 − [β 0 + β 1 · 35 + β 2 · 75] = β 1β 1 : ændring i blodtryk når X 1 forøges med en enhed og de andre kovariater holdes uændretBemærk, at effekten ikke afhænger af udgangspunktet for X 1 (her 35). Uanset hvor vi starter, ereffekten af en forøgelse på en enhed den samme. Sammenhængen er lineær.Bemærk også, at effekten ikke afhænger af niveauet af X 2 (her 75). Effekten af en ændring i X 1 påen enhed er den samme for alle værdier af X 2 . Dette kan ændres med et vekselvirkningsled.
Fortolkning af <strong>regression</strong> koefficienterne: Hg-effekten• Simpel <strong>regression</strong>: Y = α + β log 10 (B-Hg) + ǫβ: forventet forskel i neuro-score mellem to børn med en forskel i log 10 (B-Hg)på en, dvs hvor det en barn har en Hg-koncentration der er 10 gange større• <strong>Multipel</strong> <strong>regression</strong>: Y = α + β log 10 (B-Hg) + β 1 X 1 + ... + β p X p + ǫ β:forventet forskel i neuro-score mellem to børn med en forskel i log 10 (B-Hg) påen, men som er ens på de øvrige kovariater (køn, maternel intelligens,...)Vi har justeret for effekten af de andre kovariater.Det er vigtigt at justere for variable der er associeret med både eksponering og respons.
<strong>Multipel</strong> <strong>regression</strong> i R> h
R-output - Boston Naming Test> summary(h)Call:lm(formula = bostot ~ logbhg + kon + age + risk + childcar +mattrain + pattrain + patempl + raven + town71, data = hg1)Residuals:Min 1Q Median 3Q Max-18.4391 -2.6519 0.1869 3.2275 15.8037
Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -6.06855 4.08034 -1.487 0.137349logbhg -1.69835 0.49644 -3.421 0.000656 ***kon -0.70928 0.35080 -2.022 0.043530 *age 4.35370 0.55633 7.826 1.64e-14 ***risk -1.70229 0.49913 -3.411 0.000682 ***childcar 1.61980 0.37801 4.285 2.06e-05 ***mattrain 0.95720 0.38910 2.460 0.014108 *pattrain 0.99168 0.41436 2.393 0.016934 *patempl 0.83446 0.47609 1.753 0.080039 .raven 0.08981 0.02308 3.892 0.000108 ***town71 0.98736 0.39414 2.505 0.012444 *Residual standard error: 4.907 on 780 degrees of freedom(126 observations deleted due to missingness)Multiple R-squared: 0.2112, Adjusted R-squared: 0.2011F-statistic: 20.89 on 10 and 780 DF, p-value: < 2.2e-16
Var Hg-effekten virkelig signifikant?Eksponeringer blev grupperet og gennemsnittet af bostot beregnet i hver gruppe
h summary(h)Samme analyse - Digit Spans (digwf)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 4.2776 0.1890 <strong>22.</strong>635
h summary(h)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -0.429049 1.170661 -0.367 0.7141logbhg -0.208496 0.142175 -1.466 0.1429kon 0.426334 0.100271 4.252 2.37e-05 ***age 0.381959 0.159984 2.387 0.0172 *risk -0.190137 0.144468 -1.316 0.1885childcar 0.116431 0.107987 1.078 0.2813mattrain 0.075268 0.110911 0.679 0.4976pattrain 0.090527 0.118287 0.765 0.4443patempl 0.108780 0.136872 0.795 0.4270raven 0.021700 0.006572 3.302 0.0010 **town71 0.139283 0.112358 1.240 0.2155Efter korrektion forsvinder effekten
PrædiktionEstimeret model:bostot = −4.8−1.66·log 10 (B-Hg) i −0.70·SEX i +...+0.98·TOWN7 i +ǫ, ǫ ∼ N(0,4.9 2 )Forventet respons for det første barn i data:̂ bostot = −4.8 − 1.66 · log 10 (92.2) − 0.70 · 0 + ... + 0.98 · 0 = 27.8Observert bostot=21, Residual ̂ǫ 1 =21 − 27.8 = −6.8Prædiktionsusikkerhed:95% prædiktionsinterval: forventet værdi ±1.96 · 4.9 = (18.2;37.4)(her har vi ignoreret estimationsusikkerheden i <strong>regression</strong>skoefficienterne)
Håndtering af gruppe-variable - brug factor> h summary(h)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 28.7679 0.4217 68.220 < 2e-16 ***factor(grind)1 -1.3606 0.5462 -2.491 0.01292 *factor(grind)2 -1.5107 0.5658 -2.670 0.00772 **factor(grind)3 -1.3100 0.7333 -1.786 0.07438 .factor(grind)4 -2.4927 0.6151 -4.053 5.52e-05 ***factor(grind)5 -4.7679 3.1837 -1.498 0.13461factor(grind)6 3.2321 5.4820 0.590 0.55562factor(grind)8 -6.7679 2.7652 -2.447 0.01458 *factor(grind)10 -1.7679 3.8878 -0.455 0.64943Residual standard error: 5.466 on 859 degrees of freedom(49 observations deleted due to missingness)Multiple R-squared: 0.02582, Adjusted R-squared: 0.01674F-statistic: 2.846 on 8 and 859 DF, p-value: 0.003997
Illustration af model med factor
Uden factor> h summary(h)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 28.3203 0.2954 95.87 < 2e-16 ***grind -0.4969 0.1258 -3.95 8.46e-05 ***Residual standard error: 5.466 on 866 degrees of freedom(49 observations deleted due to missingness)Multiple R-squared: 0.0177, Adjusted R-squared: 0.01656F-statistic: 15.6 on 1 and 866 DF, p-value: 8.461e-05
Illustration: factor eller ej
Forskel på lungekapacitet i mænd og kvinder• 32 patienter skal have foretaget hjerte/lunge transplantation• tlc (Total Lung Capacity) bestemmes ved hjælp af helkrops plethysmografi• Er der forskel på mænd og kvinder?sex age height tlc1 35 149 3.401 11 138 3.412 12 148 3.80. . . .. . . .. . . .1 20 162 8.052 25 180 8.102 22 173 8.702 25 171 9.45
Box plotstotal lung capacity4 6 8femalemaleheight140 160 180femalemale
h summary(h)Ujusteret sammenligning (t-test)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 5.1981 0.3428 15.164 1.31e-15 ***factor(sex)2 1.7787 0.4848 3.669 0.000939 ***Residual standard error: 1.371 on 30 degrees of freedomMultiple R-squared: 0.3098, Adjusted R-squared: 0.2868F-statistic: 13.46 on 1 and 30 DF, p-value: 0.0009392
h summary(h)Mænd og kvinder er ikke lige højeCoefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 160.812 2.509 64.097 < 2e-16 ***factor(sex)2 13.250 3.548 3.734 0.000788 ***Residual standard error: 10.04 on 30 degrees of freedomMultiple R-squared: 0.3173, Adjusted R-squared: 0.2946F-statistic: 13.95 on 1 and 30 DF, p-value: 0.0007879
Relation mellem tlc og heightHøjden er relateret til tlc og er derfor en confounder.
Model med både sex og height som kovariaterMODEL: Y gi = α g + βx gi + ǫ gi g = 1,2; i = 1, . . . , n gModellen tillader at responsen kan afhænge af både højde og køn.Modellen angiver altså to parallelle linjer (kovariansanalyse).Forskellen α 1 −α 2 angiver forskellen i tlc mellem kvinder og mænd med samme højde(x).
Analyse i R> h summary(h)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -7.03443 3.40153 -2.068 0.04766 *factor(sex)2 0.77086 0.49571 1.555 0.13078height 0.07607 0.02108 3.609 0.00114 **Efter korrektion for højde ligger mænd stadig over kvinder, men forskellen er ikke statistisksignifikant.
Hvem siger, at linjerne skal være parallelle?VekselvirkningMere generel model: y gi = α g + β g x gi + ǫ gi g = 1,2; i = 1, . . . , n gNår β 1 ≠ β 2 , siger vi, at der er vekselvirkning, eller interaktion.Det betyder:• Effekten af højde afhænger af kønnet• Forskellen på kønnene afhænger af højdenI tilfælde af vekselvirkning kan man altså ikke udtale sig om en generel effekt af højde eller om engenerel kønsforskel.Ulla talte om vekselvirning i 2-sidet variansanalyse.
Vekselvirkning i RTo mulighder>h h
Vekselvirning - output> summary(h)Call:lm(formula = tlc ~ factor(sex) * height, data = bone)Residuals:Min 1Q Median 3Q Max-1.65193 -0.82127 -0.03884 0.62470 2.75770Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -7.555635 5.232018 -1.444 0.1598factor(sex)2 1.727664 7.221161 0.239 0.8127height 0.079308 0.032483 2.442 0.0212 *factor(sex)2:height -0.005744 0.043242 -0.133 0.8953Residual standard error: 1.179 on 28 degrees of freedomMultiple R-squared: 0.524, Adjusted R-squared: 0.473F-statistic: 10.28 on 3 and 28 DF, p-value: 9.896e-05
Hvor er de to linjer i outputtet?Som sædvanlig vælger R en reference gruppe (her sex=1, kvinder); for den gruppe kanlinjen direkte aflæsestlc = −7.56 + 0.079 ∗heightder ses altså en positiv effekt af højde.Intercept og hældning for den anden gruppe (mænd) er angivet som forskelle til referencegruppentlc = (−7.56 + 1.72) + (0.079 − 0.006) ∗heightså her er effekten af højde mindre, men forskellen (0.006) ikke er statistisk signifikant(p=0.895) - hvilket betyder at effekten af højde kan antages at være ens i de to grupper- vekselvirkningen er ikke statistisk signifikant.
Scatterplot i Rbone$tlc4 5 6 7 8 9femalemale140 150 160 170 180 190bone$height
R-kode til scatterplotetplot(bone$height,bone$tlc,pch=bone$sex)legend(locator(n=1),legend=c("female","male"),pch=1:2)female
Mulige modeller
Om vekselvirkninger• Involverer mindst 3 variable: effekten af x 1 på y afhænger af x 2• Ofte medtages disse led kun som modelkontrol: de testes og fjernes igen hvis de erinsignifikante• Råd til den uerfarne: medtag ikke for mange vekselvirkningsled. Start evt. medat lave en analyse uden vekselvirkning. Angiv og fortolk resultat. Herefter udvidesmodellen med relevante vekselvirkninger.
Færøske data: Afhænger Hg-effekten af PCB-niveauet?Fra tekst: “The p-value for no effect modification was between 0.21 and 0.75, thus suggesting thatno interaction occured.”EBJ et al., Environmental health perspectives, 1999.
Illustration
Begrænsninger i multipel <strong>regression</strong> - kollinearitetEks. O’Neill et.al. (1983): Lungefunktion i 25 patienter med systisk fribrose
Hvilke forklarende variable har en marginal effekt på PE max ?Nogle af disse effekter kan være artefakter opstået ved confounding. De kausale variable findes i enmultipel model med alle kovariater
Model med alle kovariaterlm(pemax~age+sex+height+weight+bmp+fev1+rv+frc+tlc,pemax)Parameter StandardVariable Estimate Error t Value Pr > |t|Intercept 176.05821 225.89116 0.78 0.4479age -2.54196 4.80170 -0.53 0.6043sex -3.73678 15.45982 -0.24 0.8123height -0.44625 0.90335 -0.49 0.6285weight 2.99282 2.00796 1.49 0.1568bmp -1.74494 1.15524 -1.51 0.1517fev1 1.08070 1.08095 1.00 0.3333rv 0.19697 0.19621 1.00 0.3314frc -0.30843 0.49239 -0.63 0.5405tlc 0.18860 0.49974 0.38 0.7112
Korrelerede kovariaterUnivariate analyser viste stærke effekterEn multipel analyse fandt ingen effekterHvordan kan det ske i de samme data?Når vi inkludere mange korrelerede kovariater i samme model, så falder styrken til atdetektere effekter. For eksempel, vil der være begrænset information i data om effektenaf en ændring i højde for fastholdt værdi af vægt, fordi når højden ændres vil vægtenogså have en tendens til at ændres. Højt korrelerede kovariater bør undgås.Dette fænomen kaldes kollinearitet
Illustration
KollinearitetTo eller flere kovariater er stærkt associeret.Konsekvenser:• Nogle koefficienter har store standard errors• R 2 er høj, men ingen af kovariaterne er signifikante• Resultatet er ikke som forventet• Resultatet ændres meget når en kovariat udeladesDårligt studie design. Nogle gange uundgåeligt.
Automatisk model-selektion• Backward elimination– start med at inkludere alle kovariaters, fjern kovariaten med den højeste p-værdi– fit modellen igen– fortsæt indtil alle variable er signifikanteI eksemplet vælges: weight, bmp og fev1.Advarsel: Outputtet fra den valgte model tager ikke højde for modelusikkerheden. Effekten af devalgte kovariater overvurderes.Sådanne metoder bruges for ofte. F.eks ikke optimale til identifikation af confoundere (EBJ, 2007).Kan bruges til bestemmelse af en simpel model til prædiktion.Budtz-Jørgensen, E., Keiding, N., Grandjean, P., Weihe, P. Confounder Selection in Environmental Epidemiology: Assessmentof Health Effects of Prenatal Mercury Exposure. Annals of Epidemiology 17, 27-35, 2007.
PCB-korrektionPCB koncentration målt i navlestreng men kun i halvdelen af børnene. (Median koncentration ≈ 2ng/g).Hg and PCB er korrelerede: corr[log 10 (B-Hg), log 10 (PCB)] = 0.40, p < 0.0001Respons: bostotCord Blood HgPCBβ s.e. p β s.e. p−1.93 0.74 0.009 - - -- - - −1.55 0.71 0.029−1.54 0.83 0.063 −0.89 0.80 0.27• Baseret på de separate analyser har begge variable en effekt.• Hvis begge variable er inkluderet i samme model har ingen af variablene en effekt.• Konklusion: mindst en af disse variable har en effekt, men det er svært at afgøre hvilken af demdet er. Dog ser det ud til at være Hg.• I en backward eliminations procedure ville PCB blive udeladt. Det endelige resultat ville væregivet ved 1. række.
ModelkontrolModel Y i = β 0 + β 1 X i1 + β 2 X i2 + ... + β p X ip + ǫ where ǫ ∼ N(0, σ 2 ).Hvilke antagelser skal vi checke?• linearitet• varianshomogenitet i residualer• normalfodelte residualerBemærk: ingen krav om normalfordeling på kovariaterne
Residual plotsFittede værdier Ŷi = ̂β 0 + ̂β 1 X i1 + ̂β 2 X i2 + ... + ̂β p X ipResidual ̂ǫ i = Y i − ŶiStandardiserede residualer: standardiseret så variansen er 1Plots (som for simpel lineær <strong>regression</strong>) :• residualer vs kovariater: tester linearitet• residualer vs fittede værdier: for at teste varianshomogenitet. En trompet-formindikerer en log-transformation [var{log(Y )} ≈ var(Y )/Y 2 ]Skal ikke vise nogen struktur
Boston Naming Test: Standardiseret residual vs fittet værdi
Boston Naming Test: Standardiseret residual vs Hg-koncentration
Test af linearitet: Polynomial <strong>regression</strong>Y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + ǫBemærk: relationen mellem X og Y er ikke lineær, men modellen er en multipel lineær<strong>regression</strong>smodel (Y er lineær i β-erne)Modellen kan fittes med lm. Man skal bare lave kovariaterne x 2 , x 3 .Test of linearitet: H 0 : β 2 = β 3 = 0The model is tested against a more general (flexible) model.Modellen der antager en lineær sammenhæng mellem X og Y testes mod en meregenerel model.
Test af linearitetSammenhæng: prænatal Hg-eksponering og blodtrykSystolisk blodtryk (mmHg) regressers på barnets vægt (kg) og prænatal Hg-eksponeringT for H0: Pr > |T| Std Error ofParameter Estimate Parameter=0 EstimateINTERCEPT 86.91645496 44.84 0.0001 1.93827135WEIGHT 0.53336582 7.61 0.0001 0.07011630LOGBHG 0.01320824 0.02 0.9856 0.73105266Hg-effekt er klart insignifikant
Inklusion af led af højere ordenh1 |t|)(Intercept) 71.95203 3.74180 19.229 < 2e-16 ***weight 0.55714 0.06971 7.992 4.23e-15 ***logbhg 34.15425 8.51041 4.013 6.51e-05 ***I(logbhg^2) -23.67909 7.07723 -3.346 0.000856 ***I(logbhg^3) 4.91006 1.86543 2.632 0.008637 **2. og 3. gradsleddet er signifikante. Sammenhæng mellem bp1 og logbhg kan ikkeantages at være lineær. Resultatet af den foregående analyse er derfor ugyldigt.Undersøg om problemet skyldes et enelte outliers. Lav en tegning af den estimerederelation:Beregn y = 34.2 · logbhg − 23.7 · logbhg 2 + 4.9 · logbhg 3 for hver person ogplot y som en funktion of logbhg
Estimated dose-response function
Test for ingen Hg-effekt: anovah1
Indflydelsesrige observationerLeverage i : måler hvor ekstremt kovariatværdierne for den i’te observation er. (Onecovariate: h ii = 1/n + (x i − ¯x) 2 /Σ j (x j − ¯x) 2 )Cooks D i : måler hvor meget all regresionskoefficenterne ændres hvis i’te observationudeladesdfbeta i : måler hvor meget en specifik regresionskoefficent ændres hvis i’te observationudeladesdfbeta i = [ ̂β − ̂β (i) ]/s.e.( ̂β)̂β (i) : coefficient without i’th observation
Hvornår skal man transformere sine kovariater?Når relationen melle x and y ikke er lineær: transformer x (or y)Hvorfor blev B-Hg log-transformet når log-modellen ikke fitter meget bedre end den lineære model?
Leverage
dfbeta
Sammenfatning• multipel <strong>regression</strong>: flere kovariater påvirker en kontinuert responsherved korrigeres for confounding• specialtilfælde: t-test, ANOVA, simpel <strong>regression</strong>• kollinearitet: kovariater er korrelerede → styrken går ned• vekselvirkning: en kovariats effekt på responsen afhænger at niveauet af en andenkovariat• fint nok, men min respons er 0/1: så skal du bruge multipel logistisk <strong>regression</strong>.Susanne R næste gang.