12.07.2015 Views

Multipel regression

Multipel regression

Multipel regression

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Multipel</strong> <strong>regression</strong>Birthe Lykke ThomsenH. Lundbeck A/S1


<strong>Multipel</strong> <strong>regression</strong>:Et outcome, mange forklarende variableEksempel:Ultralydsscanning, umiddelbart inden fødslen(1-3 dage inden)OBS VAEGT BPD AD1 2350 88 922 2450 91 983 3300 94 110. . . .. . . .. . . .105 3550 92 116106 1173 72 73107 2900 92 104Problemstillingen kan eksempelvis være:• Prediktion, konstruktion af normalområdetil diagnostisk brug (som her)• Ønske om at justere for forstyrrendevariable (confoundere)• Flere forklarende variable af interesse:Hvilke er vigtige? Fanger de det sammeaspekt? Har de selvstændig betydning?2


Repetition af simpel lineær <strong>regression</strong>Først ser vi på en enkelt kovariat, BPD3


Modelkontrol i simpel lineær <strong>regression</strong>Statistisk model:Y i = a + bX i + e i , e i ∼ N(0, σ 2 ) uafh.Hvad skal vi checke her?1. linearitet tegne2. varianshomogenitet tegne3. normalfordelte afvigelser(afstande til linien) tegneOBS:• Intet krav om normalfordeling påX i 'erne eller Y i 'erne!!4. uafhængighed mellem afvigelserne tænke!• Er der ere observationer på sammeindivid?• Indgår der personer fra samme familie?Tvillinger?4


Modelkontrol består af• grak, typisk med residualer=forskellenpå den observerede værdi og den forventede(prædikterede, ttede) værdi• evt. formelle testsResidualplots:Residualerne plottes mod1. den (eller de) forklarende variable x i for at checke linearitet2. de ttede værdier ŷ i for at checke varianshomogenitet3. 'normal scores' dvs. fraktildiagram(probability plot) for at checke normalfordelingsantagelsenDe to første skal give indtryk af uordendvs. der må ikke være nogen systematik somf.eks. U-form (for den første) ellertrompet-facon (for den anden)Fraktildiagrammet skal ligne en ret linie5


Modelkontroltegninger:6


En stor del af plottene kan konstrueres direkteved i <strong>regression</strong>sopsætningen at klikkePlots/Residualhvor der f.eks. vælges Ordinary Residual modPredicted7


Der er 4 typer residualer at vælge imellem:1. ordinary: afstand fra observation lodretned til 'linie' = observeret - ttet værdi:ê i = y i − ŷ i2. standardized (student): ordinary,normeret med spredning3. press: observeret minus predikteret, men ien model, hvor den aktuelle observationhar været udeladt i estimationsprocessen4. rstudent (studentized, rstudent):normerede Press-residualerFordele og ulemper:• Rart med residualer, der bevarer enhederne(type 1 og 3); men nemmere at vurdere gradenaf outlier med standardiserede (type 2 og 4)• Lettest at nde outliers, når observationerneudelades en ad gangen (type 3 og 4)8


De viste typer af plots kan produceres (i enikke særligt pæn version) ved hjælp afprogramkodenPROC REG DATA=secher;MODEL vaegt = bpd;VAR ad; * AD bruges i et af plottene;PLOT RESIDUAL.*(bpd PRED.) PRESS.*adSTUDENT.*NQQ.;RUN;Pæne plots kræver, at residualerne gemmes pået datasæt ved hjælp afPROC REG DATA=secher;MODEL vaegt = bpd;OUTPUT OUT=med_resid P=predictR=resid STUDENT=stdizedPRESS=without_currRSTUDENT=stdized_without_curr;RUN;og tegnes med diverse specikketegneprocedurer (f.eks. GPLOT, BOXPLOT,PROBPLOT under UNIVARIATE, ...)9


Hvorfor standardisere?Problemer med de sædvanlige residualerVi har antaget, ate i ∼ N(0, σ 2 ) uafh.så vi ville forvente, at det samme galdt forresidualerne ê i = y i − ŷ i .Det gør det ikke!• De er ikke uafhængige (de summerer til 0) betyder ikke meget, når der er tilstrækkeligmange• De har ikke helt samme variansVar(ê i ) = σ 2 (1 − hii)hvorhii = 1 n + (x i − ¯x) 2Sxxbetegnes leverage for den i'te observationStandardiserede residualer (standardized)(normerede residualer, student residualer):êr i = √ is 1−hii , Var(r i)≈ 110


Modelkontroltegninger linearitet?11


LinearitetHvis lineariteten ikke holder,bliver modellen misvisende og ufortolkeligAfhjælpning:• tilføj ere kovariater, f.eks. ad kvadratleddet BPD 2vaegt=a+b 1 bpd+b 2 bpd 2Test af linearitet: b 2 =0• transformer variablene med logaritmer kvadratrod invers• Lad være med at gøre nogetikke-lineær <strong>regression</strong>12


Modelkontroltegningerne fra den simple lineære<strong>regression</strong> varianshomogenitet?13


Varianshomogenitet(konstant varians / konstant spredning)Var(e i )=σ 2 , i=1,· · ·,nHvis der ikke er rimelig varianshomogenitet, bliverestimationen inecient (unødigt stor usikkerhed påparameterestimaterne)Hvilke alternativer kan der typisk være?• konstant relativ spredning= konstant variationskoecientVariationskoecient = spredning middelværdi ofte konstant, når man ser på størrelser,der (evt. skjult) involverer division(f.eks. koncentrationer, BMI, andel positive celler,visse laboratorie assays, observationer beregnet udfra lys- eller farveintensiteter ...) vil give anledning til trompetfacon påplottet af residualerne mod deprædikterede værdier afhjælpes ved at transformere outcome (Y i )med logaritme• Forskellige grupper, f.eks. ere instrumenter eller laboratorier,mænd/kvinder, forskellige patienttyper14


Modelkontroltegninger normalitet?15


NormalfordelingsantagelsenHusk:Det er kun modelafvigelserne, der antages atvære normalfordelte, hverken outcome ellerkovariater!Normalfordelingsantagelsen• er ikke kritisk for selve ttet:Mindste kvadraters metode giver under alleomstændigheder 'de bedste' estimater• er formelt en forudsætning for t-fordelingenaf teststørrelsen, men reelt behøves kun ennormalfordelingsantagelse for estimatet ˆb,og dette passer ofte, når der er rimeligtmange observationer, på grund af:Den centrale grænseværdisætning,der siger, at summer og andre funktioner afmange observationer bliver 'mere og mere'normalfordelte.Tunge haler i den høje ende kan ofte afhjælpesved at logaritmetransformere outcome.16


Transformation• logaritmer, kvadratrod, inversHvorfor tage logaritmer?• af de forklarende variable for at opnå linearitet, hvis det er %-viseforskelle, der har konstant eekt. Bruggerne 2-tals logaritmer (eekt affordobling) eller XX=log(X)/log(1.1);(eekt af 10% stigning i X) for at se på multiplikativesammensætninger af to variable (f.eks.vægt og højde, jf. BMI)• af respons / outcome for at opnå linearitet for at opnå varianshomogenitetVar(ln(y)) ≈ Var(y)y 2dvs. en konstant variationskoecient på Ybetyder konstant varians på log(Y ) (gælderfor alle logaritmetransformationer) for at opnå normalitet17


Utransformeret18


Efter log2-transformation af vaegt:19


Efter log2-transformation af både vaegt ogbpd:logaritme-transformationer ikke nok, AD skalmed!20


<strong>Multipel</strong> <strong>regression</strong>DATA: n personer, dvs. n sæt afsammenhørende observationer:person x 1 ....x p y1 x 11 ....x 1p y 12 x 21 ....x 2p y 23 x 31 ....x 3p y 3. . . . . . . .n x n1 ....x np y nDen lineære <strong>regression</strong>smodel med pforklarende variable skrives:y = b 0 + b 1 x 1 + · · · + b p x p + e irespons middelværdi biologisk<strong>regression</strong>sfunktionen variationParametre:b 0b 1 , · · · , b pafskæring, intercept<strong>regression</strong>skoecienter21


Graphs/Scatter Plot/Three-Dimensional,under Display vælges Needles/PillarPROC G3D;SCATTER bpd*ad=vaegt /SHAPE='PILLAR' SIZE=0.5;RUN;22


Regressionsmodel:y i = b 0 +b 1 x i1 +· · ·+b p x ip +e ij ,i = 1, · · · , nTraditionelle antagelser:e i ∼ N(0, σ 2 ), uafhængigeMindste kvadraters metode:S(b 0 , b 1 , · · · , b p ) = ∑ (y i −b 0 −b 1 x i1 −· · ·−b p x ip ) 223


Eksempel:Sechers data med fødselsvægt som funktion afsåvel bpd som adAnalyse i Analyst:Statistics/Regression/Linear,vælg vaegt som Dependent,bpd og ad som Explanatoryeller som programmeringPROC REG DATA=secher;MODEL vaegt=bpd ad;PLOT RESIDUAL.*(bpd PRED. ad)STUDENT.*NQQ.;RUN;24


The REG ProcedureDependent Variable: vaegtAnalysis of VarianceSum of MeanSource DF Squares Square F Value Pr > FModel 2 40736854 20368427 216.72 |t|Intercept 1 -4628.11813 455.98980 -10.15


Modelkontrol af utransformeret model:26


Vurdering af modellen:• Normalfordelingen halter lidt, med nogleenkelte ret store positive afvigelser, hvilketkunne tale for at logaritmetransformerevægten.• Måske lidt trompetfacon i plot af residualermod predikterede værdier, hvilket ogsåtaler for logaritmetransformation (menhusk på, at observationerne ikke er ligeligtfordelt over x-aksen).• Linearitet er ikke helt god, men det skyldeshovedsageligt de få børn med de særligtlave ultralydsmål• Teoretiske argumenter fra den fagligeekspertise foreslår en multiplikativsammenhæng, dvs. en samtidiglogaritmetransformation af kovariaterne27


Logaritmetransformerede data:DATA secher; SET secher;lvaegt=LOG2(vaegt)lbpd=LOG2(bpd)lad=LOG2(ad)RUN;Analyse i Analyst:Statistics/Regression/Linear,vælg lvaegt som Dependent,lbpd og lad som Explanatoryeller som programmeringPROC REG DATA=secher;MODEL lvaegt=lbpd lad;VAR bpd ad; * bruges i plots;PLOT RESIDUAL.*(bpd PRED. ad)STUDENT.*NQQ.;RUN;28


Dependent Variable: LVAEGTAnalysis of VarianceSum of MeanSource DF Squares Square F Value Prob>FModel 2 14.95054 7.47527 314.925 0.0001Error 104 2.46861 0.02374C Total 106 17.41915Root MSE 0.15407 R-square 0.8583Dep Mean 11.36775 Adj R-sq 0.8556C.V. 1.35530Parameter EstimatesParameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob > |T|INTERCEP 1 -8.456359 0.95456918 -8.859 0.0001LBPD 1 1.551943 0.22944935 6.764 0.0001LAD 1 1.466662 0.14669097 9.998 0.000129


Modelkontrol af log2-transformeret model:30


Utransformeret model (til sammenligning):31


Marginale (univariate) modeller:Responsen vurderes overfor hver enkeltforklarende variabel for sig.<strong>Multipel</strong> <strong>regression</strong>smodel:Responsen vurderes overfor beggeforklarende variable samtidigt.Estimaterne for disse modeller (med tilhørendestandard errors i parentes) bliver:b 0 (int.) b 1 (lbpd) b 2 (lad) s R 2-10.223 3.332(0.202) - 0.215 0.72-3.527 - 2.237(0.111) 0.184 0.80-8.456 1.552(0.229) 1.467(0.147) 0.154 0.86Bemærk koecienterne (b 1 og b 2 ) ændres ogstandard errors bliver større32


Fortolkning af koecient b 1 til lbpd:• Marginal model:Ændringen i lvaegt, når kovariaten lbpdændres 1 enhed (dvs. når bpd fordobles)• <strong>Multipel</strong> <strong>regression</strong>smodelÆndringen i lvaegt, når kovariaten lbpdændres 1 enhed, men hvor alle andrekovariater (her kun ad) holdes fastVi siger, at vi har korrigeret for eektenaf de andre kovariater i modellen.Forskellen kan være markant, fordikovariaterne typisk er relaterede: Når en af dem ændres,ændres de andre ogsåVigtigt: Den biologiske fortolkning afparameterestimaterne ændres:Det videnskabelige spørgsmål, derbesvares, er et andet!33


Prædiktion ud fra modellenlog 2 (vaegt) = −8.46 + 1.55 log 2 (bpd)+1.47 log 2 (ad) ⇒vaegt = 2 −8.46 × bpd 1.55 × ad 1.47= 0.00284 × bpd 1.55 × ad 1.47Hvis ad holdes fast, svarer en forskel på 10% ibpd (dvs. bpd 2 =bpd 1 × 1.1) til at gange vægtenmed1.1 1.55 = 1.16altså en 16% større vægt.34


Regneeksempel (barn nr. 1)For bpd=88 og ad=92, vil man forventelog 2 (vaegt)= −8.46 + 1.55 × log 2 (88) + 1.47 × log 2 (92)= −8.46 + 1.55 × 6.46 + 1.47 × 6.52= 11.14Forventet fødselsvægt: 2 11.14 g = 2257 gPrædiktionsgrænserne beregnes for denanalyserede variabel, dvs. for log 2 (vægt), ogtilbagetransformeres!11.14 ± 1.96 × Root MSE =11.14 ± 1.96 × 0.154 = (10.84, 11.44)(2 10.84 g, 2 11.44 g) = (1833 g, 2778 g)Vi har snydt en smule: Vi har negligeret selveestimationsusikkerheden på b'erne.Faktisk observeret fødselsvægt: 2350 g35


PrediktionsusikkerhedNB: log-skalaen medfører konstantrelativ usikkerhed2 ±1.96×0.154 = (0.81, 1.23)Dette betyder, at med 95% sandsynlighed vilfødselsvægten ligge et sted mellem 19% underog 23% over den predikterede værdi.Vi har stadig snydt en smule og negligeret selveestimationsusikkerheden på b'erne.36


Test af hypoteserEr AD uden betydning, når BPD allerede ermed i modellen?H 0 : b 2 =0Her har vi ˆb 2 =1.467 med se(ˆb 2 )=0.147,og dermed t-testett = ˆb 2se( ˆb 2 )= 9.998 ∼ t(104), P < 0.000195% kondensinterval:ˆb 2 ± t (97.5%,n−p−1) se( ˆb 2 )= 1.467 ± 1.984×0.147 = (1.175,1.759)Men:ˆbj 'erne er korrelerede med mindre de forklarende variable eruafhængigeså man kan ikke lave et kombineret test ellerkondensområde for begge variable ud frakondensgrænserne for hver af variablene37


Goodness-of-t målSum Sq(Model)R 2 =Sum Sq(Total)Hvor stor en del af variationen kan forklares afmodellen?(her 0.8583, dvs. 85.83%)Fortolkningsproblemer når værdierne forkovariaterne er fastlagt direkte eller indirekteud fra forsøgsdesignet (ganske som forkorrelationskoecienten)R 2 stiger med antallet af kovariater selv hvisdisse er uden betydning!Adjusted R 2 :R 2 adj(her 0.8556)= 1 −Mean Sq(Residual)Mean Sq(Total)38


Modelkontrol• Plots: residualer mod hver kovariat for sig(linearitet) residualer mod ttede (predikterede)værdier(varianshomogenitet) fraktildiagram, 'probability plot'(normalfordelingen)• Tests:Udvid modellen med krumning: Kvadratled, 3. gradsled,... vekselvirkning: Produktled ?• Indydelsesrige observationer modicerede residualer Cooks afstand39


Regression diagnosticsUnderstøttes konklusionerneaf hele materialet?Eller er der observationer med meget storindydelse på resultaterne?Leverage = potentiel indydelse(hat-matrix, i sas kaldet Hat Diag eller H)Hvis der kun er en kovariat er det simpelt:hii = 1 n + (x i − ¯x) 2SxxObservationer med ekstreme x-værdier kanhave stor indydelse på resultaterne,40


y0 2 4 6 8 100 1 2 3 4 5 6xmen de har det ikke nødvendigvis!• hvis de ligger 'pænt' i forhold til<strong>regression</strong>slinien, dvs. har et lille residual41


Indydelsesrige observationerhar en kombination af• høj leverage• stort residual42


Regression diagnostics• Udelad den i'te person og nd nye(i) (i) (i)estimater, ˆb 0 , ˆb 1 og ˆb 2• Udregn Cook's afstand, et samlet mål forændringen i parameterestimaterne• Spalt Cooks afstand ud i koordinaterog angiv:Hvor mange se'er ændres f.eks. ˆb 1 ,når den i'te person udelades?Hvad gør vi ved indydelsesrige observationer?• udelader dem?• anfører et mål for deres indydelse?43


Diagnostics:Cooks afstand som mål for indydelse44


OutliersObservationer, der ikke passer ind isammenhængen• de er ikke nødvendigvis indydelsesrige• de har ikke nødvendigvis et stort residualHvad gør vi ved outliers?• ser nærmere på dem,de er tit ganske interessanteHvornår kan vi udelade dem?• hvis de ligger meget yderligt, dvs. har højleverage husk at afgrænse konklusionernetilsvarende!• hvis man kan nde årsagen og da skal alle sådanne observationerudelades!45


Modelkontrol og Diagnostics i ANALYSTMange tegninger kan fås direkte fra <strong>regression</strong>enunder Plots/Residual eller Plots/Diagnostics.Vil man lave yderligere (f.eks. en tegning af Cook'sdistance), er man nødt til at danne et nyt datasæti Analyst:1. I <strong>regression</strong>sopsætningen klikkesSave Data2. afkrydsCreate and save diagnostics data3. overyt (klik Add) de størrelser, der skalgemmes(typisk Predicted, Residual, Student,Rstudent, Cookd, Press)4. Kør analysen5. Dobbeltklik på Diagnostics Table iprojekttræet6. Gem det ved at klikkeFile/Save as By SAS Name46


Modelkontrol og Diagnostics vedprogrammeringVed programmering kan Cook's distance tegnesumiddelbart ved hjælp af PLOT eller gemmes pådatasæt ved hjælp af OUTPUTPROC REG DATA=secher;MODEL lvaegt=lbpd lad;VAR bpd;PLOT COOKD*bpd;OUTPUT OUT=med_resid P=predictR=resid STUDENT=stdizedPRESS=without_currRSTUDENT=stdized_without_currCOOKD=Cooks_D;RUN;47


Mange forklarende variableEksempel: O'Neill et. al. (1983):Lungefunktion hos 25 patientermed cystisk brose.48


Hvilke forklarende variable har enunivariat/marginal eekt på responset P E max ?Er det så disse variable, der skal med imodellen?49


Korrelationer:Correlation AnalysisPearson Correlation Coefficients / Prob>|R| under Ho:Rho=0 / N=25AGE SEX HEIGHT WEIGHT BMPAGE 1.00000 -0.16712 0.92605 0.90587 0.377760.0 0.4246 0.0001 0.0001 0.0626SEX -0.16712 1.00000 -0.16755 -0.19044 -0.137560.4246 0.0 0.4234 0.3619 0.5120HEIGHT 0.92605 -0.16755 1.00000 0.92070 0.440760.0001 0.4234 0.0 0.0001 0.0274WEIGHT 0.90587 -0.19044 0.92070 1.00000 0.672550.0001 0.3619 0.0001 0.0 0.0002BMP 0.37776 -0.13756 0.44076 0.67255 1.000000.0626 0.5120 0.0274 0.0002 0.0FEV1 0.29449 -0.52826 0.31666 0.44884 0.545520.1530 0.0066 0.1230 0.0244 0.0048RV -0.55194 0.27135 -0.56952 -0.62151 -0.582370.0042 0.1895 0.0030 0.0009 0.0023FRC -0.63936 0.18361 -0.62428 -0.61726 -0.434390.0006 0.3797 0.0009 0.0010 0.0300TLC -0.46937 0.02423 -0.45708 -0.41847 -0.364900.0179 0.9085 0.0216 0.0374 0.0729PEMAX 0.61347 -0.28857 0.59922 0.63522 0.229510.0011 0.1618 0.0015 0.0006 0.269850


Correlation AnalysisPearson Correlation Coefficients / Prob>|R| under Ho:Rho=0 / N=25FEV1 RV FRC TLC PEMAXAGE 0.29449 -0.55194 -0.63936 -0.46937 0.613470.1530 0.0042 0.0006 0.0179 0.0011SEX -0.52826 0.27135 0.18361 0.02423 -0.288570.0066 0.1895 0.3797 0.9085 0.1618HEIGHT 0.31666 -0.56952 -0.62428 -0.45708 0.599220.1230 0.0030 0.0009 0.0216 0.0015WEIGHT 0.44884 -0.62151 -0.61726 -0.41847 0.635220.0244 0.0009 0.0010 0.0374 0.0006BMP 0.54552 -0.58237 -0.43439 -0.36490 0.229510.0048 0.0023 0.0300 0.0729 0.2698FEV1 1.00000 -0.66586 -0.66511 -0.44299 0.453380.0 0.0003 0.0003 0.0266 0.0228RV -0.66586 1.00000 0.91060 0.58914 -0.315550.0003 0.0 0.0001 0.0019 0.1244FRC -0.66511 0.91060 1.00000 0.70440 -0.417210.0003 0.0001 0.0 0.0001 0.0380TLC -0.44299 0.58914 0.70440 1.00000 -0.181620.0266 0.0019 0.0001 0.0 0.3849PEMAX 0.45338 -0.31555 -0.41721 -0.18162 1.000000.0228 0.1244 0.0380 0.3849 0.0Bemærk især korrelationerne mellem alder, højdeog vægt.51


ModelselektionAutomatisk (computergenereret):• ANALYST: Vælges under Model iRegression/Linear)• programmering:PROC REG DATA=pemax;MODEL pemax=age sex height weightbmp fev1 rv frc tlc /SELECTION=STEPWISE;RUN;ellerPROC REG DATA=pemax;MODEL pemax=age sex height weightbmp fev1 rv frc tlc /SELECTION=BACKWARD;RUN;Videnskabeligt: Gennemtænk præcis hvilketvidenskabeligt spørgsmål, man ønsker besvaret det præcise spørgsmål bestemmer, hvilkevariable, der skal inkluderes i modellen. Svært men den eneste måde at opnå egentligvidenskabelig indsigt!52


Automatisk modelselektion• Forlæns selektionMedtag hver gang den mest signikanteSlutmodel: WEIGHT BMP FEV1• Baglæns eliminationStart med alle, udelad hver gang denmindst signikanteSlutmodel: WEIGHT BMP FEV1Det ser jo meget stabilt ud!?Men:Hvis nu WEIGHT havde væretlogaritmetransformeret fra starten?Så havde vi fået slutmodellen AGE FEV1Tommelngerregel:Antallet af observationer skal være mindst 10gange så stort som antallet af undersøgteparametre i modellen!53


Når alle 9 kovariater medtages:Dependent: pemaxExplanatory:age sex height weight bmp fev1 rv frc tlcDependent Variable: PEMAXAnalysis of VarianceSum of MeanSource DF Squares Square F Value Prob>FModel 9 17101.39040 1900.15449 2.929 0.0320Error 15 9731.24960 648.74997C Total 24 26832.64000Root MSE 25.47057 R-square 0.6373Dep Mean 109.12000 Adj R-sq 0.4197C.V. 23.34180Parameter EstimatesParameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob > |T|INTERCEP 1 176.058206 225.89115895 0.779 0.4479AGE 1 -2.541960 4.80169881 -0.529 0.6043SEX 1 -3.736781 15.45982182 -0.242 0.8123HEIGHT 1 -0.446255 0.90335490 -0.494 0.6285WEIGHT 1 2.992816 2.00795743 1.490 0.1568BMP 1 -1.744944 1.15523751 -1.510 0.1517FEV1 1 1.080697 1.08094746 1.000 0.3333RV 1 0.196972 0.19621362 1.004 0.3314FRC 1 -0.308431 0.49238994 -0.626 0.5405TLC 1 0.188602 0.49973514 0.377 0.711254


Baglæns eliminationTabel over successive p-værdier[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]age 0.604 0.632 0.519 0.616 - - - - -sex 0.812 - - - - - - - -height 0.628 0.649 0.550 0.600 0.557 - - - -weight 0.157 0.143 0.072 0.072 0.040 0.000 0.000 0.000 0.001bmp 0.152 0.140 0.060 0.056 0.035 0.024 0.019 0.098 -fev1 0.333 0.108 0.103 0.036 0.024 0.014 0.043 - -rv 0.331 0.323 0.347 0.326 0.228 0.146 - - -frc 0.540 0.555 0.638 - - - - - -tlc 0.711 0.669 - - - - - - -(Altman stopper ved skridt nr. 7)55


Advarsel ved modelselektion• Massesignikans!• Undgå at inkludere mange variable, derudtrykker mere eller mindre det samme• Automatisk variabelselektion: Signikanserne overvurderes! Hvad kan vi sige om 'vinderne'?∗ Var de hele tiden signikante, eller blev de detlige pludselig?∗ I sidstnævnte tilfælde kunne de jo være blevetsmidt ud, mens de var insignikante...• Traditionel anbefaling(datagenereret/automatisk modelreduktion): Baglæns elimination Gennemregning af alle modeller Cross-validation: Foretag modelttet på en delaf data, afprøv bagefter på resten• Min anbefaling: Tænk selv (undgå uklareproblemstillinger), test noget meningsfuldt (og ladvære med at smide de andre variable ud, bare fordideres p-værdi (tilfældigvis?) er stor) så er detogså nemmere at få det publiceret57


Hvad sker der ved udeladelse af en forklarendevariabel?• Fittet bliver dårligere, dvs.residualkvadratsummen bliver større.• Antallet af frihedsgrader (forresidualkvadratsummen) stiger.• Estimatet s 2 for residualvariansen σ 2 kanbåde stige og faldes 2 =∑ ()2n − p − 1• %-delen af variation, som forklares afmodellen, R 2 , falder. Dette kompenseresder for i den justerededeterminationskoecient R 2 adjSom kriterium for, om modellen er god, kan vialtså bruge s 2 eller R 2 adj58


Marginale (univariate) modeller:• Model 1: pemax overfor height• Model 2: pemax overfor weight<strong>Multipel</strong> <strong>regression</strong>smodel:• Model 3: pemax overfor height og weightb 0 b 1 (height) b 2 (weight) s R 2 ¯R2-33.276 0.932(0.260) - 27.34 0.3591 0.3363.546 - 1.187(0.301) 26.38 0.4035 0.3847.355 0.147(0.655) 1.024(0.787) 26.94 0.4049 0.35• Hver af de to forklarende variable harbetydning, vurderet ud fra de marginalemodeller.• I den multiple <strong>regression</strong>smodel ser ingenaf dem ud til at have nogen betydning.• De to variable fanger et betydningsfuldtaspekt, men det er svært at sige hvilken,der er bedst vægten ser ud til at væreden med stærkest sammenhæng i dissedata, men pas på! Det betyder ikke atvægten er den sande årsag måskeopsummerer vægten bare aspekter fra ereaf de egentlige årsager.59


ANALYST: Options i Statistics/Regression/:• Model: Forward Backward• Statistics clb: kondensgrænser for estimater corrb: korrelation mellem estimater stb: standardiserede koecienter:eekt af ændring på 1 SD for kovariat• Statistics/Tests collin: kollinearitets diagnostics tol: tolerance factor= 1-R 2 for<strong>regression</strong> af en kovariat på de øvrige vif: variance ination factor = 1/tol,variansøgning p.g.a. kollinearitetVed programmering er de options til MODEL,dvs. de skal stå efter / og inden ; i MODELspecikationen i kaldet af PROC REG;60


Når vi tilføjer clb, stb, vif og tol, får vi:Parameter EstimatesStandardizedVarianceVariable DF Estimate Tolerance InflationIntercept 1 0 . 0age 1 -0.38460 0.04581 21.82984sex 1 -0.05662 0.44064 2.26941height 1 -0.28694 0.07166 13.95493weight 1 1.60200 0.02093 47.78130bmp 1 -0.62651 0.14053 7.11575fev1 1 0.36190 0.18452 5.41951rv 1 0.50671 0.09489 10.53805frc 1 -0.40327 0.05833 17.14307tlc 1 0.09571 0.37594 2.65999Parameter EstimatesVariable DF 95% Confidence LimitsIntercept 1 -305.41740 657.53381age 1 -12.77654 7.69262sex 1 -36.68861 29.21505height 1 -2.37171 1.47920weight 1 -1.28704 7.27268bmp 1 -4.20727 0.71739fev1 1 -1.22329 3.38468rv 1 -0.22125 0.61519frc 1 -1.35794 0.74107tlc 1 -0.87656 1.2537661


Størrelser udregnet for hver observation kan medfordel gemmes i et nyt datasæt, så man kan se pådeskriptive størrelserThe MEANS ProcedureVariable Label Mean---------------------------------------------------------------resid Residual 2.50111E-14stresid Studentized Residual 0.0193870press Residual without Current Observation 1.2483399residud Studentized Residual without Current Obs 0.0073219leverage Leverage 0.4000000cook Cook's D Influence Statistic 0.0643761inflpred Standard Influence on Predicted Value 0.0477590---------------------------------------------------------------Variable Label Minimum---------------------------------------------------------------resid Residual -37.3376860stresid Studentized Residual -1.7680347press Residual without Current Observation -60.7098868residud Studentized Residual without Current Obs -1.9197970leverage Leverage 0.1925968cook Cook's D Influence Statistic 0.000558647inflpred Standard Influence on Predicted Value -1.7428452---------------------------------------------------------------Variable Label Maximum---------------------------------------------------------------resid Residual 33.4051731stresid Studentized Residual 1.7053874press Residual without Current Observation 56.4819549residud Studentized Residual without Current Obs 1.8350344leverage Leverage 0.5806599cook Cook's D Influence Statistic 0.2582067inflpred Standard Influence on Predicted Value 1.5251936---------------------------------------------------------------62


Udvalgte diagnostics tegninger63


Kollinearitet:Kovariaterne er lineært relateredeDet vil de altid være til en vis grad, undtagen i designedeforsøg (f.eks. landbrugsforsøg)Symptomer på kollinearitet:• Visse af kovariaterne er stærkt korrelerede• Nogle parameterestimater har meget storestandard errors• Alle kovariater i den multiple<strong>regression</strong>sanalyse er insignikante, men R 2er alligevel stor• Der sker store forskydninger i estimaterne,når en kovariat udelades af modellen• Der sker store forskydninger i estimaterne,når en observation udelades af modellen• Resultaterne er anderledes end forventet• Check vif: Den må ikke være for stor!64


KollinearitetHvad er problemet ved kollinearitet?1. Fortolkningen af resultaterne: Hvad erårsagen til den observerede sammenhæng2. Nogle gange: Tekniske problemer medestimationenHvad gør man så, når der er kollinearitet?1. Find ud af, om det er grupper af variable,der hænger sammen• Drejer det sig om ét fælles aspekt, såman kan nøjes med den ene ogbegrunde, hvorfor man vælger netopden?2. Gennemtænk grundigt, hvad den enkeltevariabel står for afhængigt af hvilke af deandre mulige variable, der fastholdes3. Lav analyser med og uden justering forforskellige grupper af de andre variable, ogprøv at forstå forskellene i resultaterne4. Fortolk med stor forsigtighed65


KollinearitetVigtigt: I modstrid med anbefalingen fra visse(udygtige) epidemiologer, så må man ikke nøjesmed at præsentere univariate analyser for allevariablene! Problemet med fortolkningen forsvinderikke af, at man tillægger hver enkelt variabel alforklaringsevnen.Andre fejlagtige påstande:Påstand: Signikansen for den enkelte variabelbliver svagere, når de andre tages med.Sandhed: Oftest, men ikke altid. Nogle gange bliversignikanserne væsentligt stærkere.Påstand (ernæringsepidemiologer): Problemet løsesved residual-metoden, hvor eksempelvis hverenkelt næringsstof erstattes af residualerne fra en<strong>regression</strong> af næringsstoet på totalt energiindtag.Sandhed: Det betyder bare, at man på forhåndtillægger totalt energiindtag mest muligtforklaringsevne, så betydningen af totaltenergiindtag overvurderes. Resultaterne for deenkelte næringsstoer er essentielt de samme. Hvistotalt energiindtag er det væsentlige, så vil det visesig ved, at alle energikilder giver ca. sammeparameterestimat, når de inkluderes på en gangmålt i energienheder (f.eks. kJ)!66

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!