30.10.2014 Views

Variansanalyse (ANOVA)

Variansanalyse (ANOVA)

Variansanalyse (ANOVA)

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

u n i v e r s i t y o f c o p e n h a g e n<br />

3 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

2 / 46<br />

4 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Faculty of Health Sciences<br />

Indhold dag 2<br />

<strong>Variansanalyse</strong> (<strong>ANOVA</strong>)<br />

Ulla B Mogensen<br />

Biostatistisk Afd., SUND, KU.<br />

Mail: ulmo@sund.ku.dk<br />

◮ T-testet – fra dag 1<br />

◮ Ensidet variansanalyse.<br />

◮ Modelkontrol.<br />

◮ Tosidet variansanalyse.<br />

◮ Additiv model<br />

◮ Interaktions model<br />

◮ Modelkontrol.<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

T-test fra dag 1<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

T-test antagelser<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Kontinuert normalfordelte variable fra en eller to stikprøver.<br />

◮ One-sample t-test: En stikprøve hvor vi kan teste om<br />

middelværdien har en bestemt værdi.<br />

◮ Two-sample t-test: To stikprøver, hvor vi kan teste om<br />

middelværdien i de to stikprøver er ens.<br />

Hvis de to stikprøver er to samples for samme observationer (f.eks.<br />

test af hæmoglobin niveau før og efter epo indtagelse) taler vi om<br />

parret data og test.<br />

Fælles for one-sample og two-sample:<br />

◮ Observationerne indenfor en stikprøve skal være uafhængige.<br />

◮ Responsvariablen skal være normalfordelt.<br />

! Måske en log-transformation af variablen kan afhjælpe.<br />

! Wilcoxon test har ingen normalfordelingsantagelser.<br />

For two-sample t-test skal der yderligere gælde:<br />

◮ Variansen i de to stikprøver skal være ens.<br />

! Welch t-test kan benyttes.<br />

◮ For brug af parret t-test skal observationerne i de to stikprøver<br />

være parret.


u n i v e r s i t y o f c o p e n h a g e n<br />

5 / 46<br />

7 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

6 / 46<br />

8 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Kategoriske variable med 2 eller flere grupper<br />

Eksempel I<br />

I two-sample t-test sammenlignes to grupper fra en faktor variabel,<br />

f.eks. sammenligningen af fødselsvægt for børn af rygere versus<br />

ikke-rygere.<br />

Hvis faktoren (den kategoriske variabel) har mere end to grupper,<br />

f.eks. nuværende rygere, tidligere rygere, ikke-rygere, har vi tre<br />

eller flere sammenligninger. Her er parvise t-test ikke godt pga<br />

massesignifikans.<br />

Festing and Weigler i Handbook of Laboratory Animal Science . . .<br />

. . . betragter resultaterne af et ekseperiment med fuldstændig<br />

randomiseret design hvor mus var randomiseret til en af fire<br />

grupper med forskellig doser af et hormon.<br />

Livmodervægten blev målt efter et passende tidsinterval.<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

Eksempel 1<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

Eksempel 1<br />

d e p a r t m e n t o f b i o s t a t i s t i c s


u n i v e r s i t y o f c o p e n h a g e n<br />

9 / 46<br />

11 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

10 / 46<br />

12 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Eksempel 1<br />

Eksempel 1<br />

Konklusioner fra figurene<br />

◮ Livmodervægten afhænger af dosis.<br />

◮ Variationen af data øges når dosis øges.<br />

Spørgsmål: Hvorfor kunne disse første konklusioner være forkerte?<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Ensidet variansanalyse (one-way anova)<br />

Eksempel: Hæmoglobin niveau i seglcelleanæmi<br />

Ensidet (one-way): Der opdeles kun efter en faktor, men som kan<br />

have 2 eller flere grupper (levels).<br />

f.eks. dosis er faktor variabel med 5 grupper<br />

Den j’te observation i gruppe i beskrives ved<br />

Yij = µi + εij, ε ∼ N (0, σ 2 )<br />

hvor µi er gennemsnittet i den i’te gruppe og εij er den j’te<br />

observations individuelle afvigelse fra µi.<br />

Seglcelleanænemi er en gruppe af arvelig sygdomme som primært<br />

forekommer hos personer med negroide gener. Sygdommene er<br />

karakteriseret ved dominans af hæmoglobin S (Hb S) i de røde<br />

blodlegemer.<br />

Sammenligning af hæmoglobinniveau (g/dl) hos 41 patienter med<br />

3 typer af seglcelleanæmi.<br />

Gruppe Typer N Mean (µ) Sd<br />

I Hb SS 16 8.71 0.84<br />

II Hb S/β 10 10.63 1.28<br />

III Hb SC 15 12.3 0.94


u n i v e r s i t y o f c o p e n h a g e n<br />

13 / 46<br />

15 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

14 / 46<br />

16 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Hypotese<br />

H0 Nul hypotese Niveauet af hæmoglobin afhænger ikke<br />

af sygdomstypen<br />

H1 Alternativ<br />

hypotese<br />

Niveauet af hæmoglobin afhænger af<br />

sygdomstypen<br />

Det vil sige, vi tester<br />

mod<br />

H0 : µgruppe I = µgruppe II = µgruppe III<br />

H1 : µgruppe I ≠ µgruppe II eller µgruppe III ≠ µgruppe II<br />

eller<br />

µgruppe I ≠ µgruppe III<br />

Varians og kvadratsummer (sum-of-squares)<br />

Definitionen på varians for en stikprøve med n observationer,<br />

Y1, . . . , Yn med gennemsnit Ȳ er<br />

Var =<br />

=<br />

=<br />

1 ∑<br />

(Yi −<br />

n − 1 Ȳ )2<br />

i<br />

1<br />

n − 1 {(Y1 − Ȳ )2 + · · · + (Yn − Ȳn)2 }<br />

1<br />

{(Y1 −<br />

n − 1<br />

Ȳ )2 + · · · + (Yn − Ȳ )2 }<br />

} {{ }<br />

} {{ }<br />

sum of squares<br />

degrees of freedom<br />

hvor µ er middelværdi.<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

Dekomposition af variationen<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

<strong>Variansanalyse</strong><br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Afvigelsen fra det total gennemsnit (Yij − Ȳ ), kan dekomponeres i<br />

to termer:<br />

(Yij − Ȳ ) = (Yij − Ȳi) + (Ȳi − Ȳ )<br />

Dermed kan variationen, ∑ (Yij − Ȳ )2 , dekomponeres<br />

SStotal = ∑ (Yij − Ȳ )2<br />

= ...teori om lineær normale modeller...<br />

= ∑ ∑<br />

(Yij − Ȳi)2 + (Ȳi − Ȳ )2<br />

Sammenligning af variansen mellem grupper med variansen<br />

indenfor grupper.<br />

◮ Variansen indenfor gruppen er en biologisk varians.<br />

◮ Variansen mellem grupperne er en tilfældig varians.<br />

= SSwithin + SSbetween<br />

SSwithin kaldes også residual variationen.


u n i v e r s i t y o f c o p e n h a g e n<br />

17 / 46<br />

19 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

18 / 46<br />

20 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

F-test<br />

<strong>ANOVA</strong> tabel<br />

F-test sammenligner variansen mellem grupper i forhold til<br />

variansen indenfor grupperne.<br />

SSbetween/(k − 1)<br />

F = ∼ F(k − 1, n − k)<br />

SSwithin/(n − k)<br />

Hvis variationen mellem grupperne er stor relativ til indenfor<br />

grupperne bidrager grupperings faktoren til en systematisk del af<br />

variationen af responsvariablen.<br />

Variation<br />

Degrees Sum<br />

of freedom<br />

of<br />

squares<br />

Mean<br />

squares<br />

Mellem k − 1 SSb SSb/(k-1) MSb/MSw P(F(k-1,n-k)> F)<br />

grupper<br />

Indenfor n − k SSw SSw/(n-k)<br />

grupper<br />

Total n − 1 SStotal<br />

hvor MSb = 1<br />

k−1<br />

SSbetween og MSw = 1<br />

n−k SSwithin<br />

F<br />

P<br />

Et F-test for 2 grupper er ækvivalent med et two-sample t-test.<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

Eksempel 2: F-test<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

Eksempel 2: Parameter estimater<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Model for hæmoglobin niveaus afhængighed af gruppe<br />

> model ftest summary(ftest)<br />

Df Sum Sq Mean Sq F val Pr(>F)<br />

gruppe 2 99.89 49.94 50 model<br />

Call:<br />

lm(formula = haemoglobin ~ gruppe, data = haem.data)<br />

Coefficients:<br />

(Intercept) gruppeII gruppeIII<br />

8.713 1.917 3.587<br />

Middelværdi estimatet i gruppe I: 8.713.<br />

Middelværdi estimatet i gruppe II: 8.713 + 1917<br />

Middelværdi estimatet i gruppe III: 8.713 + 3.587


u n i v e r s i t y o f c o p e n h a g e n<br />

21 / 46<br />

23 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

22 / 46<br />

24 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Eksempel 2: Konfidensinterval<br />

Eksempel 2: Sammenligning af alle tre grupper<br />

Konfidensintervaller for parameter estimaterne fås ved<br />

> confint(model)<br />

2.5 % 97.5 %<br />

(Intercept) 8.206678 9.218322<br />

gruppeII 1.101886 2.733114<br />

gruppeIII 2.860335 4.314665<br />

Parvise sammenligninger justeret for multiple testning:<br />

> TukeyHSD(ftest)<br />

Tukey multiple comparisons of means<br />

95% family-wise confidence level<br />

Fit: aov(formula = model)<br />

$gruppe<br />

diff lwr upr p adj<br />

II-I 1.9175 0.9349148 2.900085 0.0000819<br />

III-I 3.5875 2.7114704 4.463530 0.0000000<br />

III-II 1.6700 0.6748973 2.665103 0.0006147<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Antagelser for ensidet variansanalyse<br />

Modelkontrol for ensidet variansanalyse<br />

For at anvende ensidet variansanalyse skal følgende kriterier være<br />

opfyldt:<br />

Tjek af varianshomogenitet:<br />

◮ Residual plot: Plot af residualer mod predikterede værdier.<br />

◮ De enkelte observationer skal være uafhængige.<br />

◮ Residualerne skal være normalfordelte.<br />

◮ Variansen i grupperne skal være ens (varianshomogenitet).<br />

Husk: Residualerne er variationen inden for grupperne.<br />

Tjek af normalitet for residualer:<br />

◮ Histogram af residualerne.<br />

? Er de normalfordelt. Hvis ikke, prøv evt transformation.<br />

◮ Probability plot af residualerne (QQ-plot)<br />

? Ligger de på den skrå linie.<br />

Hvis data ikke er normalfordelt og en transformation ikke kan<br />

afhjælpe: Brug Kruskal-Wallis test.


u n i v e r s i t y o f c o p e n h a g e n<br />

25 / 46<br />

27 / 46<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●●<br />

●<br />

●●●<br />

●●●<br />

●<br />

●<br />

●●●<br />

●●●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

26 / 46<br />

28 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Test af varianshomogenitet: Residualer vs fittede værdier<br />

Varianshomogenitet i hæmoglobin model.<br />

> plot(model$residuals ~ model$fitted.values,<br />

xlab = "Predikteret vaerdi af haemoglobin",<br />

ylab = "Residual")<br />

Test for normal fordelte residualer: Histogram<br />

> hist(model$residuals,freq = FALSE,breaks=seq(-3,3,1),<br />

main = "",xlab = "Residual")<br />

> box()<br />

> curve(dnorm(x,mean = mean(model$residuals),<br />

sd = sd(model$residuals)),add = TRUE)<br />

Residual<br />

−2 −1 0 1<br />

9.0 9.5 10.0 10.5 11.0 11.5 12.0<br />

Density<br />

0.0 0.1 0.2 0.3 0.4<br />

Predikteret vaerdi af haemoglobin<br />

−3 −2 −1 0 1 2 3<br />

Residual<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Test af normal fordelte residualer: Quantile-Quantile plot<br />

> qqnorm(model$residuals,xlab = "Normal quantiles",<br />

ylab = "Residual",main = "")<br />

> abline(0, sqrt(var(model$residuals)), lty = "21")<br />

Residuals<br />

−2 −1 0 1<br />

−2 −1 0 1 2<br />

Kruskal-Wallis test<br />

Kruskal-Wallis test er en ikke-parametrisk ensidet variansanalyse<br />

baseret på rangsummer.<br />

Test af nulhypotesen: Grupperne har samme median.<br />

Mod alternativet: Mindst to af grupperne har ikke samme median.<br />

> kruskal.test(haemoglobin ~ gruppe, data=haem.data)<br />

Kruskal-Wallis rank sum test<br />

data: haemoglobin by gruppe<br />

Kruskal-Wallis chi-squared = 28.4982,<br />

df = 2,<br />

p-value = 0.0000006482<br />

Normal quantiles


u n i v e r s i t y o f c o p e n h a g e n<br />

29 / 46<br />

30 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

29 / 46<br />

31 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Tosidet variansanalyse (two-way anova)<br />

Tosidet variansanalyse (two-way anova)<br />

Tosidet variansanalyse anvendes når der er 2 faktorer der påvirker<br />

en respons.<br />

Hvis både aldersgruppe og køn påvirker en repons.<br />

Tosidet variansanalyse anvendes når der er 2 faktorer der påvirker<br />

en respons.<br />

Hvis både aldersgruppe og køn påvirker en repons.<br />

Der er overordnet to typer:<br />

◮ Ubalanceret design: Der er forskellig antal observationer i<br />

(mindst to af) grupperne.<br />

◮ Balanceret design: Alle grupper har samme antal<br />

observationer.<br />

Der er overordnet to typer:<br />

◮ Ubalanceret design: Der er forskellig antal observationer i<br />

(mindst to af) grupperne.<br />

◮ Balanceret design: Alle grupper har samme antal<br />

observationer.<br />

◮ med replikationer: Der er flere observationer i en faktor.<br />

◮ uden replikationer: Der kun er en observation i en faktor.<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Additiv model<br />

To faktorer påvirker responsvariablen additivt. Dette er en model<br />

med struktur...<br />

Den k’te observation som er i gruppe i i faktor 1 og i gruppe j i<br />

faktor 2 beskrives ved<br />

Yijk = µ + αi + βj + εijk, εijk ∼ N (0, σ 2 )<br />

Variationen kan igen dekomponeres - nu i 3 led:<br />

SStotal = SSfaktor 1 + SSfaktor 2 + SSresidual<br />

Eksempel III<br />

Længden af graviditet målt i dage blev estimeret ved 5 forskellige<br />

teknikker for 10 kvinder.<br />

> gest.data<br />

lmp ve doq us dao<br />

woman.1 275 273 288 273 244<br />

woman.2 292 283 284 285 329<br />

woman.3 281 274 298 270 252<br />

woman.4 284 275 271 272 258<br />

woman.5 285 294 307 278 275<br />

woman.6 283 279 301 276 279<br />

woman.7 290 265 298 291 295<br />

woman.8 294 277 295 290 271<br />

woman.9 300 304 293 279 271<br />

woman.10 284 297 352 292 284<br />

lmp:<br />

ve:<br />

doq:<br />

us:<br />

dao:<br />

Kvinderne udgør en faktor med 10 grupper/niveauer.<br />

Sidste<br />

menstruationsperiode<br />

Vaginal eksamination<br />

Dato for første<br />

livstegn (quickening).<br />

Ultralydsskanning<br />

Diamin oxidase blodprøve


u n i v e r s i t y o f c o p e n h a g e n<br />

32 / 46<br />

34 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

33 / 46<br />

35 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Hypotese og F-test<br />

Vi tester nu to hypoteser:<br />

1. H0: Der er ingen forskel på kvinderne<br />

2. H0: Der er ingen forskel på teknikkerne<br />

Vi udfører derfor to F-test:<br />

F1 =<br />

SSkvinder/(k − 1)<br />

∼ F(k − 1, n − k − m)<br />

SSresidual/(n − k − m)<br />

F2 =<br />

SSteknik/(m − 1)<br />

SSresidual/(n − k − m)<br />

∼ F(m − 1, n − k − m)<br />

Eksempel 3: F-test<br />

Tosidet variansanalyse for balanceret design uden replikationer<br />

(hver kvinde udgør en gruppe/niveau).<br />

> model ftest ftest<br />

Analysis of Variance Table<br />

Response: days<br />

Df Sum Sq Mean Sq F value Pr(>F)<br />

woman 9 4437.6 493.07 2.4312 0.02831 *<br />

tech 4 3031.4 757.85 3.7368 0.01211 *<br />

Residuals 36 7301.0 202.81<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Eksempel 3: Parameter estimater<br />

> summary(model)<br />

Coefficients:<br />

Estimate Std. Error t value Pr(>|t|)<br />

(Intercept) 261.600 7.536 34.715 < 2e-16 ***<br />

woman2 24.000 9.007 2.665 0.011461 *<br />

woman3 4.400 9.007 0.489 0.628144<br />

woman4 1.400 9.007 0.155 0.877344<br />

woman5 17.200 9.007 1.910 0.064169 .<br />

woman6 13.000 9.007 1.443 0.157566<br />

woman7 17.200 9.007 1.910 0.064169 .<br />

woman8 14.800 9.007 1.643 0.109048<br />

woman9 18.800 9.007 2.087 0.044000 *<br />

woman10 31.200 9.007 3.464 0.001392 **<br />

techdoq 22.900 6.369 3.596 0.000963 ***<br />

techlmp 11.000 6.369 1.727 0.092707 .<br />

techus 4.800 6.369 0.754 0.455943<br />

techve 6.300 6.369 0.989 0.329166<br />

Referencegruppe: Kvinde 1 målt med teknik "dao"<br />

– hvorfor nu "dao"?<br />

Struktur i additiv to faktor model<br />

For to faktorer, her f.eks kvinder W med parametrene α inddelt<br />

efter teknik T der har parametrene β, har vi følgende tabel:<br />

t1 t2 . . . t5<br />

w1 µ µ + β1 . . . µ + β4<br />

w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4<br />

w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4<br />

. . .<br />

. .. .<br />

w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4


u n i v e r s i t y o f c o p e n h a g e n<br />

35 / 46<br />

36 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

37 / 46<br />

●<br />

●<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Struktur i additiv to faktor model<br />

For to faktorer, her f.eks kvinder W med parametrene α inddelt<br />

efter teknik T der har parametrene β, har vi følgende tabel:<br />

t1 t2 . . . t5<br />

w1 µ µ + β1 . . . µ + β4<br />

w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4<br />

w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4<br />

. . .<br />

. .. .<br />

w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4<br />

Forskellen mellem søjle t1 og søjle t2: β1.<br />

Forskellen mellem søjle t1 og søjle t5: β4.<br />

Forskellen mellem søjle t2 og søjle t5: β1 − β4.<br />

Struktur i additiv to faktor model<br />

For to faktorer, her f.eks kvinder W med parametrene α inddelt<br />

efter teknik T der har parametrene β, har vi følgende tabel:<br />

t1 t2 . . . t5<br />

w1 µ µ + β1 . . . µ + β4<br />

w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4<br />

w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4<br />

. . .<br />

. .. .<br />

w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4<br />

Forskellen mellem søjle t1 og søjle t2: β1.<br />

Forskellen mellem søjle t1 og søjle t5: β4.<br />

Forskellen mellem søjle t2 og søjle t5: β1 − β4.<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

Balanceret design med replikationer<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Tilsvarende for rækkerne. F.eks:<br />

Forskellen mellem række w1 og række w2: α1.<br />

35 / 46<br />

Forskellen mellem række w3 og række w9: α2 − α8.<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

Interaktion<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

I et tosidet balanceret design med replikationer er der flere<br />

observationer per celle i krydstabellen mellem to faktorer.<br />

Ingen interaktion<br />

De to faktorer kan her have en interaktion hvor forskellen i<br />

respons mellem grupperne i en faktor ikke er den samme ved alle<br />

grupper i den anden faktor.<br />

– Interaktion kaldes også effekt modifikantion.<br />

Response<br />

0 1 2 3 4 5<br />

●<br />

Gruppe1−faktor1<br />

●<br />

Gruppe2−faktor1<br />

0 1 2 3 4<br />

Faktor 2


u n i v e r s i t y o f c o p e n h a g e n<br />

37 / 46<br />

39 / 46<br />

●<br />

●<br />

●<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

●<br />

●<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

38 / 46<br />

40 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Interaktion<br />

Eksempel 4<br />

12 rotter blev randomiseret på to måder: 6 rotter fik antibiotika og<br />

3 ud af 6 rotter i hver antibiotikagruppe fik vitaminer.<br />

Response: Vækst .<br />

Response<br />

0 1 2 3 4 5<br />

●<br />

Ingen interaktion<br />

0 1 2 3 4<br />

Faktor 2<br />

Gruppe1−faktor1<br />

●<br />

Gruppe2−faktor1<br />

Response<br />

0 1 2 3 4 5<br />

●<br />

Interaktion<br />

Gruppe1−faktor1<br />

Gruppe2−faktor1<br />

0 1 2 3 4<br />

Faktor 2<br />

> ratgrowth<br />

ratid antibiotics vitamins growth<br />

1 1 no no 1.30<br />

2 2 no no 1.19<br />

3 3 no no 1.08<br />

4 4 no yes 1.26<br />

5 5 no yes 1.21<br />

6 6 no yes 1.19<br />

7 7 yes no 1.05<br />

8 8 yes no 1.00<br />

9 9 yes no 1.05<br />

10 10 yes yes 1.52<br />

11 11 yes yes 1.56<br />

12 12 yes yes 1.55<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Interaktionsmodel<br />

Tosidet variansanalyse model med interaktion<br />

Yijl = µ + αi + βj + γij + εijl, εijl ∼ N (0, σ 2 )<br />

hvor γij er effekten af interaktionen (effekt modifikationen).<br />

Variationen kan igen dekomponeres :<br />

SStotal = SSfaktor 1 + SSfaktor 2 + SSinteraktion + SSresidual<br />

↑ ↑ ↑ ↑<br />

df=k-1 df=m-1 df=(k-1)(m-1) df=n-k-m-1<br />

Residual variationen er i eksemplet forskellen mellem rotterne inden<br />

for hver gruppe af antibiotika og vitamin.<br />

Eksempel 4: Fit af interaktionsmodel<br />

Interaktionsmodellen kan fittes på to ækvivalente måder<br />

> model1 model ftest ftest<br />

Analysis of Variance Table<br />

Response: growth<br />

Df Sum Sq Mean Sq F value Pr(>F)<br />

antibiotics 1 0.020833 0.020833 5.6818 0.044292 *<br />

vitamins 1 0.218700 0.218700 59.6455 0.00005622 ***<br />

antibiotics:vitamins 1 0.172800 0.172800 47.1273 0.000129 ***<br />

Residuals 8 0.029333 0.003667


u n i v e r s i t y o f c o p e n h a g e n<br />

41 / 46<br />

42 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

41 / 46<br />

43 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Eksempel 4: Parameter estimater<br />

Eksempel 4: Parameter estimater<br />

> summary(model)<br />

> summary(model)<br />

Coefficients:<br />

Estimate Std. Error t value Pr(>|t|)<br />

(Intercept) 1.19000 0.03496 34.039 0.000000000606 ***<br />

antibioticsyes -0.15667 0.04944 -3.169 0.013220 *<br />

vitaminsyes 0.03000 0.04944 0.607 0.560818<br />

antibioticsyes:vitaminsyes 0.48000 0.06992 6.865 0.000129 ***<br />

Coefficients:<br />

Estimate Std. Error t value Pr(>|t|)<br />

(Intercept) 1.19000 0.03496 34.039 0.000000000606 ***<br />

antibioticsyes -0.15667 0.04944 -3.169 0.013220 *<br />

vitaminsyes 0.03000 0.04944 0.607 0.560818<br />

antibioticsyes:vitaminsyes 0.48000 0.06992 6.865 0.000129 ***<br />

Referencegruppen: Rotter uden antibiotika og uden vitaminer.<br />

Rotte antibiotics=no, vitamin=no: 1.19<br />

Referencegruppen: Rotter uden antibiotika og uden vitaminer.<br />

Rotte antibiotics=no, vitamin=no: 1.19<br />

Rotte antibiotics=yes, vitamin=no: 1.19 + (-0.15667)<br />

Rotte antibiotics=no, vitamin=yes: 1.19 + 0.03<br />

Rotte antibiotics=yes, vitamin=yes: 1.19 + (-0.15667) + 0.03 +<br />

0.48<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Parameter estimater i interaktionsmodel<br />

Modelkontrol for tosidet variansanalyse<br />

I en interaktionsmodel er der ikke en struktur som i den additive<br />

model uden interaktion.<br />

vitamin no vitamin yes<br />

antib. no µ µ + β1<br />

antib. yes µ + α1 µ + α1 + β1 + γ<br />

Hvis interaktionsparameteren γ ikke er signifikant kan vi modficere<br />

modellen ved at sætte γ = 0.<br />

Yijl = µ + αi + βj + γij +εijl, εijl ∼ N (0, σ 2 )<br />

}{{}<br />

=0<br />

Tilbage er en additiv model.<br />

Tjek af varianshomogenitet:<br />

◮ Residual plot: Plot af predikterede værdier mod residualerne.<br />

◮ Residual plot: Plot af residualerne mod grupperne.<br />

? Fordeler punkter sig ens om linien. Hvis ikke, prøv evt<br />

transformation.<br />

Tjek af normalitet for residualer:<br />

◮ Histogram af residualerne.<br />

? Er de normalfordelt. Hvis ikke, prøv evt transformation.<br />

◮ Probability plot af residualerne (QQ-plot)<br />

? Ligger de på den skrå linie.


u n i v e r s i t y o f c o p e n h a g e n<br />

44 / 46<br />

46 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

45 / 46<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Eksempel 4: Modelkontrol<br />

Modelkontrol kan fås ved at plotte model-objektet i R.<br />

> par(mfrow=c(2,1))<br />

> plot(model,which=1:2)<br />

Residuals<br />

−0.10 0.00 0.10<br />

●<br />

●<br />

Residuals vs Fitted<br />

●1<br />

●<br />

4●<br />

●3<br />

●<br />

●<br />

1.1 1.2 1.3 1.4 1.5<br />

Fitted values<br />

●<br />

●<br />

Standardized residuals<br />

−2 0 1 2<br />

●3<br />

●<br />

●<br />

Normal Q−Q<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

4●<br />

−1.5 −0.5 0.5 1.5<br />

Theoretical Quantiles<br />

1●<br />

Anova metoder – oversigt<br />

◮ Uafhængige observationer<br />

◮ t-test for to grupper (dag 1)<br />

◮ Ensidet variansanalyse for flere grupper (en faktor)<br />

◮ Tosidet variansanalyse for to grupperings variable (to faktorer)<br />

◮ Afhængige observationer<br />

◮ Gentagne målinger (repeated measurements)<br />

◮ Mixed effekt modeller<br />

◮ Ikke-normalfordelte data<br />

◮ Ikke-parametrisk anova (Kruskal-Wallis test)<br />

◮ Mix af kategoriske og kontinuerte faktorer<br />

◮ Varianskomponentmodeller (ancova)<br />

◮ Model sammenligning og model selektion<br />

u n i v e r s i t y o f c o p e n h a g e n<br />

d e p a r t m e n t o f b i o s t a t i s t i c s<br />

Et par afsluttende bemærkninger om anova<br />

◮ Variationen af data kan dekomponeres i en systematisk og en<br />

tilfældig del.<br />

◮ For en faktor med 2 grupper er et F-test ækvivalent med et<br />

two-sample t-test.<br />

◮ For en faktor med 3 eller flere grupper fejler t-test og wilcoxon<br />

test grundet masse-significans. Anova bliver derfor aktuelt.<br />

◮ Anova viser sig at være et special tilfælde af lineær regression!<br />

– men mere om det dag 3 og 4.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!