Variansanalyse (ANOVA)
Variansanalyse (ANOVA)
Variansanalyse (ANOVA)
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
u n i v e r s i t y o f c o p e n h a g e n<br />
3 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
2 / 46<br />
4 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Faculty of Health Sciences<br />
Indhold dag 2<br />
<strong>Variansanalyse</strong> (<strong>ANOVA</strong>)<br />
Ulla B Mogensen<br />
Biostatistisk Afd., SUND, KU.<br />
Mail: ulmo@sund.ku.dk<br />
◮ T-testet – fra dag 1<br />
◮ Ensidet variansanalyse.<br />
◮ Modelkontrol.<br />
◮ Tosidet variansanalyse.<br />
◮ Additiv model<br />
◮ Interaktions model<br />
◮ Modelkontrol.<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
T-test fra dag 1<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
T-test antagelser<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Kontinuert normalfordelte variable fra en eller to stikprøver.<br />
◮ One-sample t-test: En stikprøve hvor vi kan teste om<br />
middelværdien har en bestemt værdi.<br />
◮ Two-sample t-test: To stikprøver, hvor vi kan teste om<br />
middelværdien i de to stikprøver er ens.<br />
Hvis de to stikprøver er to samples for samme observationer (f.eks.<br />
test af hæmoglobin niveau før og efter epo indtagelse) taler vi om<br />
parret data og test.<br />
Fælles for one-sample og two-sample:<br />
◮ Observationerne indenfor en stikprøve skal være uafhængige.<br />
◮ Responsvariablen skal være normalfordelt.<br />
! Måske en log-transformation af variablen kan afhjælpe.<br />
! Wilcoxon test har ingen normalfordelingsantagelser.<br />
For two-sample t-test skal der yderligere gælde:<br />
◮ Variansen i de to stikprøver skal være ens.<br />
! Welch t-test kan benyttes.<br />
◮ For brug af parret t-test skal observationerne i de to stikprøver<br />
være parret.
u n i v e r s i t y o f c o p e n h a g e n<br />
5 / 46<br />
7 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
6 / 46<br />
8 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Kategoriske variable med 2 eller flere grupper<br />
Eksempel I<br />
I two-sample t-test sammenlignes to grupper fra en faktor variabel,<br />
f.eks. sammenligningen af fødselsvægt for børn af rygere versus<br />
ikke-rygere.<br />
Hvis faktoren (den kategoriske variabel) har mere end to grupper,<br />
f.eks. nuværende rygere, tidligere rygere, ikke-rygere, har vi tre<br />
eller flere sammenligninger. Her er parvise t-test ikke godt pga<br />
massesignifikans.<br />
Festing and Weigler i Handbook of Laboratory Animal Science . . .<br />
. . . betragter resultaterne af et ekseperiment med fuldstændig<br />
randomiseret design hvor mus var randomiseret til en af fire<br />
grupper med forskellig doser af et hormon.<br />
Livmodervægten blev målt efter et passende tidsinterval.<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
Eksempel 1<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
Eksempel 1<br />
d e p a r t m e n t o f b i o s t a t i s t i c s
u n i v e r s i t y o f c o p e n h a g e n<br />
9 / 46<br />
11 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
10 / 46<br />
12 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Eksempel 1<br />
Eksempel 1<br />
Konklusioner fra figurene<br />
◮ Livmodervægten afhænger af dosis.<br />
◮ Variationen af data øges når dosis øges.<br />
Spørgsmål: Hvorfor kunne disse første konklusioner være forkerte?<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Ensidet variansanalyse (one-way anova)<br />
Eksempel: Hæmoglobin niveau i seglcelleanæmi<br />
Ensidet (one-way): Der opdeles kun efter en faktor, men som kan<br />
have 2 eller flere grupper (levels).<br />
f.eks. dosis er faktor variabel med 5 grupper<br />
Den j’te observation i gruppe i beskrives ved<br />
Yij = µi + εij, ε ∼ N (0, σ 2 )<br />
hvor µi er gennemsnittet i den i’te gruppe og εij er den j’te<br />
observations individuelle afvigelse fra µi.<br />
Seglcelleanænemi er en gruppe af arvelig sygdomme som primært<br />
forekommer hos personer med negroide gener. Sygdommene er<br />
karakteriseret ved dominans af hæmoglobin S (Hb S) i de røde<br />
blodlegemer.<br />
Sammenligning af hæmoglobinniveau (g/dl) hos 41 patienter med<br />
3 typer af seglcelleanæmi.<br />
Gruppe Typer N Mean (µ) Sd<br />
I Hb SS 16 8.71 0.84<br />
II Hb S/β 10 10.63 1.28<br />
III Hb SC 15 12.3 0.94
u n i v e r s i t y o f c o p e n h a g e n<br />
13 / 46<br />
15 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
14 / 46<br />
16 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Hypotese<br />
H0 Nul hypotese Niveauet af hæmoglobin afhænger ikke<br />
af sygdomstypen<br />
H1 Alternativ<br />
hypotese<br />
Niveauet af hæmoglobin afhænger af<br />
sygdomstypen<br />
Det vil sige, vi tester<br />
mod<br />
H0 : µgruppe I = µgruppe II = µgruppe III<br />
H1 : µgruppe I ≠ µgruppe II eller µgruppe III ≠ µgruppe II<br />
eller<br />
µgruppe I ≠ µgruppe III<br />
Varians og kvadratsummer (sum-of-squares)<br />
Definitionen på varians for en stikprøve med n observationer,<br />
Y1, . . . , Yn med gennemsnit Ȳ er<br />
Var =<br />
=<br />
=<br />
1 ∑<br />
(Yi −<br />
n − 1 Ȳ )2<br />
i<br />
1<br />
n − 1 {(Y1 − Ȳ )2 + · · · + (Yn − Ȳn)2 }<br />
1<br />
{(Y1 −<br />
n − 1<br />
Ȳ )2 + · · · + (Yn − Ȳ )2 }<br />
} {{ }<br />
} {{ }<br />
sum of squares<br />
degrees of freedom<br />
hvor µ er middelværdi.<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
Dekomposition af variationen<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
<strong>Variansanalyse</strong><br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Afvigelsen fra det total gennemsnit (Yij − Ȳ ), kan dekomponeres i<br />
to termer:<br />
(Yij − Ȳ ) = (Yij − Ȳi) + (Ȳi − Ȳ )<br />
Dermed kan variationen, ∑ (Yij − Ȳ )2 , dekomponeres<br />
SStotal = ∑ (Yij − Ȳ )2<br />
= ...teori om lineær normale modeller...<br />
= ∑ ∑<br />
(Yij − Ȳi)2 + (Ȳi − Ȳ )2<br />
Sammenligning af variansen mellem grupper med variansen<br />
indenfor grupper.<br />
◮ Variansen indenfor gruppen er en biologisk varians.<br />
◮ Variansen mellem grupperne er en tilfældig varians.<br />
= SSwithin + SSbetween<br />
SSwithin kaldes også residual variationen.
u n i v e r s i t y o f c o p e n h a g e n<br />
17 / 46<br />
19 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
18 / 46<br />
20 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
F-test<br />
<strong>ANOVA</strong> tabel<br />
F-test sammenligner variansen mellem grupper i forhold til<br />
variansen indenfor grupperne.<br />
SSbetween/(k − 1)<br />
F = ∼ F(k − 1, n − k)<br />
SSwithin/(n − k)<br />
Hvis variationen mellem grupperne er stor relativ til indenfor<br />
grupperne bidrager grupperings faktoren til en systematisk del af<br />
variationen af responsvariablen.<br />
Variation<br />
Degrees Sum<br />
of freedom<br />
of<br />
squares<br />
Mean<br />
squares<br />
Mellem k − 1 SSb SSb/(k-1) MSb/MSw P(F(k-1,n-k)> F)<br />
grupper<br />
Indenfor n − k SSw SSw/(n-k)<br />
grupper<br />
Total n − 1 SStotal<br />
hvor MSb = 1<br />
k−1<br />
SSbetween og MSw = 1<br />
n−k SSwithin<br />
F<br />
P<br />
Et F-test for 2 grupper er ækvivalent med et two-sample t-test.<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
Eksempel 2: F-test<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
Eksempel 2: Parameter estimater<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Model for hæmoglobin niveaus afhængighed af gruppe<br />
> model ftest summary(ftest)<br />
Df Sum Sq Mean Sq F val Pr(>F)<br />
gruppe 2 99.89 49.94 50 model<br />
Call:<br />
lm(formula = haemoglobin ~ gruppe, data = haem.data)<br />
Coefficients:<br />
(Intercept) gruppeII gruppeIII<br />
8.713 1.917 3.587<br />
Middelværdi estimatet i gruppe I: 8.713.<br />
Middelværdi estimatet i gruppe II: 8.713 + 1917<br />
Middelværdi estimatet i gruppe III: 8.713 + 3.587
u n i v e r s i t y o f c o p e n h a g e n<br />
21 / 46<br />
23 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
22 / 46<br />
24 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Eksempel 2: Konfidensinterval<br />
Eksempel 2: Sammenligning af alle tre grupper<br />
Konfidensintervaller for parameter estimaterne fås ved<br />
> confint(model)<br />
2.5 % 97.5 %<br />
(Intercept) 8.206678 9.218322<br />
gruppeII 1.101886 2.733114<br />
gruppeIII 2.860335 4.314665<br />
Parvise sammenligninger justeret for multiple testning:<br />
> TukeyHSD(ftest)<br />
Tukey multiple comparisons of means<br />
95% family-wise confidence level<br />
Fit: aov(formula = model)<br />
$gruppe<br />
diff lwr upr p adj<br />
II-I 1.9175 0.9349148 2.900085 0.0000819<br />
III-I 3.5875 2.7114704 4.463530 0.0000000<br />
III-II 1.6700 0.6748973 2.665103 0.0006147<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Antagelser for ensidet variansanalyse<br />
Modelkontrol for ensidet variansanalyse<br />
For at anvende ensidet variansanalyse skal følgende kriterier være<br />
opfyldt:<br />
Tjek af varianshomogenitet:<br />
◮ Residual plot: Plot af residualer mod predikterede værdier.<br />
◮ De enkelte observationer skal være uafhængige.<br />
◮ Residualerne skal være normalfordelte.<br />
◮ Variansen i grupperne skal være ens (varianshomogenitet).<br />
Husk: Residualerne er variationen inden for grupperne.<br />
Tjek af normalitet for residualer:<br />
◮ Histogram af residualerne.<br />
? Er de normalfordelt. Hvis ikke, prøv evt transformation.<br />
◮ Probability plot af residualerne (QQ-plot)<br />
? Ligger de på den skrå linie.<br />
Hvis data ikke er normalfordelt og en transformation ikke kan<br />
afhjælpe: Brug Kruskal-Wallis test.
u n i v e r s i t y o f c o p e n h a g e n<br />
25 / 46<br />
27 / 46<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●●●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●●●<br />
●<br />
●●●<br />
●●●<br />
●<br />
●<br />
●●●<br />
●●●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
26 / 46<br />
28 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Test af varianshomogenitet: Residualer vs fittede værdier<br />
Varianshomogenitet i hæmoglobin model.<br />
> plot(model$residuals ~ model$fitted.values,<br />
xlab = "Predikteret vaerdi af haemoglobin",<br />
ylab = "Residual")<br />
Test for normal fordelte residualer: Histogram<br />
> hist(model$residuals,freq = FALSE,breaks=seq(-3,3,1),<br />
main = "",xlab = "Residual")<br />
> box()<br />
> curve(dnorm(x,mean = mean(model$residuals),<br />
sd = sd(model$residuals)),add = TRUE)<br />
Residual<br />
−2 −1 0 1<br />
9.0 9.5 10.0 10.5 11.0 11.5 12.0<br />
Density<br />
0.0 0.1 0.2 0.3 0.4<br />
Predikteret vaerdi af haemoglobin<br />
−3 −2 −1 0 1 2 3<br />
Residual<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Test af normal fordelte residualer: Quantile-Quantile plot<br />
> qqnorm(model$residuals,xlab = "Normal quantiles",<br />
ylab = "Residual",main = "")<br />
> abline(0, sqrt(var(model$residuals)), lty = "21")<br />
Residuals<br />
−2 −1 0 1<br />
−2 −1 0 1 2<br />
Kruskal-Wallis test<br />
Kruskal-Wallis test er en ikke-parametrisk ensidet variansanalyse<br />
baseret på rangsummer.<br />
Test af nulhypotesen: Grupperne har samme median.<br />
Mod alternativet: Mindst to af grupperne har ikke samme median.<br />
> kruskal.test(haemoglobin ~ gruppe, data=haem.data)<br />
Kruskal-Wallis rank sum test<br />
data: haemoglobin by gruppe<br />
Kruskal-Wallis chi-squared = 28.4982,<br />
df = 2,<br />
p-value = 0.0000006482<br />
Normal quantiles
u n i v e r s i t y o f c o p e n h a g e n<br />
29 / 46<br />
30 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
29 / 46<br />
31 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Tosidet variansanalyse (two-way anova)<br />
Tosidet variansanalyse (two-way anova)<br />
Tosidet variansanalyse anvendes når der er 2 faktorer der påvirker<br />
en respons.<br />
Hvis både aldersgruppe og køn påvirker en repons.<br />
Tosidet variansanalyse anvendes når der er 2 faktorer der påvirker<br />
en respons.<br />
Hvis både aldersgruppe og køn påvirker en repons.<br />
Der er overordnet to typer:<br />
◮ Ubalanceret design: Der er forskellig antal observationer i<br />
(mindst to af) grupperne.<br />
◮ Balanceret design: Alle grupper har samme antal<br />
observationer.<br />
Der er overordnet to typer:<br />
◮ Ubalanceret design: Der er forskellig antal observationer i<br />
(mindst to af) grupperne.<br />
◮ Balanceret design: Alle grupper har samme antal<br />
observationer.<br />
◮ med replikationer: Der er flere observationer i en faktor.<br />
◮ uden replikationer: Der kun er en observation i en faktor.<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Additiv model<br />
To faktorer påvirker responsvariablen additivt. Dette er en model<br />
med struktur...<br />
Den k’te observation som er i gruppe i i faktor 1 og i gruppe j i<br />
faktor 2 beskrives ved<br />
Yijk = µ + αi + βj + εijk, εijk ∼ N (0, σ 2 )<br />
Variationen kan igen dekomponeres - nu i 3 led:<br />
SStotal = SSfaktor 1 + SSfaktor 2 + SSresidual<br />
Eksempel III<br />
Længden af graviditet målt i dage blev estimeret ved 5 forskellige<br />
teknikker for 10 kvinder.<br />
> gest.data<br />
lmp ve doq us dao<br />
woman.1 275 273 288 273 244<br />
woman.2 292 283 284 285 329<br />
woman.3 281 274 298 270 252<br />
woman.4 284 275 271 272 258<br />
woman.5 285 294 307 278 275<br />
woman.6 283 279 301 276 279<br />
woman.7 290 265 298 291 295<br />
woman.8 294 277 295 290 271<br />
woman.9 300 304 293 279 271<br />
woman.10 284 297 352 292 284<br />
lmp:<br />
ve:<br />
doq:<br />
us:<br />
dao:<br />
Kvinderne udgør en faktor med 10 grupper/niveauer.<br />
Sidste<br />
menstruationsperiode<br />
Vaginal eksamination<br />
Dato for første<br />
livstegn (quickening).<br />
Ultralydsskanning<br />
Diamin oxidase blodprøve
u n i v e r s i t y o f c o p e n h a g e n<br />
32 / 46<br />
34 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
33 / 46<br />
35 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Hypotese og F-test<br />
Vi tester nu to hypoteser:<br />
1. H0: Der er ingen forskel på kvinderne<br />
2. H0: Der er ingen forskel på teknikkerne<br />
Vi udfører derfor to F-test:<br />
F1 =<br />
SSkvinder/(k − 1)<br />
∼ F(k − 1, n − k − m)<br />
SSresidual/(n − k − m)<br />
F2 =<br />
SSteknik/(m − 1)<br />
SSresidual/(n − k − m)<br />
∼ F(m − 1, n − k − m)<br />
Eksempel 3: F-test<br />
Tosidet variansanalyse for balanceret design uden replikationer<br />
(hver kvinde udgør en gruppe/niveau).<br />
> model ftest ftest<br />
Analysis of Variance Table<br />
Response: days<br />
Df Sum Sq Mean Sq F value Pr(>F)<br />
woman 9 4437.6 493.07 2.4312 0.02831 *<br />
tech 4 3031.4 757.85 3.7368 0.01211 *<br />
Residuals 36 7301.0 202.81<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Eksempel 3: Parameter estimater<br />
> summary(model)<br />
Coefficients:<br />
Estimate Std. Error t value Pr(>|t|)<br />
(Intercept) 261.600 7.536 34.715 < 2e-16 ***<br />
woman2 24.000 9.007 2.665 0.011461 *<br />
woman3 4.400 9.007 0.489 0.628144<br />
woman4 1.400 9.007 0.155 0.877344<br />
woman5 17.200 9.007 1.910 0.064169 .<br />
woman6 13.000 9.007 1.443 0.157566<br />
woman7 17.200 9.007 1.910 0.064169 .<br />
woman8 14.800 9.007 1.643 0.109048<br />
woman9 18.800 9.007 2.087 0.044000 *<br />
woman10 31.200 9.007 3.464 0.001392 **<br />
techdoq 22.900 6.369 3.596 0.000963 ***<br />
techlmp 11.000 6.369 1.727 0.092707 .<br />
techus 4.800 6.369 0.754 0.455943<br />
techve 6.300 6.369 0.989 0.329166<br />
Referencegruppe: Kvinde 1 målt med teknik "dao"<br />
– hvorfor nu "dao"?<br />
Struktur i additiv to faktor model<br />
For to faktorer, her f.eks kvinder W med parametrene α inddelt<br />
efter teknik T der har parametrene β, har vi følgende tabel:<br />
t1 t2 . . . t5<br />
w1 µ µ + β1 . . . µ + β4<br />
w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4<br />
w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4<br />
. . .<br />
. .. .<br />
w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4
u n i v e r s i t y o f c o p e n h a g e n<br />
35 / 46<br />
36 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
37 / 46<br />
●<br />
●<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Struktur i additiv to faktor model<br />
For to faktorer, her f.eks kvinder W med parametrene α inddelt<br />
efter teknik T der har parametrene β, har vi følgende tabel:<br />
t1 t2 . . . t5<br />
w1 µ µ + β1 . . . µ + β4<br />
w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4<br />
w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4<br />
. . .<br />
. .. .<br />
w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4<br />
Forskellen mellem søjle t1 og søjle t2: β1.<br />
Forskellen mellem søjle t1 og søjle t5: β4.<br />
Forskellen mellem søjle t2 og søjle t5: β1 − β4.<br />
Struktur i additiv to faktor model<br />
For to faktorer, her f.eks kvinder W med parametrene α inddelt<br />
efter teknik T der har parametrene β, har vi følgende tabel:<br />
t1 t2 . . . t5<br />
w1 µ µ + β1 . . . µ + β4<br />
w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4<br />
w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4<br />
. . .<br />
. .. .<br />
w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4<br />
Forskellen mellem søjle t1 og søjle t2: β1.<br />
Forskellen mellem søjle t1 og søjle t5: β4.<br />
Forskellen mellem søjle t2 og søjle t5: β1 − β4.<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
Balanceret design med replikationer<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Tilsvarende for rækkerne. F.eks:<br />
Forskellen mellem række w1 og række w2: α1.<br />
35 / 46<br />
Forskellen mellem række w3 og række w9: α2 − α8.<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
Interaktion<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
I et tosidet balanceret design med replikationer er der flere<br />
observationer per celle i krydstabellen mellem to faktorer.<br />
Ingen interaktion<br />
De to faktorer kan her have en interaktion hvor forskellen i<br />
respons mellem grupperne i en faktor ikke er den samme ved alle<br />
grupper i den anden faktor.<br />
– Interaktion kaldes også effekt modifikantion.<br />
Response<br />
0 1 2 3 4 5<br />
●<br />
Gruppe1−faktor1<br />
●<br />
Gruppe2−faktor1<br />
0 1 2 3 4<br />
Faktor 2
u n i v e r s i t y o f c o p e n h a g e n<br />
37 / 46<br />
39 / 46<br />
●<br />
●<br />
●<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
●<br />
●<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
38 / 46<br />
40 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Interaktion<br />
Eksempel 4<br />
12 rotter blev randomiseret på to måder: 6 rotter fik antibiotika og<br />
3 ud af 6 rotter i hver antibiotikagruppe fik vitaminer.<br />
Response: Vækst .<br />
Response<br />
0 1 2 3 4 5<br />
●<br />
Ingen interaktion<br />
0 1 2 3 4<br />
Faktor 2<br />
Gruppe1−faktor1<br />
●<br />
Gruppe2−faktor1<br />
Response<br />
0 1 2 3 4 5<br />
●<br />
Interaktion<br />
Gruppe1−faktor1<br />
Gruppe2−faktor1<br />
0 1 2 3 4<br />
Faktor 2<br />
> ratgrowth<br />
ratid antibiotics vitamins growth<br />
1 1 no no 1.30<br />
2 2 no no 1.19<br />
3 3 no no 1.08<br />
4 4 no yes 1.26<br />
5 5 no yes 1.21<br />
6 6 no yes 1.19<br />
7 7 yes no 1.05<br />
8 8 yes no 1.00<br />
9 9 yes no 1.05<br />
10 10 yes yes 1.52<br />
11 11 yes yes 1.56<br />
12 12 yes yes 1.55<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Interaktionsmodel<br />
Tosidet variansanalyse model med interaktion<br />
Yijl = µ + αi + βj + γij + εijl, εijl ∼ N (0, σ 2 )<br />
hvor γij er effekten af interaktionen (effekt modifikationen).<br />
Variationen kan igen dekomponeres :<br />
SStotal = SSfaktor 1 + SSfaktor 2 + SSinteraktion + SSresidual<br />
↑ ↑ ↑ ↑<br />
df=k-1 df=m-1 df=(k-1)(m-1) df=n-k-m-1<br />
Residual variationen er i eksemplet forskellen mellem rotterne inden<br />
for hver gruppe af antibiotika og vitamin.<br />
Eksempel 4: Fit af interaktionsmodel<br />
Interaktionsmodellen kan fittes på to ækvivalente måder<br />
> model1 model ftest ftest<br />
Analysis of Variance Table<br />
Response: growth<br />
Df Sum Sq Mean Sq F value Pr(>F)<br />
antibiotics 1 0.020833 0.020833 5.6818 0.044292 *<br />
vitamins 1 0.218700 0.218700 59.6455 0.00005622 ***<br />
antibiotics:vitamins 1 0.172800 0.172800 47.1273 0.000129 ***<br />
Residuals 8 0.029333 0.003667
u n i v e r s i t y o f c o p e n h a g e n<br />
41 / 46<br />
42 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
41 / 46<br />
43 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Eksempel 4: Parameter estimater<br />
Eksempel 4: Parameter estimater<br />
> summary(model)<br />
> summary(model)<br />
Coefficients:<br />
Estimate Std. Error t value Pr(>|t|)<br />
(Intercept) 1.19000 0.03496 34.039 0.000000000606 ***<br />
antibioticsyes -0.15667 0.04944 -3.169 0.013220 *<br />
vitaminsyes 0.03000 0.04944 0.607 0.560818<br />
antibioticsyes:vitaminsyes 0.48000 0.06992 6.865 0.000129 ***<br />
Coefficients:<br />
Estimate Std. Error t value Pr(>|t|)<br />
(Intercept) 1.19000 0.03496 34.039 0.000000000606 ***<br />
antibioticsyes -0.15667 0.04944 -3.169 0.013220 *<br />
vitaminsyes 0.03000 0.04944 0.607 0.560818<br />
antibioticsyes:vitaminsyes 0.48000 0.06992 6.865 0.000129 ***<br />
Referencegruppen: Rotter uden antibiotika og uden vitaminer.<br />
Rotte antibiotics=no, vitamin=no: 1.19<br />
Referencegruppen: Rotter uden antibiotika og uden vitaminer.<br />
Rotte antibiotics=no, vitamin=no: 1.19<br />
Rotte antibiotics=yes, vitamin=no: 1.19 + (-0.15667)<br />
Rotte antibiotics=no, vitamin=yes: 1.19 + 0.03<br />
Rotte antibiotics=yes, vitamin=yes: 1.19 + (-0.15667) + 0.03 +<br />
0.48<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Parameter estimater i interaktionsmodel<br />
Modelkontrol for tosidet variansanalyse<br />
I en interaktionsmodel er der ikke en struktur som i den additive<br />
model uden interaktion.<br />
vitamin no vitamin yes<br />
antib. no µ µ + β1<br />
antib. yes µ + α1 µ + α1 + β1 + γ<br />
Hvis interaktionsparameteren γ ikke er signifikant kan vi modficere<br />
modellen ved at sætte γ = 0.<br />
Yijl = µ + αi + βj + γij +εijl, εijl ∼ N (0, σ 2 )<br />
}{{}<br />
=0<br />
Tilbage er en additiv model.<br />
Tjek af varianshomogenitet:<br />
◮ Residual plot: Plot af predikterede værdier mod residualerne.<br />
◮ Residual plot: Plot af residualerne mod grupperne.<br />
? Fordeler punkter sig ens om linien. Hvis ikke, prøv evt<br />
transformation.<br />
Tjek af normalitet for residualer:<br />
◮ Histogram af residualerne.<br />
? Er de normalfordelt. Hvis ikke, prøv evt transformation.<br />
◮ Probability plot af residualerne (QQ-plot)<br />
? Ligger de på den skrå linie.
u n i v e r s i t y o f c o p e n h a g e n<br />
44 / 46<br />
46 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
45 / 46<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Eksempel 4: Modelkontrol<br />
Modelkontrol kan fås ved at plotte model-objektet i R.<br />
> par(mfrow=c(2,1))<br />
> plot(model,which=1:2)<br />
Residuals<br />
−0.10 0.00 0.10<br />
●<br />
●<br />
Residuals vs Fitted<br />
●1<br />
●<br />
4●<br />
●3<br />
●<br />
●<br />
1.1 1.2 1.3 1.4 1.5<br />
Fitted values<br />
●<br />
●<br />
Standardized residuals<br />
−2 0 1 2<br />
●3<br />
●<br />
●<br />
Normal Q−Q<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
4●<br />
−1.5 −0.5 0.5 1.5<br />
Theoretical Quantiles<br />
1●<br />
Anova metoder – oversigt<br />
◮ Uafhængige observationer<br />
◮ t-test for to grupper (dag 1)<br />
◮ Ensidet variansanalyse for flere grupper (en faktor)<br />
◮ Tosidet variansanalyse for to grupperings variable (to faktorer)<br />
◮ Afhængige observationer<br />
◮ Gentagne målinger (repeated measurements)<br />
◮ Mixed effekt modeller<br />
◮ Ikke-normalfordelte data<br />
◮ Ikke-parametrisk anova (Kruskal-Wallis test)<br />
◮ Mix af kategoriske og kontinuerte faktorer<br />
◮ Varianskomponentmodeller (ancova)<br />
◮ Model sammenligning og model selektion<br />
u n i v e r s i t y o f c o p e n h a g e n<br />
d e p a r t m e n t o f b i o s t a t i s t i c s<br />
Et par afsluttende bemærkninger om anova<br />
◮ Variationen af data kan dekomponeres i en systematisk og en<br />
tilfældig del.<br />
◮ For en faktor med 2 grupper er et F-test ækvivalent med et<br />
two-sample t-test.<br />
◮ For en faktor med 3 eller flere grupper fejler t-test og wilcoxon<br />
test grundet masse-significans. Anova bliver derfor aktuelt.<br />
◮ Anova viser sig at være et special tilfælde af lineær regression!<br />
– men mere om det dag 3 og 4.