13.07.2015 Views

L'analyse de variance à un critère de classification (ANOVA)

L'analyse de variance à un critère de classification (ANOVA)

L'analyse de variance à un critère de classification (ANOVA)

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

L’analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong> (Anova) 5⇒ Or, pour chaque groupe, la somme <strong>de</strong>s écarts à la moyenne <strong>de</strong> cegroupe est nulle, par définition <strong>de</strong> la moyenne. Par conséquent, le termecentral <strong>de</strong> l’équation ci-<strong>de</strong>ssus est nul, si bien quekn jSCT = ∑ ∑ ( x ij– x j) 2 + ∑ ∑ ( x j– x) 2j = 1ki = 1n jMesure <strong>de</strong> la dispersion (variation) intragroupe SCELa variation [somme <strong>de</strong>s (écarts par rapport à la moyenne) 2 ] à l’intérieur<strong>de</strong>s groupes ne nous intéresse pas explicitement dans cette analyse. Onconsidère qu’il s’agit <strong>de</strong> variation (“erreur”) expérimentale.Pour chaque groupe j, on calculej = 1i = 1SCT = ∑ ∑ ( x ij– x j) 2 + ∑ n j( x j– x) 2j = 1i = 1Faisant la somme <strong>de</strong> ces termes pour tous les groupes j, on obtientkn jCette équation est dérivée comme la formule raccourcie <strong>de</strong> calcul <strong>de</strong> la<strong>variance</strong>.Degrés <strong>de</strong> liberté: ν e = (n 1 – 1) + (n 2 – 1) + … + (n k – 1) = n – kkkj = 1SCEdonc la var. intragroupe CME = ---------- CME: notation Scherrer, eq. 14.19n – kn jSCE = ∑ ∑ ( x ij– x j) 2 =j = 1 i = 1n jSCE j= ∑ ( x ij– x j) 2∑ji = 1∑i2x ij⎛ 2T⎞⎜ j ⎟– ∑⎜-----⎝ n⎟j j ⎠


L’analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong> (Anova) 8Étapes <strong>de</strong> calcul:On calcule n = somme <strong>de</strong> tous les n j .2On calcule les différents T j.On calcule T = somme <strong>de</strong> tous les T j , <strong>de</strong> même que T 2 .On peut maintenant calculer SCA et SCE.Tableau d’analyse <strong>de</strong> <strong>variance</strong>:


L’analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong> (Anova) 9Remarquez dans ce tableau les formules raccourcies pour le calcul <strong>de</strong>SCT et SCA.4 - Deux estimations <strong>de</strong> σ 2 , sous H 0Le raisonnement présenté dans cette section permettra par la suite <strong>de</strong>construire <strong>un</strong> test <strong>de</strong> signification pour tester la différence entre lesmoyennes.Supposons que les k populations, d’où sont tirés les k groupesd’éléments, sont distribuées normalement et qu’elles ont toutes la même<strong>variance</strong> σ 2 2 22( σ 1= σ 2= … = σ k= σ 2 ).Si H 0 est vraie (H 0 : µ 1 = µ 2 = … = µ k ), alors la <strong>variance</strong> comm<strong>un</strong>e σ 2peut être estimée <strong>de</strong> <strong>de</strong>ux façons différentes.Première métho<strong>de</strong> d’estimation <strong>de</strong> σ 22Une hypothèse <strong>de</strong> base <strong>de</strong> l’<strong>ANOVA</strong> est que chac<strong>un</strong>e <strong>de</strong>s <strong>variance</strong>s σ2jestime la même <strong>variance</strong> comm<strong>un</strong>e σ x. Cela nous autorise à chercher<strong>un</strong>e estimation robuste <strong>de</strong> la <strong>variance</strong> générale en calculant la moyennepondérée <strong>de</strong>s <strong>variance</strong>s estimées pour les k groupes.⇒ C’est ici qu’est introduite l’hypothèse d’homogénéité <strong>de</strong>s <strong>variance</strong>sdans la construction du test, hypothèse qu’il faut d’abord vérifier (testsd’homogénéité <strong>de</strong>s <strong>variance</strong>s: Scherrer section 12.2; Bio 2042).Variance d’<strong>un</strong> groupe j, pondérée par le nombre <strong>de</strong> <strong>de</strong>grés <strong>de</strong> liberté <strong>de</strong>ce groupe:


L’analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong> (Anova) 10( n j– 1)n j∑ ( x ij– x j) 2n j------------------------------------ i = 1=( n j– 1)∑ ( x – x ) 2ij ji = 1Moyenne <strong>de</strong>s <strong>variance</strong>s pondérées <strong>de</strong>s k groupes:∑ ( x i1– x 1) 2 + … + ∑ ( x ik– x k) 2--------------------------------------------------------------------------------------( n 1– 1) + … + ( n k– 1)n jk∑ ∑ ( x ij– x j) 2--------------------------------------------------j = 1 i = 1( n – k)=SCE----------n – k= Var E = CMEDeuxième métho<strong>de</strong> d’estimation <strong>de</strong> σ 2Si H 0 est vraie, les moyennes x j<strong>de</strong>s groupes sont toutes <strong>de</strong>s estimations<strong>de</strong> la moyenne comm<strong>un</strong>e µ. La <strong>variance</strong> <strong>de</strong> ces différentes estimations <strong>de</strong>la moyenne µ peut s’écrire:s x2=∑ ( x j– x) 2----------------------------j( k – 1)La racine carrée <strong>de</strong> cette <strong>variance</strong> estime l’erreur type <strong>de</strong> la moyenne.


L’analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong> (Anova) 11On peut aussi estimer l’erreur type <strong>de</strong> la moyenne à partir <strong>de</strong> l’écart type<strong>de</strong>s données d’<strong>un</strong> seul groupe: s x= s x⁄ n Eq. 10.22jjqui peut s’écrire:s x2=2s x j⁄n jSi H 0 est vraie, on peut donc estimer la <strong>variance</strong> <strong>de</strong> la populationσ x2par:2s x j2= n js x=k∑ ( x j– x) 2nj = 1j-----------------------------------( k – 1)n j peut être incorporée à l’intérieur <strong>de</strong> la sommation et on obtientl’estimation suivante <strong>de</strong> la <strong>variance</strong> comm<strong>un</strong>e:s x22= n js x=SCA= ---------- = Var c = CMAk – 1Résultat: si H 0 est vraie et si les groupes d’observations sont tirés d’<strong>un</strong>emême population statistique, ou encore <strong>de</strong> populations ayant la mêmemoyenne µ et la même <strong>variance</strong> σ 2 , alors CME et CMA représentent<strong>de</strong>ux estimations indépendantes <strong>de</strong> σ 2 . Ces estimations <strong>de</strong>vraient être àpeu près égales.5 - Test <strong>de</strong> comparaisonk∑ n j( x j– x) 2---------------------------------------j = 1( k – 1)• Si H 0 est vraie (H 0 : µ 1 = µ 2 = … = µ k ), CME et CMA représentent <strong>de</strong>uxestimations <strong>de</strong> σ 2 . On s’attend donc à ce que leur rapport soit près <strong>de</strong> 1.


L’analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong> (Anova) 12• Dans tous les cas, CME <strong>de</strong>meure <strong>un</strong>e estimation <strong>de</strong> σ 2 puisqu’on estcensé avoir vérifié l’égalité <strong>de</strong>s <strong>variance</strong>s <strong>de</strong>s populations d’où ont ététirés les k groupes (condition d’homogénéité <strong>de</strong>s <strong>variance</strong>s ou2 22homoscédasticité: σ 1= σ 2= … = σ k).• Si H 1 est vraie, la <strong>variance</strong> intergroupe CMA n’est plus <strong>un</strong>e estimation<strong>de</strong> σ 2 . En effet, dans ce cas, la distribution <strong>de</strong>s moyennes x 1, x 2, …, x kne représente pas la distribution d’échantillonnage d’<strong>un</strong>e mêmemoyenne µ.⇒ Dans ce cas, la distribution <strong>de</strong>s moyennes x 1, x 2, …, x kest pluslarge et aplatie que la distribution d’échantillonnage <strong>de</strong> la moyennecomm<strong>un</strong>e µ. CMA est donc nécessairement plus gran<strong>de</strong> que CME.• CMA et CME sont <strong>de</strong>ux composantes indépendantes <strong>de</strong> la <strong>variance</strong>totale puisque SCT = SCE + SCA. Si H 0 est vraie, leur rapport (qui estprès <strong>de</strong> 1) constitue <strong>un</strong>e statistique-test distribuée comme <strong>un</strong>e loi <strong>de</strong> F(eqs 12.2 et 14.55):F cVar= ----------- c=Var ECMA------------CME(14.55)avec les <strong>de</strong>grés <strong>de</strong> liberté du numérateur et du dénominateurrespectivement: ν 1 = k – 1 et ν 2 = n – k. On place CMA au numérateurparce que c’est la plus gran<strong>de</strong> <strong>de</strong>s <strong>de</strong>ux valeurs si H 1 est vraie.• Il s’agit d’<strong>un</strong> test <strong>un</strong>ilatéral dans tous les cas, carsi H 0 est vraie, CMA ≈ CME et donc F c ≈ 1;


L’analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong> (Anova) 13si H 1 est vraie, CMA > CME et donc F c > 1.• Zones d’ “acceptation” et <strong>de</strong> rejet <strong>de</strong> H 0 : figure 9.7 p.301.• Règles <strong>de</strong> décision: tableau 14.4. On ne rejette pas H 0 si F c < F α où F αest la valeur critique au seuil α (par exemple, 5%).Langage R: fonctions aov et summary. Le critère <strong>de</strong> <strong>classification</strong> doit setrouver dans <strong>un</strong>e variable <strong>de</strong> type factor, créée par “as.factor”.⇒ Test <strong>de</strong> différence <strong>de</strong>s moyennes, 2 groupes: test F = test t bilatéral.Note (Sokal & Rohlf 1981, p. 201) — Si le critère <strong>de</strong> <strong>classification</strong>représente <strong>un</strong> facteur aléatoire et si H 0 est fausse, CMA estime <strong>un</strong>equantité ( σ 2 2+ nσ ) où σ 2 est la <strong>variance</strong> <strong>de</strong> x dans la population2 Astatistique et σ Aest la <strong>variance</strong> ajoutée par le facteur aléatoire.Si au contraire le critère <strong>de</strong> <strong>classification</strong> représente <strong>un</strong> facteur contrôléet si H 0 est fausse, la <strong>variance</strong> CMA estime <strong>un</strong>e quantité( σ 2 2( n ⁄ ( k – 1)) ∑α j) où représente l’effet quantitatif <strong>de</strong> chaquetraitement particulier donnant naissance à <strong>un</strong> groupe j.La distinction entre facteur aléatoire et contrôlé (cours #2) est importanteen analyse <strong>de</strong> <strong>variance</strong> à <strong>de</strong>ux critères <strong>de</strong> <strong>classification</strong> (Bio 2042).+ α jx6 - Conditions d’application <strong>de</strong> ce test- Variable dépendante quantitative (pour pouvoir calculer et s x ).- Indépendance <strong>de</strong>s observations (observations non autocorrélées).- Normalité <strong>de</strong> la population d’où est tiré chaque groupe.


L’analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong> (Anova) 13Exercice 13.4 – Scherrer p. 460Évolution <strong>de</strong> l’indice <strong>de</strong> condition du grand corégone au lac Nathalie.Données Mai Juin Juillet Août Sept. Octobrex j0,9994 1,0068 1,0068 1,0305 1,0312 1,1984n j 2 103 42 21 81 26 n = 275T j 1,9988 103,7004 42,2856 21,6405 83,5272 31,1584 T = 284,31092On sait <strong>de</strong> plus que ∑∑x ij= 313,1927j iOn cherche à calculer F c = Var c /Var E pour tester l’hypothèse H 0 d’égalité <strong>de</strong>s 6 moyennes.__________________________________________________________________________SCT = x 2 T 2∑∑= 313,1927 – (284,3109) 2 ij– -----/275 = 19,2557j in⎛ 2T⎞⎜ j ⎟ T 2SCI = ∑⎜----- = 294,7503 – 293,9371 = 0,8133⎝n⎟ – -----j j ⎠nVar c = 0,8133/(6–1) = 0,1627SCE = SCT – SCI = 18,4424⎛ou encore: SCE = x 2 T 2 ⎞⎜ j ⎟∑∑ij– ∑⎜----- = 313,1927 – 294,7503 = 18,4424⎝n⎟j i j j ⎠Var E = 18,4424/(275–6) = 0,0686F c = Var c /Var E = 0,1627/0,0686 = 2,3726__________________________________________________________________________Pour α = 0,05, ν 1 = 5 et ν 2 = 269, F 0,05 (5, 269) = 2,248.Puisque F c > F α (car 2,3726 > 2,248), on rejette H 0 au profit <strong>de</strong> H 1 .


L’analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong> (Anova) 147 - Différentes formes d’analyse <strong>de</strong> <strong>variance</strong>1. Analyse <strong>de</strong> <strong>variance</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong>(one way / single <strong>classification</strong> <strong>ANOVA</strong>)Nombres égaux ou inégauxd’éléments par colonne.Test non-paramétrique:Kruskal-Wallis.Critère <strong>de</strong> <strong>classification</strong>1 2 3 4 5• • • • •• • • • •• • • • •• • • • •• • • • •••••• ••2. Hiérarchique 3. À <strong>de</strong>ux critères croisés(nested / hierarchic <strong>ANOVA</strong>) (two-way <strong>ANOVA</strong>)Crit. 2Critère <strong>de</strong> <strong>classification</strong> 11 2 31.1 1.2 2.1 2.2 3.1 3.2• • • • • •• • • • • •• • • • • •• • • • • •• • • • • •Critère <strong>de</strong> <strong>classification</strong> 11 2 3 4• • • •• • • •• • • •• • • •• • • •••••••••••••••••• • • •Plus <strong>de</strong> 2 facteurs: analyse <strong>de</strong> <strong>variance</strong> à plusieurs critères <strong>de</strong><strong>classification</strong> (multiway <strong>ANOVA</strong>).Plus d’<strong>un</strong>e variable dépendante: Analyse <strong>de</strong> <strong>variance</strong> multivariable(multivariate analysis of <strong>variance</strong>; M<strong>ANOVA</strong>).Critère <strong>de</strong> <strong>classification</strong> 212


<strong>ANOVA</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong>. Exemple 1: H 0 est vraieCritère <strong>de</strong> <strong>classification</strong>Observations{Groupe 1 Groupe 2 Groupe 34,06,02,04,53,55,32,74,52,35,72,03,04,55,56,0Dispersion intragroupeGroupe 1 Groupe 2 Groupe 3Dispersion totaleDispers.intergr.65432x 53x 1x 2x 3Xx 3n 3x 2Xx 1n 2n 10T 1 = 20,0 T 2 = 20,5 T 3 = 21,0T = 61,5x 1 = 4,0 x 2 = 4,1 x 3 = 4,2X = 4,1(x ij – x j ) 2Σ(x i1 – x 1 ) 2 = 8,50 Σ(x i3 – x 3 ) 2 = 11,30 Σ(x ij – X) 2 = 29,26Σ(x i2 – x 2 ) 2 = 9,36SCTn 1 = 5 n 2 = 5 n 3 = 5 n = 15 Σn j (x j – X) 2 = 0,10SCASCE = 29,16SCT = SCE + SCASources <strong>de</strong>variationDispersionsDegrés <strong>de</strong>libertéVariancesTotaleIntergroupeIntragroupeSCT = 29,26SCA = 0,10SCE = 29,1615 – 1 = 143 – 1 = 215 – 3 = 1229,26/14 = 2,09CMA = 0,10/2 = 0,05CME = 29,16/12 = 2,43F c = CMA/CME = 0,0206 P = 0,9797F (0,05,2,12) = 3,89


<strong>ANOVA</strong> à <strong>un</strong> critère <strong>de</strong> <strong>classification</strong>. Exemple 2: H 0 est fausseCritère <strong>de</strong> <strong>classification</strong>Observations{Groupe 1 Groupe 2 Groupe 34,06,02,04,53,55,32,74,52,35,76,07,08,59,510,010Dispersion intragroupeGroupe 1 Groupe 2 Groupe 3Dispersion totaleDispers.intergr.98765432x 1x 2x 3Xx 3n 3Xn 2x 2x 1n 1X = 5,43n 1 = 5 n 2 = 5 n 3 = 5 n = 15 Σn j (x j – X) 2= 57,43T 1 = 20,0 T 2 = 20,5 T 3 = 41,0T = 61,5x 1 = 4,0 x 2 = 4,1 x 3 = 8,2SCA(x ij – x j ) 2Σ(x i1 – x 1 ) 2 = 8,50 Σ(x i3 – x 3 ) 2 = 11,30 Σ(x ij – X) 2 = 86,59Σ(x i2 – x 2 ) 2 = 9,36SCTSCE = 29,16SCT = SCE + SCASources <strong>de</strong>variationTotaleIntergroupeIntragroupeDispersionsSCT = 86,59SCA = 57,43SCE = 29,16Degrés <strong>de</strong>liberté15 – 1 = 143 – 1 = 215 – 3 = 12F c = CMA/CME = 11,82 P = 0,0015 F (0,05,2,12) = 3,89F (0,01,2,12) = 6,93Variances86,59/14 = 6,19CMA = 57,43/2 = 28,72CME = 29,16/12 = 2,43

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!