Cours - UPMC
Cours - UPMC
Cours - UPMC
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
5.<br />
LIEN ENTRE<br />
VARIABLES :<br />
RÉGRESSION SIMPLE
Régression linéaire simple<br />
• Modèle ≠ corrélation<br />
• Fonction de la forme Y = aX + b, premier ordre<br />
• Pertinent que si r significatif et plutôt élevé<br />
• Variable dépendante Y (= réponse) : dont on cherche à<br />
comprendre la variation<br />
• Variable indépendante (= explicative) X : par rapport à<br />
laquelle on cherche à expliquer les variations de Y<br />
• Plusieurs variables X : régression multiple
Types de régression<br />
• X contrôlé, Y aléatoire : modèle I<br />
• X et Y aléatoires : modèle II<br />
• Droites passent par X et Y moyens
• Démarche expérimentale/démarche corrélative<br />
Exemple : dans quelle mesure la température influence-t-<br />
elle la croissance d’une espèce ?<br />
• Démarche expérimentale : individus placés à des<br />
températures différentes, mesure de la croissance<br />
et des processus biologiques liés : test de liens de<br />
causalité, élaboration de modèles prédictifs...
Utilisations de la régression<br />
• Description : modèle fonctionnel<br />
• Trouver le meilleur modèle<br />
• Génération d’hypothèses<br />
• Inférence : test d’une hypothèse<br />
• Tests des paramètres<br />
• Lien entre variables<br />
• Prévision et prédiction<br />
• Valeurs de Y pour de nouvelles valeurs de X<br />
• Interpolation (prévision) ≠ extrapolation (prédiction)
Régression de modèle I<br />
• Variation sur Y >> X<br />
• Typiquement utilisée dans un contexte expérimental :<br />
X contrôlé<br />
• Méthode des moindres carrés ordinaires MCO<br />
(ordinary least-squares : OLS)<br />
• Parfois utilisable quand X et Y sont aléatoires si on ne<br />
cherche pas une estimation parfaite des paramètres, ni<br />
leur significativité<br />
• Parfois (souvent) le seul type de régression des<br />
logiciels
• Principe des moindres carrés<br />
Y<br />
^<br />
Y i<br />
Y i<br />
résidus<br />
On veut minimiser la somme des (Yi-Yi) 2 ^<br />
X<br />
^<br />
intercept<br />
Y = aX+b<br />
pente
• Après développement mathématique (minimisation<br />
de la somme des carrés des résidus), on trouve<br />
a = S xy /S x 2 = rxy (S y /S x )<br />
b = Ȳ - aX̄<br />
car la droite passe par le centre de gravité du nuage<br />
de point (coordonnées = moyennes)
• Coefficient de détermination : r 2<br />
• C’est le carré du coefficient de corrélation r<br />
• r 2 = variance expliquée par le modèle de régression :<br />
Y<br />
Y<br />
^<br />
Y i<br />
Y i<br />
X<br />
^<br />
Y = aX+b
• Test de signification : on peut tester r ou a (idem)<br />
• La pente a<br />
= variance expliquée par la régression = SCER<br />
• H 0<br />
• H 1<br />
: a = 0<br />
: a ≠ 0<br />
• Test F (analyse de variance), avec<br />
F = S yR 2 /Se 2 avec 1 et (n - 2) ddl<br />
variance due aux erreurs = SCEE/(n - 2)
Source ddl<br />
Tableau d’ANOVA<br />
• Exemple pour une régression Age-Taille sur 54 individus<br />
Variable réponse = Age<br />
Somme des<br />
carrés<br />
Carré<br />
moyen<br />
F Probabilité<br />
Taille 1 31135,9 31135,9 55,581 0,0000<br />
Résidus 52 29129,6 560,2
• Conditions d’application du test<br />
• Distribution normale des variables explicatives<br />
• Homogénéité des variances<br />
• Indépendance des résidus
• Tester le r 2 est équivalent à tester le coefficient<br />
de corrélation r<br />
• On emploie la statistique t vue précédemment<br />
(ci-dessous, suit une loi de Student), ou la Table<br />
donnant le rcritique<br />
t = √F = (r√(n - 2))/(√(1 - r 2 ))<br />
• Test unilatéral ou bilatéral à (n - 2) ddl<br />
• Test réalisable par permutations
Intervalles de confiance<br />
• Pente : relation (0 ?), hypothèse (≠ 0)<br />
• Ordonnée à l’origine (0 ?)<br />
• Estimation : intervalle d’un Y i pour un X i<br />
• Prédiction d’une estimation : pour une nouvelle<br />
observation d’un Y i , intervalle plus large<br />
• Estimation de la moyenne : pour une nouvelle série de<br />
valeurs de Y pour une seule valeur de X, intervalle<br />
plus étroit
Calculs<br />
• Intervalle de confiance de la pente<br />
• La vraie pente (α) se situe entre<br />
a ± tbil.√(S a 2 ); où √(Sa 2 ) est l’erreur type de a<br />
S a 2 = Se 2 /(n - 1)Sx 2 = SCEE/((n - 2)(n - 1)Sx 2 )<br />
(rappel : SCEE = Σ(Σ(y i - ŷ i ) 2 )<br />
• t suit une loi de Student à (n - 2) ddl
• Intervalle de confiance de l’ordonnée à l’origine<br />
• Le vrai intercept (β) se situe entre<br />
b ± tbil.√(S b 2 ); où √(Sb 2 ) est l’erreur type de b<br />
S b 2 = (Se 2 ΣXi 2 )/(nΣ(Xi - X̄) 2 )<br />
• t suit une loi de Student à (n - 2) ddl
• Intervalle de confiance d’une estimation<br />
• Une estimation de y, ŷ, se situe entre<br />
ŷ ± tbil.√(S ŷ 2 ); où √(Sŷ 2 ) est l’écart type de ŷ<br />
S ŷ 2 = Se 2 (1/n + (Xi - X̄) 2 /Σ(X i - X̄) 2 )<br />
• t suit une loi de Student à (n - 2) ddl
• On utilise également la régression de modèle I<br />
• Quand on a une raison claire de postuler quelle<br />
variable influence l’autre<br />
• Quand on veut simplement faire de la prévision<br />
• Quand seulement le r 2 est important
Régression de modèle II<br />
• X et Y aléatoires, erreurs de même ordre<br />
• En modèle I : la régression de Y sur X ≠ X sur Y<br />
• Cas typique des relations dans la nature<br />
• Relation poids-longueur, entre abondances, ...<br />
• Plusieurs méthodes<br />
• Axe majeur AM<br />
• Axe majeur réduit AMR<br />
• Axe majeur sur données cadrées AMDC
• Axe majeur<br />
Y<br />
^<br />
Y i<br />
Y i<br />
^<br />
X i X i<br />
résidus<br />
X<br />
intercept<br />
Y = aX+b<br />
pente
• Axe majeur : plus grande variabilité du nuage de<br />
points = première composante principale<br />
• Plus complexe à calculer<br />
• Sensible aux échelles des variables (contrairement au<br />
modèle I basé sur la corrélation)<br />
• On transforme souvent les variables en ln<br />
• Axe majeur réduit : sur données centrées-réduites<br />
• Nécessite une forte corrélation (r significatif)<br />
entre les variables et un grand nombre<br />
d’observations<br />
• Pente non testable
• Si les données ne sont pas exprimées dans les mêmes<br />
unités<br />
• Axe majeur sur données cadrées<br />
• Cadrage<br />
Xi’ = (Xi - Xmin)/(Xmax - Xmin)<br />
Yi’ = (Yi - Ymin)/(Ymax - Ymin)<br />
• Avec un minimum à 0, la transformation devient<br />
Xi’ = Xi/Xmax<br />
Yi’ = Yi/Ymax
• Les données varient ainsi entre 0 et 1<br />
• A éviter en cas de valeurs aberrantes
• Pente de l’axe majeur : a m<br />
a m = (d ± √(d 2 + 4))/2 ; (± suivant le signe de r)<br />
avec d = (a 2 - r 2 )/(ar 2 )<br />
où a = pente de la droite MCO<br />
et r = coefficient de corrélation<br />
• Ordonnée à l’origine<br />
b m = Ȳ - a m X̄<br />
• Intervalle de confiance laborieux à calculer
But ?<br />
AM<br />
Choisir le bon type de régression<br />
Estimation<br />
Prédiction<br />
Lien<br />
Comparer<br />
valeurs prédites<br />
et<br />
valeurs<br />
observées<br />
Oui<br />
Oui<br />
MCO<br />
Variation sur Y > 3 fois celle sur X ?<br />
test par<br />
Non<br />
permutations<br />
AMR<br />
Non<br />
Données normales ?<br />
(transformation)<br />
Oui<br />
X et Y de mêmes unités<br />
et variances semblables ?<br />
Oui<br />
Non<br />
r significatif ?<br />
Non<br />
AMDC (si pas de valeurs aberrantes)