Cours - UPMC

5. 

LIEN ENTRE 

VARIABLES : 

RÉGRESSION SIMPLE

Régression linéaire simple 

• Modèle ≠ corrélation 

• Fonction de la forme Y = aX + b, premier ordre 

• Pertinent que si r significatif et plutôt élevé 

• Variable dépendante Y (= réponse) : dont on cherche à 

comprendre la variation 

• Variable indépendante (= explicative) X : par rapport à 

laquelle on cherche à expliquer les variations de Y 

• Plusieurs variables X : régression multiple

Types de régression 

• X contrôlé, Y aléatoire : modèle I 

• X et Y aléatoires : modèle II 

• Droites passent par X et Y moyens

• Démarche expérimentale/démarche corrélative 

Exemple : dans quelle mesure la température influence-t- 

elle la croissance d’une espèce ? 

• Démarche expérimentale : individus placés à des 

températures différentes, mesure de la croissance 

et des processus biologiques liés : test de liens de 

causalité, élaboration de modèles prédictifs...

Utilisations de la régression 

• Description : modèle fonctionnel 

• Trouver le meilleur modèle 

• Génération d’hypothèses 

• Inférence : test d’une hypothèse 

• Tests des paramètres 

• Lien entre variables 

• Prévision et prédiction 

• Valeurs de Y pour de nouvelles valeurs de X 

• Interpolation (prévision) ≠ extrapolation (prédiction)

Régression de modèle I 

• Variation sur Y >> X 

• Typiquement utilisée dans un contexte expérimental : 

X contrôlé 

• Méthode des moindres carrés ordinaires MCO 

(ordinary least-squares : OLS) 

• Parfois utilisable quand X et Y sont aléatoires si on ne 

cherche pas une estimation parfaite des paramètres, ni 

leur significativité 

• Parfois (souvent) le seul type de régression des 

logiciels

• Principe des moindres carrés 

Y 

^ 

Y i 

Y i 

résidus 

On veut minimiser la somme des (Yi-Yi) 2 ^ 

X 

^ 

intercept 

Y = aX+b 

pente

• Après développement mathématique (minimisation 

de la somme des carrés des résidus), on trouve 

a = S xy /S x 2 = rxy (S y /S x ) 

b = Ȳ - aX̄ 

car la droite passe par le centre de gravité du nuage 

de point (coordonnées = moyennes)

• Coefficient de détermination : r 2 

• C’est le carré du coefficient de corrélation r 

• r 2 = variance expliquée par le modèle de régression : 

Y 

Y 

^ 

Y i 

Y i 

X 

^ 

Y = aX+b

• Test de signification : on peut tester r ou a (idem) 

• La pente a 

= variance expliquée par la régression = SCER 

• H 0 

• H 1 

: a = 0 

: a ≠ 0 

• Test F (analyse de variance), avec 

F = S yR 2 /Se 2 avec 1 et (n - 2) ddl 

variance due aux erreurs = SCEE/(n - 2)

Source ddl 

Tableau d’ANOVA 

• Exemple pour une régression Age-Taille sur 54 individus 

Variable réponse = Age 

Somme des 

carrés 

Carré 

moyen 

F Probabilité 

Taille 1 31135,9 31135,9 55,581 0,0000 

Résidus 52 29129,6 560,2

• Conditions d’application du test 

• Distribution normale des variables explicatives 

• Homogénéité des variances 

• Indépendance des résidus

• Tester le r 2 est équivalent à tester le coefficient 

de corrélation r 

• On emploie la statistique t vue précédemment 

(ci-dessous, suit une loi de Student), ou la Table 

donnant le rcritique 

t = √F = (r√(n - 2))/(√(1 - r 2 )) 

• Test unilatéral ou bilatéral à (n - 2) ddl 

• Test réalisable par permutations

Intervalles de confiance 

• Pente : relation (0 ?), hypothèse (≠ 0) 

• Ordonnée à l’origine (0 ?) 

• Estimation : intervalle d’un Y i pour un X i 

• Prédiction d’une estimation : pour une nouvelle 

observation d’un Y i , intervalle plus large 

• Estimation de la moyenne : pour une nouvelle série de 

valeurs de Y pour une seule valeur de X, intervalle 

plus étroit

Calculs 

• Intervalle de confiance de la pente 

• La vraie pente (α) se situe entre 

a ± tbil.√(S a 2 ); où √(Sa 2 ) est l’erreur type de a 

S a 2 = Se 2 /(n - 1)Sx 2 = SCEE/((n - 2)(n - 1)Sx 2 ) 

(rappel : SCEE = Σ(Σ(y i - ŷ i ) 2 ) 

• t suit une loi de Student à (n - 2) ddl

• Intervalle de confiance de l’ordonnée à l’origine 

• Le vrai intercept (β) se situe entre 

b ± tbil.√(S b 2 ); où √(Sb 2 ) est l’erreur type de b 

S b 2 = (Se 2 ΣXi 2 )/(nΣ(Xi - X̄) 2 ) 


• Intervalle de confiance d’une estimation 

• Une estimation de y, ŷ, se situe entre 

ŷ ± tbil.√(S ŷ 2 ); où √(Sŷ 2 ) est l’écart type de ŷ 

S ŷ 2 = Se 2 (1/n + (Xi - X̄) 2 /Σ(X i - X̄) 2 ) 


• On utilise également la régression de modèle I 

• Quand on a une raison claire de postuler quelle 

variable influence l’autre 

• Quand on veut simplement faire de la prévision 

• Quand seulement le r 2 est important

Régression de modèle II 

• X et Y aléatoires, erreurs de même ordre 

• En modèle I : la régression de Y sur X ≠ X sur Y 

• Cas typique des relations dans la nature 

• Relation poids-longueur, entre abondances, ... 

• Plusieurs méthodes 

• Axe majeur AM 

• Axe majeur réduit AMR 

• Axe majeur sur données cadrées AMDC

• Axe majeur 

Y 

^ 

Y i 

Y i 

^ 

X i X i 

résidus 

X 

intercept 

Y = aX+b 

pente

• Axe majeur : plus grande variabilité du nuage de 

points = première composante principale 

• Plus complexe à calculer 

• Sensible aux échelles des variables (contrairement au 

modèle I basé sur la corrélation) 

• On transforme souvent les variables en ln 

• Axe majeur réduit : sur données centrées-réduites 

• Nécessite une forte corrélation (r significatif) 

entre les variables et un grand nombre 

d’observations 

• Pente non testable

• Si les données ne sont pas exprimées dans les mêmes 

unités 

• Axe majeur sur données cadrées 

• Cadrage 

Xi’ = (Xi - Xmin)/(Xmax - Xmin) 

Yi’ = (Yi - Ymin)/(Ymax - Ymin) 

• Avec un minimum à 0, la transformation devient 

Xi’ = Xi/Xmax 

Yi’ = Yi/Ymax

• Les données varient ainsi entre 0 et 1 

• A éviter en cas de valeurs aberrantes

• Pente de l’axe majeur : a m 

a m = (d ± √(d 2 + 4))/2 ; (± suivant le signe de r) 

avec d = (a 2 - r 2 )/(ar 2 ) 

où a = pente de la droite MCO 

et r = coefficient de corrélation 

• Ordonnée à l’origine 

b m = Ȳ - a m X̄ 

• Intervalle de confiance laborieux à calculer

But ? 

AM 

Choisir le bon type de régression 

Estimation 

Prédiction 

Lien 

Comparer 

valeurs prédites 

et 

valeurs 

observées 

Oui 

Oui 

MCO 

Variation sur Y > 3 fois celle sur X ? 

test par 

Non 

permutations 

AMR 

Non 

Données normales ? 

(transformation) 

Oui 

X et Y de mêmes unités 

et variances semblables ? 

Oui 

Non 

r significatif ? 

Non 

AMDC (si pas de valeurs aberrantes)

Cours - UPMC

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?