15.07.2013 Views

Cours - UPMC

Cours - UPMC

Cours - UPMC

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5.<br />

LIEN ENTRE<br />

VARIABLES :<br />

RÉGRESSION SIMPLE


Régression linéaire simple<br />

• Modèle ≠ corrélation<br />

• Fonction de la forme Y = aX + b, premier ordre<br />

• Pertinent que si r significatif et plutôt élevé<br />

• Variable dépendante Y (= réponse) : dont on cherche à<br />

comprendre la variation<br />

• Variable indépendante (= explicative) X : par rapport à<br />

laquelle on cherche à expliquer les variations de Y<br />

• Plusieurs variables X : régression multiple


Types de régression<br />

• X contrôlé, Y aléatoire : modèle I<br />

• X et Y aléatoires : modèle II<br />

• Droites passent par X et Y moyens


• Démarche expérimentale/démarche corrélative<br />

Exemple : dans quelle mesure la température influence-t-<br />

elle la croissance d’une espèce ?<br />

• Démarche expérimentale : individus placés à des<br />

températures différentes, mesure de la croissance<br />

et des processus biologiques liés : test de liens de<br />

causalité, élaboration de modèles prédictifs...


Utilisations de la régression<br />

• Description : modèle fonctionnel<br />

• Trouver le meilleur modèle<br />

• Génération d’hypothèses<br />

• Inférence : test d’une hypothèse<br />

• Tests des paramètres<br />

• Lien entre variables<br />

• Prévision et prédiction<br />

• Valeurs de Y pour de nouvelles valeurs de X<br />

• Interpolation (prévision) ≠ extrapolation (prédiction)


Régression de modèle I<br />

• Variation sur Y >> X<br />

• Typiquement utilisée dans un contexte expérimental :<br />

X contrôlé<br />

• Méthode des moindres carrés ordinaires MCO<br />

(ordinary least-squares : OLS)<br />

• Parfois utilisable quand X et Y sont aléatoires si on ne<br />

cherche pas une estimation parfaite des paramètres, ni<br />

leur significativité<br />

• Parfois (souvent) le seul type de régression des<br />

logiciels


• Principe des moindres carrés<br />

Y<br />

^<br />

Y i<br />

Y i<br />

résidus<br />

On veut minimiser la somme des (Yi-Yi) 2 ^<br />

X<br />

^<br />

intercept<br />

Y = aX+b<br />

pente


• Après développement mathématique (minimisation<br />

de la somme des carrés des résidus), on trouve<br />

a = S xy /S x 2 = rxy (S y /S x )<br />

b = Ȳ - aX̄<br />

car la droite passe par le centre de gravité du nuage<br />

de point (coordonnées = moyennes)


• Coefficient de détermination : r 2<br />

• C’est le carré du coefficient de corrélation r<br />

• r 2 = variance expliquée par le modèle de régression :<br />

Y<br />

Y<br />

^<br />

Y i<br />

Y i<br />

X<br />

^<br />

Y = aX+b


• Test de signification : on peut tester r ou a (idem)<br />

• La pente a<br />

= variance expliquée par la régression = SCER<br />

• H 0<br />

• H 1<br />

: a = 0<br />

: a ≠ 0<br />

• Test F (analyse de variance), avec<br />

F = S yR 2 /Se 2 avec 1 et (n - 2) ddl<br />

variance due aux erreurs = SCEE/(n - 2)


Source ddl<br />

Tableau d’ANOVA<br />

• Exemple pour une régression Age-Taille sur 54 individus<br />

Variable réponse = Age<br />

Somme des<br />

carrés<br />

Carré<br />

moyen<br />

F Probabilité<br />

Taille 1 31135,9 31135,9 55,581 0,0000<br />

Résidus 52 29129,6 560,2


• Conditions d’application du test<br />

• Distribution normale des variables explicatives<br />

• Homogénéité des variances<br />

• Indépendance des résidus


• Tester le r 2 est équivalent à tester le coefficient<br />

de corrélation r<br />

• On emploie la statistique t vue précédemment<br />

(ci-dessous, suit une loi de Student), ou la Table<br />

donnant le rcritique<br />

t = √F = (r√(n - 2))/(√(1 - r 2 ))<br />

• Test unilatéral ou bilatéral à (n - 2) ddl<br />

• Test réalisable par permutations


Intervalles de confiance<br />

• Pente : relation (0 ?), hypothèse (≠ 0)<br />

• Ordonnée à l’origine (0 ?)<br />

• Estimation : intervalle d’un Y i pour un X i<br />

• Prédiction d’une estimation : pour une nouvelle<br />

observation d’un Y i , intervalle plus large<br />

• Estimation de la moyenne : pour une nouvelle série de<br />

valeurs de Y pour une seule valeur de X, intervalle<br />

plus étroit


Calculs<br />

• Intervalle de confiance de la pente<br />

• La vraie pente (α) se situe entre<br />

a ± tbil.√(S a 2 ); où √(Sa 2 ) est l’erreur type de a<br />

S a 2 = Se 2 /(n - 1)Sx 2 = SCEE/((n - 2)(n - 1)Sx 2 )<br />

(rappel : SCEE = Σ(Σ(y i - ŷ i ) 2 )<br />

• t suit une loi de Student à (n - 2) ddl


• Intervalle de confiance de l’ordonnée à l’origine<br />

• Le vrai intercept (β) se situe entre<br />

b ± tbil.√(S b 2 ); où √(Sb 2 ) est l’erreur type de b<br />

S b 2 = (Se 2 ΣXi 2 )/(nΣ(Xi - X̄) 2 )<br />

• t suit une loi de Student à (n - 2) ddl


• Intervalle de confiance d’une estimation<br />

• Une estimation de y, ŷ, se situe entre<br />

ŷ ± tbil.√(S ŷ 2 ); où √(Sŷ 2 ) est l’écart type de ŷ<br />

S ŷ 2 = Se 2 (1/n + (Xi - X̄) 2 /Σ(X i - X̄) 2 )<br />

• t suit une loi de Student à (n - 2) ddl


• On utilise également la régression de modèle I<br />

• Quand on a une raison claire de postuler quelle<br />

variable influence l’autre<br />

• Quand on veut simplement faire de la prévision<br />

• Quand seulement le r 2 est important


Régression de modèle II<br />

• X et Y aléatoires, erreurs de même ordre<br />

• En modèle I : la régression de Y sur X ≠ X sur Y<br />

• Cas typique des relations dans la nature<br />

• Relation poids-longueur, entre abondances, ...<br />

• Plusieurs méthodes<br />

• Axe majeur AM<br />

• Axe majeur réduit AMR<br />

• Axe majeur sur données cadrées AMDC


• Axe majeur<br />

Y<br />

^<br />

Y i<br />

Y i<br />

^<br />

X i X i<br />

résidus<br />

X<br />

intercept<br />

Y = aX+b<br />

pente


• Axe majeur : plus grande variabilité du nuage de<br />

points = première composante principale<br />

• Plus complexe à calculer<br />

• Sensible aux échelles des variables (contrairement au<br />

modèle I basé sur la corrélation)<br />

• On transforme souvent les variables en ln<br />

• Axe majeur réduit : sur données centrées-réduites<br />

• Nécessite une forte corrélation (r significatif)<br />

entre les variables et un grand nombre<br />

d’observations<br />

• Pente non testable


• Si les données ne sont pas exprimées dans les mêmes<br />

unités<br />

• Axe majeur sur données cadrées<br />

• Cadrage<br />

Xi’ = (Xi - Xmin)/(Xmax - Xmin)<br />

Yi’ = (Yi - Ymin)/(Ymax - Ymin)<br />

• Avec un minimum à 0, la transformation devient<br />

Xi’ = Xi/Xmax<br />

Yi’ = Yi/Ymax


• Les données varient ainsi entre 0 et 1<br />

• A éviter en cas de valeurs aberrantes


• Pente de l’axe majeur : a m<br />

a m = (d ± √(d 2 + 4))/2 ; (± suivant le signe de r)<br />

avec d = (a 2 - r 2 )/(ar 2 )<br />

où a = pente de la droite MCO<br />

et r = coefficient de corrélation<br />

• Ordonnée à l’origine<br />

b m = Ȳ - a m X̄<br />

• Intervalle de confiance laborieux à calculer


But ?<br />

AM<br />

Choisir le bon type de régression<br />

Estimation<br />

Prédiction<br />

Lien<br />

Comparer<br />

valeurs prédites<br />

et<br />

valeurs<br />

observées<br />

Oui<br />

Oui<br />

MCO<br />

Variation sur Y > 3 fois celle sur X ?<br />

test par<br />

Non<br />

permutations<br />

AMR<br />

Non<br />

Données normales ?<br />

(transformation)<br />

Oui<br />

X et Y de mêmes unités<br />

et variances semblables ?<br />

Oui<br />

Non<br />

r significatif ?<br />

Non<br />

AMDC (si pas de valeurs aberrantes)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!