28.06.2013 Views

Régression linéaire et robustesse: théorie et applications

Régression linéaire et robustesse: théorie et applications

Régression linéaire et robustesse: théorie et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 1 / 46<br />

Catherine Dehon 3 Août 2011<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong><br />

<strong>applications</strong><br />

Catherine Dehon<br />

Université libre de Bruxelles, SBS-EM, ECARES<br />

3 Août 2011


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 2 / 46<br />

Catherine Dehon 3 Août 2011<br />

AGENDA<br />

1 Le modèle de régression <strong>linéaire</strong> simple<br />

2 Estimation des paramètres<br />

3 Impact <strong>et</strong> classification des valeurs aberrantes<br />

4 Quelques estimateurs robustes<br />

5 Application économique<br />

6 Et en sciences humaines ....<br />

7 Conclusion


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 3 / 46<br />

Catherine Dehon 3 Août 2011<br />

Le modèle de régression <strong>linéaire</strong> simple<br />

Motivation<br />

Les sciences économiques suggèrent souvent des relations<br />

théoriques de causalité sans les tester ni les quantifier:<br />

• Impact sur le salaire d’une année d’étude supplémentaire?<br />

• Impact d’une augmentation du prix du tabac sur les ventes?<br />

• Impact du type de régime politique sur l’emploi?<br />

Mesurer, quantifier les eff<strong>et</strong>s de causalité<br />

Evaluer des politiques économiques<br />

Prédire des comportements<br />

⇓<br />

“All models are wrong, but some are useful.” (Box, 1979)


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 4 / 46<br />

Catherine Dehon 3 Août 2011<br />

Définition<br />

Les observations Y1, . . . , Yn satisfont aux hypothèses du modèle<br />

de régression simple si elles satisfont à une équation de la forme<br />

Yi = β0 + β1˜xi + εi = x t iβ + εi<br />

i = 1, . . . , n<br />

• ˜x1, . . . , ˜xn sont des réels ou des variables aléatoires<br />

• x1, . . . , xn ∈ IR 2 <br />

1<br />

telle que xi = ∀i<br />

˜xi<br />

<br />

β0<br />

• β = ∈ IR 2 est un paramètre (inconnu) composé<br />

β1<br />

d’une pente β1 <strong>et</strong> d’une ordonnée à l’origine β0<br />

• ε1, . . . , εn sont des variables aléatoires non observées : les<br />

”erreurs”.


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 5 / 46<br />

Catherine Dehon 3 Août 2011<br />

Hypothèses<br />

• Dans le cas dit “général”, on fait sur les erreurs l’hypothèse<br />

que E[εi] = 0 (E[εi|xi] = 0) ∀i <strong>et</strong><br />

<br />

σ<br />

Cov[εi, εj] =<br />

2 i = j<br />

0 i = j.<br />

• Dans le cas dit “gaussien”, on renforce c<strong>et</strong>te hypothèse en<br />

posant εi i.i.d. N(0, σ 2 ), i = 1, . . . , n.<br />

• Si la variable explicative est une variable aléatoire: on fait<br />

l’hypothèse d’exogénéité : Cov(Xi, εi) = 0 ∀i.


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 6 / 46<br />

Catherine Dehon 3 Août 2011<br />

La densité de l’observation Yi (sachant xi) est une densité<br />

normale de moyenne β0 + β1xi <strong>et</strong> de variance σ 2<br />

β0 + β1x3<br />

y<br />

β0 + β1x2<br />

β0 + β1x1<br />

<br />

y = β0 + β1x<br />

x1 x2 x3<br />

<br />

<br />

x


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 7 / 46<br />

Catherine Dehon 3 Août 2011<br />

Estimation des paramètres<br />

Méthode du maximum de vraisemblance:<br />

Y = (Y1, . . . , Yn), où les Yi sont i.i.d. <strong>et</strong> θ = (β0, β1, σ 2 ):<br />

où<br />

ˆ θ ML = Argmax θL θ(Y|xi) = Argmax θ<br />

n<br />

fYi|xi (Yi)<br />

i=1<br />

FYi|xi (y) = Prob(Yi ≤ y | xi) = Prob(x t iβ + εi ≤ y)<br />

<br />

εi<br />

= Prob<br />

σ ≤ y − xti β<br />

<br />

y − xt iβ = F0<br />

,<br />

σ<br />

σ<br />

<br />

y−xt iβ dF0 σ<br />

fYi|xi (y) =<br />

=<br />

dy<br />

1<br />

σ f0<br />

<br />

y − xt iβ .<br />

σ


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 8 / 46<br />

Catherine Dehon 3 Août 2011<br />

On obtient donc:<br />

ˆ θML = Argmax θ<br />

= Argmax θ<br />

n<br />

fYi|xi (Yi)<br />

i=1<br />

n<br />

i=1<br />

<br />

log f0<br />

Yi − x t i β<br />

σ<br />

<br />

− log σ<br />

En résolvant ce problème de minimisation par rapport à β on a<br />

ˆβ ML telle que<br />

<br />

n<br />

<br />

∂<br />

Yi − x<br />

log f0<br />

∂β<br />

i=1<br />

t iβ <br />

− log σ<br />

σ<br />

<br />

β= ˆ ˆβ ML telle que<br />

= 0<br />

βML n −f ′<br />

t<br />

Yi−xi 0<br />

ˆ <br />

βML σ<br />

x t i = 0<br />

où f ′<br />

0 =<br />

∂f0<br />

∂β0<br />

i=1<br />

f0<br />

t ∂f0 , .<br />

∂β1<br />

Yi−x t i ˆ βML<br />

σ


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 9 / 46<br />

Catherine Dehon 3 Août 2011<br />

Cas gaussien: Méthode du maximum de vraisemblance<br />

Sous les hypothèses gaussiennes: Yi|xi ∼ N(β0 + β1xi, σ2 ) :<br />

ˆβ ML telle que<br />

n −f ′<br />

t<br />

Yi−xi 0<br />

ˆ <br />

βML σ<br />

x t i = 0<br />

ˆβ ML<br />

telle que<br />

i=1<br />

n <br />

i=1<br />

f0<br />

Yi−x t i ˆ βML<br />

σ<br />

Yi − x t i ˆ β ML<br />

<br />

x t i = 0<br />

L’estimateur n’est donc pas robuste par rapport à des valeurs<br />

aberrantes en Y ou en x.


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 10 / 46<br />

Catherine Dehon 3 Août 2011<br />

Cas de Laplace: Méthode du maximum de vraisemblance<br />

Si le terme d’erreur ε<br />

σ est de loi de Laplace standard dont la<br />

fonction de densité est donnée par<br />

ˆβ ML<br />

ˆβ ML<br />

telle que<br />

telle que<br />

f0(x) = 1<br />

2 exp(−|x|)<br />

⇓<br />

n −f ′<br />

t<br />

Yi−x<br />

i=1<br />

f0<br />

n<br />

<br />

sign<br />

i=1<br />

<br />

i<br />

0<br />

ˆ βML σ<br />

x<br />

Yi−xt ˆ<br />

iβML t i = 0<br />

σ<br />

Yi − x t i ˆ β ML<br />

σ<br />

<br />

x t i = 0.<br />

L’estimateur n’est donc pas robuste par rapport à des valeurs<br />

aberrantes en x mais robuste par rappoert à Y .


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 11 / 46<br />

Catherine Dehon 3 Août 2011<br />

Cas dit “général”: Méthode des moindres carrés<br />

Dans le cas général, la méthode des moindres carrés remplace<br />

la méthode du maximum de vraisemblance, <strong>et</strong> consiste à<br />

minimiser (par rapport à β0 <strong>et</strong> β1) la variance de Y<br />

1<br />

n<br />

n<br />

i=1<br />

(Yi − β0 − β1xi) 2 = 1<br />

n<br />

C<strong>et</strong>te minimisation conduit à la même solution (pour β0 <strong>et</strong> β1)<br />

que la méthode du maximum de vraisemblance gaussien.<br />

n<br />

i=1<br />

ε 2 i .


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 12 / 46<br />

Catherine Dehon 3 Août 2011<br />

Impact <strong>et</strong> classification des valeurs aberrantes<br />

Malheureusement les méthodes d’estimation classiques sont<br />

extrêmement vulnérable aux valeurs aberrantes (outliers)<br />

• Exemple: Astronomy Data<br />

Log Light Intensity<br />

3.5 4.0 4.5 5.0 5.5 6.0 6.5<br />

Hertzsprung-Russell Diagram-Classical Regression<br />

3.0 3.5 4.0 4.5 5.0<br />

Log Temperature


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 13 / 46<br />

Catherine Dehon 3 Août 2011<br />

Nécessité d’introduire des méthodes d’estimation “robustes” à<br />

la présence dans l’échantillon de quelques individus ‘anormaux”<br />

par rapport au modèle théorique sous-jacent<br />

• Exemple: Astronomy Data<br />

Log Light Intensity<br />

3.5 4.0 4.5 5.0 5.5 6.0 6.5<br />

Classical Regression<br />

Robust Regression<br />

Hertzsprung-Russell Diagram<br />

3.0 3.5 4.0 4.5 5.0<br />

Log Temperature


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 14 / 46<br />

Catherine Dehon 3 Août 2011<br />

Three types of outliers in regression framework:<br />

• Vertical outlier<br />

• Bad leverage point<br />

• Good leverage point<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

−2<br />

−4<br />

−6<br />

Types of contamination<br />

−4 −2 0 2 4 6 8 10 12


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 15 / 46<br />

Catherine Dehon 3 Août 2011<br />

Vertical outlier<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

−2<br />

−4<br />

Types of contamination<br />

−4 −2 0 2 4 6 8 10 12


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 16 / 46<br />

Catherine Dehon 3 Août 2011<br />

Bad leverage point<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

−2<br />

−4<br />

Types of contamination<br />

−4 −2 0 2 4 6 8 10 12


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 17 / 46<br />

Catherine Dehon 3 Août 2011<br />

Good leverage point<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

−2<br />

−4<br />

Types of contamination<br />

−4 −2 0 2 4 6 8 10 12


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 18 / 46<br />

Catherine Dehon 3 Août 2011<br />

Quelques estimateurs robustes<br />

M-estimators (Huber, 1964) Généralisation du MLE:<br />

n −f<br />

ˆβ ML telle que<br />

′<br />

t<br />

Yi−xi 0<br />

ˆ <br />

βML σ<br />

x t i = 0<br />

f ′<br />

0 (u)<br />

i=1<br />

f0<br />

Yi−x t i ˆ βML<br />

Notons s0(u) = − f0(u) la fonction de score associée au<br />

modèle; alors la condition du premier ordre du problème de<br />

minimisation est donnée par<br />

n<br />

<br />

ˆβ<br />

1 Yi − x<br />

ML telle que s0<br />

n<br />

t i ˆ <br />

βML x<br />

σ<br />

t i = 0.<br />

i=1<br />

σ


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 19 / 46<br />

Catherine Dehon 3 Août 2011<br />

Le M-estimateur ˆ β M est définit comme les solutions de<br />

Argmax β<br />

n<br />

<br />

Yi − x<br />

ρ<br />

t iβ <br />

σ<br />

i=1<br />

où ρ est une fonction positive, symétrique avec ρ(0) = 0.<br />

C<strong>et</strong> estimateur est solution de la condition du premier ordre<br />

(ρ-convexe):<br />

n<br />

<br />

Yi − x<br />

ψ<br />

t i ˆ <br />

βM x<br />

σ<br />

t i = 0<br />

où ψ = ρ ′ .<br />

i=1<br />

ρ convexe ⇒ ψ borné ⇒ robuste aux points verticaux<br />

ρ borné ⇒ ψ redescendant ⇒ robuste


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 20 / 46<br />

Catherine Dehon 3 Août 2011<br />

• Fonctions de Huber <strong>et</strong> de Tukey bisquare<br />

ρ H c (u) = {<br />

ρ B c (u) = {<br />

u 2<br />

2<br />

c|u| − c2<br />

2<br />

u 2<br />

2<br />

c 2<br />

6<br />

− u4<br />

2c2 + u6<br />

6c4 rho(u)<br />

rho(u)<br />

0.0 0.5 1.0 1.5 2.0 2.5<br />

0.00 0.05 0.10 0.15<br />

si |u| ≤ c<br />

si |u| > c<br />

rho de Huber<br />

si |u| ≤ c<br />

si |u| > c<br />

-3 -2 -1 0 1 2 3<br />

u<br />

rho de Tukey<br />

-3 -2 -1 0 1 2 3<br />

u<br />

psi(u)<br />

psi(u)<br />

-1.0 -0.5 0.0 0.5 1.0<br />

-0.3 -0.1 0.1 0.2 0.3<br />

psi de Huber<br />

-3 -2 -1 0 1 2 3<br />

u<br />

psi de Tukey<br />

-3 -2 -1 0 1 2 3<br />

u


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 21 / 46<br />

Catherine Dehon 3 Août 2011<br />

Distribution asymptotique: Sous des conditions générales,<br />

avec une fonction ρ-convexe <strong>et</strong> sn → σ, il est prouvé que<br />

(Huber, 73; Yohai & Maronna, 79):<br />

n 1/2 ( ˆ β − β) → N(0, σ 2 V (ψ, F0)E(xx ′<br />

x ′<br />

x ′ ))<br />

où F0 est la distribution standard des erreurs.<br />

Trade-off entre <strong>robustesse</strong> <strong>et</strong> efficacité:<br />

Exemples : la constante c contrôle le trade-off entre la<br />

<strong>robustesse</strong> <strong>et</strong> l’efficacité. Si c → ∞ le M-estimateur tends vers<br />

l’estimateur classique.


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 22 / 46<br />

Catherine Dehon 3 Août 2011<br />

ρ convexe ⇒ ψ borné ⇒ pas robuste face aux points leviers<br />

GM-estimateurs (Maronna <strong>et</strong> al., 1979): M-estimateurs<br />

pondérés par rapport aux poids leviers:<br />

n<br />

<br />

Yi − x<br />

ψ<br />

t i ˆ <br />

βM w(xi)x<br />

σ<br />

t i = 0<br />

i=1<br />

où w(·) est une fonction monotone décroissante d’un degré<br />

“d’aberrance” dans l’espace de design (X).<br />

Mais il reste le problème du paramètre de nuisance σ. Il<br />

“suffit” de le substituer par un estimateur convergent <strong>et</strong><br />

robuste d’échelle des résidus sn (par exemple le MAD).......<br />

mais on ne connait pas les résidus !


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 23 / 46<br />

Catherine Dehon 3 Août 2011<br />

S-estimateurs<br />

LS estimateur: ˆ β LS = arg min<br />

θ<br />

n<br />

r<br />

i=1<br />

2 i (ri are the residuals)<br />

Le S-estimateur est définit comme la solution de<br />

ˆβ S = arg min<br />

θ<br />

s(r1, ..., rn)<br />

où l’estimateur d’échelle s(r1, . . . , rn) est définit comme<br />

solution de<br />

n 1<br />

ρ(<br />

n<br />

ri<br />

) = b<br />

s<br />

i=1<br />

ρ peut être choisi dans la classe des fonctions de Tukey avec<br />

c = 1.547 pour avoir un point de rupture de 50%.<br />

L’estimation d’échelle est : ˆσS = s(r1( ˆ θS), . . . , rn( ˆ θS)).


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 24 / 46<br />

Catherine Dehon 3 Août 2011<br />

MM-estimators (Yohai, 1987)<br />

Combine robustness and high gaussian efficiency:<br />

• Step 1: Take an S-estimate with bdp of 50% (using ρ1<br />

function). Call this estimate ˆ β1 β1 β1<br />

• Step 2: Calculate the associate scale estimate<br />

sn = S(r1( ˆ β1), . . . , rn( ˆ β1)) using residuals from step 1<br />

β1 β1 β1 β1<br />

• Step 3: Take any other function ρ2 ≤ ρ1 and find a local<br />

minimum ˆ β2 of<br />

β2 β2<br />

S(β) =<br />

n<br />

i=1<br />

ρ2<br />

<br />

ri(β)<br />

β2 β2 β2<br />

ˆ has the same bdp as ˆ β1 β1 β1 but we choose ρ2 to increase<br />

efficiency (e.g. in bisquare family with c1 = 1.56 and c2 = 4.68,<br />

we g<strong>et</strong> a bdp of 50% and an asymptotic efficiency of 95%)<br />

sn


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 25 / 46<br />

Catherine Dehon 3 Août 2011<br />

Application économique<br />

Size of governments of Persson and Tabellini (1999):<br />

Expi = β0 + β1Mi + β2 log Ii + β3 log Oi + β4P 65i<br />

9<br />

+β5P resi + βjDji + β10Ei + εi<br />

j=6<br />

• Exp: central public expenditure in % of GDP<br />

• M: the mean district magnitude<br />

• I: income<br />

• O: the degree of openness<br />

• P 65: % of the population over 65 years-old<br />

• P res: dummy political presidential regime<br />

• Dj: continental dummies<br />

• E: degree of <strong>et</strong>hno-linguistic fractionalization.


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 26 / 46<br />

Catherine Dehon 3 Août 2011<br />

STEP 1: Can I use classical regression?<br />

Regression model:<br />

where εi ∼ iid N(0, σ 2 )<br />

Yi = β0 + xi1β1 + ... + xip−1βp−1 + εi<br />

Classical estimator: ˆ β LS = arg min<br />

β<br />

n<br />

r<br />

i=1<br />

2 i (ri are the residuals)<br />

Robust comp<strong>et</strong>itor: The S-estimator is defined as<br />

ˆβ S = arg min s(r1, ..., rn)<br />

β<br />

where scale estimate s(r1, . . . , rn) is defined as the solution of:<br />

n 1<br />

ρ(<br />

n<br />

ri<br />

) = b<br />

s<br />

i=1


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 27 / 46<br />

Catherine Dehon 3 Août 2011<br />

QUESTION: How to choose b<strong>et</strong>ween classical and robust<br />

estimators considering the trade-off b<strong>et</strong>ween robustness and<br />

efficiency?<br />

⇓<br />

HOW TO CONSTRUCT A<br />

“TEST OF OUTLIERS”?


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 28 / 46<br />

Catherine Dehon 3 Août 2011<br />

IDEA: Use the m<strong>et</strong>hodology of the well-knwon Hausman test<br />

(endogeneity, . . . ) to compare the possible bias due to outliers<br />

Problem of test: H0: no problem of outliers<br />

H1: problem of outliers<br />

Under H0: ˆ θLS is consistent and efficient and ˆ θS is consistent<br />

but inefficient<br />

Under H1: ˆ θS is still consistent but not ˆ θLS<br />

Known results:<br />

ˆβ LS ∼ N(β, σ 2 (X ′ X) −1 )<br />

ˆβ S ≈ N(β, σ2 (X ′ X) −1<br />

)<br />

e<br />

where e = 28.7% is the efficiency of the S-estimator


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 29 / 46<br />

Catherine Dehon 3 Août 2011<br />

Define<br />

How to normalize ˆq?<br />

ˆq = ˆ β S − ˆ β LS<br />

In fact, since ˆ β LS is the efficient estimate, we have under H0<br />

that ˆq and ˆ β LS are orthogonal, then<br />

ˆq + ˆ β LS = ˆ β S ⇒ V (ˆq) + V ( ˆ β LS) = V ( ˆ β S)<br />

⇓<br />

V (ˆq) = V ( ˆ βS) − V ( ˆ βLS) = σ2 (X ′ X) −1<br />

− σ 2 (X ′ X) −1<br />

We estimate σ robustly using sn based on S-estimator residuals<br />

e


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 30 / 46<br />

Catherine Dehon 3 Août 2011<br />

The Hausman test statistic is defined as<br />

H = ˆq ′ −1 V ˆ (ˆq) ˆq<br />

where ˆ V (ˆq) is a consistent estimator of V (ˆq).<br />

Hausman (1978) shows that under the null, H is distributed<br />

asymptotically as a central χ 2 p where p is the number of<br />

unknown param<strong>et</strong>ers.<br />

COME BACK TO THE APPLICATION:<br />

The test statistic is 21.31 > χ2 11,0.95 = 19.67 (p-value is 0.03)<br />

⇒ OLS estimations have been distorted by the presence of<br />

outliers, some robust m<strong>et</strong>hod is needed.


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 31 / 46<br />

Catherine Dehon 3 Août 2011<br />

STEP 2: Which type of outliers are in the database?<br />

Scatter plot: Mesure of outlyingness versus robust residuals<br />

• x-axis: degree d of outlyingness in the design space, in order<br />

to d<strong>et</strong>ect leverage points.:<br />

d 2 |x<br />

i = max<br />

a=0<br />

′ ia − m(x′ ia)| s(x ′ ia) m and s: robust estimator of location and scale.<br />

• y-axis: r standardized robust residuals (using the S-estimator)


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 32 / 46<br />

Catherine Dehon 3 Août 2011<br />

Standardized Residuals<br />

-4 -2 0 2 4<br />

Brazil<br />

Cyprus (G)<br />

India<br />

Nepal<br />

Switzerland<br />

0 5 10 15 20 25 30 35<br />

Donoho-Stahel Outlyingness<br />

N<strong>et</strong>herlands<br />

<br />

d ≤ χ2 p;0.95 and |r| ≤ 3: standard point<br />

<br />

d > χ2 p;0.95 and |r| ≤ 3: good leverage point<br />

<br />

d ≤ χ2 p;0.95 and |r| > 3: vertical outlier<br />

<br />

d > χ2 p;0.95 and |r| > 3: bad leverage point.<br />

Israel


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 33 / 46<br />

Catherine Dehon 3 Août 2011<br />

STEP 3: Select an appropriate robust estimator<br />

There exist a lot of robust regression estimators<br />

⇓<br />

The choice of a robust m<strong>et</strong>hod depends on the type of outliers<br />

LS M GM MM GMM<br />

Standard X X X X X<br />

Vertical X X X X<br />

Good X X<br />

Bad X X X<br />

GMM: downweight good leverage points in MM procedure and<br />

reproduce the m<strong>et</strong>hodology proposed in GM-estimators


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 34 / 46<br />

Catherine Dehon 3 Août 2011<br />

M<strong>et</strong>hods OLS RWLS GM GMM<br />

Mean District Magnitude 0.10 0.09 0.07 0.06<br />

(2.34) (2.34) (0.63) (0.63)<br />

Log(Income) -1.47 -1.42 -1.93 -1.97<br />

(0.62) (0.61) (0.72) (0.75)<br />

Log(Openness) 5.12 5.75 6.41 5.69<br />

(2.63) (2.98) (2.82) (2.63)<br />

Population 65 78.33 81.69 78.76 65.11<br />

(1.56) (1.68) (1.42) (1.41)<br />

Presidential -9.16 -9.01 -9.66 -10.41<br />

(2.95) (3.00) (2.69) (2.90)<br />

Latin America -2.38 -2.92 -1.18 -1.83<br />

(0.60) (0.76) (0.25) (0.34)<br />

Africa 0.42 -0.56 -0.14 -0.14<br />

(0.07) (0.09) (0.02) (0.02)<br />

Asia -2.96 -3.67 -2.42 -2.98<br />

(0.54) (0.69) (0.39) (0.42)<br />

Oecd 1.45 0.84 3.76 4.50<br />

(0.32) (0.18) (0.70) (0.63)<br />

Ethno-linguistic fractionalization -0.09 -0.08 -0.06 -0.08<br />

(1.92) (1.80) (1.31) (1.82)<br />

R 2<br />

0.75 0.76 0.65 0.65


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 35 / 46<br />

Catherine Dehon 3 Août 2011<br />

Conclusion: régression robuste<br />

• Les valeurs aberrantes sont fréquentes dans des bases de<br />

données de plus en plus grandes (data-mining) <strong>et</strong> peuvent<br />

sérieusement affectés les estimateurs classiques<br />

• Il existe des méthodes graphiques <strong>et</strong> des tests afin de détecter<br />

ce genre de problème en régression<br />

• Le choix de l’estimateur robuste dépend du type d’outliers<br />

• L’intuition en statistique robuste est relativement aisée mais<br />

les démonstrations des propriétés statistiques pour les<br />

estimateurs robustes ne sont pas simples


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 36 / 46<br />

Catherine Dehon 3 Août 2011<br />

Et en sciences humaines ...<br />

Difficulté<br />

En sciences humaines, il n’est pas souvent possible de réaliser<br />

une expérience où l’environnement serait sous contrôle.... mais<br />

la plupart du temps nous avons accès à des données observées<br />

(non-experimental data)<br />

Question<br />

Mesurer l’eff<strong>et</strong> d’un programme (“traitement”) en m<strong>et</strong>tant en<br />

évidence une causalité par rapport à une variable d’intérêt (la<br />

réussite, la moyenne des notes, l’abandon, . . . ) est souvent<br />

complexe<br />

Corrélation = Causalité<br />

La corrélation n’implique pas la causalité (exemple cigognes)


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 37 / 46<br />

Catherine Dehon 3 Août 2011<br />

Soit un individu i, dont la variable d’intérêt est donnée par Yi<br />

(moyenne globale, réussite, salaire, engagement, . . . )<br />

Introduction d’un traitement:<br />

<br />

0 si l’individu i ne participe pas au traitement<br />

Wi =<br />

1 si l’individu i participe au traitement<br />

On observe une seule des deux situations suivantes:<br />

1 Yi(0) : variable d’intérêt si l’individu n’a pas participé<br />

2 Yi(1) : variable d’intérêt si l’individu a participé<br />

Mais on voudrait obtenir la quantité suivante:<br />

Yi(1) − Yi(0)<br />

“Fundamental problem of causal inference” (Holland, 1986)


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 38 / 46<br />

Catherine Dehon 3 Août 2011<br />

MODELE CAUSAL DE RUBIN<br />

Soit un échantillon de N individus (i = 1, . . . , N). N1 ont reçu<br />

le traitement, N0 ne l’ont pas reçu (N = N0 + N1)<br />

On sait que<br />

<br />

0 si l’individu i ne participe pas au traitement<br />

Wi =<br />

1 si l’individu i participe au traitement<br />

Les deux “outcomes” potentiels sont:<br />

Yi(0) si l’individu ne participe pas au traitement<br />

Yi(1) si l’individu participe au traitement<br />

En réalité, on va observer Yi:<br />

<br />

Yi(0) si Wi = 0<br />

Yi =<br />

Yi(1) si Wi = 1


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 39 / 46<br />

Catherine Dehon 3 Août 2011<br />

L’eff<strong>et</strong> de causalité en utilisant les “outcomes” potentiels au<br />

niveau individuel est donc donné par<br />

Yi(1) − Yi(0) ∀i = 1, . . . , N<br />

MAIS .... contexte de valeurs manquantes<br />

Par similitude, on est souvent tenté d’utiliser les “outcomes”<br />

observés en calculant des eff<strong>et</strong>s moyens sur les deux groupes:<br />

1<br />

N1<br />

<br />

Yi −<br />

<br />

iWi=1<br />

1<br />

N0<br />

<br />

<br />

iWi=0<br />

Les résultats de ces deux groupes sont-ils comparables ?<br />

L’information obtenue est-elle pertinente pour l’évaluation du<br />

traitement ?<br />

Yi


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 40 / 46<br />

Catherine Dehon 3 Août 2011<br />

On utilise également souvent les “outcomes” observés dans le<br />

cadre de la régression <strong>linéaire</strong>:<br />

Yi = α + τWi + εi<br />

∀i = 1, . . . , N<br />

où τ serait l’eff<strong>et</strong> causal, mais c<strong>et</strong>te équation soulève les<br />

questions suivantes:<br />

L’eff<strong>et</strong> causal est-il constant ∀i ? (hétérogénéité)<br />

Quelles sont les propriétés du terme d’erreur ε ? Le terme<br />

d’erreur est-il indépendant du choix du traitement ?<br />

(exogénéité)


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 41 / 46<br />

Catherine Dehon 3 Août 2011<br />

Mécanisme d’affectation du traitement<br />

1 Affectation du traitement de façon aléatoire (randomized<br />

experiments). Peu fréquent en sciences humaines mais<br />

situation la plus facile à modéliser<br />

2 Unconfounded affectation: sélection du traitement sur<br />

base de variables observées:<br />

Wi ⊥ (Yi(0), Yi(1)) Xi<br />

3 Affectation du traitement sur base de variables non<br />

observées


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 42 / 46<br />

Catherine Dehon 3 Août 2011<br />

AFFECTATION ALEATOIRE DU TRAITEMENT<br />

Situation idéale mais rare en sciences humaines .....<br />

L’eff<strong>et</strong> moyen du traitement peut être estimé par:<br />

1 La différence entre la moyenne du groupe “traité” <strong>et</strong> celle<br />

du groupe “placebo”<br />

2 La régression linéare suivante<br />

Yi = α + τWi + εi<br />

∀i = 1, . . . , N<br />

On peut même ajouter des variables explicatives<br />

supplémentaires pour améliorer la précision.<br />

Littérature croissante en économie du développement (Duflo,<br />

Glennester <strong>et</strong> Kremer, 2007)


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 43 / 46<br />

Catherine Dehon 3 Août 2011<br />

AFFECTATION DU TRAITEMENT SUR BASE DE<br />

VARIABLES OBSERVABLES (UNCONFOUNDEDNESS)<br />

Hypothèse largement utilisée mais souvent controversée :<br />

Wi ⊥ (Yi(0), Yi(1)) Xi<br />

Pour chaque individu partageant les mêmes caractéristiques<br />

observées x, l’eff<strong>et</strong> du traitement est donné par:<br />

τ(x) = E[Yi(1) Xi = x] − E[Yi(0) Xi = x]<br />

= E[Yi(1) Wi = 1, Xi = x] − E[Yi(0) Wi = 0, Xi = x]<br />

<br />

<br />

= E[Yi<br />

Wi = 1, Xi = x] − E[Yi<br />

Wi = 0, Xi = x]<br />

Nécessité de l’hypothèse d’overlap: L’échantillon doit contenir<br />

des individus traités <strong>et</strong> non traités ∀x


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 44 / 46<br />

Catherine Dehon 3 Août 2011<br />

Méthode simple : régression <strong>linéaire</strong> multiple<br />

L’eff<strong>et</strong> du traitement conditionnellement à x est donné par:<br />

τ(x) = µ1(x) − µ0(x)<br />

où µ1(x) = E[Yi(1) Xi = x] <strong>et</strong> µ0(x) = E[Yi(0) Xi = x]<br />

Unconfoundedness: on peut estimer ces moyennes<br />

conditionnelles via la régression sur les deux échantillons:<br />

Yi = α + βXi + εi ∀i Wi = 1 ⇒ ˆµ1(x)<br />

Yi = γ + δXi + εi ∀i Wi = 0 ⇒ ˆµ0(x)<br />

L’eff<strong>et</strong> moyen du traitement peut dès lors être mesuré par:<br />

ˆτ = 1<br />

N<br />

N<br />

(ˆµ1(Xi) − ˆµ0(Xi))<br />

i=1


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 45 / 46<br />

Catherine Dehon 3 Août 2011<br />

AFFECTATION DU TRAITEMENT SUR BASE DE<br />

VARIABLES NON OBSERVABLES<br />

Problémes complexes: quelques méthodes pour des cas<br />

particuliers<br />

Variable instrumentale Z: elle doit remplir deux conditions<br />

E(Zε) = 0<br />

cov(X, Z) = 0<br />

L’estimateur IV est donné comme solution de l’équation:<br />

ˆβ IV<br />

telle que<br />

n <br />

i=1<br />

Yi − x t i ˆ β IV<br />

<br />

z t i = 0


AGENDA<br />

MODELE<br />

ESTIMATION<br />

OUTLIERS<br />

ROBUSTESSE<br />

EXEMPLE<br />

CONCLUSION<br />

SH<br />

CONCLUSION<br />

<strong>Régression</strong> <strong>linéaire</strong> <strong>et</strong> <strong>robustesse</strong>: <strong>théorie</strong> <strong>et</strong> <strong>applications</strong> 46 / 46<br />

Catherine Dehon 3 Août 2011<br />

CONCLUSION<br />

Il faut être très prudent avant de considérer qu’il y a un<br />

eff<strong>et</strong> de causalité<br />

Il est parfois possible de créer une expérience randomisée<br />

La littérature statistique <strong>et</strong> économétrique est en<br />

développement<br />

G. W. Imbens and J. M. Wooldridge (2009), Recent<br />

Developments in the Econom<strong>et</strong>rics of Program Evaluation,<br />

Journal of Economic Literature, 47:1, 5-86

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!