14.06.2013 Views

geometrica degli OLS - Economia

geometrica degli OLS - Economia

geometrica degli OLS - Economia

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Università di Pavia<br />

Econometria<br />

Minimi quadrati ordinari<br />

Interpretazione <strong>geometrica</strong><br />

Eduardo Rossi<br />

Università di Pavia


Introduzione<br />

L’econometria si interessa all’analisi dei dati economici.<br />

I dati economici provengono esclusivamente da fonti non sperimentali.<br />

Non possiamo come economisti ripetere l’esperimento, cioè valutare<br />

le reazioni a due diversi stimoli, per misurarne l’effetto.<br />

Possiamo però esaminare come variano tra individui eterogeni, cioè<br />

con diversi caratteri (scolarità, età, razza, area geografica di residenza,<br />

ecc.), i redditi da lavoro individuali. Per lo stesso periodo di tempo o<br />

per un certo numero di periodi.<br />

1


Introduzione<br />

Il modello lineare di regressione multipla è usato per studiare le relazioni<br />

tra la variabile dipendente e diverse variabili indipendenti (esplicative).<br />

yt = β1x1t + . . . + β Kx Kt + ǫt<br />

β1, . . . β K fixed but unknown parameters, ǫt ignoto, yt regredendo,<br />

v.casuale, x kt regressore, covariata casuale. In genere, uno dei regressori<br />

è fissato uguale ad 1,per esempio il primo: x1t = 1, ∀t; con<br />

β1 intercetta (o costante) dell’equazione.<br />

2<br />

(1)


Le osservazioni possono essere:<br />

• serie storiche, tempi successivi (anni, trimestri, mesi, settimane,<br />

ecc.)<br />

• cross-section, unità economiche individuali (individui, famiglie, imprese,<br />

ecc.) osservate allo stesso istante di tempo.<br />

• Cross-section di unità individuali osservate un certo numero di<br />

periodi di tempo (panel data).<br />

3


Introduzione<br />

Si suppone che le osservazioni siano generate da un esperimento casuale,<br />

prima del quale i loro valori sono ignoti. In verità, la nozione di<br />

esperimento è piuttosto vaga e fa riferimento all’atto di raccolta dei<br />

dati.<br />

4


Il metodo dei minimi quadrati<br />

I caratteri variano simultaneamente tra gli individui. Il metodo dei<br />

minimi quadrati ordinari è un modo per scomporre le differenze<br />

nella variabile dipendente fra diverse caratteristiche osservate (variabili<br />

esplicative) per le diverse unità nel campione. Il metodo dei minimi<br />

quadrati orinari (in inglese Ordinary Least Squares, <strong>OLS</strong>) è usato<br />

per stimare il valore di β k, k = 1, . . . , K. Questi sono scelti in modo<br />

tale che siano la soluzione al seguente problema:<br />

min<br />

β 1,...,β K<br />

N<br />

t=1<br />

[yt − (β1x1t + β2x2t + . . . + β Kx Kt)] 2<br />

Il termine ”minimi quadrati” si riferisce alla minimizzazione della<br />

somma delle differenze al quadrato. [yt − (β1x1t + . . . + β Kx Kt)], i<br />

residui.<br />

5


La funzione obiettivo<br />

f(β1, . . . , β K) =<br />

N<br />

[yt − (β1x1t + β2x2t + . . . + β Kx Kt)] 2<br />

t=1<br />

è la sum of squared residuals (somma dei quadrati dei residui). Quando<br />

i residui sono valutati in β1, . . . , βK i residui sono detti fitted residuals<br />

(residui fittati, o residui della regressione).<br />

Consideriamo il caso in cui l’unica variabile esplicativa è la costante:<br />

K = 1 e x1t = 1, ∀t. <strong>OLS</strong> trova il valore di β1 che è il più vicino a yt nel<br />

senso della somma dei qudrati dei residui. <strong>OLS</strong> è la minimizzazione<br />

di una funzione quadratica in β1 e il risultato è la media:<br />

β1 = argmin<br />

N<br />

t=1<br />

(yt − β1) 2 =<br />

Nt=1 yt<br />

N<br />

6<br />

(2)


Notazione<br />

Notazione matriciale<br />

y =<br />

X =<br />

⎡<br />

y1.<br />

β = [β1, β2, . . . , β K] ′<br />

⎤<br />

xt =<br />

⎡<br />

x1t<br />

.<br />

⎢<br />

⎣<br />

⎥<br />

⎦ (N × 1)<br />

yN ⎡<br />

x<br />

⎢<br />

⎣<br />

′ 1<br />

.<br />

x ′ ⎡<br />

⎤<br />

⎢<br />

⎥ ⎢<br />

⎦ = ⎢<br />

⎣<br />

N<br />

.<br />

⎤<br />

⎢<br />

⎣<br />

xKt ⎥<br />

⎦ (K × 1)<br />

x11 x12 . . . x 1K<br />

x21 x22 . . . x2K . .<br />

xN1 xN2 . . . xNK (K × 1) (3)<br />

⎤<br />

⎥<br />

⎦<br />

(N × K)<br />

7


⎡<br />

x<br />

⎢<br />

⎣<br />

′ 1β .<br />

x ′ Nβ ⎤<br />

⎥<br />

⎦ = Xβ<br />

Il vettore y raccoglie tutte le osservazioni della variabile dipendente.<br />

La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni<br />

colonna di X contiene tutte le osservazioni per la singola variabile<br />

esplicativa.<br />

8


Lo stimatore dei minimi quadrati (<strong>OLS</strong>)<br />

Stimatore = E’ una regola per calcolare una stima (un numero) dai<br />

dati campionari.<br />

Il metodo dei minimi quadrati risolve<br />

Definiamo<br />

β ≡ argmin<br />

β (y − Xβ) ′ (y − Xβ)<br />

S(β) ≡ (y − Xβ) ′ (y − Xβ)<br />

9


∂S(β)<br />

∂β = ∂ y ′ y − 2β ′ X ′ y + β ′ X ′ Xβ <br />

∂β<br />

= ∂ −2β ′ X ′ y + β ′ X ′ Xβ <br />

∂β<br />

= −2 ∂β′<br />

∂β X′ y + ∂ β ′ X ′ Xβ <br />

∂β<br />

= −2X ′ y + 2X ′ Xβ<br />

10


Le equazioni normali<br />

Lo stimatore <strong>OLS</strong> è<br />

∂S( β)<br />

∂β = −2X′ y + 2X ′ X β = 0 (4)<br />

X ′ y − X ′ X β = 0 (5)<br />

β = <br />

X ′ X −1 X ′ y (6)<br />

Poichè la funzione stimata è lineare nei coefficienti, gli <strong>OLS</strong> ci danno<br />

dei coefficienti stimati che sono somme ponderate delle {yt}. Le stime<br />

<strong>OLS</strong> sono funzioni lineari della variabile dipendente. Questa linearità<br />

in {yt} semplifica l’analisi statistica <strong>degli</strong> <strong>OLS</strong>.<br />

11


L’interpretazione <strong>geometrica</strong> <strong>degli</strong> <strong>OLS</strong><br />

Lo spazio delle colonne di X, Col(X), è il sottospazio lineare di R N<br />

coperto dalle combinazioni lineari dei vettori colonna di X:<br />

Col(X) ≡ {z ∈ R N |z = Xα, α ∈ R k }<br />

La procedura di stima <strong>OLS</strong> trova il vettore in Col(X), µ, che è più<br />

vicino a y.<br />

µ è detta proiezione di y.<br />

Il metodo <strong>OLS</strong> risolve:<br />

β ≡ argmin<br />

β (y − Xβ) ′ (y − Xβ) (7)<br />

12


La somma delle deviazioni al quadrato tra gli elementi di di y e Xβ è<br />

il quadrato della distanza Euclidea fra y e Xβ:<br />

(y − Xβ) ′ (y − Xβ) =<br />

N<br />

(yt − x<br />

t=1<br />

′ tβ) 2 = y − Xβ 2<br />

13


Procedura in due passi:<br />

1. Trovare il punto in un sottospazio che è il più vicino ad un punto<br />

che non si trova il quel sottospazio. Il sottospazio è l’insieme<br />

dei possibili vettori reali N dimensionali Xβ che può essere creato<br />

cambiando β e questo sottospazio è lo spazio delle colonne di X.<br />

µ ≡ arg min<br />

µ∈Col(X)<br />

2. Trovare un β che sia soluzione a:<br />

µ = X β<br />

y − µ 2<br />

14


La soluzione al primo passo è unica mentre ci possono essere molte<br />

soluzione al secondo problema. Sia β una soluzione di (7) e sia µ =<br />

X β.<br />

1. Il vettore dei valori fittati µ è l’unica proiezione ortogonale di y su<br />

Col(X).<br />

2. Il vettore dei residui fittati y − µ è ortogonale a Col(X)<br />

3. Se dim[Col(X)] = K, allora (7) ha una soluzione unica:<br />

β = (X ′ X) −1 X ′ µ ′<br />

15


Tre idee base:<br />

1. La regressione <strong>OLS</strong> significa minimizzare la distanza al quadrato<br />

tra il vettore osservato y e un vettore di regressione Xβ che appartiene<br />

a Col(X).<br />

2. Il vettore dei valori fittati µ = Xβ è la proiezione ortogonale su<br />

Col(X). Il vettore dei residui (y − µ) è perpendicolare a µ e ad ogni<br />

altro vettore in Col(X).<br />

3. If the dim[Col(X)] = K allora β è unico.<br />

16


La dipendenza lineare fra le variabile esplicative non ha un ruolo fondamentale<br />

su quanto bene una regressione lineare spiega y. La distanza<br />

dipende solo da µ. Caso Speciale: possiamo costruire una soluzione<br />

direttamente. Mostriamo che<br />

µ = X β = X(X ′ X) −1 X ′ y<br />

solo quando le colonne di X sono linearmente indipendenti.<br />

ma<br />

||y − µ|| 2 = ||y − µ + µ − µ|| 2<br />

= ||y − µ|| 2 + ||µ − µ|| 2 + 2(y − µ) ′ (µ − µ)<br />

(y − µ)⊥(µ − µ) ⇔ (y − µ) ′ (µ − µ) = 0<br />

17


Teorema di Pitagora<br />

Se c’è un µ ∈ Col(X) tale che<br />

allora per tutti gli altri µ ∈ Col(x)<br />

||y − µ|| 2 = ||y − µ|| 2 + ||µ − µ|| 2<br />

X ′ (y − µ) = 0<br />

µ ′ (y − µ) = 0<br />

(µ − µ) ′ (y − µ) = 0<br />

||y − µ|| 2 = ||y − µ|| 2 + ||µ − µ|| 2<br />

≥ ||y − µ|| 2<br />

18


Poichè y − µ è ortogonale a Col(X), µ è vicino a y almeno quanto<br />

un qualunque µ in Col(X). Therefore µ is one solution to the <strong>OLS</strong><br />

(minimum distance) problem<br />

µ = arg min ||y − µ||2<br />

µ∈Col(X)<br />

La soluzione è unica perchè per ogni altra possibile soluzione µ deve<br />

essere che<br />

||y − µ|| 2 = ||y − µ|| 2<br />

poichè nessun altro µ è più vicino a µ.<br />

19


Il teorema di Pitagora implica che<br />

||µ − µ|| 2 = 0 ⇒ µ = µ<br />

La condizione di ortogonalità caratterizza completamente il vettore<br />

<strong>OLS</strong> dei valori fittati µ.<br />

Costruiamo µ per il caso<br />

X ′ (y − X β) = 0<br />

e mostriamo che la soluzione unica è<br />

dato che X ′ X è nonsingolare.<br />

X ′ (y − X β) = 0<br />

X ′ X β − X ′ y = 0<br />

β = (X ′ X) −1 X ′ y<br />

20


La soluzione per µ segue<br />

µ = X β = X(X ′ X) −1 X ′ y<br />

β e µ hanno una relazione 1-to-1. Possiamo anche ottenere β da µ:<br />

premoltiplicando per (X ′ X) −1 X ′<br />

(X ′ X) −1 X ′ µ = (X ′ X) −1 X ′ X β = β<br />

21


Teorema Proiezione<br />

Sia y ∈ R N e S ⊆ R N un sottospazio lineare. Allora µ ∈ S è una<br />

soluzione al problema<br />

min<br />

µ∈S<br />

||y − µ||2<br />

se e solo se (y − µ)⊥S. Inoltre, µ è la soluzione unica ed esiste.<br />

22


Il teorema identifica il meccanismo di minimizzazione che significa<br />

trovare un µ ∈ Col(X) tale che<br />

y − µ ⊥ Col(X)<br />

Secondo, il teorema chiarisce che Col(X) determina l’ottimale µ.<br />

23


Proiettori ortogonali<br />

Per ogni y, c’è un’unica µ,<br />

µ = argmin<br />

µ∈S<br />

||y − µ||2<br />

chiamata proiezione di y. La proiezione ortogonale di y è sempre una<br />

trasformazione lineare di y:<br />

µ = Py<br />

P proiettore ortogonale. Nel caso generale che S = Col(X) e X sia di<br />

rango-colonna pieno, la matrice<br />

P X ≡ X(X ′ X) −1 X ′<br />

µ = P Xy<br />

è la trasformazione lineare di y su Col(X) che produce µ.<br />

24


P X ha due proprietà:<br />

• non modifica i vettori in Col(X)<br />

z ∈ Col(X) ⇒ P Xz = z<br />

• trasforma i vettori ortogonali a Col(X) nel vettore zero.<br />

z ⊥ Col(X) ⇒ P Xz = 0<br />

25


Prova<br />

∀z ∈ Col(X) esiste un α : z = Xα<br />

P Xz = P XXα = X(X ′ X) −1 X ′ Xα = Xα = z<br />

Se z⊥Col(X) : z ′ X = 0, ∀X ∈ Col(X) cosicchè X ′ z = 0 e<br />

<br />

P Xz = X(X ′ X) −1 X ′ z = 0<br />

26


Scomposizione ortogonale<br />

∀z ∈ R N , possiamo scomporre z univocamente nel vettore somma<br />

z1 + z2 dove z1 ∈ Col(X) e z2 ∈ Col ⊥ (X) ≡ {z ∈ R N |X ′ z = 0}. Dove<br />

Col ⊥ (X) è il complemento ortogonale.<br />

Complemento ortogonale<br />

Il sottospazio lineare di vettori S ⊥ , ortogonale al sottospazio S ⊆ V:<br />

S ⊥ = {v ∈ V|u ′ v = 0, ∀u ∈ S}<br />

è chiamato complemento ortogonale di S. E’ equivalente a scrivere<br />

v ∈ S ⊥ come v⊥S. Notiamo che se v ∈ S ∩ S ⊥ allora v ′ v = 0 tale che<br />

v deve essere il vettore zero. In altre parole S ∩ S ⊥ = {0}<br />

27


Proiezione ortogonale<br />

Sia S ⊆ R N (sottospazio lineare) tale che per ogni z ∈ R N c’è un unico<br />

z1 ∈ S ed un unico z2 ∈ S ⊥ tale che z = z1 + z2. Allora la funzione<br />

da R N a S ⊥ che associa ogni z con il suo corrispondente z1 è una<br />

proiezione ortogonale.<br />

Quando S = Col(X) allora P Xz = z1 è la proiezione ortogonale di z su<br />

Col(X). Solo la componente di z in Col(X) sopravvive alla premoltiplicazione<br />

per P X.<br />

La proiezione ortogonale da R N su un sottospazio S è una trasformazione<br />

lineare. (La proiezione ortogonale di una combinazione lineare<br />

di vettori uguaglia la combinazione lineare delle proiezioni ortogonali<br />

dei singoli vettori).<br />

28


Proiettore ortogonale<br />

Ogni proiezione ortogonale da R N in un sottospazio S può essere<br />

rappresentata da una matrice P, chiamata Proiettore ortogonale.<br />

Sia S ⊆ R N , ∀z ∈ R N c’è un unico z1 ∈ S ed un unico z2 ∈ S ⊥ tale che<br />

z = z1 + z2. Allora una matrice (N × N) P tale che Pz = z1 è un<br />

proiettore ortogonale su S.<br />

Un proiettore ortogonale preserva la componente di un vettore in un<br />

sottospazio S e annulla la componente nel sottospazio complementare<br />

ortogonale S ⊥ . Se P è un proiettore ortogonale su un sottospazio di<br />

R N , allora P è unica.<br />

29


Proprietà dei Proiettori ortogonali<br />

1. Simmetria<br />

2. Idempotenza<br />

P X = X(X ′ X)X ′ = [X(X ′ X)X ′ ] ′ = P ′ X<br />

P XP X = [X(X ′ X)X ′ ][X(X ′ X)X ′ ] = X(X ′ X)X ′ = P X<br />

3. Semidefinitezza positiva<br />

Per ogni w ∈ R N<br />

w ′ P Xw = w ′ P XP Xw = w ′ P ′ X P Xw = (P Xw) ′ (P Xw) = ||P Xw|| 2 ≥ 0<br />

30


Osserviamo che<br />

z ∈ Col ⊥ (X) ⇒ (I − P X)z = z<br />

z ∈ Col(X) ⇒ (I − P X)z = 0<br />

cioè M X = (I − P X) è un proiettore ortogonale su Col ⊥ (X), il complemento<br />

ortogonale di Col(X).<br />

31


Multicollinearità esatta<br />

Se esiste un vettore α ∈ R K tale che Xα = 0 allora le colonne di X sono<br />

linearmente indipendenti. Questa situazione è detta multicollinearità<br />

esatta.<br />

Un unico µ esite anche quando X è di rango ridotto. Quando X<br />

e (X ′ X) sono singolari non possiamo usare P X = X(X ′ X) −1 X ′ per<br />

trovare P X.<br />

Quando dim[Col(X)] < K, possiamo trovare P X applicando la formula<br />

ad ogni sottoinsieme linearmente indipendente delle colonne di X cioè<br />

una base per Col(X).<br />

32


Indichiamo con P X il proiettore ortogonale su Col(X) e sia X1 una<br />

matrice composta da un sottoinsieme linearmente di colonne di X tale<br />

che<br />

allora<br />

Col(X1) = Col(X)<br />

P X = X1(X ′ 1 X1) −1 X ′ 1<br />

33

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!