21.06.2013 Views

La Regressione Multipla - DSE

La Regressione Multipla - DSE

La Regressione Multipla - DSE

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>La</strong> <strong>Regressione</strong> <strong>Multipla</strong><br />

Stima OLS della relazione Test Score/STR:<br />

TestScore = 698.9 – 2.28×STR, R 2 = .05, SER = 18.6<br />

(10.4) (0.52)<br />

E’ una stima affidabile dell’effetto causale di una<br />

variazione in STR su TestScore?<br />

No! Ci sono fattori omessi che confondono i risultati<br />

(reddito familiare; non tutti gli studenti sono madre<br />

lingua Inglese) e inducono distorsione nello stimatore<br />

OLS: STR potrebbe “raccogliere” gli effetti di questi<br />

fattori omessi.<br />

1


Distorsione da variabili omesse<br />

<strong>La</strong> possibile distorsione dello stimatore OLS come<br />

conseguenza di fattori omessi è detta distorsione da<br />

variabili omesse. Affinché si verifichi questa distorsione,<br />

il fattore omesso “Z” deve:<br />

1. essere un determinante di Y; e<br />

2. essere correlato con il regressore X.<br />

Entrambe le condizioni deve verificarsi affinché<br />

l’omissione di Z determini distorsione da variabili<br />

omesse.<br />

2


Nel nostro esempio:<br />

1. L’abilità nella lingua inglese (qualora questa sia la<br />

seconda lingua per lo studente) influenza<br />

plausibilmente il punteggio in test standardizzati: Z<br />

è una determinante di Y.<br />

2. Le comunità di immigrati tendono a essere<br />

relativamente meno ricche e ad avere scuole con<br />

risorse (bilanci) limitati – e quindi maggiore STR: Z<br />

è correlata con X<br />

• Di conseguenza, 1<br />

ˆ β è distorto<br />

• Qual è la direzione della distorsione?<br />

• Cosa ci suggerisce il buon senso?<br />

3


<strong>La</strong> distorsione dipende da: Corr( X , errore ) .<br />

Se un fattore omesso Z è contemporaneamente:<br />

(1) una determinante di Y (cioè contenuto nell’errore);<br />

(2) correlato con X,<br />

allora Corr( X , errore) ≠ 0 e lo stimatore OLS 1<br />

ˆ β è<br />

distorto.<br />

<strong>La</strong> distorsione ha sempre lo stesso segno di<br />

Corr( X , errore )<br />

Nel nostro caso: distretti con più studenti madre lingua<br />

inglese (1) hanno punteggi più elevate in test<br />

standardizzati e (2) hanno classi più piccole (più risorse).<br />

Quindi, ignorando il fattore madre lingua si sovrastima<br />

l’effetto “dimensione della classe”.<br />

4


Cosa succede nei nostri dati sui distretti in California?<br />

STR < 20 STR > 20 Differenza nei punteggi<br />

5<br />

piccolo vs. grande STR<br />

Punteggio n Punteggio N Differenza Test t<br />

Tutti 657.4 238 650.0 182 7.4 4.04<br />

PctEL<br />

< 2.2% 664.1 78 665.4 27 -1.3 -0.44<br />

2.2-8.8% 666.1 61 661.8 44 4.3 1.44<br />

8.8-23% 654.6 55 649.7 50 4.9 1.64<br />

>23 % 636.7 44 634.8 61 1.9 0.68<br />

PctEL: % studenti per i quali l’inglese è la seconda lingua.<br />

• Distretti dove la percentuale di studenti per i quali l’Inglese è<br />

la seconda lingua (PctEL) è maggiore hanno punteggi minori,<br />

• Distretti dove PctEL è minore hanno classi più piccole,<br />

• Per distretti con PctEL simili, l’effetto della dimensione della<br />

classe è piccolo (ricordo il differenziale nel “test score”<br />

complessivo di 7.4)


Tre rimedi alla distorsione da variabili omesse<br />

1. Esperimento randomizzato controllato in cui il<br />

trattamento (STR) è assegnato casualmente: allora<br />

PctEL sarà ancora una determinante di TestScore, ma<br />

PctEL sarà incorrelato con STR. (In pratica, poco<br />

realistico.)<br />

2. Tabulazione più fine di STR e PctEL (Problema<br />

della scarsità di dati e poi, come trattare le altre<br />

determinanti come reddito familiare, ecc.?)<br />

3. Utilizzare un metodo in cui la variabile omessa<br />

(PctEL) non è più omessa: includere PctEL come<br />

regressore addizionale in un modello di regressione<br />

multipla.<br />

6


Il modello di regressione multipla nella popolazione<br />

Consideriamo il caso di due regressori:<br />

Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n<br />

• X1, X2 sono due variabili indipendenti (regressori)<br />

• (Yi, X1i, X2i) denota la i ma osservazione su Y, X1, and X2.<br />

• β0 = intercetta nella popolazione (ignota)<br />

• β1 = effetto su Y di una variazione in X1, tenendo X2<br />

costante<br />

• β2 = effetto su Y di una variazione in X2, tenendo X1<br />

costante<br />

• ui = “termine di errore” (fattori omessi)<br />

7


Interpretazione dei coefficienti nel modello di<br />

regressione multipla<br />

Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n<br />

Supponete di modificare X1 di una quantità ∆X1<br />

mantenendo X2 costante:<br />

• Retta di regressione nella popolazione prima del<br />

cambiamento:<br />

Y = β0 + β1X1 + β2X2<br />

• Retta di regressione nella popolazione dopo il<br />

cambiamento:<br />

Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2<br />

8


Prima: Y = β0 + β1(X1 + ∆X1) + β2X2<br />

Dopo: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2<br />

Differenza: ∆Y = β1∆X1<br />

Cioè,<br />

β1 =<br />

e, naturalmente,<br />

Infine,<br />

β2 =<br />

∆Y<br />

∆ X<br />

, mantenendo X2 costante<br />

1<br />

∆Y<br />

∆X<br />

2<br />

, mantenendo X1 costante<br />

β0 = valore previsto di Y quando X1 = X2 = 0.<br />

9


Lo stimatore OLS nel modello di regressione multipla<br />

Con due regressori, lo stimatore OLS risolve:<br />

n<br />

∑<br />

min [ Y − ( b + b X + b X )]<br />

b0, b1, b2 i 0 1 1i 2 2i<br />

i=<br />

1<br />

• Lo stimatore OLS minimizza la media dei quadrati<br />

della differenza tra valori osservati di Yi e la previsione<br />

basata sulla retta stimata.<br />

• Il risultato sono gli stimatori OLS di β0, β1 e β2 .<br />

10<br />

2


Esempio: Dati sui distretti in California<br />

<strong>Regressione</strong> di TestScore su STR:<br />

TestScore = 698.9 – 2.28×STR<br />

Adesso includiamo PctEL: regressione di TestScore su<br />

STR e PctEL<br />

TestScore = 696.0 – 1.10×STR – 0.65PctEL<br />

• Cosa accade al coefficiente di STR?<br />

• Perchè? (Nota: corr(STR, PctEL) = 0.19)<br />

11


<strong>Regressione</strong> multipla in GRETL<br />

Modello 1: Stime OLS usando le 420 osservazioni 1-420<br />

Variabile dipendente: testscr<br />

Errori standard robusti rispetto all'eteroschedasticità, variante HC1<br />

VARIABILE COEFFICIENTE SE t-STAT 2Prob(t>|T|)<br />

0) const 686.032 8.72822 78.599 < 0.00001 ***<br />

9) str -1.10130 0.432847 -2.544 0.011309 **<br />

11) PctEL -0.649777 0.0310318 -20.939 < 0.00001 ***<br />

TestScore = 696.0 – 1.10×STR – 0.65PctEL<br />

(8.72) (.43) (0.03)<br />

12


Il modello di regressione multipla<br />

Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n<br />

1. Corr(Xi, errore) = 0, i=1,2, …, k<br />

2. il campione è casuale<br />

3. No multicollinearità: cioè nessuna variabile<br />

esplicativa può essere ottenuta come combinazione<br />

lineare delle altre.<br />

13


Ipotesi #1:<br />

• Stessa interpretazione della regressione semplice.<br />

• Se una variabile omessa (1) appartiene all’equazione<br />

(ed è finita pertanto in u) e (2) è correlata con le X<br />

incluse, allora l’ipotesi è violata.<br />

• Il fallimento dell’ipotesi porta direttamente alla<br />

distorsione da variabili omesse.<br />

• <strong>La</strong> soluzione – quando possibile – è includere la<br />

variabile omessa nella regressione.<br />

14


Ipotesi #2:<br />

Questa ipotesi è soddisfatta automaticamente se i dati<br />

sono raccolti con campionamento casuale.<br />

15


Ipotesi #3: No multicollinearità perfetta<br />

Si ha Perfetta multicollinearità quando uno dei<br />

regressori è combinazione lineare esatta degli altri<br />

regressori.<br />

• Esempio: regressione di TestScore su costante, D, and<br />

B, dove:<br />

• Di = 1 se STR ≤ 20, = 0 altrimenti;<br />

• Bi = 1 if STR >20, = 0 altrimenti,<br />

quindi Bi = 1 – Di e c’è multicollinearità perfetta<br />

• Ci sarebbe multicollinearità perfetta se non ci fosse<br />

l’intercetta nella regressione?<br />

• Multicollinearità perfetta di solito riflette errori nella<br />

definizione dei regressori o stranezze nei dati.<br />

16


<strong>La</strong> distribuzione campionaria dello stimatore OLS<br />

Sotto le ipotesi OLS di cui sopra,<br />

ˆ<br />

ˆ β ) è inversamente<br />

• β 1 ha media β1, e var( 1<br />

proporzionale a n; e così per 2<br />

ˆ β , …<br />

• A parte per media e varianza, la distribuzione esatta di<br />

ˆ β 1 è molto complicata<br />

ˆ β1−E( ˆ β1)<br />

• è approssimativamente N(0,1) (CLT)<br />

var( ˆ β1)<br />

• e lo stesso vale per 2<br />

ˆ β ,…, ˆ β<br />

k<br />

17


• Verifica di ipotesi e Intervalli di confidenza su un<br />

singolo coefficiente nel modello di regressione<br />

multipla<br />

ˆ β1−E( ˆ β1)<br />

• è approssimativamente N(0,1) (CLT).<br />

var( ˆ β )<br />

1<br />

• Quindi, ipotesi su β1 possono essere verificate usando<br />

il test t usuale, ed intervalli di confidenza sono<br />

costruiti come { ˆ β 1 ± 1.96×SE( ˆ β 1)}.<br />

• E lo stesso vale per β2,…, βk.<br />

ˆ ˆ β non sono di solito indipendenti – e quindi<br />

• β 1 e 2<br />

neppure i rispettivi test t.<br />

18


Esempio: Dati sui distretti in California<br />

(1) TestScore = 698.9 – 2.28×STR<br />

(10.4) (0.52)<br />

(2)<br />

TestScore = 696.0 – 1.10×STR – 0.650PctEL<br />

(8.7) (0.43) (0.031)<br />

• Il coefficiente di STR in (2) è l’effetto su TestScores<br />

di una variazione unitaria in STR, tenendo costante la<br />

percentuale di studenti con inglese come seconda<br />

lingua nel distretto<br />

• Il coefficiente di STR si dimezza<br />

• L’intervallo di confidenza al 95% per il coefficiente di<br />

STR in (2) è {–1.10 ± 1.96×0.43} = (–1.95, –0.26)<br />

19


Verifica di ipotesi congiunte<br />

Sia Expn la spesa per alunno e consideriamo il modello<br />

di regressione nella popolazione:<br />

TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui<br />

Supponete che l’ipotesi nulla sia “le risorse finanziarie<br />

della scuola sono irrilevanti,” mentre l’alternativa “le<br />

risorse finanziarie della scuola sono rilevanti”.<br />

H0: β1 = 0 e β2 = 0<br />

vs. H1: β1 ≠ 0 o β2 ≠ 0 oppure entrambe<br />

20


TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui<br />

H0: β1 = 0 e β2 = 0<br />

vs. H1: β1 ≠ 0 o β2 ≠ 0 oppure entrambe<br />

Una ipotesi congiunta specifica un valore per due o più<br />

coefficienti, cioè, impone vincoli su due o più<br />

coefficienti.<br />

• Idea: rifutare l’ipotesi nulla se uno dei due test t<br />

eccede il valore critico 1.96 in valore assoluto.<br />

• Ma questo è sbagliato! Questa procedura di verifica di<br />

ipotesi non possiede il livello di significatività<br />

corretto!<br />

21


Ecco perché: Calcoliamo la probabilità di rifiutare<br />

l’ipotesi nulla quando questa è vera, utilizzando i test t<br />

individuali. Per semplificare l’algebra ipotizziamo che 1<br />

ˆ β<br />

e 2<br />

ˆ β siano indipendenti. Siano t1 e t2 i test t:<br />

<strong>La</strong> nostra idea era:<br />

t1 = 1<br />

ˆ β 0<br />

SE(<br />

ˆ β )<br />

− β2<br />

e t2 =<br />

1<br />

22<br />

ˆ − 0<br />

SE(<br />

ˆ β )<br />

rifiuto H0: β1 = β2 = 0 se |t1| > 1.96 e/o |t2| > 1.96<br />

Qual è la probabilità che questa strategia di test rifiuti<br />

l’ipotesi nulla quando questa è vera?<br />

Dovrebbe essere il 5% !!<br />

2


Probabilità di rifiutare la nulla quando è vera<br />

= PrH [|t1| > 1.96 e/o |t2| > 1.96]<br />

0<br />

= PrH [|t1| > 1.96, |t2| > 1.96]<br />

0<br />

+ PrH [|t1| > 1.96, |t2| ≤ 1.96]<br />

0<br />

+ PrH [|t1| ≤ 1.96, |t2| > 1.96] (eventi disgiunti)<br />

0<br />

= PrH [|t1| > 1.96] × Pr<br />

0<br />

H [|t2| > 1.96]<br />

0<br />

+ PrH [|t1| > 1.96] × Pr<br />

0<br />

H [|t2| ≤ 1.96]<br />

0<br />

+ PrH [|t1| ≤ 1.96] × Pr<br />

0<br />

H [|t2| > 1.96]<br />

0<br />

(t1, t2 sono indipendenti per ipotesi)<br />

= .05×.05 + .05×.95 + .95×.05<br />

= .0975 = 9.75% – che non è il livello desiderato del 5%!<br />

23


Il livello (size) di un test la probabilità di rifiutare la<br />

nulla quando questa è vera.<br />

• Il livello di questa procedura di test non è il 5%!<br />

• In realtà, il livello dipende dalla correlazione tra t1 e t2<br />

(e quindi dalla correlazione tra 1<br />

ˆ β e 2<br />

ˆ β ).<br />

Due Soluzioni:<br />

• Usare differenti valori critici – non 1.96 (“metodo di<br />

Bonferroni”)<br />

• Usare una statistica test alternativa che verifichi<br />

congiuntamente β1 e β2 : la statistica F.<br />

24


Test F<br />

• Il test F verifica congiuntamente tutte le componenti<br />

dell’ipotesi.<br />

• In grandi campioni, il test F è distribuito come<br />

Oppure, qF è distribuito come un<br />

q<br />

25<br />

2<br />

χ q .<br />

Valore critico al 5%<br />

2<br />

χ q /q<br />

2<br />

χq<br />

1 3.84 3.84<br />

2 3.00 5.99<br />

3 2.60 7.81<br />

4 2.37 9.49<br />

5 2.21 11.07<br />

2<br />

χ q /q.


p-value quando si usa il test F:<br />

p-value = probabilità di una v.a. χ /q a destra del<br />

valore calcolato F; oppure probabilità di una v.a.<br />

a destra del valore calcolato qF.<br />

26<br />

2<br />

q<br />

2<br />

χ q /q<br />

Implementazione in GRETL<br />

Usiamo il commando “test/linear restrictions” dopo<br />

aver stimato con OLS il modello di regressione<br />

Esempio: Verifica dell’ipotesi nulla che i coefficienti di<br />

STR e spesa per alunno (expn_stu) siano entrambi nulli<br />

nella popolazione, contro l’alternativa che almeno uno di<br />

essi sia diverso da zero nella popolazione.


Esempio test F, dati sui distretti in California:<br />

Dependent variable: testscr<br />

VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|)<br />

const 649.578 15.4583 42.021 < 0.00001 ***<br />

str -0.286399 0.482073 -0.594 0.552768<br />

expn_stu 0.00386790 0.00158072 2.447 0.014821 **<br />

el_pct -0.656023 0.0317844 -20.640 < 0.00001 ***<br />

Usiamo il commando “test/linear restrictions” scrivendo<br />

per ottenere<br />

Restriction set<br />

1: b[str] = 0<br />

2: b[expn_stu] = 0<br />

Restrict<br />

b1=0<br />

b2=0<br />

end restrict<br />

Test statistic: Robust F(2, 416) = 5.43373, with p-value = 0.0046823<br />

27


Il caso generale<br />

Per calcolare il test F nel caso generale di vincoli<br />

qualsiasi sui parametri, procediamo come segue:<br />

• Due regressioni:<br />

1. una sotto l’ipotesi nulla (“regressione vincolata”)<br />

2. l’altra sotto l’ipotesi alternativa (“regressione non<br />

vincolata”).<br />

• Calcoliamo la variazione percentuale nella Somma dei<br />

Quadrati dei Residui (SQR) delle due regressioni.<br />

• Test F:<br />

F<br />

SQR − SQR n−k SQR q<br />

= V NV ⋅<br />

NV<br />

28


dove:<br />

• SQRV: somma dei quadrati dei residui nella<br />

regressione vincolata;<br />

• SQRNV: somma dei quadrati dei residui nella<br />

regressione non vincolata;<br />

• n: numero di osservazioni;<br />

• k: numero di parametri stimati nella regressione non<br />

vincolata;<br />

• q: numero di vincoli<br />

Il test F valuta la variazione percentuale nella SQR.<br />

F ∼ χ q<br />

2<br />

q /<br />

Si ha che, oppure<br />

29<br />

2<br />

qF ∼ χ q


<strong>Regressione</strong> “vincolata” e “non vincolata”<br />

Esempio: I coefficienti di STR e Expn sono nulli?<br />

<strong>Regressione</strong> vincolata (cioè, sotto H0):<br />

TestScorei = β0 + β3PctELi + ui<br />

<strong>Regressione</strong> non vincolata (sotto H1):<br />

TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui<br />

• Numero di vincoli sotto H0 , q = 2.<br />

• Numero di parametri sotto H1, k=4<br />

• Numero di osservazioni, n=420<br />

30


<strong>La</strong> SQR sarà maggiore nelle regressione vincolata o in<br />

quella non vincolata? E perchè?<br />

• SQRNV: minimo della funzione<br />

n<br />

Sb ( , b, b) = ∑[<br />

Y− ( b+ bX + bX )]<br />

0 1 2 i 0 1 1i 2 2i<br />

i=<br />

1<br />

quando valutata in ( ˆ β ˆ ˆ<br />

0, ββ 1, 2)<br />

, che effettivamente la<br />

minimizza!<br />

Infatti, se sostituendo<br />

0 1 2<br />

n<br />

= ∑ i − 0 + 1 1i + 2 2i<br />

n<br />

2<br />

= ∑<br />

2<br />

i<br />

i= 1 i=<br />

1<br />

S( ˆ β , ˆ β , ˆ β ) [ Y ( ˆ β ˆ β X ˆ β X )] uˆ<br />

che è proprio SQRNV.<br />

31<br />

2


• SQRV: minimo della funzione<br />

n<br />

Sb ( , b, b) = ∑[<br />

Y− ( b+ bX + bX )]<br />

0 1 2 i 0 1 1i 2 2i<br />

i=<br />

1<br />

in presenza del vincolo. Inoltre, è SEMPRE vero che<br />

Perché?<br />

SQRV > SQRNV<br />

Perché se sono sottoposto ad un vincolo non potrò mai<br />

fare tanto bene quanto senza il vincolo!<br />

32<br />

2


Quindi,<br />

Se i dati non sono compatibili con l’ipotesi nulla<br />

SQRV molto distante da SQRNV<br />

e avremo ∆% SQR grande, test F grande, rifiuto H0.<br />

Al contrario, se i dati provengono dalla<br />

popolazione in cui l’ipotesi nulla è vera<br />

SQRV simile a SQRNV<br />

e avremo ∆% SQR grande, test F piccolo, non rifiuto H0.<br />

Conclusione: Di quanto dovrebbe aumentare la SQR per<br />

poter dire che i coefficienti di Expn e PctEL sono<br />

statisticamente significativi?<br />

33


Example:<br />

<strong>Regressione</strong> vincolata:<br />

TestScore = 644.7 –0.671PctEL, SQR V = 0.4149<br />

(1.0) (0.032)<br />

<strong>Regressione</strong> non vincolata: k = 3; q = 2<br />

TestScore = 649.6 – 0.29STR + 3.87Expn – 0.656PctEL<br />

(15.5) (0.48) (1.59) (0.032)<br />

SQR NV = 0.4366;<br />

Quindi:<br />

F<br />

F<br />

SQR − SQR n−k SQR q<br />

= V NV ⋅<br />

NV<br />

(89000 − 85699.7) 420 − 3<br />

= ⋅ = 8.01<br />

85699.7 2<br />

34


Statistica F<br />

F<br />

SQR − SQR n−k SQR q<br />

= V NV ⋅<br />

NV<br />

• <strong>La</strong> statistica F rifiuta quando l’inclusione del vincolo<br />

fa aumentare “troppo” la SQR – cioè quando il<br />

vincolo fa peggiorare “troppo” l’adattamento della<br />

regressione<br />

• <strong>La</strong> statistica F è approssimabile da<br />

35<br />

2<br />

χ q /q per n grande.


Riassunto: il test F e la distribuzione F<br />

• Il test F è usato in modo diffuso.<br />

• Per n ≥ 100, la distribuzione F è essenzialmente la<br />

distribuzione<br />

2<br />

χ q /q. Per n piccolo, non è detto che la<br />

distribuzione F sia una buona approssimazione alla<br />

distribuzione campionaria della statistica F<br />

36


Verifica di una singola ipotesi su più coefficienti di<br />

regressione<br />

Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n<br />

Consideriamo l’ipotesi nulla e l’alternativa,<br />

H0: β1 = β2 vs. H1: β1 ≠ β2<br />

Questa nulla impone un singolo vincolo (q = 1) su più<br />

coefficienti – non è una ipotesi congiunta su più<br />

coefficienti (confronto con β1 = 0 e β2 = 0).<br />

37


Alcuni software, GRETL incluso, ci permettono di<br />

verificare direttamente vincoli sui coefficienti.<br />

Esempio:<br />

TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui<br />

Usando Gretl, se β1 = β2,, si ha che β1-β2=0<br />

Restrict<br />

b1 – b2 =0<br />

end restrict<br />

38


R 2 , SQR, e<br />

2<br />

R per la regressione multipla<br />

Valore osservato = valore previsto + residui<br />

Yi = Y ˆ<br />

i + u ˆi In una regressione con un solo regressore, la SQR è una<br />

misura della dispersione di Y “attorno” alla retta di<br />

regressione:<br />

SER =<br />

n 1<br />

uˆ<br />

n−k −1= ∑<br />

39<br />

i<br />

1<br />

2<br />

i


R 2 è la quota di varianza spiegata:<br />

dove ESS =<br />

n<br />

∑<br />

i=<br />

1<br />

( Yˆ −Yˆ)<br />

i<br />

R 2 = ESS<br />

TSS<br />

2<br />

, SSR =<br />

40<br />

SSR<br />

= 1− ,<br />

TSS<br />

n<br />

∑<br />

2<br />

uˆ<br />

i , e TSS =<br />

i=<br />

1<br />

n<br />

∑<br />

i=<br />

1<br />

( Y −Y)<br />

– proprio come nella regressione semplice.<br />

• R 2 aumenta sempre quando si aggiunge un regressore<br />

– problema per un indicatore della fit!<br />

2<br />

• R corregge questo problema “penalizzando<br />

“l’inclusione di regressori addizionali:<br />

2<br />

R =<br />

⎛ n−1⎞SSR 1−<br />

⎜ ⎟<br />

⎝n−k −1⎠TSS<br />

so<br />

2<br />

R < R 2<br />

i<br />

2


Come interpretare R 2 2<br />

e R ?<br />

• Un elevato R 2 (o<br />

spiega la varaibilità in Y.<br />

• Un elevato R 2 2<br />

(o R ) non significa che avete<br />

eliminato la distorsione da variabili omesse.<br />

• Un elevato R 2 (o<br />

uno stimatore corretto dell’effetto causale (β1).<br />

2<br />

R ) significa che la regressione<br />

2<br />

R ) non significa che avete ottenuto<br />

• Un elevato R 2 2<br />

(o R ) non significa che le variabili<br />

incluse sono statisticamente significative – questo si<br />

determina attraverso la verifica di ipotesi.<br />

41


Esempio: Un sguardo più accurato ai dati sui<br />

distretti, California<br />

Un approccio generale alla selezione delle variabili e<br />

alla specificazione del modello:<br />

• Specificare un modello “base” o “benchmark”.<br />

• Specificare un insieme di modelli alternativi, che<br />

includa altre possibili variabili esplicative.<br />

• L’inclusione di una di queste eventuali variabili<br />

esplicative modifica il coefficiente di interesse (β1)?<br />

• Questa eventuale variabili è statisticamente<br />

significativa?<br />

• Usare il buon senso, non approccio meccanico …<br />

42


Variabili che ci piacerebbe vedere in questo dataset:<br />

Caratteristiche della scuola:<br />

• Rapporto studenti-docenti<br />

• Qualità dei docenti<br />

• PC (risorse non umane) per studente<br />

Caratteristiche degli studenti:<br />

• Abilità nella lingua inglese<br />

• Possibilità di arricchimento culturale extra-curriculum<br />

• Ambiente familiare<br />

• Titolo di studio dei genitori<br />

43


Variabili effettivamente presenti nel dataset:<br />

• Percentuale di non madre lingua inglese (PctEL)<br />

• rapporto studenti/docenti (STR)<br />

• percentuale di eleggibili per buoni mensa<br />

• percentuale di famiglie con sussidio statale<br />

• reddito medio per distretto<br />

44


%non madre lingua inglese %eleggibili buoni mensa<br />

%famiglie con sussidio statale<br />

Correlazione tra TestScore e PctEL: -0.64<br />

Correlazione tra TestScore ed eleggibili buoni mensa: -0.87<br />

Correlazione tra TestScore e famiglie con sussidio statale: -0.63<br />

45


Digressione: presentazione dei risultati della regressione<br />

• Elencare le equazioni di regressione può risultare pesante<br />

se ci sono molti regressori e molte regressioni.<br />

• Alcune tabelle con risultati delle regressioni possono<br />

contenere le informazioni chiave in modo compatto.<br />

• Informazioni da includere:<br />

variabili nelle regressioni (dependent and independent)<br />

stime dei coefficienti<br />

standard errors<br />

esiti (e valore) dei test F delle ipotesi di interesse<br />

alcuni indicatori della fit della regressione<br />

numero di osservazioni<br />

46


Ad esempio:<br />

Variabili dipendente: Punteggio medio per distretto<br />

Regressore (1) (2) (3) (4) (5)<br />

STR (X1) -2-28** -1-10* -1.00** -1.31** -1.01**<br />

(0.52) (0.43) (0.27) (0.34) (0.27)<br />

PctEL (X2) -0.65** -0.122** -0.488** -0.130**<br />

(0.031) (0.033) (0.030) (0.036)<br />

% eleggibili<br />

-0.547**<br />

-0.529**<br />

buoni pasto (X3)<br />

(0.024)<br />

(0.038)<br />

% famiglie con<br />

-0.790** 0.048<br />

sussidio statale (X4)<br />

(0.068) (0.059)<br />

Intercetta 698.9** 686.0** 700.2** 698.0** 700.4**<br />

Statistiche di sintesi<br />

(10.4) (8.7) (5.6) (6.9) (5.5)<br />

SQR 18.58 14.46 9.08 11.65 9.08<br />

2<br />

R 0.049 0.424 0.773 0.626 0.773<br />

n 420 420 420 420 420<br />

**: indica significatività all’1%; *: indica significatività al 5%.<br />

47


Riassunto: <strong>Regressione</strong> <strong>Multipla</strong><br />

• <strong>La</strong> <strong>Regressione</strong> <strong>Multipla</strong> ci permette di stimare<br />

l’effetto su Y di una variazione in X1, con costante X2.<br />

• Se esistono osservazioni su una variabile, è possible<br />

evitare la distorsione da variabili omesse includendo<br />

quella variabile.<br />

• Non c’è una ricetta semplice per decidere quali<br />

variabili includere in una regressione–ci vuole buon<br />

senso.<br />

• Idea: specificare un modello base – basandosi su<br />

ragionamenti a-priori – e poi esplorare la sensibilità<br />

delle stime chiave in specificazioni alternative.<br />

48

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!