La Regressione Multipla - DSE
La Regressione Multipla - DSE
La Regressione Multipla - DSE
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>La</strong> <strong>Regressione</strong> <strong>Multipla</strong><br />
Stima OLS della relazione Test Score/STR:<br />
TestScore = 698.9 – 2.28×STR, R 2 = .05, SER = 18.6<br />
(10.4) (0.52)<br />
E’ una stima affidabile dell’effetto causale di una<br />
variazione in STR su TestScore?<br />
No! Ci sono fattori omessi che confondono i risultati<br />
(reddito familiare; non tutti gli studenti sono madre<br />
lingua Inglese) e inducono distorsione nello stimatore<br />
OLS: STR potrebbe “raccogliere” gli effetti di questi<br />
fattori omessi.<br />
1
Distorsione da variabili omesse<br />
<strong>La</strong> possibile distorsione dello stimatore OLS come<br />
conseguenza di fattori omessi è detta distorsione da<br />
variabili omesse. Affinché si verifichi questa distorsione,<br />
il fattore omesso “Z” deve:<br />
1. essere un determinante di Y; e<br />
2. essere correlato con il regressore X.<br />
Entrambe le condizioni deve verificarsi affinché<br />
l’omissione di Z determini distorsione da variabili<br />
omesse.<br />
2
Nel nostro esempio:<br />
1. L’abilità nella lingua inglese (qualora questa sia la<br />
seconda lingua per lo studente) influenza<br />
plausibilmente il punteggio in test standardizzati: Z<br />
è una determinante di Y.<br />
2. Le comunità di immigrati tendono a essere<br />
relativamente meno ricche e ad avere scuole con<br />
risorse (bilanci) limitati – e quindi maggiore STR: Z<br />
è correlata con X<br />
• Di conseguenza, 1<br />
ˆ β è distorto<br />
• Qual è la direzione della distorsione?<br />
• Cosa ci suggerisce il buon senso?<br />
3
<strong>La</strong> distorsione dipende da: Corr( X , errore ) .<br />
Se un fattore omesso Z è contemporaneamente:<br />
(1) una determinante di Y (cioè contenuto nell’errore);<br />
(2) correlato con X,<br />
allora Corr( X , errore) ≠ 0 e lo stimatore OLS 1<br />
ˆ β è<br />
distorto.<br />
<strong>La</strong> distorsione ha sempre lo stesso segno di<br />
Corr( X , errore )<br />
Nel nostro caso: distretti con più studenti madre lingua<br />
inglese (1) hanno punteggi più elevate in test<br />
standardizzati e (2) hanno classi più piccole (più risorse).<br />
Quindi, ignorando il fattore madre lingua si sovrastima<br />
l’effetto “dimensione della classe”.<br />
4
Cosa succede nei nostri dati sui distretti in California?<br />
STR < 20 STR > 20 Differenza nei punteggi<br />
5<br />
piccolo vs. grande STR<br />
Punteggio n Punteggio N Differenza Test t<br />
Tutti 657.4 238 650.0 182 7.4 4.04<br />
PctEL<br />
< 2.2% 664.1 78 665.4 27 -1.3 -0.44<br />
2.2-8.8% 666.1 61 661.8 44 4.3 1.44<br />
8.8-23% 654.6 55 649.7 50 4.9 1.64<br />
>23 % 636.7 44 634.8 61 1.9 0.68<br />
PctEL: % studenti per i quali l’inglese è la seconda lingua.<br />
• Distretti dove la percentuale di studenti per i quali l’Inglese è<br />
la seconda lingua (PctEL) è maggiore hanno punteggi minori,<br />
• Distretti dove PctEL è minore hanno classi più piccole,<br />
• Per distretti con PctEL simili, l’effetto della dimensione della<br />
classe è piccolo (ricordo il differenziale nel “test score”<br />
complessivo di 7.4)
Tre rimedi alla distorsione da variabili omesse<br />
1. Esperimento randomizzato controllato in cui il<br />
trattamento (STR) è assegnato casualmente: allora<br />
PctEL sarà ancora una determinante di TestScore, ma<br />
PctEL sarà incorrelato con STR. (In pratica, poco<br />
realistico.)<br />
2. Tabulazione più fine di STR e PctEL (Problema<br />
della scarsità di dati e poi, come trattare le altre<br />
determinanti come reddito familiare, ecc.?)<br />
3. Utilizzare un metodo in cui la variabile omessa<br />
(PctEL) non è più omessa: includere PctEL come<br />
regressore addizionale in un modello di regressione<br />
multipla.<br />
6
Il modello di regressione multipla nella popolazione<br />
Consideriamo il caso di due regressori:<br />
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n<br />
• X1, X2 sono due variabili indipendenti (regressori)<br />
• (Yi, X1i, X2i) denota la i ma osservazione su Y, X1, and X2.<br />
• β0 = intercetta nella popolazione (ignota)<br />
• β1 = effetto su Y di una variazione in X1, tenendo X2<br />
costante<br />
• β2 = effetto su Y di una variazione in X2, tenendo X1<br />
costante<br />
• ui = “termine di errore” (fattori omessi)<br />
7
Interpretazione dei coefficienti nel modello di<br />
regressione multipla<br />
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n<br />
Supponete di modificare X1 di una quantità ∆X1<br />
mantenendo X2 costante:<br />
• Retta di regressione nella popolazione prima del<br />
cambiamento:<br />
Y = β0 + β1X1 + β2X2<br />
• Retta di regressione nella popolazione dopo il<br />
cambiamento:<br />
Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2<br />
8
Prima: Y = β0 + β1(X1 + ∆X1) + β2X2<br />
Dopo: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2<br />
Differenza: ∆Y = β1∆X1<br />
Cioè,<br />
β1 =<br />
e, naturalmente,<br />
Infine,<br />
β2 =<br />
∆Y<br />
∆ X<br />
, mantenendo X2 costante<br />
1<br />
∆Y<br />
∆X<br />
2<br />
, mantenendo X1 costante<br />
β0 = valore previsto di Y quando X1 = X2 = 0.<br />
9
Lo stimatore OLS nel modello di regressione multipla<br />
Con due regressori, lo stimatore OLS risolve:<br />
n<br />
∑<br />
min [ Y − ( b + b X + b X )]<br />
b0, b1, b2 i 0 1 1i 2 2i<br />
i=<br />
1<br />
• Lo stimatore OLS minimizza la media dei quadrati<br />
della differenza tra valori osservati di Yi e la previsione<br />
basata sulla retta stimata.<br />
• Il risultato sono gli stimatori OLS di β0, β1 e β2 .<br />
10<br />
2
Esempio: Dati sui distretti in California<br />
<strong>Regressione</strong> di TestScore su STR:<br />
TestScore = 698.9 – 2.28×STR<br />
Adesso includiamo PctEL: regressione di TestScore su<br />
STR e PctEL<br />
TestScore = 696.0 – 1.10×STR – 0.65PctEL<br />
• Cosa accade al coefficiente di STR?<br />
• Perchè? (Nota: corr(STR, PctEL) = 0.19)<br />
11
<strong>Regressione</strong> multipla in GRETL<br />
Modello 1: Stime OLS usando le 420 osservazioni 1-420<br />
Variabile dipendente: testscr<br />
Errori standard robusti rispetto all'eteroschedasticità, variante HC1<br />
VARIABILE COEFFICIENTE SE t-STAT 2Prob(t>|T|)<br />
0) const 686.032 8.72822 78.599 < 0.00001 ***<br />
9) str -1.10130 0.432847 -2.544 0.011309 **<br />
11) PctEL -0.649777 0.0310318 -20.939 < 0.00001 ***<br />
TestScore = 696.0 – 1.10×STR – 0.65PctEL<br />
(8.72) (.43) (0.03)<br />
12
Il modello di regressione multipla<br />
Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n<br />
1. Corr(Xi, errore) = 0, i=1,2, …, k<br />
2. il campione è casuale<br />
3. No multicollinearità: cioè nessuna variabile<br />
esplicativa può essere ottenuta come combinazione<br />
lineare delle altre.<br />
13
Ipotesi #1:<br />
• Stessa interpretazione della regressione semplice.<br />
• Se una variabile omessa (1) appartiene all’equazione<br />
(ed è finita pertanto in u) e (2) è correlata con le X<br />
incluse, allora l’ipotesi è violata.<br />
• Il fallimento dell’ipotesi porta direttamente alla<br />
distorsione da variabili omesse.<br />
• <strong>La</strong> soluzione – quando possibile – è includere la<br />
variabile omessa nella regressione.<br />
14
Ipotesi #2:<br />
Questa ipotesi è soddisfatta automaticamente se i dati<br />
sono raccolti con campionamento casuale.<br />
15
Ipotesi #3: No multicollinearità perfetta<br />
Si ha Perfetta multicollinearità quando uno dei<br />
regressori è combinazione lineare esatta degli altri<br />
regressori.<br />
• Esempio: regressione di TestScore su costante, D, and<br />
B, dove:<br />
• Di = 1 se STR ≤ 20, = 0 altrimenti;<br />
• Bi = 1 if STR >20, = 0 altrimenti,<br />
quindi Bi = 1 – Di e c’è multicollinearità perfetta<br />
• Ci sarebbe multicollinearità perfetta se non ci fosse<br />
l’intercetta nella regressione?<br />
• Multicollinearità perfetta di solito riflette errori nella<br />
definizione dei regressori o stranezze nei dati.<br />
16
<strong>La</strong> distribuzione campionaria dello stimatore OLS<br />
Sotto le ipotesi OLS di cui sopra,<br />
ˆ<br />
ˆ β ) è inversamente<br />
• β 1 ha media β1, e var( 1<br />
proporzionale a n; e così per 2<br />
ˆ β , …<br />
• A parte per media e varianza, la distribuzione esatta di<br />
ˆ β 1 è molto complicata<br />
ˆ β1−E( ˆ β1)<br />
• è approssimativamente N(0,1) (CLT)<br />
var( ˆ β1)<br />
• e lo stesso vale per 2<br />
ˆ β ,…, ˆ β<br />
k<br />
17
• Verifica di ipotesi e Intervalli di confidenza su un<br />
singolo coefficiente nel modello di regressione<br />
multipla<br />
ˆ β1−E( ˆ β1)<br />
• è approssimativamente N(0,1) (CLT).<br />
var( ˆ β )<br />
1<br />
• Quindi, ipotesi su β1 possono essere verificate usando<br />
il test t usuale, ed intervalli di confidenza sono<br />
costruiti come { ˆ β 1 ± 1.96×SE( ˆ β 1)}.<br />
• E lo stesso vale per β2,…, βk.<br />
ˆ ˆ β non sono di solito indipendenti – e quindi<br />
• β 1 e 2<br />
neppure i rispettivi test t.<br />
18
Esempio: Dati sui distretti in California<br />
(1) TestScore = 698.9 – 2.28×STR<br />
(10.4) (0.52)<br />
(2)<br />
TestScore = 696.0 – 1.10×STR – 0.650PctEL<br />
(8.7) (0.43) (0.031)<br />
• Il coefficiente di STR in (2) è l’effetto su TestScores<br />
di una variazione unitaria in STR, tenendo costante la<br />
percentuale di studenti con inglese come seconda<br />
lingua nel distretto<br />
• Il coefficiente di STR si dimezza<br />
• L’intervallo di confidenza al 95% per il coefficiente di<br />
STR in (2) è {–1.10 ± 1.96×0.43} = (–1.95, –0.26)<br />
19
Verifica di ipotesi congiunte<br />
Sia Expn la spesa per alunno e consideriamo il modello<br />
di regressione nella popolazione:<br />
TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui<br />
Supponete che l’ipotesi nulla sia “le risorse finanziarie<br />
della scuola sono irrilevanti,” mentre l’alternativa “le<br />
risorse finanziarie della scuola sono rilevanti”.<br />
H0: β1 = 0 e β2 = 0<br />
vs. H1: β1 ≠ 0 o β2 ≠ 0 oppure entrambe<br />
20
TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui<br />
H0: β1 = 0 e β2 = 0<br />
vs. H1: β1 ≠ 0 o β2 ≠ 0 oppure entrambe<br />
Una ipotesi congiunta specifica un valore per due o più<br />
coefficienti, cioè, impone vincoli su due o più<br />
coefficienti.<br />
• Idea: rifutare l’ipotesi nulla se uno dei due test t<br />
eccede il valore critico 1.96 in valore assoluto.<br />
• Ma questo è sbagliato! Questa procedura di verifica di<br />
ipotesi non possiede il livello di significatività<br />
corretto!<br />
21
Ecco perché: Calcoliamo la probabilità di rifiutare<br />
l’ipotesi nulla quando questa è vera, utilizzando i test t<br />
individuali. Per semplificare l’algebra ipotizziamo che 1<br />
ˆ β<br />
e 2<br />
ˆ β siano indipendenti. Siano t1 e t2 i test t:<br />
<strong>La</strong> nostra idea era:<br />
t1 = 1<br />
ˆ β 0<br />
SE(<br />
ˆ β )<br />
− β2<br />
e t2 =<br />
1<br />
22<br />
ˆ − 0<br />
SE(<br />
ˆ β )<br />
rifiuto H0: β1 = β2 = 0 se |t1| > 1.96 e/o |t2| > 1.96<br />
Qual è la probabilità che questa strategia di test rifiuti<br />
l’ipotesi nulla quando questa è vera?<br />
Dovrebbe essere il 5% !!<br />
2
Probabilità di rifiutare la nulla quando è vera<br />
= PrH [|t1| > 1.96 e/o |t2| > 1.96]<br />
0<br />
= PrH [|t1| > 1.96, |t2| > 1.96]<br />
0<br />
+ PrH [|t1| > 1.96, |t2| ≤ 1.96]<br />
0<br />
+ PrH [|t1| ≤ 1.96, |t2| > 1.96] (eventi disgiunti)<br />
0<br />
= PrH [|t1| > 1.96] × Pr<br />
0<br />
H [|t2| > 1.96]<br />
0<br />
+ PrH [|t1| > 1.96] × Pr<br />
0<br />
H [|t2| ≤ 1.96]<br />
0<br />
+ PrH [|t1| ≤ 1.96] × Pr<br />
0<br />
H [|t2| > 1.96]<br />
0<br />
(t1, t2 sono indipendenti per ipotesi)<br />
= .05×.05 + .05×.95 + .95×.05<br />
= .0975 = 9.75% – che non è il livello desiderato del 5%!<br />
23
Il livello (size) di un test la probabilità di rifiutare la<br />
nulla quando questa è vera.<br />
• Il livello di questa procedura di test non è il 5%!<br />
• In realtà, il livello dipende dalla correlazione tra t1 e t2<br />
(e quindi dalla correlazione tra 1<br />
ˆ β e 2<br />
ˆ β ).<br />
Due Soluzioni:<br />
• Usare differenti valori critici – non 1.96 (“metodo di<br />
Bonferroni”)<br />
• Usare una statistica test alternativa che verifichi<br />
congiuntamente β1 e β2 : la statistica F.<br />
24
Test F<br />
• Il test F verifica congiuntamente tutte le componenti<br />
dell’ipotesi.<br />
• In grandi campioni, il test F è distribuito come<br />
Oppure, qF è distribuito come un<br />
q<br />
25<br />
2<br />
χ q .<br />
Valore critico al 5%<br />
2<br />
χ q /q<br />
2<br />
χq<br />
1 3.84 3.84<br />
2 3.00 5.99<br />
3 2.60 7.81<br />
4 2.37 9.49<br />
5 2.21 11.07<br />
2<br />
χ q /q.
p-value quando si usa il test F:<br />
p-value = probabilità di una v.a. χ /q a destra del<br />
valore calcolato F; oppure probabilità di una v.a.<br />
a destra del valore calcolato qF.<br />
26<br />
2<br />
q<br />
2<br />
χ q /q<br />
Implementazione in GRETL<br />
Usiamo il commando “test/linear restrictions” dopo<br />
aver stimato con OLS il modello di regressione<br />
Esempio: Verifica dell’ipotesi nulla che i coefficienti di<br />
STR e spesa per alunno (expn_stu) siano entrambi nulli<br />
nella popolazione, contro l’alternativa che almeno uno di<br />
essi sia diverso da zero nella popolazione.
Esempio test F, dati sui distretti in California:<br />
Dependent variable: testscr<br />
VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|)<br />
const 649.578 15.4583 42.021 < 0.00001 ***<br />
str -0.286399 0.482073 -0.594 0.552768<br />
expn_stu 0.00386790 0.00158072 2.447 0.014821 **<br />
el_pct -0.656023 0.0317844 -20.640 < 0.00001 ***<br />
Usiamo il commando “test/linear restrictions” scrivendo<br />
per ottenere<br />
Restriction set<br />
1: b[str] = 0<br />
2: b[expn_stu] = 0<br />
Restrict<br />
b1=0<br />
b2=0<br />
end restrict<br />
Test statistic: Robust F(2, 416) = 5.43373, with p-value = 0.0046823<br />
27
Il caso generale<br />
Per calcolare il test F nel caso generale di vincoli<br />
qualsiasi sui parametri, procediamo come segue:<br />
• Due regressioni:<br />
1. una sotto l’ipotesi nulla (“regressione vincolata”)<br />
2. l’altra sotto l’ipotesi alternativa (“regressione non<br />
vincolata”).<br />
• Calcoliamo la variazione percentuale nella Somma dei<br />
Quadrati dei Residui (SQR) delle due regressioni.<br />
• Test F:<br />
F<br />
SQR − SQR n−k SQR q<br />
= V NV ⋅<br />
NV<br />
28
dove:<br />
• SQRV: somma dei quadrati dei residui nella<br />
regressione vincolata;<br />
• SQRNV: somma dei quadrati dei residui nella<br />
regressione non vincolata;<br />
• n: numero di osservazioni;<br />
• k: numero di parametri stimati nella regressione non<br />
vincolata;<br />
• q: numero di vincoli<br />
Il test F valuta la variazione percentuale nella SQR.<br />
F ∼ χ q<br />
2<br />
q /<br />
Si ha che, oppure<br />
29<br />
2<br />
qF ∼ χ q
<strong>Regressione</strong> “vincolata” e “non vincolata”<br />
Esempio: I coefficienti di STR e Expn sono nulli?<br />
<strong>Regressione</strong> vincolata (cioè, sotto H0):<br />
TestScorei = β0 + β3PctELi + ui<br />
<strong>Regressione</strong> non vincolata (sotto H1):<br />
TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui<br />
• Numero di vincoli sotto H0 , q = 2.<br />
• Numero di parametri sotto H1, k=4<br />
• Numero di osservazioni, n=420<br />
30
<strong>La</strong> SQR sarà maggiore nelle regressione vincolata o in<br />
quella non vincolata? E perchè?<br />
• SQRNV: minimo della funzione<br />
n<br />
Sb ( , b, b) = ∑[<br />
Y− ( b+ bX + bX )]<br />
0 1 2 i 0 1 1i 2 2i<br />
i=<br />
1<br />
quando valutata in ( ˆ β ˆ ˆ<br />
0, ββ 1, 2)<br />
, che effettivamente la<br />
minimizza!<br />
Infatti, se sostituendo<br />
0 1 2<br />
n<br />
= ∑ i − 0 + 1 1i + 2 2i<br />
n<br />
2<br />
= ∑<br />
2<br />
i<br />
i= 1 i=<br />
1<br />
S( ˆ β , ˆ β , ˆ β ) [ Y ( ˆ β ˆ β X ˆ β X )] uˆ<br />
che è proprio SQRNV.<br />
31<br />
2
• SQRV: minimo della funzione<br />
n<br />
Sb ( , b, b) = ∑[<br />
Y− ( b+ bX + bX )]<br />
0 1 2 i 0 1 1i 2 2i<br />
i=<br />
1<br />
in presenza del vincolo. Inoltre, è SEMPRE vero che<br />
Perché?<br />
SQRV > SQRNV<br />
Perché se sono sottoposto ad un vincolo non potrò mai<br />
fare tanto bene quanto senza il vincolo!<br />
32<br />
2
Quindi,<br />
Se i dati non sono compatibili con l’ipotesi nulla<br />
SQRV molto distante da SQRNV<br />
e avremo ∆% SQR grande, test F grande, rifiuto H0.<br />
Al contrario, se i dati provengono dalla<br />
popolazione in cui l’ipotesi nulla è vera<br />
SQRV simile a SQRNV<br />
e avremo ∆% SQR grande, test F piccolo, non rifiuto H0.<br />
Conclusione: Di quanto dovrebbe aumentare la SQR per<br />
poter dire che i coefficienti di Expn e PctEL sono<br />
statisticamente significativi?<br />
33
Example:<br />
<strong>Regressione</strong> vincolata:<br />
TestScore = 644.7 –0.671PctEL, SQR V = 0.4149<br />
(1.0) (0.032)<br />
<strong>Regressione</strong> non vincolata: k = 3; q = 2<br />
TestScore = 649.6 – 0.29STR + 3.87Expn – 0.656PctEL<br />
(15.5) (0.48) (1.59) (0.032)<br />
SQR NV = 0.4366;<br />
Quindi:<br />
F<br />
F<br />
SQR − SQR n−k SQR q<br />
= V NV ⋅<br />
NV<br />
(89000 − 85699.7) 420 − 3<br />
= ⋅ = 8.01<br />
85699.7 2<br />
34
Statistica F<br />
F<br />
SQR − SQR n−k SQR q<br />
= V NV ⋅<br />
NV<br />
• <strong>La</strong> statistica F rifiuta quando l’inclusione del vincolo<br />
fa aumentare “troppo” la SQR – cioè quando il<br />
vincolo fa peggiorare “troppo” l’adattamento della<br />
regressione<br />
• <strong>La</strong> statistica F è approssimabile da<br />
35<br />
2<br />
χ q /q per n grande.
Riassunto: il test F e la distribuzione F<br />
• Il test F è usato in modo diffuso.<br />
• Per n ≥ 100, la distribuzione F è essenzialmente la<br />
distribuzione<br />
2<br />
χ q /q. Per n piccolo, non è detto che la<br />
distribuzione F sia una buona approssimazione alla<br />
distribuzione campionaria della statistica F<br />
36
Verifica di una singola ipotesi su più coefficienti di<br />
regressione<br />
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n<br />
Consideriamo l’ipotesi nulla e l’alternativa,<br />
H0: β1 = β2 vs. H1: β1 ≠ β2<br />
Questa nulla impone un singolo vincolo (q = 1) su più<br />
coefficienti – non è una ipotesi congiunta su più<br />
coefficienti (confronto con β1 = 0 e β2 = 0).<br />
37
Alcuni software, GRETL incluso, ci permettono di<br />
verificare direttamente vincoli sui coefficienti.<br />
Esempio:<br />
TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui<br />
Usando Gretl, se β1 = β2,, si ha che β1-β2=0<br />
Restrict<br />
b1 – b2 =0<br />
end restrict<br />
38
R 2 , SQR, e<br />
2<br />
R per la regressione multipla<br />
Valore osservato = valore previsto + residui<br />
Yi = Y ˆ<br />
i + u ˆi In una regressione con un solo regressore, la SQR è una<br />
misura della dispersione di Y “attorno” alla retta di<br />
regressione:<br />
SER =<br />
n 1<br />
uˆ<br />
n−k −1= ∑<br />
39<br />
i<br />
1<br />
2<br />
i
R 2 è la quota di varianza spiegata:<br />
dove ESS =<br />
n<br />
∑<br />
i=<br />
1<br />
( Yˆ −Yˆ)<br />
i<br />
R 2 = ESS<br />
TSS<br />
2<br />
, SSR =<br />
40<br />
SSR<br />
= 1− ,<br />
TSS<br />
n<br />
∑<br />
2<br />
uˆ<br />
i , e TSS =<br />
i=<br />
1<br />
n<br />
∑<br />
i=<br />
1<br />
( Y −Y)<br />
– proprio come nella regressione semplice.<br />
• R 2 aumenta sempre quando si aggiunge un regressore<br />
– problema per un indicatore della fit!<br />
2<br />
• R corregge questo problema “penalizzando<br />
“l’inclusione di regressori addizionali:<br />
2<br />
R =<br />
⎛ n−1⎞SSR 1−<br />
⎜ ⎟<br />
⎝n−k −1⎠TSS<br />
so<br />
2<br />
R < R 2<br />
i<br />
2
Come interpretare R 2 2<br />
e R ?<br />
• Un elevato R 2 (o<br />
spiega la varaibilità in Y.<br />
• Un elevato R 2 2<br />
(o R ) non significa che avete<br />
eliminato la distorsione da variabili omesse.<br />
• Un elevato R 2 (o<br />
uno stimatore corretto dell’effetto causale (β1).<br />
2<br />
R ) significa che la regressione<br />
2<br />
R ) non significa che avete ottenuto<br />
• Un elevato R 2 2<br />
(o R ) non significa che le variabili<br />
incluse sono statisticamente significative – questo si<br />
determina attraverso la verifica di ipotesi.<br />
41
Esempio: Un sguardo più accurato ai dati sui<br />
distretti, California<br />
Un approccio generale alla selezione delle variabili e<br />
alla specificazione del modello:<br />
• Specificare un modello “base” o “benchmark”.<br />
• Specificare un insieme di modelli alternativi, che<br />
includa altre possibili variabili esplicative.<br />
• L’inclusione di una di queste eventuali variabili<br />
esplicative modifica il coefficiente di interesse (β1)?<br />
• Questa eventuale variabili è statisticamente<br />
significativa?<br />
• Usare il buon senso, non approccio meccanico …<br />
42
Variabili che ci piacerebbe vedere in questo dataset:<br />
Caratteristiche della scuola:<br />
• Rapporto studenti-docenti<br />
• Qualità dei docenti<br />
• PC (risorse non umane) per studente<br />
Caratteristiche degli studenti:<br />
• Abilità nella lingua inglese<br />
• Possibilità di arricchimento culturale extra-curriculum<br />
• Ambiente familiare<br />
• Titolo di studio dei genitori<br />
43
Variabili effettivamente presenti nel dataset:<br />
• Percentuale di non madre lingua inglese (PctEL)<br />
• rapporto studenti/docenti (STR)<br />
• percentuale di eleggibili per buoni mensa<br />
• percentuale di famiglie con sussidio statale<br />
• reddito medio per distretto<br />
44
%non madre lingua inglese %eleggibili buoni mensa<br />
%famiglie con sussidio statale<br />
Correlazione tra TestScore e PctEL: -0.64<br />
Correlazione tra TestScore ed eleggibili buoni mensa: -0.87<br />
Correlazione tra TestScore e famiglie con sussidio statale: -0.63<br />
45
Digressione: presentazione dei risultati della regressione<br />
• Elencare le equazioni di regressione può risultare pesante<br />
se ci sono molti regressori e molte regressioni.<br />
• Alcune tabelle con risultati delle regressioni possono<br />
contenere le informazioni chiave in modo compatto.<br />
• Informazioni da includere:<br />
variabili nelle regressioni (dependent and independent)<br />
stime dei coefficienti<br />
standard errors<br />
esiti (e valore) dei test F delle ipotesi di interesse<br />
alcuni indicatori della fit della regressione<br />
numero di osservazioni<br />
46
Ad esempio:<br />
Variabili dipendente: Punteggio medio per distretto<br />
Regressore (1) (2) (3) (4) (5)<br />
STR (X1) -2-28** -1-10* -1.00** -1.31** -1.01**<br />
(0.52) (0.43) (0.27) (0.34) (0.27)<br />
PctEL (X2) -0.65** -0.122** -0.488** -0.130**<br />
(0.031) (0.033) (0.030) (0.036)<br />
% eleggibili<br />
-0.547**<br />
-0.529**<br />
buoni pasto (X3)<br />
(0.024)<br />
(0.038)<br />
% famiglie con<br />
-0.790** 0.048<br />
sussidio statale (X4)<br />
(0.068) (0.059)<br />
Intercetta 698.9** 686.0** 700.2** 698.0** 700.4**<br />
Statistiche di sintesi<br />
(10.4) (8.7) (5.6) (6.9) (5.5)<br />
SQR 18.58 14.46 9.08 11.65 9.08<br />
2<br />
R 0.049 0.424 0.773 0.626 0.773<br />
n 420 420 420 420 420<br />
**: indica significatività all’1%; *: indica significatività al 5%.<br />
47
Riassunto: <strong>Regressione</strong> <strong>Multipla</strong><br />
• <strong>La</strong> <strong>Regressione</strong> <strong>Multipla</strong> ci permette di stimare<br />
l’effetto su Y di una variazione in X1, con costante X2.<br />
• Se esistono osservazioni su una variabile, è possible<br />
evitare la distorsione da variabili omesse includendo<br />
quella variabile.<br />
• Non c’è una ricetta semplice per decidere quali<br />
variabili includere in una regressione–ci vuole buon<br />
senso.<br />
• Idea: specificare un modello base – basandosi su<br />
ragionamenti a-priori – e poi esplorare la sensibilità<br />
delle stime chiave in specificazioni alternative.<br />
48