20.06.2013 Views

Il test t

Il test t

Il test t

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

Corso di Psicometria Progredito<br />

4.1 I principali <strong>test</strong> statistici per la verifica di ipotesi:<br />

<strong>Il</strong> <strong>test</strong> t<br />

Gianmarco Altoè<br />

Dipartimento di Psicologia<br />

Università di Cagliari, Anno Accademico 2011-2012


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

Sommario<br />

1 Introduzione<br />

2 Test t a campione unico<br />

3 Test t per dati appaiati<br />

4 Test t per campioni indipendenti


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

E se la varianza è ignota?<br />

Fino ad ora abbiamo considerato dei problemi di inferenza<br />

statistica in cui la varianza della popolazione da cui è estratto<br />

il campione è nota.<br />

E se la varianza della popolazione non fosse nota (caso assai<br />

frequente nella pratica)?<br />

Potremmo sostituire una stima della varianza. Ma si è visto<br />

che in questo caso, ed in particolare quando la numerosità<br />

campionaria è ridotta, la statistica <strong>test</strong> sotto H0 non si<br />

distribuisce esattamente come una normale.<br />

Per fortuna uno “statistico birraio”, nei primi del novecento,<br />

ha risolto il problema ... ⇒


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

William Sealy Gosset e la distribuzione t di student<br />

Nei primi del 900 lo statistico William Sealy Gosset, che<br />

lavorava presso una fabbrica di birra Guinnes a Dublino,<br />

risolse il problema proponendo la distribuzione t di Student.<br />

Tale distribuzione è simmetrica ed ha la forma di una<br />

campana, ma rispetto alla normale è caratterizzata da code<br />

contenenti una maggiore probabilità.<br />

Gosset pubblicò i suoi risultati in un articolo passato alla<br />

storia nel 1908. La direzione della Guinnes non permetteva<br />

però ai suoi dipendenti di pubblicare risultati relativi a<br />

esperimenti fatti nei propri laboratori ... e così Gosset fu<br />

costretto ad usare lo pseudonimo di “Student”.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

t di Student vs. Normale<br />

Densità<br />

0.0 0.1 0.2 0.3 0.4<br />

-3 -2 -1 0 1 2 3<br />

quantili<br />

t con 1 grado di libertà<br />

t con 2 gradi di libertà<br />

t con 5 gradi di libertà<br />

t con 10 gradi di libertà<br />

t con 20 gradi di libertà<br />

normale


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

t di Student, gradi di libertà e Normale<br />

I gradi di libertà (degrees of freedom) sono un parametro che<br />

definisce la distribuzione t. Esso dipende dalla numerosità<br />

campionaria e dalla statistica <strong>test</strong> utilizzata.<br />

Ad esempio nel caso del <strong>test</strong> t per la verifica di ipotesi sulla<br />

media di una popolazione con varianza ignota, i gradi di<br />

libertà della statistica <strong>test</strong> sono pari alla numerosità<br />

campionaria meno uno (n − 1).<br />

Osservando il grafico precedente si può notare che al<br />

crescere della numerosità e quindi dei gradi di libertà la<br />

distribuzione t e la distribuzione normale tendono a<br />

coincidere. In particolare per n > 100 le due distribuzioni si<br />

possono considerare praticamente uguali.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

Varie tipologie di <strong>test</strong> t<br />

Nel corso della lezione vedremo, attraverso degli esempi, diverse<br />

applicazioni della distribuzione t di Student:<br />

Test t a campione unico, per la verifica di ipotesi sulla<br />

media della popolazione nel caso di varianza ignota.<br />

Test t per dati appaiati, per il confronto tra le medie di due<br />

campioni dipendenti.<br />

Test t per campioni indipendenti, per il confronto tra le<br />

medie di due campioni indipendenti.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

La stima della varianza della popolazione<br />

Nei casi di verifica di ipotesi in cui la varianza della<br />

popolazione è ignota, si ricorre ad una stima di tale varianza<br />

basata sui dati campionari.<br />

In questi casi utilizzare la formula per il calcolo della varianza<br />

studiata nell’ambito delle statistiche descrittive porta ad una<br />

sottostima della varianza della popolazione.<br />

Si utilizzerà quindi uno stimatore non distorto della varianza<br />

della popolazione, detto varianza campionaria:<br />

s 2 =<br />

n<br />

i (Xi − X) 2<br />

n − 1<br />

Naturalmente la deviazione standard campionaria sarà:<br />

s = √ s 2


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

Le bottigliette di birra<br />

In uno stabilimento di birra, una macchina ha il compito di<br />

versare 33 cl di birra in ogni bottiglietta prodotta. <strong>Il</strong><br />

Direttore ha però il sospetto che la macchina non funzioni<br />

correttamente. Per verificare tale ipotesi il Direttore misura<br />

con uno strumento ad alta precisione 8 riempimenti effettuati<br />

dalla macchina selezionandoli in maniera casuale. I risultati<br />

ottenuti sono i seguenti:<br />

33 ; 35 ; 37 ; 33 ; 30 ; 38 ; 34 ; 32<br />

Verificare ad un livello di significatività del 5% (α = 0.05), se<br />

l’eventuale guasto ha prodotto un aumento della quantità di<br />

birra versata dalla macchina.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

Alcune considerazioni<br />

L’esercizio chiede di verificare un’ipotesi monodirezionale<br />

sulla media della popolazione. Rispetto agli esempi visti in<br />

precedenza però, la varianza della popolazione è ignota.<br />

Procederemo quindi stimando la varianza della popolazione<br />

sulla base dei dati campionari e utilizzando il cosiddetto <strong>test</strong><br />

t a campione unico.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

1. La costruzione del sistema di Verifica di Ipotesi<br />

H0 : µ = 33<br />

H1 : µ > 33


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong><br />

Nel caso di <strong>test</strong> t a campione unico la statistica <strong>test</strong> da utilizzare<br />

è la seguente:<br />

X − µX<br />

tOSS = <br />

s<br />

√n<br />

dove:<br />

X è la media campionaria delle osservazioni<br />

µ è la media nella popolazione se vale H0<br />

s è la deviazione standard campionaria delle osservazioni<br />

n la numerosità campionaria<br />

Dalla teoria sappiamo che se vale H0 la statistica <strong>test</strong> si<br />

distribuisce come una t di Student con n − 1 gradi di libertà.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong>:<br />

Aspetti computazionali<br />

Calcoliamo la media e la deviazione standard campionaria dei dati:<br />

s =<br />

X =<br />

n<br />

i=1 Xi<br />

n<br />

n<br />

i (Xi − X) 2<br />

n − 1<br />

= 34<br />

= 2.619


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong><br />

tOSS =<br />

X − µX 34 − 33<br />

= = 1.080<br />

s 2.619<br />

√n √<br />

8


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

3. Confronto tra valore osservato e valore critico<br />

Per prima cosa determiniamo il valore critico del <strong>test</strong> per un<br />

livello di significatività critico pari a α = .05<br />

Essendo il <strong>test</strong> monodirezionale dovremo cercare sulle tavole<br />

statistiche il quantile della distribuzione t di Student con<br />

n − 1, nel nostro caso 8-1 = 7, gradi di libertà che lascia<br />

destra della distribuzione un’area totale di .05.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

3. Confronto tra valore osservato e valore critico<br />

Densità<br />

0.0 0.1 0.2 0.3 0.4 0.5<br />

Distribuzione t di Student con 7 gradi di libertà<br />

Non Posso Rifiutare Ipotesi Nulla<br />

0 t OSS = 1.08 t CRIT = 1.895<br />

t<br />

Rifiuto Ipotesi Nulla<br />

α = 0.05


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

3-4. Confronto tra valore osservato e valore critico e<br />

decisione finale<br />

Dall’analisi condotta emerge che il valore osservato della<br />

statistica <strong>test</strong> è inferiore al valore critico.<br />

L’ipotesi nulla che afferma che la media dei riempimenti<br />

effettuati dalla macchina è pari a 33 cl non può essere<br />

rifiutata per un livello di significatività pari al 5%.<br />

... in sostanza, dal punto di vista statistico i dati non<br />

supportano la sensazione del Direttore.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

<strong>Il</strong> battito cardiaco prima e dopo un esame<br />

Nella seguente tabella sono riportati i battiti cardiaci al<br />

minuto di 10 studenti, rilevati prima e dopo che gli studenti<br />

hanno saputo di dover affrontare un compito di latino a<br />

sorpresa.<br />

Codice studente Battiti - Prima Battiti -Dopo<br />

1 60 67<br />

2 66 75<br />

3 73 68<br />

4 62 62<br />

5 74 89<br />

6 63 74<br />

7 64 62<br />

8 65 73<br />

9 71 76<br />

10 72 84<br />

Verificare ad un livello di significatività del 5% (α = 0.05), se<br />

in media i battiti cardiaci sono cambiati tra le due rilevazioni.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

Alcune considerazioni<br />

Considerando che le rilevazioni effettuate si riferiscono agli<br />

stessi soggetti, si può parlare di osservazioni dipendenti o di<br />

dati appaiati.<br />

In ogni coppia di valori rilevati prima e dopo la notizia del<br />

compito a sorpresa, le osservazioni non sono indipendenti ma<br />

si riferiscono allo stessa unità statistica (il soggetto).<br />

In questi casi, quando cioè le osservazioni non sono<br />

indipendenti, il <strong>test</strong> statistico da utilizzare è il <strong>test</strong> t per dati<br />

appaiati.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

1. La costruzione del sistema di Verifica di Ipotesi<br />

H0 : µD = 0<br />

H1 : µD = 0<br />

Dove µD e la media delle differenze individuali tra prima e dopo la<br />

notizia del compito nella popolazione da cui è estratto il<br />

campione.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong><br />

Nel caso di <strong>test</strong> t per dati appaiati la statistica <strong>test</strong> da utilizzare è<br />

la seguente:<br />

D − µD<br />

tOSS = <br />

sD<br />

√n<br />

dove:<br />

D è la media campionaria delle differenze individuali tra<br />

prima e dopo<br />

µ è la media nella popolazione delle differenze individuali tra<br />

prima e dopo se vale H0<br />

sD è la deviazione standard campionaria delle differenze<br />

individuali tra prima e dopo<br />

n la numerosità campionaria<br />

Dalla teoria sappiamo che se vale H0 la statistica <strong>test</strong> si<br />

distribuisce come una t di student con n − 1 gradi di libertà.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong>:<br />

Aspetti computazionali<br />

Codice studente Battiti - Prima (X1) Battiti -Dopo (X2) D = X2 − X1<br />

1 60 67 7<br />

2 66 75 9<br />

3 73 68 -5<br />

4 62 62 0<br />

5 74 89 15<br />

6 63 74 11<br />

7 64 62 -2<br />

8 65 73 8<br />

9 71 76 5<br />

10 72 84 12<br />

Da cui segue che:<br />

D =<br />

n<br />

i=1 Di<br />

n<br />

= 6 sD =<br />

n<br />

i (Di − D) 2<br />

n − 1<br />

= 6.481


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong><br />

tOSS =<br />

D − µD 6 − 0<br />

= = 2.928<br />

sD 6.481<br />

√n √<br />

10


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

3. Confronto tra valore osservato e valore critico<br />

Per prima cosa determiniamo il valore critico del <strong>test</strong> per un<br />

livello di significatività critico pari a α = .05<br />

Essendo il <strong>test</strong> bidirezionale dovremo cercare sulle tavole<br />

statistiche i quantili della distribuzione t di Student con<br />

n − 1, nel nostro caso 10 − 1 = 9, gradi di libertà che<br />

lasciano sulle code di sinistra e destra della distribuzione<br />

un’area totale di .05.<br />

Essendo la distribuzione t simmetrica, ci basterà trovare il<br />

quantile positivo che lascia a destra un’area di probabilità<br />

pari a α/2 = .025. <strong>Il</strong> quantile negativo sarà pari al quantile<br />

positivo moltiplicato per -1.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

3. Confronto tra valore osservato e valore critico<br />

Densità<br />

0.0 0.1 0.2 0.3 0.4 0.5<br />

Distribuzione t di Student con 9 gradi di libertà<br />

Rifiuto Ipotesi Nulla Non Posso Rifiutare Ipotesi Nulla<br />

Rifiuto Ipotesi Nulla<br />

α<br />

= 0.025<br />

2<br />

− t CRIT = − 2.262 0 tCRIT = 2.262 tOSS = 2.928<br />

t<br />

α<br />

= 0.025<br />

2


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

3-4. Confronto tra valore osservato e valore critico e<br />

decisione finale<br />

Dall’analisi condotta emerge che il valore osservato della<br />

statistica <strong>test</strong> non è compreso tra i valori critici.<br />

L’ipotesi nulla che afferma che la media delle differenze<br />

individuali tra i battiti cardiaci rilevati prima e dopo la notizia<br />

del compito a sorpresa è pari a 0, può essere rifiutata per un<br />

livello di significatività pari al 5%.<br />

... in sostanza, la notizia del compito a sorpresa ha fatto<br />

cambiare in maniera statisticamente significativa il numero di<br />

battiti cardiaci dei soggetti.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

Le cavie nel labirinto<br />

In un laboratorio di ricerca vengono costruiti due labirinti:<br />

labirinto A e labirinto B. A un gruppo di 6 cavie (gruppo A)<br />

viene fatto percorrere il labirinto A e ad un gruppo di altre 6<br />

cavie (gruppo B) il labirinto B. Alla fine dell’esperimento per<br />

ciascuna cavia viene rilevato il tempo impiegato in secondi<br />

per uscire dal labirinto. I dati ottenuti sono:<br />

Gruppo A Gruppo B<br />

16 20<br />

18 21<br />

22 15<br />

22 19<br />

21 19<br />

21 20<br />

Ipotizzando che le varianze dei due gruppi siano omogenee,<br />

verificare ad un livello di significatività del 5% (α = .05) se i<br />

due labirinti presentano una diversa difficoltà.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

Alcune considerazioni<br />

Considerando che le rilevazioni effettuate provengono da due<br />

gruppi che non presentano legami di dipendenza, per<br />

verificare l’ipotesi di ricerca, utilizzeremo il <strong>test</strong> t per<br />

campioni indipendenti.<br />

Per utilizzare tale <strong>test</strong> le varianze dei gruppi devono poter<br />

essere considerate omogenee, in caso contrario esiste una<br />

versione del t <strong>test</strong> per campioni indipendenti (<strong>test</strong> t con<br />

correzione di Welch) che tiene conto della disomogeneità<br />

delle varianze.<br />

Dal punto di vista didattico, per semplicità, ipotizzeremo<br />

sempre l’omogeneità delle varianze.<br />

Dal punto di vista applicativo tuttavia è bene far presente<br />

che la maggior parte dei software statistici permette di<br />

valutare l’omogeneità delle varianze e in caso di<br />

disomogeneità di utilizzare la versione di Welch del <strong>test</strong> t per<br />

campioni indipendenti.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

1. La costruzione del sistema di Verifica di Ipotesi<br />

H0 : µa − µb = 0<br />

H1 : µa − µb = 0<br />

L’ipotesi nulla prevede che la differenza tra le medie delle due<br />

popolazioni da cui sono stati estratti i campioni sia pari a 0. In<br />

pratica ciò significa che se vale H0 i due campioni provengono da<br />

una popolazione con media comune.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong><br />

Nel caso di <strong>test</strong> t per campioni indipendenti la statistica <strong>test</strong> da<br />

utilizzare è la seguente:<br />

<br />

Xa − Xb − (µa − µb)<br />

tOSS = <br />

na + nb<br />

dove:<br />

sab<br />

nanb<br />

sab è la deviazione standard campionaria combinata (pooled)<br />

<br />

sab =<br />

(na − 1)s 2 a + (nb − 1)s 2 b<br />

na + nb − 2<br />

Xa − Xb è la differenza delle medie campionarie<br />

µa − µb è la differenza delle medie delle popolazioni sotto H0<br />

s 2 a e s 2 b sono le varianze campionarie dei due campioni<br />

na e nb sono le numerosità dei due campioni


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong>:<br />

Distribuzione della statistica <strong>test</strong><br />

Nel caso di <strong>test</strong> t per campioni indipendenti la statistica <strong>test</strong> si<br />

distribuisce sotto H0 come una t di student con na + nb − 2<br />

(6 + 6 − 2 = 10, nel nostro caso) gradi di libertà.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong>:<br />

Aspetti computazionali<br />

Xa = 20 Xb = 19<br />

s 2 a = 6 s 2 b<br />

= 4.4<br />

⇒ sab = 2.280


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

2. Calcolo del valore osservato della statistica <strong>test</strong><br />

tOSS =<br />

<br />

Xa − Xb − (µa − µb)<br />

<br />

na + nb<br />

sab<br />

nanb<br />

= (20 − 19) − (0)<br />

= 0.760<br />

6 + 6<br />

2.280<br />

6 × 6


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

3. Confronto tra valore osservato e valore critico<br />

Per prima cosa determiniamo il valore critico del <strong>test</strong> per un<br />

livello di significatività critico pari a α = .05<br />

Essendo il <strong>test</strong> bidirezionale dovremo cercare sulle tavole<br />

statistiche i quantili della distribuzione t di Student con<br />

na + nb − 2 (6 + 6 − 2 = 10, nel nostro caso) gradi di libertà<br />

che lasciano sulle code di sinistra e destra della distribuzione<br />

un’area totale di .05.<br />

Essendo la distribuzione t simmetrica, ci basterà trovare il<br />

quantile positivo che lascia a destra un’area di probabilità<br />

pari a α/2 = .025. <strong>Il</strong> quantile negativo sarà pari al quantile<br />

positivo moltiplicato per -1.


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

3. Confronto tra valore osservato e valore critico<br />

Densità<br />

0.0 0.1 0.2 0.3 0.4 0.5<br />

Distribuzione t di Student con 10 gradi di libertà<br />

Rifiuto Ipotesi Nulla Non Posso Rifiutare Ipotesi Nulla<br />

Rifiuto Ipotesi Nulla<br />

α<br />

= 0.025<br />

2<br />

− t CRIT = − 2.228 0 tOSS = 0.76 tCRIT = 2.228<br />

t<br />

α<br />

= 0.025<br />

2


Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti<br />

3-4. Confronto tra valore osservato e valore critico e<br />

decisione finale<br />

Dall’analisi condotta emerge che il valore osservato della<br />

statistica <strong>test</strong> è compreso tra i valori critici.<br />

L’ipotesi nulla che afferma che i tempi impiegati dalle cavie<br />

per uscire dai labirinti provengano da una popolazione con<br />

una media comune, non può essere rifiutata per un livello di<br />

significatività pari al 5%.<br />

... in sostanza, i dati non supportano dal punto di vista<br />

statistico delle differenze, in termini di tempo impiegato per<br />

uscire, tra i due labirinti.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!