test chi quadro.pdf
test chi quadro.pdf
test chi quadro.pdf
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Scelta del <strong>test</strong> statistico<br />
La scelta del <strong>test</strong> statistico dipende dai seguenti criteri:<br />
1. Scala di misura<br />
2. Disegno sperimentale<br />
3. Ripetizione dei soggetti<br />
4. Parametri noti della popolazione<br />
1. Scala di misura<br />
Scala nominale frequenze <strong>test</strong> del χ 2 , r φ<br />
Scala ordinale ranghi <strong>test</strong> non parametrici (Mann<br />
Witney, Wilcoxon, Friedman,<br />
r di Speraman, ecc...)<br />
Scale quantitative z <strong>test</strong>, t <strong>test</strong>, F <strong>test</strong>, r di<br />
(intervalli o rapporti) Pearson
2. Disegno sperimentale<br />
Disegno con un gruppo z <strong>test</strong>, t <strong>test</strong><br />
Disegno con due gruppi z <strong>test</strong>, t <strong>test</strong>, F <strong>test</strong><br />
Disegno fattoriale (almeno 2 F <strong>test</strong><br />
var. indipendenti)<br />
Disegno correlazionale r di Pearson<br />
3. Ripetizione dei soggetti<br />
Due gruppi t <strong>test</strong> per gruppi indipendenti<br />
t <strong>test</strong> per gruppi ripetuti<br />
> 2 gruppi F <strong>test</strong> per gruppi indipendenti (fattori between)<br />
F <strong>test</strong> per gruppi ripetuti (fattori within)
4. Parametri noti della popolazione e dimensione dei campioni<br />
Se n > 30 si usa lo z <strong>test</strong><br />
(varianza normale)<br />
Per n < 30<br />
1. se σ è noto allora si usa<br />
lo z <strong>test</strong><br />
2. se σ è ignoto allora si<br />
usa un valore stimato ( <br />
)<br />
e si applica il t <strong>test</strong>
Procedura sperimentale<br />
Ipotesi sperimentale (var. indip. e dip.)<br />
disegno sperimentale (campioni indipendenti o ripetuti, scala di<br />
misura, ecc...)<br />
ipotesi statistica (H 0 e H 1 )<br />
analisi descrittiva (frequenze osservate, moda, media, varianza, ecc...<br />
analisi inferenziale (statistica χ 2 , t o F, livello errore α)<br />
verifica ipotesi statistica<br />
verifica ipotesi sperimentale
TEST DEL CHI-QUADRO<br />
Disegno con due o più gruppi e dati su scala nominale<br />
Problema: quale terapia è più efficace nel combattere l'alcolismo?<br />
Ipotesi: 1. la terapia A riduce la dipendenza dall'alcolismo<br />
2. la terapia B riduce la dipendenza dall'alcolismo<br />
3. la terapia C riduce la dipendenza dall'alcolismo<br />
Variabile indipendente: tipo di terapia<br />
Variabile dipendente: frequenze di ricoveri dopo la terapia<br />
Come manipolare la variabile indipendente? Si creano tre gruppi, a ciascuno dei quali viene<br />
somministrata una terapia diversa. I tre gruppi sono definiti A, B e C.<br />
Come misurare la variabile dipendente? Si contano le frequenze di ricoveri dopo la terapia
TEST DEL CHI-QUADRO<br />
Come si controllano le variabili estranee? Può darsi che la diminuzione di ricoveri sia dovuta<br />
ad altri fattori, diversi dal tipo di terapia. Si crea un gruppo di controllo, a cui non si applica<br />
una terapia specifica. Tale gruppo è detto gruppo D e dev'essere omogeneo, prima degli<br />
esperimenti, agli altri tre gruppi.<br />
Che <strong>test</strong> statistico si deve usare? Le misure sono frequenze, quindi il <strong>test</strong> è il <strong>chi</strong>-<strong>quadro</strong> con<br />
tabella di contingenza.<br />
Rappresentazione dei dati: Tabella di contingenza a una entrata. Nelle celle si riportano<br />
le frequenze di ricoveri (osservate e attese).<br />
gruppi A B C D<br />
Frequenze<br />
osservate 31 65 73 87<br />
Frequenze<br />
attese 64 64 64 64
Formula del <strong>chi</strong>-<strong>quadro</strong>:<br />
2 = 31−642<br />
64<br />
65−642<br />
64<br />
TEST DEL CHI-QUADRO<br />
73−642<br />
64<br />
87−642<br />
64<br />
1089<br />
=<br />
64<br />
O: frequenza osservata<br />
E: frequenza attesa<br />
1<br />
64 81<br />
64 529<br />
64<br />
= 1682<br />
64 =26,563<br />
Il valore di χ 2 = 26,563, in relazione ad una distribuzione per k -1 = 4- 1= 3 gdl (k indica il numero<br />
di gruppi) corrisponde ad n il valore di probabilità di p = 0,0000073, ben al di sotto del valore di p<br />
= 0,05 dell'errore di I° tipo. Se si usano le tavole, allora il valore della statistica <strong>chi</strong> viene<br />
confrontato con il valore critico di <strong>chi</strong>, ossia il valore di <strong>chi</strong> corrispondente alla probabilità<br />
dell'errore di I° tipo, p = 0,05. il valore critico risulta χcrit 2 = 7,815.<br />
Conclusione: c'è una differenza significativa tra i gruppi A, B, C e D
Tavole del <strong>chi</strong><br />
<strong>quadro</strong>.<br />
Il valore critico di<br />
χ 2 è evidenziato dal<br />
rettangolo rosso.<br />
TEST DEL CHI-QUADRO<br />
0,95<br />
χ 2 = 7,815<br />
Rifiuto H 0<br />
α = 0,05
TEST DEL CHI-QUADRO<br />
Disegno fattoriale e dati su scala nominale<br />
Problema: quale terapia è più efficace nel combattere l'alcolismo e la dipendenza da anfetamine?<br />
Ipotesi: 1. la terapia A riduce la dipendenza dall'alcolismo<br />
2. la terapia B riduce la dipendenza dall'alcolismo<br />
3. la terapia C riduce la dipendenza dall'alcolismo<br />
4. la terapia A riduce la dipendenza da anfetamine<br />
5. la terapia B riduce la dipendenza da anfetamine<br />
6. la terapia C riduce la dipendenza da anfetamine<br />
Variabile indipendente: tipo di terapia<br />
Variabile dipendente: frequenze di ricoveri dopo la terapia
TEST DEL CHI-QUADRO<br />
Come manipolare la variabile indipendente? Si creano tre gruppi di soggetti con dipendenza alcolica,<br />
a ciascuno dei quali viene somministrata una terapia diversa. Si creano altri tre gruppi di soggetti con<br />
dipendenza da anfetamine, a ciascuno dei quali viene somministrata una terapia diversa<br />
Come misurare la variabile dipendente? Si contano le frequenze di ricoveri dopo la terapia<br />
Come si controllano le variabili estranee? Può darsi che la diminuzione di ricoveri sia dovuta ad altri<br />
fattori, diversi dal tipo di terapia. Si crea un gruppo di controllo, a cui non si applica una terapia<br />
specifica. Tale gruppo è detto gruppo D e dev'essere omogeneo, prima degli esperimenti, agli altri tre<br />
gruppi.<br />
Che <strong>test</strong> statistico si deve usare? Le misure sono frequenze, quindi il <strong>test</strong> è il <strong>chi</strong>-<strong>quadro</strong> con tabella di<br />
contingenza a due entrate, essendo il disegno un disegno fattoriale.
Rappresentazione dei dati: Tabella di contingenza a due entrate. Nelle celle si riportano<br />
le frequenze di ricoveri.<br />
Variabile B<br />
Variabile A<br />
gruppi A B C D tot<br />
alcool 31 65 73 87 256<br />
anfetamine 78 41 98 105 322<br />
totali 109 106 171 192<br />
A: tipo di terapia anti-dipendenza<br />
B: tipo di dipendenza
TEST DEL CHI-QUADRO<br />
Formula per calcolare le frequenze attese (E rc ) per cella:<br />
R r = totale per riga; C c = totale per colonna; N = somma totale di tutte le frequenze<br />
gruppi A B C D tot<br />
alcool 31 (48,277) 65 (46,948) 73 (75,737) 87 (85,038) 256<br />
anfetamine 78 (60,723) 41 (59,052) 98 (95,263) 105 (106,962) 322<br />
totali 109 106 171 192
2 =∑ O−E2<br />
E<br />
... 41−59,0522<br />
59,052<br />
= 31−48,2772<br />
48,277<br />
98−95,2632<br />
95,263<br />
La probabilità è p = 0,000027<br />
TEST DEL CHI-QUADRO<br />
65−46,9482<br />
46,948<br />
73−75,7372<br />
75,737<br />
105−106,9622 =23,817<br />
106,962<br />
Il valore critico di χ2 2 per 3 gdl e p = 0,05 è χ = 7,815.<br />
crit<br />
87−85,0382<br />
85,038<br />
78−60,7232<br />
60,723<br />
...
Il rapporto di verosimiglianza.<br />
Possiamo calcolare la probabilità dei punteggi ponendo H 0 come vera e la probabilità<br />
degli stessi punteggi ponendo H 1 come vera. Teoricamente, se la probabilità dei punteggi<br />
in base alla H 1 è superiore a quella dei punteggi in base alla H 0 allora possiamo rifiutare<br />
H 0 , altrimenti dobbiamo tenere H 0 .<br />
In altri termini se P(x|H 1 ) > P(x|H 0 ), allora rifiutiamo H 0 .<br />
se P(x|H 1 ) < P(x|H 0 ), allora accettiamo H 0 .<br />
Per decidere quale ipotesi accettare si deve ricorrere al <strong>test</strong> del <strong>chi</strong> <strong>quadro</strong>.<br />
La formula per il χ 2 unidimensionale è:<br />
TEST DEL CHI-QUADRO<br />
La formula per il χ 2 per tabelle di contingenza è:<br />
2<br />
c−1=2∑ O iln O i i<br />
E<br />
r −1 c−1<br />
2<br />
=2∑ O ij ln O ij<br />
E ij
Riprendiamo l'esempio della terapia applicata all'alcolismo<br />
Applicando la formula:<br />
gruppi A B C D<br />
Frequenze<br />
osservate 31 65 73 87<br />
Frequenze<br />
attese 64 64 64 64<br />
2 31 65 73 87<br />
3=2[ 31 ln<br />
65<br />
64<br />
ln 6473ln 87<br />
64<br />
ln 64] =29,7045<br />
Come si vede, usando i rapporti di massima verosimiglianza si ottiene un<br />
valore di χ 2 leggermente diverso.
I modelli log-lineari<br />
I modelli log-lineari possono essere considerati l'equivalente dei modelli<br />
lineari generali dell'analisi di varianza per i dati sua scala nominale.<br />
Questi modelli possono essere usati per stabilire quale variabile<br />
indipendente spiega la ripartizione delle frequenze per cella e se esiste o<br />
no indipendenza tra le variabili.<br />
Se abbiamo una tabella di contingenza, indicando con A il primo vettore<br />
e con B il secondo fattore allora possiamo elaborare la seguente tabella<br />
di modelli.<br />
1. Ln (F ij ) = λ Modello di equiprobabilità<br />
2. Ln (F ij ) = λ + λ Α Modello di equiprob. condizionale per A<br />
3. Ln (F ij ) = λ + λ Β Modello di equiprob. condizionale per B<br />
4. Ln (F ij ) = λ + λ Α + λ Β Modello di mutua indipendenza<br />
5. Ln (F ij ) = λ + λ Α + λ Β + λ ΑΒ Modello saturo
Il modello di equiprobabilità stabilisce che la ripartizione delle<br />
frequenze per cella è dovuta solo al caso.<br />
Il modello di equiprob. condizionale stabilisce che la ripartizione della<br />
frequenze per cella è dovuta o al fattore A o al fattore B.<br />
Il modello di mutua indipendenza stabilisce che la ripartizione del<br />
frequenze è dovuta sia ad A che a B, ma gli effetti dei due fattori sono<br />
indipendenti tra loro.<br />
Il modello saturo stabilisce non solo che A e B determinano la<br />
ripartizione del frequenze per cella, ma, anche, che esista<br />
un'interazione tra i due fattori.
Riprendendo l'esempio della tabella di contingenza:<br />
gruppi A B C D tot<br />
alcool (A) 31 65 73 87 256<br />
anfetamine (B) 78 41 98 105 322<br />
Modello di equiprobabilità:<br />
Freq. Oss.<br />
Freq. Att.<br />
[<br />
totali 109 106 171 192 578<br />
31 65 73 87 78 41 98 105<br />
72.25 72.25 72.25 72.25 72.25 72.25 72.25 72.25<br />
2<br />
7=2 31ln 31<br />
65<br />
73<br />
87<br />
72,2565ln 72,2573ln 72,2587ln 72,25 78 ln 78<br />
41<br />
98<br />
105<br />
41<br />
72,25<br />
ln<br />
98<br />
72,25<br />
ln<br />
105<br />
72,25<br />
ln 72,25 =71,36<br />
[
Modello di equiprob. condizionale per A (gruppi A, B, C e D):<br />
[<br />
gruppi A B C D<br />
alcool 31 (54,5) 65 (53) 73 (85,5) 87 (96)<br />
anfetamine 78 (54,5) 41 (53) 98 (85,5) 105 (96)<br />
totali 109 106 171 192<br />
2<br />
4=2 31 ln 31 65 73 87<br />
65<br />
54,5<br />
ln<br />
73<br />
53<br />
ln<br />
87<br />
85,5<br />
ln 96 78 ln 78 41 98 105<br />
41<br />
54,5<br />
ln<br />
98<br />
53<br />
ln<br />
105<br />
85,5<br />
ln 96 =31,79<br />
I gdl sono 8 – 4 = 4, in quanto imponiamo due restrizioni al modello:<br />
le frequenze delle celle di ciascuna colonna devono dare come somma<br />
la frequenza attesa per quella colonna.<br />
[
Modello di equiprob. condizionale per B (alcool vs. anfetamine):<br />
[<br />
gruppi A B C D tot<br />
alcool (A) 31 (64) 65 (64) 73 (64) 87 (64) 256<br />
anfetamine (B) 78 (80,5) 41 (80,5) 98 (80,5) 105 (80,5) 322<br />
2<br />
6=2 31ln 31 65 73 87<br />
6465ln 6473ln 87<br />
64<br />
ln 64 78 ln 78 41 98 105<br />
80,541ln 98<br />
80,5<br />
ln<br />
105<br />
80,5<br />
ln 80,5 =63,81<br />
I gdl sono 8 – 2 = 6, in quanto imponiamo quattro restrizioni al<br />
modello:<br />
le frequenze delle celle di ciascuna riga devono dare come somma la<br />
frequenza attesa per quella riga.<br />
[
Modello di mutua indipendenza:<br />
2<br />
3=2 31ln<br />
78 ln<br />
[<br />
gruppi A B C D tot<br />
alcool 31 (48,277) 65 (46,948) 73 (75,737) 87 (85,038) 256<br />
anfetamine 78 (60,723) 41 (59,052) 98 (95,263) 105 (106,962) 322<br />
totali 109 106 171 192<br />
78<br />
41<br />
60,723<br />
ln<br />
31<br />
48,27765ln Gdl = (r – 1)(c – 1 ) = 3(1) = 3<br />
65<br />
46,94873ln 41<br />
98<br />
98<br />
59,052<br />
ln<br />
105<br />
95,263<br />
ln<br />
73<br />
87<br />
75,73787ln 85,038 105<br />
106,962 =24,23<br />
[
Il modello saturo prevede anche l'interazione tra i fattori. Il modello<br />
saturo non viene <strong>test</strong>ato direttamente, diversamente da ciò che si fa<br />
nell'analisi di varianza. Per il modello saturo si pone sempre χ 2 = 0, dato<br />
che l'interazione è ciò che rimane non spiegato (errore residuo) quando<br />
dalle frequenze osservate togliamo le frequenze previste dal modello di di<br />
mutua indipendenza. Il modello saturo riesce a spiegare tutte le<br />
frequenze osservate, per cui non c'è differenza tra modello e dati empirici.<br />
Andiamo a vedere quale dei 5 modelli spiega meglio i dati empirici:<br />
1. Ln (F ij ) = λ χ 2 = 71,36 7 < 0,001<br />
2. Ln (F ij ) = λ + λ Β χ 2 = 63,81 6 < 0,001<br />
3. Ln (F ij ) = λ + λ Α χ 2 = 31,79 4 < 0,001<br />
4. Ln (F ij ) = λ + λ Α + λ Β χ 2 = 24,23 3 < 0,001<br />
5. Ln (F ij ) = λ + λ Α + λ Β + λ ΑΒ χ 2 = 0 0<br />
Tutti i primi 4 modelli risultano significativamente diversi dai dati<br />
empirici. Per cui alla fine rimane il modello saturo e dobbiamo<br />
concludere che la distribuzione delle frequenze per cella dipende dai<br />
due fattori principali e dall'interazione tra i fattori.
110<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
gruppi A B C D tot<br />
alcool 31 (48,277) 65 (46,948) 73 (75,737) 87 (85,038) 256<br />
anfetamine 78 (60,723) 41 (59,052) 98 (95,263) 105 (106,962) 322<br />
totali 109 106 171 192<br />
istrogramma di frequenze<br />
alcool anfetamine<br />
gruppo A<br />
gruppo B<br />
gruppo C<br />
gruppo D<br />
Dall'istogramma vediamo che le frequenze variano per gruppo (i<br />
gruppi sottoposti a terapia hanno frequenze più basse); che coloro che<br />
fanno uso di anfetamine risentono meno della terapia; tuttavia per il<br />
gruppo B c'è un'inversione di tendenza (interazione). Per <strong>chi</strong> è<br />
alcolista, funziona meglio la terapia A; per <strong>chi</strong> abusa di anfetamine,<br />
funziona meglio la terapia B.
Chi-<strong>quadro</strong> unidimensionale con R<br />
script di R: Y
Output di R:<br />
Grafico di R:<br />
[1] "tabella di contingenza"<br />
[,1] [,2] [,3] [,4]<br />
[1,] 31 65 73 87<br />
[1] "Esito del <strong>chi</strong> <strong>quadro</strong>"<br />
Chi-squared <strong>test</strong> for given probabilities<br />
data: tab.fin<br />
X-squared = 26.5625, df = 3, p-value = 7.271e-06<br />
Var. dipendente<br />
80<br />
60<br />
40<br />
20<br />
0<br />
1 2 3 4<br />
Var. indipendente
Chi <strong>quadro</strong> con tabella di contingenza con R<br />
Script di R: Y
Output di R:<br />
[1] "tabella di contingenza"<br />
[,1] [,2] [,3] [,4]<br />
[1,] 31 65 73 87<br />
[2,] 78 41 98 105<br />
[1] "Esito del <strong>chi</strong> <strong>quadro</strong>"<br />
Pearson's Chi-squared <strong>test</strong><br />
data: tab.fin<br />
X-squared = 23.8167, df = 3, p-value = 2.728e-05
Grafico di R:<br />
Var. dipendente<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0<br />
1 2 3 4 5 6 7 8<br />
Var. indipendente
Modelli log lineare con R<br />
1° modello: Ln (F ij ) = λ + λ Β χ 2 = 63,81 gdl = 6 < 0,001<br />
Script:<br />
A
2° modello: Ln (F ij ) = λ + λ Α χ 2 = 31,79 gdl = 4 < 0,001<br />
Script:<br />
A
3° modello: Ln (F ij ) = λ + λ Α + λ Β χ 2 = 24,23 gdl = 3 < 0,001<br />
Script: Output:<br />
A