test chi quadro.pdf

Scelta del test statistico 

La scelta del test statistico dipende dai seguenti criteri: 

1. Scala di misura 

2. Disegno sperimentale 

3. Ripetizione dei soggetti 

4. Parametri noti della popolazione 

1. Scala di misura 

Scala nominale frequenze test del χ 2 , r φ 

Scala ordinale ranghi test non parametrici (Mann 

Witney, Wilcoxon, Friedman, 

r di Speraman, ecc...) 

Scale quantitative z test, t test, F test, r di 

(intervalli o rapporti) Pearson

2. Disegno sperimentale 

Disegno con un gruppo z test, t test 

Disegno con due gruppi z test, t test, F test 

Disegno fattoriale (almeno 2 F test 

var. indipendenti) 

Disegno correlazionale r di Pearson 

3. Ripetizione dei soggetti 

Due gruppi t test per gruppi indipendenti 

t test per gruppi ripetuti 

> 2 gruppi F test per gruppi indipendenti (fattori between) 

F test per gruppi ripetuti (fattori within)

4. Parametri noti della popolazione e dimensione dei campioni 

Se n > 30 si usa lo z test 

(varianza normale) 

Per n < 30 

1. se σ è noto allora si usa 

lo z test 

2. se σ è ignoto allora si 

usa un valore stimato ( 

) 

e si applica il t test

Procedura sperimentale 

Ipotesi sperimentale (var. indip. e dip.) 

disegno sperimentale (campioni indipendenti o ripetuti, scala di 

misura, ecc...) 

ipotesi statistica (H 0 e H 1 ) 

analisi descrittiva (frequenze osservate, moda, media, varianza, ecc... 

analisi inferenziale (statistica χ 2 , t o F, livello errore α) 

verifica ipotesi statistica 

verifica ipotesi sperimentale

TEST DEL CHI-QUADRO 

Disegno con due o più gruppi e dati su scala nominale 

Problema: quale terapia è più efficace nel combattere l'alcolismo? 

Ipotesi: 1. la terapia A riduce la dipendenza dall'alcolismo 

2. la terapia B riduce la dipendenza dall'alcolismo 

3. la terapia C riduce la dipendenza dall'alcolismo 

Variabile indipendente: tipo di terapia 

Variabile dipendente: frequenze di ricoveri dopo la terapia 

Come manipolare la variabile indipendente? Si creano tre gruppi, a ciascuno dei quali viene 

somministrata una terapia diversa. I tre gruppi sono definiti A, B e C. 

Come misurare la variabile dipendente? Si contano le frequenze di ricoveri dopo la terapia


Come si controllano le variabili estranee? Può darsi che la diminuzione di ricoveri sia dovuta 

ad altri fattori, diversi dal tipo di terapia. Si crea un gruppo di controllo, a cui non si applica 

una terapia specifica. Tale gruppo è detto gruppo D e dev'essere omogeneo, prima degli 

esperimenti, agli altri tre gruppi. 

Che test statistico si deve usare? Le misure sono frequenze, quindi il test è il chi-quadro con 

tabella di contingenza. 

Rappresentazione dei dati: Tabella di contingenza a una entrata. Nelle celle si riportano 

le frequenze di ricoveri (osservate e attese). 

gruppi A B C D 

Frequenze 

osservate 31 65 73 87 

Frequenze 

attese 64 64 64 64

Formula del chi-quadro: 

2 = 31−642 

64 

65−642 

64 


73−642 

64 

87−642 

64 

1089 

= 

64 

O: frequenza osservata 

E: frequenza attesa 

1 

64 81 

64 529 

64 

= 1682 

64 =26,563 

Il valore di χ 2 = 26,563, in relazione ad una distribuzione per k -1 = 4- 1= 3 gdl (k indica il numero 

di gruppi) corrisponde ad n il valore di probabilità di p = 0,0000073, ben al di sotto del valore di p 

= 0,05 dell'errore di I° tipo. Se si usano le tavole, allora il valore della statistica chi viene 

confrontato con il valore critico di chi, ossia il valore di chi corrispondente alla probabilità 

dell'errore di I° tipo, p = 0,05. il valore critico risulta χcrit 2 = 7,815. 

Conclusione: c'è una differenza significativa tra i gruppi A, B, C e D

Tavole del chi 

quadro. 

Il valore critico di 

χ 2 è evidenziato dal 

rettangolo rosso. 


0,95 

χ 2 = 7,815 

Rifiuto H 0 

α = 0,05


Disegno fattoriale e dati su scala nominale 

Problema: quale terapia è più efficace nel combattere l'alcolismo e la dipendenza da anfetamine? 

Ipotesi: 1. la terapia A riduce la dipendenza dall'alcolismo 

2. la terapia B riduce la dipendenza dall'alcolismo 

3. la terapia C riduce la dipendenza dall'alcolismo 

4. la terapia A riduce la dipendenza da anfetamine 

5. la terapia B riduce la dipendenza da anfetamine 

6. la terapia C riduce la dipendenza da anfetamine 

Variabile indipendente: tipo di terapia 

Variabile dipendente: frequenze di ricoveri dopo la terapia


Come manipolare la variabile indipendente? Si creano tre gruppi di soggetti con dipendenza alcolica, 

a ciascuno dei quali viene somministrata una terapia diversa. Si creano altri tre gruppi di soggetti con 

dipendenza da anfetamine, a ciascuno dei quali viene somministrata una terapia diversa 

Come misurare la variabile dipendente? Si contano le frequenze di ricoveri dopo la terapia 

Come si controllano le variabili estranee? Può darsi che la diminuzione di ricoveri sia dovuta ad altri 

fattori, diversi dal tipo di terapia. Si crea un gruppo di controllo, a cui non si applica una terapia 

specifica. Tale gruppo è detto gruppo D e dev'essere omogeneo, prima degli esperimenti, agli altri tre 

gruppi. 

Che test statistico si deve usare? Le misure sono frequenze, quindi il test è il chi-quadro con tabella di 

contingenza a due entrate, essendo il disegno un disegno fattoriale.

Rappresentazione dei dati: Tabella di contingenza a due entrate. Nelle celle si riportano 

le frequenze di ricoveri. 

Variabile B 

Variabile A 

gruppi A B C D tot 

alcool 31 65 73 87 256 

anfetamine 78 41 98 105 322 

totali 109 106 171 192 

A: tipo di terapia anti-dipendenza 

B: tipo di dipendenza


Formula per calcolare le frequenze attese (E rc ) per cella: 

R r = totale per riga; C c = totale per colonna; N = somma totale di tutte le frequenze 


alcool 31 (48,277) 65 (46,948) 73 (75,737) 87 (85,038) 256 

anfetamine 78 (60,723) 41 (59,052) 98 (95,263) 105 (106,962) 322 

totali 109 106 171 192

2 =∑ O−E2 

E 

... 41−59,0522 

59,052 

= 31−48,2772 

48,277 

98−95,2632 

95,263 

La probabilità è p = 0,000027 


65−46,9482 

46,948 

73−75,7372 

75,737 

105−106,9622 =23,817 

106,962 

Il valore critico di χ2 2 per 3 gdl e p = 0,05 è χ = 7,815. 

crit 

87−85,0382 

85,038 

78−60,7232 

60,723 

...

Il rapporto di verosimiglianza. 

Possiamo calcolare la probabilità dei punteggi ponendo H 0 come vera e la probabilità 

degli stessi punteggi ponendo H 1 come vera. Teoricamente, se la probabilità dei punteggi 

in base alla H 1 è superiore a quella dei punteggi in base alla H 0 allora possiamo rifiutare 

H 0 , altrimenti dobbiamo tenere H 0 . 

In altri termini se P(x|H 1 ) > P(x|H 0 ), allora rifiutiamo H 0 . 

se P(x|H 1 ) < P(x|H 0 ), allora accettiamo H 0 . 

Per decidere quale ipotesi accettare si deve ricorrere al test del chi quadro. 

La formula per il χ 2 unidimensionale è: 


La formula per il χ 2 per tabelle di contingenza è: 

2 

c−1=2∑ O iln O i i 

E 

r −1 c−1 

2 

=2∑ O ij ln O ij 

E ij

Riprendiamo l'esempio della terapia applicata all'alcolismo 

Applicando la formula: 


Frequenze 

osservate 31 65 73 87 

Frequenze 

attese 64 64 64 64 

2 31 65 73 87 

3=2[ 31 ln 

65 

64 

ln 6473ln 87 

64 

ln 64] =29,7045 

Come si vede, usando i rapporti di massima verosimiglianza si ottiene un 

valore di χ 2 leggermente diverso.

I modelli log-lineari 

I modelli log-lineari possono essere considerati l'equivalente dei modelli 

lineari generali dell'analisi di varianza per i dati sua scala nominale. 

Questi modelli possono essere usati per stabilire quale variabile 

indipendente spiega la ripartizione delle frequenze per cella e se esiste o 

no indipendenza tra le variabili. 

Se abbiamo una tabella di contingenza, indicando con A il primo vettore 

e con B il secondo fattore allora possiamo elaborare la seguente tabella 

di modelli. 

1. Ln (F ij ) = λ Modello di equiprobabilità 

2. Ln (F ij ) = λ + λ Α Modello di equiprob. condizionale per A 

3. Ln (F ij ) = λ + λ Β Modello di equiprob. condizionale per B 

4. Ln (F ij ) = λ + λ Α + λ Β Modello di mutua indipendenza 

5. Ln (F ij ) = λ + λ Α + λ Β + λ ΑΒ Modello saturo

Il modello di equiprobabilità stabilisce che la ripartizione delle 

frequenze per cella è dovuta solo al caso. 

Il modello di equiprob. condizionale stabilisce che la ripartizione della 

frequenze per cella è dovuta o al fattore A o al fattore B. 

Il modello di mutua indipendenza stabilisce che la ripartizione del 

frequenze è dovuta sia ad A che a B, ma gli effetti dei due fattori sono 

indipendenti tra loro. 

Il modello saturo stabilisce non solo che A e B determinano la 

ripartizione del frequenze per cella, ma, anche, che esista 

un'interazione tra i due fattori.

Riprendendo l'esempio della tabella di contingenza: 


alcool (A) 31 65 73 87 256 

anfetamine (B) 78 41 98 105 322 

Modello di equiprobabilità: 

Freq. Oss. 

Freq. Att. 

[ 

totali 109 106 171 192 578 

31 65 73 87 78 41 98 105 

72.25 72.25 72.25 72.25 72.25 72.25 72.25 72.25 

2 

7=2 31ln 31 

65 

73 

87 

72,2565ln 72,2573ln 72,2587ln 72,25 78 ln 78 

41 

98 

105 

41 

72,25 

ln 

98 

72,25 

ln 

105 

72,25 

ln 72,25 =71,36 

[

Modello di equiprob. condizionale per A (gruppi A, B, C e D): 

[ 


alcool 31 (54,5) 65 (53) 73 (85,5) 87 (96) 

anfetamine 78 (54,5) 41 (53) 98 (85,5) 105 (96) 

totali 109 106 171 192 

2 

4=2 31 ln 31 65 73 87 

65 

54,5 

ln 

73 

53 

ln 

87 

85,5 

ln 96 78 ln 78 41 98 105 

41 

54,5 

ln 

98 

53 

ln 

105 

85,5 

ln 96 =31,79 

I gdl sono 8 – 4 = 4, in quanto imponiamo due restrizioni al modello: 

le frequenze delle celle di ciascuna colonna devono dare come somma 

la frequenza attesa per quella colonna. 

[

Modello di equiprob. condizionale per B (alcool vs. anfetamine): 

[ 


alcool (A) 31 (64) 65 (64) 73 (64) 87 (64) 256 

anfetamine (B) 78 (80,5) 41 (80,5) 98 (80,5) 105 (80,5) 322 

2 

6=2 31ln 31 65 73 87 

6465ln 6473ln 87 

64 

ln 64 78 ln 78 41 98 105 

80,541ln 98 

80,5 

ln 

105 

80,5 

ln 80,5 =63,81 

I gdl sono 8 – 2 = 6, in quanto imponiamo quattro restrizioni al 

modello: 

le frequenze delle celle di ciascuna riga devono dare come somma la 

frequenza attesa per quella riga. 

[

Modello di mutua indipendenza: 

2 

3=2 31ln 

78 ln 

[ 


alcool 31 (48,277) 65 (46,948) 73 (75,737) 87 (85,038) 256 

anfetamine 78 (60,723) 41 (59,052) 98 (95,263) 105 (106,962) 322 

totali 109 106 171 192 

78 

41 

60,723 

ln 

31 

48,27765ln Gdl = (r – 1)(c – 1 ) = 3(1) = 3 

65 

46,94873ln 41 

98 

98 

59,052 

ln 

105 

95,263 

ln 

73 

87 

75,73787ln 85,038 105 

106,962 =24,23 

[

Il modello saturo prevede anche l'interazione tra i fattori. Il modello 

saturo non viene testato direttamente, diversamente da ciò che si fa 

nell'analisi di varianza. Per il modello saturo si pone sempre χ 2 = 0, dato 

che l'interazione è ciò che rimane non spiegato (errore residuo) quando 

dalle frequenze osservate togliamo le frequenze previste dal modello di di 

mutua indipendenza. Il modello saturo riesce a spiegare tutte le 

frequenze osservate, per cui non c'è differenza tra modello e dati empirici. 

Andiamo a vedere quale dei 5 modelli spiega meglio i dati empirici: 

1. Ln (F ij ) = λ χ 2 = 71,36 7 < 0,001 

2. Ln (F ij ) = λ + λ Β χ 2 = 63,81 6 < 0,001 

3. Ln (F ij ) = λ + λ Α χ 2 = 31,79 4 < 0,001 

4. Ln (F ij ) = λ + λ Α + λ Β χ 2 = 24,23 3 < 0,001 

5. Ln (F ij ) = λ + λ Α + λ Β + λ ΑΒ χ 2 = 0 0 

Tutti i primi 4 modelli risultano significativamente diversi dai dati 

empirici. Per cui alla fine rimane il modello saturo e dobbiamo 

concludere che la distribuzione delle frequenze per cella dipende dai 

due fattori principali e dall'interazione tra i fattori.

110 

100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 


alcool 31 (48,277) 65 (46,948) 73 (75,737) 87 (85,038) 256 

anfetamine 78 (60,723) 41 (59,052) 98 (95,263) 105 (106,962) 322 

totali 109 106 171 192 

istrogramma di frequenze 

alcool anfetamine 

gruppo A 

gruppo B 

gruppo C 

gruppo D 

Dall'istogramma vediamo che le frequenze variano per gruppo (i 

gruppi sottoposti a terapia hanno frequenze più basse); che coloro che 

fanno uso di anfetamine risentono meno della terapia; tuttavia per il 

gruppo B c'è un'inversione di tendenza (interazione). Per chi è 

alcolista, funziona meglio la terapia A; per chi abusa di anfetamine, 

funziona meglio la terapia B.

Chi-quadro unidimensionale con R 

script di R: Y

Output di R: 

Grafico di R: 

[1] "tabella di contingenza" 

[,1] [,2] [,3] [,4] 

[1,] 31 65 73 87 

[1] "Esito del chi quadro" 

Chi-squared test for given probabilities 

data: tab.fin 

X-squared = 26.5625, df = 3, p-value = 7.271e-06 

Var. dipendente 

80 

60 

40 

20 

0 

1 2 3 4 

Var. indipendente

Chi quadro con tabella di contingenza con R 

Script di R: Y

Output di R: 

[1] "tabella di contingenza" 

[,1] [,2] [,3] [,4] 

[1,] 31 65 73 87 

[2,] 78 41 98 105 

[1] "Esito del chi quadro" 

Pearson's Chi-squared test 

data: tab.fin 

X-squared = 23.8167, df = 3, p-value = 2.728e-05

Grafico di R: 

Var. dipendente 

100 

80 

60 

40 

20 

0 

1 2 3 4 5 6 7 8 

Var. indipendente

Modelli log lineare con R 

1° modello: Ln (F ij ) = λ + λ Β χ 2 = 63,81 gdl = 6 < 0,001 

Script: 

A

2° modello: Ln (F ij ) = λ + λ Α χ 2 = 31,79 gdl = 4 < 0,001 

Script: 

A

3° modello: Ln (F ij ) = λ + λ Α + λ Β χ 2 = 24,23 gdl = 3 < 0,001 

Script: Output: 

A

test chi quadro.pdf

Create successful ePaper yourself

Delete template?

Save as template?