11.06.2013 Views

test chi quadro.pdf

test chi quadro.pdf

test chi quadro.pdf

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Scelta del <strong>test</strong> statistico<br />

La scelta del <strong>test</strong> statistico dipende dai seguenti criteri:<br />

1. Scala di misura<br />

2. Disegno sperimentale<br />

3. Ripetizione dei soggetti<br />

4. Parametri noti della popolazione<br />

1. Scala di misura<br />

Scala nominale frequenze <strong>test</strong> del χ 2 , r φ<br />

Scala ordinale ranghi <strong>test</strong> non parametrici (Mann<br />

Witney, Wilcoxon, Friedman,<br />

r di Speraman, ecc...)<br />

Scale quantitative z <strong>test</strong>, t <strong>test</strong>, F <strong>test</strong>, r di<br />

(intervalli o rapporti) Pearson


2. Disegno sperimentale<br />

Disegno con un gruppo z <strong>test</strong>, t <strong>test</strong><br />

Disegno con due gruppi z <strong>test</strong>, t <strong>test</strong>, F <strong>test</strong><br />

Disegno fattoriale (almeno 2 F <strong>test</strong><br />

var. indipendenti)<br />

Disegno correlazionale r di Pearson<br />

3. Ripetizione dei soggetti<br />

Due gruppi t <strong>test</strong> per gruppi indipendenti<br />

t <strong>test</strong> per gruppi ripetuti<br />

> 2 gruppi F <strong>test</strong> per gruppi indipendenti (fattori between)<br />

F <strong>test</strong> per gruppi ripetuti (fattori within)


4. Parametri noti della popolazione e dimensione dei campioni<br />

Se n > 30 si usa lo z <strong>test</strong><br />

(varianza normale)<br />

Per n < 30<br />

1. se σ è noto allora si usa<br />

lo z <strong>test</strong><br />

2. se σ è ignoto allora si<br />

usa un valore stimato ( <br />

)<br />

e si applica il t <strong>test</strong>


Procedura sperimentale<br />

Ipotesi sperimentale (var. indip. e dip.)<br />

disegno sperimentale (campioni indipendenti o ripetuti, scala di<br />

misura, ecc...)<br />

ipotesi statistica (H 0 e H 1 )<br />

analisi descrittiva (frequenze osservate, moda, media, varianza, ecc...<br />

analisi inferenziale (statistica χ 2 , t o F, livello errore α)<br />

verifica ipotesi statistica<br />

verifica ipotesi sperimentale


TEST DEL CHI-QUADRO<br />

Disegno con due o più gruppi e dati su scala nominale<br />

Problema: quale terapia è più efficace nel combattere l'alcolismo?<br />

Ipotesi: 1. la terapia A riduce la dipendenza dall'alcolismo<br />

2. la terapia B riduce la dipendenza dall'alcolismo<br />

3. la terapia C riduce la dipendenza dall'alcolismo<br />

Variabile indipendente: tipo di terapia<br />

Variabile dipendente: frequenze di ricoveri dopo la terapia<br />

Come manipolare la variabile indipendente? Si creano tre gruppi, a ciascuno dei quali viene<br />

somministrata una terapia diversa. I tre gruppi sono definiti A, B e C.<br />

Come misurare la variabile dipendente? Si contano le frequenze di ricoveri dopo la terapia


TEST DEL CHI-QUADRO<br />

Come si controllano le variabili estranee? Può darsi che la diminuzione di ricoveri sia dovuta<br />

ad altri fattori, diversi dal tipo di terapia. Si crea un gruppo di controllo, a cui non si applica<br />

una terapia specifica. Tale gruppo è detto gruppo D e dev'essere omogeneo, prima degli<br />

esperimenti, agli altri tre gruppi.<br />

Che <strong>test</strong> statistico si deve usare? Le misure sono frequenze, quindi il <strong>test</strong> è il <strong>chi</strong>-<strong>quadro</strong> con<br />

tabella di contingenza.<br />

Rappresentazione dei dati: Tabella di contingenza a una entrata. Nelle celle si riportano<br />

le frequenze di ricoveri (osservate e attese).<br />

gruppi A B C D<br />

Frequenze<br />

osservate 31 65 73 87<br />

Frequenze<br />

attese 64 64 64 64


Formula del <strong>chi</strong>-<strong>quadro</strong>:<br />

2 = 31−642<br />

64<br />

65−642<br />

64<br />

TEST DEL CHI-QUADRO<br />

73−642<br />

64<br />

87−642<br />

64<br />

1089<br />

=<br />

64<br />

O: frequenza osservata<br />

E: frequenza attesa<br />

1<br />

64 81<br />

64 529<br />

64<br />

= 1682<br />

64 =26,563<br />

Il valore di χ 2 = 26,563, in relazione ad una distribuzione per k -1 = 4- 1= 3 gdl (k indica il numero<br />

di gruppi) corrisponde ad n il valore di probabilità di p = 0,0000073, ben al di sotto del valore di p<br />

= 0,05 dell'errore di I° tipo. Se si usano le tavole, allora il valore della statistica <strong>chi</strong> viene<br />

confrontato con il valore critico di <strong>chi</strong>, ossia il valore di <strong>chi</strong> corrispondente alla probabilità<br />

dell'errore di I° tipo, p = 0,05. il valore critico risulta χcrit 2 = 7,815.<br />

Conclusione: c'è una differenza significativa tra i gruppi A, B, C e D


Tavole del <strong>chi</strong><br />

<strong>quadro</strong>.<br />

Il valore critico di<br />

χ 2 è evidenziato dal<br />

rettangolo rosso.<br />

TEST DEL CHI-QUADRO<br />

0,95<br />

χ 2 = 7,815<br />

Rifiuto H 0<br />

α = 0,05


TEST DEL CHI-QUADRO<br />

Disegno fattoriale e dati su scala nominale<br />

Problema: quale terapia è più efficace nel combattere l'alcolismo e la dipendenza da anfetamine?<br />

Ipotesi: 1. la terapia A riduce la dipendenza dall'alcolismo<br />

2. la terapia B riduce la dipendenza dall'alcolismo<br />

3. la terapia C riduce la dipendenza dall'alcolismo<br />

4. la terapia A riduce la dipendenza da anfetamine<br />

5. la terapia B riduce la dipendenza da anfetamine<br />

6. la terapia C riduce la dipendenza da anfetamine<br />

Variabile indipendente: tipo di terapia<br />

Variabile dipendente: frequenze di ricoveri dopo la terapia


TEST DEL CHI-QUADRO<br />

Come manipolare la variabile indipendente? Si creano tre gruppi di soggetti con dipendenza alcolica,<br />

a ciascuno dei quali viene somministrata una terapia diversa. Si creano altri tre gruppi di soggetti con<br />

dipendenza da anfetamine, a ciascuno dei quali viene somministrata una terapia diversa<br />

Come misurare la variabile dipendente? Si contano le frequenze di ricoveri dopo la terapia<br />

Come si controllano le variabili estranee? Può darsi che la diminuzione di ricoveri sia dovuta ad altri<br />

fattori, diversi dal tipo di terapia. Si crea un gruppo di controllo, a cui non si applica una terapia<br />

specifica. Tale gruppo è detto gruppo D e dev'essere omogeneo, prima degli esperimenti, agli altri tre<br />

gruppi.<br />

Che <strong>test</strong> statistico si deve usare? Le misure sono frequenze, quindi il <strong>test</strong> è il <strong>chi</strong>-<strong>quadro</strong> con tabella di<br />

contingenza a due entrate, essendo il disegno un disegno fattoriale.


Rappresentazione dei dati: Tabella di contingenza a due entrate. Nelle celle si riportano<br />

le frequenze di ricoveri.<br />

Variabile B<br />

Variabile A<br />

gruppi A B C D tot<br />

alcool 31 65 73 87 256<br />

anfetamine 78 41 98 105 322<br />

totali 109 106 171 192<br />

A: tipo di terapia anti-dipendenza<br />

B: tipo di dipendenza


TEST DEL CHI-QUADRO<br />

Formula per calcolare le frequenze attese (E rc ) per cella:<br />

R r = totale per riga; C c = totale per colonna; N = somma totale di tutte le frequenze<br />

gruppi A B C D tot<br />

alcool 31 (48,277) 65 (46,948) 73 (75,737) 87 (85,038) 256<br />

anfetamine 78 (60,723) 41 (59,052) 98 (95,263) 105 (106,962) 322<br />

totali 109 106 171 192


2 =∑ O−E2<br />

E<br />

... 41−59,0522<br />

59,052<br />

= 31−48,2772<br />

48,277<br />

98−95,2632<br />

95,263<br />

La probabilità è p = 0,000027<br />

TEST DEL CHI-QUADRO<br />

65−46,9482<br />

46,948<br />

73−75,7372<br />

75,737<br />

105−106,9622 =23,817<br />

106,962<br />

Il valore critico di χ2 2 per 3 gdl e p = 0,05 è χ = 7,815.<br />

crit<br />

87−85,0382<br />

85,038<br />

78−60,7232<br />

60,723<br />

...


Il rapporto di verosimiglianza.<br />

Possiamo calcolare la probabilità dei punteggi ponendo H 0 come vera e la probabilità<br />

degli stessi punteggi ponendo H 1 come vera. Teoricamente, se la probabilità dei punteggi<br />

in base alla H 1 è superiore a quella dei punteggi in base alla H 0 allora possiamo rifiutare<br />

H 0 , altrimenti dobbiamo tenere H 0 .<br />

In altri termini se P(x|H 1 ) > P(x|H 0 ), allora rifiutiamo H 0 .<br />

se P(x|H 1 ) < P(x|H 0 ), allora accettiamo H 0 .<br />

Per decidere quale ipotesi accettare si deve ricorrere al <strong>test</strong> del <strong>chi</strong> <strong>quadro</strong>.<br />

La formula per il χ 2 unidimensionale è:<br />

TEST DEL CHI-QUADRO<br />

La formula per il χ 2 per tabelle di contingenza è:<br />

2<br />

c−1=2∑ O iln O i i<br />

E<br />

r −1 c−1<br />

2<br />

=2∑ O ij ln O ij<br />

E ij


Riprendiamo l'esempio della terapia applicata all'alcolismo<br />

Applicando la formula:<br />

gruppi A B C D<br />

Frequenze<br />

osservate 31 65 73 87<br />

Frequenze<br />

attese 64 64 64 64<br />

2 31 65 73 87<br />

3=2[ 31 ln<br />

65<br />

64<br />

ln 6473ln 87<br />

64<br />

ln 64] =29,7045<br />

Come si vede, usando i rapporti di massima verosimiglianza si ottiene un<br />

valore di χ 2 leggermente diverso.


I modelli log-lineari<br />

I modelli log-lineari possono essere considerati l'equivalente dei modelli<br />

lineari generali dell'analisi di varianza per i dati sua scala nominale.<br />

Questi modelli possono essere usati per stabilire quale variabile<br />

indipendente spiega la ripartizione delle frequenze per cella e se esiste o<br />

no indipendenza tra le variabili.<br />

Se abbiamo una tabella di contingenza, indicando con A il primo vettore<br />

e con B il secondo fattore allora possiamo elaborare la seguente tabella<br />

di modelli.<br />

1. Ln (F ij ) = λ Modello di equiprobabilità<br />

2. Ln (F ij ) = λ + λ Α Modello di equiprob. condizionale per A<br />

3. Ln (F ij ) = λ + λ Β Modello di equiprob. condizionale per B<br />

4. Ln (F ij ) = λ + λ Α + λ Β Modello di mutua indipendenza<br />

5. Ln (F ij ) = λ + λ Α + λ Β + λ ΑΒ Modello saturo


Il modello di equiprobabilità stabilisce che la ripartizione delle<br />

frequenze per cella è dovuta solo al caso.<br />

Il modello di equiprob. condizionale stabilisce che la ripartizione della<br />

frequenze per cella è dovuta o al fattore A o al fattore B.<br />

Il modello di mutua indipendenza stabilisce che la ripartizione del<br />

frequenze è dovuta sia ad A che a B, ma gli effetti dei due fattori sono<br />

indipendenti tra loro.<br />

Il modello saturo stabilisce non solo che A e B determinano la<br />

ripartizione del frequenze per cella, ma, anche, che esista<br />

un'interazione tra i due fattori.


Riprendendo l'esempio della tabella di contingenza:<br />

gruppi A B C D tot<br />

alcool (A) 31 65 73 87 256<br />

anfetamine (B) 78 41 98 105 322<br />

Modello di equiprobabilità:<br />

Freq. Oss.<br />

Freq. Att.<br />

[<br />

totali 109 106 171 192 578<br />

31 65 73 87 78 41 98 105<br />

72.25 72.25 72.25 72.25 72.25 72.25 72.25 72.25<br />

2<br />

7=2 31ln 31<br />

65<br />

73<br />

87<br />

72,2565ln 72,2573ln 72,2587ln 72,25 78 ln 78<br />

41<br />

98<br />

105<br />

41<br />

72,25<br />

ln<br />

98<br />

72,25<br />

ln<br />

105<br />

72,25<br />

ln 72,25 =71,36<br />

[


Modello di equiprob. condizionale per A (gruppi A, B, C e D):<br />

[<br />

gruppi A B C D<br />

alcool 31 (54,5) 65 (53) 73 (85,5) 87 (96)<br />

anfetamine 78 (54,5) 41 (53) 98 (85,5) 105 (96)<br />

totali 109 106 171 192<br />

2<br />

4=2 31 ln 31 65 73 87<br />

65<br />

54,5<br />

ln<br />

73<br />

53<br />

ln<br />

87<br />

85,5<br />

ln 96 78 ln 78 41 98 105<br />

41<br />

54,5<br />

ln<br />

98<br />

53<br />

ln<br />

105<br />

85,5<br />

ln 96 =31,79<br />

I gdl sono 8 – 4 = 4, in quanto imponiamo due restrizioni al modello:<br />

le frequenze delle celle di ciascuna colonna devono dare come somma<br />

la frequenza attesa per quella colonna.<br />

[


Modello di equiprob. condizionale per B (alcool vs. anfetamine):<br />

[<br />

gruppi A B C D tot<br />

alcool (A) 31 (64) 65 (64) 73 (64) 87 (64) 256<br />

anfetamine (B) 78 (80,5) 41 (80,5) 98 (80,5) 105 (80,5) 322<br />

2<br />

6=2 31ln 31 65 73 87<br />

6465ln 6473ln 87<br />

64<br />

ln 64 78 ln 78 41 98 105<br />

80,541ln 98<br />

80,5<br />

ln<br />

105<br />

80,5<br />

ln 80,5 =63,81<br />

I gdl sono 8 – 2 = 6, in quanto imponiamo quattro restrizioni al<br />

modello:<br />

le frequenze delle celle di ciascuna riga devono dare come somma la<br />

frequenza attesa per quella riga.<br />

[


Modello di mutua indipendenza:<br />

2<br />

3=2 31ln<br />

78 ln<br />

[<br />

gruppi A B C D tot<br />

alcool 31 (48,277) 65 (46,948) 73 (75,737) 87 (85,038) 256<br />

anfetamine 78 (60,723) 41 (59,052) 98 (95,263) 105 (106,962) 322<br />

totali 109 106 171 192<br />

78<br />

41<br />

60,723<br />

ln<br />

31<br />

48,27765ln Gdl = (r – 1)(c – 1 ) = 3(1) = 3<br />

65<br />

46,94873ln 41<br />

98<br />

98<br />

59,052<br />

ln<br />

105<br />

95,263<br />

ln<br />

73<br />

87<br />

75,73787ln 85,038 105<br />

106,962 =24,23<br />

[


Il modello saturo prevede anche l'interazione tra i fattori. Il modello<br />

saturo non viene <strong>test</strong>ato direttamente, diversamente da ciò che si fa<br />

nell'analisi di varianza. Per il modello saturo si pone sempre χ 2 = 0, dato<br />

che l'interazione è ciò che rimane non spiegato (errore residuo) quando<br />

dalle frequenze osservate togliamo le frequenze previste dal modello di di<br />

mutua indipendenza. Il modello saturo riesce a spiegare tutte le<br />

frequenze osservate, per cui non c'è differenza tra modello e dati empirici.<br />

Andiamo a vedere quale dei 5 modelli spiega meglio i dati empirici:<br />

1. Ln (F ij ) = λ χ 2 = 71,36 7 < 0,001<br />

2. Ln (F ij ) = λ + λ Β χ 2 = 63,81 6 < 0,001<br />

3. Ln (F ij ) = λ + λ Α χ 2 = 31,79 4 < 0,001<br />

4. Ln (F ij ) = λ + λ Α + λ Β χ 2 = 24,23 3 < 0,001<br />

5. Ln (F ij ) = λ + λ Α + λ Β + λ ΑΒ χ 2 = 0 0<br />

Tutti i primi 4 modelli risultano significativamente diversi dai dati<br />

empirici. Per cui alla fine rimane il modello saturo e dobbiamo<br />

concludere che la distribuzione delle frequenze per cella dipende dai<br />

due fattori principali e dall'interazione tra i fattori.


110<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

gruppi A B C D tot<br />

alcool 31 (48,277) 65 (46,948) 73 (75,737) 87 (85,038) 256<br />

anfetamine 78 (60,723) 41 (59,052) 98 (95,263) 105 (106,962) 322<br />

totali 109 106 171 192<br />

istrogramma di frequenze<br />

alcool anfetamine<br />

gruppo A<br />

gruppo B<br />

gruppo C<br />

gruppo D<br />

Dall'istogramma vediamo che le frequenze variano per gruppo (i<br />

gruppi sottoposti a terapia hanno frequenze più basse); che coloro che<br />

fanno uso di anfetamine risentono meno della terapia; tuttavia per il<br />

gruppo B c'è un'inversione di tendenza (interazione). Per <strong>chi</strong> è<br />

alcolista, funziona meglio la terapia A; per <strong>chi</strong> abusa di anfetamine,<br />

funziona meglio la terapia B.


Chi-<strong>quadro</strong> unidimensionale con R<br />

script di R: Y


Output di R:<br />

Grafico di R:<br />

[1] "tabella di contingenza"<br />

[,1] [,2] [,3] [,4]<br />

[1,] 31 65 73 87<br />

[1] "Esito del <strong>chi</strong> <strong>quadro</strong>"<br />

Chi-squared <strong>test</strong> for given probabilities<br />

data: tab.fin<br />

X-squared = 26.5625, df = 3, p-value = 7.271e-06<br />

Var. dipendente<br />

80<br />

60<br />

40<br />

20<br />

0<br />

1 2 3 4<br />

Var. indipendente


Chi <strong>quadro</strong> con tabella di contingenza con R<br />

Script di R: Y


Output di R:<br />

[1] "tabella di contingenza"<br />

[,1] [,2] [,3] [,4]<br />

[1,] 31 65 73 87<br />

[2,] 78 41 98 105<br />

[1] "Esito del <strong>chi</strong> <strong>quadro</strong>"<br />

Pearson's Chi-squared <strong>test</strong><br />

data: tab.fin<br />

X-squared = 23.8167, df = 3, p-value = 2.728e-05


Grafico di R:<br />

Var. dipendente<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

1 2 3 4 5 6 7 8<br />

Var. indipendente


Modelli log lineare con R<br />

1° modello: Ln (F ij ) = λ + λ Β χ 2 = 63,81 gdl = 6 < 0,001<br />

Script:<br />

A


2° modello: Ln (F ij ) = λ + λ Α χ 2 = 31,79 gdl = 4 < 0,001<br />

Script:<br />

A


3° modello: Ln (F ij ) = λ + λ Α + λ Β χ 2 = 24,23 gdl = 3 < 0,001<br />

Script: Output:<br />

A

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!