11.08.2013 Views

Appunti Provvisori di Statistica 25 febbraio 2008 Michel de ...

Appunti Provvisori di Statistica 25 febbraio 2008 Michel de ...

Appunti Provvisori di Statistica 25 febbraio 2008 Michel de ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Appunti</strong> <strong>Provvisori</strong> <strong>di</strong> <strong>Statistica</strong><br />

<strong>25</strong> <strong>febbraio</strong> <strong>2008</strong><br />

<strong>Michel</strong> <strong>de</strong> Nostredame


1. INTRODUZIONE 3<br />

1. Introduzione<br />

Lo stu<strong>di</strong>o <strong>de</strong>lla statistica può venire <strong>di</strong>viso in tre parti:<br />

<strong>Statistica</strong> Descrittiva.: Questa può venire <strong>de</strong>finita come il complesso<br />

<strong>di</strong> meto<strong>di</strong> che provvedono alla raccolta, alla presentazione<br />

ed alla caratterizzazione <strong>di</strong> un insieme <strong>di</strong> dati con lo scopo <strong>di</strong><br />

<strong>de</strong>scriverne le varie caratteristiche nella maniera appropriata.<br />

Teoria <strong>de</strong>lla Probabilità.: I fondamenti <strong>de</strong>lla teoria <strong>de</strong>lla probabilità<br />

si possono rintracciare già nel XVII secolo nella corrispon<strong>de</strong>nza<br />

fra il matematico Pascal ed il giocatore d’azzardo<br />

<strong>de</strong> Mère. Imponenti sviluppi <strong>de</strong>lla teoria <strong>de</strong>lla probabilità sono<br />

dovuti all’opera <strong>di</strong> matematici come Bernoulli, <strong>de</strong> Moivre<br />

e Gauss.<br />

<strong>Statistica</strong> Inferenziale.: Questa può venire <strong>de</strong>finita come il<br />

complesso <strong>di</strong> meto<strong>di</strong> che consentono <strong>di</strong> stimare una caratteristica<br />

<strong>di</strong> una popolazione, oppure <strong>di</strong> pren<strong>de</strong>re una <strong>de</strong>cisione<br />

che concerne l’intera popolazione, sulla base <strong>di</strong> risultati<br />

campionari.<br />

La teoria <strong>de</strong>lla probabilità è l’anello <strong>di</strong> congiunzione fra la statistica<br />

<strong>de</strong>scrittiva e la statistica inferenziale.<br />

Sebbene i meto<strong>di</strong> <strong>de</strong>lla statistica <strong>de</strong>scrittiva siano importanti per<br />

presentare e caratterizzare un insieme <strong>di</strong> dati, è stato lo sviluppo <strong>de</strong>lla<br />

statistica inferenziale a portare a <strong>de</strong>terminare l’ampia applicazione<br />

<strong>de</strong>lla statistica in tanti campi <strong>di</strong> ricerca.<br />

Per chiarire meglio i prece<strong>de</strong>nti concetti chiariamo che cosa si intenda<br />

per popolazione e per campione.<br />

Popolazione: È l’insieme <strong>de</strong>gli elementi o <strong>de</strong>lle “cose” che si<br />

prendono in consi<strong>de</strong>razione.<br />

Campione: È la parte <strong>de</strong>lla popolazione che si seleziona per<br />

l’analisi.<br />

Di fatto la statistica <strong>de</strong>scrittiva lavora sull’intera popolazione mentre<br />

la statistica inferenziale lavora sul campione.<br />

La necessità <strong>di</strong> ricorrere ai meto<strong>di</strong> <strong>de</strong>lla statistica inferenziale <strong>de</strong>riva<br />

dalla necessità <strong>di</strong> ottenere <strong>de</strong>lle informazioni su <strong>di</strong> una popolazione molto<br />

vasta <strong>de</strong>lla quale <strong>di</strong>venta troppo costoso, o ad<strong>di</strong>rittura impossibile,<br />

ottenere informazioni esaminando le caratteristiche <strong>di</strong> ogni in<strong>di</strong>viduo.<br />

Quando si proce<strong>de</strong> ad una indagine statistica il primo problema è<br />

quello <strong>de</strong>lla raccolta e <strong>de</strong>lla rappresentazione <strong>de</strong>i dati.<br />

Possiamo <strong>di</strong>stinguere tra vari tipi <strong>di</strong> dati:<br />

Dati <strong>di</strong> Campagna: riguardano informazioni raccolte sul territorio.


4<br />

Dati <strong>di</strong> Laboratorio: riguardano informazioni raccolte in laboratorio<br />

e possono provenire da osservazioni naturali o da<br />

esperimenti.<br />

Dati Simulati: riguardano informazioni raccolte utilizzando <strong>de</strong>lle<br />

simulazioni al computer <strong>di</strong> fenomeni naturali.<br />

⎧<br />

⎧<br />

misure<br />

numeriche<br />

⎪⎨<br />

dati<br />

sperimentali<br />

⎧<br />

⎪⎨<br />

osservazioni<br />

che restano<br />

<strong>di</strong> campagna<br />

⎪⎨<br />

osservazioni<br />

qualitative<br />

qualitative<br />

osservazioni<br />

⎪⎩<br />

⎪⎩ convertibili<br />

in numeri<br />

⎧<br />

misure <strong>di</strong><br />

laboratorio<br />

su prelievi <strong>di</strong><br />

campagna<br />

⎪⎨<br />

⎧<br />

<strong>di</strong> laboratorio<br />

simulazioni<br />

al computer<br />

⎪⎨<br />

esperimenti <strong>di</strong><br />

misure<br />

laboratorio<br />

numeriche in<br />

⎪⎩<br />

⎪⎩<br />

⎪⎩ esperimenti <strong>di</strong><br />

laboratorio<br />

Iniziamo trattando i seguenti argomenti:<br />

• Tipi <strong>di</strong>versi <strong>di</strong> scale <strong>di</strong> misura utilizzate per il rilevamento <strong>di</strong><br />

dati numerici.<br />

• Errori introdotti dal proce<strong>di</strong>mento <strong>di</strong> misura e dalla successiva<br />

elaborazione <strong>de</strong>i dati.<br />

Prima <strong>di</strong> proce<strong>de</strong>re oltre <strong>di</strong>amo ancora un paio <strong>di</strong> <strong>de</strong>finizioni:<br />

Definizione 1.1. Una variabile aleatoria, solitamente in<strong>di</strong>cata con<br />

X, Y , . . . , è una varibile che assume un ben <strong>de</strong>terminato valore a<br />

seguito <strong>de</strong>lla realizzazione <strong>di</strong> un esperimento.<br />

Esempio 1.1. (1) X è il peso <strong>di</strong> una persona scelta in quest’aula.<br />

(2) X è l’esito <strong>de</strong>l lancio <strong>di</strong> un dado.


1. INTRODUZIONE 5<br />

(3) X è il colore <strong>de</strong>gli occhi <strong>di</strong> una persona scelta a Reggio Emilia.<br />

(4) X è il fattore RH <strong>de</strong>l sangue <strong>di</strong> una persona scelta in Italia.<br />

Già da questi esempi si capisce che una variabile aleatoria può essere<br />

<strong>di</strong> tipo quantitativo (il valore che assume una quantità) o <strong>di</strong> tipo<br />

qualitativo (il valore che assume una qualità).<br />

Il valore o dato assunto da una variabile aleatoria X è il risultato <strong>di</strong><br />

una osservazione o misura in<strong>di</strong>viduale, cioè effettuata su <strong>di</strong> un singolo<br />

in<strong>di</strong>viduo <strong>de</strong>lla popolazione o <strong>de</strong>l campione preso in esame.<br />

Definizione 1.2. Il singolo in<strong>di</strong>viduo <strong>de</strong>lla popolazione o <strong>de</strong>l campione<br />

preso in esame per valutare il valore assunto dalla variabile<br />

aleatoria X si chiama unità statistica.<br />

Ad esempio se misuriamo il peso <strong>di</strong> 100 cavie abbiamo:<br />

• popolazione = 100 cavie = campione esaminato<br />

• unità statistica = ogni singola cavia<br />

• variabile aleatoria = peso = variabile <strong>di</strong> tipo quantitativo.<br />

Una variabile aleatoria <strong>di</strong> tipo quantitativo può essere una variabile<br />

aleatoria <strong>di</strong>screta oppure continua.<br />

Definizione 1.3. Una variabile aleatoria <strong>di</strong> tipo quantitativo si<br />

<strong>di</strong>ce <strong>di</strong>screta se può assumere un numero finito (od una infinità numerabile)<br />

<strong>di</strong> valori <strong>di</strong>versi (valori che costituiscono un insieme che può venire<br />

messo in corrispon<strong>de</strong>nza biunivoca con un sottoinsieme <strong>de</strong>i numeri<br />

naturali N).<br />

Una variabile aleatoria <strong>di</strong> tipo quantitativo si <strong>di</strong>ce continua se può<br />

assumere una infinità più che numerabile <strong>di</strong> valori <strong>di</strong>versi (in pratica<br />

quanti sono i numeri reali).<br />

Riassumiamo con uno schema:<br />

variabile<br />

aleatoria<br />

⎧<br />

<br />

⎪⎨<br />

continua<br />

quantitativo<br />

<strong>di</strong>screta<br />

⎪⎩<br />

qualitativo<br />

Anche una variabile qualitativa può essere etichettata tramite <strong>de</strong>i<br />

numeri. Ad esempio, se X rappresenta il colore <strong>de</strong>gli occhi <strong>di</strong> una<br />

persona in quest’aula, possiamo dare ad X il valore 0 se gli occhi sono<br />

azzurri, il valore 1 se gli occhi sono neri.


6<br />

2. Scale <strong>di</strong> misura<br />

Quando ci troviamo a misurare un dato sperimentale dobbiamo<br />

capire che scala <strong>di</strong> misura utilizzare. Possiamo in<strong>di</strong>viduare i seguenti<br />

tipi <strong>di</strong> scale <strong>di</strong> misura:<br />

2.1. Scala nominale.<br />

Una variabile aleatoria X si <strong>di</strong>ce misurata in scala nominale quando i<br />

valori assunti da X, cioè i risultati <strong>de</strong>lle misurazioni, sono nomi. Ad<br />

esempio sono variabili misurate in scala nominale :<br />

- il sesso: M, F<br />

- il fattore RH <strong>de</strong>l sangue umano: Positivo, Negativo<br />

Come abbiamo già <strong>de</strong>tto i valori assunti da X possono essere co<strong>di</strong>ficati<br />

me<strong>di</strong>ante numeri.<br />

Nel caso <strong>de</strong>l sesso si può co<strong>di</strong>ficare:<br />

M=0 F=1.<br />

Nel caso <strong>de</strong>l fattore RH si può co<strong>di</strong>ficare:<br />

RH+=1 RH-=0.<br />

Di fatto, la scala nominale è utilizzata per classificare le unità<br />

statistiche <strong>di</strong> una data popolazione o campione.<br />

Alcune operazioni aritmetiche sono possibili anche quando X è misurata<br />

in scala nominale. Ad esempio, se abbiamo un campione <strong>di</strong> 20<br />

pazienti e ne valutiamo sia il fattore RH che il sesso e ci chie<strong>di</strong>amo:<br />

“quante sono le donne con RH-?” Allora valutiamo X=fattore RH e<br />

Y =sesso per ogni unità statistica (cioè ogni paziente). Poniamo<br />

maschio = 0 femmina = 1<br />

RH+ = 0 RH− = 1.<br />

Riportiamo come esempio i dati co<strong>di</strong>ficati con 0 ed 1 raccolti sui 20<br />

pazienti:<br />

Sesso: 0 0 1 1 0 0 0 0 1 1 1 1 0 1 0 1 0 1 0 0<br />

Fat. RH: 0 0 0 1 1 0 0 0 0 1 0 0 1 1 0 0 0 1 1 0<br />

Se eseguiamo la moltiplicazione <strong>de</strong>i numeri che stanno sulla stessa<br />

colonna, sapremo quante donne hanno il fattore RH-.<br />

0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0<br />

Quattro donne hanno il fattore RH- sui 20 pazienti esaminati.


2. SCALE DI MISURA 7<br />

2.2. Scala or<strong>di</strong>nale.<br />

Si <strong>di</strong>ce che una variabile aleatoria X è misurata in scala or<strong>di</strong>nale quando<br />

tutti i possibili risultati <strong>de</strong>lla misura costituiscono un insieme dotato<br />

<strong>di</strong> un or<strong>di</strong>namento che è significativo nel contesto in cui si osserva X.<br />

Esempio 2.1.<br />

• X è l’intensità <strong>di</strong> un terremoto. La scala Mercalli (gra<strong>di</strong> da 1<br />

ad 11) misura l’intensità <strong>di</strong> un terremoto ed è una scala or<strong>di</strong>nale,<br />

infatti un terremoto <strong>di</strong> grado 4 ha una capacità <strong>di</strong>struttiva<br />

minore <strong>di</strong> quella <strong>di</strong> un terremoto <strong>di</strong> grado 5.<br />

• X è la durezza <strong>de</strong>i minerali. Si utilizza la scala <strong>di</strong> Mohs (da 1<br />

a 10).<br />

Quando la variabile X è misurata in scala or<strong>di</strong>nale è significativa<br />

la relazione d’or<strong>di</strong>ne, ma non le operazioni aritmetiche. Due terremoti<br />

<strong>di</strong> grado 3 non equivalgono ad un terremoto <strong>di</strong> grado 6.<br />

2.3. Scala rapportale.<br />

Si <strong>di</strong>ce che una variabile aleatoria X è misurata in scala rapportale<br />

quando i risultati <strong>de</strong>lla misura sono numeri reali, i cui rapporti sono<br />

significativi nel contesto in cui si osserva X.<br />

Di fatto se la misura <strong>de</strong>ll’unità statistica u ′ è x ′ e la misura <strong>de</strong>ll’unità<br />

statistica u ′′ è x ′′ (cioè X assume valore x ′ relativamente all’in<strong>di</strong>viduo u ′<br />

e X assume valore x ′′ relativamente all’in<strong>di</strong>viduo x ′′ ), posto r = x ′ /x ′′ ,<br />

cioè x ′ = rx ′′ , ha senso nel contesto <strong>di</strong>re che X vale r volte <strong>di</strong> più in u ′<br />

che in u ′′ .<br />

Ad esempio: pesiamo 300 trote in un torrente. X = peso. Se la<br />

prima trota pesa 100 grammi e la seconda pesa 200 grammi, <strong>di</strong>remo<br />

che la seconda trota pesa il doppio <strong>de</strong>lla prima.<br />

Bisogna però stare attenti a non farsi ingannare. Ad esempio la<br />

misura <strong>de</strong>lla temperatura non è, come in apparenza sembrerebbe, una<br />

scala rapportale. Se il 5 agosto ci sono 40 gra<strong>di</strong> Celsius ed il 2 settembre<br />

ci sono 20 gra<strong>di</strong> Celsius non ha senso <strong>di</strong>re che il 5 agosto c’è il doppio<br />

<strong>di</strong> caldo <strong>de</strong>l 2 settembre. Abbiamo infatti<br />

40 gra<strong>di</strong> Celsius = 104 gra<strong>di</strong> Fahrenheit<br />

20 gra<strong>di</strong> Celsius = 68 gra<strong>di</strong> Fahrenheit<br />

per i passaggi fra i gra<strong>di</strong> Fahrenheit ed i gra<strong>di</strong> Celsius si usano le formule<br />

<strong>di</strong> conversione<br />

C 0 = 5<br />

9 (F 0 − 32) F 0 = 9<br />

5 C0 + 32.


8<br />

2.4. Errori.<br />

Nel processo <strong>di</strong> misura <strong>de</strong>i fenomeni naturali (ad esempio in una scala<br />

<strong>di</strong> rapporti) possiamo <strong>di</strong>stinguere <strong>di</strong>versi tipi <strong>di</strong> errori.<br />

Vi sono gli errori grossolani, dovuti a momentanea <strong>di</strong>sattenzione <strong>di</strong><br />

chi effettua la misura. Ad esempio scrivere 10 grammi al posto <strong>di</strong> 10<br />

milligrammi. Questi errori sono solitamente molto gran<strong>di</strong>, accadono in<br />

modo irregolare e sono facili da i<strong>de</strong>ntificare e da correggere.<br />

Talvolta, pur in assenza <strong>di</strong> errori grossolani, le misure possono risultare<br />

sempre o troppo gran<strong>di</strong> o troppo piccole, in tal caso si parla <strong>di</strong><br />

errori sistematici. Gli errori sistematici sono solitamente dovuti ad errori<br />

<strong>di</strong> calibrazione <strong>de</strong>gli strumenti o dall’aver trascurato taluni aspetti<br />

<strong>de</strong>i fenomeni stu<strong>di</strong>ati.<br />

Dei prece<strong>de</strong>nti due tipi <strong>di</strong> errori non si occupa la matematica che<br />

invece pren<strong>de</strong> in consi<strong>de</strong>razione gli errori statistici <strong>di</strong> misura, che sono<br />

prodotti all’atto stesso <strong>di</strong> rilevare la misura, gli errori <strong>di</strong> arrotondamento,<br />

che intervengono nella fase <strong>di</strong> elaborazione numerica <strong>de</strong>i dati<br />

rilevati.<br />

2.4.1. Errori statistici <strong>di</strong> misura. Generalmente l’esito <strong>di</strong> una misura<br />

è una espressione <strong>de</strong>l tipo<br />

x = 4.529 ± 0.002.<br />

Ciò significa quanto segue. Nel protocollo <strong>de</strong>lla misura è stato stabilito<br />

a priori un “un limite <strong>di</strong> confi<strong>de</strong>nza” α che rappresenta il limite massimo<br />

<strong>de</strong>lla percentuale <strong>di</strong> errore <strong>di</strong>sposti a tollerare. Nelle applicazioni<br />

biologiche un valore comunemente scelto è α = 0.05. Il risultato <strong>de</strong>lla<br />

misura è quin<strong>di</strong> <strong>de</strong>tto atten<strong>di</strong>bile con probabilità 1−α (ad esempio con<br />

probabilità 95% se α = 0.05). La scrittura x = 4.529 ± 0.002 significa<br />

quin<strong>di</strong> che (con probabilità 1 − α) il valore “vero” <strong>di</strong> x verifica le <strong>di</strong>suguaglianze:<br />

4.527 ≤ x ≤ 4.531. In altre parole il valore “vero” <strong>di</strong> x<br />

si può esprimere come X = x + ɛ, dove X è il valore osservato nella<br />

misurazione ed ɛ è l’errore statistico <strong>di</strong> misura. ɛ varia in ogni singola<br />

osservazione ma comunque “nel 95% <strong>de</strong>i casi” sod<strong>di</strong>sfa alla limitazione<br />

|ɛ| ≤ 0.05.<br />

Solitamente, ottenute le misure queste saranno messe in un computer<br />

per la loro elaborazione. Il metodo più logico <strong>di</strong> mettere la misura x<br />

nel computer è <strong>di</strong> scrivere il valore centrale <strong>de</strong>ll’intervallo <strong>di</strong> confi<strong>de</strong>nza,<br />

che nel nostro caso è [4.527, 4.531], ovvero 4.529. A sua volta però il<br />

computer dovrà mo<strong>di</strong>ficare ancora questo numero, per le esigenze interne<br />

<strong>de</strong>l suo sistema <strong>di</strong> calcolo e, successivamente, dovrà mo<strong>di</strong>ficarle<br />

ulteriormente i risultati introducendo un altro tipo <strong>di</strong> errore, quello <strong>di</strong><br />

arrotondamento.


2. SCALE DI MISURA 9<br />

2.5. Percentuali.<br />

Spen<strong>di</strong>amo brevemente qualche raccomandazione <strong>di</strong> cautela trattando<br />

<strong>di</strong> dati che si presentano nella forma percentuale. Il simbolo % significa<br />

semplicemente “<strong>di</strong>viso 100”, quin<strong>di</strong> 57% = 0.57, 220% = 2, 20 e<br />

14.654% = 0.14654. I dati in percentuali si presentano solo nelle scale<br />

rapportali.<br />

Osserviamo che le percentuali si moltiplicano, per capirlo facciamo<br />

un esempio. Un vitello <strong>di</strong> 50 kg passa in un mese a 60 kg: è aumentato<br />

<strong>di</strong> 10 kg, cioè <strong>di</strong> 1/5 <strong>de</strong>l suo peso iniziale, cioè è aumentato <strong>de</strong>l 20%.<br />

Nel mese successivo aumenta ancora <strong>de</strong>l 20%, cioè <strong>di</strong> 1/5 <strong>di</strong> 60 kg, cioè<br />

aumenta <strong>di</strong> 12 kg andando a 72 kg. Perciò in due mesi è aumentato <strong>di</strong><br />

22 kg, quin<strong>di</strong> <strong>de</strong>l 44% (cioè più <strong>de</strong>l 20% + 20% = 40%). L’operazione<br />

naturale per le percentuali è la motiplicazione. Sia x il peso iniziale<br />

<strong>de</strong>l vitello. Dopo un mese il il peso è aumentato <strong>de</strong>l 20% <strong>di</strong>ventando<br />

x + 20%x = x + 0.2x = 1.2x. Per ottenere il peso dopo un mese,<br />

supponendo un aumento mensile <strong>de</strong>l 20%, dobbiamo moltiplicare il<br />

peso <strong>di</strong> partenza per 1.2. Quin<strong>di</strong> dopo due mesi il peso sarà 1.2·1.2·x =<br />

1.44 · x.<br />

Generalizziamo questa osservazione. Consi<strong>de</strong>riamo una quantità X<br />

(variabile aleatoria) che viene misurata in scala rapportale ad uguali<br />

intervalli <strong>di</strong> tempo. Diciamo ∆t l’intervallo <strong>di</strong> campionamento (ad<br />

esempio ∆t = 1 mese, ∆t = 10 secon<strong>di</strong>, . . . ). Diciamo<br />

x0, x1, . . . , xn<br />

i risultati <strong>de</strong>lle misure effettuate rispettivamente ai tempi<br />

t0, t1 = t0 + ∆t, t2 = t0 + 2∆t, . . . , tn = t0 + n∆t.<br />

Supponendo che la variabile X aumenti <strong>di</strong> una percentuale fissa p% =<br />

p/100 ad ogni intervallo ∆t. Pertanto:<br />

x0 = x0<br />

x1 = (1 + p<br />

100 )x0<br />

x2 = (1 + p<br />

100 )x1 = (1 + p p<br />

)(1 +<br />

100 100 )x0 = (1 + p<br />

100 )2x0 .<br />

xn = (1 + p<br />

100 )n x0<br />

Osservazione 2.1. Un aumento <strong>de</strong>l p% ed una <strong>di</strong>minuzione in un<br />

periodo successivo <strong>de</strong>l p% non si cancellano a vicenda.<br />

Esempio 2.2. La produzione <strong>di</strong> un albero <strong>di</strong> frutta cresce in un anno<br />

da 120 kg a 180 kg, cioè c’è un aumento <strong>de</strong>l 50%. L’anno successivo la


10<br />

produzione cala <strong>de</strong>l 50%, cioè cala a 90 kg, molto meno <strong>de</strong>i 120 kg <strong>di</strong><br />

due anni prima.<br />

3. Rappresentazione <strong>de</strong>i dati<br />

Sia N un numero <strong>di</strong> unità statistiche che costituiscono una popolazione<br />

od un campione tratto da una popolazione. In<strong>di</strong>chiamo con U1,<br />

U2, . . . , UN tali unità statistiche. Per ciscuna <strong>di</strong> esse si osservano, secondo<br />

gli opportuni protocolli stabiliti e le opportune scale numeriche,<br />

i valori numerici <strong>di</strong> m variabili aleatorie:<br />

X1, X2, . . . , Xm.<br />

Le osservazioni numeriche vengono usualmente rappresentate in<br />

una matrice <strong>di</strong> dati D = xr <br />

r<br />

s , dove xs in<strong>di</strong>ca il valore osservato<br />

dalla s-esima variabile Xs nella r-esima unità statistica Ur. (Quin<strong>di</strong><br />

r = 1, 2, . . . , N e s = 1, 2, . . . , m.) Una tale matrice o tabella viene<br />

anche <strong>de</strong>tta tabella cronologica perché si sottointen<strong>de</strong> che l’unità statistica<br />

U1 sia stata la prima ad essere esaminata, l’unità statistica U2 la<br />

seconda e così via.<br />

Unità variabili<br />

statistiche X1 X2 . . . Xm<br />

U1 x 1 1 x 1 2 x 1 m<br />

U2 x 2 1 x 2 2 x 2 m<br />

. . .<br />

UN x N 1 x N 2 x N m<br />

Come esempio consi<strong>de</strong>riamo un campione <strong>di</strong> 30 esemplari <strong>di</strong> fiori <strong>di</strong><br />

codolina (Phleum pratense) numerati da 1 a 30. In<strong>di</strong>chiamo con X la<br />

variabile aleatoria lunghezza <strong>de</strong>lla foglia superiore (guaina compresa)<br />

ed in<strong>di</strong>chiamo con Y la variabile aleatoria lunghezza <strong>de</strong>lla spiga fiorita.<br />

Sulla base <strong>de</strong>i dati raccolti otteniamo la tabella cronologica o matrice<br />

<strong>de</strong>i dati riportata nella Tabella 1 <strong>di</strong> pagina 11, nella quale le misure<br />

sono espresse in cm.<br />

Come secondo esempio supponiamo <strong>di</strong> avere misurato il peso (in kg)<br />

e l’altezza (in cm) <strong>di</strong> 8 stu<strong>de</strong>ntesse ed 11 stu<strong>de</strong>nti. Possiamo riportare<br />

le relative misure in un’unica tabella con 8 + 11 = 19 unità statistiche<br />

e 3 variabili aleatorie: il peso X1, l’altezza X2 ed il sesso X3 (ve<strong>di</strong> la<br />

Tabella 2 <strong>di</strong> pagina 12).


3. RAPPRESENTAZIONE DEI DATI 11<br />

Tabella 1. Lunghezza X <strong>de</strong>lla foglia superiore e<br />

lunghezza Y <strong>de</strong>l fiore in 30 esemplari <strong>di</strong> Phleum pratense.<br />

Unità X Y<br />

1 23.4 9.8<br />

2 22.0 9.5<br />

3 <strong>25</strong>.0 12.2<br />

4 18.1 8.3<br />

5 18.9 9.5<br />

6 20.5 9.2<br />

7 19.1 8.5<br />

8 27.5 12.1<br />

9 21.6 19.4<br />

10 14.3 5.5<br />

11 20.8 10.6<br />

12 16.3 5.5<br />

13 23.1 10.5<br />

14 17.4 7.4<br />

15 17.0 6.8<br />

Unità X Y<br />

16 26.8 11.7<br />

17 12.5 4.1<br />

18 18.4 9.3<br />

19 16.7 6.2<br />

20 24.0 11.0<br />

21 24.2 10.2<br />

22 21.1 9.6<br />

23 15.0 5.0<br />

24 20.0 8.5<br />

<strong>25</strong> 20.1 9.7<br />

26 19.2 7.0<br />

27 21.0 7.9<br />

28 13.0 4.7<br />

29 19.7 8.3<br />

30 26.0 12.6<br />

Iniziamo consi<strong>de</strong>rando il caso più semplice: quando la variabile da<br />

registrare, <strong>de</strong>scrivere e riassumere è una sola che in<strong>di</strong>cheremo con X.<br />

Supponiamo <strong>di</strong> eseguire n misurazioni <strong>de</strong>lla variabile X, otterremo n<br />

risultati che in<strong>di</strong>cheremo con x1, x2, . . . , xn. Cioè xk è il risultato <strong>de</strong>lla<br />

k-esima misurazione. Se la variabile X è in scala or<strong>di</strong>nale, una prima<br />

ovvia strutturazione <strong>de</strong>i dati raccolti si ha rior<strong>di</strong>nando i dati in or<strong>di</strong>ne<br />

crescente. Nel caso <strong>de</strong>l Phleum pratense si ha:<br />

12.5, 13.0, 14.3, 15.0, 16.6, 16.7, 17.0, 17.4, 18.1, 18.4,<br />

18.9, 19.1, 19.2, 19.7, 20.0, 20.1, 20.5, 20.8, 21.0, 21.2,<br />

21.6, 22.0, 23.1, 23.4, 24.0, 24.2, <strong>25</strong>.0, 26.0, 26.8, 27.5<br />

È chiaro che questa operazione è <strong>di</strong>spen<strong>di</strong>osa, in termini <strong>di</strong> tempo, se il<br />

numero <strong>de</strong>lle unità statistiche consi<strong>de</strong>rato è alto, anche se sono <strong>di</strong>sponibili<br />

<strong>de</strong>i software che possiedono la funzione <strong>di</strong> sorting (or<strong>di</strong>namento).<br />

Può allora convenire il ricorso alla accumulazione, od al raggruppamento,<br />

<strong>de</strong>i dati. Per fare ciò bisogna ricorrere al concetto <strong>di</strong> frequenze<br />

assolute e relative. Supponiamo <strong>di</strong> avere ottenuto, dopo n misurazioni<br />

<strong>de</strong>lla variabile aleatoria X i dati numerici x1, x2, . . . , xn, che supporremo<br />

or<strong>di</strong>nati dal più piccolo al più gran<strong>de</strong>. In<strong>di</strong>viduiamo sulla retta<br />

reale r valori<br />

c1 < c2 < · · · < cr


12<br />

Tabella 2. Altezza X2 e peso X1 <strong>di</strong> 11 stu<strong>de</strong>nti ed 8 stu<strong>de</strong>ntesse.<br />

Unità Peso Altezza Sesso<br />

statistica X1 (kg) X2 (cm) (0=M, 1=F)<br />

1 47.1 160 0<br />

2 48.3 165 0<br />

3 46.8 164 0<br />

4 50.1 170 0<br />

5 50.2 168 0<br />

6 46.8 159 0<br />

7 45.9 155 0<br />

8 52.1 162 0<br />

9 50.0 161 0<br />

10 44.5 156 0<br />

11 52.4 160 0<br />

12 39.1 151 1<br />

13 38.6 153 1<br />

14 42.2 160 1<br />

15 39.6 161 1<br />

16 40.5 157 1<br />

17 42.2 158 1<br />

18 35.2 149 1<br />

19 39.9 148 1<br />

<strong>de</strong>tti cutoff. Otteniamo così r + 1 classi (intervalli) sulla retta reale<br />

] − ∞, c1] ]c1, c2] ]c2, c3] · · · ]cr, +∞[<br />

Per ogni k = 1, 2, . . . , r − 1, in<strong>di</strong>chiamo con Ck la classe ]ck, ck+1], con<br />

C0 la classe ] − ∞, c1] e con Cr la classe ]cr, +∞[. Poniamo la seguente<br />

Definizione 3.1. Si chiama frequenza assoluta <strong>de</strong>lla classe Ck, e si<br />

in<strong>di</strong>ca con nk, il numero <strong>di</strong> unità statistiche il cui dato è nella classe<br />

consi<strong>de</strong>rata.<br />

Generalmente i cutoff vengono scelti in modo che la frequenza <strong>de</strong>lla<br />

prima e <strong>de</strong>ll’ultima classe risultino zero.<br />

Ad esempio, supponiamo <strong>di</strong> aver pesato 300 trote (quin<strong>di</strong> abbiamo<br />

300 unità statistiche) e supponiamo <strong>di</strong> aver rilevato un peso minimo <strong>di</strong><br />

158 gr ed un peso massimo <strong>di</strong> 448 gr. Fissiamo 7 cutoff:<br />

c1 = 150 gr; c2 = 200 gr; c3 = <strong>25</strong>0 gr; c4 = 300 gr;<br />

c5 = 350 gr; c6 = 400 gr; c7 = 450 gr.


Abbiamo allora gli intervalli:<br />

3. RAPPRESENTAZIONE DEI DATI 13<br />

] − ∞, 150]; ]150, 200]; ]200, <strong>25</strong>0]; ]<strong>25</strong>0, 300];<br />

]300, 350]; ]350, 400]; ]400, 450]; ]450, +∞[<br />

Supponiamo <strong>di</strong> avere le seguenti frequenze assolute:<br />

x0 = 0: 0 trote hanno peso non superiore a 150 gr.<br />

x1 = 4: 4 trote hanno peso maggiore <strong>di</strong> 150 gr e non superiore a<br />

200 gr.<br />

x2 = 43: 43 trote hanno peso maggiore <strong>di</strong> 200 gr e non superiore<br />

a <strong>25</strong>0 gr.<br />

x3 = 95: 95 trote hanno peso maggiore <strong>di</strong> <strong>25</strong>0 gr e non superiore<br />

a 300 gr.<br />

x4 = 110: 110 trote hanno peso maggiore <strong>di</strong> 300 gr e non superiore<br />

a 350 gr.<br />

x5 = 42: 42 trote hanno peso maggiore <strong>di</strong> 350 gr e non superiore<br />

a 400 gr.<br />

x6 = 6: 6 trote hanno peso maggiore <strong>di</strong> 400 gr e non superiore a<br />

450 gr.<br />

x7 = 0: 0 trote hanno peso maggiore <strong>di</strong> 450 gr.<br />

Le frequenze assolute si rappresentano me<strong>di</strong>ante un istogramma o<br />

<strong>di</strong>agramma a colonna. Questo viene costruito nel modo seguente:<br />

Si pren<strong>de</strong> un piano cartesiano, si segnano sull’asse <strong>de</strong>lle ascisse i cutoff<br />

in modo da in<strong>di</strong>viduare ogni classe, al <strong>di</strong> sopra <strong>di</strong> ogni classe si innalza<br />

una colonna <strong>di</strong> altezza uguale alla frequenza assoluta <strong>de</strong>lla classe. Cioè,<br />

in corrispon<strong>de</strong>nza <strong>de</strong>lla classe Ck si <strong>di</strong>segna una colonna <strong>di</strong> altezza nk.<br />

Ritornando all’esempio <strong>de</strong>l peso <strong>de</strong>lle trote appena visto, avremo il<br />

seguente istogramma:<br />

0 40 80<br />

150 200 <strong>25</strong>0 300 350 400 450<br />

Figura 1. Istogramma, <strong>de</strong>lle frequenze assolute, <strong>de</strong>l<br />

peso <strong>di</strong> 300 trote


14<br />

La forma <strong>de</strong>ll’istogramma <strong>di</strong>pen<strong>de</strong> fortemente dalla scelta <strong>de</strong>i punti<br />

<strong>di</strong> cutoff. Infatti, lavorando sempre sull’esempio <strong>de</strong>lle 300 trote, se<br />

fissiamo 9 punti <strong>di</strong> cutoff (e non più 7 come prima) registriamo le<br />

nuove frequenze assolute e ri<strong>di</strong>segnamo l’istogramma. Siano:<br />

150 gr, 200 gr, <strong>25</strong>0 gr, 300 gr, 315 gr, 335 gr, 350 gr, 400 gr, 450 gr<br />

i nuovi punti <strong>di</strong> cutoff fissati. Siano le nuove frequenze:<br />

n0 = 0, n1 = 4, n2 = 43, n3 = 95, n4 = 40,<br />

n5 = 50, n6 = 20, n7 = 42, n8 = 6, n9 = 0.<br />

Otteniamo il seguente istogramma<br />

0 40 80<br />

150 200 <strong>25</strong>0 300 350 400 450<br />

Figura 2. Istogramma, <strong>de</strong>lle frequenze assolute, <strong>de</strong>l<br />

peso <strong>di</strong> 300 trote con intervalli <strong>di</strong> cutoff <strong>di</strong>seguali<br />

È chiaro che in questo secondo istogramma la somma <strong>de</strong>lle frequenze<br />

assolute n4 + n5 + n6 corrispon<strong>de</strong> alla frequenza assoluta <strong>de</strong>lla classe<br />

]300, 350]. Questo ci fa anche capire che più alto il numero <strong>di</strong> punti <strong>di</strong><br />

cutoff fissati, più accurata è l’informazione ottenuta dall’osservazione<br />

<strong>de</strong>ll’istogramma. Per questo motivo, se i possibili risultati osservabili<br />

dalla misura <strong>de</strong>lla variabile aleatoria X sono in numero finito si preferisce<br />

fissare tanti cutoff quanti sono i possibili risultati più 1 in modo da<br />

ottenere, dall’osservazione <strong>de</strong>ll’istogramma, una informazione accurata.<br />

Ad esempio, supponiamo <strong>di</strong> lanciare 100 volte 2 da<strong>di</strong> e registriamo<br />

ogni volta il risultato ottenuto sommando i due numeri usciti nel lancio.<br />

Dunque la variabile aleatoria è “risultato ottenuto sommando i 2<br />

numeri usciti”, le unità statistiche sono 100: una unità statistica corrispon<strong>de</strong><br />

al lancio <strong>di</strong> due da<strong>di</strong>. I possibili risultati che si ottengono, cioè<br />

i possibili valori che assume la variabile aleatoria X sono i numeri da<br />

2 a 12. Per <strong>di</strong>segnare l’istogramma fissiamo allora come cutoff i valori:<br />

c0 = 1<br />

2 , c1 = 3<br />

2 , c2 = 5<br />

2 , . . . , c12 = <strong>25</strong><br />

2 .


3. RAPPRESENTAZIONE DEI DATI 15<br />

Supponiamo <strong>di</strong> aver ottenuto il seguente istogramma<br />

0 10 20 30<br />

2 4 6 8 10 12<br />

Figura 3. Istogramma rappresentante la <strong>di</strong>stribuzione<br />

<strong>de</strong>lla somma <strong>di</strong> una coppia <strong>di</strong> da<strong>di</strong> lanciati per 100 volte<br />

L’informazione che ne ricaviamo è accurata. Se infatti l’altezza<br />

<strong>de</strong>lla colonna relativa alla classe ]5.5, 6.5], che contiene al suo interno il<br />

valore possibile 6, è 35, ciò ci <strong>di</strong>ce che il numero 6 è uscito esattamente<br />

35 volte.<br />

Oltre a <strong>de</strong>finire la frequenza assoluta <strong>di</strong> una classe si <strong>de</strong>finisce anche<br />

la frequenza relativa. Precisamente:<br />

Definizione 3.2. Si <strong>de</strong>finisce frequenza relativa <strong>de</strong>lla classe Ck il<br />

numero ottenuto <strong>di</strong>vi<strong>de</strong>ndo la frequenza assoluta per il numero <strong>de</strong>lle<br />

unità statistiche esaminate. Cioè se n è il numero <strong>de</strong>lle unità statistiche<br />

ed nk è la frequenza assoluta <strong>de</strong>lla classe Ck, la frequenza relativa <strong>de</strong>lla<br />

classe Ck è data da fk = nk<br />

n .<br />

Nell’esempio <strong>de</strong>lle 300 trote, fissati i 7 cutoff<br />

c1 = 150 gr; c2 = 200 gr; c3 = <strong>25</strong>0 gr; c4 = 300 gr;<br />

c5 = 350 gr; c6 = 400 gr; c7 = 450 gr.<br />

Si ottengono le seguenti frequenze relative:<br />

n0 = 0, n1 = 4<br />

300 , n2 = 43<br />

300 , n3 = 95<br />

300 ,<br />

n4 = 110<br />

300 , n5 = 42<br />

300 , n6 = 6<br />

300 , n7 = 0.<br />

È chiaro che per passare dall’istogramma <strong>de</strong>lle frequenze relative a quello<br />

<strong>de</strong>lle frequenze assolute si <strong>de</strong>ve moltiplicare l’altezza <strong>di</strong> ogni colonna<br />

per il numero n <strong>di</strong> unità statistiche. Visivamente questo è ottenuto con<br />

un semplice cambiamento <strong>di</strong> scala, dunque, fissati gli stessi punti <strong>di</strong>


16<br />

cutoff, visivamente l’istogramma <strong>de</strong>lle frequenze relative e l’istogramma<br />

<strong>de</strong>lle frequenze assolute coincidono.<br />

Oltre alla rappresentazione <strong>de</strong>i dati me<strong>di</strong>ante istogramma, si può<br />

ricorrere anche alla rappresentazione <strong>de</strong>i dati me<strong>di</strong>ante areogramma.<br />

Per <strong>di</strong>segnare l’areogramma si proce<strong>de</strong> come già fatto per l’istogramma,<br />

fissando i punti <strong>di</strong> cutoff: c0, c1, . . . , cr e le relative classi: C0, C1, . . . ,<br />

Cr ed innalzando su ogni classe Ck, con 0 < k < r, una colonna <strong>di</strong><br />

altezza:<br />

nk 1 fk<br />

=<br />

n ck+1 − ck ck+1 − ck<br />

e per k = 0, r una colonna <strong>di</strong> altezza 0. Osserviamo che in tal modo,<br />

ogni rettangolo ha area pari a:<br />

k=0<br />

fk<br />

(ck+1 − ck) = fk<br />

ck+1 − ck<br />

e l’area complessiva <strong>de</strong>ll’areogramma vale 1. Tale area è infatti la<br />

somma <strong>de</strong>lle frequenze relative<br />

r r nk<br />

fk =<br />

n =<br />

r k=0 nk<br />

= 1.<br />

n<br />

k=0<br />

Relativamente all’esempio <strong>de</strong>lle 300 trote e <strong>de</strong>l loro peso riportiamo gli<br />

areogrammi relativi a 7 punti <strong>di</strong> cutoff,a pagina 16, e 9 punti <strong>di</strong> cutoff,<br />

a pagina 17.<br />

0.000 0.004<br />

150 200 <strong>25</strong>0 300 350 400 450<br />

Figura 4. Areogramma <strong>di</strong> <strong>de</strong>nsità ottenuto dall’istogramma<br />

<strong>de</strong>lla Figura 1 <strong>di</strong> pagina 13


0.000 0.006<br />

3. RAPPRESENTAZIONE DEI DATI 17<br />

150 200 <strong>25</strong>0 300 350 400 450<br />

Figura 5. Areogramma <strong>di</strong> <strong>de</strong>nsità ottenuto dall’istogramma<br />

<strong>de</strong>lla Figura 2 <strong>di</strong> pagina 14<br />

Quando l’ampiezza <strong>de</strong>lle classi è costante, l’areogramma e l’istogramma<br />

(sia <strong>de</strong>lle frequenze relative che <strong>de</strong>lle frequenze assolute) hanno<br />

la stessa forma. Se invece l’ampiezza <strong>de</strong>lle classi non è costante,<br />

l’areogramma e l’istogramma hanno forme <strong>di</strong>verse, come è imme<strong>di</strong>ato<br />

verificare dai due areogrammi, per 7 punti <strong>di</strong> cutoff riportato a pagina<br />

16, e 9 punti <strong>di</strong> cutoff <strong>di</strong> pagina 17, e dai due istogrammi relativi<br />

riportati rispettivamente nelle pagine 14 e 15. In relazione all’esempio<br />

<strong>de</strong>i pesi <strong>di</strong> 300 trote.<br />

Di solito si ricorre alla rappresentazione me<strong>di</strong>ante areogrammi od<br />

istogrammi quando i dati sono molti, <strong>di</strong>ciamo almeno 30. Infatti il raggruppamento<br />

<strong>de</strong>i dati secondo classi conduce a per<strong>di</strong>te <strong>di</strong> informazione.<br />

Ad esempio nel caso <strong>de</strong>lla lunghezza <strong>de</strong>lla foglia superiore <strong>de</strong>l Phleum<br />

pratense, se fissiamo 7 punti <strong>di</strong> cutoff:<br />

12, 15, 18, 21, 24, 27, 30


18<br />

otteniamo le classi<br />

I0 =] − ∞, 12[ con frequenza 0<br />

I1 = [12, 15[ con frequenza 4<br />

I2 = [15, 18[ con frequenza 4<br />

I3 = [18, 21[ con frequenza 11<br />

I4 = [21, 24[ con frequenza 6<br />

I5 = [24, 27[ con frequenza 4<br />

I6 = [27, 30[ con frequenza 1<br />

I7 = [30, +∞[ con frequenza 0.<br />

I risultati possono essere riassunti nella tabella riportata a pagina 18<br />

Classe Ik nk fk<br />

[12,15[ 4 4/30 ∼ 0.13 ≡ 13%<br />

[15,18[ 4 4/30 ∼ 0.13 ≡ 13%<br />

[18,21[ 11 11/30 ∼ 0.37 ≡ 37%<br />

[21,24[ 6 6/30 ∼ 0.20 ≡ 20%<br />

[24,27[ 4 4/30 ∼ 0.13 ≡ 13%<br />

[27,30[ 1 1/30 ∼ 0.03 ≡ 3%<br />

Abbiamo perso però <strong>de</strong>lle informazioni, prima fra tutte non sappiamo<br />

più quali siano i valori che appartengono ad una data classe ma<br />

sappiamo soltanto quanti sono questi valori. Quando i dati non sono<br />

più <strong>di</strong> 30 non conviene fare areogrammi od istogrammi ma conviene<br />

rappresentare tutti i dati numerici su <strong>di</strong> un <strong>di</strong>agramma cartesiano. Cioè<br />

i dati vengono visualizzati su <strong>di</strong> un <strong>di</strong>agramma cartesiano nel seguente<br />

modo:<br />

• In ascissa si pone il numero d’or<strong>di</strong>ne k.<br />

• In or<strong>di</strong>nata si pone il valore corrispon<strong>de</strong>nte xk <strong>de</strong>lla variabile<br />

aleatoria X.<br />

Queste rappresentazioni, che illustriamo con i grafici da Figura 6<br />

a Figura 9, sono certamente più significative <strong>di</strong> quelle che si erano<br />

ottenute utilizzando le classi e le frequenze. In particolare l’istogramma<br />

<strong>de</strong>lle frequenze relative ai 30 esemplari <strong>di</strong> Phleum pratense risulta<br />

quello <strong>de</strong>lla Figura 10.


15 20 <strong>25</strong><br />

3. RAPPRESENTAZIONE DEI DATI 19<br />

0 5 10 15 20 <strong>25</strong> 30<br />

Figura 6. Lunghezza <strong>de</strong>lla foglia superiore <strong>di</strong> Phleum<br />

pratense in mm<br />

15 20 <strong>25</strong><br />

0 5 10 15 20 <strong>25</strong> 30<br />

Figura 7. Lunghezza <strong>de</strong>lla foglia superiore <strong>di</strong> Phleum<br />

pratense in mm<br />

15 20 <strong>25</strong><br />

0 5 10 15 20 <strong>25</strong> 30<br />

Figura 8. Rior<strong>di</strong>namento crescente <strong>de</strong>l <strong>di</strong>agramma<br />

<strong>de</strong>lla Figura 6.


20<br />

15 20 <strong>25</strong><br />

0 5 10 15 20 <strong>25</strong> 30<br />

Figura 9. Rior<strong>di</strong>namento crescente <strong>de</strong>l <strong>di</strong>agramma<br />

<strong>de</strong>lla Figura 7.<br />

0 4 8<br />

10 15 20 <strong>25</strong><br />

Figura 10. Istogramma <strong>de</strong>lla lunghezza <strong>de</strong>lla foglia<br />

superiore in 30 esemplari <strong>di</strong> Phleum pratense.<br />

4. La me<strong>di</strong>a aritmetica<br />

Per introdurre la <strong>de</strong>finizione <strong>di</strong> me<strong>di</strong>a aritmetica dobbiamo introdurre<br />

il simbolo <strong>di</strong> sommatoria. Precisamente, dati n numeri reali x1,<br />

x2, . . . , xn, si scrive<br />

n<br />

k=1<br />

xk<br />

per in<strong>di</strong>care la somma x1 + x2 + · · · + xn.


4. LA MEDIA ARITMETICA 21<br />

Nel seguito utilizzeremo le seguenti 3 proprietà elementari<br />

n<br />

n n<br />

(1)<br />

(xk + yk) = xk +<br />

(2)<br />

(3)<br />

k=1<br />

n<br />

bxk = b<br />

k=1<br />

n<br />

b = nb.<br />

k=1<br />

n<br />

k=1<br />

Detto ciò, sia X una variabile aleatoria, supponiamo <strong>di</strong> avere n<br />

unità statistiche e supponiamo <strong>di</strong> avere osservato per la variabile aleatoria<br />

X i dati numerici x1, x2, . . . , xn.<br />

Definizione 4.1. Si <strong>di</strong>ce me<strong>di</strong>a aritmetica (in inglese mean) <strong>de</strong>i<br />

dati x1, x2, . . . , xn raccolti, il numero x <strong>de</strong>finito da<br />

x = 1<br />

n<br />

xk.<br />

n<br />

In particolare se i dati <strong>di</strong>stinti raccolti sono x1, x2, . . . , xn ed il generico<br />

dato xk compare con frequenza assoluta nk, allora la me<strong>di</strong>a aritmetica<br />

<strong>de</strong>i dati raccolti sarà:<br />

k=1<br />

xk<br />

k=1<br />

n k=1 x =<br />

nkxk<br />

n k=1 nk<br />

Dove n k=1 nk è il numero <strong>de</strong>lle unità statistiche prese in consi<strong>de</strong>razione.<br />

Osservazione 4.1. quando usare la me<strong>di</strong>a aritmetica.<br />

La me<strong>di</strong>a aritmetica è una misura <strong>di</strong> posizione, il suo calcolo si<br />

basa su tutte le osservazioni e quin<strong>di</strong> viene fortemente influenzata da<br />

valori estremi. In presenza <strong>di</strong> valori estremi la me<strong>di</strong>a aritmetica fornisce<br />

una rappresentazione <strong>di</strong>storta <strong>de</strong>i dati, in questi casi è più opportuno<br />

ricorrere ad altre misure <strong>di</strong> posizione.<br />

In generale si usa la me<strong>di</strong>a aritmetica quando i valori sono <strong>di</strong>stribuiti<br />

abbastanza simmetricamente attorno ad essa e le si ad<strong>de</strong>nsano vicino.<br />

Esempio 4.1. Supponiamo <strong>di</strong> avere valutato l’altezza in cm <strong>di</strong> 44<br />

reclute ottenendo le misure <strong>de</strong>lla seguente tabella:<br />

k=1<br />

yk


22<br />

Tabella 3. Frequenze assolute <strong>de</strong>ll’altezza <strong>di</strong> un<br />

campione <strong>di</strong> 44 reclute.<br />

Altezza Fequenza assoluta<br />

166 1<br />

168 3<br />

169 6<br />

170 11<br />

171 8<br />

172 6<br />

173 4<br />

174 3<br />

175 1<br />

178 1<br />

Per calcolare la me<strong>di</strong>a aritmetica <strong>de</strong>lle altezze useremo la formula<br />

e si ottiene<br />

x =<br />

n<br />

k=1 nkxk<br />

n<br />

k=1 nk<br />

x = 1<br />

(1 · 166 + 3 · 168 + 6 · 169 + 11 · 170 + 8 · 171+<br />

44<br />

+ 4 · 173 + 3 · 174 + 1 · 175 + 1 · 178) = 170.9.<br />

Rappresentiamo ora il grafico <strong>de</strong>i valori <strong>de</strong>lle altezze e la loro <strong>di</strong>stribuzione<br />

rispetto alla me<strong>di</strong>a x, che viene in<strong>di</strong>cata sul grafico con una linea<br />

tratteggiata verticale.<br />

2 6 10<br />

166 168 170 172 174 176 178<br />

Figura 11. Istogramma, <strong>de</strong>lle frequenze assolute,<br />

<strong>de</strong>ll’altezza <strong>di</strong> un campione <strong>di</strong> 44 reclute<br />

Si osserva banalmente che la <strong>di</strong>stribuzione risulta abbastanza simmetrica<br />

con ten<strong>de</strong>nza all’ad<strong>de</strong>nsamento in prossimità <strong>de</strong>lla me<strong>di</strong>a.


Consi<strong>de</strong>riamo ora un altro esempio:<br />

5. LA MEDIANA 23<br />

Esempio 4.2. Supponiamo <strong>di</strong> esaminare 17 fon<strong>di</strong> azionari. Pren<strong>di</strong>amo<br />

come variabile aleatoria il loro ren<strong>di</strong>mento a 12 mesi espresso in<br />

percentuale.<br />

32.2, 29.5, 29.9, 32.4, 30.5, 30.1, 32.1, 35.2,<br />

10.0, 20.6, 28.6, 30.5, 38.0, 33.0, 29.4, 37.1, 28.6<br />

0 10 20 30 40<br />

Figura 12. Grafico uni<strong>di</strong>mensionale rappresentatante i<br />

ren<strong>di</strong>menti <strong>di</strong> 17 fon<strong>di</strong> azionari, in %<br />

Appaiono due valori che sembrano anomali: 10.0 e forse anche 20.6.<br />

I valori anomali vengono <strong>de</strong>tti outlier.<br />

Se calcoliamo la me<strong>di</strong>a aritmetica <strong>di</strong> questo campione otteniamo:<br />

x =<br />

32.2 + 29.5 + · · · + 28.6<br />

17<br />

= 29.86.<br />

È chiaro che il valore più anomalo è 10.0 che influenza fortemente il<br />

calcolo <strong>de</strong>lla me<strong>di</strong>a aritmetica. Se rimuoviamo questo valore anomalo<br />

dal campione e ricalcoliamo la me<strong>di</strong>a sulle 16 unità rimanenti si ha<br />

x = 31.11. Attorno a questa me<strong>di</strong>a la <strong>di</strong>stribuzione <strong>de</strong>l campione così<br />

ridotto risulta più simmetrica.<br />

5. La me<strong>di</strong>ana<br />

Iniziamo con alcune consi<strong>de</strong>razioni: sia X una variabile aleatoria e<br />

siano x1, x2, . . . , xn i valori assunti da X per n unità statistiche. Perché<br />

si possa parlare <strong>di</strong> me<strong>di</strong>ana bisogna almeno che X sia misurata in una<br />

scala or<strong>di</strong>nale, ed anche in questo caso non è <strong>de</strong>tto che la me<strong>di</strong>ana<br />

esista o che essa sia unica.<br />

Definizione 5.1. Si <strong>di</strong>ce me<strong>di</strong>ana (in inglese me<strong>di</strong>an) <strong>di</strong> n dati<br />

x1, x2, . . . , xn, non necessariamente <strong>di</strong>stinti, un valore, xM, compreso<br />

tra il valore minimo ed il valore massimo, tale che, il numero <strong>de</strong>i dati<br />

che precedono, o sono uguali a, xM è uguale al numero <strong>de</strong>i dati che lo<br />

seguono o sono uguali ad esso.


24<br />

Supponiamo che la variabile aleatoria possa assumere un qualsiasi<br />

valore reale. Per calcolare la me<strong>di</strong>ana si proce<strong>de</strong> nel modo seguente:<br />

• si or<strong>di</strong>nano in or<strong>di</strong>ne non <strong>de</strong>crescente gli n dati<br />

xi1 ≤ xi2 ≤ · · · ≤ xin;<br />

• se n è <strong>di</strong>spari si ha che xM = xi (n+1)/2<br />

• se n è pari tutti i numeri <strong>de</strong>ll’intervallo [xi n/2 , xi n/2+1 ] sod<strong>di</strong>sfano<br />

la proprietà <strong>de</strong>lla <strong>de</strong>finizione, in questo caso si pone, per<br />

convenzione,<br />

+ xi n 2 +1<br />

xM = xi n<br />

2<br />

2<br />

.<br />

Ad esempio, se ho raccolto i seguenti 7 dati numerici:<br />

li rior<strong>di</strong>no<br />

5 7 32 107 <strong>25</strong> 31 8<br />

5 7 8 me<strong>di</strong>ana<br />

<strong>25</strong> 31 32 107<br />

La me<strong>di</strong>ana è <strong>25</strong> perché questo è il valore che occupa il posto<br />

(7 + 1)/2 = 4.<br />

Se i dati raccolti fossero i seguenti 6:<br />

rior<strong>di</strong>nati danno<br />

12 15 11 18 20 14<br />

11 12 14<br />

punto centrale<br />

· 15 18 20.<br />

I valori nei posti 6/2 = 3 e 6/2 + 1 = 4 sono 14 e 15, la me<strong>di</strong>ana risulta<br />

(14 + 15)/2 = 29/2 = 14.5.<br />

Osservazione 5.1. La me<strong>di</strong>ana non è influenzata da eventuali outlier.<br />

Proviamo a calcolare la me<strong>di</strong>ana <strong>de</strong>i ren<strong>di</strong>menti <strong>de</strong>i 17 fon<strong>di</strong><br />

azionari <strong>de</strong>ll’esempio prece<strong>de</strong>nte. La serie or<strong>di</strong>nata è la seguente:<br />

10.0 20.6 28.6 28.6 29.4 29.5 29.9 30.1 me<strong>di</strong>ana<br />

30.5<br />

30.5 32.1 32, 2 32.4 33.0 35.2 37.1 38.0<br />

Poiché i dati sono 17 la me<strong>di</strong>ana è il dato <strong>di</strong> posto 9, cioè 30.5.<br />

Il calcolo <strong>de</strong>lla me<strong>di</strong>ana è influenzato dal numero <strong>de</strong>lle<br />

osservazioni e non dalla gran<strong>de</strong>zza <strong>de</strong>i valori estremi.<br />

La me<strong>di</strong>a aritmetica e la me<strong>di</strong>ana si riferiscono a rilevazioni <strong>di</strong> dati<br />

<strong>di</strong> tipo numerico. In particolare si utilizzano per dati misurati in scala<br />

or<strong>di</strong>nale o rapportale. Non sono utilizzate per dati misurati in scala<br />

nominale.


7. IL MIDRANGE <strong>25</strong><br />

6. La moda<br />

Definizione 6.1. Si <strong>de</strong>finisce moda il valore più frequente <strong>di</strong> un<br />

insieme <strong>di</strong> dati. La moda può non essere unica.<br />

Osserviamo che, a <strong>di</strong>fferenza <strong>de</strong>lla me<strong>di</strong>a aritmetica, la moda non è<br />

influenzata dagli outlier. Tuttavia tale misura viene utilizzata solo per<br />

scopi <strong>de</strong>scrittivi perché è caratterizzata da maggiore variabilità rispetto<br />

alle altre misure <strong>di</strong> posizione. Infatti, piccole variazioni in un insieme<br />

<strong>di</strong> dati possono fare variare in modo consistente la moda.<br />

Esempio 6.1. Sempre consi<strong>de</strong>rando l’esempio <strong>de</strong>i ren<strong>di</strong>menti <strong>de</strong>i 17<br />

fon<strong>di</strong> azionari valutati in prece<strong>de</strong>nza osserviamo che ci sono due valori<br />

più tipici. Precisamente 30.5 compare con frequenza 2 ma anche 28.6<br />

compare con frequenza 2. Quin<strong>di</strong> abbiamo due mo<strong>de</strong>: 30.5 e 28.6.<br />

Questo insieme <strong>di</strong> dati si <strong>di</strong>ce bimodale.<br />

Se riconsi<strong>de</strong>riamo l’esempio <strong>de</strong>ll’altezza <strong>de</strong>lle reclute, abbiamo un<br />

valore più tipico: l’altezza 170 cm compare con frequenza 11. Quin<strong>di</strong><br />

abbiamo un’unica moda. Questo insieme si chiama unimodale.<br />

Ovviamente può anche succe<strong>de</strong>re che in un insieme <strong>di</strong> dati non vi<br />

sia un valore più “tipico” <strong>de</strong>gli altri, cioè che compare con maggiore<br />

frequenza. Ripren<strong>di</strong>amo l’esempio <strong>de</strong>l Phleum pratense. Consi<strong>de</strong>riamo<br />

i dati raccolti sui 30 esemplari relativi alla lunghezza <strong>de</strong>lla foglia superiore.<br />

Osserviamo che non esiste un dato più frequente <strong>de</strong>gli altri. Si<br />

tratta dunque <strong>di</strong> un insieme <strong>di</strong> dati senza moda.<br />

7. Il midrange<br />

Definizione 7.1. Il midrange è il numero ottenuto facendo la me<strong>di</strong>a<br />

aritmetica tra il valore minimo ed il valore massimo fra i risultati<br />

<strong>de</strong>lla rilevazione <strong>di</strong> una variabile aleatoria numerica.<br />

Supponiamo <strong>di</strong> aver raccolto n dati numerici relativi ad una variabile<br />

aleatoria X. Supponiamo che questi dati siano x1, x2, . . . , xn. Sia<br />

xi il valore più basso e sia xj quello più alto. Allora il midrange è il<br />

valore<br />

xi + xj<br />

.<br />

2<br />

Sempre nell’esempio <strong>de</strong>i fon<strong>di</strong> azionari abbiamo che il midrange è<br />

dato da:<br />

10.0 + 38.0<br />

Midrange = = 24.0.<br />

2<br />

Nell’esempio <strong>de</strong>lla lunghezza <strong>de</strong>lla foglia <strong>de</strong>l Phleum pratense ab-<br />

biamo<br />

Midrange =<br />

12.5 + 27.5<br />

2<br />

= 20.0.


26<br />

Nell’esempio <strong>de</strong>ll’altezza <strong>de</strong>lle reclute abbiamo:<br />

Midrange =<br />

166 + 178<br />

2<br />

= 344<br />

2<br />

= 172.<br />

Osservazione 7.1. Il midrange è fortemente influenzato dalla presenza<br />

<strong>di</strong> valori anomali. Infatti esso si basa esclusivamente sull’osservazione<br />

più piccola e su quella più gran<strong>de</strong>. Quin<strong>di</strong>, quando ci sono nei<br />

dati <strong>de</strong>i valori estremi esso non è molto appropriato per sintetizzare i<br />

dati raccolti<br />

Nel caso <strong>de</strong>ll’esempio <strong>de</strong>i 17 fon<strong>di</strong> azionari l’uso <strong>de</strong>l midrange non<br />

è molto appropriato, mentre nel caso <strong>de</strong>ll’altezza <strong>de</strong>lle reclute risulta<br />

più utile.<br />

Il midrange è spesso utilizzato dai metereologi che rilevano la temperatura<br />

nell’arco <strong>de</strong>lla giornata, o dagli analisti finanziari.<br />

8. I quartili<br />

I quartili sono <strong>de</strong>lle misure <strong>di</strong> posizione “non centrale” più ampiamente<br />

utilizzate. Mentre la me<strong>di</strong>ana è un valore che <strong>di</strong>vi<strong>de</strong> a metà la<br />

serie or<strong>di</strong>nata <strong>de</strong>lle osservazioni (il 50% <strong>de</strong>lle osservazioni sono minori<br />

od uguali ed il 50% sono maggiori od uguali <strong>de</strong>lla me<strong>di</strong>ana) i quartili<br />

sono <strong>de</strong>lle misure <strong>de</strong>scrittive che <strong>di</strong>vidono i dati in 4 parti pressoché<br />

uguali.<br />

Definizione 8.1. Sia x1, x2, . . . , xn n dati raccolti, che supporremo<br />

scritti in or<strong>di</strong>ne non <strong>de</strong>crescente, per la variabile aleatoria numerica X.<br />

Si chiama primo quartile, e lo si in<strong>di</strong>ca con Q1, un numero x0.<strong>25</strong> tale che,<br />

l’intervallo ] − ∞, x0.<strong>25</strong>] contenga almeno il <strong>25</strong>% <strong>de</strong>i dati e l’intervallo<br />

[x0.<strong>25</strong>, +∞[ almeno il 75% <strong>de</strong>i dati. Si chiama terzo quartile, e lo si<br />

in<strong>di</strong>ca con Q3, un numero x0.75 tale che, l’intervallo ]−∞, x0.75] contenga<br />

almeno il 75% <strong>de</strong>i dati e l’intervallo [x0.75, +∞[ almeno il <strong>25</strong>% <strong>de</strong>i dati.<br />

L’intervallo [x0.<strong>25</strong>, x0.75] contiene almeno il 50% <strong>de</strong>i dati.<br />

Per calcolare il quartili Qi, i = 1, 3, si proce<strong>de</strong> nel modo seguente:<br />

(1) Se il numero 1+i(n−1)/4 è un intero m si sceglie come i-esimo<br />

quartile il dato Qi = xm.<br />

(2) Se il punto 1 + i(n − 1)/4 è maggiore <strong>de</strong>ll’intero m e minore<br />

<strong>di</strong> m + 1 si sceglie come quartile il valore<br />

Qi = (1 +<br />

i(n − 1)<br />

4<br />

− m)xm+1 + (m −<br />

i(n − 1)<br />

)xm.<br />

4<br />

Esempio 8.1. Ripren<strong>di</strong>amo l’esempio <strong>de</strong>i 17 fon<strong>di</strong> azionari, dopo<br />

averli or<strong>di</strong>nati in modo non <strong>de</strong>crescente per il loro ren<strong>di</strong>mento, si ha


che<br />

1 +<br />

n − 1<br />

4<br />

8. I QUARTILI 27<br />

= 1 + 17 − 1<br />

4<br />

= 5.<br />

Quin<strong>di</strong>, si avrà Q1 = x5 = 29.4. Per il terzo quartile, si ha<br />

1 +<br />

3(n − 1)<br />

4<br />

= 1 +<br />

3 · 16<br />

4<br />

= 13<br />

da cui Q3 = x13 = 32.4.<br />

Consi<strong>de</strong>riamo ora la lunghezza <strong>de</strong>lla foglia superiore nei 30 esempleri<br />

<strong>di</strong> Phleum pratense. Per il primo quartile, dalla<br />

si ha<br />

Q1 = (1+<br />

1 +<br />

n − 1<br />

4<br />

= 1 + 30 − 1<br />

4<br />

= 8.<strong>25</strong><br />

(30 − 1)<br />

(30 − 1)<br />

−8)x9+(9− )x8 = 0.<strong>25</strong>·18.1+0.75·17.4 = 17.575.<br />

4<br />

4<br />

Per il terzo quartile si ha<br />

ha<br />

1 +<br />

3 · (30 − 1)<br />

4<br />

= 22.75 e Q3 = 0.75 · 23.1 + 0.<strong>25</strong> · 22.0 = 22.8<strong>25</strong>.<br />

Se consi<strong>de</strong>riamo l’esempio <strong>de</strong>lle 44 reclute, per il primo quartile si<br />

1 + 43<br />

4 = 11.75 Q1 = 0.75 · 170 + 0.<strong>25</strong> · 170 = 170.<br />

Per il terzo quartile si ha<br />

1 +<br />

3 · 43<br />

4 = 33.<strong>25</strong> Q1 = 0.<strong>25</strong> · 172 + 0.75 · 172 = 172.<br />

Definizione 8.2. Si chiama me<strong>di</strong>a interquartile la me<strong>di</strong>a aritmetica<br />

tra il valore <strong>de</strong>l terzo e <strong>de</strong>l primo quartile. Cioè<br />

Q1 + Q3<br />

.<br />

2<br />

Ovviamente la me<strong>di</strong>a interquartile è una misura <strong>di</strong> sintesi che viene<br />

utilizzata per evitare i problemi che possono presentarsi in presenza <strong>di</strong><br />

valori estremi.<br />

La me<strong>di</strong>a interquartile, così come la me<strong>di</strong>ana, non è influenzata<br />

dagli outlier. Una misura che non è influenzata dagli outlier pren<strong>de</strong> il<br />

nome <strong>di</strong> misura robusta.


28<br />

9. Variabilità <strong>de</strong>i dati<br />

Un carattere importante <strong>di</strong> un insieme <strong>di</strong> dati è la loro variabilità.<br />

La variabilità è un in<strong>di</strong>ce <strong>de</strong>lla <strong>di</strong>spersione presentata nei dati. Due<br />

insiemi <strong>di</strong> dati possono <strong>di</strong>fferire sia nella <strong>di</strong>spersione che nella posizione.<br />

Supponiamo <strong>di</strong> avere per due insiemi <strong>di</strong> dati gli areogrammi <strong>di</strong> Figura<br />

13.<br />

Areogramma A Areogramma B<br />

Figura 13<br />

Per “misurare” la variabilità <strong>de</strong>i dati possiamo pren<strong>de</strong>re in consi<strong>de</strong>razione:<br />

il range, il range interquartile, la varianza, lo scarto quadratico<br />

me<strong>di</strong>o ed il coefficiente <strong>di</strong> variazione.<br />

Definizione 9.1. Il range o intervallo <strong>di</strong> variazione è uguale alla<br />

<strong>di</strong>fferenza fra l’osservazione più gran<strong>de</strong> e l’osservazione più piccola:<br />

Range = xpiù gran<strong>de</strong> − xpiù piccolo.<br />

Esempio 9.1. Calcolare il range interquartile nei casi: <strong>de</strong>i 17 fon<strong>di</strong><br />

azionari, <strong>de</strong>lle 44 reclute, <strong>de</strong>lla lunghezza <strong>de</strong>lla foglia superiore <strong>de</strong>l<br />

Phleum pratense.<br />

Nel caso <strong>de</strong>i 17 fon<strong>di</strong> azionari abbiamo<br />

range = 38.0 − 10.0 = 28.0.<br />

Nel caso <strong>de</strong>ll’altezza <strong>de</strong>lle 44 reclute abbiamo<br />

range = 178 − 166 = 12.<br />

Nel caso <strong>de</strong>lla lunghezza <strong>de</strong>lla foglia <strong>de</strong>l Phleum pratense abbiamo<br />

range = 27.5 − 12.5 = 15.0.<br />

Osservazione 9.1. Il range è misura <strong>de</strong>lla <strong>di</strong>spersione totale <strong>de</strong>ll’insieme<br />

<strong>de</strong>i dati. Sebbene si tratti <strong>di</strong> una misura molto semplice da


(1). Sovrapporsi bene.<br />

Avremmo il caso <strong>de</strong>lla stessa<br />

posizione e <strong>de</strong>lla stessa<br />

<strong>di</strong>spersione.<br />

9. VARIABILITÀ DEI DATI 29<br />

Se riportiamo due insiemi <strong>di</strong> dati sullo stesso asse graduato potrebbero:<br />

(3). Stessa posizione me<strong>di</strong>a<br />

<strong>de</strong>i dati ma <strong>di</strong>spersione<br />

<strong>di</strong>versa.<br />

(2). Stessa <strong>di</strong>spersione ma<br />

dati con <strong>di</strong>versa posizione.<br />

(4). Dati con <strong>di</strong>versa <strong>di</strong>spersione<br />

e <strong>di</strong>versa posizione<br />

me<strong>di</strong>a <strong>de</strong>i dati.<br />

Figura 14. Alcuni esempi <strong>di</strong> confronto fra due insiemi<br />

<strong>di</strong> dati.<br />

calcolare, un suo limite è che non tiene conto <strong>di</strong> come i dati si <strong>di</strong>stribuiscono<br />

effettivamente tra i due valori estremi. Per questo motivo, in<br />

alcuni casi, si <strong>di</strong>mostra una misura ina<strong>de</strong>guata <strong>de</strong>lla variabilità.<br />

Come esempio, riportiamo nella tabella sotto e nei tre grafici che la<br />

seguono, tre serie <strong>di</strong> dati con uguale range (o intervallo <strong>di</strong> variazione)<br />

ma <strong>di</strong>verse <strong>di</strong>stribuzioni <strong>de</strong>i dati.<br />

Definizione 9.2. Il range interquartile <strong>di</strong> una serie <strong>di</strong> dati è la<br />

<strong>di</strong>fferenza fra il terzo quartile ed il primo quartile. Cioè:<br />

range interquartile = Q3 − Q1.<br />

Questa misura <strong>di</strong> variabilità sintetizza la <strong>di</strong>spersione <strong>de</strong>l 50% <strong>de</strong>i<br />

dati che occupano la posizione centrale e non è pertanto influenzato<br />

dagli outlier.


30<br />

Tabella 4. Tre serie <strong>di</strong> dati con lo stesso range<br />

valori Serie 1 Serie 2 Serie 3<br />

6 0 0 0<br />

7 1 1 1<br />

8 0 1 1<br />

9 0 1 2<br />

10 0 1 5<br />

11 1 1 2<br />

12 5 6 1<br />

13 6 2 1<br />

14 0 0 0<br />

Se torniamo all’esempio prece<strong>de</strong>nte, nel caso <strong>de</strong>i fon<strong>di</strong> si ha Q1 =<br />

29.0, Q3 = 32.7 e quin<strong>di</strong><br />

range interquartile = 32.7 − 29.0 = 3.7.<br />

Nel caso <strong>de</strong>ll’altezza <strong>de</strong>lle reclute si ha Q1 = 170 cm, Q3 = 172 cm e<br />

quin<strong>di</strong><br />

range interquartile = 172 − 170 = 2 cm.<br />

Nel caso <strong>de</strong>l Phleum pratense si ha Q1 = 17.4 cm, Q3 = 23.1 cm e<br />

quin<strong>di</strong><br />

range interquartile = 23.1 − 17.4 = 5.7 cm.<br />

Sebbene il range sia una misura <strong>de</strong>lla <strong>di</strong>spersione totale ed il range<br />

interquartile sia una misura <strong>de</strong>lla <strong>di</strong>spersione centrale, nessuna <strong>di</strong><br />

queste due misure tiene conto abbastanza accuratamente <strong>di</strong> come le osservazioni<br />

si <strong>di</strong>stribuiscano attorno ad una misura <strong>di</strong> ten<strong>de</strong>nza centrale,<br />

come ad esempio la me<strong>di</strong>a aritmetica. Consi<strong>de</strong>riamo ora due misure <strong>di</strong><br />

variabilità, la varianza, e la sua ra<strong>di</strong>ce quadrata, lo scarto quadratico<br />

me<strong>di</strong>o, che sintetizzano con una certa accuratezza la <strong>di</strong>spersione <strong>de</strong>i<br />

valori osservati attorno alla loro me<strong>di</strong>a.<br />

Serie 1<br />

6 8 10 12 14<br />

Serie 2<br />

6 8 10 12 14<br />

Figura 15. Istogrammi <strong>de</strong>i dati <strong>di</strong> Tabella 4.<br />

Serie 3<br />

6 8 10 12 14


9. VARIABILITÀ DEI DATI 31<br />

Definizione 9.3. Siano x1, x2, . . . , xn gli n valori osservati per la<br />

variabile aleatoria X. Si <strong>di</strong>ce varianza <strong>de</strong>i dati il numero<br />

Var(X) =<br />

n<br />

i=1 (xi − x) 2<br />

n<br />

dove x in<strong>di</strong>ca la me<strong>di</strong>a aritmetica <strong>de</strong>gli n dati raccolti.<br />

Si <strong>di</strong>ce scarto quadratico me<strong>di</strong>o (od anche <strong>de</strong>viazione standard) la<br />

ra<strong>di</strong>ce <strong>de</strong>lla varianza<br />

S(X) =<br />

n<br />

i=1 (xi − x) 2<br />

.<br />

n<br />

Usualmente la varianza si in<strong>di</strong>ca con V ar e lo scarto quadratico<br />

me<strong>di</strong>o con S. Perciò V ar = S 2 .<br />

Se i dati sono presentati con una tabella <strong>di</strong> frequenza (assoluta)<br />

<strong>di</strong> queste frequenze assolute si dovrà tenere conto sia nel calcolo <strong>de</strong>lla<br />

me<strong>di</strong>a aritmetica che in quello <strong>de</strong>lla varianza e <strong>de</strong>llo scarto quadratico<br />

me<strong>di</strong>o.<br />

Ad esempio se i valori x1, x2, . . . , xn compaiono or<strong>di</strong>natamente con<br />

le frequenze assolute n1, n2, . . . , nn, avremo<br />

x =<br />

S 2 =<br />

S =<br />

n i=1 xini<br />

n i=1 ni<br />

n i=1 ni(xi − x) 2<br />

n i=1 ni<br />

n<br />

i=1 ni(xi − x) 2<br />

n i=1 ni<br />

.<br />

Se applichiamo le formule prece<strong>de</strong>nti all’esempio <strong>de</strong>ll’altezza <strong>de</strong>lle<br />

44 reclute si ottiene: x = 170.9318, V ar = 4.563533 e S = 2.136243.<br />

Notiamo che il valore <strong>di</strong> S non è troppo alto rispetto all’altezza me<strong>di</strong>a.<br />

Dovendo fare i calcoli manualmente <strong>de</strong>lla varianza, può venire utile<br />

la formula <strong>di</strong> Köning che <strong>di</strong>ce:<br />

Var=me<strong>di</strong>a <strong>de</strong>i quadrati - quadrato <strong>de</strong>lla me<strong>di</strong>a.<br />

Cioè<br />

V ar = S 2 = 1<br />

n<br />

n<br />

i=1<br />

x 2 i − x 2 .<br />

Quando si lavora con un campione <strong>di</strong> n osservazioni, e non con una<br />

intera popolazione (ancorché finita), per il calcolo <strong>de</strong>lla varianza e <strong>de</strong>llo<br />

scarto quadratico me<strong>di</strong>o si utilizzano le seguenti formule<br />

V ar = S 2 =<br />

n<br />

i=1 (xi − x) 2<br />

n − 1<br />

S =<br />

<br />

n<br />

i=1 (xi − x) 2<br />

.<br />

n − 1


32<br />

Cioè si <strong>di</strong>vi<strong>de</strong> per il numero n − 1 anziché per il numero n <strong>di</strong> dati.<br />

Osserviamo d’altra parte che se il numero <strong>di</strong> elementi <strong>de</strong>l campione<br />

n è abbastanza elevato si ha n−1 ≡ 1 e quin<strong>di</strong> i valori dati dalle due<br />

n<br />

formule praticamente coincidono.<br />

Se ripren<strong>di</strong>amo l’esempio <strong>de</strong>i ren<strong>di</strong>menti <strong>de</strong>i 17 fon<strong>di</strong> azionari, ed<br />

applichiamo le formule adatte ad un campione, si ha<br />

x = 29, 86471, V ar = 41.15993, S = 6.4156.<br />

Il valore <strong>di</strong> S è piuttosto alto perché è influenzato dall’outlier 10.0.<br />

Nel calcolo <strong>de</strong>lla varianza le <strong>di</strong>fferenze tra ciascuna osservazione e<br />

la me<strong>di</strong>a vengono elevate al quadrato. Pertanto sia la varianza che lo<br />

scarto quadratico me<strong>di</strong>o non possono essere negativi. L’unico caso nel<br />

quale queste due misure risultano nulle è quando i dati sono tutti uguali<br />

fra loro, non c’è variabilità <strong>de</strong>i dati. In questo caso anche il range ed il<br />

range interquartile sono nulli.<br />

In generale i dati presentano una qualche variazione. Ecco perché è<br />

importante sintetizzare i dati non soltanto con misure <strong>di</strong> posizione ma<br />

anche per mezzo <strong>di</strong> misure <strong>di</strong> variabilità che ne in<strong>di</strong>cano la <strong>di</strong>spersione.<br />

La varianza e lo scarto quadratico me<strong>di</strong>o misurano<br />

la <strong>di</strong>spersione “me<strong>di</strong>a” attorno alla me<strong>di</strong>a aritmetica:<br />

sono ottenute valutando come le osservazioni più<br />

gran<strong>di</strong> si <strong>di</strong>stribuiscono al <strong>di</strong> sopra <strong>de</strong>lla me<strong>di</strong>a e come<br />

le osservazioni più piccole si <strong>di</strong>stribuiscono sotto<br />

la me<strong>di</strong>a.<br />

Osserviamo che l’unità <strong>di</strong> misura <strong>de</strong>lla varianza coinci<strong>de</strong> con il quadrato<br />

<strong>de</strong>ll’unità <strong>di</strong> misura <strong>de</strong>i dati. Ad esempio, nel caso <strong>de</strong>ll’altezza<br />

<strong>de</strong>lle 44 reclute, la varianza è misurata in cm 2 . Per questo motivo come<br />

principale misura <strong>de</strong>lla <strong>di</strong>spersione si preferisce utilizzare lo scarto quadratico<br />

me<strong>di</strong>o il cui valore (essendo la ra<strong>di</strong>ce quadrata <strong>de</strong>lla varianza)<br />

è espresso nella stessa unità <strong>di</strong> misura <strong>de</strong>i dati.<br />

Lo scarto quadratico me<strong>di</strong>o ci dà una in<strong>di</strong>cazione se e quanto i dati<br />

sono concentrati o <strong>di</strong>spersi attorno alla loro me<strong>di</strong>a aritmetica.<br />

Per quasi tutti gli insiemi <strong>di</strong> dati, la maggior parte <strong>de</strong>i valori osservati<br />

si trova nell’intervallo centrato sulla me<strong>di</strong>a ed i cui estremi <strong>di</strong>stano<br />

dalla me<strong>di</strong>a per uno scarto quadratico me<strong>di</strong>o. Questo significa che l’intervallo<br />

[x − S, x + S] in genere cattura almeno la maggior parte <strong>de</strong>i<br />

valori osservati. Pertanto la conoscenza <strong>de</strong>lla me<strong>di</strong>a aritmetica e <strong>de</strong>llo<br />

scarto quadratico me<strong>di</strong>o in genere aiuta a <strong>de</strong>finire in quale intervallo si<br />

concentra almeno la maggior parte <strong>de</strong>i valori osservati.<br />

Ad esempio, nel caso <strong>de</strong>i 17 fon<strong>di</strong> azionari abbiamo:<br />

x = 29.86 S = 6.42


9. VARIABILITÀ DEI DATI 33<br />

e nell’intervallo [x − S, x + S] = [23.44, 36.28] cadono 13 <strong>de</strong>i 17 dati.<br />

Nel caso <strong>de</strong>ll’altezza <strong>de</strong>lle 44 reclute abbiamo:<br />

x = 170.9 S = 2.14<br />

e nell’intervallo [x − S, x + S] = [168.76, 173.04] cadono 35 <strong>de</strong>i 44 dati.<br />

È importante osservare che nelle formule <strong>de</strong>lla varianza e <strong>de</strong>llo<br />

scarto quadratico me<strong>di</strong>o non si potrebbe usare<br />

n<br />

(xi − x),<br />

i=1<br />

Infatti tale somma dà sempre zero e questo priva <strong>di</strong> ogni significato<br />

tale espressione. Al contrario la somma <strong>de</strong>i quadrati <strong>de</strong>lle <strong>di</strong>fferenze<br />

assume sempre valori <strong>di</strong>versi per le <strong>di</strong>verse <strong>di</strong>stribuzioni <strong>de</strong>i dati dando<br />

un peso maggiore ai dati che più si <strong>di</strong>scostano dalla me<strong>di</strong>a.<br />

Quanto è stato qui sopra osservato può venire generalizzato nel<br />

seguente schema:<br />

Capire la variabilità <strong>de</strong>i dati.<br />

(1) Quanto più i dati sono <strong>di</strong>spersi, tanto maggiori saranno il range,<br />

il range interquartile, la varianza e lo scarto quadratico<br />

me<strong>di</strong>o.<br />

(2) Quanto più i dati sono concentrati od omogenei, tanto minori<br />

saranno il range, il range interquartile, la varianza e lo scarto<br />

quadratico me<strong>di</strong>o.<br />

(3) Se le misure sono tutte uguali (dati senza variabilità) il range,<br />

il range interquartile, la varianza e lo scarto quadratico me<strong>di</strong>o<br />

sono tutti uguali a zero.<br />

(4) Nessuna <strong>de</strong>lle misure <strong>di</strong> variabilità (il range, il range interquartile,<br />

la varianza e lo scarto quadratico me<strong>di</strong>o) può essere<br />

negativa.<br />

Introduciamo ora un’altra misura <strong>di</strong> variabilità che, a <strong>di</strong>fferenza<br />

<strong>de</strong>lle prece<strong>de</strong>nti, è espressa come una percentuale e non nella stessa<br />

unità <strong>di</strong> misura <strong>de</strong>i dati.<br />

Definizione 9.4. Si <strong>di</strong>ce coefficiente <strong>di</strong> variazione <strong>di</strong> un insieme <strong>di</strong><br />

dati x1, x2, . . . , xn, con me<strong>di</strong>a aritmetica x e scarto quadratico me<strong>di</strong>o<br />

S il numero:<br />

CV = S<br />

100 %.<br />

|x|<br />

Ad esempio, nel caso <strong>de</strong>i 17 fon<strong>di</strong> azionari abbiamo:<br />

CV = S 6.42<br />

100 = 100 = 21.5%.<br />

|x| 29.86


34<br />

Il coefficiente <strong>di</strong> variazione è utile quando si vogliono mettere a<br />

confronto la variabilità <strong>di</strong> due o più insiemi <strong>di</strong> dati. Ad esempio consi<strong>de</strong>riamo<br />

<strong>di</strong> nuovo la tabella 2 <strong>di</strong> pag. 12 ottenuta registrando il peso<br />

<strong>di</strong> 19 stu<strong>de</strong>nti (11 maschi ed 8 femmine). Calcoliamo sia la me<strong>di</strong>a che<br />

lo scarto quadratico me<strong>di</strong>o per le femmine e per i maschi. Avremo:<br />

xF = 39.86 SF = 2.09<br />

xM = 48.56 SM = 2.46.<br />

Osserviamo che lo scarto quadratico me<strong>di</strong>o <strong>de</strong>i maschi, SM, è maggiore<br />

<strong>di</strong> quello <strong>de</strong>lle femmine, SF . Non per questo possiamo <strong>de</strong>durre che<br />

il peso <strong>de</strong>i maschi varia più <strong>di</strong> quello <strong>de</strong>lle femmine. Calcoliamo i<br />

coefficienti <strong>di</strong> variazione:<br />

CVF = SF<br />

100 =<br />

xF<br />

2.09<br />

100 = 5.3%<br />

39.66<br />

CVM = SM<br />

100 =<br />

xM<br />

2.46<br />

100 = 5.1%<br />

48.56<br />

due percentuali pressoché uguali. Le variazioni sono rapportate alla<br />

taglia. Me<strong>di</strong>amente i maschi pesano più <strong>de</strong>lle femmine ecco perché<br />

presentano uno scarto quadratico me<strong>di</strong>o maggiore.<br />

Per compren<strong>de</strong>re ancora meglio il concetto basta immaginare <strong>di</strong> confrontare<br />

la variabilità <strong>de</strong>l peso <strong>di</strong> due specie animali <strong>di</strong> taglie molto <strong>di</strong>verse<br />

(ad esempio orche e <strong>de</strong>lfini): Un aumento <strong>di</strong> 20 kg è insignificante<br />

in un’orca mentre risulta notevole in un <strong>de</strong>lfino.<br />

10. La forma <strong>de</strong>lla <strong>di</strong>stribuzione<br />

La terza caratteristica <strong>de</strong>i dati che pren<strong>di</strong>amo in consi<strong>de</strong>razione è<br />

la forma <strong>de</strong>lla loro <strong>di</strong>stribuzione, cioè il modo in cui si <strong>di</strong>stribuiscono.<br />

La <strong>di</strong>stribuzione <strong>de</strong>i dati può essere simmetrica oppure no. Ad esempio<br />

la <strong>di</strong>stribuzione <strong>de</strong>i dati illustrata dal primo <strong>di</strong>agramma è simmetrica<br />

mentre quella illustrata dal secondo è asimmetrica.<br />

Una <strong>di</strong>stribuzione <strong>de</strong>i dati non simmetrica si <strong>di</strong>ce asimmetrica oppure<br />

obliqua. Per <strong>de</strong>scrivere la forma <strong>di</strong> una <strong>di</strong>stribuzione <strong>di</strong> dati è a<br />

volte sufficiente confrontare la me<strong>di</strong>a aritmetica con la me<strong>di</strong>ana. Se ci<br />

sono <strong>de</strong>i valori “eccezionalmente” alti questi alzano il valore <strong>de</strong>lla me<strong>di</strong>a<br />

aritmetica e quin<strong>di</strong> la me<strong>di</strong>a aritmetica risulta maggiore <strong>de</strong>lla me<strong>di</strong>ana.<br />

In questo caso si parla <strong>di</strong> asimmetria positiva <strong>de</strong>lla <strong>di</strong>stribuzione <strong>de</strong>i<br />

dati o <strong>di</strong> <strong>di</strong>stribuzione obliqua a <strong>de</strong>stra.<br />

Se ci sono <strong>de</strong>i valori “eccezionalmente” bassi questi abbassano il<br />

valore <strong>de</strong>lla me<strong>di</strong>a aritmetica e dunque si avrà una me<strong>di</strong>a aritmetica<br />

minore <strong>de</strong>lla me<strong>di</strong>ana. In questo caso si parla <strong>di</strong> <strong>di</strong>stribuzione obliqua<br />

a sinistra o <strong>di</strong> asimmetria negativa.


11. L’ANALISI ESPLORATIVA DEI DATI 35<br />

2 4 6 8<br />

2 4 6 8<br />

Figura 16. Istogrammi <strong>di</strong> una <strong>di</strong>stribuzione simmetrica<br />

ed una <strong>di</strong>stribuzione obliqua.<br />

Se la <strong>di</strong>stribuzione <strong>de</strong>i dati è simmetrica ciascuna metà <strong>de</strong>lla curva<br />

e l’immagine speculare <strong>de</strong>ll’altra. In tal caso la me<strong>di</strong>a aritmetica e la<br />

me<strong>di</strong>ana coincidono perché i valori bassi e quelli alti si bilanciano.<br />

Ripren<strong>di</strong>amo l’esempio <strong>de</strong>l ren<strong>di</strong>mento <strong>de</strong>i 17 fon<strong>di</strong> azionari. La me<strong>di</strong>a<br />

aritmetica è 29.86 e la me<strong>di</strong>ana è 30.5. Poiché la me<strong>di</strong>a aritmetica<br />

è minore <strong>de</strong>lla me<strong>di</strong>ana la <strong>di</strong>stribuzione <strong>de</strong>i dati è obliqua a sinistra.<br />

Nel caso <strong>de</strong>ll’altezza <strong>de</strong>lle 44 reclute, la me<strong>di</strong>a aritmetica è 170.9<br />

cm mentre la me<strong>di</strong>ana risulta <strong>di</strong> 171 cm. La <strong>di</strong>stribuzione si avvicina<br />

molto all’essere simmetrica.<br />

Anche nel caso <strong>de</strong>l Phleum pratense la me<strong>di</strong>a e la me<strong>di</strong>ana quasi<br />

coincidono e quin<strong>di</strong> si tratta <strong>di</strong> una <strong>di</strong>stribuzione abbastanza simmetrica.<br />

11. L’analisi esplorativa <strong>de</strong>i dati<br />

Dopo aver stu<strong>di</strong>ato le tre principali caratteristiche <strong>de</strong>i dati, cioè posizione,<br />

variabilità e forma, è importante ora stabilire come sintetizzare<br />

opportunamente le <strong>di</strong>verse caratteristiche <strong>de</strong>i dati.


36<br />

Distribuzione obliqua a <strong>de</strong>stra<br />

Distribuzione obliqua a sinistra<br />

Distribuzione simmetrica<br />

Figura 17. Le tre forme principali <strong>di</strong> una <strong>di</strong>stribuzione.<br />

Un approccio a questa “analisi esplorativa <strong>de</strong>i dati” consiste nel<br />

calcolare i cinque numeri <strong>di</strong> sintesi e nel costruire il <strong>di</strong>agramma scatola<br />

e baffi (box and whisker plot).


11. L’ANALISI ESPLORATIVA DEI DATI 37<br />

Definizione 11.1. Dato un insieme <strong>di</strong> dati x1, x2, . . . , xn, i cinque<br />

numeri <strong>di</strong> sintesi sono:<br />

(1) Il valore minimo, xmin.<br />

(2) Il primo quartile, Q1.<br />

(3) La me<strong>di</strong>ana.<br />

(4) Il terzo quartile, Q3.<br />

(5) Il valore massimo, xmax.<br />

A partire dai 5 numeri <strong>di</strong> sintesi è possibile ottenere tre misure <strong>di</strong><br />

posizione:<br />

• La me<strong>di</strong>ana.<br />

• La me<strong>di</strong>a interquartile: (Q1 + Q3)/2.<br />

• Il midrange: (xmin + xmax)/2.<br />

e due misure <strong>di</strong> variabilità:<br />

• Il range interquartile: Q3 − Q1.<br />

• Il range: xmax − xmin.<br />

Nel caso <strong>di</strong> dati simmetrici la relazione fra i cinque numeri <strong>di</strong> sintesi<br />

risulta la seguente:<br />

(1) La <strong>di</strong>stanza tra Q1 e la me<strong>di</strong>ana è uguale alla <strong>di</strong>stanza tra Q3<br />

e la me<strong>di</strong>ana.<br />

(2) La <strong>di</strong>stanza tra Q1 e xmin è uguale alla <strong>di</strong>stanza tra Q3 e xmax.<br />

(3) La me<strong>di</strong>ana, la me<strong>di</strong>a interquartile ed il midrange coincidono<br />

(coincidono poi anche con la me<strong>di</strong>a aritmetica.)<br />

Nel caso <strong>di</strong> dati asimmetrici la relazione fra i cinque numeri <strong>di</strong> sintesi<br />

risulta la seguente:<br />

(1) Nelle <strong>di</strong>stribuzioni oblique a <strong>de</strong>stra, la <strong>di</strong>stanza fra Q3 e xmax<br />

è maggiore <strong>di</strong> quella fra Q1 e xmin.<br />

(2) Nelle <strong>di</strong>stribuzioni oblique a <strong>de</strong>stra, la me<strong>di</strong>ana e la me<strong>di</strong>a<br />

interquartile sono minori <strong>de</strong>l midrange.<br />

(3) Nelle <strong>di</strong>stribuzioni oblique a sinistra, la <strong>di</strong>stanza fra Q3 e xmax<br />

è minore <strong>di</strong> quella fra Q1 e xmin.<br />

(4) Nelle <strong>di</strong>stribuzioni oblique a sinistra, la me<strong>di</strong>ana e la me<strong>di</strong>a<br />

interquartile sono maggiori <strong>de</strong>l midrange.<br />

In conclusione, a partire dai 5 numeri <strong>di</strong> sintesi è possibile <strong>di</strong>re<br />

qualcosa sulla forma <strong>de</strong>lla <strong>di</strong>stribuzione.<br />

Esempio 11.1. Calcoliamo i 5 numeri <strong>di</strong> sintesi <strong>de</strong>l caso <strong>de</strong>i 17 fon<strong>di</strong><br />

azionari. Si ha:<br />

xmin = 10, Q1 = 29.0, me<strong>di</strong>ana = 30.5, Q3 = 32.7, xmax = 38.0.<br />

Utilizziamo ora questi dati per stu<strong>di</strong>are la forma <strong>de</strong>lla <strong>di</strong>stribuzione. Si<br />

ha Q1 − xmin = 19.0 che è molto maggiore <strong>di</strong> xmax − Q3 = 5.3 pertanto


38<br />

la <strong>di</strong>stribuzione <strong>de</strong>i dati risulta obliqua a sinistra. Se ora confrontiamo<br />

la me<strong>di</strong>ana, la me<strong>di</strong>a interquartile ed il midrange, si ha per il midrange<br />

(xmax + xmin)/2 = 24.0 che è più piccolo sia <strong>de</strong>lla me<strong>di</strong>ana, 30.5, che<br />

<strong>de</strong>lla me<strong>di</strong>a interquartile (Q1 + Q3)/2 = 30.85 confermando che la<br />

<strong>di</strong>stribuzione è obliqua a sinistra. Si osservi infine che la me<strong>di</strong>ana e la<br />

me<strong>di</strong>a interquartile sono molto vicine perché, essendo misure “robuste”<br />

non vengono influenzate dal valore <strong>di</strong> outlier che è 10.0.<br />

Se consi<strong>de</strong>riamo l’esempio <strong>de</strong>lle 44 reclute, i cinque numeri <strong>di</strong> sintesi<br />

risultano<br />

xmin = 166, Q1 = 170, me<strong>di</strong>ana = 171, Q3 = 172, xmax = 178.<br />

In questo caso si hanno: Q1 − xmin = 4 cm, xmax − Q3 = 6 cm, la<br />

<strong>di</strong>stanza fra la me<strong>di</strong>ana ed il primo quartile è <strong>di</strong> 1 cm come la <strong>di</strong>stanza<br />

fra il terzo quartile e la me<strong>di</strong>ana. La me<strong>di</strong>a interquartile è (Q1 +<br />

Q3)/2 = 171 cm, il midrange è (xmax + xmin)/2 = 172 cm e la me<strong>di</strong>a<br />

aritmetica è 170.9 cm. Se confrontiamo con le con<strong>di</strong>zioni elencate in<br />

prece<strong>de</strong>nza, si ha che la <strong>di</strong>stribuzione <strong>de</strong>i dati risulta molto vicina alla<br />

simmetria. Il valore un po’ più alto <strong>de</strong>l midrange evi<strong>de</strong>nzia una leggera<br />

<strong>di</strong>storsione a <strong>de</strong>stra.<br />

Pren<strong>di</strong>amo l’esempio <strong>de</strong>l Phleum pratense. Calcoliamo i 5 numeri<br />

<strong>di</strong> sintesi:<br />

xmin = 12.5, Q1 = 17.4, me<strong>di</strong>ana = 20, Q3 = 23.1, xmax = 27.5.<br />

La <strong>di</strong>stanza Q1−xmin è 4.9 mm, xmax−Q3 è 4.4 mm, me<strong>di</strong>ana−Q1 è 2.6<br />

mm, Q3−me<strong>di</strong>ana è 3.1. Calcoliamo il midrange, la me<strong>di</strong>a interquartile<br />

e la me<strong>di</strong>a aritmetica. Si ha<br />

• Il midrange è 20.<br />

• La me<strong>di</strong>a interquartile risulta 20.<strong>25</strong>.<br />

• La me<strong>di</strong>a aritmetica è 20.1033.<br />

La me<strong>di</strong>a interquartile, la me<strong>di</strong>a aritmetica ed il midrange sono quasi<br />

uguali. La <strong>di</strong>stanza fra xmin e Q1 e quella fra xmax e Q3 sono circa<br />

uguali. Le <strong>di</strong>stanze <strong>di</strong> Q1 e Q3 dalla me<strong>di</strong>ana sono circa uguali. Si<br />

tratta <strong>di</strong> una <strong>di</strong>stribuzione <strong>de</strong>i dati abbastanza simmetrica, con una<br />

leggera coda a sinistra perché la me<strong>di</strong>a interquartile è maggiore <strong>de</strong>l<br />

midrange e Q1 − xmin > xmax − Q3. Però la coinci<strong>de</strong>nza <strong>di</strong> midrange,<br />

me<strong>di</strong>a interquartile e me<strong>di</strong>a aritmetica ci consentono <strong>di</strong> assumere la<br />

<strong>di</strong>stribuzione <strong>de</strong>i dati come simmetrica.<br />

12. Il <strong>di</strong>agramma scatola e baffi<br />

Il <strong>di</strong>agramma scatola e baffi fornisce una rappresentazione grafica<br />

<strong>de</strong>i dati sulla base <strong>de</strong>i 5 numeri <strong>di</strong> sintesi. Esso si costruisce nel modo<br />

seguente:


12. IL DIAGRAMMA SCATOLA E BAFFI 39<br />

Si pren<strong>de</strong> un asse graduato e si costruisce una “scatola” il cui lato<br />

verticale sinistro è in corrispon<strong>de</strong>nza con Q1, il lato verticale <strong>de</strong>stro è<br />

in corrispon<strong>de</strong>nza con Q3. Pertanto la scatola contiene il 50 % <strong>de</strong>lle<br />

osservazioni. All’interno <strong>de</strong>lla scatola si traccia una linea verticale in<br />

corrispon<strong>de</strong>nza <strong>de</strong>lla me<strong>di</strong>ana. Si tracciano poi: una linea tratteggiata<br />

da Q1 a xmin, che rappresenta il <strong>25</strong> % <strong>de</strong>i valori più bassi, (baffo sinistro)<br />

ed una linea tratteggiata da Q3 a xmax, che rappresenta il <strong>25</strong> % <strong>de</strong>i dati<br />

più elevati, (baffo <strong>de</strong>stro).<br />

Un <strong>di</strong>agramma scatola e baffi assume quin<strong>di</strong> l’aspetto presentato<br />

dalla figura 18 <strong>di</strong> pagina 39.<br />

xmin<br />

Q1<br />

me<strong>di</strong>ana<br />

Q3<br />

xmax<br />

Figura 18. Il <strong>di</strong>gramma “Scatola e baffi”


40<br />

Esempio 12.1. Ripren<strong>di</strong>amo l’esempio <strong>de</strong>l ren<strong>di</strong>mento <strong>de</strong>i 17 fon<strong>di</strong><br />

azionari, il relativo <strong>di</strong>agramma scatole e baffi risulta quello riportato<br />

nella figura 19.<br />

10 29.4 32.438<br />

30.5<br />

Figura 19. Il <strong>di</strong>gramma “Scatola e baffi”, <strong>de</strong>l<br />

ren<strong>di</strong>mento <strong>di</strong> 17 fon<strong>di</strong> azionari.<br />

Riportiamo ora qui <strong>di</strong> seguito anche i <strong>di</strong>agrammi scatole e baffi<br />

per l’esempio <strong>de</strong>ll’altezza <strong>de</strong>lle reclute per quello <strong>de</strong>l Phleum pratense,<br />

figura 20 e 21 seguenti.<br />

166 170<br />

171<br />

172 178<br />

Figura 20. Il <strong>di</strong>gramma “Scatola e baffi”, <strong>de</strong>ll’altezza<br />

<strong>di</strong> 44 reclute.<br />

12.50 17.58<br />

20.05<br />

22.83 27.50<br />

Figura 21. Il <strong>di</strong>gramma “Scatola e baffi”, <strong>de</strong>lla<br />

lunghezza <strong>de</strong>lla foglia superiore <strong>di</strong> Phleum pratense.


13. MISURE DI SINTESI DESCRITTIVE DI UNA POPOLAZIONE 41<br />

13. Misure <strong>di</strong> sintesi <strong>de</strong>scrittive <strong>di</strong> una popolazione<br />

Abbiamo già fatto <strong>di</strong>stinzione fra popolazione e campione. Popolazione<br />

è l’insieme <strong>di</strong> tutti gli elementi che si prendono in consi<strong>de</strong>razione.<br />

Campione è la porzione <strong>de</strong>lla popolazione che si seleziona per l’analisi.<br />

Ad esempio, nel caso <strong>de</strong>lle 44 reclute possiamo interpretare l’insieme<br />

<strong>di</strong> tutte le reclute italiane come l’intera popolazione, mentre le<br />

44 reclute analizzate costituiscono il campione. Quando si consi<strong>de</strong>ra<br />

un campione si in<strong>di</strong>ca con x la me<strong>di</strong>a aritmetica <strong>de</strong>i dati raccolti<br />

sul campione e con S lo scarto quadratico me<strong>di</strong>o che si calcola con la<br />

formula:<br />

<br />

n<br />

i=1 (xi − x) 2<br />

S =<br />

.<br />

n − 1<br />

Si osservi che se i dati <strong>de</strong>l campione sono n, si <strong>di</strong>vi<strong>de</strong> per n − 1.<br />

Se invece si consi<strong>de</strong>ra l’intera popolazione, il cui numero <strong>di</strong> in<strong>di</strong>vidui<br />

in<strong>di</strong>cheremo con N, si in<strong>di</strong>ca con µ la me<strong>di</strong>a <strong>de</strong>i dati raccolti sull’intera<br />

popolazione:<br />

µ =<br />

N<br />

i=1 xi<br />

N<br />

e si in<strong>di</strong>ca con σ lo scarto quadratico me<strong>di</strong>o <strong>de</strong>i dati raccolti sull’intera<br />

popolazione:<br />

<br />

N<br />

i=1 (xi − µ) 2<br />

σ =<br />

.<br />

N<br />

xi è il dato raccolto per la variabile aleatoria che stiamo stu<strong>di</strong>ando<br />

relativamente all’i-esimo in<strong>di</strong>viduo <strong>de</strong>lla popolazione.<br />

In molti insiemi <strong>di</strong> dati la <strong>di</strong>stribuzione ten<strong>de</strong> a raggrupparsi vicino<br />

alla me<strong>di</strong>ana. Negli insiemi <strong>di</strong> dati che presentano una <strong>di</strong>stribuzione<br />

obliqua a sinistra, i dati tendono a raggrupparsi sulla sinistra <strong>de</strong>lla<br />

me<strong>di</strong>ana, mentre nei dati con <strong>di</strong>stribuzione obliqua a <strong>de</strong>stra i dati ten<strong>de</strong>ranno<br />

a raggrupparsi a <strong>de</strong>stra <strong>de</strong>lla me<strong>di</strong>ana. Per gli insiemi simmetrici<br />

la concentrazione <strong>de</strong>lle osservazioni ten<strong>de</strong> ad essere attorno alla<br />

me<strong>di</strong>ana che coinci<strong>de</strong> con la me<strong>di</strong>a aritmetica.<br />

Per la maggior parte <strong>de</strong>lle <strong>di</strong>stribuzioni si ha la seguente regola<br />

empirica:<br />

• Circa 2 dati su tre (il 67 - 68 % <strong>de</strong>i dati) si trova ad una<br />

<strong>di</strong>stanza dalla me<strong>di</strong>a µ inferiore allo scarto quadratico me<strong>di</strong>o.<br />

Cioè il 67 % <strong>de</strong>i dati (circa) si trova nell’intervallo [µ−σ, µ+σ].<br />

• Una percentuale <strong>di</strong> dati tra il 90 % ed il 95 % si trova ad una<br />

<strong>di</strong>stanza dalla me<strong>di</strong>a minore <strong>di</strong> due volte lo scarto quadratico<br />

me<strong>di</strong>o. Cioè circa il 95 % <strong>de</strong>i dati si trova nell’intervallo [µ −<br />

2σ, µ − 2σ].


42<br />

Consi<strong>de</strong>riamo una variabile aleatoria X. Sappiamo che X è una<br />

variabile che può assumere un ben <strong>de</strong>terminato valore in conseguenza <strong>di</strong><br />

un esperimento. Supponiamo che X sia una variabile <strong>di</strong> tipo numerico<br />

misurata in scala or<strong>di</strong>nale, in questo caso, X può essere una variabile<br />

<strong>di</strong> tipo <strong>di</strong>screto (può assumere soltanto un insieme finito <strong>di</strong> valori od<br />

una infinità numerabile <strong>di</strong> valori) o <strong>di</strong> tipo continuo (può assumere una<br />

infinità <strong>di</strong> valori più che numerabile).<br />

Nella maggior parte <strong>de</strong>i casi, ha gran<strong>de</strong> importanza conoscere la<br />

probabilità che la variabile aleatoria X assuma valori minori od uguali<br />

ad x. Spesso, quando la variabile aleatoria X è <strong>di</strong> tipo continuo, per<br />

conoscere questa probabilità, che in<strong>di</strong>cheremo con P (X < x), si ricorre<br />

ad un mo<strong>de</strong>llo matematico, cioè ad una espressione matematica che<br />

permetta, per ogni x, <strong>di</strong> calcolare il valore <strong>di</strong> P (X < x).<br />

Molti mo<strong>de</strong>lli matematici <strong>di</strong> interesse nella statistica sono costruiti<br />

a partire dalla funzione:<br />

f : R → R <strong>de</strong>finita da f(x) = 1<br />

σ √ 1<br />

e− 2(<br />

2π x−µ<br />

σ ) 2<br />

.<br />

La me<strong>di</strong>a µ calcolata sull’intera popolazione pren<strong>de</strong> anche il nome <strong>di</strong><br />

valore atteso <strong>di</strong> X e viene in<strong>di</strong>cato con E(X).<br />

Poniamo per semplicità<br />

A = 1<br />

σ √ 2π<br />

B = 1<br />

2σ 2<br />

C = µ,<br />

e stu<strong>di</strong>amo il grafico <strong>de</strong>lla prece<strong>de</strong>nte funzione, cioè <strong>de</strong>lla funzione<br />

x ↦→ Ae −B(x−C)2<br />

.<br />

Poiché A > 0 il grafico giace tutto al <strong>di</strong> sopra <strong>de</strong>ll’asse <strong>de</strong>lle ascisse,<br />

inoltre si hanno i due limiti<br />

lim<br />

x→+∞ Ae−B(x−C)2 = 0 lim<br />

x→−∞ Ae−B(x−C)2 = 0.<br />

La curva è simmetrica rispetto alla retta x = C. Infatti si ha<br />

Ae −B(−(x−C))2<br />

= Ae −B(−1)2 (x−C) 2<br />

Se ora stu<strong>di</strong>amo la <strong>de</strong>rivata prima <strong>de</strong>lla funzione,<br />

y ′ = −2B(x − C) Ae −B(x−C)2<br />

,<br />

= Ae −B(x−C)2<br />

.<br />

si ha che questa si annulla per x = C, è negativa per x > C e positiva<br />

per x < C. Dunque la funzione risulta crescente nell’intervallo ] −<br />

∞, C[, è <strong>de</strong>crescente nell’intervallo ]C, +∞[ e raggiunge il massimo, A,<br />

per x = C. Inoltre il coefficiente B = 1<br />

2σ 2 <strong>de</strong>termina la rapi<strong>di</strong>tà <strong>di</strong>


13. MISURE DI SINTESI DESCRITTIVE DI UNA POPOLAZIONE 43<br />

crescita <strong>de</strong>lla curva. Se consi<strong>de</strong>riamo un valore x ′ < C o x ′ > C fissato<br />

e calcoliamo il valore assoluto<br />

<br />

2BA(x − C)e −B(x ′ −C) 2 ,<br />

questo cresce con B se si mantiene fisso C. Ricordando che il valore<br />

<strong>de</strong>lla <strong>de</strong>rivata <strong>di</strong> una funzione in un punto x ′ rappresenta il coefficiente<br />

angolare <strong>de</strong>lla retta tangente al grafico <strong>de</strong>lla funzione corrispon<strong>de</strong>nte<br />

all’ascissa x ′ , si conclu<strong>de</strong> che al crescere <strong>di</strong> B aumenta la velocità <strong>di</strong><br />

crescita <strong>de</strong>l grafico. In fine, poiché B è inversamente proporzionale al<br />

quadrato <strong>di</strong> σ, più basso è σ maggiore è la velocità <strong>di</strong> crescita <strong>de</strong>lla<br />

curva. Il grafico <strong>di</strong><br />

f(x) = 1<br />

σ √ 1<br />

e− 2(<br />

2π x−µ<br />

σ ) 2<br />

è illustrato in figura 22 <strong>di</strong> pagina 43<br />

1<br />

σ √ 2π<br />

Y<br />

µ X<br />

Figura 22. Grafico <strong>di</strong> <strong>de</strong>nsità <strong>de</strong>lla <strong>di</strong>stribuzione normale.<br />

In particolare ve<strong>di</strong>amo, in figura 23 <strong>di</strong> pagina 44, alcuni grafici<br />

ottenuti in corrispon<strong>de</strong>nza <strong>di</strong> <strong>di</strong>versi valori <strong>di</strong> σ:<br />

Definizione 13.1. La funzione f : R → R <strong>de</strong>finita dall’espressione<br />

f(x) = 1<br />

σ √ 1<br />

e− 2(<br />

2π x−µ<br />

σ ) 2<br />

pren<strong>de</strong> il nome <strong>di</strong> funzione <strong>di</strong> <strong>di</strong>stribuzione normale o <strong>di</strong>stribuzione<br />

gaussiana.


44<br />

Y<br />

µ X<br />

Figura 23. Confronto fra <strong>di</strong>versi grafici <strong>di</strong> <strong>de</strong>nsità <strong>de</strong>lla<br />

<strong>di</strong>stribuzione normale con lo stesso valore <strong>di</strong> µ ma <strong>di</strong>versi<br />

valori <strong>di</strong> σ.<br />

Definizione 13.2. Si <strong>di</strong>ce che una variabile aleatoria X, valutata<br />

su <strong>di</strong> una popolazione con me<strong>di</strong>a µ e scarto quadratico me<strong>di</strong>o σ, ha<br />

una <strong>di</strong>stribuzione <strong>di</strong> probabilità normale con parametri µ e σ, quando<br />

P (X ≤ x) è uguale all’area sottesa dalla curva<br />

tra −∞ ed x.<br />

Y<br />

f(x) = 1<br />

σ √ 1<br />

e− 2(<br />

2π x−µ<br />

σ ) 2<br />

Area=P (X ≤ x)<br />

µ x X<br />

Figura 24. L’area sottesa da una curva <strong>di</strong> <strong>di</strong>stribuzione<br />

nell’intervallo ]−∞, x] è la probabilità che un valore <strong>de</strong>lla<br />

variabile aleatoria sia minore od uguale ad x.


13. MISURE DI SINTESI DESCRITTIVE DI UNA POPOLAZIONE 45<br />

13.1. Osservazioni.<br />

1. L’area sottesa dalla curva gaussiana tra −∞ e +∞ vale 1.<br />

Area=1<br />

Figura <strong>25</strong>. L’area sottesa dalla curva gaussiana<br />

nell’intervallo ] − ∞, +∞[ è 1.<br />

Infatti, essendo X una variabile aleatoria continua, cioè in grado <strong>di</strong><br />

assumere tutti i valori <strong>di</strong> R, si ha la certezza, probabilità 1, che assuma<br />

un valore nell’intervallo ] − ∞, +∞[.<br />

2. Se X ha una <strong>di</strong>stribuzione <strong>di</strong> probabilità normale con parametri<br />

µ e σ, allora i valori assunti da X relativi all’intera popolazione sono<br />

simmetricamente <strong>di</strong>stribuiti rispetto a µ con ad<strong>de</strong>nsamento verso µ.<br />

Cioè la forma <strong>de</strong>lla <strong>di</strong>stribuzione <strong>de</strong>i dati è la stessa funzione f. Ovvero<br />

se rappresentiamo l’areogramma <strong>di</strong> un campione molto alto <strong>de</strong>i dati per<br />

X, campione tratto dall’intera popolazione esaminata, otteniamo:<br />

µ<br />

Figura 26. Confronto fra l’areogramma <strong>di</strong> una variabile<br />

aleatoria e la gaussiana <strong>di</strong> uguale me<strong>di</strong>a ed uguale<br />

<strong>de</strong>viazione standard.<br />

Più è basso σ meno i dati sono <strong>di</strong>spersi rispetto alla me<strong>di</strong>a µ.


46<br />

3. Se X ha una <strong>di</strong>stribuzione <strong>di</strong> probabilità normale con parametri<br />

µ e σ, valutate le misure <strong>di</strong> posizione centrale sull’intera popolazione:<br />

me<strong>di</strong>a µ, me<strong>di</strong>ana, moda, midrange e me<strong>di</strong>a interquartile, esse<br />

coincidono tutte. Inoltre il range interquartile è pari a 1.33 volte lo<br />

scarto quadratico me<strong>di</strong>o σ. Cioè il range interquartile copre l’intervallo<br />

[µ − 2 2 σ, µ + 3 3σ], ovvero Q1 = µ − 2<br />

3σ e Q3 = µ + 2<br />

3σ. 4. In<strong>di</strong>pen<strong>de</strong>ntemente dal fatto che la curva gaussiana relativa alla<br />

variabile aleatoria X sia più o meno ripida (cioè con σ più o meno<br />

alto) si ha che, consi<strong>de</strong>rati i dati assunti da X sull’intera popolazione:<br />

• nell’intervallo [µ − σ, µ + σ] cadono circa il 68 % <strong>de</strong>i dati;<br />

• nell’intervallo [µ − 2σ, µ + 2σ] cadono circa il 95 % <strong>de</strong>i dati;<br />

• nell’intervallo [µ − 3σ, µ + 3σ] cadono circa il 99.7 % <strong>de</strong>i dati.<br />

Riportiamo nella tabella 5 <strong>di</strong> pagina 46 il valore <strong>de</strong>lle aree sottese<br />

dalla curva gaussiana:<br />

Tabella 5. Valori <strong>de</strong>lle aree sottese dalla curva gaussiana<br />

per intervalli centrati nel valore me<strong>di</strong>o e <strong>di</strong> raggi<br />

<strong>di</strong>versi.<br />

Valori Nell’intervallo Fuori dall’intervallo Nell’intervallo<br />

<strong>di</strong> u [µ − uσ, µ + uσ] [µ − uσ, µ + uσ] [µ + uσ, +∞[<br />

0 0 1 0.5<br />

0.2 0.1586 0.8414 0.4207<br />

0.4 0.3108 0.6892 0.3446<br />

0.6 0.4514 0.5486 0.2743<br />

0.8 0.5762 0.4238 0.2119<br />

1 0.6826 0.3174 0.1587<br />

1.2 0.7698 0.2302 0.1151<br />

1.4 0.8384 0.1616 0.0808<br />

1.6 0.8904 0.1096 0.0548<br />

1.8 0.9282 0.0718 0.0.0359<br />

2 0.9544 0.0456 0.0228<br />

2.2 0.9722 0.0278 0.0139<br />

2.4 0.9836 0.0164 0.0082<br />

2.6 0.9906 0.0094 0.0047<br />

2.8 0.9950 0.0050 0.00<strong>25</strong><br />

3 0.9974 0.0026 0.0013<br />

3.2 0.9986 0.014 0.0007<br />

Se la X è una variabile aleatoria con una <strong>di</strong>stribuzione <strong>di</strong> probabilità<br />

normale con parametri µ e σ, per calcolare P (X ≤ x) <strong>de</strong>vo calcolare


13. MISURE DI SINTESI DESCRITTIVE DI UNA POPOLAZIONE 47<br />

% <strong>de</strong>ll’area totale<br />

µ − σ µ + σ<br />

% <strong>de</strong>ll’area totale<br />

µ − 2σ µ + 2σ<br />

% <strong>de</strong>ll’area totale<br />

µ − 3σ µ + 3σ<br />

Figura 27. Area sottesa alla curva gaussiana negli intervalli<br />

centrati nel valore me<strong>di</strong>o, µ, e <strong>di</strong> ampiezza <strong>di</strong> 2,<br />

4, 6, scarti quadratici me<strong>di</strong>, σ.<br />

l’area tra −∞ e x sottesa dalla curva gaussiana<br />

f(x) = 1<br />

σ √ 1<br />

e− 2(<br />

2π x−µ<br />

σ ) 2<br />

.<br />

Proce<strong>de</strong>re al calcolo <strong>di</strong> una tale area non è semplice. Per facilitare le<br />

cose si ricorre alla standar<strong>di</strong>zzazione <strong>de</strong>lla variabile aleatoria X.<br />

X<br />

X<br />

X


48<br />

Definizione 13.3. Sia X una variabile aleatoria normalmente <strong>di</strong>stribuita<br />

con parametri µ, σ. Chiamiamo variabile aleatoria standar<strong>di</strong>zzata<br />

associata ad X la variabile aleatoria<br />

X − µ<br />

Z = .<br />

Si può <strong>di</strong>mostrare che la variabile aleatoria Z è ancora normalmente<br />

<strong>di</strong>stribuita con parametri µ = 0 e σ = 1. Quin<strong>di</strong> la funzione <strong>de</strong>lla<br />

<strong>di</strong>stribuzione normale associata a Z è<br />

f(Z) = 1<br />

√ e<br />

2π −Z2 /2<br />

.<br />

Questa si <strong>di</strong>ce una funzione <strong>di</strong> <strong>di</strong>stribuzione normale standard o standar<strong>di</strong>zzata.<br />

σ<br />

Ora, per calcolare P (X ≤ x), fissato che sia x, ricorriamo alla curva<br />

f(Z) = 1<br />

√ 2π e −Z2 /2 .<br />

Poiché Z = X−µ<br />

ricaviamo X = σZ + µ e quin<strong>di</strong> P (X ≤ x) = P (σZ +<br />

σ<br />

µ ≤ x) dove σZ +µ ≤ x implica Z ≤ x−µ<br />

(ricor<strong>di</strong>amo che σ è un valore<br />

σ<br />

positivo). Quin<strong>di</strong> P (X ≤ x) = P (Z ≤ x−µ<br />

). Per calcolare la seconda<br />

σ<br />

probabilità si utilizzano le tabelle apposite che rappresentano le aree<br />

sottese dalla curva normale standar<strong>di</strong>zzata. Riportiamo una <strong>di</strong> queste<br />

tabelle in appen<strong>di</strong>ce.<br />

Esercizio 1. Sia X una variabile aleatoria continua con <strong>di</strong>stribuzione<br />

<strong>di</strong> probabilità normale con µ = 60 e σ = 3. Calcolare: P (X < 62)<br />

e P (X > 81).<br />

Soluzione. Proce<strong>di</strong>amo alla standar<strong>di</strong>zzazione <strong>de</strong>lla variabile X.<br />

X − 60<br />

Z = ⇐ X = 3Z + 60.<br />

3<br />

Per ottenere P (X < 62) si dovrà calcolare<br />

62 − 60<br />

P (X < 62) = P (Z < ) = P (Z <<br />

3<br />

2<br />

) ∼ P (Z < 0.67)<br />

3<br />

Se consultiamo la tavola <strong>de</strong>lla <strong>di</strong>stribuzione normale standar<strong>di</strong>zzata<br />

si ottiene P (Z < 0.67) = 0.7475 cioè circa il 75 %. Per ottenere<br />

P (X > 81) si dovrà calcolare<br />

81 − 60<br />

P (X > 81) = P (Z > ) = P (Z ><br />

3<br />

11<br />

) ∼ P (Z > 3.67).<br />

3<br />

Se osserviamo che P (Z > 3.67) = 1 − P (Z < 3.67), utilizzando<br />

nuovamente la tabella si ha<br />

P (Z > 3.67) = 1 − P (Z < 3.67) ∼ 1 − 1 = 0.


13. MISURE DI SINTESI DESCRITTIVE DI UNA POPOLAZIONE 49<br />

Cioè la probabilità che la variabile aleatoria X superi il valore <strong>di</strong> 81 è<br />

praticamente nulla.<br />

Esercizio 2. Sia X una variabile aleatoria continua con <strong>di</strong>stribuzione<br />

<strong>di</strong> probabilità normale con µ = 75 e σ = 6. Calcolare:<br />

P (75 < X < 81) e P (X < 75 ∨ X > 81).<br />

Soluzione. Le con<strong>di</strong>zioni 75 < X < 81 danno per la variabile<br />

aleatoria standar<strong>di</strong>zzata ottenuta dalla X le con<strong>di</strong>zioni 75 < 6Z +75 <<br />

81 e quin<strong>di</strong> (75 − 75)/6 < Z < (81 − 75)/6 cioè 0 < Z < 1.<br />

Se teniamo conto che P (0 < Z < 1) = P (Z < 1) − P (Z < 0) si ha<br />

P (0 < Z < 1) = 0.8413447 − 0.5 = 0.3413447. Perciò P (75 < X <<br />

81) ∼ 34%.<br />

Dalle P (X < 75 ∨ X > 81) = P (X < 75) + P (X > 81) = P (X <<br />

75) + 1 − P (X < 81) = 1 − (P (Z < 1) − P (Z < 0)) si ottiene P (X <<br />

75 ∨ X > 81) = 1 − 0.3413447 = 0.6586553 e quin<strong>di</strong> P (X < 75 ∨ X ><br />

81) ∼ 66%.<br />

Esercizio 3. La lunghezza me<strong>di</strong>a <strong>di</strong> 500 spighe <strong>di</strong> frumento, in un<br />

test biologico, è <strong>di</strong> 151 mm e la <strong>de</strong>viazione standard è <strong>di</strong> 15 mm. Supponendo<br />

che la variabile aleatoria “lunghezza” segua la legge <strong>di</strong> <strong>di</strong>stribuzione<br />

normale <strong>de</strong>terminare quante spighe hanno lunghezza compresa<br />

tra 120 mm e 155 mm e quante spighe avranno lunghezza maggiore <strong>di</strong><br />

185 mm.<br />

Soluzione. La popolazione presa in esame è costituita da N = 500<br />

spighe <strong>di</strong> frumento. Abbiamo µ = 151 e σ = 15. Se X è la variabile<br />

aleatoria lunghezza, in mm, la variabile lunghezza standar<strong>di</strong>zzata sarà<br />

X − 151<br />

Z = .<br />

Se supponiamo che le misure <strong>di</strong> lunghezza siano prese arrotondando al<br />

mm più vicino, la probabilità che una spiga dopo la misurazione, ed il<br />

relativo arrotondamento, abbia una lunghezza compresa fra 120 e 155<br />

mm è data da<br />

P (119.5 < X < 155.5) = P (119.5 < 15Z + 151 < 155.5)<br />

119.5 − 151 155.5 − 151<br />

= P ( < Z < )<br />

15<br />

15<br />

155.5 − 151<br />

119.5 − 151<br />

= P (Z < ) − P (Z < )<br />

15<br />

15<br />

= P (Z < 0.30) − P (Z < −2.15)<br />

15<br />

Utilizzando le tabelle per il calcolo si ha<br />

= P (Z < 0.30) − (1 − P (Z < 2.15)).<br />

P (119.5 < X < 155.5) = 0.6179 − 1 + 0.9842 = 0.621 ∼ 60%.


50<br />

Probabilmente 0.621 · 500 ∼ 310 spighe, <strong>de</strong>lle 500 consi<strong>de</strong>rate, avranno<br />

lunghezza compresa tra 120 e 155 mm.<br />

Passiamo alla seconda parte <strong>de</strong>l quesito. Si ha<br />

185.5 − 151<br />

P (X > 185.5) = P (Z > ) = P (Z > 2.3) = 1−P (Z < 2.3).<br />

15<br />

dalla consultazione <strong>de</strong>lle tabelle risulta<br />

P (X > 185.5) = 1 − 0.9893 = 0.0107<br />

Pertanto probabilmente 0.0107·500 ∼ 5 spighe risulteranno <strong>di</strong> lunghezza<br />

maggiore <strong>di</strong> 185 mm.<br />

14. Verifica <strong>de</strong>ll’ipotesi <strong>di</strong> normalità<br />

Naturalmente non tutti i fenomeni continui seguono una <strong>di</strong>stribuzione<br />

che possa essere a<strong>de</strong>guatamente approssimata dal mo<strong>de</strong>llo normale.<br />

Quando abbiamo un insieme <strong>di</strong> dati sorge quin<strong>di</strong> la necessità <strong>di</strong> capire<br />

se la variabile aleatoria X, relativa all’insieme <strong>de</strong>i dati raccolti, segua<br />

un mo<strong>de</strong>llo <strong>di</strong> <strong>di</strong>stribuzione normale. Cioè, come si <strong>di</strong>ce, abbiamo il<br />

problema <strong>di</strong> valutare la bontà <strong>di</strong> adattamento <strong>de</strong>l mo<strong>de</strong>llo normale ad<br />

un insieme <strong>di</strong> dati. Si possono adottare due <strong>di</strong>versi approcci esplorativi,<br />

<strong>di</strong> carattere <strong>de</strong>scrittivo:<br />

(1) Il confronto tra le caratteristiche <strong>de</strong>i dati e le proprietà <strong>di</strong> una<br />

eventuale <strong>di</strong>stribuzione normale sottostante.<br />

(2) la costruzione <strong>di</strong> un normality plot.<br />

Esaminiamo separatamente i due casi prece<strong>de</strong>nti:<br />

(1) Verifica <strong>de</strong>lla normalità <strong>di</strong> un insieme <strong>di</strong> dati me<strong>di</strong>ante confronto<br />

tra le caratteristiche <strong>de</strong>i dati e le proprietà <strong>di</strong> una <strong>di</strong>stribuzione<br />

normale.<br />

(a) Per dati in numero abbastanza basso si rappresenta il <strong>di</strong>agramma<br />

scatola e baffi. Per dati in numero notevole si <strong>de</strong>termina<br />

la tabella <strong>de</strong>lle frequenze e si costruisce l’areogramma (o<br />

l’istogramma) con intervalli <strong>di</strong> base <strong>di</strong> uguale ampiezza.<br />

(b) Si <strong>de</strong>terminano la me<strong>di</strong>a aritmetica, la moda, la me<strong>di</strong>ana,<br />

il midrange e la me<strong>di</strong>a interquartile <strong>de</strong>i dati e si verifica la<br />

coinci<strong>de</strong>nza <strong>di</strong> queste cinque misure <strong>di</strong> sintesi.<br />

(c) Si ricavano il range interquartile e lo scarto quadratico me<strong>di</strong>o<br />

e si verifica quanto accuratamente il range inerquartile può<br />

essere approssimato da 1.33σ = 4<br />

3 σ.<br />

(d) Si calcola il range e si verifica se coinci<strong>de</strong> approssimativamente<br />

con un intervallo <strong>di</strong> ampiezza 6σ centrato sulla me<strong>di</strong>a.<br />

(e) Si controlla se circa i 2/3 <strong>de</strong>lle osservazioni sono comprese<br />

nell’intervallo [µ − σ, µ + σ].


14. VERIFICA DELL’IPOTESI DI NORMALITÀ 51<br />

(f) Si controlla se circa i 4/5 <strong>de</strong>lle osservazioni sono comprese<br />

nell’intervallo [µ − 1.28σ, µ + 1.28σ].<br />

(g) si controlla se circa i 19/20 <strong>de</strong>lle osservazioni sono comprese<br />

nell’intervallo [µ − 2σ, µ + 2σ]<br />

Diamo ora una spiegazione <strong>di</strong> questo modo <strong>di</strong> proce<strong>de</strong>re analizzando<br />

separatamente i vari punti.<br />

(a) Serve a controllare che la <strong>di</strong>stribuzione <strong>de</strong>i dati sia simmetrica<br />

e, nel caso <strong>di</strong> un numero alto <strong>de</strong>i dati, abbia una forma a<br />

campana.<br />

(b) Sappiamo che se una variabile aleatoria X è normalmente<br />

<strong>di</strong>stribuita, allora, sull’intera popolazione, me<strong>di</strong>a, me<strong>di</strong>ana,<br />

moda, midrange e me<strong>di</strong>a interquartile coincidono. Ciò <strong>de</strong>ve<br />

avvenire (approssimativamente) per il campione <strong>di</strong> dati<br />

raccolto.<br />

(c) Sappiamo che se X segue la legge <strong>di</strong> <strong>di</strong>stribuzione normale,<br />

allora il 50 % <strong>de</strong>i dati sull’intera popolazione è compreso tra<br />

il primo ed il terzo quartile. Valutiamo t tale che P (Z < t) =<br />

0.75. Dalla tabella leggiamo:<br />

P (Z < 0.67) = 0.7486 P (Z < 0.68) = 0.7517<br />

Sfruttando il proce<strong>di</strong>mento <strong>di</strong> interpolazione lineare si ottiene<br />

che<br />

0.67 +<br />

0.75 − 0.7486<br />

(0.68 − 0.67) = 0.6745.<br />

0.7517 − 0.7486<br />

Per la variabile aleatoria X, la cui variabile standar<strong>di</strong>zzata è<br />

Z, si ha X = σZ + µ e quin<strong>di</strong> per il range interquartile si ha<br />

Q3 − Q1 = 0.6745σ + µ − (−0.6745σ + µ) = 1.349σ ∼ 4<br />

3 σ.<br />

(d) Se X segue la legge <strong>di</strong> <strong>di</strong>stribuzione normale sappiamo che il<br />

99.7 % <strong>de</strong>i dati <strong>de</strong>ll’intera popolazione è compreso nell’intervallo<br />

[µ − 3σ, µ + 3σ], cioè quasi tutti i dati cadono in questo<br />

intervallo. Relativamente al campione che pren<strong>di</strong>amo in consi<strong>de</strong>razione<br />

il range dovrà dunque essere circa µ+3σ−(µ−3σ) =<br />

6σ.<br />

(e) Se X segue la legge <strong>di</strong> <strong>di</strong>stribuzione normale il 67–68 % <strong>de</strong>i<br />

dati sull’intera popolazione ca<strong>de</strong> nell’intervallo [µ − σ, µ + σ].<br />

Quin<strong>di</strong>, relativamente al campione che pren<strong>di</strong>amo in consi<strong>de</strong>razione<br />

ci aspettiamo che circa i 2/3 ∼ 67% <strong>de</strong>lle osservazioni<br />

cadano nel sud<strong>de</strong>tto intervallo.


52<br />

(f) Osserviamo che 4/5 = 0.8 = 80%, cerchiamo un t tale che<br />

l’80% <strong>de</strong>i dati cada nell’intervallo [−t, t]. Allora cerchiamo t<br />

tale che P (Z < t) = 90% = 0.9. dalla tabella si ottiene<br />

P (Z < 1.28) = 0.8997 P (Z < 1.29) = 0.9015.<br />

Proce<strong>de</strong>ndo nuovamente per interpolazione lineare si ha<br />

0.9 − 0.8997<br />

t = 1.28 (1.29 − 1.28) = 1281667 ∼ 1.28.<br />

0.9015 − 0.8997<br />

Perciò l’80% <strong>de</strong>i dati <strong>de</strong>lla variabile standard Z ca<strong>de</strong> nell’intervallo<br />

[−1.28, 1.28]. Tenendo conto che X = σZ + µ, l’80%<br />

<strong>de</strong>i dati ca<strong>de</strong> nell’intervallo [µ − 1.28σ, µ + 1.28σ].<br />

(g) Sappiamo che nell’intervallo [µ − 2σ, µ + σ] ca<strong>de</strong> circa il 95%<br />

<strong>de</strong>i dati e 19/20 = 95%.<br />

Esercizio 4. Consi<strong>de</strong>riamo i <strong>25</strong> dati raccolti nella tabella 6 e<br />

stabiliamo se i dati stessi sono approssimativamente <strong>di</strong>stribuiti secondo<br />

una <strong>di</strong>stribuzione normale confrontando le proprietà teoriche <strong>de</strong>lla<br />

<strong>di</strong>stribuzione normale con le caratteristiche <strong>de</strong>i dati.<br />

Tabella 6<br />

valore frequenza<br />

40 1<br />

50 2<br />

70 2<br />

80 2<br />

90 1<br />

100 6<br />

110 2<br />

120 2<br />

130 1<br />

140 2<br />

150 1<br />

160 2<br />

200 1<br />

Soluzione. Determiniamo i 5 numeri <strong>di</strong> sintesi:<br />

xmin = 40 xmax = 200.<br />

Per <strong>de</strong>terminare Q1 consi<strong>de</strong>riamo 1 + (n − 1)/4 = 1 + (<strong>25</strong> − 1)/4 = 7<br />

pertanto, dopo aver or<strong>di</strong>nato i dati, si ha che il settimo dato vale 80,<br />

quin<strong>di</strong><br />

Q1 = 80.


14. VERIFICA DELL’IPOTESI DI NORMALITÀ 53<br />

Per calcolare Q3 consi<strong>de</strong>riamo 1 + 3(n − 1)/4 = 1 + 3(<strong>25</strong> − 1)/4 = 19<br />

pertanto<br />

Q3 = 130.<br />

40 80<br />

100<br />

130 200<br />

50 100 150 200<br />

Figura 28. Diagramma “scatola e baffi” ed istogramma,<br />

<strong>de</strong>i dati <strong>de</strong>lla Tabella 6, raffrontati con la gaussiana<br />

<strong>di</strong> eguale me<strong>di</strong>a ed uguale scarto quadratico<br />

me<strong>di</strong>o.<br />

La me<strong>di</strong>ana coinci<strong>de</strong> con il 13-esimo elemento<br />

Riassumendo:<br />

me<strong>di</strong>ana = 100.<br />

xmin = 40, Q1 = 80, me<strong>di</strong>ana = 100, Q3 = 130, xmax = 200.<br />

Nella figura 28 abbiamo tracciato il grafico <strong>de</strong>lla scatola e baffi <strong>de</strong>i<br />

nostri dati ed un confronto fra la curva <strong>de</strong>lla <strong>di</strong>stribuzione normale e<br />

la <strong>di</strong>stribuzione <strong>de</strong>i dati stessi.<br />

La <strong>di</strong>stribuzione <strong>de</strong>i dati non è simmetrica: la <strong>di</strong>stanza xmax −Q3 =<br />

65 è maggiore <strong>de</strong>lla <strong>di</strong>stanza Q1 − xmin = 40.<br />

La me<strong>di</strong>ana vale 100, la me<strong>di</strong>a interquartile vale (Q1 + Q3)/2 = 105<br />

ed il midrange vale (xmax + xmin)/2 = 120. Cioè la me<strong>di</strong>ana e la<br />

me<strong>di</strong>a interquartile sono più piccole <strong>de</strong>l midrange. Si tratta <strong>di</strong> una<br />

<strong>di</strong>stribuzione obliqua a <strong>de</strong>stra.


54<br />

Tabella 7<br />

n. dati n. dati n. dati n. dati<br />

1 5.80 7 8.83 13 10.09 19 11.84<br />

2 6.68 8 8.86 14 10.29 20 12.09<br />

3 7.33 9 8.89 15 10.64 21 12.56<br />

4 7.74 10 9.15 16 10.80 22 12.78<br />

5 7.95 11 9.48 17 10.88 23 13.95<br />

6 8.28 12 9.93 18 10.89 24 15.98<br />

Esercizio 5. Consi<strong>de</strong>riamo i dati <strong>de</strong>lla tabella 7.<br />

Costruiamo sia l’istogramma che il <strong>di</strong>agramma scatola e baffi, riportati<br />

nella figura 29.<br />

0 2 4 6 8<br />

5.80 8.69<br />

10.01<br />

11.13 15.98<br />

6 8 10 12 14 16<br />

Figura 29. Diagramma “scatola e baffi” ed areogramma,<br />

<strong>de</strong>i dati <strong>de</strong>lla Tabella 7, raffrontati con la gaussiana<br />

<strong>di</strong> eguale me<strong>di</strong>a ed uguale scarto quadratico<br />

me<strong>di</strong>o.<br />

Calcoliamo i cinque numeri <strong>di</strong> sintesi:<br />

xmin = 5.80, Q1 = 8.69, me<strong>di</strong>ana = 10.01, Q3 = 11.13, xmax = 15.98.


Si hanno inoltre:<br />

14. VERIFICA DELL’IPOTESI DI NORMALITÀ 55<br />

Q1 − xmin = 2.89<br />

xmax − Q3 = 4.85<br />

me<strong>di</strong>a = 10.07<br />

Q1 + Q3<br />

2<br />

xmax + xmin<br />

2<br />

= 9.91<br />

= 10.89<br />

La <strong>di</strong>stribuzione <strong>de</strong>i dati ha una leggera coda a <strong>de</strong>stra, però abbiamo<br />

una sostanziale coinci<strong>de</strong>nza <strong>di</strong>: me<strong>di</strong>ana, me<strong>di</strong>a, midrange, me<strong>di</strong>a<br />

interquartile. Inoltre, dall’istogramma si nota un ad<strong>de</strong>nsamento <strong>de</strong>i<br />

dati verso il centro.<br />

Verifico le altre ipotesi <strong>di</strong> normalità:<br />

• (a) e (b) sono verificate.<br />

• Lo scarto quadratico me<strong>di</strong>o risulta σ ∼ 2.37 e quin<strong>di</strong> si ha che<br />

1.33σ = 3.15 e il range interquartile, che vale Q3 − Q1 = 3.44,<br />

sono circa uguali.<br />

• 6σ = 14.22 ed il range=10.18.<br />

• Nell’intervallo [µ − σ, µ + σ] = [7.70, 12.44] cadono 17 dati su<br />

24, cioè 17/24 ∼ 0.71 ∼ 70% che è molto vicino al 67–68%<br />

<strong>de</strong>lla <strong>di</strong>stribuzione normale.<br />

• Nell’intervallo [µ − 1.28σ, µ + 1.28σ] = [7.04, 13.10] cadono 20<br />

dati su 24, cioè 20/24 ∼ 0.83 che è molto vicino all’80% <strong>de</strong>lla<br />

<strong>di</strong>stribuzione normale.<br />

• Nell’intervallo [µ−2σ, µ+2σ] = [5.33, 14.81] cadono 22 dati su<br />

24, cioè 22/24 ∼ 0.92 ∼ 92% che è molto vicino al 95% <strong>de</strong>lla<br />

<strong>di</strong>stribuzione normale.<br />

Confrontando le proprietà teoriche <strong>de</strong>lla <strong>di</strong>stribuzione normale con<br />

le caratteristiche <strong>de</strong>i dati, conclu<strong>di</strong>amo che per la variabile aleatoria<br />

X, alla quale i dati si riferiscono, possiamo conclu<strong>de</strong>re che X segue un<br />

mo<strong>de</strong>llo abbastanza vicino alla <strong>di</strong>stribuzione normale.<br />

(2) Verifica <strong>de</strong>lle ipotesi <strong>di</strong> normalità me<strong>di</strong>ante la costruzione <strong>di</strong> un<br />

normality plot.<br />

Per consi<strong>de</strong>rare l’approccio <strong>di</strong> valutazione <strong>de</strong>lle ipotesi me<strong>di</strong>ante un<br />

normality plot dobbiamo introdurre il concetto <strong>di</strong> quantile. Questo<br />

concetto generalizza il concetto <strong>di</strong> quartile (che abbiamo già consi<strong>de</strong>rato).<br />

I quartili sono misure <strong>de</strong>scrittive che <strong>di</strong>vidono i dati or<strong>di</strong>nati in<br />

4 parti, i <strong>de</strong>cili sono misure <strong>de</strong>scrittive che <strong>di</strong>vidono i dati or<strong>di</strong>nati in<br />

10 parti, i percentili li <strong>di</strong>vidono in 100 parti. Quartili, <strong>de</strong>cili, percentili<br />

sono una categoria particolare <strong>di</strong> quantili. Ovvero:<br />

Definizione 14.1. Si <strong>di</strong>cono quantili le misure <strong>de</strong>scrittive che <strong>di</strong>vidono<br />

l’insieme or<strong>di</strong>nato <strong>de</strong>i dati in un numero fissato n <strong>di</strong> parti.


56<br />

Un normality plot <strong>di</strong> N osservazioni x1 ≤ x2 ≤ · · · ≤ xN è un<br />

grafico a due <strong>di</strong>mensioni costituito da N punti tali che l’or<strong>di</strong>nata <strong>de</strong>ll’iesimo<br />

punto sia xi e l’ascissa sia il quantile <strong>di</strong> valore i/(N + 1) per<br />

la <strong>di</strong>stribuzione normale standar<strong>di</strong>zzata. In altre parole, l’ascissa Oi<br />

<strong>de</strong>ll’i-esimo punto <strong>de</strong>l normality plot è il valore per il quale P (Z <<br />

Oi) = i/(N + 1). Si veda in proposito la figura sotto.<br />

Area= 1<br />

N+1<br />

Area= 1<br />

N+1<br />

O1 O2 ON<br />

Figura 30. Quantili<br />

Se i punti <strong>de</strong>l grafico si trovano, abbastanza vicino, ad una retta<br />

uscente dall’origine ed inclinata positivamente, allora possiamo affermare<br />

che i dati osservati si <strong>di</strong>stribuiscono approssimativamente secondo<br />

la legge normale.<br />

Riassumendo, il proce<strong>di</strong>mento per costruire un normality plot è il<br />

seguente:<br />

(1) Si or<strong>di</strong>nano in modo non <strong>de</strong>crescente i dati.<br />

(2) Si <strong>de</strong>termina per ogni dato il relativo quantile <strong>de</strong>lla <strong>di</strong>stribuzione<br />

normale standar<strong>di</strong>zzata, cioè i quantili normali standar<strong>di</strong>zzati.<br />

(3) Si costruisce un grafico (<strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione) avente <strong>de</strong>i<br />

punti con or<strong>di</strong>nata il valore <strong>de</strong>ll’i-esimo dato ed ascissa il valore<br />

<strong>de</strong>ll’i-iesimo quantile normale standar<strong>di</strong>zzato.<br />

(4) Si verifica l’ipotesi <strong>di</strong> normalità controllando se i punti <strong>de</strong>l<br />

<strong>di</strong>agramma si trovano approssimativamente allineati.<br />

Esempio 14.1. Ripren<strong>di</strong>amo l’esempio <strong>de</strong>l ren<strong>di</strong>mento <strong>de</strong>i 17 fon<strong>di</strong>,<br />

già ampiamente utilizzato, or<strong>di</strong>niamo i ren<strong>di</strong>menti in or<strong>di</strong>ne non <strong>de</strong>crescente<br />

e calcoliamo per ciascuno <strong>di</strong> essi, me<strong>di</strong>ante la tabella riportata<br />

in appen<strong>di</strong>ce, i relativi quantili.<br />

Nella tabella 8 abbiamo riportato i dati <strong>de</strong>ll’Esempio 4.2, ed i<br />

relativi quantili.


14. VERIFICA DELL’IPOTESI DI NORMALITÀ 57<br />

Tabella 8. Raffronto <strong>de</strong>i quantili <strong>de</strong>i ren<strong>di</strong>menti <strong>de</strong>i 17<br />

fon<strong>di</strong> (Esempio 4.2 <strong>di</strong> pagina 23) con quelli <strong>de</strong>lla<br />

gaussiana<br />

ren<strong>di</strong>mento probabilità quantile<br />

10.0 1/18 -1.59<br />

20.6 2/18 -1.22<br />

28.6 3/18 -0.97<br />

28.6 4/18 -0.76<br />

29.4 5/18 -0.59<br />

29.5 6/18 -0.43<br />

29.9 7/18 -0.28<br />

30.1 8/18 -0.14<br />

30.5 9/18 0.00<br />

30.5 10/18 0.14<br />

32.1 11/18 0.28<br />

32.2 12/18 0.43<br />

32.4 13/18 0.59<br />

33.0 14/18 0.76<br />

35.2 15/18 0.97<br />

37.1 16/18 1.22<br />

38.0 17/18 1.59<br />

Per mostrare come si calcola l’ultima colonna, a titolo <strong>di</strong> esempio,<br />

ricaviamo il quantile relativo al terzo dato: dobbiamo trovare O3 tale<br />

che P (Z < O3) = 3/18; poché 3/18 < 0.5 e nella tabella in appen<strong>di</strong>ce<br />

ho solo valori positivi, cerchiamo O ∗ 3 tale che P (Z < O ∗ 3) = 1 − 3/18 =<br />

15/18 = 0.8333. Si trova O ∗ 3 = 0.97 e quin<strong>di</strong> O3 = −0.97.<br />

Nella figura 31 abbiamo tracciamo il normality plot che se ne ricava<br />

e vi abbiamo sovrapposto la retta che meglio ne approssima l’adattamento<br />

ad una <strong>di</strong>stribuzione normale.<br />

La costruzione <strong>de</strong>l normality plot ci aiuta a capire la forma <strong>de</strong>lla<br />

<strong>di</strong>stribuzione <strong>de</strong>i dati e non solo a verificare l’ipotesi <strong>di</strong> <strong>di</strong>stribuzione<br />

normale.<br />

Ad esempio, un normality plot, simile a quello <strong>de</strong>l primo <strong>di</strong>agramma<br />

<strong>de</strong>lla figura seguente, con la parte iniziale più inclinata <strong>de</strong>lla parte<br />

finale (concavo verso il basso) è caratteristico <strong>di</strong> una <strong>di</strong>stribuzione <strong>di</strong><br />

dati obliqua a sinistra. In esso si osserva che in corrispon<strong>de</strong>nza <strong>de</strong>i primi<br />

quantili il grafico <strong>de</strong>l normality plot si trova abbastanza al <strong>di</strong> sotto<br />

<strong>de</strong>lla retta tratteggiata che rappresenta la <strong>di</strong>stribuzione normale che<br />

meglio si adatta ai nostri dati. Una ulteriore conferma <strong>di</strong> ciò si ottiene


58<br />

10 20 30<br />

−1.5 −0.5 0.5 1.0 1.5<br />

Figura 31. Normality plot, ricavato dai dati <strong>de</strong>lla<br />

Tabella 8.<br />

dall’areogramma tratto dai nostri dati sul quale abbiamo sovrapposto<br />

il grafico <strong>de</strong>lla <strong>di</strong>stribuzione normale che meglio ne approssima l’andamento.<br />

Nei due <strong>di</strong>agrammi seguenti illustriamo una <strong>di</strong>stribuzione obliqua<br />

a sinistra e una obliqua a <strong>de</strong>stra, che presentano comportamenti<br />

opposti.<br />

−20 20 60<br />

0 40 80<br />

−2 −1 0 1 2<br />

−2 −1 0 1 2<br />

Figura 32. Illustrazione <strong>di</strong> due normality plot e <strong>de</strong>gli<br />

areogrammi <strong>de</strong>i dati da cui sono stati ottenuti, sui quali<br />

abbiamo sovrapposto la gaussiana che dà il migliore<br />

adattamento.<br />

Osserviamo infine che se l’andamento <strong>de</strong>l normality plot ha forma<br />

ad S, come nella figura 33, siamo in presenza <strong>di</strong> una <strong>di</strong>stribuzione <strong>de</strong>i<br />

dati abbastanza simmetrica rispetto alla me<strong>di</strong>a cosa che viene anche<br />

confermata dal confronto <strong>de</strong>ll’areogramma a fianco ricavato dai nostri<br />

dati con il grafico <strong>de</strong>lla <strong>di</strong>stribuzione normale che meglio li approssima.


−20 40 80<br />

15. INTRODUZIONE ALL’INFERENZA STATISTICA 59<br />

−2 −1 0 1 2<br />

Figura 33. Esempio <strong>di</strong> normality plot per una<br />

<strong>di</strong>stribuzione <strong>di</strong> dati abbastanza simmetrica.<br />

15. Introduzione all’inferenza statistica<br />

Uno <strong>de</strong>gli scopi principali <strong>de</strong>ll’analisi <strong>de</strong>i dati consiste nell’uso <strong>de</strong>lle<br />

statistiche per stimare i parametri <strong>de</strong>ll’intera popolazione.<br />

Quando si fa inferenza statistica si esaminano i dati su campioni<br />

allo scopo <strong>di</strong> trarre consi<strong>de</strong>razioni sull’intera popolazione.<br />

In via ipotetica, per usare le statistiche campionarie con lo scopo <strong>di</strong><br />

stimare i parametri <strong>de</strong>ll’intera popolazione dovremmo analizzare tutti<br />

i possibili campioni che da questa possono essere estratti, nella pratica<br />

da una popolazione viene estratto a caso un solo campione <strong>di</strong> ampiezza<br />

prestabilita.<br />

L’estrazione <strong>di</strong> un campione da una intera popolazione può avvenire<br />

in due mo<strong>di</strong>:<br />

• con reimmissione;<br />

• senza reimmissione.<br />

Con reimmissione significa che si estrae un in<strong>di</strong>viduo <strong>de</strong>lla popolazione,<br />

lo si analizza, e lo si reintroduce nella popolazione prima <strong>di</strong> estrarre<br />

l’in<strong>di</strong>viduo successivo. Senza reimmissione significa invece che una volta<br />

estratto un in<strong>di</strong>viduo, questo non viene reinserito nella popolazione<br />

ma si proce<strong>de</strong> all’estrazione <strong>de</strong>ll’in<strong>di</strong>viduo successivo tra quelli rimasti.<br />

Osserviamo che se N è il numero <strong>di</strong> in<strong>di</strong>vidui che costituiscono l’intera<br />

popolazione, ed n è l’ampiezza <strong>de</strong>l campione che si seleziona per<br />

l’analisi, allora i possibili campioni <strong>di</strong> ampiezza n ottenuti con reimmissione<br />

sono N n , mentre i possibili campioni <strong>di</strong> ampiezza n ottenuti<br />

senza reimmissione sono:<br />

N!<br />

(N − n)! .<br />

Ve<strong>di</strong>amo perché. Se si estrae un campione con reimmissione, ogni<br />

volta che si sceglie un elemento <strong>de</strong>l campione si hanno N possibilità <strong>di</strong><br />

scelta, quin<strong>di</strong>, in tutto si hanno<br />

N · N . . . N · N<br />

= N<br />

n−volte<br />

n


60<br />

campioni. Ad esempio, supponiamo che l’intera popolazione sia costituita<br />

dalle lettere A, B e C e si vogliano trovare tutti i campioni<br />

costituiti da due lettere, questi campioni sono:<br />

A, A A, B A,C B, A B, B B,C C, A C, B C,C.<br />

Se si estrae senza reimmissione si hanno N possibilità quando si estrae<br />

il primo elemento <strong>de</strong>l campione, N − 1 quando si estrae il secondo, . . . ,<br />

N − n + 1 quando si estrae l’n-esimo elemento <strong>de</strong>l campione. Pertanto<br />

i campioni ottenuti sono:<br />

N · (N − 1) . . . (N − n + 1) =<br />

N!<br />

(N − n)! .<br />

Ritornando all’esempio prece<strong>de</strong>nte i possibili campioni <strong>di</strong> ampiezza 2<br />

senza reimmissione sono:<br />

A, B A,C B, A B,C C, A C, B.<br />

Cioè sono 6<br />

3! 1 · 2 · 3<br />

= = 6.<br />

(3 − 2)! 1<br />

Solitamente gli elementi da inclu<strong>de</strong>re in un campione sono selezionati<br />

me<strong>di</strong>ante una procedura random, ovvero me<strong>di</strong>ante la generazione <strong>di</strong><br />

numeri casuali. Cioè, se si vuole scegliere con reimmissione un campione<br />

<strong>di</strong> ampiezza n da una popolazione <strong>di</strong> N in<strong>di</strong>vidui, si generano n<br />

numeri casuali compresi tra 1 ed n (ad esempio con un calcolatore) e<br />

si pescano gli in<strong>di</strong>vidui che, dopo avere or<strong>di</strong>nato la popolazione, occupano<br />

la posizione in<strong>di</strong>cata da questi numeri. Ad esempio se si vuole<br />

estrarre un campione <strong>di</strong> ampiezza 6 nella popolazione costituita dalle<br />

partite <strong>di</strong> latte portate ogni giorno in un caseificio, se supponiamo che<br />

gli allavatori siano 70 si generano casualmente 6 numeri da 1 a 70, se<br />

questi fossero i numeri: 5,8,70,52,43,52, allora verrebbero analizzate le<br />

partite <strong>di</strong> latte che arrivano al caseificio per 5 o , per 8 o , per 43 o , per 52 o ,<br />

<strong>di</strong> nuovo per 52 o e per 70 o .<br />

Supponiamo che da una popolazione <strong>di</strong> ampiezza N vengano estratti<br />

tutti i possibili campioni (solitamente si proce<strong>de</strong> con reimmissione)<br />

<strong>di</strong> ampiezza n. La <strong>di</strong>stribuzione <strong>di</strong> tutti i risultati ottenuti si <strong>di</strong>ce<br />

<strong>di</strong>stribuzione campionaria.<br />

Parliamo ora <strong>de</strong>lla me<strong>di</strong>a <strong>de</strong>lla <strong>di</strong>stribuzione campionaria.<br />

Per ogni campione <strong>di</strong> ampiezza n estratto dalla popolazione valutiamo<br />

il valore assunto dalla variabile aleatoria X che si sta stu<strong>di</strong>ando,<br />

e, su ogni campione, calcoliamo la me<strong>di</strong>a aritmetica, <strong>de</strong>tta appunto<br />

me<strong>di</strong>a campionaria, ed in<strong>di</strong>cata con X.<br />

La me<strong>di</strong>a campionaria go<strong>de</strong> <strong>di</strong> tre importanti proprietà:<br />

(1) è non <strong>di</strong>storta;


15. INTRODUZIONE ALL’INFERENZA STATISTICA 61<br />

(2) è efficiente;<br />

(3) è consistente con la me<strong>di</strong>a <strong>de</strong>lla popolazione.<br />

Ve<strong>di</strong>amo che cosa significano le sud<strong>de</strong>tte tre proprietà:<br />

(1) È non <strong>di</strong>storta.<br />

Vuol <strong>di</strong>re che la me<strong>di</strong>a <strong>di</strong> tutte le possibili me<strong>di</strong>e campionarie (calcolate<br />

a partire da campioni <strong>de</strong>lla stessa ampiezza n) coinci<strong>de</strong> con la me<strong>di</strong>a<br />

<strong>de</strong>ll’intera popolazione. Cioè se µ in<strong>di</strong>ca la me<strong>di</strong>a aritmetica <strong>di</strong> popolazione<br />

<strong>de</strong>lla variabile aleatoria X, e se µ X è la me<strong>di</strong>a <strong>de</strong>lle me<strong>di</strong>e<br />

campionarie calcolata su tutti i possibili campioni <strong>di</strong> ampiezza n, si ha<br />

µ = µ X .<br />

(2) È efficiente.<br />

La me<strong>di</strong>a campionaria, quando la popolazione è normale, è più stabile<br />

da campione a campione <strong>di</strong> quanto non siano le altre misure <strong>di</strong><br />

posizione (campionarie). Cioè in un campione <strong>di</strong> ampiezza n la me<strong>di</strong>a<br />

campionaria sarà più vicina alla me<strong>di</strong>a <strong>de</strong>lla popolazione rispetto alle<br />

altre misure <strong>di</strong> posizione, configurandosi come uno stimatore migliore<br />

<strong>di</strong> µ rispetto a queste.<br />

(3) È consistente.<br />

All’aumentare <strong>de</strong>ll’ampiezza <strong>de</strong>l campione (cioè all’avvicinarsi <strong>di</strong> n ad<br />

N) la <strong>di</strong>stanza tra la me<strong>di</strong>a campionaria e la me<strong>di</strong>a calcolata sull’intera<br />

popolazione si riduce.<br />

Cerchiamo <strong>di</strong> illustrare per via empirica, cioè senza <strong>di</strong>mostrazione<br />

ma con un esempio, la proprietà <strong>di</strong> non <strong>di</strong>storsione.<br />

Supponiamo <strong>di</strong> avere una popolazione costituita da N = 4 in<strong>di</strong>vidui.<br />

Rileviamo per la variabile X i seguenti dati relativi ai quattro<br />

in<strong>di</strong>vidui, che chiameremo: A, B, C e D.<br />

In<strong>di</strong>viduo Valore <strong>di</strong> X<br />

A 3<br />

B 2<br />

C 1<br />

D 4<br />

La me<strong>di</strong>a calcolata sull’intera popolazione è:<br />

µ =<br />

3 + 2 + 1 + 4<br />

4<br />

= 2.5


62<br />

Lo scarto quadratico me<strong>di</strong>o calcolato sull’intera popolazione è:<br />

σ =<br />

(3 − 2.5) 2 + (2 − 2.5) 2 + (1 − 2.5) 2 + (4 − 2.5) 2<br />

4<br />

= 1.12.<br />

Se supponiamo ora <strong>di</strong> estrarre con reimmissione dalla popolazione un<br />

campione <strong>di</strong> n = 2 in<strong>di</strong>vidui otterremo N n = 4 2 = 16 campioni e, per<br />

ciascuno <strong>di</strong> essi, calcoliamo la me<strong>di</strong>a campionaria. La tabella seguente<br />

riassume i risultati ottenuti:<br />

Tabella 9<br />

Campione Risultati Me<strong>di</strong>a<br />

A, A 3, 3 3<br />

A, B 3, 2 2.5<br />

A, C 3, 1 2<br />

A, D 3, 4 3.5<br />

B, A 2, 3 2.5<br />

B, B 2, 2 2<br />

B, C 2, 1 1.5<br />

B, D 2, 4 3<br />

C, A 1, 3 2<br />

C, B 1, 2 1.5<br />

C, C 1, 1 1<br />

C, D 1, 4 2.5<br />

D, A 4, 3 3.5<br />

D, B 4, 2 3<br />

D, C 4, 1 2.5<br />

D, D 4, 4 4<br />

Notiamo che la me<strong>di</strong>a <strong>de</strong>lle me<strong>di</strong>e campionarie coinci<strong>de</strong> con la me<strong>di</strong>a<br />

<strong>de</strong>lla popolazione. (Non c’è <strong>di</strong>storsione.) Nella tabella prece<strong>de</strong>nte si<br />

osserva che le me<strong>di</strong>e campionarie non sono tutte uguali, tuttavia hanno<br />

fluttuazioni minori rispetto alla me<strong>di</strong>a <strong>de</strong>lle fluttuazioni che presentano<br />

i singoli in<strong>di</strong>vidui. Questo perché i i valori estremi <strong>de</strong>i dati registrati<br />

su ogni singolo in<strong>di</strong>viduo <strong>de</strong>ll’intera popolazione contribuiscono a <strong>de</strong>terminare<br />

il valore <strong>de</strong>lla me<strong>di</strong>a con un coefficiente 1/N. Quando invece<br />

si consi<strong>de</strong>ra la <strong>di</strong>stribuzione <strong>de</strong>lle me<strong>di</strong>e campionarie i valori estremi <strong>di</strong><br />

questa sono uguali ai valori estremi presentati dalla variabile aleatoria<br />

sull’intera popolazione ma entrano nel computo <strong>de</strong>lla me<strong>di</strong>a con un<br />

coefficiente <strong>di</strong> 1/N n . Pertanto, le me<strong>di</strong>e campionarie saranno, in generale,<br />

con valori meno <strong>di</strong>spersi rispetto a quelli che si trovano nell’intera<br />

popolazione.


15. INTRODUZIONE ALL’INFERENZA STATISTICA 63<br />

All’aumentare <strong>de</strong>ll’ampiezza <strong>de</strong>l campione, l’influenza <strong>de</strong>l singolo<br />

valore estremo sulla me<strong>di</strong>a campionaria si riduce ulteriormente, per<br />

effetto <strong>de</strong>l numero crescente <strong>di</strong> osservazioni che influiscono sulla me<strong>di</strong>a.<br />

Quin<strong>di</strong>, se si in<strong>di</strong>ca con σ X lo scarto quadratico me<strong>di</strong>o <strong>di</strong> tutte<br />

le possibili me<strong>di</strong>e campionarie (fissata l’ampiezza n <strong>de</strong>l campione) si<br />

ha σ X < σ (dove σ è lo scarto quadratico me<strong>di</strong>o <strong>de</strong>i dati sull’intera<br />

popolazione) e σ X <strong>di</strong>minuisce se si aumenta l’ampiezza n <strong>de</strong>i campioni.<br />

La misura <strong>di</strong> variabilità σ X pren<strong>de</strong> il nome <strong>di</strong> errore standard <strong>de</strong>lla<br />

me<strong>di</strong>a.<br />

In particolare si può <strong>di</strong>mostrare quanto segue: La me<strong>di</strong>a <strong>de</strong>lla <strong>di</strong>stribuzione<br />

campionaria <strong>de</strong>lle me<strong>di</strong>e, <strong>de</strong>notata con µ X , coinci<strong>de</strong> con la<br />

me<strong>di</strong>a µ calcolata sull’intera popolazione; cioè<br />

µ = µ X ,<br />

come già avevamo anticipato nelle pagine prece<strong>de</strong>nti.<br />

Se la popolazione è infinita, o se il campionamento è effettuato con<br />

reimmissione, allora l’errore standard <strong>de</strong>lla me<strong>di</strong>a è legato allo scarto<br />

σ, calcolato sull’intera popolazione, dalla relazione<br />

σ X = σ √ n ,<br />

dove n è l’ampiezza fissata <strong>de</strong>i campioni. Pertanto, al ten<strong>de</strong>re <strong>di</strong> n ad<br />

∞ si ha che σ X ten<strong>de</strong> a zero. In particolare, se aumenta n <strong>di</strong>minuisce<br />

σ X .<br />

Se la gran<strong>de</strong>zza <strong>de</strong>lla popolazione è finita e <strong>di</strong> N elementi, e se il<br />

campionamento è senza reimmissione, la gran<strong>de</strong>zza <strong>de</strong>l campione, n, è<br />

necessariamente n ≤ N e si ha<br />

σ X = σ √ n<br />

N − n<br />

N − 1 .<br />

Si osservi che al crescere <strong>di</strong> N σ X cresce e ten<strong>de</strong> al valore σ<br />

√ n , come<br />

<strong>de</strong>tto in prece<strong>de</strong>nza.<br />

Se la popolazione dalla quale il campione è estratto è <strong>di</strong>stribuita<br />

normalmente con me<strong>di</strong>a µ e scarto quadratico me<strong>di</strong>o σ, allora la me<strong>di</strong>a<br />

campionaria è <strong>di</strong>stribuita normalmente con me<strong>di</strong>a µ e scarto quadratico<br />

me<strong>di</strong>o σ √ . n<br />

Se la popolazione dalla quale il campione viene estratto non è <strong>di</strong>stribuita<br />

normalmente, quando l’ampiezza <strong>de</strong>l campione è “sufficientemente<br />

gran<strong>de</strong>” la <strong>di</strong>stribuzione <strong>de</strong>lla me<strong>di</strong>a campionaria può venire<br />

approssimata dalla <strong>di</strong>stribuzione normale con me<strong>di</strong>a µ (uguale a quella


64<br />

fatta sull’intera popolazione) e scarto quadratico me<strong>di</strong>o σ<br />

√ n , dove σ è<br />

lo scarto quadratico me<strong>di</strong>o sull’intera popolazione ed n l’ampiezza <strong>de</strong>l<br />

campione.<br />

L’affermazione fatta in quest’ultimo punto è nota come Teorema <strong>de</strong>l<br />

limite centrale. Ovviamente non è ben chiaro che cosa significhi “sufficientemente<br />

gran<strong>de</strong>” perchè non abbiamo enunciato il teorema nella<br />

sua forma matematicamente corretta. Poiché ci mancano gli strumenti<br />

matematici per provare quanto affermato, ci limitiamo qui ad una sua<br />

giustificazione approssimativa.<br />

Come regola generale molti sono concor<strong>di</strong> nell’affermare che quando<br />

il campione è <strong>di</strong> almeno 30 osservazioni, la <strong>di</strong>stribuzione <strong>de</strong>lla me<strong>di</strong>a<br />

campionaria si può ritenere con buona approssimazione normale. In<br />

questo caso, “sufficientemente gran<strong>de</strong>” significa che n ≥ 30.<br />

Nel caso che la <strong>di</strong>stribuzione si avvicini un po’ alle caratteristiche<br />

<strong>de</strong>lla <strong>di</strong>stribuzione normale, se ad esempio è simmetrica, allora bastano<br />

campioni <strong>di</strong> solo 15 osservazioni per avere una buona approssimazione<br />

<strong>de</strong>lla <strong>di</strong>stribuzione <strong>de</strong>lla me<strong>di</strong>a campionaria ad una <strong>di</strong>stribuzione<br />

normale.<br />

Se la <strong>di</strong>stribuzione <strong>de</strong>i dati sull’intera popolazione è “molto strana”,<br />

cioè molto lontana da una <strong>di</strong>stribuzione normale allora non bastano<br />

campioni anche <strong>di</strong> 300 osservazioni per avere una <strong>di</strong>stribuzione <strong>de</strong>lla<br />

me<strong>di</strong>a campionaria che si avvicini ad una <strong>di</strong>stribuzione normale.<br />

Esercizi<br />

Esercizio 6. In una azienda alimentare vengono riempite ogni<br />

giorno migliaia <strong>di</strong> scatole <strong>di</strong> biscotti. Il macchinario che provve<strong>de</strong> a<br />

riempire le scatole è pre<strong>di</strong>sposto in modo tale che la quantità <strong>di</strong> biscotti<br />

in una scatola sia <strong>di</strong> 368 grammi. Dall’ esperienza passata ci si<br />

accorge che la <strong>di</strong>stribuzione <strong>de</strong>i pesi <strong>de</strong>i biscotti in ogni scatola segue<br />

una <strong>di</strong>stribuzione normale con me<strong>di</strong>a µ = 368 g e scarto σ = 15g.<br />

Se estraiamo un campione <strong>di</strong> <strong>25</strong> scatole dalle migliaia <strong>di</strong> scatole<br />

prodotte ogni giorno, qual è la probabilità che il campione <strong>di</strong> <strong>25</strong> scatole<br />

abbia un peso me<strong>di</strong>o <strong>de</strong>i biscotti inferiore a 365 g?<br />

Soluzione. La me<strong>di</strong>a campionaria segue una <strong>di</strong>stribuzione normale con<br />

me<strong>di</strong>a µ = 368 g e scarto quadratico me<strong>di</strong>o σ ¯ X = 15/ √ <strong>25</strong>.


15. INTRODUZIONE ALL’INFERENZA STATISTICA 65<br />

La variabile che stiamo consi<strong>de</strong>rando è la me<strong>di</strong>a campionaria ¯ X,<br />

che dobbiamo standar<strong>di</strong>zzare, cioè consi<strong>de</strong>riamo:<br />

Allora<br />

Calcoliamo<br />

Z = ¯ X − µ<br />

σ ¯ X<br />

P ( ¯ X < 365) = P (Z <<br />

365 − 368<br />

15<br />

√ <strong>25</strong><br />

= ¯ X − 368<br />

√15 .<br />

<strong>25</strong><br />

= −3<br />

15<br />

5<br />

365 − 368<br />

√15 ).<br />

<strong>25</strong><br />

= −1.<br />

Ripren<strong>de</strong>ndo la tavola che calcola le aree sottese dalla curva normale<br />

standard, dobbiamo calcolare<br />

P (z < −1) = 0.1587.<br />

Quin<strong>di</strong> la probabilità che la me<strong>di</strong>a campionaria sia inferiore a 365 g. è<br />

<strong>de</strong>l 15 - 16 %.<br />

Si osservi bene che questo non equivale a <strong>di</strong>re che la probabilità<br />

che una singola scatola contenga meno <strong>di</strong> 365 g <strong>di</strong> biscotti è <strong>de</strong>l 15 -<br />

16 %, ma che è la me<strong>di</strong>a, su un campione <strong>di</strong> <strong>25</strong> scatole, che ha una<br />

probabilità <strong>de</strong>l 15 - 16 % <strong>di</strong> essere inferiore a 365 g. La probabilità<br />

che una singola scatola contenga meno <strong>di</strong> 365 g <strong>di</strong> biscotti <strong>de</strong>ve venire<br />

calcolata utilizzando la <strong>di</strong>stribuzione normale, con me<strong>di</strong>a µ = 368 g e<br />

scarto quadratico me<strong>di</strong>o σ = 15 g, cioè (X − 368)/15 e<br />

P (X < 365) = P (Z < −3<br />

) = P (Z < −0.20).<br />

Consultando la tavola otteniamo P (X < 365) = 0.4207. Quin<strong>di</strong> questa<br />

probabilità è molto più alta <strong>di</strong> quella trovata per la me<strong>di</strong>a su campioni<br />

<strong>di</strong> <strong>25</strong> scatole. Questo succe<strong>de</strong> perché le singole me<strong>di</strong>e campionarie sono<br />

meno <strong>di</strong>sperse <strong>de</strong>lle singole misurazioni su ogni in<strong>di</strong>viduo.<br />

Ve<strong>di</strong>amo come cambia l’errore standard <strong>de</strong>lla me<strong>di</strong>a se si passa da<br />

un campione <strong>di</strong> <strong>25</strong> scatole ad un campione <strong>di</strong> 100 scatole. Se n = 100,<br />

si ha<br />

se n = <strong>25</strong> si ha<br />

15<br />

σ¯x = σ<br />

√ 100 = 15<br />

√ 100 = 15<br />

10<br />

σ¯x = σ<br />

√ <strong>25</strong> = 15<br />

5<br />

= 3.<br />

= 1.5,<br />

Con un aumento <strong>de</strong>ll’ampiezza campionaria si ha una minore variabilità<br />

(<strong>di</strong>spersione) <strong>de</strong>lle me<strong>di</strong>e campionarie.<br />

Ciò ci <strong>di</strong>ce che, su un campione <strong>di</strong> 100 scatole, la probabilità che<br />

il peso me<strong>di</strong>o <strong>de</strong>i biscotti <strong>de</strong>lle 100 scatole selezionate sia inferiore a


66<br />

365 g è certamente minore <strong>de</strong>lla probabilità ottenuta consi<strong>de</strong>rando un<br />

campione <strong>di</strong> <strong>25</strong> scatole. Infatti, se ripetiamo l’esercizio <strong>di</strong> prima su un<br />

campione <strong>di</strong> 100 scatole, la me<strong>di</strong>a campionaria segue una <strong>di</strong>stribuzione<br />

normale con µ = 368 g e scarto σ¯x = 15/ √ 100 = 1.5 e troviamo<br />

P ( ¯ X < 365) = P ( ¯ X − µ 365 − 368<br />

< ) = P (Z <<br />

1.5 1.5<br />

−3<br />

) = P (Z < −2) = 0.0228<br />

1.5<br />

cioè la probabilità che il peso me<strong>di</strong>o <strong>de</strong>i biscotti <strong>di</strong> un campione <strong>di</strong> 100<br />

scatole sia inferiore a 365 g è <strong>de</strong>l 2 %.<br />

Esercizio 7. Una popolazione consiste <strong>di</strong> 5 numeri: 2, 3, 6, 8, 11.<br />

Si consi<strong>de</strong>rino tutti i possibili campioni <strong>di</strong> ampiezza 2 che si possono<br />

estrarre dalla popolazione, con reimmissione.<br />

Determinare:<br />

(1) la me<strong>di</strong>a <strong>de</strong>lla popolazione;<br />

(2) lo scarto quadratico me<strong>di</strong>o <strong>de</strong>lla popolazione;<br />

(3) la me<strong>di</strong>a <strong>de</strong>lla <strong>di</strong>stribuzione campionaria <strong>de</strong>lle me<strong>di</strong>e;<br />

(4) l’errore standard <strong>de</strong>lla me<strong>di</strong>a.<br />

Soluzione.<br />

(1). µ = (2 + 3 + 6 + 8 + 11)/5 = 6<br />

(2). σ = ((2 − 6) 2 + (3 − 6) 2 + (6 − 6) 2 + (8 − 6) 2 + (11 − 6) 2 )/5 =<br />

√ 10.8 = 3.29<br />

(3). Ci sono <strong>25</strong> campioni <strong>di</strong> gran<strong>de</strong>zza 2, che hanno le seguenti me<strong>di</strong>e<br />

campionarie:<br />

2, 5 13 5 9 11 9 17 11 19 13 17 19<br />

, 4, 5, , , 3, , , 7, 4, , 6, 7, , 5, , 7, 8, , , 7, , , 11.<br />

2 2 2 2 2 2 2 2 2 2 2 2<br />

Si ottiene µ ¯ X = (somma <strong>di</strong> tutte le me<strong>di</strong>e)/<strong>25</strong> = 150/<strong>25</strong> = 6 ed è<br />

proprio µ.<br />

(4). σ ¯ X = σ/ √ 2 = 3.29/ √ 2. Si può anche calcolare σ ¯ X <strong>di</strong>rettamente e<br />

verificare che risulta 2.32.<br />

Esercizio 8. Un test attitu<strong>di</strong>nale è costruito in modo tale che i<br />

punteggi <strong>de</strong>l test <strong>di</strong>ano me<strong>di</strong>a µ = 90 e scarto σ = 20.<br />

Gli stu<strong>de</strong>nti <strong>di</strong> una scuola sono assegnati casualmente a varie classi<br />

<strong>di</strong> uno stesso corso. In una <strong>di</strong> queste classi, composta da 100 stu<strong>de</strong>nti,<br />

il punteggio me<strong>di</strong>o <strong>de</strong>l test risulta 86.<br />

Se l’assegnazione <strong>de</strong>gli stu<strong>de</strong>nti è casuale, qual è la probabilità <strong>di</strong><br />

ottenere nel test una me<strong>di</strong>a ≤ 86?<br />

Soluzione. Assegnare casualmente i 100 stu<strong>de</strong>nti alla classe vuol <strong>di</strong>re<br />

scegliere un campione <strong>di</strong> ampiezza 100. È un campione sufficientemente<br />

ampio, quin<strong>di</strong> la <strong>di</strong>stribuzione <strong>de</strong>lla me<strong>di</strong>a campionaria <strong>de</strong>i voti


15. INTRODUZIONE ALL’INFERENZA STATISTICA 67<br />

riportati è normale, con me<strong>di</strong>a µ = 90 e σ = 20/ √ 100 = 20/10 = 2.<br />

Quin<strong>di</strong><br />

P ( ¯ X < 86) = P ( ¯ X − 90<br />

2<br />

cioè, posto Z = ( ¯ X − 90)/2, si ha<br />

< 86 − 90<br />

)<br />

2<br />

P (Z < −4<br />

) = P (Z < −2) = 0.0228 = 2%.<br />

2<br />

È un dato molto basso, può venire il dubbio che l’assegnazione non sia<br />

stata casuale.<br />

Abbiamo già <strong>de</strong>tto che la me<strong>di</strong>a campionaria è uno stimatore non<br />

<strong>di</strong>storto <strong>de</strong>lle me<strong>di</strong>a vera µ, calcolata sull’intera popolazione. Cioè:<br />

la me<strong>di</strong>a <strong>di</strong> tutte le me<strong>di</strong>e campionarie ottenute su tutti i possibili<br />

campioni <strong>di</strong> ampiezza n coinci<strong>de</strong> con µ.<br />

Analogamente si può <strong>di</strong>mostrare che anche la varianza campionaria<br />

S 2 =<br />

n<br />

i=1<br />

(xi − ¯ X)<br />

n − 1 ,<br />

ottenuta per un campione <strong>di</strong> ampiezza n <strong>di</strong>vi<strong>de</strong>ndo per n − 1, è uno<br />

stimatore non <strong>di</strong>storto <strong>de</strong>lla varianza vera σ 2 : cioè la me<strong>di</strong>a <strong>di</strong> tutte le<br />

varianze campionarie relative a campioni <strong>di</strong> uguale ampiezza n è σ 2 .<br />

Ovviamente, il valore <strong>de</strong>lla me<strong>di</strong>a campionaria varierà da campione<br />

a campione, perchè <strong>di</strong>pen<strong>de</strong> dagli elementi che vengono selezionati; per<br />

ottenere µ bisognerebbe valutare la me<strong>di</strong>a <strong>di</strong> tutte le me<strong>di</strong>e campionarie.<br />

Nella pratica non si fa così, ma si seleziona un solo campione e si<br />

cerca <strong>di</strong> stimare µ a partire da questo.<br />

Per questo motivo si introduce il concetto <strong>di</strong> stimatore intervallo,<br />

che viene <strong>de</strong>terminato tenendo conto <strong>de</strong>lla <strong>di</strong>stribuzione <strong>de</strong>lla me<strong>di</strong>a<br />

campionaria. Ritorniamo un attimo in<strong>di</strong>etro. Se conosciamo µ e σ,<br />

nel caso in cui X abbia <strong>di</strong>stribuzione normale, sappiamo che anche la<br />

me<strong>di</strong>a campionaria ¯ X segue una <strong>di</strong>stribuzione normale con me<strong>di</strong>a µ e<br />

scarto σ/ √ n, dove n è l’ampiezza <strong>de</strong>l campione.<br />

Dunque, utilizzando la curva normale <strong>di</strong> me<strong>di</strong>a µ e scarto σ/ √ n<br />

possiamo <strong>de</strong>terminare, fissato t ∈ R, la probabilità che un campione <strong>di</strong><br />

n in<strong>di</strong>vidui, selezionati con reimmissione sull’intera popolazione, abbia<br />

me<strong>di</strong>a campionaria compresa nell’intervallo [µ − tσ/ √ n, µ + tσ/ √ n].<br />

Tale probabilità equivale all’area in<strong>di</strong>cata nella figura seguente nella<br />

quale abbiamo tracciato la <strong>di</strong>stribuzione gaussiana <strong>di</strong> me<strong>di</strong>a µ e scarto<br />

quadratico me<strong>di</strong>o σ/ √ n.


68<br />

µ − tσ/ √ n µ µ + tσ/ √ n<br />

Figura 34. Probabilità che un campione <strong>di</strong> n in<strong>di</strong>vidui,<br />

selezionati con reimmissione sull’intera popolazione,<br />

abbia me<strong>di</strong>a campionaria compresa nell’intervallo<br />

[µ − tσ/ √ n, µ + tσ/ √ n]. Nell’ipotesi <strong>di</strong> <strong>di</strong>stribuzione<br />

gaussiana.<br />

Cioè possiamo scrivere che:<br />

P (µ − t σ √ n < ¯ X < µ + t σ √ n )<br />

è l’area sottesa dalla Gaussiana <strong>di</strong> me<strong>di</strong>a µ e scarto σ/ √ n tra µ−tσ/ √ n<br />

e µ + tσ/ √ n. Osserviamo che questa equivale a :<br />

P (−t < ¯ X − µ<br />

σ<br />

√ n<br />

< t)<br />

che è l’area sottesa dalla curva normale standard (me<strong>di</strong>a 0 e scarto 1)<br />

tra -t e t. Inoltre<br />

µ − t σ √ n < ¯ X < µ + t σ √ n<br />

equivale a<br />

Perciò<br />

¯X − t σ √ n < µ < ¯ X + t σ √ n .<br />

P ( ¯ X − t σ √ n < µ < ¯ X + t σ √ n ) = P (−t < Z < t)<br />

dove Z è una variabile standar<strong>di</strong>zzata, ovvero segue la <strong>di</strong>stribuzione<br />

normale standard <strong>di</strong> me<strong>di</strong>a 0 e scarto 1.<br />

Quin<strong>di</strong> se <strong>di</strong> una popolazione conosciamo lo scarto σ, ma non conosciamo<br />

la me<strong>di</strong>a µ, per stimare µ, o meglio per stimare un intervallo in<br />

cui ca<strong>de</strong> µ, possiamo valutare la me<strong>di</strong>a ¯ X su un campione <strong>di</strong> ampiezza<br />

n e <strong>di</strong>re che, con probabilità uguale a P (−t < Z < t), la me<strong>di</strong>a µ ca<strong>de</strong><br />

nell’intervallo [ ¯ X − tσ/ √ n, ¯ X + tσ/ √ n]. Il numero t viene <strong>de</strong>terminato


15. INTRODUZIONE ALL’INFERENZA STATISTICA 69<br />

in base al valore che si vuole avere per P (−t < Z < t). In tal senso si<br />

dà la <strong>de</strong>finizione <strong>di</strong> livello <strong>di</strong> confi<strong>de</strong>nza:<br />

Definizione 15.1. Sia X una variabile aleatoria ed [x1, x2] un intervallo<br />

<strong>di</strong> valori <strong>di</strong> X. Si <strong>di</strong>ce che X ha in [x1, x2] un livello <strong>di</strong> confi<strong>de</strong>nza<br />

<strong>de</strong>l (1 − α)% se tale è l’area sottesa dalla curva <strong>di</strong> <strong>di</strong>stribuzione<br />

<strong>di</strong> X al <strong>di</strong> sopra <strong>di</strong> [x1, x2].<br />

−t<br />

(1 − α)%<strong>de</strong>ll’area totale<br />

Figura 35. Livello <strong>di</strong> confi<strong>de</strong>nza <strong>di</strong> (1 − α)% in [−t, t]<br />

<strong>de</strong>lla curva normale standard.<br />

Pertanto, se vogliamo stimare µ con un livello <strong>di</strong> confi<strong>de</strong>nza <strong>de</strong>l<br />

(1 − α)% (cioè con probabilità (1 − α)%), dobbiamo <strong>de</strong>terminare t in<br />

modo che l’area sottesa dalla normale standard tra -t e t sia pari a 1−α,<br />

ve<strong>di</strong> Figura 35, (quin<strong>di</strong> ciascuna <strong>de</strong>lle due co<strong>de</strong> a <strong>de</strong>stra e a sinistra<br />

come illustrato dalla Figura 36 <strong>de</strong>lla pagina seguente.).<br />

avrà area α<br />

2<br />

α/2 α/2<br />

−t t<br />

Figura 36<br />

t


70<br />

Chiariamo bene questi concetti con un esempio.<br />

Ripren<strong>di</strong>amo l’esempio <strong>de</strong>lla produzione <strong>de</strong>lle scatole <strong>di</strong> biscotti.<br />

Supponiamo <strong>di</strong> sapere che la <strong>di</strong>stribuzione <strong>de</strong>i pesi <strong>de</strong>i biscotti in ogni<br />

scatola segue una normale con me<strong>di</strong>a µ, che non conosciamo, e scarto<br />

σ = 15 g. Preleviamo un campione <strong>di</strong> <strong>25</strong> scatole e vogliamo stimare,<br />

con un livello <strong>di</strong> confi<strong>de</strong>nza <strong>de</strong>l 95 %, la me<strong>di</strong>a vera µ. Sia 362.3 g la<br />

me<strong>di</strong>a <strong>de</strong>i pesi <strong>de</strong>i biscotti <strong>de</strong>lle <strong>25</strong> scatole selezionate. Determiniamo,<br />

allora, il valore t tale che l’area <strong>de</strong>lla normale standard tra −t e t sia<br />

0.95, ve<strong>di</strong>Figura 38 qui sotto.<br />

0.0<strong>25</strong><br />

0.95<br />

−t 0 t<br />

Figura 37<br />

0.0<strong>25</strong><br />

Cioè l’area tra ] − ∞, t[ è <strong>di</strong> 0.975. Dalla tavola otteniamo: t =<br />

1.96. Quin<strong>di</strong> con un livello <strong>di</strong> confi<strong>de</strong>nza (cioè con una probabilità) <strong>de</strong>l<br />

95 %, la me<strong>di</strong>a vera µ è compresa tra :<br />

362.3 − 1.96 15<br />

√ ≤ µ ≤ 362.3 + 1.96<br />

<strong>25</strong> 15<br />

√<br />

<strong>25</strong><br />

cioè 356.42 ≤ µ ≤ 368.18. In realtà dall’esercizio prece<strong>de</strong>nte sappiamo<br />

che µ = 368g e quin<strong>di</strong> effettivamente ca<strong>de</strong> nell’intervallo selezionato.<br />

Selezioniamo ora un altro campione <strong>di</strong> <strong>25</strong> scatole e supponiamo che<br />

su tale campione la me<strong>di</strong>a sia ¯ X = 362.12g. Quin<strong>di</strong>, con un livello <strong>di</strong><br />

confi<strong>de</strong>nza <strong>de</strong>l 95%, la me<strong>di</strong>a µ è compresa tra:<br />

362.12 − 1.96 15<br />

√ ≤ µ ≤ 362.12 + 1.96<br />

<strong>25</strong> 15<br />

√<br />

<strong>25</strong><br />

cioè 356.24 ≤ µ ≤ 368.00. Di nuovo nell’intervallo consi<strong>de</strong>rato ca<strong>de</strong> µ,<br />

che sappiamo essere 368 g.<br />

Supponiamo infine <strong>di</strong> aver selezionato un campione <strong>di</strong> <strong>25</strong> scatole e<br />

<strong>di</strong> avere una me<strong>di</strong>a campionaria <strong>di</strong> 360 g. Con un livello <strong>di</strong> confi<strong>de</strong>nza<br />

<strong>de</strong>l 95 %, la me<strong>di</strong>a µ è compresa tra:<br />

354.12 ≤ µ ≤ 365.88.


15. INTRODUZIONE ALL’INFERENZA STATISTICA 71<br />

In questo caso non abbiamo una informazione corretta, perchè sappiamo<br />

che in realtà µ ca<strong>de</strong> fuori da questo intervallo.<br />

Questo ci fa capire bene il significato <strong>de</strong>lla frase con un livello <strong>di</strong><br />

confi<strong>de</strong>nza <strong>de</strong>l 95 %. Cioè un livello <strong>di</strong> confi<strong>de</strong>nza <strong>de</strong>l 95 % è interpretato<br />

in questo modo: se si consi<strong>de</strong>rano tutti i possibili campioni <strong>di</strong><br />

ampiezza n e per ciascuno si calcolano la me<strong>di</strong>a campionaria e l’intervallo<br />

centrato su questa, il 95 % <strong>de</strong>gli intervalli così ottenuti contiene la<br />

me<strong>di</strong>a <strong>de</strong>lla popolazione e solo il 5 % <strong>di</strong> essi non la compren<strong>de</strong>. Ovvero,<br />

quando selezioniamo un campione e calcoliamo ¯ X, abbiamo una confi<strong>de</strong>nza<br />

(cioè una fiducia) <strong>de</strong>l 95 % <strong>di</strong> aver selezionato un campione a cui<br />

corrispon<strong>de</strong> un intervallo compren<strong>de</strong>nte la me<strong>di</strong>a µ <strong>de</strong>lla popolazione.<br />

L’ultimo esempio dà un intervallo che fa parte <strong>di</strong> quel 5 % <strong>di</strong> intervalli<br />

che non comprendono la me<strong>di</strong>a <strong>de</strong>lla popolazione.<br />

Esercizio 9. Una azienda produce fogli <strong>di</strong> carta per computer. I<br />

fogli <strong>di</strong> carta dovrebbero avere lunghezza me<strong>di</strong>a pari a 33 cm e scarto<br />

quadratico me<strong>di</strong>o 0.06 cm. A intervalli <strong>di</strong> tempo regolari, vengono<br />

estratti <strong>de</strong>i campioni <strong>di</strong> fogli per stabilire se la lunghezza me<strong>di</strong>a è<br />

33 cm oppure se è accaduto qualcosa nel processo produttivo che ha<br />

mo<strong>di</strong>ficato la lunghezza <strong>de</strong>i fogli.<br />

Supponiamo che si estragga un campione <strong>di</strong> 100 fogli e che la lunghezza<br />

me<strong>di</strong>a sia pari a 32.994 cm. Calcolare un intervallo <strong>di</strong> confi<strong>de</strong>nza<br />

<strong>di</strong> livello 95 % per la me<strong>di</strong>a <strong>de</strong>lla lunghezza <strong>de</strong>i fogli <strong>de</strong>lla popolazione.<br />

Soluzione. Un livello <strong>di</strong> confi<strong>de</strong>nza <strong>de</strong>l 95 % corrispon<strong>de</strong> a t = 1.96,<br />

come già visto in prece<strong>de</strong>nza. Quin<strong>di</strong> l’intervallo <strong>di</strong> confi<strong>de</strong>nza risulta<br />

essere:<br />

[32.994 − 1.96 0.06<br />

√ , 32.994 + 1.96<br />

100 0.06<br />

√ ] = [32.98224, 33.00576].<br />

100<br />

Poichè la lunghezza che si vuole tenere è 33, il risultato in<strong>di</strong>ca che il<br />

processo <strong>di</strong> produzione funziona in maniera corretta.<br />

È ovvio che se varia il livello <strong>di</strong> confi<strong>de</strong>nza richiesto, varia anche<br />

l’intervallo.<br />

Ad esempio, nell’esercizio prece<strong>de</strong>nte se vogliamo calcolare l’intervallo<br />

<strong>di</strong> confi<strong>de</strong>nza <strong>di</strong> livello 99 %, allora dobbiamo <strong>de</strong>terminare t in<br />

modo che sia 0.99 l’area sottesa dalla normale standard tra -t e t.<br />

Quin<strong>di</strong> si <strong>de</strong>ve trovare t in modo tale che:<br />

P (Z < t) = 0.995<br />

(ve<strong>di</strong> Figura 38.) Dalla tavola si ricava t = 2.58.<br />

Si ottiene perciò l’intervallo <strong>di</strong> confi<strong>de</strong>nza:<br />

[32.994 − 2.58 0.06<br />

√ 100 , 32.994 + 2.58 0.06<br />

√ 100 ] = [32.97852, 33.00948].


72<br />

0.005<br />

0.99<br />

−t 0 t<br />

Figura 38<br />

0.005<br />

Come si può operare quando si ha una popolazione in cui, non solo la<br />

me<strong>di</strong>a µ, ma anche lo scarto σ non è noto?<br />

Il primo ad affrontare il problema <strong>di</strong> stimare la me<strong>di</strong>a <strong>di</strong> una popolazione<br />

normale, quando σ non è noto, fu William S. Gosset, noto<br />

anche con lo pseudonimo Stu<strong>de</strong>nt. Stu<strong>de</strong>nt utilizza una famiglia <strong>di</strong><br />

funzioni, note come funzioni <strong>di</strong> <strong>di</strong>stribuzione <strong>di</strong> Stu<strong>de</strong>nt, al posto <strong>de</strong>lla<br />

normale standard.<br />

Si ha una funzione <strong>di</strong> <strong>di</strong>stribuzione <strong>di</strong> Stu<strong>de</strong>nt per ogni fissato numero<br />

naturale m, ma <strong>di</strong> fatto si utilizzano solo le prime 30 perché, per<br />

m > 30, tali funzioni <strong>di</strong> <strong>di</strong>stribuzione possono essere ricondotte ad una<br />

normale.<br />

In apparenza le funzioni <strong>di</strong> <strong>di</strong>stribuzione <strong>di</strong> Stu<strong>de</strong>nt hanno una forma<br />

a campana molto simile alla curva normale standard. Tuttavia,<br />

l’area sottesa dalla <strong>di</strong>stribuzione <strong>di</strong> Stu<strong>de</strong>nt sulle co<strong>de</strong> è maggiore <strong>di</strong><br />

quella che caratterizza la <strong>di</strong>stribuzione normale e, viceversa, l’area sottesa<br />

dalla <strong>di</strong>stribuzione <strong>di</strong> Stu<strong>de</strong>nt su intervalli centrali è minore rispetto<br />

a quella corrispon<strong>de</strong>nte alla normale standard. Quando m > 30 le<br />

due funzioni sono sostanzialmente i<strong>de</strong>ntiche. Il parametro m si chiama<br />

il grado <strong>di</strong> libertà <strong>de</strong>lla funzione <strong>di</strong> Stu<strong>de</strong>nt. Se si vuole stimare la<br />

me<strong>di</strong>a <strong>di</strong> una popolazione, calcolando la me<strong>di</strong>a campionaria e lo scarto<br />

quadratico me<strong>di</strong>o su un campione <strong>di</strong> n in<strong>di</strong>vidui, si <strong>de</strong>ve utilizzare la<br />

funzione <strong>di</strong> Stu<strong>de</strong>nt a n-1 gra<strong>di</strong> <strong>di</strong> libertà. Precisamente, se si vuole<br />

stimare con un livello <strong>di</strong> confi<strong>de</strong>nza <strong>de</strong>l (1−α)% l’intervallo in cui ca<strong>de</strong><br />

la me<strong>di</strong>a µ <strong>de</strong>lla popolazione, si utilizza la funzione <strong>di</strong> Stu<strong>de</strong>nt a n − 1<br />

gra<strong>di</strong> <strong>di</strong> libertà e si trova un valore reale t tale che l’area sottesa dalla<br />

<strong>di</strong>stribuzione <strong>di</strong> Stu<strong>de</strong>nt tra −t e t sia (1 − α)% <strong>de</strong>ll’area totale (che è<br />

1).


15. INTRODUZIONE ALL’INFERENZA STATISTICA 73<br />

α/2<br />

(1 − α)<br />

−t 0 t<br />

α/2<br />

Figura 39. Distribuzione <strong>di</strong> Stu<strong>de</strong>nt a n − 1 gra<strong>di</strong> <strong>di</strong><br />

libertà fn−1(x) = Cn−1(1 + x2<br />

n−1 )−1<br />

In<strong>di</strong>viduato t, con un livello <strong>di</strong> confi<strong>de</strong>nza <strong>de</strong>l (1 − α)%, la me<strong>di</strong>a µ<br />

si trova nell’intervallo [ ¯ X − t s<br />

√ n , ¯ X + t s<br />

√ n ], dove ¯ X è la me<strong>di</strong>a calcolata<br />

sul campione <strong>di</strong> ampiezza n e s è lo scarto quadratico me<strong>di</strong>o calcolato<br />

sul campione <strong>di</strong> ampiezza n, cioè:<br />

s =<br />

<br />

n<br />

i=1 ( ¯ X − xi) 2<br />

.<br />

n − 1<br />

Per trovare t, come nel caso <strong>de</strong>lla <strong>di</strong>stribuzione normale si utilizza una<br />

tabella apposita, riportata all’inizio <strong>de</strong>lla pagina seguente.<br />

La tabella si legge in questo modo:<br />

la prima colonna in<strong>di</strong>ca i gra<strong>di</strong> <strong>di</strong> libertà, la prima riga fornisce i<br />

valori α relativi al livello <strong>di</strong> confi<strong>de</strong>nza (1 − α)%.<br />

Quin<strong>di</strong> con la tabella, fissato α e fissata l’ampiezza n <strong>de</strong>l campione,<br />

che corrispon<strong>de</strong> ad n−1 gra<strong>di</strong> <strong>di</strong> libertà, si trova t. Nell’ultima riga, per<br />

m = +∞, si leggono i classici valori relativi alla <strong>di</strong>stribuzione normale<br />

standard.<br />

Esercizio 10. Su una data popolazione si stu<strong>di</strong>a una variabile aleatoria<br />

X con <strong>di</strong>stribuzione normale. Estratto un campione <strong>di</strong> ampiezza<br />

10 si vuole stimare µ con un livello <strong>di</strong> confi<strong>de</strong>nza <strong>de</strong>l 99 %. Raccolti<br />

i dati sul campione, si ottiene una me<strong>di</strong>a campionaria ¯ X = −0.275 e<br />

uno scarto quadratico me<strong>di</strong>o<br />

s =<br />

n<br />

i=1 ( ¯ X − xi) 2<br />

n − 1<br />

= 1.093.<br />

Per stimare µ si usa la funzione <strong>di</strong> Stu<strong>de</strong>nt a 9 gra<strong>di</strong> <strong>di</strong> libertà e in<br />

corrispon<strong>de</strong>nza ad α = 0.01, si trova t = 3.<strong>25</strong>0.


74<br />

Tabella 10. Valori <strong>di</strong> t per la <strong>di</strong>stribuzione <strong>di</strong> Stu<strong>de</strong>nt,<br />

in funzione <strong>de</strong>i gra<strong>di</strong> <strong>di</strong> libertà e <strong>de</strong>l valore <strong>di</strong> α.<br />

α<br />

n-1 0.20 0.10 0.05 0.01 0.001<br />

1 3.078 6.314 12.71 63.66 636.6<br />

2 1.886 2.920 4.303 9.9<strong>25</strong> 31.60<br />

3 1.638 2.353 3.183 5.841 12.92<br />

4 1.533 2.132 2.776 4.604 8.610<br />

5 1.476 2.015 2.571 4.032 6.869<br />

6 1.440 1.943 2.447 3.707 5.959<br />

7 1.415 1.895 2.365 3.499 5.408<br />

8 1.397 1.860 2.306 3.355 5.041<br />

9 1.383 1.833 2.262 3.<strong>25</strong>0 4.781<br />

10 1.372 1.812 2.228 3.169 4.587<br />

15 1.341 1.753 2.131 2.947 4.073<br />

20 1.3<strong>25</strong> 1.7<strong>25</strong> 2.086 2.845 3.850<br />

<strong>25</strong> 1.316 1.708 2.060 2.787 3.7<strong>25</strong><br />

30 1.310 1.697 2.042 2.750 3.646<br />

35 1.306 1.690 2.030 2.724 3.591<br />

40 1.303 1.684 2.021 2.704 3.551<br />

45 1.301 1.679 2.014 2.690 3.520<br />

50 1.299 1.676 2.009 2.678 3.496<br />

60 1.296 1.671 2.000 2.660 3.460<br />

80 1.292 1.664 1.990 2.639 3.416<br />

120 1.289 1.658 1.980 2.617 3.373<br />

240 1.285 1.651 1.970 2.596 3.332<br />

+∞ 1.282 1.645 1.960 2.576 3.291<br />

Quin<strong>di</strong> con un livello <strong>di</strong> fiducia <strong>de</strong>l 99 %, si ha:<br />

µ ∈ [ ¯ X−t s<br />

√ ,<br />

n ¯ X+t s<br />

√ ] = [−0.275−<br />

n (3.<strong>25</strong>)(1.093)<br />

√ , −0.275+<br />

10<br />

(3.<strong>25</strong>)(1.093)<br />

√ ],<br />

10<br />

ovvero µ ∈ [−1.398, 0.848].<br />

Esercizio 11. L’assistenza ai clienti <strong>di</strong> una società <strong>de</strong>l gas inten<strong>de</strong><br />

stimare la durata me<strong>di</strong>a <strong>de</strong>l tempo che intercorre tra la ricezione <strong>di</strong> una<br />

richiesta <strong>di</strong> allacciamento e l’effettivo allacciamento. Viene estratto un<br />

campione <strong>di</strong> 16 case, per cui si ottengono i seguenti risultati in numero<br />

<strong>di</strong> giorni d’attesa:<br />

114 78 96 137 78 103 117 126 86 99 114 72 104 73 86 90.


16. LA CORRELAZIONE 75<br />

Calcolare un intervallo <strong>di</strong> confi<strong>de</strong>nza <strong>di</strong> livello 95 % per stimare la me<strong>di</strong>a<br />

<strong>de</strong>l tempo <strong>di</strong> attesa <strong>de</strong>llo scorso anno.<br />

Quale ipotesi si <strong>de</strong>ve fare sulla <strong>di</strong>stribuzione <strong>de</strong>lla popolazione? La<br />

società ha pubblicizzato che il tempo <strong>di</strong> attesa è <strong>di</strong> 90 giorni. I risultati<br />

ottenuti sono coerenti con questa informazione?<br />

Soluzione. Prima <strong>di</strong> tutto si <strong>de</strong>ve fare una ipotesi <strong>di</strong> normalità sulla<br />

<strong>di</strong>stribuzione <strong>de</strong>i dati e poi si può utilizzare la <strong>di</strong>stribuzione <strong>di</strong> Stu<strong>de</strong>nt<br />

a 15 gra<strong>di</strong> <strong>di</strong> libertà (poichè i dati sono 16) per stimare µ.<br />

Dai dati ottiene ¯ X = 98.31 e s = 19.48. Il valore <strong>di</strong> t che si ottiene<br />

in corrispon<strong>de</strong>nza <strong>di</strong> α = 0.05 e per 15 gra<strong>di</strong> <strong>di</strong> libertà è t = 2.13,<br />

quin<strong>di</strong> µ ∈ [¯x − t s<br />

√ n , ¯x + t s<br />

√ n ], ovvero µ ∈ [87.93, 108.68]. Il valore µ<br />

= 90 ca<strong>de</strong> in questo intervallo. Quanto pubblicizzato dalla società è<br />

coerente.<br />

16. La correlazione<br />

I meto<strong>di</strong> <strong>di</strong>scussi finora sono adatti per lo stu<strong>di</strong>o <strong>di</strong> una variabile<br />

alla volta. Per analizzare le relazioni che intercorrono tra due variabili<br />

servono invece altri strumenti.<br />

Sir Francis Galton (1822, 1911) ottenne consi<strong>de</strong>revoli risultati in<br />

questo campo stu<strong>di</strong>ando fino a che punto ogni figlio somigli al proprio<br />

padre.<br />

Karl Pearson, un allievo <strong>di</strong> Galton, raccolse le altezza <strong>di</strong> 1078 padri<br />

e le altezze <strong>de</strong>i loro figli in età matura. Riportando su <strong>di</strong> un grafico<br />

cartesiano i 1078 dati raccolti si ottengono 1078 coppie: (xi, yi), dove<br />

xi in<strong>di</strong>ca l’altezza <strong>de</strong>l padre ed yi in<strong>di</strong>ca l’altezza <strong>de</strong>l relativo figlio. Si<br />

ottiene così il così <strong>de</strong>tto <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione un esempio <strong>de</strong>l quale<br />

viene riportato nella figura seguente:<br />

Il <strong>di</strong>agramma sopra si presenta come una nuvola <strong>di</strong> punti allungata<br />

secondo una retta inclinata positivamente: al crescere <strong>de</strong>lle ascisse si<br />

osserva la ten<strong>de</strong>nza a crescere <strong>de</strong>lle or<strong>di</strong>nate corrispon<strong>de</strong>nti. In linguaggio<br />

statistico <strong>di</strong>ciamo che c’è una associazione positiva tra l’altezza <strong>de</strong>i<br />

padri e l’altezza <strong>de</strong>i figli. Cioè tanto più alto è il padre, tanto più alto<br />

è il figlio. Esprimendolo in linguaggio non statistico tale padre, tale<br />

figlio.<br />

Osserviamo più da vicino il grafico prece<strong>de</strong>nte. Sul grafico è stata<br />

sovrapposta la retta, rappresentata a trattini, <strong>di</strong> equazione y = x.<br />

Questa retta passa per tutti i punti che rappresentano coppie padrefiglio<br />

con la me<strong>de</strong>sima altezza. Se l’altezza <strong>de</strong>l figlio è maggiore <strong>di</strong><br />

quella <strong>de</strong>l padre, il punto che rappresenta la coppia si troverà al <strong>di</strong><br />

sopra <strong>de</strong>lla retta, se l’altezza <strong>de</strong>l figlio è inferiore a quella <strong>de</strong>l padre, il


76<br />

150 170 190<br />

160 170 180 190<br />

Figura 40. Diagramma <strong>di</strong> <strong>di</strong>spersione e relativa retta<br />

<strong>di</strong> regressione illustrante il legame fra l’altezza <strong>de</strong>i figli e<br />

l’altezza <strong>de</strong>l padre.<br />

punto si troverà al <strong>di</strong> sotto. Il punto poi si troverà tanto più vicino alla<br />

retta quanto minore risulterà la <strong>di</strong>fferenza <strong>de</strong>lle due altezze.<br />

Pur conoscendo l’altezza <strong>de</strong>l padre, quella <strong>de</strong>l figlio presenta una<br />

certa variabilità. Se ci poniamo la domanda se conosciamo l’altezza<br />

<strong>de</strong>l padre possiamo indovinare che altezza avrà il figlio? Ci ren<strong>di</strong>amo<br />

conto che qualsiasi risposta è soggetta ad errore.<br />

Quando esiste una forte associazione tra le variabili, il<br />

fatto <strong>di</strong> conoscere una <strong>di</strong> esse ci fornisce un aiuto per<br />

pre<strong>di</strong>re il valore corrispon<strong>de</strong>nte <strong>de</strong>ll’altra. Se l’associazione<br />

tra le due variabili è <strong>de</strong>bole, le informazioni<br />

su una variabile poco aiutano a pre<strong>di</strong>re l’altra.<br />

Nell’esempio appena citato, abbiamo l’altezza <strong>de</strong>l padre come variabile<br />

in<strong>di</strong>pen<strong>de</strong>nte e quella <strong>de</strong>l figlio come variabile <strong>di</strong>pen<strong>de</strong>nte. Ciò<br />

perché vogliamo spiegare l’altezza <strong>de</strong>l figlio in relazione all’altezza <strong>de</strong>l<br />

padre. Nulla però ci vieta <strong>di</strong> scegliere l’altezza <strong>de</strong>l figlio come variabile<br />

in<strong>di</strong>pen<strong>de</strong>nte e quella <strong>de</strong>l padre come variabile <strong>di</strong>pen<strong>de</strong>nte.<br />

17. Il coefficiente <strong>di</strong> correlazione lineare<br />

Supponiamo <strong>di</strong> voler analizzare la relazione fra due variabili e <strong>di</strong> avere<br />

<strong>di</strong>segnato il relativo <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione. Supponiamo che tale<br />

<strong>di</strong>agramma sia una nuvola <strong>di</strong> punti approssimativamente <strong>de</strong>lla forma<br />

<strong>di</strong> un ellisse.


0 100 200<br />

17. IL COEFFICIENTE DI CORRELAZIONE LINEARE 77<br />

50 100 150<br />

Figura 41. Diagramma <strong>di</strong> <strong>di</strong>spersione <strong>di</strong> due gran<strong>de</strong>zze<br />

con una correlazione lineare positiva.<br />

Come possiamo sintetizzare numericamente questa situazione? Il<br />

primo passo è quello <strong>di</strong> in<strong>di</strong>viduare il punto <strong>de</strong>lle me<strong>di</strong>e, ovvero il punto<br />

<strong>di</strong> coor<strong>di</strong>nate (x, y), dove x è la me<strong>di</strong>a <strong>de</strong>lla variabile aleatoria X che<br />

abbiamo messo sulle ascisse (la variabile in<strong>di</strong>pen<strong>de</strong>nte, l’altezza <strong>de</strong>i<br />

padri), e y è la me<strong>di</strong>a <strong>de</strong>lla variabile aleatoria Y (la variabile aleatoria<br />

che abbiamo posto sulle or<strong>di</strong>nate, le altezze <strong>de</strong>i figli). Il secondo passo<br />

è quello <strong>di</strong> in<strong>di</strong>viduare la <strong>di</strong>spersione <strong>de</strong>lla nuvola <strong>de</strong>i punti nelle due<br />

<strong>di</strong>rezioni (ascisse ed or<strong>di</strong>nate), cioè calcolare lo scarto quadratico me<strong>di</strong>o<br />

σX (o <strong>de</strong>viazione standard) <strong>de</strong>i dati raccolti per la variabile aleatoria<br />

X e calcolare lo scarto quadratico me<strong>di</strong>o σY <strong>de</strong>i dati raccolti per la<br />

variabile aleatoria Y . La maggior parte <strong>de</strong>i punti, per esempio, <strong>di</strong>stano<br />

dal punto <strong>de</strong>lle me<strong>di</strong>e, in orizzontale per meno <strong>di</strong> 2 volte σX, ed in<br />

verticale per meno <strong>di</strong> 2 volte σY .<br />

I valori x, y, σX e σY ci informano sul centro e sulla <strong>di</strong>spersione, in<br />

senso verticale ed orizzontale, <strong>de</strong>lla nuvola <strong>di</strong> punti. Non ci <strong>di</strong>cono nulla<br />

sull’intensità <strong>de</strong>ll’associazione fra le due variabili, a questo proposito<br />

si confrontino le due nuvole <strong>di</strong> punti <strong>de</strong>lle figure seguenti che hanno lo<br />

stesso centro e la stessa <strong>di</strong>spersione sia orizzontale che verticale; è però<br />

chiaro che nella prima figura l’associazione fra le variabili è più forte <strong>di</strong><br />

quanto non sia quella illustrata nella seconda figura.<br />

Per misurare l’intensità <strong>de</strong>ll’associazione lineare è necessaria una<br />

misura <strong>di</strong> sintesi ulteriore, il così <strong>de</strong>tto coefficiente <strong>di</strong> correlazione (lineare),<br />

abitualmente in<strong>di</strong>cato con r (o con ρ). Prima <strong>di</strong> <strong>de</strong>finire il<br />

coefficiente <strong>di</strong> correlazione lineare mostriamo ancora alcuni <strong>di</strong>agrammi<br />

<strong>di</strong> <strong>di</strong>spersione. Consi<strong>de</strong>riamo i quattro <strong>di</strong>agrammi <strong>di</strong> <strong>di</strong>spersione <strong>de</strong>lle<br />

Figura 45 e Figura 46, ciascuno con 50 punti; in ogni <strong>di</strong>agramma<br />

le due variabili hanno la stessa me<strong>di</strong>a x = y = 3 e la stessa <strong>de</strong>viazione<br />

standard σx = σy = 1. Il coefficiente <strong>di</strong> correlazione invece è <strong>di</strong>verso


78<br />

¯y + 2σY<br />

¯y<br />

¯y − 2σY<br />

Y<br />

¯x − 2σX ¯x ¯x − 2σX<br />

Figura 42. Gli elementi principali <strong>di</strong> un grafico <strong>di</strong> <strong>di</strong>spersione.<br />

50 150<br />

50 100 150<br />

Figura 43. Diagramma <strong>di</strong> <strong>di</strong>spersione <strong>di</strong> due variabili<br />

aleatorie con una forte correlazione lineare positiva.<br />

poiché <strong>di</strong>verso è il grado <strong>di</strong> associazione fra le due variabili.<br />

Il primo grafico ha r = 0, la nuvola <strong>di</strong> punti non ha alcuna forma<br />

<strong>de</strong>finita e, all’aumentare <strong>di</strong> X, Y non mostra nessuna ten<strong>de</strong>nza ad<br />

aumentare o a <strong>di</strong>minuire. Il secondo ha r = 0.4 e comincia ad evi<strong>de</strong>nziarsi<br />

l’ad<strong>de</strong>nsamento attorno ad una retta, ten<strong>de</strong>nza che sarà sempre<br />

più marcata all’avvicinarsi <strong>di</strong> r ad 1, come evi<strong>de</strong>nziano i due grafici<br />

successivi ottenuti rispettivamente per r = 0.8 ed r = 0.95.<br />

X


0 2 4 6<br />

0 2 4 6<br />

−50 100 <strong>25</strong>0<br />

17. IL COEFFICIENTE DI CORRELAZIONE LINEARE 79<br />

50 100 150<br />

Figura 44. Diagramma <strong>di</strong> <strong>di</strong>spersione <strong>di</strong> due variabili<br />

aleatorie con una <strong>de</strong>bole correlazione lineare positiva.<br />

0 1 2 3 4 5 6<br />

0 2 4 6<br />

0 1 2 3 4 5 6<br />

Figura 45. Due grafici <strong>di</strong> <strong>di</strong>spersione con coefficienti <strong>di</strong><br />

correlazione lineare <strong>di</strong> 0 e 0.4.<br />

0 1 2 3 4 5 6<br />

0 2 4 6<br />

0 1 2 3 4 5 6<br />

Figura 46. Due grafici <strong>di</strong> <strong>di</strong>spersione con coefficienti <strong>di</strong><br />

correlazione lineare <strong>di</strong> 0.8 e 0.95.<br />

Un coefficiente r pari ad 1 in<strong>di</strong>vidua una relazione i<strong>de</strong>ale (che in<br />

pratica non si verifica) chiamata <strong>di</strong> perfetta correlazione in cui tutti i<br />

punti giacciono sulla stessa retta, in<strong>di</strong>viduando una perfetta relazione


0 2 4 6<br />

80<br />

lineare tra le variabili.<br />

Alcuni stu<strong>di</strong> hanno mostrato che il coefficiente <strong>di</strong> correlazione tra le<br />

altezze <strong>de</strong>i gemelli monovulari è circa pari a 0.95; quin<strong>di</strong> il <strong>di</strong>agramma<br />

<strong>di</strong> <strong>di</strong>spersione <strong>di</strong> questi dati appare come l’ultimo <strong>di</strong>agramma <strong>de</strong>lla<br />

figura sopra. I punti sono molto vicini alla retta y = x perché le altezze<br />

<strong>de</strong>i gemelli tendono ad essere le stesse. Però è chiaro che due gemelli<br />

non avranno esattamente la me<strong>de</strong>sima altezza. I punti che in<strong>di</strong>viduano<br />

la coppia <strong>de</strong>lle due altezze si <strong>di</strong>sperdono leggermente attorno alla retta<br />

<strong>di</strong> equazione y = x.<br />

Come altro esempio consi<strong>de</strong>riamo il confronto fra il coefficiente <strong>di</strong><br />

correlazione che si aveva, nel 1993 negli Stati Uniti, fra il red<strong>di</strong>to e gli<br />

anni <strong>di</strong> istruzione, per le due classi <strong>di</strong> età da 18 a 24 anni, r = 0.15,<br />

e fra 55 e 64 anni, r = 0.45. Osserviamo che l’associazione è più forte<br />

per i soggetti più anziani anche se rimane sempre <strong>de</strong>bole.<br />

Nei due grafici <strong>di</strong> Figura 47 <strong>de</strong>lla pagina seguente, illustriamo i<br />

casi <strong>di</strong> due coefficienti <strong>di</strong> correlazione negativi, r = −0.5 ed r = −0.95.<br />

0 1 2 3 4 5 6<br />

0 2 4 6<br />

0 1 2 3 4 5 6<br />

Figura 47. Due grafici <strong>di</strong> <strong>di</strong>spersione con coefficienti <strong>di</strong><br />

correlazione lineare <strong>di</strong> -0.5 e -0.95.<br />

Un coefficiente <strong>di</strong> correlazione negativo in<strong>di</strong>ca una associazione lineare<br />

negativa, cioè l’ellisse ha una inclinazione negativa ed i punti<br />

tendono ad ad<strong>de</strong>nsarsi lungo una retta con pen<strong>de</strong>nza negativa.<br />

Un coefficiente r = −1 in<strong>di</strong>ca che tutti i punti giacciono esattamente<br />

(cosa impossibile in pratica) su <strong>di</strong> una retta con inclinazione negativa.<br />

Anche se non abbiamo ancora dato un metodo <strong>di</strong> calcolo per il<br />

coefficiente <strong>di</strong> correlazione, però siamo in grado <strong>di</strong> dare la seguente<br />

in<strong>di</strong>cazione:<br />

Il coefficiente <strong>di</strong> correlazione si trova sempre nell’intervallo [−1, 1].<br />

Un valore positivo <strong>di</strong> r in<strong>di</strong>ca che la nuvola <strong>de</strong>i punti si ad<strong>de</strong>nsa attorno<br />

ad una retta con pen<strong>de</strong>nza positiva (al crescere <strong>di</strong> una <strong>de</strong>lle due variabili<br />

si riscontra una ten<strong>de</strong>nza a crescere <strong>de</strong>ll’altra). Un valore negativo


18. LA RETTA DELLE SD 81<br />

<strong>di</strong> r, al contrario, in<strong>di</strong>ca l’ad<strong>de</strong>nsamento attorno ad una retta con pen<strong>de</strong>nza<br />

negativa (al crescere <strong>di</strong> una <strong>de</strong>lle due variabili, l’altra ten<strong>de</strong>rà a<br />

<strong>de</strong>crescere).<br />

Prima <strong>di</strong> ve<strong>de</strong>re come si calcola il coefficiente <strong>di</strong> correlazione parliamo<br />

<strong>de</strong>lla retta SD, cioè <strong>de</strong>lla retta <strong>de</strong>lle <strong>de</strong>viazioni standard (SD sono<br />

le iniziali <strong>de</strong>ll’inglese standard <strong>de</strong>viation).<br />

18. La retta <strong>de</strong>lle SD<br />

Si <strong>de</strong>finisce retta <strong>de</strong>lle SD la retta che passa per il punto <strong>de</strong>lle me<strong>di</strong>e<br />

(x, y) e che contiene tutti i punti la cui ascissa e la cui or<strong>di</strong>nata <strong>di</strong>stano<br />

dalla rispettiva me<strong>di</strong>a per uno stesso multiplo <strong>de</strong>lla corrispon<strong>de</strong>nte <strong>de</strong>viazione<br />

standard. Cioè a seconda che ci sia una correlazione positiva<br />

o negativa tra X ed Y , la retta <strong>de</strong>lle SD contiene i seguenti punti:<br />

(x, y), (x + σX, y + σY ), (x + 2σX, y + 2σY ), . . .<br />

nel caso <strong>di</strong> una correlazione positiva,<br />

(x, y), (x + σX, y − σY ), (x + 2σX, y − 2σY ), . . .<br />

nel caso <strong>di</strong> una correlazione negativa.<br />

y + σY<br />

y<br />

x x + σX<br />

y<br />

y − σY<br />

x x + σX<br />

Figura 48. Le rette <strong>de</strong>lle <strong>de</strong>viazioni standard per coppie<br />

<strong>di</strong> variabili aleatorie a correlazione lineare positiva, a<br />

sinistra, e negativa, a <strong>de</strong>stra.<br />

Nel primo <strong>de</strong>i grafici <strong>di</strong> Figura 48 abbiamo tracciato la retta <strong>de</strong>lle<br />

SD nel caso <strong>di</strong> correlazione positiva, nel secondo abbiamo tracciato la<br />

retta nel caso <strong>di</strong> correlazione negativa.<br />

L’equazione <strong>de</strong>lla retta <strong>de</strong>lle SD con correlazione positiva, 0 < r ≤<br />

1, è:<br />

y − y<br />

y + σY − y =<br />

x − x<br />

x + σX − x<br />

⇒ y − y<br />

σY<br />

= x − x<br />

σX<br />

y = σY<br />

(x − x) + y ⇒ y = σY<br />

x + y − σY<br />

x .<br />

σX<br />

σX<br />

⇒<br />

σX


82<br />

L’equazione <strong>de</strong>lla retta <strong>de</strong>lle SD con correlazione negativa, −1 ≤ r < 0,<br />

è:<br />

y − y<br />

y + σY − y =<br />

x − x y − y x − x<br />

⇒ = − ⇒<br />

x − σX − x σY σX<br />

y = − σY<br />

(x − x) + y ⇒ y = − σY<br />

x + y + σY<br />

x .<br />

σX<br />

Il caso che abbiamo escluso, r = 0 non si verifica praticamente mai,<br />

questo potrebbe soltanto acca<strong>de</strong>re se σX = 0 oppure se σY = 0, ma in<br />

questo caso non si <strong>de</strong>finisce il coefficiente <strong>di</strong> correlazione.<br />

Esercizio 12. Uno stu<strong>di</strong>o relativo agli stu<strong>de</strong>nti maschi <strong>di</strong> un college<br />

rileva che la loro altezza me<strong>di</strong>a è pari a 175 cm con una <strong>de</strong>viazione<br />

standard <strong>di</strong> 7.5 cm. Il peso me<strong>di</strong>o è invece pari a 63.5 kg con una <strong>de</strong>viazione<br />

standard <strong>di</strong> 9 kg. Infine il coefficiente <strong>di</strong> correlazione fra peso<br />

ed altezza è pari a 0.6. Quanto <strong>de</strong>ve pesare uno stu<strong>de</strong>nte alto 182.5 cm<br />

per trovarsi sulla retta <strong>de</strong>lle SD?<br />

Soluzione. In<strong>di</strong>chiamo con X la variabile aleatoria altezza, con Y la<br />

variabile aleatoria peso e poniamo: x = 175 cm, y = 63.5 kg, σX = 7.5<br />

cm, σY = 9 kg ed r = 0.6. Essendo r = 0.6 > 0, l’equazione <strong>de</strong>lla retta<br />

<strong>de</strong>lle SD risulta<br />

y = σY<br />

x + y − σY<br />

x ,<br />

si ha perciò<br />

σX<br />

σX<br />

σX<br />

y = 9 9<br />

x − 175 + 63.5 = 1.2x − 146.5.<br />

7.5 7.5<br />

Pertanto lo stu<strong>de</strong>nte alto 182.5 cm, per trovarsi sulla retta <strong>de</strong>lle SD<br />

<strong>de</strong>ve pesare:<br />

y = 1.2 · 182.5 − 146.5 = 72.5 kg.<br />

Esercizio 13. Usando lo stesso contesto <strong>de</strong>ll’esercizio prece<strong>de</strong>nte,<br />

<strong>di</strong>te quale <strong>di</strong> questi stu<strong>de</strong>nti si trova sulla retta <strong>de</strong>lle SD:<br />

(1) altezza 190 cm, peso 81.5 kg;<br />

(2) altezza 167.5 cm, peso 59 kg;<br />

(3) altezza 167.5 cm, peso 54.5 kg;<br />

Soluzione. Gli stu<strong>de</strong>nti (1) e (3) sono sulla retta <strong>de</strong>lle SD.<br />

σX<br />

19. Calcolo <strong>de</strong>l coefficiente <strong>di</strong> correlazione<br />

Siano x1, x2, . . . , xn i dati raccolti per la variabile aleatoria X<br />

e siano y1, y2, . . . , yn i dati raccolti per la variabile aleatoria Y . Si


19. CALCOLO DEL COEFFICIENTE DI CORRELAZIONE 83<br />

<strong>de</strong>finisce coefficiente <strong>di</strong> correlazione il numero<br />

r =<br />

n xi−x yi−y<br />

i=1 · σX σY<br />

n<br />

Da questa espressione si ha:<br />

r = 1<br />

n xiyi − xiy − xyi + x y<br />

n<br />

σXσY<br />

i=1<br />

= 1 <br />

n<br />

n <br />

n<br />

n<br />

n<br />

xiyi xiy xyi<br />

− − +<br />

σXσY σXσY σXσY<br />

i=1<br />

i=1<br />

i=1<br />

i=1<br />

= 1 <br />

σXσY<br />

n <br />

n<br />

n<br />

xiyi xi yi nx y <br />

− y − x +<br />

n n n n<br />

Se poniamo<br />

si ottiene<br />

= 1<br />

σXσY<br />

= 1<br />

σXσY<br />

i=1<br />

n <br />

i=1<br />

n <br />

i=1<br />

xiyi<br />

n<br />

i=1<br />

i=1<br />

− x y − x y + x y<br />

xiyi<br />

n − x y .<br />

Cov(X, Y ) =<br />

r =<br />

n<br />

i=1<br />

xiyi<br />

n<br />

Cov(X, Y )<br />

σXσY<br />

− x y,<br />

x y<br />

σXσY<br />

La quantità Cov(X, Y ) viene <strong>de</strong>tta la covarianza tra X ed Y .<br />

Alcune osservazioni sul coefficiente <strong>di</strong> correlazione:<br />

Il coefficiente <strong>di</strong> correlazione è:<br />

(1) un numero e quin<strong>di</strong> non ha unità <strong>di</strong> misura;<br />

(2) non cambia se si cambia l’or<strong>di</strong>ne <strong>de</strong>lle variabili;<br />

(3) non cambia se si aggiunge lo stesso numero a tutti i valori <strong>di</strong><br />

una variabile;<br />

(4) non cambia se si moltiplicano tutti i valori <strong>di</strong> una variabile per<br />

lo stesso numero positivo.<br />

Infatti:<br />

(1). r è privo <strong>di</strong> unità <strong>di</strong> misura in quanto è ottenuto da una frazione<br />

che presenta gran<strong>de</strong>zze con le stesse unità <strong>di</strong> misura sia al numeratore<br />

che al <strong>de</strong>nominatore.<br />

(2). La con<strong>di</strong>zione è una banale conseguenza <strong>de</strong>lla proprietà commutativa<br />

<strong>de</strong>l prodotto.<br />

.


84<br />

(3). Se aggiungiamo lo stesso valore, t, a tutti i valori <strong>di</strong> una <strong>de</strong>lle due<br />

variabili aleatorie, ad esempio la X, ed in<strong>di</strong>chiamo con Z la variabile<br />

aleatoria così ottenuta, il valore me<strong>di</strong>o <strong>di</strong> Z, che in<strong>di</strong>cheremo con z è<br />

dato da<br />

n<br />

n<br />

n<br />

z = 1<br />

n<br />

i=1<br />

(xi + t) = 1<br />

n<br />

i=1<br />

xi + 1<br />

n<br />

i=1<br />

mentre la sua <strong>de</strong>viazione standard, σZ sarà data da<br />

<br />

<br />

<br />

σZ = 1<br />

n<br />

(zi − z)<br />

n<br />

i=1<br />

2<br />

<br />

<br />

<br />

= 1<br />

n<br />

(xi + t − x − t)<br />

n<br />

i=1<br />

2<br />

<br />

<br />

<br />

= 1<br />

n<br />

(xi − x)<br />

n<br />

2 = σX.<br />

i=1<br />

t = x + t<br />

Il coefficiente <strong>di</strong> correlazione fra Z ed Y è quin<strong>di</strong> dato da<br />

r ′ = 1<br />

σZσY<br />

1<br />

n<br />

= 1 1<br />

σXσY n<br />

= 1 1<br />

σXσY n<br />

= 1 1<br />

σXσY n<br />

= 1 1<br />

σXσY n<br />

n<br />

ziyi − z y <br />

i=1<br />

n<br />

(xi + t)yi − (x + t)y <br />

i=1<br />

n<br />

xiyi + t 1<br />

n<br />

yi − x y − ty<br />

n<br />

i=1<br />

<br />

n<br />

xiyi + ty − x y − ty <br />

i=1<br />

i=1<br />

n<br />

xiyi − x y = r<br />

i=1<br />

(4). Supponiamo <strong>di</strong> moltiplicare una variabile aleatoria, ad esempio X,<br />

per t > 0, ed in<strong>di</strong>chiamo la nuova variabile aleatoria con Z = tX. Il<br />

valore me<strong>di</strong>o <strong>di</strong> Z sarà:<br />

z = 1<br />

n<br />

zi =<br />

n<br />

1<br />

n<br />

txi =<br />

n<br />

t<br />

n<br />

xi = tx.<br />

n<br />

i=1<br />

i=1<br />

i=1


19. CALCOLO DEL COEFFICIENTE DI CORRELAZIONE 85<br />

La <strong>de</strong>viazione standard <strong>di</strong> Z sarà<br />

<br />

<br />

<br />

σZ = 1<br />

n<br />

(zi − z)<br />

n<br />

i=1<br />

2<br />

<br />

<br />

<br />

= 1<br />

n<br />

(txi − tx)<br />

n<br />

i=1<br />

2<br />

<br />

<br />

<br />

= t2 n<br />

(xi − x)<br />

n<br />

i=1<br />

2<br />

<br />

<br />

<br />

= t<br />

1<br />

n<br />

(xi − x)<br />

n<br />

2 = tσX.<br />

Pertanto il coefficiente <strong>di</strong> correlazione fra Z ed Y risulterà<br />

r ′ = 1 <br />

n 1<br />

ziyi − z y<br />

σZσY n<br />

i=1<br />

<br />

=<br />

1 <br />

n 1<br />

txiyi − tx y<br />

tσXσY n<br />

i=1<br />

<br />

=<br />

1 <br />

n t<br />

xiyi − tx y<br />

tσXσY n<br />

i=1<br />

<br />

t <br />

n 1<br />

=<br />

xiyi − x y<br />

tσXσY n<br />

= r.<br />

i=1<br />

i=1<br />

Esercizio 14. Calcolare il coefficiente <strong>di</strong> correlazione per l’insieme<br />

<strong>di</strong> dati riportati in Tabella 11.<br />

Tabella 11<br />

n X Y<br />

1 1 5<br />

2 3 9<br />

3 4 7<br />

4 5 1<br />

5 7 13<br />

Soluzione. Abbiamo X = 4, σX = 2, Y = 7 e σY = 4. Riportiamo<br />

nella seguente tabella i valori <strong>di</strong> xi, yi, (xi − X)/σX, (yi − Y )/σY ed il<br />

prodotto (xi − X)(yi − Y )/(σXσY ).


86<br />

Tabella 12<br />

n X Y (xi − X)/σX (yi − Y )/σY (xi − X)(yi − Y )/(σXσY )<br />

1 1 5 -1.5 -0.5 0.75<br />

2 3 9 -0.5 0.5 -0.<strong>25</strong><br />

3 4 7 0 0 0<br />

4 5 1 0.5 -1.5 -0.75<br />

5 7 13 1.5 1.5 2.<strong>25</strong><br />

Si ha<br />

0.75 − 0.<strong>25</strong> + 0 − 0.75 + 2.<strong>25</strong><br />

r = = 0.40.<br />

5<br />

In Figura 49, <strong>di</strong>segnamo il <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione e in corrispon<strong>de</strong>nza<br />

ad ogni punto mettiamo il valore <strong>di</strong> (xi − X)(yi − Y )/(σXσY ).<br />

0.75<br />

-0.<strong>25</strong><br />

( ¯ X, ¯ Y )<br />

0<br />

Figura 49<br />

-0.75<br />

2.<strong>25</strong><br />

In Figura 50, tracciamo le due rette che passano per ( ¯ X, ¯ Y ) parallele<br />

agli assi <strong>di</strong>vi<strong>di</strong>amo il grafico in 4 parti. Osserviamo che se<br />

(xi − X)(yi − Y )/(σXσY ) è positivo allora il punto (xi, yi) si trova nel<br />

quadrante I oppure III, se è negativo il punto si trova nel quadrante II<br />

oppure IV.<br />

Ciò ci aiuta a capire perché il coefficiente <strong>di</strong> correlazione misura l’associazione<br />

tra due variabili. Ricor<strong>di</strong>amo che r è la me<strong>di</strong>a <strong>de</strong>i prodotti<br />

(xi − X)(yi − Y )/(σXσY ), cioè<br />

r = 1<br />

n<br />

n (xi − X)(yi − Y )<br />

,<br />

i=1<br />

σXσY<br />

quin<strong>di</strong> se tra i valori (xi − X)(yi − Y )/(σXσY ) predominano i valori<br />

positivi r sarà positivo, se predominano i valori negativi r sarà negativo<br />

come è chiaramente illustrato dai due grafici <strong>de</strong>lla Figura 51.


¯Y<br />

19. CALCOLO DEL COEFFICIENTE DI CORRELAZIONE 87<br />

r > 0<br />

¯X<br />

II<br />

( ¯ X, ¯ Y )<br />

III IV<br />

I<br />

Figura 50<br />

¯Y<br />

Figura 51<br />

r < 0<br />

Esercizio 15. Si consi<strong>de</strong>rino i due <strong>di</strong>agrammi <strong>di</strong> <strong>di</strong>spersione illustrati<br />

nei due grafici <strong>di</strong> Figura 52:<br />

Determinare per entrambi il coefficiente <strong>di</strong> <strong>di</strong>spersione.<br />

Soluzione. In entrambi i casi il coefficiente <strong>di</strong> <strong>di</strong>spersione è r = 0.<br />

Abbiamo visto in prece<strong>de</strong>nza che due <strong>di</strong>agrammi <strong>di</strong> <strong>di</strong>spersione possono<br />

avere lo stesso punto <strong>de</strong>lle me<strong>di</strong>e ( ¯ X, ¯ Y ) e stessa <strong>de</strong>viazione standard<br />

σX = σY , pur avendo coefficienti <strong>di</strong> correlazione <strong>di</strong>versi come<br />

viene bene esemplificato dai due <strong>di</strong>agrammi <strong>de</strong>lla Figura 53<br />

A volte si può presentare la situazione <strong>di</strong> due <strong>di</strong>agrammi <strong>di</strong> <strong>di</strong>spersione<br />

con lo stesso coefficiente <strong>di</strong> correlazione, lo stesso punto <strong>de</strong>lle<br />

me<strong>di</strong>e ( ¯ X, ¯ Y ) ma <strong>de</strong>viazioni standard molto <strong>di</strong>verse da un <strong>di</strong>agramma<br />

¯X


Y<br />

88<br />

¯Y<br />

−5 5 10<br />

¯X<br />

Figura 52. Due grafici <strong>di</strong> <strong>di</strong>spersione che hanno entrambi<br />

correlazione lineare r = 0. Il secondo ha però<br />

una correlazione lineare, con r = −1, fra i quadrati <strong>de</strong>lle<br />

due variabili aleatorie.<br />

0 2 4 6 8 10<br />

X<br />

Y<br />

−2 2 6<br />

¯Y<br />

−2 0 2 4 6 8<br />

Figura 53. Due <strong>di</strong>agrammi <strong>di</strong> <strong>di</strong>spersione <strong>di</strong> due variabili<br />

aleatorie che abbiano il me<strong>de</strong>simo punto <strong>de</strong>lle<br />

me<strong>di</strong>e, le stesse <strong>de</strong>viazioni standard ma coefficienti <strong>di</strong><br />

correlazione lineare rispettivamente <strong>di</strong> 0.5 e 0.95.<br />

all’altro. Un esempio <strong>di</strong> questo è nei due grafici seguenti:<br />

La linea tratteggiata rappresenta la retta <strong>de</strong>lle SD. Nel primo <strong>de</strong>i<br />

due grafici, i dati appaiono più concentrati intorno alla retta <strong>de</strong>lle SD<br />

perché σX e σY sono più bassi se raffrontati a quelli <strong>de</strong>l secondo grafico.<br />

Ve<strong>di</strong>amo come si possa stimare dal grafico <strong>di</strong> <strong>di</strong>spersione il valore<br />

<strong>de</strong>l coeffciente <strong>di</strong> correlazione r. Nel calcolo <strong>di</strong> r entrano pesantemente<br />

in gioco i valori <strong>di</strong> σX e σY . Infatti si ha:<br />

r =<br />

1<br />

(n − 1)<br />

n xi − ¯ X yi − ¯ Y<br />

.<br />

i=1<br />

Quin<strong>di</strong>, a parità <strong>di</strong> r, più “alto” è σX (risp. σY ) e più “alte” <strong>de</strong>bbono<br />

essere le <strong>di</strong>fferenze (xi − ¯ X) (risp. (yi − ¯ Y )). Se noi riportiamo il nostro<br />

σX<br />

σY<br />

¯X<br />

X


Y<br />

−4 0 4<br />

19. CALCOLO DEL COEFFICIENTE DI CORRELAZIONE 89<br />

−4 −3 −2 −1 0 1 2 3<br />

X<br />

Y<br />

−10 10<br />

−4 −2 0 2 4<br />

Figura 54. Due <strong>di</strong>agrammi <strong>di</strong> <strong>di</strong>spersione <strong>di</strong> due variabili<br />

aleatorie che abbiano il me<strong>de</strong>simo punto <strong>de</strong>lle me<strong>di</strong>e,<br />

lo stesso coefficiente <strong>di</strong> correlazione lineare, r = 0.8, il<br />

primo con la me<strong>de</strong>sima <strong>de</strong>viazione standard per le due variabili,<br />

il secondo con <strong>de</strong>viazione standard <strong>de</strong>lla Y cinque<br />

volte quella <strong>de</strong>lla X.<br />

grafico <strong>di</strong> <strong>di</strong>spersione su <strong>di</strong> un piano coor<strong>di</strong>nato scegliendo come unità<br />

<strong>di</strong> misura σX, per l’asse <strong>de</strong>lle X e σY per quello <strong>de</strong>lle Y otterremo<br />

una nuvola <strong>di</strong> punti con una forma sempre più allungata all’aumentare<br />

<strong>de</strong>l valore assoluto <strong>de</strong>l coefficiente <strong>di</strong> correlazione. Questo è facilmente<br />

osservabile dai <strong>di</strong>agrammi fatti in prece<strong>de</strong>nza.<br />

Ve<strong>di</strong>amo ora <strong>di</strong> stabilire in che relazione è la <strong>di</strong>stribuzione <strong>de</strong>i punti<br />

<strong>de</strong>l <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione con la retta <strong>de</strong>lle SD e con il coefficiente<br />

<strong>di</strong> correlazione.<br />

Ricor<strong>di</strong>amo che la retta <strong>de</strong>lle SD ha equazioni:<br />

y = σY<br />

σX<br />

y = − σY<br />

x − σY<br />

σX<br />

σX<br />

x + σY<br />

σX<br />

¯X + ¯ Y se 0 < r ≤ 1<br />

¯X + ¯ Y se −1 ≤ r < 0,<br />

poiché per r = 0 non si parla <strong>di</strong> retta <strong>de</strong>lle SD, per r = 0 le due<br />

equazioni possono venire sintetizzate dall’espressione<br />

y = rσY<br />

(x −<br />

|r|σX<br />

¯ X) + ¯ Y .<br />

Calcoliamo la me<strong>di</strong>a quadratica <strong>de</strong>lle <strong>di</strong>stanze verticali <strong>de</strong>i punti <strong>de</strong>l<br />

<strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione da una retta <strong>de</strong>lle SD. Si ha<br />

X


90<br />

d 2 = 1<br />

n<br />

= 1<br />

n<br />

= σ 2 Y<br />

= σ 2 Y<br />

= σ 2 Y<br />

n<br />

i=1<br />

n<br />

i=1<br />

1<br />

n<br />

1<br />

n<br />

|(yi − ¯ Y ) − rσY<br />

(xi −<br />

|r|σX<br />

¯ X)| 2<br />

σ 2 Y<br />

i=1<br />

σ 2 Y<br />

σ 2 Y<br />

i=1<br />

<br />

yi − ¯ Y<br />

σY<br />

σ 2 Y<br />

− r<br />

|r|<br />

xi − ¯ X <br />

2 σX<br />

n (yi − ¯ Y ) 2<br />

σ2 Y<br />

− 2 r xi −<br />

|r|<br />

¯ X yi −<br />

σX<br />

¯ Y<br />

+<br />

σY<br />

(xi − ¯ X) 2<br />

σ2 2 X<br />

n (yi − ¯ Y ) 2<br />

− 2 r<br />

n 1 xi −<br />

|r| n<br />

¯ X yi − ¯ Y<br />

+ 1<br />

n (xi −<br />

n<br />

¯ X) 2 2 − 2 r2<br />

|r| + σ2 X<br />

σ 2 X<br />

i=1<br />

σX<br />

= 2σ 2 Y (1 − |r|).<br />

Nelle espressioni prece<strong>de</strong>nti abbiamo tenuto conto che:<br />

n<br />

(yi − ¯ Y ) 2<br />

σ 2 Y = 1<br />

n<br />

σ 2 X = 1<br />

n<br />

r = 1<br />

n<br />

i=1<br />

n<br />

(xi − ¯ X) 2<br />

i=1<br />

σY<br />

n xi − ¯ X yi − ¯ Y<br />

.<br />

i=1<br />

σX<br />

Pertanto la me<strong>di</strong>a quadratica varrà<br />

<br />

2 − 2|r|.<br />

σY<br />

Dunque, possiamo osservare che più è alto |r| e più la me<strong>di</strong>a quadratica<br />

<strong>de</strong>lle <strong>di</strong>stanze verticali <strong>de</strong>i punti <strong>de</strong>l <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione<br />

dalla retta <strong>de</strong>lle SD è bassa.<br />

Una forma <strong>de</strong>l tutto analoga si ha se si consi<strong>de</strong>ra la me<strong>di</strong>a quadratica<br />

<strong>de</strong>lle <strong>di</strong>stanze orizzontali <strong>de</strong>i punti <strong>de</strong>l <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione<br />

dalla retta <strong>de</strong>lle SD. Si ottiene che questa vale:<br />

<br />

2 − 2|r|.<br />

σX<br />

Il coefficiente <strong>di</strong> correlazione risulta molto utile in tutti i casi in<br />

cui il <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione ha una forma “ovale”. Si ricor<strong>di</strong> che<br />

r misura l’associazione lineare tra due variabili e non una associazione<br />

in genere. Ad esempio, nel <strong>di</strong>agramma seguente i dati sono <strong>di</strong>stribuiti<br />

approssimativamente su <strong>di</strong> una circonferenza. Le due variabili sono<br />

fortemente correlate ma non in una correlazione lineare ed r = 0.<br />

σY<br />

i=1<br />

σ 2 X


19. CALCOLO DEL COEFFICIENTE DI CORRELAZIONE 91<br />

¯Y<br />

¯X<br />

Figura 55. Un <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione che rappresenta<br />

due variabili aleatorie correlate ma con coefficiente<br />

<strong>di</strong> correlazione lineare nullo.<br />

Come esempio banale <strong>di</strong> verifica <strong>de</strong>l fatto che r = 0 consi<strong>de</strong>riamo i<br />

seguenti dati raccolti per X ed Y :<br />

x1 = 0 y1 = 1<br />

x2 = 1 y2 = 0<br />

x3 = 0 y3 = −1<br />

x4 = −1 y4 = 0.<br />

Chiaramente le coppie (xi, yi) stanno su <strong>di</strong> una circonferenza <strong>di</strong> equazione<br />

x 2 + y 2 = 1. Calcoliamo ¯ X e ¯ Y<br />

¯X<br />

1 + 0 − 1 + 0<br />

= = 0<br />

4<br />

¯Y<br />

0 + 1 + 0 − 1<br />

= = 0.<br />

4<br />

Il punto <strong>de</strong>lle me<strong>di</strong>e è (0, 0). Calcoliamo σX, σY ed r:<br />

σX =<br />

σY =<br />

1 2 + 0 2 + (−1) 2 + 0 2<br />

4<br />

0 2 + 1 2 + 0 2 + (−1) 2<br />

4<br />

<br />

1<br />

=<br />

2<br />

<br />

1<br />

=<br />

2<br />

= 1<br />

√ 2<br />

= 1<br />

√ 2


92<br />

Quin<strong>di</strong>, per r, si ha<br />

r = 1<br />

4<br />

4<br />

i=1<br />

√ √<br />

2 2<br />

=<br />

4<br />

xi − 0<br />

1<br />

√ 2<br />

yi − 0<br />

1<br />

√ 2<br />

4<br />

xiyi = 0<br />

i=1<br />

Esempio 19.1. Consi<strong>de</strong>riamo i dati <strong>de</strong>lla seguente Tabella 13<br />

Tabella 13<br />

X Y<br />

1 1<br />

2 2<br />

3 3<br />

4 4<br />

5 5<br />

6 1<br />

e rappresentiamone il <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione nella Figura 56;<br />

Y<br />

1 2 3 4 5<br />

1 2 3 4 5 6<br />

X<br />

Figura 56<br />

Se non consi<strong>de</strong>riamo l’ultimo dato raccolto, (6, 1), c’è una perfetta<br />

correlazione (lineare) perché i punti giacciono sulla retta <strong>di</strong> equazione<br />

y = x e quin<strong>di</strong> si ha r = 1. Se però consi<strong>de</strong>riamo anche l’ultimo<br />

dato raccolto, che appare un outlier, e se ricalcoliamo il coefficiente <strong>di</strong>


19. CALCOLO DEL COEFFICIENTE DI CORRELAZIONE 93<br />

correlazione otteniamo:<br />

¯X<br />

1 + 2 + 3 + 4 + 5 + 6<br />

= =<br />

6<br />

21 7<br />

=<br />

6 2<br />

¯Y<br />

1 + 2 + 3 + 4 + 5 + 1<br />

= =<br />

4<br />

16 8<br />

=<br />

6 3<br />

σ 2 X = 1<br />

7<br />

(1 −<br />

6 2 )2 + (2 − 7<br />

2 )2 + (3 − 7<br />

2 )2 + (4 − 7<br />

2 )2 + (5 − 7<br />

2 )2 + (6 − 7<br />

2 )2<br />

= 1 2 2 2 2 2 2 35<br />

(−5) + (−3) + (−1) + 1 + 3 + 5 ) =<br />

12<br />

12<br />

σ 2 Y = 1<br />

8<br />

(1 −<br />

6 3 )2 + (2 − 8<br />

3 )2 + (3 − 8<br />

3 )2 + (4 − 8<br />

3 )2 + (5 − 8<br />

3 )2 + (1 − 8<br />

3 )2<br />

= 1 2 2 2 2 2 2 120<br />

(−5) + (−2) + 1 + 4 + 7 + (−5) ) =<br />

54<br />

54<br />

r =<br />

1<br />

<br />

35 6<br />

12<br />

120<br />

54<br />

(1 − 7<br />

2<br />

)(1 − 8<br />

3<br />

) + (2 − 7<br />

2<br />

)(2 − 8<br />

3<br />

7 8<br />

) + (3 − )(3 −<br />

2 3 )<br />

+ (4 − 7 8 7 8 7 8<br />

)(4 − ) + (5 − )(5 − ) + (6 − )(1 −<br />

2 3 2 3 2 3 )<br />

= <strong>25</strong> + 6 − 1 + 4 + 21 − <strong>25</strong> 5<br />

= ∼ 0.327 < 1.<br />

35<br />

35<br />

36<br />

6<br />

12<br />

120<br />

54<br />

Questo valore per r è molto basso anche se questo è dovuto esclusivamente<br />

alla presenza <strong>di</strong> un outlier. Non si <strong>de</strong>ve però incorrere nell’errore<br />

<strong>di</strong> rimuovere lo outlier, a meno che non sussistano <strong>de</strong>lle ragioni ben precise<br />

per farlo, ad esempio se siamo sicuri che sia dovuto ad un errore<br />

<strong>di</strong> misura. Poiché nella nostra situazione non sappiamo a che cosa sia<br />

dovuta la presenza <strong>de</strong>l nostro outlier non è opportuno utilizzare r per<br />

sintetizzare i dati in nostro possesso. Allo stesso modo non è opportuno<br />

utilizzare r per sintetizzare i dati nelle situazioni illustrate dai<br />

<strong>di</strong>agrammi <strong>di</strong> <strong>di</strong>spersione illustrati dai grafici <strong>di</strong> Figura 57.<br />

In questi grafici è evi<strong>de</strong>nte una forte associazione fra le variabili ma<br />

questa non è lineare. Conoscere r non serve.<br />

Ricordare: r misura l’associazione lineare e non altri tipi <strong>di</strong> associazione.<br />

Si può utilizzare il coefficiente <strong>di</strong> correlazione r quando il <strong>di</strong>agramma<br />

<strong>di</strong> <strong>di</strong>spersione assume la forma <strong>di</strong> una nube <strong>di</strong> punti ovaleggiante.<br />

Esercizio 16. Quali <strong>de</strong>i tre <strong>di</strong>agrammi riportati nella Figura 58,<br />

possono essere sintetizzati utilizzando r?<br />

Solo il numero 1, che ha la caratteristica forma a palla da rugby.<br />

12<br />

120<br />

54


94<br />

¯Y<br />

0 4 8<br />

¯X<br />

Figura 57. Due grafici <strong>di</strong> <strong>di</strong>spersione con variabili<br />

fortemente correlate ma la correlazione non è lineare.<br />

Grafico 1<br />

0 2 4 6 8 10 12<br />

0 10 20<br />

0 4 8<br />

¯Y<br />

Grafico 3<br />

0 5 10 15<br />

A<br />

¯X<br />

Grafico 2<br />

0 5 10 15 20 <strong>25</strong><br />

Figura 58<br />

Esercizio 17. In una classe ci sono 15 alunni. Di questi 5 sono giocatori<br />

<strong>di</strong> basket. La relazione tra peso e altezza può essere sintetizzata<br />

utilizzando r?<br />

Verosimilmente si ha una situazione <strong>de</strong>l tipo <strong>di</strong> quella illustrata dal<br />

grafico <strong>di</strong> <strong>di</strong>spersione <strong>de</strong>lla figura posta all’inizio <strong>de</strong>lla pagina seguente.<br />

Quin<strong>di</strong> la risposta è no.<br />

Esercizio 18. Un cerchio <strong>di</strong> <strong>di</strong>ametro d ha area 1/4 · πd 2 . Uno<br />

stu<strong>di</strong>oso <strong>di</strong>segna il <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione, riportato nella figura<br />

<strong>de</strong>lla pagina seguente, relativo ad un campione <strong>di</strong> cerchi <strong>di</strong> <strong>di</strong>ametri<br />

<strong>di</strong>versi.<br />

Si può utilizzare r per sintetizzare i dati? Sì, c’è la forma ovoidale.


19. CALCOLO DEL COEFFICIENTE DI CORRELAZIONE 95<br />

168 174 180<br />

168 170 172 174 176 178 180<br />

Figura 59. Un <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione per il quale<br />

il calcolo <strong>de</strong>l coefficiente <strong>di</strong> correlazione lineare risulta<br />

ina<strong>de</strong>guato.<br />

Cosa ci si aspetta come valore <strong>di</strong> r? Scegliere tra le seguenti<br />

possibilità:<br />

-1, circa -1, 0, circa 1, 1.<br />

0 20 60<br />

0 2 4 6 8 10<br />

Figura 60. Diagramma <strong>di</strong> <strong>di</strong>spersione nel quale due variabili<br />

aleatorie risultano strattamente correlate ma con<br />

coefficiente <strong>di</strong> correlazione lineare basso.<br />

La risposta migliore è circa 1. Infatti c’è una forte associazione,<br />

però non può essere r esattamente uguale a 1, perchè l’associazione<br />

è quadratica e non lineare. I dati non stanno su una retta, ma sulla<br />

parabola <strong>di</strong> equazione : y = 1/4 · πx 2 .<br />

Esercizio 19. Per un certo insieme <strong>di</strong> dati si è osservato r = 0.57.<br />

Dire se le seguenti affermazioni sono vere o false:<br />

(1) Tra i dati non ci sono outlier.


96<br />

(2) Tra le variabili consi<strong>de</strong>rate c’è associazione non lineare.<br />

Soluzione. Non si può <strong>di</strong>re se le due affermazioni sopra siano vere o<br />

false, per stabilire se non ci sono outlier o se l’associazione non è lineare,<br />

si <strong>de</strong>ve consi<strong>de</strong>rare il <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione.<br />

Aggiungiamo ancora alcune osservazioni a proposito <strong>de</strong>l coefficiente<br />

<strong>di</strong> correlazione:<br />

I coefficienti <strong>di</strong> correlazione calcolati a partire da percentuali o da<br />

me<strong>di</strong>e possono essere fuorvianti. Il coefficiente <strong>di</strong> correlazione va calcolato<br />

a partire dai dati raccolti su ogni singolo in<strong>di</strong>viduo.<br />

Per capire questo fatto, consi<strong>de</strong>riamo un esempio:<br />

Da una indagine svolta nel 1993 negli Stati Uniti, indagine svolta<br />

sull’intera popolazione, è possibile calcolare il coefficiente <strong>di</strong> correlazione<br />

tra red<strong>di</strong>to e livello <strong>di</strong> istruzione per gli uomini con età compresa<br />

tra i <strong>25</strong> e i 54 anni. Si ottiene r = 0.44.<br />

Si potrebbe pensare <strong>di</strong> calcolare il red<strong>di</strong>to me<strong>di</strong>o e il livello <strong>di</strong> istruzione<br />

me<strong>di</strong>o per ciascuno <strong>de</strong>gli Stati e calcolare poi il coefficiente <strong>di</strong><br />

correlazione tra le risultanti coppie <strong>di</strong> me<strong>di</strong>e. Tale coefficiente, pari a<br />

0.64, risulta sensibilmente più alto <strong>di</strong> quello effettivo. Proce<strong>de</strong>re così<br />

ci ha portato ad un risultato falso. Questo acca<strong>de</strong> perché in ogni Stato<br />

c’è una notevole <strong>di</strong>spersione <strong>de</strong>i dati intorno al valor me<strong>di</strong>o, <strong>di</strong>spersione<br />

che viene eliminata quando ad ogni stato associamo la sua me<strong>di</strong>a. La<br />

conseguenza <strong>di</strong> questo è che si ha una impressione errata <strong>di</strong> maggior<br />

concentrazione attorno alla retta <strong>de</strong>lle SD.<br />

Il coefficiente <strong>di</strong> correlazione va pertanto utilizzato con cautela,<br />

cioè consi<strong>de</strong>rando sempre con occhio critico la situazione che si sta<br />

stu<strong>di</strong>ando.<br />

Il coefficiente <strong>di</strong> correlazione misura l’associazione, ma l’associazione<br />

non coinci<strong>de</strong> con la causalità.<br />

Illustriamo quanto <strong>de</strong>tto con un esempio: nei bambini si può osservare<br />

una forte correlazione tra il numero <strong>di</strong> scarpe e la capacità <strong>di</strong><br />

lettura. Tuttavia non possiamo <strong>di</strong>re che la capacità <strong>di</strong> imparare nuove<br />

parole ren<strong>de</strong> più gran<strong>de</strong> il pie<strong>de</strong>. In realtà c’è un terzo fattore <strong>di</strong><br />

cui tener conto: l’età. Quando un bambino cresce impara più parole<br />

e quin<strong>di</strong> legge meglio e, allo stesso tempo, i suoi pie<strong>di</strong> <strong>di</strong>ventano più<br />

gran<strong>di</strong>.<br />

È sbagliato legare <strong>di</strong>rettamente il numero <strong>di</strong> scarpe e la capa-<br />

cità <strong>di</strong> lettura. Si ha infatti la presenza <strong>di</strong> quello che in statistica viene<br />

chiamato un fattore <strong>di</strong> <strong>di</strong>sturbo, in questo caso l’età.<br />

Per finire, <strong>di</strong>mostriamo formalmente che se i dati raccolti (xi, yi),<br />

i = 1, . . . , n, giacciono sulla retta <strong>di</strong> equazione y = x, allora si ha<br />

esattamente r = 1.


Infatti, xi = yi, per ogni i. Quin<strong>di</strong><br />

¯X = 1<br />

n<br />

xi =<br />

n<br />

1<br />

n<br />

ed anche σX = σY ; allora:<br />

r = 1<br />

n<br />

= 1<br />

n<br />

i=1<br />

20. LA REGRESSIONE 97<br />

i=1<br />

n<br />

yi = ¯ Y<br />

i=1<br />

n (xi − ¯ X)(yi − ¯ Y )<br />

=<br />

σXσY<br />

1<br />

n (xi −<br />

n<br />

i=1<br />

¯ X)(xi − ¯ X)<br />

σXσX<br />

n (xi − ¯ X) 2<br />

= 1<br />

n<br />

1<br />

n<br />

(xi − ¯ X) 2<br />

i=1<br />

σ 2 X<br />

= 1<br />

σ2 σ<br />

X<br />

2 X = 1.<br />

σ 2 X<br />

i=1<br />

20. La Regressione<br />

La regressione serve a <strong>de</strong>scrivere in che modo una variabile <strong>di</strong>pen<strong>de</strong><br />

da un’altra.<br />

Illustriamo il punto con un esempio.<br />

Consi<strong>de</strong>riamo 988 uomini <strong>di</strong> età compresa tra 18 e 24 anni. Valutiamone<br />

il peso e l’altezza e costruiamo il <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione<br />

seguente:<br />

40 80<br />

160 170 180 190 200<br />

Figura 61. Diagramma <strong>di</strong> <strong>di</strong>spersione <strong>de</strong>i pesi e <strong>de</strong>lle<br />

altezze <strong>di</strong> 988 persone. A tratto continuo abbiamo la retta<br />

<strong>di</strong> regressione <strong>de</strong>l peso sull’altezza, a trattini la retta<br />

<strong>de</strong>lle <strong>de</strong>viazioni standard.


98<br />

In base ai dati raccolti si hanno le seguenti gran<strong>de</strong>zze <strong>di</strong> sintesi:<br />

• altezza me<strong>di</strong>a ¯ X = 177.8cm<br />

• peso me<strong>di</strong>o ¯ Y = 73.5kg<br />

• scarto quadratico me<strong>di</strong>o per l’altezza σX = 7.6cm<br />

• scarto quadratico me<strong>di</strong>o per il peso σY = 13.6kg<br />

• coefficiente <strong>di</strong> correlazione r = 0.47.<br />

Nella figura l’unità <strong>di</strong> misura sui due assi è stata scelta in modo tale<br />

che ad ogni trattino corrisponda un incremento pari alla rispettiva SD.<br />

Cioè sull’asse x l’unità <strong>di</strong> misura è σX e sull’asse y l’unità <strong>di</strong> misura è<br />

σY . In tal modo, poichè il coefficiente angolare <strong>de</strong>lla retta <strong>de</strong>lle SD è<br />

σY<br />

σX<br />

, la retta <strong>de</strong>lle SD risulta la bisettrice <strong>de</strong>l primo quadrante. Questa<br />

retta, in figura, è rappresentata dalla linea tratteggiata. I punti sono<br />

piuttosto <strong>di</strong>spersi attorno alla retta <strong>de</strong>lle SD, questo perché r = 0.47 è<br />

basso.<br />

Osserviamo i dati <strong>de</strong>l <strong>di</strong>agramma contenuti nella banda verticale<br />

tratteggiata. Questi corrispondono agli uomini che hanno una altezza<br />

pari a circa ¯ X + σX. Possiamo osservare che la maggior parte <strong>de</strong>i punti<br />

<strong>di</strong> questa fascia sta sotto alla retta <strong>de</strong>lle SD.<br />

Se calcoliamo il peso me<strong>di</strong>o <strong>de</strong>lle persone che stanno nella banda<br />

tratteggiata, ci accorgiamo che questo è superiore ad ¯ Y per un valore<br />

che non è σY , ma una frazione <strong>di</strong> σY . Per essere precisi, l’altezza <strong>de</strong>lle<br />

persone all’interno <strong>de</strong>lla banda è:<br />

¯X + σX = 177, 8 + 7, 6 = 185, 4cm.<br />

Il peso me<strong>di</strong>o <strong>di</strong> queste persone è:<br />

¯Y + rσY = 73, 5 + (0, 47)13, 6 79, 9kg.<br />

Analogamente se consi<strong>de</strong>riamo le persone <strong>di</strong> altezza ¯ X + 2σX, il peso<br />

me<strong>di</strong>o <strong>di</strong> queste persone non è ¯ Y + 2σY , ma ¯ Y + 2rσY .<br />

Cioè vale la seguente Proposizione, che non <strong>di</strong>mostriamo perchè<br />

richie<strong>de</strong>rebbe meto<strong>di</strong> matematici sofisticati.<br />

Proposizione 20.1. Associato ad un incremento <strong>di</strong> x pari a σX si<br />

può preve<strong>de</strong>re un aumento in me<strong>di</strong>a <strong>di</strong> y pari a rσY .<br />

Cioè le persone <strong>di</strong> altezza ¯ X + σX pesano in me<strong>di</strong>a ¯ Y + rσY , le<br />

persone <strong>di</strong> altezza ¯ X + 2σX pesano in me<strong>di</strong>a ¯ Y + 2rσY , le persone <strong>di</strong><br />

altezza ¯ X + 3σX pesano in me<strong>di</strong>a ¯ Y + 3rσY , ... e così via,le persone <strong>di</strong><br />

altezza ¯ X + iσX pesano in me<strong>di</strong>a ¯ Y + irσY .<br />

Questo vale anche se i è negativo: le persone <strong>di</strong> altezza ¯ X − σX<br />

pesano in me<strong>di</strong>a ¯ Y − rσY , le persone <strong>di</strong> altezza ¯ X − 2σX pesano in<br />

me<strong>di</strong>a ¯ Y − 2rσY , e così via ....


20. LA REGRESSIONE 99<br />

Osserviamo che i punti: ( ¯ X + iσX, ¯ Y + irσY ) giacciono tutti su una<br />

stessa retta che passa per il punto <strong>de</strong>lle me<strong>di</strong>e: ( ¯ X, ¯ Y ).<br />

Infatti, troviamo ad esempio l’equazione <strong>de</strong>lla retta che contiene i<br />

punti: ( ¯ X+σX, ¯ Y +rσY ) e ( ¯ X+2σX, ¯ Y +2rσY ); tale retta ha equazione:<br />

Cioè:<br />

Ancora:<br />

E, per finire:<br />

y − ¯ Y − rσY<br />

¯Y + 2rσY − ¯ Y − rσY<br />

y − ¯ Y − rσY<br />

rσY<br />

=<br />

x − ¯ X − σX<br />

¯X + 2σX − ¯ X − σX<br />

= x − ¯ X − σX<br />

σX<br />

y = r σY<br />

(x − ¯ X − σX) + ¯ Y + rσY .<br />

σX<br />

y = r σY<br />

x − r σY<br />

( ¯ X + σX) + ¯ Y + rσY .<br />

σX<br />

σX<br />

Verifico che ( ¯ X + iσX, ¯ Y + irσY ) sta su tale retta, per ogni i, anche per<br />

i = 0, nel qual caso si ha ( ¯ X, ¯ Y ). Infatti:<br />

¯Y + irσY = r σY<br />

( ¯ X + iσX) − r σY<br />

( ¯ X + σX) + ¯ Y + rσY<br />

La retta <strong>di</strong> equazione<br />

σX<br />

= ¯ Y + riσY .<br />

σX<br />

y = r σY<br />

(x − ¯ X) + ¯ Y<br />

σX<br />

si <strong>di</strong>ce la retta <strong>di</strong> regressione <strong>di</strong> Y su X. Essa stima la me<strong>di</strong>a <strong>de</strong>i valori<br />

<strong>di</strong> Y che corrispondono ad un valore <strong>di</strong> X.<br />

Nella figura prece<strong>de</strong>nte tale retta è rappresentata dalla retta tracciata<br />

a tratto continuo. Esplicitando il calcolo, la retta <strong>di</strong> regressione<br />

è la<br />

y = r σY<br />

x + ( ¯ Y − r σY<br />

σX<br />

Esercizio 20. In un corso la me<strong>di</strong>a <strong>de</strong>i voti ad un esame interme<strong>di</strong>o<br />

è pari a 60 con uno scarto quadratico me<strong>di</strong>o <strong>di</strong> 15; gli stessi valori si<br />

registrano all’esame finale. Il coefficiente <strong>di</strong> correlazione tra il voto<br />

<strong>de</strong>ll’esame interme<strong>di</strong>o e quello <strong>de</strong>ll’esame finale è r = 0.5. C’è inoltre<br />

associazione lineare tra le variabili.<br />

Stimare il punteggio me<strong>di</strong>o all’esame finale per gli stu<strong>de</strong>nti che<br />

nell’esame interme<strong>di</strong>o hanno avuto i risultati seguenti: 30, 60 e 75.<br />

σX<br />

¯X)


100<br />

Soluzione. Nel <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione in<strong>di</strong>chiamo in ascissa i valori<br />

<strong>de</strong>ll’esame interme<strong>di</strong>o ed in or<strong>di</strong>nata i valori <strong>de</strong>ll’esame finale.<br />

Riassumiamo i dati:<br />

¯X = 60 σX = 15<br />

¯Y = 60 σY = 15<br />

r = 0.5.<br />

Pren<strong>di</strong>amo in esame la retta <strong>di</strong> regressione:<br />

y = r σY<br />

x + ( ¯ Y − r σY<br />

σX<br />

σX<br />

¯X) = 0.5x + (60 − 0.5 · 60) = 0.5x + 30.<br />

Quin<strong>di</strong>, gli stu<strong>de</strong>nti che ottennero nell’esame il punteggio <strong>di</strong> 30, all’esame<br />

finale avranno in me<strong>di</strong>a un punteggio <strong>di</strong> 0.5 · 30 + 30 = 45. Gli<br />

stu<strong>de</strong>nti che ottennero nell’esame il punteggio <strong>di</strong> 60, all’esame finale<br />

avranno in me<strong>di</strong>a un punteggio <strong>di</strong> 0.5 · 60 + 30 = 60. Gli stu<strong>de</strong>nti<br />

che ottennero nell’esame il punteggio <strong>di</strong> 75, all’esame finale avranno in<br />

me<strong>di</strong>a un punteggio <strong>di</strong> 0.5 · 75 + 30 = 67.5.<br />

21. Il grafico <strong>de</strong>lle me<strong>di</strong>e<br />

Per ottenere il grafico <strong>de</strong>lle me<strong>di</strong>e si proce<strong>de</strong> nel modo seguente: in<br />

corrispon<strong>de</strong>nza a ciascun valore <strong>de</strong>lla variabile aleatoria X si riporta la<br />

me<strong>di</strong>a <strong>de</strong>i valori assunti dalla variabile Y relativamente a quel valore<br />

stesso. Ovvero, il grafico <strong>de</strong>lle me<strong>di</strong>e è costituito da tutte le coppie<br />

(xi, ¯yi) dove xi è un fissato valore assunto da X e ¯yi è la me<strong>di</strong>a <strong>di</strong> tutti<br />

i valori assunti da Y relativamente agli in<strong>di</strong>vidui per i quali la variabile<br />

aleatoria X assume i valori xi.<br />

In generale la retta <strong>di</strong> regressione è una approssimazione <strong>de</strong>l grafico<br />

<strong>de</strong>lle me<strong>di</strong>e. Cioè molti punti <strong>de</strong>l grafico <strong>de</strong>lle me<strong>di</strong>e stanno sulla retta<br />

<strong>di</strong> regressione. La retta <strong>di</strong> regressione mi dà una stima <strong>de</strong>lla me<strong>di</strong>a <strong>de</strong>i<br />

valori assunti da Y in corrispon<strong>de</strong>nza <strong>de</strong>i valori assunti da X. In tal<br />

senso possiamo <strong>di</strong>re che la retta <strong>di</strong> regressione è una versione smussata<br />

<strong>de</strong>l grafico <strong>de</strong>lle me<strong>di</strong>e. Se il grafico <strong>de</strong>lle me<strong>di</strong>e si presenta come una<br />

retta, questa è la retta <strong>di</strong> regressione. Quando l’associazione tra le variabili<br />

non è lineare la retta <strong>di</strong> regressione risulta una approssimazione<br />

grossolana. Si usa il metodo <strong>di</strong> regressione quando l’associazione fra le<br />

variabili è lineare. Cioè quando la forma <strong>de</strong>l <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione<br />

è un ovale allungato.<br />

Esercizio 21. Una università americana svolge uno stu<strong>di</strong>o per analizzare<br />

la relazione tra il punteggio ottenuto da ciascun stu<strong>de</strong>nte al test<br />

<strong>di</strong> ammissione (che va da 200 ad 800 punti) ed il voto complessivo riportato<br />

alla fine <strong>de</strong>l primo anno <strong>di</strong> corso (che può assumere valori da


40 80<br />

21. IL GRAFICO DELLE MEDIE 101<br />

160 170 180 190 200<br />

Figura 62. Su <strong>di</strong> un grafico <strong>di</strong> <strong>di</strong>spersione sono state<br />

riportate la retta <strong>di</strong> regressione ed alcuni punti <strong>de</strong>l grafico<br />

<strong>de</strong>lle me<strong>di</strong>e.<br />

0 a 4). I dati vengono sintetizzati come segue:<br />

¯X = 550 σX = 80<br />

¯Y = 2.6 σY = 0.6<br />

(X è la variabile aleatoria che dà i punteggi <strong>di</strong> ammissione e Y quella<br />

<strong>de</strong>lla me<strong>di</strong>a <strong>de</strong>i punteggi <strong>di</strong> fine anno). Per le variabili si ipotizza una<br />

associazione lineare con coefficiente <strong>di</strong> correlazione r = 0.4. Vogliamo<br />

conoscere la previsione sul voto complessivo alla fine <strong>de</strong>l primo anno<br />

per uno stu<strong>de</strong>nte che al test <strong>di</strong> ammissione ha ottenuto un punteggio<br />

<strong>di</strong> 650.<br />

Soluzione. Dall’equazione <strong>de</strong>lla retta <strong>di</strong> regressione si ha<br />

y = r σY<br />

x + ( ¯ Y − r σY<br />

σX<br />

σX<br />

¯X) = 0.4 0.6<br />

(650 − 550) + 2.6 = 0.3 + 2.6 = 2.9.<br />

80<br />

Ovviamente questa è soltanto una previsione non un dato certo.<br />

Esercizio 22. Relativamente all’osservazione <strong>de</strong>ll’altezza e <strong>de</strong>l peso<br />

<strong>di</strong> 988 uomini, <strong>di</strong> età compresa fra i 18 ed i 24 anni, quale previsione<br />

si può fare per il peso <strong>di</strong> uno <strong>di</strong> questi uomini scelti a caso? Quale<br />

previsione si può fare per il peso <strong>di</strong> quest’ultimo se si sa che è alto<br />

185.4 cm?


102<br />

Soluzione. Se in<strong>di</strong>chiamo con X la variabile aleatoria altezza e con Y<br />

la variabile aleatoria peso, ricor<strong>di</strong>amo i dati:<br />

¯X = 177.8 cm σX = 7.6 cm<br />

¯Y = 73.5 kg σY = 13.6 kg<br />

r = 0.47<br />

e che fra le variabili si ha una associazione lineare. Se non si sa nulla<br />

<strong>de</strong>ll’uomo scelto a caso, allora l’unica previsione che si può fare sul peso<br />

è 73.5 kg, cioè il valore <strong>de</strong>lla me<strong>di</strong>a <strong>de</strong>l peso per tutti i 988 uomini. Se<br />

si sa che l’uomo scelto è alto 185.4 cm allora si ha<br />

y = r σY<br />

x + ( ¯ Y − r σY ¯X) = 0.47 13.6<br />

(185.4 − 177.8) + 73.5 = 79.9 kg.<br />

7.6<br />

σX<br />

σX<br />

22. L’effetto <strong>di</strong> regressione<br />

Ritorniamo all’esperimento <strong>di</strong> Galton relativo all’altezza <strong>di</strong> 1078<br />

coppie padre-figlio il cui <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione, presentato nella<br />

Figura 40 <strong>di</strong> pagina 76, ha la classica forma ovoidale e mostra dunque<br />

una associazione lineare fra la variabile aleatoria X, altezza <strong>de</strong>l padre,<br />

e la variabile aleatoria Y , altezza <strong>de</strong>l figlio. Ricor<strong>di</strong>amo i dati:<br />

¯X = 173 cm σX = 6.75 cm<br />

¯Y = 175.5 cm σY = 6.75 cm<br />

r = 0.5<br />

Dunque la me<strong>di</strong>a <strong>de</strong>lle altezze <strong>de</strong>i figli supera <strong>di</strong> 2.5 cm la me<strong>di</strong>a <strong>de</strong>lle<br />

altezze <strong>de</strong>i padri. Alla domanda: quanto preve<strong>di</strong>amo che sia l’altezza<br />

<strong>di</strong> un figlio che ha il padre alto 163 cm? Molti sarebbero portati a<br />

rispon<strong>de</strong>re 165.5 cm. La risposta NON è corretta. La risposta corretta<br />

è la seguente. Una altezza <strong>di</strong> 163 cm corrispon<strong>de</strong> a 163 = ¯ X − tσX =<br />

173 − 6.75t cioè t = 10/6.75 dunque si preve<strong>de</strong> una altezza me<strong>di</strong>a <strong>de</strong>i<br />

figli con padre alto 163 cm <strong>di</strong><br />

y = ¯ Y − t · r · σY = 175.5 − 10<br />

6.75 0.5 · 6.75 = 175.5 − 5 = 170.5.<br />

Quin<strong>di</strong>, in me<strong>di</strong>a l’altezza <strong>de</strong>i figli è maggiore <strong>di</strong> quello che saremmo<br />

portati a cre<strong>de</strong>re.<br />

Cosa acca<strong>de</strong> se pren<strong>di</strong>amo un padre che sia più alto <strong>di</strong> 173 cm che è<br />

l’altezza me<strong>di</strong>a? Supponiamo <strong>di</strong> pren<strong>de</strong>re un padre alto 183 cm quanto<br />

si può preve<strong>de</strong>re che sia l’altezza <strong>de</strong>l figlio? Saremmo portati anche<br />

in questo caso a supporre che l’altezza <strong>de</strong>l figlio superi <strong>di</strong> 2.5 cm <strong>di</strong><br />

me<strong>di</strong>a l’altezza <strong>de</strong>l padre, cioè sia <strong>di</strong> 185.5 cm. Anche in questo caso


22. L’EFFETTO DI REGRESSIONE 103<br />

questa risposta non è corretta. Infatti 183 = ¯ X + t6.75 corrispon<strong>de</strong> a<br />

t = 10/6.75 e quin<strong>di</strong> si preve<strong>de</strong> una me<strong>di</strong>a <strong>de</strong>ll’altezza <strong>de</strong>i figli <strong>di</strong><br />

y = 175.5 + 10<br />

0.5 · 6.75 = 180.5 cm.<br />

6.75<br />

Quin<strong>di</strong> la me<strong>di</strong>a <strong>de</strong>ll’altezza <strong>de</strong>i figli è più bassa <strong>di</strong> quello che saremmo<br />

portati a cre<strong>de</strong>re.<br />

Possiamo conclu<strong>de</strong>re che padri più bassi <strong>de</strong>lla me<strong>di</strong>a hanno in me<strong>di</strong>a<br />

figli più alti <strong>di</strong> una quantità superiore allo scarto me<strong>di</strong>o <strong>de</strong>lle altezze<br />

mentre padri più alti <strong>de</strong>lla me<strong>di</strong>a avranno figli più alti <strong>di</strong> una quantià<br />

inferiore allo scarto <strong>de</strong>lle me<strong>di</strong>e. Questo è quello che si chiama effetto<br />

<strong>di</strong> regressione. Lo si può ben spiegare osservando i grafici <strong>de</strong>lla retta<br />

<strong>de</strong>lle SD e <strong>de</strong>lla retta <strong>di</strong> regressione. Ricor<strong>di</strong>amo che le due rette hanno,<br />

rispettivamente, equazioni (per r = 0)<br />

y = rσY<br />

x −<br />

|r|σX<br />

rσY<br />

|r|σX<br />

y = rσY<br />

σX<br />

x − rσY<br />

σX<br />

¯X + ¯ Y<br />

¯X + ¯ Y<br />

e quin<strong>di</strong> il coefficiente angolare <strong>de</strong>lla retta <strong>di</strong> regressione è più basso (in<br />

valore assoluto) <strong>di</strong> quello <strong>de</strong>lla retta <strong>de</strong>lle SD. La retta <strong>de</strong>lle SD taglia<br />

circa in due la nuvola <strong>de</strong>l <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione, ma le previsioni<br />

si verificano seguendo la retta <strong>di</strong> regressione come è illustrato dalla<br />

Figura 63.<br />

L’effetto <strong>di</strong> regressione si riscontra molto spesso nella realtà. Lo si<br />

riscontra in quasi tutte le situazioni in cui si ripete un test. In quasi<br />

tutte le situazioni in cui si ripete un test, il gruppo <strong>di</strong> in<strong>di</strong>vidui che si<br />

rivela il peggiore nel primo test mostra un miglioramento al secondo e<br />

viceversa per il gruppo migliore.<br />

Osservazione 22.1. Quando si lavora analizzando i dati su due<br />

o più variabili, è sempre possibile standar<strong>di</strong>zzare le variabili in modo<br />

tale che la me<strong>di</strong>a e lo scarto <strong>de</strong>i dati analizzati sia uguale per ogni<br />

variabile. Ve<strong>di</strong>amo come si proce<strong>de</strong> nel caso <strong>di</strong> due variabili aleatorie<br />

X ed Y (analogamente si proce<strong>de</strong> se le variabili sono più <strong>di</strong> due.)<br />

Supponiamo che i dati raccolti sulla variabile X presentino me<strong>di</strong>a µ1 e<br />

scarto σ1 e che i dati raccolti per Y presentino me<strong>di</strong>a µ2 e scarto σ2.<br />

Vogliamo “standar<strong>di</strong>zzare” i dati in modo che la me<strong>di</strong>a sia µ e lo scarto<br />

σ. Introduciamo allora al posto <strong>de</strong>lla variabile X la variabile<br />

Z1 = σ<br />

(X − µ1) + µ<br />

σ1


104<br />

160 180<br />

160 170 180 190<br />

Figura 63<br />

e al posto <strong>de</strong>lla variabile Y la variabile<br />

Z2 = σ<br />

(Y − µ2) + µ.<br />

σ2<br />

Se x1, x2, . . . , xn sono gli n dati raccolti per la X, <strong>di</strong> me<strong>di</strong>a µ1 e scarto<br />

σ1, e se y1, y2, . . . , yn sono gli n dati per la Y , <strong>di</strong> me<strong>di</strong>a µ2 e scarto σ2,<br />

allora i dati raccolti per Z1 e Z2 saranno rispettivamente:<br />

σ<br />

(xi − µ1) + µ i = 1, 2, . . . , n<br />

σ1<br />

σ<br />

(yi − µ2) + µ i = 1, 2, . . . , n.<br />

σ2<br />

calcolando la me<strong>di</strong>a <strong>de</strong>i dati raccolti su Z1 si ottiene<br />

n 1 σ<br />

(xi − µ1) + µ<br />

n<br />

= σ<br />

n 1<br />

(xi − µ1) +<br />

n<br />

nµ<br />

n<br />

poiché<br />

i=1<br />

σ1<br />

σ1<br />

i=1<br />

n<br />

(xi − µ1) = 0.<br />

i=1<br />

= µ<br />

Per la varibile Z2 si prova, in modo analogo, che la me<strong>di</strong>a <strong>de</strong>i dati<br />

raccolti risulta µ.


22. L’EFFETTO DI REGRESSIONE 105<br />

Calcoliamo ora lo scarto <strong>de</strong>i dati raccolti per la variabile Z1:<br />

<br />

<br />

<br />

1<br />

n σ<br />

(xi − µ1) + µ − µ<br />

n σ1<br />

i=1<br />

<br />

<br />

2 <br />

= 1<br />

n σ<br />

(xi − µ1)<br />

n σ1<br />

i=1<br />

2 = σ<br />

<br />

<br />

<br />

1<br />

n 2 σ<br />

xi − µ1 = σ1 = σ.<br />

n<br />

Dimostrazione analoga si conduce per Z2.<br />

Osserviamo che il coefficiente <strong>di</strong> correlazione fra Z1 e Z2 è lo stesso<br />

<strong>di</strong> quello fra X ed Y perché il coefficiente <strong>di</strong> correlazione non cambia<br />

per cambiamenti <strong>di</strong> scala e per traslazione.<br />

Utilizzare le variabili standar<strong>di</strong>zzate Z1 e Z2 al posto <strong>di</strong> X ed Y ci<br />

consente <strong>di</strong> avere una retta <strong>de</strong>lle SD con coefficiente angolare 1 (bisettrice<br />

<strong>de</strong>l primo quadrante), mentre la retta <strong>di</strong> regressione ha coefficiente<br />

angolare uguale al coefficiente <strong>di</strong> correlazione r. Questo ren<strong>de</strong> ancora<br />

più chiaro l’effetto <strong>di</strong> regressione. Supponiamo infatti che tra X ed Y<br />

ci sia una associazione lineare con coefficiente <strong>di</strong> correlazione positivo.<br />

All’aumentare <strong>de</strong>i valori osservati per X aumentano i valori per Y .<br />

Ad un incremento <strong>di</strong> Z1 pari ad un multiplo t <strong>di</strong> σ corrispon<strong>de</strong>, in me<strong>di</strong>a,<br />

un aumento <strong>di</strong> Z2 pari ad un multiplo rt <strong>di</strong> σ. Cioè all’aumentare <strong>di</strong><br />

Z1 aumenta Z2 ma in me<strong>di</strong>a Z2 aumenta meno velocemente <strong>di</strong> Z1: ad<br />

incrementi maggiori <strong>di</strong> Z1 corrispondono, in me<strong>di</strong>a, incrementi inferiori<br />

<strong>di</strong> Z2 e viceversa.<br />

Esercizio 23. Un’insegnante ha sottoposto i suoi stu<strong>de</strong>nti a due<br />

test (uno interme<strong>di</strong>o ed uno finale) ed ha standar<strong>di</strong>zzato i voti in modo<br />

tale che, per entrambi i test, il punteggio me<strong>di</strong>o è risultato <strong>di</strong> 50 con<br />

uno scarto <strong>di</strong> 10. Il coefficiente <strong>di</strong> correlazione tra i punteggi <strong>de</strong>i due<br />

test è risultato <strong>di</strong> 0.5. L’associazione tra i voti conseguiti nei due test<br />

è <strong>di</strong> tipo lineare. Che voto ci si aspetta nel secondo test dagli stu<strong>de</strong>nti<br />

che nel primo test hanno ottenuto rispettivamente 30 e 70 punti?<br />

Soluzione. Gli stu<strong>de</strong>nti che hanno ottenuto un punteggio <strong>di</strong> 30 sono<br />

sotto la me<strong>di</strong>a <strong>di</strong> due volte lo scarto. Per essi nel secondo test si preve<strong>de</strong><br />

che in me<strong>di</strong>a conseguano un voto sotto la me<strong>di</strong>a <strong>di</strong> 2·0.5 volte lo scarto,<br />

cioè conseguano nel secondo test un punteggio <strong>di</strong> 40.<br />

Gli stu<strong>de</strong>nti che al primo test hanno ottenuto un punteggio <strong>di</strong> 70<br />

sono sopra la me<strong>di</strong>a <strong>di</strong> 2 volte lo scarto. Si preve<strong>de</strong> che nel secondo<br />

test otterranno un punteggio superiore <strong>di</strong> 2 · 0.5 volte lo scarto, cioè<br />

conseguano, in me<strong>di</strong>a, un punteggio <strong>di</strong> 60. Come ci si aspetta, per<br />

l’effetto <strong>di</strong> regressione, gli stu<strong>de</strong>nti che al primo test hanno ottenuto<br />

un punteggio inferiore alla me<strong>di</strong>a, migliorano in me<strong>di</strong>a al secondo test.<br />

σ1<br />

i=1<br />

σ1


106<br />

Gli stu<strong>de</strong>nti che al primo test hanno ottenuto un punteggio superiore<br />

alla me<strong>di</strong>a peggiorano in me<strong>di</strong>a nel secondo test.<br />

23. Le rette <strong>di</strong> regressione sono due<br />

Abbiamo visto finora che quando c’è associazione lineare tra X ed<br />

Y la retta <strong>di</strong> regressione può essere utilizzata per stimare la me<strong>di</strong>a <strong>de</strong>i<br />

valori assunti da Y in corrispon<strong>de</strong>nza <strong>di</strong> un dato valore <strong>di</strong> X. Si può<br />

però stimare la me<strong>di</strong>a <strong>de</strong>i valori <strong>di</strong> X in corrispon<strong>de</strong>nza <strong>di</strong> un valore<br />

assunto da Y . Si tratta in questo caso <strong>di</strong> esprimere X in funzione <strong>di</strong> Y<br />

e non il contrario. La retta <strong>di</strong> regressione <strong>di</strong> Y su X è data dalla retta<br />

<strong>di</strong> equazione:<br />

x = r σX<br />

(y − ¯ Y ) + ¯ X.<br />

σY<br />

Esercizio 24. Si standar<strong>di</strong>zzano i quozienti intellettivi <strong>di</strong> un gruppo<br />

<strong>di</strong> mariti e <strong>de</strong>lle relative mogli in modo che entrambi i gruppi abbiano<br />

una me<strong>di</strong>a <strong>di</strong> 100 ed uno scarto <strong>di</strong> 15. L’associazione è lineare<br />

con un coefficiente <strong>di</strong> correlazione <strong>di</strong> r = 0.5. Quanto vale il quoziente<br />

me<strong>di</strong>o <strong>de</strong>lle mogli <strong>di</strong> coloro che hanno un quoziente intellettivo <strong>di</strong><br />

140? Quanto vale il quoziente me<strong>di</strong>o <strong>de</strong>i mariti le cui mogli hanno un<br />

coefficiente <strong>di</strong> 120?<br />

Soluzione. Sia X la variabile aleatoria che rappresenta il Q.I. <strong>de</strong>i mariti<br />

e sia Y la variabile aleatoria che rappresenta il Q.I. <strong>de</strong>lle mogli. Le due<br />

rette <strong>di</strong> regressione hanno equazione:<br />

cioè<br />

y = 0.5x − 0.5 · 100 + 100<br />

x = 0.5y − 0.5 · 100 + 100,<br />

y = 1<br />

1<br />

x + 50 x = y + 50.<br />

2 2<br />

Se rappresentiamo queste due rette su <strong>di</strong> uno stesso grafico, le due rette<br />

avranno le equazioni<br />

y = 1<br />

x + 50 y = 2x − 100.<br />

2<br />

Soluzione. Se il marito ha Q.I. pari a 140, la moglie avrà in me<strong>di</strong>a Q.I.<br />

pari a<br />

1<br />

140 + 50 = 120.<br />

2<br />

Se la moglie ha Q.I. pari a 120 in me<strong>di</strong>a il marito ha Q.I. pari a<br />

1<br />

120 + 50 = 110.<br />

2


Q.I. moglie<br />

60 100 140<br />

23. LE RETTE DI REGRESSIONE SONO DUE 107<br />

60 80 100 120 140<br />

Q.I. marito<br />

Figura 64. La retta <strong>de</strong>lle <strong>de</strong>viazioni standard è a tratto<br />

continuo, la retta <strong>di</strong> regressione moglie/marito a trattini,<br />

mentre la retta <strong>di</strong> regressione marito/moglie è a puntini.<br />

Esercizio <strong>25</strong>. In uno stu<strong>di</strong>o <strong>de</strong>lla stabilità <strong>de</strong>l Q.I. alcuni in<strong>di</strong>vidui<br />

sono stati sottoposti ad un test all’età <strong>di</strong> 18 anni e ad un’altro test<br />

all’età <strong>di</strong> 35 anni. I rusultati sono:<br />

18 anni punteggio me<strong>di</strong>o=100 scarto=15<br />

35 anni punteggio me<strong>di</strong>o=100 scarto=15.<br />

Si ha inoltre che la correlazione è lineare con r = 0.8.<br />

Stimare il punteggio ottenuto all’età <strong>di</strong> 35 anni per coloro che all’età<br />

<strong>di</strong> 18 anni hanno ottenuto un punteggio <strong>di</strong> 115. Preve<strong>de</strong>re il punteggio<br />

ottenuto all’età <strong>di</strong> 18 anni per coloro che all’età <strong>di</strong> 35 anni hanno<br />

ottenuto un punteggio <strong>di</strong> 115.<br />

Soluzione. In<strong>di</strong>chiamo con X la variabile aleatoria che rappresenta il<br />

Q.I. a 18 anni e con Y quella che rappresenta il Q.I. a 35 anni. Le due<br />

rette <strong>di</strong> regressione hanno rispettivamente equazione<br />

y = r σY<br />

(x − ¯ X) + ¯ Y = 0.8x + 20<br />

σX<br />

x = r σX<br />

(y − ¯ Y ) + ¯ X = 0.8x + 20.<br />

σY<br />

Gli in<strong>di</strong>vidui che a 18 anni hanno ottenuto un Q.I. <strong>di</strong> 115, in me<strong>di</strong>a, a<br />

35 anni avranno un Q.I. <strong>di</strong> 0.8 · 115 + 20 = 112. Gli in<strong>di</strong>vidui che a 35<br />

anni hanno ottenuto un Q.I. <strong>di</strong> 115, in me<strong>di</strong>a, a 18 anni avranno avuto<br />

un Q.I. <strong>di</strong> 0.8 · 115 + 20 = 112.


108<br />

Esercizio 26. È bene essere in grado <strong>di</strong> calcolare la resa <strong>di</strong> prodotto<br />

utile <strong>di</strong> un albero basata sulle misurazioni <strong>de</strong>ll’albero effettuate<br />

prima <strong>de</strong>l raccolto. Esaminando un campione <strong>di</strong> 100 alberi <strong>di</strong> mele si<br />

sono valutate due variabili aleatorie:<br />

• la X è il <strong>di</strong>ametro <strong>de</strong>ll’albero a 1 m dal livello <strong>de</strong>l suolo in<br />

pollici;<br />

• la Y è il peso <strong>de</strong>l raccolto <strong>de</strong>ll’albero in libre.<br />

Dai dati raccolti e dall’analisi <strong>de</strong>l <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione ci si accorge<br />

che c’è correlazione lineare. Inoltre si ha r = 0.7, ¯ X = 5.5, σX = 2 e<br />

¯Y = 450, σY = 100. Quale sarà il peso <strong>de</strong>l raccolto stimato per alberi<br />

<strong>di</strong> <strong>di</strong>ametro 7?<br />

Soluzione. La retta <strong>di</strong> regressione ha equazione<br />

y = 0.7 100<br />

x − 0.71005.5<br />

+ 450 = 35x + <strong>25</strong>7.5.<br />

2 2<br />

Dunque il peso me<strong>di</strong>o <strong>de</strong>l raccolto è stimato da<br />

y = 35 · 7 + <strong>25</strong>7.5 = 502.5.<br />

Esercizio 27. Nel grafico qui sotto vengono riportate tre rette.<br />

Figura 65. Posizione reciproca <strong>de</strong>lle due rette <strong>di</strong> regressione<br />

e <strong>de</strong>lla retta <strong>de</strong>lle <strong>de</strong>viazioni standard, a<br />

tratti.<br />

Una è la retta <strong>de</strong>lle SD, una è la retta <strong>di</strong> regressione <strong>di</strong> Y rispetto<br />

ad X e l’ultima è la retta <strong>di</strong> regressione <strong>di</strong> X rispetto ad Y . Osservando<br />

il grafico <strong>di</strong> <strong>di</strong>spersione in<strong>di</strong>viduare le tre rette.<br />

Soluzione. Il grafico <strong>di</strong> <strong>di</strong>spersione rappresenta una forma ovoidale e<br />

quin<strong>di</strong> c’è una associazione lineare. Vista l’inclinazione <strong>de</strong>l <strong>di</strong>agramma<br />

<strong>di</strong> <strong>di</strong>spersione il coefficiente <strong>di</strong> correlazione è positivo. La retta tratteggiata<br />

taglia in due la nuvola <strong>de</strong>i punti, quin<strong>di</strong> è la retta <strong>de</strong>lle SD.


24. IL ROOT MEAN SQUARE ERROR DELLA REGRESSIONE 109<br />

Ricor<strong>di</strong>amo che la retta <strong>di</strong> regressione <strong>di</strong> Y rispetto ad X ha equazione<br />

y = r σY<br />

(x − ¯ X) + ¯ Y<br />

σX<br />

mentre quella <strong>di</strong> X rispetto ad Y ha equazione<br />

x = r σX<br />

(y − ¯ Y ) + ¯ X.<br />

σY<br />

Se in quest’ultima equazione esplicitiamo la y si ottiene<br />

y = 1 σY<br />

(x −<br />

r σX<br />

¯ X) + ¯ Y .<br />

Se rappresento entrambe le rette sullo stesso <strong>di</strong>agramma osservo che la<br />

retta <strong>di</strong> regressione <strong>di</strong> Y rispetto ad X ha coefficiente angolare pari a<br />

r σY mentre la retta <strong>di</strong> regressione <strong>di</strong> X rispetto ad Y ha coeffciente<br />

σX<br />

angolare pari a 1 σY<br />

1 σY σY<br />

. Poiché 0 < r < 1 si ha che > r . Perciò la<br />

r σX r σX σX<br />

retta punteggiata è la retta <strong>di</strong> regressione <strong>di</strong> X rispetto ad Y mentre<br />

quella a tratto continuo è quella <strong>di</strong> Y rispetto ad X.<br />

24. Il Root Mean Square Error <strong>de</strong>lla regressione<br />

Il metodo <strong>de</strong>lla regressione può essere utilizzato per preve<strong>de</strong>re Y<br />

a partire da X; tuttavia le previsioni ottenute <strong>di</strong>fferiscono spesso dai<br />

valori effettivamente osservati. Ve<strong>di</strong>amo ora come ottenere una misura<br />

globale <strong>de</strong>lle <strong>di</strong>fferenze tra valori osservati e valori previsti calcolando<br />

la ra<strong>di</strong>ce quadrata <strong>de</strong>ll’errore quadratico me<strong>di</strong>o (in inglese root mean<br />

square error, in<strong>di</strong>cato con RMSE).<br />

Nel grafico che riportiamo nella figura seguente in<strong>di</strong>chiamo con <strong>de</strong>i<br />

segmenti le <strong>di</strong>stanze tra i valori osservati ed i valori previsti utilizzando<br />

la retta <strong>di</strong> regressione.<br />

Fissato un valore per X, la retta <strong>di</strong> regressione <strong>di</strong> Y rispetto ad<br />

X mi permette <strong>di</strong> stimare il valore previsto per Y in relazione ad un<br />

fissato valore <strong>di</strong> X. Ovvero, fissato un valore ˜x per X, la me<strong>di</strong>a <strong>de</strong>i<br />

valori assunti da Y relativamente agli in<strong>di</strong>vidui per i quali il valore <strong>de</strong>lla<br />

variabile aleatoria X assume il valore ˜x, può venire prevista utilizzando<br />

la retta <strong>di</strong> regressione. Si ha così una stima <strong>di</strong> Y per tutti gli in<strong>di</strong>vidui<br />

per i quali X ha valore ˜x. In realtà ogni osservazione darà un valore <strong>di</strong><br />

Y che non è esattamente quello previsto. Utilizzando la stima <strong>di</strong> Y si<br />

commette perciò un errore che è<br />

Valore effettivo <strong>di</strong> Y - Valore previsto per Y<br />

Ritornando alla figura prece<strong>de</strong>nte, ogni punto rappresenta una osservazione<br />

<strong>de</strong>l nostro campione ed è in<strong>di</strong>viduato dalla coppia (xi, yi) <strong>di</strong> valori<br />

assunti dalle variabili aleatorie X ed Y per l’osservazione i-esima. La<br />

<strong>di</strong>stanza verticale tra ogni punto ed il punto che ha la me<strong>de</strong>sima ascissa


110<br />

−6 −2 2<br />

−5 0 5<br />

Figura 66. I segmenti verticali misurano la <strong>di</strong>stanza<br />

<strong>de</strong>i valori misurati da quelli previsti sulla retta <strong>di</strong><br />

regressione.<br />

ma sta sulla retta <strong>di</strong> regressione misura l’errore che si commette stimando<br />

il valore <strong>di</strong> Y conoscendo il valore <strong>di</strong> xi, ve<strong>di</strong> in proposito la<br />

Figura 67.<br />

Figura 67<br />

yi<br />

˜yi<br />

xi<br />

}errore


24. IL ROOT MEAN SQUARE ERROR DELLA REGRESSIONE 111<br />

Se in<strong>di</strong>chiamo con ˜yi il valore previsto per Y quando X vale xi e<br />

posto n il numero <strong>de</strong>lle osservazioni si ha:<br />

<br />

<br />

<br />

RMSE = 1<br />

n<br />

(yi − ˜yi)<br />

n<br />

2<br />

vale poi la seguente regola: Il 68 % <strong>de</strong>lle osservazioni ca<strong>de</strong> nella<br />

banda compresa fra le due rette, parallele alla retta <strong>di</strong> regressione, <strong>di</strong><br />

equazioni:<br />

i=1<br />

y = r σY<br />

(x − ¯ X) + ¯ Y + RMSE<br />

σX<br />

y = r σY<br />

(x − ¯ X) + ¯ Y − RMSE.<br />

σX<br />

Il 95 % <strong>de</strong>lle osservazioni ca<strong>de</strong> nella banda compresa fra le due rette,<br />

parallele alla retta <strong>di</strong> regressione, <strong>di</strong> equazioni:<br />

y = r σY<br />

(x − ¯ X) + ¯ Y + 2RMSE<br />

σX<br />

y = r σY<br />

(x − ¯ X) + ¯ Y − 2RMSE.<br />

σX<br />

Ve<strong>di</strong>amo come è legato il valore RMSE al coefficiente <strong>di</strong> correlazione.<br />

Ricordando che la retta <strong>di</strong> regressione ha equazione<br />

si ha, per ogni i = 1, 2, . . . , n,<br />

e quin<strong>di</strong><br />

RMSE 2 = 1<br />

n<br />

= 1<br />

n<br />

= 1<br />

n<br />

= 1<br />

n<br />

n<br />

(yi − ˜yi) 2<br />

i=1<br />

y = r σY<br />

(x − ¯ X) + ¯ Y<br />

σX<br />

˜yi − ¯ Y = r σY<br />

(xi − ¯ X)<br />

σX<br />

n <br />

(yi − ¯ Y ) − (˜yi − ¯ Y ) 2 i=1<br />

n <br />

(yi − ¯ Y ) − r σY<br />

(xi − ¯ X) 2 i=1<br />

σX<br />

n<br />

(yi − ¯ Y ) 2 − 2r σY<br />

1<br />

n<br />

i=1<br />

σX<br />

i=1<br />

= σ 2 Y − 2rσ 2 Y r + r 2 σ 2 Y = σ 2 Y (1 − r 2 ).<br />

√<br />

Si ha così che RMSE = σY 1 − r2 .<br />

n<br />

(yi − ¯ Y )(xi − ¯ X) + r σY<br />

σX<br />

2 1<br />

n<br />

n<br />

(xi − ¯ X) 2<br />

i=1


112<br />

Osserviamo che se (x1, y1), (x2, y2), . . . , (xn, yn) sono i dati raccolti,<br />

l’errore che si commette pren<strong>de</strong>ndo come stima <strong>di</strong> ogni osservazione il<br />

valore me<strong>di</strong>o <strong>de</strong>lla variabile aleatoria ¯ Y è dato da<br />

<br />

<br />

<br />

1<br />

n<br />

(yi −<br />

n<br />

¯ Y ) 2 = σY<br />

i=1<br />

che è maggiore <strong>di</strong> RSME = √ 1 − r 2 σY che è l’errore che si commette<br />

utilizzando la retta <strong>di</strong> regressione per ottenere la stima.<br />

Il coeffciente <strong>di</strong> correlazione non ha <strong>di</strong>mensioni (non ha unità <strong>di</strong><br />

misura). Invece, l’errore RSME ha come unità <strong>di</strong> misura la stessa <strong>di</strong><br />

σy che è poi la stessa <strong>di</strong> Y .<br />

Nel caso <strong>di</strong> r = 1 o r = −1, cioè quando si ha una correlazione<br />

perfetta si ha che RSME = √ 1 − 1σY = 0 ed i punti <strong>de</strong>l <strong>di</strong>agramma<br />

<strong>di</strong> <strong>di</strong>spersione risultano tutti allineati sulla retta <strong>di</strong> regressione. Se si<br />

utilizza questa per preve<strong>de</strong>re i valori <strong>di</strong> Y non si commettono errori.<br />

<strong>25</strong>. Il <strong>di</strong>agramma <strong>de</strong>i residui<br />

Gli errori <strong>di</strong> previsione, che in<strong>di</strong>chiamo con ei = yi − ˜yi vengono<br />

chiamati residui. Gli statistici analizzano i residui per mezzo <strong>di</strong> grafici<br />

che vengono <strong>de</strong>tti <strong>di</strong>agrammi <strong>de</strong>i residui.<br />

Il <strong>di</strong>agramma <strong>de</strong>i residui si ottiene tracciando il <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione<br />

<strong>de</strong>lla variabile aleatoria E, i cui valori sono gli errori ei =<br />

yi − ˜yi, rispetto alla variabile aleatoria X, come è illustrato nei due<br />

grafici <strong>di</strong> Figura 68.<br />

−10 0 5<br />

−5 0 5<br />

−4 0 2<br />

Figura 68<br />

−10 −5 0 5<br />

I residui godono <strong>de</strong>lle seguenti proprietà (che si possono <strong>di</strong>mostrare<br />

matematicamente):<br />

• La me<strong>di</strong>a aritmetica <strong>de</strong>i residui è zero.


26. DIAGRAMMI DI DISPERSIONE OMOSCHEDASTICI ED ETEROSCHEDASTICI 113<br />

• La retta <strong>di</strong> regressione <strong>de</strong>i residui è orizzontale.<br />

26. Diagrammi <strong>di</strong> <strong>di</strong>spersione Omoschedastici ed<br />

Eteroschedastici<br />

Ritorniamo al <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione relativo all’altezza <strong>di</strong> 1078<br />

coppie padre-figlio <strong>de</strong>llo stu<strong>di</strong>o <strong>di</strong> Pearson, riportato nella Figura 40<br />

<strong>di</strong> pagina 76, che riportiamo qui per como<strong>di</strong>tà nella Figura 69. La<br />

banda verticale <strong>di</strong> sinistra riguarda le coppie in cui il padre è alto<br />

“circa” 163 cm, quella <strong>di</strong> <strong>de</strong>stra le coppie il cui padre è alto “circa” 183<br />

cm.<br />

Altezza <strong>de</strong>i figli<br />

160 180 200<br />

150 160 170 180 190 200<br />

Altezza <strong>de</strong>i padri<br />

Figura 69<br />

Se costruiamo gli istogrammi <strong>de</strong>lle <strong>di</strong>stribuzioni <strong>de</strong>lle altezze <strong>de</strong>i<br />

figli <strong>de</strong>lle coppie che ricadono nelle due ban<strong>de</strong>, come mostrato nella<br />

Figura 70, ci accorgiamo che i due istogrammi sono molto simili<br />

Questo perché tutte le ban<strong>de</strong> verticali sono caratterizzate più o<br />

meno dalla stessa <strong>di</strong>spersione. Un <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione in cui<br />

le ban<strong>de</strong> verticali sono caratterizzate circa dalla stessa <strong>di</strong>spersione si<br />

<strong>di</strong>ce omoschedastico. Un <strong>di</strong>agramma omoschedastico è un <strong>di</strong>agramma<br />

a forma ovoidale. Quando un <strong>di</strong>agramma è omoschedastico, i residui,<br />

ovvero gli errori <strong>di</strong> previsione, sono approssimativamente uguali lungo<br />

tutta la retta <strong>di</strong> regressione.


Frequency<br />

114<br />

0 5 15<br />

161−165<br />

150 160 170 180 190 200<br />

Frequency<br />

0 5 15<br />

181−185<br />

150 160 170 180 190 200<br />

Figura 70. Istogrammi <strong>de</strong>lla <strong>di</strong>stribuzione <strong>di</strong> frequenza<br />

<strong>de</strong>lle altezze <strong>de</strong>i figli <strong>di</strong> padri <strong>di</strong> altezze nei due intervalli<br />

[161, 165] e [181, 185].<br />

Quando un <strong>di</strong>agramma è omoschedastico, il RMSE è utilizzato<br />

per valutare la <strong>di</strong>spersione <strong>de</strong>i punti intorno alla retta <strong>di</strong> regressione in<br />

qualunque banda verticale.<br />

Ritornando all’esempio <strong>de</strong>lle 1078 coppie padre-figlio, <strong>de</strong>tta X la<br />

variabile aleatoria che rappresenta l’altezza <strong>de</strong>i padri ed Y quella che<br />

rappresenta l’altezza <strong>de</strong>i figli, ricor<strong>di</strong>amo che<br />

¯X = 173 cm σX = 6.75 cm<br />

¯Y = 175.5 cm σY = 6.75 cm<br />

r = 0.5 RMSE = √ 1 − r 2 σY = 5.8 cm,<br />

mentre la retta <strong>di</strong> regressione ha equazione<br />

y = r σY<br />

(x − ¯ X) + ¯ Y = 0.5(x − 173) + 175.5 = 0.5x + 89.<br />

σX<br />

Se un padre è alto 163 cm, la previsione <strong>de</strong>ll’altezza <strong>de</strong>l figlio è <strong>di</strong><br />

0.5 · 163 + 89 = 170.5. Poiché si ha RMSE = 5.8 cm, la vera altezza<br />

<strong>de</strong>l figlio sarà, con una probabilità <strong>de</strong>l 68 %, compresa fra 164.7 cm e<br />

176.3 cm.<br />

Per un padre alto 183 cm, la previsione <strong>de</strong>ll’altezza <strong>de</strong>l figlio è <strong>di</strong><br />

0.5 · 183 + 89 = 180.5 ed il figlio ha una probabilità <strong>de</strong>l 68 % <strong>di</strong> avere<br />

un’altezza compresa fra 174.7 cm e 186.7 cm.<br />

Quando il <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione non ha la forma ovoidale e le<br />

ban<strong>de</strong> verticali non sono caratterizzate dalla stessa <strong>di</strong>spersione rispetto<br />

alla retta <strong>di</strong> regressione il <strong>di</strong>agramma si <strong>di</strong>ce eteroschedastico. In questo<br />

caso il valore <strong>de</strong>l RMSE calcolato sulle ban<strong>de</strong> verticali cambia al<br />

cambiare <strong>de</strong>l valore <strong>de</strong>lla variabile aleatoria X.


27. IL METODO DEI MINIMI QUADRATI 115<br />

27. Il metodo <strong>de</strong>i minimi quadrati<br />

Analizziamo ora la retta <strong>di</strong> regressione da un altro punto <strong>di</strong> vista.<br />

Talvolta i punti <strong>di</strong> un <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione tendono a <strong>di</strong>sporsi<br />

grosso modo secondo una retta. Il problema è quin<strong>di</strong> quello <strong>di</strong> trovare<br />

una retta che meglio si adatti a questi punti. Tra le possibili rette,<br />

quella che si adatta meglio ai punti <strong>di</strong> un <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione<br />

è la retta <strong>di</strong> regressione. Questa retta viene perciò anche <strong>de</strong>tta la<br />

retta <strong>de</strong>i minimi quadrati. Se infatti si calcola la me<strong>di</strong>a <strong>de</strong>lle <strong>di</strong>stanze<br />

al quadrato <strong>de</strong>i punti <strong>de</strong>l <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione dai punti con la<br />

me<strong>de</strong>sima ascissa che stanno sulla retta <strong>di</strong> regressione, questa me<strong>di</strong>a<br />

ha un minimo per la retta <strong>di</strong> regressione.


1. LA DISTRIBUZIONE N(0, 1) i<br />

1. La <strong>di</strong>stribuzione N(0, 1)<br />

F (u) = 1<br />

√ 2π<br />

u<br />

−∞<br />

e − 1<br />

2 x2<br />

dx<br />

u 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09<br />

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359<br />

0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753<br />

0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141<br />

0.3 0.6179 0.6217 0.6<strong>25</strong>5 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517<br />

0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879<br />

0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224<br />

0.6 0.7<strong>25</strong>7 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549<br />

0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852<br />

0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133<br />

0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389<br />

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621<br />

1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830<br />

1.2 0.8849 0.8869 0.8888 0.8907 0.89<strong>25</strong> 0.8944 0.8962 0.8980 0.8997 0.9015<br />

1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177<br />

1.4 0.9192 0.9207 0.9222 0.9236 0.9<strong>25</strong>1 0.9265 0.9279 0.9292 0.9306 0.9319<br />

1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441<br />

1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.95<strong>25</strong> 0.9535 0.9545<br />

1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.96<strong>25</strong> 0.9633<br />

1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706<br />

1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767<br />

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817<br />

2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857<br />

2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890<br />

2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916<br />

2.4 0.9918 0.9920 0.9922 0.99<strong>25</strong> 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936<br />

2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952<br />

2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964<br />

2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974<br />

2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981<br />

2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986<br />

3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990<br />

3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993<br />

3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995<br />

3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997<br />

3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998


In<strong>di</strong>ce<br />

1. Introduzione 3<br />

2. Scale <strong>di</strong> misura 6<br />

3. Rappresentazione <strong>de</strong>i dati 10<br />

4. La me<strong>di</strong>a aritmetica 20<br />

5. La me<strong>di</strong>ana 23<br />

6. La moda <strong>25</strong><br />

7. Il midrange <strong>25</strong><br />

8. I quartili 26<br />

9. Variabilità <strong>de</strong>i dati 28<br />

10. La forma <strong>de</strong>lla <strong>di</strong>stribuzione 34<br />

11. L’analisi esplorativa <strong>de</strong>i dati 35<br />

12. Il <strong>di</strong>agramma scatola e baffi 38<br />

13. Misure <strong>di</strong> sintesi <strong>de</strong>scrittive <strong>di</strong> una popolazione 41<br />

14. Verifica <strong>de</strong>ll’ipotesi <strong>di</strong> normalità 50<br />

15. Introduzione all’inferenza statistica 59<br />

16. La correlazione 75<br />

17. Il coefficiente <strong>di</strong> correlazione lineare 76<br />

18. La retta <strong>de</strong>lle SD 81<br />

19. Calcolo <strong>de</strong>l coefficiente <strong>di</strong> correlazione 82<br />

20. La Regressione 97<br />

21. Il grafico <strong>de</strong>lle me<strong>di</strong>e 100<br />

22. L’effetto <strong>di</strong> regressione 102<br />

23. Le rette <strong>di</strong> regressione sono due 106<br />

24. Il Root Mean Square Error <strong>de</strong>lla regressione 109<br />

<strong>25</strong>. Il <strong>di</strong>agramma <strong>de</strong>i residui 112<br />

26. Diagrammi <strong>di</strong> <strong>di</strong>spersione Omoschedastici ed Eteroschedastici113<br />

27. Il metodo <strong>de</strong>i minimi quadrati 115<br />

1. La <strong>di</strong>stribuzione N(0, 1) i<br />

iii

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!