STATISTICA DESCRITTIVA - Cartesio.dima.unige.it
STATISTICA DESCRITTIVA - Cartesio.dima.unige.it
STATISTICA DESCRITTIVA - Cartesio.dima.unige.it
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
SCHEDA 4<br />
VARIABILI QUANTITATIVE III<br />
PROGETTO LAUREE SCIENTIFICHE<br />
PROGETTO MIGRAZIONI<br />
IIS VITTORIO EMANUELE II RUFFINI - GENOVA<br />
Esistono altri indici che forniscono informazioni sulla distribuzione dei dati osservati, oltre a quelli basati sui quantili, visti<br />
nell’un<strong>it</strong>à 3..<br />
In segu<strong>it</strong>o indicheremo con N il numero dei dati osservati e con xi l’i-esimo dato osservato (non necessariamente ordinato).<br />
Indici di central<strong>it</strong>à o di posizione<br />
Forniscono indicazioni sulla posizione dei dati, ovvero indicano intorno a quali valori numerici si distribuisce la variabile<br />
osservata X.<br />
Soffermiamoci sulla media.<br />
Scriviamo la formula della media utilizzando la distribuzione della variabile X.<br />
Ricordiamo che la distribuzione della variabile è l’insieme delle coppie (xk , fk), per k da 1 a m, avendo indicato<br />
con<br />
xk gli m differenti valori assunti dalla variabile e con fk le corrispondenti frequenze relative:<br />
Osserviamo che se i valori assunti dalla variabile<br />
sono tutti diversi, la frequenza di ciascun dato è 1/n e si r<strong>it</strong>rova la formula<br />
precedente.<br />
La<br />
media gode delle seguenti proprietà:<br />
1. la somma degli errori che si commettono sost<strong>it</strong>uendo il valore<br />
della media a tutte le osservazioni (scarto) è nullo, ovvero<br />
2.<br />
la media rende minima la somma dei quadrati degli scarti, cioè, se scegliamo qualunque altro numero a e consideriamo i<br />
quadrati degli scarti dei dati da a, abbiamo la seguente disuguaglianza<br />
La media viene anche detta baricentro dei dati. Infatti se interpretiamo i diversi valori assunti dalla variabile come pesi<br />
“attaccati” all’asse<br />
reale, la media è il punto di equilibrio dei dati. Proprio in quanto baricentro dei dati, la media risente<br />
molto<br />
della posizione dei valori estremi, la media troncata ovvia in parte questo problema. La mediana non è influenzata dai<br />
valori<br />
estremi.<br />
Esempio 1 : Consideriamo l’età dei 509 studenti stranieri iscr<strong>it</strong>ti all’IIS V<strong>it</strong>torio Emanuele II Ruffini nell’a.s. 2007/08 e<br />
l’output ottenuto da XLSTAT →Descr izione dei dati → Statistiche descr<strong>it</strong>tive<br />
1 1
Campione No. di osservazioni<br />
Media<br />
Età 509 23,5<br />
Per determinare la media spuntata, si cancellano i primi 25 (5% di 509) e gli ultimi 25 dei valori ordinati e si calcola la media<br />
dei rimanenti. Si può utilizzare la funzione di EXCEL MEDIA.TRONCATA,<br />
che rest<strong>it</strong>uisce la media della parte interna p<br />
di un insieme di valori di dati (utilizzando p=0,9). Nel nostro caso si ha<br />
Media spuntata<br />
20,3<br />
Una proprietà simile a quella sopra considerata per la media che riguarda la mediana è la seguente:<br />
La mediana rende minima la somma degli scarti assoluti, cioè, se scegliamo qualunque altro numero a e consideriamo gli<br />
scarti assoluti dei dati da a, abbiamo la seguente disuguaglianza<br />
La media è preferibile in molte circostanze come indice di posizione perché ha buone proprietà che permettono di costruire<br />
modelli statistici previsionali a partire dai dati osservati. D’altra parte la mediana è un indice di posizione<br />
che è meno<br />
influenzato dai valori estremi e quindi può risultare più stabile, come possiamo vedere nel seguente esempio.<br />
Esempio 2 : Nei dati dell’esempio precedente per un errore di batt<strong>it</strong>ura della segreteria della scuola sono stati dig<strong>it</strong>ati due<br />
anni di nasc<strong>it</strong>a impossibili per studenti delle superiori (il 2001 e il 1996) e per un errore di batt<strong>it</strong>ura di chi ha trascr<strong>it</strong>to i dati<br />
un anno di nasc<strong>it</strong>a molto improbabile (il 1900, corrispondente ad uno studente di 108 anni!). Eliminando questi tre dati<br />
errati via via dalla<br />
tabella, si verifica che la mediana resta invariata (20), mentre la media varia passando da 23.49 a 23.52, a<br />
23.54<br />
e a 23.37.<br />
Esempio 3 : Supponiamo che i dati delle età dell’esercizio precedente siano già stati suddivisi in 8 classi. Si può ancora<br />
determinare<br />
un valor medio e una mediana, approssimando ogni classe con il suo valore centrale.<br />
intervalli conteggi valore<br />
centrale<br />
15-16 54 15,5<br />
17-19 156 18,0<br />
20-25 162 22,5<br />
26-30 49 28,0<br />
31-40 59 35,5<br />
41-50 18 45,5<br />
51-60 6 55,5<br />
61-80 1 70,5<br />
Il valore medio dei dati raggruppati in classi è dato da:<br />
15,<br />
5⋅<br />
54 + 18,<br />
0 ⋅156<br />
+ 22,<br />
5⋅162<br />
+ 28,<br />
0 ⋅ 49 + 35,<br />
5⋅<br />
59 + 45,<br />
5⋅18<br />
+ 55,<br />
5⋅<br />
6 + 70,<br />
5⋅1<br />
= 23,<br />
72<br />
54 + 156 + 162 + 49 + 59 + 18 + 6 + 1<br />
La mediana per dati raggruppati in classi si ottiene dalla funzione di distribuzione cumulata calcolando dapprima la classe<br />
mediana (contenente la frequenza<br />
cumulata 0.5) e, volendo, l’intens<strong>it</strong>à mediana per interpolazione.<br />
Nell’esempio 3 si avrebbe<br />
intervalli conteggi cumulati frequenze cumulate<br />
15-16 54 0.11<br />
17-19 210 0.42<br />
20-25 372 0.74<br />
26-30 421 0.83<br />
31-40 480 0.95<br />
41-50 498 0.99<br />
51-60 504 1.00<br />
61-80 505 1.00<br />
come classe mediana la classe 20-25 e come intens<strong>it</strong>à mediana quella corrispondente alla posizione I all’interno della classe<br />
mediana<br />
20 I 25<br />
0.42 0.50 0.74<br />
da cui (0.50-0.42):(I-20)=(0.74-0.42):(25-20) 0.08:(I-20)=0.32:5 I-20=1.25 I=21.25<br />
2 2