STATISTICA DESCRITTIVA - Cartesio.dima.unige.it

SCHEDA 4 

VARIABILI QUANTITATIVE III 

PROGETTO LAUREE SCIENTIFICHE 

PROGETTO MIGRAZIONI 

IIS VITTORIO EMANUELE II RUFFINI - GENOVA 

Esistono altri indici che forniscono informazioni sulla distribuzione dei dati osservati, oltre a quelli basati sui quantili, visti 

nell’unità 3.. 

In seguito indicheremo con N il numero dei dati osservati e con xi l’i-esimo dato osservato (non necessariamente ordinato). 

Indici di centralità o di posizione 

Forniscono indicazioni sulla posizione dei dati, ovvero indicano intorno a quali valori numerici si distribuisce la variabile 

osservata X. 

Soffermiamoci sulla media. 

Scriviamo la formula della media utilizzando la distribuzione della variabile X. 

Ricordiamo che la distribuzione della variabile è l’insieme delle coppie (xk , fk), per k da 1 a m, avendo indicato 

con 

xk gli m differenti valori assunti dalla variabile e con fk le corrispondenti frequenze relative: 

Osserviamo che se i valori assunti dalla variabile 

sono tutti diversi, la frequenza di ciascun dato è 1/n e si ritrova la formula 

precedente. 

La 

media gode delle seguenti proprietà: 

1. la somma degli errori che si commettono sostituendo il valore 

della media a tutte le osservazioni (scarto) è nullo, ovvero 

2. 

la media rende minima la somma dei quadrati degli scarti, cioè, se scegliamo qualunque altro numero a e consideriamo i 

quadrati degli scarti dei dati da a, abbiamo la seguente disuguaglianza 

La media viene anche detta baricentro dei dati. Infatti se interpretiamo i diversi valori assunti dalla variabile come pesi 

“attaccati” all’asse 

reale, la media è il punto di equilibrio dei dati. Proprio in quanto baricentro dei dati, la media risente 

molto 

della posizione dei valori estremi, la media troncata ovvia in parte questo problema. La mediana non è influenzata dai 

valori 

estremi. 

Esempio 1 : Consideriamo l’età dei 509 studenti stranieri iscritti all’IIS Vittorio Emanuele II Ruffini nell’a.s. 2007/08 e 

l’output ottenuto da XLSTAT →Descr izione dei dati → Statistiche descrittive 

1 1

Campione No. di osservazioni 

Media 

Età 509 23,5 

Per determinare la media spuntata, si cancellano i primi 25 (5% di 509) e gli ultimi 25 dei valori ordinati e si calcola la media 

dei rimanenti. Si può utilizzare la funzione di EXCEL MEDIA.TRONCATA, 

che restituisce la media della parte interna p 

di un insieme di valori di dati (utilizzando p=0,9). Nel nostro caso si ha 

Media spuntata 

20,3 

Una proprietà simile a quella sopra considerata per la media che riguarda la mediana è la seguente: 

La mediana rende minima la somma degli scarti assoluti, cioè, se scegliamo qualunque altro numero a e consideriamo gli 

scarti assoluti dei dati da a, abbiamo la seguente disuguaglianza 

La media è preferibile in molte circostanze come indice di posizione perché ha buone proprietà che permettono di costruire 

modelli statistici previsionali a partire dai dati osservati. D’altra parte la mediana è un indice di posizione 

che è meno 

influenzato dai valori estremi e quindi può risultare più stabile, come possiamo vedere nel seguente esempio. 

Esempio 2 : Nei dati dell’esempio precedente per un errore di battitura della segreteria della scuola sono stati digitati due 

anni di nascita impossibili per studenti delle superiori (il 2001 e il 1996) e per un errore di battitura di chi ha trascritto i dati 

un anno di nascita molto improbabile (il 1900, corrispondente ad uno studente di 108 anni!). Eliminando questi tre dati 

errati via via dalla 

tabella, si verifica che la mediana resta invariata (20), mentre la media varia passando da 23.49 a 23.52, a 

23.54 

e a 23.37. 

Esempio 3 : Supponiamo che i dati delle età dell’esercizio precedente siano già stati suddivisi in 8 classi. Si può ancora 

determinare 

un valor medio e una mediana, approssimando ogni classe con il suo valore centrale. 

intervalli conteggi valore 

centrale 

15-16 54 15,5 

17-19 156 18,0 

20-25 162 22,5 

26-30 49 28,0 

31-40 59 35,5 

41-50 18 45,5 

51-60 6 55,5 

61-80 1 70,5 

Il valore medio dei dati raggruppati in classi è dato da: 

15, 

5⋅ 

54 + 18, 

0 ⋅156 

+ 22, 

5⋅162 

+ 28, 

0 ⋅ 49 + 35, 

5⋅ 

59 + 45, 

5⋅18 

+ 55, 

5⋅ 

6 + 70, 

5⋅1 

= 23, 

72 

54 + 156 + 162 + 49 + 59 + 18 + 6 + 1 

La mediana per dati raggruppati in classi si ottiene dalla funzione di distribuzione cumulata calcolando dapprima la classe 

mediana (contenente la frequenza 

cumulata 0.5) e, volendo, l’intensità mediana per interpolazione. 

Nell’esempio 3 si avrebbe 

intervalli conteggi cumulati frequenze cumulate 

15-16 54 0.11 

17-19 210 0.42 

20-25 372 0.74 

26-30 421 0.83 

31-40 480 0.95 

41-50 498 0.99 

51-60 504 1.00 

61-80 505 1.00 

come classe mediana la classe 20-25 e come intensità mediana quella corrispondente alla posizione I all’interno della classe 

mediana 

20 I 25 

0.42 0.50 0.74 

da cui (0.50-0.42):(I-20)=(0.74-0.42):(25-20) 0.08:(I-20)=0.32:5 I-20=1.25 I=21.25 

2 2

STATISTICA DESCRITTIVA - Cartesio.dima.unige.it

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?