29.05.2013 Views

STATISTICA DESCRITTIVA - Cartesio.dima.unige.it

STATISTICA DESCRITTIVA - Cartesio.dima.unige.it

STATISTICA DESCRITTIVA - Cartesio.dima.unige.it

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

SCHEDA 4<br />

VARIABILI QUANTITATIVE III<br />

PROGETTO LAUREE SCIENTIFICHE<br />

PROGETTO MIGRAZIONI<br />

IIS VITTORIO EMANUELE II RUFFINI - GENOVA<br />

Esistono altri indici che forniscono informazioni sulla distribuzione dei dati osservati, oltre a quelli basati sui quantili, visti<br />

nell’un<strong>it</strong>à 3..<br />

In segu<strong>it</strong>o indicheremo con N il numero dei dati osservati e con xi l’i-esimo dato osservato (non necessariamente ordinato).<br />

Indici di central<strong>it</strong>à o di posizione<br />

Forniscono indicazioni sulla posizione dei dati, ovvero indicano intorno a quali valori numerici si distribuisce la variabile<br />

osservata X.<br />

Soffermiamoci sulla media.<br />

Scriviamo la formula della media utilizzando la distribuzione della variabile X.<br />

Ricordiamo che la distribuzione della variabile è l’insieme delle coppie (xk , fk), per k da 1 a m, avendo indicato<br />

con<br />

xk gli m differenti valori assunti dalla variabile e con fk le corrispondenti frequenze relative:<br />

Osserviamo che se i valori assunti dalla variabile<br />

sono tutti diversi, la frequenza di ciascun dato è 1/n e si r<strong>it</strong>rova la formula<br />

precedente.<br />

La<br />

media gode delle seguenti proprietà:<br />

1. la somma degli errori che si commettono sost<strong>it</strong>uendo il valore<br />

della media a tutte le osservazioni (scarto) è nullo, ovvero<br />

2.<br />

la media rende minima la somma dei quadrati degli scarti, cioè, se scegliamo qualunque altro numero a e consideriamo i<br />

quadrati degli scarti dei dati da a, abbiamo la seguente disuguaglianza<br />

La media viene anche detta baricentro dei dati. Infatti se interpretiamo i diversi valori assunti dalla variabile come pesi<br />

“attaccati” all’asse<br />

reale, la media è il punto di equilibrio dei dati. Proprio in quanto baricentro dei dati, la media risente<br />

molto<br />

della posizione dei valori estremi, la media troncata ovvia in parte questo problema. La mediana non è influenzata dai<br />

valori<br />

estremi.<br />

Esempio 1 : Consideriamo l’età dei 509 studenti stranieri iscr<strong>it</strong>ti all’IIS V<strong>it</strong>torio Emanuele II Ruffini nell’a.s. 2007/08 e<br />

l’output ottenuto da XLSTAT →Descr izione dei dati → Statistiche descr<strong>it</strong>tive<br />

1 1


Campione No. di osservazioni<br />

Media<br />

Età 509 23,5<br />

Per determinare la media spuntata, si cancellano i primi 25 (5% di 509) e gli ultimi 25 dei valori ordinati e si calcola la media<br />

dei rimanenti. Si può utilizzare la funzione di EXCEL MEDIA.TRONCATA,<br />

che rest<strong>it</strong>uisce la media della parte interna p<br />

di un insieme di valori di dati (utilizzando p=0,9). Nel nostro caso si ha<br />

Media spuntata<br />

20,3<br />

Una proprietà simile a quella sopra considerata per la media che riguarda la mediana è la seguente:<br />

La mediana rende minima la somma degli scarti assoluti, cioè, se scegliamo qualunque altro numero a e consideriamo gli<br />

scarti assoluti dei dati da a, abbiamo la seguente disuguaglianza<br />

La media è preferibile in molte circostanze come indice di posizione perché ha buone proprietà che permettono di costruire<br />

modelli statistici previsionali a partire dai dati osservati. D’altra parte la mediana è un indice di posizione<br />

che è meno<br />

influenzato dai valori estremi e quindi può risultare più stabile, come possiamo vedere nel seguente esempio.<br />

Esempio 2 : Nei dati dell’esempio precedente per un errore di batt<strong>it</strong>ura della segreteria della scuola sono stati dig<strong>it</strong>ati due<br />

anni di nasc<strong>it</strong>a impossibili per studenti delle superiori (il 2001 e il 1996) e per un errore di batt<strong>it</strong>ura di chi ha trascr<strong>it</strong>to i dati<br />

un anno di nasc<strong>it</strong>a molto improbabile (il 1900, corrispondente ad uno studente di 108 anni!). Eliminando questi tre dati<br />

errati via via dalla<br />

tabella, si verifica che la mediana resta invariata (20), mentre la media varia passando da 23.49 a 23.52, a<br />

23.54<br />

e a 23.37.<br />

Esempio 3 : Supponiamo che i dati delle età dell’esercizio precedente siano già stati suddivisi in 8 classi. Si può ancora<br />

determinare<br />

un valor medio e una mediana, approssimando ogni classe con il suo valore centrale.<br />

intervalli conteggi valore<br />

centrale<br />

15-16 54 15,5<br />

17-19 156 18,0<br />

20-25 162 22,5<br />

26-30 49 28,0<br />

31-40 59 35,5<br />

41-50 18 45,5<br />

51-60 6 55,5<br />

61-80 1 70,5<br />

Il valore medio dei dati raggruppati in classi è dato da:<br />

15,<br />

5⋅<br />

54 + 18,<br />

0 ⋅156<br />

+ 22,<br />

5⋅162<br />

+ 28,<br />

0 ⋅ 49 + 35,<br />

5⋅<br />

59 + 45,<br />

5⋅18<br />

+ 55,<br />

5⋅<br />

6 + 70,<br />

5⋅1<br />

= 23,<br />

72<br />

54 + 156 + 162 + 49 + 59 + 18 + 6 + 1<br />

La mediana per dati raggruppati in classi si ottiene dalla funzione di distribuzione cumulata calcolando dapprima la classe<br />

mediana (contenente la frequenza<br />

cumulata 0.5) e, volendo, l’intens<strong>it</strong>à mediana per interpolazione.<br />

Nell’esempio 3 si avrebbe<br />

intervalli conteggi cumulati frequenze cumulate<br />

15-16 54 0.11<br />

17-19 210 0.42<br />

20-25 372 0.74<br />

26-30 421 0.83<br />

31-40 480 0.95<br />

41-50 498 0.99<br />

51-60 504 1.00<br />

61-80 505 1.00<br />

come classe mediana la classe 20-25 e come intens<strong>it</strong>à mediana quella corrispondente alla posizione I all’interno della classe<br />

mediana<br />

20 I 25<br />

0.42 0.50 0.74<br />

da cui (0.50-0.42):(I-20)=(0.74-0.42):(25-20) 0.08:(I-20)=0.32:5 I-20=1.25 I=21.25<br />

2 2

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!