30.05.2013 Views

dispense 2010 2011 - Scienze della terra - Università degli Studi di ...

dispense 2010 2011 - Scienze della terra - Università degli Studi di ...

dispense 2010 2011 - Scienze della terra - Università degli Studi di ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Università</strong> <strong>degli</strong> <strong>Stu<strong>di</strong></strong> <strong>di</strong> Modena e Reggio Emilia -<br />

Facoltà <strong>di</strong> <strong>Scienze</strong> Matematiche, Fisiche, Naturali<br />

Corso <strong>di</strong> Laurea Magistrale in <strong>Scienze</strong><br />

per l’Ambiente ed il Territorio<br />

STATISTICA ED<br />

ELABORAZIONE DEI DATI<br />

Franco Torelli<br />

Anno Accademico <strong>2010</strong>/<strong>2011</strong>


PRESENTAZIONE DEL<br />

CORSO


GLI OBIETTIVI FORMATIVI<br />

• Fornire gli strumenti essenziali per l'utilizzo dei meto<strong>di</strong><br />

statistici <strong>di</strong> base nell’ambito <strong>della</strong> gestione <strong>di</strong> realtà e<br />

situazioni ambientali complesse.<br />

• Favorire l’adozione <strong>di</strong> atteggiamenti e approcci corretti<br />

nei confronti delle indagini <strong>di</strong> tipo quantitativo e<br />

nell’interpretazione dei risultati <strong>di</strong> ricerche scientifiche,<br />

applicate ai meccanismi che governano il sistema<br />

ambiente.<br />

• Favorire la comprensione delle metodologie statistiche<br />

per mezzo <strong>di</strong> un profilo <strong>di</strong> concretezza del corso, che si<br />

caratterizzerà per frequenti applicazioni con strumenti<br />

informatici (excel).


I CONTENUTI<br />

1. Introduzione al ruolo e al linguaggio <strong>della</strong><br />

statistica<br />

2. Classificazioni e rappresentazioni grafiche<br />

3. Rapporti statistici e numeri in<strong>di</strong>ci<br />

4. Misure <strong>di</strong> posizione e misure <strong>di</strong> variabilità<br />

5. Analisi bivariata: correlazione e regressione<br />

6. Nozioni elementari <strong>di</strong> probabilità<br />

7. Distribuzioni <strong>di</strong> probabilità<br />

8. Meto<strong>di</strong> <strong>di</strong> campionamento<br />

9. Distribuzioni campionarie e intervalli <strong>di</strong><br />

confidenza<br />

10. Verifica delle ipotesi: i test statistici


I TESTI<br />

• Dispense e prove d’esame <strong>di</strong> anni precedenti, a<br />

cura del docente, saranno <strong>di</strong>sponibili on-line<br />

• Il testo è:<br />

• Marilyn K. Pelosi, Theresa M. San<strong>di</strong>fer, Paola<br />

Cerchiello, Paolo Giu<strong>di</strong>ci, Introduzione alla<br />

statistica, McGrow-Hill, Milano 2009<br />

• Per esercizi, può essere utile il volume:<br />

• Carla Io<strong>di</strong>ce (a cura <strong>di</strong>), Prepararsi per<br />

l’esame <strong>di</strong> statistica, Gruppo E<strong>di</strong>toriale<br />

Esselibri Simone, Napoli 2002


L’ESAME PER GLI STUDENTI<br />

FREQUENTANTI<br />

• Per gli studenti che avranno frequentato almeno il<br />

60% delle lezioni, l’esame consisterà in una prova<br />

scritta, nel corso <strong>della</strong> quale sarà possibile consultare<br />

ogni tipo <strong>di</strong> materiale: l’abilità richiesta risiederà nella<br />

capacità <strong>di</strong> utilizzare correttamente gli strumenti per<br />

affrontare casi e problemi.<br />

• Per la prova scritta, lo studente potrà utilizzare<br />

normali calcolatrici, ma non il computer.<br />

• La capacità <strong>di</strong> utilizzare excel per applicare le<br />

principali metodologie statistiche sarà monitorata nel<br />

corso <strong>di</strong> una parte delle lezioni, che si svolgeranno<br />

nel laboratorio <strong>di</strong> informatica.


L’ESAME PER GLI STUDENTI NON<br />

FREQUENTANTI<br />

• Per gli studenti che avranno frequentato meno del 60% delle<br />

lezioni, l’esame consisterà in una prova scritta, con le stesse<br />

regole esposte per gli studenti frequentanti, integrata da una<br />

prova applicativa sul computer.<br />

• La prova applicativa sarà finalizzata a valutare la capacità <strong>di</strong><br />

utilizzare excel per applicare le principali metodologie<br />

statistiche. La prova applicativa avrà la possibilità <strong>di</strong> variare<br />

in positivo o in negativo il punteggio <strong>della</strong> prova scritta, al<br />

massimo <strong>di</strong> 3 punti.<br />

• La prova applicativa potrà essere affrontata solo se la prova<br />

scritta avrà ottenuto almeno 15 trentesimi.<br />

• Se la prova scritta otterrà un punteggio sufficiente (almeno<br />

18), ma la prova applicativa otterrà un punteggio complessivo<br />

inferiore a 18, lo studente potrà ripetere solo la prova<br />

applicativa.<br />

• Nel caso in cui lo studente rifiuti un punteggio complessivo<br />

sufficiente, occorrerà ripetere entrambe le prove.


PER LA PROVA APPLICATIVA<br />

• Per gli studenti che dovranno sostenere la<br />

prova applicativa sul computer, si consigliano<br />

per la preparazione:<br />

– Gli specifici paragrafi del libro <strong>di</strong> testo, prima<br />

in<strong>di</strong>cato, de<strong>di</strong>cati proprio alle applicazioni su<br />

computer<br />

– Un normale manuale <strong>di</strong> utilizzo <strong>di</strong> excel, <strong>di</strong>sponibile<br />

anche on line nell’ambito del programma stesso


IL RICEVIMENTO<br />

• Nel periodo <strong>di</strong> lezione, il ricevimento studenti si<br />

svolgerà il lunedì pomeriggio, dalle 17,00 alle<br />

18,00 (avvisando preventivamente il docente<br />

all’in<strong>di</strong>rizzo <strong>di</strong> posta elettronica).<br />

• Si potranno comunque prevedere ricevimenti in<br />

giorni e orari <strong>di</strong>versi, anche in base alle<br />

esigenze <strong>degli</strong> studenti.<br />

• Negli altri perio<strong>di</strong>, il ricevimento studenti<br />

avverrà su appuntamento, scrivendo<br />

all’in<strong>di</strong>rizzo <strong>di</strong> posta elettronica del docente, e<br />

verrà fissato anche in base alle esigenze dello<br />

studente.<br />

• Il docente è contattabile al seguente in<strong>di</strong>rizzo:<br />

franco.torelli@unimore.it


1 – INTRODUZIONE ALLA<br />

STATISTICA E TECNICHE DI<br />

INDAGINE


Il significato <strong>di</strong> statistica<br />

• Si tratta <strong>di</strong> un insieme <strong>di</strong><br />

metodologie che hanno come<br />

scopo la conoscenza quantitativa<br />

dei fenomeni collettivi<br />

• La statistica è definibile anche<br />

come la tecnica che migliora le<br />

scelte operate in con<strong>di</strong>zioni<br />

d’incertezza


Tipologie <strong>di</strong> fenomeni collettivi<br />

• i fenomeni collettivi che sono tali perché<br />

riguardano una collettività <strong>di</strong> casi singoli. Per<br />

esempio, le caratteristiche delle piante igrofile<br />

in una determinata estensione <strong>di</strong> laguna<br />

• I fenomeni relativi a un solo caso, alla cui<br />

conoscenza si può pervenire solo con la<br />

ripetizione delle misurazioni (collettività <strong>di</strong><br />

osservazioni): per esempio, tutte le misurazioni<br />

che un erpetologo (stu<strong>di</strong>oso <strong>degli</strong> anfibi)<br />

effettua per misurare la circonferenza <strong>di</strong> un<br />

esemplare.


Collettività <strong>di</strong> osservazioni<br />

• Ripetendo lo stesso esperimento o la<br />

stessa misurazione, non si ottiene lo<br />

stesso risultato ….<br />

… per la presenza <strong>di</strong> errori casuali <strong>di</strong><br />

misurazione<br />

• Si tratta <strong>di</strong> errori non eliminabili<br />

completamente, che non assumono<br />

<strong>di</strong>mensioni macroscopiche<br />

• Derivano dall’impossibilità <strong>di</strong> considerare le<br />

numerose caratteristiche che influenzano il<br />

fenomeno


Errori casuali e <strong>di</strong>storsioni<br />

• Mentre gli errori casuali a volte<br />

aumentano, a volte <strong>di</strong>minuiscono il<br />

valore reale, le <strong>di</strong>storsioni operano<br />

sempre nella stessa <strong>di</strong>rezione e<br />

influenzano quin<strong>di</strong> la me<strong>di</strong>a<br />

• La singola misurazione è quin<strong>di</strong><br />

uguale al valore reale + l’errore<br />

casuale + l’eventuale <strong>di</strong>storsione


Statistica descrittiva e<br />

statistica inferenziale<br />

• Lo stu<strong>di</strong>o dei fenomeni collettivi può essere<br />

svolto sull'intera collettività, oppure solo una<br />

sua parte<br />

• Se si utilizzano informazioni su una parte per<br />

trarre conclusioni o deduzioni sull’intera<br />

collettività, il campo <strong>della</strong> statistica è chiamato<br />

statistica inferenziale o inferenza statistica<br />

• Al contrario, la statistica descrittiva ha come<br />

oggetto la semplice descrizione quantitativa<br />

delle caratteristiche <strong>di</strong> una collettività, sia essa<br />

intera o parziale


Alcune definizioni – Popolazione e<br />

unità<br />

• popolazione statistica: è l’oggetto <strong>di</strong> una<br />

indagine, l’insieme <strong>degli</strong> elementi che ci<br />

interessano ai fini dell'indagine; viene<br />

utilizzato come sinonimo il termine universo<br />

statistico (per esempio, tutti gli esemplari <strong>di</strong><br />

zigolo nero viventi in una determinata<br />

regione, stu<strong>di</strong>ati per valutare gli effetti<br />

dell’inquinamento sugli insetti <strong>di</strong> cui si<br />

nutrono)<br />

• unità statistiche: sono i singoli elementi che<br />

compongono la popolazione statistica, sui<br />

quali si effettua la misurazione delle variabili<br />

(i singoli esemplari)


Alcune definizioni – fenomeni e<br />

modalità<br />

• fenomeni statistici (o variabili statistiche o<br />

caratteri statistici): sono le caratteristiche<br />

rilevate per ogni unità statistica (per esempio,<br />

la crescita <strong>di</strong> peso nell’arco del primo mese <strong>di</strong><br />

vita, l’ammontare <strong>della</strong> covata a 3 anni <strong>di</strong> vita<br />

<strong>della</strong> madre, la propensione alla migrazione da<br />

parte <strong>di</strong> alcune specie <strong>di</strong> uccelli); si <strong>di</strong>stinguono<br />

in fenomeni qualitativi e fenomeni quantitativi<br />

• modalità: sono i <strong>di</strong>versi valori che può<br />

presentare un fenomeno (per esempio, riguardo<br />

alle covate, 7 piccoli, 8 piccoli, 9 piccoli, ecc.;<br />

riguardo alla propensione migratoria, uccelli<br />

migratori, parzialmente migratori, non<br />

migratori)


I fenomeni qualitativi<br />

• presentano modalità espresse con parole (es.:<br />

stato civile)<br />

– fenomeni or<strong>di</strong>nali: fra le modalità si può<br />

stabilire un or<strong>di</strong>ne logico (crescente o<br />

decrescente); per esempio, contenuto <strong>di</strong><br />

grasso nella trota comune: molto ridotto,<br />

ridotto, me<strong>di</strong>o, accentuato, molto<br />

accentuato)<br />

– fenomeni nominali: fra le modalità si<br />

possono instaurare solo relazioni <strong>di</strong> uguale o<br />

<strong>di</strong>verso, senza che si possa adottare un<br />

or<strong>di</strong>ne logico (per esempio, la base sabbiosa<br />

dei sentieri soggetti a sgretolamento: silicea,<br />

calcarea, micacea, ...)


Ancora sui fenomeni nominali<br />

• Spesso, per praticità <strong>di</strong> elaborazione, si<br />

attribuiscono co<strong>di</strong>fiche numeriche alle <strong>di</strong>verse<br />

modalità dei fenomeni nominali.<br />

Per esempio, se si stu<strong>di</strong>ano le cause <strong>di</strong><br />

abbassamento <strong>di</strong> terreni:<br />

• 1 – cause naturali<br />

• 2 - cause indotte da estrazione <strong>di</strong> petrolio<br />

• 3 – cause indotte da estrazione <strong>di</strong> acqua<br />

• 4 – ecc.<br />

• In questo caso, i dati che si ricavano sono<br />

chiamati dati nominali; si tratta <strong>di</strong> dati che non<br />

provengono da operazioni <strong>di</strong> misurazione o <strong>di</strong><br />

conteggio, ma da una co<strong>di</strong>fica.


Ancora sui fenomeni or<strong>di</strong>nali<br />

• Sempre per praticità <strong>di</strong> elaborazione o <strong>di</strong> formulazione<br />

<strong>della</strong> risposta, si attribuiscono co<strong>di</strong>fiche numeriche<br />

anche alle <strong>di</strong>verse modalità dei fenomeni or<strong>di</strong>nali.<br />

• I dati che si ricavano sono chiamati dati or<strong>di</strong>nali;<br />

anche in questo caso, sono dati che non provengono<br />

da operazioni <strong>di</strong> misurazione o <strong>di</strong> conteggio.<br />

• Spesso, la base <strong>di</strong> partenza è una scala <strong>di</strong> Likert sugli<br />

atteggiamenti.<br />

Per esempio, relativamente all’opportunità <strong>di</strong> impiegare<br />

microfoni sott’acqua per stu<strong>di</strong>are i suoni emessi dalle<br />

rane, secondo l’opinione dei vari stu<strong>di</strong>osi:<br />

• 1 – completamente in <strong>di</strong>saccordo<br />

• 2 – piuttosto in <strong>di</strong>saccordo<br />

• 3 – né d’accordo, né in <strong>di</strong>saccordo<br />

• 4 – abbastanza d’accordo<br />

• 5 – completamente d’accordo


I fenomeni quantitativi<br />

• presentano modalità espresse con numeri, che<br />

derivano da un'operazione <strong>di</strong> misura o <strong>di</strong> conteggio<br />

– fenomeni <strong>di</strong>screti: le modalità sono costituite da un<br />

numero finito <strong>di</strong> valori, che possono variare tra loro<br />

solo per un ammontare fisso (per esempio, petali <strong>di</strong><br />

un fiore, il numero <strong>di</strong> esemplari che superano un<br />

determinato ostacolo in un giorno); solitamente,<br />

derivano da un conteggio.<br />

– fenomeni continui: la scala delle possibili modalità<br />

è continua: all’interno del campo <strong>di</strong> variazione, il<br />

numero delle modalità è teoricamente infinito (le<br />

modalità possono quin<strong>di</strong> <strong>di</strong>fferire tra loro per entità<br />

variabili). Per esempio, la portata <strong>di</strong> un fiume, la<br />

velocità del vento in base alla densità <strong>della</strong><br />

vegetazione; principalmente, derivano da<br />

misurazioni.


Ancora sui fenomeni continui<br />

• Il loro numero <strong>di</strong> modalità è teoricamente<br />

infinito.<br />

• Nella realtà, può esistere una <strong>di</strong>scontinuità<br />

sperimentale, dovuta alla più o meno<br />

accentuata sensibilità dello strumento <strong>di</strong><br />

misurazione (per esempio, l’anemometro<br />

nel caso del vento)<br />

• Uno strumento dotato <strong>di</strong> sensibilità infinita<br />

potrebbe fornire valori con un numero<br />

infinito <strong>di</strong> cifre.


Scale <strong>di</strong> intervallo<br />

• Una scala <strong>di</strong> intervallo ha il punto <strong>di</strong><br />

origine fissato convenzionalmente, come<br />

punto <strong>di</strong> riferimento (per esempio, scala<br />

dei gra<strong>di</strong> centigra<strong>di</strong> per la temperatura: il<br />

punto zero non significa assenza <strong>di</strong><br />

temperatura).<br />

• In queste scale, hanno significato le<br />

<strong>di</strong>fferenze, ma non i rapporti: tra due<br />

temperature, possiamo affermare che una<br />

è inferiore all’altra, ma non conosciamo il<br />

loro rapporto.


Scale <strong>di</strong> rapporto<br />

• Una scala <strong>di</strong> rapporto ha il punto <strong>di</strong> origine<br />

legato in modo naturale all’assenza <strong>di</strong> valore,<br />

come punto <strong>di</strong> riferimento (per esempio,<br />

l’avanzamento <strong>della</strong> linea <strong>di</strong> <strong>terra</strong> alla foce <strong>di</strong> un<br />

fiume, per effetto dei se<strong>di</strong>menti: il punto zero ha<br />

il significato <strong>di</strong> assenza <strong>di</strong> avanzamento).<br />

• In queste scale, hanno significato sia le<br />

<strong>di</strong>fferenze, sia i rapporti: tra due fiumi,<br />

possiamo affermare che uno presenta un<br />

avanzamento <strong>della</strong> linea <strong>di</strong> <strong>terra</strong> corrispondente<br />

a due terzi dell’altro.


I descrittori<br />

• Un parametro è un valore numerico che<br />

descrive una caratteristica <strong>della</strong> popolazione<br />

(tempo me<strong>di</strong>o <strong>di</strong> attesa al passaggio a livello;<br />

percentuale <strong>di</strong> guidatori che spengono il motore<br />

al passaggio a livello). Si rappresenta<br />

solitamente con una lettera greca.<br />

• Una statistica è un valore numerico che<br />

descrive una caratteristica del campione. Si<br />

rappresenta solitamente con una lettera<br />

romana.


Gli accorgimenti per lo<br />

svolgimento <strong>di</strong> una indagine<br />

statistica


L’importanza <strong>di</strong> impostare<br />

correttamente una indagine statistica<br />

• Per ottenere risultati affidabili occorre<br />

seguire procedure rigorose e controllare<br />

(limitare) i fattori <strong>di</strong> <strong>di</strong>sturbo dell’indagine<br />

• Occorre soprattutto partire da un’ottica<br />

corretta e non <strong>di</strong>storta<br />

• Per esempio, se si effettua uno stu<strong>di</strong>o su<br />

due gruppi <strong>di</strong> soggetti, per ottenere<br />

risultati comparabili è necessario le<br />

caratteristiche dei due gruppi siano<br />

corrispondenti


Alcuni casi - 1<br />

• gli stu<strong>di</strong> sull’effetto del fumo sono stu<strong>di</strong><br />

sul campo (i soggetti stessi si assegnano<br />

all’uno o all’altro gruppo)<br />

• si osserva una forte associazione tra<br />

fumo e malattie car<strong>di</strong>o-circolatorie<br />

• attenzione, però: gli uomini, più forti<br />

fumatori rispetto alle donne, sono più<br />

esposti a <strong>di</strong>sturbi <strong>di</strong> tipo car<strong>di</strong>ocircolatorio


Alcuni casi - 2<br />

• Per verificare l’effetto <strong>di</strong> un farmaco, non<br />

dovrebbero essere i pazienti a scegliere il gruppo<br />

in cui entrare (<strong>di</strong> trattamento o <strong>di</strong> controllo)<br />

• Si avrebbe il rischio <strong>di</strong> una sproporzione <strong>di</strong><br />

pazienti più attivi, meno rassegnati, più attenti,<br />

più consapevoli nel gruppo <strong>di</strong> trattamento<br />

• Occorre un esperimento controllato, dove è la<br />

casualità statistica a stabilire chi farà parte dei<br />

due gruppi<br />

• Conviene utilizzare anche dei placebo, e sia i<br />

pazienti, sia i me<strong>di</strong>ci dovrebbero essere<br />

all’oscuro del gruppo <strong>di</strong> appartenenza<br />

(esperimento double blind)


2 – CLASSIFICAZIONI E<br />

RAPPRESENTAZIONI GRAFICHE


La classificazione delle unità<br />

statistiche<br />

• classificazioni uni<strong>di</strong>mensionali, basate su<br />

un singolo fenomeno (<strong>di</strong>stribuzioni <strong>di</strong><br />

frequenze)<br />

• classificazioni bi<strong>di</strong>mensionali, basate su<br />

coppie <strong>di</strong> fenomeni (tabelle a doppia<br />

entrata o incroci)<br />

• classificazioni multi<strong>di</strong>mensionali, basate<br />

su più <strong>di</strong> due fenomeni (tabelle a entrata<br />

multipla)


Le <strong>di</strong>stribuzioni <strong>di</strong> frequenza<br />

• Una <strong>di</strong>stribuzione <strong>di</strong> frequenza registra ogni modalità<br />

con cui il fenomeno si presenta, e il corrispondente<br />

numero <strong>di</strong> volte in cui la singola modalità si presenta<br />

• La frequenza è il numero <strong>di</strong> volte con cui una modalità<br />

si presenta. La frequenza <strong>della</strong> modalità i-ma è<br />

in<strong>di</strong>cata con f i<br />

• La frequenza relativa <strong>di</strong> una modalità è la frequenza <strong>di</strong><br />

questa modalità, rapportata al totale delle frequenze.<br />

Si in<strong>di</strong>ca con rf i


Distribuzioni <strong>di</strong> frequenza: alcune<br />

modalità operative<br />

• Nel caso <strong>di</strong> un fenomeno quantitativo continuo,<br />

occorre scegliere classi <strong>di</strong> opportuna ampiezza<br />

• Ampiezza <strong>di</strong> una classe: <strong>di</strong>fferenza tra l'estremo<br />

superiore e l'estremo inferiore<br />

• Per convenzione: l’intervallo comprende l'estremo<br />

inferiore, ma non quello superiore<br />

• Aumentando il numero delle classi (e riducendone<br />

quin<strong>di</strong> l'ampiezza) si raggiunge una maggior<br />

precisione, ma si attenua la sintesi del fenomeno<br />

• Quando possibile, le classi devono essere <strong>di</strong> uguale<br />

ampiezza


Le tabelle a doppia entrata: i<br />

contenuti<br />

• I numeri all'interno <strong>della</strong> tabella sono le<br />

frequenze <strong>di</strong> casella<br />

• Al margine <strong>di</strong> ogni riga si trovano i totali<br />

marginali <strong>di</strong> riga<br />

• Al margine <strong>di</strong> ogni colonna si trovano i<br />

totali marginali <strong>di</strong> colonna<br />

• Nell'ultima riga dell'ultima colonna si trova<br />

il totale generale


Le tabelle a doppia entrata:<br />

categorie<br />

• Una tabella a doppia entrata con<br />

almeno un fenomeno qualitativo si<br />

chiama tabella <strong>di</strong> contingenza<br />

• Se entrambi i fenomeni sono<br />

quantitativi, si parla tabella <strong>di</strong><br />

correlazione


Le tabelle a entrata multipla<br />

• Il numero <strong>di</strong> caselle <strong>di</strong> una tabella a più <strong>di</strong><br />

due entrate è uguale al prodotto del<br />

numero delle modalità (o classi) <strong>di</strong><br />

ciascuno dei fenomeni considerati<br />

• Cresce quin<strong>di</strong> molto rapidamente con<br />

l'aumentare del numero <strong>di</strong> fenomeni che si<br />

vuole considerare<br />

• Il rischio è quello <strong>di</strong> ottenere tabelle <strong>di</strong><br />

<strong>di</strong>fficile lettura …<br />

• … inoltre, è probabile che in molte caselle<br />

la frequenza sia uguale o prossima allo<br />

zero


L’impostazione del database<br />

• Per elaborare correttamente una base <strong>di</strong><br />

dati, è fondamentale impostarla<br />

correttamente ...<br />

• ... cercando già a priori <strong>di</strong> capire quali<br />

elaborazioni saranno opportune.<br />

• Un database in excel normalmente viene<br />

impostato con ogni unità statistica in riga<br />

e ogni fenomeno statistico in colonna. Il<br />

contenuto delle caselle corrisponde alle<br />

singole modalità


Un esempio <strong>di</strong> impostazione<br />

Stazione Classificazione<br />

trofica<br />

Lido <strong>di</strong><br />

Volano<br />

Porto<br />

Garibal<strong>di</strong><br />

Scadente 17,<br />

6<br />

Scadente 16,<br />

4<br />

Casalborsetti Me<strong>di</strong>ocre 16,<br />

4<br />

°C Salinit<br />

à<br />

pH<br />

27,4 8,24<br />

28,9 8,29<br />

30,2 8,30<br />

Marina <strong>di</strong> Me<strong>di</strong>ocre 16, 31,9 8,27


Le rappresentazioni grafiche<br />

• Un grafico è un modo imme<strong>di</strong>ato per<br />

presentare le informazioni<br />

• Un grafico può essere costruito<br />

anche per analizzare i dati: può<br />

suggerire ipotesi sulla <strong>di</strong>stribuzione<br />

dei dati, porre in luce relazioni tra<br />

più fenomeni, come nel caso<br />

riportato <strong>di</strong> seguito


trasparenza (m)<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

Relazione tra clorofilla e in<strong>di</strong>ce <strong>di</strong> trasparenza<br />

0 2 4 6 8 10 12 14<br />

clorofilla (mg/000l)


Due categorie <strong>di</strong> grafici<br />

• Grafici universali, applicabili a una<br />

infinità <strong>di</strong> casi; per esempio:<br />

– Spezzate<br />

– Grafici a settori circolari<br />

– Istogrammi<br />

• Ideogrammi, contenenti figure e<br />

immagini relative all'argomento trattato


Grafico a settori circolari: ripartizione del<br />

territorio del Trentino Alto A<strong>di</strong>ge<br />

Arbusteti<br />

7%<br />

Improduttivo<br />

11%<br />

Prati pascoli<br />

26%<br />

Seminativi<br />

1%<br />

Urbano e<br />

sussid.<br />

6%<br />

Bosco<br />

46%<br />

Colt. Legnose<br />

3%


Istogramma: emissioni <strong>di</strong> carbonio<br />

da parte <strong>di</strong> alcuni paesi (milioni<br />

tonnellate)<br />

1200<br />

1000<br />

800<br />

600<br />

400<br />

200<br />

0<br />

Usa<br />

Cina<br />

Giappone<br />

Germania<br />

Gran Bretagna<br />

Francia<br />

Italia


35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

Fosforo totale in superficie e sul fondo alla<br />

stazione <strong>di</strong> rilevazione <strong>di</strong> Cesenatico (mg/mc)<br />

gen feb mar apr mag giu lug ago set ott nov <strong>di</strong>c<br />

fosforo in superficie fosforo sul fondo


Istogramma<br />

• È una tra le rappresentazioni grafiche<br />

universali più utilizzate<br />

• Nel caso dei fenomeni continui, i rettangoli<br />

devono essere affiancati (e non separati)<br />

• È fondamentale impostare correttamente<br />

gli assi


Fenomeni quantitativi con classi <strong>di</strong><br />

uguale ampiezza<br />

• Rettangoli con altezza<br />

corrispondente alla frequenza, base<br />

corrispondente all’ampiezza <strong>della</strong><br />

classe<br />

• L’area è proporzionale alla frequenza


Esempio<br />

Altezze (centimetri) p %k<br />

155-160 5<br />

160-165 10<br />

165-170 15<br />

170-175 25<br />

175-180 20<br />

180-185 15<br />

185-190 10<br />

TOTALE 100


30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

Distribuzione campione per altezza<br />

155-160<br />

160-165<br />

165-170<br />

170-175<br />

175-180<br />

180-185<br />

185-190


Fenomeni quantitativi con classi <strong>di</strong><br />

<strong>di</strong>fferente ampiezza<br />

• Rettangoli con altezza corrispondente alla<br />

densità <strong>di</strong> frequenza (rapporto tra la<br />

frequenza e l'ampiezza <strong>della</strong> classe), base<br />

corrispondente all’ampiezza <strong>della</strong> classe<br />

• L’area è proporzionale alla frequenza<br />

• Questo consente le giuste proporzioni tra le<br />

frequenze delle classi e le aree dei rettangoli


Esempio <strong>di</strong> <strong>di</strong>stribuzione <strong>di</strong> frequenza <strong>di</strong> un<br />

fenomeno continuo: pressione sanguigna<br />

sistolica in un campione <strong>di</strong> soggetti<br />

Pressione (mmHg) %<br />

90-95 4<br />

95-100 7<br />

100-110 19<br />

110-120 21<br />

120-130 27<br />

130-150 17<br />

150-180 5<br />

TOTALE 100


%<br />

Rappresentazione non corretta: altezza del<br />

rettangolo proporzionale alla numerosità<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

90-95 95-100 100-110 110-120 120-130 130-150 150-180<br />

mmHg


Rappresentazione corretta: area del rettangolo<br />

proporzionale alla numerosità (altezza<br />

proporzionale alla densità)<br />

% per mmHg<br />

3<br />

2<br />

1<br />

0<br />

90-95<br />

95-100<br />

100-105<br />

105-110<br />

110-115<br />

115-120<br />

120-125<br />

120-130<br />

130-135<br />

135-140<br />

mmHg<br />

140-145<br />

145-150<br />

150-155<br />

155-160<br />

160-165<br />

165-170<br />

170-175<br />

175-180


3 – RAPPORTI STATISTICI E<br />

NUMERI INDICI


Rapporti statistici


La possibilità <strong>di</strong> comparare i dati<br />

• Un’operazione che spesso si compie sui<br />

dati statistici è il confronto tra i valori <strong>di</strong><br />

un fenomeno quantitativo, con riferimento<br />

a <strong>di</strong>verse unità statistiche.<br />

• Il raffronto <strong>di</strong>retto ha però significato solo<br />

a parità <strong>di</strong> circostanze.<br />

• Ad esempio, il confronto tra la produzione<br />

mensile <strong>di</strong> rifiuti urbani da parte <strong>di</strong> due<br />

famiglie non ha molto significato se non si<br />

considera il numero <strong>di</strong> componenti.


Le principali categorie<br />

• In questi casi, meglio non utilizzare i<br />

valori originari, bensì i quozienti tra essi e<br />

una opportuna grandezza, considerata<br />

come in<strong>di</strong>ce <strong>di</strong> <strong>di</strong>mensione.<br />

• Tali quozienti vengono denominati<br />

rapporti statistici.<br />

• Le principali categorie <strong>di</strong> rapporti statistici<br />

sono:<br />

- i rapporti <strong>di</strong> composizione;<br />

- i rapporti <strong>di</strong> densità;<br />

- i rapporti <strong>di</strong> derivazione;<br />

- i rapporti <strong>di</strong> coesistenza.


I rapporti <strong>di</strong> composizione<br />

• Rappresentano una quota dell'ammontare<br />

complessivo <strong>di</strong> un fenomeno.<br />

• Il rapporto <strong>di</strong> composizione è infatti il<br />

quoziente tra l'ammontare riferito a una<br />

modalità del fenomeno e il totale del<br />

fenomeno stesso …<br />

• … oppure tra l’ammontare riferito a una<br />

singola unità del collettivo e il totale del<br />

fenomeno.<br />

• Esempio: quoziente tra carboidrati nei semi <strong>di</strong><br />

sesamo e tutte le sostanze che servono come<br />

risorse alimentari per altri organismi, sempre<br />

nei semi <strong>di</strong> sesamo


I rapporti <strong>di</strong> densità - 1<br />

• Sono il quoziente tra il valore <strong>di</strong> un<br />

fenomeno quantitativo e un in<strong>di</strong>ce che può<br />

essere considerato come il suo campo <strong>di</strong><br />

riferimento.<br />

• Per confrontare le popolazioni <strong>di</strong> due<br />

paesi, si può porre a confronto il numero<br />

<strong>degli</strong> abitanti.<br />

• In questo modo, però, l’informazione che<br />

si ottiene in<strong>di</strong>ca solo quale è il paese più<br />

abitato (popolazione più numerosa)<br />

• Può essere più utile conoscere quale è il<br />

paese più popolato, ossia con la<br />

popolazione più fitta.


I rapporti <strong>di</strong> densità - 2<br />

• A questo fine, occorre rapportare il numero<br />

<strong>degli</strong> abitanti all'estensione del territorio. Si<br />

calcola cioè la densità <strong>della</strong> popolazione, che<br />

è il quoziente tra numero <strong>di</strong> abitanti e la<br />

superficie (espressa, <strong>di</strong> norma, in km<br />

quadrati).<br />

• Si potrebbe rapportare la popolazione alla<br />

parte abitabile del territorio (escludendo, per<br />

esempio, le superfici occupate dai laghi).<br />

• Altri esempi <strong>di</strong> rapporti <strong>di</strong> densità sono la<br />

superficie forestale per 100 abitanti, la<br />

quantità <strong>di</strong> nitrati per 1000 litri <strong>di</strong> acqua, la<br />

<strong>di</strong>sponibilità <strong>di</strong> verde urbano per abitante,<br />

ecc.


I rapporti <strong>di</strong> derivazione<br />

• Sono il quoziente tra le entità <strong>di</strong> due<br />

fenomeni, <strong>di</strong> cui uno costituisce il<br />

presupposto dell’altro.<br />

• Per esempio:<br />

– il quoziente <strong>di</strong> natalità (rapporto tra il<br />

numero dei nati vivi in un certo anno e il<br />

numero me<strong>di</strong>o <strong>di</strong> esemplari viventi <strong>di</strong><br />

quella specie)<br />

– il quoziente <strong>di</strong> fecon<strong>di</strong>tà (rapporto tra il<br />

numero <strong>di</strong> nati vivi in un anno e il<br />

numero me<strong>di</strong>o delle femmine in età<br />

feconda nello stesso anno)


I rapporti <strong>di</strong> coesistenza<br />

• Sono il quoziente tra le entità <strong>di</strong> due<br />

fenomeni, posti a raffronto al fine <strong>di</strong><br />

valutare l'eventuale squilibrio.<br />

• L’in<strong>di</strong>ce <strong>di</strong> vecchiaia è un esempio tipico:<br />

è il quoziente tra la popolazione <strong>di</strong> 65 anni<br />

e oltre e la popolazione sino a 14 anni<br />

• Un ulteriore esempio, relativo alle foreste<br />

tropicali, è il quoziente tra ettari <strong>di</strong>sboscati<br />

ed ettari rimboscati (pari a circa 12 in<br />

Africa, a 25 in Asia, ecc.)


Numeri in<strong>di</strong>ci


Definizione<br />

• i numeri in<strong>di</strong>ci sono rapporti finalizzati a<br />

confrontare le intensità <strong>di</strong> un fenomeno o<br />

più fenomeni in tempi <strong>di</strong>versi oppure in<br />

situazioni <strong>di</strong>verse (ad esempio, in<br />

<strong>di</strong>fferenti regioni)<br />

• si hanno infatti numeri in<strong>di</strong>ci temporali e<br />

numeri in<strong>di</strong>ci territoriali<br />

• i n. i. servono quin<strong>di</strong> a misurare variazioni<br />

relative


Variazioni assolute e<br />

relative<br />

• Se analizziamo una serie storica, le<br />

variazioni da un periodo all'altro possono<br />

essere misurate in termini assoluti<br />

(<strong>di</strong>fferenze) o relativi (rapporti)<br />

• Le <strong>di</strong>fferenze assolute <strong>di</strong>pendono<br />

dall'or<strong>di</strong>ne <strong>di</strong> grandezza e dall’unità <strong>di</strong><br />

misura<br />

• Le variazioni relative, nella maggior parte<br />

dei casi, sono più efficaci


Il calcolo dei numeri in<strong>di</strong>ci<br />

• Per trasformare una serie storica in<br />

una serie <strong>di</strong> numeri in<strong>di</strong>ci, si devono<br />

<strong>di</strong>videre i termini x t (t = 1, 2, ... , n) per<br />

un denominatore, appartenente alla<br />

stessa serie, e moltiplicare i<br />

quozienti per 100<br />

• Si chiama base il termine assunto<br />

come denominatore dei rapporti


Numeri in<strong>di</strong>ci a base fissa<br />

• Si ottengono quando tutti i termini <strong>della</strong><br />

serie vengono rapportati alla stessa base<br />

(spesso, il primo termine <strong>della</strong> serie)<br />

1 I t<br />

x t<br />

= ——<br />

x 1<br />

• Il simbolo a sinistra <strong>di</strong> I in<strong>di</strong>ca il periodo<br />

base, quello a destra in<strong>di</strong>ca il periodo <strong>di</strong><br />

riferimento del calcolo


L’interpretazione<br />

Sottraendo 100 da un numero in<strong>di</strong>ce a<br />

base fissa si ottiene la variazione<br />

percentuale del fenomeno rispetto al<br />

tempo base


Cambio base<br />

• I numeri in<strong>di</strong>ci con una base fissa, ad<br />

esempio con base x 1 , possono essere<br />

trasformati in numeri in<strong>di</strong>ci con <strong>di</strong>versa<br />

base fissa, ad esempio con base x 2 ,<br />

<strong>di</strong>videndoli per 1 I 2<br />

1 I t<br />

——— = 2 I t


Numeri in<strong>di</strong>ci a base mobile<br />

• Si ottengono quando ogni termine <strong>della</strong><br />

serie viene rapportato al termine precedente<br />

t-1 I t<br />

x t<br />

= ——<br />

x t-1<br />

• Il numero in<strong>di</strong>ce a base mobile relativo al<br />

primo anno <strong>della</strong> serie storica non può<br />

essere determinato‚ non essendo noto il<br />

valore del fenomeno nell'anno precedente<br />

• Sottraendo 100 da un numero in<strong>di</strong>ce a base<br />

mobile, si ottiene la variazione percentuale<br />

del fenomeno rispetto al tempo precedente


Da base fissa a base mobile<br />

• Per passare da una serie <strong>di</strong> in<strong>di</strong>ci a base<br />

fissa alla corrispondente serie <strong>di</strong> in<strong>di</strong>ci a<br />

base mobile, è sufficiente <strong>di</strong>videre ciascun<br />

in<strong>di</strong>ce a base fissa per l’in<strong>di</strong>ce<br />

imme<strong>di</strong>atamente precedente<br />

1 I t<br />

——— = t-1 I t<br />

1 I t-1


Da base mobile a base fissa<br />

• Per passare da una serie <strong>di</strong> in<strong>di</strong>ci a base<br />

mobile alla corrispondente serie <strong>di</strong> in<strong>di</strong>ci a<br />

base fissa, ad esempio a base x 1 , occorre<br />

moltiplicare fra loro gli in<strong>di</strong>ci a base<br />

mobile dal tempo 2 fino al tempo<br />

considerato<br />

1 I t = 1 I 2 • 2 I 3 • ... • t-1 I t


Una avvertenza<br />

• Tutte le operazioni sui numeri in<strong>di</strong>ci<br />

devono essere effettuate dopo avere<br />

<strong>di</strong>viso per 100 i numeri in<strong>di</strong>ci stessi<br />

• In altri termini, le operazioni devono<br />

avvenire sugli in<strong>di</strong>ci rapportati a 1, non a<br />

100


I numeri in<strong>di</strong>ci composti<br />

• Si utilizzano per sintetizzare, me<strong>di</strong>ante<br />

un'unica serie <strong>di</strong> numeri in<strong>di</strong>ci, le<br />

variazioni relative <strong>di</strong> <strong>di</strong>verse serie storiche<br />

• Nella maggior parte dei casi, è opportuno<br />

assegnare un peso (g) a ciascuna serie,<br />

calcolando quin<strong>di</strong> una me<strong>di</strong>a ponderata (si<br />

veda il capitolo sulle misure <strong>di</strong> posizione)


Due tecniche per calcolare numeri<br />

in<strong>di</strong>ci composti ponderati me<strong>di</strong>ante i<br />

valori<br />

• Laspeyres: il sistema <strong>di</strong> pesi (il paniere)<br />

viene mantenuto fisso (solitamente, è<br />

quello del tempo base) per tutti i perio<strong>di</strong><br />

<strong>della</strong> serie storica: se stiamo calcolando<br />

l'in<strong>di</strong>ce composto dei prezzi del <strong>2010</strong> con<br />

base 1995, utilizziamo il paniere del 1995<br />

• Paasche: il paniere è variabile <strong>di</strong> anno in<br />

anno: se stiamo calcolando l'in<strong>di</strong>ce<br />

composto dei prezzi del <strong>2010</strong> con base<br />

1995, utilizziamo il paniere del <strong>2010</strong>


In<strong>di</strong>ce <strong>di</strong> Laspeyres<br />

1 I t<br />

In<strong>di</strong>ce <strong>di</strong> Paasche<br />

1 I t<br />

Σ [( 1 I t ) • g 1 ]<br />

composto = ——————<br />

Σ g 1<br />

Σ [( 1 I t ) • g t ]<br />

composto = ——————<br />

Σ g t<br />

Le due formule


In<strong>di</strong>ci composti: un esempio - dati <strong>di</strong> base<br />

Numeri in<strong>di</strong>ci <strong>della</strong> salinità del mare in<br />

corrispondenza dell’immissione del Po<br />

Anni Goro Adria<br />

2007 100,0 100,0<br />

2008 99,4 100,4<br />

2009 103,5 101,2<br />

Portata del fiume (mc/sec)<br />

Anni Goro Adria<br />

2007 240 185<br />

2008 248 187<br />

2009 261 191


In<strong>di</strong>ci composti: un esempio – il calcolo<br />

con il metodo <strong>di</strong> Laspeyres<br />

07 I 08<br />

07 I 09<br />

0,994 • 240 + 1,004 • 185<br />

= ———————————— • 100<br />

240 + 185<br />

1,035 • 240 + 1,012 • 185<br />

= ———————————— • 100<br />

240 + 185


In<strong>di</strong>ci composti: un esempio – il calcolo<br />

con il metodo <strong>di</strong> Paasche<br />

07 I 08<br />

07 I 09<br />

0,994 • 248 + 1,004 • 187<br />

= ———————————— • 100<br />

248 + 187<br />

1,035 • 261 + 1,012 • 191<br />

= ———————————— • 100<br />

261 + 191


Il calcolo dell’inflazione<br />

• Uno dei casi più significativi <strong>di</strong> applicazione<br />

dei numeri in<strong>di</strong>ci composti è il calcolo<br />

dell'inflazione<br />

• Si utilizza un campione rappresentativo <strong>di</strong><br />

prodotti (paniere), ma non si attribuisce la<br />

stessa importanza alla variazione <strong>di</strong> prezzo<br />

<strong>di</strong> prodotti le cui ven<strong>di</strong>te hanno <strong>di</strong>fferente<br />

rilevanza<br />

• È in<strong>di</strong>spensabile un sistema <strong>di</strong><br />

ponderazione relativo alla <strong>di</strong>mensione delle<br />

ven<strong>di</strong>te dei <strong>di</strong>versi beni


Deflazionamento<br />

• Gli in<strong>di</strong>ci dell'inflazione sono uno strumento<br />

per deflazionare i prezzi e per calcolare<br />

l'in<strong>di</strong>ce del potere <strong>di</strong> acquisto <strong>della</strong> moneta<br />

• Deflazionare significa depurare l'andamento<br />

<strong>di</strong> un prezzo dalle variazioni dovute<br />

all’inflazione ..<br />

• .. e valutare quin<strong>di</strong> l'evoluzione <strong>di</strong> quel<br />

prezzo in termini reali, passando dai valori in<br />

moneta corrente ai valori in moneta costante<br />

• il deflazionamento consiste nel <strong>di</strong>videre i<br />

prezzi del prodotto considerato per gli in<strong>di</strong>ci<br />

dell'inflazione


4 – MISURE DI POSIZIONE E<br />

MISURE DI VARIABILITA’


Misure <strong>di</strong> posizione


Il calcolo <strong>di</strong> una me<strong>di</strong>a<br />

• ha lo scopo <strong>di</strong> rappresentare con un solo<br />

in<strong>di</strong>catore un insieme dei dati,<br />

evidenziando quin<strong>di</strong> l'or<strong>di</strong>ne <strong>di</strong> grandezza<br />

Le me<strong>di</strong>e possono essere <strong>di</strong>stinte in:<br />

• me<strong>di</strong>e ottenute in base a un vincolo<br />

analitico<br />

• me<strong>di</strong>e che fanno riferimento alla posizione<br />

dei valori


ANALITICHE<br />

(su fenomeni quantitativi)<br />

• aritmetica<br />

• geometrica<br />

• quadratica<br />

• ecc.<br />

MEDIE<br />

DI POSIZIONE<br />

• me<strong>di</strong>ana<br />

(su fenomeni<br />

quantitativi e qualitativi<br />

or<strong>di</strong>nali)<br />

• moda<br />

(su tutti i fenomeni)


Le me<strong>di</strong>e analitiche<br />

• il calcolo <strong>di</strong> una me<strong>di</strong>a analitica consiste nel<br />

determinare un'opportuna operazione che<br />

viene applicata all'insieme dei valori<br />

• è importante in<strong>di</strong>viduare l'operazione più<br />

opportuna per la specifica situazione


Le principali me<strong>di</strong>e analitiche<br />

la me<strong>di</strong>a aritmetica (l'operazione è la<br />

somma dei valori)<br />

• me<strong>di</strong>a aritmetica semplice<br />

• me<strong>di</strong>a aritmetica ponderata<br />

la me<strong>di</strong>a geometrica (l'operazione è il<br />

prodotto dei valori)<br />

la me<strong>di</strong>a quadratica (l'operazione è il<br />

quadrato dei valori)


La me<strong>di</strong>a aritmetica<br />

_<br />

La me<strong>di</strong>a campionaria si in<strong>di</strong>ca con X<br />

La me<strong>di</strong>a <strong>della</strong> popolazione si in<strong>di</strong>ca<br />

con μ


La me<strong>di</strong>a aritmetica semplice<br />

somma dei valori <strong>di</strong>visa per il numero<br />

dei valori<br />

x 1 + x 2 + ... x i + ... x n Σ x i<br />

—————————— = ———<br />

n n


La me<strong>di</strong>a aritmetica ponderata<br />

quando viene utilizzata<br />

• quando i dati sono presentati in una<br />

<strong>di</strong>stribuzione <strong>di</strong> frequenze, dove a ogni<br />

modalità corrisponde una certa<br />

numerosità <strong>di</strong> unità statistiche (pesi)<br />

• in generale, quando si ritiene utile (o<br />

necessario) ponderare i valori con un<br />

opportuno sistema <strong>di</strong> pesi, in quanto è<br />

ragionevole dare a ogni valore un proprio<br />

livello <strong>di</strong> importanza


me<strong>di</strong>a aritmetica ponderata<br />

Somma dei prodotti <strong>di</strong> ogni valore con il<br />

relativo peso (p), <strong>di</strong>visa per la somma dei<br />

pesi<br />

x 1 • p 1 + x 2 • p 2 + ….. + x i • p i + ... x n • p n<br />

——————————————————<br />

Σ (x i • p i )<br />

———————<br />

Σ p i<br />

p 1 + p 2 + …. + p i + … + p n


Distribuzione <strong>di</strong> frequenza: livello <strong>di</strong><br />

sod<strong>di</strong>sfazione <strong>di</strong> un campione <strong>di</strong> citta<strong>di</strong>ni<br />

relativamente alla <strong>di</strong>sponibilità <strong>di</strong> parchi<br />

Livello <strong>di</strong><br />

sod<strong>di</strong>sfazione<br />

n. citta<strong>di</strong>ni<br />

1 4<br />

2 15<br />

3 26<br />

4 21<br />

5 8<br />

6 3<br />

7 1


Calcolo <strong>della</strong> me<strong>di</strong>a aritmetica<br />

ponderata<br />

1 • 4 + 2 • 15 + ….......... + 6 •3 + 7 • 1<br />

—————————————————— =<br />

4 + 15 + …......... + 3 + + 1<br />

261<br />

———— = 3,346<br />

78


Esempio <strong>di</strong> me<strong>di</strong>a aritmetica ponderata - dati<br />

<strong>di</strong> partenza: livello <strong>di</strong> sod<strong>di</strong>sfazione <strong>di</strong> un<br />

soggetto relativamente ad alcuni aspetti<br />

<strong>della</strong> zona <strong>di</strong> residenza<br />

Fattori considerati<br />

Livello <strong>di</strong><br />

sod<strong>di</strong>sfazione<br />

Livello <strong>di</strong><br />

importanza<br />

Qualità aria 6 7<br />

Viabilità<br />

ferroviaria<br />

5 3<br />

Viabilità stradale 3 5<br />

Controlli tutela<br />

amb.<br />

6 1<br />

Disponibilità 2 5


Calcolo <strong>della</strong> me<strong>di</strong>a aritmetica<br />

ponderata<br />

6 • 7 + 5 • 3 + ….......... + 2 • 5 + 4 • 3<br />

—————————————————— =<br />

7 + 3 + …......... + 5 + 3<br />

112<br />

———— = 4,148<br />

27


Calcolo <strong>della</strong> me<strong>di</strong>a aritmetica<br />

ponderata per un fenomeno continuo<br />

• Se il fenomeno è in classi ed è continuo,<br />

non si hanno i valori precisi <strong>degli</strong> x i<br />

• Si considerano come x i i valori centrali<br />

delle classi<br />

• Per eventuali classi aperte, si fissano nel<br />

modo più ragionevole possibile gli estremi


Proprietà <strong>della</strong> me<strong>di</strong>a aritmetica<br />

• La me<strong>di</strong>a <strong>di</strong> un gruppo <strong>di</strong> valori è sempre<br />

compresa tra il valore minimo e quello<br />

massimo<br />

• La somma <strong>degli</strong> scarti dalla me<strong>di</strong>a è<br />

sempre pari a zero


MEDIA QUADRATICA (rms)<br />

(root mean square)<br />

utile quando ci sono valori negativi e valori<br />

positivi, che darebbero una me<strong>di</strong>a<br />

aritmetica molto prossima allo zero<br />

• È maggiore o uguale alla me<strong>di</strong>a aritmetica<br />

• si alzano al quadrato i valori<br />

• si calcola la me<strong>di</strong>a dei quadrati<br />

• si estrae la ra<strong>di</strong>ce quadrata <strong>di</strong> questa me<strong>di</strong>a<br />

rms = radq [Σ (x i ) 2 / n]


Esempio <strong>di</strong> me<strong>di</strong>a quadratica - dati <strong>di</strong><br />

partenza: precipitazioni piovose a<br />

Bombay<br />

Anni Scostamento dalla<br />

me<strong>di</strong>a (mm)<br />

1971 173<br />

1972 83<br />

1973 -16<br />

1974 13<br />

1975 -137<br />

1976 -116


Esempio <strong>di</strong> me<strong>di</strong>a quadratica -<br />

calcolo<br />

(173) 2 + (83) 2 + (-16) 2 + (13) 2 + (-137) 2 + (-116) 2<br />

rms = ——————————————————————<br />

6<br />

69468<br />

rms = radq ———— = radq (11578) = 107,601<br />

6


La me<strong>di</strong>a geometrica (M g )<br />

ra<strong>di</strong>ce n-esima del prodotto <strong>degli</strong> n valori<br />

n<br />

x ⋅ x ⋅...<br />

⋅<br />

1<br />

2<br />

xn<br />

• si utilizza per il calcolo <strong>della</strong> me<strong>di</strong>a del<br />

tasso <strong>di</strong> interesse, oppure del tasso <strong>di</strong><br />

incremento o <strong>di</strong> decremento<br />

• In questi casi, somma non è idonea a<br />

fornire il reale or<strong>di</strong>ne <strong>di</strong> grandezza del<br />

fenomeno


Esempio <strong>di</strong> calcolo <strong>di</strong> una<br />

me<strong>di</strong>a geometrica<br />

• La salinità dell’acqua lagunare, in seguito alle<br />

<strong>di</strong>verse entità <strong>della</strong> piena <strong>di</strong> un fiume, mostra da<br />

un anno all’altro le seguenti variazioni %<br />

(misurate il 31 gennaio <strong>di</strong> ogni anno):<br />

2007: -0,6%; 2008: -3,2%; 2009: +1,7%; <strong>2010</strong>: +0,3%<br />

M g = (0,994 * 0,968 * 1,017 * 1,003) 1/4<br />

= 0, 9953 (decremento me<strong>di</strong>o annuo dello 0,47%)


Le principali me<strong>di</strong>e <strong>di</strong><br />

posizione<br />

me<strong>di</strong>ana (M e) (la modalità che si colloca<br />

al centro <strong>della</strong> successione dei termini,<br />

or<strong>di</strong>nati in senso non decrescente)<br />

moda (M o) (la modalità più frequente)


La me<strong>di</strong>ana<br />

• La me<strong>di</strong>ana <strong>di</strong> n osservazioni <strong>di</strong> un<br />

fenomeno quantitativo oppure qualitativo<br />

or<strong>di</strong>nale, è la modalità che nella<br />

successione dei valori, or<strong>di</strong>nati in senso<br />

crescente, occupa il posto centrale<br />

• È preceduta dal 50% dei valori, è seguita<br />

dal 50% dei valori


• Con n <strong>di</strong>spari: una<br />

sola me<strong>di</strong>ana<br />

• Il valore<br />

corrispondente<br />

all’unità (n+1)2<br />

LA MEDIANA<br />

• Con n pari: due<br />

me<strong>di</strong>ane<br />

• I valori<br />

corrispondenti alle<br />

unità:<br />

n / 2 (n / 2) + 1


Un esempio <strong>di</strong> impostazione<br />

Stazione Classificazione<br />

trofica<br />

Lido <strong>di</strong><br />

Volano<br />

Porto<br />

Garibal<strong>di</strong><br />

Scadente 17,<br />

6<br />

Scadente 16,<br />

4<br />

Casalborsetti Me<strong>di</strong>ocre 16,<br />

4<br />

°C Salinit<br />

à<br />

pH<br />

27,4 8,24<br />

28,9 8,29<br />

30,2 8,30<br />

Marina <strong>di</strong> Me<strong>di</strong>ocre 16, 31,9 8,27


La me<strong>di</strong>ana – primo esempio<br />

Stazione Classificazione trofica °C Salinità pH<br />

Lido <strong>di</strong> Volano Scadente 17,6 27,4 8,24<br />

Porto Garibal<strong>di</strong> Scadente 16,4 28,9 8,29<br />

Casalborsetti Me<strong>di</strong>ocre 16,4 30,2 8,30<br />

Marina <strong>di</strong> Rav. Me<strong>di</strong>ocre 16,5 31,9 8,27<br />

Lido Adriano Me<strong>di</strong>ocre 16,4 31,6 8,28<br />

Cesenatico Me<strong>di</strong>ocre 16,2 32,8 8,19<br />

Rimini Buona 16,6 33,4 8,27<br />

Cattolica Buona 16,5 34,0 8,24<br />

Relativamente alla classificazione trofica, la me<strong>di</strong>ana è la<br />

modalità me<strong>di</strong>ocre;<br />

Per quanto riguarda la temperatura, le me<strong>di</strong>ane sono 16,4 e 16,5<br />

Per il pH, la me<strong>di</strong>ana è 8,27


La me<strong>di</strong>ana – secondo esempio (dati in <strong>di</strong>stribuzione <strong>di</strong><br />

frequenza: numero <strong>di</strong> comuni <strong>della</strong> Lombar<strong>di</strong>a nordoccidentale<br />

per numerosità <strong>di</strong> incen<strong>di</strong> nel decennio<br />

1998-2007)<br />

N. incen<strong>di</strong> (xi) unità<br />

(frequenze)<br />

fx<br />

frequenze<br />

cumulate f’x<br />

La me<strong>di</strong>ana è il valore assunto dal fenomeno in<br />

corrispondenza <strong>di</strong> p'x = 0,5;<br />

nell'esempio, = 4, in quanto p’ x = 0,5 cade nella quarta<br />

classe (considerando le prime tre insieme, infatti, non<br />

si arriva a 0,5, ma solo a 0,482)<br />

p’x<br />

1 71 71 0,139<br />

2 77 148 0,290<br />

3 98 246 0,482<br />

4 102 348 0,682<br />

5 95 443 0,869<br />

6 55 498 0,976<br />

7 12 510 1,000<br />

TOTALE 510


Me<strong>di</strong>a e me<strong>di</strong>ana nelle<br />

<strong>di</strong>stribuzioni asimmetriche<br />

• Nella <strong>di</strong>stribuzione <strong>di</strong> una popolazione o <strong>di</strong> un<br />

campione, la me<strong>di</strong>a non separa in due parti uguali<br />

le unità statistiche (tranne quando la me<strong>di</strong>a<br />

coincide con la me<strong>di</strong>ana).<br />

• La me<strong>di</strong>a risente del fatto che alcuni valori siano<br />

molto <strong>di</strong>stanti dalla me<strong>di</strong>a stessa, mentre la<br />

me<strong>di</strong>ana non ne risente<br />

• Se una coda <strong>della</strong> <strong>di</strong>stribuzione dei valori è molto<br />

allungata, la me<strong>di</strong>a è spostata verso questa coda, in<br />

confronto alla me<strong>di</strong>ana, la quale non dà così<br />

importanza ai valori estremi <strong>della</strong> <strong>di</strong>stribuzione


4<br />

3<br />

2<br />

1<br />

0<br />

Esempio <strong>di</strong> <strong>di</strong>stribuzione asimmetrica: età<br />

dei decessi per cause naturali<br />

20-25<br />

25-30<br />

30-35<br />

35-40<br />

40-45<br />

45-50<br />

50-55<br />

55-60<br />

60-65<br />

65-70<br />

70-75<br />

75-80<br />

80-85<br />

85-90


I percentili<br />

• Cosa sono?<br />

– Il percentile <strong>di</strong> or<strong>di</strong>ne p (100p ) è il valore xp che<br />

<strong>di</strong>vide in due parti la <strong>di</strong>stribuzione (or<strong>di</strong>nata), in<br />

modo che il p% dei valori sia prima <strong>di</strong> xp • Esempio<br />

– il primo percentile è il valore in corrispondenza<br />

del quale si raggiunge l’1% delle unità<br />

– Il decimo percentile è il valore in<br />

corrispondenza del quale si raggiunge il 10%<br />

delle unità


I percentili: casi particolari<br />

• Il cinquantesimo percentile corrisponde alla<br />

me<strong>di</strong>ana<br />

• Il venticinquesimo percentile corrisponde al<br />

primo quartile (Q 1 )<br />

• Il settantacinquesimo percentile corrisponde<br />

al terzo quartile (Q 3 )


Una applicazione: rilevazione del fosforo reattivo<br />

alla stazione <strong>di</strong> Cattolica su 365 giorni (mg/mc)<br />

100 p mg (x p )<br />

3 1,89<br />

10 1,97<br />

25 2,43<br />

50 2,81 (me<strong>di</strong>ana)<br />

75 3,51<br />

95 4,62<br />

99 7,16<br />

• Come si interpretano?<br />

– Il 3% delle rilevazioni ha un valore ≤ 1,89<br />

– il 10% delle rilevazioni ha un valore ≤ 1,97<br />

– il 5% delle rilevazioni ha un valore ≥ 4,22


100 p mg (x p )<br />

3 1,89<br />

10 1,97<br />

25 2,43<br />

50 2,81<br />

75 3,51<br />

95 4,62<br />

99 7,16<br />

% delle rilevazioni che hanno un valore<br />

≤3,51?<br />

75%<br />

valore corrispondente al primo 25% <strong>di</strong><br />

stazioni?<br />

≤2,43<br />

% delle rilevazioni che hanno un valore<br />

≥ 1,97, ma ≤ 4,62<br />

85%<br />

una rilevazioni che ha fatto rilevare un<br />

valore = 1,91 è in corrispondenza del<br />

_______ percentile?<br />

≅ quinto


La moda (M o )<br />

• è la modalità alla quale corrisponde la massima<br />

frequenza<br />

• La moda è interessante quando n è piuttosto<br />

elevato e quando una modalità ha frequenza<br />

molto più elevata delle altre<br />

Distribuzione delle rilevazioni <strong>della</strong> trasparenza<br />

delle acque alla stazione <strong>di</strong> Cervia<br />

Trasparenza (m) n. rilevazioni<br />

0-2 79<br />

2-4 178<br />

4-6 95<br />

6-8 13<br />

Classe modale: 2-4


Misure <strong>di</strong> variabilità


Il significato <strong>di</strong> variabilità<br />

• Una me<strong>di</strong>a sintetizza un gruppo <strong>di</strong> dati in un<br />

unico valore; questa operazione comporta<br />

tuttavia una per<strong>di</strong>ta <strong>di</strong> informazioni<br />

• Due campioni possono fare riscontrare la stessa<br />

me<strong>di</strong>a, pur a fronte <strong>di</strong> situazioni molto <strong>di</strong>verse<br />

• Le misure <strong>di</strong> variabilità sono in<strong>di</strong>catori in grado<br />

<strong>di</strong> valutare in modo sintetico le <strong>di</strong>fferenze tra i<br />

valori <strong>di</strong> un gruppo <strong>di</strong> dati<br />

• Non assumono mai valori negativi<br />

• Sono pari a zero se il fenomeno non presenta<br />

variabilità<br />

• Presentano valori crescenti all'aumentare <strong>della</strong><br />

variabilità


il campo <strong>di</strong> variazione<br />

(range)<br />

• È la <strong>di</strong>fferenza tra il valore massimo x max e<br />

il valore minimo x min tra quelli osservati:<br />

x max - x min<br />

• Ha il <strong>di</strong>fetto <strong>di</strong> tenere conto soltanto dei<br />

valori estremi, non essendo sensibile alle<br />

mo<strong>di</strong>ficazioni nei valori interme<strong>di</strong> (che<br />

alterano comunque la variabilità globale)


La deviazione standard o<br />

scarto quadratico me<strong>di</strong>o<br />

• Si basa sugli scarti tra i singoli valori e la<br />

loro me<strong>di</strong>a aritmetica:<br />

x i - M<br />

• Non sarebbe possibile utilizzare la me<strong>di</strong>a<br />

aritmetica <strong>degli</strong> scarti, poiché la loro<br />

somma algebrica è sempre nulla<br />

• Si può invece impiegare la me<strong>di</strong>a dei<br />

quadrati <strong>degli</strong> scarti (rms)


Simbologia<br />

• La deviazione standard campionaria<br />

si in<strong>di</strong>ca con s<br />

• La deviazione standard <strong>della</strong><br />

popolazione si in<strong>di</strong>ca con σ


σ : il calcolo<br />

• Si <strong>di</strong>ce deviazione standard <strong>della</strong> popolazione<br />

la me<strong>di</strong>a quadratica <strong>degli</strong> scarti <strong>di</strong> ogni valore<br />

<strong>della</strong> popolazione dalla me<strong>di</strong>a aritmetica <strong>della</strong><br />

popolazione<br />

σ = radq [Σ (x i - μ) 2 / n]<br />

• La deviazione standard è espressa nella<br />

stessa unità <strong>di</strong> misura dei valori del<br />

fenomeno


s : il calcolo<br />

• Si <strong>di</strong>ce deviazione standard del campione la<br />

me<strong>di</strong>a quadratica <strong>degli</strong> scarti <strong>di</strong> ogni valore<br />

del campione dalla me<strong>di</strong>a aritmetica<br />

campionaria<br />

_<br />

s = radq [Σ (x i - X) 2 / (n – 1)]<br />

• Ovviamente, anche in questo caso la<br />

deviazione standard è espressa nella stessa<br />

unità <strong>di</strong> misura dei valori del fenomeno


s : un calcolo alternativo<br />

s = radq [n * Σ x 2 - (Σ x) 2 / n * (n – 1)]


Bolzano,<br />

via<br />

σ : un esempio<br />

Bolzano,<br />

piazza<br />

• Polveri sottili: σ 3,91<br />

Merano,<br />

via<br />

Merano, BressaVipite-<br />

Inquinante<br />

Augusta Adriano Laives Trogmann Grünau none Brunico no Cortina<br />

Polveri sottili<br />

Biossido <strong>di</strong><br />

µg/m³ 20 15 21 24 18 11 18 24 18<br />

azoto µg/m³ 67 69 50 59 40 48 42 76 52<br />

• Biossido <strong>di</strong> azoto: σ 11,86


Alcune proprietà <strong>della</strong><br />

me<strong>di</strong>a aritmetica e <strong>della</strong> σ<br />

• Se a tutti i valori <strong>di</strong> una serie viene<br />

sommato un numero, la me<strong>di</strong>a aumenta <strong>di</strong><br />

questo valore, σ non cambia<br />

• Se tutti i valori <strong>di</strong> una serie vengono<br />

moltiplicati per una costante, la me<strong>di</strong>a e σ<br />

risultano moltiplicate per questa costante


Caso 1<br />

1, 3, 4, 5, 7 6, 8, 9, 10, 12<br />

(y = x + 5)<br />

me<strong>di</strong>a 4 9<br />

σ 2 2


Caso 2<br />

1, 3, 4, 5, 7 3, 9, 12, 15, 21<br />

(y = x . 3)<br />

me<strong>di</strong>a 4 12<br />

σ 2 6


Caso 3<br />

5, - 4, 3, - 1, 7 - 5, 4, - 3, 1, - 7<br />

(y = -x)<br />

me<strong>di</strong>a 2 - 2<br />

σ 4 4


La varianza<br />

• La varianza è il quadrato <strong>della</strong><br />

deviazione standard<br />

• Non è espressa nella stessa unità <strong>di</strong><br />

misura del fenomeno, ma nel<br />

quadrato <strong>di</strong> questa unità <strong>di</strong> misura


Altre misure <strong>di</strong> <strong>di</strong>spersione<br />

• Differenza interquartile (utile<br />

soprattutto quando la <strong>di</strong>stribuzione<br />

dei valori non è approssimabile con la<br />

<strong>di</strong>stribuzione normale)<br />

– è la <strong>di</strong>fferenza tra il 75esimo percentile e<br />

il 25esimo percentile


Gli in<strong>di</strong>ci relativi <strong>di</strong> variabilità<br />

• Quando due fenomeni hanno unità <strong>di</strong><br />

misura <strong>di</strong>verse, il confronto <strong>di</strong>retto in<br />

termini <strong>di</strong> variabilità non è proponibile<br />

• In altri casi, il confronto tra la variabilità <strong>di</strong><br />

due fenomeni può essere poco utile per il<br />

<strong>di</strong>verso valore me<strong>di</strong>o dei fenomeni (per<br />

esempio, red<strong>di</strong>ti e spesa per generi<br />

farmaceutici)<br />

• Altre volte, si vorrebbe sapere se la<br />

variabilità è forte oppure debole<br />

Per affrontare questi problemi, si utilizzano<br />

gli in<strong>di</strong>ci relativi <strong>di</strong> variabilità, da cui viene<br />

eliminata l'influenza dell'unità <strong>di</strong> misura e<br />

<strong>della</strong> <strong>di</strong>mensione me<strong>di</strong>a dei fenomeni<br />

considerati


Gli in<strong>di</strong>ci <strong>di</strong> variabilità rapportati a<br />

un valore me<strong>di</strong>o<br />

• Il più utilizzato è il rapporto tra la deviazione<br />

standard e la me<strong>di</strong>a aritmetica<br />

• Si ricava in questo modo il coefficiente <strong>di</strong><br />

variazione (CV):<br />

σ<br />

CV = ——<br />

M<br />

• Solitamente, CV viene moltiplicato per 100, per<br />

agevolarne la lettura; si interpreta quin<strong>di</strong> come la<br />

% <strong>della</strong> σ sulla me<strong>di</strong>a


Obiettivi del calcolo del CV<br />

• confronto tra variabilità calcolate su fenomeni<br />

con unità <strong>di</strong> misura <strong>di</strong>verse o con or<strong>di</strong>ni <strong>di</strong><br />

grandezza molto <strong>di</strong>fferenti<br />

• il CV può presentare valori superiori all'unità<br />

(o a 100, se è stato moltiplicato per 100),<br />

quando la deviazione standard è maggiore<br />

<strong>della</strong> me<strong>di</strong>a<br />

• il CV perde <strong>di</strong> significato se il fenomeno può<br />

presentare valori negativi e positivi; in questo<br />

caso, la me<strong>di</strong>a può risultare molto prossima a<br />

zero


Gli in<strong>di</strong>ci <strong>di</strong> variabilità rapportati al<br />

loro massimo<br />

• sono idonei a rispondere a una domanda<br />

<strong>di</strong> questo tipo:<br />

la variabilità espressa da una deviazione<br />

standard, o da una varianza, è forte o è<br />

debole?<br />

• si calcolano in<strong>di</strong>catori il cui campo <strong>di</strong><br />

variazione è standard (solitamente,<br />

l'intervallo 0 – 1)


Il proce<strong>di</strong>mento<br />

• si identifica la situazione <strong>di</strong> massima<br />

variabilità (presente quando il fenomeno<br />

assume soltanto i due valori più <strong>di</strong>stanti<br />

tra loro)<br />

• come in<strong>di</strong>viduare il massimo valore che la<br />

deviazione standard può assumere? Si<br />

calcola il campo <strong>di</strong> variazione teorico<br />

(<strong>di</strong>fferenza tra il valore massimo possibile e il<br />

valore minimo possibile) e si <strong>di</strong>vide per due<br />

• si rapporta la deviazione standard<br />

effettivamente ottenuta al valore<br />

massimo che esso può assumere


Un problema<br />

• La <strong>di</strong>fficoltà <strong>di</strong> in<strong>di</strong>viduare in maniera<br />

oggettiva il valore minimo teorico e<br />

soprattutto il valore massimo teorico che<br />

il fenomeno può assumere<br />

• A volte, come valore massimo teorico si<br />

adotta semplicemente il valore più alto tra<br />

quelli osservati


5 – CORRELAZIONE E<br />

REGRESSIONE LINEARE


La correlazione


Correlazione: qualche<br />

definizione preliminare<br />

• Correlazione: stu<strong>di</strong>o <strong>della</strong> relazione tra<br />

due fenomeni quantitativi<br />

• Alcuni valori <strong>di</strong> X si associano<br />

frequentemente a specifici valori <strong>di</strong> Y?<br />

• Conoscendo il valore <strong>di</strong> X per una unità<br />

statistica, si può pre<strong>di</strong>re il valore <strong>di</strong> Y?


Dipendenza e inter<strong>di</strong>pendenza<br />

• relazioni <strong>di</strong> <strong>di</strong>pendenza: quando un<br />

fenomeno è un antecedente (temporale,<br />

logico o <strong>di</strong> altro genere) rispetto a un altro<br />

• relazioni <strong>di</strong> inter<strong>di</strong>pendenza: i fenomeni si<br />

collocano sullo stesso piano, non<br />

esistendo tra loro un fenomeno<br />

antecedente e un fenomeno conseguente


L’analisi <strong>di</strong> correlazione<br />

• È finalizzata allo stu<strong>di</strong>o<br />

dell’associazione esistente tra due<br />

fenomeni quantitativi, in termini <strong>di</strong><br />

inter<strong>di</strong>pendenza


I primi passi<br />

• Rappresentazione grafica dei dati con un<br />

<strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione<br />

• Calcolo <strong>degli</strong> scostamenti <strong>di</strong> ogni valore<br />

dalla me<strong>di</strong>a:<br />

– se a scostamenti positivi <strong>di</strong> un fenomeno<br />

corrispondono scostamenti positivi dell'altro,<br />

allora esiste una relazione <strong>di</strong>retta<br />

– altrimenti, la relazione è inversa (a scostamenti<br />

positivi dell’uno corrispondono scostamenti<br />

negativi dell’altro)


Numero <strong>di</strong> piccoli nella<br />

tasca incubatrice<br />

Esempio <strong>di</strong> <strong>di</strong>agramma <strong>di</strong> <strong>di</strong>spersione<br />

relativo all'arma<strong>di</strong>lli<strong>di</strong>um vulgare<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

5 7 9 11<br />

Dimensioni <strong>della</strong> femmina (mm)


La covarianza<br />

• è un primo in<strong>di</strong>catore in grado <strong>di</strong> fornire<br />

informazioni sull'intensità e sulle<br />

caratteristiche delle relazione esistente tra<br />

due fenomeni quantitativi<br />

COV (X,Y)<br />

• è la me<strong>di</strong>a dei prodotti dei rispettivi<br />

scostamenti dalla me<strong>di</strong>a (x' i e y' i )<br />

Σ (x' i • y' i )<br />

COV (X,Y) = ——————<br />

n


Il problema <strong>della</strong> covarianza<br />

• quando la covarianza assume valori<br />

positivi, si è in presenza <strong>di</strong> una relazione<br />

<strong>di</strong>retta<br />

• valori negativi segnalano una relazione<br />

inversa<br />

• valori <strong>della</strong> covarianza pari a 0<br />

corrispondono all'assenza <strong>di</strong> una relazione<br />

lineare tra i due fenomeni<br />

• Il problema <strong>della</strong> covarianza è legato al fatto<br />

che questo in<strong>di</strong>catore è espresso in termini<br />

del prodotto delle unità <strong>di</strong> misura <strong>di</strong> X e <strong>di</strong> Y


Il coefficiente <strong>di</strong> correlazione<br />

lineare<br />

• è la covarianza calcolata sugli scostamenti<br />

standar<strong>di</strong>zzati:<br />

Σ [z (x i ) • z (y i )]<br />

r = —————————<br />

n<br />

• cosa sono gli scostamenti standar<strong>di</strong>zzati?<br />

sono gli scostamenti dalla me<strong>di</strong>a rapportati<br />

alla deviazione standard; ad es., per X:<br />

x i - M(X)<br />

z (x i ) = —————<br />

SD (X)


Una formule alternative per il<br />

calcolo <strong>di</strong> r<br />

COV (X,Y)<br />

r = —————————<br />

SD (X) • SD (Y)


L’interpretazione del<br />

coefficiente <strong>di</strong> correlazione - 1<br />

• Esprime l’addensamento dei punti<br />

attorno alla retta<br />

• Misura l’intensità del legame delle due<br />

variabili<br />

• È sempre compreso tra – 1 e + 1


L’interpretazione del<br />

coefficiente <strong>di</strong> correlazione - 2<br />

• è pari a 1 quando si è in una situazione<br />

<strong>di</strong> perfetta correlazione positiva<br />

• è pari a –1 quando si è in una situazione<br />

<strong>di</strong> perfetta correlazione negativa<br />

• tende invece ad avvicinarsi a zero<br />

quando la relazione è piuttosto debole


100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

Esempio <strong>di</strong> relazione lineare precisa<br />

0 20 40 60 80 100


100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

Esempio <strong>di</strong> relazione lineare approssimativa<br />

0 20 40 60 80 100


100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

Esempio <strong>di</strong> assenza <strong>di</strong> relazione<br />

0 20 40 60 80 100


è invariante per<br />

cambiamenti <strong>di</strong> scala<br />

• Non cambia se si aggiunge lo stesso<br />

numero a tutti i valori <strong>di</strong> una variabile<br />

• Non cambia nemmeno se si moltiplicano<br />

tutti i valori <strong>di</strong> una variabile per lo stesso<br />

numero positivo


PM10: rilevazioni <strong>di</strong> tre centraline -<br />

coefficienti <strong>di</strong> correlazione<br />

Agrate 0,89<br />

Vimercate Agrate<br />

Juvara 0,72 0,69


Associazione e causalità non<br />

sempre coincidono<br />

L'esistenza <strong>di</strong> un elevato valore <strong>di</strong> r può<br />

essere attribuita:<br />

• a una relazione <strong>di</strong> inter<strong>di</strong>pendenza<br />

• a una relazione <strong>di</strong> <strong>di</strong>pendenza<br />

• alla <strong>di</strong>pendenza <strong>di</strong> entrambi i<br />

fenomeni da un terzo fenomeno<br />

(correlazione spuria)


Un esempio: <strong>di</strong>ffusione e<br />

durata <strong>di</strong> una specie<br />

La <strong>di</strong>ffusione geografica <strong>di</strong> una specie e la<br />

sua durata nel tempo risultano tra loro<br />

associate piuttosto precisamente.<br />

• Una specie <strong>di</strong>ffusa sopravvive a calamità<br />

naturali locali?<br />

• Una lunga durata tende a favorire una più<br />

ampia <strong>di</strong>ffusione geografica?<br />

• È maggiore la reperibilità <strong>di</strong> fossili <strong>di</strong><br />

specie <strong>di</strong>ffuse, e ciò lascia erroneamente<br />

ipotizzare una durata prolungata?


La regressione lineare


In molti casi si considerano:<br />

• Una variabile <strong>di</strong>pendente (Y):<br />

regredendo<br />

• Una variabile in<strong>di</strong>pendente (X):<br />

variabile esplicativa o regressore<br />

Solitamente, X è un antecedente<br />

logico o temporale


Scopi dell’analisi <strong>di</strong><br />

regressione<br />

• <strong>Stu<strong>di</strong></strong>are come un fenomeno <strong>di</strong>pende<br />

dall'altro<br />

• Comprendere se si può pre<strong>di</strong>re la variabile<br />

<strong>di</strong>pendente (Y) partendo dalla variabile<br />

esplicativa (X)<br />

Ad esempio, l'interesse <strong>di</strong> un ricercatore può<br />

riguardare l’in<strong>di</strong>viduazione dell’intensità delle<br />

polveri totali sospese in corrispondenza <strong>di</strong><br />

<strong>di</strong>versi gra<strong>di</strong> <strong>di</strong> usura del manto stradale (e<br />

quin<strong>di</strong> dei relativi residui)


Con la regressione, quin<strong>di</strong>, …<br />

… si cerca <strong>di</strong> capire quanto aumenta o<br />

<strong>di</strong>minuisce la variabile <strong>di</strong>pendente …<br />

… in corrispondenza <strong>di</strong> un aumento unitario<br />

<strong>della</strong> variabile in<strong>di</strong>pendente<br />

Per esempio, l’entità delle mo<strong>di</strong>ficazioni<br />

nello strato <strong>di</strong> ozono rispetto a un<br />

incremento unitario <strong>di</strong> clorofluorocarburi<br />

<strong>di</strong>ffusi nell'alta atmosfera


L’interpolazione lineare<br />

• occorre una funzione interpolante, una<br />

funzione analitica che sia il più possibile<br />

vicina ai punti (x i ,y i )<br />

interpolazione <strong>di</strong> una successione <strong>di</strong> punti:<br />

adattamento ai valori osservati <strong>di</strong> una<br />

opportuna funzione<br />

• limitando l’analisi all'interpolazione<br />

lineare, si hanno funzioni del tipo:<br />

y = a + b • x<br />

A volte, i simboli utilizzati sono:<br />

y = ß 0 + ß 1 • x


I parametri <strong>della</strong> funzione<br />

• L'intercetta a (ß 0 ) è il valore teorico <strong>della</strong><br />

variabile <strong>di</strong>pendente in corrispondenza <strong>di</strong><br />

un valore nullo <strong>della</strong> variabile esplicativa<br />

(in sintesi, è il valore <strong>di</strong> Y quando X = 0);<br />

ha la stessa unità <strong>di</strong> misura <strong>di</strong> y<br />

• La pendenza b (ß 1 ) (o coefficiente<br />

angolare) è l'entità <strong>della</strong> variazione teorica<br />

<strong>della</strong> variabile <strong>di</strong>pendente in<br />

corrispondenza <strong>di</strong> un incremento <strong>di</strong> una<br />

unità <strong>della</strong> variabile esplicativa<br />

è quin<strong>di</strong> espressa in termini <strong>di</strong> unità <strong>di</strong> Y /<br />

unità <strong>di</strong> X: infatti, è la variazione verticale /<br />

variazione orizzontale


Interpolazione ed<br />

estrapolazione<br />

L’utilizzo <strong>della</strong> funzione per pre<strong>di</strong>re valori <strong>di</strong><br />

Y nell’intervallo osservato dei valori <strong>di</strong> X è<br />

chiamato interpolazione<br />

L’utilizzo <strong>della</strong> funzione per pre<strong>di</strong>re valori <strong>di</strong><br />

Y all’esterno dell’intervallo osservato dei<br />

valori <strong>di</strong> X è chiamato estrapolazione


Il calcolo dei parametri<br />

r • SD (Y)<br />

b = ————————<br />

SD (X)<br />

a = M Y – (b • M X )<br />

• Per determinare i parametri <strong>della</strong> funzione<br />

interpolante, si ricorre alla con<strong>di</strong>zione dei minimi<br />

quadrati<br />

• La funzione interpolante è infatti quella che rende<br />

minima la somma dei quadrati delle <strong>di</strong>stanze tra i<br />

valori effettivamente rilevati <strong>di</strong> Y e i valori <strong>di</strong> Y) che<br />

possono essere dedotti dalla funzione


Il coefficiente <strong>di</strong> determinazione (r 2 )<br />

• in<strong>di</strong>ca la vali<strong>di</strong>tà (o bontà) <strong>della</strong> funzione<br />

adottata<br />

• È il quadrato del coefficiente <strong>di</strong> correlazione<br />

(r 2 )<br />

• r 2 esprime la quota <strong>di</strong> variabilità del fenomeno<br />

Y che è spiegata dalla retta <strong>di</strong> regressione<br />

• in<strong>di</strong>ca quanto la retta riassume l'effettivo<br />

legame tra i due fenomeni<br />

• assume valori compresi tra 0 e 1<br />

• più si avvicina all'unità, migliore è<br />

l'adattamento <strong>della</strong> retta ai valori osservati


RMSE (root mean square error)<br />

o errore standard <strong>della</strong> stima<br />

È la me<strong>di</strong>a quadratica dei residui (e)<br />

si calcola agevolmente con:<br />

RMSE = SD (Y) • radq (1-r 2 )<br />

Si in<strong>di</strong>ca anche con s y|x<br />

Si tratta <strong>di</strong> una misura <strong>di</strong> quanto i valori osservati<br />

variano intorno alla retta <strong>di</strong> regressione<br />

(è un concetto analogo allo scarto quadratico me<strong>di</strong>o<br />

in riferimento alla me<strong>di</strong>a)


RMSE rappresenta l’errore che si<br />

commette nel pre<strong>di</strong>re Y con l’aiuto <strong>di</strong><br />

X<br />

È espresso nella stessa unità <strong>di</strong> misura<br />

<strong>di</strong> Y<br />

Il valore <strong>di</strong> Y previsto per un<br />

determinato soggetto con l’aiuto<br />

<strong>della</strong> retta <strong>di</strong> regressione si<br />

<strong>di</strong>scosterà in me<strong>di</strong>a da quello<br />

effettivo per un’entità pari al RMSE


<strong>Stu<strong>di</strong></strong>o sulla produzione <strong>di</strong> anidride<br />

carbonica al buio da parte <strong>di</strong> foglie <strong>di</strong> mais<br />

X: minuti <strong>di</strong> inizio dell’oscurità Y: anidride carbonica<br />

(unità relative)<br />

Inizio oscurità : me<strong>di</strong>a 6,000, SD 2,828<br />

Anidride carbonica : me<strong>di</strong>a 7,160, SD 1,001<br />

r: + 0,918<br />

pendenza 0,918 • 1,001 / 2,828 = 0,325<br />

intercetta 7,160 – 0,325 • 6 = 5,21<br />

RMSE = 0,3967 significa che la produzione <strong>di</strong><br />

anidride carbonica prevista per una determinata<br />

situazione <strong>di</strong> oscurità tenderà a scostarsi da quella<br />

effettiva in me<strong>di</strong>a per 0,3967 unità relative


Esempio riferito alla portata (mc/sec)<br />

<strong>di</strong> un fiume e all’in<strong>di</strong>ce <strong>di</strong> salinità (ppm:<br />

parti per milione) del mare nei pressi<br />

<strong>della</strong> foce<br />

y = 37250 - 35,3 x<br />

r = -0,874<br />

37250 ppm è il valore <strong>della</strong> salinità nell’ipotetica<br />

situazione <strong>di</strong> una portata del fiume pari a zero<br />

35,3 ppm è la <strong>di</strong>minuzione dell’in<strong>di</strong>ce <strong>di</strong> salinità<br />

corrispondente a un incremento <strong>della</strong> portata<br />

del fiume <strong>di</strong> 1 mc/sec


L’applicazione alle<br />

serie storiche


Definizione <strong>di</strong> serie storica<br />

Per serie storica <strong>di</strong> un fenomeno<br />

quantitativo D si intende una<br />

successione dei valori d t (t = 1, 2,<br />

..., n), assunti dal fenomeno in<br />

tempi (o intervalli temporali)<br />

successivi


Le finalità dell’analisi<br />

• descrizione in termini sintetici<br />

dell'evoluzione temporale <strong>di</strong> un fenomeno<br />

• formulazione <strong>di</strong> proiezioni sul futuro del<br />

fenomeno considerato…<br />

…soggette a una importante con<strong>di</strong>zione: la<br />

permanenza delle con<strong>di</strong>zioni che hanno<br />

concorso a determinare l'evoluzione<br />

precedente


La stima del trend con il metodo<br />

<strong>della</strong> regressione<br />

• Il trend: è la tendenza <strong>di</strong> fondo <strong>di</strong> una serie<br />

storica<br />

• Per mezzo <strong>della</strong> regressione si vuole<br />

stimare la funzione più in grado <strong>di</strong><br />

esprimere la relazione tra il fattore tempo e<br />

il fenomeno oggetto <strong>di</strong> stu<strong>di</strong>o…<br />

… per poi pre<strong>di</strong>re il fenomeno in esame a<br />

partire dalla scansione dei tempi


Il fattore tempo come<br />

variabile in<strong>di</strong>pendente<br />

• Consideriamo il fattore tempo come la<br />

variabile in<strong>di</strong>pendente (x) e il fenomeno in<br />

esame (D) come la variabile <strong>di</strong>pendente (y)<br />

• Possiamo effettuare una normale analisi <strong>di</strong><br />

regressione lineare, identificando sia la<br />

retta <strong>di</strong> regressione, sia il relativo<br />

coefficiente <strong>di</strong> determinazione (r 2 )


La semplificazione <strong>della</strong><br />

scala temporale<br />

Per semplificare i calcoli, gli anni possono<br />

essere trasformati in una unità <strong>di</strong> misura<br />

più semplice ….<br />

…. non tanto 2000, 2001, 2002, 2003, ecc. ….<br />

…. quanto 1, 2, 3, 4, ecc.


La funzione y = a + b • x<br />

• esprime l'ipotesi <strong>di</strong> variazioni <strong>di</strong><br />

ammontare costante fra due tempi<br />

consecutivi (espresse nella stessa unità<br />

<strong>di</strong> misura del fenomeno analizzato), uguali<br />

alla pendenza<br />

• l’intercetta in<strong>di</strong>ca il valore assunto<br />

teoricamente dal fenomeno (stimato<br />

secondo la retta interpolante) quando x =<br />

0, ossia nel tempo imme<strong>di</strong>atamente<br />

precedente al primo dei tempi presi in<br />

considerazione


Un esempio: PM10 rilevati alla<br />

stazione <strong>di</strong> Rovigo centro (microg/mc)<br />

Età in anni (x) microg/mc (y)<br />

2004 1 48,2<br />

2005 2 47,4<br />

2006 3 48,1<br />

2007 4 41,8<br />

2008 5 37,6<br />

2009 6 37,3<br />

<strong>2010</strong> 7 34,4


= -0,954<br />

pendenza pari a -2,575<br />

intercetta pari a 52,414<br />

y = 52,414 - 2,575 x<br />

r 2 = (0,954) 2 = 0,910<br />

RMSE = 5,40 • radq (1 – 0,91) = 1,617


• Secondo la funzione lineare ricavata, si<br />

hanno quin<strong>di</strong> variazioni <strong>di</strong> ammontare<br />

costante (in microg/mc), pari a -2,575 fra<br />

due anni consecutivi<br />

• Il valore teorico <strong>di</strong> PM10 quando x è pari a<br />

zero (ossia, nell’anno 2003) è <strong>di</strong> 52,414<br />

(microg/mc)


• r 2 = - 0,910<br />

• Una elevata quota <strong>di</strong> variabilità del<br />

fenomeno Y è spiegata dalla retta <strong>di</strong><br />

regressione<br />

• Quin<strong>di</strong>, la retta <strong>di</strong> regressione è idonea a<br />

riassumere l'effettivo legame tra il<br />

fenomeno considerato e il fattore tempo,<br />

anche<br />

• In altri termini, tenere conto<br />

dell’evoluzione <strong>della</strong> serie storica aiuta<br />

notevolmente nella pre<strong>di</strong>zione dei valori<br />

futuri


RMSE = 1,617 (microg/mc) significa che il<br />

valore <strong>di</strong> PM10 previsto per un<br />

determinato anno si <strong>di</strong>scosterà da quello<br />

effettivo in me<strong>di</strong>a per 1,617 microg/mc<br />

il confronto con la SD (Y), molto più elevata,<br />

consente <strong>di</strong> affermare che con l’utilizzo<br />

del fattore tempo nel ruolo <strong>di</strong> variabile<br />

in<strong>di</strong>pendente, la capacità <strong>di</strong> pre<strong>di</strong>zione <strong>di</strong><br />

Y migliora sensibilmente<br />

In altri termini, l’errore me<strong>di</strong>o <strong>di</strong> pre<strong>di</strong>zione<br />

con l’impiego <strong>di</strong> X si riduce In misura<br />

consistente


La proiezione<br />

• Utilizzando la funzione interpolante, è<br />

possibile effettuare proiezioni sul<br />

futuro del fenomeno considerato<br />

• per esempio, per il 2012 (x = 9):<br />

y = 52,414 – 2,575 • 9 = 29,24


Trend non lineari<br />

• Anche nello stu<strong>di</strong>o delle serie storiche, r prossimo a zero<br />

non necessariamente significa assenza <strong>di</strong> relazione<br />

(possiamo essere in presenza <strong>di</strong> una associazione non<br />

lineare)<br />

• Per esempio, la % <strong>di</strong> tannino nella felce aquilina ha questo<br />

trend nei mesi da maggio a ottobre:<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

maggio giugno luglio agosto settembre ottobre


6 – NOZIONI ELEMENTARI DI<br />

PROBABILITA’


Definizione <strong>di</strong> probabilità<br />

• Secondo la teoria frequentista, adatta<br />

per esempio ai processi che si<br />

possono ripetere tante volte:<br />

la probabilità <strong>di</strong> un evento è la<br />

percentuale dei casi in cui tale<br />

evento può verificarsi, sul totale dei<br />

casi possibili


Simboli<br />

• La probabilità che si verifichi l’evento E si<br />

in<strong>di</strong>ca con P(E)<br />

• La probabilità che si verifichi l’evento<br />

contrario (non E) si in<strong>di</strong>ca con P(non E)<br />

P(E) = [1 - P(non E)]<br />

• l’evento impossibile ha probabilità pari a zero


Spazio <strong>degli</strong> eventi<br />

• È importante, per ogni esperimento, definire lo spazio <strong>degli</strong><br />

eventi (S), che comprende tutti i possibili eventi. Si utilizzano<br />

solitamente le parentesi graffe per in<strong>di</strong>care tutti gli eventi<br />

possibili. Per esempio:<br />

S = { x: 15 < x < 30}<br />

• Ogni elemento dello spazio <strong>degli</strong> eventi è detto evento<br />

semplice (un evento semplice è definito da una sola<br />

caratteristica)<br />

• Un qualsiasi insieme <strong>di</strong> eventi semplici è detto evento<br />

congiunto o composto (un evento congiunto è definito da due<br />

o più caratteristiche)


Eventi compatibili e<br />

incompatibili<br />

• Due eventi sono incompatibili<br />

quando il verificarsi dell’uno<br />

esclude il verificarsi dell’altro<br />

• Due eventi sono compatibili quando<br />

il verificarsi dell’uno non esclude il<br />

verificarsi dell’altro


EVENTI INCOMPATIBILI<br />

E<br />

F


EVENTI COMPATIBILI<br />

E<br />

F


Eventi <strong>di</strong>pendenti e in<strong>di</strong>pendenti<br />

• Due eventi sono in<strong>di</strong>pendenti quando la<br />

probabilità che il secondo si verifichi è la<br />

stessa, in<strong>di</strong>pendentemente dal verificarsi o<br />

meno del primo<br />

es.: estrazione con reimmissione<br />

• Due eventi sono <strong>di</strong>pendenti quando la<br />

probabilità che il secondo si verifichi è<br />

<strong>di</strong>versa, a seconda che si sia verificato o<br />

meno il primo<br />

es.: estrazione senza reimmissione


Probabilità con<strong>di</strong>zionata<br />

• Ha significato solo nell’ambito <strong>degli</strong> eventi<br />

<strong>di</strong>pendenti<br />

• È la probabilità che si verifichi un secondo<br />

evento (F), quando si impone una con<strong>di</strong>zione<br />

sul primo evento (E)<br />

P (F | E) (si legge: probabilità <strong>di</strong> F dato E)


Esempio <strong>di</strong> probabilità<br />

con<strong>di</strong>zionata<br />

• Si stima che un complesso idrovoro sia in grado <strong>di</strong><br />

fronteggiare una determinata piena del fiume con una<br />

probabilità del 94%.<br />

• Nel caso che si verifichi l’evento sopra esposto (C,<br />

ossia capacità <strong>di</strong> fronteggiare la piena), si stima che<br />

l’intera area golenale sarà preservata dalla piena nel<br />

62% dei casi.<br />

• La probabilità con<strong>di</strong>zionata, in questo caso, è la<br />

probabilità che l’intera area golenale sia preservata.<br />

La in<strong>di</strong>chiamo con P(G).<br />

P (G | C) = 0,62


La proprietà moltiplicativa<br />

• La probabilità che si verifichino due eventi<br />

(entrambi) si in<strong>di</strong>ca con<br />

P (E e F) oppure con P (E ∩ F)<br />

(probabilità dell’intersezione <strong>degli</strong> eventi E e F<br />

• ha significato solo se gli eventi sono<br />

compatibili<br />

• Questa probabilità si in<strong>di</strong>vidua per mezzo <strong>di</strong> un<br />

prodotto


Applicazioni <strong>della</strong> proprietà<br />

moltiplicativa - 1<br />

Se gli eventi sono tra loro in<strong>di</strong>pendenti<br />

P (E e F) = P(E) • P(F)<br />

• A1 e A2 sono due appezzamenti <strong>di</strong> terreno da<br />

cui il mare si è ritirato, quin<strong>di</strong> ad elevata<br />

salinità. I terreni presentano caratteristiche<br />

<strong>di</strong>verse per cui, con alcuni anni <strong>di</strong> coltivazione<br />

<strong>di</strong> riso, si stima che la probabilità <strong>di</strong> <strong>di</strong>mezzare<br />

la salinità sia del 75% per A1 e dell’85% per A2.<br />

• Quale è la probabilità che in entrambi gli<br />

appezzamenti si <strong>di</strong>mezzi la salinità?<br />

0,75 • 0,85 = 0,6375 (63,75%)


Applicazioni <strong>della</strong> proprietà<br />

moltiplicativa - 2<br />

Se gli eventi sono tra loro <strong>di</strong>pendenti<br />

P (E e F) = P(E) • P(F|E)<br />

• Lungo molte coste del Me<strong>di</strong><strong>terra</strong>neo, l’urbanizzazione <strong>di</strong><br />

zone caratterizzate da piante pioniere genera nel 77% dei<br />

casi rilevanti conseguenze sulla macchia me<strong>di</strong><strong>terra</strong>nea<br />

dell’entro<strong>terra</strong>, perché si riduce la barriera <strong>di</strong> protezione<br />

dal vento<br />

• Se il suddetto evento si verifica, in 92 casi su 100 la<br />

macchia me<strong>di</strong><strong>terra</strong>nea risente pesantemente anche<br />

dell’effetto <strong>della</strong> salse<strong>di</strong>ne.<br />

• Quale è la probabilità che, urbanizzando una zona, si<br />

verifichino entrambi gli eventi (V, ossia conseguenze del<br />

vento; S, ossia conseguenze <strong>della</strong> salse<strong>di</strong>ne)?<br />

P (V e S) = P(V) • P(S|V) = 0,77 • 0,92 = 0,7084 (70,84%)


L’espressione <strong>della</strong> probabilità<br />

con<strong>di</strong>zionata<br />

• Conoscendo ora il metodo <strong>di</strong> calcolo <strong>della</strong> probabilità<br />

dell’intersezione, la formula per calcolare la probabilità<br />

con<strong>di</strong>zionata è la seguente:<br />

P (F | E) = P (F ∩ E) / P (E)<br />

Questa espressione è utile quando si conosce la<br />

probabilità che si verifichino due eventi E e F (entrambi)<br />

e si conosce anche la probabilità che si verifichi<br />

l’evento E (da cui F è <strong>di</strong>pendente), ma non si conosce la<br />

probabilità che si verifichi F dato E.<br />

Ovviamente, se i due eventi E e F fossero in<strong>di</strong>pendenti,<br />

allora<br />

P (F | E) = P (F)<br />

Infatti, la probabilità dell’evento F non cambia<br />

considerando oppure non considerando E, essendo i<br />

due eventi in<strong>di</strong>pendenti


Un esempio <strong>di</strong> calcolo <strong>della</strong><br />

probabilità con<strong>di</strong>zionata<br />

• I semi dell’abete <strong>di</strong> Douglas, in zone protette, hanno<br />

un 35% <strong>di</strong> probabilità <strong>di</strong> sopravvivere sia nel periodo<br />

<strong>di</strong> pregerminazione (PG), sia nel periodo <strong>di</strong><br />

germinazione (G).<br />

• La probabilità che un seme sopravviva nel periodo <strong>di</strong><br />

pregerminazione è pari al 63 %.<br />

• La probabilità che un seme superi il periodo <strong>di</strong><br />

germinazione, nel caso che abbia superato quello <strong>di</strong><br />

pregerminazione, è pari a:<br />

P (G | PG) = P (G ∩ PG) / P (G) = 0,35/0,63 = 0,556


La proprietà ad<strong>di</strong>tiva<br />

• La probabilità che si verifichi almeno uno <strong>di</strong><br />

due eventi (probabilità dell’unione) si in<strong>di</strong>ca<br />

con<br />

P (E o F) oppure P (E ∪ F)<br />

Questa probabilità si in<strong>di</strong>vidua per mezzo <strong>di</strong> una<br />

somma


Applicazioni <strong>della</strong> proprietà ad<strong>di</strong>tiva - 1<br />

• Se gli eventi sono tra loro incompatibili:<br />

P (E o F) = P(E) + P(F)<br />

• Continenti <strong>di</strong> provenienza <strong>della</strong> flora esotica<br />

italiana:<br />

America 321<br />

Asia 225<br />

Europa 86<br />

Africa 75<br />

Oceania 43<br />

• La probabilità che una specie estratta a caso<br />

sia asiatica o africana è:<br />

225/750 + 75/750 = 300/750


Applicazioni <strong>della</strong> proprietà ad<strong>di</strong>tiva - 2<br />

• Se invece gli eventi sono tra loro compatibili:<br />

P (E o F) = P(E) + P(F) - P (E e F)<br />

(occorre cioè sottrarre la probabilità dell’intersezione, che<br />

altrimenti verrebbe conteggiata due volte)<br />

• È noto che, estraendo metano, il terreno si abbassa e a<br />

volte potrebbe essere conquistato dal mare. Si progetta <strong>di</strong><br />

estrarre un determinato quantitativo <strong>di</strong> metano da due aree,<br />

del tutto in<strong>di</strong>pendenti tra loro. Si stima, considerando le<br />

preve<strong>di</strong>bili con<strong>di</strong>zioni del mare e <strong>degli</strong> affluenti, che l’area A<br />

abbia una probabilità del 12% <strong>di</strong> essere conquistata dal<br />

mare, mentre per l’area B questa probabilità è del 18%.<br />

• Quale è la probabilità che almeno una delle due aree sia<br />

conquistata dal mare?<br />

0,12 + 0,18 – 0,12 • 0,18 = 0,2784 (27,84%)


L’azione del Libeccio e l’apporto <strong>di</strong> acque dolci fluviali<br />

consentono <strong>di</strong> stimare le seguenti probabilità <strong>di</strong> intense<br />

fioriture microalgali in due zone dell’Alto Adriatico:<br />

la zona A ha una probabilità pari al 32%<br />

la zona B ha una probabilità pari al 46%<br />

• Calcolare le seguenti<br />

probabilità, relative a<br />

intense fioriture<br />

microalgali:<br />

Entrambe coinvolte<br />

Solo A coinvolta<br />

Solo B coinvolta<br />

Almeno una coinvolta<br />

• Si tratta <strong>di</strong> eventi<br />

in<strong>di</strong>pendenti compatibili<br />

0,32 • 0,46 = 0,1472<br />

0,32 • 0,54 = 0,1728<br />

0,68 • 0,46 = 0,3120<br />

0,32 + 0,46 – 0,1472 = 0,6328


Qualità igienico-sanitaria <strong>di</strong> alcune<br />

acque lacustri nel nord Italia: i dati <strong>di</strong><br />

base<br />

Favore<br />

-voli<br />

(F)<br />

Sfavorevoli<br />

(S)<br />

Maggi<br />

o-re<br />

(M)<br />

Garda<br />

(G)<br />

Como<br />

(C)<br />

Totale<br />

60 120 60 240<br />

120 20 20 160<br />

Totale 180 140 80 400


Calcolare le<br />

seguenti<br />

probabilità<br />

P(G)<br />

P(non F)<br />

P(M e F)<br />

P(G e C)<br />

P(G o C)<br />

P(S o C)<br />

P[non(F o S)]<br />

P(F|G)<br />

P(M|S)<br />

P(2S|1S)<br />

P(1S e 2S)<br />

M G C TOT.<br />

F 60 120 60 240<br />

S 120 20 20 160<br />

TOT. 180 140 80 400<br />

140/400<br />

1 – (240/400)<br />

P(F) • P(M|F) = (240/400) • (60/240) (ev. <strong>di</strong>p)<br />

0<br />

P(G) + P(C) = (140/400) + (80/400) (ev. incomp)<br />

P(S)+P(C)-[P(C)•P(S|C)=160/400+80/400-<br />

(80/400•20/80) (ev. compatibili e <strong>di</strong>pendenti)<br />

1 – [P(F) + P(S)] = 1 – (240/400 + 160/400)<br />

120/140<br />

120/160<br />

159/399<br />

P(1S) • P(2S|1S) = 160/400 • 159/399 (ev <strong>di</strong>p)


Il teorema <strong>di</strong> Bayes - 1<br />

• Per calcolare la probabilità che un certo<br />

evento sia frutto <strong>di</strong> una determinata causa,<br />

ci si basa sulla teoria <strong>della</strong> probabilità<br />

con<strong>di</strong>zionata e si utilizza un metodo che<br />

va sotto il nome <strong>di</strong> teorema <strong>di</strong> Bayes.<br />

• Conviene partire da un esempio concreto:<br />

• Un istituto <strong>di</strong> ricerca identifica i minerali<br />

attraverso due fasi:<br />

– 1. osservazione a occhio nudo (per esaminare<br />

colore, trasparenza, brillantezza, tipo <strong>di</strong><br />

fratture, ecc.)<br />

– 2. analisi <strong>di</strong> laboratorio con microscopio ottico


Il teorema <strong>di</strong> Bayes - 2<br />

• Prelevando campioni da determinate rocce, i<br />

geologi intendono verificare se questi<br />

campioni contengano o meno scheelite.<br />

• Da stu<strong>di</strong> precedenti sullo stesso tipo <strong>di</strong><br />

roccia, si era dedotto che il 40% dei campioni<br />

conteneva scheelite; <strong>di</strong> questi, l’80% aveva<br />

avuto un parere favorevole già<br />

all’osservazione a occhio nudo.<br />

• Il restante 60% dei campioni non conteneva<br />

questo minerale; in questo caso, il 30% delle<br />

osservazioni a occhio nudo aveva fornito<br />

(erroneamente) un giu<strong>di</strong>zio favorevole<br />

(presenza <strong>di</strong> scheelite). Il rimanente 70%<br />

aveva fornito un giu<strong>di</strong>zio contrario (assenza<br />

del minerale)


Il teorema <strong>di</strong> Bayes - 3<br />

• Quale è la probabilità che un campione<br />

contenga scheelite, dall’analisi al<br />

microscopio, dopo un parere favorevole<br />

tratto dall’osservazione?<br />

• In<strong>di</strong>chiamo con P la presenza effettiva <strong>di</strong><br />

scheelite, con A la sua assenza effettiva,<br />

con F il parere favorevole (presunta<br />

presenza) all'osservazione, con C il parere<br />

contrario, sempre dall'osservazione.


Il teorema <strong>di</strong> Bayes - 4<br />

P(F|P) * P(P)<br />

P(P|F) = ________________________<br />

P(F|P) * P(P) + P(F|A) * P(A)<br />

0,8 * 0,4<br />

P(P|F) = __________________ = 0,64<br />

0,8 * 0,4 + 0,3 * 0,6


8 – DISTRIBUZIONI DI<br />

PROBABILITA’


La definizione<br />

• La <strong>di</strong>stribuzione <strong>di</strong> probabilità <strong>di</strong> una variabile<br />

casuale (o aleatoria) è l’elenco dei possibili valori<br />

che la variabile assume, a ciascuno dei quali è<br />

associata la relativa probabilità (una variabile<br />

casuale è una variabile quantitativa i cui valori<br />

variano seguendo le regole <strong>della</strong> probabilità)<br />

• La maggior parte dei fenomeni statistici può essere<br />

descritta con un numero limitato <strong>di</strong> leggi o<br />

<strong>di</strong>stribuzioni <strong>di</strong> probabilità


In simboli<br />

• p(x) è la probabilità che la variabile<br />

casuale X assuma un determinato<br />

valore x<br />

• Per ogni <strong>di</strong>stribuzione <strong>di</strong> probabilità, si<br />

ha:<br />

0 ≤ p(x) ≤ 1<br />

Σ p(x) = 1


Le principali <strong>di</strong>stribuzioni<br />

Tra le principali <strong>di</strong>stribuzioni <strong>di</strong> probabilità, rientrano:<br />

• Distribuzione normale (Gaussiana), la più importante<br />

per l’analisi dell’inferenza statistica<br />

• Distribuzione t (<strong>di</strong> Student), per i campioni piccoli<br />

provenienti da una popolazione <strong>di</strong> cui si ignorano i<br />

parametri<br />

• Distribuzione <strong>di</strong> Bernoulli, associata a una variabile<br />

casuale bernoulliana<br />

• Distribuzione binomiale, utili per stu<strong>di</strong>are le<br />

probabilità relative a un campione estratto da una<br />

popolazione <strong>di</strong> Bernoulli<br />

• Distribuzione <strong>di</strong> Poisson, o legge <strong>degli</strong> eventi rari<br />

• Distribuzione Chi Quadrato (χ²), associata per<br />

esempio all’analisi <strong>della</strong> varianza campionaria o<br />

all’analisi dei dati qualitativi


Speranza matematica o valore<br />

atteso<br />

• Si tratta <strong>di</strong> una delle nozioni più importanti<br />

<strong>della</strong> teoria <strong>della</strong> probabilità<br />

• È la me<strong>di</strong>a aritmetica ponderata dei valori<br />

<strong>di</strong> una <strong>di</strong>stribuzione <strong>di</strong> probabilità …<br />

• … dove i coefficienti <strong>di</strong> ponderazione<br />

sono le probabilità associate ai <strong>di</strong>versi<br />

valori


Esempio <strong>di</strong> speranza<br />

matematica<br />

• Nel caso del lancio <strong>di</strong> un dado (non truccato), la<br />

speranza matematica relativa alla me<strong>di</strong>a deriva<br />

da questa operazione:<br />

1 • 1/6 + 2 • 1/6, + 3 • 1/6 + 4 • 1/6 + 5 • 1/6 + 6 • 1/6<br />

= 3,5


La <strong>di</strong>stribuzione normale<br />

(Gaussiana)


Peculiarità<br />

• è la <strong>di</strong>stribuzione <strong>di</strong> probabilità più<br />

importante per l’inferenza statistica<br />

Caratteristiche:<br />

• perfettamente simmetrica<br />

• sempre sopra l’asse orizzontale<br />

• il totale dell’area sottesa è pari a 1


Come verificare la normalità<br />

<strong>di</strong> una <strong>di</strong>stribuzione?<br />

• Verificare l’esistenza <strong>di</strong> una <strong>di</strong>screta<br />

coincidenza tra me<strong>di</strong>a, me<strong>di</strong>ana e moda<br />

• Verificare l’esistenza <strong>di</strong> una <strong>di</strong>screta<br />

coincidenza tra la <strong>di</strong>fferenza interquartile<br />

(<strong>di</strong>fferenza tra il 75esimo percentile e il<br />

25esimo percentile) e 1,33 σ<br />

• Verificare che il 67% circa delle<br />

osservazioni sia compreso tra μ-σ e μ+σ


L’utilizzo <strong>della</strong> <strong>di</strong>stribuzione<br />

normale<br />

• si utilizza per stimare la % <strong>di</strong> casi che<br />

cadono in un determinato intervallo…<br />

• …<strong>di</strong> conseguenza, per determinare la<br />

probabilità che un certo valore, estratto<br />

da un gruppo <strong>di</strong> valori <strong>di</strong>stribuiti<br />

normalmente, sia compreso in un<br />

determinato intervallo


La <strong>di</strong>stribuzione normale<br />

standar<strong>di</strong>zzata (d.n.s.)<br />

• Per agevolare il confronto con situazioni<br />

concrete, si utilizza la <strong>di</strong>stribuzione<br />

normale standar<strong>di</strong>zzata, basata su unità<br />

standard calcolate per ogni valore del<br />

fenomeno (x i )<br />

• L’unità standard deriva da:<br />

z i = (x i – me<strong>di</strong>a) / deviazione standard


La standar<strong>di</strong>zzazione


Le tavole <strong>della</strong> <strong>di</strong>stribuzione<br />

normale standar<strong>di</strong>zzata<br />

• Ci sono <strong>di</strong>versi tipi <strong>di</strong> tavole; il<br />

risultato è identico, ma cambia il<br />

modo <strong>di</strong> lettura dei dati


il valore riportato<br />

in riferimento<br />

all’area, in<br />

corrispondenza<br />

<strong>di</strong> ogni z, è la<br />

quota dell’area al<br />

<strong>di</strong> sotto <strong>della</strong><br />

curva<br />

corrispondente al<br />

tratto compreso<br />

tra z e - z


Nella tavola successiva, invece, il riferimento non è il<br />

tratto compreso tra z e – z, bensì tra 0 e z, come<br />

appare nel <strong>di</strong>segno sottostante


Tavola <strong>della</strong> <strong>di</strong>stribuzione normale standar<strong>di</strong>zzata<br />

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09<br />

0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359<br />

0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753<br />

0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141<br />

0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517<br />

0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879<br />

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224<br />

0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549<br />

0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852<br />

0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3079 0,3106 0,3133<br />

0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389<br />

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621<br />

1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830<br />

1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015<br />

1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177<br />

1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319<br />

1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441<br />

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545<br />

1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633<br />

1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706<br />

1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767<br />

2,0 0,4773 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817<br />

2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857<br />

2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890<br />

2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916<br />

2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936<br />

2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4950 0,4952<br />

2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964<br />

2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974<br />

2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981<br />

2,9 0,4981 0,4982 0,4983 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986<br />

3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990<br />

il valore<br />

riportato in<br />

ogni casella<br />

è la quota<br />

dell’area al <strong>di</strong><br />

sotto <strong>della</strong><br />

curva<br />

corrispondente<br />

al<br />

tratto<br />

compreso tra<br />

z = o e il<br />

valore <strong>di</strong> z<br />

dato dalla<br />

somma <strong>della</strong><br />

prima<br />

colonna e<br />

<strong>della</strong> prima<br />

riga


Tavola <strong>della</strong> <strong>di</strong>stribuzione normale standar<strong>di</strong>zzata<br />

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09<br />

0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359<br />

0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753<br />

0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141<br />

0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517<br />

0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879<br />

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224<br />

0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549<br />

0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852<br />

0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3079 0,3106 0,3133<br />

0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389<br />

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621<br />

1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830<br />

1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015<br />

1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177<br />

1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319<br />

1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441<br />

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545<br />

1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633<br />

1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706<br />

1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767<br />

2,0 0,4773 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817<br />

2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857<br />

2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890<br />

2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916<br />

2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936<br />

2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4950 0,4952<br />

2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964<br />

2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974<br />

2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981<br />

2,9 0,4981 0,4982 0,4983 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986<br />

3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990<br />

Per<br />

esempio, a<br />

un’area<br />

simmetrica<br />

del 95%<br />

corrisponde<br />

un’area<br />

compresa<br />

tra 0 e z<br />

del 47,5%.<br />

Il<br />

corrispondente<br />

valore <strong>di</strong> z<br />

è quin<strong>di</strong><br />

1,96


L’utilizzo <strong>della</strong> tavola <strong>della</strong> d. n. s.:<br />

<strong>di</strong>versi tipi <strong>di</strong> intervallo z 1 – z 2<br />

• z 1 = - z 2<br />

• z 1 = 0 z 2 > 0<br />

• z 1 < 0 z 2 > 0<br />

• z 1 < 0 z 2 < 0<br />

• z 1 < 0 z 2 = + ∞<br />

• z 1 > 0 z 2 = + ∞


L’osservazione dei crepuscoli<br />

• Nell’un<strong>di</strong>cesimo secolo, gli Arabi impiegavano il<br />

metodo dell’osservazione dei crepuscoli per<br />

valutare la riflessione dei raggi solari negli strati<br />

alti dell’atmosfera.<br />

• Lo scopo era quello <strong>di</strong> determinare l’altezza <strong>degli</strong><br />

strati più alti dell’atmosfera.<br />

• In un certo periodo, l’insieme delle osservazioni<br />

forniva un’altezza stimata in me<strong>di</strong>a a 80 km. La<br />

<strong>di</strong>stribuzione delle valutazioni era <strong>di</strong> tipo normale,<br />

con una deviazione standard pari a 10.<br />

• Quale è la probabilità che un’osservazione fornisse<br />

un valore x < 87,5 ?<br />

• Quale è la probabilità che un’osservazione fornisse<br />

un valore x < me<strong>di</strong>a + (0,5 σ) ?


Soluzioni<br />

• Quale è la probabilità che un’osservazione fornisca<br />

un valore x < 87,5?<br />

Z 1 = (87,5 – 80) / 10 = + 0,75<br />

Quin<strong>di</strong>, la probabilità è pari al 77,34%<br />

• Quale è la probabilità che un’osservazione fornisca<br />

un valore x < me<strong>di</strong>a + (0,5 σ) ?<br />

• Z 2 = (85 –80) / 10 = + 0,5<br />

Quin<strong>di</strong>, la probabilità è pari al 69,15 %


L’in<strong>di</strong>ce <strong>di</strong> ari<strong>di</strong>tà<br />

• L’in<strong>di</strong>ce <strong>di</strong> ari<strong>di</strong>tà è la sintesi <strong>di</strong> fenomeni fisici<br />

(precipitazioni, evaporazioni) e biologici<br />

(traspirazione vegetale). È il rapporto tra<br />

precipitazioni ed evapotraspirazione.<br />

• In estate, un valore inferiore a 0,5 significa aree<br />

semi-aride oppure aride. Un valore superiore a<br />

0,65 significa aree umide o iper-umide.<br />

• La <strong>di</strong>stribuzione delle rilevazioni estive in una<br />

determinata zona, compiute da <strong>di</strong>verse stazioni, è<br />

<strong>di</strong> tipo normale, con me<strong>di</strong>a (per gli ultimi 30 anni)<br />

pari a 0,45 e deviazione standard pari a 0,04.<br />

• Quale è la percentuale <strong>di</strong> rilevazioni che hanno<br />

fornito un valore compreso fra 0,40 e 0,50?<br />

• È pari al 78,88%.<br />

In unità standard, infatti:<br />

• (0,40 – 0,45) / 0,04 = - 1,25<br />

• (0,50 – 0,45) / 0,04 = + 1,25


Il proce<strong>di</strong>mento inverso<br />

• È possibile applicare il<br />

proce<strong>di</strong>mento inverso, quin<strong>di</strong><br />

dall’area …..<br />

• … risalire a z e successivamente ..<br />

• … risalire a x


Ancora sull’in<strong>di</strong>ce <strong>di</strong> ari<strong>di</strong>tà<br />

• Mantenendo le stesse con<strong>di</strong>zioni esposte<br />

nell’esempio precedente, nell’analisi <strong>di</strong><br />

valutazione del deficit pluviometrico (peraltro<br />

crescente nel corso dei decenni) ci si può porre la<br />

domanda:<br />

• Quale è il valore dell’in<strong>di</strong>ce <strong>di</strong> ari<strong>di</strong>tà che separa il<br />

90% <strong>di</strong> tutte le rilevazioni, costituito dai valori più<br />

piccoli, e il restante 10% costituito invece dai<br />

valori più gran<strong>di</strong>?<br />

• Nella tavola <strong>della</strong> <strong>di</strong>stribuzione normale<br />

standar<strong>di</strong>zzata, si legge, in corrispondenza <strong>di</strong><br />

un’area pari a 0,40 (complemento a 0,50 del nostro<br />

10% oggetto <strong>di</strong> interesse) un valore <strong>di</strong> z pari a<br />

1,28.<br />

• Quin<strong>di</strong>:<br />

1,28 = (x – 0,45) / 0,04<br />

x = 0,5012


L’applicazione <strong>della</strong> Gaussiana<br />

alla stima <strong>di</strong> una somma o <strong>di</strong> una<br />

me<strong>di</strong>a


L’obiettivo<br />

• L’approssimazione normale può essere<br />

utilizzata per stimare la somma (e<br />

quin<strong>di</strong> la me<strong>di</strong>a) dei valori <strong>di</strong> una<br />

popolazione per mezzo <strong>di</strong> un certo<br />

numero <strong>di</strong> valori estratti casualmente<br />

(con reimmissione)


Il teorema centrale del limite (TCL)<br />

• Secondo il teorema centrale del limite, se il<br />

numero <strong>di</strong> estrazioni è abbastanza elevato, la<br />

<strong>di</strong>stribuzione delle probabilità <strong>della</strong> somma (o<br />

<strong>della</strong> me<strong>di</strong>a) si avvicina alla curva normale,<br />

anche se l’istogramma dei valori <strong>della</strong><br />

popolazione è <strong>di</strong>stante dalla curva normale<br />

• In altri termini, al crescere dell’ampiezza del<br />

campione, la <strong>di</strong>stribuzione campionaria <strong>di</strong><br />

una me<strong>di</strong>a o <strong>di</strong> una somma si avvicina a una<br />

<strong>di</strong>stribuzione normale, anche se la<br />

popolazione originaria non è normalmente<br />

<strong>di</strong>stribuita


Un campione abbastanza grande<br />

• Si è parlato <strong>di</strong> campione abbastanza grande.<br />

Il termine abbastanza è legato a quanto la<br />

<strong>di</strong>stribuzione <strong>della</strong> popolazione ricalca una<br />

<strong>di</strong>stribuzione normale<br />

• Se il campione è > 30, esso viene ritenuto<br />

abbastanza grande, in<strong>di</strong>pendentemente dalla<br />

<strong>di</strong>stribuzione dei valori <strong>della</strong> popolazione<br />

• Se invece il campione è < 30, il TCL è da<br />

ritenere valido solo se la <strong>di</strong>stribuzione dei<br />

valori <strong>della</strong> popolazione è <strong>di</strong> tipo normale


Il modello d’urna<br />

• Come si determina la probabilità che la<br />

somma (o la me<strong>di</strong>a) delle estrazioni sia<br />

compresa in un certo intervallo?<br />

• È fondamentale costruire un modello<br />

d’urna, corrispondente ai valori <strong>della</strong><br />

popolazione:<br />

Quali sono i valori contenuti nell’urna?<br />

Quante volte si ripetono, nell’urna, i singoli<br />

valori?<br />

Quante estrazioni si fanno?


La somma attesa<br />

La somma effettiva delle estrazioni sarà pari a:<br />

somma attesa ± errore standard <strong>della</strong> somma (SE somma)<br />

•Somma attesa: prodotto del numero <strong>di</strong> estrazioni per<br />

la me<strong>di</strong>a dei valori contenuti nell’urna<br />

•SE somma: (ra<strong>di</strong>ce quadrata del numero estrazioni) • (σ<br />

dei valori dell’urna)<br />

Ciò significa che all’aumentare del numero <strong>di</strong><br />

estrazioni, l’errore aumenta in termini assoluti, ma<br />

<strong>di</strong>minuisce in termini relativi


La me<strong>di</strong>a attesa<br />

La me<strong>di</strong>a effettiva delle estrazioni sarà pari a:<br />

me<strong>di</strong>a attesa ± errore standard <strong>della</strong> me<strong>di</strong>a<br />

(SE me<strong>di</strong>a)<br />

• Me<strong>di</strong>a attesa: me<strong>di</strong>a dei valori contenuti<br />

nell’urna<br />

• SEme<strong>di</strong>a : (σ dei valori dell’urna) / (ra<strong>di</strong>ce<br />

quadrata del numero estrazioni)<br />

SEme<strong>di</strong>a è quin<strong>di</strong> minore <strong>di</strong> σ, ossia dello<br />

scarto quadratico me<strong>di</strong>o che caratterizza i<br />

valori dell’urna


Acque sot<strong>terra</strong>nee (definizione dello<br />

stato chimico)<br />

Punti <strong>di</strong> impatto dovuto alla n.<br />

impatto presenza <strong>di</strong> elementi rilevaattribuiti<br />

inquinanti zioni<br />

0 impatto nullo 100<br />

1 impatto ridotto 250<br />

1 impatto significativo 150<br />

Si effettuano 36 estrazioni. Determinare la<br />

somma attesa e l’errore standard


Le soluzioni<br />

modello d’urna:<br />

valori contenuti: 0 1 2<br />

ci sono 100 valori 0, 250 valori 1 e<br />

150 valori 2<br />

estrazioni: 36<br />

• somma attesa: 1,1 • 36 = 39,6<br />

• SE: 6 • 0,7 = 4,2


Liberazione incontrollata <strong>di</strong> metano - 1<br />

• Nelle fasi <strong>di</strong> ripristino <strong>di</strong> un’area <strong>di</strong> cava, si deve<br />

fronteggiare il rischio <strong>di</strong> liberazione incontrollata <strong>di</strong><br />

biogas, tra cui soprattutto metano (CH4).<br />

• Si vogliono in<strong>di</strong>viduare otto sub-aree su cui realizzare<br />

il progetto <strong>di</strong> recupero.<br />

• Da precedenti progetti <strong>di</strong> questo genere, si è dedotto<br />

che nel 10% dei casi, l’entità del metano sviluppato in<br />

una sub area è inferiore a 23 ppm, nel 60% dei casi è<br />

<strong>di</strong> 23, nel 20% dei casi è <strong>di</strong> 24, nel restante 10% dei<br />

casi è superiore a 24.<br />

• Per le due classi aperte, si può ragionevolmente<br />

stimare un valore me<strong>di</strong>o <strong>di</strong> 20 (prima classe) e <strong>di</strong> 26<br />

(ultima classe).<br />

• Quale è la probabilità che la me<strong>di</strong>a delle 8 sub-aree<br />

in<strong>di</strong>viduate casualmente sia compresa tra 23 ppm e<br />

24 ppm?


Liberazione incontrollata <strong>di</strong> metano - 2<br />

8 estrazioni<br />

me<strong>di</strong>a attesa: 23,2<br />

SE me<strong>di</strong>a: 0,495 (σ : 1,40)<br />

trasformazione dei due limiti in unità standard<br />

z = (limite – me<strong>di</strong>a attesa) / errore standard<br />

per L 1: z 1 = –0,404<br />

per L 2 : z 2 = +1,616<br />

area sottesa tra z 1 e z=0 15,54%<br />

area sottesa tra z=0 e z 2 44,74%<br />

La probabilità che la somma delle estrazioni sia<br />

compresa tra 23 e 24:<br />

60,28%


In una provincia <strong>della</strong> Spagna meri<strong>di</strong>onale, il numero <strong>di</strong><br />

giorni caratterizzati da un valore <strong>di</strong> SPI (Standar<strong>di</strong>zed<br />

Precipitation Index) inferiore a -0,99 (quin<strong>di</strong> da con<strong>di</strong>zioni<br />

<strong>di</strong> siccità) è stato pari nell’ultimo lustro a 57 giorni<br />

all’anno.<br />

Quale è la probabilità che, nell’anno successivo, il<br />

numero <strong>di</strong> giornate con un valore <strong>di</strong> SPI inferiore a -0,99<br />

sia superiore a 60?<br />

• Attribuiamo valore 1 ai giorni che presentano la<br />

suddetta caratteristica, valore 0 ai giorni che non la<br />

presentano.<br />

• Se si vogliono infatti conteggiare i giorni all’anno che<br />

presentano quella caratteristica, ogni giornata con<br />

quelle con<strong>di</strong>zioni fa salire il conteggio <strong>di</strong> 1, mentre le<br />

altre giornate lasciano inalterato il conteggio.


Le soluzioni<br />

Il modello d’urna che possiamo costruire, secondo i<br />

dati storici, è<br />

57 [+1] e 308 [0]<br />

numero <strong>di</strong> estrazioni: 365<br />

somma attesa = 57 σ = 0,363<br />

SE = 0,363 • radq (365) = 6,935<br />

60, in unità standard, <strong>di</strong>venta 0,43<br />

quin<strong>di</strong> la probabilità cercata è del 33,4%


Formula abbreviata per calcolare σ<br />

(valida quando in un’urna ci sono solo due tipi <strong>di</strong> valori)<br />

σ = (Ma – Mi) • ra<strong>di</strong>ce quadrata <strong>di</strong> [n(Ma) / n • n(Mi) / n)]<br />

• Ma: valore maggiore tra i due presenti nell’urna<br />

• Mi: valore minore tra i due presenti nell’urna<br />

• n(Ma): numero <strong>di</strong> volte in cui il valore maggiore è<br />

presente nell’urna<br />

• n(Mi): numero <strong>di</strong> volte in cui il valore minore è<br />

presente nell’urna<br />

• n: totale numeri presenti nell’urna<br />

Nel caso precedente:<br />

σ = [1 – 0] • radq (0,1562 • 0,8438)


La <strong>di</strong>stribuzione<br />

binomiale


Con<strong>di</strong>zioni <strong>di</strong> utilizzo<br />

• Questa <strong>di</strong>stribuzione esprime la probabilità che si<br />

verifichino k successi (in<strong>di</strong>pendentemente dall'or<strong>di</strong>ne)<br />

che si alternano a n - k insuccessi, nell’ambito <strong>di</strong> n<br />

osservazioni tra loro in<strong>di</strong>pendenti, estratte nell’ambito<br />

<strong>di</strong> variabili bernoulliane.<br />

• Una variabile bernoulliana è una variabile<br />

<strong>di</strong>cotomica, ossia con due soli possibili valori, come<br />

0 e 1.<br />

• Ci si trova in questa situazione, per esempio, quando<br />

si compiono esperimenti che possono avere<br />

solamente due risultati possibili (come conforme –<br />

non conforme).


Il calcolo<br />

• Con questa <strong>di</strong>stribuzione è quin<strong>di</strong> possibile calcolare<br />

la probabilità che un evento si verifichi un numero<br />

preciso (k) <strong>di</strong> volte, in un certo numero (n) <strong>di</strong><br />

ripetizioni tra loro in<strong>di</strong>pendenti:<br />

n!<br />

——————— • p k • (1-p) n-k<br />

k! • (n-k)!<br />

k è un numero intero non negativo (k=0,1,2,3,...,n)<br />

p è compreso tra 0 e 1 esclusi (0


n fattoriale<br />

n! si legge n fattoriale ed è il prodotto <strong>di</strong><br />

n • n-1 • ….. • 2 • 1<br />

(tenere presente che 0! = 1)


La formula precedente può anche<br />

essere scritta nel seguente modo:


Il coefficiente binomiale<br />

La prima parte <strong>della</strong> formula è il coefficiente<br />

binomiale:<br />

che esprime le <strong>di</strong>verse maniere in cui<br />

possono essere ripartiti i k successi negli<br />

n tentativi …<br />

… ossia, identifica il numero <strong>di</strong> mo<strong>di</strong> in cui<br />

si possono or<strong>di</strong>nare n soggetti in una<br />

sequenza, con k soggetti <strong>di</strong> un tipo e n-k<br />

soggetti dell’altro tipo.


Raccolta <strong>di</strong>fferenziata batterie esauste<br />

• In alcuni paesi europei, la raccolta <strong>di</strong>fferenziata<br />

delle batterie esauste coinvolge il 90% delle unità<br />

immesse sul mercato (ossia, 3,2 kg annui per<br />

abitante).<br />

• Su un lotto <strong>di</strong> 30 batterie innovative in termini <strong>di</strong><br />

acido solforico recuperabile, quale è la probabilità<br />

che esattamente 27 siano immesse nel canale <strong>della</strong><br />

raccolta <strong>di</strong>fferenziata, ossia la stessa percentuale<br />

che caratterizza le batterie esauste nel loro<br />

complesso?<br />

30!<br />

————— • (0,9) 27 • (0,1) 3 = 0,2361<br />

27! • 3!<br />

La probabilità cercata è quin<strong>di</strong> pari al 23,61%


Eco-contributo<br />

I produttori <strong>di</strong> apparecchiature elettriche ed<br />

elettroniche iscritti al repertorio RAEE hanno la<br />

possibilità <strong>di</strong> applicare in modo visibile al<br />

consumatore il sovrapprezzo corrispondente all’ecocontributo<br />

per il finanziamento dei rifiuti storici.<br />

Il 20% dei produttori sfrutta questa possibilità.<br />

Quale è la probabilità che, su 8 apparecchi acquistati,<br />

meno <strong>di</strong> tre abbiano l’applicazione del sovrapprezzo<br />

in modo visibile?


Soluzioni<br />

8!<br />

———— • (0,20) 2 • (0,80) 6 = 0,2936<br />

2! • 6!<br />

8!<br />

———— • (0,20) 1 • (0,80) 7 = 0,3355<br />

1! • 7!<br />

8!<br />

———— • (0,20) 0 • (0,80) 8 = 0,1677<br />

0! • 8!<br />

La probabilità cercata è quin<strong>di</strong> pari al 79,68%


La <strong>di</strong>stribuzione <strong>di</strong><br />

Poisson


Le con<strong>di</strong>zioni per l’applicazione<br />

• Questa <strong>di</strong>stribuzione rappresenta il limite a cui<br />

tende una <strong>di</strong>stribuzione binomiale, quando la<br />

probabilità p <strong>di</strong> un evento è molto bassa e<br />

contemporaneamente la grandezza del campione<br />

n è piuttosto alta<br />

• Alcuni stu<strong>di</strong>osi fissano le con<strong>di</strong>zioni per passare<br />

dalla <strong>di</strong>stribuzione binomiale a quella <strong>di</strong> Poisson<br />

in n > 50 , p • (1-p) quasi uguale a p e n • p<br />

< 10<br />

• Si applica quin<strong>di</strong> al posto <strong>della</strong> <strong>di</strong>stribuzione<br />

binomiale per la descrizione <strong>di</strong> eventi <strong>di</strong>screti che<br />

hanno una probabilità molto ridotta <strong>di</strong> realizzarsi.<br />

La <strong>di</strong>stribuzione <strong>di</strong> Poisson è infatti detta legge<br />

<strong>degli</strong> eventi rari.


Un altro caso <strong>di</strong> applicazione<br />

• Un altro caso <strong>di</strong> applicazione <strong>della</strong><br />

<strong>di</strong>stribuzione <strong>di</strong> Poisson corrisponde<br />

all’obiettivo <strong>di</strong> identificare il numero <strong>di</strong><br />

successi (si parla sempre <strong>di</strong> fenomeni<br />

<strong>di</strong>screti) in un determinato intervallo<br />

continuo, come il tempo, la superficie o il<br />

volume.<br />

• Per esempio, il numero <strong>di</strong> lupi che si<br />

presentano a una determinata barriera<br />

naturale, il numero <strong>di</strong> esemplari <strong>di</strong> pesce luna<br />

presenti in un determinato volume <strong>di</strong> acqua,<br />

ecc.


λ (lambda)<br />

• Il valore atteso e la varianza <strong>di</strong> questa<br />

<strong>di</strong>stribuzione coincidono, e sono in<strong>di</strong>cati<br />

con λ<br />

• λ è un qualsiasi valore positivo<br />

equivalente al numero <strong>di</strong> successi che ci<br />

si aspetta in un dato intervallo. Per<br />

esempio, se un evento si verifica con una<br />

cadenza me<strong>di</strong>a <strong>di</strong> 4 minuti e vogliamo<br />

sapere quante volte questo evento si potrà<br />

verificare in 10 minuti, il valore <strong>di</strong> λ sarà<br />

10/4 = 2,5<br />

• Al crescere <strong>di</strong> λ, la <strong>di</strong>stribuzione <strong>di</strong><br />

Poisson si approssima con una<br />

<strong>di</strong>stribuzione normale


L’approssimazione alla<br />

normale


λ = 0.1, 0.2, ... 1.0<br />

Tavole <strong>della</strong> <strong>di</strong>stribuzione <strong>di</strong><br />

Poisson - 1<br />

+=======+===============================================================+<br />

| k \ λ| 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 |<br />

+=======+===============================================================+<br />

| 0 | .9048 .8187 .7408 .6703 .6065 .5488 .4966 .4493 .4066 .3679 |<br />

| 1 | .0905 .1637 .2222 .2681 .3033 .3293 .3476 .3595 .3659 .3679 |<br />

| 2 | .0045 .0164 .0333 .0536 .0758 .0988 .1217 .1438 .1647 .1839 |<br />

| 3 | .0002 .0011 .0033 .0072 .0126 .0198 .0284 .0383 .0494 .0613 |<br />

| 4 | .0001 .0003 .0007 .0016 .0030 .0050 .0077 .0111 .0153 |<br />

| 5 | .0001 .0002 .0004 .0007 .0012 .0020 .0031 |<br />

| 6 | .0001 .0002 .0003 .0005 |<br />

| 7 | .0001 |<br />

+=======+===============================================================+


λ = 1.2, 1.4, ... 3.0<br />

Tavole <strong>della</strong> <strong>di</strong>stribuzione <strong>di</strong><br />

Poisson - 2<br />

+=======+===============================================================+<br />

| k \ λ| 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 |<br />

+=======+===============================================================+<br />

| 0 | .3012 .2466 .2019 .1653 .1353 .1108 .0907 .0743 .0608 .0498 |<br />

| 1 | .3614 .3452 .3230 .2975 .2707 .2438 .2177 .1931 .1703 .1494 |<br />

| 2 | .2169 .2417 .2584 .2678 .2707 .2681 .2613 .2510 .2384 .2240 |<br />

| 3 | .0867 .1128 .1378 .1607 .1804 .1966 .2090 .2176 .2225 .2240 |<br />

| 4 | .0260 .0395 .0551 .0723 .0902 .1082 .1254 .1414 .1557 .1680 |<br />

| 5 | .0062 .0111 .0176 .0260 .0361 .0476 .0602 .0735 .0872 .1008 |<br />

| 6 | .0012 .0026 .0047 .0078 .0120 .0174 .0241 .0319 .0407 .0504 |<br />

| 7 | .0002 .0005 .0011 .0020 .0034 .0055 .0083 .0118 .0163 .0216 |<br />

| 8 | .0001 .0002 .0005 .0009 .0015 .0025 .0038 .0057 .0081 |<br />

| 9 | .0001 .0002 .0004 .0007 .0011 .0018 .0027 |<br />

| 10 | .0001 .0002 .0003 .0005 .0008 |<br />

| 11 | .0001 .0001 .0002 |<br />

| 12 | .0002 |<br />

+=======+===============================================================+


Tavole <strong>della</strong> <strong>di</strong>stribuzione <strong>di</strong> Poisson - 3<br />

λ = 3.5, 4.0, ... 8.0<br />

+=======+===============================================================+<br />

| k \ λ| 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 |<br />

+=======+===============================================================+<br />

| 0 | .0302 .0183 .0111 .0067 .0041 .0025 .0015 .0009 .0006 .0003 |<br />

| 1 | .1057 .0733 .0500 .0337 .0225 .0149 .0098 .0064 .0041 .0027 |<br />

| 2 | .1850 .1465 .1125 .0842 .0618 .0446 .0318 .0223 .0156 .0107 |<br />

| 3 | .2158 .1954 .1687 .1404 .1133 .0892 .0688 .0521 .0389 .0286 |<br />

| 4 | .1888 .1954 .1898 .1755 .1558 .1339 .1118 .0912 .0729 .0573 |<br />

| 5 | .1322 .1563 .1708 .1755 .1714 .1606 .1454 .1277 .1094 .0916 |<br />

| 6 | .0771 .1042 .1281 .1462 .1571 .1606 .1575 .1490 .1367 .1221 |<br />

| 7 | .0385 .0595 .0824 .1044 .1234 .1377 .1462 .1490 .1465 .1396 |<br />

| 8 | .0169 .0298 .0463 .0653 .0849 .1033 .1188 .1304 .1373 .1396 |<br />

| 9 | .0066 .0132 .0232 .0363 .0519 .0688 .0858 .1014 .1144 .1241 |<br />

| 10 | .0023 .0053 .0104 .0181 .0285 .0413 .0558 .0710 .0858 .0993 |<br />

| 11 | .0007 .0019 .0043 .0082 .0143 .0225 .0330 .0452 .0585 .0722 |<br />

| 12 | .0002 .0006 .0016 .0034 .0065 .0113 .0179 .0263 .0366 .0481 |<br />

| 13 | .0001 .0002 .0006 .0013 .0028 .0052 .0089 .0142 .0211 .0296 |<br />

| 14 | .0001 .0002 .0005 .0011 .0022 .0041 .0071 .0113 .0169 |<br />

| 15 | .0001 .0002 .0004 .0009 .0018 .0033 .0057 .0090 |<br />

| 16 | .0001 .0003 .0007 .0014 .0026 .0045 |<br />

| 17 | .0001 .0003 .0006 .0012 .0021 |<br />

| 18 | .0001 .0002 .0005 .0009 |<br />

| 19 | .0001 .0002 .0004 |<br />

| 20 | .0001 .0002 |<br />

| 21 | .0001 |<br />

+=======+===============================================================+


Acquisti ver<strong>di</strong><br />

• In Lituania, l’incidenza <strong>degli</strong> acquisti ver<strong>di</strong><br />

(basati su oltre tre criteri ambientali) <strong>della</strong><br />

pubblica amministrazione, sul totale<br />

acquisti, è pari allo 0,25%. Quale è la<br />

probabilità che si verifichi 1 acquisto verde<br />

sui prossimi 200?<br />

n = 200; p = 0,0025; λ = 0,5; k = 1<br />

• Probabilità: 30,33%


Giorni favorevoli all’accumulo <strong>di</strong> PM10<br />

• I giorni critici favorevoli all’accumulo <strong>di</strong> PM10,<br />

sono quelli caratterizzati da precipitazioni<br />

inferiori a 0,3 mm e in<strong>di</strong>ce <strong>di</strong> ventilazione<br />

(prodotto dell’altezza <strong>di</strong> rimescolamento me<strong>di</strong>a<br />

per velocità me<strong>di</strong>a del vento) inferiore a 800 m 2 /s.<br />

• Negli anni precedenti, si sono rilevati in una<br />

determinata area in me<strong>di</strong>a 4 giorni critici<br />

nell’intero corso dell’anno.<br />

• Quale è la probabilità che nei prossimi due anni<br />

si verifichino 11 giorni critici?<br />

λ = 8; k = 11<br />

La probabilità cercata è pari al 7,22%


Il recupero delle cave<br />

• Nelle ex-cave in fase <strong>di</strong> recupero territoriale, lo<br />

sviluppo <strong>di</strong> biossido <strong>di</strong> carbonio superiore a una<br />

soglia <strong>di</strong> pericolosità avviene, secondo<br />

esperienze pregresse, in 2 rilevazioni su 100 mq<br />

<strong>di</strong> territorio.<br />

• Quale è la probabilità che su 300 mq <strong>di</strong><br />

intervento, si verifichino 5 rilevazioni<br />

caratterizzate da pericolosità? R.: 0,1606 (k = 5;<br />

λ = 6)<br />

• Quale è la probabilità che su 300 mq <strong>di</strong><br />

intervento, si verifichino più <strong>di</strong> 2 rilevazioni<br />

caratterizzate da pericolosità? Conviene<br />

calcolare prima la probabilità dell’evento<br />

contrario, ossia la probabilità che 0, 1 oppure 2<br />

rilevazioni abbiano questa caratteristica.<br />

Successivamente , si calcola la probabilità<br />

oggetto <strong>della</strong> richiesta. R.: 0,062


La <strong>di</strong>stribuzione t <strong>di</strong><br />

Student


Le situazioni <strong>di</strong> utilizzo<br />

• Un’altra importante legge o <strong>di</strong>stribuzione <strong>di</strong><br />

probabilità è quella <strong>di</strong> Student (pseudonimo <strong>di</strong><br />

William Gosset)<br />

• Questa <strong>di</strong>stribuzione riguarda il parametro t, ed è<br />

utilizzata in molti test statistici<br />

• In modo particolare, si deve ricorrere a questa<br />

<strong>di</strong>stribuzione quando il campione è <strong>di</strong> <strong>di</strong>mensione<br />

limitata (n inferiore o uguale a 30), e proviene da una<br />

popolazione <strong>di</strong>stribuita normalmente, <strong>di</strong> cui però si<br />

ignorano i parametri<br />

• In questo caso, la <strong>di</strong>stribuzione delle me<strong>di</strong>e (o delle<br />

proporzioni) campionarie non segue la legge <strong>della</strong><br />

<strong>di</strong>stribuzione normale, ma quella <strong>della</strong> <strong>di</strong>stribuzione t<br />

<strong>di</strong> Student


La forma<br />

La <strong>di</strong>stribuzione <strong>di</strong> Student ha una forma a<br />

campana, come la normale, ma è più appiattita,<br />

quin<strong>di</strong> la sua <strong>di</strong>spersione è maggiore.<br />

La forma <strong>della</strong> <strong>di</strong>stribuzione <strong>di</strong> t cambia al mutare<br />

dei gra<strong>di</strong> <strong>di</strong> libertà (GL)<br />

All’aumentare dei GL, la <strong>di</strong>stribuzione <strong>di</strong> t tende a<br />

coincidere con quella normale.<br />

In altri termini, la deviazione standard in questo<br />

caso non è pari a 1, come per la <strong>di</strong>stribuzione<br />

normale standar<strong>di</strong>zzata, ma varia in funzione dei<br />

gra<strong>di</strong> <strong>di</strong> libertà.<br />

Quando i gra<strong>di</strong> <strong>di</strong> libertà sono pari a 30, la forma<br />

<strong>della</strong> <strong>di</strong>stribuzione <strong>di</strong> Student arriva praticamente<br />

a coincidere con la forma <strong>della</strong> <strong>di</strong>stribuzione<br />

normale.


Il concetto <strong>di</strong> gra<strong>di</strong> <strong>di</strong> libertà<br />

Il numero <strong>di</strong> gra<strong>di</strong> <strong>di</strong> libertà (si in<strong>di</strong>ca con GL<br />

oppure con la lettera greca ν - pronuncia ni o nu) <strong>di</strong><br />

un parametro statistico corrisponde al numero <strong>di</strong><br />

valori, in<strong>di</strong>pendenti tra loro, che devono essere<br />

utilizzati per calcolare quel parametro.<br />

Il numero <strong>di</strong> G.L. è dato dal numero <strong>di</strong> osservazioni<br />

(n), detratto dal numero delle stime dei parametri<br />

<strong>della</strong> popolazione (k) che entrano nel calcolo del<br />

parametro considerato.<br />

Nel caso <strong>della</strong> deviazione standard, per stimarla<br />

occorre calcolare la me<strong>di</strong>a del campione, quin<strong>di</strong> k è<br />

pari a 1.<br />

In altri termini, i gra<strong>di</strong> <strong>di</strong> libertà rappresentano il<br />

numero <strong>di</strong> possibilità che i dati che compongono un<br />

campione hanno <strong>di</strong> variare liberamente. Si<br />

calcolano togliendo dal numero delle osservazioni il<br />

numero delle con<strong>di</strong>zioni cui essi sono vincolati.


Il parametro t<br />

• Il parametro t corrisponde al rapporto:<br />

me<strong>di</strong>a campionaria - me<strong>di</strong>a popolazione<br />

——————————————————————<br />

stima corretta <strong>di</strong> σ / radq (n)<br />

• Questa <strong>di</strong>stribuzione viene quin<strong>di</strong> impiegata per calcolare i<br />

limiti <strong>di</strong> confidenza <strong>della</strong> me<strong>di</strong>a <strong>della</strong> popolazione, con la<br />

seguente formula:<br />

me<strong>di</strong>a popolazione =<br />

me<strong>di</strong>a campione ± (t • stima corretta <strong>di</strong> σ) / radq (n)


La stima corretta <strong>di</strong> σ<br />

• Quando non si conosce σ, e il numero <strong>di</strong> osservazioni è<br />

piccolo, è possibile stimare σ partendo da s, con questa<br />

formula:<br />

σ = σ • radq (n/n-1)<br />

• Si ottiene una deviazione standard leggermente<br />

maggiore<br />

• (n-1) rappresenta i gra<strong>di</strong> <strong>di</strong> libertà del campione<br />

• Del resto, se si conoscesse la me<strong>di</strong>a <strong>della</strong> popolazione,<br />

per calcolare s si utilizzerebbe questa. In realtà, si<br />

conosce la me<strong>di</strong>a del campione. Gli scarti tra i valori<br />

osservati e la me<strong>di</strong>a del campione saranno<br />

tendenzialmente inferiori agli scarti tra i valori osservati<br />

e la me<strong>di</strong>a <strong>della</strong> popolazione; si impiega allora stima<br />

corretta <strong>di</strong> σ per controbilanciare questo errore


0<br />

t<br />

P<br />

1 – P (α)<br />

Nella tavola <strong>della</strong><br />

<strong>di</strong>stribuzione <strong>di</strong> t,<br />

sono riportati i valori<br />

<strong>di</strong> t che hanno<br />

probabilità pari a P <strong>di</strong><br />

non essere superati,<br />

in funzione del<br />

numero <strong>di</strong> gra<strong>di</strong> <strong>di</strong><br />

libertà [ossia,<br />

probabilità 1-P ( si<br />

in<strong>di</strong>ca con α ) <strong>di</strong><br />

essere superati].<br />

La probabilità P è<br />

uguale all’area a<br />

sinistra <strong>di</strong> t


Tavole <strong>della</strong> <strong>di</strong>stribuzione <strong>di</strong> Student - 1<br />

νν 75% 80% 85% 90% 95% 97.5% 99% 99.5% 99.75% 99.9% 99.95%<br />

1 1.000 1.376 1.963 3.078 6.314 12.71 31.82 63.66 127.3 318.3 636.6<br />

2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.09 22.33 31.60<br />

3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.21 12.92<br />

4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610<br />

5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869<br />

6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959<br />

7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408<br />

8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041<br />

9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781<br />

10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587<br />

11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437<br />

12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318<br />

13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221<br />

14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140<br />

15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073<br />

16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015<br />

17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965<br />

18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922<br />

19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883<br />

20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850


Tavole <strong>della</strong> <strong>di</strong>stribuzione <strong>di</strong> Student - 2<br />

ν 75% 80% 85% 90% 95% 97.5% 99% 99.5% 99.75% 99.9% 99.95%<br />

21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819<br />

22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792<br />

23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.767<br />

24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745<br />

25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725<br />

26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707<br />

27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690<br />

28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674<br />

29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659<br />

30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646<br />

40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551<br />

50 0.679 0.849 1.047 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496<br />

60 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460


Un esempio (tratto da Castino-Roletto, Statistica applicata)<br />

• Si sono estratte 10 porzioni <strong>di</strong> cortecce <strong>di</strong> pioppo<br />

sottoposte a umi<strong>di</strong>ficazione, e per ognuna si è<br />

determinato il contenuto in ceneri.<br />

• Questi i valori (in %) rilevati:<br />

15,7 16,2 16,8 16,2 15,7 17,6 17,1 16,4 15,5 17,0<br />

• In quale intervallo potrebbe cadere il valore vero del<br />

contenuto in ceneri, con una probabilità del 99%?<br />

me<strong>di</strong>a: 16,42, stima corretta <strong>di</strong> σ: 0,692<br />

• Dalla tavola <strong>di</strong> Student, si ricava, con 9 GL:<br />

t = 3,25<br />

• Il rischio α, infatti, è ripartito in due rischi uguali, ognuno<br />

pari a α/2, simmetrici rispetto al valore centrale.<br />

• Quin<strong>di</strong>:<br />

16,42 ± (3,25 * 0,692) / radq (10) = 16,4 ± 0,71<br />

• Abbiamo cioè il 99% <strong>di</strong> probabilità che il valore <strong>della</strong><br />

popolazione sia compreso tra 15,71 e 17,13


Il riferimento per la<br />

lettura delle tavole<br />

Per quale motivo si è<br />

in<strong>di</strong>viduato t = 3,25, che<br />

corrisponde (nella tavola) a<br />

P = 0,995?<br />

Perché nella tavola <strong>della</strong><br />

<strong>di</strong>stribuzione <strong>di</strong> t, sono<br />

riportati i valori <strong>di</strong> t che<br />

hanno probabilità pari a P <strong>di</strong><br />

non essere superati, cioè<br />

probabilità 1-P ( = α ) <strong>di</strong><br />

essere superati.<br />

Nell’esempio, α è uguale a<br />

0,01, ripartito in due rischi<br />

uguali, ognuno pari a α/2,<br />

nelle due code. Per<br />

utilizzare correttamente la<br />

tavola, dobbiamo<br />

comprendere una delle due<br />

code (quella a sinistra) ed<br />

escludere l’altra.


I gra<strong>di</strong> <strong>di</strong> libertà, in questo esempio<br />

• Le porzioni <strong>di</strong> corteccia sono state estratte in<br />

modo aleatorio, per cui sono in<strong>di</strong>pendenti tra<br />

loro. Ossia, conoscendo il primo valore, non si<br />

può pre<strong>di</strong>re il secondo, ecc.<br />

• La conoscenza dei primi dati non consente <strong>di</strong><br />

avanzare ipotesi sui successivi.<br />

• Se però consideriamo gli scarti dalla me<strong>di</strong>a, su<br />

cui si basa il calcolo <strong>della</strong> deviazione standard,<br />

dato che la loro somma è sempre zero,<br />

conoscendo i primi n-1 valori, si può ricavare<br />

l’ultimo.<br />

• I dati in<strong>di</strong>pendenti tra loro sono quin<strong>di</strong> n-1, e<br />

questo è il numero <strong>di</strong> gra<strong>di</strong> <strong>di</strong> libertà.


8 – I METODI DI<br />

CAMPIONAMENTO


Sulla popolazione o sul campione?<br />

Quando si affronta una indagine statistica,<br />

una delle alternative da porsi riguarda la<br />

scelta tra:<br />

• l’indagine completa (sull'intera<br />

popolazione)<br />

• l’indagine su un campione (su una parte<br />

<strong>della</strong> popolazione)<br />

Naturalmente, quando si lavora su un<br />

campione, il fine è quello <strong>di</strong> proiettare<br />

sulla popolazione le informazioni che si<br />

ottengono dal campione


A volte, è inevitabile campionare<br />

Nel caso <strong>di</strong> animali <strong>di</strong> piccole <strong>di</strong>mensioni,<br />

con forte velocità riproduttiva, ad elevata<br />

mortalità e mobilità accentuata, è<br />

impossibile il conteggio censuario <strong>di</strong> tutti<br />

gli in<strong>di</strong>vidui.<br />

Si lavora allora su un campione <strong>di</strong> porzioni<br />

<strong>di</strong> aree: possono essere quadrati <strong>di</strong><br />

terreno, volumi <strong>di</strong> acqua, piante nel caso<br />

<strong>degli</strong> insetti erbivori


L’errore <strong>di</strong> campionamento<br />

• Il campione è caratterizzato da un<br />

particolare rischio <strong>di</strong> errore: l’errore <strong>di</strong><br />

campionamento<br />

Si tratta del margine <strong>di</strong> approssimazione<br />

dovuto al fatto <strong>di</strong> considerare una parte<br />

rispetto al tutto. E’ “fisiologico” in ogni<br />

indagine su campione<br />

• Nonostante ciò, non sempre la rilevazione<br />

sulla popolazione fornisce risultati più<br />

precisi: in un'indagine ci sono tanti rischi<br />

<strong>di</strong> errore (imprecisioni, omissioni, sbagli <strong>di</strong><br />

ogni genere)


Gli errori nelle indagini su campione e<br />

nelle indagini sulla popolazione<br />

Indagine sulla popolazione<br />

• Nessun errore <strong>di</strong> campionamento<br />

• Errori non statistici elevati<br />

Indagine su campione<br />

• Presenza errori <strong>di</strong> campionamento<br />

• Errori non statistici ridotti


La popolazione e il campione<br />

La popolazione Il Campione<br />

• • • • • • • • • • • • • • • • • • •<br />

• • • • • • • • • • • • • • • • • • •<br />

• • • • • • • • • • • • • • • • • • •<br />

• • • • • • • • • • • • • • • • • • •<br />

• • • • • • • • • • • • • • • • • • •<br />

• • • • • • • • • • • • • • • • • • •<br />

• • • • • • • • • • • • • • • • • • •<br />

• • • • • • • • • • • • • • • • • • •<br />

• • • • • • • •<br />

• • • • • • • •<br />

• • • • • • • •<br />

• • • • • • • •<br />

N elementi n elementi


Meto<strong>di</strong> <strong>di</strong> campionamento<br />

• Nel campionamento probabilistico (o<br />

casuali) ogni componente <strong>della</strong><br />

popolazione ha la stessa probabilità <strong>di</strong><br />

entrare nel campione<br />

• Nel campionamento non probabilistico (o<br />

non casuale) ciò non si verifica


La casualità statistica<br />

• In un campionamento probabilistico, è il<br />

caso (in senso statistico) che determina<br />

gli elementi che faranno parte del<br />

campione<br />

• In questo modo, è possibile eliminare<br />

<strong>di</strong>storsioni provocate da inevitabili fattori<br />

umani <strong>di</strong> scelta<br />

• È facile lasciarsi trarre in inganno da una<br />

casualità solo apparente del<br />

campionamento


Il campione casuale semplice<br />

• È il tipo più elementare <strong>di</strong> campione<br />

probabilistico<br />

• Consiste nella estrazione <strong>di</strong> un certo<br />

numero <strong>di</strong> elementi dall’elenco <strong>di</strong> tutte le<br />

unità che compongono la popolazione (si<br />

parla in questo caso <strong>di</strong> scelta random)


Il campione casuale stratificato<br />

• Il criterio <strong>della</strong> stratificazione è finalizzato a<br />

migliorare la rappresentatività del campione<br />

• È realizzabile quando si può sud<strong>di</strong>videre la<br />

popolazione in categorie omogenee <strong>di</strong> unità<br />

(strati), che saranno rappresentate nel<br />

campione nella giusta proporzione<br />

• Gli strati vengono in<strong>di</strong>viduati facendo<br />

riferimento alle caratteristiche più importanti<br />

per l'indagine, in modo da ottenere una<br />

buona omogeneità all'interno del singolo<br />

strato


Confronto tra campione casuale semplice<br />

e campione casuale stratificato<br />

CAMPIONE CASUALE<br />

SEMPLICE<br />

POPOLAZIONE<br />

C<br />

A<br />

M<br />

P<br />

I<br />

O<br />

N<br />

E<br />

CAMPIONE CASUALE<br />

STRATIFICATO<br />

POPOLAZIONE CAMPIONE<br />

STRATO A<br />

STRATO B<br />

STRATO C<br />

STRATO D<br />

A<br />

B<br />

C<br />

D


Il campionamento sistematico<br />

• È un altro criterio <strong>di</strong> campionamento<br />

(sempre probabilistico)<br />

• Consiste nell'estrazione <strong>della</strong> prima unità;<br />

le successive vengono determinate a<br />

partire da questa, applicando un passo<br />

fisso (per esempio, una ogni 10)<br />

• È utile soprattutto quando la lista dei<br />

componenti <strong>della</strong> popolazione non è<br />

<strong>di</strong>sponibile


Il campionamento a sta<strong>di</strong> - 1<br />

• In molti casi, la scelta casuale delle unità<br />

da un unico elenco può essere complessa<br />

e comportare costi elevati<br />

• A livello nazionale, per esempio,<br />

l’estrazione da una sola lista porterebbe<br />

alla costruzione <strong>di</strong> un campione molto<br />

<strong>di</strong>sperso territorialmente, con costi elevati<br />

in termini <strong>di</strong> tempi e <strong>di</strong> spese<br />

• Per risolvere questi problemi, si può<br />

ricorrere a un campionamento a sta<strong>di</strong><br />

(anch'esso probabilistico)


Il campionamento a sta<strong>di</strong> - 2<br />

• Per esempio, si può estrarre un campione<br />

<strong>di</strong> province; all'interno <strong>di</strong> ogni provincia, si<br />

può estrarre un campione <strong>di</strong> comuni; ecc.<br />

• Più il fenomeno che stiamo stu<strong>di</strong>ando si<br />

presenta <strong>di</strong>ffuso in modo omogeneo,<br />

maggiori sono le garanzie che il campione<br />

a sta<strong>di</strong> rappresenti in modo sod<strong>di</strong>sfacente<br />

la popolazione


POPOLA-<br />

ZIONE<br />

DELLE<br />

PROVINCE<br />

ITALIANE<br />

Il campionamento a sta<strong>di</strong><br />

Estrazione<br />

<strong>di</strong> un<br />

campione<br />

<strong>di</strong> province<br />

Provincia<br />

A<br />

Provincia<br />

B<br />

Provincia<br />

C<br />

Provincia<br />

D<br />

Provincia<br />

E<br />

Estrazion<br />

e <strong>di</strong> un<br />

campione<br />

<strong>di</strong> comuni<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Estrazione <strong>di</strong><br />

un campione<br />

<strong>di</strong> unità<br />

statistiche


I campioni non probabilistici<br />

• Tra i meto<strong>di</strong> non probabilistici più<br />

utilizzati, rientra il campione per quote<br />

• È adatto a ridurre la mole <strong>di</strong> lavoro non<br />

solo in fase <strong>di</strong> campionamento, ma<br />

nell’intera esecuzione <strong>della</strong> ricerca<br />

• La scelta avviene con l'in<strong>di</strong>cazione delle<br />

proporzioni che dovranno caratterizzare il<br />

campione …<br />

• … lasciando ai rilevatori la libertà <strong>di</strong><br />

scegliere le unità statistiche su cui<br />

effettuare la rilevazione (con tutti i rischi <strong>di</strong><br />

<strong>di</strong>storsione connessi)


9 – DISTRIBUZIONI CAMPIONARIE<br />

E INTERVALLI DI CONFIDENZA


Lo scopo dell’indagine su campione<br />

• Si utilizzano le statistiche campionarie per<br />

stimare i corrispondenti parametri <strong>della</strong><br />

popolazione<br />

• Per esempio:<br />

_<br />

X per stimare μ<br />

^<br />

p per stimare p<br />

• Si tratta <strong>di</strong> stimatori che forniscono un valore<br />

vicino al parametro sconosciuto <strong>della</strong><br />

popolazione all’aumentare <strong>della</strong> <strong>di</strong>mensione del<br />

campione, e che non presentano forte variabilità<br />

da campione a campione


I principali tipi <strong>di</strong> informazione<br />

Le principali informazioni che si possono<br />

ottenere da un'indagine sono <strong>di</strong> due tipi:<br />

• l'obiettivo dell'indagine può essere la stima <strong>di</strong><br />

una me<strong>di</strong>a: per esempio, il costo me<strong>di</strong>o <strong>di</strong><br />

trattamento delle acque sot<strong>terra</strong>nee nei<br />

progetti <strong>di</strong> recupero <strong>di</strong> siti industriali inquinati<br />

• quando il fenomeno è <strong>di</strong> tipo qualitativo,<br />

l'obiettivo dell'indagine può essere la stima <strong>di</strong><br />

una proporzione, ossia <strong>di</strong> una quota: per<br />

esempio, in un tratto stradale, la quota <strong>di</strong><br />

veicoli <strong>di</strong>esel circolanti dotati <strong>di</strong> filtro<br />

antiparticolato


I quattro fattori da considerare<br />

per calcolare la <strong>di</strong>mensione <strong>di</strong><br />

un campione<br />

• la <strong>di</strong>mensione <strong>della</strong> popolazione<br />

• l'errore <strong>di</strong> campionamento<br />

• il livello fiduciario<br />

• il grado <strong>di</strong> eterogeneità <strong>della</strong><br />

popolazione


Il proce<strong>di</strong>mento da seguire<br />

• in<strong>di</strong>viduazione <strong>della</strong> <strong>di</strong>mensione <strong>della</strong><br />

popolazione<br />

• scelta del livello fiduciario che si intende<br />

accettare<br />

• scelta dell'errore che si intende accettare<br />

• stima del grado <strong>di</strong> eterogeneità<br />

L’intero proce<strong>di</strong>mento presuppone che il<br />

metodo <strong>di</strong> campionamento sia<br />

probabilistico (casuale)


La <strong>di</strong>mensione <strong>della</strong><br />

popolazione<br />

• All'aumentare <strong>di</strong> N tende a crescere<br />

anche n, e viceversa<br />

• L'aumento (o la <strong>di</strong>minuzione) <strong>di</strong> n è<br />

però meno che proporzionale<br />

rispetto all'aumento (o alla<br />

<strong>di</strong>minuzione) <strong>di</strong> N


La regola dei gran<strong>di</strong> numeri<br />

• Del resto, se il campione è formato da pochi<br />

elementi, sono elevati i rischi che questi<br />

elementi siano scarsamente rappresentativi<br />

<strong>della</strong> popolazione<br />

• Al crescere <strong>di</strong> N, n può aumentare in misura<br />

meno che proporzionale, in quanto si riduce il<br />

rischio che gran parte del campione sia<br />

formata da elementi non rappresentativi:<br />

stiamo lavorando su gran<strong>di</strong> numeri


L'errore <strong>di</strong> campionamento<br />

• Il valore rilevato con un'indagine campionaria<br />

non corrisponde perfettamente al valore <strong>della</strong><br />

popolazione, ma è caratterizzato da un errore<br />

(e), per eccesso o per <strong>di</strong>fetto<br />

• Questo intervallo è noto come intervallo <strong>di</strong><br />

confidenza: è l’intervallo che (con una<br />

prefissata probabilità) contiene il valore reale<br />

del parametro<br />

• Gli estremi dell’intervallo <strong>di</strong> confidenza sono<br />

chiamati limiti <strong>di</strong> confidenza<br />

• L'errore che si è <strong>di</strong>sposti ad accettare viene<br />

deciso in fase <strong>di</strong> impostazione <strong>della</strong> ricerca


Errore e ampiezza del campione<br />

• All'aumentare dell'errore accettato, si<br />

riduce l'ampiezza del campione, e<br />

viceversa<br />

• Del resto, per avere risultati più precisi,<br />

è intuitivo che occorra lavorare su un<br />

campione più grande


Livello fiduciario (o livello <strong>di</strong><br />

confidenza)<br />

• Il valore ottenuto da un’indagine campionaria,<br />

oltre che da un intervallo <strong>di</strong> confidenza, è<br />

caratterizzato anche da un grado <strong>di</strong> fiducia sulla<br />

correttezza <strong>della</strong> stima<br />

• È la probabilità che l’intervallo <strong>di</strong> confidenza<br />

contenga il valore reale del parametro<br />

• In molti casi, il livello <strong>di</strong> confidenza viene assunto<br />

pari al 95%; in questa situazione, si considerano<br />

tutti i possibili campioni <strong>di</strong> ampiezza pari a n, e<br />

per ciascuno si calcola la me<strong>di</strong>a campionaria (o la<br />

proporzione campionaria) e l’intervallo centrato<br />

su questa, il 95% <strong>degli</strong> intervalli ottenuti contiene<br />

la me<strong>di</strong>a (o la proporzione) <strong>della</strong> popolazione, il<br />

5% non la comprende


Me<strong>di</strong>e campionarie e TCL<br />

• La <strong>di</strong>stribuzione <strong>di</strong> probabilità <strong>di</strong> una me<strong>di</strong>a<br />

campionaria fa riferimento al Teorema Centrale del<br />

Limite.<br />

• Nel campionamento casuale, da una popolazione con<br />

me<strong>di</strong>a μ e scarto quadratico me<strong>di</strong>o σ, se n è abbastanza<br />

grande la <strong>di</strong>stribuzione delle me<strong>di</strong>e campionarie<br />

approssima la <strong>di</strong>stribuzione normale.<br />

• Questa <strong>di</strong>stribuzione delle me<strong>di</strong>e campionarie ha me<strong>di</strong>a<br />

pari a μ e variabilità (errore standard) pari a:<br />

σ / (ra<strong>di</strong>ce quadrata <strong>di</strong> n)<br />

• La variabilità delle me<strong>di</strong>e campionarie (che in<strong>di</strong>ca<br />

quanto la me<strong>di</strong>a del singolo campione varia da<br />

campione a campione) è quin<strong>di</strong> minore <strong>della</strong> variabilità<br />

dei valori <strong>della</strong> popolazione (il calcolo delle me<strong>di</strong>e<br />

campionarie tende a smussare la variabilità originaria).


Proporzioni campionarie e TCL<br />

• Anche la <strong>di</strong>stribuzione <strong>di</strong> probabilità <strong>di</strong> una<br />

proporzione campionaria fa riferimento al Teorema<br />

Centrale del Limite.<br />

• Nel campionamento casuale, da una popolazione<br />

con proporzioni p e (1-p), se n è abbastanza<br />

grande la <strong>di</strong>stribuzione delle proporzioni<br />

campionarie approssima la <strong>di</strong>stribuzione normale.<br />

• Questa <strong>di</strong>stribuzione delle proporzioni<br />

campionarie ha me<strong>di</strong>a pari a p e variabilità (errore<br />

standard) pari a:<br />

ra<strong>di</strong>ce quadrata <strong>di</strong> [p * (1-p) /n]


Livello fiduciario e ampiezza del<br />

campione<br />

• il livello fiduciario si mo<strong>di</strong>fica al variare<br />

dell'ampiezza del campione: più grande è n, più<br />

alto è il grado <strong>di</strong> certezza<br />

• Come già affermato, nella maggior parte delle<br />

indagini, il grado <strong>di</strong> certezza accettato è pari al<br />

95%.<br />

Ciò significa che viene usata una tecnica che, a<br />

lungo andare, è in grado <strong>di</strong> fornire stime<br />

corrette 95 volte su 100<br />

• A parità <strong>degli</strong> altri fattori, si può decidere <strong>di</strong><br />

aumentare il livello fiduciario, ma riducendo la<br />

precisione <strong>della</strong> stima, ossia aumentando<br />

l’errore


L'eterogeneità <strong>della</strong><br />

popolazione<br />

• All'aumentare del grado <strong>di</strong> eterogeneità<br />

<strong>della</strong> popolazione, crescono i rischi<br />

connessi al campionamento<br />

• Più la popolazione è eterogenea, infatti,<br />

maggiori sono le probabilità <strong>di</strong> fornire<br />

(tramite l'indagine su campione) una stima<br />

<strong>di</strong>stante dal corrispondente valore <strong>della</strong><br />

popolazione ….<br />

• …. in quanto sono maggiori anche le<br />

probabilità <strong>di</strong> lavorare su un campione<br />

poco rappresentativo


L'eterogeneità e l’ampiezza del<br />

campione<br />

• Di fronte a una forte eterogeneità <strong>della</strong><br />

popolazione, occorre cautelarsi dai<br />

maggiori rischi <strong>di</strong> <strong>di</strong>storsione, utilizzando<br />

un campione più ampio<br />

• Si ha la situazione <strong>di</strong> massima omogeneità<br />

quando tutti i componenti <strong>della</strong><br />

popolazione si comportano nello stesso<br />

modo, in riferimento al fenomeno che<br />

stiamo stu<strong>di</strong>ando


Come stimare l’eterogeneità?<br />

• Prima <strong>di</strong> fare un'indagine, non si conoscono le<br />

caratteristiche <strong>della</strong> popolazione e la sua<br />

eterogeneità<br />

• Se si <strong>di</strong>sponesse <strong>di</strong> queste informazioni, si potrebbe<br />

evitare <strong>di</strong> effettuare l'indagine<br />

• Soluzioni:<br />

– risultati <strong>di</strong> altri stu<strong>di</strong><br />

– indagine preliminare<br />

– ipotesi maggiormente pessimistica (massima<br />

eterogeneità) (è l’ultima alternativa!)<br />

• Le prime due alternative si basano sul fatto che, se<br />

la popolazione è normale e il campione è > 30, si<br />

utilizza s al posto <strong>di</strong> σ. Allo stesso modo, si usa<br />

^<br />

p al posto <strong>di</strong> p


Come si misura l'eterogeneità?<br />

• Occorre tenere <strong>di</strong>stinti i due casi in cui ci<br />

si trova quando si effettua un'indagine<br />

– L’obiettivo dell’indagine è la stima <strong>di</strong> una<br />

me<strong>di</strong>a<br />

– L’obiettivo dell’indagine è la stima <strong>di</strong> una<br />

proporzione


Se l’obiettivo è la stima <strong>di</strong><br />

una me<strong>di</strong>a ….<br />

• L’in<strong>di</strong>catore del grado <strong>di</strong> eterogeneità è la<br />

deviazione standard<br />

• Se non possiamo seguire altre vie, ci<br />

affi<strong>di</strong>amo all'ipotesi <strong>di</strong> massima deviazione<br />

standard possibile ….<br />

• …. ossia il campo <strong>di</strong> variazione del<br />

fenomeno (<strong>di</strong>fferenza tra il valore più grande<br />

e il valore più piccolo possibile), <strong>di</strong>viso 2


Se l’obiettivo è la stima <strong>di</strong><br />

una proporzione ….<br />

• L’in<strong>di</strong>catore del grado <strong>di</strong> eterogeneità è il<br />

prodotto<br />

p * (1 - p)<br />

dove p è la percentuale attesa come<br />

risultato dell’indagine (rapportata non a 100,<br />

bensì all'unità: <strong>di</strong> conseguenza, p varia da 0<br />

a 1)


La massima eterogeneità nel caso <strong>di</strong><br />

stima <strong>di</strong> una proporzione<br />

• Si ha forte omogeneità quando una proporzione<br />

preponderante <strong>di</strong> unità statistiche si concentra su una<br />

modalità<br />

• Si ha invece forte eterogeneità quando il campione è<br />

ripartito in parti pressoché uguali tra le due modalità<br />

• L'ipotesi maggiormente pessimistica in termini <strong>di</strong><br />

eterogeneità corrisponde quin<strong>di</strong> a p = 0,50<br />

(se il fenomeno presenta più <strong>di</strong> due modalità, è sempre possibile fare<br />

riferimento a una <strong>di</strong> esse o a una classe <strong>di</strong> esse, e considerare tutte le<br />

rimanenti come facenti parte <strong>di</strong> un'unica categoria)


Calcolo <strong>della</strong> <strong>di</strong>mensione del campione,<br />

quando l’obiettivo dell’indagine è la stima<br />

<strong>di</strong> una proporzione, per una popolazione<br />

finita<br />

N * z 2 * p * (1 - p)<br />

n = __________________________<br />

(N - 1) * e 2 + z 2 * p * (1 - p)


Calcolo <strong>della</strong> <strong>di</strong>mensione del campione,<br />

quando l’obiettivo dell’indagine è la stima<br />

<strong>di</strong> una me<strong>di</strong>a, per una popolazione finita<br />

N * z 2 * σ 2<br />

n = ______________________<br />

(N - 1) * e 2 + z 2 * σ 2


Calcolo <strong>della</strong> <strong>di</strong>mensione del campione, quando<br />

l’obiettivo dell’indagine è la stima <strong>di</strong> una<br />

proporzione, per una popolazione infinita<br />

(reimmissione)<br />

z 2 * p * (1-p)<br />

n = ____________<br />

Calcolo dell’errore campionario, quando<br />

l’obiettivo dell’indagine è la stima <strong>di</strong> una<br />

proporzione, per una popolazione infinita<br />

(reimmissione)<br />

e 2<br />

z * radq [p * (1-p)]<br />

e = ________________<br />

radq (n)


Calcolo <strong>della</strong> <strong>di</strong>mensione del campione, quando<br />

l’obiettivo dell’indagine è la stima <strong>di</strong> una me<strong>di</strong>a,<br />

per una popolazione infinita (reimmissione)<br />

z 2 * σ 2<br />

n = _________<br />

Calcolo dell’errore campionario, quando<br />

l’obiettivo dell’indagine è la stima <strong>di</strong> una me<strong>di</strong>a,<br />

per una popolazione infinita (reimmissione)<br />

e 2<br />

z * σ<br />

e = _________<br />

radq (n)


Il significato dei fattori<br />

N = <strong>di</strong>mensione <strong>della</strong> popolazione<br />

e = errore<br />

z = coefficiente <strong>di</strong> confidenza, il cui valore è<br />

legato al livello fiduciario (ed è desumibile<br />

dalle tavole <strong>della</strong> <strong>di</strong>stribuzione normale)<br />

σ = deviazione standard <strong>della</strong> popolazione<br />

p = proporzione attesa


Livello fiduciario e il coefficiente<br />

<strong>di</strong> confidenza<br />

• A ogni livello fiduciario prescelto, corrisponde quin<strong>di</strong><br />

un valore <strong>di</strong> z, come si deduce dalle tavole <strong>della</strong><br />

<strong>di</strong>stribuzione normale<br />

Alcuni livelli fiduciari tra i più utilizzati e i corrispondenti<br />

valori <strong>di</strong> z sono i seguenti:<br />

livello fiduciario (%) z<br />

99 2,58<br />

98 2,33<br />

95 1,96<br />

90 1,65


Parametri non noti e campione<br />

piccolo<br />

• È importante ricordare che, quando il<br />

campione è <strong>di</strong> <strong>di</strong>mensione limitata (n<br />

inferiore o uguale a 30), e proviene da una<br />

popolazione <strong>di</strong>stribuita normalmente, <strong>di</strong> cui<br />

però si ignorano i parametri, la <strong>di</strong>stribuzione<br />

delle me<strong>di</strong>e campionarie non segue la legge<br />

<strong>della</strong> <strong>di</strong>stribuzione normale, ma quella <strong>della</strong><br />

<strong>di</strong>stribuzione t <strong>di</strong> Student


10 –VERIFICA DELLE IPOTESI:<br />

I TEST STATISTICI


Lo scopo<br />

Si tratta <strong>di</strong> procedure che consentono <strong>di</strong><br />

prendere decisioni, basate su un certo<br />

grado <strong>di</strong> probabilità<br />

Lo scopo è quello <strong>di</strong> verificare ipotesi<br />

Per esempio: due indagini portano a due<br />

<strong>di</strong>verse percentuali (p 1 e p 2 )<br />

C’è una <strong>di</strong>fferenza statisticamente<br />

significativa tra p 1 e p 2 ?<br />

Oppure si tratta dell’effetto <strong>di</strong> errori <strong>di</strong><br />

campionamento?


Situazioni <strong>di</strong> utilizzo<br />

• Si impiegano test parametrici quando la<br />

variabile è quantitativa ed è normalmente<br />

<strong>di</strong>stribuita<br />

• Negli altri casi, si utilizzano test non<br />

parametrici<br />

• In questo corso, si affronteranno<br />

esclusivamente i test parametrici


Ipotesi nulla e ipotesi alternativa<br />

• La prima fase operativa è costituita dalla<br />

formulazione <strong>di</strong> due ipotesi, tra loro<br />

esclusive, ossia incompatibili, oltre che<br />

esaustive (coprono tutte le possibilità):<br />

H 0 , ipotesi nulla: es. assenza <strong>di</strong> <strong>di</strong>fferenza<br />

significativa<br />

H 1 , ipotesi alternativa: es. presenza <strong>di</strong><br />

<strong>di</strong>fferenza significativa


Si parte dall’ipotesi nulla<br />

• Normalmente, il punto <strong>di</strong> partenza è l’ipotesi<br />

nulla<br />

• Del resto, in prima istanza può essere<br />

ragionevole attribuire una <strong>di</strong>fferenza alle<br />

fluttuazioni campionarie, ossia agli errori <strong>di</strong><br />

campionamento<br />

• Tutte le procedure dei test sono <strong>di</strong> tipo<br />

conservativo, cioè ci si comporta in modo<br />

prudente: si crede all’ipotesi nulla tranne<br />

quando l’evidenza derivante dai dati<br />

campionari contrad<strong>di</strong>ce questa assunzione


Non abbiamo certezze assolute<br />

• Non possiamo provare con certezza assoluta che<br />

una ipotesi sia corretta o falsa<br />

• Possiamo però accettare o rifiutare una ipotesi con<br />

un certo grado <strong>di</strong> probabilità (livello <strong>di</strong> confidenza),<br />

normalmente deciso a priori<br />

• La procedura consiste nel determinare i limiti <strong>di</strong><br />

confidenza, per mezzo <strong>di</strong>:<br />

– il livello <strong>di</strong> confidenza<br />

– il valore atteso<br />

– l’errore standard (SE)


Il livello <strong>di</strong> significatività<br />

• Il complemento a 1 del livello <strong>di</strong><br />

confidenza viene denominato livello <strong>di</strong><br />

significatività del test (e viene in<strong>di</strong>cato<br />

con α)<br />

• Solitamente, si pone α pari a un valore<br />

compreso tra 0,01 e 0,05


L’area <strong>di</strong> rifiuto<br />

• L’area (o regione) <strong>di</strong> rifiuto è l’intervallo dei<br />

valori campionari (valori <strong>della</strong> statistica-test)<br />

che ci porta a rifiutare l’ipotesi nulla<br />

• L’area <strong>di</strong> rifiuto è delimitata dai valori critici,<br />

corrispondenti ai limiti <strong>di</strong> confidenza<br />

• Se la statsitica-test cade nella regione <strong>di</strong> rifiuto,<br />

allora rifiuteremo l’ipotesi nulla


Bi<strong>di</strong>rezionale o mono<strong>di</strong>rezionale?<br />

• L’area <strong>di</strong> rifiuto può essere ripartita su entrambe<br />

le code (test a due code, bi<strong>di</strong>rezionale) …<br />

• … oppure su una sola coda (test a una coda,<br />

mono<strong>di</strong>rezionale): in questo secondo caso, si<br />

fissa l’attenzione su una sola alternativa (minore<br />

<strong>di</strong>…, oppure maggiore <strong>di</strong> ….)<br />

• H 0 comprende sempre il simbolo =. Se il test è<br />

bi<strong>di</strong>rezionale, H 0 corrisponde a una uguaglianza; se<br />

invece è mono<strong>di</strong>rezionale, , H 0 corrisponde a ><br />

oppure a


Test a una coda per ipotesi mono<strong>di</strong>rezionali<br />

(si intende accettazione o rifiuto <strong>di</strong> H 0 ; il livello <strong>di</strong><br />

significatività qui è pari a 0,025)<br />

Regione <strong>di</strong><br />

accettazione<br />

Regione <strong>di</strong> rifiuto<br />

V.att. + 1,96 SE


Test a due code (per ipotesi bi<strong>di</strong>rezionali)<br />

(si intende accettazione o rifiuto <strong>di</strong> H 0 ; il livello <strong>di</strong><br />

significatività qui è pari a 0,05)<br />

Regione<br />

<strong>di</strong> rifiuto<br />

V.att. - 1,96 * SE<br />

Regione <strong>di</strong><br />

accettazione<br />

Regione<br />

<strong>di</strong> rifiuto<br />

V.att. + 1,96 * SE


Deduzioni dal grafico precedente<br />

• Ogni valore campionario cadrà entro i limiti <strong>di</strong><br />

confidenza con una probabilità del 95%<br />

<strong>di</strong> conseguenza:<br />

• Se un valore campionario cade entro i limiti <strong>di</strong><br />

confidenza, accetteremo l’ipotesi H 0<br />

• In caso contrario, la rifiuteremo<br />

La regione <strong>di</strong> rifiuto corrisponde ai valori che<br />

hanno una piccola probabilità <strong>di</strong> verificarsi,<br />

quando l’ipotesi nulla è vera


Il p-value<br />

• Oltre al metodo accennato, basato sulla regione <strong>di</strong><br />

rifiuto, si può adottare un metodo <strong>di</strong>verso, che<br />

ovviamente conduce agli stessi risultati:<br />

il metodo del p-value<br />

• In base a questa procedura, si rifiuta l’ipotesi nulla<br />

se il p-value è inferiore a α<br />

• In altri termini, si rifiuta H 0 quando la probabilità <strong>di</strong><br />

rifiutare erroneamente questa ipotesi è inferiore al<br />

massimo che siamo <strong>di</strong>sposti a tollerare, ossia α<br />

• Il p-value è infatti l’effettiva probabilità <strong>di</strong> rifiutare<br />

l’ipotesi nulla, quando questa è vera


Tipi <strong>di</strong> errore<br />

Si riba<strong>di</strong>sce l’assenza <strong>di</strong> certezze assolute, per<br />

cui le conclusioni <strong>di</strong> un test statistico sono<br />

soggette ad errori, <strong>di</strong> primo o secondo tipo<br />

Nella realtà:<br />

Si decide <strong>di</strong><br />

accettare H 0<br />

Si decide <strong>di</strong> rifiutare H 0<br />

H 0 vera Decisione corretta Errore <strong>di</strong> primo tipo<br />

H 1 vera Errore <strong>di</strong> secondo<br />

tipo<br />

Decisione corretta<br />

La probabilità <strong>di</strong> commettere un errore <strong>di</strong> primo tipo<br />

corrisponde al livello <strong>di</strong> significatività


Cosa si intende verificare, nella<br />

maggior parte dei casi?<br />

• Su quali tipologie <strong>di</strong> in<strong>di</strong>catori si effettuano le<br />

verifiche?<br />

• Quattro sono i casi più importanti:<br />

Me<strong>di</strong>e<br />

Proporzioni<br />

Differenze tra me<strong>di</strong>e<br />

Differenze tra proporzioni


Valore atteso ed errore standard<br />

In<strong>di</strong>catore Valore atteso Errore standard (SE)<br />

MEDIA μ<br />

PROPORZIONE p<br />

DIFFERENZA<br />

TRA MEDIE<br />

DIFFERENZA<br />

TRA<br />

PROPORZIONI<br />

0<br />

0<br />

σ<br />

—————<br />

radq (n)<br />

p * (1-p)<br />

Radq [——————]<br />

n<br />

σ 2 1 σ 2 2<br />

Radq [——— + ———]<br />

n1 n2<br />

p * (1-p) p * (1-p)<br />

Radq [————— + —————]<br />

n1 n2


In realtà, solitamente non si <strong>di</strong>spone <strong>di</strong> μ o <strong>di</strong> p. Al<br />

loro posto, si utilizza il valore relativamente al quale<br />

stiamo verificando l’evidenza campionaria, ossia<br />

quello che compare in H 0<br />

• Quando poi non si conoscono i parametri <strong>della</strong><br />

popolazione (μ, σ, p), si utilizzano i valori<br />

campionari noti<br />

(questa impostazione è corretta se il campione ha una<br />

ampiezza superiore a 30)


Verifica <strong>di</strong> una me<strong>di</strong>a - 1<br />

• Una catena <strong>di</strong> alberghi pubblicizza un luogo<br />

<strong>di</strong> vacanza invernale, sostenendo 7 ore me<strong>di</strong>e<br />

<strong>di</strong> sole al giorno nei 4 mesi invernali<br />

• Una agenzia viaggi, in 36 giorni estratti<br />

casualmente dai 4 mesi invernali, rileva una<br />

me<strong>di</strong>a <strong>di</strong> 5,9 ore, con s pari a 1,8<br />

• L’agenzia è stata imbrogliata? (si decide un<br />

livello <strong>di</strong> significatività pari a 0,02)<br />

H 0 : M > 7 H 1 : M < 7<br />

(test a una coda)


Regione <strong>di</strong><br />

rifiuto (2%)<br />

Verifica <strong>di</strong> una me<strong>di</strong>a - 2<br />

V.atteso - z * SE<br />

Regione <strong>di</strong><br />

accettazione


Verifica <strong>di</strong> una me<strong>di</strong>a - 3<br />

• V.atteso: 7<br />

• SE: 1,8 / radq (36) = 0,3<br />

• Dalla tavola <strong>della</strong> <strong>di</strong>stribuzione normale,<br />

ricaviamo che:<br />

area 0,48 z = - 2,05<br />

limite <strong>di</strong> confidenza: 7 – 2,05 * 0,3 = 6,385


Verifica <strong>di</strong> una me<strong>di</strong>a - 4<br />

• Ci sono solo 2 possibilità su 100 che un<br />

campione <strong>di</strong> ampiezza pari a 36 fornisca un<br />

valore me<strong>di</strong>o inferiore a 6,385<br />

• Di conseguenza, H 0 è da rifiutare<br />

• È molto probabile che l’agenzia sia stata<br />

imbrogliata: la <strong>di</strong>fferenza tra la me<strong>di</strong>a<br />

campionaria e la me<strong>di</strong>a pubblicizzata è<br />

significativa


Verifica <strong>di</strong> una me<strong>di</strong>a - 5<br />

• Quando non si conoscono determinati parametri<br />

<strong>della</strong> popolazione (in modo specifico, σ) …<br />

… si utilizzano i valori campionari noti (è quanto si è<br />

fatto in questo esempio); tale impostazione è però<br />

corretta solo se il campione ha una ampiezza<br />

superiore a 30<br />

• Se il campione avesse avuto <strong>di</strong>mensioni più<br />

limitate, si sarebbe impiegata la <strong>di</strong>stribuzione <strong>di</strong><br />

Student (come nell’esempio successivo)


Verifica <strong>di</strong> una me<strong>di</strong>a - 6<br />

• Per la rilevazione <strong>della</strong> concentrazione <strong>di</strong><br />

monossido <strong>di</strong> carbonio (Co), lo strumento da<br />

utilizzare (lo spettrofotometro) deve essere<br />

tarato ogni giorno, su un gas a<br />

concentrazione nota (70 ppm, ossia parti <strong>di</strong><br />

volume per milione)<br />

• Ogni giorno si effettuano alcune misurazioni<br />

su questo gas<br />

• La SD <strong>di</strong> queste misurazioni non è nota, in<br />

quanto cambia ogni giorno<br />

• Questi i valori <strong>di</strong> 5 rilevazioni in un<br />

determinato giorno: 78, 83, 68, 72, 88<br />

• La me<strong>di</strong>a è 77,8, la deviazione standard è 7,22


Verifica <strong>di</strong> una me<strong>di</strong>a - 7<br />

• Ipotesi nulla: errore sistematico pari a 0<br />

• Ipotesi alternativa: errore sistematico <strong>di</strong>verso da<br />

0<br />

(test a due code)<br />

• Si decide un livello <strong>di</strong> significatività pari a 0,05<br />

• I gra<strong>di</strong> <strong>di</strong> libertà sono 4<br />

• V.atteso: 70<br />

• SE: 3,61<br />

• Lo SE è stato calcolato utilizzando la stima<br />

corretta <strong>della</strong> deviazione standard <strong>della</strong><br />

popolazione (8,07), data la ridotta numerosità<br />

campionaria


Verifica <strong>di</strong> una me<strong>di</strong>a - 8<br />

• Dalla tavola <strong>della</strong> <strong>di</strong>stribuzione t <strong>di</strong> Student<br />

(essendo il campione <strong>di</strong> ridotte <strong>di</strong>mensioni),<br />

ricaviamo che un’area pari a 0,975<br />

corrisponde a t = 2,78<br />

• I limiti <strong>di</strong> confidenza sono quin<strong>di</strong>:<br />

70 - 2,78 * 3,61 = 60,0<br />

70 + 2,78 * 3,61 = 80,0<br />

• Di conseguenza, H 0 non è da rifiutare


Verifica <strong>di</strong> una proporzione - 1<br />

• Secondo la letteratura, gli esemplari <strong>di</strong> testudo<br />

marginata che a un determinato stimolo emettono<br />

soffi rumorosi come reazione (per paura) sono<br />

il 25% del totale.<br />

• A uno stimolo leggermente <strong>di</strong>verso, su un<br />

campione <strong>di</strong> 1.200 esemplari osservati, risulta<br />

che il 23% emette soffi rumorosi<br />

• Si può affermare che la % <strong>di</strong> esemplari è <strong>di</strong>versa<br />

rispetto a quella in<strong>di</strong>cata dalla letteratura?<br />

(si decide un livello <strong>di</strong> significatività pari a 0,05)<br />

H 0 : p = 0,25<br />

H 1 : p ≠ 0,25<br />

(test a due code)


Verifica <strong>di</strong> una proporzione - 2<br />

Regione <strong>di</strong><br />

rifiuto (2,5%)<br />

V.att. - z * SE<br />

Regione <strong>di</strong><br />

accettazione<br />

V.att. + z * SE<br />

Regione <strong>di</strong> rifiuto<br />

(2,5%)


Verifica <strong>di</strong> una proporzione - 3<br />

• V.att.: 0,25<br />

• SE: radq (0,25 * 0,75 / 1200) = 0,0125<br />

• Dalla tavola <strong>della</strong> <strong>di</strong>stribuzione normale,<br />

ricaviamo che:<br />

area 0,475 z = - 1,96 e z = + 1,96<br />

limite inf. <strong>di</strong> confidenza: 0,25 - 1,96 * 0,0125 =<br />

0,2255<br />

limite sup. <strong>di</strong> confidenza: 0,25 + 1,96 * 0,0125<br />

= 0,2745


Verifica <strong>di</strong> una proporzione - 4<br />

• La % campionaria è compresa nella<br />

regione <strong>di</strong> accettazione<br />

• Di conseguenza, H 0 non è da rifiutare<br />

(<strong>di</strong>fferenza non significativa)


Verifica <strong>di</strong> una <strong>di</strong>fferenza tra me<strong>di</strong>e - 1<br />

• È stata realizzata una indagine su un elevato numero<br />

<strong>di</strong> aree citta<strong>di</strong>ne con <strong>di</strong>fferente <strong>di</strong>mensione<br />

demografica, relativamente al numero <strong>di</strong> borseggi<br />

avvenuti nell’ultimo anno.<br />

• In particolare, si vuole effettuare un test sulla<br />

<strong>di</strong>fferenza tra la me<strong>di</strong>a dei borseggi avvenuti in un<br />

campione <strong>di</strong> aree nell’ambito <strong>di</strong> centri con 25.000-<br />

30.000 residenti (PRIMO CAMPIONE), e la me<strong>di</strong>a dei<br />

borseggi avvenuti in un campione <strong>di</strong> aree nell’ambito<br />

<strong>di</strong> centri con 5.000-10.000 residenti (SECONDO<br />

CAMPIONE).<br />

• Il primo campione ha me<strong>di</strong>a pari a 1,10 borseggi (su<br />

100 residenti) e s pari a 0,60 (n è pari a 400)<br />

• Il secondo campione ha me<strong>di</strong>a pari a 0,90 e s pari a<br />

0,40 (n è pari a 100)


Verifica <strong>di</strong> una <strong>di</strong>fferenza tra me<strong>di</strong>e - 2<br />

• Si vuole verificare se effettivamente la me<strong>di</strong>a<br />

del primo campione è <strong>di</strong>versa dalla me<strong>di</strong>a del<br />

secondo campione<br />

• L’ipotesi nulla afferma quin<strong>di</strong> che le due<br />

me<strong>di</strong>e sono uguali, mentre secondo l’ipotesi<br />

alternativa la me<strong>di</strong>a del primo campione è<br />

<strong>di</strong>fferente dalla me<strong>di</strong>a del secondo campione.<br />

• Il test è a due code.<br />

(si decide un livello <strong>di</strong> significatività pari a 0,05)


Verifica <strong>di</strong> una <strong>di</strong>fferenza tra me<strong>di</strong>e - 3<br />

• Basandoci sull’ipotesi nulla, secondo la quale le<br />

due me<strong>di</strong>a sono uguali, il valore atteso <strong>della</strong><br />

<strong>di</strong>fferenza è pari a zero. Occorre confrontare la<br />

<strong>di</strong>fferenza osservata (ossia: 1,10 – 0,90 = 0,20) con<br />

questo valore atteso.<br />

• Per ottenere lo SE <strong>della</strong> <strong>di</strong>fferenza, non si possono<br />

sommare i due SE (0,03 + 0,04 = 0,07), in quanto si<br />

trascurerebbe l’eventualità che i due SE si elidano a<br />

vicenda.<br />

• Lo SE <strong>della</strong> <strong>di</strong>fferenza è pari a<br />

s 2 1 s 2 2<br />

Radq [——— + ———]<br />

n1 n2<br />

ossia 0,05


Verifica <strong>di</strong> una <strong>di</strong>fferenza tra me<strong>di</strong>e - 4<br />

• Dalla tavola <strong>della</strong> <strong>di</strong>stribuzione normale, ricaviamo<br />

che:<br />

area 0,475 z = - 1,96 e z = + 1,96<br />

limiti <strong>di</strong> confidenza:<br />

0 - 1,96 * 0,05 = - 0,098<br />

0 + 1,96 * 0,05 = + 0,098<br />

• Ci sono solo 5 possibilità su 100 che due campioni<br />

con queste caratteristiche forniscano una <strong>di</strong>fferenza<br />

tra i valori me<strong>di</strong> esterni al range compreso tra – 0,098<br />

e + 0,098<br />

• Di conseguenza, H 0 è da rifiutare


Verifica <strong>di</strong> una <strong>di</strong>fferenza tra<br />

proporzioni - 1<br />

• Si vuole confrontare l’opinione <strong>di</strong> due campioni <strong>di</strong> citta<strong>di</strong>ni,<br />

<strong>di</strong> strato sociale <strong>di</strong>fferente, relativamente all’atteggiamento<br />

da assumere nei confronti delle droghe.<br />

• In particolare, si chiede ai citta<strong>di</strong>ni quale delle seguenti tre<br />

posizioni, fra tutte quelle antiproibizioniste, sarebbe più<br />

opportuna:<br />

– Liberalizzazione (completa rimozione delle norme che<br />

vietano la ven<strong>di</strong>ta, l’acquisto, il consumo)<br />

– Legalizzazione (regolazione delle con<strong>di</strong>zioni <strong>di</strong> acquisto<br />

e <strong>di</strong> consumo)<br />

– Depenalizzazione (rimozione delle sanzioni legate alla<br />

domanda)<br />

• Entrambi i campioni sono estratti casualmente e sono<br />

composti da 150 citta<strong>di</strong>ni.


Verifica <strong>di</strong> una <strong>di</strong>fferenza tra<br />

proporzioni - 2<br />

• L’ipotesi <strong>della</strong> legalizzazione ottiene la preferenza<br />

<strong>di</strong> una quota del 60% <strong>di</strong> citta<strong>di</strong>ni intervistati nel<br />

campione A, e <strong>di</strong> una quota del 56% <strong>di</strong> citta<strong>di</strong>ni<br />

nel campione B<br />

• La superiorità riscontrata nel campione A è<br />

effettiva, con un livello <strong>di</strong> significatività pari a<br />

0,03, o è attribuibile a errori casuali?


Verifica <strong>di</strong> una <strong>di</strong>fferenza tra<br />

proporzioni - 3<br />

• Come sempre, si parte dall’ipotesi nulla, ossia<br />

che non esistano reali <strong>di</strong>fferenze tra i due<br />

campioni<br />

• In questo caso, l’ipotesi nulla corrisponde a<br />

sostenere che le due proporzioni sono uguali<br />

• All’ipotesi nulla si contrappone l’ipotesi<br />

alternativa: il campione A mostra una<br />

superiorità significativa, come quota <strong>di</strong><br />

favorevoli alla legalizzazione<br />

• Il test è a una coda


Verifica <strong>di</strong> una <strong>di</strong>fferenza tra<br />

proporzioni - 4<br />

• Basandoci sull’ipotesi nulla, secondo la quale le due<br />

percentuali sono uguali, il valore atteso <strong>della</strong><br />

<strong>di</strong>fferenza è pari a zero. Occorre confrontare la<br />

<strong>di</strong>fferenza osservata (ossia: 0,6 – 0,56 = 0,04) con<br />

questo valore atteso.<br />

• Per ottenere lo SE <strong>della</strong> <strong>di</strong>fferenza, utilizziamo la<br />

formula:<br />

p1* (1-p1) p2 * (1-p2)<br />

Radq [————— + —————]<br />

n1 n2<br />

In questo caso: 0,0569


Verifica <strong>di</strong> una <strong>di</strong>fferenza tra<br />

proporzioni - 5<br />

• Dalla tavola <strong>della</strong> <strong>di</strong>stribuzione normale, ricaviamo<br />

che:<br />

area 0,47 z = 1,88<br />

limite <strong>di</strong> confidenza:<br />

0 + 1,88 * 0,0569 = 0,107<br />

• Dal momento che la <strong>di</strong>fferenza osservata tra le due<br />

proporzioni (0,04) è inferiore al suddetto limite <strong>di</strong><br />

confidenza, H 0 non è da rifiutare

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!