12.07.2015 Views

manuale di tecniche di indagine - Istat

manuale di tecniche di indagine - Istat

manuale di tecniche di indagine - Istat

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>manuale</strong> <strong>di</strong> <strong>tecniche</strong><strong>di</strong> <strong>indagine</strong>6 - il sistema <strong>di</strong> controllo dellaqualità dei datiistituto nazionale<strong>di</strong> statisticanote e relazionianno 1989 D. 1


La preparazione del Fascicolo e il coor<strong>di</strong>namento redazionale dei testi sono stati curatida Mauro Masselli.Autore:- dei Capitoli: 1, 2, 3, 5, 6, 8, Mauro Masselli4 Fernanda Panizon7 Marina Signore~ell' Appen<strong>di</strong>ce 2 del Capitolo 2Giovanna D'Angiolini- dell'Appen<strong>di</strong>ce 1 del Capitolo 5Domenico SabatiniE<strong>di</strong>ting <strong>di</strong>Mario Nanni e Clau<strong>di</strong>o Antonio pajerPRESENTAZIONEINDICECAPITOLO 1. LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DEL·L'INDAGINE1. Introduzione ........................•.•.......•......•........•.•.•..•..Pagina11132. La qualità dell'informazione statistica .•.•..•...........•...••.•••.••..••.. 13L'lstat autorizza la riproduzione parziale o totale del contenuto del presente volumecon la citazione della fonte.3. L'errore totale ..................•.....•.......•..•...........•..••.....• 16Distorsioni ed errori variabili - L'errore campionario e non calJ1pionarlo - La misuradell'errore totale4. L'<strong>indagine</strong> come processo <strong>di</strong> produzione .......• ;.......................... 235. Gli errori non campionari ..•....•• ~ . • . . • • . . • . . . • . . . . . • • . . • . • . • . • • . . • . . • • . • 276. Gli effetti dell'errore non campionario sull'affidabilità delle stime •.. _ . . . . . . • . . 31Presenza della sola <strong>di</strong>storsione· Effetti dell'aumento della varlanza • Effetti con·giunti .7. Il sistema <strong>di</strong> controllo ...•...•.•.••...••.••........••••...••••..•.•. '.' .. _. 36La prevenzione dell'errote - La correzione dell'errore - La stima dell'erroreSupplemento all'Annuario Statistico Italiano8. L'archivio <strong>di</strong> qualità ......•...................••...............•...••••.. 40Riferimenti Bibliografici ... '- _ . . . . . . . . . . . . . . .. . • . . . . . • . . . . .. . . .. . . . . .. • . . ..• . . • • • 43CAPITOLO 2. LA PROGETTAZIONE DELL'INDAGINE1. La fase <strong>di</strong> progettazione ....•..............•..•....••.•.•............•••• 452. La progettazione concettuale .............•................••.•.•.....•••. 48ISSN: 0035·9856abete grafica s.p.a .. Roma· Contratto n. 14762 del 6-8·1988 . copie 3.0003. La redazione del questionario •.... . . . . • • . . . . . . . • . . .. . • . . . . . • • • • . . . . . . . . . . • 49Le variabili <strong>di</strong> stu<strong>di</strong>o -I co<strong>di</strong>ci identificativi- Le variabili <strong>di</strong> controllo dell'intervista- I quesiti retrospettivi· Le risposte proxy


6 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATIINDICE7Pagina4. Il controllo del questionario .............................................. 575.6.La progettazione concettuale - La <strong>di</strong>agrammazlone del questionario - /I giu<strong>di</strong>ziodegli esperti e le <strong>tecniche</strong> <strong>di</strong> laboratorio - /I pre-test del questionario - /I test <strong>di</strong>alternativeL'Indagine pilota ....................................................... .I modelli ausiliari ....................................................... .Appen<strong>di</strong>ce:1. Esempi <strong>di</strong> <strong>di</strong>agrammazione del questionario ... " ........................... .2. Il sistema dei co<strong>di</strong>ci identificativi ......................................... .616264663.4.5.6./Prevenzione dell'errore <strong>di</strong> registrazioneCampi fissi e campi a serrareControllo amministrativo e statistico. L'errore totale - I record erratiIl controllo a campione ..................................................L'effetto «cluster" - Se l'errore è casuale - Se l'errore è sistematicoDefinizione degli standard <strong>di</strong> qualità ...................................... .Byte errati - Record errati - Byte e record erratiPagina117119121124Riferimenti Bibliografici ...................................................... .777.Piani <strong>di</strong> campionamento singolo per attributi ............. : ................ .127CAPITOLO 3. LA RILEVAZIONE SUL CAMPO1.2.La fase <strong>di</strong> rilevazione sul campo ......................................... .Gli errori <strong>di</strong> rilevazione ed i loro effetti .................................... .Gli errori <strong>di</strong> selezione e <strong>di</strong> lista - Le mancate risposte totali - Le mancate risposteparziali - Gli errori <strong>di</strong> co<strong>di</strong>fica - Gli errori <strong>di</strong> identificazione79798.9.Metodo dell'approssimazione binomiale -Metodo delle tavole Mi/itary Standard 105DTest sequenziali ........................................................ .Analisi dei risultati campionari ........................................... .Analisi statistica degli errori - Test preliminari10. Meto<strong>di</strong> per la ricerca degli errori sistematici1351371383.4.La prevenzione degli errori .............................................. .Controllo ed assistenza agli organi periferici - La pubblicizzazione dell'<strong>indagine</strong>Il controllo degli errori .................................................. .La stima dell'errore totale <strong>di</strong> misura - La stima dell'effetto proxy e dell'effetto ricordo- Gli in<strong>di</strong>catori <strong>di</strong> qualità - Gli in<strong>di</strong>catori dell'errore <strong>di</strong> lista e <strong>di</strong> mancata rispostatotale - La stima del/a copertura del censimento -Gli in<strong>di</strong>catori <strong>di</strong> mancatarisposta parziale - Gli in<strong>di</strong>catori dell'intervista - Gli in<strong>di</strong>catori dell'identificazionedelle unità - Le caratteristiche strutturali6666Appen<strong>di</strong>ce:1. Un metodo per la ricerca degli errori sistematici sui record2. Test sulla matrice <strong>di</strong> transizione .......................................... .3. Esempio sul piani <strong>di</strong> campionamento semplice per attributi .................. .Riferimenti BibliograficiCAPITOLO 5. LA REVISIONE1391401441475. La correzione degli errori ..........................................•...... 108Le mancate risposte parziali - Le mancate risposte totali -Gli errori <strong>di</strong> identificazione1.2.La fase <strong>di</strong> revisione .................................................... .La procedura <strong>di</strong> controllo e correzione .................................... .149150Riferimenti Bibliografici ...................................................... . 1133.Le unità ............................................................... .152CAPITOLO 4. LA REGISTRAZIONE1. Introduzione 115I tipi <strong>di</strong> errore4.5.I legami tra le unità .................................................... .I controlli quantitativi ....................................................Gli strati, i comuni, le aree, i rileva tori e I modelli - Le unità <strong>di</strong> analisi -/I calcolo <strong>di</strong> in<strong>di</strong>catori1521542. La per<strong>di</strong>ta <strong>di</strong> informazione dovuta all'errore <strong>di</strong> registrazione ................. . 1156.I controlli qualitativi .................................................... .159Incidenza dell'errore - Errori sui co<strong>di</strong>ci identificativiLa verifica delle informazioni raccolte - L'errore sistematico


8IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATIINDICE 97.8.Paginai programmi <strong>di</strong> compatibilità e correzione ••.•.•...•..•..•.•••..•...•...•..• 164Le regole <strong>di</strong> compatibilità· I criteri <strong>di</strong> correzione· I criteri deterministici· I criterida donatore· I criteri <strong>di</strong> regresslone • Il test sul piano <strong>di</strong> compatibilità· Le infor·mazioni desumibili dal/"elaborazione del piano <strong>di</strong> compatibilitàIl controllo dei legami tra unità ........................................... 186Appen<strong>di</strong>ce:1. Programmi generalizzati per compatibilità e correzione automatica........ ... .. 1882. Analisi delle prestazioni <strong>di</strong> un programma <strong>di</strong> compatibilità. . . . . . . . . . . . . . . . . . . . 1923. Analisi degli effetti <strong>di</strong> un piano <strong>di</strong> compatibilità ......•... . • . . . . . . . . . . . . . . . . . • 1954. Schemi <strong>di</strong> tavole <strong>di</strong> controllo per la fase <strong>di</strong> revisione ......................... 200Riferimenti Bibliografici ......................•.•.........•.................... 2036.PaginaIl metodo della compenetrazione del campione ....... . . . . . . . . . . . . . . . . . . . . . . 247Appen<strong>di</strong>ce:Stima della varianza totale· Stima della varianza campionaria· Stima della com.ponente correlata· Problemi operativi1. Applicazione del metodo della compenetrazione del campione all'<strong>indagine</strong> <strong>Istat</strong> su.gli sport e vacanze ....................................................... 254Riferimenti Bibliografici ....................................................... 259CAPITOLO 8. L'ARCHIVIO DI QUALITÀ1. Il patrimonio informativo dell'<strong>indagine</strong> ..................................... 263CAPITOLO 6. L'ELABORAZIONE FINALE E L'ANALISI DEI RISULTATI1. I controlli nella fase <strong>di</strong> elaborazione e <strong>di</strong> validazione dei risultati ..•........•..I controlli <strong>di</strong> quadra tura delle tavole ·11 controllo della singola tavola ·11 controllotra tavole· La selezione delle tavole· La validazlone de; risultati· La descrizionesintetica del piano <strong>di</strong> tabulazione2052. L'Archivio <strong>di</strong> qualità .................................................•... 264L'archivio delle variabili· L'archivio della rete· L'archivio delle fasi· L'analisi del.l'archivioAppen<strong>di</strong>ce:1. Il sistema <strong>di</strong> controllo dell'<strong>indagine</strong> sulla salute 1983 ... .. .. . ... .. .. . .... .. ... 268Riferimenti Bibliografici .......•............................... ,............... 213Riferimenti Bibliografici o •••••••••••• o •••••••• 0 ••••••••• 0 ••••••••••••••••••••••271CAPITOLO 7. LA STIMA DELL'ERRORE GLOBALE DI MISURA1. Descrizione dell'errore <strong>di</strong> misura. . . ... .. . ...... . ........ . . . ... .... . .. ..... 2152. Quadro concettuale <strong>di</strong> riferimento .................................•...•... 218Valore vero in<strong>di</strong>viduale· Valore <strong>di</strong> risposta atteso· Con<strong>di</strong>zioni essenziali <strong>di</strong> un'in·dagine . Errore <strong>di</strong> misura in<strong>di</strong>viduale3. Un modello matematico per lo stu<strong>di</strong>o degli errori <strong>di</strong> misura. . . . . . . . . . . . . .. . . . . 221Componenti dell'errore <strong>di</strong> misura in<strong>di</strong>viduale· Effetti degli errori <strong>di</strong> misura sullastima della me<strong>di</strong>a <strong>di</strong> una popolazione· Effetti <strong>di</strong> una <strong>di</strong>storsione costante· Effetti<strong>di</strong> errori <strong>di</strong> misura incorrelati • Effetti <strong>di</strong> errori <strong>di</strong> misura correlati .4. Meto<strong>di</strong> <strong>di</strong> stima degli errori <strong>di</strong> misura ....................... . . . . . . . . . . . . . . . 2355. Il metodo della reintervista ............................................... 237Stima della <strong>di</strong>storsione· Stima della varianza <strong>di</strong> risposta totale· Stima della va·rianza <strong>di</strong> risposta semplice· Stima della componente correlata· Stima della va·rianza campionaria· Stima dell"in<strong>di</strong>ce <strong>di</strong> inconsistenza· Problemi operativi


PRESENTAZIONEIl Manuale <strong>di</strong> <strong>tecniche</strong> <strong>di</strong> <strong>indagine</strong> la cui preparazione è stata curata dal RepartoStu<strong>di</strong> dell'Istituto, si configura come gUida per la razlonalizzazione delle operazioni<strong>di</strong> rilevazione ed è stato pure concepito quale strumento <strong>di</strong>dattico da utilizzareai fini della formazione dei funzionari dell'lstat. Poiché nell'effettuazione <strong>di</strong>indagini statistiche sono Impegnati molti altri organismi pubblici e privati, si ritieneche esso possa costituire uno strumento' utile anche per l'attività <strong>di</strong> questi organismi,In particolare <strong>di</strong> quelli che hanno un qualche ruolo nel sistema informativosocio-economico del Paese.Il Manuale prende in esame i vari segmenti del ciclo produttivo nei quali si sviluppanormalmente ogni <strong>indagine</strong> statistica cogliendo aspetti che vanno dalla costruzionedel <strong>di</strong>segno campionario al controllo della qualità dei dati, dall'analisidelle caratteristiche delle varie <strong>tecniche</strong> <strong>di</strong> <strong>indagine</strong> alla definizione <strong>di</strong> criteristandar<strong>di</strong>zzatiper la presentazione dei risultati. Pensato inizialmente per le indaginicondotte con il metodo del campione, in particolare per quelle sulle famiglie, nellasua definitiva articolazione esso detta norme valide per fasi <strong>di</strong> lavoro riscontrabilinelle rilevazioni totali ed allarga pertanto il suo campo <strong>di</strong> applicazione che finisceper comprendere le generalità delle indagini.~ sua impostazione riflette il desiderio <strong>di</strong> colmare il <strong>di</strong>vario fra il libro <strong>di</strong> testoed il <strong>manuale</strong> operativo. Se da un lato infatti non si rinuncia al rigore della formalizzazionee si introducono spunti <strong>di</strong> innQvazione sul piano metodologico, dall'altrosi tengono ben presenti le esigenze del lavoro sul campo e risulta quin<strong>di</strong> ampiolo spazio riservato alle esemplificazioni.Il Manuale consta dei seguenti fascicoli:1. Pianificazione della produzione <strong>di</strong> dati2. Il questionario: progettazione, redazione, verifica3. Tecniche <strong>di</strong> sommlnistrazlone del questionario4. Techine <strong>di</strong> campionamento: teoria e pratica5. Tecniche <strong>di</strong> stima della varianza campionaria6. Il sistema <strong>di</strong> controllo della qualità dei dati7. Le rappresentazioni grafiche <strong>di</strong> dati statisticiIn ogni caso va precisato che il Manuale non è da considerarsi completato inquanto è previsto che ai fascicoli programmati se ne aggiungano altri mano a manoche l'attività <strong>di</strong> ricerca avrà portato a termine l'esplorazione <strong>di</strong> aspetti per orasolo in<strong>di</strong>viduati.


14 li. SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP.'1 • LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DELL'INDAGINE15III) i metadàtl.ovvero le informazioni <strong>di</strong> carattere qualltativo eloquantitativo riguardanti le <strong>di</strong>verse operazioni effettuate.Il loro complesso costituisce l'informazlone statistica derivantedauna rilevazione; ed è per tale ragione (e per evitare qualsiaSiambiguità) che è preferibile fare riferimento alla qualità dell'informazione.piuttosto che alta qualità del dati.In questa ottica, è necessario aSSUmere una definizione <strong>di</strong>qualità che si. adatti a ciascuno dei suddetti livelli dell'informaziolleprodottà:Nell'accezione più ampia. si definisce qualità <strong>di</strong> un prodottol'adeguatezza del medesimo all'uso per il quale è slato realizzato,ovvero la capacità <strong>di</strong> un prodotto <strong>di</strong> soddfsfare le proprietàgarantite dal produttore (0, Arkhipoff. 1986).In un processo <strong>di</strong> produzione manifatturiera, le proprietà garantiteimplicitamente od esplicitamente dElI produttore possonoessere sud<strong>di</strong>vise in due insiemi:a) garanzie <strong>di</strong> progettazione ovvero i requisiti del bene prodotto(ad esempio, forma, <strong>di</strong>mensione, potenza e durata me<strong>di</strong>a <strong>di</strong>vita <strong>di</strong>. una batteria elettrica);b) garanzie <strong>di</strong> tolleranza. ovvero i limiti entro cui determinati requisitipossono variare (ad esempio, la durata minima <strong>di</strong> vitagarantita per una batteria elettrica).Analogamente. possiamo definire e specificare le proprietà<strong>di</strong> qualità <strong>di</strong> unà <strong>indagine</strong> statistica, in riferimento sia alle proprietàcomplessive dell'<strong>indagine</strong>, sia all'accuratezza dei risultatiforniti. In particolare. assumeremo che le proprietà <strong>di</strong> proget-. tazione sono quelle che si riferiscono alla capacità dell'<strong>indagine</strong><strong>di</strong> sod<strong>di</strong>sfare la domanda proveniente dall'utenza, mentre quelle<strong>di</strong> tolleranza riguardano il processo <strong>di</strong> misurazione del fenomenoin stu<strong>di</strong>o.Cosicché possiamo identificare come garanzie <strong>di</strong> progettazione:a) la tèmpestlvità,b) la ri/evanza teorica,c) la ri/evanza effettiva,d) la trasparenza.e quali garanzia <strong>di</strong> tolleranza,e) la precisione campionaria.f) la precisione non-campionaria.La rilevanza teorica denota il raggiungimento degli obiettiviprefissati.ovvero l'adeguatezza dell'informazione prodotta allenecessità informative. mentre la rilevanza effettiva fa riferimentoa quanto dell'informazione prodotta viene effettivamente utilizzato;essa<strong>di</strong>pende dalle modalità <strong>di</strong> elaborazione e <strong>di</strong> <strong>di</strong>ffusionedei dati. La. trasparenza in<strong>di</strong>ca la possibilità, per l' utente.<strong>di</strong> accedere a tutte le informazioni relative agH strumenti d'<strong>indagine</strong>utilizzati (definizioni, classificazioni, rete <strong>di</strong> rilevazione. qua,stionario, piano ed errori <strong>di</strong> campionamento, in<strong>di</strong>catori <strong>di</strong> qualitàetc.). necessarie ad un uso corretto dei dati. La tempestivitàsi riferisce al periodo <strong>di</strong> tempo che intercorre tra la nascita delleesigenze informative e la <strong>di</strong>sponibilità dei risultati; minore è talelasso <strong>di</strong> tempo. maggiore è la vali<strong>di</strong>tà e l'utilità delle informazioniprodotte.La tolleranza riguarda la precisione dei risultati; la precisionepuò essere definita in termini <strong>di</strong> <strong>di</strong>stanza tra il valore vero ela stima ottenuta. Tale <strong>di</strong>fferenza può essere dovutaI) all'uso della tecnica campionaria, ovvero al fatto che le stimesono calcolate solo su una parte delle unità costituentil'universo indagato, oppure .Il) alle <strong>di</strong>screpanze,che si verificano nella pratica. tra l'<strong>indagine</strong>ideale e quella reale. cioè tra le operazioni programmatee quelle realizzate.Si possono. quin<strong>di</strong>, caratterizzare le garanzie <strong>di</strong> tolleranza intermini <strong>di</strong> precisione campionaria e <strong>di</strong> precisione non campionaria;alcuni autori definiscono precisione la prima ed accuratezzala seconda.I vari àspetti della qualità, pur logicamente <strong>di</strong>stinti, sono <strong>di</strong>fatto inter<strong>di</strong>pendenti; ad esempiO. controlli minuziosi sulla rile,vazione e sulla produzione <strong>di</strong> dati incidono sulla tempestività del­I·informazione. Di fatto, gli aspetti tecnici della rilevazione (le garanzie<strong>di</strong> tolleranza) sono, in buona misura, subor<strong>di</strong>nati alla politicadell'informazione (le garanzie <strong>di</strong> progettazione) ed all'organizzazionedel lavoro stabilite dal produttore <strong>di</strong> dati statistici.Il presente volume si limiterà a trattare i primi aspetti. ed inparticolare quelli connessi alla prevenzione, misura e correzionedegU errori non campionari, lasciando ad altre pubblicazionil'approfon<strong>di</strong>mento dei temi connessi ai secon<strong>di</strong>.Misurare la qualità complessiva <strong>di</strong> una .<strong>indagine</strong> non è un compitoagevole. Teoricamente, la qualità può essere definitiva me<strong>di</strong>antevn vettore <strong>di</strong> garanzie ex ante G = (a .... f), cui è associato,ex POSt, un vettore delle realizzazioni G' = (a' ... .f.), e da un vettore<strong>di</strong> qualità M = m(G-G') che sintetizza le <strong>di</strong>fferenze riscontrate.lnpratica, tuttavia, non è possibile quantificare le componenti


16 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 1 - LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DELL'INDAGINE 17dei suddetti vettori, cosicché la valutazione si basa su un insieme<strong>di</strong> in<strong>di</strong>catori, quantitativi e qualitativi, ciascuno dei qualt riferitoad un solo aspetto della qualità.Inoltre, il richiamo a concetti quali produttore, prodotto edutilizzatore, nella definizione <strong>di</strong> qualità, fàperdere alla stessa o~nipossibile carattere <strong>di</strong> assolutezza, evidenziandone, al contrano,gli elementi <strong>di</strong> relatività: le garanzie non vengono determinateda standard teorici, bensì sono fissate in funzione dei costi/beneficiderivanti dall'informazione prodotta da una determinata<strong>indagine</strong>.3_ L'errore totaleNel caso delle garanzie <strong>di</strong> tolleranza, la qualità assume il significato<strong>di</strong> precisione che può essere espressa come funzioneinversa dell'errore statistico; tanto minore è l'errore, tanto maggioreè la precisione dei risultati ottenuti.-Poiché l'errore è definito come <strong>di</strong>fferenza tra valore osservatoe valore vero, il concetto <strong>di</strong> precisione si fonda sull'esistenza<strong>di</strong> quest'ultimo; il valore vero <strong>di</strong> una variabile può essere semprepostulato, ma il significato che gli si attribuisce determinal'estensione del campo degli errori non campionari_Per tal une variabili, infatti, (Hansen Hurwitz & Madow, 1953)è possibile definire precisamente il valore vero (ad esempio il sesso<strong>di</strong> una persona), mentre per altre lo si può in<strong>di</strong>viduare in relazioneagli obiettivi dell'<strong>indagine</strong> (ad esempio la riduzione ad unascala <strong>di</strong>screta <strong>di</strong> misurazioni <strong>di</strong> una variabile continua); quandonon si verificano tali situazioni (basti pensare a variabili attitu<strong>di</strong>nalio <strong>di</strong> opinione), è ancora possibile definire il valore vero,ma solo come risultante del complesso delle operazioni necessarieall'effettuazione dell'<strong>indagine</strong>. Queste ultime, le con<strong>di</strong>zionigenerali <strong>di</strong> svolgimento dell'<strong>indagine</strong>, riguardano tanto l'eventuale<strong>di</strong>segno campionario (criteri <strong>di</strong> selezione delle unità campionee stimatori utilizzati) che il trattamento delle informazionirilevate (definiZioni, classificazioni, norme <strong>di</strong> rilevazione, <strong>di</strong> co<strong>di</strong>fica,<strong>di</strong> revisione e <strong>di</strong> elaborazione). .Una definizione puramente operativa, oltre a rendere <strong>di</strong>fficilel'attribuzione ad una variabile <strong>di</strong> un unico significato (questi, infatti,varierebbe a seconda delle con<strong>di</strong>zioni generali) esclude dall'analisigran parte degli errori, fino al caso limite in cui il valore osservatocoincide con quello vero solo per effetto della definizione.AI contrario, considerare il valore vero in<strong>di</strong>pendente dalle con<strong>di</strong>zionigenerali, può portare ad estendere oltre misura, rispettoagli obiettivi, il concetto <strong>di</strong> errore; ad esempio, dovremmo con-siderare errato un valore <strong>di</strong>screto, relativo ad una variabile continua,anche se l'approssimazione è adeguata per gli scopi dell'<strong>indagine</strong>.Gli errori sono usualmente classificati in due categorie: <strong>di</strong>storsionied errori variabili. Per poterli caratterizzare, e quin<strong>di</strong> formalizzarein un modello, si ipotizza che l'<strong>indagine</strong> sia ripetibilesotto le medesime con<strong>di</strong>zioni generali; in questo caso, si assumeche gli errori variabili sono <strong>di</strong>stribuiti casualmente, con me<strong>di</strong>anulla, e variano in ciascuna delle ipotetiche ripetizioni dell'<strong>indagine</strong>.Le <strong>di</strong>storsioni, invece, sono il risultato <strong>di</strong> fattori sistematici,<strong>di</strong>pendono dalle con<strong>di</strong>zioni generali, sono costanti in tuttele ripetizioni ed hanno uno specifico «segno» rispetto al valorevero; <strong>di</strong>storsioni <strong>di</strong> tipo <strong>di</strong>verso possono presentare segni <strong>di</strong>versie si sommano algebricamente.Gli errori possono verificarsi sia nei microdati, ovvero in unao più delle variabili afferenti alla singola unità statistica, sia nelcalcolo <strong>di</strong> loro aggregazioni, ovvero nelle stime dei parametri dellapopolazione <strong>di</strong> stu<strong>di</strong>o (ad esempio I consumi me<strong>di</strong>'nell'<strong>indagine</strong>sui bilanci <strong>di</strong> famiglia od il totale della popolazione nel censimento).Nel primo caso la <strong>di</strong>screpanza tra il valore della generica variabileYi osservata sulla i-esima unità ed il valore vero VI realmenteposseduto dalla medesima, è imputabile al complesso delleoperazioni <strong>di</strong> rilevazionie e trattamento dei dati (questionario,intervista, co<strong>di</strong>fica, registrazione ed elaborazione dei dati); talierrori vengono definiti non-campionari o <strong>di</strong> misura (in senso lato).Essi si ripercuotono nelle stime (i macrodati), me<strong>di</strong>ante le operazioni<strong>di</strong> aggregazione dei microdati, necessarie al loro calcolo,ovvero me<strong>di</strong>ante la funzione <strong>di</strong> sintesi f(y" Y2' ... Yi ... Y n ) delleinformazioni elementari (me<strong>di</strong>a, frequenze relative ed assoluteetc.). L'operazione <strong>di</strong> aggregazione viene effettuata sulle n unitàrilevate, il cui numero può coincidere (rilevazioni totali) o meno(rilevazioni campionarie) con quello, N, della popolazione. In presenza<strong>di</strong> errori, la stima risulta <strong>di</strong>versa dal valore che si sarebbeottenuto dai valori veri del.le medesime.unità, f(V" V 2 , ... Vi'" V n ).Tuttavia, questa non è l'unica ragione per la quale la stima<strong>di</strong>fferisce dal parametro <strong>di</strong> interesse, g(V" V 2' ... Vi ... V N)' calcolatosulle N unità della popolazione, dove quest'ultimo è statoin<strong>di</strong>cato con il simbolo g(.) per evidenziare che la funzione <strong>di</strong> sintesidei dati osservati, t(.), può anche non coincidere con quelladel parametro (ad esempio lo stimatore rapporto utilizzato perla stima totale).Distorsioni ed errori•• riablllL'error. campionario• non campionario


18 IL SISTEMA 01 CONTROLLO DELLA QUALITÀ DEI DATICAP. 1 • LA QUALITÀ DEI DATI ED IL SISTEMA 01 CONTROLLO DELL'INDAGINE 19Tale <strong>di</strong>fferenza, infatti, può essere generata:I) dall'errore variabile <strong>di</strong> campionamento, dovuto all'utilizzo dellatecnica campionaria, per cui la stima <strong>di</strong>fferisce per effettodel «caso- dal valore vero nella popolazione;Il) dalla d/storslone dél/o stlmatore, ovvero dall'adozione <strong>di</strong> unostimatore non corretto, la cui me<strong>di</strong>a, nell'universo dei campioni,non coincide con il parametro da stimare; formalmenteE [f(.)] ;


20 IL $ISTEMA Dt. CONTROLLO DELLA QUAUTÀ DEI DATICAP. 1 • LA QUAUTÀ DEI DATI ED IL SISTEMA DI CONTRQLLO DELL'INDAGINE 21Sostituendo la (1.2) nella (1.1) si ottiene:(1.3),;Dalla (1.3), possiamo misurare l'errore totale dello stimato rey, me<strong>di</strong>ante una qualsiasi funzione della <strong>di</strong>fferenza {Y:-Y}; usual·mente si ricorre alla ame<strong>di</strong>a quadratica-:ponenti relative al <strong>di</strong>segno <strong>di</strong> campionamento, permangono glieffetti degli errori non campionari.Della (1:5) può essere data una rappresentazione geometri.ca, Figura 1.1, scomponendo l'errore totale me<strong>di</strong>ante la succes·siva speCificazione della parte variabile e della <strong>di</strong>storsione <strong>di</strong>II·velli <strong>di</strong> errore via via pi(J analitici (Kish, 1965; Sln,gh e Chaddur·ray, 1986). Per semptlflcare la rappresentazione, sono stati utl·lizzatl vettori ortogonali, Ipotizzando qUin<strong>di</strong> covarianze nune; valendointrodurreipotesi <strong>di</strong>fferentI; sarà necessario cambiarel'angolo <strong>di</strong> incidenza dei relativi vettorI.MSE(y) = E (y - V):= E [v + b + y* - E(y*) + E(y*) - Yf= E [vY + [y* -'E(y*>Y+ [B+ D]2 + 2 cov(v,y*)= VNe + ve + (B +' O)I +2 cov(v,y*) (1.4)3~ilDISTORSIONEcamPionaria:l~ _no_n-ca_m_pl_on_a_rl_a_~~, ' ìr .Idove con D si è in<strong>di</strong>cata la <strong>di</strong>storsione dovuta allostimatore utl·IIzzato. ' ,.",Nella (1.4) si è quin<strong>di</strong> espresso l'erroretotalEi in funzione de·gli errori variabili non campionario (VNC) e campionario (VC); dena<strong>di</strong>storsione dello stimatore (D) e non campfonaria'(B), della covarianzatra l'errore variabile non campionario e la stima.Se si ipotizzano <strong>di</strong>versi tipi <strong>di</strong> errore, dovuti alle <strong>di</strong>verse ope·razioni dell'<strong>indagine</strong> {Intervista, supervisione, registrazione, re·visione, elaborazione ecc.) e si considera quello dovuto al <strong>di</strong>se·gno <strong>di</strong> campionamento uno <strong>di</strong> tali errori, la (1.4) può essere geoneralizzata nella (1.5):(1.5).. .iO'La (1.5), rappresenta l'errore totale come somma <strong>di</strong> <strong>di</strong>storsioni"varianze e covarianze derivanti dalle <strong>di</strong>fferenti fonti; in partlco·lare, le covarianze che vi appaiono possono essere <strong>di</strong> tipo <strong>di</strong>ver·so:'tra le misurazioni, tra queste ed il livello delle variabili, trale fonti <strong>di</strong> errore etc.'La (1.5) costituisce, in forma del tutto generale, una rappresentazionedell'idea corrente che gli errori generati nelle <strong>di</strong>ver·se fasi si sommano, si elidonq e $i combinano per confluire infi.ne nei risultati finali. Essa è valida sia per indagini campionarieche censuarie; per queste ultime, infatti, pur annullandosi le com-2" ata<strong>di</strong>oFigura 1.1 • Scompoalzione dell'errore totalein genere si può assumere che <strong>di</strong>storsioni ed errori variabilinon campionari siano presenti In tutte le caratteristiche rilevate,:anche se Con peso <strong>di</strong>verso.


22 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 1 • LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DELL'INDAGINE23Le <strong>di</strong>storsioni non campionarie possono essere dovute (Kish,1965) sia al rispondenti, (ovvero valori rilevati e sistematicamenteerrati), sia ai non rispondenti, (ovvero le <strong>di</strong>storsioni indotte d~lIamancata risposta ai queslUo all'intera intervista); le <strong>di</strong>storsionicampionarle possono essere classificate in quelle relative all'uso<strong>di</strong> uno stlmatore non corretto ma consistente ed In quelle dovuteastlmatorl non correttt e non consistenti. Nel primo casola <strong>di</strong>storsione si annulla quando la <strong>di</strong>ménsione del campione èsufficientemente elevata o nel caso dei censimenti (ad esempiolo stimatore rapporto), mentre, nel secondo, permane anche nelcaso <strong>di</strong> Indagini totali (ad esempio la me<strong>di</strong>ana come stimatoredella me<strong>di</strong>a in <strong>di</strong>stribuzioni asimmetriche). In questo modo la <strong>di</strong>storsionedello stimatore dovuta alla <strong>di</strong>mensione dell'<strong>indagine</strong>,viene <strong>di</strong>stinta da quella in<strong>di</strong>pendente dal numero <strong>di</strong> unità rilevate.La (1.5) ha un valore puramente descrittivo ed è stata ottenutasenza far ricorso, esplicitamente, a un modello <strong>di</strong> errore in<strong>di</strong>viduale...Il riferimento ad un tale modello è, invece, necessario peresprimere l'MSE in termini analitici e quin<strong>di</strong> per ottenere gli stimatoridelle varie componenti dell'errore totale; nel Capitolo 7,il modello viene sviluppato con riferimento alla stima della me<strong>di</strong>a(e quin<strong>di</strong> della percentuale e del totale}.Attraverso la speCificazione del modello <strong>di</strong> errore è possibileadattare l'analisi e la stima degli errori, al livello <strong>di</strong> complessitàdesiderato. Ad esempio, se consideriamo un modello in cui l'errore<strong>di</strong> misura è dovuto solamente all'effetto rllevatore-rispondente(ipoteSi sempliflcatrlce, ma reàlistica in quanto le esperienzeeffettuate hanno <strong>di</strong>mostrato che tale fonte è causa <strong>di</strong> granparte degli errori non campionari), è possibile esprimere l'MSEdello stimatore me<strong>di</strong>a in funzione <strong>di</strong> quattro componenti:1) la varianza campiOnaria VCNn, .2) la varlanza semplice <strong>di</strong> risposta VSR/n, ovvero quella dovutaagli errori <strong>di</strong> misura dei singoli in<strong>di</strong>vidui intervistati;3) la varianza correlata <strong>di</strong> risposta (n-1)*VCR/n ovvero l'effettodel rilevatore;4) la <strong>di</strong>storsione non campionaria B.MSE(y) = VCA/n + VSR/n + (n-l).VCR/n + B 2 (1.6)Nella (1.6) non appare la <strong>di</strong>storsione D, dovuta al <strong>di</strong>segno campionario,poiché la me<strong>di</strong>a è uno stimatore corretto; la simbologiautilizzata mette in evidenza che mentre la varlanza campionariae quella semplice <strong>di</strong> risposta <strong>di</strong>pendono dall'ampiezza delcampione, la componente correlata è In<strong>di</strong>fferente a tale parametro,essendo praticamente uguale a 1 il rapporto (n-1)/n nelleindagini <strong>di</strong> me<strong>di</strong>e/gran<strong>di</strong> <strong>di</strong>mensioni.Ciò comporta che aumentando la <strong>di</strong>mensione del campionesi riesce a ridurre l'errore <strong>di</strong> campionamento e quello semplice<strong>di</strong> misura ma non la componente. correlata che rappresenta lagran parte dell'errore non campionario. .'L'MSE(y), od alcune sue componenti, esplicitate in funzionedelle principali fonti <strong>di</strong> errore, possono essere stimati utilizzandoopportllni stimatori e <strong>tecniche</strong> <strong>di</strong> ritevazione (cfr. Capitolo 7).4. L'<strong>indagine</strong> come processo <strong>di</strong> produzioneUna <strong>indagine</strong> statistica puÒ essere assimilata ad un processoproduttivo manifatturiero, in quanto, come questo, è costituitada un insieme <strong>di</strong> fasi ed operazioni interrelate; la produzionefinale consiste nell'informazione statistica, come precedentementedefinita, e la materia prima nell'informazione <strong>di</strong>sponibile pressole unità <strong>di</strong> analisi. Quest'ultima può essere considerata come unflusso produttivo che viene trasformato nelle <strong>di</strong>verse fasi <strong>di</strong> lavorazione.Tale flusso ed i legami logici intercom~nti tra le <strong>di</strong>fferenti operazioni(ad esempio tra la pre<strong>di</strong>sposizione del questionario e delpiano <strong>di</strong> registrazione, tra questo e le procedure <strong>di</strong> compatiblJj~tà e correzione e l'elaborazione finale) definiscono la sequenzalogica e temporale delle fasi.La qualità defl'informazione prodotta <strong>di</strong>pende dal controlloche si riesce ad esercitàre sulle operazioni e, quin<strong>di</strong>, considerarel'<strong>indagine</strong> come processo produttivo, facilita la classificazionee l'indlviduazione degli errori e fornisce una <strong>di</strong>mensione operativaed organizzativa alloro controllo me<strong>di</strong>ante Il collegamentoalle <strong>di</strong>fferenti fasi <strong>di</strong> lavoro.Il processo <strong>di</strong> produzione dell'<strong>indagine</strong> può essere sud<strong>di</strong>visoa vari livelli <strong>di</strong> aggregazione e complessità; nello schema adottatosi è cercato <strong>di</strong> considerare contemporaneamente gli aspettiorganizzatlvi, <strong>di</strong> contenuto, <strong>di</strong> sequenza logica e temporale. Pertanto,si considerano come fasi dell'<strong>indagine</strong>:• la progettazione• la rilevazione• la re.glstrazione su supporto informatico• la revisione e la co<strong>di</strong>fica «centralizzate» del materiale grezzo• l'elaborazione dei dati


24 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 1 • LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DELL'INDAGINE25• la validazione dei risultati• la <strong>di</strong>ffusioneNella fase <strong>di</strong> progettazione, si mette a punto il «<strong>di</strong>segno dell'<strong>indagine</strong>.,ovvero, sulla base delle risorse organizzative e fInanziariee delle conoscenze .. a priori. del fenomeno indagato, si programmanole operazioni inerenti a tutte le successive fasi:I) si definiscono gli scopi, I contenuti Informativi, l'universo <strong>di</strong>stu<strong>di</strong>o, la tecnica e le unità <strong>di</strong> rilevazione, le unità <strong>di</strong> analisie l'eventuale <strong>di</strong>segno campionario;Il) si articolano gli obiettivi nel questionario, nelle definizionie nelle classificazioni~III) vengono assunte tutte le decisioni riguardanti le successivefasi e si approntano i relativi piani <strong>di</strong> lavoro e <strong>di</strong> controllo;IV) si verificano, con limitate indagini sul campo, i principaliaspetti dell'<strong>indagine</strong> e si controlla la coerenza logica del piani<strong>di</strong> lavoro relativi alle successive fasi.Nella fase <strong>di</strong> rilevazlone sono Incluse tutte le operazioni chehanno per oggetto o sono effettuate dalla rete periferica: la selezionee l'istruzione dei rllevatori e dei supervlsori, l'istruzioneed i contatti con gli organi periferici, la pubbliclzzazione localedell'Indagine, la compilazione dei documenti aggiuntivi <strong>di</strong> rilevazione,la selezione delle unità campionarie, l'intervista, la revisionee la co<strong>di</strong>fica effettuate in loco.Il risultato <strong>di</strong> tale fase è costituito dal dati rilevati, o grezzi,generalmente presenti su supporto c,artaceo (II questionario); essi,nella successiva fase <strong>di</strong> registrazione, sono trasferiti su supportoinformatico e <strong>di</strong>ventano quin<strong>di</strong> elaborabill.La fase <strong>di</strong> revisione del materiale, consiste nella verifica, quantitativae qualitativa, e nell'eventuale correzione dei dati grezzi;la sua posiZione nel processo produttivo e l'estensione delle operazioniad essa afferenti, sono strettamente connesse all'orga·nizzazione del lavoro e alle risorse che supportano l'<strong>indagine</strong>. Sipossono, pertanto, delineare due situazioni estreme. Nella prima,il materiale raccolto su supporto cartaceo viene controllatoe corretto manualmente da «esperti-; in questo caso la fase <strong>di</strong>revisione precede logicamente e temporalmente quella <strong>di</strong> registrazione.Nel secondo caso tutte le operazioni <strong>di</strong> revisione e co<strong>di</strong>ficasono svolte automaticamente da procedure informatichee, quin<strong>di</strong>, la revisione segue la fase <strong>di</strong> registrazione. L'organizzazioneconcreta delle indagini si situa in mo<strong>di</strong> <strong>di</strong>versi tra taliestremi; tuttavia poiché la tendenza è quella <strong>di</strong> una sempre maggiorecompenetrazione tra lavoro <strong>di</strong> esperti e procedure Informa·,-----.. ----;obl eH 1111r1 ~e"'il:lone -+conosce":. a p~'ori,fonti esterne~.----.---~'Imor., tor.99'odel l. f .. SlleJ",ve"so <strong>di</strong> stu<strong>di</strong>O -~J",t.' <strong>di</strong> ..... 1>51 -.r,ab,llI1IPI.: tr'"1 t,.;a v.,.,a.b 111 ...ggr.~tl 5t;atlst Ici -e .. od.llta'-dI ,.. 1 • ."a.lon.'Ques ti onar 'o-def,nlz,onl •L_ Il' I CI:::::, ::::~::u510ne! l 1 1 Lu)I----L-,,,.no <strong>di</strong> c."Pl0namento, ~~ r-~_cr_1 t_IP_r"l_d_' _5..numerOSlt" ,str.tlric.ZIO ..st .. d,e_1e_=_'o_ne __.......f, Còluone5t, .... tO ...pl.no <strong>di</strong>,. •• ·151on.Ccorre: Ionele"),n<strong>di</strong>lgl"' <strong>di</strong> contr'olll ".lld.ZlonlPcontrollo nell .. f .... <strong>di</strong> lhl19J progel t ..:lone~",.. r-elntervlsta. §"". test QLlestl.onarlOOIIIp&netr.z Ione Ind;ag,n. pllot.del cam,noneverI FIe. <strong>di</strong> coe"en~.dls&gn, . <strong>di</strong>ti .' tr. I pI.nlspenment.ll controllo dali. llst.Figura 1.2· Processo produttivo e sistema <strong>di</strong> controllo dell'<strong>indagine</strong>


26 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 1 • LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DELL'INDAGINE27Cal...rilltvilzio_Cels.l.zio_ unita' c:anaiorw --!:::;,==:+_--.•• 1 ft io_ e l.t run orerilllViltor l • suparvisoriistruzione organi rilevazioneintervistapri ... reviSIon •• cochflC. -=::;.===t.-~sltnsibilizzilzione.rispondentiCblI microclati...registrazionelsu supporto inform.ticol--contrOllO dai valori a/lllll.sibi~.i --+---+----l. .--(O;) LcamPIone <strong>di</strong> controllo ==-=-==+-==1revlSiOjl'1ll! .~cor::::~lnt.rattive(d)proc:edure ilU tomatiche... cal CD lo pesi corretti vielaboraZIone datI~calcolo errori campionilricampionarloaltn supporti <strong>di</strong> <strong>di</strong>ffusione~elaborazione tavole.--.--.--==!::;;:j:::::J:=!--.:-~ed analisi stahstiche.---_==:;-.--.J C hl ---..1-...--- vali dazion. ---+-+--0---1"------'data bilsem icroda tietc.indagini <strong>di</strong>controllo(t') _ <strong>di</strong>ffusione informazione statist ica L-(g)segue Figura 1.2· Processo produttivo e sistema <strong>di</strong> controllo dell'Indagine\tiche, nel Manuale si farà riferimento ad una accezione lata dellarevlsion~, in cui sono incluse tutte le operazioni manuali o<strong>di</strong>nformatiche, <strong>di</strong> verifica e correzione dei dati. Da questo punto<strong>di</strong> vista I programmi <strong>di</strong> compatibilità e correzione rientrano nellafase <strong>di</strong> revisione, mentre a quella <strong>di</strong> elaborazlone.è delegato soloIl compito <strong>di</strong> pre<strong>di</strong>sporre tavole, In<strong>di</strong>catori ed analisi statistichedal mlcrodatl definitivi.'I macrodatl, sotto forma <strong>di</strong> tavole od In<strong>di</strong>catori statistici, sonovalldatlsulla base della loro coerenza Interna, dell'analisi dell'eventualeserle storica o me<strong>di</strong>ante confronto con fonti esterne.I macrodati, i metadatl (Inclusllrlsultatl dei controlli effettuati)ed eventualmente gli stessi mlcrodatl, possono quin<strong>di</strong> essere<strong>di</strong>ffusi agII utlllzzatori finali.Nello schema adottato non è stata prevista una fase <strong>di</strong> controllo;tale funzione, Infatti, verrà considerata come un Insiemeorganico <strong>di</strong> operazioni, inserite nelle altre fasi, che affianca il complessodell'<strong>indagine</strong> e ne costituisce il supervisore.Il processo produttivo sopra descritto, fà riferimento ad una<strong>indagine</strong> -tIpo»; nelle situazioni concrete possono verificarsi deicambiamenti nello schema utilizzato (ad esempio, nelle Indaginl.telefoniche,la registrazione si fonde'con la rllevazlone dei dati),che però non ne inficiano la logica <strong>di</strong> fondo.5. Gli errori non campionariIn ciascuna delle fasi e delle operazioni dell'Indagine possonoessere generati errori non campionari, che è pOSSibile classificarecon riferimento alla fonte dell'errore.In realtà, date le Interazlonl tra operazioni e tra soggetti, l'erroreè spesso dovuto aUa combinazione <strong>di</strong> piO fattori (ad esempiogli errori, nella fase <strong>di</strong> revisione, commessi dai revisori possonoessere dovuti anche ad una insufficiente specificazione dellenorme e'del questionario). Tuttavia, pur essendo un modellosempliftcato,la classiffcazione che segue è sufficiente ad Impostare,iil termlnroperatlvl ed organlzZativl, I controlli del principalierrori non campionari:1) fase <strong>di</strong> progettazione• errori nella deflnlzionà degli obiettivi;• errori nella definizione del campo <strong>di</strong> rllevazlone;• errori nella detinlzionedelle unità <strong>di</strong> rllevazlone e <strong>di</strong> analisi;• errori nella formulazione del questionario, delle definizionie delle classitlcazloni;• errori nelle norme del piani <strong>di</strong> lavoro;• errori nel coor<strong>di</strong>namento tra plani <strong>di</strong> lavoro;• errori <strong>di</strong> .rllevanza».


28 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 1 - LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DELL'INDAGINE.292) fase <strong>di</strong> rilevazione• errori dovuti ad insufficiente istruzione e assistenza alla rete<strong>di</strong> rilevazione;• errori nelle liste <strong>di</strong> selezione;• errori commessi nelle procedure <strong>di</strong> selezione delle unitàcampionarie;• errori dovuti ai rispondenti;• errori dovuti ai non rispondenti;• errori dovuti alla tecnica <strong>di</strong> <strong>indagine</strong> prescelta (nelle indagini<strong>di</strong>rette, al rilevatore ed al contesto dell'intervista);• errori dovuti ai supervisori;3) fase <strong>di</strong> registrazione• errori dovuti agli operatori;4) fase <strong>di</strong> revisione• errori dovuti ai revisori;• errori dovuti alle procedure informatiche; .5) fase <strong>di</strong> elaborazione finale dei dati• errori nei programmi <strong>di</strong> calcolo;• errori <strong>di</strong> rilevanza effettiva;6) fase <strong>di</strong> validazione• errori <strong>di</strong> coerenza nelle tavole e negli in<strong>di</strong>catori;7) fase <strong>di</strong> <strong>di</strong>ffusione• informazioni agli utenti non rilevanti, non trasparenti e nontempestive.Gli errori generati nella fase <strong>di</strong> progettazione, <strong>di</strong> elaborazionee <strong>di</strong> <strong>di</strong>ffusione si riflettono sostanzialmente sulla «rilevanza ..dell'<strong>indagine</strong>; tuttavia deficienze e <strong>di</strong>screpanze nella stesura delquestionario, delle norme e dei <strong>di</strong>fferenti piani <strong>di</strong> lavoro influenzanole operazioni successive e quin<strong>di</strong> danno luogo ad errori <strong>di</strong>«precisione .. , che sono propri delle altre fasi dell'<strong>indagine</strong>.Per le indagini condottedall'lstat, in particolare quelle sullapopolazione, nel Prospetto 1.1 sono sintetizzate le principali operazionicon le relative fonti e tipo <strong>di</strong> errore.Data la natura <strong>di</strong> flusso del processo produttivo, gli errori chehanno origine in una operazione si trasmettono a quelle successivesommandosi, combinandosi od elidendosi; nella Figura 1.3è rappresentato tale proce<strong>di</strong>mento per le operazioni e gli errori'più rilevanti <strong>di</strong> una <strong>indagine</strong>.Prospetto 1.1: operazioni dell'<strong>indagine</strong>, fonti e tipo <strong>di</strong> erroreoperazioniscelta delle variabili,delle definizioni, delleclassificazioni, delleunitàdefinizione delquestionariopiano <strong>di</strong> <strong>di</strong>ffusionepiani <strong>di</strong> lavoroselezione PSU (")selezione SSU t'lformazione elenchi edassegnazionirilevazione sul camporegistrazionerevisione e correzionestime (·1elaborazionee validazione deirisultati<strong>di</strong>ffusione(') solo per indagini campionariefontimodello concettualestrutturalunghezzavocabolarioquesiti retrospettiviproxyco<strong>di</strong>ficabase $tatislicabase statisticalistasupervisorisupervisoririlevatorisupervisoririlevatorlrispondentioperatorirevisoriprocedure automaticheelnterattivebase statisticaprogrammitipo <strong>di</strong> errorerilevanza teoricaerrori <strong>di</strong> misurarilevanza effettiva etrasparenzaerrori <strong>di</strong> misuracalcolo probabilità <strong>di</strong>inclusionecalcolo probabilità <strong>di</strong>inclusione ed errori <strong>di</strong>coperturaidentificazione delleunitàmancate risposte totalie parziali, incongruenze,errori <strong>di</strong> misura,effetto proxy, effettoricordoerrori <strong>di</strong> misuraerrori <strong>di</strong> misura, errori<strong>di</strong> identificazionecalcolo fattori <strong>di</strong>espansioneerrori <strong>di</strong> c'alcolorilevanza effettivatempestività


30 Il SISTEMA DI CONTROllO DELLA QUALITÀ DEI DAnCAP. 1 • LA QUALITÀ DEI DAn ED Il SISTEMA DI CONTROLLO DELL'INDAGINE 31solo sull'errore commesso, ma anche sulle relazioni tra modelloconcettuale utilizzato e realtà.6. Gli effetti dell'errore non campionario sull'affidabilità dellestimeNelle indagini campionarie su larga scala possiamo giovarci,per l'inferenza statistica sui principali parametri <strong>di</strong> stu<strong>di</strong>o (me<strong>di</strong>,totali, frequenze relative ed aSSOlute), del teorema del limitecentrale: esso ci assicura che la loro <strong>di</strong>stribuzione, per n sufficientementeampio, è approssimata dalla <strong>di</strong>stribuzione normale.In base a tale teorema, possiamo calcolare gli intervalli <strong>di</strong> confidenzadella stima ottenuta in funzione <strong>di</strong> prefissate probabilità;i limiti dell'intervallo vengono determinati nell'ipotesi <strong>di</strong> stimatorinon <strong>di</strong>storti ed affetti dal solo errore campionario.La presenza <strong>di</strong> errori non campionari, inducendo nei risultatidelle <strong>di</strong>storsioni eIa un aumento della variabilità, conduce ad unaerronea valutazione del livello <strong>di</strong> fiducia attribuito ad un determinatointervallo.sti ..Figura 1.3· Trasmissione degli errori tra le fasi elo le operazioni <strong>di</strong> una Indagine campionariaRiguardo all'errore non campionario c'è, infine, da considerareuna sua peculiarità; se da un lato esso costituisce un fattore<strong>di</strong> «<strong>di</strong>sturbo» da rimuovere, dall'altro può essere consideratofonte <strong>di</strong> «informazione» sul complesso dell'<strong>indagine</strong>. Infatti, poichéqualsiasi rilevazlone statistica è un modello a priori della realtàesaminata (imposto me<strong>di</strong>ante le definizioni, Il questìonario,la co<strong>di</strong>fica e le operazioni <strong>di</strong> correzione), l'errore non campionariocontiene in sé una ambiguità: può essere sia «errore», nel sensoproprio del termine, sia il rilevatore <strong>di</strong> una inadeguatezza nellaformulazione del «modello implicito». Per tale ragione i risultatidei controlli possono <strong>di</strong>venire una fonte <strong>di</strong> informazione nonSupponiamo infatti che lo stimatore utilizzato sia <strong>di</strong>storto; alloralo stimatore il avrà me<strong>di</strong>a pari a E@), <strong>di</strong>versa dal valore vero l'.La <strong>di</strong>fferenza B = p. - E@) rappresenta la <strong>di</strong>storsione dellostimatore.Se si ignora l'esistenza eIa l'entità della <strong>di</strong>storsione, si calcoleràl'intervallo <strong>di</strong> confidenza, allivello <strong>di</strong> fiducia, stabilito, comese fosse centrato su l', mentre esso è, in realtà, centrato su E@).In termini formali, si farà, in maniera non corretta, la seguenteasserzionePr ~ - t 4 /2 uii S p. s ii + t 4 / 2 Uii] .= l -mentre l'asserzione corretta sarebbe:Pr [il - tU;, s E(ii> s il + tu;,]a/2 r a/2 ral-aNella prima relazione, a risulta sovrastimata e deve esseresostituita da a' = {3 + 'Y, dove {3 e 'Y sono le probabilità corrispondentiall'intervallo centrato su l', (cfr. figura 1.4.).Presenza della sola<strong>di</strong>storsione


32 IL SISTEMA 01 CONTROLLO DELLA QUALITÀ DEI DATICAP. 1 • LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DELL'INDAGINE33Esprimendo a' in funzione <strong>di</strong> a, (3 e -yper la simmetria e l'unimodalità della funzione normale, si hane risulta che a'> a e quin<strong>di</strong>1 - a'


34IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 1 • LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DELL'INDAGINE35EIIetII ... • ......... 10del ......... ..Se si ipotizza che gli errori non campionari determinano soloun aumento della variabilità, ma non la <strong>di</strong>storsione dello stimatore,si può, con analogo proce<strong>di</strong>mento, determinare a in funzionedel rapporto tra le due varlanze.Sia mU~ la varianza <strong>di</strong> iL affetta da errore <strong>di</strong> misura e:,.,.uà / muà = k < l ovvero up. = Kmup.Nella Tavola 1.2, si è espresso il livello <strong>di</strong> confedenza a' infunzione del rapporto k,in corrispondenza ad un prefissato a paria 0.05, calcolato me<strong>di</strong>ante la (1.9) e la (1.10). .Tavola 1.2 - Valori <strong>di</strong> a', in corrispondenza <strong>di</strong> a = 0.05, in funzionedel rapporto· kk p,y a' l-a ,SI avrà quin<strong>di</strong>fJ = l lm exp [-


36 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 1 • LA QUALITÀ DEI DATI ED Il:' SISTEMA DI CONTROLLO DEU.'INDAGINE37'La figura (1.6) illustra, graficamente, le relazioni tra la probabilitàpresunta e quella corretta dell'asserzione sull'Intervallo <strong>di</strong>confidenza. ' -7. Il sistema <strong>di</strong> controlloL'analogia tra <strong>indagine</strong> e processo <strong>di</strong> produzione manlfattu~riero non ~omporta, meccanicamente, l'applicazione delle <strong>tecniche</strong>del controllo statistico <strong>di</strong> quallt" utilizzate In quest'ultimoambito, al sistema <strong>di</strong> controllo dell'Indagine. Tali meto<strong>di</strong>, Infatti,~l ba,sano sulla rlproduclbllità e sulla serlalltà del SingolO«pezzo., !a~dove, In una rIIevazlone statistica In campo economicoo SOCiale, l'Informazione raccolta è, In realtà, unica e nonriproduciblle sotto le medesime con<strong>di</strong>zioni. L'ln<strong>di</strong>viduazione dell'errw,eneUap~uzioÌ'lemanl(atturl.a è im~iata. essendo predet~rmlnat().il PI"9d~tto tipq, eia Varlab",tà riscontrata è att{lbulblleunicamente al prQCesso; scopo del controllo è la riduzione,entro termini accettabili, <strong>di</strong> detta variabilità. AI contrarlo, inun'Indagine statistica, il valore vero non è conosciuto a priori ela variabilità è Inslta nel fenomeni Indag,tl; ciò complica l'In<strong>di</strong>viduazionee l'eliminazione dell'errore. - ,,-Il controllo statistico <strong>di</strong> qualità viene perCiò definito <strong>di</strong>versamentenel due casi, (U.S. Department of Commerce, 1978):I) metodo per controllare la qualità <strong>di</strong> un prodotto manifatturiero<strong>di</strong> larga scala; esso si prefigge <strong>di</strong> determinare ed eliminarele variazioni sistematiche o <strong>di</strong> rldurle ad un livello accettabile,dovuto al caso. Quando questo si verifica, Il processo risultasotto controllo.Il) osservazione e procedura utilizzata In ciascuna operazione <strong>di</strong>una <strong>indagine</strong> per prevenire o ridurre l'effetto dell'errore noncampionario.Secondo la definizione sopra riportata, l'oggetto del controllostatistico <strong>di</strong> qualità dr una Indagine è limitato all'errore noncampionario; del resto la sostanziale <strong>di</strong>versità del due tipi <strong>di</strong> errore~I riflette nel <strong>di</strong>versi strumenti c:il controllo e, persino, In una<strong>di</strong>fferente possibilità <strong>di</strong> attuarlo. Il produttore dell'Informazionestatistica, Infatti, ha la possibilità <strong>di</strong> controllare l'errore campionarioe <strong>di</strong> mlnimlzzarlo, date le risorse <strong>di</strong>sponibili, me<strong>di</strong>ante lascelta della numerosltà del campione, dello stlmatore, delle <strong>tecniche</strong><strong>di</strong> stratlflcazione é sta<strong>di</strong>ficazlone.rrcontrollo e la riduzionedell'errore non campionariO, che <strong>di</strong>pende, invece, dall'operato<strong>di</strong> una pluralità <strong>di</strong> soggetti, si presenta complesso e pone delicatiproblemi <strong>di</strong> competenze, <strong>di</strong> responsabilità e <strong>di</strong> potere dllnterventodell'Istituto.Date le Interrelazloni tra le operazioni dell'Indagine e, <strong>di</strong> conseguenza,tra gli errori da esse generati, è opportuno InquadrareI .slngoli controlli In un Insieme coerente ed organico; è convemente,perciò, considerare un «slstema!t <strong>di</strong> controlli che affianchi.llflusso produttivo e ne attui li mgnltoracHIlo. Le Informazlomderivanti da quest'ultimo, potranno essere utilizzate permigliorare Il sistema <strong>di</strong> produzione dell'Indagine (se ripetuta), perI~ programmazione dllndaglrli simili e Per: fornire valutllZionl qua­IItatlve e quantltatlve suU'attendll;llUtàdel rlsultatlfJnall~Rispetto al momento In cui awlene ~ al fini per c::,,1 si effettua,.Il controllo può essere conslde{ato preventlvo,_ $8 prec::edela rllevazlone sul campo ed ha lo sqopo <strong>di</strong> verificare e migliorarela programmazione dell'Indagine; conteriJpofatJ80, se attuato durantele operazl~nl <strong>di</strong> rilevazlone, revisione ed elaborazione conl'obiettivo dlln<strong>di</strong>Viduàre e correggere l'errore; successivo se flnaUzzatoalla predlspQslzlone del profilO deWerrore od alle analisidelle singole fasl~, '_ " . ' "Cosi definito, Il «sistema del controlli dell'Indagine. ha peroggetto l'errore non campionario e per obiettivi: - ,I) la prevenzione dell'errore;Il) la correzione dell'errore;III) Il mC)nltoragglo della fasi del prOCeSSO <strong>di</strong> formazione del da--to e la stima dell'efl'oretotale.' ,." 'Elementi costitutivi del sistema sono l'indlvlduazlone delle.cause d'errore .e la definizione del. livelli <strong>di</strong> controllo; la predlspos~zlonedelle fonti e l'org,anlzzazlone dell'Informazione: I meto<strong>di</strong><strong>di</strong> analisi e <strong>di</strong> correzione. '" ,,-I -Iivem. costituiscono un sottoinsieme delle fonti <strong>di</strong> erroreowero le operazioni e gH'operatori (adea: Il rllevatore,lI comu:ne, la registrazione etc.) che sOno effettivamente sottoposti a verifica.", .,' -' -In questo contesto, si prèclsa la <strong>di</strong>stinzione tra livelli e fasi:la fase rappresenta, nel flusso loglco-temporale dellaproduzlone,Il punto In cui è possibile o conveniente effettuare Il controllo(si potrebbe <strong>di</strong>re lI-quand08), mentre Il livello è l'operazionesulla quale Il controllò viene esercitato (II -dove.). Cosicché Ilmedesimo livello può essere controllato In fasi dlffèrenUe In ciascunafase possono essere controllati pia livelli. ; _,Per ragioni organizzatlve e <strong>di</strong> costo,non è, generalmentepossibile sottoporre la singola rllevazlone all'insieme del controtltsu tutte le fasi e su tutte le possibili fonti <strong>di</strong> errore. Il nume~ed il tipo dei controlli da effettuare, owero Il sistema <strong>di</strong> controllodella singola Indagine, devono, quin<strong>di</strong>, essere selezionati Infunzione delle risorse <strong>di</strong>sponibili, del tempi <strong>di</strong> esecuzione dell'<strong>indagine</strong>e del livello accettabile <strong>di</strong> errore.


42 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 1 • LA QUALITÀ DEI DATI ED IL SISTEMA DI CONTROLLO DELL'INDAGINE43bili e, poiché esse costituiscono la memoria storica della rilevazlone,per la valutazione degli interventi correttivi, effettuati inprecedenti occasioni.Me<strong>di</strong>ante l'archivio <strong>di</strong> qualità, per le indagini ripetute e perquelle in cui può essere ipotizzata la «portabilità» degli In<strong>di</strong>catori,i controlli successivi della singola rilevazione assumono ilruolo <strong>di</strong> controlli preventivi per la nuova rilevazione.RIFERIMENTI BIBLIOGRAFICIARKHIPOFF O. (1986), Laquallté de'/'information et sa preclslon, Colloquedel'lSEORBAGLIONI P.(1983), Livelli <strong>di</strong> produzione e"dl utilizzazione delle informazionistatistiche: aspetti generali e considerazioni speclffche sullaquallt4 del dati ai fini dèllaprogrammtUlonè reglònale, in Atti dellaIV Conferenza Italiana <strong>di</strong> Scienze Regiol'laH, Firenze,BAlLAR B.B. (1985), Erròrproflles: usèS aridabuses InirStatlstlcal mèthodsand the Imprbvement of data qualltylt, Edlted by T. Wrlght,Academlc PÌ'es&, New Yark. 'BAlLAR B.B. (1985), Quallty Issues In measurement, Internattonal StatlsticalRevlew. "BIGGERI L:'COLOMeQ B., (1991), Re/azlonesu1l'attivlt4 dells,CommlssloneSèlent1fl~'aélel1a SJ.S. sulla quallt4 del dati, Bollettino della S.I.S.n. 22, aprllè 1991. , " ," ' "BRooKs C.A., BAlLAR B.B. (1978), Anerror proflle: employment as measuredbythe current popolatlonsurvey, Statlstical Pollcy WorklngPaper n. 3,U.S. Departrnentof Com merce - Offlce for FederaLStatlsticalPollcy,and ,Standards, Washlngton D.C. - U.S. GovernmentPrinUng Office. 'COCHRAN W. (1977), Sampllng Technlqués, cap, 13,J. Wiley & Sons, NewYork. " " ,','CoLOMBO B.(1979), SuJ(loncetto <strong>di</strong> quallt4 delle statistiche ufficiali, in"Stu<strong>di</strong> ,<strong>di</strong> statistica e,<strong>di</strong> economia in onore <strong>di</strong> L Lenti», Universitàdegli Stu<strong>di</strong> <strong>di</strong> Milano, Pavia e L Bocconi, Milano.COLOMBO B. (1983), La quallt4 del dali statistici In Atti del Convegno1983 della S.I.S., Trieste.CORTESE A. (1991), Linee <strong>di</strong>rettive per l'Illustrazione <strong>di</strong> contenuti e qua-1It4 del dati statistici, Bollettino della S.I.S. n. 22, aprile 1991.CORTESE A., GIOMMI A. (a cura <strong>di</strong>) (1991), Bibliografia <strong>di</strong> autori Italiani, Bollettinodella SJ.S. n. 22, aprile 1991.DALENIUS T. (1983), Errors and other Ilmltations of survey, in .Statlstlcalmethods and the Improvement of data quallty., Edlted by T. Wrlght,Academlc Press, New York.GIOMMI A. (a cura <strong>di</strong>) (1991), Glossarlo del prIncIpali termIni su: "la qua-1It4 del dati statIsticI", Bollettino della S.I.S. n. 22, aprile 1991.GOTTARDO G. (1983), Alcune considerazioni sulla valutazione della qualitàdei dati provenienti da un'Indagine campionaria In campo sociale,In Atti del Convegno 1983 della S.I.S., Trieste.I.N.S.E.E. (1985), Rapport sur la quallté des travaux statistlques, documentoInterno, ParigI.KISH L (1965), Survey sampUng, cap. 13, J. Wlley & Sons, New York.MANICA~DI G., VENTURI M. (1988), Analisi Integrata <strong>di</strong> dati e funzioni nelSistemi Informativi Statistici, documento Interno, <strong>Istat</strong>.MASSELLI M. (1985), La qualità del dati nelle rllevazlonl statistiche, RivistaItaliana <strong>di</strong> Economia, Demografia e Statistica, VoI. 40.


·.'·1'·.·.44 IL SISTEMA DI CONTROLLO DELLA QUAUTA DEI DATIMASSELU M., SIGNORE M. (1989), Il sistema <strong>di</strong> controllo delle Indaginicampionarie de//'istat: linee <strong>di</strong> ricerca e principali contributi de/ Pr0-getto Quallt~ del Dati, relazione alla Giornata sul campionamentostatistico, <strong>Istat</strong>, Annali <strong>di</strong> Statistica, Serle 9-, Vol. 10, Anno 120.MASSEW M. (1991), Il profilo degli errori nell'Indagine sulle fotze dllavoro,Bollettino della S.I.5. n. 22; aprile 1991. .MONTINARO M. (1988), Un modello per la determlnazionedeU'erTOr proflledelcommen:/o con l'estero, In Atti deDa XXXIV Riunione selentltlcadellaS.I.S., Siena.MONTINARO M. (1991), Il profilo d(l/I'errore ne/Pl"daglne statlst/ca delCommercio con l'Estero, Bollettino dellaSJ.S. n. 22, aprile 1991.OtIrRATA E., CHINNAPPA N. (1989), Generai survey functlon design atStatlstlesCanada, Proceedlngs of· the47'" ~slon ot IS" ParigI.PARENTI G. (1983), Sulla quallt~ del dati statistici, In Atti dfJl CQnvegno1983 della S.I.S., Trleate. _ ,QUINTANO C" CALZARONI M., DINI P., MAsSELU M., POUTI M:, TACCINI P.(11:)87), Una ricognizione dell'errQr proflle, dell'Indagine flui prodottolordo, In -Atten<strong>di</strong>bilità e tempestlvltAdelie sUme <strong>di</strong>. contabllitAnazlonale_, Il cura <strong>di</strong> U~ Trivellato, CLEUP Padova~'RYrE!tI.,J. (1988), ElIOl'$ln forelgQ tratlft statlstics, In Survey Methodology,Volume 14, n. 1,June 1988,'" . , , . . .SI"GH D.; CHAUDHARY F.S; (1988), Th80Ty and analysJs ofsample surveydesign, J. Wlley & Sons; New York." ,. "Statlstlcs Canada, (1976), A compendlum al inethods of erroì' evaluatlonIn censufles and surveys. . . .,TERRA ASRAMI V. (1989), Manualè <strong>di</strong> <strong>tecniche</strong> <strong>di</strong> Indagine: Pianificazionedella produzione del dati, Note e Relazioni, n. 1, ISTAT.U.N. (1982), Natlonal household survey capabllltY programme, NonsampllngellOfS In househOId surveys: sources, 'assesmentand control,New Yorl


46 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 2· LA PROGETTAZIONE DELL'INDAGINE47Data la sua complessità, il progetto d'<strong>indagine</strong>, generalmente,si configura come un processo iterativo che procede per verifichesuccessive. A tale scopo è posslbileutHizzare alcune <strong>tecniche</strong>specifiche: la Progettazione Concettuale, I test del questionario,l'<strong>indagine</strong> pilota e la verifica <strong>di</strong> coerenza del progetto.La Progettazione Concettuale è. contemporaneamente unatecnica <strong>di</strong> controllo ed una operazione del processo prOduttivo;il metodo produce un-modello concettuale. internamente coerenteche genera un questionario la cui struttura è anch'essa coerente.plano <strong>di</strong><strong>di</strong>ffusione'--__.....-__proge t t az ioneconce t t ualepI.no dIcampioname ntoplano <strong>di</strong>nlevazionepiano <strong>di</strong>ravisiOf"ltpiano <strong>di</strong>elaborazionepiano deicontrolliesigenzeinform.ti VI!_ ~ ____ I progettaziOl'1l!conce t t u.al.definizionevariabili .universo,unita' <strong>di</strong> .nalisie <strong>di</strong> rilev.ziOl'1l!quest I onariodef i nl Z ionic lassi ficazioni..;classl Ficazionianal isi <strong>di</strong>C 0&I'"&n2 aFigura 2.1 • La sequenza del controlli nella fase <strong>di</strong> progettazioneproget taz ioneconce ttualepre- tl!StgIu<strong>di</strong>zIO espertitest Oli ternat i ve<strong>di</strong>agranmaZloneLa coerenza è un prerequisito, ma non è sufficiente a garantirela buona riuscita del questionario. Per altri aspetti (II vocabolario,le domande retrospettive, i quesiti delicati, il numero ela sequenza delle domande ecc.) è necessario ricorrere a <strong>di</strong>fferenti<strong>tecniche</strong> <strong>di</strong> controllo: il test sul campo, il giu<strong>di</strong>zio degli espertied il test <strong>di</strong> alternative.Il test del questionario può essere inserito nell'indaglne pi~lota; quest'ultima, però, ha come obiettivo principale, la verificasul campo della pratlcabilità delle norme e del protocolli <strong>di</strong> tutte,o le più importanti, operazioni progettate per l'Indagine «madre».L'analisi <strong>di</strong> coerenza dàl progetto d'Indagine, consiste, in unaverifica logica, effettuata dal responsabile d'<strong>indagine</strong>, dei singolipiani <strong>di</strong> lavoro e dei reciproci legami.La sequenza del controlli da effettuare nella fase <strong>di</strong> progettazione.rispecchiala sequenza logica ed I legami tra le operazioni;essa è riportata nella Figura 2.1.Nel <strong>di</strong>agramma, la Progettazione Concettuale appare piO volte,per in<strong>di</strong>care le possibiU applicazioni <strong>di</strong> tale tecnica; in realtà, unavolta utilizzata per tradurre le esigenze informative in variabili <strong>di</strong>stu<strong>di</strong>o e per definire le entità coinvolte nell'<strong>indagine</strong>, <strong>di</strong>viene automaticala derivazione del questionario. Inoltre, gli schemi derivatidalla Progettazione Concettuale possono essere, utilizzatiper la pre<strong>di</strong>sposizione del piano <strong>di</strong> <strong>di</strong>ffusione.Tale piano, poiché, in ultima analisi, costituisce la «specificazioneoperativa. degli obiettivi, precede logicamente ed influenzala formulazione degli altri protocolli. "legame più owio è quellocon il piano <strong>di</strong> elaborazione, ma anche il plano <strong>di</strong> rilevazlone e<strong>di</strong> revisione ne sono Influenzati; ad esempio nella procedura <strong>di</strong>compatibilità e correzione, o nelle norme <strong>di</strong> rilevazlone per raccomandareparticolare attenzione verso alcune variabili consideratestrategiche per la tabulazlone.Qualora non venga utilizzata la Progettazione Concettuale,và còmunque pre<strong>di</strong>sposta una completa documentazione, riguardantele suddette operazioni, In cui siano specificati I nessi fo"gicl e i motivi delle scelte effettuate.Il questionario gioca un ruolo centrale nelle progettazione dell'<strong>indagine</strong>poiché è collegato con tutti i piani <strong>di</strong> lavoro, anzi necostituisce in gran parte Jr «prlus. logico; la sua verifica deve quin<strong>di</strong>precedere la pre<strong>di</strong>sposizione delle altre operazioni.La vali<strong>di</strong>tà delle norme e delle procedure, pre<strong>di</strong>sposte in. viaprowisoria, sarà sottoposta a test, <strong>di</strong>rettamente sul campo, me<strong>di</strong>antel'<strong>indagine</strong> pilota; infine, la verifica <strong>di</strong> coerenza c()stitulscel'in<strong>di</strong>spensabile controllo prima della rllevazione sul campoe delle fasi successive.


48 IL SISTEMA DI CONTROLLO DELLA QUAUTA DEI DATICAP. 2· LA PROGETTAZIONE DELL'INDAGINE49Se i risultati ottenuti dai suddetti controlli, portano a mo<strong>di</strong>ficarele operazioni oggetto della verifica, sarà anche necessariocambiare i protocolli dei piani <strong>di</strong> lavoro ad esse collegati (cfr. Figura2.2).plAno <strong>di</strong>tIccntrolli1.-.l!-= ......,-!1 ........!I .....l ....q»st io .... no;I ......II .......!i ......;l''''''! ......l .......piAno <strong>di</strong> <strong>di</strong> Husiorw mAc,.odIlti! _ PlAno <strong>di</strong> c.mpio .... mantoIi! i ...... pi.no <strong>di</strong> ... ilevuier.-I I, ;1'. ~ piAna ~i registruiCII'WI Il' I:'" I piAno <strong>di</strong> ..-.visier.-. I II...... i...... I _ '...... piAno <strong>di</strong> .1Aborazier.-Figura 2.2· Relazioni tra le operazioni della fase <strong>di</strong> progettazione2. La progettazione concettualeLa specificazione degli obiettivi in variabili e. nelle loro relazioni,il passaggio da queste ai quesiti ed alla struttura del questionario,l'identificazione della POPOlazione <strong>di</strong> riferimento e delleunità <strong>di</strong> rilevazione e <strong>di</strong> analisi, non è. altro che la costruzione<strong>di</strong> un modello della realtà esaminata.Erròri <strong>di</strong> rllevanza possono sorgere se tale modello npn vieneesplicitato ed enunciato per tale, ma risulta definito solo implicitamenteed imperfettamente dalle operazioni <strong>di</strong> cui sopra.L'uso <strong>di</strong> un modello concettuale che costringa a definire inmaniera chiara e precisa i concetti coinvolti, aiut.a a preveniretali errori.Me<strong>di</strong>ante la metodologia denominata Progettazione Concettuale,i contenuti infprmativi <strong>di</strong> unarHevazione statistica possonoessere in<strong>di</strong>viduati e rappresentiiti in maniera formale, in<strong>di</strong>pendentementedalle specifiche problematiche; la tecnicapermette<strong>di</strong> definire le relazioni tra entità, gli attributi delle stesse é lestrutture gerarchiche tra entità .•La documentazione sulle definizioni e la rappresentazione formaledegli schemi concettuali dostituiscono il patrimonio informativodell'Indagine e permettono il controllo della rllevanza, teoricaed effettiva, deU.'informazione prodotta.Inoltre, poiché attraverso il modello concettuale è pOSSibilerappresentare le relazioni tra le <strong>di</strong>verse entità ed i loro attributi,gli schemi prodotti possonO essere utilizzati per la stesura delquestionario e per definire una parte delle regole <strong>di</strong> compatibilità,me<strong>di</strong>ante le quali vengono determinate le incongruenze logichenei dati raccolti.L'uso delle <strong>tecniche</strong> <strong>di</strong> progettazione concettuale è <strong>di</strong>ffusamentetrattato nel Manuale per la progettazione concettuale <strong>di</strong>dati statistici <strong>Istat</strong> 1987.3. La redazione del questionarioSotto Il termine <strong>di</strong> questionario si intende qualsiasi strumentoutilizzato per la raccolta del dati presso l'unità <strong>di</strong> rilevazione.In questo contesto sono, quin<strong>di</strong>, considerati questionari anchei modelli per la raccolta <strong>di</strong> informazioni amministrative, lo schema<strong>di</strong> domande per le indagini telefoniche o <strong>di</strong> quelle effettuateme<strong>di</strong>ante I computer portatili.Un'adeguata formulazione del questionario è cruciale nel prccesso<strong>di</strong> produzione, poiché esso è lo strumento me<strong>di</strong>ante il qualei dati rilevati presso le unità vengono trasformati in -informazio·ne- <strong>di</strong>sponibile per le successive elaborazioni.La pre<strong>di</strong>sposizione del questionario può generare errori <strong>di</strong> rilevanzae <strong>di</strong> misura, in modo particolare in funzione:• del vocabolario utilizzato• della sequenza dei quesiti• delle norme <strong>di</strong> compilazione• dei quesiti retrospettivi• <strong>di</strong> risposte proxy• <strong>di</strong> quesiti' particolarmente. delicatiI problemi connessi alla pre<strong>di</strong>sposizione, alla somministrazioneed al test sul questionario sono analiticamente trattati nelFascicolo 2 del Manuale <strong>di</strong> <strong>tecniche</strong> <strong>di</strong> Indagine; nel presente capitoloci si limiterà a richiamare bevemente le considerazioni piùrilevanti ai fini del controllo <strong>di</strong> qualità.In termini generali il contenuto <strong>di</strong> un questionario può esse·re <strong>di</strong>stinto in tre parti:1. quesiti per la rilevazione delle variabili <strong>di</strong> stu<strong>di</strong>o2. co<strong>di</strong>ci Identificativi3. ques.iti per il controllo dell'intervista.È opportuno che tale <strong>di</strong>stinzione venga formalizzato nella fase<strong>di</strong> progettazione, poiché le tre tipologie giocano ruoli <strong>di</strong>versi


50IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 2· LA PROGETTAZIONE DEU'INDAGINE51Le verlablll <strong>di</strong> stu<strong>di</strong>oe subiscono trattamenti <strong>di</strong>fferenziati nel corso delle fasi successive.Rimandando agli appositi capitoli qui basti citare, ad esempiè,che per i co<strong>di</strong>ci. identificativi se ne consiglia una attenta verificanella fase, <strong>di</strong> registrazione e l'eventuale mo<strong>di</strong>ficazione solodopp !afase <strong>di</strong> revisione quantitativa; per i quesiti relativi allaqualità (notizie sull'intervista e sul rilevatore), invece, non devonoessere previste modlficazloni, in quanto comporterebbero per<strong>di</strong>ta<strong>di</strong> informazione.Estraendo dal modello concettuale un albero, ed eventualmentedei sub-alberi, <strong>di</strong> aree omogenee <strong>di</strong> informazione, è possibiletradurre le variabili, precedentemente Identificate, nella strutturae nei quesiti del questionario.La sequenza dei quesiti deve essere resa il più lineare possibire,evltand()I riman<strong>di</strong> a domande, o blocchi <strong>di</strong> domande, precedentie segnalando chiaramente con accorgimenti grafici (colori,frecce ecc.) gli eventuali salti <strong>di</strong>pendenti da domande filtro.È conveniente che la sequenza rispecchi l'or<strong>di</strong>ne impliCito neilegami logici tra le variabili; nel caso <strong>di</strong> un questionario particolarmentegravoso, è opportuno che I quesiti strategici venganoposti all'Inizio del modello, perevitare che il decrescente interessedel rispondente incrementi l'errore <strong>di</strong> misura delle informazionipiù importanti da rilevare..'I quesiti possono dar lu()go a risposte aperte o chiuse; nelprimo caso si accetta qualsiasi risposta fornita dal rispondente,mentre nel secondo lo si costringe a scegliere tra un predeterminatonumero <strong>di</strong> risposte.Le risposte preco<strong>di</strong>ficate hanno il pregio <strong>di</strong> essere più facilmentee più rapidamente trattablli nelle fasi successive <strong>di</strong> registrazionee <strong>di</strong> revisione dei dati e contribuiscono a ridurre l'effettoricordo. Tuttavia esse scontano una.per<strong>di</strong>ta dlinformazioneche è tanto più grave quanto più mancano informazioni a priorisul fenomeno da rilevare. In questo caso l'<strong>indagine</strong> pilota effettuatame<strong>di</strong>ante questionario con quesiti aperti può costituire unabase <strong>di</strong> Informazioni per chiudere i medesimi.La preco<strong>di</strong>ficazione implica la scelta:- del tipo <strong>di</strong> classificazione da adottare,- del livello <strong>di</strong> <strong>di</strong>saggregazione della co<strong>di</strong>fica.Nell'articolare le classificazioni, soprattutto nella riduzione<strong>di</strong> variabili continue a variabili intervallo, occorre tenere presentegli obiettivi per cui le variabili sono rilevate. Se tra <strong>di</strong> essi viè la costruzione <strong>di</strong> in<strong>di</strong>ci statistici, occorre esplicitarli in una listaanalitica per poter controllare l'adeguatezza della co<strong>di</strong>ficaadottata ...È stata richiamata più volte, nel corso etelCapitolo 1, l'importanzadei co<strong>di</strong>ci identificativi per ifslstemadlcontrollo; essi infattisono il prerequisito per l'ln<strong>di</strong>viduazlone delle unità e delleloro relazioni (ad esempio, gli in<strong>di</strong>vidui appartenenti alla medesimafamiglia) e c.ostituiscono


. ......... _-... _------52 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATI2. Identificatori che collegano due o plOiquestlonarllnerenti adunità <strong>di</strong>verse ma tra le quali è presente una relaztoneloglca(ad esempio Il questonarlo de~l. faìnlglla prh'lcipaleedl quet- .la coabitante); .... '.' '. ~ .. " . . . . .: ... '3. Identificatori Jnternl al modello <strong>di</strong> ril",azlone per collega.re informazionirelative alla stessa unlt. <strong>di</strong> analisi In parti <strong>di</strong>versedel modello (ad esempio levlll'lablll demografiche In<strong>di</strong>viduali,raccolte In una parte. COmun~, ali." rim~m~(lAA Infgrmazlonlpresenti sui f9gllindMc:iuall). .... .< ., ,~ ,L'Identificatore del questionario viene esteso a tutte le unitàcontenute nel medesimo; tuttavia, tale co<strong>di</strong>ce può non esseresufficiente al riconoscimento delle unità <strong>di</strong> or<strong>di</strong>ne Inferiore neldocumenti aggiuntivi <strong>di</strong> 'rllevazlone o quando trasposte su supportoInformatico. i' " . ," .A{jesemplo la vacanza'attrlbulta adundetermfnato componente,perfettamente rlconosc::lbllesu supporto"carl!lbeo,'pùò nonesserlo piO nel file se non s.lntroduce 'un ulteriore òodlce <strong>di</strong> identificazioneedl collegà;n."n,o tra 'ali JJnIt~':' '." ..In aggiunta a quelli .sopra~l.t.tl;$fd''{9!lQ.qù,ndl, pre"ederealtri due .gruppl dIIQ"lltificator~ i. . ..... '.," ;, f.', ,":-.- . ~ '- , f'4. Identificatori per la trasposizlone su supporto informatico;5. idenUflcatorl p~l':i modèlli aggiuntivi <strong>di</strong> rUevazJone.. .Il sistema del CO<strong>di</strong>ci deve assicurare a ciascuna unità elementareun unico Identiflòatore che la renda riconoscibile in tuttele fonti <strong>di</strong> Informazione; In q!Jesto m,~doèpoSSlbi,! Utll1zzare,congiuntamente, Informazioni dIVerse per Il medesimQ livello <strong>di</strong>controllo e calcqlf'" ! relatlvJ In<strong>di</strong>Qatori <strong>di</strong>' qù~II~~, . ,. . '.' .Nel questionario <strong>di</strong> rilevazlOne devono essere raccolte alcuneInfQrmazJonlrlguardantlle modalità <strong>di</strong> svolglmentodetl'lntervlstà;la scelta del numero e del tipo dl.tall quesiti deve essereparsimoniosa ed efficiente, nel senso che non si deve sovraccaricareIl questionario' con quesiti <strong>di</strong> cui non sia stata preventlvamentestabilita J'utll~ione. . ,.Le informazioni <strong>di</strong> cOFltrQllo dell'intervista poSsono ~ sud<strong>di</strong>viseIn due gruJ)pl: .... . . '.- Informazioni da cui derivare In<strong>di</strong>catori <strong>di</strong> qualità- Informazioni necessarie ad Indagini <strong>di</strong> controtto (successiveo contemporanee).iIIn termini gener~i, i dati del primo tipo sono quelli riguardantila sltuazlQne dell'Intervista (owero. quanti c;omponentl erano presentl,l'eventualerlspgndente o rlsp,ost, proxy), Il giorno, l'Qrae la duratll. I conteggi riassuntivi delle !,Inltà <strong>di</strong> analisi; o deglieventi, contenuti nel questionario, le valu~lsuU'accoglimentoe la partecipazione all'Intervista o a parti <strong>di</strong> essa.I dati necessad per effettuare le Indaglnldl controllo, e, spesso,per analizzarne I risultati, sonp <strong>di</strong> tipo <strong>di</strong>verso:I) co<strong>di</strong>ci Identificativi <strong>di</strong> unità gerarchicamente superiori a quellaoggetto <strong>di</strong> stuc;llQ. .già standard~ti. e pfpentl nel questionario


54 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 2 • LA PROGETTAZIONt: DELL'INDAGINE55nore od uguale al secondo,' se quest'ultimo 'è mobile, mentrepuò essere superiore se il periodo <strong>di</strong> riferimento è fissato. Adesempio, se si chiedono le spese effettuate in una settimana<strong>di</strong> riferimento fissata e l'Intervista awienenella settimana successl\ta~allora il periodo <strong>di</strong> ricordo può essere anche <strong>di</strong> duesettimane.Le relazioni tra il periodo <strong>di</strong> riferImento, fissato e mobile, egli altri due sono illustrati graficamente nella Figura 2.3.A1p." \. odo" cii.ri.r.r\ .. ~t.oI evenlop.riodD <strong>di</strong> rir.,.i..."to f' iSHto~ri.odo <strong>di</strong>. r"cordo .vent.o ,!I per i. odo cl\. .."cordo .~.nt.o81 per iccb <strong>di</strong> riferimanto lII:lbile~r io odo cri. r 1. cordop ... ~odo <strong>di</strong>. ri.f.ri.ment.oi.nt..rv\..t.~. z·I evenioperloclo cli.\',ndogi.neFigura 2.3· Relazioni tra i perio<strong>di</strong> <strong>di</strong> riferimento,d'<strong>indagine</strong> e <strong>di</strong>, ricordoIn alcune rilevazlòni Il periodo <strong>di</strong> ricordo può non essere collegatoal perio<strong>di</strong> <strong>di</strong> riferimento dell'indàgine; ad esempio quandosi chiede la data dell'ultimo evento verificatos. invece <strong>di</strong> chiederese si sono verificati eventi nel periodo stabilito. In questoZIcaso Il periodo <strong>di</strong> ricordo può variare notevolmente da rispondentea rispondente.Per quanto' coricerne l'omissione degli eventi, le esperienzecondottE! in altri paesi hanno mostrato ché esso è collegato, daun lato, al periodo <strong>di</strong> ricordo e, dall'altro, all'Importanza dell'eventoper il rispondente. .Per prevenire tale errore si dovrebbe ridurre il periodo <strong>di</strong> ricordoe quin<strong>di</strong> anche il periodo <strong>di</strong> riferimento; in tal modo peròsi riduce il numero degli eventi rilevàbili ed aumenta l'errore campionariodelle stime basate su un nUmero fisso <strong>di</strong> interviste. Èquin<strong>di</strong> conveniente <strong>di</strong>versificare i perio<strong>di</strong> <strong>di</strong> riferimento in funzionedella frequenza degli eventi,·Gli errori nella collocazione temporale <strong>di</strong> un evento possonoriguardare sia uno spostamento all'in<strong>di</strong>etro che uno in avanti (effettotelescopio), rispetto al momento reale in cui si è verificato;essi possono causarne o l'erronea'collocazione temporale all'internodelperiodo, owero l'esclusione <strong>di</strong> un evento, oppure la presenza<strong>di</strong> un evento precedente o successivo net periodo stesso.Lo spostamento all'interno del periodo <strong>di</strong> riferimento può nonprodurre effetti sul numero complessivo degli eventi ma può produrnerelativamente ad eventuali domini <strong>di</strong> stu<strong>di</strong>o temporali; adesempio, può verificarsi che il numero e l'ammontare delle spesein un anno sia stimato correttamente, ma i dati relativi ad intervallimensili siano <strong>di</strong>storti.Negli altri casi, invece, può verificarsi una <strong>di</strong>storsione dellestime: una sovrasti ma se l'effetto telescopio è predominante, unasottostlina nel caso contrario.'In termini generali, si può coinunqueaffermare che perio<strong>di</strong><strong>di</strong> riferimento El <strong>di</strong> tlcordo più brevi<strong>di</strong>minuiscol'1Ogli errori <strong>di</strong> omissione;essi, però, possono causare maggiori errori <strong>di</strong> collocamentotemporale,se il periodo non è chiuso, ed un aumento dell'errore<strong>di</strong>' campionamento delle stime.,Per prevenire e ridurre gli errori non campionàrl relativi aiquesitiretrospettivi si ricorre a <strong>tecniche</strong> <strong>di</strong>fferenti.Riguardo agli errori dovuti alla collocazione temporale dell'evento,si dovrebbe limitare. la possibilità degli spostamentl, ovverochiudere gli estremi del periodo <strong>di</strong> riferimento rispetto al passato;ad esempio, l'intervallo corrispondente alla vita dell'intervistatofino al momento dell'intervista èun intervallo chiuso. UnperiodO <strong>di</strong> riferimento fissato, invece, ha entrambi gli estremi aperti,mentre uno mobile (ad esempio la settimana precedente l'intervista)ha solo l'estremo, inferiore aperto.Una tecnica per chiudere gli estremi dell'Intervallo consistenell'uSare un periodo <strong>di</strong> riferimento mobile e <strong>di</strong> reintervistare, dopoun certo periodo, i rispondenti, in-merito agli eventi verificattsinell'intervallo tra due interviste.


56IL sl~m;~ QI CONTflQLLO DELLA QUALITÀ DE.1 DATICAP. 2· LA PROGUTAZIONE DELL,'INDA~IN!:51,Per prevenire l'omisslcme <strong>di</strong> eventi, si ricorre ili nwtodQ, notonella letteratura come aiuto alla lnemorla;esSQ ccmsistaneJlostimolare. Il ricorc;io e'#.ltanqq domllflPe aperte', tQrnendo lina listadelle possibili risposte' oq~~~$~elle Inçnc~lo!,I, clJla,v~_ AdesemplQ, In una Indaglo@ $Ulle lettM,te, è p[efer~ne non porre Ilquesito nella forma quan'rlvist~ ò quòtldlanl ha lètto neJrùltijn8setfjmana, mll presentlil,rt? III rl~pondente un eteO:cO, c"i~endo<strong>di</strong> segnalare qU1l1l letture ha fatto nel perlodQ c;11 nferimento, Talemetodo riduce gli errori <strong>di</strong> omissione, ma può causare un effettotelescopio.' ,.' ,'" ' ,'., ..• ' , .... ' .... ,Per aumentare l'affidabilità delle Informazlorn rileVaté, si puòadottare la tecnica dI'chiedere al rispondente <strong>di</strong> riportare sologli eventi documentati (ad esempio me<strong>di</strong>ante scontrini fiscali,conti correnUecc.). Tale metodo consente, tra l'altro; <strong>di</strong> eliminaregli errori <strong>di</strong> collocazione me<strong>di</strong>ante la data riportata sui documenU,ma .non garantisce rispetto all'omissione degli eventi.Quanto detto evidenzia come la scelta del perio<strong>di</strong> dlrlferlmentosia piuttosto delicata 'e richieda sperimentazloni ad hoc cheforniscano informazioni, sulle <strong>di</strong>storsioni associate a perio<strong>di</strong> <strong>di</strong><strong>di</strong>verso tipo e <strong>di</strong> <strong>di</strong>versa lungheZla" .Laddove, Invece, per mancanza <strong>di</strong> inforJTIazione o per reticenza,\I valore rilevato <strong>di</strong>verge da quello che avrebbe forl1itQ l'unitàdeslgfli~.ta, viene generato un errQre non campionario, che è funzionedel. tipo dl.variabile indaglita (affettQ proxy),.La scelta <strong>di</strong> una delle ~~rategie sopra riportate, deve essereattentamente valutata. ricorrendo nel caso ad una verifica ,sulcampo. esaminllndo I relativi vant"ggl; e svantaggi,Ad esempio, non accettare, del tutto ocUn parte, le risposteproxye prevedere dei ritorni, presenta Il vantaggio <strong>di</strong>. aumentarel'affidabilità dei dati raCColti, ma <strong>di</strong>lata i tempi della rllevazlone,aumenta Il carico <strong>di</strong> lavoro degli intervistatori (e quin<strong>di</strong> Il costo).produce un incremento deU'errore campionario e <strong>di</strong> quello noncampionarlo, dovuto alla mancata Intervista <strong>di</strong> una quota delleunità designate.Tuttavia, Il rifiuto delle risposte fornite da altre unità. <strong>di</strong>pende,In ultima analls~. dagli scopi dell'<strong>indagine</strong>, ovvero <strong>di</strong> quantopreminente sia l'interesse aduna rilevazlone accurata nel caso<strong>di</strong> caratteristiche notevolmente soggette all'effetto proxy.Lerl ..... proxyAI momento dell'imervistll, pUòilccadere che le informazioni,riguardanti l'unità designlil,ta. presente od .Ilssente, venganofornite da altra unità. Ad esempio, nelle iÒdaglnllstat sulla popolazione,generalmente basate su, Interviste Jndlviduall a tuttii mem~ri d,ella famiglia' campione, In assen:?:8 <strong>di</strong> uno <strong>di</strong> essi, èprevisto che le notizie che lo rlguard~nQ venga,no ,"ornite daaltrocomponente; oppl,lre può ac,cadere che un componente si s0-stituIsca, nella: rlsp,òsta .. talunl q\ieslti delicati, al familiare intervistato.'.,' .' ',' , '.Deve, quin<strong>di</strong>, essere stabilita la regola <strong>di</strong> comportamento dell'lntervistatore<strong>di</strong> fronte alla possibilità <strong>di</strong> risposte proxy. dove.con tale espressione si Intende l'accettazione <strong>di</strong> informazioni nondal rispondente designato ma da altra unità. ' 'Quattro sono le possibili alternative:~ - ;- non accettare la risposta proxy...., accettarla per tutti· l' quesiti.;.... accettarla limitatamente ad alcuni' quesiti...., accettarla solo dopo, un certo numero <strong>di</strong> ritorniIn questo ultimo caso devono essere fissati il numero (In generenon superiore a tre) e le modalità d,el ritorni (ad.es.lntervista<strong>di</strong>rett. o telefonica),L'accettare le risposte proxy si fonda sul. presupposto chele unità vicine siano in possesso <strong>di</strong> not~ie atten<strong>di</strong>bili riguardantiil rispondente~ , '~, . ''- . .4. Il controllo del questionarioNumerose sono le scelte che devono essere effettuate, comesi è detto nel paragrafo 1. prima <strong>di</strong> arrivare alla redazione de-­flnitiva del questionario. Tali scelte possono essere suffragateda esperienze effettuate precedentemente per la medesima indaglne'opedndaginl slmlhlrl; tuttavia. è sempre opportuno, ancheneicasi piO semplici, condurre una verifica sperimentale sùuna oph'tverslonl provvisorie del modellodlrllevazlone. 'A tale scopo si rlc9rre a dlfferentit~cnlche: la ProgetUizloneConcettuale; ti giu<strong>di</strong>zio degli Elspertl, la val.ld~l()ne qualltatlvain laboratorio.. la dlagrammllZjone del. qUElstlonarl(), il pre-test sulcampo, cono senza reil1tervista, e il t$$t <strong>di</strong> alternative: ..Le varie <strong>tecniche</strong> si <strong>di</strong>fferenziano riguardo agUobiettlvi. ai costieconomici, allelrnPIlC~lonlorganiZl8tlvè, alla tempestivitàed alla complessità d,Herelative metodologle <strong>di</strong> analisi del risultati:La scelta <strong>di</strong> uno o pii:! meto<strong>di</strong> <strong>di</strong> verifica del questionario. <strong>di</strong>pende, oltre che dall'obiettivo del controllo. anche dal costi,'in termini sia economici che organiZl8tlvl, In relazione agII obiettiviconoscitivi dell'Indagine ed alla loro rllevanza.. Nel caSo <strong>di</strong> ristrutturazlOF!e del questionario, prima <strong>di</strong> pass,a,re alili "eriflpa sul campQ. è c"nvenlente anali~rEl glJ .indlcatori.<strong>di</strong>maRca~ risposta parzlàle, del valori fUQrlcampo e delle IncémgrueF!ze.logiche(cfr. Capitolo 3 e 4); tall,informazionl. Infatti,possono fornire utili in<strong>di</strong>cazioni sulla vali<strong>di</strong>tà del quesrtl utlllZl8ti...


58IL SISTEMA DI CONTRoLLO DELLA QUAUTÀ DEI DATI'.CAP. 2· LA PROGETTAZIONE DELL'INDAGINi!59Il giu<strong>di</strong>zio degliesperti • le <strong>tecniche</strong>cl 18bonIoIIo~ stato già rIcordato che l'utilizzazione della ProgettazioneConcettuale rief ricavare, da generici obIettivi conoscitivi, .Ia definizionedel' modelld concettuale' e da quest'ultimo it questionario,ne garantisce la coerenza della struttura (definizioni, clas~slfh::azlohl; unità <strong>di</strong> ànalisi e <strong>di</strong> rlleVazlone e loro relazioni).Derivare Il modello <strong>di</strong> rllavazlone dagli schemi prodotti, costituiscel'uso plll efficiente <strong>di</strong> taletèCnrea; tuttavia, questa puòanche essere utmzzata per verificare la strutturazione <strong>di</strong> un questionariogià pre<strong>di</strong>sposto.'Esempi <strong>di</strong> applicazione della suddetta metodologla a questionarigià pre<strong>di</strong>sposti, sono contenuti nel citato Manuale <strong>di</strong> progettazioneconcettuale <strong>di</strong> dati statistici.'la <strong>di</strong>agrammazione del questionario può essere applicata tantoal controllo <strong>di</strong> versioni provviSOrie Che quale ultima verificadella redazione definitiva. la tecnica consiste nella rappresentazionedella sequenza dei quesittmedlanteun <strong>di</strong>agramma <strong>di</strong> flusso,sostanzialmente dello stesso tipo <strong>di</strong> quelli utilizzati nell'ambitodell'elaborazione dati; la visualizzazione delle relazioni, cosiprodotta, permette <strong>di</strong> verificare la linearlt~ della struttura delquestionario e <strong>di</strong> determinare l'eventllale presenza <strong>di</strong> norme contrad<strong>di</strong>ttorieo lacunose.Il controllo che-viene.esercitatoj quin<strong>di</strong>, ~del ~uttoforma/ee nonen,ra nel me~lto <strong>di</strong> altri aspetti delquesiionario,(vocabolario,lunghezza, quesiti delicati, Ietrospettivl, proxy, ecc.).Per me~ del dlagram!11a, può_essere rappresentato il flus~so dei quesiti, OPPUf8 le selezioni operate dalle domande pet Identificarel'appartenenza del rispondente a particolari subpopolazlonl;nelprlmq caSo le relazioni sono derivate dalle regole <strong>di</strong> com-.pII azione, contenute nello. stesso model!o o nel <strong>manuale</strong> <strong>di</strong> .istru:zlone per I rilevatorl, menfre, nel secondo, da/I'or<strong>di</strong>nè dei quesitiche viene stabllltoperesp,liclt81'8Iedeflnizlonl. ,'..... "Nel Prltn(j~empléidelbXppèni.née 1, è stato rappresentatoil flusso de,i,qUéS.lti del questlonatlo IndlVIduaieden'<strong>indagine</strong> forze<strong>di</strong> lavoro, derivalo <strong>di</strong>:lllenorme <strong>di</strong> complili2:ione; nel secondQ esempio,Invece, è stata <strong>di</strong>agrammata, esplicit~nè;lo le definizioni, lasequenza delle domandenecessa~ia al calcolo <strong>di</strong> uno degli aggregati(gli occtipatl).' "Prima dei controlli sul campo, èÒpportuho verificare la redazioneprovvisoria del modello dì rflèvazlone medlanteU giu<strong>di</strong>zio<strong>di</strong> espertr <strong>di</strong> settore, per In<strong>di</strong>viduare eventuali lacune od Imprecisioninel èonténut6 del questloharlo, e <strong>di</strong> espèrti de/la comunicazione,per scegflere I migliori requisiti formali e <strong>di</strong> somminf.;.strazlone del questionario: ' .:;1'\1j1.1l liij1In questa fase, inoltre, <strong>di</strong>sponendO <strong>di</strong> adeguate professionalitàe <strong>di</strong> un Centro specializzato, è possibile utilizzare:<strong>tecniche</strong><strong>di</strong> laboratorio che consistono nell'lntèrVlstllré In profon<strong>di</strong>tà ungruppo o singoli In<strong>di</strong>vidui appartenenti alla 'popolazione oggetto<strong>di</strong> Indagine. Gli Intervistatorl, esperti nella comunicazione, utilizzerannoun questionario strutturatOjo semplicemente una traccia<strong>di</strong> quesiti; e registreranno le reazioni del, rispondentI.


60 .IL SIST~A DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 2 - LA PROGETTAZIONE DELL'INDAGINE 61rio richiede meno interviste della chiusura delle domande, il testsul complesso del questionario o su scale <strong>di</strong> preferenza, invece,necessitano del. massimo.Anche la scelta del tipc> <strong>di</strong> rilevatorl da utilizzare per. il pretest<strong>di</strong>pende dagli obiettlvi.·È. opportuno che un unico, controllodel questionario veng.a condotto con il medesimo personale impiegatonella rilevazione madre, per simulare al meglio le con<strong>di</strong>zionieffettive <strong>di</strong> rilevazione; è preferibile invece che controlli piùapprofon<strong>di</strong>ti <strong>di</strong> singoli aspetti siano condotti me<strong>di</strong>ante rilevatoriparticolarmente selezionati o dagli stessi responsabili della redazionedel questionario.L'istruzione del rilevatori dovrà essere particolarmente accurata,poiché viene loro richiesto un lavoro aggiuntivo ed una maggioreattenzione rispetto ad un «normale- rilevatore. Essi, infatti,devono prendere in considerazione e riferire su tuttt quegliaspetti ed impressioni soggettive, che emergono nel corso dell'int~rvista,relatiVe: "- alla completeZza e alla correttezza del questionario rispettoagli obiettivi;- alle <strong>di</strong>fficoltà riscontrate dagli intervistati ed. ~lloroatteggiamento<strong>di</strong> fronte all'<strong>indagine</strong>;aUa semplicit~<strong>di</strong> gestione da parte dell'intervistatore dellostrumento «question~rio-.Per la raccolta <strong>di</strong> tali informazioni, che avviene durante o dopol'intervista, possono essere utilizzate <strong>tecniche</strong> <strong>di</strong>verse. Nel corsodell'intervista me<strong>di</strong>ante (I) la registrazione della stessa sunastromagnetico, (II) la presenza <strong>di</strong> un supervisore che compila unquestionario aggiuntivo od un brogliaccio informalesull'andamentodell'Intervista e sulle reazioni del rispondente (III) quesitiriservati all'intervistatore ed Inseriti nello stesso modello <strong>di</strong> rilevazione;dopo l'intervista, ma a stretto ridosso della stessa, nelcorso <strong>di</strong> riunioni in cui si chiede agli intervistatori ed ài supervisori<strong>di</strong> compilare un questionario o produrre e <strong>di</strong>scutere una relazionesulle Intervistè effettuate.L'analisi· del risultati del pre-test viene condotta me<strong>di</strong>antel'esame a vista dei questionari, da parte. <strong>di</strong> esperti· è l'elaborazione<strong>di</strong> in<strong>di</strong>catori <strong>di</strong> mancata risposta parziale e <strong>di</strong> incongruenza~gica .Generalmente, tale analisi, in<strong>di</strong>ca l'insorgere del problemi, manon fornisce. soluzioni atte a rimuoverli; per quest'ultimo obiettivoè necessario, sulla base dei risultati del pre"test, formularealternative <strong>di</strong>verse e sottoporle averi~ica !:lui campo, me<strong>di</strong>anteul1 test <strong>di</strong> alternative.iIIl test consiste nel sottoporre a verifica, su campioni bilan- Il .... <strong>di</strong> ..-.....ciati, più redazioni, generalmente due, del questionario che <strong>di</strong>fferisconoper Un aspetto (ad esempio, la sequenza delle domande,la formulazione <strong>di</strong> quesiti, i periO<strong>di</strong> <strong>di</strong> riferimento temporali).Le <strong>di</strong>fferenti versioni vengono somministrate, con le medesimemodalità, a campioni in<strong>di</strong>pendenti, I quali, però, sono simili, traloro, per la <strong>di</strong>mensione e, alla popOlazione, perla struttura <strong>di</strong> alcunecaratteristiche rilevanti per l'<strong>indagine</strong> (ad esempio la strutturaper sesso e classi <strong>di</strong> età). Ciò equivale a condurre un esperimento,mantenendo fissi I fattori che influenzano la variabile<strong>di</strong> risposta.L'analisi dei risultati verrà condotta me<strong>di</strong>ante la comparazionedel risultati nei subcampionl, sintetizzati con gli in<strong>di</strong>catori piùopportuni in relazione all'aspetto sotto controllo (ad esempio, lapercentuale <strong>di</strong> mancate risposte parziali e gli in<strong>di</strong>ci <strong>di</strong> <strong>di</strong>stribuzionedelle risposte per valutare l'efficienza del questionario o <strong>di</strong> <strong>di</strong>fferenticlassificazioni). La <strong>di</strong>mensione del campione vienestabllitain relazione allivelli <strong>di</strong> affidabilità desiderati per l'esperimento.5_ ['Indagine pilotaL'<strong>indagine</strong> pilota si <strong>di</strong>fferenziadalpre-test del questionarioIn quanto persegue un obiettivo più ampio <strong>di</strong> quest'ultimo, ovverola verifica <strong>di</strong> tutti gli aspetti dellarilevazione.Essa è condotta me<strong>di</strong>ante un campione probabilistlco e costituisceuna versione ridotta dell'Indagine principale; tutte le proceduredevono essere sottoposte a controlli particolarmente accurati,allo scopo <strong>di</strong> identificare gli eventuali errori.SI può quin<strong>di</strong> affermare che l'<strong>indagine</strong> pilota è meno estesa,ma più approfon<strong>di</strong>ta rispetto all'Indagine madre; per suo mezzosi raccolgono non solo le caratteristiche oggetto <strong>di</strong> stu<strong>di</strong>o (allOscopo <strong>di</strong> stimare la variabilità del fenomeni e qundl determinare,in mancanza <strong>di</strong> altre fonti, la numerosità campionaria) ma anche,e soprattutto, le informazioni concernenti l'organizzazionedell'<strong>indagine</strong>. A tale scopo è conveniente associare alla pilotaun corpo selezionato <strong>di</strong> supervisorl e prevedere modelli ad hoce relazioni per il controllo delle procedure ai vari livelli· e fasi.Gli obiettivi dell'<strong>indagine</strong> pilota possono essere riassunti in:• verifica definitiva del questionario, delle classificazioni e delledefinizioni;• verifica delle definizioni delle unità <strong>di</strong> rilevazione e dello statodelle liste;• verifica delle modalità deU'intervlsta;


62 IL SISTEMII DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 2 • LA ~OGE1TAZlONE DELL'INDAGINE63• verifica della rete <strong>di</strong> rllevazlone e del collegamenti tra centroed organi periferici; '.' , '. . .·.·verlflca dei documenti accessori <strong>di</strong> rllev81lone;.' verlflcEl delle. modaUtà <strong>di</strong> selezione dei rilevatorl e dei supervlsori.e del relativi manuali enorme <strong>di</strong> istruzione;.• vedflça,del, cEllendarlo dlrllevazlone;,• verifica dei plElnl dl.codlflca, reglstrazlone~revislone ed elaborazionedati; ,• verlflca·del sistema <strong>di</strong> Identificazione deUe un"à e della completezza,.rispetto agII obiettivi fissati, delle fonti per Il sistemaInformativo statistico; '. .. .• stima della varlabllltàdeUenomenl oggetto dlstudlo.per determinarela nur:nerosità campionaria. ...8. I m.od.m ausiliari'i·In tale categoria sono Inclusi tutti i modelli compilati dagliorgani periferici come ausilio alle operazioni <strong>di</strong> rilevazlone sulcampo: le assegnazioni del rllevatorl, gli elenchi deirllevatorl,I questionari sul rilevatore, gli elenchi dene unità campione, glielenchi delle unità non rispondenti, ecc.Tali documentlhannon.compit~ <strong>di</strong> agevolare Il compito degliorgani- periferici, ma costituiscono anche una fonte <strong>di</strong> informazioneper Il.calcolo <strong>di</strong> indlcator' <strong>di</strong> qualità;'Essi, quin<strong>di</strong>, vanno Inseriti tra·lefC)Jltì informative del SistemadlControlloLnet Predlsporll si dovrà tenere conto della loroutilizzazione Il fin! statistlcl~>, . '>.Tra I suddetti modelli, assumono particolare Importanza, perle InformazJonl contenute, gli elenchi delle unità non rispondenti.In esSi deve essere prevista la causa della mancata cbllaborazionee le prlnclpaU caratteristiche dell'unità, se <strong>di</strong>sponibili dafonte <strong>di</strong>versa daWlnter,vlflta(ad esempio nel caso delle famiglie,Il numero, n sesso e l'età del compOnenti risultanti nella schedaanagra,lca) •. · ;' '"'. > .'Le mot~vazlonl della mancata Intervista, riportate nel succi-. tato. dOCumento dl rUevazlone,.devonoessere esplicitate In funzlonedegllIn<strong>di</strong>catori che si Intende. calcolare: per analizzare Ilfenomeno (vedtCapltolo-3) e della posslblJltà <strong>di</strong> raccogliere sulcampo le informazioni necessarie. Inoltre, per assicurare l'ornogeneitàdeidati rlievatl,I'lndlvl.duazlonedelie possibili fonti e lemodalità della richiesta delle Informazioni devono essere espressamentee chiaramente riportate nelle Istruzioni del rilevatore.Tranne che per i rifiuti, le Informazioni necessarie per In<strong>di</strong>viduarela motivazione delta mancata intervista devono essere rl-chieste ad altri, ad esempio I vicini <strong>di</strong> casa, la persona trovataall'in<strong>di</strong>rizzo, il portiere dello stabile eCc_ ~ tuttavia improbabile,soprattutto nelle gran<strong>di</strong> città, che l'lntervlstatore riesca a classificareIn maniera analitica le unità non Intervistate; è quin<strong>di</strong>opportuno limitare la classificazione standard a poche, ma accertabili,modalità:A) unità presenti all'In<strong>di</strong>rizzo riportato sull'assegnazione del rllevatore.At) che rifiutano l'Intervista (rifiuti);A2) con le quali non è stato possibile stabilire alcun contatto(riòn a casa);B) unità Irreperibili all'in<strong>di</strong>rizzo.Per uno stu<strong>di</strong>o piil analitico del fenomeno, eventualmente daprogrammare per cicli <strong>di</strong> rilevazlonl con un partiCOlare addestramentodegllintervistatori e dei supervlsorl, si suggerisce <strong>di</strong> sud<strong>di</strong>viderela modalità .irreperiblle» all'In<strong>di</strong>rizzo nelle seguenti:B) unità non presenti all'in<strong>di</strong>rizzoB1) per decessoB2) per trasferimento nello stesso comuneB3) . per trasferimento fuori del comune (eventualmente <strong>di</strong>stinguendotra estero. ed altro comune Italiano)B4) per altre cause, voce reslduafe In cui confluiscono le unitàche non è stato possibile classificare altrimenti (adeempio in<strong>di</strong>rizzo errato, persona sconosciuta all'In<strong>di</strong>rizzo,ecc.).Nella classificazione sopra riportata, la <strong>di</strong>stinzione tra trasferimentidentro e·fuorl dello stesSo comune, ha lo_~copo <strong>di</strong> accertarel'appartenenza dell'unità alla popolazione oggetto <strong>di</strong> rllevazlone,poiché, nel caso delle indagini <strong>Istat</strong> sulla popolazione,Il comune rappresenta Il livello territoriale <strong>di</strong> selezione dellefamiglie residenti. Tuttavia, nel caso che il <strong>di</strong>segno <strong>di</strong> campionamentopreveda, come penultimo sta<strong>di</strong>o, una <strong>di</strong>versa unità, itrasferimenti dovrebbero essere riferiti a quest'ultima.Nell'eventualftà che vengano previste sostituzioni delle unitànon rispondentI-, deve essere riportato nel modello un co<strong>di</strong>ceidentificativo, che permetta <strong>di</strong> Istituire un legame tra unità sostitutivae sostituita; Inoltre, nel questionario, le famiglie sostitutivedevono essere Identificate me<strong>di</strong>ante un co<strong>di</strong>ce, per rendernepossibile l'indlvlduazlone In sede <strong>di</strong> elaborazione del dati.~ opportuno riportare su supporto informatico, I documentiaggiuntivi, per facilitare I controlli nella fase <strong>di</strong> revisione quantitatJvae per il calcolò degli In<strong>di</strong>catori dr qu.alltà: . . .


64 IL SISTEMA DI CONTROLLO DELLA'QUAUTÀ DEI DATICAP. 2 - LAPROGmAllO~E DELL'INDAGINE" 65APPENDICE1. Esempi <strong>di</strong> dlagrammazlone del qU8.tlonarlo.IlIu_ito 9.quesito 10.1quesi to 10.2-lalq .... ito 131 lca.oesito 11.1~-tq .... ito 13.2 ICLftito 11.2-,quesito 133 ICL_Ho 11.3ITIIIlUBSito 1:3 4 lauesito 11.4q .... ito 11.~Iquasi to 11 (,~ito 12(bIQUesito 14.2QUesito 14.3Jquesito UFfiCiOI' colloc .._ntoquesito 14 1.... t.." 41"'··"\· " ..qUiqu .... ,,·o ss.'.41 101 •• "\0 ss .•qu_ .... o H •• q ..... ""o 'I .• q"' •• \\.o .t. .•41\1_ .... • .......... • ,.11qu ....... H.II qu ••\.\. q"' •• i.\o "i- .,qu_;,\o l •••qu ••,,\.o '1.7411,1· ... 1.· Si."Cl":·""\.O sa.QUesuto 14.4QUeSito 14 :5QU_lto 14. (,QUeSito 14.7quesi to 14.8-,... I.t,o\.~ c-ol.l. ",'.Ii.ci.,~, ,~ol.~.••• i.on. S4••• i.on. sII ••• i.on • SS",••• i.on. s.,- .,'. ••• ·••• "0". i4.. 0".; , .(clqJlKHo 1:; 1Iquesito 15 2(dl. 1quesito' 15.3auesito 16fineFigura 2.4 - Diagramma della sequenza del quesiti per il questionario In<strong>di</strong>viduai. dell'Indagineforze <strong>di</strong> lavoro . .t ,.~.'.:.,.',1''1Figura 2.5 - Dlaaramma della ieqllèi1Za del queSltlnec-.rta per !ndlvld",are la. çondlzlone <strong>di</strong> -occupato»nell'Indagine fOrze <strong>di</strong> lavoro '. , " . .' •.


66 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 2· LA PROGETTAZIONE DELL'INDAGINE67A titolo <strong>di</strong> esempio si riporta, nella figura 2.4, la <strong>di</strong>agrammazionedel flusso dei quesiti del questionario in<strong>di</strong>viduale utilizzatonell'<strong>indagine</strong> sulle forze <strong>di</strong> lavoro 1988.La rappresentanzione, nella suddetta forma, delle relazioniInterne del modello, permette <strong>di</strong> in<strong>di</strong>viduare alcune incongruenzenella stesura del questionario:(a) non esiste un rimando <strong>di</strong>retto dal quesito 10.2 al quesito 13;Il salto è specificato solo in quest'ultima domanda;(b) nei quesiti 13.1 e 13.2 si rimanda al quesito 14, cosicché nonè chiaro se la domanda relativa all'ufficio <strong>di</strong> collocamentodebba o meno rimanere escluso dalla sequenza;(c) non esiste un rimando <strong>di</strong>retto dal quesito 14.7 alla domanda15; Il salto è possibile solo dopo la lettura delle avvertenzeal quesito 14.8; ,(d) esiste un'apparente contrad<strong>di</strong>zione tra l'avvertenza al questito15.1 (se "SI .. rispondere sia al 15.2 che al 15.3) ed il rimandoalla domanda 16 dopo la 15.2; tale contrad<strong>di</strong>zione viene rimossasolo dall'avvertenza al quesito 15.3Nella figura 2.5, invece, la <strong>di</strong>agrammazione riguarda Il flussodei quesiti che caratterizza la con<strong>di</strong>zione <strong>di</strong> OCCUPATO; schemisimili possono essere ottenuti per le altre con<strong>di</strong>zioni in<strong>di</strong>catedalle «uscite» B e C.2. Il sistema dei co<strong>di</strong>ci identificativiIl sistema dei co<strong>di</strong>ci identificativi, associato ad una rilevazionestatistica, ha lo scopo <strong>di</strong> permettere la ricostruzione del contenutoinformativo dell'<strong>indagine</strong> stessa; nell'ambito del Sistema<strong>di</strong> Controllo, è alla base dei controlli quantitat/Vi nella fase <strong>di</strong> revisione(cfr. Capitolo 5).Il controllo quantltativodel materiale raccolto riguarda nonsolo la consistenza quantltativa in senso stretto (ad es., il fattoche in ciascun comune sia stato intervistato un numero <strong>di</strong> famiglieuguale a quello previsto) ma anche la ricostruibilità dei legamitra informazioni <strong>di</strong> natura <strong>di</strong>versa (ad es., in un'<strong>indagine</strong> sullefamiglie e sui loro componenti, che le notizie relative ad ogni componentesiano associabili alle notizie relative alla famiglia <strong>di</strong> appartenenza).La mancata esecuzione <strong>di</strong> questo secondo tipo <strong>di</strong>controllo, infatti, renderebbe <strong>di</strong>fficoltosi i successivi controlli logici(ad es., che ogni famiglia abbia un capofamiglia).La controllabilità <strong>di</strong> entrambi questi aspetti <strong>di</strong>pende dal modoin cui è definito il sistema del co<strong>di</strong>ci associato al file conte-nente, i dati provenienti dall'<strong>indagine</strong>, una volta posti su supportoinformatico.Nel seguito ci soffermeremo su come vengono definiti tali ca<strong>di</strong>ci,a partire dalla considerazione dei co<strong>di</strong>ci che compaiono sulmateriale cartaceo (in pratica, sulmodello<strong>di</strong> rilevazione), descrivendoprima l'insieme dei co<strong>di</strong>ci che pOssono teoricamente esseredefiniti, e quin<strong>di</strong> illustrando come la rappresentazionefisicaadottata per i dati su supporto informatico determini "insiemedei co<strong>di</strong>ci praticamente presenti nel materiale registrato.Come è noto" in un'<strong>indagine</strong> statistica a ciascuna unità <strong>di</strong> rilevazlone<strong>di</strong> un dato tipo (ad es., a ciascuna famiglia, o aciascunaimprEilsa) corrisponde un modello<strong>di</strong>.rllevazione (ad ,es;, il foglio<strong>di</strong> famiglia). In ogni modello compaiono uno o più co<strong>di</strong>ci iden.tificativi, COITI posti generalmente <strong>di</strong> sottocodlci: ad esempio, inun modello potrà comparire un co<strong>di</strong>ce cosi composto: co<strong>di</strong>ce <strong>Istat</strong>comune +numefO d~or<strong>di</strong>ne del questionario, ed eventualmenteun secondo co<strong>di</strong>ce: co<strong>di</strong>ce <strong>Istat</strong> comune + co<strong>di</strong>ce area <strong>di</strong> circolazione+ co<strong>di</strong>ce rilevatore + numero,d'or<strong>di</strong>ne del questionario.Scopo <strong>di</strong> questi co<strong>di</strong>ci è:identificare IIsiog,olo modello, permettendO <strong>di</strong> conteggiarele unità rilevate (ad esempio le famiglie);permettere l'associazione tra unità rilevate e loro raggruppamentisignificativi, definiti nella fase <strong>di</strong> progettazione dell'<strong>indagine</strong>:strati o grappoli <strong>di</strong>unità definiti nel piano teorico <strong>di</strong>campionamento (è, Il caso <strong>di</strong> associazioni comefamiglia-comune,comune-strato <strong>di</strong>, comuni), raggruppamenti territoriali(ad es., famiglia-sezione <strong>di</strong> cenSimento), raggruppamenti d'interesseper le successive analisi statistiche sul dati;- associare al modello il rilevatore e altri organi della rllevazione.Come già osservato, nei dati registrati sono presenti altri co<strong>di</strong>ci,oltre ai co<strong>di</strong>ci' associati a ciascun modello <strong>di</strong> rilevazione,ai quali è affidata la ricostrulbilità dell'informazione complessivamenteportata dal modello.Il modello <strong>di</strong> rllevazione, Infatti; contiene informazioni su unao piÙ unità <strong>di</strong> analisi (ad es., componenti della famiglia), ed eventualmentesu uno o più fenomeni osservati (ad esempio le vacanze,o j ricoveri ospedalieri) che, dopo la fase <strong>di</strong> registrazione,si trovano organizzate in uno o più file. Generalmente nei piani<strong>di</strong> elaborazione dei dati vengono definiti <strong>di</strong>versi tipi <strong>di</strong> file, ciascunoriportante informazioni <strong>di</strong> tipo <strong>di</strong>verso. Ad esempio, un'<strong>indagine</strong>sui consumi delle famiglie potrà dare luogo dal punto <strong>di</strong>vista informatico a tre file: dati sulle famiglie,sulle persone, sullespese mensili delle famiglie. In tal caso, le informazioni contenutein ciascun modello si troveranno sud<strong>di</strong>vise su più record:


68IL SISTEMA DI CONTROLLO DELLA QUAUTA DEI DAnCAP. 2 • LA PROGETTAZIONEDELL·INDAGINEGH .nelemi clInfarmulonlCOIIIpCHItInUun· .............. Ucanell'esemplO;clascunmodeUo relativo al consumi <strong>di</strong>'una famigliacorrisponderà a tre Insiemi <strong>di</strong> record del tre tipi suddetti: unrecord COn t dati aulla famiglia, 'alcuni record con I dati su ciascunapersona, altri ècm I, daU'su ciascun capltofé!tdl spesa.La rlcostruzlonedell"lnformazione contenutanell'lntéro mc>dello'èiposslbllesoIo'assaciaildo'traforoIdlversl'record me<strong>di</strong>anteI co<strong>di</strong>ci presenti su<strong>di</strong> essl~cl6 rende determlmmte fesatta definizione,e Il 'controllo dHalt Co<strong>di</strong>cI; i', i"• , i _o,; , ,; :~. ;; ,- "'"I ~ 1.", ." . "1; ". c":I <strong>di</strong>stinti tipi <strong>di</strong> file che possono essere definiti per ciascuna<strong>indagine</strong>. corrispondono a ben, IdentlftèablU sottolns1eml' delle Informazioniraccolte nelmodelto, e'precisamente agO Insiemi <strong>di</strong> 'Informazioni relatM a <strong>di</strong>stlnteunltà'd'anallsle fenomenI; I co<strong>di</strong>ci,che dovranno essere defintl dlpenderannoperCtò danegamilogici' sussistenti tra tan sottolnslerm dJ: Informazioni."', Quantodettoevldenzié come, per poter deflnlre Uslstema delco<strong>di</strong>ci, devono esserelmllvlduatle deseritti.tuttl gli Instemldlinformazioni cOReettualment .. <strong>di</strong>stinti che compongonol'lndaglne,e' legami logici tra <strong>di</strong> essi. ,', ,!n pratica si tratta <strong>di</strong> in<strong>di</strong>viduare, per ciascuna Indagine:a)' le aggregazioni d'interesse delle unUàrilevate, che determinanola composizione del/del co<strong>di</strong>ci' <strong>di</strong>, modello;;;"b) I sottolnsleml <strong>di</strong>stinti <strong>di</strong> Informazioni logicamente In<strong>di</strong>vidua·bili nel modellO, che potranootrovarsl <strong>di</strong>stinti ,fisicamente, dalpunto <strong>di</strong> vista informatico, In'dlverslflle"a clascuoo del qualicorrisponderà un co<strong>di</strong>ce- <strong>di</strong>pendente datco<strong>di</strong>ce dI 'modello;c) i legami tra tutti questUlpl <strong>di</strong> unità, che potranno trovarsi rappresentatifisicamente da co<strong>di</strong>ci <strong>di</strong> corrispondenza presentisul <strong>di</strong>versi record. ' , ," ." .;".Questa attività deve essere svolta dal responsabile dell'Indaginenella fase <strong>di</strong> progettazione della stessa, e sarà facilitata dall'uso<strong>di</strong> metodologle dt progettazione concettuale già in tale fase.Nella progettaztone <strong>di</strong> un~indaglne statistica, vengono definiti:'.', :",.:1 ,. :/ "';" .', "l- il collettivo 01 collettivi che si Intende bsservare(ades., persone,famiglie, imprese). Questi 'definiscOno la/le unltàd'anallslprlnclpalt dell'Indagine. PUÒ avere Interesse; per chi progettal'Indagine, condurre analisi, statlsttehe-sui raggruppàmenti<strong>di</strong> taHunltà d'analisi: che possiamo considerare unitàd'analisi <strong>di</strong> tipo aggregato (ad es., famiglie come aggregazionidel'loro componenti). Inoltre; possono.essere definiti uoo opiù fenomeni d'lnteresse,SpéCificodell'lndaglne (ad es'j sporte vacanze degli itaHanl, lavoro);," ';',0- Il piano teorico <strong>di</strong> rllevazlone, nel quale vengono definiti, aifini della "Ievazione, <strong>di</strong>versi livelli <strong>di</strong> raggruppamento <strong>di</strong> unitàd'analisi: allivello più basso, la/le unità <strong>di</strong> rltevazlone(ades., famiglie e convivenze po~sonocostltulre unità <strong>di</strong> rllevazlonerispetto all'unità d'analisi persone), al livelli superioritutti i raggruppamerttl richiesti dar <strong>di</strong>segno campionario oppure<strong>di</strong> tipo territoriale: strati o grappoli <strong>di</strong>' unità <strong>di</strong> rllevazione.aree <strong>di</strong> rllevazlone,sezionl <strong>di</strong> cenSimento;: ' , ;,- l'organiZzazlonè sut campo, nella quafe .,.ng~ defl!,!ltl gliorgani della i'llevazlonsì al qu.lt è demandata Ileff,ttu~lonepratlcà delleopéraZionl <strong>di</strong> raccolt,1l ~el dàtl: rltev.tOrl" Cpmuni,UPS, ecc,~,'Qulndl,lnuna generica Indagine si POSSOno Indlviduar8,quattrotipl(lllns/el7J! cltog9fJtti ellumèrBl?l/I: " . ,'," ,1) unlt_, (l'analisi, quelle principali e quelle ottenlbiJI come rlsul­, ta.to <strong>di</strong> aggreg$Zlòni;2) fenQmenl, o eventi, o$Servatl'3) unità dj'rUevplonf)r; e loro raggruppamffmtl, terrltt;lrlall,e no,che abbiano $Igrllflc~o sJatlstlcq con rJferlmlmt9 al piani teorici<strong>di</strong> rlle~aziòne:,stfat/, ~ <strong>di</strong> r,/ev~/one, stRlon/dl cfins/-mento ',' , ." " "",,' , .,.'4) organi della rll{Jvazlone, che cOI11Pongono l'Qrganl~one sulcampo.Nell'ind~gine:'potranno e~re d~flnlte una o più unità d'analisi,uno opiù,fenomenl oss8rva,tl, una oplù \,Inltà <strong>di</strong> rllevazlone,uno O pii) organi dallarilevazlone.Martire si, rlrMJlda per un. plù,completa trattazione delle unità<strong>di</strong> rilevaztOne e unità <strong>di</strong> analisi al cap. 2del Manuale'dl <strong>tecniche</strong>d'Indagine, Fasclcololò è opportuno preclsare,ln questo cont.sto, alcuni concetti:,l •-'con il termine unità <strong>di</strong> analisi si definiscel'insleme,dl elementiche compone,1I collettivo che Interessa osservare al flnldall'<strong>indagine</strong>:in<strong>di</strong>vidui, Imprese, ecc., In pratica Il collettl'lo alquale sooo riferite le notlzie:raçcoltecon"lndaglne}: "',- chiamiamo anzttutto unltàdlrllevazJonel'insjemè'dl' elèmentlsul'quala vengono raccoltJI dati: a ciascun elementO' <strong>di</strong>qu.stò insieme corrisponderà un modello <strong>di</strong> rllevazlone (nèllelndaginlsu popolazione e famiglie si tratterà In genere dell'Insiemedelle famiglie; ma potrà In alcuni casi trattarsI' dell'Insiemedegli in<strong>di</strong>vidui). Nelle rllevazloni a pii':! sta<strong>di</strong> vengonopoi definiti Insiemi <strong>di</strong> unità che costituiscono grappoli delle


70 IL SISTEMA DI CONTROllO DELLA QUALITÀ DEI DATICAP. 2 • LA PROGETTAZIONE DELL'INDAGINE71corrispondenti al modello: chiameremo anche questi Insiemiunità <strong>di</strong> rilevazione. Ad esempio, in un'Indagine campionariaa due sta<strong>di</strong>. con unità <strong>di</strong> primo sta<strong>di</strong>o I comuni e <strong>di</strong> secondosta<strong>di</strong>o le famlgUe,le famiglie costituiscono l'unità <strong>di</strong>rllevazlone <strong>di</strong> plI7.J basso livello,corrispondef'!te al modello, esono c()n~lderate; raggruppate In comuni:, In questo caso chiameremounità <strong>di</strong> rilevazlone tanto le,famlgJle che I comuni.Infine, considereremo, in questo terzo gruppo <strong>di</strong> Insiemi <strong>di</strong> og·getti enumerabili anche Mti i raggrupparoElf,lti dellecdlverseunità <strong>di</strong> rllevazlone che in unadataln,daglneèpossii;)ife definire,e cJoè: strati e, a livello terrìtorlalè,aree <strong>di</strong> çlrcolazioneo sezioni <strong>di</strong> censimento. " ,,",'Un Insieme <strong>di</strong> elementi può essere conteiriporaneamenteunit~ <strong>di</strong> rllevaz/one e <strong>di</strong> ~nalis/: se,In un'Indagine su popolaZioneefarnlglle, la flilmlgUa il unità <strong>di</strong> rllevazione eal tempostesso su <strong>di</strong> essa vengono rlchlesfènotlzie, 8SSa costi·tulrà anche un'unità <strong>di</strong> analisi.hl generaìe uno stesso Insle'ine '<strong>di</strong>otJgeU/puòc'6mparireIn un'Indagine con <strong>di</strong>verse funzioni:, Il'cornQlle; ol'llrea <strong>di</strong> rllevazlone,può comparire tanto tome un raggruppamento <strong>di</strong>'unità dììtnailsl'(ad es;; <strong>di</strong> filmfgllè)rllèvàntepér "analisI' sta­'tlsfldai' ~uaht'o come un organo de,hr'rll'evlÌZlolÌé.I'n, questo'caso, il rarativo' còtfìc8''J)uo ct5mpa'rite come cdrnpdnentè <strong>di</strong><strong>di</strong>versi co<strong>di</strong>ci <strong>di</strong> modello. Per quanto detto, a ciascuna unità<strong>di</strong> rllevliZlone'e <strong>di</strong> analisi; e a clasèun organò dellarflliivazione,corrisponde un Insieme enumerabile <strong>di</strong> elementi (àdes.,l'insieme del comuni, l'Insieme delle Imprese, o del compo·nentl'lefarnlglre, l'Insieme i:let rllevatotl),> ' ",Pér cleS cM riguardai fenbmenlosservatl; sI fa notare chein alcuni casi il fenomeno osservato in una da'là' <strong>indagine</strong> èdefinito unleamentécome una caratterlstlcattelle unità <strong>di</strong> analisi,mentre In altri casi dà luogo ad urteventoche, sia pureosservato sulle unità d'analisi, può ss,eredescrino Et soprattuttoenumerato in<strong>di</strong>pendentemente: un esempio del primocaso è Il lavoro (non può definirsi un evento -lavoro- conteg-, giablle.lndlpendentementedalle.persone}.'esempl'del;secondocaso sono le· vacanze, I rtcover~ ospedalletl, ecc:. Petclò nonIn tutte le Indagini esisteranno classi enumerablU del secondotipo sopra elencato, corrispondenti cioè a fenomeni (eventI).Per ciò che riguarda I/egaml./oglcl che possono esisteretra le,classl<strong>di</strong> oggetti del dlversttlpl, conviene rappresentar­Il con lo schematismo graficoJ:dottato nella ~eguente Figura2.6. In essa ciascuna classe <strong>di</strong> oggetti enurnerabillit rappresentatacon un nodo, e I legami <strong>di</strong> corrlspondeliza,tra le<strong>di</strong>verse classi <strong>di</strong> ogget~i con archi che collegano I corrispondentino<strong>di</strong>.L'unità <strong>di</strong> rilevlllZione <strong>di</strong> plI7.J basso livello, alla quale corrispondeil modello, è in<strong>di</strong>cata con un nodo pieno. Per semplicitànon sono stati In<strong>di</strong>cati I raggruppamenti <strong>di</strong> unità <strong>di</strong>rilevazione e gli organi della rilevazione. Un singolo arco In<strong>di</strong>cauna relazione 1"n tra Il nodo <strong>di</strong> sinistra e quellO <strong>di</strong> destra,un doppio arco una,relazlone m-n. Come si osservanella Figura 2.6, nelle indagini statistiche sono generalmentedefinite catene <strong>di</strong> relazioni 1-n tra le unità <strong>di</strong> rilevazione,da queste alle <strong>di</strong>verse unità d'analisi e da queste agli eventI.Relazioni m-n possono sussistere tra le <strong>di</strong>verse unità d'analisie tra unità d'analisi ed eventi osservati su una unitàd'analisi <strong>di</strong>versa.•Questo tipo <strong>di</strong> rappresentazione è particolarmente utileper visualizzare il meccanismo <strong>di</strong> costruzione del co<strong>di</strong>ci identificativi.I leg"mi logici tra le classi <strong>di</strong> 09Q~~~l&.numerabili che com·pongono "<strong>indagine</strong>, determinano il mod() l,h cui è costruito Il co<strong>di</strong>ceidentificativo attribuito agli elemerin<strong>di</strong> ogni classe <strong>di</strong> oggetti:la costruzione dei co<strong>di</strong>ci Identificativi è basata su un meccanismo<strong>di</strong> propagazione dei co<strong>di</strong>ci che tiene conto <strong>di</strong> questi legamilogici.In generale, 11 meccanismo <strong>di</strong> propagazione del co<strong>di</strong>ci in un'Indaginestatistica è il seguente: i co<strong>di</strong>ci si propagano lungo le catene<strong>di</strong>relazionl1-n, rappresentate nella Figura 2.6, e perciò dalraggruppamento <strong>di</strong> piI7.J alto liveno, a quello <strong>di</strong> livello piI7.J basso,fino all'unità ,<strong>di</strong> rilevazlone <strong>di</strong> plI7.J basso livello, corrispondenteal modello, quin<strong>di</strong> da questa alle unità d'analisi e da queste aglieventi.Ciò vuoi <strong>di</strong>re, ad esempio, che ilcodlce identificativo dell'unitàd'analisi sarà composto dal co<strong>di</strong>ci identificativi delle <strong>di</strong>verseunità <strong>di</strong> rllevazlone(ad esempio, ii'fuWfnd'aglne a due sta<strong>di</strong>sulla popolazione, con unità <strong>di</strong> rilevàZlone:comuni e famiglie, 'il co<strong>di</strong>ce identificativo del singolo indlvlduò dovrà comprendereil co<strong>di</strong>ce <strong>di</strong> comune eli co<strong>di</strong>ce della famiglia). Ad ogni pas~saggio lungo I legami ràppresentatl viene aggiunta una componentedel co<strong>di</strong>ce <strong>di</strong> livello pii! basso, che serve a <strong>di</strong>stingueregli oggetti della data classe <strong>di</strong> oggetti (si tratterà In pratica <strong>di</strong>un numero d'or<strong>di</strong>ne).A~ esempio si avrà, nella situazione descritta:Co<strong>di</strong>ce comune: preso da liste esterne;L ....... logIcIlnIc .... 1 <strong>di</strong> oggetti •ca<strong>di</strong>ci IdenUIlcaUvI


72 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 2 • LA PROGETTI\ZIONE DELL'INDAGINi73Co<strong>di</strong>ce famiglia: co<strong>di</strong>ce comune + numero d'or<strong>di</strong>ne famiglia (numero<strong>di</strong> questionario);Co<strong>di</strong>ce in<strong>di</strong>viduo: co<strong>di</strong>ce famiglia + numero d'or<strong>di</strong>ne in<strong>di</strong>viduo·Co<strong>di</strong>ce fenomeno: co<strong>di</strong>ce famiglia + numero d'or<strong>di</strong>ne fenomeno;oppureco<strong>di</strong>ce in<strong>di</strong>viduo + numero d'or<strong>di</strong>ne fenomenosecondo l'unità d'analisi sulla quale è osservato l'evento, famigliaoppure in<strong>di</strong>viduo (ad esempio, il fenomeno .spese- sarà osservatosulle famiglie, il fenomeno .ricoverl ospedalleri- sugli in<strong>di</strong>vidui).Va osservato che tale propagazione è possibile proprio perchéle relazioni .comune-famiglia, famiglia-in<strong>di</strong>viduo, etc. sono 1-ntra il membro <strong>di</strong> sinistra e quello <strong>di</strong> destra.A ciascuna classe <strong>di</strong> oggetti potrà essere attribuito più <strong>di</strong> unco<strong>di</strong>ce, sempre costruito nello stesso modo: ad esempio, la famigliapotrà avere un secondo co<strong>di</strong>ce, utile per controllare l'organizzazionesul campo, composto da co<strong>di</strong>ce comune + co<strong>di</strong>cerilevatore + numero d'or<strong>di</strong>ne della famiglia.B) d lallra ....... spec:i f'i ca par l'i ndaginli! mul t i scopa.'l....---li.nchv\.dul.'----~ ..... -f .pOI" "Figura 2.6 • Diagramma del meccanismo <strong>di</strong> propagazione dei co<strong>di</strong>ci identificativi inuna Indagine statisticaA ciascuna classe <strong>di</strong> oggetti enumerabile <strong>di</strong> uno dei tipi descritticorrisponderà un insieme <strong>di</strong> dati logicamente <strong>di</strong>stinto, conun proprio co<strong>di</strong>ce identificativo costruito come descritto.Dal punto <strong>di</strong> vista informatico ciaScuno d/questi insiemi <strong>di</strong>dati logicamente <strong>di</strong>stinti potr~ dare luogo o meno ad un file separato.Nel caso positivo avremo un file, e perciò un tipo-record<strong>di</strong>fferente, per ogni insieme <strong>di</strong> un dato tipo: ad es., in un'<strong>indagine</strong>a due sta<strong>di</strong> sulle vacanzfit /attettuate dal componenti le famiglie,saranno definiti a livello fisico un file per ICQmunl, uno perle famigliE!, uno per I componenti, uno per le vacanze, .10 casocontrario, in uno stesso tipo-record potrannO trovarslrappresentatiinsiemi <strong>di</strong> oggettil9gicilmente<strong>di</strong>stinti: nell'es~mpiò prl:lsentatosopra, uno stesso tlpo-record potrà cQntenerE! le no!izle sullefamiglie e i I.oro co",ponE!nti. o sui compollentUe famiglie e leloro vacanze. .DI conseguenza,gl( insiemi <strong>di</strong> caglcl effettivamente presentinel materiale regi~trato. sui quali verranno svolti tutti i cQntrolllquantitatlvi, <strong>di</strong>pendono tanto dalleg,a,lT# laglc/trale <strong>di</strong>verse classi<strong>di</strong> dati <strong>di</strong> ciascuno dei tipi suddetti presenti nella dat.a <strong>indagine</strong>,quanto dal tipo <strong>di</strong> rappresentazione fisica adottata per esse alivello informatico" . .. I legami logici che possono esistere tra le classi d'oggetti<strong>di</strong> vario tipo sono quelli rappresentati schematicamente nelle figureIn allegato e che, come già osservato, determinano il meccanismo<strong>di</strong> formazione dei co<strong>di</strong>ci.Circa la. rappr~ntaz(one fisica adottata per le <strong>di</strong>verseclassi<strong>di</strong> oggetti, consideriamo per fissare le idE!e i due casi estremi:ad ogni classe <strong>di</strong> oggetti corrisponde un tipo-record fisico;tutte le classi <strong>di</strong> oggetti sono contenute in campi multipli <strong>di</strong>uno stesso record fisico.


74 IL SISTEMA DI CONTROLLO DELLA QUALITA DEI· DATICAP. 2· LA PROGETTAZIONE DELL'INDAGINE75Nel primo caso, per ogni tipo-record corrispondente ad unadata classe <strong>di</strong> oggetti, sarà definito un Identificativo compostocome descritto, a livello loglcoj nel paragrafo precedente.Occorre osservare, però, che nelle applicazioni statistiche nonha Interesse, In genere, poter selezionare il singolo record <strong>di</strong> ciascuntlpo-record. L'unica funzione. degli Identificativi è quin<strong>di</strong>quella <strong>di</strong> consentire Il puntamento tra i singoli record <strong>di</strong> tipi record<strong>di</strong>versi, lungo le catene descritte a livello logico nel paragrafoprecedente: In pratica, poter associare a ciascun recordcorrispondente ad una unità dI· rllevazione J relativi record corrispondentIa unità d'analisi e a questi I record corrispondenti aeventi osservati. Il controllo <strong>di</strong> questi puntamentl sarà realizzatoattraverso il controllo della corrispondenza tra le <strong>di</strong>verse componentidei co<strong>di</strong>ci nei <strong>di</strong>versi tipi-record (ad es., co<strong>di</strong>ce comunee co<strong>di</strong>ce modello dovranl1Q essere gli, stessi sul tipo record «famiglia»e sul tipo record «In<strong>di</strong>viduo»).Va notato che una conseguenza dell'osservazione precedente,sull'lrrilevanza nelle applicazioni statistiche della possibilità <strong>di</strong>selezione <strong>di</strong> un singolo record, è che Il tipo-record corrispondentealla classe, <strong>di</strong> oggettI situata alla fine della catena (tipi~ameot",un evento) può anch~ non avere un Identificativo <strong>di</strong> più basso'livello (unn!Jmero d'or<strong>di</strong>ne). Lo avràhei caslln:cui è necessariorappresentare Un puntamento tra tipi record in<strong>di</strong>pendente dallacatena <strong>di</strong> propagazione dei co<strong>di</strong>CI e cioè una relazione, del tiporappr~$entato nelle figure dal doppio arco, tra ùn nodo unità d'analisie' un nodo fel)omèno: questo caso rlj;lntra nel controllo deipuntamentl Uaclassi <strong>di</strong> oggetti (vedloitre), , .SI osserva ancora che anche il numero <strong>di</strong> record, <strong>di</strong> un certotipo record, effettivamente assOciati ad un altro tipo record dovrebbeesserecont~ollato(nel corso del controllo sui cO<strong>di</strong>ci o,nel caso In cui nOn esistono I numeri d'or<strong>di</strong>ne, me<strong>di</strong>ante conteggiod~i record flslcQ, In tutti I casi nei quali esistono campi cheriportano questa Informàzlone, per esempio a scopo <strong>di</strong> controt"lo (ad es. esiste nel tipo-record «famiglia» un campo «numero delcomponenti»). '. .Infine, owiamente, tutti i tipi record dovranno avere un identlficatlvo'dlpiO basso livello, da controllarà, in quei casi; eccezionalirispetto alla norma, nel quali Interessa comunque trattarllIn<strong>di</strong>vidualmente. ", . .Per quel che riguarda il secondo caso (classi'<strong>di</strong> oggetti contenutein campi multipli <strong>di</strong> uno stesso record fisico), una suaesemplificazione concreta si ha quando esiste un unico tipo-recordassociato all'unità <strong>di</strong> rilevazlone finale, o all'unità d'analisi,all'Interno del quale la classe <strong>di</strong> oggetti corrispondente all'unitàd'analisi, o, rispettivamente, all'evento osservato è rappre-sentata fisicamente come un campo multiplo. In questo caso èevidente che l'associazione tra classi <strong>di</strong> oggetti é realizzata a livellofisico, e non è necessario definire Identificatori <strong>di</strong> piO bassolivello (numeri d'or<strong>di</strong>ne) e controllare puntamenti. Valgono comunqueanche in questo caso le tre osservazioni, fatte In precedenza,circa i casi In cui può darsi la necessità <strong>di</strong> definire un co<strong>di</strong>ceidentificativo <strong>di</strong> piO basso livello o comunque <strong>di</strong> controllareil numero <strong>di</strong> campi (controllo <strong>di</strong> puntamenti tra tipi record in<strong>di</strong>pendentidalla catena <strong>di</strong> propagazione del co<strong>di</strong>ci, esistenza <strong>di</strong>campi che riportano Informazioni sulla numerosltà <strong>di</strong> altri campi,interesse per Il trattamento del dato In<strong>di</strong>viduale).Le situazioni reali circa la rappresentazione fisica delle classi<strong>di</strong> oggetti costituiranno combinazioni delle due situazioni estremesopra descritte, e risulteranno determinati <strong>di</strong> conseguenzaI tipi <strong>di</strong> controlli quantltativi da effettuarsI.Come anticipato, può essere necessario in un'Indagine renderepossibili, attraverso la definizione <strong>di</strong> appropriati co<strong>di</strong>ci <strong>di</strong>corrispondenza, puntamenti tra classi <strong>di</strong> oggetti.Può awenire cioè che, In<strong>di</strong>pendentemente dalla catena <strong>di</strong> propagazionedei co<strong>di</strong>ci sopra descritta, possano esistere altri .Iegamilogici tra classi <strong>di</strong> oggetti, rappresentati nelle figure condoppi archi perché <strong>di</strong> tipo m-n: è il caso del legame tra in<strong>di</strong>viduie vacanze, «componenti la famiglia che hanno partecipato ad unavacanza». Questi saranno sempre rappresentati a III/elio fisicoda puntamenti, cioè da corrispondenze tra co<strong>di</strong>ci associati a tiplrecordo a campi <strong>di</strong> uno stesso record, qualsiasi sia la rappresentazionefisica adottata per le classi <strong>di</strong> oggetti collegate. Talipuntamenti tra classi <strong>di</strong> oggetti dovranno naturalmente esseresempre controllati.


CAP. 2· LA PROGETTAZIONE DELL'INDAGINEnRIFERIMENTI BIBLIOGRAFICIM.W. (1985), Speclal Issue on questlonnalre design, Joumal of Offl·clal Statlstlcs, n. 2, Statlstlcs Sweden.BARCAROU G., FoRTuNATO E., MAGALOTTl A., MANICARDI G., VACCAPI C. (1987),. Manuale per la progettazione concettuale <strong>di</strong> dati statltlstlcl, <strong>Istat</strong>.8ARcAROU G., O'ANGIOUNl G. (1988), La progettazione concettuale del si·stemllnformatlvl statistici, <strong>Istat</strong>, documento Interno.MASSEW M., DE MARCHIS M.A., SIGNORE M., DI PIETRO E. (1988), Obiettivie meto<strong>di</strong> <strong>di</strong> controllo dell'Indagine pilota -Indagine sulla storia lavorativa,documento Interno <strong>Istat</strong>.NARGUNDKAR M.S., PLATEK R. (1989), Qualltatlve methods In questlonna/­re design, I.S.I. Proceedlngs of 47th sesslon, Parls.WORLD FERTIUTY SURVEY (1980), Basic Documentatlon: n. 4.'.:~


CAPITOLO 3 • LA RILEVAZIONE SUL CAMPO1. La fase <strong>di</strong> rilevazlone sul campoLa fase <strong>di</strong> rilevazlone sul campo include la raccolta delle in·formazioni presso il rispondente e tutte le operazioni a questaaccessorie, realizzate dall'organizzazione periferica: la manuten·zione e l'approntamento delle liste o <strong>di</strong> altri moduli organizzatividella rilevazione (ad esempio la sud<strong>di</strong>visione del territorio In aree),la selezione delle unità, la pre<strong>di</strong>sposizione delle assegnazioni deirilevatori e dei documenti ausiliari <strong>di</strong> rilevazlone, la scelta e ·l'i·struzione dei rilevatori, la pubblicizzazione locale dell'<strong>indagine</strong>,l'attività <strong>di</strong> supervislone, la co<strong>di</strong>fica dei quesiti aperti.La caratteristica prinCipale <strong>di</strong> questa fase, è che essa, al contrariodelle altre, è solo parzialmente sotto Il <strong>di</strong>retto controllo dell'Istitutoe che non è possibile mo<strong>di</strong>ficare significativamente, durantelo svolgimento delle operazioni, le procedure prestabilite.Ciò comporta che la quallM dei risultati delle operaZioni sul campo,è strettamente <strong>di</strong>pendente dalle scelte operate nella fase <strong>di</strong>prog~ttazione e riguardanti il questionario, le norme, i manuali<strong>di</strong> istruzione, il càlendario e l'organizzazione; in questa fase, quin<strong>di</strong>,si rifle~tono le insufficienze derivanti da quella <strong>di</strong> programmazione.In aggiunta agli erroriimportati dalla fase precedente, quella<strong>di</strong> rilevazione ne genera <strong>di</strong> propri. Essi rappresentano la granparte dell'errore totale e sono imputabili al comportamento del"le unità coinvolte: gli organi <strong>di</strong> rilevazione e <strong>di</strong> supervlsione, I rilevatoried I rispondenti.Una parte dei suddetti errori, che possono essere considerati<strong>di</strong> misura in senso lato, può essere identificata e corretta nellafase <strong>di</strong> revisione; una seconda parte, invece, non è in<strong>di</strong>viduabileme<strong>di</strong>ante le. usuali analisi del materiale raccolto, ma soloper mezzo <strong>di</strong> opportune <strong>tecniche</strong> <strong>di</strong> stima e non è, .generalmente,suscettibile <strong>di</strong> correzione.2. Gli errori <strong>di</strong> rilevazlone ed I loro effettiGli errori che possono verificarsi nella fase <strong>di</strong> rilevazione sulcampo, sono quelli derivanti dalla tenuta degli archivi e delle liste,dalle operazioni <strong>di</strong> selezione delle unità campionarie, dallacompilazione dei documenti <strong>di</strong> rilevazione e dall'assegnazione<strong>di</strong> co<strong>di</strong>ci <strong>di</strong> identificazione dalle unità, dalle unità non rispondentie dalla misurazione non corretta dei fenomeni oggetto <strong>di</strong> stu<strong>di</strong>o,


80 IL SISTEMA Di CONTROLLO DELLA-QUAUTÀ DEI DATICAP. 3 - LA RILEVAZIONE SUL CAMPO81Gli enarI <strong>di</strong> uIuIone• <strong>di</strong> .....dall'eventuale co<strong>di</strong>fica dei quesiti non precodlficatl. Gli errori <strong>di</strong>lista, <strong>di</strong> selezione e <strong>di</strong> Identificazione delle unità, sono imputabilialle strutture organizzatlveperlferlche, responsabili degli archivie delle operazioni sul campo, mentre gli altri sono ascrivibilial complesso delle relazioni che si Instaurano, al momentodel primo contatto e dell'Intervista, tra intervlstatore e rispondente,nonché al tipo <strong>di</strong> assistenza -8 <strong>di</strong> controllo esercitati dal supervisoresul gruppo <strong>di</strong> rilevatorl affldatogll·· cIn particolare, durante l'Intervista, gll errori possono derivaredal seguenti fattori: l'Influenza del rllevatorl sui. rispondenti,la reticenza, la <strong>di</strong>fficoltà a rlcordare.Jascaf$8 motivazione arispoodere,la 'mancanza <strong>di</strong> informazJonl del rlsp~en1l, Il con<strong>di</strong>zionamentosu questi e~rcitato dal 'a presenza <strong>di</strong> terze p,arsone,la raccolta da aUra unità delle Informazioni riguardanti quelladesignata ed, Infine, I, <strong>di</strong>sattenzione e la trascurat8Z2;a nellacompilazione del questionarlQ, " " "Il cPlTlples.sQ degli errori <strong>di</strong> misura influenza i risultati fln!ili,indu~p'nelle stime, <strong>di</strong>sto~iQnl o va,rlapllltà !lQgluntl~a rispettoa quella propria del fenomeno. "", ."Nel sUcè;:.est$lvl paragfafi, verranno trattati gli effett!, Il con"trollo e la cQÌ'r~loned",i princlpall tra. I sudc:l.ettl tipi <strong>di</strong> errore.Gli errori der:lvantl dal questt{ ~trosp~ttivi è dalla risposta p~oxysono propri della fase dlrllevazlone sul campo; tuttavia SI èpreferito, In un'ott~ca operativa, trattarll nella fase <strong>di</strong> progettazione(Capitolo 2), dato che la loro prevenzione richiede tec~lchee regole specifiche nella predlsposlzlone del questlonaflo.Nel paragrafo 4 del presente capitolo, Invece, sono succintamenteriportate le <strong>tecniche</strong> che ne permettono la stima, che è stata inclusatra I parametri <strong>di</strong> controllo della fase <strong>di</strong> rilevazlone sulcampo. .La lista costituisce Il supporto fisico contenente l'elenco delleunità <strong>di</strong> rllevazlone e le Informazioni necessarie alla loro Indlvlduazlone;per suo tramite è quin<strong>di</strong> possibile procedere alla selezionedelle unità, nel caso d'Indagine campionaria, ed alla lororllevazlone sul campo.Spesso, la lista funge anche da archivio <strong>di</strong> informazioni, utilizzatoper Il conteggio delle unità (ad esempio le anagrafi pervalutare la consistenza della popolazione) o per Il loro raggruppamentoIn strati (ad esempio la co<strong>di</strong>fica della circoscrizione amministrativa):".Rispetto alla popolazione obiettivo, definita nella fase <strong>di</strong> progettazlone,lalista dovrebbe risultare:- completa, owero dovrebbe contenere tutte e solo le unità <strong>di</strong>rilevazione designate;- aggiornata, owero non dovrebbÉt riportare duplicazioni e ciascunaunità dovrebbe essere <strong>di</strong>stinguibile dalle altre ed in<strong>di</strong>vlduabllesul territorio;- informativa, Qwero dovrebbe contenere per ciascuna unitàle caratteristiche stabilite dal plano.dl rUevazlone o <strong>di</strong> campionamento(ad esèmplo la <strong>di</strong>mem~ione della famiglia per procederead una sostituzione o le variabili necessarie alla stratificazion,edei comuni).Per la singola <strong>indagine</strong>, si può costruire una lista ad hoc, oppurepuò essere utilizZato un elenco <strong>di</strong> unità preesistente (adesempio I registri anagrafici o le liste elettorali per le famigliee gli In<strong>di</strong>vidui).La predlsposizione <strong>di</strong> una lista, mirata all'lndaglnè ed esenteda errori, o quantomeno con errori casuali e <strong>di</strong> lieve entità, risultaestremamente <strong>di</strong>spen<strong>di</strong>osa In termini economici e <strong>di</strong> tempo;In pratica si tratterebbe <strong>di</strong> effettuare un censimento negli ambititerritoriali designati (ad esempio, nel caso tipico <strong>di</strong> una <strong>indagine</strong>campionaria a due sta<strong>di</strong> sulla popolazione, occorrerebbeeffettuare il censimento delle famiglie nel comuni campione).Risulta, quin<strong>di</strong>, pl€J economico e pratico utilizzare liste già esistenti,anche se esse raramente si adeguano ai succitati requisiti.In pratica, le liste <strong>di</strong>sponibili vengono agglomate con cadenzeproprie, <strong>di</strong>verse dalla data <strong>di</strong> riferimento delle Indagini, e riportanonon solo le unità oggetto <strong>di</strong> rllevazlone, ma anche duplicazionied unità non incluse nella popolazione <strong>di</strong> riferimento, men~tre non contengono una quota <strong>di</strong> quelle designate.Le unità oggetto <strong>di</strong> rilevazione, sono dette incluctiblll e vengonodesignate me<strong>di</strong>ante un criterio <strong>di</strong> Includlbllità, che derivadalla definizione della popolazione <strong>di</strong> riferimento.Gli errori <strong>di</strong> lista possono causare <strong>di</strong>storsioni nel risultati finali,In funzione (I) della <strong>di</strong>stribuzione e della quota delle unitàmancanti, (II) dal tipo <strong>di</strong> <strong>indagine</strong> condotta (esaustiva o campionaria)e (III) dall'uso della lista come archivio per Il calcolo delcoefficienti <strong>di</strong> espansione:Il mancato aggiornamento contribuisce alla mancata rispostatotale me<strong>di</strong>ante l'Irreperibilità sul campo delle unità, dovutaad erroneo in<strong>di</strong>rizzo, ed Incrementa le duplicazioni e la quotadeJle unità non Inclu<strong>di</strong>biU Incluse"e <strong>di</strong> quelle Includlbill non incluse.Le unità inclu<strong>di</strong>bill mancanti non hanno alcuna possibilità <strong>di</strong>essere selezionate ed Intervistate; se esse sono <strong>di</strong>stribuite casualmentenella popolazione <strong>di</strong> riferimento, la struttura della listarispecchierà quella dell'universo, in caso contrario, Invece,


.. ··.'.···82IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 3· LA RILEVAZIONE SUL CAMPO83La_llCllterte ..... teIDI8I'subpopolazioni particolari sfuggiranno alla rilevazione.Tali unitàpossono essere, in pratica, <strong>di</strong>fficilmente in<strong>di</strong>viduate, in quantorichiedono od un confronto con altri archivi piO aggiornati odun censimento effettuato sulla medesima base territoriale <strong>di</strong> riferimentodella lista; a tutti gli effetti, esse possono essere consideratecorne mancate risposte totali.'Le unità non Includlblli incluse, possono essere in<strong>di</strong>vIduateal momento della selezione, depurandò la lista dalle unità chenon rispondono al criterio <strong>di</strong> Includlbilità, oppure nel corso dellarllevazlone sul campo, esplicitando il suddetto criterio in unquesito filtro del questionario; le duplicazioni possono essere colteverificando la lista o, a posteriori, confrontando le assegnazionidei rilevatorl.Nelle Indagini totali, tali unità possono essere completamentein<strong>di</strong>viduate, cosicché questi errori non producono alcun effettosui risultati finali.Nel caso delle indagini campionarle, invece, l'ln<strong>di</strong>viduazionesarà limitata alla quota <strong>di</strong> unità rilevate e ciò non è sufficientead eliminare gli effetti degli errori <strong>di</strong> lista. Questi si riflettonosulla probabilità <strong>di</strong> inclusione nel campione e sulla stima dei coefficienti<strong>di</strong> espansione all'universo, se la lista viene anche utillzzatacomearchivio. Inoltre, se le unità inclu<strong>di</strong>bili vengono in<strong>di</strong>viduatenel corso della rilevazlone, la presenza <strong>di</strong> unità non inelu<strong>di</strong>bilicomporta la riduzione della numerosità campionarla programmata•. 11 ripristino della <strong>di</strong>mensione desiderata, può awenireme<strong>di</strong>ante la sostituzione delle unità non inclu<strong>di</strong>bill, oppuresovra<strong>di</strong>menslonando Il campione <strong>di</strong> una quota <strong>di</strong> tali unità, stimatada fonti esterne.Infine, nelle indagini campionarie, anche l'inosservanza dellenorme <strong>di</strong> estrazione delle unità, od una loro insufficiente articolazione,può causare <strong>di</strong>storsioni. Me<strong>di</strong>ante l'operazione <strong>di</strong> selezionedalle liste, infatti, si assegnano alle unità preflssate probabilità<strong>di</strong> Inclusione nel campione; qualsiasi intervento estraneoalle norme <strong>di</strong> estrazione (ad esempio la tendenza a saltarele famiglie numerose in favore <strong>di</strong> quelle <strong>di</strong> ridotta <strong>di</strong>mensione),causa una <strong>di</strong>storsione nel meccanismo probabilistico del <strong>di</strong>segno<strong>di</strong> campionamento.Le mancate risposte totali sono costituite dalle unità <strong>di</strong> rilevazioneper le quali non è stato possibile raccogliere informa-.zioni nel corso dell'intervista per cause <strong>di</strong>verse: errori <strong>di</strong> lista, incapacità<strong>di</strong> convincimento da parte del rilevatore, rifiuto o impossibilità<strong>di</strong> reperimento.Le mancate risposte totali producono, sui risultati finali, dueI .,'.';.: .•...•........···.····,·.:.·I~·.·.'···.-·-~.''~~r~·.-.··I·.·.··· ....... '· .. ·.I .• .• :.·.·.'·effetti: da un lato riducono la numerosità campionarla e quin<strong>di</strong>incrementano il relativo errore <strong>di</strong> campionamento, dall'altro inducono<strong>di</strong>storsioni nelle stime, se il meccanismo che le generaè, come awiene generalmente nella realtà,non casuale.In questo caso, possiamo concettualmente <strong>di</strong>videre la popolazionein due strati, i rispondenti ed i non rispondenti, <strong>di</strong> numerosità<strong>di</strong>versa e con <strong>di</strong>fferenti caratteristiche (ad es. me<strong>di</strong>e, totali,proporzioni etc.); la <strong>di</strong>storsione è allora funzione della quota<strong>di</strong> non rispondenti e della <strong>di</strong>fferenza tra i parametri relativi ai dueinsiemi.A titolo <strong>di</strong> esempio si consideri il caso della stima della me<strong>di</strong>adella generica caratteristica Y.La popolazione, costituita da N unità con me<strong>di</strong>a pari a 'I, puòessere <strong>di</strong>visa in due strati: quello relativo alle unità non rispondenti,<strong>di</strong> numerosità NNR' e quello dei rispondenti, <strong>di</strong> numerositàNR. Siano quin<strong>di</strong> WR = N~N e WNR = NN~N I pesi delle duesubpopolazioni, 'IRe 'I NR le rispettive me<strong>di</strong>e.L'estrazione <strong>di</strong> un campione dalla popolazione si riduce, inrealtà, alla selezione <strong>di</strong> unità appartenenti alla subpopolazionedel rispondenti; la stima YR ottenuta dai dati campionari sarà, allora,corretta ripetto a tale sub universo, owero E(y.J = 'I R' mapresenterà una <strong>di</strong>storsione, rispetto alla me<strong>di</strong>a complessiva, datadalla:(3.1)La (3.1) mostra che la <strong>di</strong>storsione B è funzione della quotadel rispondenti nella popOlazione e della <strong>di</strong>fferenza tra le me<strong>di</strong>edelle due subpopolazlonl; essa è valida anche nel caso <strong>di</strong> indaginitotali •L'errore totale dellostimatore me<strong>di</strong>a, calcolato me<strong>di</strong>ante la(3.2), è la risultante della somma della varianza dello stimatore,relativo al sub universo dei rispondenti,VR (y.J e del quadratodella <strong>di</strong>storsione:(3.2)


84 IL SISTEMA DI, CONTROLLO DELLA QUAUTÀ DEI DATICAP. 3 • LA RILEVAZIONE SUL CAMPO'La stima dell'errore <strong>di</strong> campionamento, basata sul risultaticampionari" è, anch'essa <strong>di</strong>storta., t," ,', Sia Infatti vRla stima della varianza campionarla"dI Y R ; essasarà corretta, ma solo rispetto al parametro, della popolazionedlrlferlmento"owero: ' ,La <strong>di</strong>storsione <strong>di</strong> VR' data dalla,' ,B(v~= E(vR -V) = E(vR - ~iVR:- W~ VNR)"~ (1 - Wi) VR - (l - WR)l VNR= WNR[ (1 +.WR) VR - (l-W~VNRI (3.3)Gli effetti prodotti da tali errorlò sono slmJJJ a quelli dovuti allemancate risposte totflll, riferiti pero al/e slngoievarlabJlldl stu<strong>di</strong>o:dlstorsion~, e r~duzlone del,la nurneros," camRI()n~a.In realtl. la~lstlOzlone t~a mancata r!s~~ta"Qt~/e ,e parzialederiva da una de<strong>di</strong>slone soggettiva del riCercatore, non da parametrioggettivi, vali<strong>di</strong> per qualsiasi rllevaz:lòne. ' ' , , ' ' "La mancata risposta, Infatti, può esàerèconslderata un contlnuùm,I cui limiti sonocostltultl,da unlatò, dallamancatà Intervistae, dall'altro, dal modello correttamente compilato in ognisua parte; la soglia dhlccettabilitàdl un questioli\arlovlene stabilltainfunzlone"deU'utllltà delle· risposte.ornlta per g11\'Obiettlviconoscitivi dell'<strong>indagine</strong>. ' " "i;;,',"",""Adesempio.l,I/l qU"~tion,,rlo in qui tuUl1


86 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAR. 3· LA RILEVAZIONE SUL CAMPO87- compattare pII) unità in una sola (ad esempio le famiglie <strong>di</strong>due comuni vengono riferite ad uno solo);- suddrvldere,una unità in due O piO unità e quin<strong>di</strong> creare unitàfittizie (ad esempio I comp'onentl <strong>di</strong> una famiglia vengono dl~visi in due unlt~ familiari);- Invalldare Illeg~me tra unità (ad esempio tra Il record dellai famiglia principale ed il record della famiglia coabitante).Tali effetti possono manifestarsi singolarmente; o, più frequentemente,in combinazione tra loro, compromettendo, adesempio, la ricostruzione dell'eventuale struttura 10ngitiJ<strong>di</strong>nale,la stima delle probabilità <strong>di</strong> inclusione, la conduzione <strong>di</strong> relntervisteo causando false assegnazioni nelle compenetrazione delcampione.3;. La prevenzione degli erroriUi prevenzione degli errori <strong>di</strong> rllevezlone deriva, In parte, daun costante lavoro <strong>di</strong> controllo e <strong>di</strong> in<strong>di</strong>riZzo dell'Istituto, in parteè esercitabile al momento della raccolta del dati della singolaIn~aglne. In tal C8$O, I.controlll preventMdévo'nO essere miratialle unità coinvolte: Il controllo e l'assistenza agii organlperlferlcle lapubbllclzzazlone dell'Indagine verso I. dspondenti.Conlnllio ....... ' Il controllo degli organi periferici si attua me<strong>di</strong>ilnte visite ispet-.......... l*IfeIIcI tlve, il cui scopò è verificare che le <strong>di</strong>fferenti operazioni sianostate condotte seQondole norme stabilite; esse ~evono, quin<strong>di</strong>,venireespretate al ,momento in cui, l'operazion~ yiene svolta (adesempio al momeflto della selezione dell~,unJtà campionarie):Un controllo totale, dato il numero <strong>di</strong> unità Qoinvolte. può risultareperÒ troppo onerOSOj per tale ragione, è. utile compilareuna mappa <strong>di</strong> rischio ed in<strong>di</strong>rizzare gli sforzi verso quelle realtàche risultano piO sospette.Ladeflnizlone della mappa può ~re basata su Informazioni<strong>di</strong> tipo sostanzialmente qualltatlvo (come quelle desunte dal rapportidegli ispettori e degli Uffici Regionali), e sull'analisi delleinformazioni quantltatlve, <strong>di</strong>sponibili da rllevazioni precedenti dellastessa <strong>indagine</strong> o <strong>di</strong> indagini <strong>di</strong>verse, cioè sugli in<strong>di</strong>catori contenutinell'archivio <strong>di</strong> qualità dell'Indagine e nell'archivio centralizzatodella rete.Dallo stesso archivio è possibile dedurre in<strong>di</strong>cazioni In meritoalle prestazioni del rllevatori, cosicché, laddove sia possibilestante l'attuale normativa, si può Intervenire anche nella fase <strong>di</strong>selezione degli Intervlstatorl.L'assistenza sul campo viene attuata, In primo luogo, con l'istruzionedel supervisorl, del rilevatorl e degli eventuali co<strong>di</strong>ficatori,me<strong>di</strong>ante I manuali precedentemente redatti. Questi, invia generale, possono seguire Il seguente schema:• definizione degli obiettivi dell'Indagine;• definizione dell'unità <strong>di</strong> rilevazlone e del criteri per la sua identificazione;• la tecnica <strong>di</strong> primo contatto con l'unità <strong>di</strong> rllevazione;• la tecnica dell'Intervista;• la struttura generale del questionario;• la struttura <strong>di</strong> eventuallfògll in<strong>di</strong>viduali è del criteri <strong>di</strong> selezionedei rispondenti;• Il ruolo delle do~ande filtro nel collegamenti tra blocchi;• la presentazione del quesiti, delle loro relazioni In ciascun bloccoo sezionfil <strong>di</strong> domande;• il controllo delle principali coerenze;• Il sistema <strong>di</strong> Identificazione;• il ruolo del quesiti <strong>di</strong> controllo e <strong>di</strong> quelli sull'Intervista;• uso del documenti accessori <strong>di</strong> rllevazlone." <strong>manuale</strong> e le Istruzioni devono essere corredati <strong>di</strong> numerosiesempi esplicativi' sulle situazioni dubblé prevedlblli.Nelle riunioni dll8trtizibne, inoltre, devono essere previsteesercitazioni pratiche su, questionario e sul documenti accessori<strong>di</strong> rnevazrone} In partlcolare-possono essere utilizzati mòdelliprecedentemente compilati con errori, da rintracciare e da<strong>di</strong>scutere con I partecipanti alta rluniorìe~Deve essere Infine preVIsto; e comunicato alla rete periferica,l'uftlcloresJ)onsablle dell'assistenza a livello centrale, al qualeè possibile rivolgersi durante il periodo <strong>di</strong> rilevazlone.La politica dell'Immagine dell'Istituto, realizzata con mezzi<strong>di</strong> comunicazione <strong>di</strong> massai quali ra<strong>di</strong>ò, televisione e giornali a .... rlnd8g ....<strong>di</strong>ffusione sia nazionale che locale, può contribuire a creare nelpaese un clima genericamente favorevole all'attività dell'lstat.Ta11 effetti si riflettono positivamente sulla singola Indagine,ma è comunque necessario utilizzare mezzi piO mirati alle specificheunità <strong>di</strong> rilevazione.Le pubbIIcIzzazIon


88 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 3· LA RILEVAZIONE SUL CAMPO89I mezzi <strong>di</strong> pubblicizzazione possono essere i più vari; tra essisi ricordano:la pubblicità effettuata dagli organi periferici;- il coinvolgimento <strong>di</strong> organizzazioni od associazioni delle unitàappartenenti alla popolazione oggetto <strong>di</strong> <strong>indagine</strong>;- la lettera <strong>di</strong> presentazione del sindaco o <strong>di</strong> altra autorità alivello locale;- la lettera <strong>di</strong> presentazione dell'indag,ine da parte del Presi·dente dell'Istituto.Le informazioni necessarie per la costruzione degli in<strong>di</strong>catorie per le analisi, sono, generalmente, <strong>di</strong>sponibili dopo l'ela~orazionedei dati dell'<strong>indagine</strong> principale e <strong>di</strong> eventuali Indagini<strong>di</strong> controllo; ad esempio, le mancate risposte e le Incongruenzelogiche dai risultati della revisione, le stiroe.dell'errore totale <strong>di</strong>misura o dell'effetto ricordo e proxy, dalla compenetrazione delcampione o dall'analisi dei risultati <strong>di</strong> rllevazionl aggiuntive. Nell'attualeorganizzazione delle indagini, quin<strong>di</strong>, tali controlli nC)nsono contestuali aUa fase <strong>di</strong> rilevazione, ma si configurano comecontrolli «successivi».4. Il controllo degli erroriIl controllo della fase <strong>di</strong> rilevazione sul campo, può essereattuato me<strong>di</strong>ante:I) la stima degli errori <strong>di</strong> misura, effettuata esplicitando modellidell'errore ed utilizzando adeguate <strong>tecniche</strong> <strong>di</strong> rilevazione;Il) l'analisi <strong>di</strong> In<strong>di</strong>catori <strong>di</strong> qualità, ottenuti dalle P'Ocedure standarddell'Indagine.I modelli misurano <strong>di</strong>rettamente la qualità dei risultati, stiman- .do le <strong>di</strong>storsioni e le variabilità imputabili alle fonti sotto controllo(gli intervistatorl, l'effetto ricordo, l'effetto delle risposteproxy, ecc.). AI contrario, gli in<strong>di</strong>catori e le analisi delle Informa·zioni provenienti dalle procedure d'<strong>indagine</strong> (le mancate rispostetotali e parziali, l'errore <strong>di</strong> identificazione delle unità, la situazionedell'inteJ;Vista), possono es~ereconsiderati come parametriapprossimati per la valutazione dei· daUprodottl.La stima dell'errore <strong>di</strong> misura necessita <strong>di</strong> indagini aggiuntive<strong>di</strong> controllo, generalmente condotte su <strong>di</strong> un campione dellarilevazione principale, o <strong>di</strong> particolari sqhemi <strong>di</strong> campionamentoche richiedono risorse, f.inanziarje ed organjzzative, aggiuntiverispetto alla rilevazione madre. AI contrario gli in<strong>di</strong>catori <strong>di</strong>cui al punto (II) risultano più economici dei precedenti, in quantoil loro calcolo implica solo la razionalizzàzlone delle procedureesistenti. Essi, Inoltre, sono ottenibill per tutti, i livelli <strong>di</strong> controllocoinvolti nella rilevazione sul campC) (ad esempio gli ufficicomunali ed i rilevatorl), mentre le stime possono essere riferitisolo al campione da cui provengC)no.Infine, il calcolo e l'analisi sono, indubbiamente, più semplicie tempestivi per gli in<strong>di</strong>catori <strong>di</strong> qualità che non per le stime<strong>di</strong>rette dell'errC)re.Come è stato già osservato, l'errore <strong>di</strong> misura rappresenta lacomponente più rilevante dell'errore totale e, quin<strong>di</strong>, la sua stimaè in<strong>di</strong>spensabile per conoscere la reale precisione dei risultati.Gli errori che non danno luogo a incongruenza logiche o avalori fuori campo, non sono determinabili sulla base dei soli risultatidell'<strong>indagine</strong>; la loro Identificazione e quantificazione richiede<strong>tecniche</strong> particolari.I modelli matematici, gli stimatori, le <strong>tecniche</strong> ed i problemipratici della loro utilizzazione verranno <strong>di</strong>ffusamente trattati nelCapitolo 7; nel prospetto 3.1, sono, succintamente, riportate lecomponenti dell'errore <strong>di</strong> misura e le <strong>tecniche</strong>~necessarle allaloro stima, nel caso, sufficientemente realistico, in cui è ipotlzzabileche esso sia dovuto ai rispondenti, ai rllevatori ed alle lorointerazloni. .A tale riguardo, si ricorda (cfr. Capitolo 1) che l'errore totaleè composto dalla <strong>di</strong>fferenza tra la me<strong>di</strong>a dello stlmatore (calcolatasull'universo dei campioni) ed Il valore vero, cioè la <strong>di</strong>stor-'sione, e da una parte variabile. Quest'ultima (varianza totale) èpari alla somma della varianza campionaria, della varian,za semplice<strong>di</strong> risposta (che misura l'errore dovuto al solo rispondente)e della varianza correlata <strong>di</strong> risposta (che misura, invece, l'influenzadel rilevatore sulle risposte fornite). La stima <strong>di</strong> ciascuna componente(o combinazione <strong>di</strong> componenti) richiede una adeguatatecnica <strong>di</strong> <strong>indagine</strong>.La stima della <strong>di</strong>storsione e quella delle <strong>di</strong>verse componentidella parte variabile, non possono essere ottenute con lamedesima tecnica: infatti, mentre la prima richiede un processo<strong>di</strong> misurazione più preciso <strong>di</strong> quello dell'Indagine originaria,allo scopo <strong>di</strong> appurare il valore vero, la seconda si basa suuna replicazione in<strong>di</strong>pendente dell'<strong>indagine</strong>, sotto le stesse con<strong>di</strong>zionigenerali, variando solo il fattore da controllare (il rilevatore)..La reintervista con riconciliazione consiste in un ritorno pressoun subcampione <strong>di</strong> unità che vengono reintervistate da un ri-La ali .... dell'.."".t""" <strong>di</strong> misura


90 IL SISTEMA DI CONTROllO DelLA QUALITÀ DEI DATICAP. 3 • LA RllEVAZIONE SUL CAMPO91levatore plCt esperto O dal precedente assistito dal supervlsore;l'lntervlstatore rlpropone I medesimi quesiti (eventualmente utilizzandouna versione plCt dettagllatà del questionario e con unmaggior numero <strong>di</strong> domande <strong>di</strong> controllo) avendo a <strong>di</strong>sposizionele risposte precedentemente fomite e,in caSo <strong>di</strong> <strong>di</strong>scordanza,accerta là risposta vera. Se, InoHre~ si accertano anche le ragionidella <strong>di</strong>fferenza, tale metodo perrilette <strong>di</strong> attribuire al rilevatorèoal rispondente le dlffe",nze riscontrate.La relntervlsta' senza riconciliazione viene condotta con Intervlstatori<strong>di</strong>versi da quelli dell'<strong>indagine</strong> (ti fattore <strong>di</strong> controllo),ma dello stesso grado <strong>di</strong> abilità e preparazione; In questo modoci si assicura dell'In<strong>di</strong>pendenza delle due replicazionl e dell'equivalenzadelle con<strong>di</strong>zioni essenzialI.A <strong>di</strong>fferenza del due meto<strong>di</strong> sopra citati, ìa compenetrazionedel campione non Implica una relntervlsta delle unità; il campionedell'Indagine principale viene casualmente <strong>di</strong>viso In subcam-Prospetto 3.1 - Componente. dell'errore <strong>di</strong> misura e relativi me-. to<strong>di</strong> <strong>di</strong> stima . .COMPoNENTESTIMATADistorsioneVarlanza totaleVarlanza<strong>di</strong> rispostaVarianza<strong>di</strong> rispostasempliceComponentecorrelataMETODI DI STIMArelntervlstaconsenzarIconciliazIonesisisicompenetrazionedel campIoneVarlanzacampionaria si si sisisipioni <strong>di</strong> uguale nurnerosità (ciascuno dei quali costituisce un campionerappresentativo della popOlazione <strong>di</strong> origine) che vengonoassegnati Il rllevatorl <strong>di</strong>versi.Nel prospetto 3~ 1 sono riassunti I meto<strong>di</strong> '<strong>di</strong> stima sopra richiamati,In funzione della componente <strong>di</strong> errore determinabile.Tali <strong>tecniche</strong>, generalmente, non permettono <strong>di</strong> stimare "erroredovuto a cause particolari, come l'effetto proxy e l'effettoricordo, per la cui stlrnasono necessari <strong>di</strong>segni sperlmentaU.Pervatutare l'entità dell'errore dovuto alla risposta fornita daaltri, è necessario programmare un <strong>di</strong>segno sperimentale, chepreveda il ritorno presso.I'unltà non rispondente (si veda ad es.K.W. Haa~.1972). Talal1'letodopermette, Inoltre, l'analisi del fattoriche influiscono sult'entitàdegll errod (ad esempio la naturadelle domande, le caratteristiche in<strong>di</strong>viduali ecc.).Oltre tale metodo possono essere utilizzate altre <strong>tecniche</strong> perdeterminare e quantificare "effetto proxy:- il confronto:con 'i medesimI dati provenienti da altra fonte erelativi all'unità, non rispondente;.. .indagini condotte su due campioni provenienti dalla stessapopolazione in uno solo dei quali sono ammesse risposteproxy; .' " . " ,- la reintervista con riconciliazione effettuata su <strong>di</strong> un campione<strong>di</strong> unità nonrisponden~i.La stima dell'errore dOVuto'ad omissione, od errata datazione<strong>di</strong> eventf, si basa sumod'elll matematici; per maggiori approfon<strong>di</strong>menti$1 rirrianda ,ad esempio aS. Sudman & N.M. Brandbun,1973. Il modello dei due autori tiene conto dell'effetto congiuntodegli' errori <strong>di</strong> omissione e <strong>di</strong> spostamènto in avanti del~'l'evento, che è l'errore <strong>di</strong> datazione commesso plCt frequentemente;il modello è stato testato con risultati sod<strong>di</strong>sfacenti dal dueautori, confrontando la stima ottenuta con l'errore osservato, calcolatome<strong>di</strong>ante dati esterni, in alcune Indagini.' .La 111_ .... ren.nopIO", • dell'.ffetto11-.10. Gli fndlcatori <strong>di</strong> qualità sintetizzati in sei Prospetti e le anali~ GO in<strong>di</strong>catori <strong>di</strong>si segnalate nel seguito, costituiscono in<strong>di</strong>cazioni generali; è quali"compito del responsablle delt'lndaginescegliere I meto<strong>di</strong>, I livelli<strong>di</strong> controllo e la Informazioni piCt adeguati nelle specifiche con<strong>di</strong>zioniorganizzatlve della rllevazlone;Nel Prospetti, per ciascun In<strong>di</strong>catore <strong>di</strong> qualità, sono statein<strong>di</strong>viduate le fonti cui è Imputabile l'errore esaminato e sulle qualiè, in genere, pOSSibile esercitare <strong>di</strong>rettamente azioni correttive,


92IL SISTEt.'IADI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 3· LA RILEVAZIONE SUL CAMPO93Gli In<strong>di</strong>catoridall'errore <strong>di</strong> lIat •• <strong>di</strong>.... n ... qrl ...... qtot ..ovvero la rete <strong>di</strong> rilevazione (comuni e rilevatori) e lemetodologiedell'Istituto (norme, questionario, procedure informatiche ecc.).A tale riguardo, tuttavia, si precisa che la fonte è.stata iden~tificata sulla.base della preponderanza <strong>di</strong> responsabilità; in realtàla complessità delle interazioni tra cause <strong>di</strong>verse non permette,in molti casi, <strong>di</strong> <strong>di</strong>stinguere nettamente le insufficienze dell'organizzazionecentrale e quella periferica, la responsabilità delrilevatore da quella del comune e/o del rispondente.Gli in<strong>di</strong>catori possono essere utilizzati sia CQma ~ontrollodellefonti <strong>di</strong> errore cui sono stati riferiti, sia come parametri <strong>di</strong> quali.tà se calcolati perii complesso delJ!<strong>indagine</strong> o per: dominirHevanti<strong>di</strong> stu<strong>di</strong>o (strati, regioni, gruppi omogenei dtcomuni orilevatoriecc.).Come parametri <strong>di</strong> controllo, gli in<strong>di</strong>catori relativi al rilevatoripossonoessere logicamente· estesi alle unità <strong>di</strong> or<strong>di</strong>ne superiorecheesercitano attività <strong>di</strong> supervisione.Il campione od il complesso delte unità (nel caso <strong>di</strong> indaginitotali) selezionate ed intervistate, rappresentano, a causa deglierrori <strong>di</strong> lista e dei problemi che sorgono nella. fase <strong>di</strong> rilevazione,una popolazione <strong>di</strong>versa da quelJa definita nella fase <strong>di</strong>progettazione....Il processo <strong>di</strong> riduzione dell'universo teorico all'universo effettivo,genera alcune subpopolazioni che assumono, ai fini delcontrollo <strong>di</strong> qualità, significati <strong>di</strong>versi e che possono essere classificatein due gruppi: gli errori <strong>di</strong> lista Et le mancate risposte totali.I primi riducono la nl,lmerosità campionaria (se non è previstala sostituzione delle unità non intervistate), o l'universo indagato(nel caso <strong>di</strong>indaginia c~attere censuario), e incrementanol'insieme delle mancate risposte totali; queste ultime, comeè stato precedentemepte mostra.to, possono dar luogo a <strong>di</strong>storsioninei risultati finali.Le unità appartenenti alla popolaziOne teorica, pOSS0l10 o menofar parte della lista; a sua volta quest'ultima può contenereunità non inclu<strong>di</strong>bili o duplicazioni.L'insieme delle unità inclu<strong>di</strong>bili non incluse è <strong>di</strong>fficilmentequantificablle poiché sarebbe necessario fare ricorso ad altra lista,possibilmente più aggiornata e precisa <strong>di</strong> quella utilizzata,o ad un mlcrocensimento~ In questo caso, è pOSSibile stimarel'errore confrontando i dati delle. due fonti; il confronto può essereistituito a livello <strong>di</strong> singola unità o.<strong>di</strong> risultati aggregati, infunzione dell'esistenza o meno <strong>di</strong> un co<strong>di</strong>ce identificativo comunealle due liste che ne renda possibile l'accoppiamento.La <strong>di</strong>fferenza tra i risultati censuari e la numerosità degli iscrittiin anagrafe, calcolata a ridosso del censimento, e l'<strong>indagine</strong><strong>di</strong> confronto censimento/anagrafe, condotta nel 1981 sulla base<strong>di</strong> un campione <strong>di</strong> fogli <strong>di</strong> famiglia e delle corrispondenti Informazionianagrafiche (A. Cortese 1983), costituiscono esempi <strong>di</strong>applicazione <strong>di</strong> tale tecnica. .L'aggregato delle unità non inclu<strong>di</strong>bili, me<strong>di</strong>ante l'utilizzazionedel criterio <strong>di</strong> Inclu<strong>di</strong>bilità al momento dell'intervista o nell'analisiderla lista, può essere stimato o completamente enumerato,a seconda del tipo <strong>di</strong> <strong>indagine</strong> (totale o parziale) e del controlloesercitato (se sull'intero archivio o 5010 sulle assegnazioni deirilevatori); la verifica della lista è necessaria anche per determinarele eventuali duplicazionI,Con una parte delle unità sarà possibile stabilire un contatto<strong>di</strong>retto, a seguito del quale alcune accetteranno mentre altrerifiuteranno l'intervista. Non sarà invece possibile Intervistare leunità che, pur abitando all'in<strong>di</strong>rizzo segnalato, risulteranno irreperibilidopo ripetuti tentativi e quelle a cui corrisponde un in<strong>di</strong>rizzoerrato; queste ultime, a seconda del tipo <strong>di</strong> errore, possonorisultare o meno, includlbili.Il processo appena descritto ed i meto<strong>di</strong> per la determinazionedei <strong>di</strong>fferenti gruppi <strong>di</strong> unità sono <strong>di</strong>agrammati nella Figura 3.1.In particolare, per il documento <strong>di</strong> rilevazione aggiuntivo, sonostate considerate due situazioni informative.La prima è relativa al caso In cui si suppone <strong>di</strong> poter ottenere,da altre unità, le informazioni necessarie a classificare quellecon in<strong>di</strong>rizzo errato nei seguenti quattro gruppi, rilevanti perl'analisi delle mancate interviste e. deU'errore <strong>di</strong> lista: trasferitedentro l/ COl1Jun6. trasferite fur;>ri comull~, dec(#iute,.eirriperjlJ(li.La seconda, invece: rispecchia Il caso (frequente soprattuttonelle città <strong>di</strong> me<strong>di</strong>e-gran<strong>di</strong> <strong>di</strong>mensioni) In cui non si <strong>di</strong>spone<strong>di</strong> tali informazioni e quin<strong>di</strong> le unità con in<strong>di</strong>rizzo errato vengonoassimilate alle irreperibili." suddetto documento fa ormai parte delle procedure standarddell'Indagine; utilizzandone le informazioni, è possibile, inmodo sempliceed"~cpnomlco, calcolare alcuni in<strong>di</strong>catori <strong>di</strong> qualità.Rapportando le unità a qualsiasi titolo non intervistate al numeroprogrammato d'interviste, si ottiene l'in<strong>di</strong>catore -grezzo»dell'errore complessivo della fase <strong>di</strong> rilevazione; depurandone ilnumeratore dagli errori <strong>di</strong> lista, ovvero sostituendo la somma delrifiuti e delle unità non a casa, verrà calcolato l'In<strong>di</strong>catore .. grezzo»<strong>di</strong> mancata risposta.Quest'ultimo rappresenta il peso delle interviste non effettuaterispetto al numero -atteso» <strong>di</strong> interviste e, quin<strong>di</strong>, include al denomiO,atoreanche gli eventuali errori <strong>di</strong> lista. Depurando il denominatoreda tale quantità, si ottiene un in<strong>di</strong>catore .. netto» <strong>di</strong>mancata intervista,


94IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 3 • LA RILEVAZIONE SUL CAMPO 95( .popol.z io,- <strong>di</strong> ) ,... tf_im.ntoProspetto 3.2 - In<strong>di</strong>catori relativi alle Mancate Risposte TotaliFONTE DI EIIFIOIIEINDICATOIISIGNIFICATOcamuni ri_ ISTATIII,··_·-1I I l l 1_11 ___ 1 __i! 1. .. < t ..... f .... i ti non. c... ...ifiut.I I I fuo ... i del lINI p ...... nti .. 1'int .... vi.t.I· l' camun.) I .1 l '.in<strong>di</strong>"'iZZCJI I -·(dec.duti)/-


96 IL SISTEMA DI CONTROLLO DELLA QUAutA DEI DATICAP. 3 - LA RILEVAZIONE SUl;CAMPO97Tali In<strong>di</strong>catori sono relativi alle prestazioni della rete perifericanel suo complesso e quin<strong>di</strong> Il livello più adeguato <strong>di</strong> controlloè quello comunale. Per valutare l'operato del rllevatorl, èconveniente scomporre la mancata, Intervista nelle dUEl COl11ponentl<strong>di</strong> rifiuto e <strong>di</strong> non 'a casa e calcolare i relativi tassi netti,utilizzando a denominatore, rispettivamente, Il totale del rispondentie del rifiL(tl e la somma dei rispondenti, del rifiuti e dei nona casa.L'errore <strong>di</strong> lista è ra,ppresentato dalle unità che presentanol'In<strong>di</strong>rizzo errato; ra,pportando Il loro numero all'ampiezza del campioneod alla numerosità della lista (per le Indagini totali) si ottieneIl relativo tasso. L'errore può essere ulteriormente analizzato,se si <strong>di</strong>spone delle necessarie informazioni, in una partedovuta all'aggiornamento, (rappresentato dalle modalità trasferitinel e fuori del comune e deCeduti) ed In una parte residua(modalità IrreperibilI) che approssima la tenuta della lista; I relativitassi (<strong>di</strong> aggiornamento e <strong>di</strong> tenuta) avranno come denominatoreIl numero <strong>di</strong> unità con In<strong>di</strong>rizzo errato. Sempre utilizzandola medesima <strong>di</strong>saggregazione, è possibile calcolare un tasso<strong>di</strong> non includlbllità che presenta al nurneratore la somma del decedutie del trasferiti fuori del com4-fne~~ al denominatore il numeroprogrammato d'Interviste. -Le stesse notizie, invece, non possono costituire (se non IntroducendoIpotesi «fortia sulla <strong>di</strong>stribuzione delle subpoPolazloni non<strong>di</strong>rettamente determinate) la base Informativa per stimare le quotee le caratteristiche del rispondenti e dei non rispondenti nellapopolazione teorica (secondo lo schema utilizzato nel paragrafo2). Infattl,la rllevazlone sul campo non coglie le unità includlbill nonIncluse nella lista e non è possibile <strong>di</strong>scriminare gli aggregati nona casa e trasferiti nel comune nelle suddette subpopolazlonl;-Inflne,gli irreperibili, non sono classificabili né come rispondenti I nonrispondenti, né come Inclu<strong>di</strong>blli I non includlblll_Nel Prospetto (3.2) sono sintetizzati I livelli <strong>di</strong> controllo ed Irelativi In<strong>di</strong>catori sintetici <strong>di</strong>scussi nel paragrafC).:Per qua,nto riguarda le unità, si fa riferimento alle unità <strong>di</strong> selezione,In genere, per le Indaglnllstat sulla popolazione, le fa·miglie.Oltre al calcolo del tassi per la verifica dell'operato della reteperiferica, le informazioni riportate sul modello'aggluntlvo osul foglio <strong>di</strong> anagrafe, possono essere utilizzate per condurre analisipiù approfon<strong>di</strong>te riguardo all'ubicazlone e le caratteristichedelle unità non Intervistate e non rispondenti.SI potrà controllare, quin<strong>di</strong>, che l'omissione <strong>di</strong> unità non siacorrelata a qualche fattore <strong>di</strong> <strong>di</strong>storsione dei risultati; ad esem.pio alla <strong>di</strong>mensione della famiglia, alla lontananza dal centro citta<strong>di</strong>noo alla residenza In zone _dlfflcllla.Stu<strong>di</strong> più analitici sull'elTore <strong>di</strong> mancata risposta possono esserecondotti analizzando le relazioni tra le caratteristiche delleunità non rispondenti e le modalità <strong>di</strong> effettuazione dell'Intervista(ad esempio Il giorno della settimana el'ora). In questo modoè possibile determinare le tlpologle delle subpopolazionl maggiormentea rischio e le <strong>tecniche</strong> <strong>di</strong> raccolta più efficienti per leunità appartenenti a tali gruppi.Nel caso siano previste sostituzioni <strong>di</strong> non rispondenti, Il confrontotra le caratteristiche delle unità sostituite e sostltultlve,me<strong>di</strong>ante tabulazlone Incrociata, sottoposta a test <strong>di</strong> in<strong>di</strong>pendenzae simmetria, permette Il controllo dell'operazione <strong>di</strong> sostituzione,determinando se essa sia stata eseguita secondo le normeIn<strong>di</strong>cate (ad esempio famiglie della stessa ampiezza o territori almentevicine).Disporre <strong>di</strong> informazioni sulla consistenza del <strong>di</strong>fferenti aggregati<strong>di</strong> unità non Intervistate o non rispondenti, è utile nonsolo per una valutazione della qualità dei dati raccolti e dell'attivitàdella rete periferica, ma anche per la programmazione dllndaglnlfuture e per le possibili azioni correttive nella tenuta dellalista.La copertura del censimento costituisce un caso particolare<strong>di</strong> mancata risposta totale, caratterizzato dalla non esistenza apriori <strong>di</strong> numerosltà <strong>di</strong> confronto; uno degli obiettivi dell'operazionecensuaria è, Infatti, l'aggiornilmento dElgii;_8rGhivl a,nagr,flçl.Per la medeSima ragione, questi nonpe:)ssonò'essere utilizzati,quale liste <strong>di</strong> selezione, per l'<strong>indagine</strong> campionaria <strong>di</strong> controlloeffettuata a strette:) rld08SQ del censimento; si ricorre, q~lndl.ad un campione <strong>di</strong> aree (sezioni <strong>di</strong> censimento) in cui si conteggiano,una s,conda volta, tutte le unità in esse' contenute.Nell'Indagine <strong>di</strong> ce:)ntrollo devonò essere utilizzati l rilevatoripiù esperti, per assicurare una migliore quaUtàdEli dati raccolti,e ciascuno eli lilSSi dElve Elssere impegnato in un'arE18 <strong>di</strong>versa dallaprecedente, per garantire 1'lndlpenderlZ!l delle QuEI operazion.l.NEllI'anallsl ciel risultati, si possonoconcfilttJ,lalmente sud<strong>di</strong>viderele unità.in quattro sub-unlversl <strong>di</strong>fferenti, a seconda dellapresenza od assenza rlElcontrata nelle due rllevazloni; più precisamente:- unità presenti all'Indagine ed al censimento (N 11 )- unità presenti all'Indagine ma non al censimento - (N1~- -uni,tà presenti al cenEllmento ma nOfl all'Indagine (N21)- unità non presenti sia al censimenJo che all'Indagine (N~


98IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 3· LA RILEVAZlONE SUL CAMPO99Me<strong>di</strong>ante il confronto tra l'<strong>indagine</strong> <strong>di</strong> controllo ed il censimentoè possibile stimare <strong>di</strong>rettamente la consistenza del primitre gruppi ("'11> "'12' "'21)' ed Indlrettam~nte quella <strong>di</strong> Nzz ipotlzzandol'in<strong>di</strong>pendenza tra le due operazioni:~22 = ~l:!· ~21) / ~llIn tal modo è possibile stimare N, owero Il numero totale delleunità, come somma delle stime "'II}q = ~ll + ~12 + ~21 + ~22' 'il tasso <strong>di</strong> copertura del censimento1'. = ~ll + ~21) / ~e la varlanza della stima '"aÀ = ~ • ~n> / ~llme<strong>di</strong>ante la quale determinare l'Intervallo <strong>di</strong> confidenza per N.Figura 3.2· Classificazione delle risposte all'l-aslmo quesitoGli Indlc8loll cii...--...... tapeni.Durante l'Intervista' le Interaziòni tra questionario, rllevatoree rispondente posson~ determinare, per ciascun quesito, rifiutiod impossibilità a rispondere, risposte non dovute od incongruenzelogiche sulla base delle norme <strong>di</strong> compilazione del questionario,valori non ammissibili rispetto al campo <strong>di</strong> variazioneprestablllto'. .La classificazione corrispondente è <strong>di</strong>agrammata nella Figura3.2.La <strong>di</strong>stinzione tra risposte dovute e non dovute è funzionalealla costruzione <strong>di</strong> In<strong>di</strong>catori che rappresentano i <strong>di</strong>versi aspettidell'errore e può essere ottenuta In due mo<strong>di</strong>: (I) me<strong>di</strong>ante l'analisidella risposta al singolo quesito, (II) mettendo in relazionele risposte fornite a piiJ quesiti.- , -Nel primo caso oCcorre <strong>di</strong>stinguere l'assenza <strong>di</strong> risposta derivantedalrifiuti e dal non so da quella per risposta non dovuta;ciò può essere realizzato prevedendo nel questionariO una co<strong>di</strong>caspecifica per le suddette modalità. Tale metodo assicura ilriconoscimento delle cause della mancata risposta ma può favorirela tendenza a non rispondere.I co<strong>di</strong>ci che <strong>di</strong>stinguono la risposta non dovuta dalla mancataunltamente alle Informazioni sul valori fuori campo e alle Inc~ngruenzeriscontrate, forniscono là. base <strong>di</strong> calcolo per gli indlcatorlriportatlnel Prospetto 3.3.II rapporto tra la somma delle risposte non dovute e <strong>di</strong> quelleutilizzabili (valori ammissibili e compatibilQ ed Il numero del rispondenti,costituisce l'in<strong>di</strong>catore della compI/azione del quesito.Rapportando I valori ammissibili e compatibili alle rispostedovute, si ottiene l'In<strong>di</strong>catore dell'efficacia dell'intervista; al contrario,la somma, al numeratore, del valori fuori campo, dei rifiutie del co<strong>di</strong>ci ammissibili ma Incompatibili, fornisce la misuradella mancata risposta parziale. Il fenomeno rifiuto è misuratodal rapporto tra i rifiuti e le risposte dovute, mentre, Il numerodel co<strong>di</strong>ci ammissibili ma rlsultatllncompatibiU su quello del co<strong>di</strong>ciammisslbill. costituisce un In<strong>di</strong>catore <strong>di</strong> incompatibilità.Tali In<strong>di</strong>catori vengono, <strong>di</strong> solito, elaborati dai dati registratisu supporto informatico e, quin<strong>di</strong>, includono l'errore <strong>di</strong> reglstrazlone.Essi,tuttavia, non perdono <strong>di</strong> significato e <strong>di</strong> efficacia nell'analisise possiamo Ipotizzare(a) che la parte preponderante dell'errore sia attribuibile alla fase.<strong>di</strong>rilevazione;(b) che l'errore <strong>di</strong> registrazione sia costante nei <strong>di</strong>versi In<strong>di</strong>catorlcalcolatI.


100 IL SISTEMA DI CONTROLLO DELLA QUALITA DEI DATICAP. 3· LA RILEVAZIONE SUL CAMPO101Prospetto 3.3 - In<strong>di</strong>catori relativi alle Mancate Risposte Pa~ialiper la generica variabile - calcolo basato SUI co<strong>di</strong>ciINDICATORI(NNO + No~' NRNQAC' NDSIGNIFICATOFONTE DI ERROREcomuni rilevatorl questionariocompllazionadal quesito - si siefficaciadall·lntervlsta - si si(NQAI + NFC + N.,,!' ND mancata risposta - si siNRF ' Norifiuto - si siNQAI' NQA incompatibilità - si siN. = numero <strong>di</strong> rispondentiNNO = numero <strong>di</strong> risposte non dovuteverrà me<strong>di</strong>ante collegamento tra i record relativi alla medesimaunità; a tale scopo deve essere previsto un co<strong>di</strong>ce identificativoesatto, ad esempio un progressivo <strong>di</strong> record apposto me<strong>di</strong>anteprogramma informatico sul materiale proveniente dalla registrazionee conservato immutato in tutte le successive fasi <strong>di</strong> elaborazionedei dati.L'accoppiamento tra record «sporchi. e «puliti. può dar luogoad una delle sei situazioni riportate nel Prospetto 3.4, e le unità,per ciascuna delle variabili del questionario, rimarranno quin<strong>di</strong>raggruppate nelle relative sette classi.Prospetto 3.4 - Confronto tra i valori della singola variabile dellagenerica unità nel file sporco e pulitoFILE SPORCOValori non ammissibiliBlankValori significativiFILE PULITOBlank Valori significativiNBBBVBNVBVVVMMNo= numero risposte dovuteNRFNFCNQANQACNo ..= numero <strong>di</strong> rifiuti= numero <strong>di</strong> valori fuori campo= numero <strong>di</strong> valori ammissiblli= numero <strong>di</strong> valori ammissibili compatibili= numero <strong>di</strong> valori ammissibili incompatibiliSe non si utilizzano i suddetti co<strong>di</strong>ci, si dovrà ricorrere allecorrezioni dovute alle regole formali dei piani <strong>di</strong> compatibilità che,mettendo in relazione la risposta fornita al singolo quesito conquella presente in altri quesiti, riconoscono la mancata rispostadovuta. -In questo modo, però, la <strong>di</strong>stinzione tra risposta dovuta e no~dovuta viene a <strong>di</strong>pendere dalla procedura ed è perturbata daglierrori nelle variabili, generati da altre fonti. Il riconoscimento dei<strong>di</strong>versi gruppi si baserà sulle variazioni intervenute trai! file sporcoe quello pulito, durante la fase <strong>di</strong> revisione. Il confronto av-Anche i valori <strong>di</strong>versi da blank e dai fuori campo, possonoessere mo<strong>di</strong>ficati dai piani <strong>di</strong> compatibilità e quin<strong>di</strong> danno luogoa due insiemi: i valori mo<strong>di</strong>ficati (MM) e quelli immutati (VV).Dal Prospetto 3.4 pOSSiamo riclassificare le unità nei seguentigruppi, significativi per la costruzione degli in<strong>di</strong>catori sintetici<strong>di</strong> qualità, per ciascuna variabile del questionario:I) i valori fuori campoIl) i rifiutiIII) le incongruenzeIV) le risposte dovute netteV) le risposte dovute lordeVI) le risposte nette(NB + NV)(BV)(VB + MM)(BV + VV + MM)(BV + VV + MM + NV)(BB + vV)L'in<strong>di</strong>catore generico della qualità del materiale <strong>di</strong>sponibile,è dato dal rapporto tra le risposte nette ed il numero delle unitàrispondenti; depurando Il denominatore dai valori fuori campo,si ottiene il medesimo in<strong>di</strong>catore per il materiale raccolto.Addebitando i valori fuori campo, nei quesiti preco<strong>di</strong>flcati, allafase <strong>di</strong> registrazione, il rapporto tra questi ed il numero <strong>di</strong> unità


102 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 3 • LA RILEVAZIONE SUL CAMPO103rispondenti, costituisce il tasso minimo <strong>di</strong> errore <strong>di</strong> reglstrazio­-ne; minimo,. in quanto non sono comprese in esso le mo<strong>di</strong>fica·zlonlln valori ammissibili, non identificabili contale tecnica. Taletasso non può quin<strong>di</strong> sostituire Il controllo della fase <strong>di</strong> registra· .zlone, ma ne costituisce una verifica basata sul complesso deidati.Il tasso <strong>di</strong> rifiuto, per il singolo quesito; può essere calcolatorapportando I rifiuti sia alle risposte dovute nette, sia a quellelorde; In questo secondo caso la stima è conservativa, in quan·to addebita l'insieme NV unicamente all'errore <strong>di</strong> registrazione.I due valori costituiscono quin<strong>di</strong> gli estremi del campo <strong>di</strong> varia·zlone del tasso <strong>di</strong> rifiuto reale.Prospetto 3.5 - In<strong>di</strong>catori relativi alle Mancate Risposte Parzialiper la generica variabile - calcolo basato sui rl·sultatl delle procedure <strong>di</strong> revisioneINDICATORIRN/N~RN I (N~ - VFO)VFC/N~SIGNIFICATOcomuni-FONTE DI ERROREquoatIonarIoquallti malarlaledIsponIbile - sI sIquallti matertaleracCOlto - sI sIerrore mInImoregIstrazIone - - 51INC/RDN Incongruenm - si sIRF/RDN rifIuto (netto) - sI sIRF/RDL rifiuto (lOrdo) - sI sI(RF + INO) I RNefficaciaIntervtsta - sI sI(RF + INO) I RDN efficacIa racCOlta - sI sI(RF + INC + VFO) I N~NB + NVefficaciaIndagIne - sI sIN* uniti rIspondentIR= VFC valori fuori campoBB + VV = RN risposte netteBVi-VV+MM = RDN rIsposte dovute netteBV+VV+MM+NV = RDL risposte dovute lordeBV = RF rifIutIVB + MM = INC IncongruenzeQuale in<strong>di</strong>catore dell'efficacia della tecnica <strong>di</strong> raccolta, pOSosiamo considerare il rapporto tra la somma del rifiuti e delle incon·gruenze e le risposte dovute nette; l'efficacia del complesso del·l'Indagine è, invece, data dalla somma del rifiuti, delleincongruenzee del valori fuori campo, rapportata al numero <strong>di</strong> unità rispondenti.L'analisi dei tassi dei Prospetti 3.3 e 3.5 può risultare <strong>di</strong>fficoltosa,dato il numero delle variabili presenti su <strong>di</strong> un questionarioad obiettivi plurlmi. Per ridurre la mole dell'Informazioneda valutare, possono essere calcolate delle me<strong>di</strong>e (semplici o ponderatecon il numero delle risposte dovute) sul complesso dellevariabili o su sottoinslemi rllevaDti <strong>di</strong> esse.Le unità considerate sono quelle acui sono riferite le infor·mazloni da cui sono calcolati I tassi: generalmente gli In<strong>di</strong>vidui.I tassi relativi alla qualità del materiale raccolto, ai rifiuti eall'efficacia della raccolta e dell'Indagine, possono essere utilizzatiper il controllo della rete periferica; gli in<strong>di</strong>catori della qualitàdel materiale <strong>di</strong>sponibile e dell'errore minimo <strong>di</strong> registrazione,analizzati per tutte le variabili, per domini territoriali o sul complessodei dati raccolti forniscono In<strong>di</strong>cazioni sull'affidabilità del·le stime ottenute. -A livello totale, inoltre, l'analisi dell'In<strong>di</strong>catore dell'efficaciadella tecnica <strong>di</strong> raccolta, per singolo quesito o gruppi <strong>di</strong> quesiti,possono rivelare l'esistenza <strong>di</strong> ambiguità o <strong>di</strong> errori nella strutturao nelte norme <strong>di</strong> compilazione del questionario.Sulla mancata risposta parziale possono essere condotte ulteriorianalisi ponendo in relazione i tassi <strong>di</strong> rifiuto e le caratteristichestrutturali delle unità; sull'efficienza della tecnica <strong>di</strong> rac·colta me<strong>di</strong>ante l'esame delle relazioni tra gli in<strong>di</strong>catori <strong>di</strong> efficaciaed i dati concernenti la situazione in cui si è svolta l'Intervista.Le modalità <strong>di</strong> intervista, (II numero del ritorni, la durata, ilgiorno e l'ora <strong>di</strong> effettuazione ed I rispondenti proxy) possonoessere analizzate a fini:- <strong>di</strong> controllo dell'operato dei rilevatori;- <strong>di</strong> controllo della reale numerosità campionaria del rlspon·denti;- <strong>di</strong> analisi delle caratteristiche dei non rispondenti;- <strong>di</strong> ricostruzione delle tlpologie <strong>di</strong> situazioni dell'intervista.Il carico <strong>di</strong> lavoro, la durata me<strong>di</strong>a dell'intervista e la percentuale<strong>di</strong> risposte proxy, calcolate per rilevatore e per ufficio peri·ferico, possono essere utilizzati per il controllo della rete; la per·centuale <strong>di</strong> rlspondentl.è un in<strong>di</strong>catore della reale <strong>di</strong>mensionecampionarla (Prospetto 3.6).'L'analisi delle caratteristiche del rispondenti proxy può ser·vire ad identificare particolari subpopolazlonl per le quali i datiraccolti sono me<strong>di</strong>ati da altre unità; tale Informazione è un in<strong>di</strong>catoredella possibile esistenza <strong>di</strong> <strong>di</strong>storsioni.Gli In<strong>di</strong>catoridell'lnt.mata


104 IL SISTEMA DI CONTROLLO DELLA QUAUTA DEI DATICAP. 3· LA RILEVAZIONE SUL CAMPO'105Prospetto 3.6 - In<strong>di</strong>catori relativi alle modalità d'IntervistaINDICATORISIGNIFICATOFONTE DI ERROREcomuni d-" ISTATN;/NR proxy - si -Np/NR proxy - al -1-tN;MAlNR/NN;I N'I;!?/NRG./GGb/GNR/(G.+GJN numeroaltà teorica (quastlonarllNR num.ro <strong>di</strong> unità rispondenti (questionarI)N; numltro <strong>di</strong> rispondenti proxydlmenalonecampionariareale - si -effettuazioneInt8IYlate(qu .. U~narI) - si -effettuazioneIntlKVlat.Ondlvldul) - al -durata me<strong>di</strong>aIntervlate - si algloml·ammeasl<strong>di</strong> Int8lYlate si si algiorninonàmmasal<strong>di</strong> Intervlate si al siInt8IYlstegiornaliere si al siNp num_ <strong>di</strong> questionari CQn almeno un rlapondenta proxyN' numeroaltà taorlca (In<strong>di</strong>viduI)NA num.ro <strong>di</strong> unità rlapondanU (In<strong>di</strong>viduI)D; durata dall'l ... ima IntarvlstaG pttrIodo <strong>di</strong> riferimento (In giornI)G • numero <strong>di</strong> giorni In cui I. Intarvlsta sono state affattuste Ontaml al periodo <strong>di</strong>rlfltrlmento)~ numItrQ <strong>di</strong> giorni In cui le Intarvlate sono stata effettuate (astaml al pltrlodo <strong>di</strong>rlfltrlmento)I dati concernenti la situazione in cui si è svolta l'intervista(le relazioni tra unità presenti e rispondenti, quale ad esempiola relazione <strong>di</strong> parentela, la <strong>di</strong>stribuzione per giorno della setti­. mana e per ora Il rispetto del calendario) possono essere analizzateallo scopo <strong>di</strong> in<strong>di</strong>viduare tlpo/ogie cflntervlsta da cui desumereutili in<strong>di</strong>cazioni per le norme <strong>di</strong> rilevazloneper la medesima<strong>indagine</strong> In tempi successivi o per indagini rivolte allamedesimapopolazione.Nell'attuale organizzazione delle Indagini, la responsabilitàdelle operazioni <strong>di</strong> trascrizione e<strong>di</strong> apposizione del co<strong>di</strong>ci identificativi,ricade sul supervisorl (gli uffici comunali).Il calcolo degli in<strong>di</strong>catori <strong>di</strong> qualità <strong>di</strong> questo aspetto dellarilevazione, dovrebbe essere, quin<strong>di</strong>, basato sull'analisi del materialecartaceo, Il solo effettivamente compilato dai suddetti soggetti.Tuttavia, tale verifica è, generalmente, troppo <strong>di</strong>spen<strong>di</strong>osa,dal punto <strong>di</strong> vi.sta organlzzativo e della tempestività, còslcché sipuò ricorrere, per la determinazione degli errori <strong>di</strong> identificazio.ne, al confronto tra l'identificatore della stessa unità presentenel file proveniente dalla registrazione con quello corretto nellafase <strong>di</strong> revisione quantltativa. Anche in questo caso, come perl'analisi delle mancate risposte parziali, l'abbinamento dei recordpresuppone un co<strong>di</strong>ce <strong>di</strong> accoppiamento esatto, in<strong>di</strong>pendentedal sistema <strong>di</strong> identificazione adottato nell'<strong>indagine</strong>.Il confronto può dar luogo a <strong>di</strong>fferenze (errori) o ad uguaglianzetra co<strong>di</strong>ci che saranno utilizzate per Il calcolo degli In<strong>di</strong>catori delProspetto 3.7, rapportando il numero <strong>di</strong> unità con co<strong>di</strong>ci erratial totale delle unità;Tali In<strong>di</strong>catori, tuttavia, risentono delle modalità della registrazione;infatti, i co<strong>di</strong>ci Identificativi vengono, generalmente,registrati in duplica e, quin<strong>di</strong>, un solo errore si ripercuote su tuttele unità cui è riferito l'identificatore. Per tali ragioni, non è possibileipotizzare un errore <strong>di</strong> registrazione <strong>di</strong> modesta entità, <strong>di</strong>stribuitocasualmente ed uniformem~mte su tutte le unità rilevate,e, quin<strong>di</strong>, gli in<strong>di</strong>catori sovrasti mano l'errore dlldentlflcazlonedovuto alla fase <strong>di</strong> rilevazione.Ad esempio un errore <strong>di</strong> regi.strazione commesso sul co<strong>di</strong>ce Identificativo del comune,comporta che, nel numeratore dell'In<strong>di</strong>catore, compala Il numero<strong>di</strong> tutti I questionari del comune In esame, pur essendo valld.JI co<strong>di</strong>ci riferiti al questinario. .Per calcolare un parametro, che approssimi l'errore commes~so nella fase <strong>di</strong> rilevazione, si può'supporre che la sistematlcitàsia collegata solo al co<strong>di</strong>ce comunale e calcolare al denominatoreso'amente le <strong>di</strong>fferenze riscontrate nell'Identificatore <strong>di</strong> unadelle unità subcomunall (questionario, area, rllevatore, In<strong>di</strong>viduoo evento).


106IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 3 • LA RILEVAZlONE SUL CAMPO107Le ......... tIchealluHurallI suddett~ In<strong>di</strong>catori possono essere calcolati o per il concatenamento<strong>di</strong> tutti I co<strong>di</strong>ci subcomunall (ad esempio l'identificatorecomposto dal co<strong>di</strong>ci <strong>di</strong>, rilevatore, famiglia; In<strong>di</strong>viduo), oppureper ogni singolo Identificatore o combinazioni <strong>di</strong> Identificatori;nel primo caso si valuta l'errore complessivo commessosul co<strong>di</strong>ci identificativi, mentre, nel secondo, si può valutare ilrischio <strong>di</strong> errore per ogni singolo o per una determinata combinazione<strong>di</strong> co<strong>di</strong>ci elementari.La presenza <strong>di</strong> una doppia chiave <strong>di</strong> identificazione (come nell'Indagineforze <strong>di</strong> lavoro dove esiste un co<strong>di</strong>ce <strong>di</strong> famiglia perl'aspetto tl"asversale ed uno per l'aspetto longltudlnale dell'Indagine)Implica "esistenza <strong>di</strong> una corrispondenza biunivoca trai due Identificatori; In questo caso le mancate relazioni, rapportateal numero <strong>di</strong> unità rilevate, danno luogo ad un specifico In<strong>di</strong>catore.La numerazione progressiva dei questionari, relativi ad un dominioterritoriale (usualmente il comune), comporta che il massimodel progressivi od alrf)eno quello relativo alle unità non sostituite,non può superare la numerosltà campionaria assegnata.t: possibile, quin<strong>di</strong>, calcolare un tasso <strong>di</strong> errore, me<strong>di</strong>ante Ilrapporto tra Il numerodl progressivi maggiori della numerosltàcampionaria ed il t6tale delle unità rilevate.'I numeratorl ed i denominatori degli indléatori possono esserecalcoratl facendo riferimento o al questionario (ad esempioil numero <strong>di</strong> questionari In cui è errato Il co<strong>di</strong>ce <strong>di</strong> rllevatore ol'identificatore <strong>di</strong> famiglia), owero alle unità elementari <strong>di</strong> analisi(ad esempio il numero <strong>di</strong> in<strong>di</strong>vidui o <strong>di</strong> eventi). Nel primo caso,si ha una misura dell'errore commesso, In quanto il questionarioè il supporto cartaceo effettivamente compilato nella fase <strong>di</strong>rllevazlone, mentre nel secondo si ottiene una misura dell'impattodell'errore sul mlcrodatl dell'<strong>indagine</strong>.Le caratterlstfche strutturali delle unità rispondenti, possonoessere utilizzate per In<strong>di</strong>viduare eventuali <strong>di</strong>storsioni verificates~nella fase <strong>di</strong> raccolta sul campo, ad esempio la sottovalutazrone<strong>di</strong> particolari subpopolazlonl., Per ,le hidaglnlsulla popolazione, ,si può far ricorso ad in<strong>di</strong>catoridemograflcf(:herISultano: stabili, se la base <strong>di</strong> calcolo èsufflclèntemente ampl'à, e sul cui livello si hanno Informazionia priori: Il numero me<strong>di</strong>o <strong>di</strong> componenti pedamiglia, Il rapporto<strong>di</strong> maSCOlinità, gli in<strong>di</strong>ci <strong>di</strong> <strong>di</strong>pendenza e <strong>di</strong>, vecchiaia ecc ..Il confronto tra tali In<strong>di</strong>catori ed I corrispondenti deSunti dalcensim'énto, dalle ris'ultanze anagrafiche o dalle previsioni, costituisceuna verifica della rappresentatlvltà dei risultati dellarllevazionerispetto alla popolazione <strong>di</strong> riferimento.Per le indagini campionarle è opportuno prendere in considerazioneun livello <strong>di</strong> controllo sovracomunale per assicurareuna numerosità sufficiente e garantire la stabilità dei rapporti.Prospetto 3.7 - In<strong>di</strong>catori relativi all'ldentlflCàzlone delle unitàINDICATORINO_' NONO_III I NONO ... I NONO .... I NONU .... /NUNU .... III /NUNU bIu I NUNU .... /NUNO·SIGNIFICATOcomuniA) Errore comm8seoFONTE DI ERROREri_ ldenllllcatoriIdentificatorecompleto si - sisingolo subIdentificatore si - siIdentificatoridoppia chiave si - siIdentificatoriprogreaelvl si - siB) Incidenza dall'errore sul mlcrodatlIdentificatorecomplato si - sisingolo subldantlflcatore si - siidentificatoridoppia chiave si - sildantlflcatorlprogressivi si - si= numero <strong>di</strong> qusstlonarl corrispondenti alle unltè teoriche <strong>di</strong> rllavazlonaNO. NU = numero <strong>di</strong> questionari compilati e reletlve unltèNO,..,. NU ....= numero <strong>di</strong> questionari con almeno un Identificatore Bubcomunaleerreto Il relativa unltèN .... w NU .... III = numero <strong>di</strong> qusstlonarl con 1· .... lmo identificatore subcomunale erretoe relative unltèNO .... NU bilt= numero <strong>di</strong> questionari per I quali non è stata verificata la corrlspGn-, danza biunIVoca nella doppia chiave <strong>di</strong> co<strong>di</strong>ci e relative unltèNO ..... NU .... = numero <strong>di</strong> questionari con Il co<strong>di</strong>ce progreeslYo > NO· e relatMl unltè


108IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DAnCAP. 3 • LA RILEVAZIONE SUL CAMPO109Gli in<strong>di</strong>catori succitati sono vali<strong>di</strong> per la gran parte delle indaginisulla popolazione; per rilevazionl mirate a particolari subpopolaZioniè necessario costruirne <strong>di</strong> specifici (ad esempio inuna <strong>indagine</strong> sulla fertilità è opportuno indagare più approfon<strong>di</strong>tamentesulle classi <strong>di</strong> età delle donne In età feconda).5. La correzione degli erroriNel primo caso, possiamo applicare le analisi s~atistlch.e standarde viene assicurata la comparabilità delle stime, pOiché lestatistiche sono calcolate sulla stessa base <strong>di</strong> dati; d'altro cantotale scelta comporta una forte riduzione della numerosità campi~naria,in funzione delle pro~abilità <strong>di</strong> mancata risposta sullevariabili e del numero delle stesse. Ad esempio, Ipotizzando unaprobabilità <strong>di</strong> mancata risposta costante, casuale ed In<strong>di</strong>pendentetra variabili, la riduzione del numero <strong>di</strong> unità è riportata nellatavola (3.1).Le mancat. rlapoateparzialiDel complesso degli errori derivanti dalla fase <strong>di</strong>rilevazionesul campo, solo le mancate risposte totali e quelle parziali (intesein senso lato, ovvero comprensive delle incongruenze logichee dei valori fuori campo), possono essere riconosciute ed attribuitealla singola unità <strong>di</strong> analisi. Gli altri errori possono essereidentificati e quantificati me<strong>di</strong>ante in<strong>di</strong>catori in<strong>di</strong>retti, oppure stimati,me<strong>di</strong>ante indagini <strong>di</strong> controllo, ma solo in riferimento al complessodei dati.La correzione può essere, quin<strong>di</strong>, apportata solo riguardo aisuccitati errori, in quanto identifica~m senza mutare le con<strong>di</strong>zionigenerali dell'<strong>indagine</strong>, in tempi e con costi contenuti; ciòimplica che è possibile correggere solo una parte dell'errore totale.La <strong>di</strong>stinzione tra mancate risposte totali e parziali è funzionaleai meto<strong>di</strong> <strong>di</strong> correzione: le mancate risposte parziali sonocorrette operando sui microdati nella fase <strong>di</strong> revisione del materialeraccolto, mentre si tenta <strong>di</strong> ridurre gli effetti delle mancaterisposte totali o al momento della rilevazione; prevedendo le sostituzioni,o al momento delle stime finali, me<strong>di</strong>ante appositi pesicorrettivi.Possiamo immaginare i risultati dell'<strong>indagine</strong>, dopo la fase<strong>di</strong> rilevazione, come una matrice unità/variabili, <strong>di</strong>visa In due sottoinsieml:i dati relativi alle unità rispondenti e quelli dei non rispondenti.Per l'analisi <strong>di</strong> tale matrice sono possibili tre strategie, tenendopresente, tuttavia, che, qualsiasi <strong>di</strong> esse venga adottata, sisconta una <strong>di</strong>storsione delle stime, se il meccanismo <strong>di</strong> generazionedelle mancate risposte non è strettamente casuale:limitarsi all'insieme dei «dati completi». ovvero delle unità chehanno risposto a tutti i quesiti;includere, nell'analisi delle singole variabili, anclie le unitàche, per quelle caratteristiche, hanno fornito una risposta (dati<strong>di</strong>sponibili);- operare una qualche forma <strong>di</strong> correzione o <strong>di</strong> imputazione.Tavola 3.1 - Riduzione della numerosità campionaria In funzionedelle probabilità <strong>di</strong> mancata rispostaPROBABIUTA DIMANCATA RISPOSTANUMERO DELLE VARlABlU- RILEVATE10 20 501% 90% 82% 60%5% 60% 36% 8%Nel caso dei risultati <strong>di</strong>sponibili, si recupera tutta l'informazionecontenuta nei dati, ma le statistiche univaria~e non sono"imme<strong>di</strong>atamente confrontabili, perché ottenute con numero~ità<strong>di</strong>verse' inoltre si deve far ricorso a procedure non ~tandard peril calcoio <strong>di</strong> st~tistiche multivariate (ad es. la matrice dJ correlazione),a meno <strong>di</strong> non basarsi, in questi casi, solo sui risultaticompleti. "Me<strong>di</strong>ante la correzione dei microdati, si eliminano gli inconvenientidel primi due meto<strong>di</strong>, poiché tale tecnica fornisce unamatrice <strong>di</strong> risultati completi per tutte le unità.Data l'importanza dell'argomento, i proce<strong>di</strong>menti <strong>di</strong> determinazionee correzione dell'errore, qui classificato come mancatarisposta parziale, sono oggetto <strong>di</strong> un apposito capitOlO (Capitolo5).Nel caso <strong>di</strong> indagini esaustive, in cui sono note le variabilistrutturali dell'universo la correzione può essere effettuata, stratificandole unitàrispo'ndenti secondo tali caratteristiche e pesandoi risultati me<strong>di</strong>ante il rapporto tra numerosità teorica enumero <strong>di</strong> unità' rispondenti. Tale tecnica equivale a sostituirele unità non rispondenti all'unità me<strong>di</strong>a <strong>di</strong> gruppo; in. que~!O modo,però, le <strong>di</strong>stribuzioni risultano a~piattlte su tali me<strong>di</strong>e.L'inconveniente viene superato, utilizzando una seconda teconica, che consiste nel sostituire, a livello <strong>di</strong> micro dati, le unitàLe mancate rIapcllltetotali


110 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 3· LA RILEVAZIONE SUL CAMPO111non rispondenti con unità tipo, determinate a priori, o da unitàcon le medesime caratteristiche, scelte a caso nello strato <strong>di</strong> appartenenza;il nomer(), e l'omogeneità degli strati <strong>di</strong>pendono dallecaratteristiche delle unità, riportate nella lista. Tali <strong>tecniche</strong>possono essere considerate come un'estensione dell'applicazionedel piani <strong>di</strong> compatibilità e correzione al caso in cui tutte levariabili, tranne quelle <strong>di</strong> collegamento, sono mancanti (cfr. Capitolo5).Per le Indagini campionarie, si può far riferimento a <strong>di</strong>fferentimetodologie.Il primo metodo <strong>di</strong> correzione degli effetti delle mancate rispostetotali è contemporaneo alla rilevazione sul campo: sosti­. tuire le unità non rispondenti con altre precedentemente selezionateIn maniera casuale dalla medesima lista.Tale tecnica ripristina la numerosltà campionaria programmatae quin<strong>di</strong> la quota dei non rispondenti non influenza l'errore<strong>di</strong> campionamento. Tuttavia,· possono permanere effetti <strong>di</strong>storsivise la subpopolazlone dei rispondenti, cui appartengono leunità sostitutive, presenta caratteristiche <strong>di</strong>fferenti da quella deinon rispondenti; continuano, perciò, a rimanere valide le considerazioniriportate nel paragrafo 2.La seconda tecnica, più generalmente usata, consiste nellasud<strong>di</strong>visione in strati delle unità campionarie e nella correzionedelle stime, me<strong>di</strong>ante la mo<strong>di</strong>ficazione delle probabilità <strong>di</strong> selezionein ciascuno strato.In questo caso, ad esempio, lo stimatore <strong>di</strong>retto <strong>di</strong> HorwitzThompson per la me<strong>di</strong>a,dove le Y R , sono le me<strong>di</strong>e dei rispondenti nello strato.Per stratificare sia le unità rispondenti che quelle non rispondentisecondo un unico criterio, è necessario che questo sia conosciutoa priori, in<strong>di</strong>pendentemente dalle informazioni raccolteme<strong>di</strong>ante l'<strong>indagine</strong>. Inoltre, la variabile <strong>di</strong> stratificazione nondeve essere correlata con i fattori che determinano la mancatarisposta, altrimenti gli strati rlspecchierebbero ancora le popolazionidei rispondenti e dei non rispondenti.La riduzione della <strong>di</strong>storsione operata dal proce<strong>di</strong>mento è funzionedell'omogeneità delle sub-popolazionl in<strong>di</strong>viduate a posteriori.Se sono conosciute le numerosità degli strati nella popolazione,allora si può far ricorso allo stimatore post stratificato che,sotto le con<strong>di</strong>zioni sopra enunciate, risulta non <strong>di</strong>storto:Un terzo metodo <strong>di</strong> correzione degli effetti delle mancate risposte,consiste nell'estrarre, dalle n NR unità campionarie nonrispondenti, un subcampione casuale semplice <strong>di</strong> n' NR unità edottenerne l'intervista con successivi ritorni.In questo caso, la stima può essere ottenuta come combinazionelineare delle due stime, quella dei rispondenti nell'<strong>indagine</strong>e quella ottenuta dal campione dei non rispondenti, con pesipari ai rapporti delle rispettive numerosità con quella programmata..Ad esempio nel caso dello stimatore me<strong>di</strong>a:dove le 'II".} rap·presentano le probabilità <strong>di</strong> I?elezione dellaj-esima unità nell'i-esimo strato, verrà mo<strong>di</strong>ficato in:(3.4)Le P.} rappresentano le probabilità <strong>di</strong> risposta, usualmentestimate CJalla proporzione <strong>di</strong> unità campionarie rispondenti nellostrato n Fil I n, •Nel caso in cui la probabilità <strong>di</strong> selezione sia uguale per tuttele unità, la (3.4) si trasforma nella:(3.5)dove YR è calcolata dagli n R rispondenti, mentre YNR è calcolatasulle n NR unita campione selezionate dagli n NR non rispondenti.Lo stimatore Y t sarà non <strong>di</strong>storto se tutte le unità del campionedei non rispondenti vengono intervistate.Tale tecnica può risultare piuttosto costosa in termini economicied organizzativi, per l'evidente <strong>di</strong>fficoltà <strong>di</strong> reperire elointervistare unità, che nel corso dell'<strong>indagine</strong> principale non erastato possibile rilevare.La correzione degli errori <strong>di</strong> identificazione, si attua nella fase<strong>di</strong> revisione quantitativa (cfr. Capitolo 5), sulla base del con­. fronto tra i documenti <strong>di</strong> rilevazione ed il file; essa consiste Inoperazioni <strong>di</strong> mo<strong>di</strong>ficazione dei co<strong>di</strong>ci identificativi, <strong>di</strong> cancellazioneod inserimento <strong>di</strong> record in detto file.Gli ....... <strong>di</strong>Identificazione


CAP. 3 • LA RILEVAZIONE SUl CAMpo.113RIFERIMENTI BIBLIOGRAFICIlavori <strong>di</strong>c~rattere teoricoAA.W. (1983), Incomplete data In sample survey, Volume 2, AcademlcPress, New York. .CoCHRAN W. (1977), Sampllng technlques, cap. 13, ~. VllleX, NEiw.York.GIOMMI A. (1~), $u!la stima della proba.bllit~. <strong>di</strong> rrsposfa nelcamplO:­namen.to da, pop,oliW0'11 finite, In AHI della XXXII Riunione Scientifica


114 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATIlavori <strong>di</strong> carattere applicativo In ItaliaCORTESE A. (1983), Indagini sul confronto censlmento-anagrafe: scopi,modalltll d'esecuzione, principali risultati, Atti del Convegno S.I.S.,Trieste.FASBRIS L (1981), Meto<strong>di</strong> statistici per l'analisi della qualltll del dati sanitari,In trStatlstlca e Ricerca epldemlologlc .. , Cleup, Padova.FASSRlS L (1984), Questlon wonIlng e selezione delle alternative <strong>di</strong> rI·sposta In una Indagine postale, In Atti della XXXII Riunione scientificadella 8.1.8., Sorrento.MANGANO S. (1984), Analisi dell'Influenza del rllevatorl sulla qualltIJ deldati raccolti nel tfllZO censimento generale dell'agricoltura, attra.velSO Il metodo dell'analisi della varlanza, Atti della XXXII Riunionescientifica della S~I.S., Sorrento.MASSELU M. (1983), Risultati dell'<strong>indagine</strong> <strong>di</strong> controllo sulla qualltll deldati del censimento 1981, Atti del Convegno S.I.8., Trieste.MA88EW M., TERRA ASRAMI V. (1983), L'Indagine <strong>di</strong> controllo <strong>di</strong> coperturadel censimento della popolazione, Atti del Convegno S.I.S., Trieste.MA8SEW M. (1988), L'errol8 <strong>di</strong> Identificazione delle unitI ed II sistema<strong>di</strong> controllo <strong>di</strong> un'Indagine statistica. Una applicazione all'lndagl·ne sulle fotZIJ <strong>di</strong> lavoro, Atti della XXXIV Riunione Scientifica dellaSIS, Siena, Volo Il, Tomo l, pp. 169-176.ROSSI F. (1983),11 controllo del dati nel censimento della popolazionedel 1981, In Statistica n. 4.ScHIRlNZI G. (1988), Alcune prime annotazioni sulla rlpertlzlone delleaziende agricole secondo la superficie, Atti del Convegno della 8.1.S.su .Statlstlca e risorse naturall-, Messina.ZANNELLA F., SASBADINI LL, BURATTA V. (1988), Analisi dell'effetto proxyIn alcune recenti Indagini sulle famiglie condotte dall'lstat: primirisultati, documento Interno ISTAT.ZANNEUA F., SASBADINI LL, BURATTA V. (1988), Analisi dell'effetto proxynell'Indagine sulle fotZIJ <strong>di</strong> lavoro del luglio 1988 - Risultati pl8l1ml·narl, documento Interno ISTAT.CAPITOLO 4 - LA REGISTRAZIONE1. IntroduzioneNel processo <strong>di</strong> produzione del dato statistico, la registrazionecostituisce l'anello <strong>di</strong> congiunzione tra Il supporto cartaceo (questionario)e quello informatico; rende cioè elaborablllie Informazioniraccolte.In particolare, Il plano <strong>di</strong> registrazione consente Il trasferimentodel dati dal modello <strong>di</strong> rllevazlone ad un record Il cui tracciatoè sud<strong>di</strong>viso In campi <strong>di</strong> uno o plQ byte, Istituendo una corrispondenzabiunivoca tra ciascuno del suddetti campi e le variabili delmodello originale.'I tipi principali <strong>di</strong> errore che si possono commettere duranteIl processo <strong>di</strong> registrazione riguardano Il valore del dato e la suaposIzIone nel record finale. Il caso <strong>di</strong> errore sul valore si verificaquandO un certo carattere (alfabetico o numerico) viene letto oInterpretato male e quin<strong>di</strong> registrato In modo scorretto, cosi daeliminare la coincidenza fra quanto scritto sul modello e quantorisulta sul record. Ad esempio, se In alcune parti Il modello vieneco<strong>di</strong>ficato manualmente, può accadere che la lettura <strong>di</strong> certidati risulti <strong>di</strong>fficile e che talunl simboli (come I numeri 6 e O) venganoconfusi con altri. Il secondo tipo <strong>di</strong> errore accade-quandoun carattere viene letto e <strong>di</strong>gitato correttamente rispetto al suovalore, ma In una posizione errata sul record. Per esempio puòsuccedere che venga Inserita la <strong>di</strong>gitazione <strong>di</strong> uno o plQ byte, oal contrarlo si Introducano valori blank non previsti, determinandouno sllttamento (shift) in<strong>di</strong>etro o In avanti <strong>di</strong> parte del dati rispettoal tracciato record <strong>di</strong> riferimento.Quando questi errori si verificano, le elaborazioni successivegenerano rlsu"atl affetti da errore: è necessario pertanto da un latocercare <strong>di</strong> ridurre le fonti <strong>di</strong> errore, e dall'altro In<strong>di</strong>viduare meto<strong>di</strong>che fomlscano una valutazione quantltatlvadell'errore commesso.I IIpIti _2. La per<strong>di</strong>ta <strong>di</strong> Informazione dovuta all'errore <strong>di</strong> registrazioneUn aspetto fondamentale <strong>di</strong> cui tener conto nelle analisI suglierrori <strong>di</strong> registrazione è Il contenuto Informativo del co<strong>di</strong>ci:l'Influenza sul risultati finali <strong>di</strong> uno scambio <strong>di</strong> valori da zero ablank può essere quasi nulla se si tratta <strong>di</strong> dati quantltatlvl <strong>di</strong>cui Interessa la somma (es. spese <strong>di</strong> consumo per determinatibeni), ma può viceversa essere rilevante se al blank viene attribuitoIl significato <strong>di</strong> mancata risposta e se le mancate rispostesono oggetto <strong>di</strong> particolari elaborazioni.


116 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 4 • LA REGISTRAZIONE117Alcuni tipi <strong>di</strong> errore possono Incidere notevolmente sulla coerenzainterna del questionario e richiedere un successivo interventoda parte del piani <strong>di</strong> correzione, ciò <strong>di</strong>pende sostanzialmentedal plano <strong>di</strong> co<strong>di</strong>fica pre<strong>di</strong>sposto.Alcune volte è possibile definire una gerarchia degli errori legataa quena delle varlablll-guida dei piani <strong>di</strong> compatibilità (cfr.Capitolo 5). .È chiaro che se l'errore <strong>di</strong> registrazione Interessa proprio unavariablle-gulda, ne può risultare Inficlata la sequenza <strong>di</strong> campiche da questa <strong>di</strong>pendono; particolare attenzione, quin<strong>di</strong>, deve es·sere rivolta al campi del record che riguardano le variablll-guida.Per converso certi errori possono non incidere sulle elaborazioniconclusive se non alterano Il dato, portandolo oltre I valori-soglia<strong>di</strong> classificazione. Ad esempio nella rilevazione delle forze<strong>di</strong> lavoro un'età del rispondente superiore al14 anni determinala compilazione del foglio In<strong>di</strong>viduale, per cui è rilevante Il casoIn cui un minore <strong>di</strong> 14 anni <strong>di</strong>venti, a causa <strong>di</strong> un errore <strong>di</strong> registrazione,maggiore <strong>di</strong> tale età; è Invece abbastanza In<strong>di</strong>fferenteche un valore al <strong>di</strong> sotto del valore-soglla, pur essendo <strong>di</strong>gitatoerr~meamente, rimanga all'Interno della classe (fra O e 13 anni).L'effetto <strong>di</strong> un errore <strong>di</strong> registrazione va quin<strong>di</strong> valutato In terminidel suo contenuto informativo nel contesto del questionario.L'Importanza relativa degli errori Induce Inoltre a guardare conparticolare attenzione alle variabili che definiamo strutturali, cioèquelle che, essendo <strong>di</strong> Intestazione alle tabelle finali, vengonoIncrociate con le altre variabili: ad esempio il sesso e le classi<strong>di</strong> et~. Per queste variabili l'analisi dell'errore


118 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 4 • LA REGISTRAZIONE119mancata risposta questo Implica un blank In quella posizione.Col campi a serrare Invece Il co<strong>di</strong>ce da registrare è univoco perogni modalità <strong>di</strong> risposta, in modo che la posizione sul recordnon abbia rllevanza e sia possibile registrare questi co<strong>di</strong>ci <strong>di</strong> seguito,cioè senza Inserire I valori blank.ESEMPIOCAMPI FISSI: Nel corso degli ultimi do<strong>di</strong>ci mesi quante volte è stato fatto ricorsoa uno del seguenti me<strong>di</strong>ci specialistici o allo psiCOlogo? Nel caso <strong>di</strong>visita In<strong>di</strong>care Il tipo <strong>di</strong> servizio utilizzatopubblicoRicorso a servizioprivatosia pubblicoper per che privatoscelta necessitàDentista ........... D 2 D 3 D 4 DOculista ........... D 2 IXI 3 D 4 DCar<strong>di</strong>ologo ......... 1 D 2 D 3 D 4 DOrtope<strong>di</strong>co ••••.•••• 1 D 2 D 3 IXI 4 DEndocrinologo •••••• 1 D 2 D 3 D 4 DPsicologo •••••••••• D 2 D 3 D 4 DAltro .............. D 2 D 3 D 4 DIl tracciato record corrispondente alle risposte barrate è Il seguente:I 2 II 3 I3 8 7l'uso del campi a serrare è vantaggioso quando ci sono do·mande complesse e/o multiple con lunghe sequenze <strong>di</strong> co<strong>di</strong>ciuguali che possono generare errori <strong>di</strong> registrazione, e consente<strong>di</strong> eliminare I valori blank Ihtermedl che potrebbero dar luogo asllneamentl. I campi a serrare Inoltre danno l'opportunità a chiregistra <strong>di</strong> leggere I co<strong>di</strong>ci In<strong>di</strong>fferentemente per riga o per co·lonna, quin<strong>di</strong> con maggior velocità.D'altra parte comunque bisogna rilevare che I campi a serra·re necessitano In genere <strong>di</strong> un numero <strong>di</strong> byte superiore rispettoal campi fissi, dato che I co<strong>di</strong>ci previsti occupano due posizioni;questo può essere problematico se esistono limiti alla dlmen·slone del record.CAMPI A SERRARE: Nel corso degli ultimi do<strong>di</strong>ci mesi quante volte è stato fatto rI·corso a uno del seguenti me<strong>di</strong>ci specialistici o allo psicologo?Nel caso <strong>di</strong> visita In<strong>di</strong>care Il tipo <strong>di</strong> servizio utilizzatopubblicoRicorso a serviziopersceltaprivatopernecessitàsia pubblicoche privatoDentista ........... 11 D 12 O 13 D 14 OOculista ........... 21 D 22 IXI 23 D 24 DCar<strong>di</strong>ologo ••••••••• 31 D 32 D 33 D 34 DOrtope<strong>di</strong>co ••••••••• 41 O 42 O 43 IXI 44 DEndocrinologo •••••• 51 O 52 D 53 D 54 OPsicologo •••••••••• 61 D 62 D 63 D 64 DAltro .............. 71 D 72 D 73 D 74 DIl tracciato record corrispondente alle risposte barrate è Il seguente:12 12 14 1311 2 3 4 8 8 9 10 11 12 13 14Altri suggerimenti che si possono aggiungere riguardano lapredlsposizlone <strong>di</strong> un numero <strong>di</strong> byte adeguato e sufficiente acontenere tanto le risposte quantltatlve, nel caso in culli valoremassimo effettivo <strong>di</strong> una variabile superi quello lpatlzzato, quantoI co<strong>di</strong>ci per variabili qualltatlve con risposte aperte.Un ulteriore fattore Importante è l'esatta definizione del pia·no <strong>di</strong> registrazione In cui alla descrizione dettagliata del traccia·to record si affiancano In<strong>di</strong>cazioni precise sulla compatibilità delco<strong>di</strong>ci nel singoli campi.4. Controllo amministrativo 8 statisticoIl controllo della qualità nella fase della registrazione attuai·mente effettuato dall'Istituto Nazionale <strong>di</strong> Statistica avviene Inmodo <strong>di</strong>fferenziato a seconda che quest'operazione venga eseguitaall'Interno o all'esterno (In servlce).Nella registrazione interna I record sono sottoposti ad un con·trollo «leggero» Interattivo e nel reparto stesso la registrazioneviene controllata da revisori.jl'J


120IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. ... LA REGISTRAZIONE 121L'_ID'"Irecord .... 11Diverso è il proce<strong>di</strong>mento <strong>di</strong> controllo per la registrazione appaltataa <strong>di</strong>tte esterne: definita per contratto una soglia <strong>di</strong> errore(in percentuale sul byte <strong>di</strong>gitati) al <strong>di</strong> sopra del quale l'Istituto hafacoltà <strong>di</strong> rifiutare lo stock <strong>di</strong> record registrati e <strong>di</strong> chiederne la rl<strong>di</strong>gitazione,si prende in esame un campione <strong>di</strong> questionari e i relativirecord, I modelli campionati vengono nuovamente registratie verificata la coincidenza con quelli della prima registrazione della<strong>di</strong>tta: se la percentuale <strong>di</strong> byte errati supera la preflssata soglia <strong>di</strong>errore (5 per mille), l'Intero stock viene rigettato, altrimenti esso vieneconsiderato sufficientemente affidabile e quin<strong>di</strong> accettato.Questa procedura <strong>di</strong> verifica, che viene eseguita su richiestadel reparto responsabile dell'Indagine, produce come risultatofinale una stima dell'errore totale, espresso dal rapporto fra nu·mero <strong>di</strong> byte errati e numero <strong>di</strong> byte utili (cioè quelli effettivamenteutilizzati nel record), oltre che un certo numero <strong>di</strong> statistiche sulnumero <strong>di</strong> errori per record, sui record saltati e duplicati ecc,Pur essendo utilizzato a fini amministrativi, Il dato sull'erroretotale è poco in<strong>di</strong>cativo dell'effettivo livello <strong>di</strong> qualité della registrazionee non <strong>di</strong>ce nulla sulla tipologia degli errori commessie sulla loro <strong>di</strong>stribuzione all'interno e fra I record.SI consideri a titolo <strong>di</strong> esempio il caso <strong>di</strong> 10 record lunghi 100byte che, sottoposti a controllo, presentano un errore totale del4 per mille, quin<strong>di</strong> al <strong>di</strong> sotto del valore-soglia; facendo l'ipotesiche la <strong>di</strong>stribuzione degli errori sia tale da generare un 5010 byteerrato per record si ottiene implicitamente un totale <strong>di</strong> quattrorecord errati ogni 10: in definitiva Il 40% <strong>di</strong> record errati.Naturalmente In realtà si verificano errori multipli sullo stessorecord, cosicché la suddetta percentuale tende ad abbassar·si, ma è evidente come anche un valore abbastanza piccolo del·l'errore totale calcolato sul numero delle battute possa inciderepesantemente sulla percentuale <strong>di</strong> record errati,Alcune verifiche empiriche (cfr, Zuchegna A,) su record delcensimento della popOlazione hanno riscontrato una percentuale<strong>di</strong> record errati del 13% in corrispondenza <strong>di</strong> un errore totale del5 per mille.L:esempio riportato vuole sottolineare lo scarso contenuto <strong>di</strong>informazione dell'errore totale e la necessità <strong>di</strong> elaborare altre informazioni<strong>di</strong>sponibili o rlcavablll dal dati provenienti dal contrai·lo amministrativo, al fine <strong>di</strong> costruire In<strong>di</strong>catori specifici dell'entitàe del tipo <strong>di</strong> errore, e quin<strong>di</strong> passare ad un controllo statistico chevaluti sia I byte sia I campi errati: ad esempio li numero <strong>di</strong> recordche contengono almeno un byte errato, Il numero <strong>di</strong> byte errati perrecord, Il numero <strong>di</strong> variabili (campi) errate, la <strong>di</strong>stribuzione deglierrori per record e per variabili, ecc"5. Il controllo a campionePer il controllo della qualità della registrazione si utilizza uncampione <strong>di</strong> modelli, che vengono nuovamente <strong>di</strong>gitati e confrontaticon quelli provenienti dalla registrazione originale, L:oblettlvadel controllo amministrativo è <strong>di</strong> pervenire ad una decisionecirca Il livello dell'errore totale e richiede quin<strong>di</strong> una verifica sulnumero <strong>di</strong> byte utili errati: sono quin<strong>di</strong> I byte a costituire l'universo<strong>di</strong> riferimento da cui estrarre Il campione. L:estrazlone e la registrazione<strong>di</strong> singoli byte o <strong>di</strong> campi da ogni modello si presentaperò molto laboriosa e <strong>di</strong> notevoli <strong>di</strong>fficoltà organlzzative, inquanto considerare un 5010 elemento per record costringerebbea lavorare e a maneggiare un numero cospiCUO <strong>di</strong> pacchi <strong>di</strong> modelli;pertanto, più agevolmente, una volta estratto un modello,vengono considerati nel campione tutti I byte In esso contenuti.Lo schema <strong>di</strong> campionamento del byte è quin<strong>di</strong> <strong>di</strong> tipo clu-ster, cioè a grappoli o gruppi <strong>di</strong> byte che, appartenendo allo stessomodello o a un pacco <strong>di</strong> modelli sono in qualche modo omogeneifra loro (stesso operatore che li ha registrati, stesso Comune<strong>di</strong> rilevazione ecc.) e meno rappresentativi della variabilità dell'universo<strong>di</strong> riferimento. Il campionamento cluster implica un aumentodella varlanza delle stime rispetto al campionamento ca·suale semplice del singoli byte e richiede, per mantenere la bontàdelle stime a livello desiderato, che Il campione <strong>di</strong> record abbiauna numerosltà adeguata t:effetto cluster agisce anche quandovolendo, effettaure controlli statistici su record In<strong>di</strong>viduali, siconsidera l'intero modello familiare, quin<strong>di</strong> un grappolo <strong>di</strong> In<strong>di</strong>·vidul.Per esaminare l'effetto <strong>di</strong> un campionamento cluster consideriamobrevemente I risultati <strong>di</strong> una simulazione, effettuata sianell'ipotesi che gli errori <strong>di</strong> registrazione fossero <strong>di</strong> tipo casuale,. sia che fossero <strong>di</strong> tipo sistematico al fine del calcolo del -Defta,cioè della per<strong>di</strong>ta <strong>di</strong> precisione delle stime del campionamentoa grappoli rispetto al campionamento casuale semplice.Se supponiamo <strong>di</strong> <strong>di</strong>videre la popolazione originaria (l'Insieme<strong>di</strong> tutti i byte <strong>di</strong>gitati) in S subpopolazionl (S questionari) checontengono M elementi, fissata la numerosltà n del campione,non è in<strong>di</strong>fferente procedere ad una estrazione casuale <strong>di</strong> n elementio estrarre un certo numero K <strong>di</strong> subpopolazionl <strong>di</strong> M elementida sondare, con Il vincolo che K*M > = n. La <strong>di</strong>fferenzasta nella precisione delle stime ottenute con I due meto<strong>di</strong>, tendendoquella del secondo ad essere Inferiore In funzione dellevarianze Interne alle singole sUbpopolazlonl, che determinano ilcosiddetto effetto cluster,L ..... tto .clllSt_


122 " IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 4 • LA REGISTRAZIONE 123.. r_.. Per verificare e valutare l'-effatto cluster. In assenza <strong>di</strong> erro-re sistematico un primo Insieme <strong>di</strong> prove è stato eseguito simulandovari valori <strong>di</strong> -p-, <strong>di</strong>verse lunghezze del record su K = 100record, dando luogo al risultati della Tavola 4.1.cu.....Far valutare l'entità <strong>di</strong> questo effetto sulla precisione delle stimedel parametro -p- (percentuale <strong>di</strong> byte errati) e per corregereeventualmente la numerosltà campionaria per tenere conto dell'Ipotesi<strong>di</strong> estrazione <strong>di</strong> record Invece <strong>di</strong> byt&; quale In<strong>di</strong>catore<strong>di</strong> base <strong>di</strong> è utilizzato II-Deffa, definito come Il rapporto fra Il valoredella varlanza della stima nell'Ipotesi <strong>di</strong> campionamento clustered Il valore della stessa varlanza nell'Ipotesi <strong>di</strong> campionamentocasuale semplice, a parità <strong>di</strong> numerosltà campionaria Unvalore del -Detta prossimo all'unità In<strong>di</strong>ca assenza <strong>di</strong> effetto cluster,mentre Valori via via superiori si rilevano ID' presenza <strong>di</strong> effettocluster crescente. fino al punto che un -Oeff- quasi ugualea M (numero <strong>di</strong> elementi per cluster) dovrebbe Indurcl ad estrarreK=n record <strong>di</strong> numerosltà M per avere la stessa precisione delcampione semplice <strong>di</strong> byte <strong>di</strong> numerosltà n.Tavola 4.1 - Errori casualiP M Rapi.Deff varo pme<strong>di</strong>o Deff stima0.01 20 20 0.977 0.124 0.00940.005 20 100 0.991 0.119 0.00470.01 20 100 0.991 0.123 0.00960.01 100 100 0.992 0.129 0.0097p = pelaMllUllledl_.-I; Il .. l"",--del...m;NPl .. _dl .... lIcazIonIdeI .. ~1IIII1* Il calcolo <strong>di</strong>ii." me<strong>di</strong>o; .,,1MdIo .. ."medlo......... 11c8ZIoII~ _ defI ....... del."nelle repllcllZlon~ p stima ...._lllimaio <strong>di</strong> p (In me<strong>di</strong>e).senza <strong>di</strong> record lunghi M =80 potremmo considerare un campionamento<strong>di</strong> K record con K = 2000 I 80 = 25.Queste considerazioni valgono In presenza <strong>di</strong> errori pùramentecasuali all'Interno del nlICOrd, mentre l'effatto -cluste ... manlf.sta pia problematlcl effetti In caso <strong>di</strong> errori sistematici, come <strong>di</strong>mostranole prove successive.Definiamo errore sistematico quello che accade al verlflcar- .. r.mn ..si <strong>di</strong> una con<strong>di</strong>zione <strong>di</strong> errore su altri elementi, ad esempio un ...........valore replicato Identicamente su pii) byte contigui o su pia record-vlclnl-, oppure una certa -costanza- nell'Interpretare certico<strong>di</strong>ci. Abbiamo considerato Il caso semplice <strong>di</strong> una procedurache genera un errore sul byte x-es/mo, oltre che per evento casual&;ogni volta che si è determinato un errore sul byte y-es/mo.Oltre all'errore sistematico SingOlo sono valutati gli effetti <strong>di</strong> errorimultipli, cioè quelli che mettono In relazione coppie <strong>di</strong> byte;ed Infine abbiamo considerato l'errore derivato dalla generazione<strong>di</strong> un record In culi byte successivi al byte x-es/mo sono tuttierrati, ad esempio per uno sllneamento. .Tavola 4.2 - Errori sistematiciTIpoDeffP Var.Mperrore Rapi.me<strong>di</strong>o Deff stima1 slst. 0.01 20 20 1.17 0.180 0.00912 slst. 0.005 20 100 1.08 0.176 0.00522 slst. 0.01 20 100 1.15 0.165 0.01085 slst. 0.01 20 100 1.41. 0.263 0.00931 tr. 0.005 20 100 6.96 6.960 0.00961 t.r. 0.005 80 100 26.64 26.150 0.01001 t.r. 0.005 100 100 27.45 34.144 0.0092p = jlelanlUllledl_enatl; Il .. lu.v-del.-nI; .... 1 ..._dl.... llcaIonldel .. 1JI1IC*hn1* Il calcolo del defI me<strong>di</strong>o; deff lMdIo .. deff me<strong>di</strong>o IUlle nIPIlcaIonl; _ deff ....... del deffnelle .... 1IcIIZIon1; P stima .. valant stlmaIo <strong>di</strong> p(ln me<strong>di</strong>e); I11III. ..-"'-100; Lt .._11_matlco ... tutto Il _ da un -1Irta In poi.Le simulazioni In gruppi <strong>di</strong> 100 record fanno riscontrare un aumentomolto accentuato del-Detfa, tanto al crescere del numero<strong>di</strong> campi coinvolti nell'errore sistematico quanto al crescere dellalunghezza del record. Far record lunghi 80 byte ad esempio Il-Oetfa me<strong>di</strong>o si assesta attorno al 26.6 nel totale delle repllcazlonl,comprendendo cioè sia I casi In cui effettivamente un erroresistematico sia stato generato sia I casi In cui questo non &WIene.In realtà quando la procedura <strong>di</strong> simulazione comporta l'etfattivagenerazione <strong>di</strong> un errore su tutto Il record a causa <strong>di</strong> unSI osserva eh&; In assenza <strong>di</strong> errori sistematici, la precisionedelle stime che si ottiene considerando ad esempio 100 recordlunghi 20 al posto <strong>di</strong> 2000 singoli bytes non risente dell'effettocluster. I due meto<strong>di</strong> sono sostanzialmente equivalenti, risultandoquello per record pII) economico In termini <strong>di</strong> tempo e <strong>di</strong>fficoltà<strong>di</strong> esecuzione. Quin<strong>di</strong> se si considerano K cluster (record)<strong>di</strong> numerosltà M (numero <strong>di</strong> byte per record) per ottenere un er.rorecampionario minore o uguale a quello che si otterrebbe estraen.­do n = K*M singOli byte è sufficiente (approssimativamente) utilizzarenlM = K cluster <strong>di</strong> M elementi.Ad esempio dovendo estrane, secondo un piano <strong>di</strong> campionamentocasuale semplice, un campione <strong>di</strong> n=2OOO byte In prei


124 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATIerrore sul'x-eslmo byte, Il -Deffa assume valori che variano fra47.9 e 69.3, Implicando che per mantenere la precisione delle stimesarebbe necessario aumentare la numerosltà del campione<strong>di</strong> record <strong>di</strong> almeno 70 volte, cioè secondo Il caso Ipotlzzato sapra,estrarre (2000180)*70 = 1850 record.In pratica se c'è un errore sistematico Il camplonamerito agrappoli è molto inefficiente, dando luogo anche a stime <strong>di</strong> -p»molto <strong>di</strong>verse dal vero valore: la numerosltà campionaria pertantoandrebbe aumentata fino a far coincidere Il numero K <strong>di</strong> gruppi(record) col numero originario <strong>di</strong> byte (elementi) da estrarre nelcampionamento casuale semplice.Per quanto riguarda Il campionamento per attributi espostonel Paragrafo 6 si conviene che, quando si abbia il forte sospettodella presenza <strong>di</strong> errori sistematici, nel caso si voglia utilizzareil controllo con l'approssimazione bl"omlale si adotterà unanumerosltà campionaria K <strong>di</strong> record pari al numero n <strong>di</strong> byte previstiper l'estrazione casuale semplice; se si vogliono adoperarele Tavole Mllltary Standard si adotterà il campione rlnfotzato, conlivello 1\1 (generai Inspectlon level) <strong>di</strong> numerosltà campionaria.8. Definizione degli standard <strong>di</strong> qualitàPer valutare se Il materiale proveniente dalla registrazione èaffidabile e quin<strong>di</strong> pre<strong>di</strong>sporre la procedura <strong>di</strong> controllo è fondament"ela definizione del livello <strong>di</strong> qualità che si ritiene accettabileo auspicabile, In modo da poter determinare un plano <strong>di</strong>campionamento che, con preflssata probabilità <strong>di</strong> errore, consenta<strong>di</strong> accertare se la percentuale <strong>di</strong> errore nel file registratosod<strong>di</strong>sfa o meno Il preflssato standard.Possiamo considerare <strong>di</strong>versi approcci per definire la quantità<strong>di</strong> errori riferendocl a:1. numero <strong>di</strong> byte errati In totale sul numero <strong>di</strong> byte utili (erroretotale), ad esempio 5 per mille;2. numero me<strong>di</strong>o <strong>di</strong> record errati sul totale dei record <strong>di</strong>gitati,ad esempio 5 per cento;3. esame complessivo del due parametri precedenti.Per ciascuno <strong>di</strong> questi casi si specifica una procedura <strong>di</strong> con·trollo..,.. Md CASO 1) Definiamo Innanzltutto le battute utili del record carneI byte effettivamente occupati da valori non sempre nulli sultracciato record: se ad esempio un record fisico è lungo 80 co-I·Ilonne, ma ne vengono utilizzate soltanto 55, <strong>di</strong>remo che quest'ultimoè Il numero <strong>di</strong> battute utili.Dal punto <strong>di</strong> vista amministrativo, per la valutazione del costi<strong>di</strong> registrazione In servlce, I quali sono proporzionali al numero<strong>di</strong> battute, vengono talvolta escluse dal conteggio le bat·tute <strong>di</strong> pl':' blank consecutivi o le battute In duplica, ma, relativa·mente al problema del controllo <strong>di</strong> qualità, è pl':' conveniente considerarele battute utili come colonne del record occupate da va·rlablll, anche se In queste risulteranno talvolta valori nulli.Quando Il questionario richiede la registrazione su pl':' recordfisici si effettueranno i passi della procedura <strong>di</strong> controllo camopionario conslder~ndo l'Insieme del record dello stesso questionariocome unità <strong>di</strong> estrazione, eseguendo I calcoli sul numerocomplessivo <strong>di</strong> battute.CASO 2) Alternativamente la qualità della registrazione puòessere valutata basandosi sul numero <strong>di</strong> record errati (con almenoun errore): si applicherà allora una procedura <strong>di</strong> controllo In cui,pur rimanendo l'unità <strong>di</strong> rllevazione Il questionario, la <strong>di</strong>fettosi·tà del lotto sarà riferita al record errato e non alla battuta errata.Per quanto riguarda la determinazione del livello <strong>di</strong> qualitàaccettabile bisogna tener conto del fatto che una ridotta dlfet·tosltà In termini <strong>di</strong> percentuale <strong>di</strong> battute errate può Implicareun elevato numero <strong>di</strong> record erratI. Se consideriamo che moltospesso le correzioni degli errori attraverso I piani <strong>di</strong> compatibili·tà utilizzano come riferimento I record -completi» (cioè quelli senoza alcun errore) si capisce come sia importante cautelarsi rispettoalla possibilità che questi -scarseggino».Tavola 4.3 • Percentuale <strong>di</strong> record errati al variare del numero <strong>di</strong>byte nel record, p = 5 per mille.,CAP. 4· LA REGISTRAZIONEn numero bytenel recordrecordrecord con~ = np S8nz&errorl almeno un erro(su 1000) (su 1000)50 0.25 779 22160 0.30 741 25970 0.35 . 705 29580 0.40 670 33090 0.45 638 362100 0.50 607 393110 0.55 577 423120 0.60 549 451130 0.65 522 478150 0.75 472 528200 1.00 368 632"-'I Md125


126 Il SISTEMA DI CONTROLLO DElLA QUALITÀ DEI DATIPer fare un esempio abbiamo Ipotlzzato la sola presenza <strong>di</strong>errori casuali (situazione pii) sfavorevole rispetto alla <strong>di</strong>stribuzionedegli errori fra I record a parità <strong>di</strong> -p.) e considerato una<strong>di</strong>fettosità _p. del 5 per mille: si è utilizzata la <strong>di</strong>stribuzione <strong>di</strong>Polsson per calcolare la percentuale teorIca <strong>di</strong> record con almenoun errore al variare del numero <strong>di</strong> byte per record. La tavola4.3 Illustra I risultati ottenutI.La probabilità che si riscontri un errore <strong>di</strong> registrazione all'Interno<strong>di</strong> un record aumenta ovviamente all'aumentare dellasua lunghezza, a parità <strong>di</strong> -p ••CASO 3) Una terza possibilità è rappresentata dalla considerazionecongiunta degli errori sul byte e sul record~ SI osserva allorache a parità <strong>di</strong> lunghezza del record la percentuale <strong>di</strong> errorecalcolato sul record varia proporzionalmente al variare della percentuale_p. <strong>di</strong> errori sul byte. Nella tavola 4 abbiamo preso un recordcon un numero <strong>di</strong> byte preflssato pari a 100 per valutare la percentualeteorica <strong>di</strong> record errati In relazione a <strong>di</strong>versi valori <strong>di</strong> -p •.Tavola 4.4 - Percentuale <strong>di</strong> record errati al valore <strong>di</strong>-p., n = 100p erroresul byterecordrecord conÀ = np senza errori almeno un errore(su 1000) (su 1000)0.0001 0.01 990 100.001 0.10 904 960.002 0.20 818 1820.004 0.40 670 3300.005 0.50 606 3940.010 1.00 367 6330.025 2.50 82 9180.040 4.00 18 9820.050 5.00 6 9940.100 10.00 O 1000È quin<strong>di</strong> necessario arrivare ad un compromesso fra percentuale_p. <strong>di</strong> errore sui byte e percentuale <strong>di</strong> record errati: nell'esempio,per ottenere 119,6% <strong>di</strong> record errati bisogna stabilire unvalore <strong>di</strong> .p. attorno all'1 per mille. .Sempre riguardo alla determinazione degli standard <strong>di</strong> qualitàè necessario sottolineare che esistono due approcci al problemadal quali derivano due <strong>di</strong>stinte metodologle.Il primo è legato alla scelta <strong>di</strong> un unico parametro <strong>di</strong> qualità(p = percentuale <strong>di</strong> <strong>di</strong>fettosi) che <strong>di</strong>scrimina fra l'accettazioneed Il rifiuto del risultati della registrazione: 1\ metodo da applicareIn questo caso e quello statistico degli Intervalli <strong>di</strong> confidenza(o verifica d'Ipotesi) sul detto parametro. .Nel secondo approccio sono Invece previste le due figure delfornitore (la <strong>di</strong>tta <strong>di</strong> registrazione) e dell'acquirente (l'lstat) a eiasunodei quali viene attribuito un livello <strong>di</strong> qualità: LQA è illivellobuono (accettabile) per Il quale 1\ fornitore è quasi certo dell'accettazioneda parte dell'acquirente e al quale cerca <strong>di</strong> adeguarsi;LQT è il livello <strong>di</strong> qualità cattivo minimo, che Il fornitoresa verrà rifiutato dalla controparte.Questi due livelli <strong>di</strong> qualità servono alla costruzione della curvaoperativa caratteristica che sta alla base del meto<strong>di</strong> <strong>di</strong> controllodella qualità industriale esaminati <strong>di</strong> seguito.7. Piani <strong>di</strong> campionamento singolo per attributiSe si assimila Il processo <strong>di</strong> registrazione ad un processo produttivoIn cui Il pezzo prodotto è Il singolo dato (o record) <strong>di</strong>gitatoè possibile applicare alla registrazione alcuni controlli utilizzandopiani <strong>di</strong> campionamento ideati per i controlli Industriali.Nel caso della registrazione si tratta <strong>di</strong> verificare se Il datoè <strong>di</strong>gitato correttamente, cioè se è buono, o Invece è <strong>di</strong>fettoso:è opportuno allora utilizzare per il controllo statistico un plano<strong>di</strong> campionamento singolo per attributi, dove la caratteristica qua­IItativa da stu<strong>di</strong>are è appunto la dlfettoslté.Il test <strong>di</strong> controllo viene effettuato me<strong>di</strong>ante un piano <strong>di</strong> campionamentosingolo (con una sola estrazione) per attributi (che<strong>di</strong>scrimina fra pezzi <strong>di</strong>fettosi e non). Dato un lotto <strong>di</strong> pezzi <strong>di</strong> numerositàN, un plano <strong>di</strong> campionamento singolo è definito da dueparametri: n, la <strong>di</strong>mensione del campione e c, 1\ numero <strong>di</strong> accettazione,cioè Il numero <strong>di</strong> pezzi <strong>di</strong>fettosi che si è <strong>di</strong>sposti adaccettare nel campione senza che questo comporti la decisione<strong>di</strong> considerare inaccettabile la qualità complessiva della produzione,e <strong>di</strong> respingere pertanto il lotto in esameQuesti due valori vengono fissati sulla base <strong>di</strong>:N <strong>di</strong>mensione del lotto;LQA = p1 livello <strong>di</strong> qualità accettabile;LQT = p2 livello <strong>di</strong> qualità tollerata (o rifiutablle);1 - a probabilità <strong>di</strong> accettazione se p = p1, (a <strong>di</strong> solito ugualeal 5%); .fj probabilità <strong>di</strong> accettazione se p = p2, (fj <strong>di</strong> solito uguale a 10%);dove p in<strong>di</strong>ca la vera (e Ignota) qualità del lotto espressa comepercentuale <strong>di</strong> pezzi <strong>di</strong>fettosi (a).(a) Nel linguaggio tecnico proprio del controllo statistico Industriale se p1 è 1111-vello <strong>di</strong> qualità accettabile (AQL in Inglese) e p2 Il livello <strong>di</strong> qualità tollerata (IIPD InInglese) si use <strong>di</strong>re che 1-a è Il rischio del fomltare (rischio che essendo la qualitàbuona Il lotto 1I8nga rifiutato) e Il è Il rischio dell'acquirente (rischio che essendo la qu.Utà catt/\IIIlIlotto venga accettato): questi valori definiscono due punti sulla curva o~ratlva caratteristica (OC) che descrl1l8 al variare <strong>di</strong> p (% <strong>di</strong>fettosi nel lotto) la probabilità<strong>di</strong> accettare Il lotto e mostra la capacità <strong>di</strong>scriminatoria del <strong>di</strong>segno campionario.1


128 IL SISTEMA DI CONTROLLO DEUA QUALITÀ DEI DATICAP. 4 • LA REG\St'RAZIONE129Se trattiamo un lotto <strong>di</strong> <strong>di</strong>mensione finita (N non eccessivamentegrande) la <strong>di</strong>stribuzione dell'errore nel lotto sarà una variabilecasuale Ipergeometrica:• n I .......1 - a = l~D d I (n ..:.. d) I • pl Il • (l - pl)(4.4)(4.1)dove D è \I numero <strong>di</strong> pezzi <strong>di</strong>fettosi totali del lotto, N è la numerositàdel lotto ed n la <strong>di</strong>mensione del campione, d Il numero <strong>di</strong><strong>di</strong>fettosi nel campione.Fissata la probabilità a (errore <strong>di</strong> prima specie) <strong>di</strong> rifiutare illotto <strong>di</strong> record In presenza <strong>di</strong> una -buona- qualità (p1) dovremodeterminare la numerosltà campionaria n e Il valore <strong>di</strong> accettazionec, tale per cui se Il numero <strong>di</strong> errori riscontrati è superiorea c, il lotto non viene accettato. Porremo quin<strong>di</strong>:p(c) I pl > 1 - a (4.2)"Q:' n I 211 (I 2~.....s,.. = II~O d I (n - d) ! • P • - p ~(4.5)Le soluzioni delle due equazioni non lineari e simultanee sonorlcavablll graficamente dal nomografo riportato nella Figura4.1 seguendo una semplice procedura: si tracciano due retteche congiungono p1 a 1-a e p2 a {J; l'lntersezlone delle due lineedescrive una regione In cui giacciono varie possibili coppie<strong>di</strong> valori n e c; la scelta <strong>di</strong> una <strong>di</strong> queste coppie fornisce Il plano<strong>di</strong> campionamento desiderato. Ad esempio se a = 0.05,p1 =0.01, {J = 0.10, p2 = 0.06 la procedura grafica definisce un'areain cui possiamo selezionare <strong>di</strong>verse coppie <strong>di</strong> valori n e c; n =89 e c = 2 potrebbe essere un plano <strong>di</strong> campionamento appropriato.Oltre al proce<strong>di</strong>mento grafico sono <strong>di</strong>sponibili alcune tavoleda cui ricavare n e c In funzione del livello <strong>di</strong> qualità desiderato(cfr. Duncan A.J., 1974).in cui la probabilità con<strong>di</strong>zionata P(c) I p1 coincide con la (4.2)quando a -d- sostituiamo -c- e a _D. sostituiamo l'approssimazione01 = p1*N.Il vincolo (4.2) non è però da solo sufficiente a determinareentrambi I parametri (c ed n): si definisce allora una qualità scadente(P2) del lotto che vogliamo accettare con probabilità {J moltobassa (<strong>di</strong> solito uguale a 0.10) cosicché:P(c) I p2 > {J '. (4.3)Queste tavole forniscono tipi <strong>di</strong> piani <strong>di</strong> campionamento standarda <strong>di</strong>versi livelli <strong>di</strong> Ispezione:• normale da utlllzzarsi all'inizio dell'attività <strong>di</strong> controllo;• rinforzato da usarsl quandO la qualità del fornitore si è recentementedeteriorata;• ridotto da usarsl quando la qualità del fornitore si è portatarecentemente a livelli eccezionalmente buoni........... T .....IlUIIIIJ ........1110che è la (4.2) con D = 02 = p2oN.Risolvere simultaneamente per n e c le due equazioni (2 e 3)è però molto complicato e laborioso a causa del calcoli richiestidalla Ipergeometrlca. SI preferisce pertanto nella pratica determinareIl plano <strong>di</strong> campionamento:1. con l'approsimazlone Binomiale, valida per N grande e per tassi<strong>di</strong> campionamento piccoli, nlN < 10%.2. con le tavole Mliltary Standard 1050 per qualsiasi valore <strong>di</strong> N.Per <strong>di</strong>segnare \I plano <strong>di</strong> campionamento <strong>di</strong> accettazione (cioèper determinare n e c) è conveniente impiegare l'approssimazioneBinomiale In luogo della complessa variabile Ipergeometrica,fissati a, {J, p1 e p2 le equazioni (4.2) e (4.3) <strong>di</strong>vengono:i'I!La procedura per un plano <strong>di</strong> campionamento singolo con letavole MIL STO 105D è la seguente:• si sceglie Il livello <strong>di</strong> qualità accettabile (AQL, Acceptance Qua­IIty Level) espresso In percentuale;• SI sceglie Il livello generale <strong>di</strong> Ispezione (relativo alla maggioreo minore numerosltà campionaria (basso = I, me<strong>di</strong>o = Il,alto = III);• si trova nelle Tavole I la -Iettera-codlce- (Sample Slze CodeLetter) corrispondente al parametri (AQL ed n) sopra citati;• si entra In una delle Tavole Il, a seconda del livello dllspezlonescelto (ridotto = reduced -> Tavola II-A; normale = Normal'->Tavola II-B; rinforzato = Tlghtened -> Tavola II-C) pertrovare \I piano <strong>di</strong> campionamento (n = sample slza, c = Ac= Acceptance number).


l;:lUIL SISTEMA DI CONTROLLO DELLA QUALITA DEI DATICAP. 4 - LA REGISTRAZIONE 13Example:Required: a sampling pian havingp - 0.95 at p - 0.02p - 0.10 at p - 0.08Solution: make alignments and read sample size (n) and acceptance number (c) as in<strong>di</strong>agram below:Plm


'.~.;.­~I132 IL SISTEMA DI CONTROLLO DELlA QUALITA DEI DATICAP. 4 • LA REGISTRAZIONE133,.III •I ~ .. $• ,. iii 18 A~ Il $,.I = Il ~~ :!•I,.Il = iii~ ili Il : :~ -.... III. !: !I,....... :I.li I ~ :~::!I~ I >: ..~: ...... .• I.li > :~ -.... • )-~ .... .li . - ..I::• ...li I > : ~: "• I ) :~...li -•.li ) : I(:l• -.li I ~ ........• == I :I 51 Il !I IHl Il I @ I I: I >:~ " -•• u Q" ..IO • _.... .. zoo ... IO ..jl!I...fl •J1•1l ..• •••~C.uFigura 4.4


." .. IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 4 • LA REGISTRAZIONE135II, c!c!Il ::~c! Il Il lCIl R R R:!I :!I :::Il :: :(~,,=;J c! = = !3 :::lC~(Il SI~ ~ :: E:;c! - -.SI ::I ::: (!ilIIl ~ ~ ~ S ~.l! .. . ~!! il~ ~ ~ ~=(I<strong>di</strong>.. .. ~ • !!I !318~ ~ ~ ~ (I~.li !!I<strong>di</strong>. ". ~.. - S!:s : (IIl " " N" ~ ~N ~c! . .. ~ ..lQ!!I::1(N I~ ~il - -~-!!I<strong>di</strong>. . .. ~~N~ - !! ~:!I_ N ~I~ ~il o -o.


136 IL SISTEMA DI CONTROLLO DELlA QUALITÀ DEI DATICAP. 4· LA.REG~ON~137p2 livello <strong>di</strong> qualità tollerata (o rlflutabile);1 - a probabilità <strong>di</strong> accettazione se p pt;fJ probabilità <strong>di</strong> accettazione se p = p2;dove p Il la percentuale <strong>di</strong> pezzi <strong>di</strong>fettosi nel lotto.XA == -hl + s.nXR == hl + s.ncon:hl == (log I - a) I 11:fJhl == (lo, I - fJ) I 11:a11: == lo, pl.(l-pl)pl.(l-pl)s == (lo, I - pl )I-plnumero<strong>di</strong>dlfettDal8Figura 4.878543O-1-2zona <strong>di</strong>rlnutozona <strong>di</strong>IICCBIIaZloH30 40 50 80 70(4.6)(4.7)(4.8)(4.9)(4.10)(4.11)XA--h,+enI8. Analisi del rl8ultstl campionariUna volta che si <strong>di</strong>sponga dei dati campionari si potrà valutarela quantità <strong>di</strong> errore a <strong>di</strong>versi livelli <strong>di</strong> analisi. Per Il controlloamministrativo si calcolerà la percentuale· <strong>di</strong> errore sul bytecalcolando l'errore totale definito nel paragrafi precedenti (cfr.§ 3). Per Il controllo statistico l'errore potrà esser esaminato siadal punto <strong>di</strong> vista del record che dal punto <strong>di</strong> vista delle variabili.Nel primo caso un'analisi a livello <strong>di</strong> record oltre a misurarela percentuale <strong>di</strong> record errati (con almeno un errore) sul totaledel record, potrà fornire la <strong>di</strong>stribuzione del record In funzionedel numero <strong>di</strong> errori e l'errore me<strong>di</strong>o (In termini <strong>di</strong> byte o <strong>di</strong> variabili)per record (cfr. Appen<strong>di</strong>ce 1).Nel secondo caso si osserverà· ad esempio la percentuale <strong>di</strong>errore sul campi, cioè sugli Insiemi <strong>di</strong> byte contlgl,.ll che definisconoIl valore <strong>di</strong> una variabile: questo sia considerando Il semplicerapporto fra Il numero totale <strong>di</strong> campi errati e Il numero <strong>di</strong>campi <strong>di</strong>gitati, sia ricavando la <strong>di</strong>stribuzione <strong>di</strong> frequenza deglierrori per ogni singola variabile, tenendO conto che Il peso deglierrori andrà rapportato alla lunghezza del campo che definiscela variabile stessa eia al numero <strong>di</strong> co<strong>di</strong>ci previsti come valoredella variabile.DI particolare Interesse Il la determinazione della casualitào meno dell'errore generato dalla fase <strong>di</strong> registrazione, quin<strong>di</strong> dellapresenza o meno <strong>di</strong> variabili o <strong>di</strong> posizioni pII) errate <strong>di</strong> altre.Se gli errori <strong>di</strong> registrazione sono puramente casuali essi saranno<strong>di</strong>stribuiti In maniera neutrale rispetto alle variabili successivamenteelaborate, cioè tenderanno a compensarsi; se Invecealcuni tipi <strong>di</strong> errore si verificano con maggior frequenza toccandoparticolari variabili si potranno determinare <strong>di</strong>storsioni nelrisultati finali.La presenza <strong>di</strong> errori sistematici <strong>di</strong> registrazione può essere TMI ............pertanto preliminarmente testata per eliminarne l'Incidenza sulsuccessivi passi <strong>di</strong> elaborazione, sia globalmente attraverso test<strong>di</strong> adattamento CHI QUADRATO, sl,.llla <strong>di</strong>stribuzione degli erroriper modalità dalla variabile, oppure a livello <strong>di</strong> byte o <strong>di</strong> variabili,attraverso le matrici <strong>di</strong> transizione, a cui si applicano opportunitest.Soprattutto per le varlablll-guida del piani <strong>di</strong> compatibilità(quelle da cui <strong>di</strong>pendono I valori accettabili <strong>di</strong> variabili gerarchicamenteInferiori) sarà Importante In<strong>di</strong>viduare la presenza <strong>di</strong> errorisistematici che potrebbero Indurre correzioni Improprie (e talvoltasistematiche) su altre variabili.


,"" IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATI'CAP. 4 • LA REGISTRAZIONE139Inoltre, almeno per le variabili strutturali, quelle utilizzate comecriterio <strong>di</strong> classificazione nelle tavole <strong>di</strong> pubblicazione, sarà necessarioverificare la presenza <strong>di</strong> errori correlati fra variabili. Infattipuò accadere che l'errore <strong>di</strong> registrazione si compensi all'internodella marginale (supponiamo ad esempio che la proporzione<strong>di</strong> maschi e femmine risultante dalla registrazione sia accettabile),ma che l'errore sulla variabile sesso sia correlato conqualche altra variabile (continuando l'esempio che all'errore maschioregistrato come femmina si associ la variazione da occupatoa In cerca <strong>di</strong> occupazione). Nella tabella che Incrocia la variabilestrutturale (sesso) con la variabile correlata (con<strong>di</strong>zione)si otterrà una <strong>di</strong>stribuzione delle frequenze sbilanciata verso alcunecaselle (per es.: molte femmine in cerca <strong>di</strong> occupazione).Vista la possibilità che l'errore sia rllevabile solo nell'Interazlonefra variabili è necessario considerare le correlazioni (sulle<strong>di</strong>stribuzioni <strong>di</strong> frequenza doppie) degli errori, almeno sulle coppie<strong>di</strong> variabili strutturali più ImportantI.10_ Meto<strong>di</strong> per la ricerca degli errori sistematiciPer In<strong>di</strong>viduare la presenza <strong>di</strong> errori sistematici può essereutile, a partire dal campione <strong>di</strong> verifica, ricorrere alla costruzione<strong>di</strong> matrici <strong>di</strong> transizione prima/dopo, dove vengono riportatele frequenze con culi valori registrati sul campione risultano identicia quelli originari. o Invece risultano <strong>di</strong>versi.L'eventuale correlazione fra valorJ iniziali e finali Illustrati inquesto tipo <strong>di</strong> tabella può consentire <strong>di</strong> In<strong>di</strong>viduare la sistematicitàdell'errore, sia a livello <strong>di</strong> carattere <strong>di</strong>gitato (numerico o alfabetico)complessivamente, sia a livello <strong>di</strong> variabile.Se non cl fosse nessuna <strong>di</strong>fferenza fra le due registrazioniallora le frequenze della matrice occuperebbero la sola <strong>di</strong>agonaleprincipale, mentre valori con nulli al <strong>di</strong> fuori della <strong>di</strong>agonaleprincipale paleserebbero il verificarsi <strong>di</strong> errori.Talvolta la semplice Ispezione della tabella è sufficiente perIdentificare l'errore sistematico, ma in generale conviene analizzarela tabella, considerando <strong>di</strong>versi aspetti del legami tra errori,me<strong>di</strong>ante specifici test <strong>di</strong> In<strong>di</strong>pendenza, <strong>di</strong> simmetria, <strong>di</strong> omogeneità,illustrati nell' Appen<strong>di</strong>ce 2.APPENDICE1. Un metodo per la ricerca degli errori sistematici sul recordUn metodo per In<strong>di</strong>viduare la presenza <strong>di</strong> errori sistematiciè quello <strong>di</strong> far riferimento alla <strong>di</strong>stribuzione <strong>di</strong> una variabile casualeteorica e <strong>di</strong> valutare la bontà <strong>di</strong> adattamento degli erroriosservati al modello.Nel caso <strong>di</strong> errori casuali si dovrebbe avere una <strong>di</strong>stribuzionedel numero <strong>di</strong> errori <strong>di</strong> registrazione per record che segue lalegge Ipergeometrlca, a sua volta approsslmabile - se la percentuale<strong>di</strong> errore è molto bassa e per campioni sufficientementegran<strong>di</strong> come nel nostro caso - da una <strong>di</strong>stribuzione <strong>di</strong> Poisson.Riportiamo a titolo esemplificativo (Tavola 4.5) I risultati delgià citato stu<strong>di</strong>o (§ 3) sugli errori <strong>di</strong> registrazione. Considerandouno dei tre tipi record sul quali venivano registrati I dati del questionario,la <strong>di</strong>stribuzione del numero <strong>di</strong> errori per record, confrontatacon la <strong>di</strong>stribuzione <strong>di</strong> Poisson <strong>di</strong> parametro lambdauguale alla percentuale stimata <strong>di</strong> errore, in<strong>di</strong>cava con chiarezzaun basso livello <strong>di</strong> accostamento, facendo escludere che glierrori osservati fossero semplicemente <strong>di</strong> tipo casuale.Tavola 4.5 - Alcuni risultati del controllo della registrazione delcensimento della popolazione 1981n. byte n. rk n. rkfreq.errati errati erratiPolssonteoricaassol.nel rk val. asso (a) val. perc. teoriche (b)dlff(a) - (b)O 15.981 86.80 74.77 13.766 2.2151 600 3.26 21.74 4.002 -3.4022 1.295 7.03 3.16 582 7133 350 1.90 0.31 57 2934 185 1.00 0.02 4 181totale 18.411 100.00 100.00 18.411 OPartendo dal dati sopra Illustrati è inoltre possibile eseguireIl test CHI QUADRATO sull'adattamento alla <strong>di</strong>stribuzione;(4A.1)Tat aut ..dlatrlblulone .....amlrl per recorddove, essendo in questo caso j = 1, i valorin l ! sono le frequenzeeffettive (colonna (a) della tabella) e i valori E,! sono quellel


140T .. t 8ugll ...... perdIteIIIIaIL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATIteoriche della Poisson (colonna (b) della tabella). I gra<strong>di</strong> <strong>di</strong> libertàdel X 2 sono pari al numero <strong>di</strong> modalità (5 nella tabella) menouna. Dal calcolo esemplificativo risultaXl = 13818.21, Xl (0.05)/4 GL = 9.48il test evidenzia che gli errori per record non sono <strong>di</strong>stribuiti secondola variabile casuale <strong>di</strong> Poisson e che verosimilmente siè in presenza <strong>di</strong> errori sistematici.2. Test sulla matrice <strong>di</strong> transizionePer la ricerca degli errori sistematici si possono costruire matrici<strong>di</strong> transizione. Esse vanno impostate In modo che l'intestazione<strong>di</strong> colonna In<strong>di</strong>chi I valori-tipo <strong>di</strong>gitati nella prima fase el'Intestazione <strong>di</strong> riga In<strong>di</strong>chi i valori-tipo della seconda ed In modoche in corrispondenza dell'Incrocio fra generica l-eslma rigae generica J-eslma colonna si legga Il numero <strong>di</strong> volte che il valore<strong>di</strong> tipo -i- della prima registrazione e stato trovato uguale aun valore <strong>di</strong> tipo -1-.La forma generale della tabella che an<strong>di</strong>amo ad esaminare è:Figura 4.7: Matrice <strong>di</strong> transizione tipo12., .i.. .rtotNOTA: nIJ1n11n21nl1nnn.12 ...n12n 22nl2n r2n.2j . ..n11n21n lln rln.1= frequenza assolute= in<strong>di</strong>ce <strong>di</strong> riga= In<strong>di</strong>ce <strong>di</strong> colonna= sommatorla fatta rispetto a quell'in<strong>di</strong>ceCAP. 4 • LA REGISTRAZIONELa màtrlce <strong>di</strong> transizione può essere considerata come unatavola <strong>di</strong> contingenza <strong>di</strong> tipo quadrato e, sotto opportune ipotesi,ad essa è applicabile il test Chi Quadrato (X, sull'In<strong>di</strong>pendenzadelle variabili <strong>di</strong> riga e <strong>di</strong> colonna.Le Ipotesi che è necessario assumere sono:• che la frequenza osservate seguano una <strong>di</strong>stribuzione multinomiale,ovvero che il campione a cui esse si riferiscono siacasuale semplice;• che le frequenze attese non siano troppo piCCOle (In ciascunacasella la frequenza non deve essere Inferiore a 5).Nella figura 4.7 I simboli hanno il seguente significato:n.. = Ei I1qn. i = E .. Dgn .. = E .. Ei n.iTest <strong>di</strong> in<strong>di</strong>pendenzaSe con PII in<strong>di</strong>chiamo, in corrispondenza <strong>di</strong> ogni n ll , la probabilitàdegl elementi della popolazione <strong>di</strong> appartenere alla I­esima modalità <strong>di</strong> riga ed alla l,esima modalità <strong>di</strong> colonna, nell'ipotesinulla (HO) <strong>di</strong> In<strong>di</strong>pendenza delle variabili <strong>di</strong> riga e <strong>di</strong> colonna,questa probabilità congiunta potrà esprimersi come:HO: Pii = Pi. • P.i(4A.2)e la corrispondente frequenza attesa come:c totHO: Fij = n ..• Pii = n ..• Pio • P.j(4A.3)n1c n1•Non conoscendo FII possiamo stimarla con I dati campionarin 2c n2.della nostra tabella, stimando PI. e P.I con:nlc nl•P: = n.. 1 n .. e p:=n./n(4A.4).J .J ..Allora, sostituendo le (4) nella (3)nre nr•Eij = Fij = (n..• n.) 1 D .•(4A.5)n.c n .. Se le variabili sono in<strong>di</strong>pendenti gli n ll effettivi (frequenze effettive)saranno ben approssimati dalle stime Eli (frequenze teoriche)e la statistica:XZ _ E E (n.j - Eij)Z- i I Eij (4A.6)141


142 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 4 • LA REGISTRAZIONE143sempre nell'Ipotesi nulla <strong>di</strong> In<strong>di</strong>pendenza, seguirà una <strong>di</strong>stribuzioneChi Quadrato e potrà essere utilizzata per Il test: se l'In<strong>di</strong>pendenzanon è vera Infatti la statistica XI assumerà valoripl.:J alti.Fissato un livello <strong>di</strong> slgnlflcatlvltà a (del 5 o dell'1 %), cioèuna -bassa- probabilità <strong>di</strong> rifiutare HO quando essa è vera, si confrontaIl valore del XI, calcolato con la (6) con Il valore della <strong>di</strong>stribuzioneChi Quadrato (XI a) con gra<strong>di</strong> <strong>di</strong> libertà pari al numero<strong>di</strong> modalità <strong>di</strong> riga (numero uguale a quello <strong>di</strong> colonna datoche la matrice è quadrata) meno uno al quadrato.G.L. = (r - 1)2 (4A.7)(dove con XI a si Intende quel valore che lascia alla sua destraun area pari ad a)se X > X -> rifiuto HO con slgnlflcatlvltàse X < X - > accetto HO con signlflcatività.Test <strong>di</strong> Quasi-In<strong>di</strong>pendenzaNella tabella <strong>di</strong> transizione costruita sugli errori <strong>di</strong> registrazionecl si aspetta un elevato numero <strong>di</strong> zeri o <strong>di</strong> valori molto piccolial <strong>di</strong> fuori della <strong>di</strong>agonale principale: questo fa cadere l'Ipotesi2) <strong>di</strong> frequenza non Inferiore a 5 e non consente <strong>di</strong> utilizzarecorrettamente Il precedente test.Il problema del valori nulli a priori è comunque risolvi bile ricorrendoal cosiddetto -test <strong>di</strong> Quesl-Indlpendenza-, che si applicaalla tabella <strong>di</strong> transizione mo<strong>di</strong>ficata, ottenuta escludendola <strong>di</strong>agonale principale e analizzando la sola parte relativa al-flussl-.L'Ipotesi nulla HO <strong>di</strong>viene allora:PII = Operi = jHO:Pq =Pi. • P.i peri_j (4A.8)r(1 - I ~ l Pi. • P.I)r rcon il vincolo: E E PII = 1.1=1 J=1~ necessario quin<strong>di</strong> calcolare le frequenze teoriche che corrispondonoalla tabella <strong>di</strong> transizione mo<strong>di</strong>ficata. Tale calcolorichiede l'applicazione <strong>di</strong> una procedura Iteratlva che stima le fre-quenze Eli teoriche In caso <strong>di</strong> In<strong>di</strong>pendenza partire da valori inizialiE.I(O), rlponderandoll ad ogni passo, In modo che venga sod<strong>di</strong>sfattouna volta il vincolo del totali <strong>di</strong> riga ed una volta quellodel totali <strong>di</strong> colonna, fino alla convergenza del successivi Eli adun determinato valore.In dettaglio:E,. (O) = [1 per! - ~li Operl=J (4A.9)E. (1) = Eu (O) • ~.il ~.


144 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 4 • LA REGISTRAZIONE145Test <strong>di</strong> omogeneitàUn' Ipotesi plli debole <strong>di</strong> quella <strong>di</strong> simmetria è qu~lIa sull'omogeneità.che postula l'eguagllanza delle probabilità marginali<strong>di</strong> riga con le corrispondenti probabilità <strong>di</strong> colonna.HO:si pone:"-i = D.i- D.iVii = 1\. + D.i -Vij = -(I\j + Dj)Pio = P.j per i = 1.2 •...2 • Do(4A.13)(4A.14)creando un vettore d (che contiene (r-1) <strong>di</strong>fferenze) ed una matriceV delle relative varianze e covarianze:x 2 = d'. V-l. d(4A.15)con (r-1) gra<strong>di</strong> <strong>di</strong> libertà dove d' In<strong>di</strong>ca il vettore d trasposto eV-l la matrice Inversa <strong>di</strong> V.L'analisi andrebbe condotta tanto sulla tabella <strong>di</strong> transizioneiniziale. tanto su <strong>di</strong> una tabella «normalizzata». nella quale cioèsi tiene conto del peso <strong>di</strong> ciascun carattere alfanumerico all'intemodel record. Ad esempio i numeri «1» e «2» nei veri campidel record possono esserre pili frequenti <strong>di</strong> altri - perché spessosono previsti come co<strong>di</strong>ci <strong>di</strong> caratteri <strong>di</strong>cotomici del tipo-si»/«no» - e conseguentemente sarà probabile il riscontro <strong>di</strong>numerosi errori per questi valori: sarà necessario quin<strong>di</strong> ponderarela tabella <strong>di</strong> transizione attribuendo alle due cifre pesi proporzionalialla frequenza con cui essi compaiono come modalitàali' Interno del questionario. cosi da depurare i test dall'effettosuddetto.3. Esempio sul piani <strong>di</strong> campionamento semplice per attributiConsideriamo un esempio in cl si ipotizza <strong>di</strong> voler verificarela qualità della registrazione sui byte e sui record. Abbiamo visto(§ 5) che la percentuale <strong>di</strong> record con almeno un errore è strettamentelegata alla percentuale <strong>di</strong> errore sui byte. secondo l'andamentoillustrato dalle Tabelle 4.3 e 4.4. In cui si utilizzava la<strong>di</strong>stribuzione <strong>di</strong> Poisson. avendo Ipotizzato la casualità dell'errore.La casualità implica che gli errori <strong>di</strong> registrazione siano «<strong>di</strong>-IIIIspersi» fra I vari record e che si presenti raramente il caso <strong>di</strong> errorimultipli sul record. L'errore casuale quin<strong>di</strong> determina una pllialta percentuale <strong>di</strong> record con almeno un errore. ma definisceuna relazione fra errore sui byte ed errore sul record che rendepressocché In<strong>di</strong>fferente effettuare controlli sugli uni o sugli altri.Inoltre. per quel che riguarda il primo del due aspetti. si è osservatala scarsa convenienza dell'estrazione <strong>di</strong> n singoli byte.per cui <strong>di</strong> solito si sceglie <strong>di</strong> rldlgltare completamente I recordestratti. eventualmente per un numero K <strong>di</strong> record Inferiore adn. ove si presuma l'assenza <strong>di</strong> errore sistematico.In definitiva si preferisce pre<strong>di</strong>sporre un plano <strong>di</strong> campionamentoper il controllo sul record. utilizzando poi i medesimi daticampionari per la verifica sui byte. Il proce<strong>di</strong>mento apposto (primai byte poi I record) è logicamente equivalente. ma per la determinazionedel piano <strong>di</strong> campionamento. i calcoli sul milioni<strong>di</strong> byte risultano pili complessi elo richiedono l'estrapolazionedelle Tavole Mllitary Standard. che non prevedono numerosltàcosi elevate.Nel nostro esempio si suppone <strong>di</strong> avere un blocco <strong>di</strong> N =32000 record <strong>di</strong> lunghezza pari a 100. Poniamo che la percentuale<strong>di</strong> errore sul byte (


destra) con p2 (a sinistra) ottenendo un'area <strong>di</strong> possibili piani <strong>di</strong>campionamento fra cui n = 250 e c = 45. Quin<strong>di</strong> se più <strong>di</strong> 45 recordsu 350 risultano errati si rifiuta Il lotto.Per I controlli sul byte possiamo utilizzare I dati campionaridella registrazione eseguita per controllare I record. Supponiamo<strong>di</strong> avere Il campione <strong>di</strong> n = 350 record e cioè <strong>di</strong> 35000 byte:possiamo effettuare la verifica <strong>di</strong> Ipotesi su «p-byte» = 0.001, adoperandole tavole della Normale, quale approssimazione della Bi·nomlale. Fissato Il livello dell'errore <strong>di</strong> prima specie a (cioè laprobabilità <strong>di</strong> accettare 1/ lotto se la qualità è cattiva) uguale a0.05, Il valore za per il test unidlrezlonale (Interessa cautelasi solocontro valori <strong>di</strong> «p-byte» elevatI) risulta pari a 1.64." valore che <strong>di</strong>scrimina la decisione <strong>di</strong> accettare o meno illotto è definito da:p = p+ za * p*(1-p)/ndove p In<strong>di</strong>ca Il valore desiderato «p-byte».Nell'esempio p = 0.001 + 1.64 * (0.001*0.999)/35000 == 0.001 + 0.0000468 = 0.0010468Quin<strong>di</strong> se dal conteggio del byte errati risulta una percentuale<strong>di</strong> errori superiore a p = 1.047 per mille si deve rifiutare I/Iotto.RIFERIMENTI BIBLIOGRAFICI8RAMBILlA F. (a cura dI), Trattato <strong>di</strong> statistica, voI. Il, pagg. 873-998, Tecnica<strong>di</strong> controllo statistico <strong>di</strong> MOLLER F., Unione Tipografica, E<strong>di</strong>triceTorinese, Torino, (1969).EVERrrr 8.S. (1977), The Analysls of Contlngency Tables, Chapman andHall, London.DUNcAN A.J., Quallty Contrai and Industriai Statlstlcs, IV ed., Irwln, Homewood,III, 1974.IAcoBINI A. (1978), I meto<strong>di</strong> statistici nel controllo <strong>di</strong> quallt~, La Goliar<strong>di</strong>caed., Roma.MONTGOMERY D.C. (1977), Introductlon to Statlstlcal Quallty Control,John Wlley and Sons, New Vork.PAlAZZI A. (1964), Meto<strong>di</strong> statistici nella ricerca Industriale e nel controllodella produzione, ET AS Kompass, Milano.PANIZON F. (1988), Il controllo statistico <strong>di</strong> quallt~ nella fase della registrazionedel dati, Atti della SIS, Siena, voI. 2, tomo 1, pp. 185-192.UNITES SrATES DEPARTMENT OF DEFENSE (1963), Sampling Procedures andTables for Inspectlon by Attrlbutes MIL STD 105D, U.S. GovernementPrlntlng OHlce, Washlngton D.C ..ZUCHEGNA A. (1984), La <strong>di</strong>gitazione del dati ed /I controllo statistico, Tesi<strong>di</strong> laurea, Università <strong>di</strong> Roma.l


CAPITOLO 5 • LA REVISIONE1. La fase <strong>di</strong> revisioneLa fase <strong>di</strong> revisione ha lo scopo <strong>di</strong> eliminare gli errori e le in·congruenze presenti nel materiale <strong>di</strong> rllevazlone, relativamenteal numero delle unità statistiche, alle loro relazioni ed al contenutodelle Informazioni raccolte.Le operazioni <strong>di</strong> controllo e correzione possono essere effettua·te con due meto<strong>di</strong> <strong>di</strong>versi:I) esperti <strong>di</strong> settore che operano <strong>di</strong>rettamente sui questionari;Il) procedure informatiche automatiche che elaborano Il file pravenlentedalla fase <strong>di</strong> registrazione.I programmi informatici, pur scontando, rispetto agII esper·ti, una minore flessibilità, soprattutto In presenza <strong>di</strong> dati anomalie <strong>di</strong> errori sistematici, garantiscono una maggiore tempestività,un maggiore controllo sull'applicazione delle regole <strong>di</strong> identifi·cazione e <strong>di</strong> correzione degli errori e l'uniformità del trattamen·to dell'Informazione.Ai medesimi criteri <strong>di</strong> uniformità e <strong>di</strong> controllo, deve essereispirata l'organizzazione <strong>di</strong> eventuali operazioni <strong>di</strong> revisione ma·nuale. A tal fine, devono essere fornite agli esperti le regole <strong>di</strong>coerenza e <strong>di</strong> correzione in forma <strong>di</strong> tabelle <strong>di</strong> decisione, ed unmodello <strong>di</strong> riepilogo degli errori riscontrati e delle mo<strong>di</strong>flcazloniapportate, se la procedura non permette <strong>di</strong> risalire in altro modoa tale informazione (sostanzialmente me<strong>di</strong>ante l'archiviazione delfile ai vari passi del processo). Le Informazioni desunte dal riepilogodevono essere analizzate per controllare la presenza <strong>di</strong>errori, in particolare <strong>di</strong> errori sistematici nel lavoro degli espertI.Nella pratica, I due meto<strong>di</strong>, operazioni manuali e programmiinformatlcl, sono spesso utilizzati In combinazione, in funzionedella <strong>di</strong>mensione dell'<strong>indagine</strong> e del tipo <strong>di</strong> unità <strong>di</strong> rllevazlone;ad esempio la revisione del questionari delle gran<strong>di</strong> Imprese industrialipone problemi <strong>di</strong>versi da quella effettuata sulle famiglie.Una situazione abbastanza comune <strong>di</strong> mistura <strong>di</strong> meto<strong>di</strong> èquella in cui l'errore viene determinato me<strong>di</strong>ante elaborazioni,mentre la correzione viene effettuata (ia esperti; <strong>di</strong> questo casosi riscontrano <strong>di</strong>verse varianti:a) ricerca me<strong>di</strong>ante programmi, correzione degli esperti, rielaborazlonedel file;b) rlèerca batch e correzione da video terminale;c) ricerca e correzione da video terminale.


I;JUIL SISTEMA 01 CONTROLLO DELLA QUALITÀ DEI DATICAP. 5·LA REVISIONE151Nel caso (a), I programmi In<strong>di</strong>viduano l'errore e riportano ilrelativo record su supporto cartaceo, dove viene corretto dall'esperto;le correzioni, registrate su <strong>di</strong> un file <strong>di</strong> appoggio, vengonoquin<strong>di</strong> rlelaborate Insieme al file principale, sostltuendone glierrori, per da luogo ad un archivio pulito.Nel caso (b), si listano solo i co<strong>di</strong>ci Identificativi delle unitàIn culi programmi hanno In<strong>di</strong>viduato gli errori; tali co<strong>di</strong>ci sarannoutilizzati dall'esperto per richiamare e correggere I record errati.Nel terzo caso, Infine, un programma Identifica l'errore ed ilrelativo record è richiamato automaticamente sul video, dove vienemo<strong>di</strong>ficato dall'esperto.Appare evidente, da quanto detto, che Il ruolo e l'apporto dell'Informatica,nella fase <strong>di</strong> revisione, è rilevante e, nel caso <strong>di</strong> indagini<strong>di</strong> me<strong>di</strong>e - gran<strong>di</strong> <strong>di</strong>mensioni, Insostltuiblle; tuttavia c'èda osservare che la pre<strong>di</strong>sposlzione delle norme e le informazionida derivare dalle operazioni <strong>di</strong> revisione e correzione, costituisconouna procedura <strong>di</strong> natura essenzialmente statistica edIn quanto tale <strong>di</strong> competenza del responsabile dell'Indagine.I piani <strong>di</strong> compatibilità e correzione agiscono a livello <strong>di</strong> singolaunità, per identificare e correggere I valori fuori campo, lemancate risposte parziali e le incongruenze logiche tra variabili.Infine il quarto controllo mira a ristabilire i legami tra le unità<strong>di</strong> or<strong>di</strong>ne inferiore al modello, eventualmente mo<strong>di</strong>ficati o nonpresi in considerazione nelle precedenti operazioni.In Figura 5.1 è riportato il <strong>di</strong>agramma relativo alla sequenzadel controlli; quest'ultima, tuttavia, non è unlvocamente determinata.In particolare l'or<strong>di</strong>ne tra i passi 3 e 4 può essere Invertitonel caso In culla coerenza tra le Informazioni relative alla singolaunità, siano ritenuti meno importanti dei legami tra questeultime; ad esempiO che la ricostruzione della famiglia sia prioritariarispetto alle compatibilità tra le variabili del singolo In<strong>di</strong>viduo.Il problema verrà approfon<strong>di</strong>to nel paragrafo 5.8.2. La procedura <strong>di</strong> controllo e correzioneLa procedura <strong>di</strong> controllo e correzione è costituita da un insieme<strong>di</strong> operazioni Interrelate, che agiscono sul dati registrati,raccolti In uno o più file: esse possono essere, riguardo agli scopi,sud<strong>di</strong>vise In:controllo quantltatlvo del numero e del legami tra unità;controllo qualltatlvo delle variabili;piani <strong>di</strong> compatabilltà e correzione;controllo delle relazioni tra unità appartenenti ad uno stessomodello <strong>di</strong> rilevazlone.Obiettivo del controllo quantltatlvo è ricostruire la coerenzatra Il numero <strong>di</strong> unità teoriche (previsto nel plano <strong>di</strong> rilevazioneo risultante dal documenti <strong>di</strong> rllevazlone), Il numero <strong>di</strong> unità rilevate(riportate nel questionari) e quello delle unità presenti susupporto Informatico. Tale controllo, Inoltre, assicura l'uguaglianzatra il numero <strong>di</strong> unità rilevate e quelle registrate ed il ripristinodei collegamenti tra unità, me<strong>di</strong>ante operazioni <strong>di</strong> inserimentoe cancellazione <strong>di</strong> record o mo<strong>di</strong>flcazlonl dei co<strong>di</strong>ci identificativI.il secondo controllo è finalizzato ad una prima ricognizionequalltatlva del materiale raccolto e alla determinazione <strong>di</strong> eventualierrori sistematici.p\Q,no <strong>di</strong>. compo.t.i.bi.l '" ta'• corre. \on. per l.ca,ra."LerLet.Lch. delle.... ni.\a.·vor i. esb" 1." cl i. Legame.i. .... ri. .... nt.o ....... 0conc::~.lLQ..i.on.uni. t. a."Figura 5.1 • La seguenza del controlli nella fase <strong>di</strong> revisionecii.


152 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE1533. Le unitàLa definizione <strong>di</strong> unità, nel contesto dei controlli quantitativi,si basa su considerazione <strong>di</strong> or<strong>di</strong>ne pratlco-organizzatlvo e sullarappresentazione Informatica del modello <strong>di</strong> rilevazlone.In particolare, poiché nelle indagini sulla popolazione, il nodocruciale dell'organizzazione periferica è il comune (esso Infatticostituisce la ra<strong>di</strong>ce del sistema dei co<strong>di</strong>ci Identificativi edad esso sono riferiti I documenti accessori <strong>di</strong> rilevazione), è convenienteconsiderare tale livello come unità <strong>di</strong> riferimento dei controlliquantitatlvi.In generale, possiamo assumere che ciascun comune è sud<strong>di</strong>visoin aree (ad esempio le sezioni <strong>di</strong> censimento o le aree <strong>di</strong>circolazione dell'<strong>indagine</strong> forze <strong>di</strong> lavoro) e le interviste vengonocondotte da uno o più rllevatori, ciascuno dei quali opera inuna o più aree.In ogni modello <strong>di</strong> rilevazione vengono raccolte Informazioniriguardanti <strong>di</strong>fferenti unità <strong>di</strong> analisi, che possono essere identificatefisicamente (In<strong>di</strong>viduo, abitazione), istltuzlonalmente (famiglie,convivenze) o come eventi (nascite, morti, vacanze, spese,etc.).\I modello viene rappresentato, su supporto Informatico, me<strong>di</strong>anteuno o più record (ad esempio un record famiglia, più recordIn<strong>di</strong>vidui, più record eventi); ciascun record può contenereuna o più unità <strong>di</strong> analisi presente nel modello <strong>di</strong> rllevazione.Per unità, in questo contesto, si intende sia il modello <strong>di</strong> rilevazione,sia le unità <strong>di</strong> analisi, sia le istanze che sono coinvoltenell'organizzazione della raccolta e dell'elaborazione dei dati osono rilevanti per essa.Nel caso <strong>di</strong> indagini campionarie, in particolare, tra le unitàverrà considerato anche lo strato, poiché rilevante ai fini dellacostruzione dei coefficienti <strong>di</strong> riporto all'universo.In una generica <strong>indagine</strong> sulla popolazione, quin<strong>di</strong>, possiamoriconoscere quali unità nel senso sopra specificato:• lo strato,• il comune,• l'area• Il rile~atore,• il modello <strong>di</strong> rilevazione,• le unità <strong>di</strong> analisi.4. , 'egaml tra 'e unitàNel modello <strong>di</strong> rllevazione, tra i <strong>di</strong>fferenti tipi <strong>di</strong> unità, vengonostabilite relazioni <strong>di</strong> Inclusione o <strong>di</strong> collegamento; tali rela-zioni sono rappresentate, esplicitamente, me<strong>di</strong>ante i co<strong>di</strong>ci identificativi,oppure, Implicitamente, dal supporto fisico <strong>di</strong> rilevazione._Ad esempio, la relazione tra famiglia ed In<strong>di</strong>viduo è implicitanel fatto che le interviste In<strong>di</strong>viduali compaiono sullo stessoquestionario familiare, mentre la relazione tra modello e comuneviene esplicitata dal co<strong>di</strong>ci Identificativi riportati nel questionario.Tra due <strong>di</strong>fferenti tipi <strong>di</strong> unità, viene stabilita una relazione<strong>di</strong> inclusione, se le prime possono essere considerate grappolidelle seconde, del cui insieme costituiscono una partlzlone; adesempio gli In<strong>di</strong>vidui e le famiglie, le famiglie ed I comuni, le areeed i comuni. Legami <strong>di</strong>versi dalla relazione <strong>di</strong> appartenenza, verrannodefiniti <strong>di</strong> collegamento; ad esempio 1\ legame tra famigliaprincipale e coabitante, tra famiglia e abitazione, tra areae rilevatore.Le due relazioni inducono un or<strong>di</strong>namento tra le unità: possiamodefinire quelle legate da una relazione <strong>di</strong> collegamento,come unità dello stesso or<strong>di</strong>ne, mentre quelle legate da una relazione<strong>di</strong> inclusione, come <strong>di</strong> or<strong>di</strong>ne superiore od Inferiore, a secondase includono o sono incluse.Il modello <strong>di</strong> rilevazione contiene tutte le informazioni atteal riconoscimento delle <strong>di</strong>verse unità sia <strong>di</strong> or<strong>di</strong>ne superiore (rilevatore,area, comune) sia <strong>di</strong> or<strong>di</strong>ne inferiore (famiglia, abitazione,in<strong>di</strong>viduo, evento).Il modello viene riportato su supporto Informatico me<strong>di</strong>anteun insieme <strong>di</strong> record collegati tra loro da un sistema <strong>di</strong> co<strong>di</strong>ciche permette <strong>di</strong> legare due o più unità <strong>di</strong>verse.In particolare tale sistema deve assicurare:• il riconoscimento dell'insieme <strong>di</strong> record corrispondente al modello;• il collegamento tra le <strong>di</strong>verse unità <strong>di</strong> analisi appartenenti almodello;• Il collegamento tra l'Insieme <strong>di</strong> record corrispondenti al modelloe le unità <strong>di</strong> or<strong>di</strong>ne superiore.La struttura organizzatlva delle Indagini e la rappresentazioneinformatica del questionario determinano il sistema del co<strong>di</strong>ciIdentificativi e le relazioni tra unità.Il sistema del co<strong>di</strong>ci identificativi gioca un ruolo centrale nell'analisidel materiale raccolto; Infatti il controllo quantitatlvo delfile, poiché attuato sul record, non è altro che un Insieme <strong>di</strong> operazionisu detti co<strong>di</strong>ci.


154 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 - LA REVISIONE1555. I controlli quantltatlvlLa prima operazione <strong>di</strong> revisione riguarda la <strong>di</strong>mensione quantltatlvadell'Indagine, ovvero Il numero <strong>di</strong> unità e le loro relazioni,cosi come sono state definite nel paragrafo precedente. È necessario,Infatti, che vi sia coerenza tra la programmazione dell'<strong>indagine</strong>,la sua effettuazione ed Il risultato ottenuto, ovvero traIl plano teorico <strong>di</strong> rllevazlonejIl plano effettivo <strong>di</strong> rllevazlonejl'Insieme del questionarljIl file proveniente dalla registrazione.l'obiettivo del controllo quantitatlvo consiste nel verificare,ed eventualmente ristabilire, l'uguaglianza tra il plano effettivo<strong>di</strong> rllevazlone, l'Insieme ~el questionari ed il file, e nel ricostrui·re il bilancio tra plano teorico ed effettivo (dato dalla somma delleunità rilevate e le mancate risposte totali).Tuttavia, per Indagini <strong>di</strong> medle-grandl <strong>di</strong>mensioni, II ritornoal materiale cartaceo ed Il confronto tra questo ed Il file, sonooperazioni estremamente <strong>di</strong>spen<strong>di</strong>ose, in termini economici, organlzzatlvle <strong>di</strong> tempoj cosicché, è conveniente non considerarenel controlli l'Insieme dei questionari, tranne ritornare a questiultimi, nei casi In cui non è pOSSibile risolvere altrimenti le Incongruenze.le Informazioni contenute nel piano teorico o nei documenti<strong>di</strong> rllevazlone, possono essere <strong>di</strong>sponibili sotto forma <strong>di</strong> liste (adesempio l'elenco dei comuni per singolo strato, l'elenco del rile·vatori e delle aree per comune, gli elenchi delle assegnazioni etc.)o <strong>di</strong> riepiloghi <strong>di</strong> conteggi <strong>di</strong> unità (ad esempio il numero dlfaml·glie Intervistate e sostituite, Il numero <strong>di</strong> rilevatorl utilizzati etc.).Nelle liste ciascuna unità è identificata me<strong>di</strong>ante il medesimoco<strong>di</strong>ce che appare nel fIIej cosicché, se gli elenchi sono <strong>di</strong>sponibilisu supporto Informatico, si può effettuare facilmenteIl controllo quantltatlvo me<strong>di</strong>ante programmi <strong>di</strong> IInkage sulle unità<strong>di</strong> tipo <strong>di</strong>verso, comuni al piano <strong>di</strong> rilevazlone teorico, a quelloeffettivo ed al file.Nella pratica, Il plano teorico <strong>di</strong> rilevazlone, per le Indaginicampionarie, è costituito dalla lista degli strati e dei comuni edal numero <strong>di</strong> unità campione, essendo l'In<strong>di</strong>cazione delle areee del rllevatorl non essenziale, e spesso non determinabile, nel<strong>di</strong>segno campionario; nel plano del censimenti è presente anchela lista delle aree, ma non quella del rilevatorl. I documenti <strong>di</strong> rllevazlone,che variano da un'Indagine all'altra, contengono, ingenere, del conteggi rlepilogatlvi <strong>di</strong> unità e, laddove sono costi·tultl da liste (ad esempio le assegnazioni dei rllevatori), questeraramente sono registrate su supporto Informatico.lTuttavia la convenienza a strutturare In modo più analiticoi documenti <strong>di</strong> rllevazlone, cosi da avere a <strong>di</strong>sposizione le liste<strong>di</strong> tutte le unità coinvolte nella rllevazlone con I relativi rlepllo·ghl, e a prevederne la trasposlzlone su supporto informatico, deveessere attentamente valutata in funzione del seguenti aspetti:(I) il costo ed i tempi per la registrazione, (il) la gestione <strong>di</strong> unaconsistente massa <strong>di</strong> informazioni, (iii) l'aggravio del lavoro <strong>di</strong>campo, (iv) l'errore <strong>di</strong> registrazione nelle liste e nei conteggi cheintrodurrebbe elementi <strong>di</strong> incertezza nel controllo. 'Nell'analisi che seguirà, si ipotizza che l'attuale organizza·zione delle Indagini renda <strong>di</strong>sponibili, con modlflcazloni marginalidelle attuali procedure, la lista <strong>di</strong> stratlficazlone ed I conteggiriassuntivi e desunti dai documenti <strong>di</strong> rilevazione (DR) e dalplano teorico (PT), secondo Il Prospetto (5.1).Prospetto 5.1 - Conoscenza a priori del numero <strong>di</strong> unitàCAMPIONARlAINDAGINETOTALEP.T. o.A. P.T. D.A.Strato si si no noComune si si si siArea si si si siRilevatore si/no no no noQuestionario si si si siFamiglia si si no siIn<strong>di</strong>viduo no no no noEvento no no no noLa <strong>di</strong>stinzione tra unità per cui si <strong>di</strong>spone <strong>di</strong> informazioni esterneal file e quelle per cui tali informazioni non sono <strong>di</strong>sponibilicomporta un <strong>di</strong>fferente metodo <strong>di</strong> controllo quantltativo. '. Nel primo caso, il controllo del file sarà sostanzialmente basatosul riscontro tra Il file ed i documenti <strong>di</strong> rllevazlone, nel se·condo cl si avvarrà <strong>di</strong> un controllo induttlvo, me<strong>di</strong>ante l'analisidel co<strong>di</strong>ci identificativi e <strong>di</strong> alcuni parametri statistici.le informazioni sul numero <strong>di</strong> questionari e delle unità <strong>di</strong> or·<strong>di</strong>ne superiore e sulle reciproche relazioni; sono, generalmente<strong>di</strong>sponibili, o facilmente otteniblll, dalle usuali procedure dell'<strong>indagine</strong>.Gli atratl. I comuni. I._. IrI .... etorl. ImocIeIH


156 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE157Me<strong>di</strong>ante le notizie riportate sul piano teorico, sul documenti<strong>di</strong> rilevazlone ed I conteggi effettuati sul file, verranno pre<strong>di</strong>spostealcune tavole <strong>di</strong> controllo, per verificare le seguenti relazionitra le suddette unità:1) comuni-strati,2) modelli-comuni,3) rilevatorl-comunl,4) aree-comuni,5) modelli-aree,6) modelll-rilevatorl,7) aree-rllevatori.La prima relazione viene controllata confrontando le liste <strong>di</strong>stratificazlone provenienti dal plano teorico, dai documenti <strong>di</strong> rllevazionee dal file; per le ultime due deve essere verificata l'uguaglianza,mentre le prime due coincidono a meno delle mancaterisposte totali.Qualora le verifiche <strong>di</strong>ano luogo ad incongruenze, devono essereeffettuate le opportune correzioni, identificando gli errori(nella compilazione dei documenti <strong>di</strong> rilevazione o nei co<strong>di</strong>ci identificatividei record) per mezzo delle tavole <strong>di</strong> controllo pre<strong>di</strong>sposteper la verifica delle relazioni (2) - (7).Per quanto riguarda le relazioni (2), (3) e (4), il metodo consistenell'accoppiare I co<strong>di</strong>ci identificativi comunali, estratti dalfile, con quelli desumibili dal piano teorico e dai documenti <strong>di</strong>rilevazione, In una tavola <strong>di</strong> controllo contenente le seguenti Informazioniper ogni co<strong>di</strong>ce comunale:• dal plano <strong>di</strong> rilevazlone teorico,numero <strong>di</strong> areenumero <strong>di</strong> rilevatorinumero <strong>di</strong> modelli• dai documenti <strong>di</strong> rilevazione,numero <strong>di</strong> areenumero <strong>di</strong> rilevatorlnumero <strong>di</strong> modellinumero <strong>di</strong> mancate risposte totalinumero <strong>di</strong> sostituzioni• dal file,numero <strong>di</strong> areenumero <strong>di</strong> rilevatorinumero <strong>di</strong> modellinumero <strong>di</strong> sostituzioniLo schema suddetto è del tutto generale e deve essere adattatoalle situazioni concrete, poiché, per determinate Indagini,alcune delle Informazioni sopra riportate (ad esempio Il numero<strong>di</strong> modelli del plano teorico <strong>di</strong> rllevazlone per Il censimento) nonsono <strong>di</strong>sponibili; In tal caso potrà essere utilizzata una stima odun valore ad un tempo precedente, che costituisca un punto <strong>di</strong>riferimento per valldare I dati raccolti.Una seconda tavola <strong>di</strong> controllo può aiutare nella verifica dellarelazione (2); per ogni co<strong>di</strong>ce comunale, nel file, si calcolano leinterruzioni <strong>di</strong> sequenza nel numero d'or<strong>di</strong>ne del modelli, se essisono, come è la regola, numerati progressivamente.Una terza tavola <strong>di</strong> controllo, con la medesima struttura dellaprima, riportante, per ciascun comune e per ogni co<strong>di</strong>ce <strong>di</strong> areae <strong>di</strong> rilevatore, il numero del relativi modelli, sarà utilizzata peril controllo delle relazioni (5) e (6); l'incrocio tra co<strong>di</strong>ce <strong>di</strong> areae rilevatore e relativo numero <strong>di</strong> questionari permetterà Invecela verifica della relazione (7).Me<strong>di</strong>ante l'analisi delle tavole <strong>di</strong> controllo, è pOSSibile nonsolo determinare l'esistenza <strong>di</strong> un errore, ma anche rintracciareeventuali blocchi <strong>di</strong> modelli con co<strong>di</strong>ci errati o duplicati nel file;In funzione del tipo dlincongruenza verranno effettuate le seguentioperazioni:- correzione del co<strong>di</strong>ce <strong>di</strong> comune, area, rilevatore;- cancellazione dei record relativi ad uno o più modelli;- inserimento del record relativi ad uno o più modelli.Le operazioni <strong>di</strong> cancellazioni vengono eseguite nel caso <strong>di</strong>duplicazione del modelli; tale operazione e quella <strong>di</strong> correzionedel co<strong>di</strong>ce saranno effettuate prevlo confronto a vista dei biacchi<strong>di</strong> modelli e <strong>di</strong> record errati.A questo livello <strong>di</strong> controllo non è prevista altra operazione<strong>di</strong> Inserimento, se non nel caso <strong>di</strong> un ritardo nell'acquisizionedel dati.Con questa prima fase <strong>di</strong> controllo, si compie una riallocazionedel record me<strong>di</strong>ante le operazioni <strong>di</strong> Inserimento, cancellazionee correzione dei co<strong>di</strong>ci identificativi; tuttavia, alla fine delprocesso, possono rimanere alcune <strong>di</strong>fferenze tra unità rilevatee presenti nel file (ad esempio per un errore vengono aggregaticon il medesimo co<strong>di</strong>ce due o più modelli), <strong>di</strong>fficilmente rintracciablliper mezzo delle tavole <strong>di</strong> verifica <strong>di</strong> cui sopra.La riallocazlone definitiva del modelli sarà, quin<strong>di</strong>, effettuatasulla base del controllo delle unità <strong>di</strong> analisi.Generalmente, per le unità <strong>di</strong> analisi presenti sul modello <strong>di</strong> Le uniti <strong>di</strong> ........rilevazlone (famiglie, abitazioni, In<strong>di</strong>vidui, eventi), non si <strong>di</strong>spone<strong>di</strong> numerosità desumibili né dal piano teorico <strong>di</strong> rllevazlone


158 IL SISTEMA DI CONTROllO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE159né da documenti aggiuntivi; spesso un conteggio <strong>di</strong> tali unità (adesempio Il numero <strong>di</strong> In<strong>di</strong>vidui o <strong>di</strong> eventi rilevati) od un In<strong>di</strong>catore<strong>di</strong> presenza <strong>di</strong> altra unità (ad esempio l'abitazione), sono perOpresenti sul modello <strong>di</strong> rllevazlone e riportati sul record.Nel caso delle unità <strong>di</strong> analisi, quin<strong>di</strong>, Il controllo quantltatlvonon ha riscontri esterni al file, ma si riduce a due verifichecomplementari:I) la verifica Interna ad un gruppo <strong>di</strong> record IndIVIduati dallo stessoco<strong>di</strong>ce Identificativo;Il) la verifica <strong>di</strong> plausibilità fondata sull'analisi delle <strong>di</strong>stribuzioni<strong>di</strong> tali unità o <strong>di</strong> parametri statistici (me<strong>di</strong>e, percentuali ecc.),calcolati sull'Intero file o su domini territoriali.In particolare, nel primo caso poSSiamo articolare Il controllo:• sul riscontro tra Il valore <strong>di</strong> un campo <strong>di</strong> un record con Il COI1-tegglo del numero <strong>di</strong> unità presenti sotto un medesimo co<strong>di</strong>ceIdentificativo;• sull'accertamento della presenza <strong>di</strong> unità In base ad un In<strong>di</strong>catorecontenuto in un record;• sul legami tra co<strong>di</strong>ci Identificativi <strong>di</strong> or<strong>di</strong>ne Inferiore.Per quanto riguarda I controlli sub (I), si avranno quin<strong>di</strong> tretavole <strong>di</strong> verifica.La prima metterà In evidenza I modelli per I quali non sussistel'eguaglianza tra gli eventuali conteggi riassuntivi contenutinel record, Il numero <strong>di</strong> unità <strong>di</strong> analisi presenti come codlclldentlflcatlvl<strong>di</strong>versi (ad es. Il numero <strong>di</strong> In<strong>di</strong>vidui riportato sul recordfamiglia ed Il numero <strong>di</strong> record In<strong>di</strong>vidualI), Il contenuto del massimoco<strong>di</strong>ce progressivo e gli eventuali salti nel progressivi delleunità (se è prevista, per questa ultime, una numerazione progressiva).La seconda evidenzierà I casi In cui ad un In<strong>di</strong>catore <strong>di</strong> presenzanon corrisponde una unità <strong>di</strong> analisi, mentre la terza conterràI modelli per I quali non sono stati verificati I legami tra co<strong>di</strong>ciall'Intero del modello.I controlli <strong>di</strong> cui al punto (II), vengono condotti calcolando alcuniparametri In<strong>di</strong>cativi della <strong>di</strong>mensione delle unità da controllareIn un determinato ambito territoriale (I comuni <strong>di</strong> una regioneo le sezioni <strong>di</strong> censimento <strong>di</strong> un comune).Ad esempio nel caso delle Indagini sulle famiglie, Il numerome<strong>di</strong>o <strong>di</strong> componenti, l'in<strong>di</strong>ce <strong>di</strong> vecchiaia e <strong>di</strong> <strong>di</strong>pendenza, Il rapporto<strong>di</strong> mascolinità, la percentuale <strong>di</strong> famiglie superiori ad unadata <strong>di</strong>mensione, ecc.; nel caso <strong>di</strong> eventi quantltatlvl la me<strong>di</strong>aed Il coefficiente <strong>di</strong> variazione, " numero me<strong>di</strong>o <strong>di</strong> eventi per modello,la <strong>di</strong>stribuzione del numero <strong>di</strong> eventi, ecc.• L'analisi della <strong>di</strong>stribuzione <strong>di</strong> un determinato parametro (o,Simultaneamente, <strong>di</strong> pii! parametri) ha lo scopo <strong>di</strong> In<strong>di</strong>viduareeventuali valori anomali che potrebbero essere conseguenza <strong>di</strong>errori nel co<strong>di</strong>ci Identificativi (ad esempio Il numero <strong>di</strong> componentieccezionalmente elevato <strong>di</strong> una famiglia, potrebbe essere~ovuto ad un errore nel co<strong>di</strong>ci Identificativi che ha comportatoti raggruppamento <strong>di</strong> pii! famiglie).Tali dati anomali possono essere In<strong>di</strong>viduati come valori esterniagII Intervalli costruiti Intorno al valori me<strong>di</strong> (ad esempio perla me<strong>di</strong>a, due volte lo scarto quadratlco me<strong>di</strong>o; per la medl~na,lo scarto Interquartlle), oppure sulla base <strong>di</strong> pii! sofisticate <strong>tecniche</strong><strong>di</strong> analisi multlvarlata (ad esempio l'analisi del gruppI).I controlli suddetti non hanno solo lo scopo <strong>di</strong> eliminare gli errori,ma anche <strong>di</strong> produrre Informazioni per Il controllo della retee delle operazioni effettuate sul supporto cartaceo ed Informatico.Dal controlli quantltatlvl sarà quin<strong>di</strong> pOSSibile calcolare In<strong>di</strong>catorirelativi al <strong>di</strong>versi tipi <strong>di</strong> errori, con riferimento al comples­~o del file e al livelli <strong>di</strong> controllo appropriati, ovvero la fonte cuiI errore è Imputabile, come riportato nel Capitolo 3.8_ I controlli qualltatlvlPer controllo qualltatlvo si Intende la verifica del valori assuntidalle variabili nel dati, non ancora sottoposti alle procedure<strong>di</strong> controllo logico e <strong>di</strong> correzione; In questa fase si attua unaprima analisi dell'efficienza complessiva dello strumento rllevaz/one.In particolare, costRuiscono obiettivi del controllo (I) la verificadelle Informazioni raccolte e (II) l'lndlvlduazlone <strong>di</strong> eventualiertorl sistematici.L'analisi dell'Informazione raccolta, oltre a costituire la cartina<strong>di</strong> tomaso/e della qualità del dati, può fornire In<strong>di</strong>cazioni permettere a punto le elaborazioni successive: ad esempio, la revisionedelle procedure <strong>di</strong> correzione, nel caso <strong>di</strong> una rilevante quota<strong>di</strong> questionari errati·per particolari variabili, la revisione delplano <strong>di</strong> tabulazlone, In funzione dell'atten<strong>di</strong>bilità del risultati, ecc.Rispetto alle analisi da effettuare, pOSSiamo <strong>di</strong>videre I risultatidella rllevazlone In due gruppi:l) le variabili qualltatlve e quantitatlve Intervallo;Il) le variabili quantltatlve, continue o <strong>di</strong>screte.Il aIcaIo <strong>di</strong> In<strong>di</strong>ca ....


160 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATI;. !I:1IiCAP. 5 • LA REVISIONE181L' ....... ____ I\CONel primo caso verranno elaborate le <strong>di</strong>stribuzioni <strong>di</strong> frequenzadel <strong>di</strong>versi co<strong>di</strong>ci presenti, per singola variabile e le pII) impor·tanti <strong>di</strong>stribuzioni congiunte; nel secondo, verranno calcolati Iprincipali parametri statistici (ad esempiO" la medla,lrcoefficlente<strong>di</strong> variazione, i valori minimo e massimo, la me<strong>di</strong>ana ed I quarti·Il, la <strong>di</strong>stribuzione per Classi), evidenziandO In particolare la.nu·merosità del valori blank, zero ed alfanumerici riscontrati.Per esprimere un giu<strong>di</strong>zio sulla plausibilità del dati raccolti,tali Informazioni possono essere confrontate con fonti esterne(ovvero con I risultati <strong>di</strong> altre Indagini o della medesima Indagi·ne In tempi precedenti) e tra domini <strong>di</strong> stu<strong>di</strong>o della stessa rileva·zlone, In particolare I domini territoriali rilevanti per l'organizza·zlone sul campo e per la <strong>di</strong>ffusione del dati.. Poiché la matrice del parametri statistici per domini territorialipuò essere <strong>di</strong> gran<strong>di</strong> <strong>di</strong>mensioni, rendendo <strong>di</strong>fficoltosa l'a·nallsi, cl si può limitare all'esame delle principali caratteristicherilevate.Gli errori sistematici possono aver origine nella formulazionedel questionario, nelle operazioni <strong>di</strong> rilevazlone o nella fase<strong>di</strong> registrazione dei dati; essi possono manifestarsi come valorimancanti, incongruenze, valori fuori campo o come risposte coerentima accentrate sulle modalità <strong>di</strong> determinati quesiti.La loro Indlviduazlone è propedeutlca sia alla predlsposlzlone<strong>di</strong> opportuni Interventi correttivi sul materiale grezzo, sia alla<strong>di</strong>stinzione, prima dell'applicazione della procedura <strong>di</strong> compatibilitàe correzione, tra errori casuali e sistematici, prevista espressamenteda alcune <strong>tecniche</strong> <strong>di</strong> Imputazione <strong>di</strong> tipo stocastlco.La determinazione degli errori sistematici non è agevole; essi,Infatti, possono essere definiti per negazione, come errori noncasuali, ma <strong>di</strong>fettano <strong>di</strong> una definizione operativa che ne permettal'lndlvlduazlone.Una possibile specificazione del concetto <strong>di</strong> errore sistematicoè definirlo come assenza <strong>di</strong> variabilità nel dati rilevati, Infunzione del valore assunto da altre variabili eia <strong>di</strong> particolari subpopolazioni,In cui la variabilità attesa è maggiore <strong>di</strong> zero; ovvero,In termini equivalentI, che la probabilità <strong>di</strong> una modalità, <strong>di</strong>essere rilevata in una data subpopolazlone con<strong>di</strong>zionata dal va~lore assunto da altre variabili, è pari ad uno. In ambedue I casisi potrebbe sottoporre a test, sulla base dei dati rilevati, l'Ipotesinulla; ma ciò comporterebbe Il calcolo e l'analls'' del test Inun numero elevato <strong>di</strong> domini, definiti dalle variabili correlate edal livelli organlzzativi coinvolti (i singoli comuni, supervisori, rIlevatorl,famiglie), con una affidabilità statistica, soprattutto nelcaso <strong>di</strong> Indagini campionarie, compromessa dalla ridotta numerosltàdelle Informazioni <strong>di</strong>sponibili per Il singolo dominio. .In pratica, non facendo riferimento ad alcuna definizione, siricorre ad alcuni In<strong>di</strong>catori In<strong>di</strong>retti; tuttavia, la loro significativitàrisente delle stesse <strong>di</strong>fficoltà sopra accennate, riguardanti la<strong>di</strong>mensione della base <strong>di</strong> calcolo. .Il verificarsi <strong>di</strong> dati anomali nella <strong>di</strong>stribuzione delle variabili,può essere considerato un In<strong>di</strong>catore In<strong>di</strong>retto dell'esistenza<strong>di</strong> un errore sistematico. In questo caso I~errore può essere In<strong>di</strong>viduatome<strong>di</strong>ante l'analisi delle statistiche calcolate per Il controlloqualltatlvo; dovendo, per le ragioni sopra esposte, stabili·re un limite per le subpopolazlonl da considerare, è convenientescegliere Il livello dei domini rilevanti per la <strong>di</strong>ffusione del risultati.Quale In<strong>di</strong>catore per l'indlvlduazione dell'errore sistematico,si assume, generalmente,lI complemento a uno del tasso <strong>di</strong> qualitidel materiale raccolto, riscontrato nelle singole variabili; tuttavia,se la determinazione dell'errore è finalizzata alla strategia<strong>di</strong> imputazione, è opportuno utilizzare Il complemento del tasso<strong>di</strong> quallti del materiale <strong>di</strong>sponibile, che Include anche l'eventualeerrore sistematico <strong>di</strong> registrazione.SI ricorda (per maggiori ragguagli cfr. Capitolo 3, § 4) che, perciascuna variabile, Il primo tasso è calcolato come rapporto traIl numero <strong>di</strong> risposte dovute nette e la <strong>di</strong>fferenza tra Il numero<strong>di</strong> unltè rispondenti e quello del valori fuori campo; Il secondo,come rapporto tra Il numero <strong>di</strong> risposte d9vute nette e quello delleunità rispondenti. .Tali In<strong>di</strong>catori possono essere analizzati a livello aggregatoovvero per domini territoriali; nel primo caso, si determina la sistematlcitèdell'errore dovuta alle operazioni centrall~e checoinvolgono l'Intera rllevazione (questionario, registrazione, norme,Istruzioni, ecc.), m,ntre, nel secondo, viene In<strong>di</strong>viduata quellaImputabile al slnQolI organi del" rate <strong>di</strong> rll..,azlone.L'esistenza <strong>di</strong> ~n errC)fe sistematico nella singola variabile,è generalmente derivata dal confronto del livelli degli In<strong>di</strong>catorirelativi alle altra variabili.In<strong>di</strong>cando con qJ Il complemento a uno del tasso <strong>di</strong> qualitàdel materiale dlsponlbUe, relativo alla j-aslma delle k variabilipresenti sul questionario, è possibile In<strong>di</strong>viduare l'errore sistematicoutilizzando <strong>di</strong>fferenti meto<strong>di</strong>.Un primo criterio <strong>di</strong> base sul confronto tra gli In<strong>di</strong>catori qJed una determinata soglia q*, solitamente fissata dal 3% 815%:la con<strong>di</strong>zione(5.1)


In<strong>di</strong>ca il verificarsi dell'errore sistematico (NCBS Statlstlcs Sweeden1983).Un secondo criterio si basa sulla considerazione che in pre·senza <strong>di</strong> un errore casuale (quin<strong>di</strong> non sistematico), si può ipotizzareche le probabilità <strong>di</strong> errore sulle k varlabln siano ugualitra loro e pari a p; In questo caso, I tassi calcolati ql rappresentanomisure ripetute <strong>di</strong> p e si <strong>di</strong>stribuiscono secondo una curvaGaussiana.Allora, assimilando l'errore sistematico al dato anomalo, losi può Identificare come valore esterno all'estremo superiore dell'Intervallo<strong>di</strong> confidenzaLa frequenza della g-esima combinazione <strong>di</strong> errore è alloradata da:dove N rappresenta Il numero <strong>di</strong> record.Stimando P g e N g me<strong>di</strong>ante le:(5.2)dove:E(q) = Pq = 1: 1 qll kà q = 1: 1 (qf- qt I (k -1)e t è Il livello corrispondente alla desiderata probabilità a."Un terzo criterio per riconoscere il verificarsi <strong>di</strong> un errore <strong>di</strong>tipo sistematico, deriva dal definire la sistematlclté In termini <strong>di</strong><strong>di</strong>pendenza tra gli errori delle variabili del questionario. Nel singolorecord è possibile riscontrare un errore In ciascuna dellek variabili, ovvero secondo una delle <strong>di</strong>fferenti <strong>di</strong>sposizioni conripetizione <strong>di</strong> due elementi (errato/non errato) presi a k a k.Il numero teorico <strong>di</strong> tali <strong>di</strong>sposizioni è pari a 2 k -1, ma, nelfile, alcune <strong>di</strong> esse non si verificheranno mentre altre si presenterannonon frequenza ng (ovvero Il numero <strong>di</strong> record In cui ladata combinazione 9 <strong>di</strong> errori si è manifestata).Se gli errori delle variabili fossero In<strong>di</strong>pendenti, la probabilitàdella g-eslma combinazione <strong>di</strong> errore P g sarebbe pari a:dove p, rappresenta la probabilità <strong>di</strong> errore della j-esima variabile,j E S se errata mentre j E T nel caso contrarlo.IIIjN'I = PI Ndove i q, rappresentano, come sopra, I complementi a uno deltassi <strong>di</strong> qualità del materiale <strong>di</strong>sponibile, sarà possibile calcolarel'in<strong>di</strong>ce(5.3)e sottoporre a verifica l'Ipotesi <strong>di</strong> conformità tra le <strong>di</strong>stribuzioneteorica, calcolata sotto l'Ipotesi <strong>di</strong> In<strong>di</strong>pendenza degli errori, ela <strong>di</strong>stribuzione osservata.Il test in<strong>di</strong>ca se, tra tutte le combinazioni <strong>di</strong> errore riscontratenel file, si è verificato un errore sistematico; per in<strong>di</strong>viduarela particolare combinazione, occorre analizzare I relativi contributiall'In<strong>di</strong>ce.Nell'ipotesi che l'errore sistematico venga generato non soloin funzione degli errori <strong>di</strong> altre variabili ma anche del <strong>di</strong>versilivelli organlzzativl dell'Indagine (comune, rllevatore), sarebbe necessariocalcolare l'In<strong>di</strong>ce <strong>di</strong> cui sopra con riferimento a ciascunod I tali livelli.Nel Capitolo 3, si è data l'In<strong>di</strong>cazione <strong>di</strong> calcolare I tassi qlme<strong>di</strong>ante I risultati del piani <strong>di</strong> compatibilità e correzione; ovviamente,se la determinaZione della slstematlcltà dell'errore è finalizzataalla scelta del tipo <strong>di</strong> Imputazione, non è possibile utilizzaretali informazionI.CI si può allora basare su un tasso grezzo, avente al numeratorela somma del valori fuori campo ed i rifiuti ed al denominatoreil numero <strong>di</strong> unità rispondenti. Ma, mentre l'lndlviduazlone


164 Il SISTEMA DI CONTROllO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE166del valori fuori campo non presenta problemi, la determinazionedel rifiuti, In questa fase, è legata all'esistenza <strong>di</strong> un appositoco<strong>di</strong>ce sul questionario.In mancanza <strong>di</strong> tale co<strong>di</strong>ce, si può calcolare 1\ tasso includendonel numeratore tutti I blank, ovvero sia le mancate risposteparziali che i blank significativi; tuttavia, tale operazione equivalea supporre che Il livello del q, sia In<strong>di</strong>pendente dalla strutturadel questionario e che l'errore sistematico non sia correlatoa particolari subpopolazlonl ma solo al valore <strong>di</strong> altre variabili.In alternativa si possono elaborare dati grezzi me<strong>di</strong>ante unprogramma <strong>di</strong> compatibilità, basato solo sulle principali regoleformali, che <strong>di</strong>scrimini I rifiuti dalle risposte non dovute.Infine, è possibile Iterare la proeedura già pre<strong>di</strong>sposta <strong>di</strong> compatibilitàe correzione, utilizzando I risultati della prima elaborazioneper Il calcolo degli In<strong>di</strong>catori.7. I programmi <strong>di</strong> compatibilità e correzioneI programmi <strong>di</strong> compatibilità e correzione hanno la duplicefunzione <strong>di</strong> determinare te incongruenze e <strong>di</strong> correggerle; tali funzionisono logicamente <strong>di</strong>stinte, anche se la maggior parte delprogrammi le effettua simultaneamente.L'Identificazione dell'errore viene effettuata me<strong>di</strong>ante un Insieme<strong>di</strong> regole che, però, è in grado <strong>di</strong> determinare solo una partedell'errore totale: I valori fuori campo, le mancate risposte parzialie le Incongruenze logiche tra varlabllLSugli errori determinabili agiscono le regole <strong>di</strong> compatibilità;una loro Insufficiente specificazione riduce tale Insieme a quellodegli errori determinati; su questi vengono applicate le regole<strong>di</strong> correzione che possono o meno ripristinare 1\ valore vero originario.Il processo è schematlzzato nella figura 5.2.Nella costruzione <strong>di</strong> un programma <strong>di</strong> compatibilità e-corr.zlone, In cui confluiscono ed Interaglscono aspetti e problematlchesia statistiche che InformatiChe, devono essere bilanciateesigenze <strong>di</strong>verse, a volte contrad<strong>di</strong>ttorie.Dal punto <strong>di</strong> vista Informatico le caratteristiche <strong>di</strong> un planopossono essere In<strong>di</strong>viduate:I) nella possibilità <strong>di</strong> implementazione;Il) nella flessibilità, ovvero nella possibilità <strong>di</strong> adattamento a mo<strong>di</strong>flcazionldell'lnput e delle regole;III) nella velocità <strong>di</strong> esecuzione.Le proprietà statistiche cui far riferimento, possono essereinvece sintetizzate:I) nella veroslmigllanza delle correzioni, ossia nel rendere coerentlleInformazioni, Imputando valori che trovano riscontronella realtà Indagata;Il) nel principio del minimo cambiamento, ovvero nel ridurre alminimo le modlflcazloni dell'Informazione raccolta;III) nell'efficienza e nella correttezza degli stlmatorl applicati aldati puliti...... o .. ~ i.n<strong>di</strong>.v\.


IL ~'STEMA DI CONTROllO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE167La <strong>di</strong>fferente logica del programmi Influenza anche le modalitàdella loro costruzione.I piani deterministici Implicano che vengano determinate contemporaneamentesia le regole <strong>di</strong> compatibilità che quelle <strong>di</strong> correzione,entrando quin<strong>di</strong> nel merito del legami e delle mo<strong>di</strong>ficazlonldelle variabili della singola Indagine. AI contrarlo, la costruzione<strong>di</strong> piani stocastlcl richiede la definizione <strong>di</strong> criteri formali<strong>di</strong> rappresentazione delle regole e del meto<strong>di</strong> <strong>di</strong> correzione, senzaentrare nello specifico del dati rilevati.Dal punto <strong>di</strong> vista della progettazione e della realizzazione informatica,I programmi deterministici sono molto meno compiessi<strong>di</strong> quelli stocastlcl; essi, generalmente, sono costruiti ad hoc perla singola Indagine, mentre I secon<strong>di</strong>, per la cui produzione sononecessarie risorse notevolmente maggiori che per I primi, sonoprogrammi generalizzati, vali<strong>di</strong> per pII:' indagini <strong>di</strong>fferenti.Le minori <strong>di</strong>fficoltà <strong>di</strong> programmazione del piani deterministicisono perO bilanciate da Inferiori prestazioni statistiche: laveroslmlgllanza delle forzature <strong>di</strong>pende dalle Informazioni a priorio dalla soggettiva valutazione del responsabile dell'Indagine equin<strong>di</strong> possono essere Introdotte <strong>di</strong>storsioni nelle stime; Il principiodel minimo cambiamento del dati rilevati non puO essererispettato cosi come non vengono mantenute le <strong>di</strong>stribuzioni ele associazIoni presenti nell'Insieme completo del dati.La correzione deterministica, tuttavia, è più adatta a trattareerrori <strong>di</strong> tipo sistematico, al contrarlo dell'altra, che risulta piùefficiente per quanto riguarda gli errori provenienti da un modello<strong>di</strong> generazione casuale. Essa, Inoltre, supplisce ad alcune Jimltazlonl<strong>di</strong> or<strong>di</strong>ne informatico, che impe<strong>di</strong>scono l'applicazionedel criterio stocastlco al trattamento delle variabili qualltatlvecon un grande numero <strong>di</strong> modalità o delle variabili quantltatlvenon riconducibili, al fini delle elaborazioni; ayariabillintervalio.Per tali ragioni I due meto<strong>di</strong> sono spesso utilizzati in combinazionetrà loro.Per quanto riguarda Il livello cui applicare i programmi, sarebbeteoricamente corretto costruire un unico plano <strong>di</strong> compatibilitàche tratti contemporaneamente le variabili delle singole unità,<strong>di</strong> or<strong>di</strong>ne Inferiore al modello <strong>di</strong> rilevazlone, e le reciproche relazioni(ad esempio famiglia/In<strong>di</strong>vidui, famiglia/abitazione etc.), considerandoquin<strong>di</strong> Il questionario, come è in realtà, un unico insieme<strong>di</strong> Informazioni omogenee.Nella pratica, le <strong>di</strong>fficoltà <strong>di</strong> or<strong>di</strong>ne logico ed Informatico, neltrattare contemporaneamente un grande numero <strong>di</strong> regole, consiglial'adozione <strong>di</strong> una strategia in due tempi, <strong>di</strong>stinguendo lecorrezioni del dati relativi alle singole tlpologie <strong>di</strong> unità (piani <strong>di</strong>compatibilità In senso stretto), da quelle apportate allo scopo<strong>di</strong> ristabilire I legami tra le unità del singolo questionario.:1Le regole <strong>di</strong> compatibilità, generalmente, sono asserzioni sullanon ammissibilità <strong>di</strong> co<strong>di</strong>ci per la slngota variabile o <strong>di</strong> comblnazioni<strong>di</strong> co<strong>di</strong>ci relativi a più variabili (che esprimono le reciprocherelazioni logiche); esse, quin<strong>di</strong>, dovrebbero essere, più propriamente,chiamate regole <strong>di</strong> Incompatibilità.Assumere una logica <strong>di</strong> non ammissibilità ha il vantaggio <strong>di</strong>permettere un più stretto controllo nel processo <strong>di</strong> definizionedelle regOle che danno luogo ad errori (e, conseguentemente, acorrezioni) poiché costringe a considerare analiticamente tuttii relativi casi invece <strong>di</strong> ottenerll come residuo.Scopo delle regole è l'indlvlduazlone dell'errore che, In questocontesto, coincide con I valori fuori campo, le mancate risposteai quesiti e aHe Incongruenze logiche tra variabili.Gli errori possono riguardare una singola variabile o la relazionetra due o più variabili; essi sono logicamente della stessanatura e quin<strong>di</strong> devono essere trattati contemporaneamente econ I medesimi criteri. In particolare, nel caso esista una relazionelogica tra variabili, I relativi controlli <strong>di</strong> campo possono essereassorbiti dalla regola <strong>di</strong> compatibilità che coinvolge tali variabili.Sia per i controlli della singola variabile che per quelli <strong>di</strong> relazione,possiamo <strong>di</strong>videre le regole in formali o sostanziali; tale<strong>di</strong>stinzione si riflette nella <strong>di</strong>fficoltà ad esplicitare le regole e nelcontenuto <strong>di</strong> soggettività delle medesime.Sono regole del primo tipo quelle derivanti dalle norme <strong>di</strong> compilazionedel questionario (ad esempio: se ha risposto SI al quesito1, passare al quesito 3, altrlinentl passare al quesito 2) e delpiano <strong>di</strong> registrazione su supporto informatico; appartengono alsecondo quelle derivanti da informazioni a priori sulla realtà indagata(ad esempio: se sesso è femmina non è possibile che lacon<strong>di</strong>zione sia militare <strong>di</strong> leva).In particolare, per Il controllo delle singole variabili, le relativeregole formali derivano dal plano <strong>di</strong> registrazione (I co<strong>di</strong>ci nonammissibili); regole sostanziali possono, invece, essere consideratequelle riguardanti il campo <strong>di</strong> variazione plausibile per varlablHquantltative (ad esempio l'intervallo <strong>di</strong> accettabilità del prezzo<strong>di</strong> acqUisto <strong>di</strong> un determinato bene).Le relazioni formali tra più variabili derivano dalle norme <strong>di</strong>compilazione e dalla struttura del questionario; per la loro In<strong>di</strong>vlduazlone,possono essere utilizzati due meto<strong>di</strong>, la <strong>di</strong>agrammazlonedel questionario e gli schemi della Progettazione Concettuale.Nell' Appen<strong>di</strong>ce 1 del Capitolo 2 è stato riportato un esempio<strong>di</strong> <strong>di</strong>agrammazione, relativo al questionario In<strong>di</strong>viduale della rllevazioneforze <strong>di</strong> lavoro, me<strong>di</strong>ante Il quale possono essere stabilitele relazioni formali tra I quesiti del questionario.le ,... <strong>di</strong>compallblilti


168 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 5 - LA REVISIONE189Lo stesso <strong>di</strong>agramma può essere utilizzato per evidenziarela funzione <strong>di</strong> «no<strong>di</strong>- assunta da particolari quesiti (In questo casoIl q. 10.1 ed Il q. 14.1) e le Incongruenze riscontrate nella redazionedel questionario (cfr. Il Capitolo 2); tale analisi può guidarenella definizione delle regole <strong>di</strong> compatibilità e <strong>di</strong> correzione checoinvolgono le rispettive variabili.Il medesimo ruolo, ma In maniera più analitica ed esauriente,può essere svolto dagli elaborati del modello Entità-Relazioni;in questo caso, Il lavoro verrebbe facilitato derivando le regolegià al momento della predlsposizlone e dell'analisi del questionarionella fase <strong>di</strong> progettazione. Gli schemi ElR, Inoltre, possonoessere utilizzati come guida alla predlsposlzlone delle regolesostanziali, analizzando I percorsi che definiscono le relazionitra unità e variabili.Sintetizzando le considerazioni sopra riportate, si può affermareche le regole <strong>di</strong> compatibilità sono funzione della strutturae delle <strong>di</strong>sposiZioni formali per la compilazione del questionario,del piano <strong>di</strong> registrazione su supporto Informatico e dellerelazioni tra variabili esistenti nella realtà In stu<strong>di</strong>o.Per l'esplicitazione delle regole cl si potrà basare, per quantoriguarda I controlli del singoli campi del record, sul piano <strong>di</strong>registrazione e su Informazioni a priori sui limiti degli Intervalliammissibili per le variabili quantitative; sulla <strong>di</strong>agrammazlonedel questionario o sulla documentazione del modello Entità Relazioni,per quanto riguarda le incongruenze logiche tra variabili.Una volta derivate dalle fonti suddette, le regole devono esserecostituite In un insieme coerente, tale, cioè, da garantire:- la non ridondanza, owero <strong>di</strong> non ripetere regole già poste Inaltra forma o derivabili da altre;- la non contrad<strong>di</strong>ttorietà tra regole •. Le regole ridondanti e quello contrad<strong>di</strong>ttorie inflclano le procedurebasate sul principio del minimo cambiamento e l'Interaoperazione <strong>di</strong> correzione.Per evitare tali inconvenienti, i programmi generalizzati <strong>di</strong> tipostocastico fanno ricorso ad un algoritmo che garantisce entrocerti limiti, la costruzione <strong>di</strong> un Insieme minimo, non ridondantee non contraddltorio, a partire dalle regole espliCitate (Fellegl- Holt, 1976).. ,Nel caso <strong>di</strong> piani ad hoc, che non possiedono Il suddetto analizzatore<strong>di</strong> regole, è conveniente ricorrere alla dlagrammazlonedel sistema <strong>di</strong> relazioni tra variabili, definito dalle regole; nellastesura dello schema è Imme<strong>di</strong>ato determinare la ridondanza eiola contrad<strong>di</strong>ttorietà <strong>di</strong> alcune <strong>di</strong> esse.L'esplicitazione delle regole costituisce una parte rilevantedel metadatl dell'Indagine, In particolare per quanto riguarda la«trasparenza- del processo <strong>di</strong> formazione del dato statistico; <strong>di</strong>essa, quin<strong>di</strong>, deve essere mantenuta documentazione chiara edesauriente.I criteri <strong>di</strong> correzione sono vari e non è agevole darne una clas- I cri .... ti ____ .slficazlone esaustiva e precisa.I meto<strong>di</strong> correntemente utilizzati per Indagini <strong>di</strong> me<strong>di</strong>a grande<strong>di</strong>mensione possono comunque essere classificati In deterministici,da donatore e me<strong>di</strong>ante regresslone; e881 sono spessoutilizzati In combinazione tra loro (misture).Generalmente, I criteri deterministici sono applicati per la correzionesia <strong>di</strong> variabili quantltatlve che qualltatlve, quelli da donatoresolo per l'imputazione <strong>di</strong> quest'ultime, mentre I meto<strong>di</strong>da regresslone per correggere le caratteristiche quantltatlve; sottodeterminate con<strong>di</strong>zioni, alcuni <strong>di</strong> essi si equivalgono.Una quarta tecnica, la co"ez/one multipla, consiste, sostanzialmente,nel relterare sullo stesso file un proce<strong>di</strong>mento (o proce<strong>di</strong>menti<strong>di</strong>versi) <strong>di</strong> Imputazione. La procedura dà luogo a piùrepllcazlonl dello stesso Insieme <strong>di</strong> dati; la stima finale verà calcolatacome me<strong>di</strong>a delle stime risultanti dalle singole repllcazloh!.Il metodo è ancora sperimentale, data la sua dlspendlosltàin termlnilnformatlcl ed organlzzatlvl (si pensi ad esempio all'archiviazionedelle <strong>di</strong>verse repllcazloni per successive analisi).d. "ertft" n;'.","coFigura 5.3 • I <strong>di</strong>versi criteri <strong>di</strong> correzione e le loro relezlonl.. i.tunt 1-----'


.. v IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5· LA REVISIONE171I crll ... det_lnlaUcIGli algoritmi deterministici sono strettamente collegati alleregole <strong>di</strong> compatibilità e rispondono ad una logica -SE-ALLORA»:al verificarsi <strong>di</strong> una Incompatibilità, data da una regola che coinvolgek variabili, <strong>di</strong> cui k* già controllate ed eventualmente mo<strong>di</strong>ficateIn precedenza, si correggono le k-k* rimanenti, Imponendovalori predetermlnatl o scelti a caso da una <strong>di</strong>stribuzionedefinita a priorI.Le regole agiscono in maniera sequenzlale e, quin<strong>di</strong>, Il proce<strong>di</strong>mentoImplica un or<strong>di</strong>namento gerarchico tra esse.La scelta della gerarchia influenza I risultati dell'algoritmo;la compatibilità e la correzione della i-esima variabile sono infattifunzione del valori assunti o mo<strong>di</strong>ficati delle precedenti.Poiché, in questa logica, non è possibile applicare il principiodel minimo cambiamento e la sequenza gioca un ruolo determinantenella procedura <strong>di</strong> correzione, la scelta del concatenamentodelle regole, e quin<strong>di</strong> delle variabili, deve garantire dal­Ia possibilità <strong>di</strong> errori Indotti dalla procedura.Possiamo assumere, quale garanzia, la mlnimlzzazione dellaprobabilità <strong>di</strong> mo<strong>di</strong>ficare un valore vero; poiché essa è funzionedelle probabilità a priori <strong>di</strong> errore sulle singole variabili e dellaprobabilità con<strong>di</strong>zionata <strong>di</strong> ripristinare un valore vero sulla i­esima variabile, dato il valore assunto dalla j-esima, la sequenzadovrebbe essere or<strong>di</strong>nata In modo <strong>di</strong>scendente secondo taliprobabilità.Per fornire una base analitica a tali affermazioni, si può ricorreread un modello dell'operato della procedura che, pur sesemplificato, ne rappresenta la logica <strong>di</strong> fondo.Si abbia una procedura <strong>di</strong> compatibilità che coinvolge le kvariabili X,i in una logica deterministica si può assumere che levariabili vengono controllate e corrette In sequenza.Sia stata scelta ad esempio la gerarchia X" X:z ... ~; essa dàorigine alla sequenza <strong>di</strong> compatibilità e correzione:C. X RI X· R2 v R2 v· X. h·1 h •• I --> I --> "2 --> .~ ........ t.1 --> X k --> X tNella sequenza C sono stati tenuti <strong>di</strong>stinti i valori sporchi x,.e quelli puliti x,~provenientl dall'appllcazionie delle regole RI; siè assunto, per semplicità espositiva, che ciascuna regola portaad una mo<strong>di</strong>ficazione della variabile originaria, che sarà reale,se viene riscontrata una incongruenza logica, od altrimenti fittizia(ovvero il valore grezzo e quello pulito coincidono).Siano, inoltre, p,.le probabilità dell'errore, dovuto alle precedentioperazioni d'Indagine, per la i-esima variabile e p?le probabilità<strong>di</strong> errore della regola <strong>di</strong> correzione, ovvero la probabilitàdell'evento che il programma mo<strong>di</strong>fichi Il valore della singola variabilein modo da generare un errore nel controllo con la successivaregola. Per errore, In questo contesto, si intende la presenza<strong>di</strong> un valore <strong>di</strong>verso da quello vero.In<strong>di</strong>cando con E il verificarsi dell'errore, si ha per la genericaX·l'Prob 0\. = E) = p,. + (l -p,.) P,~1Prob (X,! = E) = p,! = p~. Prob 0\. = E)in particolare, per I = 1 si ha:Prob (XI = E) = P, e Prob (X~ = E) = P~ = P~ PI(5.4)(5.5)Come risultato della procedura si otterrà un record pulito incui saranno presenti I valori X,~; sotto l'Ipotesi <strong>di</strong> errori generatiin<strong>di</strong>pendentemente nelle variabili, possiamo, quin<strong>di</strong>, esprimerela probabilità che nel record si sia manifestato almeno un errore,come funzione delle probabilità P,~_tProb (E) = l - Prob (E) = l - il (1 - 1>.'k (=1'= 1 - "~I [1 - P~ (p.. + (l-p,) P,!..\)] (5.6)Tale probabilità <strong>di</strong>pende me<strong>di</strong>ante la (5.6) dalla sequenza Cutilizzata; al variare della sequenza, cambiano le P31e p,~e quin<strong>di</strong>anche la Prob (E).Le probabilità a priori, ovvero le probabilità dell'errore dovutoalle fasi precedenti, possono essere stimate sulla base dellemancate risposte parziali, degli errori <strong>di</strong> registrazione e del valorifuori campo, mentre le probabilità con<strong>di</strong>zionate medIante unin<strong>di</strong>ce <strong>di</strong> associazione asimmetrico ().AlB e TAlB <strong>di</strong> Goodman eKruskal, d <strong>di</strong> Somer), riscontrato In Indagini precedenti per le medesimevariabili.Il proce<strong>di</strong>mento <strong>di</strong> mlnlmizzazione può riguardare il complessodelle caratteristiche rilevate oppure può essere limitato alle variabilipII) rilevanti.In mancanza <strong>di</strong> tali Informazioni, è conveniente che la sequenzadelle regole <strong>di</strong> compatibilità e correzione preveda una gerarchiaor<strong>di</strong>nata secondo l'Importanza delle variabili, in modo da garantire,per le caratteristiche principali, il minimo <strong>di</strong> mo<strong>di</strong>ficazloni.Un caso particolare, ma che riveste notevole Importanza, èrappresentato dal trattamento del salti del questionario, ovverodal quesiti in <strong>di</strong>pendenza dei quali vengono selezionate <strong>di</strong>fferentil


172 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 - LA REVISIONE173sequenza <strong>di</strong> domande. Se si accettasse, nelle regole <strong>di</strong> compatabllltàe correzione, la gerarchia Indotta dall'or<strong>di</strong>namento delquesiti del questionario, la possibilità <strong>di</strong> una mo<strong>di</strong>ficazione <strong>di</strong>pII) variabili successive, verrebbe a <strong>di</strong>pendere dal valore assuntoda una solaD'altro canto, cambiare Il valore della domanda filtro può mutarera<strong>di</strong>calmente l'attribuzione <strong>di</strong> un particolare status al rispondente.Per decidere quale sequenza accettare, è allora necessarioconsiderare, contemporaneamente, tutti I quesiti coinvolti; è questoIl metodo che, spesso implicitamente, viene segUito nella pratica.è, tuttavia, opportuno formalizzare tale criterio allo scopo<strong>di</strong> chlarlme I presupposti e rendere trasparenti ed esplicite le scelteassunte.Sia X, la variabile corrispondente al quesi~o filtro che può assumerel valori 1, 2, ••• k; In corrispondenza <strong>di</strong> ciascun valore; leregole <strong>di</strong> compilazione del questionario impongono che sia presenteuna sola delle k sequenze ammesse:sequenze x,12K~.1Xz.1Xk,1variabili~,n1Xz.n2Se I dati rilevati fossero esenti da errori, in ogni questionariosarebbe compilata con co<strong>di</strong>ci significativi una sola delle &equen­. ze, mentre le rimanenti variabili, <strong>di</strong>pendenti dalla x,. conterebberoun co<strong>di</strong>ce <strong>di</strong> .rlsposta non dovuta ••A causa degli errori derivanti dalle <strong>di</strong>verse fasi, Invece, è possibileche nel singolo questionario siano presenti co<strong>di</strong>ci significativinelle variabili X, che definiscono <strong>di</strong>fferenti sequenze ~;Inoltre, la stessa X, po~rebbe assumere un valorE! non slgl\lflc.tlvo. .Il verificarsi <strong>di</strong> tali çon<strong>di</strong>zioni genera incertezza su quale dellek possibili risposte sia -vera..In ogni questionario possono, quin<strong>di</strong>, corrispondere a k* sequenzeS., con k* s k, altrettante sequenze osservate ~*, ciascunadelle quali ha la caratteristica che In almeno una delle variabilix,J è presente un co<strong>di</strong>ce significativo.Il problema consiste, allora, nello scegliere una sola S; e,con le opportune regole <strong>di</strong> correzione, eventualmente completarnele Informazioni mancanti.In ciascuna sequenza osservata, possiamo <strong>di</strong>scriminare tra levariabili che presentano un co<strong>di</strong>ce significativo e quelle chelnvecesono contrassegnate da blank (ovverso assenza <strong>di</strong> risposta oco<strong>di</strong>ce non ammissibile); se le X 1J sono contraddltorle tra loro, all'Internodella sequenza S.' verranno considerate come blank.Ad esempio, In corrispondenza <strong>di</strong> X, le sequenze ammessesiano:SI = (l; XI,I; XI.2; XI,l)~ = (2; ~I; YSul questionario invece sia presente la seguente configurazione:x,blank co<strong>di</strong>ce co<strong>di</strong>ce blankche genera le due sequenze:S: =


174 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE175Se la <strong>di</strong>mensione <strong>di</strong> tale Insieme è ragguardevole, l'operazionepuò risultare Impossibile. Una piO semplice alternativa consistenell'assegnare alle variabili >


176 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATI·CAP. 5 - LA REVISIONE177ta, desunta <strong>di</strong> dati puliti, oppure possono essere sostituiti conquelli presenti In una unità donatrice, in cui non è stato riscontratoalcun errore. In quest'ultimo caso, per le variabili qualitativesi Impone il medesimo valore, mentre per quelle quantltativeè preferlblle assegnare un valore perturbato (con un errore desuntodalla <strong>di</strong>stribuzione del valori puliti rispetto alla proprio me<strong>di</strong>a),per conservare la variabilità del fenomeno.L'unità donatrice può essere In<strong>di</strong>viduata con due procedure:l'hot-deck ed Il cold-deck.Il metodo cOld-deck, si <strong>di</strong>fferenzia da quello hot-deck In quantonel primo, le unità vengono preventlvamente sud<strong>di</strong>vise In due Insiemi(senza errori e con almeno un errore), mentre Il secondoaggiorna <strong>di</strong>namicamente un sottoinsieme <strong>di</strong> unità pulite da cuipreleva il donatore; in funzione dell'or<strong>di</strong>namento indotto nel file,vengono sfruttate, in questo modo, le eventuali COrrelazioniesistenti tra unità vicine.Per Inlzlallzzare /I sistema, owero nel caso che venga riscontratoun record errato prima del caricamento in memoria dell'Insiemedonatore, vengono previsti a priori alcuni record <strong>di</strong> default.Nel criterio hot-deck, la numerosltà dell'Insieme donatore èstabilita In relazione alle performance Informatiche dell'elaboratore.Tale Insieme può essere costituito da tutte le unità delfile pulito oppure, preferibilmente, da sottolnsiemi <strong>di</strong> unità stra·tificatl me<strong>di</strong>ante alcune caratteristiche (variabili <strong>di</strong> collegamen·to o matchlng) che non devono essere sottoposte a correzionee, possibilmente, devono risultare altamente correlate con le altrevariabili del questionario; In genere assolvono tale compito -i co<strong>di</strong>ci geografici e le variabili strutturali.La stratificazlone viene utilizzata non solo per sod<strong>di</strong>sfare ilprincipio <strong>di</strong> veroslmigllanza delle forzature, ma anche per ridurrela <strong>di</strong>storsione Imputabile all'eventuale non casualità delle mancaterisposte parziali, tentando <strong>di</strong> Identificare subpopolazioniomogenee per le quali sia ridotta la <strong>di</strong>fferenza tra le risposte fornitee quelle mancanti. Tale proce<strong>di</strong>mento equivale a quello uti·IIzzato per le mancate risposte totali e si basa sulle medesimeconsiderazioni (cfr. Capitolo 3).Una stratiflcazlone delle unità abbastanza fine, e quin<strong>di</strong> constrati <strong>di</strong> ridotta numerosltà, può comportare, però, un insiemedonatore vuoto o un uso frequente del medesimo record donatore;per rime<strong>di</strong>are a tale inconveniente, si prevede la ricerca Inaltro strato simile (collassamento degli strati me<strong>di</strong>ante la soppressione<strong>di</strong> una variabile <strong>di</strong> stratlflcazlone).. Lo stimatore ottenuto con il metodo hot-deck può essereespresso come funzione del valori degli m rispondenti; ad esempionel caso della me<strong>di</strong>aDa m DaYHD = (E Y,' + E t,~.) , n con E t .. = n-mDa m= (mEYR + Et,·Y.)'" (5.8)dove le \. rappresentano /I. numero <strong>di</strong> volte che 1/ valore y .. vieneutilizzato nella procedura <strong>di</strong> Imputazione. La me<strong>di</strong>a e la varlanzadello stlmatore YHo <strong>di</strong>pendono, me<strong>di</strong>ante la 5.8, dal rispettivi parametri<strong>di</strong> Y R e dallo schema campionario utilizzato per generareI \ .•Prospetto 5.2A) Criteri <strong>di</strong> selezione dell'unità donatriceI) me<strong>di</strong>ante selezione casuale senza relmmisslone perm> n/2 (criterio SA)Il) me<strong>di</strong>ante selezione casuale con relmmlsslone per m < n/2(criterio CA)III) me<strong>di</strong>ante selezione sequenzlale con or<strong>di</strong>namento casualedelle unità (criterio SEQ)IV) me<strong>di</strong>ante selezione da f/le or<strong>di</strong>nato (criterio OAD)B) me<strong>di</strong>a e varlanza dello stlmatore YHOstimatore E (YHol Var (YHol9R '9'R ~ [1+n~m]y.rHO '9'R ~ [1 +2(n;m)]9~b '9' R ~ [1+(n~m)(n+:-1)]yM1 '9' R ~ [1 + 2 (n.; m)]yordHO Y.R ::i. [1 + 2(n-m) + 2(-1/--~ . .!!..)]n n 1-1/ n 1 -1/ (b)dove: V = Var (y)1/ = corr (y" Y~ l, J = 1,2, ..... n(a) salezlone sequenzlale con Il file or<strong>di</strong>nato casualmente(b) varlanze approssimate per n • O(a)(b)


IlaIL SISTEMA 01 CONTROLLO DELLA QUALITÀ DEI DATIl'!CAP. 5 • LA REVISIONE179Nel caso In cui venga utilizzato un campione casuale semplice,selezionando l'unità donatrice con uno del criteri casuali (1)­(Iv) riportati nel Prospetto 5.2.A, lo stlmatore è centrato sulla me<strong>di</strong>adel rispondenti, ovvero E (YAl = Y R e le relative varlanze sonodate dal prospetto 5.2.8.Nel Prospetto 5.3 è riportato Il confronto tra le varianze deglistlmatori relativi ai criteri <strong>di</strong> selezione SR, CR, SEa e YR•Prospetto 5.3Var (VR) Var (Yffo) Var (Y~b>Var (YffO> >Var (Y~b> > >Var (Y~) > > >Il confronto con V (y~) non è invece univoco, poiché esso<strong>di</strong>pende dal valore <strong>di</strong> Cl e dalla relazione tra m ed n. Tale varlanzarisulta, In presenza <strong>di</strong> un Cl > O, sempre maggiore <strong>di</strong> V(yWO>, mentreè minore <strong>di</strong> V (Y:m') per m > n/2 e maggiore nel caso contrario;per un Cl elevato ed un valore <strong>di</strong> m minore ma vicino a n/2,V (yOS') è minore <strong>di</strong> V (Yffo)·~er quanto riguarda Il caso <strong>di</strong> una stratlflcazlone delle unitàdonatrici, con selezione operata me<strong>di</strong>ante uno del criteri (I) - (iv),non si <strong>di</strong>spone, attualmente, <strong>di</strong> una estensione delle suddetteformule, che rimangono tuttavia valide all'Interno <strong>di</strong> ogni strato.Nel caso vengano utilizzate, quali variabili <strong>di</strong>'collegamento,variabili quantltatlve è necessario definire, per identificare Il recorddonatore, una funzione <strong>di</strong> <strong>di</strong>stanza tra I record puliti Rkp,e quello sporco, Rk,,:K[D (Rk., Rk.,) = El I Y p _ Ypl Ir]l/r(5.9)dove le y sono le k variabili <strong>di</strong> collegamento ed r Il valore chedefinisce la metrica utilizzata (r = 1 Manhattan, r = 2 euclidea,r = 00 mlnlmax). La selezione del donatore avviene allora me<strong>di</strong>antela con<strong>di</strong>zione: D (Rkg, RkJ. = min.Per eliminare eventuali Influenze del valori <strong>di</strong> scala sulla (5.9),si trasformano le variabili Y,· nelle:Y1 = (Y,· -a) / b1j1in cui a può essere la me<strong>di</strong>a, Il minimo o la me<strong>di</strong>ana e b lo scartoquadratlco me<strong>di</strong>o od Il campo <strong>di</strong>: variazione.Per tener conto del problemi connessi ad un uso frequentedel medesimo record donatore, si mo<strong>di</strong>fica la funzione <strong>di</strong> <strong>di</strong>stanza(5.9) facendola <strong>di</strong>pendere dal numero <strong>di</strong> repllcazlonl del donatore,d, e da una penalità, u:D* (RIt" Rk.,> = D (RItI' Rk.,> (l + u d) (5.10)I criteri -da donatore- sono teoricamente applicabili sia a caratteristichequalltatlve che quantltative; In genere, però, per limitazioni<strong>di</strong> or<strong>di</strong>ne Informatico, si preferisce trattare queste ultimecon programmi ad hoc, <strong>di</strong> tipo deterministico.Il criterio <strong>di</strong> correzione me<strong>di</strong>ante regresslone è generalmenteapplicato solo alle caratteristiche quantitatlve e consiste nella stimadel valore correttivo me<strong>di</strong>ante Il modello <strong>di</strong> regresslone lineare:t~. = 6"0 + Ej 61tJ ~ + e .. (5.11)Nella (5.11), 9,· rappresenta Il valore correttivo per l'unità 1-esima, calcolato me<strong>di</strong>ante il modello <strong>di</strong> regresslone I cui coefficienti,bfl,at'R,J sono stati stimati sulla base delle Informazioni fornitedal rispondenti; le X In<strong>di</strong>cano le k variabili ausiliarie (che assumonoper l'i-esima unità non rispondente I valori x..J ed A.è un residuostocastlco, con E (A) = O, da aggiungere al vàfore s\lmato 9.Il modello <strong>di</strong> Imputazione da regresslone risulta determlni~tlcose A .. viene posto uguale a zero, ovvero non si aggiunge nessunresiduo generato da un modello casuale, mentre è stocastlco nelcaso contrarlo.Operando sulle ~ e sulle A" questo metodo equivale ad unacorrezione apportata me<strong>di</strong>ante altre <strong>tecniche</strong>.Ad esempio, ponendo le variabili ausiliarie ed Il residuo ugualia zero, esso coincide con l'Imputazione <strong>di</strong> un valore pari alla me<strong>di</strong>adel rispondenti; ponendo le, variabili ausiliarie uguali a zeroed Impu\ando un residuo desunto dalla <strong>di</strong>stribuzione delle <strong>di</strong>fferenzetra I valori del rispondenti e la loro me<strong>di</strong>a, Il mètodo equivalealla selezione casuale <strong>di</strong> un rispondente. La stratlflcazlonedelle unità eqUivale a considerare le Xl come variabili dummyovvero Indlcatrlcl <strong>di</strong> k strati; In questo caso si otterranno le ma:deslme equivalenze <strong>di</strong> cui sopra a livello <strong>di</strong> singola classe. Se,oltre a stratlflcare, si or<strong>di</strong>nano le unità, Il metodo <strong>di</strong> regresslonestocastlca è equivalente al criterio -hot-deck- sequenzlale.Nel prospetto 5.4 si riportano le principali caratteristiche <strong>di</strong> alcunipiani generalizzati <strong>di</strong> compatibilità e correzione, mentre Informazionipiù dettagliate su alcuni <strong>di</strong> essi, sono contenute In Appen<strong>di</strong>ce.


180 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE181Prospetto 5.4: Principali caratteristiche <strong>di</strong> alcuni programmi generalizzati<strong>di</strong> compatibilità e correzionenomeenteautoretipo <strong>di</strong>correzioneelaborazioneAERO CSO deterministiche batchUngheria stocastlcheAERO FSO deterministiche interattlvoInteractlve Yugoslavia stocastlcheSubsystemCANEDIT Statistics stocastiche batchCanadaCONCOR Bureau of deterministiche. batchthe census stocastlcheU.S.A.DIA INE deterministiche batchSpagna stocastlcheEDIT 78 NCBS deterministiche batchSveziaInterattlvaRESSAC INSEE deterministiche InterattlvaFranciaSERIES IV CSO deterministiche interattivaUngheria stocasticheTOSSVD CISIS deterministiche interattivaBulgariaUNEDIT Statlstlcs deterministiche batchBureauONULe procedure <strong>di</strong> compatibilità e correzione, dopo la loro pre·<strong>di</strong>sposizione e prima dell'applicazione al dati dell'<strong>indagine</strong>, devonosubire una validazione <strong>di</strong> tipo formale ed una <strong>di</strong> tipo sostanziale.L'obiettivo della prima consiste nella rispondenza del pro·gramma alle istruzioni Impartite, mentre scopo della seconda èIl controllo del funzionamento del plano In presenza delle duetlpologie <strong>di</strong> errore, casuale e sistematico. I risultati <strong>di</strong> tali controllicomportano nel primo caso l'eventuale revisione delle istru·zionl del programma, nel secondo la mo<strong>di</strong>fica delle regole <strong>di</strong> compatibilitàe correzione.I programmi generalizzati, al contrarlo <strong>di</strong> quelli prodotti adhoc, non necessitano <strong>di</strong> verifiche formali, perché gar~ntltl dal pro-duttore, ma è opportuno approfon<strong>di</strong>re le loro prestazioni statistiche,che <strong>di</strong>pendono, In ultima analisi, dalle regole <strong>di</strong> compatibilitàesplicitate.Per rendere possibile ed agevole Il controllo e, successivamente,anche l'analisi del risultati delle elaborazioni sul dati creali.della rllevazlone, è opportuno prevedere I seguenti accorgimenti:- assegnare ad ogni regola <strong>di</strong> compatibilità un co<strong>di</strong>ce alfanu·merlco che dovrà essere riportato per ciascun record erratosu uno degli output del programma;- In mancanza <strong>di</strong> un co<strong>di</strong>ce esatto dllndlviduazione del record(ad esempio, Il caso In cui il co<strong>di</strong>ce che Identifica l'In<strong>di</strong>viduoviene sottoposto a modlflcazlonl da una regola <strong>di</strong> correzione),prevedere una rlnumerazlone sequenzlale, dopo la fase<strong>di</strong> controllo quantltatlvo, <strong>di</strong> tutti I record; eventuallinserimentinella successiva fase <strong>di</strong> controllo del legami tra unità saran·no caratterizzati da un valore blank, nell'apposito campo delrecord. .Per la verifica formale si compilerà, per ogni regOla <strong>di</strong> compatibilitàesplicitata, uno o più questionari errati, In <strong>di</strong>pendenzadelle possibili correzioni previste; ad esempio, se una regola <strong>di</strong>correzione Impone un valore da una <strong>di</strong>stribuzione <strong>di</strong> frequenza,dovrà essere compilato un numero <strong>di</strong> questionari sufficiente averificare la casualità della correzione. Realizzato l'accoppiamentotra file pulito e sporco, me<strong>di</strong>ante il co<strong>di</strong>ce esatto, si verificheràl'esistenza dell'Incompatibilità, Il risultato della correzione ela rispondenza tra la regOla ed il relativo co<strong>di</strong>ce <strong>di</strong> errore appostodal programma.La verifica sostanziale del piano <strong>di</strong> compatibilità si effettuasostituendo valori e"ati In un Insieme pulito <strong>di</strong> dati ed elaborandoquesti ultimi me<strong>di</strong>ante I programmi <strong>di</strong> compatibilità e correzione.I valori da Imputare, ammissibili e non ammissibili, sarannogenerati da un modello casuale o da uno sistematico (adottando,In questo caso, una delle definizioni riportate nel sottoparagrafocl'errore sistematico.) o da misture, a seconda dell'a·spetto che si vuole sottoporre a controllo.Da tale procedura sono <strong>di</strong>sponibili tre file (origine, sporco,pulito), sul cui è possibile operare tre confronti:i) tra il file origine e quello sporco;il) . tra Il file sporco e quello pulito;iii) tra Il file origine e quello pulito.Ciascuna comparazione presenta una <strong>di</strong>fferente valenza Informativa:me<strong>di</strong>ante la prima si conoscono analiticamente i rl-


IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 5 • LA REVISIONE183sultatl del processo <strong>di</strong> generazione degli errori, che, essendo <strong>di</strong>natura stocastlca, sono ex ante fuori controllo; Il secondo confrontosimula la situazione reale dell'Indagine ma, rispetto a questa,presenta Il vantaggio <strong>di</strong> conservare la storfa del singolo recorde quin<strong>di</strong> permette <strong>di</strong> verificare Il funzionamento delle regole<strong>di</strong> compatibilità e <strong>di</strong> correzione; me<strong>di</strong>ante /I terzo confronto,Istituito tra I valori puliti e quelli veri, si può, Infine, valutare <strong>di</strong>stintamentel'effetto, dovuto al tipo <strong>di</strong> errore Indotto nel dati eal proce<strong>di</strong>mento <strong>di</strong> correzione, sulle stime finali.Nel caso delle variabili <strong>di</strong>cotomiche, la (5.12) assume /I significato<strong>di</strong> un tasso atteso <strong>di</strong> modlflcazlonl.Un secondo aspetto da valutare è il comportamento della procedurarispetto agII stlmatorl che verranno utilizzati nell'analisidel dati finali; a titolo <strong>di</strong> esempio, cl si riferirà alla funzione me<strong>di</strong>a(che coincide con la frequenza relativa nel caso delle variabili<strong>di</strong>cotomiche).Siano, quin<strong>di</strong>, per la generica variabile y,IHl.cana.l La i. deSL i..,r.t.t." d_Lmode L Lo <strong>di</strong>"errore • delprogramMa.GnoL~.\ de\ proc ... o<strong>di</strong>. "...... t.aci.on. d .. L.ierro,., r lI tU.01'''9''''''. ,1---------1 .porcoI m. I'-----I ..... Hlo I---...Ja.naL ... i. cI.Lfuna;,oncunenlocl. L le r.gol. <strong>di</strong>.compa.t.i.bi.l\.t.Q.~• "<strong>di</strong>. eorr .. i.onerispettivamente, la me<strong>di</strong>a nell'r-eslma repllcazlone, la me<strong>di</strong>a veranel file origine e la me<strong>di</strong>a nelle R repllcazlonl.Un primo In<strong>di</strong>catore è rappresentato dalla stima della <strong>di</strong>storsionedella me<strong>di</strong>a, calcolata dopo la procedura <strong>di</strong> correzione, rispettoal medesimo parametro nel dati originarI. La <strong>di</strong>storsionepuò essere misurata nel duplice aspetto <strong>di</strong> <strong>di</strong>storsione attesa (Inintensità e <strong>di</strong>rezione)(5.13)Figura 5.4· Il processo <strong>di</strong> simuluione per il controllo dei programmi <strong>di</strong> compatibili·tà e corrszionePoiché I risultati del proce<strong>di</strong>mento <strong>di</strong>pendono dal campione<strong>di</strong> errori generato, è necessario simulare plil repllcazlonllndlpendentidel file sporco e riferire l'analisi alla me<strong>di</strong>a delle prestazioni.Sia yP Il valore della generica variabile y, dopo l'elaborazionedella ~rocedura <strong>di</strong> correzione nell'r-eslma repllcazlone, dellaj-eslma unità ed YJ Il relativo valore vero del file originario (cherimane costante al variare delle repllcazioni); sia Inoltre R ~ 2il numero delle repllcazlonl ed n /I numero delle unità.Nel caso delle caratteristiche qualltatlve, la y rappresenta lavariabile <strong>di</strong>cotomica (presenza I assenza) relativa alla modalitàesaminata; si assume, quin<strong>di</strong>, che le matrici del dati originarievengano trasformate nelle rispettive matrici <strong>di</strong>sgiuntive complete.Un primo aspetto delle prestazioni della procedura è rappresentatodalla «<strong>di</strong>stanza» tra il file pulito e quello originario, chepossiamo misurare come me<strong>di</strong>a delle <strong>di</strong>fferenze assolute tra Irispettivi valori:(5.12)e <strong>di</strong> <strong>di</strong>stanza dal valore veroIAI = E Iyt-yl /Rr(5.14)Poiché possiamo considerare le stime Y.p come provenientida campioni <strong>di</strong> errori, la variabilità campionaria del risultati ottenlbllldalla procedura, stimata In termini assoluti o relativi (rispettoalla me<strong>di</strong>a vera), costituisce un secondo in<strong>di</strong>catore dellabontà del metodo <strong>di</strong> correzione:1/1Sa(y) = [~(yt - y'')Z / R(R - l) ] (5.15)ct(Y) = Sa (Y)/y (5.16)Infine, me<strong>di</strong>ante la (5.17) possiamo unificare l'errore variabilee la <strong>di</strong>storsione in un solo in<strong>di</strong>catore <strong>di</strong> errore totale:M9E (1) = Er (Yr P - y p + y p - yt= (Sa (Ytt + 8 2 (5.17)


184 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 • LA RJ:VISIONE 185Per confrontare gli In<strong>di</strong>catori relativi a <strong>di</strong>fferenti variabili, ènecessario svincolare le (5.13), (5.14) e (5.17) dall'unità <strong>di</strong> misura,rapportandole alla me<strong>di</strong>a y:B' = B / tIBI' = IBI / tMSE' = MSE / t(5.18)Infine, dalle R repllcazlonl, se In numero sufficientemente elevato,possono essere calcolate le <strong>di</strong>stribuzioni <strong>di</strong> due In<strong>di</strong>catori,relativi alla <strong>di</strong>storsione della stima dell'errore campionario e all'Influenzadella procedura sulle correlazioni:I~ = con, (yP,x) / con (y,x)dove:"9, (Y) = Ej ~ - t/') 2 / n(n-l)"9 (Y) = Ej (Yj - tt / n(n-l)(5.19)Data la gran mole <strong>di</strong> calcoli e <strong>di</strong> risultati derivanti dalle (5.12)- (5.19), è opportuno limitare la simulazione e l'analisi alle più rilevanticaratteristiche oggetto d'Indagine.Le Informazioni che è possibile ottenere dai programmi <strong>di</strong>compatibilità e correzione, riguardano da un lato l'esame ex postdella stessa procedura, owero delle regole utilizzate e delle correzionieffettuate, e dall'altro la valutazione <strong>di</strong> alcuni aspetti dellaqualità del dati e delle prestazioni della rete <strong>di</strong> rilevazlone, utilizzandogli In<strong>di</strong>catori riportati nel Prospetto 3.5 e nel Prospetto 5.5.Gli In<strong>di</strong>catori desumibili dalla procedura <strong>di</strong> compatibilità e correzione,anche se In<strong>di</strong>retti e grezzi, hanno Il pregio perO <strong>di</strong> essereeconomici, poiché facilmente ottenlblll dalle procedure esistenti,ed analitici, In quanto possono essere calcolate per qualsiasilivello <strong>di</strong> controllo.INDICATORIProspetto 5.5SIGNIFICATOA) REGOLEFONTE DI ERfIOREcomuni rllnalort ISTAT1:, T,I NR regole - - alutilizzate1: 1 Tq I NRK utilizzazioni - - aldella regolaf, 1: 1 M4 NRK variabili 'corrette- - alper 'egolaf, 1: 1 M4 V, • NRK vlU1ablll ' correlle- - alper regolaB) CORREZIONI1: 1 Mql NRK correzioni - al alper variabile1: .. 1: 1 M~ I NRK correzioni - al alper racord1: 1 R~I NRK record - al alcorrettif.1:, M4' v •• NRK correzioniper gruppo <strong>di</strong>- al alvariabiliNRK numero <strong>di</strong> recordNRnumero <strong>di</strong> regolaV, numero <strong>di</strong> variabili coinvolta nalla regola rV. numero <strong>di</strong> variabili nell'lnslarne STqIn<strong>di</strong>catore <strong>di</strong> utilizzazione della regola r per Il record j; si = 1 no = OT, In<strong>di</strong>catore <strong>di</strong> utilizzazione della regola r; T. = 1 per t, T rj > O; T, = O per t, T" = O~I In<strong>di</strong>catore <strong>di</strong> correzlona per la variabile I nal Il record I; si = 1; no = ORKIìndlcatore <strong>di</strong> correzlona del record I; ~ = 1 per 1: 1 M q > O; ~ = O per 1: 1 Mq = O


lHtiIL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE187La valutazione delle regole potrà basarsi sull'esame degli In<strong>di</strong>catoririportati nel Prospetto 5.5.A. La percentuale <strong>di</strong> regole utilizzateed Il numero me<strong>di</strong>o <strong>di</strong> utilizzazioni, misurano l'estensionee l'Intensità dell'operato del sistema <strong>di</strong> regole; me<strong>di</strong>ante I duerimanenti In<strong>di</strong>catori è possibile analizzare e confrontare le prestazioniper la singola regola.L'analisi delle correzioni apportate può essere effettuata a<strong>di</strong>versi gra<strong>di</strong> <strong>di</strong> approfon<strong>di</strong>mento: rispetto alle modalità della singolavariabile, a ciascuna od a gruppi rilevanti <strong>di</strong> variabili, a livellorecord.~ conveniente, per evitare la ridondanza <strong>di</strong> Informazioni, limitarea livello totale o <strong>di</strong> domini <strong>di</strong> stu<strong>di</strong>o, le analisi relative allemodalità (per ciascuna caratteristica la <strong>di</strong>stribuzione Incrociatatra I valori assunti prima e dopo del plano <strong>di</strong> compatibilità), airecord (la <strong>di</strong>stribuzione per numero <strong>di</strong> correzionI) e al tasso <strong>di</strong> modlflcazlonlper le singole variabili.Gli In<strong>di</strong>catori, riportati nel prospetto 5.5.B, assumono un <strong>di</strong>versosignificato a seconda del livello cui sono riferiti: a livelloaggregato, misurano l'effetto del plano <strong>di</strong> compatibilità e confluiscono,quin<strong>di</strong>, nell'Insieme degli In<strong>di</strong>catori della qualità deidati; se calcolati per comune e per tllevatore costituiscono degliIn<strong>di</strong>catori delle prestazioni della rete periferica.L'esame delle regole e delle correzioni può essere utilizzato qualeulteriore controllo dell'esistenza <strong>di</strong> errori sistematici, prima dell'elaborazionedefinitiva del dati. L'analisi condotta a livello delcomplesso del dati può In<strong>di</strong>viduare l'errore derivante dal questionario,dalla registrazione e dalle regole <strong>di</strong> correzione; ad esempio,una eccessiva frequenza nell'uso <strong>di</strong> determinate regole <strong>di</strong> compatibilità,od un numero anomalo <strong>di</strong> correzioni per una data modalità,possono evidenziare un quesito od una sequenza <strong>di</strong> quesiti malformulati o concatenati.Un modello per l'Identificazione dell'errore sistematico sullabase del risultati del piano <strong>di</strong> compatibilità è riportato In Marchettl& Masselll, 1984 ed In Marchettl 1986.L'analisi degli In<strong>di</strong>catori a livelli pII) <strong>di</strong>saggregati può Inveceevidenziare errori sistematici commessi dal singoli organi perlficl.Stu<strong>di</strong> pii! analitici, infine, possono essere condotti, mettendoin relazione i suddetti In<strong>di</strong>catori con le caratteristiche sociodemografiche del rispondenti e del rllevatorl.caratteristiche In<strong>di</strong>viduali. La scelta dell'una o dell'altra sequenzadeve essere effettuata in funzione dell'Importanza attribuita alleInformazioni attinenti alle singole unità oppure al contenutoInformativo del loro legami; essa determina tlpologle <strong>di</strong>verse <strong>di</strong>controllo e correzione del legami.Ad esempio, In una generica Indagine sulla Popolazione, Incui sono presenti le unità .famlglla_ ed .Indlvlduo_, la variabile-relazione <strong>di</strong> parentel .. può essere considerata sia come lega~me tra unità sia come caratteristica degli IndIvidui. In questo casola variabile sarà In relazione con altre, ad esempio l'età e me<strong>di</strong>antequesta con la con<strong>di</strong>zione professionale.Possiamo allora scegliere due <strong>di</strong>verse -strategie <strong>di</strong> Imputazlone-:I) come primo passo, considerare la -relazione <strong>di</strong> parentel .. comeuna caratteristica dell'In<strong>di</strong>viduo e quin<strong>di</strong> controllarla edeventualmente correggerla sulla base delle relazlonllntercorrentltra le variabili In<strong>di</strong>viduali; come secondo passo controllaree correggere la stessa variabile, quale legame tra gli In<strong>di</strong>viduiappartenenti alla stessa famigliLIl) ribaltare la sequenza <strong>di</strong> cui sopra, controllando e corregendodapprima la relazione <strong>di</strong> parentela come legame tra in<strong>di</strong>vidui,e quin<strong>di</strong> operando sulle relazioni tra le caratteristiche In<strong>di</strong>viduali,considerando immo<strong>di</strong>ficabile la relazione <strong>di</strong> parentela.Nella prima strategia, la correzione dellegamllnteml ali'unltàfamiglia assume un ruolo reslduale rispetto a quella apportataalle relazioni tra le Informazioni In<strong>di</strong>viduali; cosicché essa verràpreseelta se si vogliono salvaguardare I contenuti Informativi delsingolo in<strong>di</strong>viduo rispetto alla struttura della famlgllLLe due strategie implicano meto<strong>di</strong> <strong>di</strong> Imputazione <strong>di</strong>versI: nellaprima è opportuno che le correzioni della -relazione <strong>di</strong> parentela-vengano apportate In maniera Interattlva da esperti <strong>di</strong> settoreper evitare cicli successivi <strong>di</strong> modlflcàzloni Indlvlduoffamiglla,mentre nella seconda, possono essere effettuate me<strong>di</strong>ante pianiautomatici.8. Il controllo del legami tl1l uniticome antIcipato nel paragrafo 2, la fase <strong>di</strong> controllo e correzionedelle variabili che rappresentano legami tra unità può es~sere effettuata sia prima che dopo quella <strong>di</strong> imputazione delle,iI~


188 'IL SISTEMA DI CONTROLLO DEUA QUALITÀ DEI DATICAP. 5 • LA REVISIONE189APPENDICE1. Programmi genendlzzaU <strong>di</strong> compdbIUtà. correzione autom&­tlcaPressO l'Istituto sono stati sperimentati due programmi generaUzzatlper la compatibilità e correzione automatica: l'AEROed Il CONCOR mentre <strong>di</strong> un terzo programma, Il DIA, si stannoattualmente verificando le performance; del CANEDIT si è In p0ssesso<strong>di</strong> numerosi elementi <strong>di</strong> valutazione.Quella che segue è una sintetica panoramica su questi quat·tro prodotti.• ILCONCORIl CONCOR (CONslstency and CORrectlon) è un programmaprodotto dall'lnternatlonal Statlstlcal Program Center del Bureauof Census U.S.A. In collaborazione con l'Unlted Natlons DemographfcCenter for Latln America, cui si deve la prima versione;è datato 1979 ed è scritto In COBOL con parti In Assembler.È applicabile solo a variabili qualltatlve e può Identificare erororl nella struttura delle risposte <strong>di</strong> un questionario (structuralCheck), nel range del valori delle risposte (range check) e la congrultàtra risposte a <strong>di</strong>fferenti quesiti correlati tra loro, sia chesiano fisicamente sullo stesso records, sia In record <strong>di</strong>versi (conslstencycheck); genera automaticamente un programma COBOLe del flles per analisi e tabulazlone.L'ultima versione del CONCOR, contrariamente alle prime, perle quali veniva utilizzato un criterio deterministico provvede allecorrezioni automatiche con la tecnica dell'hot-declc; a mano amano che I record vengono sottoposti al controllo, quelli giu<strong>di</strong>catipuliti aggiornano de"e tabelle In memoria (che rappresentanoIn pratica del record me<strong>di</strong> donatori) le quali, In caso <strong>di</strong> erroneitàdel dati, forniranno I valori da sostituire.Il sistema CONCOR è composto da 4 sottoslsteml:• l'analizzatore del linguaggio <strong>di</strong> comando (tra cui le regole);• Il generatore del programma COBOL;• l'e<strong>di</strong>tor, per la corretta Imputazione;• Il generatore del report.Il linguaggio <strong>di</strong> comando consiste <strong>di</strong> Istruzioni <strong>di</strong> definizione,<strong>di</strong> Istruzioni eseguibili (per l'organizzazione ed Il controllo delprogramma, per assegnazioni o trasformazioni <strong>di</strong> valori, per Il testiI~<strong>di</strong> con<strong>di</strong>zioni, per l'Imputazione e la creazione <strong>di</strong> output), dllstruzlonl<strong>di</strong> controllo (stabiliscono Il Ijvello ed Il tipo delle statistiche)e <strong>di</strong> Istruzioni <strong>di</strong> commento.La sintassi è tlpo-COBOL (tipica la struttura del programmaIn Divisioni, SezIoni e Paragrafi) e presuppone l'Intervento <strong>di</strong> unInformatico.Il CONCOR può accettare fino a 50 tipi record <strong>di</strong>versi, dllunghezzafissa, con Il tipo record sempre alle stesse posizioni.Come output sono previsti: Il file esetto, report statistici connotizie sul test effettuati e sugli errori riscontrati, nonché file opzlonallderivanti dal <strong>di</strong>versi passi della procedura, Il cui formatoè stabilito dall'utente; è prevista Inoltre la possibilità <strong>di</strong> effettuareconfronti tra I dati originali e quelli pulitiNelle sperlmentazionllstat è stato evidenziato un limite nelleperformance Informatiche; a tutt'oggi è Impiegato nella versionedeterministica nel controllo del dati dell'Indagine sulle Forze<strong>di</strong> lavoro. ''• L'AEROL'AERO è un sistema <strong>di</strong> controllo e correzione prodotto dall'Ufficio<strong>di</strong> statistica ungherese e utilizzato, non solo In Ungheria,per Il Censimento della PopOlazione 1981.E composto da due sottolnsleml. Il prlrno"sottoslstema dlspeclflcazione,crea Il <strong>di</strong>zionario, e definisce le regole per la correzionementre Il secondo, sottoslstema <strong>di</strong> generazione, provvede,In base al parametri fomiti dall'utente, a controlli <strong>di</strong> range, <strong>di</strong> relazionee consistenza, a correzioni automatiche, a report statisticie a liste <strong>di</strong>agnostiche <strong>di</strong> vario tipo.È possibile specificare tre tipi <strong>di</strong> regole:- regole Y, ovvero con<strong>di</strong>zioni <strong>di</strong> errore o <strong>di</strong> rigetto che provoca·no la bipartizione del file originario In errati ed esatti e J'utl­IIzzo <strong>di</strong> questi ultimi per le correzioni automatiche;- regole X le quali, In una-fase successiva, assicurano che particolaricon<strong>di</strong>zioni sul campi del record siano sod<strong>di</strong>sfatte (sitratta In pratica <strong>di</strong> Imputazioni deterministiche);- regole Z che permettono <strong>di</strong> scrivere pii.! sinteticamente le regoleYe X.Anche l'AERO effettua le correzioni secondo Il metodo hotdeck,Identificando Il record donatore nel file pulito che vienecreata a mano a mano che si procede nella lettura e nel controllo.La correzione del campi errati non viene effettuata simultaneamente,ma avviene per sottalnsleml <strong>di</strong> campi: è l'utente che


Il SISTEMA\OI CONTROllO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE191decide le variabili per ogni gruppo e stabilisce l'or<strong>di</strong>ne con Il qualeI campi debbono essere corretti.L'AERO può gestire solo variabili qualltatlve con un ridottonumero <strong>di</strong> modalità. è programmato In PU1 con parti In Assemblere, a <strong>di</strong>fferenza del CONCOR che origina dapprima un sorgenteCOBOL e pollo compila automaticamente, l'AERO producedel moduli già eseguibilI.La sperlmentazlone condotta ha evidenziato che è possibileutilizzare AERO solo con Insiemi <strong>di</strong> dati <strong>di</strong> ridotte <strong>di</strong>mensioni provenientida questionari non troppo compiessI.• IL CANEDIT/SPIDERIl CANEDIT è un sistema <strong>di</strong> controllo e correzione prodottoda Statlstlcs Canada (dove è pII) noto con Il nome orlglnariò <strong>di</strong>GEISHA: Generallzed Edlt and Imputatlon System uslng the Hotdeck Approach).è stato utilizzato nel Censimento della Popolazione 1981 Insiemeal prodotto SPIDER, capace <strong>di</strong> gestire variabili continueo <strong>di</strong>screte con un gran numero <strong>di</strong> valori che Il CANEDIT non ècapace <strong>di</strong> supportare.Esso utilizza una tecnica hot deck ed è composto da un analizzatorelogico e da un sottoslstema <strong>di</strong> controllo ed imputazione.Il primo Identifica le regole ridondanti e contraddltorie mentreIl secondo ricerca I valori corretti da sostituire copiandoli darecord donatori che sod<strong>di</strong>sfano le con<strong>di</strong>zioni volute. Nel caso Inculi donatori sono più <strong>di</strong> uno, viene effettuata una scelta casuale;se non vengono Identificati donatori allora ogni campo correttoviene copiato da un donatore <strong>di</strong>verso.SPIDER è un sistema collaterale (System for Processlng Instructlonsfrom Dlrectly Entered Requlrements) che recepisce leregole dell'utente sotto forma <strong>di</strong> tavole <strong>di</strong> decisione e le organizzaIn un programma PU1.Il sistema è capace <strong>di</strong> riconoscere 4 <strong>di</strong>versi tipi <strong>di</strong> unità: persona,abitazione, famiglia censuaria e famiglia economica.Anche SPIDER è basato sulla tecnica hot-deck e <strong>di</strong> un sistema<strong>di</strong> pesi e <strong>di</strong> una stratlflcazlone del record possibili donatori;nel caso In cui, però, non riesca a rintracciare Il donatore, utilizzauna Imputazione deterministica (In pratica applicando del valori<strong>di</strong> default).La lunghezza della ricerca può essere controllata sia In<strong>di</strong>candoIl numero massimo <strong>di</strong> record da esaminare sia restringendolaa determinati livelli geografici; se la ricerca nel -serbatoio» nell'ambito<strong>di</strong> uno strato non ha avuto esito positivo, Il donatore vieneselezionato a caso tra quelli più vicino allo strato.Il binomio CANEDIT/SPIDER si muove in ambiente DB (RA­PIO) con programmi PU1.• IL NEISIl NEIS è un sistema generalizzato per Il controllo e l'Imputazione<strong>di</strong> variabili quantitatlve prodotto recentemente da StatlstlcsCanada.Esso trae origine da un prototipo del 1976 scritto In Fortran'la versione attuale, che incorpora Il prototipo, è prOgrammata I~C ed utilizza l'SOLPiù che un sistema Integrato, Il prodotto è un Insieme <strong>di</strong> programmiognuno del quali esegue funzioni <strong>di</strong> controllo e dllmputazlonl<strong>di</strong>verse, sulla base del principio del minimo cambiamentoe del metodo hot-deck.Può essere considerato un prodotto sperimentale per la necessità<strong>di</strong> ricorrere a programmi ad hoc e ad Interventi manualI.• IL DIAIl DIA (sistema de Detecclon y Imputaclon Automatica) è unsistema per il controllo e l'Imputazione per variabili qualltatlvesviluppato dal 1981 al 1984 dall'Istituto de Estadlstlca de Espana.E stato utilizzato In varie Indagini: l'Inchiesta sulla fecon<strong>di</strong>tà1985, il Censimento della popolazione mussulmana <strong>di</strong> Ceuta eMelilla 1986, Il Censimento della Popolazione 1986 (questionarioridotto) e l'Inchiesta sulla popolazione attiva 1987; verrà applicatoall'elaborazione del Censimento della Popolazione 1991.Scritto in PU1 j per elaboratorllBM o IBM-compatlblll, la primaversione completa è del lugllQ 1987.Pur essendo conosciuto come il CANEDIT spagnolo, è In realtàun prodotto completamente <strong>di</strong>verso, che ha in comune conil programma canadese la generazione dell'Insieme minimo, completoe non contrad<strong>di</strong>ttorio <strong>di</strong> regole secondo la metodologla <strong>di</strong>Fellegl e Holt.L'Imputazione non avviene me<strong>di</strong>ante record donatori, ma generandoI valori da Imputare, con un algoritmo stocastlco, dalle<strong>di</strong>stribuzioni ottenute dai record puliti.L'Integrazione tra criteri stocastlcl e deterministici, del restogià presente in CANEDIT/SPIDER, viene raggiunta risolvendo leinconsistenze ed I conflitti tra regole <strong>di</strong> Incompatibilità e regole<strong>di</strong> imputazione.l


192 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DAnCAP. 5 • LA REVISIONE193La scrittura delle .regole» per il DIA è estremamente semplicee concisa, tale da consentire, ad esempio, <strong>di</strong> scrivere le regoleper I controlli <strong>di</strong> range delle variabili <strong>di</strong> un'Indagine In pochiminuti.Il DIA necessità <strong>di</strong> 4 Input:- l'elenco delle variabili del record con I co<strong>di</strong>ci assumlblll;- l'elenco delle variabili del record con le specifiche <strong>di</strong> posizionee lunghezza;- le regole <strong>di</strong> compatibilità; ,- le regole <strong>di</strong> Imputazione deterministicaIl limite del DIA è che esso non tratta le variabili quantltatlveo qualltatlve con un gran numero <strong>di</strong> modalità dovendo ricorrereper Il trattamento <strong>di</strong> tali caratteristiche a programmi <strong>di</strong> controlloed Imputazione ad hoc.Tavola 5.A.1 - Correzioni apportate dalla procedura secondo lacausaCAUSANUMERO CORREZIONICORREZIONI valass. val. %- mancata risposta 291 11.47- risposta non dovuta 231 9.10- registrazione susupporto Informatico 27 1.06- relazioni quantltatlvenon verificate 317 12.50- altre 1.670 65.85Totale 2.536 100.002.. Anelisi delle prestazioni <strong>di</strong> un programma <strong>di</strong> competlbliltiNell'esempio che segue, si riporta l'analisi delle prestazioni<strong>di</strong> un programma <strong>di</strong> compatibilità <strong>di</strong> tipo deterministico, trattoda M. Masselllin La qualltj del dati nell'<strong>indagine</strong> <strong>Istat</strong> sulla salute1983, In Attldel Convegno Salute e ricorso al servizi nel Veneto,Regione Veneto, novembre 1987.La procedura <strong>di</strong> compatibilità e correzione dell'Indagine <strong>Istat</strong>sulla salute degli Italiani 1983 è basata su 174 regole la cui funzioneè <strong>di</strong>versa: controllare che Il valore della singola variabilesia all'Interno del campo <strong>di</strong> variazione ammesso o porre In relazionevariabili <strong>di</strong>verse. Se la regola viene contraddetta, Il programmamo<strong>di</strong>fica Il contenuto <strong>di</strong> una 'caratteristica secondo una determinatagerarchia; tale plano è quin<strong>di</strong> <strong>di</strong> tipo deterministico.Sul dati relativi alla reglona Veneto, la procedura ha utilizzato98 delle 174 regola, (parI al 56.3%), previste dal plano <strong>di</strong>compatibilità; tali regole, che denomineremo fallite; hanno datoluogo, quin<strong>di</strong>, ad almeno una mo<strong>di</strong>ficazione del valori originari.Analizzando tale Insieme <strong>di</strong> regole è stato possibile risalIread alcune delle cause delle correzioni (Tavola 5.A.1). In essa,particolarmente Interessanti sono I dati relativi alla .rlspostanon dovuta» e alle -relazioni quantltatlve non verlflcam., chepOSSiamo ritenere Imputabili al mancato rispetto delle normeformali per la compilazione del modello <strong>di</strong> rllevazlone da partedel rllevatore; la loro somma è superiore al 20% del totale dellecorrezioni.Nella Tavola 5.A.2, sono stati costruiti alcuni In<strong>di</strong>catori rlguar-I!danti l'operato della procedura, In relazione alle <strong>di</strong>verse sezioniin cui si articola Il modello <strong>di</strong> rllevazlone. C'è da notare, Innanzltutto,l'assenza <strong>di</strong> correzioni nella sezione -malattie presenti»,probabilmente dovuta alla semplicità delle risposte previste (<strong>di</strong>tipo <strong>di</strong>cotomico) e, soprattutto, all'Impossibilità <strong>di</strong> Istituire controlliIncrociati con altre variabili del questionario: le relative regole,quin<strong>di</strong>, sono solo <strong>di</strong> controllo <strong>di</strong> campo.Il totale delle modlflcazlonl subite dal dati grezzi è stato <strong>di</strong>2536 a fronte del 4470 questionari, con un numero me<strong>di</strong>o <strong>di</strong> correzioniper modello pari a 0.57.La terza colonna scompone Il totale delle correzioni per sezionidel modello, ed In<strong>di</strong>ca che la maggior parte delle modlflcazlonlsi sono concentrate nella sezione dei-dati generali» ed .accertamenti<strong>di</strong>agnostici». Tale parametro, però, non tiene contodella struttura del questionario ed è Inadeguato a rappresentareuna gerarchia <strong>di</strong> qualità tra I <strong>di</strong>versi tipi <strong>di</strong> Informazioni; a talfine, nella quinta colonna, è riportato un In<strong>di</strong>catore calcolato comerapportQ percentuale tra correzioni e variabili soggette a correzioneIn ciascuna sezione. Le conclusioni che è possibile trarre,cambiano <strong>di</strong> segno: sono le risposte fomite alle sezioni -rispondente»ed -attlvltè fisica» quelle piO soggette ad Incongruenze,seguite da -vIsite me<strong>di</strong>che» e -dati generali». Nell'ultima colonna,infine, è riportato un In<strong>di</strong>catore che potremmo definire <strong>di</strong>efficienza delle regole: esso misura la quantità filtrata dalle stesserapportando Il numero <strong>di</strong> correzioni al numero <strong>di</strong> regole fallite.Valori <strong>di</strong> tale parametro particolarmente alti o bassi possono In<strong>di</strong>careuna non adeguata formulazione delle regOle o del questionario.Nel caso in esame I valori relativi alle sezioni -malattie presenti»e -attività flslc .. sono da considerarsi sospettI.


, .... IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE19:Tavola 5.A.2 - Principali parametri del piano <strong>di</strong> correzioneCORRE- variabili NUMERO MEDIOSEZIONI regole~ sagge"e CORREZIONIregoleMODELLO fall". a corre- per v. per rego.% zlonl "abile la fallitadati generali 41 19 22.2 13 50.5 29.68- stato <strong>di</strong> salute 25 15 8.7 8 27.5 14.67- malattie presenti20 - - 20 - -- Invali<strong>di</strong>tà 9 3 3.4 8 10.8 28.67- visite me<strong>di</strong>che 9 8 14.8 7 53.4 46.75- <strong>di</strong>agnostici 28 24 16.9 10 42.8 17.83- consumo farmaci13 4 3.4 11 7.8 21.50- consumo tabacco17 13 10.7 7 38.7 20.85- consumo bevande- 6 6 8.2 5 41.8 34.83attività fisica 2 2 6.0 2 75.5 75.50- rispondente 4 4 5.8 2 73.5 36.75- Totale 174 98 100.0 93 27.3 25.883. Analisi degli effetti <strong>di</strong> un plano <strong>di</strong> compatibilitàSi riporta un esempio <strong>di</strong> analisi degli effetti <strong>di</strong> un plano <strong>di</strong> compatibilitàtratto da M. Masselllin La procedura <strong>di</strong> controllo deglieffetti del plano <strong>di</strong> compatibl/ltA dell'Indagine sulle forze <strong>di</strong> lavoro.<strong>Istat</strong>, documento Interno.Me<strong>di</strong>ante le Informazioni derivate dall'abbinamento del recordgrezzi e <strong>di</strong> quelli sottoposti a correzione, sono stati stu<strong>di</strong>ati glieffetti prodotti da! piani <strong>di</strong> compatibilità, prendendo in considerazionetre <strong>di</strong>verSI livelli <strong>di</strong> controllo:• I record• le variabili• le modalità delle singole variabili.Analisi per recordLa <strong>di</strong>stribuzione del record secondo Il numero <strong>di</strong> correzioniè un in<strong>di</strong>catore <strong>di</strong> quanto ha Inciso la procedura a livello <strong>di</strong> unità<strong>di</strong> analisi e, nel contempo, dello stato del materiale grezzo.Una ulteriore analisi delle prestazioni delle regole è riportatanella Tavola 5.A.3, in cui Il numero <strong>di</strong> correzioni per singola regOlaè stato ridotto a classi significative (gli estremi superioricorrispondono allo 0.5%, al 1 %, aIl'1.5%, a12% ed al 2.4% del4470 questionari). Da tale tavola risulta che delle 98 regole fallite,5 hanno pesato sulla correzione, avendo mo<strong>di</strong>ficato da 101a 106 questionari, mentre la gran parte <strong>di</strong> esse, 56, è responsabile<strong>di</strong> mo<strong>di</strong>fiche su un massimo <strong>di</strong> 22 modelli <strong>di</strong> rllevazlone.Tavola 5.A.3 - Classi <strong>di</strong> correzioni per regole falliteCLASSI DI CORREZIONIPER SINGOLA REGOLAnumero regoleutilizzateTavola 5.A.4 - Percentuale <strong>di</strong> record corretti per numero <strong>di</strong> correzioniNUMERO DI % <strong>di</strong> NUMERO DI % <strong>di</strong>CORREZIONI record CORREZIONI recordO 68.6 6 0.61 19.0 7 0.62 4.8 8 0.63 2.5 9 0.94 1.1 10 0.35 0.7 10-18 0.41 - 2223 - 4445-9091 - 106Totale562017598Dalla Tavola 5.A.4 risulta che Il 31 % delle unità ha subito almenouna mo<strong>di</strong>ficazione e che il numero massimo <strong>di</strong> mo<strong>di</strong>ficazionlapportate su <strong>di</strong> un record è pari a 18; la gran parte <strong>di</strong> essi(1'80%) è stato comunque soggetto, al massimo, a 2 correzionI.Poiché le variabili del questionario non hanno tutte la stessaImportanza, è opportuno analizzare tale <strong>di</strong>stribuzione In funzio-1


196 IL SISTEMA DI CONTROLLO DELLA QUAUTA DEI DATICAP. 5 • LA REVISIONE197ne <strong>di</strong> biacchi omogenei <strong>di</strong> informazione, raggruppando opportunamentele variabili:tà sul risultati finali; nella Tavola 5.A.6, le variabili sono state or<strong>di</strong>natesecondo I tassi <strong>di</strong> modlflcazlonl subite.A. variabili per la definizione degli aggregati delle forze <strong>di</strong> lavoro;B. variabili demografiche;C. Identificatori In<strong>di</strong>viduali;D. variabili relative alla con<strong>di</strong>zione lavorativa;E. variabili relative alla ricerca <strong>di</strong> lavoro;F. variabili relativi al lavoro precedente;G. variabili relative al corso professionale.Tavola 5.A.5 - Percentuale <strong>di</strong> record corretti per numero <strong>di</strong> correzionie per gruppi <strong>di</strong> quesitiNUMEROGRUPPI DI VARIABIUCORREZIONI A B C D E F GO 90.5 90.0 98.4 96.2 95.2 88.0 97.31 5.6 9.5 1.5 2.8 2.7 8.2 2.62 1.9 0.4 .. 0.5 0.4 1.7 ..3 1.6 0.1 0.1 1.4 0.44 0.3 0.4 0.1 0.55 0.1 0.2 0.46 .. 0.87 ..Numerovariabili 9 5 3 5 5 7 2La massima percentuale <strong>di</strong> record mo<strong>di</strong>ficati si riscontra nelgruppo <strong>di</strong> variabili relative al/avoro precedente, seguito da quelleutilizzate per la definizione degli aggregati delle forze <strong>di</strong> lavoro.Poiché le percentuali <strong>di</strong> record mo<strong>di</strong>ficati variano notevolmenteda gruppo a gruppo e non sembra esistere una relazione tratali tassi ed Il numero <strong>di</strong> variabili coinvolte, si può dedurre chegli errori derivanti dalla fase <strong>di</strong> rilevazione non sono uniformemente<strong>di</strong>stribuiti elo che la procedura privilegia la correzione dellevariabili <strong>di</strong> tipo F,A,B.Analisi per vàriab/leLa percentuale delle mo<strong>di</strong>ficazloni subite dalle singole variabilicostituisce una misura dell'Impatto del piani <strong>di</strong> compatibili-, IITavola 5.A.6 - Tassi <strong>di</strong> mo<strong>di</strong>flcazlonl per variabileVARIABILE QUESITO % MODIFICAZIONIMese <strong>di</strong> nascita -Sesso 0.1Anno <strong>di</strong> nascita 0.1Residenza 0.1 *Età 0.1Età < 14 anni 0.1 *Ore attività secondaria 12 0.2Tipo corso 15.2 0.2Posizione della professione 11.3 0.7Mesi <strong>di</strong> ricerca lavoro 13.2 0.7Orario <strong>di</strong> lavoro 11.5 0_8 *Ore effettive 11.1 0.9 *Carattere perm. occupazione 11.6 1.0Motivo o(e eft. > ore abit. 11.2 1.1 *Attività economica 11.4 1.2Disponibilità a lavorare 14.5 1.3 *Proxy 16 1.4Ore abituali 11.1 1.7 *Con<strong>di</strong>zione momento ricerca 14.3 1.7Parentela 1.8Ex posizione 13.4.1 1.8Ex ramo 13.4.2 1.8Stato civile 9. 1.9Motivo abbandono lavoro 13.3 2.0Mesi ricerca occupazione 14.4 2.0Aggregati forze <strong>di</strong> lavoroTipo occupazione 14.22.12.3Attività secondaria 12 2.4Obiettivo corso 15.3 2.5Numero azioni ricerca 14.6 2.7Ore lavoro si/no 10.2 2.8 *Lavoro precedente si/no 13.1 2.9Corso professionale 15.1 3.3Con<strong>di</strong>zione 10.1 3.4 *Ufficio collocamento 3.8Motivo non ricerca 14.8 4.2Quando ultima azione 14.7 4.8Cerca 'attivamente lavoro 14.1 5.5 *Istruzione 8. 6.7


"_


200 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 5 - LA REVISIONE201particolari quesiti od In particolari modalità, può essere In<strong>di</strong>ce<strong>di</strong> Inadeguatezza dello strumento <strong>di</strong> misura.4. Schemi <strong>di</strong> tavole <strong>di</strong> controllo per la '888 <strong>di</strong> revisioneA) Controllo quantltatlva delle unitA strati, comuni, aree, rilevatorie questionari.Tavola 1- controllo della stratlflcazione teorica e quella presente sul filei- per ciascuno strato riportare I co<strong>di</strong>ci del singoli comuni edIl loro numero totale desunto dal plano teorico e dal file.Tavola 2- controllo del co<strong>di</strong>ci <strong>di</strong> questionario presenti nel fllei- per ciascun comune riportare Il numero del co<strong>di</strong>ci doppi, Ilnumero progressivo minimo e massimo, gli eventuali salti <strong>di</strong>numerazione nel co<strong>di</strong>ci progressivi.Tavola 3- controllo del numero <strong>di</strong> modelli, numero <strong>di</strong> aree e numero <strong>di</strong>rllevatorl presenti nel file, nel plano teorico e nel documenti<strong>di</strong> rllevazlonei- per clalScun comune riportare Il numero complessivo dellearee, del rllevatorl e del questionari <strong>di</strong>stintamente per il pianoteorico, I documenti <strong>di</strong> rllevazlone ed Il file; Inoltre, dai documenti<strong>di</strong> rllevazlone riportare Il numero delle mancate Intervistee delle sostituzioni e dal file Il numero delle sostituzionI.Tavola 4- controllo del co<strong>di</strong>ci <strong>di</strong> area e del rilevatorl e del relativi modellipresenti nel fllei- per ciascun comune riportare per ciascuna area Il co<strong>di</strong>ce edI relativi modelli, per ciaScun rllevatore Il co<strong>di</strong>ce ed I relativimodelli.Tavola 5- controllo, nel file, dell'abbinamento co<strong>di</strong>ce <strong>di</strong> area e <strong>di</strong> rllevatoree del relativi modelli;- per ciascun comune riportare Il co<strong>di</strong>ce <strong>di</strong> area, I co<strong>di</strong>ci delrllevatorl ed I relativi modelli.Tavola 6- controllo del tipi-record non previsti nel fllei- per ciascun comune riportare Il co<strong>di</strong>ce del modello ed Il relativonumero del record con Il tlpo-record non previsto.B) Colltrollo quantltatlvo delle unitA <strong>di</strong> analisiTavola 7, - controllo del numero dei tipi-record nel fllei- per ciascun comune riportare Il numero del record riscontratiper ciascun tlpo-record ed Il loro totale.Tavola 8- controllo dell'eguaglianza tra le variabili <strong>di</strong> conteggio ed Il numero<strong>di</strong> unità <strong>di</strong> analisi presenti nel fllei- per ciascun comune riportare Il co<strong>di</strong>ce del modello errato, Ilcontenuto della variabile <strong>di</strong> conto, Il relativo numero del recordriscontrati, Il valore massimo assunto nella loro numerazioneprogressiva ed Il numero degli eventuali salti elo doppioniIn tale numerazione.Tavola 9- controllo dei casi In cui ad un In<strong>di</strong>catore <strong>di</strong> presenza non corrispondeuna unità <strong>di</strong> anallsli- per ciascun comune riportare Il co<strong>di</strong>ce del modello errato edIl numero del record non presenti, per ogni tlpo-record.C) Controllo qualltativoTavola 10- variabili quantitatlvei- riportare per ciascuna variabile la me<strong>di</strong>a, Il coefficiente <strong>di</strong> variazione,Il minimo, Il massimo (calcolati sia Includendo cheescludendo lo zero dal calcolo) e le percentuali relative al valorinon numerici ed agII zeri riscontrati;.D) Controllo del piani <strong>di</strong> compatlbllitAe correzioneTavola 12- controllo del numero <strong>di</strong> imputazioni e del numero del recordImputati;- per. la prescelta unità <strong>di</strong> analisi riportare Il totale delle correzioni(a), Il totale del record con almeno una correzione (b),Il totale del record (c) ed I rapporti (b)l(c) e (a)I(b).


202 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 5 • LA REVISIONE203Tavola 13- controllo della <strong>di</strong>stribuzione del record secondo Il numero <strong>di</strong>imputazioni;- per la prescelta (In funzione degli obiettivI) unità <strong>di</strong> analisi riportarela <strong>di</strong>stribuzione delle imputazioni subite dai recorded Il numero totale degli stessi.Tavola 14- controllo del numero <strong>di</strong> imputazioni e del record imputati pertipo <strong>di</strong> regola;- per la prescelta unità <strong>di</strong> analisi riportare per ciascuna regolaIl numero delle correzioni dovute a ciascuna <strong>di</strong> esse ed 1/ totaledel record.Tavola 15- controllo del numero <strong>di</strong> Imputazioni per variabile;- per la prescelta unità <strong>di</strong> analisi riportare per ciascuna dellevariabili Il numero <strong>di</strong> correzioni subite.RIFERIMENTI BIBLIOGRAFICIlavori <strong>di</strong> carattere teoricoAsBATE C., 80vE G., CRESCENZI F. (1990), Meto<strong>di</strong> statistici multlvarlat/ perla ricostruzIone del/'/nform8zJone mancante, Relazione al convegno-Avanzamenti metodologlcl e statistiche ufflclall-, Roma 13-14 <strong>di</strong>cembre1990 - ISTAT.FE1.LEG1 I.P., HOLT D. (1976), A systematlc approach to automat/c e<strong>di</strong>ting& Imputat/on, J.A.SAGARCIA RUBIO ò GCMEZ ALFoNso, VILLAN (1983), Desaro/to de un sistema dedetectlon y Imputat/on automatica basacto en la metodo/ag/a deFel/egl-Holt ampI/ada Atti I.S.I.GRANQUIST L (1987), On the need far generallzed numarlc and Imputationsystem, U.N •• CE8, documento CES/SEM. 231R. 10, Seminaron statlstlcal methodology.KAEWSKI D., PLATEK R., RAo J.N.K. (1981), Current toplcs In survey samopllng, Academlc Press, New York.MARCHETTI E. (1986), Large sample mode/s for e<strong>di</strong>ting response errars,documento Intemo ISTAT.MASSELU M., MARCHETTI E. (1984), I pla,!1 <strong>di</strong> compatlbllltl. ed Il controllodell'atten<strong>di</strong>bilità del dato, Atti della XXXII Riunione Scientifica del·la S.I.S., Sorrento.MASSELU M. (1990), Un modello per l'lndlvlduazlone della sequenza <strong>di</strong>regole e variabili In un plano <strong>di</strong> compatlbllltl. <strong>di</strong> tipo deterministico,documento Intemo ISTAT.NATIONAL Cetmw. BUREAU OF STATISTICS (NCBS Sweden) (1983), On genera/IzedE<strong>di</strong>ting Programs and the solutlon of the data quallty problems,manoscritto non pubblicato.PuLLUM T.W., HARPHAM T., OzsEVER N. (1986) The machlne e<strong>di</strong>ting of largesample surveys: the experlence of the World Fertlllty Survey, IntematlonalStatlstlcal Revlew 54, 3, pp 311-326.U.N.D.P •• CES Statlstlcal Computlng ProJect (1984), Descrlptlon and featureana/yses of the selected data e<strong>di</strong>ting software systems, documentoSCP/DAlWP. 76.


204 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATISperimentazioni sulle indagini <strong>Istat</strong>CARIANI G. (1983), I controlli ED del censimento demografico in Atti delConvegno della 8.1.8., Trieste.MASSEW M. (1986), Valutazione del piani <strong>di</strong> compatlblllté e co"ez/oneautomatici. Una sperlmentazlone, Atti della XXXIV Riunione 8clentlflcadella 8.1.8., Bari.MASSEW M. (1987), La procedura <strong>di</strong> controllo degli effetti del plano <strong>di</strong>compatlblllté dell'Indagine forze <strong>di</strong> lavoro, documento Intemo <strong>Istat</strong>.MASSEW M. (1987), La quallté del dati nell'<strong>indagine</strong> <strong>Istat</strong> sulla salute1983, In Atti del Convegno -Salute e ricorso al servizi nel Veneto_,Padova novembre 1987.PANIZON F., 8IGNORE M. (1987), Analisi dell'effetto del piani <strong>di</strong> compatlbllltédell'Indagine forze <strong>di</strong> lavoro con accoppiamento statistico delrecord, documento Intemo <strong>Istat</strong>.CAPITOLO 6 - L'ELABORAZIONE FINALE E L'ANALISI DEI RI­SULTATI1_ I controlli nella fase <strong>di</strong> elaborazione e <strong>di</strong> valldazlone del risultatiI dati elementari, corretti nella fase <strong>di</strong> revisione quantitatlvae qualitatlva, vengono infine elaborati, in funzione degli obiettiviprefissati; le elaborazioni, quin<strong>di</strong>, possono risultare <strong>di</strong> vario tipoe <strong>di</strong> <strong>di</strong>fferente complessità: tavole, In<strong>di</strong>catori, archivi, campioniper gli utenti, analisi <strong>di</strong> secondo livello ecc •.Poiché, attualmente, Il prodotto-tlpo <strong>di</strong> una Indagine è rappresentatodal plano <strong>di</strong> tabulazlone dei risultati, che consiste nell'elaborazione<strong>di</strong> tabelle semplici e a più entrate contenenti frequenzerelative ed assolute, totali, me<strong>di</strong>e ed altri in<strong>di</strong>ci descrittivi,tale prodotto standard sarà l'oggetto delle considerazioni cheseguono.Il controllo da effettuare nella fase <strong>di</strong> elaborazione e validazionedei risultati può essere <strong>di</strong>stinto in un controllo formale, relativoal possibili errori generati nella specificazione analitica delpiano <strong>di</strong> tabulazione (owero al come vengono prodotti i risultati),ed in un controllo sostanziale, relativo alla rile~anza dell'Informazionefornita (owero a quali risultati vengono prodotti).I controlli <strong>di</strong> tipo formale hanno l'obiettivo <strong>di</strong> prevenire e <strong>di</strong>identificare eventuali errori <strong>di</strong> -quadratura» all'interno della singolatavola o tra tavole <strong>di</strong>verse; scopo dei controlli <strong>di</strong> tipo sostanzialeè, Invece, la verifica dell'uso dell'informazione rilevata, lavalutazione dei risultati sotto il profilo della plausibilità rispettoalla realtà esaminata, l'eventuale integrazione del plano <strong>di</strong> tabulazlonecon tavole relative ad aspetti non previsti o non consideratiex ante.Riassumendo, nella fase <strong>di</strong> elaborazione e validazione del risultati,è necessaria:la verifica formale:- della specificazione dei parametri necessari per la costruzionedelle singole tavole;- della coerenza tra i dati relativi al medesimo fenomeno con­. tenuti in tavole <strong>di</strong>verse;- del <strong>di</strong>zionario nel caso <strong>di</strong> programmi generalizzati.e la verifica sostanziale:- della selezione e della complessità delle tavole;- della vali<strong>di</strong>tà dei risultati.


IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 8· L'ELABORAZIONE FINALE E L'ANALISI DEI RISULTATI207I-"'IUI clqII8ChIu ........1ImII.Il contrailo .... 1.alngole taoIeIl controllo necessario per garantire la quadratura della singolatavola o tra tavole <strong>di</strong>verse, <strong>di</strong>pende dalla procedura utilizzataper la predlsposizlone <strong>di</strong> un plano <strong>di</strong> tabulazlone; questi, Infatti,può essere generato, In funzione degli strumenti Informaticl<strong>di</strong>sponibili:a) definendo dapprima un <strong>di</strong>zionario contenente tutte le variabilicoinvolte nel plano (sia quelle originarie che quelle derivate)ed I relativi riferimenti al record <strong>di</strong> elaborazione, ed utilizzandopoi le variabili cosi definite nel processo <strong>di</strong> tabulazlone(tale tecnica Implica la <strong>di</strong>sponibilità <strong>di</strong> programmi generalizzatI).b) definendo <strong>di</strong> volta In volta, per ciascuna tavola, gli elementinecessari per la sua elaborazione.Nel primo caso la possibilità <strong>di</strong> generare errori è confinataalla predlsposlzlone del, <strong>di</strong>zionario; un controllo accurato dellevarlabllllvi contenute (definizione e ~orrispondenza con Il plano<strong>di</strong> registrazione), garantisce l'Impossibilità <strong>di</strong> errori nel processo<strong>di</strong> tabulazlone e rende superflue altre verifiche.Nel secondo caso, Invece, ogni tavola, per vizio logico o perbanali sviste, può essere fonte <strong>di</strong> errore, essendo stata materialmentedefinita In modo In<strong>di</strong>pendente dalle altre; è quin<strong>di</strong> necessariosottoporre a verifica sia la singola tavola che Il singolo aggregatopresente In tavole <strong>di</strong>verse.Elaborare una tavola statistica equivale a raggruppare le unità<strong>di</strong> analisi In subpopolazlonl, caratterizzate dalle modalità dellevariabili In<strong>di</strong>cate In testata ed in fiancata, ed a calcolare l'In<strong>di</strong>catorestatistico d'Interesse per ciascuna delle suddette subpopoiazionI.Gli elementi che caratterizzano la definizione <strong>di</strong> una tavolastatistica sono pertanto le variabili <strong>di</strong> classificazione, Il parametrostatistico <strong>di</strong> analisi e le corrispondenze tra le variabili coinvoltenel calcolo ed I campi del record del file sottoposto ad elaborazione.Ad esempio per elaborare la tavola riportante la spesame<strong>di</strong>a per famiglia, per regione e classi <strong>di</strong> età del capofamigliaè necessario definire l'In<strong>di</strong>catore statistico d'Interesse (la, me<strong>di</strong>a), le variabili <strong>di</strong> classificazione (la regione, la classe d'etàe la relazione <strong>di</strong> parentela) ed i riferimenti sul record delle variabilicoinvolte (spesa, età, regione, relazione <strong>di</strong> parentela).Come caratteristiche <strong>di</strong> classificazione possono essere utilizzatesia le variabili originarie (nell'esempio Il co<strong>di</strong>ce regionalepresente sul record) sia le variabili da queste derivate (le classiI1<strong>di</strong> età del capofamiglia provenienti dall'Informazione anno <strong>di</strong> nascitae relazione <strong>di</strong> parentela). .Possiamo considerare quali elementi costitutivi del parametro<strong>di</strong> analisi, la funzione del dati elementari da utilizzare (In generetotali, me<strong>di</strong>e, frequenze relative ed assolute) e l'argomentodella detta funzione, ovvero le variabili coinvolte nel calcolo; nell'esempioprecedente, la funzione me<strong>di</strong>a ponderata (con i coefficienti<strong>di</strong> riporto dell'universo) della variabile spesa per consumi.Nel pre<strong>di</strong>sporre le tavole, gli errori possono essere generatida una Insufficiente od errata specificazione del suddetti elementi,in particolare dalle definizioni <strong>di</strong> variabili derivate, spesso compiesseper l'uso congiunto <strong>di</strong> con<strong>di</strong>zioni logiche ANO, OR e NOT.Il controllo può essere attuato preventivamente me<strong>di</strong>ante l'analisilogica dei vari elementi delle specifiche (seguendo ad esempiola <strong>di</strong>stinzione sopra riportata) e a posteriori me<strong>di</strong>ante la verificadella quadratura delle singole tavole.Generalmente, In un piano <strong>di</strong> tabulazlone, un parametro relativoad una data subpopolazlone (ad esempio il numero <strong>di</strong> occupatimaschi <strong>di</strong> una determinata regione) compare più volte opuò essere rlcalcolata da tavole <strong>di</strong>verse. Se Il plano <strong>di</strong> tabulazlo·ne non è generato me<strong>di</strong>ante un <strong>di</strong>zionario, errori <strong>di</strong> definizionein una o più tavole comportano valori <strong>di</strong>fferenti del medesimoparametro; il controllo, allora, consiste nella coincidenza <strong>di</strong> talivalori nelle <strong>di</strong>verse tavole In cui sono contenuti.A tale scopo è opportuno pre<strong>di</strong>sporre, insieme al plano <strong>di</strong> tabulazione,un elenco analitico delle <strong>di</strong>verse subpopolazloni conle tavole in cui compaiono I relativi dati e le relazioni tra tali tavole;ad esempio la consistenza della popolazione attiva nelleripartlzloni territoriali contenuta In tavole <strong>di</strong>verse, deve sommareal complesso Italia presente In altra tavola. L'elenco costituiràuna guida per Il confronto del dati contenuti nelle varie tavole<strong>di</strong> spoglio: a titolo <strong>di</strong> esempio, anche se costruito con <strong>di</strong>versi inten<strong>di</strong>menti,si cita Il «Riepilogo delle tavole <strong>di</strong> spoglloa nelle pubblicazionidel Censimento della popolazione 1981.Se la fase <strong>di</strong> elaborazione prevede degli archivi <strong>di</strong> riepilogo,è possibile informatlzzare la procedura <strong>di</strong> controllo, traducendole relazioni tra sUbpopolazionl, In operazioni sugli elementi del file.Il plano <strong>di</strong> tabulazione rappresenta lo strumento principaleme<strong>di</strong>ante Il quale i risultati della rllevazlone vengono messi a <strong>di</strong>sposizionedell'utente; la scelta delle tavole, quin<strong>di</strong>, deriva dalloschema concettuale che ha guidato la definizione degli obiettiviIl conlrollo tra 1Da1.u ...............1001.j


208 IL SISTEMA DI CONTROLLO DELLA QUAlITÀ DEI DATICAP. 8· L'ELABORAZIONE FINALE E L'ANALISI DEI RISULTATI209dell'Indagine e dovrebbe essere effettuata nella fase <strong>di</strong> programmazione.Come guida alla selezione, possono essere utilizzati gli schemiEntità Relazioni, oppure la specificazione per aree d'Interessedegli obiettivi della rllevazlone (cfr. Capitolo 2). Un criterio chepuò risultare utile In tale operazione, i la <strong>di</strong>stinzione tra tavoleche hanno lo scopo <strong>di</strong> dare Informazioni d/livello (analisi primaria)da quelle \I cui obiettivo sono le re/az/onltra variabili (analisisecondaria); In genere, le prime risultano definite dalle stime principalidell'Indagine e dal domini <strong>di</strong> stu<strong>di</strong>o, stabiliti In sede <strong>di</strong> programmazione.Tuttavia, Il plano cosi programmato risponde ad uno schemaconcettuale basato sulle conoscenze a priori della realtà epuò quin<strong>di</strong> accadere che sia Inappropriato a descrivere I fattoririlevati od emergenti del fenomeno, a causa <strong>di</strong> lacune nello schemao <strong>di</strong> cambiamenti effettivamente soprawenutl.Il rispetto del plano programmato potrebbe, perciò, portaread una sottoutlllzzazione del contenuto Informativo od, anche,ad una rappresentanzlone <strong>di</strong>storta della realtà, owero ad errori<strong>di</strong> rilevanza. È quin<strong>di</strong> opportuno analizzare I dati per In<strong>di</strong>viduarele eventuali tavole aggiuntive, o sostitutive, a quelle programmate,che rappresentano aspetti emergenti o non considerati ex ante.Tale ricerca può essere basata sull'analisi <strong>di</strong> un Insieme <strong>di</strong>tavole piI} vasto <strong>di</strong> quello programmato per la pubblicazione (comeusualmente accade); tuttavia tale metodo Implica una notevolemole <strong>di</strong> lavoro e un elevato livello <strong>di</strong> soggettività. Un criteriopiI} oggettivo e meno <strong>di</strong>spen<strong>di</strong>oso consiste nell'utilizzare modellistatistici e <strong>tecniche</strong> multivarlate <strong>di</strong> analisi per esplorare l'Insiemedel dati ed In<strong>di</strong>viduare le relazioni tra le variabili maggiormenteesplicative.La definizione del plano <strong>di</strong> tavole i, Infine, vincolato da due·fattori: da un lato la comparabilità nel tempo e nello spazio (adesempio nel caso <strong>di</strong> Indagini ripetute o <strong>di</strong> confrontlinternazlonall)e dall'altro l'opportunità <strong>di</strong> Integrare I risultati prodotti conquelli del sistema Informativo cui l'Indagine appartiene.La prima verifica della plausibilità del risultati ottenuti, rispettoalla realtà esaminata, è costituita dalle Informazioni derivantidal sistema <strong>di</strong> controllo. Come è stato già ricordato, gli errori riscontratinelle <strong>di</strong>verse fasi non rappresentano solo fattori <strong>di</strong> <strong>di</strong>sturbo,ma costituiscono anche -informazione- sul fenomeni Indagatl.essi, pertanto, possono aiutare ad In<strong>di</strong>viduare I limiti dell'analisieffettuata, gli eventuali fenomeni emergenti, nuove o <strong>di</strong>verseInterpretazioni della realtà.A tale scopo dovrebbero essere utilizzate le analisi che sonostate suggerite nei capitoli precedenti come approfon<strong>di</strong>menti perfase o per tlpologia <strong>di</strong> errore. Ad esempio l'analisi delle mancaterisposte totali, può segnalare particolari subpopolazlonl sfuggitealla rilevazlone o suggerire la presenza <strong>di</strong> effetti <strong>di</strong>storsivinel risultati finali; dalle mancate risposte parziali e dalle corrazionleffettuate, possiamo invece desumere fenomeni emergentio Inadeguatezze nello schema concettuale utilizzato per l'Indagine.Oltre agII in<strong>di</strong>catori derivanti dal controlli <strong>di</strong> qualità, la validazionedel risultati deve essere basata su fonti esterne alla singolarllevazlone:I) la serle storlcà del dati dell'Indagine;Il) le informazioni provenienti da altre indagini od altre fonti.Anche In questo caso i opportuno formalizzare Il controllo,inquadrando l'Indagine nel contesto piI} ampio del sistema Informativo<strong>di</strong> pertinenza e precostltuendo un archivio delle fonti<strong>di</strong>sponibili, del relativi risultati e modalità <strong>di</strong> rllevazlone.La descrizione della struttura del piano <strong>di</strong> tabulazlone, me<strong>di</strong>antealcuni parametri quantitatlvl, ha l'obiettivo <strong>di</strong> controllarese il dettaglio ed Il <strong>di</strong>verso peso assunto dalle <strong>di</strong>fferenti variabilied unità <strong>di</strong> analisi, corrisponde effettivamente alle priorità programmate.Gli in<strong>di</strong>catori dell'utilizzazione dell'informazione rilevata cheverranno consigliati, non devono essere Interpretati come In<strong>di</strong>catori<strong>di</strong> errore, ma costituiscono del parametri sintetici che possonocontribuire a verificare la completezza, l'organlcltà e l'equilibriodel risultati pubblicati.I parametri descrittivi del plano <strong>di</strong> tabulazlone fanno riferimento(I) all'utilizzazione delle variabili e delle unità rilevate e (II) alnumero ed al tipo delle tavole pubblicate.Le variabili oggetto <strong>di</strong> pubblicazione possono non coincidarecon quelle rilevate; alcune caratteristiche, infatti, possono comparirenel questionario al solo scopo <strong>di</strong> fornire gli elementi perIl calcolo <strong>di</strong> variabili derivate, non <strong>di</strong>rettamente rilevate o rileva-I bili. Come caratteristiche rilevate si considerano, Inoltre, I co<strong>di</strong>leiIdentificativi significativi (ad esempio I co<strong>di</strong>ci geograficI). La<strong>di</strong>stinzione, secondo l'utilizzazione, delle variabili complessivamentepresenti nel questionario e nelle tavole, costituisce un primoInsieme <strong>di</strong> parametri (Prospetto 6.1).\I numero e le <strong>di</strong>mensioni delle tavole pubblicate rappresentanoil grado <strong>di</strong> analiticità del dati forniti e, quin<strong>di</strong>, costituisco-La~................. <strong>di</strong>IIIIMIIIIID"


,~w,w."m" UI \lvrt,nULLU Ut.LLA QUAUTA DEI DATICAP. 8· L'ELABORAZIONE FINALE E L'ANALISI DEI RISULTATI211Prospetto 6.1 - Parametri descrittivi <strong>di</strong> un piano <strong>di</strong> tavolePARAMETRInumero della variabili presenti nel questionario V q ~numero delle variabili V q utilizzate nelle tavole ~numero delle variabili V q utilizzate per derivarne altre Kgnumero delle variabili derivateK4numero delle variabili V q non utilizzateK4no un In<strong>di</strong>catore, anche se In<strong>di</strong>retto e approssimato, dell'Informazionea <strong>di</strong>sposizione degli utentI.In<strong>di</strong>cando, inoltre, con V,!"i1 numero delle ricorrenze della variabilel-eslma nell'insieme <strong>di</strong> tavole a m <strong>di</strong>mensioni e con V,, =E V!" il numero totale delle ricorrenze, si possono ottenere dueta~sl' <strong>di</strong> utilizzazione della singola variabile, il primo rispetto altotale delle tavole, Il secondo, piO analitico, relativo al numero<strong>di</strong> tavole <strong>di</strong> <strong>di</strong>mensione m:Se si assume che uno degli obiettivi <strong>di</strong> un plano <strong>di</strong> tavole èfornire un riassunto sintetico del contenuto informativo del file,un rapporto (6.3) molto elevato può in<strong>di</strong>care una selezione nonparticolarmente accurata delle tavole.Infine, è possibile che In un Insieme <strong>di</strong> tavole particolarmentecomplesso, alcune tavole risultino ridondanti, perché l'lnformazineda esse contenute è presente in tabelle <strong>di</strong> <strong>di</strong>mensionesuperiore; ad esempio la <strong>di</strong>stribuzione marginale <strong>di</strong> una variabilecompare necessariamente in tavole <strong>di</strong> or<strong>di</strong>ne superiore checoinvolgono la detta variabile.Le tavole ridondanti rappresentano una per<strong>di</strong>ta <strong>di</strong> efficienzadel plano <strong>di</strong> tabulazlone; tuttavia, a volte, è preferibile la loro presenzaper renderne piO semplice la consultazione.V,./ E,' v,,v. m / E. v. m, " (6.1)Se I risultati pubblicati si riferiscono a piO unità statistiche(ad esempio famiglie ed In<strong>di</strong>vidui), Il plano <strong>di</strong> tabulazlone può essereesaminato rispetto al peso relativo assegnato a ciascuna<strong>di</strong> esse me<strong>di</strong>ante i rapporti:(6.2)dove T rappresenta Il numero <strong>di</strong> tavole prodotte, u la genericaunità statistica e m la <strong>di</strong>mensione delle tavole.Un ulteriore parametro descrittivo può essere ottenuto, calcolandoIl rapporto tra numero <strong>di</strong> tavole a m <strong>di</strong>mensioni effettivamentepubblicate ed Il massimo numero <strong>di</strong> tavole producibilldalle k variabili, presenti nel piano <strong>di</strong> tabulazione:1"" / (~) (6.3)


ICAP. 6 -L'ELABORAZIONE FINALE E L'ANALISI DEI RISULTATI213RIFERIMENTI BIBLIOGRAFICIDI CIACCIO A., SABBADINI L.L. (1990), Presentazione del contenuto Informativo<strong>di</strong> un'Indagine complessa: selezione <strong>di</strong> tabelle <strong>di</strong> contingenzaIn un approccio multlvarlato, Relazione al convegno -Avanzamentimetodologlcl e statistiche ufficiali- Roma, 13-14 <strong>di</strong>cembre 1990- <strong>Istat</strong>.VOLLE M_ (1985), Analyse des donnes, 3 eme &dltlon ESA Parigi 1985.


CAPITOLO 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA1. Descrizione dell'errore <strong>di</strong> misuraCon l'espressione errori <strong>di</strong> misura o errori <strong>di</strong> risposta sllndl·cano tutti gli errori che sorgono nella fase della raccolta del datie per effetto dei quali si osserva un valore <strong>di</strong>verso da quello chesi intendeva misurare.A <strong>di</strong>fferenza degli errori <strong>di</strong> campionamento, che sono dovutial fatto che viene rilevata solo una parte della popolazione og·getto <strong>di</strong> stu<strong>di</strong>o, gli errori <strong>di</strong> risposta, derivando dal processo <strong>di</strong>misurazione adottato, possono verificarsi anche quando si ososervano tutte le unità della popolazione. DI conseguenza Il problemadegli errori <strong>di</strong> misura riguarda sia le indagini campionariesia quelle totali.Con riferimento ad indagini che hanno come unità <strong>di</strong> analisila famiglia o l'in<strong>di</strong>viduo, gli errori <strong>di</strong> misura possono, In linea geonerale, essere dovuti:alla pred/sposizione del questionario, owero:• alla formulazione delle domande;• alla sequenza delle domande;• alla lunghezza del questionario;• alla scelta delle classificazioni;al rispondente, in particolare:• a problemi <strong>di</strong> memoria;• alla mancanza <strong>di</strong> informazione;• alla scarsa motivazione a rispondere attentamente;• al frainten<strong>di</strong>mento <strong>di</strong> alcune domande;• ad errori accidentali;• ad errori volontari;• a problemi <strong>di</strong> con<strong>di</strong>zionamento (dovuti alla preSenza <strong>di</strong> altrepersone);• all'effetto .proxy- (quando cioè l'Intervistato risponde per altrepersone);al criterio <strong>di</strong> raccolta adottato, cioè:• autocompllazlone del questionario;• intervista <strong>di</strong>retta;• Intervista telefonica;ìj1


216 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATI'ICAP. 7 - LA STIMA DELL'ERRORE GLOBALE DJ MISURA217al rllevatore (ogni volta che è presente), quin<strong>di</strong>:• al grado <strong>di</strong> preparazione sul questionario (conoscenza e comprensionedei quesiti); 't ..• al grado <strong>di</strong> preparazione sulla conduzione dell'intervista (comunicazione,partecipazione e non influenza del rispondente);• ad errori <strong>di</strong> compilazione del questionario;alla co<strong>di</strong>fica, quin<strong>di</strong>:• alla completezza del sistema <strong>di</strong> co<strong>di</strong>fica;• ad errori accidentali;• all'inosservanza delle norme;al supervisore, ovvero:• a carenze nelle istruzioni e nel controllo degli intervistatorl.Gli errori <strong>di</strong> risposta quin<strong>di</strong> possono sorgere in maniera accidentaleo sistematica, essere introdotti volontariamente o derivareda una mancanza <strong>di</strong> Informazione.È chiaro che le possibili fonti d'errore elencate possono interagiree combinarsi in maniera <strong>di</strong>versa tra loro e che non sempreè possibile tenere separati I <strong>di</strong>versi effetti In fase <strong>di</strong> analisie <strong>di</strong> valutazione. In effetti il questionario, Il rispondente, \I criterio<strong>di</strong> raccolta, Il rilevatore e le loro Interazionl costituiscono ilprocesso <strong>di</strong> misurazione stesso e <strong>di</strong> conseguenza contribuiscononel loro insieme a determinare l'e"ore <strong>di</strong> risposta globale. Inoltrel'errore <strong>di</strong> misura stimato utilizzando i dati finali risulta influenzatoanche dagli errori <strong>di</strong> registrazione e dall'effetto dei piani <strong>di</strong>compatibilità. Pertanto la <strong>di</strong>stinzione operata è più logica cheeffettiva ed è stata adottata a scopo esemplificativo.Tuttavia, come le sperlmentazlonl condotte in <strong>di</strong>versi Paesihanno mostrato, I contributi più determinanti all'errore <strong>di</strong> misuracomplessivo, provengono dal rilevatore e dal rispondente e quin<strong>di</strong>su <strong>di</strong> essi sarà focalizzata l'attenzione nei prossimi paragrafi.Gli effetti degli errori <strong>di</strong> risposta sono:• l'Introduzione <strong>di</strong> una <strong>di</strong>storsione nelle stime finali;• l'aumento della variabilit~ delle stime finali.La <strong>di</strong>storsione e la variabilità dovute agII errori <strong>di</strong> misura sarannoesplicitate formalmente nel paragrafo 3 mentre I meto<strong>di</strong><strong>di</strong> stima <strong>di</strong> tali effetti saranno descritti nel paragrafi 5 e 6.In particolare si <strong>di</strong>mostra che l'effetto della <strong>di</strong>storsione è costanterispetto al numero delle osservazioni effettuate; quin<strong>di</strong> uncensimento presenta la stessa <strong>di</strong>storsione <strong>di</strong> un'<strong>indagine</strong> campionaria,se svolto nelle stesse con<strong>di</strong>zioni essenziali.Viceversa la varlanza <strong>di</strong> risposta è Inversamente correlata conla numerosità campionarla e può quin<strong>di</strong> essere <strong>di</strong>minuita aumentandola <strong>di</strong>mensione del campione, cosi come è possibile ridurrela variabilità dovuta aU'lntervlstatore Impiegandone un num.ro maggiore. Questi risultati sono vali<strong>di</strong> per Indagini svolte nellestesse con<strong>di</strong>zioni generali; è petò presumibile che ad un Incr.mento del numero <strong>di</strong> osservazioni possano corrispondere maggiori<strong>di</strong>fficoltà, soprattutto organlzzatlve, per 1/ controllo delle variefasi della rllevazlone, con conseguente per<strong>di</strong>ta <strong>di</strong> accuratezza delrisultati.Per quanto concerne la stima del suddetti effetti, notiamo cheper misurare la Cllstorslone è necessario <strong>di</strong>sporre <strong>di</strong> dati da unafonte esterna all'Indagine, mentre le componenti della varlanza<strong>di</strong> risposta possono essere stimate a partire dalle osservazionicampionarie.Le conseguenze degli errori <strong>di</strong> risposta, come è stato ampiamente<strong>di</strong>mostrato, possono risultare superiori a quelle prodottedagli errori <strong>di</strong> campionamento e comunque non sono mal <strong>di</strong> entitàtrascurabile.Ne deriva la necessità <strong>di</strong> sperimentare e <strong>di</strong> mettere a regimealcune procedure <strong>di</strong> controllo degli errori <strong>di</strong> misura. Quéstl controllidevono essere sia preventivi, nel senso <strong>di</strong> ricercare quelle<strong>tecniche</strong> (<strong>di</strong>segno campionario, criterio <strong>di</strong> raccolta, ecc.) che mlnimlzzanogli errori <strong>di</strong> risposta, sia <strong>di</strong> stima a posteriori allo scopo<strong>di</strong> quantificarne gli effettI. Infatti l'informazione sugli errori<strong>di</strong> misura è in<strong>di</strong>spensabile sia al prOduttore <strong>di</strong> dati che ne vogliamigliorare la qualità, sia all'utlllzzatore che deve conoscere illIvello<strong>di</strong> preCisione delle stime fornitegli.Nell'affrontare la problematlca connessa allo stu<strong>di</strong>o degli errori<strong>di</strong> misura Cochran ha In<strong>di</strong>viduato quattro aspetti principali(Tenenbein, 1984):• I tipi <strong>di</strong> modelli matematici usati per rappresentare gli errori<strong>di</strong> misura;• la misura in cui gli errori <strong>di</strong> risposta sono automaticamentepresi in considerazione dalle <strong>tecniche</strong> standard <strong>di</strong> analisi e lamisura in cui questi meto<strong>di</strong> <strong>di</strong>ventano fuorvianti se certi tipi<strong>di</strong> errore sono presenti;• Il danno provocato dagli errori <strong>di</strong> misura nel produrre <strong>di</strong>storslol)io nel <strong>di</strong>minuire la preCisione delle stime e le procedure<strong>di</strong>sponibili per ridurre tali conseguenze indesiderate;• le <strong>tecniche</strong> per lo stu<strong>di</strong>o degli errori <strong>di</strong> misura.


....... IL SISTEMA DI CONTROllO DELLA QUALITÀ DEI DATICAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA2192_ Quadro concettuale <strong>di</strong> riferimentoAlla base del modello presentato vi è la definizione <strong>di</strong> valorevero In<strong>di</strong>viduale.Questo significa che ad ogni In<strong>di</strong>viduo della popolazione corrispondeun valore vero <strong>di</strong> una variabile oggetto <strong>di</strong> stu<strong>di</strong>o: uname<strong>di</strong>a o un aggregato <strong>di</strong> tali valori veri In<strong>di</strong>viduali costituisce Ilvalore da stimare me<strong>di</strong>ante /'Indagine.\I valore vero In<strong>di</strong>viduale viene concepito come una caratteristicapropria dell'unità <strong>di</strong> analisi ed è quin<strong>di</strong> in<strong>di</strong>pendente dallecon<strong>di</strong>zioni In cui si effettua l'<strong>indagine</strong> che Invece influenzanola risposta In<strong>di</strong>viduale.Consideriamo, come esempio, la variabile età. Solitamentel'età viene definita come l'Intervallo <strong>di</strong> tempo che Intercorre tradue eventi. In base a questa definizione risulta chiaro che ad ogniIn<strong>di</strong>viduo corrisponde un'età vera e che tale valore in<strong>di</strong>vidualenon <strong>di</strong>pende dal criterio scelto per determinarlo. Tuttavia ciò nonassicura che la risposta In<strong>di</strong>viduale che si ottiene, ad esempiochiedendo ad una persona l'età, sia il valore vero <strong>di</strong> tale variabilecosi come è stata definita. Infatti un In<strong>di</strong>viduo può non conoscerela propria età, può mentire oppure essersi confuso per problemi<strong>di</strong> memoria.La definizione del valore vero In<strong>di</strong>viduale può essere in alcunicasi piuttosto complicata. SI pensi ad esempio all'Intelligenza:come definire l'Intelligenza vera <strong>di</strong> una persona? .Hansen, Hurwltz e Madow (1953) hanno affrontato per primiil problema e hanno In<strong>di</strong>cato tre criteri per la definizione del valorevero: .• Il valore vero deve essere univocamente definito;• il valore vero deve essere definito in maniera tale da sod<strong>di</strong>sfaregli obiettivi dell'Indagine;• quando non è In contrasto con i primi due criteri, il valore verodeve essere definito In termini <strong>di</strong> operazioni che possono essereeffettivamente eseguite (anche se ciò può risultare <strong>di</strong>fficileo costoso).Nelle situazioni pratiche può accadere che i criteri espostisiano in conflitto tra loro e richiedano una scelta o un compromessotra I tre. Occorre però tenere presente che i primi due criterisono essenziali, mentre Il terzo, pur essendo utile, non lo è.La definizione del valore vero In termini <strong>di</strong> operazioni eseguibilipermette <strong>di</strong> eliminare o <strong>di</strong> rendere trascurablll gli errori <strong>di</strong> misura.Tuttavia basarsi solo su criteri operazlonali può allontana-re dagli obiettivi della ricerca e può non portare ad una definizioneunica.Consideriamo Il seguente esempio In cui il luogo <strong>di</strong> nascita<strong>di</strong> una persona viene definito come la risposta trascritta dall'lntervlstatorealla domanda: -In quale città o paese è nato?-.Questa è una definizione In termini operazlonall che però nonpuò essere accettata come valore vero. Infatti si è Interessati aconoscere dove una persona è effettivamente nata e non la rispostache è stata data ad una domanda e che può risultare alterataper effetto <strong>di</strong> un Insieme <strong>di</strong> fattori descritti in precedenza.In ogni caso trascurare il terzo criterio può far aumentare sensibilmentela <strong>di</strong>storsione causata dagli errori <strong>di</strong> risposta.Anche quando il valore vero viene definito con precisione possono,però, sorgere notevoli <strong>di</strong>fficoltà per determinarlo. Tali <strong>di</strong>fficoltàsono strettamente connesse al tipo <strong>di</strong> variabile che si Intendemisurare. Infatti è presumibile che un'Indagine riesca a cogliereil valore vero per una larga proporzione <strong>di</strong> In<strong>di</strong>vidui per variabiliquali l'età o Il sesso, mentre per altre, come ad esempioil red<strong>di</strong>to, ciò sarà possibile solo In misura molto minore.Quando non è possibile definire il valore vero In modo taleda sod<strong>di</strong>sfare i tre criteri sopra esposti, si può dare una definizloneche sod<strong>di</strong>sfi I primi due requisiti e definire una operazioneIl cui valore atteso approssimi In maniera sod<strong>di</strong>sfacente Il valorevero.Questo porta al concetto <strong>di</strong> un campione <strong>di</strong> risposte da uninsieme <strong>di</strong> possibili misurazionI.Infatti l'<strong>indagine</strong> viene considerata concettualmente ripetlbllee le ripetizioni dell'Indagine In<strong>di</strong>pendenti tra <strong>di</strong> loro. Questo significache le ripetizioni si considerano riferite allo stesso istanteo Intervallo <strong>di</strong> tempo e che l'esecuzione dell'operazione non influenzai risultati successivi. I risultati particolari osservati In una<strong>indagine</strong> sono considerati come I risultati <strong>di</strong> una prova.In particolare si suppone <strong>di</strong> Intervistare ogni in<strong>di</strong>viduo un grannumero <strong>di</strong> volte sotto le stesse con<strong>di</strong>zionI. Questa operazionegenera una popolazione <strong>di</strong> risposte per tutti gli In<strong>di</strong>vidui. Allorasi può pensare <strong>di</strong> estrarre un campione <strong>di</strong> In<strong>di</strong>vidui e quin<strong>di</strong> uncampione costituito da una delle risposte possibili per ciascunIn<strong>di</strong>viduo. Sotto queste Ipotesi Il valore atteso <strong>di</strong> una stima ottenutada un campione <strong>di</strong> possibili risposte può essere considera·to come una approssimazione del valore vero.In questo modo la risposta In<strong>di</strong>viduale viene considerata comeuna variabile aleatoria e l'Insieme del valori che agnuna <strong>di</strong>esse può assumere costituisce l'universo delle risposte in<strong>di</strong>viduali.Tale universo deve essere caratterizzato con maggiore pre-v ...... <strong>di</strong> rI8poat1lan_


220 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATtCAP. 7 - LA STIMA DELL'ERRORE GLOBALE DI MISURA221clslone: In realtà si farà riferimento all'Insieme delle risposte ottenlblllsotto certe con<strong>di</strong>zioni che chiameremo essenziali.Queste con<strong>di</strong>zioni sono specificate dal <strong>di</strong>segno dell'Indaginee quin<strong>di</strong> vengono determinate nella fase <strong>di</strong> progettazione dell'Indaginestessa quando si stabiliscono, ad esempio, l'oggetto<strong>di</strong> analisi e Il criterio <strong>di</strong> raccolta delle Informazioni.Dal punto <strong>di</strong> vista del controllo degli errori <strong>di</strong> misura, si è Interessatialle con<strong>di</strong>zioni sotto le quali si svolge l'Indagine In quantoesse caratterizzano la situazione nella quale si ottiene la rispostaIn<strong>di</strong>viduale e quin<strong>di</strong> esercitano un'Influenza su <strong>di</strong> essa.Plli In particolare, la <strong>di</strong>storsione e la varlanza degli errori <strong>di</strong> misurapossono considerarsi determinate da tali con<strong>di</strong>zioni. Quin<strong>di</strong>è possibile ridurre la variabilità delle risposte In<strong>di</strong>viduali attravel'$Ole speclfl~lonl dell'lnctaglne anche se è Impossibileeliminarla completamente."Allora si definiscono con<strong>di</strong>zioni essenziali <strong>di</strong> un'Indagine quellevariabili che si cerca <strong>di</strong> mantenere costanti per tutti I casi inesame, cioè le con<strong>di</strong>zioni che si cerca <strong>di</strong> tenere sotto controlloattraverso l'Introduzione <strong>di</strong> regole uniformi e <strong>di</strong> opportune procedure.SI definisce l'errore <strong>di</strong> mlsu,a in<strong>di</strong>viduale come la <strong>di</strong>fferenzatra il valore osservato In una particolare Indagine e Il valore verodell'In<strong>di</strong>viduo.L'errore <strong>di</strong> misura In<strong>di</strong>viduale, come Il valore osservato, vieneconcepito come una variabile aleatoria con una sua <strong>di</strong>stribuzione<strong>di</strong> probabilità. Quin<strong>di</strong> l'errore <strong>di</strong> risposta <strong>di</strong> un partiCOlareIn<strong>di</strong>viduo In una particolare <strong>indagine</strong> avrà un valore atteso,checostituisce la <strong>di</strong>storsione <strong>di</strong> risposta In<strong>di</strong>viduale e una componentevariabile Intorno a questo valore, denominata deviazione<strong>di</strong> risposta In<strong>di</strong>viduale.La deviazione <strong>di</strong> risposta misura la <strong>di</strong>fferenza tra il valore attesoIn<strong>di</strong>viduale e Il valore vero, e <strong>di</strong> conseguenza l'Influenza dellecon<strong>di</strong>zioni essenziali, che caratterizzano l'Indagine, sùi risultatiosservati. Essa è quin<strong>di</strong> funzione, ad esempio, del criterio <strong>di</strong> raccoltadel dati adottato e del tipo <strong>di</strong> Intervlstator' scelti.Le fluttuazioni dell'errore Intorno al suo valor me<strong>di</strong>o, Invecesono Imputabili alle con<strong>di</strong>zioni particolari in cui si è effettuat~l'osservazione, ad esempio, al singoli Intervlstatorl scelti." "Allo stesso modo, una me<strong>di</strong>a o un aggregato <strong>di</strong> un Insieme, <strong>di</strong> risposte <strong>di</strong> In<strong>di</strong>vidui <strong>di</strong>fferenti saranno affetti da una <strong>di</strong>storsione<strong>di</strong> risposta e da una varlanza <strong>di</strong> risposta determinate dalle<strong>di</strong>storsioni e dalle varlanze In<strong>di</strong>viduali.Oltre agII effetti sopra menzionati, può esistere una corre/azionetra gli errori <strong>di</strong> risposta In<strong>di</strong>viduali relativi a persone <strong>di</strong>verse.Questo accade, ad esempio, nel caso <strong>di</strong> indagini con Intervista<strong>di</strong>retta, nelle quali Il rllevatore può Influenzare le risposte degliin<strong>di</strong>vidui da lui Intervistati.3. Un modello matematico per lo stu<strong>di</strong>o degli errori <strong>di</strong> misuraLa formalizzazione del problema me<strong>di</strong>ante un modello matematicopermette <strong>di</strong> evidenziare le conseguenze della presenza<strong>di</strong> errori <strong>di</strong> misura sulle stime finali e <strong>di</strong> mettere a punto delleprOcedure specifiche per quantlflcame gli effetti. Come già richiamatonel paragrafo 1, Il modello è utile per stimare l'erroreglobale <strong>di</strong> risposta e per evidenziare ,'Influenza <strong>di</strong> alcune fontispecifiche post, sotto controllo quali, ad esempio, Il rllevatoree Il rispondente, ma non consente <strong>di</strong> scindere l'errore totale nellesingole componenti che lo hanno generato.Il modello che viene descritto è Il plli noto ed utilizzato perlo stu<strong>di</strong>o degli errori <strong>di</strong> misura; è stato Introdotto da Hansen, Hurwltze Bershad (1961) ed è stato poi ripreso ed applicato da <strong>di</strong>fferentiautori, tra I quali Cochran (1977) e Fellegl (1963), (1964)e (1974), e dal U.S. Bureau of the Census che lo ha adottato perla valutazione degli errori <strong>di</strong> misura nel censimento della popolazione(cfr. U.S. Bureau of the Census, 1969) e per studlspeclflclsull'effetto rllevatore.Nel descrivere Il modello si farà riferimento ad una Indaginecampionaria, tuttavia I risultati ottenuti possono essere facilmenteestesi al caso <strong>di</strong> Indagini totali.Allo scopo <strong>di</strong> non appesantire eccessivamente la trattazione,si rimanda alla bibliografia per le <strong>di</strong>mostrazioni del risultati" presentati. "Le ipotesi che stanno alla base <strong>di</strong> questa formulazione matematicasono state dettagliatamente <strong>di</strong>scusse nel paragrafo precedentecomunque è necessario rlchlamarle brevemente per introdurreun'adeguata simbologia.Ipotesi del modello:• l'Indagine è ripeti bile sotto le stesse con<strong>di</strong>zioni essenziali;• le repllcazlonl del processo <strong>di</strong> misurazione sono tra loro In<strong>di</strong>pendenti;• esls~e un valore vero In<strong>di</strong>viduale che In<strong>di</strong>cheremo con 1'1/;• esiste un valore osse,rvato per l'I-eslmo In<strong>di</strong>viduo nella t-eslmarepllcazlone che In<strong>di</strong>cheremo con Ylt;


• l'errore <strong>di</strong> misura per l'i-esimo In<strong>di</strong>viduo nella t-eslma replicazlonesarà in<strong>di</strong>cato con e't.Sotto queste assunzioni, si ha:(7.1)owero il valore osservato <strong>di</strong> una variabile per l'I-eslmo In<strong>di</strong>viduonella t-eslma repllcazlone è composto dal valore vero In<strong>di</strong>vidualeIl, e da un e"ore <strong>di</strong> misura in<strong>di</strong>viduale e,t. Il valore vero In<strong>di</strong>viduale,(variabile da In<strong>di</strong>viduo a In<strong>di</strong>viduo secondo l'in<strong>di</strong>ce i), rimanecostante nelle <strong>di</strong>verse repllcazlonl, mentre l'errore, oltrea variare da In<strong>di</strong>viduo a In<strong>di</strong>viduo, è variabile al variare della repllcazlonedel processo <strong>di</strong> misurazione (In<strong>di</strong>ce t).DI conseguenza, sotto misurazioni ripetute sulla stessa unitàl, gli errori e't seguiranno una certa <strong>di</strong>stribuzione <strong>di</strong> frequenza.In particolare esisterà un valore me<strong>di</strong>o e una variabilità intornoa quest'ultimo, espressa dalla varlanza, che In<strong>di</strong>chiamo rispettivamentecon:bi = E(11c I i)q~ = V(e it I i)(7.2)(7.3)dove con E(e't II) si è In<strong>di</strong>cato Il valore atteso al variare della repllcazlonedel processo <strong>di</strong> misurazione sullo stesso in<strong>di</strong>viduo,cioè il valore atteso con<strong>di</strong>zionato all'l-eslma unità.Allora b, rappresenta la <strong>di</strong>storsione <strong>di</strong> risposta In<strong>di</strong>viduale,owero l'errore sistematico relativo alla l-eslma unità, mentre q~misura la <strong>di</strong>spersione intorno al valore me<strong>di</strong>o In<strong>di</strong>viduale.L'entità <strong>di</strong> bI e <strong>di</strong> q~ <strong>di</strong>pende principalmente dal tipo <strong>di</strong> variabileconsiderata e dal processo <strong>di</strong> misurazione adottato, ma puòessere Influenzata da numerosi altri fattori, quali ad esempio ilgrado <strong>di</strong> senslblllzzazione del rispondenti nel confronti dell'Indagine.La <strong>di</strong>fferenza tra l'errore <strong>di</strong> misura In<strong>di</strong>viduale e il suo valorme<strong>di</strong>o al variare della repllcazlone, costituisce la componentevariabile dell'errore o deviazione <strong>di</strong> risposta In<strong>di</strong>viduale, che in<strong>di</strong>chiamocon il simbolo d,t, owero:In base alle ipotesi fatte segue che:E(~ I i) = OV(~ I i) = E(d~ I i) = ~(7.5)(7.6)Finora è stato considerato l'errore <strong>di</strong> misura In<strong>di</strong>viduale, cioèrelativo ad una singola unità. OCCOIT$, però, esplicitare la relazioneche intercorre tra gli errori <strong>di</strong> misura <strong>di</strong> due unità <strong>di</strong>stinte.In effetti ci può essere una correlazione tra I valori dell'erroree't, owero tra le deviazioni <strong>di</strong> risposta dR' per <strong>di</strong>fferenti unitàappartenenti allo stesso campione. Il caso piò semplice <strong>di</strong> correlazionedegli errori è quello in cui esiste una <strong>di</strong>storsione dovutaall'lntervlstatore che si riflette su tutte le unità a lui assegnate.DI conseguenza non si può assumere l'In<strong>di</strong>pendenza tra errorirelativi ad In<strong>di</strong>vidui facenti parte della medesima assegnazione,anche se può Ipotlzzarsi l'In<strong>di</strong>pendenza tra assegnazioni <strong>di</strong>fferentI.Nel Sèguito saranno analizzati separatamente gli effetti <strong>di</strong> errori<strong>di</strong> misura incorrelati e <strong>di</strong> errori correlati, nel senso sopra esposto,sulla stima della me<strong>di</strong>a <strong>di</strong> una popolazione.A completamento del modello si assume l'esistenza <strong>di</strong> una<strong>di</strong>storsione costante, in<strong>di</strong>cata con B, che agisce su tutte le unitàdella popolazione. Si ipotizza, quin<strong>di</strong>, che l'errore sistematicob non si annulli In me<strong>di</strong>a, cioè che non esista una compensazionedegli errori <strong>di</strong> misura relativi a tutte le unità della popolazione.Da un punto <strong>di</strong> vista formale, quanto detto equivale ad assumereche:Dall'espressione precedente deriva l'esistenza <strong>di</strong> una componentevariabile della <strong>di</strong>storsione, rappresentata dalla <strong>di</strong>fferenzab, - B. Questa componente ha me<strong>di</strong>a zero. ma può risultare correlatacon Il valore vero Il,; ad esempio il processo <strong>di</strong> misurazionepuò essere tale da sottostimare valori gran<strong>di</strong> <strong>di</strong> p, e da sovrastimarevalori piccoli.La conseguenza delle assunzioni fatte sull'errore <strong>di</strong> misurain<strong>di</strong>viduale è che, pur replicando le misurazioni sull'In<strong>di</strong>viduo, Ilvalore atteso In<strong>di</strong>viduale non coincide con Il valore vero per effettodella <strong>di</strong>storsione b,.lnfatti dalla (7.1) e dalla (7.2) si ottiene:(7.4)(7.7)


224 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 7 • LA STIMA DELI!ERRORE GLOBALE DI MISURALa quantità mi è concettualmente Il valore atteso <strong>di</strong> rispostarelativo all'i-esimo In<strong>di</strong>viduo, calcolato sulle possibili ripetizionidel processo <strong>di</strong> misurazione.Come si vede dalla (7.7),11 valore atteso m <strong>di</strong>fferisce, per effettodegli errori <strong>di</strong> misura, dal valore vero p, <strong>di</strong> una quantità pariall'errore me<strong>di</strong>o bi.Inoltre, sostituendo nell'espressione (7.4) le formule (7.1) e(7.7), si può esprimere la deviazione <strong>di</strong> risposta In<strong>di</strong>viduale, ovverola componente variabile dell'errore, come la <strong>di</strong>fferenza tran valore osservato e valore atteso:(7.8)Nel Prospetto 7.1 si riporta uno schema riassuntivo delle componentidell'errore <strong>di</strong> misura In<strong>di</strong>viduale Introdotte con I relativisimboli, valori attesi e varlanze.Prospetto 7.1 - Errore <strong>di</strong> misura in<strong>di</strong>viduale e sue componentiSimboloNatura della componenteValore att880e varlanzaelt = Ylt - l'I Errore <strong>di</strong> mlaura E(elt Il) = biIndlvlduaie V(elt I I) = 11~può essere:Cov(elt, elt) ~ OFellegl (1964 e 1974) alcuni modelli matematici a cui si rimandaper eventuali approfon<strong>di</strong>mentI. .Tuttavia è opportuno segnalare che I tipi <strong>di</strong> correlazione ritenutipiO comuni, In base agli stu<strong>di</strong> effettuati, sono rappresentatida questo modello o possono esserlo me<strong>di</strong>ante lievi modlflcazionl(cfr. Cochran, 1977).Allo scopo <strong>di</strong> esplicitare Il modello e <strong>di</strong> evidenziare gli effettidegli errori <strong>di</strong> misura sulle stime finali <strong>di</strong> un'Indagine, supponiamo<strong>di</strong> voler stimare la me<strong>di</strong>a p. <strong>di</strong> una popolazione <strong>di</strong> N elementime<strong>di</strong>ante un campione (casuale semplice) <strong>di</strong> n elementi, dove:1 Np.=-E",N i=1In base alle Ipotesi finora fatte, Il valore osservato pel'l'l-eslmoin<strong>di</strong>viduo nella t-eslma repllcazlone può scrlversl, per la (7.8):(7.9)La <strong>di</strong>fferenza tra Il valore osservato Ylt e la me<strong>di</strong>a della popolazionepuò essere espressa nel seguente modo:(7.10)Effetti "'1 ... IIIma- ....... tIIIIa.......... 111_papal."_IIIi1ldlt = elt - bi Deviazione <strong>di</strong> risposta E(dlt II) =0= Ylt-ml in<strong>di</strong>viduale o componente V(dlt I I) = 11~variabile dell'errorepuò essere:E(dn <strong>di</strong>t> ~ Obl=ml-I'I Distorsione <strong>di</strong> risposta E(b~ = BIn<strong>di</strong>vidualeBDistorsione costante su tuttele unitàbl - B Componenta verlabile E(bl-B)=0della <strong>di</strong>storsionepuò essere:Cov(bl - B, l'~ ~ OAllo scopo <strong>di</strong> esaminare situazioni piO complesse (ad es. l'Influenza<strong>di</strong> supervlsori, co<strong>di</strong>ficatori, ecc.), sono stati sviluppati dadove M è la me<strong>di</strong>a, calcolata nella popolazione, del valori attesiIn<strong>di</strong>viduali mi' owero:1 NM=-E~N lal(7.11)La (7.10) esplicita la <strong>di</strong>fferenza tra Il valore osservato In unaparticolare <strong>indagine</strong> per un dato In<strong>di</strong>viduo e la me<strong>di</strong>a della popolazione,nella somma <strong>di</strong> tre componenti:• la deviazione <strong>di</strong> risposta In<strong>di</strong>viduale, che rappresenta la <strong>di</strong>fferenzatra Il valore osservato e Il valore atteso per l'In<strong>di</strong>viduo I;• la <strong>di</strong>fferenza tra Il valore atteso In<strong>di</strong>viduale e Il suo valor me<strong>di</strong>ocalcolato su tutte le unità della popolazione;• la <strong>di</strong>fferenza, dovuta alla <strong>di</strong>storsione, tra Il valore me<strong>di</strong>o dellerisposte attese e la me<strong>di</strong>a della popolazione.


IL SISTEMA DI CONTROLLD DELLA QUALITÀ DEI DATICAR 7 • LA STIMA DELI!ERRORE GLOBALE DI MISURA227Se si considera <strong>di</strong> aver osservato un campione casuale <strong>di</strong> n. unità, allora si avrà un'esprasslone analoga alla (7.10) per ciascunadelle unità del campione e facendone la me<strong>di</strong>a campionaria siottiene:(7.12)le quali rappresentano rispettivamente:• la varlanza <strong>di</strong> risposta, dovuta alla variabilità nelle risposte alvariare delle repllcazlonl, data da:(7.14)dove:_1 DYt = - E YitD I_I1 Dc\=-E~DI_I1 Diii=-EIntD i-I .Nell'espressione (7.12), l'enol8 totale della stima, ovvero, la<strong>di</strong>fferenza tra la me<strong>di</strong>a campionaria e la me<strong>di</strong>a della popolazioneè attribuibile, rispettivamente:• all'errore <strong>di</strong> misura variabile, espresso da a.;• all'errore campionario, misurato dalla <strong>di</strong>fferenza CiTI - M);• e alla <strong>di</strong>storsione o errore sistematico, espresso da CM - ,,).La formula (7.12) costituisce la base per calcolare l'errore quadratlcome<strong>di</strong>o della stima della me<strong>di</strong>a, Il cui quadrato sarà In<strong>di</strong>catocon Il simbolo MSE(9J:• la varlanza campionaria, espressa da:• Il quadrato della <strong>di</strong>storsione complessiva, uguale a:D 2 = (M - ,,)2 (7.16)• Il dopp10 della covarianza tra la deviazione <strong>di</strong> risposta e /I valoreatteso <strong>di</strong> risposta, dovuta all'lnterazlone tra errori campionaried errori <strong>di</strong> risposta, ovvero:2Cov(c\, iii) = 2E(


230 IL SISTEMA DI CONTROLlO DELLA QUAUTÀ DEI DATICAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA231<strong>di</strong> risposta che quelli campionari, a con<strong>di</strong>zione che la frazione<strong>di</strong> campionamento f = nlN sia trascurabile.se gli errori <strong>di</strong> misura, relativi a due <strong>di</strong>stinte unità appartenentiallo stesso campione, sono Incorrelati, si ha:(7.21)Sotto questa assunzione, si <strong>di</strong>mostra che la varlanza <strong>di</strong> risposta,definita dalla (7.14), assume la seguente espressione:(7.22)dove a~ è il valor me<strong>di</strong>o nella POPolazione delle varlanze <strong>di</strong> rispostaIn<strong>di</strong>viduale ar, date dalla (7.6), ovvero:l N~=NEa~l-t(7.23)l'espresslone (7.22) è calcolata effettuando prima Il valore attesoal variare delle repllcazlonl e quin<strong>di</strong> Il valore atteso al variaredel possibili campioni.se gli errori <strong>di</strong> misura sono Incorrelatl, la (7.22) rappresentaIl contributo della varlanza degli errori <strong>di</strong> misura alla varlanza totaledello stlmatore YI.La varlanza <strong>di</strong> risposta si riduce, all'aumentare della numerosltàcampionaria, In proporzione al fattore 1/n, a <strong>di</strong>fferenza della<strong>di</strong>storsione <strong>di</strong> risposta che, come abbiamo visto In precedenza,è In<strong>di</strong>pendente dal numero <strong>di</strong> osservazioni effettuate.Notiamo Inoltre che l'espressione (7.22) rimane valida ancheper Indagini totali, posto n=N.Come è noto, la varlanza campionaria dello stlmatore Yt, definitadalla (7.15), è uguale a:N-D l .N-DD ma 2 = E(iii - M)2 = --- ~iii(7.24)poiché stiamo considerando un campione casuale semplice senzarelmmlsslone. Con a 2 si è In<strong>di</strong>cata la varlanza nella popolazionedel valori attesi dT risposta mi' definiti dalla (7.7), cioè:l Na~ = - E (1Dt - M)2N i-t(7.25)La varlanza totale della me<strong>di</strong>a campionaria è quin<strong>di</strong> data da:(7.26)come si verifica facilmente, sostituendo la (7.22) e la (7.24) nellaespressione (7.20) e trascurando la covarianza tra devlazlànl <strong>di</strong>risposta e valori attesi <strong>di</strong> risposta.Consideriamo ora Il problema <strong>di</strong> stimare la varlanza totale <strong>di</strong>Y I , sulla base del dati campionarI. Lo stlmatore usuale, in assenza<strong>di</strong> errori <strong>di</strong> misura, è:(7.27)Se le osservazioni sono affette da errori <strong>di</strong> risposta, dalla (7.9)si ha:e sostituendo queste espreSSioni nella (7.27) si <strong>di</strong>mostra che:(7.28)Dal confronto tra la (7.28) e la (7.26) si evince che S2 è unostlmatore corretto della varlanza totale della me<strong>di</strong>a se la frazione<strong>di</strong> campionamento f è trascurabile; questo risultato è esten<strong>di</strong>bileanche a campioni stratlflcatl, (cfr. Giusti, 1969).Possiamo concludere che, per popolazioni sufficientementegran<strong>di</strong> e per campioni sia semplici che compiessi, le formuleusuali per Il calcolo degli errori campionari delle stime rlspecchianaanche l'effetto degli errori <strong>di</strong> misura, se tali errori sonoIncorrelatJ.I risultati appena illustrati sono riportati, a scopo riassuntivo,nel Prospetto 7.3.'.


232 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 1 • LA STIMA DELL'ERRORE GLOBALE DI MISURA233Prospetto 7.3 - Varianza totale della me<strong>di</strong>a, sue componenti e stimatorenell'Ipotesi <strong>di</strong> errori <strong>di</strong> misura IncorrelatiSimboloNome della componentere l'aumento <strong>di</strong> variabilità delle stime causato dalla presenza <strong>di</strong>errori <strong>di</strong> misura correlati; I principali meto<strong>di</strong> saranno <strong>di</strong>scussi nelparagrafi seguenti.Se gli errori sono correlati, la varianza <strong>di</strong> risposta assume laseguente espressione:2 1 2 N-n1 2(1- = -(I + ---(Iy. n d N _ 1 n mVarianza totaleVarlanza <strong>di</strong> rispostadove (I~ è definito dalla (7.23), e:2 N-n1 2N-1n m(1-=---(1mVarlanza campionaria(7.30)s; = (!.=..!l i; (Yn - 1t• n n-11=1f = O.Stlmatore usuale della varlanzatotaleStimatore corretto se la frazione<strong>di</strong> campionamento ètrascurabileLa situazione che si verifica più frequentemente nella praticaè quella In cui esiste una correlazione tra gli errori <strong>di</strong> misurarelativi a unità campionarie <strong>di</strong>stinte.Tale correlazione può sorgere per <strong>di</strong>versi motivi, tuttavia nelleindagini per Intervista <strong>di</strong>retta, la causa principale è la presenza<strong>di</strong> un Intervistatore comune a più In<strong>di</strong>vidui. Infatti l'Interpretazione<strong>di</strong> una domanda,la non comprensione o la non osservanza<strong>di</strong> alcune Istruzioni, la tendenza ad accettare le non-risposte sonosolo alcune delle caratteristiche proprie del rllevatore che InfluenzanoI valori osservati, introducendo una correlazione tra glierrori relativi ad In<strong>di</strong>vidui facenti parte della stessa assegnazione.La conseguenza <strong>di</strong>retta dell'esistenza <strong>di</strong> una correlazione Intracamplonarladegli errori è un aumento della variabilità dellestime. Inoltre non è piO possibile tenere conto dell'e,fetto deglierrori <strong>di</strong> misura con le formule abituali per Il calcolo della varlanzacampionaria, come accade Invece sotto l'Ipotesi <strong>di</strong> errorllncor·relatl. SI <strong>di</strong>mostra, Infatti, che la varlanza campionaria stimatadal dati osservati nel modo tra<strong>di</strong>zionale, costituisce una sottostimadella variabilità complessiva <strong>di</strong> uno stlmatore. SI rende quin·<strong>di</strong> necessario <strong>di</strong>sporre <strong>di</strong> meto<strong>di</strong> <strong>di</strong> stima appropriati per valuta-è il coefficiente <strong>di</strong> correlazione Interna tra le deviazioni <strong>di</strong> rispostaIn<strong>di</strong>viduali In una data Indagine o In una data prova.La var/anza <strong>di</strong> risposta totale, (7.29), quin<strong>di</strong> è la somma <strong>di</strong> duecomponenti denominate, rispettivamente, var/anza <strong>di</strong> rispostasemplice e componente correlata della varlanza <strong>di</strong> risposta totale.La varlanza <strong>di</strong> risposta semplice rappresenta la varlanza deglierrori <strong>di</strong> misura In<strong>di</strong>viduali e <strong>di</strong>minuisce al crescere della numerositàcampionarla.La componente correlata, Invece, misura l'effetto della correlazionetra gli errori <strong>di</strong> risposta relativi a In<strong>di</strong>vidui <strong>di</strong>versi e non<strong>di</strong>pende dal numero <strong>di</strong> osservazioni effettuate. Quando la correlazioneinterna è dovuta principalmente all'effetto rllevatore, allorala componente correlata è funzione della assegnazione degllintervistatorie può essere ridotta <strong>di</strong>minuendo Il numero <strong>di</strong> Indlvldullntervlstatlda una stessa persona, a parità <strong>di</strong> <strong>di</strong>mensionecampionaria. Infatti se a ciascuno del k Intervlstatorl vieneassegnato un numero n' <strong>di</strong> rispondenti, I" modo che sia n = n'k,la varlanza <strong>di</strong> risposta totale <strong>di</strong>venta: .l (n' l)(I~ = - (lz + ---- n (lz'" n d n" d(~.31)La (7.31) è equivalente alla (7.29) nel caso In cui c'è un solointervlstatore (k= 1, n' = n); mentre all'altro estremo, la varlanza<strong>di</strong> risposta è minima quando a ciascun Intervlstatore viene assegnatauna sola persona (k = n, n' = 1): In questo caso Infatti lacorrelazione Intracamplonarla è nulla e la (7.31) si rlduc8 all'espresslone(7.22) relativa a errorllncorrelatl.Espressioni analoghe alla (7.31) possono essere utilizzate peranalizzare anche altri tipi <strong>di</strong> correlazione Intracamplonarla tra er-


IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 7 - LA STIMA DELL'ERRORE GLOBALE DI MISURA235rorl <strong>di</strong> risposta, ad esempio la correlazione attribuibile ai supervisori o alla registrazione.J!: opportuno segnalare l'Importanza del coefficiente <strong>di</strong> correlazioneInterna Q, definito dalla (7.30); Infatti anche valori relativamentepiccoli <strong>di</strong> Q possono avere considerevoli effetti sullavarlanza <strong>di</strong> risposta totale. Se, ad esempio, Q = 0.01 e n = 2000,allora la varlanza <strong>di</strong> risposta risulta aumentata <strong>di</strong> circa 20 volte,ovvero del 20000/0, per effetto della correlazione Interna, rispettoal caso in cui Q = O. Quin<strong>di</strong> anche se la varlanza <strong>di</strong> rispostasemplice non è molto elevata, la varlanza <strong>di</strong> risposta totale puòrisultare molto grande a causa della correlazione Interna deglierrori.La varlanza totale della me<strong>di</strong>a campionaria Yt è uguale a:slderate pii! precise <strong>di</strong> quanto non siano effettivamente, a meno<strong>di</strong> non utilizzare meto<strong>di</strong> <strong>di</strong> stima adeguati a tenere conto dellacorrelazione Interna degli errori.Nel Prospetto 7.4 sono schematlzzatl gli effetti, sulla stimadella me<strong>di</strong>a, <strong>di</strong> errori <strong>di</strong> misura correlati all'Interno del campione.Prospetto 7.4 - Varlanza totale della me<strong>di</strong>a, sue componenti e stlmatorenell'Ipotesi <strong>di</strong> errori <strong>di</strong> misura correlatiSimboloNome della componente2 1 2 (1 ( 1» N - n 2u_ = - ud + n - Cl + (N 1) um Varlanza totaleY, n - nO'~ = !. O'~ (l + (D _ l) Q) + N - D!. 0'2" D d N-In m(7.32)1 -2 (n - 1)u~ = - Il:< + --- Cl 0'2d, n d n dVarlanza <strong>di</strong> rispostacome si verifica facilmente, sostituendo la (7.29) e la (7.24) nellaespressione (7.20) e trascurando la covarianza tra deviazioni <strong>di</strong>risposta e valori attesi <strong>di</strong> risposta.Nel caso <strong>di</strong> Indagini totali, la varlanza camplnarla, (7.24), ènulla e la varlanza dello stlmatore si riduce alla varlanza <strong>di</strong> risposta,(7.29), posto n = N.Come abbiamo accenn.ato In precedenza, la formula usualeper stimare la varlanza della me<strong>di</strong>a campionaria non riflette l'effettodegli errori <strong>di</strong> misura nelle osservazioni. Infatti lo stimatoreS~, dato dalla (7.27), ha Il seguente atteso:Y,E(S!) = (l - O (O'~ (l - (2» + NN - DI!. U!,'. n - n(7.33)Confrontando questo valore atteso con la varlanza totale <strong>di</strong>Y t , data dalla (7.32), si vede che lo stlmatore S9 è <strong>di</strong>storto e lasua <strong>di</strong>storsione è pari a:I(7.34)se la frazione <strong>di</strong> campionamento f è trascurabile.Poiché è verosimile supporre che la correlazione tra gli errorisia positiva, allora la varlanza campionaria stimata con la formulausuale è una sottostlma della varlanza complessiva <strong>di</strong> unostlmatore. DI conseguenza le stime campionarie vengono con-E(S~) - u~ = - Cl u~Y, Y,4. Meto<strong>di</strong> <strong>di</strong> stima degli errori <strong>di</strong> misuraVarlanza campionariaCoefficiente <strong>di</strong> correlazioneInterna tra deviazioni<strong>di</strong> rispostaStlmatore usuale dellavarlanza totaleDistorsione dello stlmatoreNel paragrafo 3 è stato descritto Il modello matematico chepermette <strong>di</strong> evidenziare l'effetto degli errori <strong>di</strong> misura su una stimacampionaria quale la me<strong>di</strong>a aritmetica.Come abbiamo visto le principali conseguenze della presenzadeQII errori <strong>di</strong> misura sono:• l'Introduzione <strong>di</strong> una <strong>di</strong>storsione, denominata <strong>di</strong>storsione <strong>di</strong>risposta, nelle stime campionarie;


236 IL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA237• l'aumento <strong>di</strong> variabilità espresso dalla varlanza <strong>di</strong> risposta totale,delle stime campionarie.Inoltre è stato <strong>di</strong>mostrato che se esiste una <strong>di</strong>storsione costanteB che agisce su tutte le unità allora anche la me<strong>di</strong>a risulta<strong>di</strong>storta <strong>di</strong> una quantità B la quale non è stlmabile a partiredal dati campionari.La varlanza <strong>di</strong> risposta, invece, è stimablle dalle osservazionicampionarie solo nel caso in cui è nulla la correlazione tra errori<strong>di</strong> misura <strong>di</strong> unità appartenenti allo stesso campione. In questocaso, infatti, lo stlmatore usuale della varianza della me<strong>di</strong>ariflette sia gli errori <strong>di</strong> campionamento sia quelli <strong>di</strong> risposta, (cfr.la 7.28). .Questa situazione, tuttavia, è piuttosto teorica, poiché nellapratica tale correlazione Interna può essere causata dalla presenzadllntervlstatorl comuni a un gruppo <strong>di</strong> unità campione nelleindagini per Intervista <strong>di</strong>retta, oppure da altri agenti che eseguonole operazioni <strong>di</strong> registrazione o <strong>di</strong> co<strong>di</strong>fica su uno stesso Insieme<strong>di</strong> questionari. .Se gli errori <strong>di</strong> misura sono correlati allora la varlanza <strong>di</strong> rispostatotale è la somma <strong>di</strong> due adden<strong>di</strong>: la varianza <strong>di</strong> rispostasemplice, che esprime la variabilità dovuta agli errori <strong>di</strong> misura,e la componente correlata che misura l'effetto della correlazioneInterna degli errori, (cfr. la 7.29). Inoltre non è più possibilestimare correttamente l'aumento <strong>di</strong> variabilità causato dagli errori<strong>di</strong> risposta con I dati del campione. La varlanza della me<strong>di</strong>astimata con la formula tra<strong>di</strong>zionale, Infatti, sottostlma quella totalepoiché non tiene conto, In maniera esatta, della correlazioneinterna, come la (7.34) <strong>di</strong>mostra.È necessario, quin<strong>di</strong>, pre<strong>di</strong>sporre delle <strong>tecniche</strong> che consentano<strong>di</strong> tenere conto anche degli errori <strong>di</strong> misura se si voglionofornire delle in<strong>di</strong>cazioni esatte sulla precisione dei dati forniti agIIutenti.La conoscenza dell'entità degli errori <strong>di</strong> risposta e l'analisidelle fonti che li hanno generati permette, inoltre, <strong>di</strong> intervenirenel processo <strong>di</strong> produzione dei dati allo scopo <strong>di</strong> migllorarne laqualità;Occorre, tuttavia, sottolineare che gli errori <strong>di</strong> risposta <strong>di</strong>pendonosia dal processo <strong>di</strong> misurazione adottato (questionario, tipo<strong>di</strong> Indagine scelto, agenti impiegati) sia dal tipo <strong>di</strong> variabileoggetto <strong>di</strong> stu<strong>di</strong>o; <strong>di</strong> conseguel1l8 raramente i risultati sugli errori<strong>di</strong> misura <strong>di</strong> una <strong>indagine</strong> possono essere applicati ad un'altra.Il confronto tra I risultati ottenuti per rllevazioni <strong>di</strong>fferenti può,comunque, risultare molto utile per analizzare le fonti <strong>di</strong> erroreed in<strong>di</strong>viduare i miglioramenti più adatti da apportare.Nei prossimi paragrafi saranno analizzati e confrontati i dueprincipali meto<strong>di</strong> <strong>di</strong> stima degli errori <strong>di</strong> misura: la re/ntervlstae la compenetrazione del campione. Con " primo è possibile stimarela <strong>di</strong>storsione o, In alternativa, la varlanza <strong>di</strong> risposta, mentre" secondo consente <strong>di</strong> stimare solo la variabilità <strong>di</strong> risposta. Lacompenetrazione del campione, però, non altera Il costo <strong>di</strong> una<strong>indagine</strong> In quanto si risolve In fase <strong>di</strong> predlsposlzlone del campione,men~re la relntervlsta che consiste nella repllcazlone dell'Indagineo <strong>di</strong> una parte <strong>di</strong> essa, può risultare molto costosa eanche piuttosto lunga.Saranno, Inoltre, sottolineati I problemi organlzzatlvl che ciascunmetodo comporta e le con<strong>di</strong>zioni che devono essere rispettateper una corretta applicazione e, <strong>di</strong> conseguenza, per una correttautilizzazione delle due <strong>tecniche</strong> esaminate.A titolo illustrativo della teoria esposta, si riportano, In appen<strong>di</strong>ce,i risultati relativi alla applicazione della tecnica dellacompenetrazione del campione all'Indagine <strong>Istat</strong> sugli sport e sullevacanze del 1985.5. Il metodo della relnlervlstaIl metodo della relntervista consiste nel replicare l'Indagineo parte <strong>di</strong> essa sotto le stesse con<strong>di</strong>zioni generali, ma variandole con<strong>di</strong>zioni particolari <strong>di</strong> cui si vuole stu<strong>di</strong>are l'Influenza sullaqualità dei dati rilevati.Con questo metodo è pOSSibile stimare:• la <strong>di</strong>storsione <strong>di</strong> risposta <strong>di</strong> uno stimatore quale la me<strong>di</strong>a campionaria;• la varlanza <strong>di</strong> risposta totale della me<strong>di</strong>a e le sue componentie valutare Il contributo relativo degli errori <strong>di</strong> ",Isura alla varlanzacampionaria dello stimatore.I due obiettivi non sono però conciliabili; per stimare la <strong>di</strong>storsione,infatti, è necessario adottare un processo <strong>di</strong> misurazionepiù preciso dell'Indagine originaria, mentre per ottenere unastima della varianza <strong>di</strong> risposta è necessaria una repllcazlone in<strong>di</strong>pendentedell'Indagine sotto le stesse con<strong>di</strong>zioni generali.Se l'obiettivo è la stima della varlablllt~ <strong>di</strong> risposta dovuta,·ad esempio all'impiego degli Intervlstatorl, owero la stima dell'effettoIntervlstatore allora la reintervlsta deve essere condottada persone <strong>di</strong>verse da quelle dell'Indagine originaria, ma dellastessa abilità, esperienza e con il medesimo addestramento,


IL lilSfEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA239lasciando Inalterati tutti gli altri aspetti quali Il questionario. laco<strong>di</strong>fica. la registrazione. I controlli automatici <strong>di</strong> correzione ecosi via. In questo modo si ottengono per ciascun In<strong>di</strong>viduo duemisurazioni In<strong>di</strong>pendenti ed equivalenti. in quanto rilevate sottole stesse con<strong>di</strong>zioni generali; la <strong>di</strong>fferenza tra I due valori osser·vatl consente <strong>di</strong> valutare l'lnfluenza delle mutate con<strong>di</strong>zioni particolariquali gli Intervlstatorl. In maniera analoga possono essereanalizzati. ad esempio. gli effetti degli errori <strong>di</strong> co<strong>di</strong>fica o<strong>di</strong> registrazione. a parità delle altre con<strong>di</strong>zionI.Se. Invece. l'oblettlvo è la stima della <strong>di</strong>storsione <strong>di</strong> rispostaallora la relntervlsta deve essere pre<strong>di</strong>sposta allo scopo dllndlvlduare" valore vero; sono. quin<strong>di</strong>. necessari degli accorgimentispecifici I quali. mutando le con<strong>di</strong>zioni generali dell·intervista.non consentono <strong>di</strong> utilizzare I risultati per stimare la variabilità<strong>di</strong> risposta.A tal fine si può replicare l'lndaglne con riconciliazione dellerisposte: con questo metodo 1\ rllevatore è fornito. durante la relntervlsta.delle risposte originarie e In caso <strong>di</strong> <strong>di</strong>scordanza cerca<strong>di</strong> appurare con l'aluto del rispondente quale sia la risposta vera.Con questa tecnica è possibile controllare la rete <strong>di</strong> rilevazlonee valutare la parte <strong>di</strong> <strong>di</strong>storsione dovuta all'lntervistatorese. durante la riconciliazione. si tenta l'attrlbuzione al rilevato reo al rispondente delle <strong>di</strong>fferenze riscontrate. separando. cosi. ledue possibili cause <strong>di</strong> errore. Se. Inoltre. sono previsti del quesitisul motivo <strong>di</strong> tali <strong>di</strong>fferenze e sulla conduzione dell'Intervistaoriginaria, si possono evidenziare alcune fonti <strong>di</strong> errore. quali adesempio carenze nel questionario o nelle Istruzioni fornite agliIntervlstatorl.Altri meto<strong>di</strong> per ottenere, nella relntervista, una misurazioneaccurata da poter assumere come valore vero possono. ad esempio,essere l'utlllzzazione <strong>di</strong> un questionario più dettagliato condomande <strong>di</strong> controllo. l'Impiego <strong>di</strong> Intervlstatorl più esperti cheabbiano ricevuto un addestramento migliore ed Istruzioni più particolareggiateo una mistura <strong>di</strong> questi accorgimenti.t: Interessante riportare. a titolo <strong>di</strong> esempio, Il programma <strong>di</strong>relntervlste per l'lndaglne sulle fol'%8 <strong>di</strong> lavoro svolto da StatlstlcsCanada con Il duplice scopo <strong>di</strong> quantificare l'effetto degli errori<strong>di</strong> misura e <strong>di</strong> controllo della rete <strong>di</strong> rllevazlone e dell'aggiornamentodelle liste (delle abitazioni). La relntervlsta è condotta daIntervlstatorl esperti (senlor Intervlewers) seguendo la stessa proceduradella rllevazlone delle forze <strong>di</strong> lavoro e riguarda un sotto-,campione dell'Indagine. In due terzi <strong>di</strong> esso la reintervlsta è effettuatacon riconciliazione delle risposte. mentre nel rimanenteterzo vengono rilevate le risposte fornite senza alcun proces-so <strong>di</strong> riconciliazione. Assumendo che dal sottocamplone con riconciliazionesi ottengano i valori veri e che le relntervlste senzariconciliazione siano una repllcazlone In<strong>di</strong>pendente delle intervisteoriginarie. allora due terzi delle reinterviste fornisconouna stima della <strong>di</strong>storsione e un terzo una stima della variabilità<strong>di</strong> risposta. Il sottocamplone con riconciliazione viene utilizzatoanche per il controllo della rete <strong>di</strong> rllevazlone; durante Il processo<strong>di</strong> riconciliazione. Infatti, l'lntervlstatore esperto cerca <strong>di</strong> appurarese le <strong>di</strong>fferenze riscontrate devono essere attribuite al rllevatoreo al rispondente e il motivo della <strong>di</strong>screpanza (ad esempioerrori nella procedura o non comprensione del queSiti). Questeinformazioni vengono riportate su un apposito modello. (<strong>di</strong>scussoinsieme all'lntervlstatore). che co~ste <strong>di</strong> quattro partiprincipali: la prima riporta Il grado <strong>di</strong> aggiornamento delle listedelle abitazioni; la seconda gli errori dell'lntervlstatore emersidurante la riconciliazione e i risultati delle consultazioni; la terzaIl giu<strong>di</strong>zio complessivo dell'intervistatore esperto sulla conduzionedell'intervista da parte del rilevatore sottoposto a controllo;la quarta il giu<strong>di</strong>zio e le raccomandazioni del supervlsoreche segue l'intervistatore esperto.I risultati otteniblll con il metodo della relntervlsta sono influenzatidalla scelta dell'intervallo temporale che separa le dueindagini. Infatti se sono troppo ravvicinate. I risultati della reintervistasono con<strong>di</strong>zionati da quelli originari In quanto l'lntervlstatoricorda le risposte date In precedenza e tende a ripeterlenella relntervlsta anche se incorrette. Un Intervallo <strong>di</strong> tempo troppolungo. tuttavia. crea notevoli <strong>di</strong>fficoltà poiché risulta <strong>di</strong>fficilefornire delle risposte precise con riferimento a situazioni lontanenel tempo; Inoltre l'incidenza dell'intervallo temporale è collegataal tipo <strong>di</strong> variabile considerata. CItiamo a titolo <strong>di</strong> esempioalcune esperienze effettuate negli Stati Uniti. (cfr. Ballar. 1968).dalle quali risulta un Intervallo <strong>di</strong> tempo ottlmale. per alcune variabili.<strong>di</strong> circa tre mesi.Per le indagini correnti. essendo troppo lungo e complessodal punto <strong>di</strong> vista organlzzatlvo. replicare totalmente la rllevazlone.si ricorre alla relntervlsta <strong>di</strong> un sottocamplone <strong>di</strong> <strong>di</strong>mensionen' (con n' < n) dell'Indagine originaria; gli stlmatorl che cosisi otterranno possono essere facilmente rlcondottl al caso In cuin·=n.In questo modo per ciascuna delle n' unità reintervistate si<strong>di</strong>spone <strong>di</strong> due valori osservati che in<strong>di</strong>chiamo con:YiI e YIl (i = l •... ,n')


240IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATIICAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA241dove Il sottoscritto 1 si riferisce all'Indagine originaria e Il sottoscritto2 alla repllcazlone; Inoltre siano:Si <strong>di</strong>mostra che, si veda Hansen, Hurwitz e Bershad (1961),il valore atteso <strong>di</strong> C è pari a:1E(C) = -; a~ (1 + (n' - 1) Q)n(7.36)StIma della<strong>di</strong> .........le me<strong>di</strong>e campionarie nelle due rllevazlonl, relative alle n'unitàIn comune nelle due Indagini.Se la relntervlsta è stata condotta con riconciliazione o se,comunque, si può assumere che sia più accurata dell'Indagineoriginaria allora una stima corretta della <strong>di</strong>storsione B, definitadalla (7.18), è data semplicemente da:se sono sod<strong>di</strong>sfatte .Ie seguenti ipotesi:1111; = :zDli(7.37)SUma ...... .......<strong>di</strong> ...... ......owero dalla <strong>di</strong>fferenza tra le due me<strong>di</strong>e campionarie.Se la relntervlsta è stata effettuata sotto le stesse con<strong>di</strong>zionigenerali e se ogni In<strong>di</strong>viduo del secondo campione è stato Intervistatodaun rllevatore <strong>di</strong>verso da quello che aveva condottola prima Indagine allora la <strong>di</strong>fferenza tra le me<strong>di</strong>e campionarlenelle due Indagini costituisce la base per stimare la varlanza <strong>di</strong>risposta totale, definita dalla (7.29). A tale scopo In<strong>di</strong>chiamo conC la seguente espressione:C _i In - \1- 2 V'l - Y'lI (7.35)C misura la variabilità tra gllintervistatori poiché corrispondealla varianza tra le me<strong>di</strong>e delle due Indagini ed ha un solo grado<strong>di</strong> libertà. La (7.35) è un caso particolare, con m = 2, dello stlmatorerelativo a m repll~lonl In<strong>di</strong>pendenti dell'Indagine:1 IDC = -- t" (Y _ j)1m-l"" tt-lcon (m -1) gra<strong>di</strong> <strong>di</strong> libertà e con y uguale alla me<strong>di</strong>a generale.owero se rispettivamente:• i valori attesi <strong>di</strong> risposta. cfr. la (7.7), relativi allo stesso indlvi­~uo sono uguali In entrambe le Indagini;• la varlanza <strong>di</strong> risposta semplice è uguale nelle due Indagini;• Il coefficiente <strong>di</strong> correlazione Interna tra deviazioni <strong>di</strong> risposta,dato dalla (7.30), è uguale due Indagini;• la covarianza tra deviazioni <strong>di</strong> risposta delle due Indagini ènulla.Notiamo che le prime tre ipotesi sono sod<strong>di</strong>sfatte se le duerilevazlonl sono state condotte sotto le stesse con<strong>di</strong>zioni gen.rali, mentre per la quarta è necessaria l'In<strong>di</strong>pendenza tra le dueprove. In realtà è presumibile che cl sia una correlazione positivatra gli errori <strong>di</strong> misura poiché l'In<strong>di</strong>viduo, ricordando le rispostefornite In precedenza, tende a rlpeterle, anche se errate. Qua:sto effetto può essere ridotto aumentando l'Intervallo <strong>di</strong> tempoche separa le due Indagini; In questo modo, tuttavia, si può pr:odurreun aumento della <strong>di</strong>storsione delle stime e un aumento dellavariabilità <strong>di</strong> risposta nella relntervlsta, causati dall'Insorgere <strong>di</strong>problemi <strong>di</strong> memoria da parte del rispondente. Le due prove possono,Invece, considerarsi In<strong>di</strong>pendenti se la repllcazlone è finalizzata,ad esempio, a valutare l'effetto <strong>di</strong> errori <strong>di</strong> co<strong>di</strong>fica o<strong>di</strong> registrazione e si Impiegano agenti della stessa abilità che nonhanno accesso al lavoro svolto precedentemente da altri e nonpossono esserne influenzati.


II_ "''''CMA UI ~UNIROLLO DELLA QUALITÀ DEI DATICAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA24Dal confronto tra la (7.36) e la (7.29) segue che:sottocampione sia a livello del campione originario. Infatti laquantità:C' = n' Cn(7.38)l2n' O (7.41)fornisce una sottostlma della varlanza <strong>di</strong> risposta totale della me<strong>di</strong>adell'Indagine originaria <strong>di</strong> una quantità pari a «n'/n) - 1) Q u~.La <strong>di</strong>storsione, quin<strong>di</strong>, si riduce all'aumentare <strong>di</strong> n', fino ad annullarsiper n' = n, cioè quando si replica completamente l'Indaginee può considerarsi trascurabile per n' sufficientemente grande.In ogni caso C, (7.35), stima correttamente la varlanza <strong>di</strong> rispostatotale della me<strong>di</strong>a del sottocamplone. Se, ad esempio,si relntervlstano tutte le unità appartenenti ad una data area geografica(comune, provincia o regione) Incluse nel campione <strong>di</strong> unaIndagine condotta su scala nazionale, allora C fornisce una stimacorretta della varlanza <strong>di</strong> risposta totale della me<strong>di</strong>a <strong>di</strong> quelladata area, mentre (n'/n)C sottostlma la corrispondente varlanzadella me<strong>di</strong>a del campione nazionale.Pill gravi conseguenze ha, Invece, la caduta della quarta delleipotesi (7.37). Se, infatti, la covarianza tra deviazioni <strong>di</strong> rispostaè positiva allora la (7.35) sottostlma la varlanza <strong>di</strong> rispostatotale con riferimento al sottocamplone. La sottostima sarà tantomaggiore quanto maggiore è la correlazione tra le due indaginiinflclando la possibilità <strong>di</strong> utilizzare I risultati della relntervistaper quantificare l'effetto degli errori <strong>di</strong> misura sulle stime campionarie.fornisce una stima corretta della varlanza <strong>di</strong> risposta semplicedel sottocampione reintervistato, mentre:J... O2n (7.42)stima correttamente la corrispondente varlanza della me<strong>di</strong>a relativaal campione complessivo.Anche in questo caso sono valide le considerazioni fatte precedentementesulla quarta delle con<strong>di</strong>zioni (7.37), Infatti una correlazionepositiva tra gli errori <strong>di</strong> misura nelle due Indagini riduceil valore atteso (7.40) <strong>di</strong> una quantità pari a tale correlazione'<strong>di</strong> conseguenza gli stlmatorl (1/2n)D e (1/2n')D forniranno dell~sottostlme della varlanza <strong>di</strong> risposta semplice.. Il rapporto tra la (7.41) e la (7.35) stima correttamente Il contnbutorelativo della varlanza <strong>di</strong> risposta semplice alla varlanza<strong>di</strong> risposta totale della me<strong>di</strong>a del sottocamplone, mentre per ilcampione complessivo occorre rapportare la (7.42) alla (7.38).86 ...... __cii rI8poata .....,..tceUno stlmatore corretto della varlanza <strong>di</strong> risposta semplice puòessere costruito a partire dalle <strong>di</strong>fferenze tra I valori In<strong>di</strong>vidualirilevati nelle due Indagini. Sia D la me<strong>di</strong>a del quadrati <strong>di</strong> tali <strong>di</strong>fferenze:La <strong>di</strong>fferenza tra i due stlmatorl C e D permette <strong>di</strong> valutarel'effetto della componente correlata della varlanza <strong>di</strong> risposta totale.In<strong>di</strong>cando con F tale <strong>di</strong>fferenza:lF = C--O2n'(7.43)su ......CCIIIIPDI_te _la-D'O = ;, E (YiI - y~2(7.39)si ha:i=lSotto le Ipotesi (7.37), si <strong>di</strong>mostra che, (cfr. Hansen, Hurwitze Prltzker, 1964), il valore atteso <strong>di</strong> D il:E(O) = 2 u~ (7.40)In' - 1E(F)=--n~n' "" d(7.44)Quin<strong>di</strong> F il uno stimatore corretto della componente correlataper Il sottocampione, mentre:p' =~n-lpn' -1 n (7.45)Dalla (7.40) segue che è possibile stimare correttamentela varianza <strong>di</strong> risposta semplice della me<strong>di</strong>a sia a livello <strong>di</strong>I.-lfornisce una stima corretta della componente correlata relativaal campione complessivo.


244IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA245I rapporti F/C e F'/C' stimano il contributo relativo della componentecorrelata alla varlanza <strong>di</strong> risposta totale della me<strong>di</strong>a delsottocamplone e della me<strong>di</strong>a del campione originario.variabilità <strong>di</strong> risposta. In base a quanto visto precedentemente,l'in<strong>di</strong>ce I può essere stimato me<strong>di</strong>ante il seguente rapporto:In<strong>di</strong>chiamo con G la varianza Interna alle osservazioni nelledue replicazionl:(7.46)t = 0/2G(7.49)Nel Prospetto 7.5 si riporta uno schema riassuntivo degli stlmatorlche si possono ottenere me<strong>di</strong>ante la ,epllcazlone parzialedell'Indagine e la loro estensione all'Indagine complessiva.Se sono sod<strong>di</strong>sfatte le Ipotesi (7.37), G ha il seguente valoreatteso, (si veda Cochran, 1977):Prospetto 7.5 - Schema riassuntivo degli stimatorl otteniblll conla relntervlstaVarlanze stimate Stlmatore per Il Stlmatore per Il8Ottocamplone campioneE(G) = a 2 d (1 - n) + ~ a 2.. N-l m(7.47)Varlanza <strong>di</strong> rispostatotaleCn'-CnConfrontando la (7.47) con la (7.33), si vede che (1/n)G ha lostesso valor me<strong>di</strong>o <strong>di</strong> S~, trascurando la frazione <strong>di</strong> campionay.mento, cioè dello stlmatore usuale della varianza campionaria.Ne consegue che Il rapporto tra varlanza <strong>di</strong> risposta e varianza<strong>di</strong> campionamento stimate:CGVarlanza <strong>di</strong> rispostasemplice1 .1.. 02n' O2nn'(n - 1) FComponente Fcorrelata (n' - 1)nVarlanza .!.G !Gcampionaria n' ndove:Slima .u'1ndIc:edll~fornisce una misura dell'influenza, in termini <strong>di</strong> variabilità, deglierrori <strong>di</strong> risposta rispetto a quelli campionari.Il rapportoa~I=---a~ + a!,(7.48)è noto nella letteratura con il nome <strong>di</strong> In<strong>di</strong>ce <strong>di</strong> inconsistenza emisura la parte <strong>di</strong> varianza totale elementare (n = 1) dovuta allaC - 1 (Y - )2-"2 1 - Y2n'O = ~, E (Y11 - YI~21=11F=C--O2n'2 n' (y - )2G = E E Il:- Y t\=\ 1=1 2 (n -1)


AtiIL SISTEMA DI CONTROLLO DELLA QUAUTÀ DEI DATICAP. 7· LA STIMA DEU'ERRORE GLOBALE DI MISURA247Analizziamo I problemi organlzzatlvl e le con<strong>di</strong>zioni che d.vono essere rispettate per una corretta applicazione del metododella relntervlsta.La relntervlsta può essere pre<strong>di</strong>sposta per valutare l'effettodegli errori <strong>di</strong> misura Introdotti da vari agenti; I contributi maggioriall'errore globale; tuttavia, sono dovuti al rllevatorl.Se la relntervlsta è finalizzata a quantificare l'aumento <strong>di</strong> variabilitàdelle stime (o In maniera analoga la <strong>di</strong>storsione), causatodagli Intervlstatorl, allora ogni In<strong>di</strong>viduo del campione originariodeve essere relntervlstato da un rllevatore <strong>di</strong>fferente. Comeè stato già sottolineato si rende necessario, per ragioni <strong>di</strong>costo, replicare parZialmente una Indagine su larga scala rinunciandoad alcune proprietà degli stlmatorl. Occorre, quin<strong>di</strong>, unaparticolare attenzione nella scelta della numerosltà del sottocamplonee nell'estensione del risultati ottenuti all'Indagine originaria.Nel caso <strong>di</strong> repllcazlone parziale della rllevazlone deve esa.re poSSibile associare ad ogni unità Intervistata un co<strong>di</strong>ce <strong>di</strong> rilevatoreed estrarre per ogni co<strong>di</strong>ce un sottocamplone <strong>di</strong> unitàda assegnare ad un intervlstatore <strong>di</strong>verso ma della stessa capacitàed esperienza. Inoltre poiché lo stlmatore della varlanza <strong>di</strong>risposta semplice D, definito dalla (7.39), si basa sul confrontotra I valori In<strong>di</strong>viduali rilevati nelle due Indagini, il sistema <strong>di</strong> identificazionedelle unità deve essere tale da consentire l'agganciotra I due co<strong>di</strong>ci relativi allo stesso In<strong>di</strong>viduo. Quanto detto pr.suppone:• l'esistenza <strong>di</strong> un elenco base <strong>di</strong> rllevatorl;• l'esistenza <strong>di</strong> un codl.ce unico per ciascun rllevatore;• l'aggancio Indlvlduo-rllevatore nell'Indagine originaria e nellarepllcazlone;• l'aggancio tra i co<strong>di</strong>ci In<strong>di</strong>viduali nelle due rllevazlonl.Se l'unità <strong>di</strong> rllevazlone è la famiglia e l'unità <strong>di</strong> analisi è l'In<strong>di</strong>viduo,allora l'assegnazione delle relntervlste deve essere es.gulta rispetto alle famiglie; <strong>di</strong> conseguenza le con<strong>di</strong>zioni sopraesposte devono riferirsi alla famiglia cosi come gli sthnatori illustratinel sottoparagrafo precedente devono riguardare la varlanzao la <strong>di</strong>storsione della me<strong>di</strong>a calcolata per famiglia (adesempio numero me<strong>di</strong>o <strong>di</strong> componenti per famiglia).Una particolare attenzione deve essere rivolta per assicurareche Il rispondente sia lo stesso In<strong>di</strong>viduo In entrambe le rilevazlonlsoprattutto se l'Indagine prevede la possibilità <strong>di</strong> risposte.proxy-, anche nel caso In cui non sia specificato chi devefornire le notizie <strong>di</strong> carattere generale, per non Introdurre una ulteriore<strong>di</strong>storsione e variabilità nei dati dovute al cambiamentodel rispondente.8. Il metodo della compenetrazione del campioneIl metodo della compenetrazione del campione è una tecnicache permette <strong>di</strong> stimare, dagli stessi dati campionari, sia lavarlanza totale <strong>di</strong> uno stlmatore (owero varlanza campionarla evarlanza <strong>di</strong> risposta) sia la componente correlata della varlanza<strong>di</strong> risposta; Inoltre tale tecnica non Implica costi aggiuntivi masolo una maggiore attenzione nell'organizzazione della rllevazlonesul campo.Il metodo della compenetrazione del campione è stato Introdottoda Mahalanobls (1946) e ripreso da numerosi autori e istitutiufficiali <strong>di</strong> statistica che lo hanno adattato alle caratteristicheparticolari delle Indagini oggetto <strong>di</strong> stu<strong>di</strong>o.Nella sua formulazione standard (cfr. Cochran, 1977) tale tecnicaconsiste nel sud<strong>di</strong>videre a caso un campione casuale <strong>di</strong> nunità In k sottocamplonl <strong>di</strong> uguale numerosltà n' = n/k ognunodel quali costituisce un campione rappresentativo dell~ popolazione<strong>di</strong> origine.I sottocamplonl cosi ottenuti non risultano statisticamentein<strong>di</strong>pendenti (per approfon<strong>di</strong>menti teorici sulla tecnica <strong>di</strong> campionamentosi vedano Koop (1960) e Deming (1984»; quin<strong>di</strong> l'organlzzazlonesul campo dell'Indagine deve essere pianificata Inmodo da eliminare la correlazione tra errori <strong>di</strong> misura <strong>di</strong> unità ap.partenentl a sottocamplonl <strong>di</strong>fferenti, dovuta all'Impiego del m.desiml Intervlstatorl, revisori e supervlsorl.Nell'Ipotesi sempllflcatrlce In culla correlazione tra deviazioni<strong>di</strong> rispoSta è attribuibile esclusivamente agllintervistatori è sufficienteassegnare casualmente ciascun sottocamplone ad unintervlstatore <strong>di</strong>verso per ottenere una corretta applicazione delmetodo. Sotto queste assunzioni, Infatti, si può supporre che lacorrelazione tra gli errori <strong>di</strong> misura relativi ad unità appartenentia campioni <strong>di</strong>fferenti sia nulla.La componente correlata della varlanza <strong>di</strong> risposta che In qu.sto caso misura l'effetto Intervlstatore, può essere stimata partendoda' confronto tra la varlania tra le assegnazioni degli Intervlstatorl(che misura la variabilità tra le me<strong>di</strong>e <strong>di</strong> ogni sottocampionee la me<strong>di</strong>a generale) e la varlanza Interna alle ass.gnazlonfdegllintetvlstatòrl (che misura la variabilità all'Interno<strong>di</strong> ogni sottocamplone). Inoltre la varlanza esterna permette <strong>di</strong>stimare anche la varlanza totale della me<strong>di</strong>a, owero <strong>di</strong> calcolarela precisione dello stlmatore tenendo Conto sia degli errori <strong>di</strong> misurasia <strong>di</strong> quelli campionarI.Nel-seguito faremo riferimento alla situazione apPena descrittae al modello matematico Illustrato nel paragrafo 3; per gli sviluppisuccessivi è però conVènlente riferire l'In<strong>di</strong>ce I (I = 1, 2, ..• ,k)


248 IL SISTEMA DI CONTROllO DEllA QUALITÀ DEI DATICAP. 7 • LA STIMA DelL'ERRORE GLOBALE DI MISURA249al sottocamplonl o equivalentemente agli intervlstatorl e l'in<strong>di</strong>·ce j (J = 1, 2, .•• ,n') alle unità all'Interno <strong>di</strong> ciascun sottocampione.Dalia (1.9) Il valore osservato per la j-eslma unità assegnataall'l-eslrno Intervlstatore nella t-eslma repllcazlone può scriverai:tre la varlanza campionarla è sempre data dalla (1.24). Ne consegueche la varlanza totale della me<strong>di</strong>a campionaria Y t è:(1.54)In<strong>di</strong>chiamo con:(1.50)(1.51)Nella (1.54) si è supposto che la frazione <strong>di</strong> campionamentof sia trascurabile e che siano nulle tutte le correlazioni relativead unità assegnate ad Intervlstatorl <strong>di</strong>versi.Notiamo che la componente correlata della varlanza <strong>di</strong> risposta,In questa situazione, assume la seguente espressione:n' -1 2-n-Q (Id (1.55)la me<strong>di</strong>a dei valori osservati dall'l-eslmo intervlstatore e con:(1.52)la me<strong>di</strong>a del valori osservati con riferimento al campione com.plesslvo.~ facile verificare che Il valore atteso <strong>di</strong> Yh e <strong>di</strong> Y t è:..ed è quin<strong>di</strong> funzione decrescente della numerosltà campionariacomplessiva n e funzione <strong>di</strong>retta del numero n' <strong>di</strong> unltè assegnatea ciascun Intervlstatore, owero funzione Inversa del numero <strong>di</strong>Intervlstatorl utilizzati. .Come abbiamo detto precedentemente la stima della varlanzatotale <strong>di</strong> 9 e della componente correlata si ottengono dalconfronto tra \a varlanza esterna e la varlanza Interna al sottocampionie quin<strong>di</strong> <strong>di</strong>rettamente dal dati rilevati. .In<strong>di</strong>chiamo con S~ la varlanza esterna o varlanza tra le assegnazionidegli Intervlstatori, definita come la somma del quadratidegli scostamentl tra le me<strong>di</strong>e <strong>di</strong> ciascun Intervlstatore ela me<strong>di</strong>a generale, <strong>di</strong>visa per I gra<strong>di</strong> <strong>di</strong> libertà, pari a k-1, owero:(1.53)t Iii -)2s~ = n' E Uil - Y1I-I t-l(1.56)dove M è la me<strong>di</strong>a nella popolazione del valori attesi in<strong>di</strong>vidualimq; quin<strong>di</strong> sia la me<strong>di</strong>a generale che le me<strong>di</strong>e <strong>di</strong> ciascun sottocampionesono <strong>di</strong>storte, per effetto degli errori <strong>di</strong> misura, comenel caso <strong>di</strong> un campione casuale sempllce,cfr. (1.18).Il metodo del camplonllnterpenetrantl non fornisce elemen.ti che consentano <strong>di</strong> stimare la <strong>di</strong>storsione B, Infatti a tale scopoè necessario conoscere Il valore vero o almeno u"a stima pil7lprecisa con cui confrontare Il valore osservato. .Per quanto concerne la stima della varlanza totale della me·<strong>di</strong>a campionaria, rlcordlamQ che, se gli errori <strong>di</strong> misura sono cororelatl e se a ciascuno del k Intervlstatorl sono assegnate n'uni·tà, la varl~nza <strong>di</strong> risposta <strong>di</strong> Yt assume l'espressione (1.31), menoCon S! In<strong>di</strong>chiamo la varlanza Interna alle assegnazioni degl/Intervlstatorl, data dalla somma delle deviazioni al quadratotra I valori osservati nell'l-eslmo sottocamplone e la relativa me<strong>di</strong>a,<strong>di</strong>viso per k(n'-1) gra<strong>di</strong> <strong>di</strong> libertà, cioè:s! = t É (Yljt ;- YIJ 2I_I j_1 t(n - 1)(1.57)Consideriamo I valori attesi della (7.56) e della (1.57) al variaredelle assegnazioni, del campione e delle repllcazlonl; nell'Ipotesi<strong>di</strong> assenza <strong>di</strong> correlazione tra errori <strong>di</strong> risposta <strong>di</strong> unità


IL SISTEMA 01 CONTROLLO DELLA QUALITA DEI DATICAP. 7 • LA STIMA DELL'ERRORE GLOBALE 01 MISURA251assegnate a <strong>di</strong>fferenti rllevatorl e trascurando I fattori <strong>di</strong> correzioneper popolazioni finite, si <strong>di</strong>mostra che (cfr. Cochran, 1977):è lo stlmatore cercato in quanto fornisce una stima corretta, dellacomponente correlata della varlanza <strong>di</strong> risposta.E(S~ = N ~ l 17~ + 17~ (1 + (n' - l) Q)(7.58)Notiamo Infine che il rapporto:E(S~) = N ~ l 17~ + 17~ (1 - Q)(7.59)S~S~(7.65)SllIIIII del .. nrr.nz.totaleConfrontando tra la (7.54) e la (7.58) si evince che:(7.60)è uno stlmatore corretto della varianza totale della me<strong>di</strong>a. La (7.60)è, quin<strong>di</strong>, l'espressione corretta da utilizzare per Il calcolo dellavariabilità delle stime in quanto tiene conto anche dell'effettodegli errori <strong>di</strong> risposta.Il confronto tra la (7.59) e la (7.33) mostra che:(7.61)può essere utilizzato per stimare la varianza campionarla.misura il contributo relativo della componente correlata alla varlanzatotale della stima. Se la componente correlata può considerarsimolto maggiore della varlanza <strong>di</strong> risposta semplice, allorala (7.65) misura Il contributo relativo della varianza <strong>di</strong> rispostaalla varianza totale della me<strong>di</strong>a, owero la percentuale della variabilitàtotale dovuta esclusivamente agII errori <strong>di</strong> misura. In manieraanaloga è possibile valutare il peso degli errori <strong>di</strong> rispostarispetto a quelli campionari considerando il rapporto:S~S~(7.66)Riportiamo nel Prospetto 7.6 uno schema riassuntivo deglistimatori appena descritti.Prospetto 7.6 - Schema riassuntivo degli stimatori ottenibill conla compenetrazione del campioneInoltre il confronto tra la varlanza esterna e la varlanza internapermette <strong>di</strong> stimare l'effetto intervistatore, espresso dalla(7.55). Infatti In<strong>di</strong>cando con:si ha:(7.62)E(S~ = (n' - l) Q 17~ (7.63)SimboloS~ = È É (Y1H,- YIt)1=11=1 k(n - 1)Varlanze e sII maloriVarlanza esterna o tra leassegnazioniVarlanza interna alle assegnazioniStlmatore corretto dellavarlanza totaleNe consegue che:(7.64)Stlmatore della varlanzacampionaria


252IL SISTEMA DI CONTROLLO DELlA QUAUTÀ DEI DATICAP. 7 • LA STIMA DEU.'ERRORE GLOBALE DI MISURA253Prospetto 7.6 segue - Schema riassuntivo degli stimatori ottenlbilicon la compenetrazione del campioneSimboloVarianze estimatoriStimatore corretto dellacomponente c.lrrelata dellavarlanza <strong>di</strong> risposta. niera alternativa accorpando due aree <strong>di</strong> rilevazione contigue ecasuallzzando le assegnazioni tra due Intervlstatori. DI conseguenzaciascun rilevatore lavora su un'area doppia, In termini <strong>di</strong><strong>di</strong>stanze rispetto a quella originaria, ma viene salvaguardata lacompen~trazlone del campione (anche se occorre esplicitare l'effettocluster, cioè la correlazione tra deviazioni campionarie <strong>di</strong>unità appartenenti alla stessa area).Per stimare l'effetto degli errori <strong>di</strong> risposta è sufficiente chele assegnazioni degli intervlstatori siano state effettuate correttamentee che siano rispettate le con<strong>di</strong>zioni elencate <strong>di</strong> seguito:S~S~Contributo relativo dellacomponente correlata allavarlanza totaleContributo relativo dellacomponente correlata allavarlanza campionaria• esistenza <strong>di</strong> un elenco base <strong>di</strong>rllevatori;• esistenza <strong>di</strong> un co<strong>di</strong>ce unico per ciascun rilevatore;• selezione casuale del rllevatorl dell'elenco base;• controllo della casualità delle assegnazioni <strong>di</strong> ciascun rilevatore;• possibilità <strong>di</strong> agganciare Il rilevato re alla famiglia e a ciascuncomponente.PnIbIeinI ...........Ricor<strong>di</strong>amo che la tecnica della compenetrazione del campionenon è solo potente dal punto <strong>di</strong> vista del risultati coseguibili,ma presenta anche l'ulteriore vantaggio dell'economicità Inquanto, a <strong>di</strong>fferenza della reintervista, non incide sul budget <strong>di</strong>una Indagine. Essa, Infatti, si risolve In fase <strong>di</strong> pre<strong>di</strong>sposlzlonedell'Indagine pOiché riguarda esclusivamente il <strong>di</strong>segno campionario;è però necessario un maggior controllo del rispetto dellenorme nella fase <strong>di</strong> rilevazione sul campo.In<strong>di</strong>pendentemente dal piano <strong>di</strong> campionamento scelto, chepuò essere semplice, o complesso come nelle Indagini correntidell'Istituto, ricor<strong>di</strong>amo che I sottocamplonl estratti devono risultaretali da eliminare la correlazione tra errori <strong>di</strong> risposta <strong>di</strong>unità assegnate ad Intervlstatorl <strong>di</strong>versi. Il modo standard persod<strong>di</strong>sfare questo requisito consiste, come abbiamo detto, nell'estrarrea caso I sottocamplonl'e nell'assegnarli casualmentea ciascun rllevatore.A questo proposito occorre <strong>di</strong>stinguere tra piccoli e gran<strong>di</strong>comuni. Per I primi Il vincolo è costituito dalla numerosità campionariache può non essere sufficiente, se sdoppiata, a garantireun guadagno minimo richiesto dal rllevatore. Per I gran<strong>di</strong> comunllacasualizzazione delle assegnazioni degli intervistatorl puòcomportare un notevole <strong>di</strong>spen<strong>di</strong>o <strong>di</strong> tempo e risultare antieconomicaIn quanto I rllevatori sarebbero costretti "a coprire un'areatroppo vasta. In questo caso si preferisce procedere in ma-


IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DAnAPPENDICE1. Applicazione del metodo della compenetrazione del camplo·ne all'Indagine <strong>Istat</strong> sugli sport • sulle vacanzeIl <strong>di</strong>segno campionario dell'Indagine <strong>Istat</strong> sugli sport e sullevacanze del 1985 prevedeva la compenetrazione delle assegnazionidegllintervistatori nel comuni campione <strong>di</strong> Milano e Firenze,quin<strong>di</strong> è stato possibile misurare l'lnfluenta dell'lntervistatoresulla qualità del dati rilevati (cfr. Signore, 1988b).Trattandosi <strong>di</strong> gran<strong>di</strong> comuni, le famiglie campione non sonostate assegnate casualmente agllintervistatori In quanto questoavrebbe comportato spostamenti su <strong>di</strong> un territorio troppovasto. SI è Invece proceduto nel modo seguente. Ciascuna cittàè stata sud<strong>di</strong>visa In aree, per semplicità cl si è riferiti alle circoscrizioni,e In ciascuna <strong>di</strong> esse le famiglie estratte sono state assegnateIn maniera casuale a due rll!vatorl; In particolare ognirllevatore ha Intervistato n' = 12 famiglie a Milano e n' = 9 famigliea Firenze.DI conseguenza in ciascuna area si possono calcolare la varlanzaesterna, tra le assegnazioni del due rllevatorl, e la varianzaInterna alle assegnazioni e, quin<strong>di</strong>, stimare la varlanza totalee la componente correlata. Per k = 2, la (7.56) e la (7.57) assumonorispettivamente le seguenti espressioni:(7A.67)SI ottengono, quin<strong>di</strong>, i seguenti stlmatorl per ciascuna area:stimatore della varlanza totale:st/matore della varlanza campionar/a:stimatore della componente correlata:(7A.70)(7A.71)(7A.72)Per sintetizzare le stime a livello <strong>di</strong> città e per aumentarnel'affidabilità, (si noti che la (7A.67) ha un solo grado <strong>di</strong> libertà),si è proweduto a calcolare una me<strong>di</strong>a, rispettivamente, delleespressioni (7A.67), (7A.68) e (7A.69), nel modo seguente:LLE N~ hS~s~ = h-lL


256 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA257dove Nh In<strong>di</strong>ca il numero <strong>di</strong> famiglie residenti nella h-eslma circoscrizione(L = 20 a Milano e L = 14 a Firenze). Le espressioni(7A.73), (7A.74) e (7A.75) consentono <strong>di</strong> stimare rispettivamentela varlanza totale, la varianza campionaria e la componente correlatacon riferimento ad una circoscrizione <strong>di</strong> <strong>di</strong>mensione me<strong>di</strong>a(cfr. U.S. Bureau of the Census, 1968). .Nella tavola 7 A.l sono riportati i valori stimati del rapportotra componente correlata e varianza campionarla della me<strong>di</strong>a opercentuale per famiglia delle 22 variabili riportate In nota (a).Tavola 7A.l • Valori del rapporto S~S~Vl V2 V3 V4 V5 V6 V7 V8 V9 Vl0 VllMI .27 .28.1.36 1.09 .72 1.18 .45 .39 .57 .26 1.87FI .81 .31 .76 .54 .55 .51 .39 .44 .28 .29 .47ni. Ad esempio variabili simili come V15 (spese sostenute per viaggiOtutto compreso) e V21 (altre spese sostenute) assumono rispettivamentevalori molto bassi (.05 e .04) e valori molto elevati(1.04 e 1.96) in entrambe le città. Viceversa una stessa variabilepuò assumere valori molto <strong>di</strong>versi nelle due città, si vedano adesempio Vl (numero <strong>di</strong> componenti della famiglia) e V16 (spesesostenute per mezzi <strong>di</strong> trasporto).In generale risulta esserci un considerevole effetto Intervlstatore,In quanto si riscontrano valori piuttosto elevati del rapportotra componente correlata e varlanza campionaria, anche seFirenze presenta valori pii) bassi <strong>di</strong> Milano. In me<strong>di</strong>a questo rapportoè pari a.54 per Firenze e .78 per Milano; questo significache le varlanze campionarie, in me<strong>di</strong>a, sottostlmano notevolmentela variabilità totale. Infatti per ottenere una stima corretta dellavarlanza totale si dovrebbero moltiplicare le varlanze campionarie,In me<strong>di</strong>a, per 1.54 a Firenze e per 1.78 a Milano.V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22MI .05 1.35 .29 .05 1.27 .87 .00 2.14 .79 1.04 .86FI .53 1.03 .86 .04 .17 .37 .33 .54 .39 1.96 .32Dall'analisi della tavola 7A.l si vede che esiste una grandevariabilità nel valori del rapporto S~S2 sia per <strong>di</strong>fferenti variabilinella stessa città, sia per una stess~ variabile nei due comu-(a) V1 = numero <strong>di</strong> componenti della famiglia; V2 = numero <strong>di</strong> componenti chehanno effettuato almeno un periodo <strong>di</strong> vacanza; V3 = numero <strong>di</strong> perio<strong>di</strong> <strong>di</strong> vacanza;V4 = numero <strong>di</strong> perio<strong>di</strong> <strong>di</strong> vacanza effettuati In Italia; V5 = numero <strong>di</strong> perio<strong>di</strong> <strong>di</strong> vacanzaeffettuati all'estero; va = numero <strong>di</strong> perio<strong>di</strong> <strong>di</strong> vacanza Iniziati da giugno asettembre; V7 = numero <strong>di</strong> perio<strong>di</strong> <strong>di</strong> vacanza Iniziati da ottobre a maggio; V8 =numero <strong>di</strong> perio<strong>di</strong> <strong>di</strong> vacanza effettuati In auto, camper o moto; V9 = numero <strong>di</strong> perio<strong>di</strong><strong>di</strong> vacanza effettuati con altro mezzo <strong>di</strong> trasporto; V10 = numero <strong>di</strong> perio<strong>di</strong> <strong>di</strong>vacanza effettuati In alloggio <strong>di</strong> proprietà <strong>di</strong> un componente, <strong>di</strong> un parente o <strong>di</strong> amici;V11 = numero <strong>di</strong> perio<strong>di</strong> <strong>di</strong> vacanza effettuati In alloggio non <strong>di</strong> proprietà; V12= numero <strong>di</strong> perio<strong>di</strong> <strong>di</strong> vacanza effettuati con viaggi organizzati; V13 = numero <strong>di</strong>perio<strong>di</strong> <strong>di</strong> vacanza effettuati con viaggi non organizzati; V14 = durata complessiva del·le vacanze (In gloml); V15 = spese sostenute per viaggio tutto compreso (In migliaia<strong>di</strong> lire); V18 = spese sostenute per mezzi <strong>di</strong> trasporto (In migliaia <strong>di</strong> lire); V17 = spesesostenute per pensione completa (In migliaia <strong>di</strong> lire); V18 = spese sostenute permezza pensione (In migliaia <strong>di</strong> lire); V19 = spese sostenute per vitto (In migliaia <strong>di</strong>lire); V20 = spese sostenute per alloggio (In migliaia <strong>di</strong> lire); V21 = altre spese s0-stenute (In migliaia <strong>di</strong> lire); V22 = spese compleaslva sostenuta (In migliaia <strong>di</strong> lire).


CAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA259RIFERIMENTI BIBLIOGRAFICIBAlLAR B.A. (1968), Recent Research In Re/nteMew Procedures, .Jour.Amer. Stato Ass.-, Vol. 63, pp. 41-63.BAlLAR B.A. (1987), Nonsampllng errors, -.lour. of Offlclal Statlstlcs-,VoI. 3, n. 4, pp. 323-325.BAlLAR B.A., L BAlLEY e J. SrEVENS (1977), Measures al IntelVleweT Blasand Varlance, .Jour. of Marketlng Research-, 14, pp. 337-343.BAlLAR B.A. e P.P. BIEMER (1984), So~e Methods far Evaluatlng Nonsam·pllng Error In Household Census and Surveys, In Rao P.S. e J. Sedransk(eds.), .W.G. Cochran's Impact on Statistica, J. Wlley, NewYork.BAlLAR B.A. eT. DALENIUS (1970), Estlmatlng the Response Var/anceComponents of the U.S. Bureau of the Census SUlVey Model, Ser.B, pp.341~. ,BAlLEY L, T.F. MOORE e B.A. BAlLAR (1978), An IntelVlewer Varlance Studyfor the Elght Impact Cltles of the Natlonal Crlme SUlVey CltlesSample, -.loor. Amar. Stato Assoc.-, pp. 18-23 •.CocHRAN W. (1977), Sampllng Technlques, J. Wlley, New York.DALENIUS T. (1983), Error and Other Umltatlon of Surveys, In Wrlght T.(ed.), .Statlstlcal Methods and the Improvement of Data Quallty-,Academlc Press, New York.DEMING W.E. (1960), Sample desIgn In bulsness research, J. WUey, NewYork.DEMING W.E. (1964), On Some of the Contrlbutlon ollnterpenetratlngNetworlcs 01 Samples, In Rao (ed.), .Contrlbutlon to Statlstlcs presentedto Prof. Mahalanobls on the Occaslon of Hls 70th Blrthday.,Pergamon Presa, Calcutta, pp. 57-6&.ECLER A.R.e W.N. HuRWITZ (1958), Response Varlance and Blases InCensuses and Surveys, .Bull. Int. Stat. Insb, n. 36, pp. 12-35.FA88R1S L (1981), Meto<strong>di</strong> statistici per l'analisi e 1/ controllo della qu.lIté del dati sanltarl,ln: Bellini P., S. Rlgattl Luchlnl e F. Vlan (eds.),.Statlstlca e Ricerca EpldemologlcB», CLEUP, Padova, pp. 67-74.FA88R1S L (1983), Una esperienza <strong>di</strong> stima dell'errore non campionariome<strong>di</strong>ante relntelVlsta e compenetrazione dell'assegnazione degliIntelVlstatorl, .AttI del Convegno 815-, Trieste, voI. I, pp. 515-531.FA88RIS L (1991), Abbinamento tra fonti <strong>di</strong> errore nella lormazlone deldati e misure dell'effetto degli errori sulle stime, In Bollettino SIS,n. 22, pp. 19-54.FELLEGII.P. (1963), An Analys/s 01 RSsponse Varlance, .Bull. Int. Stat.Insb, n • ..o, pp. 758-759.FELLEGII.P. (1964), Response Varlance and Ifs Est/matlon, .Jour. Amer.Stat. Assoc.-, n. 59, pp. 1016-1041.Ji


260 IL SISTEMA DI CONTROLLO DELLA QUALITA DEI DATICAP. 7 • LA STIMA DELL'ERRORE GLOBALE DI MISURA281FELLEGI I.P. (1974), An Improved Method of Estlmatlng the Corre/atedResponse Varlance, cJour. Amer. Stato Assoc .•, pp. 49&601.GIUSTI F. (1969), Su gli errorl dI osservazione nel censImenti e nelle rll.vazlonl campIonarle, -Atti del Convegno SIS., Firenze, pp. 345-387.HAHIEN M.H. et al. (1951), Response Errors In SunIeys, cJour. Amar. StatoAssoc .•, n. 48, pp. 147·190. .HAHIEN M.H., W.N. HURWI1Z e M.A. BER8HAD (1981), Measurement ErrorsIn Censuses end Surveys, -Bull. Inl Stat. lnat ••, n. 38, VoI. Il,pp. 359-374-HAHIEN M.H., W.N. HURWrI'Z e W.G. MADOW (1963), Sample Survey M.thods end Theoty, Vol. I e Vol. Il, J. Wlle" New Vorle.HANSEN M.H., W.N. HURWf1Z e L PIvrzKER (1984), Tbe Estlmatlon end theI~"",retatlon of Grou Dlfferences end tbe Slmple Responsa Varlance,In Rao (ed.), -Contrlbutlon to Statlstlcs presented to Prof.Mahalanobls on the Ocoaslon of Hia 7()111 Blrthday., PergamonPrees, calcutta, pp. 111-138.HANSEN M.H. e J. WAKSBERG (1970), Resaan;h on Non-Sampllng Errors InCensusas end SUrve18, -Rev. IRt. Stat. Inst •• , n. 38, pp. 31&332.HAN80N R.H. e ES. MARK8(1958), InfllIfIIIC8 of tbe IntfKvlewer on tbe Accuracyof SuIVtlY Rasults, -Amer. stato Assoc •• , n. 53, pp. 836-665.IACHAN R. (1983);N""."",pllng Errors In Sunoeys: A revlew, .comun. Statlst.Theor. Meth .• , 12 (18), pp. 2273-2287.'JONES H.W. (1955), Investlgatlng the Propeftles of a Sample Mean byEmploylng Rendom Subsamp/e Means, cJour. Amer. Stato A8soc .• ,n. 5t, pp. 54-83.KIsH L (1962), Stud/es of Intervlewer Varlablllty far Attltudlnal Varlab/es,-Jour. Amar. Stato A88OC .• , n. 57,pp. g2,.115.KlsH L (1966), Survey Sampllng, J. Wlley, New Vorle.KOCH G. (1973), An Altematl"' Approach fo MultIYarlate Responsa ErrarMode/s far Samp/e Survey Data Wlth AppllcStlons fo EstimaforaInvolvlng Subcless Meana, cJour. Amar. Stat. Ass •• , n. e8,pp. 908-913.Koop J.C. (1980), On Theoretltal Questlons UnderIyIng the Technlqueof Repllcated or Int.",enetratlng Samp/es, -Proc. Soc. Stat. Amer.Stato Asaoc .• , pp. 198-205.lEssLER J.T. e R.A. KuLKA (1983),RBCtuclng the Cost of Studlng SurveyMeesutrJmelJtError: la a Laboratory AppÌ'OaCh tbe Answer?, In T.Wrlght (ed.), cStatlstlcal Methode and tha Improvement of Data au.IItya, Academlc Press, New Vorle. "MAHALANOIII8 P.C. (1948), Recent Experlments In Statlstlcal Sampllng Inthe Incl/an Statlstlcal Instltute, -.lour. Roy. Stat. Soc •• ; n. 109,pp. 328-370. .O'MUIRCHEARTAlG C.A. (1977), Response Errora, In C.A. O'Mulrchaartalgand C. Payne (eds.), -The Analysls of Survey"Dat8lÌ, Vol. 2, J. Wlley,New Vorle. .'O'MUlRCHEARTAlG C.A. (1983), Statlstlcal Methods of Assasslng the Qua­IIty of Survey Data, -Atti del Convegno SISa, Trieste, Vol. I,pp. 79-102.PRITZKÈR L. e R. HANSON (1962), Measuremant Errors In tbe 1960 Censuaof Popu/atlon, -Proc. of tha Soc. Stato Sect. A.S.A .••SIGNORE M. (1988a), Stima dell'errore <strong>di</strong> m/aura: alcune rlflesslonl aulproblemi teodcI e pratici per l'applicazione ad IndagIni su larga scala,cAttl della XXXIV Riunione Scientifica della SISa, Siena, Vol. 2,Tomo 1, pp. 193-200.SIGNORE M. (1988b), Eva/uatlon of tbe Interv/ewer's Influence on theQuallty of tbe 1986 Sports end HoIidays Survey Data, -Proceedlngsof the Flrat Conference of thé Intamational As8oclatlon for OfflclalStatistica., Roma, pp. 252-255.SIGNORE M. (1989), Stima dell'efletto Intervlstatora: estensione del m.todo della compenetrazione del campione alle IndaglnllSTAT sullefamiglie, ISTAT, documento Interno.SIGNORE M. (1990), Valutazione dell'effetto Interv/statore nell'Indaginesulle fotze <strong>di</strong> lavoro, ISTAT, documanto Interno.SrAT1ST1C8 CANADA (1978), A Compencllum 9f Methods of Errar Eva/uatlonIn Cenauses end Surveys, Catalogue 13-584 E occasionai, a cura<strong>di</strong> J.F. G088811n, B.N. Chlnnappa, P.D. Ghangurde e J. Tourgny.pp. 80-89.TENENBElN A. (1984), Cochran'a Contrlbutlons to Errors of MeaauremantIn Statlstlcs, In Rao P.S. e J. Sedransk (eds.), -W.G. Cochran's 1mpacton Statlstlcs., J. Wlley, New Vorle.UNITED NATIONS (1982), Natlonal Houaehold Survey Gapablllty Programme.Non-sampllng Errora In Household Surveya: Sourcea, Assesmentand Control: Prellmlnary vers/on, DP/UNIINT -81-04112, NewVorle.U.S. Bureau of the Census (1968), Evalutlon and Research Program ofthe U.S. CensuseS of Popu/atlon and Houslng, 1960: Effects of Intervleweraend Crew Leadera, Serles ER 60, n. 7, Washlngton D.C.


CAPITOLO 8: - L'ARCHIVIO DI QUALITÀ1_ Il patrimonio Informativo dell'IndagineNel volume si è assunta, per Il «controllo <strong>di</strong> qualltà_, un'ottica«globale- e «<strong>di</strong> processo-; globale poiché Il controllo deve essereesteso a tutti gli aspetti dell'Indagine (dalla programmazionealla <strong>di</strong>ffusione del risultati) e <strong>di</strong> processo In quanto Il controllodeve Isolare gli errori peculiari alle singole fasi ma nel contestopia:. generale delle loro Interazloni.In questa logica, le Informazioni necessarie alla valldazlonedel risultati coincidono con il «patrimonio informativo_ dell'Indagine.Quest'ultimo è costituito da molteplici fonti e da informazioni<strong>di</strong> tipo quantltativo o qualltativo: la documentazione sulla progettazionedell'Indagine (definizioni, classificazioni, schemi ElR,i <strong>di</strong>versi plani <strong>di</strong> campionamento, <strong>di</strong> registrazione, <strong>di</strong> elaborazione,i manuali e le norme <strong>di</strong> Istruzione, Il calendario, Il questionarioecc.); I risultati della rilevazlone, i risultati del controllo dellefasi del processo <strong>di</strong> produzione (registrazione, revisione, ecc.),i documenti accessori <strong>di</strong> rllevazlone, le relazioni degli ispettorie degli ufffcl regionali ed infine la documentazione amministrativa.Allo scopo <strong>di</strong> gestire In maniera efficiente tale massa <strong>di</strong> datie per effettuare rapidamente le necessarie analisi statistiche èconveniente riportare su supporto Informatico" massimo possibiledelle Informazioni <strong>di</strong> cui sopra, eventualmente trasformandoIn quantitative quelle qualltative (ad esempio il contenuto dellerelazioni degli ispettori e degli uffici regionali <strong>Istat</strong>).Da tali fonti sono stati prodotti nelle <strong>di</strong>verse fasi dell'Indagine(cfr. i precedenti capitol!), in<strong>di</strong>catori ed analisi specifiche dellaqualità dei dati.·L'Insieme <strong>di</strong> questi elaborati costituisce l'archivio <strong>di</strong> qualitàdell'Indagine, che può essere considerato come la base informativaper la determinazione del prOfilo dell'errore dell'intera rilevazione,per il controllo della procedura nelle <strong>di</strong>fferenti fasi e laprogrammazione <strong>di</strong> indagini future.Il profilo dell'errore è dato dal complesso delle analisi perfase ed è sinteticamente rappresentato dalle Informazioni sull'erroredelle variabili <strong>di</strong> stu<strong>di</strong>o; " controllo delle singole fasi siattua me<strong>di</strong>ante le analisi specifiche elo gli In<strong>di</strong>catori sintetici,riportati nel <strong>di</strong>versi capitoli del volume. Me<strong>di</strong>ante tali verifichesi determinano e si quantlflcano le carenze dell'Indagine e possonoessere prodotti i metadatl <strong>di</strong> qualità ad uso degli utentifinali.


264 IL SISTEMA DI CONTROLLO DELLA QUALITÀ DEI DATICA" •• , L'ARCHIVIO .DI QUALlTÌ


I tre archivi <strong>di</strong> qualità costituiscono matrici <strong>di</strong> dati -osservazlonllvariabili- che possono essere analizzate con le consuete<strong>tecniche</strong> <strong>di</strong> analisi unlvarlata o multivarlata, In funzione degliobiettivi preflssatl.In particolare, l'esame dell'archivio della rete <strong>di</strong> rilevazlone,può risultare utile per la programmazione <strong>di</strong> iniziative (quali I con-trolll e le Ispezioni, particolari corsi <strong>di</strong> Istruzione) mirate a singolerealtà, me<strong>di</strong>ante l'in<strong>di</strong>viduazlone <strong>di</strong> osservazioni anomale e <strong>di</strong>gruppi omogenei <strong>di</strong> unità. L'analisi della serie storica degli in<strong>di</strong>catoriper le medesime unità, inoltre, può costituire una misuradell'efficacia degli interventi effettuati.oIn dettaglio:A) Per le mancate risposte totali, gli in<strong>di</strong>catori:- dell'errore <strong>di</strong> lista- <strong>di</strong> rifiuto dell'Intervista- <strong>di</strong> mancato contatto- <strong>di</strong> mancata risposta totale- della <strong>di</strong>mensione me<strong>di</strong>a delle famiglie sostituite e sostitutive.B) Per le mancate risposte parziali, gli in<strong>di</strong>catori:- <strong>di</strong> qualità del materiale raccolto- delle Incongruenze- <strong>di</strong> rifiuto- <strong>di</strong> efficacia dell'intervista e della raccolta datI.C) Per l'intervista, gli In<strong>di</strong>catori:- <strong>di</strong> risposta proxy- <strong>di</strong> effettuazione dell'Intervista- <strong>di</strong> durata me<strong>di</strong>a e del giorni In cui Sono state condotte leInterviste- <strong>di</strong> errore nel co<strong>di</strong>ci identificativi- <strong>di</strong> rispetto del tempi del calendario (dal documenti amministrativi)per I comunI.D) Quali in<strong>di</strong>catori in<strong>di</strong>retti:- il numero <strong>di</strong> correzioni per record- il numero <strong>di</strong> record corretti- il numero me<strong>di</strong>o <strong>di</strong> correzioni per gruppi significativi <strong>di</strong> variabiliGli In<strong>di</strong>catori <strong>di</strong> cui sopra, considerati a livello aggregato, costituisconola base Informativa per l'analisi delle fasi In cui è stata<strong>di</strong>stinta la rilevazlone statistica; vanno altresl aggiunti gli In<strong>di</strong>catoriche non sono presenti nell'elenco, ma sono stati In<strong>di</strong>catinel capitoli precedenti, ovvero:I) gli In<strong>di</strong>catori riguardanti le regole <strong>di</strong> compatibilità- e correzione;Il) l'In<strong>di</strong>catore <strong>di</strong> qualità del materiale <strong>di</strong>sponibile, l'errore minimo<strong>di</strong> registrazione e l'In<strong>di</strong>catore <strong>di</strong> efficacia dell'Indagine;III) il tasso <strong>di</strong> campionamento effattlvo;IV) gli in<strong>di</strong>catori <strong>di</strong> errore <strong>di</strong> co<strong>di</strong>fica;V) gli in<strong>di</strong>catori del plano <strong>di</strong> tabulazlone.L'MCIIIvIo dMIe fallL'Analllldlllr_hIvIoE) Le caratteristiche strutturali della popolazione rilevata, perdomini territoriali significativi:- l'In<strong>di</strong>ce <strong>di</strong> mascolinità- Il numero me<strong>di</strong>o <strong>di</strong> componenti per famiglial'In<strong>di</strong>ce <strong>di</strong> vecchiaial'In<strong>di</strong>ce <strong>di</strong> <strong>di</strong>pendenza- le percentuali <strong>di</strong> in<strong>di</strong>vidui per classi significative <strong>di</strong> età.F) A tali In<strong>di</strong>catori, và aggiunta, laddove sia <strong>di</strong>sponibile, una sintesidell'errore <strong>di</strong> risposta delle variabili del questionario; Ingenere, tale In<strong>di</strong>catore è <strong>di</strong>sponibile al livello minimo <strong>di</strong> comune.


268 IL SISTEMA DI CONTROLLO DEllA QUAUTÀ DEI DATICAP. 8 • L'ARCHIVIO DI QUALITÀ269APPENDICE1. II sistema <strong>di</strong> controllo dell'Indagine sulla .alute 1983l'esempio che segue è relativo all'Integrazione <strong>di</strong> fonti <strong>di</strong>verseper il controllo <strong>di</strong> un'<strong>indagine</strong>, realizzato però a posteriori, ovveronon programmato nella fase <strong>di</strong> progettazione. Esso è trattoda M. Masselll La qua/ltè del dati nell'lndagine/stat sul/a salute1983, In Atti del.Convegno .Salute e ricorso ai servizi nel Veneto-,Regione Veneto, novembre 1987.Il sistema <strong>di</strong> controllo dell'Indagine <strong>Istat</strong> sulla salute degli italiani,anno 1983, si avvale della possibilità <strong>di</strong> Integrare le Informazioniprovenienti da fonti <strong>di</strong>verse e <strong>di</strong> rlferlrle al <strong>di</strong>fferenti livelli<strong>di</strong> controllo (In<strong>di</strong>viduo, famiglia, rilevatore, USl, comune ecc.)me<strong>di</strong>ante un adeguato sistema <strong>di</strong> Identificazione <strong>di</strong> tali unità. leInformazioni sono desumibili dalle seguenti fonti:• A) norme e documenti amministrativi derivanti dal piano <strong>di</strong> rllevazlone• B) questionario base• C) procedura <strong>di</strong> controllo e correzione• D) foglio notizie de'rllevatore'• E) questionario per la relntervlsta <strong>di</strong> un campione <strong>di</strong> capifamiglia.In particolare Il questionario base può essere sud<strong>di</strong>viso Inblocchi <strong>di</strong> informazione:• B1) co<strong>di</strong>ci Identificativi• B2) composizione della famiglia intervistata• B3) variabili In<strong>di</strong>viduali oggetto <strong>di</strong> stu<strong>di</strong>o• 84) In<strong>di</strong>viduo rispondente per ciascun foglio In<strong>di</strong>viduale• B5) composizione della famiglia sostituita• B6) ragioni della sostituzione• B7) durata, data ed ora <strong>di</strong> Inizio dell'intervista• 88) <strong>di</strong>fficoltà delle domande per ogni capitolo del questionariole Informazioni desunte dal foglio notizie del rilevatore possonoInvece essere scomposte In:• 01) caratteristiche soclo-demograflche del rilevatore• 02) numero <strong>di</strong> Interviste effettuatementre il questionario utilizzato per la reintervlsta:• E1) avvenuta intervista (sl/no) e modalità della stessa• E2) alcune delle variabili In<strong>di</strong>viduali oggetto <strong>di</strong> stu<strong>di</strong>o.C'è da osservare che mentre le Informazioni desumibili dallefonti da A a D sono <strong>di</strong>sponibili per tutte le unità <strong>di</strong> tutti I livelli<strong>di</strong> controllo considerati nel co<strong>di</strong>ci <strong>di</strong> Identificazione, quelle dellafonte E, provenlendo da un sub campione, non sono rlferibllla tutte le unità dei livelli <strong>di</strong> controllo desideratI.Nel Prospetto 8.1 vengono riportati I principali tipi <strong>di</strong> controlloche è possibile effettuare per l'Indagine In esame e le relativefonti <strong>di</strong> Informazione.Prospetto 8.1 - Il sistema <strong>di</strong> controllo dell'IndagineCONTROLLO/ANALISI- Quantltatlvo (consistenza del materialeraccolto)- Sistema <strong>di</strong> identificazione- Distorsione nel numero e nella tipologladelle famiglie e degli In<strong>di</strong>viduiIntervistati rispetto a quelli selezionati- Caratteristiche della rete <strong>di</strong> rilevazlone- Operato del singoli rilevatorl- Relazione tra caratteristiche del rllevatorle loro prestazioni- Schema dell'Intervista- liste <strong>di</strong> estrazione- Adeguatezza del questionario- Stima del numero <strong>di</strong> interviste noneffettuate e delle modalità <strong>di</strong> quelleeffettuate- Stima della <strong>di</strong>storsione del risultatiFONTIA B1 02A B1 B2D2B2 B501B2 B4 B5 B6 B7CB284 B5 B7 C01B4 B7B6B8CE1B3 E2


CAP. 8· L'ARCHIVIO DI QUALITÀ271RIFERIMENTI BIBLIOGRAFICIDE MARCHIS M.A. (1988), Intervlewer file of <strong>Istat</strong> household surveys, Attidella I Conferenza I.A.O.S., Roma.MANICARDI D., VENTURI M. (1988), Analisi Integrata <strong>di</strong> dati e funzioni nelsistemi Informativi statistici, documento Interno <strong>Istat</strong>.MASSEW M. (1987), La qualltA del dati nell'Indagine <strong>Istat</strong> sulla salute1983, In Atti del Convegno -Salute e ricorso al servizi nel Veneto-,Padova novembre 1987.


PUBBLICAZIONI ISTATBOLLETTINO MENSILE DI STATISTICALa plil completa ed autorevole raccolta <strong>di</strong> dati congiunturali concementll'evoluzione del fenomeni demografici,sociali, economici a finanziariAbbonamento annuo L 122.000 (Estero L 147.000) Ogni f.8O/c% L 16.000INDICATORI MENSILIFomlecono dati riassuntivi e tempestivi sull'andamento mensile del principali fenomeni Interaaaanti la vitanazionaleAbbonamento annuo L 31.000 (Estero L 37.000) Ogni fascicolo L 4.000NonZIARllSTATè sttualmente In corao una ra<strong>di</strong>cale trasformazione della struttura del "Notiziario ISTAT" per cui, pur _ndostato flaeeto Il prezzo <strong>di</strong> un singolo fascicolo (L 1.700) valido per alcuni numeri ecceztonall che potranno ..sere ancora pubblicati, non è pravlsto un canone <strong>di</strong> abbonamento.Le Informazioni sul sistema <strong>di</strong> dlffualone sostitutivo dell'abbonamento saranno <strong>di</strong>ffuse quanto_prima.INDICATORI TRIMESTRALIConti economici trlmeatrallAbbonamento annuo L 12.000 (Estero L 14.000) Ogni fascicolo L 4.000STATISTICA DEL COMMERCIO CON L'ESTERODocumentazione statistica ufficiale, a perio<strong>di</strong>ci .. trlmestrale, sul Commercio dell'ltalie con l'.ero; fomlece,per tutte le merci comprese nella classificazione merceologlca della tariffa del dazi doganali, l'andamentodelle Importazioni e delle esportazioni da e per I principali PuaIAbbonamanto annuo L 105.000 (Estero L 119.000) Ogni fascicolo L 33.000AIIboIIamMIo _IlO eumulallllO a tutti I perlodIc4 -..... la ~srau.t1Ca dM COIIJIIJM:Io CGn r..-u,,= L JiN8JIIIO/&IMILo 288.000); _IUN la "Stetlatlca dM commercio COlI l'.feto'' Lo 14t1.ODO (&t.D Lo 1/1fUlIIJJGli abbone_ti dIJcommo dal 1° gennaio 8IIche .. so_ritti _ceno IMII'anno. In tal caso l'aIIOonato ,.,....I numeri dell'811ft8,. Il'' pubblICati. L'abbonalo al per/odlcllSTAT ha <strong>di</strong>ritto e "-te llratulwo.nte I tucJcoll nonp8IVWIutlQ/I so/,.,,10 N ne /NIfI,..,.1I mancato arrivo .tlO 10 QIomI dal tI

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!