22.09.2013 Views

Guide till granskning (pdf) - Statistiska centralbyrån

Guide till granskning (pdf) - Statistiska centralbyrån

Guide till granskning (pdf) - Statistiska centralbyrån

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Guide</strong> <strong>till</strong><br />

<strong>granskning</strong><br />

Leopold Granquist<br />

Gunnar Arvidson<br />

Catarina Elffors<br />

Anders Norberg<br />

Lars-Göran Lundell<br />

CBM 2002:1


<strong>Guide</strong> <strong>till</strong><br />

<strong>granskning</strong><br />

Leopold Granquist<br />

Gunnar Arvidson<br />

Catarina Elffors<br />

Anders Norberg<br />

Lars-Göran Lundell<br />

CBM 2002:1


För ytterligare information, kontakta:<br />

Leopold Granquist telefon: 08-506 944 43<br />

e-post: Leopold.Granquist@scb.se<br />

eller<br />

Gunnar Arvidson telefon: 019-17 65 59<br />

e-post: Gunnar.Arvidson@scb.se<br />

Catarina Elffors telefon: 08-506 947 98<br />

e-post: Catarina.Elffors@scb.se<br />

Anders Norberg telefon: 08-506 946 79<br />

e-post: Anders.Norberg@scb.se<br />

© 2002, Statistics Sweden<br />

ISBN: 91-618-1138-6<br />

Printed in Sweden<br />

SCB-tryck, Örebro 2002.06<br />

2


Generaldirektörens förord<br />

Förord<br />

<strong>Statistiska</strong> <strong>centralbyrån</strong> (SCB) utarbetar som en del i det systematiska kvalitetsarbetet<br />

rapporter rörande bästa kända metod på olika områden, s.k. Current Best<br />

Methods (CBM). ”<strong>Guide</strong> <strong>till</strong> <strong>granskning</strong>” är ett sådant CBM-dokument och har<br />

tagits fram inom ramen för SCB:s arbete med att utveckla <strong>granskning</strong>sarbetet. Det<br />

utgör en genomgripande uppdatering av CBM-dokumentet ”Granska effektivt”,<br />

som publicerades i mars 1997.<br />

<strong>Guide</strong>n är avsedd för personer med ansvar för design och utveckling av statistiska<br />

produktionsprocesser vid SCB, andra myndigheter, organisationer och företag.<br />

Granskningens huvuduppgift att vara ett medel för kontinuerlig förbättring av hela<br />

undersökningen betonas. Generella grafiska programvaror rekommenderas komma<br />

<strong>till</strong> allmän användning.<br />

Jag vill tacka den arbetsgrupp, som har utarbetat rapporten, och alla andra, som<br />

har sett <strong>till</strong> att den har tagits fram, för ett fint arbete.<br />

Svante Öberg<br />

Generaldirektör<br />

Arbetsgruppens förord<br />

I föregående CBM-dokument: ”Granska effektivt”, som publicerades i mars 1997,<br />

behandlades i avsnittet om grafisk <strong>granskning</strong> endast skräddarsydda programvaror<br />

för output<strong>granskning</strong>.<br />

Nu finns det emellertid generella grafiska programvaror. De kan effektivt utnyttjas<br />

för nya output<strong>granskning</strong>smetoder, i kontroller, utveckling och utvärdering av<br />

<strong>granskning</strong>skriterier och processer samt för identifiering av systematiska uppgiftslämnarfel<br />

– vilka är svåra att upptäcka med traditionella metoder. Detta genomsyrar<br />

hela dokumentet. Ett särskilt kapitel ägnas åt grafiska metoder, och flera kapitel<br />

har omarbetats grundligt med avseende på de nya möjligheter som tekniken<br />

medger. På detta område ligger SCB i frontlinjen, vilket bl.a. inneburit att experiment<br />

och utveckling har ingått i projektet.<br />

Den internationellt accepterade nya synen på <strong>granskning</strong> – med tonvikten på att<br />

identifiera felkällor och problem i insamlings- och produktionsprocessen – är det<br />

genomgående temat i hela CBM-dokumentet. Föregående version var inriktad på<br />

att rationalisera <strong>granskning</strong>en, medan denna är orienterad mot att kontinuerligt<br />

förbättra kvaliteten i undersökningen. I det avseendet är dokumentet också framåtsyftande<br />

i meningen att det inte finns publicerade artiklar om erfarenheter av<br />

metoder, idéer osv.<br />

Ett biskäl <strong>till</strong> beslutet om uppdatering var att dokumentet skulle förses med checklistor<br />

i större utsträckning och att form och layout skulle samordnas med övriga<br />

CBM-dokument.<br />

3


Förord<br />

Dokumentet har i huvudsak utarbetats av en arbetsgrupp bestående av Gunnar<br />

Arvidson, Catarina Elffors, Leopold Granquist (projektledare), Lars-Gösta Lundell<br />

och Anders Norberg. I inledningsskedet medverkade också Per Engström.<br />

Synpunkter på dokumentets innehåll har vi fått via seminarier och framför allt av<br />

en läsgrupp som bestått av Stina Andersson, Heather Bergdahl och Roland<br />

Friberg.<br />

Dokumentet har språkgranskats av Hans Berglund, och layouten har gjorts av<br />

Inga-Lill Kvist.<br />

4


Innehållsförteckning<br />

Innehåll<br />

GENERALDIREKTÖRENS FÖRORD 3<br />

Arbetsgruppens förord 3<br />

1 PRINCIPER 9<br />

1.1 Granskningens syfte: 9<br />

1.2 Granskningens roll 9<br />

1.3 Faktorer för att uppnå hög slutlig kvalitet<br />

1.3.1 Processperspektivet: ”TQM - ständig förbättring” ska<br />

9<br />

<strong>till</strong>ämpas på 9<br />

1.3.2 God svarskvalitet förutsätter att uppgiftslämnaren 10<br />

1.3.3 Klassificering av fel 11<br />

1.3.4 Bra kontroller – förutsättning för god effektivitet i <strong>granskning</strong>en 11<br />

1.3.5 Systematisk insamling av data över felkällor 12<br />

2 VILKA FEL SKA GRANSKNINGEN HITTA? 13<br />

2.1 Uppenbara fel 14<br />

2.2 Misstänkta fel 15<br />

2.2.1 Avvikelsefel 15<br />

2.2.2 Definitionsfel 16<br />

2.3 Referenser 18<br />

3 VAR SKA GRANSKNINGEN SKE? 19<br />

3.1 Undvik flera stora delprocesser? 19<br />

3.2 Granskning av postenkäter 21<br />

3.2.1 Uppgiftslämnarservice 22<br />

3.2.2 Uppgiftslämnarens egen <strong>granskning</strong> 22<br />

3.2.3 Manuell för<strong>granskning</strong> 23<br />

3.2.4 Dataregistrerings<strong>granskning</strong> 25<br />

3.2.5 Produktions<strong>granskning</strong> 26<br />

3.2.6 Output<strong>granskning</strong> 27<br />

3.3 Elektronisk datainsamling 27<br />

3.3.1 Elektroniska blanketter 28<br />

3.3.2 Tonvalsinsamling 29<br />

3.3.3 Datorstödda intervjuer 30<br />

3.4 Registerdata 30<br />

3.4.1 Kontrollprocess 32<br />

3.4.2 Process- och kontrollvariabler 33<br />

3.4.3 Dokumentation av kontrollprocessen 33<br />

5


Innehåll<br />

3.5 Referenser 33<br />

4 KONTROLLMETODER 35<br />

4.1 Underlag för formulering av kontroller 35<br />

4.1.1 Några speciella problem 35<br />

4.1.2 Blanketten 36<br />

4.1.3 Studier i datamaterialet 37<br />

4.1.4 Processdata och erfarenheter 37<br />

4.2 Generella tips för effektiva avvikelsekontroller 37<br />

4.2.1 Effektiva kontroller 38<br />

4.2.2 Kontroller mot avvikelsefel 38<br />

4.2.3 Begränsning av antalet kontroller 39<br />

4.2.4 Prioritering av objekt genom poängfunktioner 39<br />

4.3 Utformning av kontroller 39<br />

4.3.1 Testvariabler 39<br />

4.3.2 Acceptansområde 40<br />

4.3.3 Gruppering 42<br />

4.4 Selektiv <strong>granskning</strong> – metoder för prioritering av objekt eller<br />

variabelvärden för verifiering 45<br />

4.5 Hur idén med poängfunktioner kan implementeras 46<br />

4.5.1 Lokal poäng 46<br />

4.5.2 Global poäng 46<br />

4.5.3 Kritiska värdet 46<br />

4.6 Erfarenheter 46<br />

4.7 Referenser 47<br />

5 GRAFISK GRANSKNING 51<br />

5.1 Bakgrund 51<br />

5.2 Vad är interaktiv grafisk <strong>granskning</strong>? 51<br />

5.3 Användning 52<br />

5.4 Introduktion <strong>till</strong> grafisk <strong>granskning</strong> 53<br />

5.5 Exempel 53<br />

5.5.1 Uppenbara fel 54<br />

5.5.2 Misstänkta fel – avvikelsefel 54<br />

5.5.3 Misstänkta fel – definitionsfel 57<br />

5.6 Grafisk aggregat<strong>granskning</strong> 58<br />

5.7 SAS/Insight: Hur stora dataset? 61<br />

5.8 Kompetens 61<br />

6


Innehåll<br />

5.9 Sammanfattning av interaktiv grafisk <strong>granskning</strong> 62<br />

5.9.1 Fördelar 62<br />

5.9.2 Problem 62<br />

5.9.3 När kan grafisk interaktiv <strong>granskning</strong> <strong>till</strong>ämpas? 63<br />

5.9.4 Rekommendationer 63<br />

5.10 Referenser 63<br />

6 VAD SKA GÖRAS VID FELSIGNAL? 65<br />

6.1 Felmeddelanden 65<br />

6.1.1 Innehåll 65<br />

6.1.2 Generering av felmeddelande 66<br />

6.2 Verifiering av felsignaler 67<br />

6.2.1 Underlag 67<br />

6.2.2 Kompetenskrav 68<br />

6.3 Återkontakter 68<br />

6.4 Hantering av outliers 68<br />

6.5 Imputering 68<br />

6.6 Insamling av information om <strong>granskning</strong>en 69<br />

6.7 Referens 70<br />

7 PROCESSDATA 71<br />

7.1 Indikatorer 72<br />

7.1.1 Objektrelaterade indikatorer 72<br />

7.1.2 Variabelrelaterade indikatorer 72<br />

7.2 Hur övervakning med hjälp av indikatorer skulle kunna gå <strong>till</strong> 73<br />

7.3 Referenser 77<br />

8 MÄTNING AV EFFEKTER AV GRANSKNING 79<br />

8.1 Differensmetoder 80<br />

8.1.1 Differensernas andelar av den totala differensen 80<br />

8.1.2 Differensernas successiva inverkan på skattningen 81<br />

8.2 Feltypsmetoden 83<br />

8.3 Differensstudier med SAS/Insight 84<br />

8.4 Numerisk metod 88<br />

8.5 Referenser 89<br />

9 IT-MILJÖN OCH GRETA 95<br />

9.1 Granskningsprocessens krav på IT-system 95<br />

9.2 Generell programvara eller specialprogrammering 95<br />

7


Innehåll<br />

9.3 Typer av <strong>granskning</strong>sprocesser 96<br />

9.3.1 Uppgiftslämnar<strong>granskning</strong> 96<br />

9.3.2 Granskning vid dataregistrering 96<br />

9.3.3 Produktions<strong>granskning</strong> 97<br />

9.3.4 Output<strong>granskning</strong> 97<br />

9.4 Komponenter i ett <strong>granskning</strong>sprogram 97<br />

9.5 Standardprogrammet Greta 97<br />

9.5.1 Möjligheter med Greta 98<br />

9.5.2 Gretas svagheter 99<br />

9.5.3 Vidareutveckling av Greta 100<br />

ORDLISTA 101<br />

8


1 Principer<br />

Principer<br />

Vi utgår här från en kontinuerlig företagsundersökning (månad, kvartal, år), men<br />

det som sägs är i princip <strong>till</strong>ämpbart på alla typer av undersökningar.<br />

Med <strong>granskning</strong> menar vi identifiering och åtgärdande av fel och outliers i individuella<br />

data som används för framställning av statistik. Ett huvudsyfte är att identifiera<br />

felkällor för senare åtgärder i undersöknings- och produktionsprocessen.<br />

1.1 Granskningens syfte:<br />

• Förbättra undersökningen = förhindra att fel uppkommer.<br />

• Öka kvaliteten i ingående och utgående data på ett effektivt sätt.<br />

• Bidra <strong>till</strong> kvalitetsbedömningar av statistiken.<br />

1.2 Granskningens roll<br />

• Identifiera felkällor i undersökningen, speciellt problem för uppgiftslämnaren<br />

att besvara frågorna<br />

• Identifiera och åtgärda betydelsefulla fel<br />

Ett upptäckt fel ska alltid ses som en representant för en felkälla eller ett problem<br />

med undersökningen.<br />

Granskning ska ses som en del i arbetet att få hög slutlig kvalitet i statistiken.<br />

1.3 Faktorer för att uppnå hög slutlig kvalitet<br />

• Processperspektiv<br />

• God svarskvalitet<br />

• Bra kontroller<br />

• Systematisk insamling av data över felkällor<br />

1.3.1 Processperspektivet: ”TQM - ständig förbättring” ska <strong>till</strong>ämpas<br />

på<br />

• undersökningen<br />

• <strong>granskning</strong>sprocessen.<br />

Detta innebär att man ska:<br />

• samla in processdata<br />

• analysera<br />

• åtgärda<br />

• mäta effekterna, dvs. samla in processdata, analysera, åtgärda, mäta<br />

osv.<br />

9


Principer<br />

Ständig förbättring förutsätter ett bra processdatasystem<br />

Processdata ska genereras och presenteras på ett sådant sätt att de snabbt kan<br />

analyseras – t.ex. genom pareto-diagram över<br />

• omfattningen av betydelsefulla felkällor<br />

• andelen felsignalerade, manuellt åtgärdade och automatiskt åtgärdade<br />

objekt<br />

• andelen förändrade värden och effekten av förändringarna per variabel<br />

• kontrollernas träffsäkerhet och effektivitet.<br />

Processdata ska ge underlag för var och hur åtgärder ska vidtas för att förbättra undersökningen:<br />

blankettförbättring (mätteknik, frågor, layout); bortfallsreducering;<br />

<strong>granskning</strong> m.m.<br />

Allt i insamlings- och produktionsprocessen ska vara enkelt att ändra!<br />

Variabler, kontroller och acceptansgränser ska kunna ändras utan nämnvärt<br />

arbete och utan specialistkompetens. Organisationen bör <strong>till</strong>handahålla generella<br />

program och en genomtänkt systemutvecklingsmodell. De ska <strong>till</strong>ämpas för alla<br />

undersökningar utom där det kan beläggas att metoderna inte är <strong>till</strong>ämpliga.<br />

SCB:s generella programvara för <strong>granskning</strong> heter GRETA. Programmet är särskilt<br />

flexibelt när det gäller ändringar i kontroller. I kombination med programmet<br />

AGDA kan acceptansgränser nästan helt automatiskt anpassas <strong>till</strong> de data som ska<br />

granskas. Processdata från <strong>granskning</strong>en genereras automatiskt på ett sätt som gör<br />

det möjligt att skapa generella rutiner för sammanställning och presentation av<br />

statistik över <strong>granskning</strong>en.<br />

1.3.2 God svarskvalitet förutsätter att uppgiftslämnaren<br />

• har kapacitet att ta fram data<br />

• exakt förstår innebörden i frågor och definitioner<br />

• är motiverad att lämna så korrekta uppgifter som möjligt<br />

• ges instrument att undvika slarvfel.<br />

Uppgifter bör vara lätt <strong>till</strong>gängliga och ska helst finnas i uppgiftslämnarens informationssystem.<br />

Det är ofta bättre att samla in data med definitioner som är för<br />

uppgiftslämnaren än med dem som vore de ideala för undersökningen. Undvik<br />

begreppsförvirring! Uppgiftslämnarna ska förstå vad de ska svara på. Och vi<br />

måste veta vad svaret avser.<br />

Hög kvalitet i indata kan uppnås om<br />

• frågorna är anpassade <strong>till</strong> uppgiftslämnarnas kapacitet (uppgifter <strong>till</strong>gängliga)<br />

• definitioner och begrepp är lätt <strong>till</strong>gängliga i anslutning <strong>till</strong> respektive fråga<br />

(förståelsen)<br />

• uppgiftslämnaren uppmuntras – generellt och i anslutning <strong>till</strong> svårare frågor<br />

– att kontakta undersökningens uppgiftslämnarservice (förståelsen)<br />

• uppgiftslämnaren får effektiv information om undersökningens betydelse<br />

och eventuellt belönas, t.ex. genom att uppgiftslämnaren får nyckeltal,<br />

resultat, publikationer o.d. (motivera)<br />

• uppgiftslämnaren vägleds att kontrollera sina svar (inga slarvfel).<br />

10


Principer<br />

Krav på uppgiftslämnarservicen:<br />

• hög <strong>till</strong>gänglighet, dvs. ständig jour under dagtid<br />

• telefonsvarare<br />

• fax<br />

• e-post<br />

• kunnig personal, som ska<br />

– besvara frågorna<br />

– fråga efter andra eventuella problem<br />

– dokumentera och registrera frågor och problem!<br />

• flexibilitet i form av längre jourtid och ökad bemanning när insamlingen är<br />

som intensivast.<br />

1.3.3 Klassificering av fel<br />

Granskningsprocessen ska effektivt identifiera och åtgärda betydelsefulla fel. En<br />

klassificering av fel och kontroller gör det lättare att uppnå hög effektivitet (identifiera<br />

de betydelsefulla felen med låg resursförbrukning).<br />

Fel klassificeras i<br />

Uppenbara fel: Kan identifieras säkert med enbart <strong>till</strong>gång på data om det<br />

granskade objektet.<br />

Misstänkta fel: Kontroller kan enbart ”säga” att ett variabelvärde är<br />

”misstänkt”.<br />

Misstänkta fel klassificeras i<br />

Avvikelsefel: Värdet på testvariabeln är för stort eller för litet.<br />

Definitionsfel: Exempel: Felaktigt svarsbeteende. Många uppgiftslämnare uppfattar<br />

en fråga eller underliggande definitioner på ett likartat men felaktigt sätt.<br />

1.3.4 Bra kontroller – förutsättning för god effektivitet i<br />

<strong>granskning</strong>en<br />

För att <strong>granskning</strong>en ska kunna höja kvaliteten fordras<br />

• hög träffsäkerhet när det gäller att hitta betydelsefulla misstänkta fel<br />

• hög kvalitet i verifieringsarbetet.<br />

Kontroller och acceptansgränser för speciellt misstänkta fel måste ändras i takt<br />

med de allt snabbare förändringarna i näringsliv och samhälle.<br />

Verifieringen av felsignaler måste utföras av välutbildad personal enligt välplanerade<br />

rutiner.<br />

Problem<br />

• Kontroller kan öka skevheten.<br />

Exempel: Om sannolikheten är mycket högre att identifiera fel som medför överskattning<br />

än att identifiera dem som medför underskattning. (Det finns exempel<br />

där acceptansgränserna inte täckte medianvärdet av värdena på kontrollfunktionen.)<br />

• Kontroller hittar inte förekommande allvarliga systematiska fel.<br />

Exempel: inliers dvs. felaktiga värden som ligger innanför varje rimligt val av<br />

acceptansgränser.<br />

11


Principer<br />

12<br />

• Kontrollsystemet kan orsaka över<strong>granskning</strong>:<br />

– För många felsignaler kan fördröja publiceringen dvs. minskad tidskvalitet.<br />

– Stora enstaka fel drunknar i mängden av felmeddelanden.<br />

– Nya fel <strong>till</strong>förs och uppgiftslämnarproblem döljs.<br />

Uppkommer genom felaktiga åtgärder för att objektet ska passera<br />

genom kontrollsystemet.<br />

• Felsignalerade värden ändras felaktigt.<br />

1.3.5 Systematisk insamling av data över felkällor<br />

Kontrollsystemet kan bli effektivt om<br />

• kontrollerna och kontrollsystemet utvärderas i ett autentiskt datamaterial<br />

• data över <strong>granskning</strong>ens effekter genereras kontinuerligt (processdatasystemet,<br />

se ovan)<br />

• data över felkällor insamlas och analyseras<br />

• datamaterialet analyseras för att identifiera eventuella inliers.<br />

Med hjälp av <strong>granskning</strong>sprogrammet GRETA kan man se effekter av kontroller<br />

och acceptansgränser.<br />

SAS/Insight ger möjligheter att identifiera inliers och andra förekommande systematiska<br />

fel samt är ett hjälpmedel när det gäller att finna bra kontroller för misstänkta<br />

fel och att avgöra att acceptansgränser ligger rätt.<br />

Vår uppfattning<br />

Processperspektivet och kontrollerna för identifiering av inliers torde öka<br />

kvaliteten väsentligt mer än vad traditionell <strong>granskning</strong> gör.


2 Vilka fel ska <strong>granskning</strong>en hitta?<br />

Vilka fel ska <strong>granskning</strong>en hitta?<br />

I <strong>granskning</strong> utförs kontroller av data. En del kontroller kan fastslå att det finns fel<br />

i ett visst variabelvärde eller bland vissa variabelvärden. Andra kontroller kan enbart<br />

säga att variabelvärden ser misstänkta ut. Troligen finns det ett fel, men det<br />

ifrågasatta värdet kan också vara korrekt.<br />

Värden som kontroller med säkerhet kan konstatera att de är fel kallar vi för<br />

uppenbara fel, medan de värden som identifieras på grundval av att de ser misstänkta<br />

ut och visar sig vara fel kallas för misstänkta fel.<br />

Kategorin uppenbara fel är alltså reserverad för kontroller som med säkerhet identifierar<br />

att uppgifter saknas eller är felaktiga. Ett ”uppenbart” fel betyder emellertid<br />

inte alltid att det är uppenbart ens för en kunnig användare på ämnesområdet.<br />

Ett exempel är fel i identitetsvariabler. Sådana fel upptäcks dock alltid när de<br />

används i matchningar o.d. – genom det kaos de orsakar i produktionssystemet.<br />

Data kan misstänkas vara felaktiga av i huvudsak två skäl: de avviker mycket från<br />

övriga data i samma stratum eller ser ut att vara exempel på ett visst felaktigt<br />

svarsbeteende. Vi kallar den första gruppen för avvikelsefel och den andra gruppen<br />

för definitionsfel. I engelskspråkig litteratur används begreppet inliers för den senare<br />

typen av fel, beroende på att sådana värden normalt accepteras av de kontroller<br />

som används för att avslöja avvikelsefel.<br />

Avvikelsefel upptäcks genom att variabelvärdet eller värdet på testvariabeln är<br />

misstänkt litet eller stort i förhållande <strong>till</strong> vad som är förväntat för den del av populationen<br />

som objektet <strong>till</strong>hör. Det avviker så mycket från övriga värden att det<br />

kan ha en oacceptabelt stor inverkan på skattningen.<br />

Definitionsfel uppstår när många uppgiftslämnare uppfattar en fråga på likartade<br />

men felaktiga sätt eller när de (medvetet eller omedvetet) <strong>till</strong>ämpar andra definitioner<br />

än undersökningens. I företagsstatistik har ett sådant, systematiskt felaktigt,<br />

svarsbeteende sin grund i att uppgiftslämnaren hämtar data direkt från sitt informationssystem<br />

utan att ge akt på att definitionerna inte överensstämmer eller att<br />

han eller hon inte vill eller kan ta fram svar enligt undersökningens definitioner.<br />

Definitionsfelen är en typ av mätfel.<br />

Vi har infört denna ”klassificering” av fel för att dessa utgör skilda <strong>granskning</strong>sproblem.<br />

För det första gör detta det enklare att inse hur man ska identifiera avvikelsefel<br />

på ett effektivt sätt. För det andra vill vi understryka att en väsentlig<br />

uppgift för <strong>granskning</strong>en är att hitta förekommande systematiska definitionsfel.<br />

När det gäller avvikelsefelen, är det främst en fråga om att uppnå hög träffsäkerhet<br />

i kontrollerna. Just detta misslyckas många processer med, vilket framför allt<br />

medför onödiga kostnader som en direkt följd men kan även få men för kvaliteten,<br />

Granquist and Kovar 1997.<br />

Definitionsfelen kan från kvalitetssynpunkt vara den allvarligaste feltypen, och de<br />

kan dessvärre vara synnerligen svåra att identifiera med enbart kontroller. Det behövs<br />

ytterligare åtgärder som t.ex. extra frågor i blanketten.<br />

13


Vilka fel ska <strong>granskning</strong>en hitta?<br />

2.1 Uppenbara fel<br />

Många – men nödvändigtvis inte alla – uppenbara fel måste elimineras i betydelsen<br />

att efter <strong>granskning</strong> ska de ifrågavarande felen inte finnas för något enskilt<br />

objekt. Det är undersökningens kvalitetsansvarige som måste ta ställning <strong>till</strong> vilka<br />

uppenbara fel som ska tas bort. Bedömningen ska göras utifrån produktionsprocessens<br />

krav och hur statistiken används och presenteras.<br />

Dessutom är det inte enbart en kvalitetsfråga utan kan även vara en fråga om användares<br />

förtroende för statistiken. En användare som hittar ett i och för sig betydelselöst<br />

fel i ett enskilt objekt kan se det som bevis för slarv i <strong>granskning</strong>en och<br />

tänka att det då säkert finns många andra fel i statistiken. Detta gäller fel som en<br />

användare utan kännedom om objektets identitet kan fastslå som fel.<br />

Några exempel på uppenbara fel av typen att de skulle kunna upptäckas även av<br />

användare med <strong>till</strong>gång <strong>till</strong> ett avidentifierat material är:<br />

• validitetsfel, dvs. det registrerade värdet <strong>till</strong>hör inte variabelns värdeförråd<br />

(<strong>till</strong>åtna värden)<br />

• motsägelser, dvs. svar på en fråga motsäger svar på en annan eller andra<br />

frågor<br />

• saknade värden på frågor där värden måste finnas t.ex. enligt undersökningens<br />

krav, svar på andra frågor, <strong>till</strong>gänglig bakgrundsinformation osv.<br />

• datastruktur- eller modellfel, dvs. definitionsmässiga samband mellan<br />

variabler satisfieras inte.<br />

Exempel: ”Antal män” ska vara mindre än eller lika med ”summa män och<br />

kvinnor”; svaret på en summavariabel ska överensstämma med summan av<br />

uppgifterna för delvariablerna.<br />

Exempel på uppenbara fel som orsakar kaos eller ställer <strong>till</strong> med avsevärt trassel i<br />

<strong>granskning</strong>s- och produktionsprocessen är:<br />

• fel i identitetsvariabler, speciellt objektsidentiteter<br />

• validitetsfel i variabler som anges i numeriska koder där antalet koder är<br />

stort, dvs. den angivna koden finns inte i kodförteckningen.<br />

Speciellt är fel i identitetsvariabler allvarliga. Sådana fel innebär t.ex. att matchning<br />

mot bakgrundsdata och tidigare inhämtade data misslyckas.<br />

Generellt är det relativt enkelt att identifiera uppenbara fel i betydelsen att konstruera<br />

kontroller för att upptäcka uppenbara fel enligt definitionen. De data som<br />

signaleras av kontrollerna för uppenbara fel ska praktiskt taget alltid innebära att<br />

det finns något fel i någon av de variabler som omfattas av kontrollen, men man<br />

vet inte genast vilken. Men i de fall man utifrån objektets data maskinellt kan<br />

identifiera det felaktiga värdet är det en fördel att <strong>till</strong> kontrollen koppla en maskinell<br />

ändringsrutin som ersätter det felaktiga värdet med ett bättre. En summeringskontroll<br />

kan t.ex. förses med en gräns under vilken en felaktig summering av<br />

uppgiftslämnaren accepteras och åtgärdas med att summavariabeln ändras <strong>till</strong><br />

summan av delvariablernas värden.<br />

Partiellt bortfall<br />

Ett speciellt problem är partiellt bortfall, dvs. att uppgiftslämnaren har lämnat en<br />

fråga obesvarad trots att det finns uppgifter att redovisa. Partiellt bortfall måste<br />

praktiskt taget alltid åtgärdas, eftersom det annars medför underrapportering som<br />

14


Vilka fel ska <strong>granskning</strong>en hitta?<br />

är större ju större det partiella bortfallet är. (Vi utgår från att man inte betraktar<br />

objektet som objektsbortfall när partiellt bortfall förekommer för ett relativt litet<br />

antal variabler.) Detta betyder att produktionsprocessen också måste kunna<br />

identifiera partiellt bortfall för alla variabler där bortfallet är av betydelse.<br />

Dessvärre kan det för en del variabler vara svårt att få det partiella bortfallet att<br />

<strong>till</strong>höra kategorin uppenbara fel, dvs. att konstruera kontroller som med säkerhet<br />

kan påvisa att värden är utelämnade. Problemet är särskilt besvärligt för undersökningar<br />

där uppgiftslämnare normalt har data att redovisa enbart för en del av variablerna,<br />

t.ex. produktion, försäljning eller export avseende ett antal specificerade<br />

varor; sådda arealer eller skördar för ett antal specificerade grödor; djurbestånd för<br />

ett antal angivna djurkategorier osv.<br />

Det gäller dock att söka få fram en så fullständig mängd kontroller som möjligt<br />

som med säkerhet kan påvisa att variabelvärde saknas. För detta krävs det ofta<br />

djupa ämneskunskaper och -erfarenheter. Men man måste nog också angripa<br />

problemet via blankettutformning och -anvisningar för att minska risken t.ex. att<br />

kräva att uppgiftslämnaren ska skriva in ”0” när inget finns att redovisa och ”kan<br />

ej” när en fråga inte kan besvaras. När det inte är uppenbart att en obesvarad fråga<br />

är partiellt bortfall, får man klassificera uppgiften som definitionsfel.<br />

2.2 Misstänkta fel<br />

För att misstänkta fel ska vara intressanta från kvalitetssynpunkt måste de ha betydelse<br />

på skattningsnivå. Det betyder antingen att ett enskilt (avvikelse-)fel påverkar<br />

skattningen eller att sammanlagda effekten av ett antal fel (avvikelsefel<br />

med samma tecken eller definitionsfel) gör det. Därför ska misstänkta fel ha<br />

effekter på skattningsnivå för att ingå i målet för <strong>granskning</strong>soperationen.<br />

2.2.1 Avvikelsefel<br />

Signaler från kontroller inriktade på avvikelsefel innebär oftast enbart att det finns<br />

misstanke om fel. Dessa data måste alltså undersökas ytterligare för att man ska<br />

kunna fastställa om de är felaktiga eller inte. När man måste ta kontakt med uppgiftslämnaren<br />

för att utreda frågan blir det kostsamt för båda parter. Därför måste<br />

de maskinella kontrollerna ha hög träffsäkerhet i att identifiera avvikelsefel som är<br />

betydelsefulla för skattningarna.<br />

Antalet betydande avvikelsefel för en variabel är relativt lågt i de flesta undersökningar.<br />

Detta är empiriskt bekräftat av den mångfald studier i olika former av traditionella<br />

<strong>granskning</strong>sprocesser som genomförts världen över (se t.ex. Granquist<br />

and Kovar 1997). De visar att i traditionell <strong>granskning</strong> med snäva acceptansgränser<br />

felsignaleras många observationer. Av dessa är det ofta inte mer än 30 procent<br />

som är felaktiga, och uppemot 80–90 procent av dessa upptäckta fel har ingen<br />

inverkan alls på skattningarna.<br />

Många avvikelsefel uppstår på grund av slarv antingen hos uppgiftslämnaren eller<br />

vid dataregistreringen. De uppträder därför slumpartat, men felens riktning och<br />

storlek behöver därför inte vara ”likformigt fördelade”. Eftersom vissa slarvfel<br />

kan vara mycket stora, måste avvikelsekontroller ingå i varje <strong>granskning</strong>sprocess.<br />

Antalet fel av betydelse per variabel kan emellertid förväntas vara lågt. Detta bör<br />

15


Vilka fel ska <strong>granskning</strong>en hitta?<br />

man ta hänsyn <strong>till</strong> när man utformar kontroller och acceptansgränser för<br />

avvikelsekontroller.<br />

2.2.2 Definitionsfel<br />

Tills för ett par år sedan har mycket litet intresse ägnats åt definitionsfel, trots att<br />

feltypen ur kvalitetssynpunkt mycket väl kan vara den som medför störst skevhet i<br />

skattningarna. Den internationella benämningen på feltypen, inliers, är dock<br />

egentligen ett snävare begrepp än definitionsfel. (Se DesJardins 1997 och Winkler<br />

1997.)<br />

Definitionsfel uppstår när en uppgiftslämnare har svårigheter att förstå innebörden<br />

av en fråga, saknar möjligheter att besvara den eller är omedveten om att definitionen<br />

på variabeln avviker från den definition uppgiftslämnaren <strong>till</strong>ämpar i sitt informationssystem.<br />

Om feltypen är frekvent för en variabel, kan felen i praktiken<br />

inte identifieras med avvikelsekontroller. Många uppgiftslämnare <strong>till</strong>ämpar ju<br />

samma felaktiga svarsbeteende. Observera att ovan omnämnda studier av <strong>granskning</strong>sprocesser<br />

också belägger att snäva acceptansgränser är en dålig metod när<br />

det gäller att hitta definitionsfel.<br />

Vid programmet AM/FS (Företagsbaserad sysselsättning) har man sedan ett par år<br />

<strong>till</strong>baka systematiskt arbetat med att förebygga definitionsfel. Man besöker uppgiftslämnare<br />

ute på företag/organisationer som har ansvar för många urvalsobjekt i<br />

en given undersökning. Kontakter tas även med representanter från dataservicebyråer<br />

som levererar och ger stöd <strong>till</strong> programvara hos flera uppgiftslämnare. Vid<br />

dessa personliga besök klargör man definitionerna och reder ut ett stort antal missuppfattningar<br />

i fråga om centrala variabler för undersökningen. Exempelvis<br />

gjordes under hösten 2000 ett besök hos TietoEnator, där man <strong>till</strong>sammans med<br />

systemerare och programmerare samt personal från kundsupport gick igenom<br />

undersökningen Kortperiodisk sysselsättningsstatistik för offentlig sektor (KSO).<br />

Man gick igenom variabel för variabel för att hitta potentiella fallgropar i löneprogrammet<br />

”Respons” (en programvara som finns hos ett 30-tal kommuner).<br />

Arbetet innebär att skapa insikt i att allvarliga definitionsfel förekommer, att identifiera<br />

felkällan och att finna åtgärder för att komma <strong>till</strong> rätta med felkällan.<br />

I ”CBM: Fråga rätt” anges i exempel 9.4.1 på sidan 78 att SCB ändrade definitionen<br />

på en variabel (under året nedlagda kostnader) <strong>till</strong> den definition som 90<br />

procent av uppgiftslämnarna alltid <strong>till</strong>ämpade (under året fakturerade kostnader).<br />

Därmed kunde man spara in det omfattande <strong>granskning</strong>sarbete som bestod i att<br />

undersöka vilken definition uppgiftslämnaren <strong>till</strong>ämpade och att ändra siffrorna<br />

för 90 procent av objekten. Omräkning <strong>till</strong> nedlagda kostnader, vilket användarna<br />

kräver, görs nu maskinellt.<br />

Fråga rätt redovisar i exempel 9.4.2 på sidan 79 en ändring av undersökningsdesignen<br />

som minskade arbetet vid <strong>granskning</strong> både för SCB:s personal och för uppgiftslämnarna.<br />

En stor del av <strong>granskning</strong>sarbetet ägnades åt småföretagen, som<br />

hade betydande svårigheter att lämna så detaljerade uppgifter om sin verksamhet<br />

som efterfrågades i postenkäten. I en simuleringsstudie konstaterade man att arbetet<br />

med småföretagen endast marginellt påverkade resultatens <strong>till</strong>förlitlighet.<br />

Metodstudier visade att man via modellberoende skattningar kunde skatta parametrar<br />

för småföretagen med en handfull av svaren i den ursprungliga 50-talet<br />

16


Vilka fel ska <strong>granskning</strong>en hitta?<br />

frågor stora blanketten. Den förenklade blanketten för småföretagen medförde<br />

också en dramatisk ökning av svarsfrekvensen.<br />

Ett par exempel från andra sidan Atlanten får ytterligare belysa problemen.<br />

Exempel 1: Slakteriundersökning<br />

I USA:s slakteriundersökning får de utvalda slakterierna veckovis ange bl.a.<br />

mängden slaktade djur och sammanlagd slaktvikt för varje förekommande djursort.<br />

Vid en översyn av <strong>granskning</strong>ssystemet i samband med en övergång <strong>till</strong> ett<br />

pc-baserat produktionssystem, visade det sig att ett stort antal slakterier lämnade<br />

exakt eller nästan exakt samma uppgifter vecka efter vecka. Möjligen skulle man<br />

kunna acceptera att antalet slaktade djur inte varierar över tiden, åtminstone när<br />

det gäller de slakterier som går för full kapacitet. Men den sammanlagda slaktvikten<br />

kan omöjligen vara densamma vecka från vecka. Man konstruerade därför<br />

en kontroll av tidsserietyp som felsignalerade de slakterier där variationen i slaktvikt<br />

var för låg i förhållande <strong>till</strong> slakteriets tidigare rapporterade slaktvikter. (Se<br />

Mazur 1990.)<br />

Kommentar: I detta fall lyckades man genom kontroller identifiera det felaktiga<br />

svarsbeteendet att i praktiken inte lämna uppgifter.<br />

Exempel 2: Lönestatistik<br />

Bureau of Labor Statistics (BLS) i USA producerar varje månad en lönestatistik<br />

för arbetare. Man genomför också regelbundna svarsanalysstudier. Lönebegreppet<br />

är uppbyggt av mer än 100-talet komponenter, s.k. löneslag, av vilka vissa<br />

ska räknas med, medan andra inte ska tas med. I en svarsanalysstudie undersöktes<br />

om uppgiftslämnarna inkluderade och exkluderade lönekomponenter enligt<br />

lönestatistikens definitioner. Man frågade också de uppgiftslämnare som inte<br />

följde anvisningarna om de i fortsättningen skulle kunna rapportera enligt undersökningens<br />

definitioner. I följande lönestatistik beräknade man estimaten för dem<br />

som ändrade beteende och jämförde resultaten med estimaten för en kontrollgrupp.<br />

Då fann man att för den viktigaste variabeln, Lönen för arbetare i direkt<br />

produktionsarbete, blev det i första gruppen 10.7 med standardavvikelsen 3.2 att<br />

jämföra med 1.6 för kontrollgruppen. (Se Werking m.fl. 1988.)<br />

Kommentar: Eftersom det är fråga om en konsistent felrapportering över tiden,<br />

kan den inte upptäckas med kontroller som bygger på jämförelser över tiden. Ett<br />

sätt att lösa problemet med komponentuppbyggda variabler är att i blanketten<br />

bygga in kontrollfrågor, t.ex. på följande sätt: ”När du svarade på den här frågan<br />

tog du med … och utelämnade ….? Om inte, markera om du i fortsättningen kan<br />

redovisa uppgiften enligt våra anvisningar.”<br />

Definitionsfel som tar sig uttryck i att uppgiftslämnaren inte besvarar en fråga<br />

(inte förstår den, inga data i informationssystemet, för mycket arbete att ta fram<br />

data) indikeras genom högt partiellt bortfall för variabeln. Ibland kan de identifieras<br />

i kontrollerna mot uppenbara fel. Här är uppföljningen av felsignalerna särskilt<br />

viktig, och det är granskarens uppgift att identifiera felorsaken, dvs. felkällorna.<br />

Data från övriga uppgiftslämnare kan här vara mycket osäkra, varför imputeringar<br />

som bygger på dessa data kan få mycket låg kvalitet.<br />

Metoder för att hitta definitionsfel som beror på att uppgiftslämnaren ”tar vad han<br />

har” är:<br />

• skräddarsydda kontroller som i exempel 1 ovan<br />

• kontrollfrågor i blanketten som i exempel 2 ovan<br />

• analys av data med syftet att identifiera felaktiga svarsmönster, t.ex. genom<br />

att använda SAS/INSIGHT (se kapitel 5).<br />

17


Vilka fel ska <strong>granskning</strong>en hitta?<br />

Hela undersökningsprocessen ska genomsyras av att man identifierar felkällor av<br />

definitionsfeltyp och partiellt bortfall (som beroende på kontrolltyp kan hänföras<br />

<strong>till</strong> både uppenbara fel och definitionsfel, se avsnittet om uppenbara fel). Design<br />

av undersökningen, blanketter, uppgiftslämnarservice (se avsnitt 3.2.1), uppföljningen<br />

av felsignaler och evalvering är medel utöver kontroller i blanketten och i<br />

<strong>granskning</strong>sprocessen.<br />

2.3 Referenser<br />

DesJardins, D. (1997): Experiences With Introducing New Graphical Techniques for the Analysis<br />

of Census Data, Work Session on Statistical Data Editing, Prague, Working Paper No. 19.<br />

Granquist, L and Kovar, J (1997): Editing of Survey Data: How much is enough? In L. Lyberg, P<br />

Biemer M. Collins, E. Leeuw, C. Dippo, N. Schwarz, D. Trewin (eds) Survey Measurement and<br />

Process Quality, Wiley, New York, 1997, pp. 415–436.<br />

Mazur, C. (1990): Statistical Edit System for Livestock Slaughter Data, Staff Research Report No.<br />

SRB-90-01, Washington, DC: U.S. Department of Agriculture.<br />

<strong>Statistiska</strong> <strong>centralbyrån</strong> (2001): Fråga rätt! – Utveckla, testa, utvärdera och förbättra blanketter.<br />

CBM-rapport juni 2001.<br />

Werking, G., Tupek, A. and Clayton, R. (1988): CATI and Touchtone Self-Response Applications for<br />

Establishment Surveys, Journal of Official Statistics, 4, pp. 349–362.<br />

Winkler, W. (1997): Problems With Inliers, ECE, Work Session on Statistical Data Editing,<br />

Prague, Working Paper No. 22.<br />

18


3 Var ska <strong>granskning</strong>en ske?<br />

Var ska <strong>granskning</strong>en ske?<br />

Data kan granskas i ett eller flera olika skeden av insamlings- och produktionsprocessen:<br />

• Uppgiftslämnar<strong>granskning</strong>: Utförs av uppgiftslämnaren (t.ex. vid besvarande<br />

av postenkät eller elektronisk blankett) eller av uppgiftslämnare<br />

och intervjuare gemensamt i intervjuundersökningar.<br />

• Manuell för<strong>granskning</strong>: En manuell process som äger rum omedelbart<br />

före dataregistrering.<br />

• Dataregistrerings<strong>granskning</strong>: Verifiering av de uppenbara fel som dataregistreringsprogrammet<br />

identifierar.<br />

• Produktions<strong>granskning</strong> eller batch-<strong>granskning</strong>: Verifiering av de variabler<br />

och objekt som flaggas av <strong>granskning</strong>sprogrammet. Oftast körs<br />

programmet för en mängd (batch) dataregistrerade objekt i taget, s.k. omgångar.<br />

• Output<strong>granskning</strong>: Granskning när allt material är insamlat för kontroll<br />

av att inga stora misstag har gjorts i de tidigare processerna.<br />

I postenkätundersökningar är det vanligt att alla dessa fem processer förekommer<br />

– även om såväl uppgiftslämnar<strong>granskning</strong> som manuell för<strong>granskning</strong> och output<strong>granskning</strong><br />

är mycket mindre processer än t.ex. dataregistrerings- och produktions<strong>granskning</strong>en.<br />

Frågan är hur man ska bygga upp en <strong>granskning</strong>sprocess på ett<br />

bra sätt och vilka delprocesser som ska ingå? Hur detta ska lösas för en specifik<br />

undersökning beror t.ex. på antalet undersökningsvariabler, hur komplicerade<br />

variablerna är, hur data insamlas, vilken kvaliteten är i insamlade data, vilken teknik<br />

och vilka programvaror som finns <strong>till</strong>gängliga.<br />

Varje undersökningsansvarig måste ta ställning <strong>till</strong> följande frågor:<br />

• Vilken eller vilka delprocesser behövs egentligen?<br />

• Är det verkligen nödvändigt med mer än en stor delprocess?<br />

• Hur ska delprocesser samordnas för att man ska undvika bl.a. dubbelarbete<br />

och onödiga uppgiftslämnarkontakter?<br />

Syftet med avsnitt 3.1 är att ge underlag och vägledning för att i varje enskild undersökning<br />

besvara dessa frågor. Rekommendationer för vad som bör tas med i de<br />

delprocesser som förekommer i en postenkätundersökning redovisas i 3.2. I avsnitt<br />

3.3, om elektronisk datainsamling, diskuteras det som utmärker dessa metoder<br />

jämfört med postenkät. Slutligen berörs i avsnitt 3.4 <strong>granskning</strong> av registerdata.<br />

3.1 Undvik flera stora delprocesser?<br />

Datakvaliteten kan förväntas bli högre ju närmare uppgiftslämnandet eller insamlingen<br />

av data som <strong>granskning</strong> sker. Vid t.ex. prisinsamling i butiker och vid<br />

besöks- eller telefonintervjuer bör all <strong>granskning</strong> ske i butiken respektive under<br />

intervjun. Därför rekommenderar vi i 3.2 satsningar på uppgiftslämnarservice<br />

både när uppgiftslämnaren själv tar kontakt med SCB och när inkommande<br />

blanketter är så bristfälligt ifyllda att man måste återkontakta uppgiftslämnaren.<br />

19


Var ska <strong>granskning</strong>en ske?<br />

Dessutom ska man se <strong>till</strong> att uppgiftslämnaren instrueras att granska sina svar. Det<br />

senare kallar vi uppgiftslämnar<strong>granskning</strong>.<br />

Vi framhåller att en fördel med <strong>granskning</strong> vid dataregistrering är att den ofta äger<br />

rum strax efter uppgiftslämnandet. Därmed menar vi att när uppgiftslämnarna behöver<br />

återkontaktas, har de uppgiftslämnandet i färskt minne. En annan fördel är<br />

att blanketten finns framför ögonen på den som granskar. Ingen tid krävs för att ta<br />

fram och sortera blanketter. Dessutom kan ”om<strong>granskning</strong>” av ändringar eller nya<br />

värden ske omedelbart vid registreringen.<br />

Men räcker det med endast dataregistrerings<strong>granskning</strong> i postenkäter? Behövs det<br />

över huvud taget mer än en stor <strong>granskning</strong>sprocess? Fördelen med det är att man<br />

minskar risken för dubbelarbete. En annan fördel är att uppgiftslämnare inte kommer<br />

att kontaktas mer än en gång. Det främsta skälet <strong>till</strong> att vi kraftfullt varnar för<br />

omfattande manuell för<strong>granskning</strong> (3.2.3) är just risken för att man vid efterföljande<br />

dataregistrerings<strong>granskning</strong> gör om mycket av det som redan utförts (se t.ex.<br />

Linacre and Trewin 1989).<br />

Observera även att <strong>granskning</strong>sprocessen som sådan har rationaliserats oerhört<br />

tack vare att datortekniken gjorde det möjligt att integrera registrering, kodning<br />

och <strong>granskning</strong> i pc-miljö (se t.ex. Bethlehem et al. 1989, Granquist 1992 och<br />

Pierzchala 1995). Internationellt uppmärk-sammade man denna möjlighet tidigt<br />

och utvecklade generella program-varor för registrering och samtidig <strong>granskning</strong>,<br />

t.ex. BLAISE (Holland), DC2 (Canada), IPS (Australien) och IMPS (USA). Vid<br />

SCB finns programmet Rode/pc.<br />

Om man har flera stora delprocesser, måste man vidta åtgärder för att undvika det<br />

dubbelarbete och de upprepade återkontakter som kan uppstå <strong>till</strong> följd av att man<br />

har flera större processer. Man får då sätta och utnyttja <strong>granskning</strong>skoder i <strong>granskning</strong>sprogrammen<br />

samt planera verifieringsprocesserna noggrant.<br />

Ett allvarligare problem kan vara att hela <strong>granskning</strong>en tar längre tid. Om <strong>granskning</strong>en<br />

fördröjer publiceringen av statistiken, måste kvalitetsförbättringen på<br />

grund av <strong>granskning</strong>en motivera den försämrade tidskvaliteten. Det gäller också<br />

att förvissa sig om att man faktiskt uppnår en kvalitetsförbättring. Återkontakter<br />

med uppgiftslämnaren kan t.ex. komma att tas så långt efter uppgiftslämnandet att<br />

man inte får högre svarskvalitet.<br />

Man måste ha goda motiv för att t.ex. i postenkätfallet ha ytterligare en stor process<br />

utöver dataregistrerings<strong>granskning</strong>. Skäl kan vara att angelägna kontroller<br />

inte kan utföras i dataregistrerings<strong>granskning</strong> eller att kontroller kan göras mycket<br />

effektivare i t.ex. produktions<strong>granskning</strong>. Det är då fråga om kontroller som<br />

kräver data från andra insamlade objekt. Produktions<strong>granskning</strong> bör då reserveras<br />

enbart för sådana kontroller.<br />

Output<strong>granskning</strong> bör alltid finnas, eftersom huvudsyftet är att säkerställa att inga<br />

stora fel har sluppit igenom tidigare utförd <strong>granskning</strong>. Här rekommenderar vi<br />

grafisk <strong>granskning</strong> (se kapitel 5).<br />

Vid elektronisk datainsamling, som diskuteras i 3.3, bör man vara mycket försiktig<br />

med att låta processen följas av någon annan process än output<strong>granskning</strong>.<br />

Det är särskilt vid uppgiftslämnar<strong>granskning</strong> med elektroniska blanketter som en<br />

sådan situation kan uppstå. Huvudregeln är att <strong>granskning</strong>en vid SCB måste <strong>till</strong>-<br />

20


Var ska <strong>granskning</strong>en ske?<br />

föra något nytt, t.ex. kontroller som bedöms vara för komplicerade för uppgiftslämnaren.<br />

Men man bör absolut inte göra om det som uppgiftslämnaren redan har<br />

gjort.<br />

Checklista för hela <strong>granskning</strong>sprocessen<br />

‰ Ange de <strong>granskning</strong>sprocesser som kan vara aktuella:<br />

{ manuell uppgiftslämnar<strong>granskning</strong><br />

{ manuell för<strong>granskning</strong><br />

{ dataregistrerings<strong>granskning</strong><br />

{ produktions<strong>granskning</strong><br />

{ output<strong>granskning</strong>.<br />

‰ Prioritera bland dessa.<br />

‰ Begränsa antalet processer, men output<strong>granskning</strong> (helst i grafisk form)<br />

bör dock alltid finnas med.<br />

3.2 Granskning av postenkäter<br />

Vi ska här följa de olika faser som en blankett i en SCB-undersökning kan passera<br />

från det att den besvaras av uppgiftslämnaren <strong>till</strong>s objektets data bedöms vara färdiggranskade.<br />

Genom numrerade rubriker urskiljer vi i varje fas i produktionsprocessen<br />

de <strong>granskning</strong>sprocesser och aktiviteter/processer som syftar <strong>till</strong> att höja<br />

svarskvaliteten.<br />

Bilagan <strong>till</strong> kapitel 3 presenterar ett flöde över <strong>granskning</strong>sprocessen i en postenkätundersökning.<br />

Fas 1 – Svarsprocessen<br />

När uppgiftslämnaren tar emot enkäten, blir den första åtgärden att sätta sig in i<br />

frågorna. Vad vill SCB ha svar på? Kan jag besvara frågorna? Var hittar jag uppgifterna?<br />

I huvudsak är det blanketten med sina anvisningar som ska ge uppgiftslämnaren<br />

<strong>till</strong>räcklig information om vilka uppgifter som begärs. Introduktionsbrev om undersökningens<br />

syfte och förekommande anvisningar om variabeldefinitioner<br />

hjälper också uppgiftslämnaren att förstå frågornas innebörd.<br />

Nästa problem för uppgiftslämnaren är att undersöka: Vilka data kan hämtas direkt<br />

från informationssystemet (redovisningssystem, bokföring, kunskaper, minnesbilder<br />

med mera)? Vilka data behöver tas fram på annat sätt? Vilka data går<br />

inte att få fram?<br />

När svårigheter uppstår, är det många uppgiftslämnare som kontaktar SCB. Frågorna<br />

kan gälla:<br />

• om objektet faktiskt <strong>till</strong>hör målpopulationen<br />

• vilka definitioner som <strong>till</strong>ämpas<br />

• vad frågorna innebär<br />

• vad som ska göras när svaren inte kan hämtas direkt ur uppgiftslämnarens<br />

informationssystem, t.ex. på grund av skillnader i definitioner, referensperiod<br />

eller detaljeringsgrad.<br />

Vi rekommenderar att uppgiftslämnaren på alla sätt uppmuntras att ta kontakt med<br />

undersökningens uppgiftslämnarservice. Uppmaningar att ta kontakt bör gärna<br />

21


Var ska <strong>granskning</strong>en ske?<br />

göras upprepade gånger i blanketten, introduktionsbrevet och de anvisningar som<br />

ofta bifogas.<br />

3.2.1 Uppgiftslämnarservice<br />

Uppgiftslämnarservicen måste ha hög kvalitet. Tillgängligheten ska vara hög – det<br />

ska alltid finnas någon som svarar. Erfaren och kunnig personal ska omsorgsfullt<br />

och uppmuntrande ta hand om uppgiftslämnaren. Uppgiftslämnaren ska få all den<br />

hjälp som han eller hon anser sig behöva.<br />

Fördelar med god uppgiftslämnarservice är att<br />

• ingående datakvalitet blir högre<br />

• kunskaper om uppgiftslämnarens problem erhålls<br />

• behovet av att senare i produktionsprocessen ta kontakt med<br />

uppgiftslämnaren minskar<br />

• uppgiftslämnaren lär sig, vilket kan medföra högre kvalitet i svaren vid<br />

nästa undersökning.<br />

Kontakterna med uppgiftslämnarna ska dokumenteras, så att man kan göra statistik<br />

över frågor och identifierade problem. Vissa uppgifter bör också återföras <strong>till</strong><br />

registret eller databasen för att undvika att man tar kontakt med uppgiftslämnaren<br />

i frågor som man redan känner svaren på (en uppgift för systembyggaren).<br />

Checklista för uppgiftslämnarservice<br />

‰ Bemanning: kort eller lång tid av dygnet<br />

{ Telefonsvarare<br />

{ Fax<br />

{ E-post<br />

‰ Se <strong>till</strong> att personalen är kunnig och erfaren.<br />

‰ Skriv i blankett, introduktionsbrev och anvisningar på flera ställen att upp-<br />

giftslämnarservice finns och bör användas.<br />

‰ Dokumentera samtliga samtal på en lista med åtminstone kolumnerna: tid-<br />

punkt; uppgiftslämnare; fråga; tidsåtgång.<br />

3.2.2 Uppgiftslämnarens egen <strong>granskning</strong><br />

Många ambitiösa uppgiftslämnare kontrollerar på eget initiativ sina uppgifter när<br />

blankettens frågor besvaras. Det kan vara kontroller av att siffror skrivs korrekt;<br />

bedömning av att data är rimliga t.ex. i jämförelse med tidigare rapporteringar;<br />

kontroller av att summor stämmer, en delpost är mindre än summaposten osv.<br />

Självklart blir svarskvaliteten högre, uppgiftslämnandet enklare och arbetet för<br />

SCB och uppgiftslämnare mindre, om blanketten uppmanar uppgiftslämnaren att<br />

göra sådana kontroller.<br />

Följaktligen rekommenderar vi att <strong>granskning</strong>en integreras med<br />

uppgiftslämnandet i postenkätundersökningar. Det kan göras genom att blanketten<br />

ger instruktioner <strong>till</strong> uppgiftslämnaren, som t.ex. att<br />

• summera delposterna och jämföra det erhållna resultatet med summaposten<br />

i bokföringen, vid misstämning kontrollera att ...<br />

• kvoten mellan värdet för variabel x och variabel y bör ligga i intervallet<br />

(a,b), om inte: kontrollera att ...<br />

22


Var ska <strong>granskning</strong>en ske?<br />

Idén är att uppgiftslämnaren uppmärksammas på vanligt förekommande fel och<br />

samtidigt ges ytterligare information om vad som efterfrågas. Vi får på så sätt en<br />

styrning av den <strong>granskning</strong> som många uppgiftslämnare ändå gör, samtidigt som<br />

vi (förhoppningsvis) kan få många fler att granska sina egna svar.<br />

Ett problem ligger i att blankettutrymmet i hög grad begränsar möjligheterna <strong>till</strong><br />

sådana självkontroller. Dessutom ska inte sådana kontroller medföra något egentligt<br />

merarbete för uppgiftslämnarna, utan kontrollerna ska upplevas som något<br />

naturligt som ger värdefull hjälp i uppgiftslämnandet. Uppmaningarna får dock<br />

absolut inte vara av generell karaktär som t.ex. ”kontrollera noga svaren på samtliga<br />

frågor”, ”kontrollera att alla frågor är besvarade”, utan de ska vara enkla och<br />

konkreta.<br />

Uppgiftslämnarna bör också i blanketten ges utrymme att förklara varför svar inte<br />

helt stämmer med vad som förväntas enligt anvisningarna, t.ex. när data ligger<br />

utanför ett angivet intervall. Det är också önskvärt att uppgiftslämnaren enkelt kan<br />

markera att en misstämning mot en blankettkontroll har beaktats, men att det<br />

lämnade svaret trots allt är korrekt.<br />

Checklista för manuell uppgiftslämnar<strong>granskning</strong><br />

‰ Förtryck tidigare uppgifter på blanketten.<br />

‰ Uppmana <strong>till</strong> summeringar och kontroll av dessa, t.ex.:<br />

{ Summor stämmer (t.ex. mot andra summor i blanketten eller mot<br />

summor i bokföringen).<br />

{ Delpost mindre än summan.<br />

{ Kvoten mellan värdet för variabel x och y bör ligga i (a,b).<br />

‰ Se <strong>till</strong> att kontrollerna inte innebär merarbete för uppgiftslämnarna.<br />

‰ Se <strong>till</strong> att kontrollerna uppfattas som meningsfulla.<br />

‰ Ge utrymme för kommentarer på blanketten.<br />

Fas 2 – Mottagningsprocessen<br />

Vid ankomsten <strong>till</strong> SCB hamnar blanketten i mottagningsprocessen, som omfattar<br />

allt arbete som föregår dataregistreringen. Exempel:<br />

• behandling av postreturer<br />

• behandling av blanketter från uppgiftslämnare som inte längre <strong>till</strong>hör (eller<br />

inte anser sig <strong>till</strong>höra) populationen<br />

• behandling av blanketter som ställts <strong>till</strong> felaktig adress/uppgiftslämnare<br />

(t.ex. på grund av ägarbyte)<br />

• uppdatering av utsändningsregistret.<br />

I mottagningsprocessen sker också <strong>granskning</strong>, som vi kallar manuell för<strong>granskning</strong>.<br />

Dess innehåll och omfattning ska utformas efter hur dataregistrering sker<br />

och vilket kodnings- och <strong>granskning</strong>sarbete som utförs vid dataregistreringen.<br />

3.2.3 Manuell för<strong>granskning</strong><br />

För<strong>granskning</strong>en har <strong>till</strong> uppgift att:<br />

• kontrollera att objektet <strong>till</strong>hör undersökningspopulationen<br />

• pricka av inkomna svar, såvida inte detta redan gjorts eller görs i ett senare<br />

skede<br />

23


Var ska <strong>granskning</strong>en ske?<br />

• kontrollera att blanketten är <strong>till</strong>räckligt ifylld för att den fortsatta behandlingen<br />

ska vara meningsfull<br />

• utföra kodning, sortomvandlingar m.m., om detta inte kan göras vid dataregistreringen<br />

• åtgärda uppenbara fel som granskaren omedelbart får ögonen på.<br />

När blanketten är o<strong>till</strong>räckligt ifylld eller när grova fel förekommer i strategiska<br />

variabler, måste uppgiftslämnaren kontaktas. Det är då oftast fråga om att vägleda<br />

uppgiftslämnaren att fylla i blanketten. Det är alltså fråga om samma uppgiftslämnarservice<br />

som när uppgiftslämnaren själv tar kontakt (se 3.2.1). Skillnaden ligger<br />

i att uppgiftslämnaren måste motiveras och att man ska söka förutse dennes speciella<br />

problem. I synnerhet vid nya undersökningar är det viktigt att dessa kontakter<br />

dokumenteras.<br />

Vi varnar generellt för omfattande för<strong>granskning</strong>. Principen är att det ska räcka<br />

med en snabb blick på blanketten för att kontrollera att det är meningsfullt att låta<br />

blanketten fortsätta i processen.<br />

Checklista för manuell för<strong>granskning</strong><br />

‰ Kontrollera att objektet <strong>till</strong>hör undersökningspopulationen.<br />

‰ Pricka av inkomna svar.<br />

‰ Kontrollera snabbt att blanketten ser ifylld ut.<br />

‰ Koda.<br />

‰ Gör erforderliga sortomvandlingar.<br />

‰ Åtgärda uppenbara fel som du omedelbart får syn på.<br />

‰ Undvik omfattande kontroller.<br />

‰ Kontakta uppgiftslämnaren när blanketten är för dåligt ifylld eller ser ut att<br />

ha grova fel i strategiska variabler.<br />

‰ Dokumentera samtal med uppgiftslämnarna samt rätta uppenbara fel.<br />

Fas 3 – Dataregistrering<br />

Blanketter som har godkänts i den manuella för<strong>granskning</strong>en ska därefter dataregistreras.<br />

Detta kan göras manuellt eller maskinellt, med s.k. skanning. Det<br />

senare blir allt vanligare i takt med att skanningtekniken utvecklas.<br />

Vid skanning skapas en elektronisk bild av varje blankett. Bilderna tolkas <strong>till</strong> data.<br />

Dessa kontrolleras med i huvudsak validitetskontroller. Det som inte kan tolkas<br />

och det som tolkas osäkert felmarkeras, liksom de värden som inte <strong>till</strong>hör variabelns<br />

värdeförråd. Felmarkerade objekt presenteras variabelvis för operatören för<br />

åtgärd.<br />

SCB:s skanningutrustning finns vid BV/ENK (Enkäter) i Örebro, och skanningen<br />

utförs av specialister. Även om utrustningen medger mer avancerade kontroller av<br />

data än enkla validiteskontroller, kan personalen normalt inte verifiera flaggningar.<br />

Men med den kapacitet SCB:s datanät har i dag kan filer från skanningen<br />

överföras <strong>till</strong> ämnesprogrammen för att verifieras där. Kontakta den skanningsansvarige,<br />

som i februari 2002 är Anis Kovacevic, för information och <strong>till</strong>varata<br />

den potential <strong>till</strong> <strong>granskning</strong> som skanningutrustningen utgör.<br />

24


Var ska <strong>granskning</strong>en ske?<br />

Registrering som integreras med <strong>granskning</strong> kallar vi dataregistrerings<strong>granskning</strong>.<br />

Denna kan utföras interaktivt – antingen variabelvis: variabelvis dataregistrerings<strong>granskning</strong><br />

eller objektvis: objektvis dataregistrerings<strong>granskning</strong>.<br />

3.2.4 Dataregistrerings<strong>granskning</strong><br />

Vid variabelvis dataregistrerings<strong>granskning</strong> stoppas registreringen så fort ett variabelvärde<br />

underkänns i någon kontroll. Registreringen kan fortsätta först när det<br />

flaggade värdet behandlats, dvs. godkänts, åtgärdats eller ”markerats” för senare<br />

verifiering. Markeringen ”görs” när operatören fortsätter inmatningen, antingen<br />

genom att en kod automatiskt påförs variabeln och objektet eller genom att den<br />

felkod som genererats vid flaggningen kvarstår.<br />

Vid registreringen verifieras vissa flaggningar omedelbart, medan de som tar<br />

längre tid verifieras när hela objektet har registrerats eller när ett antal objekt är<br />

klara – beroende på hur personalen finner det lämpligt att arbeta.<br />

Vid objektvis dataregistrerings<strong>granskning</strong> utförs <strong>granskning</strong>en först när alla<br />

värden för ett objekt har registrerats.<br />

Fördelar med dataregistrerings<strong>granskning</strong> är att<br />

• <strong>granskning</strong>en kan ske nära uppgiftslämnandet<br />

• registreringsfel och vissa andra typer av fel kan åtgärdas omedelbart och<br />

orsakar därmed inga problem i den fortsatta processen<br />

• blanketterna är omedelbart <strong>till</strong>gängliga för verifiering av felsignaler<br />

• blanketterna kan arkiveras mycket enkelt<br />

• kodning, sortomvandlingar och beräkningar av nya variabler, t.ex. summor,<br />

kan utföras automatiskt.<br />

Den enda begränsningen i dataregistrerings<strong>granskning</strong> är att kontrollers acceptansgränser<br />

måste vara helt specificerade innan den första blanketten behandlas. I<br />

dataregistrerings<strong>granskning</strong> kan man därför utföra alla kontroller för identifiering<br />

av uppenbara fel samt de kontroller mot misstänkta fel där acceptansgränser inte<br />

beror av data från hur andra objekt har svarat.<br />

Ett krav på dataregistrerings<strong>granskning</strong>en bör vara att all information som uppgiftslämnaren<br />

har <strong>till</strong>fört blanketten i form av kommentarer, upplysningar med<br />

mera registreras i syfte att pappersblanketten inte ska behöva tas fram i ett senare<br />

skede av produktionsprocessen.<br />

Checklista för dataregistrerings<strong>granskning</strong><br />

‰ Kontrollera identiteter.<br />

‰ Anpassa graden av tolkningssäkerhet vid skanning.<br />

‰ Lägg in kontroller för giltiga värden per variabel.<br />

‰ Avgör om verifiering ska göras<br />

{ löpande<br />

{ i efterhand<br />

{ kombinerat.<br />

‰ Registrera kommentarer, upplysningar m.m. från uppgiftslämnarna.<br />

25


Var ska <strong>granskning</strong>en ske?<br />

Fas 4 – Traditionell <strong>granskning</strong><br />

Efter dataregistrering och den <strong>granskning</strong> som utförts vid dataregistrering, granskas<br />

vår blankett <strong>till</strong>sammans med andra registrerade objekt i en s.k. produktionsomgång.<br />

En omgång består av de objekt som registrerats sedan föregående omgång.<br />

I äldre system, där man inte <strong>till</strong>ämpar interaktiv uppdatering, ingår i varje<br />

omgång även om<strong>granskning</strong> av de objekt som flaggats och som fått variabelvärden<br />

ändrade i tidigare omgångar. Vi kallar <strong>till</strong>s vidare denna <strong>granskning</strong>sfas för produktions<strong>granskning</strong>.<br />

3.2.5 Produktions<strong>granskning</strong><br />

Med produktions<strong>granskning</strong> avses den <strong>granskning</strong> som utförs på registrerade data<br />

för inkomna objekt, omgång för omgång <strong>till</strong>s insamlingen avslutats. Observera att<br />

identiteter måste ha kontrollerats innan produktions<strong>granskning</strong>sprogrammet kan<br />

köras. Normalt utförs <strong>granskning</strong>en i flera omgångar i takt med blankettinströmningen.<br />

När undersökningen går ut på att bearbeta administrativa register eller material<br />

som samlats in av andra, omfattar produktions<strong>granskning</strong>en alla objekt på en<br />

gång.<br />

För varje objekt som underkänns i någon av kontrollerna genereras ett felmeddelande<br />

som omfattar alla underkända variabelvärden samt vidtagna maskinella<br />

åtgärder. Meddelandena presenteras för <strong>granskning</strong>spersonalen – antingen i form<br />

av pappersutskrifter eller som interaktiva skärmbilder.<br />

En utförlig beskrivning av processen ges i kapitel 9. I kapitel 6 beskrivs generering<br />

av felmeddelanden och verifieringsprocessen.<br />

Produktions<strong>granskning</strong> omfattar kontroller mot såväl uppenbara som misstänkta<br />

fel samt automatiska åtgärdanden av vissa typer av uppenbara fel. Jämfört med<br />

processen med <strong>granskning</strong> i samband med dataregistreringen kan produktions<strong>granskning</strong>en<br />

innehålla en mer sofistikerad typ av kontroller mot misstänkta fel.<br />

Det är kontroller vars acceptansgränser beror av data från övriga objekt i undersökningen<br />

(kapitel 4) som kan utföras i produktions<strong>granskning</strong> men inte vid<br />

dataregistrerings<strong>granskning</strong>.<br />

Checklista för produktions<strong>granskning</strong><br />

‰ Presentera fel, flaggade värden och maskinellt ändrade värden för varje<br />

objekt för sig. Inom objektet ska felen osv. komma i samma ordning som<br />

variablerna gör på blanketten.<br />

‰ Formulera felen och flaggningarna så, att granskaren får ett bra underlag<br />

för verifieringsarbetet.<br />

‰ Bestäm hur felen respektive flaggningarna av misstänkta värden ska<br />

presenteras för granskaren:<br />

{ skärmbilder, en för varje felsignalerat objekt för interaktiv uppdatering,<br />

vilket vi rekommenderar<br />

eller<br />

{ papperslista med felsignaler samlade för varje felsignalerat objekt i<br />

blankettens variabelordning.<br />

26


Var ska <strong>granskning</strong>en ske?<br />

Fas 5 – Kvalitetssäkring<br />

När insamlingen avbryts och allt material har granskats, framställs tabeller. Vid tabelleringen<br />

kontrolleras tabellceller, oftast genom jämförelser med motsvarande<br />

tabellvärden för föregående period. Denna slut<strong>granskning</strong> kallar vi output<strong>granskning</strong>.<br />

3.2.6 Output<strong>granskning</strong><br />

Output<strong>granskning</strong>ens syfte är att kontrollera att inga allvarliga fel finns kvar i materialet.<br />

Kontroller utförs därför vanligen på aggregerade i stället för på enskilda<br />

variabelvärden. Granskning görs alltså primärt på tabellcellsnivå. Men sedan gäller<br />

det att identifiera det eller de objekt som gör att det aggregerade värdet blivit<br />

misstänkt. Det gör man genom att utföra kontroller för alla objekt som ingår i det<br />

misstänkta aggregatet. Granskningen görs alltså i två steg.<br />

• Steg 1: identifiering av misstänkta tabellceller.<br />

• Steg 2: identifiering av de mest misstänkta objekten inom den misstänkta<br />

tabellcellen.<br />

Output<strong>granskning</strong> kan numera också göras som grafisk slut<strong>granskning</strong> av mikrodata<br />

med EDA-metoder – med t.ex. programvaran SAS/Insight (se kapitel 5 och 8).<br />

Checklista för output<strong>granskning</strong><br />

‰ Välj metod:<br />

{ tabellcells<strong>granskning</strong><br />

{ <strong>granskning</strong> med EDA-metoder.<br />

Tabellcells<strong>granskning</strong><br />

‰ Identifiera misstänkta tabellceller genom<br />

{ jämförelse med tidigare resultat<br />

{ jämförelse med andra celler<br />

{ jämförelser med motsvarande aggregat från andra undersökningar.<br />

‰ Identifiera misstänkta objekt.<br />

3.3 Elektronisk datainsamling<br />

Vid SCB förekommer datorstödd datainsamling i form av elektroniska blanketter,<br />

datoriserade intervjuer (WinDATI) och s.k. tonvalsinsamlingar (Touchtone Data<br />

Entry, TDE). Elektroniska blanketter har fram <strong>till</strong> 2000 mestadels bestått av<br />

Excel-blanketter som distribueras och återsänds ifyllda via diskett eller e-post.<br />

Uppgiftsinsamling via webben finns för ett tiotal undersökningar. Exempel är:<br />

• Elenergiundersökningen (MR/EN), där 250 elenergiföretag i år (2000)<br />

erbjuds möjligheten att lämna uppgifter via webben<br />

• Räddningstjänststatistik (BV/BE), Hakim Sjöström<br />

• Verksamhetsstatistik Svenska Kyrkan (ES/OE), Håkan Johansson<br />

• Grundskolestatistik (AM/S), Kristina Lekeborn<br />

• Forskningsbibliotek och ytterligare tre undersökningar på BV, Kjell<br />

Tambour<br />

• Forskning och utveckling inom universitet och högskolesektorn (ES/FOI),<br />

Peter Skatt<br />

• Intrastat (ES/UH), Jan Sävenborg<br />

27


Var ska <strong>granskning</strong>en ske?<br />

Rapporter finns från insamlingen vid AM/S och ES/OE. För den senare, se Helena<br />

Karlsson (2001).<br />

År 2000 startade U/MET det s.k. indataprojektet som syftar <strong>till</strong> att samordna utvecklingen<br />

av applikationer för datainsamling. Stor vikt har lagts vid säkerhetsfrågor,<br />

verktyg samt metodfrågor vid blandad insamling. Projektet arbetar även<br />

med frågor kring standardisering av administrativ datainsamling via det för myndigheterna<br />

gemensamma Spridnings- och hämtningssystemet – SHS. SCB har<br />

medverkat i ett internationellt utvecklingsarbete, TELER-projektet, med målet att<br />

elektroniskt överföra data från uppgiftslämnarnas informationssystem <strong>till</strong> den statistiska<br />

myndigheten. Projektet har visat att kostnaderna för uppgiftslämnandet<br />

kan minska betydligt om de statistiska uppgifterna kan föras över <strong>till</strong> en s.k.<br />

elektronisk blankett direkt ur bokföringen och därefter överföras <strong>till</strong> statistikproducenten.<br />

För att vidareutveckla denna ansats måste ytterligare studier av bokföringssystem<br />

och SCB-undersökningar genomföras.<br />

Weeks (1992) diskuterar i en översikt de möjligheter som öppnas vid användning<br />

av olika verktyg för datorstödda insamlingsmetoder.<br />

3.3.1 Elektroniska blanketter<br />

Elektroniska blanketter innebär att uppgiftslämnare via diskett eller elektronisk<br />

kommunikation, t.ex. webben och e-post, får ett programpaket bestående av blankett<br />

(med anvisningar, definitioner, föregående rapporterade värden med mera)<br />

samt ett <strong>granskning</strong>sprogram, dvs. ett dataregistreringsprogram med förprogrammerade<br />

kontroller, felmeddelande- och uppdateringsrutiner osv. Ett sådant program<br />

för <strong>granskning</strong> vid dataregistreringen måste vara betydligt mer genomarbetat<br />

när det gäller utformning av felmeddelandetexter och annan information än vad<br />

programmen för dataregistrering av postenkäter brukar vara. Detta registreringsprogram<br />

kan också användas i registreringen och kontrollen av de pappersblanketter<br />

som kommer från uppgiftslämnare som föredrar att rapportera på vanligt sätt,<br />

och kan då hanteras även av ny personal eller i utbildning av personal.<br />

Generellt ställer elektroniska blanketter större krav på design av kontrollerna än<br />

vad som krävs vid dataregistrerings<strong>granskning</strong> av postenkäter. Kontrollerna måste<br />

upplevas som väsentliga av uppgiftslämnarna, dvs. träffsäkerheten i kontrollerna<br />

måste vara hög. Dessutom bör alla kontroller som behövs i <strong>granskning</strong>en finnas<br />

med. Någon mer <strong>granskning</strong> ska inte behövas utöver output<strong>granskning</strong>. Det är en<br />

fördel om <strong>granskning</strong>en här kan göras variabelvis, så att programmet stoppas när<br />

en felsignal initieras och det flaggade värdet kan verifieras omedelbart.<br />

Checklista för <strong>granskning</strong> vid elektronisk datainsamling<br />

Se <strong>till</strong> att:<br />

‰ felsignaler når uppgiftslämnarna just då de är i färd med att besvara frågorna<br />

och har <strong>till</strong>gång <strong>till</strong> det underlag som behövs. Alla slarvfel (t.ex.<br />

registrerings-, summerings- och konsistensfel) som tar sig uttryck i felsignaler<br />

kan därmed åtgärdas direkt av uppgiftslämnarna eller av programmet.<br />

‰ summeringar, andra sammanställningar, sortomvandlingar och härledda<br />

variabler beräknas av programmet och utgör därmed ett stöd för uppgifts-<br />

28


Var ska <strong>granskning</strong>en ske?<br />

lämnandet och verifieringen av felsignaler (jämför ovan själv<strong>granskning</strong>en<br />

i postenkätundersökningar)<br />

‰ anvisningar, definitioner på variabler dyker upp på skärmen när uppgiftslämnarna<br />

kommer <strong>till</strong> aktuell fråga eller när de begär det via att trycka på<br />

en hjälptangent<br />

‰ bakgrundsinformation, registrerade värden från tidigare rapporteringar med<br />

mera <strong>till</strong>handahålls uppgiftslämnarna vid besvarandet av varje fråga<br />

‰ felmeddelandena förser uppgiftslämnarna med tänkbara orsaker <strong>till</strong> flaggningen,<br />

vilket dels underlättar verifieringen, dels ger möjligheter <strong>till</strong> automatisk<br />

registrering av felorsaker<br />

‰ uppgiftslämnarna ges möjligheter att enkelt förmedla upplysningar. De ska<br />

kunna ge information <strong>till</strong> de särskilda omständigheter som gör att deras<br />

svar av programmet betecknas som ”misstänkta” eller varför de inte kan<br />

besvara frågor. Vidare ska de kunna ange om de följt anvisningarna om<br />

vilka komponenter som ska ingå i variabeln.<br />

‰ processen ger information om huruvida felsignalerade uppgifter verkligen<br />

har kontrollerats (verifierats) av uppgiftslämnarna eller inte<br />

‰ registreringar av tidsåtgång, ändringar, orsaker <strong>till</strong> ändringar, förklaringar<br />

<strong>till</strong> felsignaler, uppgifter om uppgiftslämnarkapacitet med mera görs<br />

automatiskt.<br />

Problem eller förutsättningar:<br />

• Uppgiftslämnarna måste ha <strong>till</strong>gång <strong>till</strong> pc och enkelt kunna öppna den<br />

elektroniska blanketten.<br />

• Vid diskettinsamling måste vid periodiska undersökningar individuella<br />

disketter framställas för varje uppgiftslämnare.<br />

• Disketthanteringen utgör ett visst administrativt problem jämfört med<br />

andra elektroniska insamlingsmetoder – större ju fler uppgiftslämnare som<br />

ingår i undersökningen.<br />

För mer detaljer om elektroniska blanketter, se Granquist, Hanaeus och Nilsson<br />

(1994) och Blom, Irebäck (2000).<br />

3.3.2 Tonvalsinsamling<br />

Tonvalsinsamling, Touch-tone Data Entry (TDE), innebär att uppgiftslämnarna<br />

via telefonens knappsats besvarar frågor på en blankett <strong>till</strong> en telefondator när som<br />

helst på dygnet.<br />

Tekniken kan enbart användas i undersökningar med högst 5–10 variabler.<br />

Bureau of Labor Statistics i USA har ca 15 års positiva erfarenheter av tekniken,<br />

som är billigare än både postenkäter och datorstödda telefonintervjuer (se Werking<br />

m.fl. 1988). I Sverige används tekniken av banker, försäkringsföretag, postorderföretag<br />

med flera. Vid SCB har tekniken använts bl.a. i socialbidragsstatistiken<br />

(Granquist 1994), och den används bl.a. i de undersökningar som anges i tablån:<br />

29


Var ska <strong>granskning</strong>en ske?<br />

Undersökning Ansvarig Objekt Periodici- Urvals- Antal Metod<br />

tet storlek variabler<br />

Partihandel och<br />

andra<br />

tjänsteföretag<br />

Detaljandelsundersökning<br />

Prisindex i<br />

producent-<br />

och importled<br />

(PPI)<br />

30<br />

Daniel<br />

Lennartsson<br />

Daniel<br />

Lennartsson<br />

Mats Haglund,<br />

Jan Lesins<br />

Partihandelsföretag<br />

och<br />

andra tjänsteföretag <br />

Detaljhandelsföretag<br />

Kvartalvis 4 000 1 TDE<br />

Månatlig 3 500 1 TDE<br />

Företag Månad 1 200 1–25 prisnoteringar,<br />

ca 3 i snitt<br />

TDE 65 procent,<br />

blankett 30<br />

procent,<br />

övrigt 5 procent<br />

Dataregistrering och <strong>granskning</strong> utförs av uppgiftslämnarna. Inknappade siffror<br />

motläses av telefondatorn, som utför validitets- och konsistenskontroller – varvid<br />

registrerings-, sort- och validitetsfel undviks redan vid källan. Sådana jämförelsekontroller<br />

måste vara enkla och helt naturliga för uppgiftslämnarna. Jämförelsetal<br />

mot inknappade eller tidigare rapporterade data meddelas omedelbart <strong>till</strong> uppgiftslämnarna,<br />

som då kan ta ställning <strong>till</strong> om lämnade data är rimliga eller inte. En<br />

erfarenhet från socialbidragsstatistiken är att uppgiftslämnarna reagerar på mindre<br />

förändringar än de gränser som <strong>till</strong>ämpades för motsvarande kontroller när data<br />

insamlades via postenkäter. Kontrollerna kan alltså göras parameterfria. Ytterligare<br />

en fördel är att man kan låta uppgiftslämnarna bekräfta att lämnade data är<br />

korrekta samt redovisa om vissa komponenter ingår eller är exkluderade i frågor. I<br />

likhet med elektroniska blanketter kan allt som sker i insamlingsprocessen automatiskt<br />

loggas, räknas och sammanställas.<br />

3.3.3 Datorstödda intervjuer<br />

Datorstödda intervjuer innebär att en intervjuare på en dator registrerar svar fråga<br />

för fråga – antingen vid egen utförd datainsamling, t.ex. prisinsamling i en butik,<br />

eller i en personlig intervju via telefon eller besök. Felmeddelanden kommer upp<br />

på skärmen så fort något svar ifrågasätts av de inprogrammerade kontrollerna. I<br />

intervjusituationen förmedlar intervjuaren meddelandet <strong>till</strong> intervjupersonen för<br />

verifiering. Ur kontrollprocessynpunkt gäller i övrigt samma riktlinjer som vid<br />

elektroniska blanketter, frånsett att felmeddelandetexten inte kräver samma omsorg.<br />

Notera särskilt att kontrollerna också här måste ha hög träffsäkerhet och vara<br />

uttömmande, så att behov av återkontakter elimineras.<br />

3.4 Registerdata<br />

Register är ett samlingsbegrepp för flera olika typer av förteckningar. Förteckningarna<br />

kan vara heltäckande eller avse en delmängd av en population (stor eller<br />

liten). Registret kan bygga på återkommande inventeringar och kompletteras med<br />

förändringar, anmälda eller observerade, under mellanliggande perioder. Fastighetstaxeringsregistret<br />

och lantbruksregistret är två exempel på denna typ av


Var ska <strong>granskning</strong>en ske?<br />

register. Register kan också vara rent händelsebaserade. Dödsorsaksregistret är ett<br />

exempel på detta.<br />

Register som upprättas av en annan myndighet eller organisation benämns ofta administrativa<br />

register. Administrativa register och även vissa externa databaser är<br />

primärt upprättade för andra ändamål än statistik.<br />

En kopia på ett administrativt register omvandlas <strong>till</strong> ett statistiskt register med<br />

hjälp av registerstatistiskt metodarbete. Ett led i det registerstatistiska metodarbetet<br />

är <strong>granskning</strong>. Med vår terminologi är det fråga om output<strong>granskning</strong> i syfte<br />

att identifiera kvarvarande fel efter den <strong>granskning</strong> som registerhållaren har utfört.<br />

Denna <strong>granskning</strong> kan ha brister speciellt i fråga om de variabler som inte är av<br />

primärt intresse för de ändamål som registret ska uppfylla. SCB kan dock inte<br />

kontakta uppgiftslämnaren för att verifiera misstänkta fel. Granskningen får därför<br />

begränsas <strong>till</strong> att man utarbetar en rapport över förekomst av uppenbara och misstänkta<br />

potentiellt betydande fel och om möjligt över förekomst av systematiska fel<br />

(felkällor) i registret. Uppenbara fel kan i vissa fall ersättas med korrekta värden,<br />

nämligen när det är uppenbart vilket fel uppgiftslämnaren har gjort. Rapporten kan<br />

ses som en kvalitetsdeklaration av registret för dem som ska använda det. Grafiska<br />

metoder för output<strong>granskning</strong> rekommenderas (se t.ex. kapitel 5, som behandlar<br />

grafisk <strong>granskning</strong>). Granskning av registerdata är ett problem som ännu inte aktualiserats<br />

internationellt. Något systematiskt utvecklingsarbete har inte heller<br />

gjorts vid SCB.<br />

Syftet med <strong>granskning</strong> av registerdata är att<br />

• upptäcka fel<br />

– uppenbara fel<br />

– misstänkta värden (statistiska outliers)<br />

• identifiera felkällor<br />

• kvalitetsdeklarera registret för statistisk användning.<br />

Kontroll av registerdata är en återkommande process som ska genomföras vid<br />

varje större uppdatering av registret.<br />

Skillnaden mellan eget insamlat material och externa databaser är att man i de senare<br />

inte har någon kontroll över datainsamlingen. I stora drag kan man känna <strong>till</strong><br />

vilka uppgifter som samlas in och ungefär när datainsamlingen äger rum. Dock<br />

saknar man ofta mer detaljerad information om exakt vilka uppgifter som samlas<br />

in och hur insamlat material granskas. Det är som regel svårt att från statistisk<br />

synpunkt påverka datainsamlingen, speciellt av variabler som inte är av primärt<br />

intresse för ägaren <strong>till</strong> databasen. Kontakt med databasägaren med t.ex. den ovan<br />

nämnda rapporten som underlag är i stort den enda möjligheten att på sikt kunna<br />

påverka registerkvaliteten och kontrollprocessens omfattning.<br />

Uppdatering av SCB:s register med hjälp av externa databaser kan ske på i princip<br />

två sätt. Antingen görs uppdateringen med hjälp av registrerade förändringar eller<br />

också görs den med hjälp av nya kopior av den externa databasen. Dataöverföring<br />

av externa databaser sker i dag på elektronisk väg. I många fall upprättas ett<br />

parallellt register på SCB, en kopia, där uppgifterna från de externa databaserna<br />

samlas.<br />

31


Var ska <strong>granskning</strong>en ske?<br />

3.4.1 Kontrollprocess<br />

I Lindström (1999) behandlas kvalitetssäkring av register. Man kan i allmänhet<br />

inte påverka (”förbättra”) kvaliteten i inkommande data.<br />

Indirekta metoder används för kontroll av inkommet material: konsistenskontroller<br />

mellan variabler, att klassificeringsvariabler antar godkända värden osv. Output<strong>granskning</strong><br />

för olika redovisningsgrupper ger möjligheter att undersöka om<br />

antalet objekt är rimligt eller om fördelningen av antalet objekt på olika redovisningsgrupper<br />

är rimligt. På motsvarande sätt kan man utnyttja output<strong>granskning</strong><br />

för att kontrollera aggregat på redovisningsgrupper, såsom medelvärden och totaler,<br />

för några centrala variabler. Jämförelsematerial är tidigare produktionsomgångar<br />

eller andra register. Information från databasägaren om version, period och<br />

antal observationer måste naturligtvis utnyttjas.<br />

Även om man hittar fel, är det i praktiken inte möjligt att verifiera felen. Det vi<br />

rekommenderar är att man i en rapport dokumenterar vilka kontroller som utförts,<br />

vilka variabler som kontrollerats samt ger en beskrivning av misstänkta värden<br />

(med hjälp av t.ex. kontrollfunktion, intervall). Rapporten ska överlämnas <strong>till</strong><br />

databasägaren för kännedom. Den bör om möjligt innehålla en systematiskt<br />

uppställd felstatistik som underlag för diskussioner av prioriterade åtgärder.<br />

I register med många variabler är det inte rimligt att kontrollera alla variabler utan<br />

endast dem som är nödvändiga för officiell statistik och vanliga återkommande<br />

<strong>till</strong>ämpningar, t.ex. urvalsramar. Om registret ska användas för andra <strong>till</strong>ämpningar,<br />

måste man överväga om man behöver göra ytterligare kontroller för att se i<br />

vilken utsträckning registret kan användas för <strong>till</strong>ämpningen i fråga.<br />

En kontrollprocess bör innehålla följande moment:<br />

• kontroll av att dataöverföringen fungerar<br />

• kontroll av att period och version är korrekt<br />

• kontroll av att alla objekt finns med<br />

• variabelkontroll av för SCB intressanta variabler<br />

• kontroll av identitetsvariabler<br />

• kontroll av att variabelvärden är rimliga (konsistenskontroller, godkända<br />

värden)<br />

• frekvensberäkningar för vanliga indelningsvariabler (output<strong>granskning</strong>).<br />

En sammanställning av vilka kontroller som genomförts och resultatet av kontrollerna<br />

ska skickas <strong>till</strong> databasägaren samt dokumenteras i den interna kvalitetsdeklarationen.<br />

Även fältobservationer av misstänkta fel, när registret används som<br />

t.ex. urvalsram, ska dokumenteras. Denna dokumentation lämnas <strong>till</strong> den registeransvarige<br />

på SCB.<br />

Ett problem med kontroll av och kvalitet på statistiska register sammanställda med<br />

hjälp av en eller flera externa databaser kan bero på ”envägskommunikation”. (A)<br />

är ägaren <strong>till</strong> en extern databas. Mottagaren (B) på SCB är den registeransvarige.<br />

Användaren (C) av registret är en person på eller utanför SCB. Man kan förutsätta<br />

att alla tre kontrollerar registret måhända med olika utgångspunkter. Om kontakterna<br />

mellan de tre olika instanserna är begränsad och envägs (A→B→C), är det<br />

hög risk att onödigt merarbete uppstår. För att undvika onödigt arbete krävs samarbete<br />

mellan A, B och C. Detta kan man t.ex. åstadkomma med rapporter över<br />

32


Var ska <strong>granskning</strong>en ske?<br />

uppenbara eller misstänkta fel. Återkommande och samordnade evalveringsstudier<br />

kan förbättra kvaliteten på sikt.<br />

3.4.2 Process- och kontrollvariabler<br />

Speciellt frekvens- och antalsberäkningar är enkla processvariabler med hjälp av<br />

vilka man bland annat kan upptäcka om alla objekt kommit med. Tidsserier i form<br />

av frekvenser för respektive aggregat för centrala variabler är ett annat exempel på<br />

kontrollvariabler. Genom att matcha mot andra register, t.ex. en tidigare version,<br />

kan man hitta avvikare. Ofta är det <strong>till</strong>räckligt med jämförelser på aggregerad<br />

nivå, men ibland behöver jämförelser göras på objektsnivå för enstaka variabler.<br />

En sammanfattning av dessa kontroller ska infogas i den dokumentation som<br />

överlämnas <strong>till</strong> databasägaren.<br />

Kontroller kan genomföras både på objektsnivå och på aggregerad nivå (redovisningsgrupper).<br />

Output<strong>granskning</strong>, kontroll på aggregerad nivå, kan utföras t.ex.<br />

grafiskt med hjälp av SAS/Insight och jämförelse av tabellceller med hjälp av<br />

Excel.<br />

3.4.3 Dokumentation av kontrollprocessen<br />

Alla kontroller och kontakter med databasägaren ska dokumenteras. Uppdatera<br />

proceduren med aktuella acceptansgränser. Inkludera även fältobservationer av<br />

uppenbara fel när registret används som t.ex. urvalsram. Stora register måste dokumenteras<br />

i metadata med tydlig information om vilka variabler som kontrollerats.<br />

3.5 Referenser<br />

Bethlehem, J.G., A. J. Hundepool, M. H. Schuerhoff, and L. F. M. Vermeulen (1989), ”BLAISE<br />

2.0 An Introduction”, Vorburg, The Netherlands: Central Bureau of Statistics, February 1989<br />

Blom, E. och Irebäck Hans (2000): Utveckling av elektronisk datafångst 2001 – 2003.<br />

PM 2000-01-31.<br />

Granquist L. (1992): ”Granskningsprocessen i omvandling genom integrering av databeredningsarbetet”,<br />

GRANSK-PM NR 28, 1992–05–18.<br />

Granquist L., C.-G. Hanaeus och G. Nilsson (1994): ”Elektronisk distribution och insamling av<br />

data – Erfarenheter och generella slutsatser från ett försök”, Rapport 30 juni 1994<br />

Granquist, L. (1994): ”Tonvalsinsamling i Socialbidragsstatistiken”, Slutrapport 30 juni 1994<br />

Karlsson, Helena (2001): ” Insamling av verksamhetsstatistik”, Utvärdering 2001–04–09<br />

Linacre, S. J., and D. J. Trewin (1989), ”Evaluation of Errors and Appropriate Resource Allocation<br />

in Economic Collections”, Proceedings of the US Bureau of the Census Fifth Annual Research<br />

Conference, U. S. Department of Commerse, Bureau of the Census, March 19–22, 1989, pp. 197–<br />

209.<br />

Lindström, Håkan L. (1999); Kvalitetssäkring i register för statistikproduktion med administrativt<br />

underlag. Rapport från Registerprojektet, November 1999, SCB.<br />

Pierzchala, M. (1995), ”Editing Systems and Software”, in B.G. Cox, D.A. Binder, N. Chinnappa,<br />

A. Christianson, M.J. Colledge and P.S. Kott (eds.) Business Survey Methods, New York: Wiley,<br />

pp. 425–441.<br />

Weeks, M. F. (1992), ”Computer-Assisted Survey Information Collection: A Review of CASIC<br />

Methods and Their Implications for Survey Operations”, Journal of Official Statistics, Vol. 8,<br />

No.4, 1992, pp. 445–465.<br />

Werking, G., A. Tupek, and R. Clayton (1988), ”CATI and Touchtone Self-Response Applications<br />

for Establishment Surveys”, Journal of Official Statistics, Vol. 4, No.4, 1988, pp. 349–362.<br />

33


Var ska <strong>granskning</strong>en ske?<br />

Bilaga kapitel 3<br />

Granskningsprocessen i en postenkätundersökning<br />

34<br />

Förbättring av<br />

insamlings- och<br />

produktionsprocessen<br />

Svarsprocessen:<br />

Besvarande av<br />

enkät och manuell<br />

uppgiftslämnar<strong>granskning</strong><br />

Problem?<br />

Nej<br />

Manuell<br />

för<strong>granskning</strong><br />

Dataregistrerings<strong>granskning</strong><br />

Produktions<strong>granskning</strong><br />

Output<strong>granskning</strong><br />

Uppgiftslämnarservice<br />

Ja<br />

Återkontakt<br />

Dokumentation av<br />

problem med<br />

besvarande av<br />

enkät<br />

Lagring av<br />

processdata i<br />

systemdatabasen<br />

Insamling av<br />

processdata


4 Kontrollmetoder<br />

Kontrollmetoder<br />

I kapitel 2 klassificeras fel i uppenbara och misstänkta fel. Misstänkta fel delas i<br />

sin tur in i avvikelsefel och definitionsfel. Klassificeringen motiveras med att<br />

feltyperna representerar skilda <strong>granskning</strong>sproblem.<br />

I det här kapitlet diskuterar vi underlag för formulering av kontroller i allmänhet<br />

och metoder för att effektivisera avvikelsekontroller i synnerhet. Metoder för<br />

identifiering av definitionsfel tas upp i kapitlet om grafisk <strong>granskning</strong>.<br />

Avsnitten om avvikelsekontroller <strong>till</strong>handahåller generella råd och rekommendationer,<br />

redovisar några utvalda metoder för selektiv <strong>granskning</strong> och beskriver i<br />

detalj en metod för effektivisering av kvotkontrollen.<br />

Checklista för kontrollmetoder<br />

‰ Klassificera möjliga fel i uppenbara och misstänkta fel.<br />

‰ Skilj mellan avvikelse- och definitionsfel.<br />

‰ Begränsa och samordna kontrollerna för misstänkta fel.<br />

‰ Anpassa kontrollernas acceptansgränser <strong>till</strong> aktuella data.<br />

‰ Använd grafiska metoder i output<strong>granskning</strong>en, men också i produktions<strong>granskning</strong>.<br />

‰ Sammanställ statistik över kontrollers träffsäkerhet.<br />

‰ Sikta mot minst 60 procent träffsäkerhet.<br />

4.1 Underlag för formulering av kontroller<br />

Utifrån kunskaper inom sakområdet och goda insikter i de informationsbehov som<br />

undersökningen ska <strong>till</strong>godose kan man konstruera kontroller för att identifiera i<br />

synnerhet uppenbara fel.<br />

Källor för utformning av kontroller är dessutom<br />

• blanketten<br />

• definitioner och anvisningar för undersökningsvariabler<br />

• information i urvalsram och utsändningsregister<br />

• dataanalys (EDA) med hjälp av t.ex. SAS/Insight på data från undersökningen<br />

• processdata och övriga erfarenheter.<br />

4.1.1 Några speciella problem<br />

Vissa variabler – särskilt i den ekonomiska statistiken – måste av skatterättsliga<br />

eller juridiska orsaker eller av jämförbarhetsskäl följa definitioner som fastställs<br />

och revideras av särskilda nationella och internationella organ. Begreppet lön<br />

innehåller t.ex. cirka 200 komponenter. I en statistisk undersökning kan många av<br />

dessa komponenter vara irrelevanta och får inte räknas in i variabeln lön för att<br />

<strong>till</strong>godose undersökningens syften. Vilka komponenter som ska inkluderas och<br />

vilka som ska exkluderas måste klart framgå av variabeldefinitionen eller av anvisningar<br />

<strong>till</strong> uppgiftslämnarna.<br />

35


Kontrollmetoder<br />

Problemet är att få reda på om uppgiftslämnarna verkligen följer anvisningarna.<br />

För sådana typer av variabler ska det övervägas om man i stället ska fråga efter<br />

samtliga komponenter och maskinellt beräkna undersökningsvariabeln genom<br />

additioner och subtraktioner.<br />

Ett alternativ är att enbart fråga efter de komponenter som ska vara med och<br />

antingen fråga efter summan eller maskinellt beräkna summan som en undersökningsvariabel.<br />

Man kan också i blanketten ställa frågor av typen:<br />

”När du svarade på frågan nnnn räknade du då in komponent bbbb, komponent<br />

cccc,…, och såg <strong>till</strong> att värden på komponent xxxx, komponent yyyy ,…, inte finns<br />

med i de lämnade siffrorna. Om du inte gjorde detta, ange varför och ange också<br />

om du i framtiden skulle kunna rapportera enligt våra önskemål.”<br />

Sådan information kan användas i skattningen – men framför allt vid förbättringar<br />

av undersökningen.<br />

Ett liknande situation uppstår när en variabel (summavariabel) är uppdelad på ett<br />

antal delvariabler, som alla är viktiga undersökningsvariabler. Svaret på summavariabeln<br />

ska då vara lika med summan av delvariablernas värden. Vid <strong>granskning</strong>en<br />

söker man alltid att imputera värden på delvariablerna när svar endast finns<br />

på summavariabeln och att i övrigt säkerställa att summan aritmetiskt stämmer<br />

med summavariabelns värde. Kontroller för att se <strong>till</strong> att värdena på delvariablerna<br />

summerar sig <strong>till</strong> värdet på summavariabeln kallas balanskontroller.<br />

Det är viktigt att ta fram statistik över behovet av imputeringar för delvariablerna<br />

och över frekvensen förändringar av summavariabeln. Stort behov av imputeringar<br />

tyder på att uppgiftslämnarna har svårt att ge värden på delvariablerna. Många<br />

ändringar i summavariabeln indikerar att vi har att göra med en allvarlig felkälla.<br />

Ett alternativ som bl.a. föreslagits av Linacre and Trewin (1989) är att bara fråga<br />

efter delvariablerna och maskinellt beräkna summavariabeln.<br />

En annan möjlighet är att föra in t.ex. följande anvisning och uppgiftslämnarkontroll:<br />

”Ange delvärdena. Beräkna summan av dess och jämför med motsvarande<br />

uppgift i bokföringen innan du för in värdet på summaraden.”<br />

Båda fallen illustrerar att man måste integrera utformningen av mätinstrument och<br />

datainsamling med konstruktionen av kontroller.<br />

4.1.2 Blanketten<br />

Blanketten utgör huvudunderlaget för formulering av kontroller, i synnerhet mot<br />

uppenbara fel.<br />

Kontroller kan skapas genom att man systematiskt går igenom blanketten och dess<br />

variabler på följande sätt: För varje variabel noterar man vilka värden som är <strong>till</strong>låtna.<br />

Därefter anger man för variabel nummer 1 vilka värden som är <strong>till</strong>åtna i<br />

kombination med variabel 2, 3, 4 osv. Sedan gör man samma sak för variabel 1<br />

och 2 <strong>till</strong>sammans med variabel 3, 4 osv. Eftersom varje enskild variabel endast är<br />

relaterad <strong>till</strong> högst en handfull andra variabler, är proceduren inte särskilt arbetskrävande.<br />

Men det är ett effektivt sätt att se <strong>till</strong> att man garderar sig mot alla möjliga<br />

konsistens- och strukturfel.<br />

36


Kontrollmetoder<br />

Kompletterande källor för identifiering av speciellt partiellt bortfall är informationen<br />

i urvalsramen eller utsändningsregistret samt data från tidigare perioder och<br />

eventuella andra undersökningar.<br />

4.1.3 Studier i datamaterialet<br />

Kontroller mot systematiska fel, definitionsfel och avvikelsefel bygger i första<br />

hand på ämneskunskaper. Ett viktigt komplement <strong>till</strong> ämneskunskaperna är att<br />

man studerar materialet (dataanalys) när man skapar kontroller. Den primära<br />

uppgiften är att<br />

• testa kontroller<br />

• finna lämpliga acceptansgränser för kontrollerna<br />

• finna på förhand okända misstänkta svarsmönster, för kontroller mot definitionsfel.<br />

Vi rekommenderar att man använder SAS/Insight. I denna programvara finns det<br />

stöd för att skapa testvariabler. Man kan även göra transformationer av testvariabler,<br />

vilket underlättar val av acceptansgränser. Effekten av valda acceptansgränser<br />

kan lätt avläsas.<br />

Dessutom gör programvaran det möjligt att identifiera misstänkt felaktiga svarsmönster,<br />

dvs. systematiska svarsfel. Detta ska utnyttjas för att skapa kontroller<br />

mot definitionsfel.<br />

4.1.4 Processdata och erfarenheter<br />

Alla potentiellt betydelsefulla felkällor kan inte förutses. Nya felkällor uppstår på<br />

grund av teknisk och administrativ utveckling samt genom förändringar av olika<br />

slag i samhället. Förändringarna i datamaterialet aktualiserar nya eller förändrade<br />

kontroller samt val av acceptansgränser.<br />

Det finns två möjligheter att identifiera behov av förändring av kontroller och<br />

justering av acceptansgränser:<br />

• processdata<br />

• analys av effekter av <strong>granskning</strong> i data med hjälp av SAS/Insight.<br />

Processdata används för att identifiera felkällor och justering av parametrar i<br />

acceptansgränserna. Processdata är en central och viktig information om insamlings-<br />

och produktionsprocessen (se kapitel 5 och 6). Man kan säga att<br />

processdata är en systematisk sammanställning av erfarenheter.<br />

SAS/Insight används för att identifiera felaktiga svarsmönster, dvs. hitta och<br />

kvantifiera möjliga definitionsfel, för att analysera och kontrollera acceptansgränser,<br />

för att analysera processdata och för att studera effekten av <strong>granskning</strong>en.<br />

4.2 Generella tips för effektiva avvikelsekontroller<br />

Övergripande metoder för identifiering av avvikande observationer är att:<br />

• skapa effektiva kontroller som är väl anpassade <strong>till</strong> undersökningens data<br />

(Det är en fördel om kontrollerna kan utformas så att verifieringsarbetet<br />

kan prioriteras <strong>till</strong> de potentiellt största felen.)<br />

• begränsa antalet möjliga kontroller per variabel <strong>till</strong> de mest effektiva<br />

37


Kontrollmetoder<br />

• prioritera verifieringsarbetet, t.ex. med poängfunktioner, <strong>till</strong> de potentiellt<br />

viktigaste objekten.<br />

Dessa förslag kan med fördel <strong>till</strong>ämpas samtidigt, vilket illustreras av Engström<br />

(1995).<br />

4.2.1 Effektiva kontroller<br />

Kontroller för misstänkta avvikelsefel ska<br />

• ha minst 60 procent träffsäkerhet<br />

• hitta de flesta felen, åtminstone fel med betydande effekt på undersökningens<br />

resultat.<br />

SAS/Insight är ett hjälpmedel för att studera kontrollernas egenskaper med<br />

avseende på<br />

• symmetri<br />

• acceptansgränser<br />

• gruppering.<br />

Av kapitel 2 framgår att det förväntade antalet avvikelsefel per variabel är lågt,<br />

troligen någon enstaka procent av antalet observationer. I kombination med målet<br />

att varje kontroll ska ha hög träffsäkerhet, minst 60 procent, innebär det att avvikelsekontroller<br />

inte ska felsignalera mer än högst 3–4 procent av de rapporterade<br />

variabeluppgifterna.<br />

Det är en fördel om testvariabeln har en någorlunda symmetrisk fördelning, eftersom<br />

man då slipper en parameter i acceptansområdet.<br />

4.2.2 Kontroller mot avvikelsefel<br />

En kontroll för misstänkta fel består av en testvariabel och ett acceptansområde. I<br />

kontrollen kan det också ingå ett villkor som avgör vilka objekt som ska kontrolleras.<br />

Exempel på testvariabler (kontroller) som används i KLP<br />

Genomsnittlig timlön = {Lönesumma}/{Arbetade timmar}<br />

Arbetade timmar per anställd = {Arbetade timmar}/{Antal anställda}<br />

Relativ förändring = {Lönesumma månad t}/{Lönesumma månad t-1}<br />

Regeln som avgör om ett objekt ska felsignaleras eller inte benämns acceptansgränser.<br />

Området som gränserna omsluter kallas acceptansområde. Granskningen<br />

kan ofta bli mer effektiv om man delar in populationen i grupper.<br />

Exempel på acceptansområde<br />

Antag att en kontroll med testvariabeln ”Genomsnittlig timlön” har acceptansområdet<br />

(50,120). Ett företag felsignaleras då om värdet på ”Genomsnittlig timlön” är<br />

mindre än 50 eller större än 120.<br />

Ämnesmässiga fakta och framför allt empiriska studier på data från tidigare undersökningar<br />

(med hjälp av analysprogram, som t.ex. SAS/Insight) ger ofta en god<br />

uppfattning om kontroll, acceptansgränser och lämpliga grupperingar. När gruppering<br />

är aktuell, anpassas acceptansgränserna <strong>till</strong> respektive grupp.<br />

38


Kontrollmetoder<br />

Exempel på gruppering av populationen<br />

Beroende på löneavtal och lönestrukturer har testvariabeln ”Genomsnittlig timlön”<br />

olika egenskaper inom olika näringsgrenar, när det gäller både nivå och variation.<br />

Det är därför rimligt att skräddarsy acceptansgränser för ”Genomsnittlig timlön”<br />

för varje näringsgren.<br />

4.2.3 Begränsning av antalet kontroller<br />

Man skulle kunna tro att man, för att gardera sig mot olika tänkbara fel, borde<br />

konstruera många kontroller för varje variabel. Emellertid måste man vara uppmärksam<br />

på att de enskilda kontrollerna faktiskt bidrar <strong>till</strong> att identifiera fel med<br />

rimlig träffsäkerhet. Det finns många exempel på att de fel som ”extra”-kontroller<br />

hittar även upptäcks av en annan kontroll av variabeln. Det medför att ”extra”kontrollen<br />

enbart ökar antalet onödiga felsignaler. Därför måste man för varje<br />

variabel välja ut de kontroller som effektivast identifierar fel – helst genom att<br />

man utvärderar på data från undersökningen. En eller högst två kontroller för en<br />

variabel är i allmänhet <strong>till</strong>räckligt.<br />

Exempel på reducering av antalet kontroller<br />

I en lönestatistik kan för kontroll av lönesumma och antal arbetade timmar<br />

följande fyra kontroller vara tänkbara:<br />

{lönesumma}/{lönesumma föregående period}<br />

{arbetade timmar}/{arbetade timmar föregående period}<br />

{beräknade timlönen}/{beräknade timlönen föregående period}<br />

{lönesumman}/{arbetade timma}<br />

Vid en studie fann vi att för kontroll av såväl lönesumma som antal arbetade timmar<br />

var det <strong>till</strong>räckligt med lönesumma dividerat med antal timmar. De tre övriga<br />

kontrollerna bidrog inte <strong>till</strong> identifiering av felaktiga observationer utan ökade enbart<br />

andelen onödigt flaggade observationer.<br />

4.2.4 Prioritering av objekt genom poängfunktioner<br />

En framgångsrik metod att begränsa verifieringen <strong>till</strong> de misstänkta observationer<br />

som kan ha betydelse på skattningarna är att använda s.k. poängfunktioner<br />

(engelska: score functions). Metoden innebär att varje objekt för vilket minst ett<br />

variabelvärde felsignaleras <strong>till</strong>delas poäng, som beror på objektets urvalsvikt,<br />

variabelns betydelse, avvikelsen från ett riktvärde osv. Därefter verifierar man<br />

enbart de objekt vars poäng överstiger ett värde som är fastställt på förhand.<br />

4.3 Utformning av kontroller<br />

4.3.1 Testvariabler<br />

Testvariabeln är antingen en insamlad variabel eller ett aritmetiskt uttryck baserat<br />

på undersökningens variabler.<br />

Som påpekats i 4.2.1 Effektiva kontroller, underlättar det om testvaribeln har en<br />

symmetrisk fördelning. Medlet för att åstadkomma symmetri är att transformera<br />

testvariabeln. I företagsundersökningar med deras ofta sneda fördelningar är logaritmering<br />

i allmänhet en bra metod.<br />

I företagsundersökningar används ofta ”Relativ förändring”. Detta är en problematisk<br />

variabel om man använder den utan modifieringar. Den naturliga variationen i<br />

en ren förändringskvot är av naturliga skäl betydligt större för små företag än för<br />

39


Kontrollmetoder<br />

stora företag, vilket illustreras av diagrammet nedan. Ett alternativ är att som testvariabel<br />

använda differensen för små företag och förändringskvoten för stora företag.<br />

Men då måste man fastställa gränser dels för differensen och kvoten, dels för<br />

när differensen respektive förändringskvoten ska användas.<br />

Diagram 1<br />

Relativ förändring av antalet anställda februari <strong>till</strong> mars 2000<br />

Diagrammet visar den relativa förändringen av antal anställda från februari <strong>till</strong> mars 2000<br />

plottat mot antal anställda i februari. Av diagrammet framgår tydligt att variationen i förändringen<br />

beror på företagets storlek (mätt i antal anställda). Om samma acceptansgränser<br />

används för samtliga företag, riskerar man dels att få många onödiga återkontakter,<br />

dels att stora fel inte upptäcks genom att acceptansområdet tvingas bli alltför brett<br />

för stora företag. (Källa: Lönestatistik privat sektor)<br />

En metod för att lösa nämnda problem som i experiment och praktisk användning<br />

världen över (inklusive inom SCB) visat sig framgångsrik, är att man konstruerar<br />

en testvariabel som innehåller både ett storleksmått (eller den absoluta differensen)<br />

och den relativa förändringen. Det finns olika utformningar av den idén. Den<br />

som vi rekommenderar är Hidiroglou-Berthelots metod, se bilagan <strong>till</strong> kapitel 4,<br />

främst därför att det är den som vi har erfarenheter av. Metoden kan med fördel<br />

användas för andra typer av kvoter än förändringskvoter, se van de Pol (1994).<br />

4.3.2 Acceptansområde<br />

Acceptansgränser ska bestämmas på huvudsakligen följande grunder:<br />

• ämnesmässiga fakta<br />

• empiriska fakta erhållna genom<br />

– studier av testvariabelns egenskaper inom olika grupperingar av undersökningsenheter<br />

(t.ex. näringsgren, företagsstorlek eller region). Använd<br />

lådagram.<br />

40<br />

Förändring<br />

Antal anställda


Kontrollmetoder<br />

– erfarenheter av hur kontrollen har fungerat i tidigare undersökningar<br />

eller i en genomförd pilotundersökning. Det är träffsäkerheten som man<br />

ska studera.<br />

– studier av säsongsmässiga variationer (gäller kortperiodiska undersökningar).<br />

Ett generellt hjälpmedel är grafisk analys med hjälp av SAS/Insight.<br />

Acceptansgränser ska för varje enskild kontroll anpassas <strong>till</strong> data från tidigare undersökningar<br />

och från den aktuella undersökningen. De ska inte sättas subjektivt,<br />

vilket ofta leder <strong>till</strong> asymmetrisk <strong>granskning</strong> som i sin tur leder <strong>till</strong> bias. Alltför<br />

restriktiva regler för acceptans leder <strong>till</strong> över<strong>granskning</strong>. Det innebär en stor<br />

mängd felmeddelanden. En effekt blir att de granskare som tar hand om felmeddelandena<br />

tappar förtroendet för maskinens <strong>granskning</strong> och därför tänjer gränserna<br />

efter egna uppfattningar om vad som kan vara viktigt att följa upp. En annan<br />

effekt är att enstaka fel kan tappas bort i mängden, och de kan vara stora.<br />

Acceptansgränser ska alltså sättas utifrån de data som ska granskas och baseras på<br />

fakta. Man kan utnyttja den grafiska metoden men också ämneskunskap. Detta<br />

kan åstadkommas genom att man låter gränserna bero på parametrar som exempelvis<br />

median och kvartilavstånd, beräknade från data i den aktuella produktionscykeln.<br />

Eftersom ogranskade data används för att bestämma acceptansgränserna,<br />

bör man inte använda parametrar som påverkas kraftigt av outliers (t.ex. medelvärde<br />

och standardavvikelse). Ett sådant <strong>till</strong>vägagångssätt <strong>till</strong>ämpas t.ex. i<br />

Hidiroglou-Berthelot-metoden.<br />

En enkel men kraftfull metod är att acceptansgränserna sätts lika med<br />

({1:a kvartilen}–{k x kvartilavståndet},{3:e kvartilen}+{k x kvartilavståndet}) där k<br />

är en konstant som bestämmer bredden på acceptansområdet. Det gäller att finna<br />

lämpliga utgångsvärden på denna konstant och därefter följa upp kontrollernas<br />

egenskaper när det gäller träffsäkerhet och betydelsen av hittade fel vid varje<br />

undersöknings<strong>till</strong>fälle.<br />

Lämplig bredd på acceptansområdet<br />

Studier har visat, se Anderson (1989), att lämpliga acceptansgränser kan fås med<br />

k=3. Det går inte säga att detta gäller generellt, men det kan kanske ändå gälla som<br />

riktmärke. Ta gärna hjälp av lådagram i SAS/Insight för att bestämma acceptansområde<br />

och följa upp kontrollens träffsäkerhet.<br />

Vårt råd bygger på arbetet kring utvecklingen av aggregat<strong>granskning</strong>skontroller<br />

(se t.ex. Wickberg 1990) är att acceptansgränser bör sättas så långt från den stora<br />

massan av observationer men så nära den första outliern som möjligt (Granquist<br />

1990).<br />

I de experiment med Hidiroglou-Berthelot-metoden (bilagan <strong>till</strong> kapitel 4) som redovisas<br />

i Höglund (1994), var de bästa värdena på de konstanter som styr bredden<br />

på acceptansområdet: C = 41 och U = 0,4. (U har att göra med objektens storleksfördelning.)<br />

Detta gällde för alla de kontroller i den statistik (dåvarande order- och<br />

leveransstatistiken) som studerades. Grovt motsvarar detta Andersons (1989)<br />

resultat.<br />

41


Kontrollmetoder<br />

Wickberg (1990), Andersson (1989) och Höglund (1994) har visat att k=3 är ett<br />

bra utgångsvärde. K-värdet justeras när man studerar processdata. Observera att vi<br />

i 4.2.1 Effektiva kontroller, har sagt att andelen felsignaler inte ska vara högre än<br />

4 procent.<br />

Vi rekommenderar att man testar olika k-värden. Empiriska resultat från tidigare<br />

eller liknande undersökningar <strong>till</strong>sammans med ämneskunskap kan vara vägledande.<br />

Lådagram i SAS/Insight erbjuder ett utmärkt stöd för att både välja olika kvärden<br />

och testa träffsäkerheten i kontrollen. Om man inte har <strong>till</strong>gång <strong>till</strong> någon<br />

hjälpinformation, föreslår vi att man börjar med låga k-värden, dvs. snäva intervall,<br />

för att genom ökade värden på k öka intervallbredden.<br />

Ett alternativt sätt att få fram lämpliga värden på förekommande parametrar/konstanter<br />

är att utgå från data som granskats med smalare acceptansområden än nödvändigt.<br />

Särskilt rekommenderas det att nya undersökningar och pilotundersökningar<br />

alltid använder smala, men ändå någorlunda rimliga, acceptansområden för<br />

att man ska få många återkontakter och därigenom kunna skaffa sig information<br />

om felkällor och uppgiftslämnarproblem.<br />

När uppgiftsinsamlingen (i vidare mening) har avslutats, beräknas träffsäkerheten<br />

för olika intervall enligt exemplet nedan. Sist analyserar man resultaten för att<br />

bestämma ”bästa” acceptansgränser (helst uttryckta i parametrar och konstanter).<br />

Vår uppfattning är att man bör sikta mot en träffsäkerhet på åtminstone 60 procent<br />

och sträva mot uppemot 80 procent.<br />

Exempel på metod att få fram lämpliga acceptansgränser<br />

Antag att för testvariabeln ”Genomsnittlig timlön” används acceptansgränserna<br />

(70,100) som snävast tänkbara intervall. Ett effektivare acceptansintervall kan då<br />

beräknas genom analys av träffsäkerheter från simuleringar i materialet med<br />

exempelvis intervallen (30,180), (30+k,180–l),…,(70,100) med k = 10 och l = 20.<br />

En alternativ metod för att testa nya kontroller och acceptansgränser beskrivs i<br />

avsnitt 8.3.<br />

4.3.3 Gruppering<br />

Om för vida acceptansgränser <strong>till</strong>ämpas över hela populationen, medför detta att<br />

man inte upptäcker fel som är betydelsefulla för undersökningen. Timlönen för<br />

t.ex. ett städföretag kan vara en tiondel av genomsnittstimlönen för ett datakonsultföretag.<br />

För att man effektivt ska kunna urskilja misstänkta observationer, är<br />

det nödvändigt att acceptansgränser för kontroller mot avvikelsefel tar hänsyn <strong>till</strong><br />

stora skillnader i medelvärden och varians för olika branscher. Men det tjänar<br />

inget <strong>till</strong> att göra en alltför detaljerad indelning av populationen.<br />

En utmärkt metod är att med SAS/Insight framställa lådagram över testvariabelns<br />

fördelningar för att få underlag för en gruppering. Lådagram ger en visuell bild av<br />

fördelningars medianer och spridning. I SAS/Insight kan man få alla lådagram för<br />

undergrupper <strong>till</strong> en grupp (t.ex. hela populationen) utskriven i ett diagram. Med<br />

blotta ögat ser man i ett sådant diagram enkelt om indelningar behöver göras och i<br />

så fall vilka (se kapitel 5).<br />

För att testa om grupperingen <strong>till</strong>för något i <strong>granskning</strong>sarbetet börjar man med att<br />

finna acceptansgränser för hela materialet utan gruppering. Nästa steg är att under-<br />

42


Kontrollmetoder<br />

söka om en uppdelning av materialet ger väsentligt annorlunda acceptansgränser<br />

för olika delgrupper. Vissa klassificeringsvariabler, som t.ex. SNI-kod, är hierarkiskt<br />

uppbyggda, vilket gör det möjligt att testa gruppering från grov indelning <strong>till</strong><br />

allt finare indelning. Två exempel får illustrera tekniken. Det första exemplet –<br />

hämtat från en lönestatistisk undersökning – bygger på granskat material. I det<br />

andra exemplet – prisförändringar på grönsaker i KPI – har några stora fel inplanterats.<br />

Exempel på att finna acceptansgränser. Lönestatistik.<br />

En av <strong>granskning</strong>svariablerna i en lönestatistisk undersökning är timlön, dvs. lön<br />

per arbetade timmar. Acceptansgränserna (k=3) bestäms enklast med hjälp av ett<br />

lådagram i SAS/Insight. Utnyttja referenslinjerna för att ”bestämma” acceptansgränserna.<br />

Om man betraktar hela materialet, kan acceptansgränserna fastställas<br />

<strong>till</strong> ungefär (40,160) kronor per timme.<br />

Diagram 2<br />

Timlön, lön per arbetade timmar, i hela populationen<br />

De ovan valda acceptansgränserna leder sannolikt <strong>till</strong> över<strong>granskning</strong>. Vi försöker därför<br />

inledningsvis med en relativt grov gruppering av materialet. Vi väljer bransch, SNI-kod på<br />

ensiffernivå. Acceptansgränserna varierar med SNI-kod (diagram 3).<br />

Diagram 3<br />

Timlön, lön per arbetade timmar, fördelade på SNI-kod, ensiffernivå<br />

För de flesta branscher på ensiffernivå är troligen acceptansgränserna (40,160) bra utgångsvärden,<br />

utom möjligen för bransch 2 och 7. Ytterligare uppdelning av branscherna<br />

på t.ex. tvåsiffernivå kan ge bättre anpassade acceptansområden. Utnyttja ämneskunskaper<br />

i kombination med reglerna i 4.2.1 Effektiva kontroller.<br />

43


Kontrollmetoder<br />

Utnyttja t.ex. referenslinjerna och börja utifrån och gå mot mitten. Observera att man kan<br />

välja hur täta referenslinjerna ska vara.<br />

Exempel på att finna acceptansgränser. Grönsaker i KPI.<br />

En kontroll i KPI bygger på månadsvisa prisförändringar, här uttryckt som ett index,<br />

och är logaritmerad. (Värdet 100 motsvarar i den naturliga logaritmen 4,6).<br />

För varugruppen grönsaker är det naturligt med ibland relativt stora prisförändringar,<br />

bland annat beroende på säsongvariationer. I den första bilden betraktar vi<br />

därför prisförändringen för hela undergruppen grönsaker.<br />

Diagram 4<br />

KPI, grönsaker. Prisförändring<br />

Undergruppen grönsaker representeras av flera varor. Vi delar därför upp gruppen med<br />

avseende på representantvarorna.<br />

Diagram 5<br />

KPI, grönsaker fördelat på representantvaror<br />

Om man jämför med exemplet ovan, finns det i KPI-exemplet större skillnader mellan<br />

acceptansområdena för undergrupperna jämfört med huvudgruppen. Acceptansområdet<br />

ligger mellan knappt 3 och drygt 6 för hela gruppen, vilket t.ex. ska jämföras med ungefär<br />

(4.2, 5.5) för varugruppen 1654. Lägg också märke <strong>till</strong> att för varugruppen 1621 skulle vi<br />

inte upptäcka några avvikare.<br />

44


Kontrollmetoder<br />

Ett annat men kanske inte lika effektivt sätt är att grunda indelningar av populationen<br />

på ämneskunskaper och erfarenheter helst i form av ett processdatasystem<br />

(se kapitel 7). Både processdata och erfarenheter är bra underlag <strong>till</strong> förbättringar.<br />

4.4 Selektiv <strong>granskning</strong> – metoder för prioritering av<br />

objekt eller variabelvärden för verifiering<br />

Selektiv <strong>granskning</strong> kallas kontrollprocesser som används för att skilja ut (och<br />

eventuellt åtgärda) endast de felsignalerade objekt vars eventuella fel har stor<br />

presumtiv inverkan på skattningarna för någon av de felsignalerade variablerna.<br />

Det är alltså ett sätt att <strong>till</strong>godose kravet på kontroller att de inte bara ska ha hög<br />

träffsäkerhet utan även att felen ska ha betydelse på skattningsnivå (se 4.2.2).<br />

Eftersom den här tekniken kräver skattningar och andra data från en tidigare<br />

undersökning, innebär detta i praktiken att den i första hand är intressant för<br />

periodiska undersökningar.<br />

Tekniken kallades tidigare allmänt för makro<strong>granskning</strong>, en benämning som<br />

fortfarande används. En översikt av sådana metoder ges i Granquist (1994). Här<br />

beskrivs idéerna bakom top-downmetoden och grafisk <strong>granskning</strong>.<br />

Top-down är en allmänt använd teknik i <strong>granskning</strong>. Den innebär att <strong>granskning</strong><br />

och eller verifiering utförs i prioriteringsordning, där prioritet bestäms efter potentiell<br />

effekt på skattningsnivå eller värde på testvariabel. Efter varje ändring av data<br />

beräknas nya skattningar. Granskningen upphör när skattningarna inte längre<br />

påverkas. Top-down används med fördel i output<strong>granskning</strong> (Anderson 1989)<br />

men kan mycket väl <strong>till</strong>ämpas i produktions<strong>granskning</strong> (Granquist 1994).<br />

Vid grafisk <strong>granskning</strong> är det granskaren och effekterna av verifieringen som ”bestämmer”<br />

acceptansgränserna. Tekniken är då att utifrån den grafiska representationen<br />

av data börja med de värsta och sluta när verifieringen inte längre får<br />

effekter på skattningarna.<br />

Selektiv <strong>granskning</strong> kan även ses som en process där de felsignalerade objekt väljs<br />

ut som kräver en omsorgsfull verifiering – medan de övriga objektens felsignaler<br />

antingen lämnas därhän, tas om hand av ett automatiskt imputeringsprogram eller<br />

utsätts för endast enkel och framför allt resurssnål verifiering, dvs. utan återkontakter.<br />

Vid Statistics Canada används selektiv <strong>granskning</strong> i form av en poängfunktion,<br />

DIFF, (Latouche och Berthelot 1992) för att välja ut objekt för verifiering,<br />

medan de övriga objekten tas om hand av det generella helautomatiska <strong>granskning</strong>sprogrammet<br />

GEIS. Lawrence och Mc Kenzie (2000) ger en utförlig beskrivning<br />

av selektiv <strong>granskning</strong> (i artikeln kallad signifikant <strong>granskning</strong>) med en annan<br />

typ av poängfunktion än funktionen DIFF.<br />

En översikt av metoder för selektiv <strong>granskning</strong> med hjälp av poängfunktioner ges i<br />

Farwell och Raine (2000).<br />

45


Kontrollmetoder<br />

4.5 Hur idén med poängfunktioner kan implemen-<br />

teras<br />

En realisering av idén med poängfunktioner kräver metoder för beräkning av<br />

• lokal poäng<br />

• global poäng<br />

• kritiskt värde.<br />

Se Engström (1995) för en beskrivning av ett experiment som utförts vid SCB.<br />

4.5.1 Lokal poäng<br />

Utgångspunkten för den lokala poängen är att den ska vara högre ju mer det potentiella<br />

felet i det flaggade värdet påverkar skattningen på lägsta nivå. Men vi vet ju<br />

inte om det flaggade värdet är felaktigt, hur stort det eventuella felet är eller effekten<br />

på statistikuppgiften för aggregatet. Beräkningen måste således bygga på antaganden<br />

och approximationer. Valet av metod beror därmed på vad som förefaller<br />

mest realistiskt för den egna undersökningen. Några idéer som <strong>till</strong>ämpas som uppskattning<br />

av det potentiella felet är:<br />

• absoluta differensen mellan det ogranskade värdet och motsvarande värde<br />

vid föregående undersökning (se DIFF nedan)<br />

• absoluta avståndet <strong>till</strong> det beräknade medelvärdet av förändringskvoten<br />

(medelvärdet från föregående undersökning multiplicerat med en antagen<br />

utvecklingstrend)<br />

• absoluta avståndet <strong>till</strong> närmaste acceptansgränslinje.<br />

Som approximation för skattningen används i DIFF och andra metoder motsvarande<br />

statistikuppgift vid föregående undersökning.<br />

Den lokala poängen kan också modifieras genom multiplikation med en faktor<br />

som avspeglar variabelns relativa betydelse (DIFF), genom vägning med medelfelet<br />

(Engström 1995), genom division med någon aggregatberoende parameter<br />

för att öka sannolikheten att aggregat med få objekt verifieras m.m.<br />

4.5.2 Global poäng<br />

Global poäng kan bestämmas exempelvis genom:<br />

• summering av de lokala poängen, som i DIFF<br />

• högsta lokala poängen, som i Lawrence och McDavitt (1994)<br />

• någon form av genomsnittspoäng (ingen <strong>till</strong>ämpning rapporterad).<br />

4.5.3 Kritiska värdet<br />

Kritiska värdet kan bestämmas med hjälp av granskade och ogranskade data från<br />

en undersökningsomgång där selektiv <strong>granskning</strong> inte <strong>till</strong>ämpats eller med tekniker<br />

som beskrivs i kapitel 8 eller Latouche och Berthelot (1992).<br />

Det kritiska värdet ska ständigt övervakas. Ett medel för detta är de indikatorer<br />

som föreslås i kapitel 6.<br />

4.6 Erfarenheter<br />

Den metod som vi rekommenderar här beskrivs i detalj i bilaga kapitel 4. Det är<br />

poängfunktionen DIFF som används av Statistics Canada. Vid utvecklingsarbetet<br />

46


Kontrollmetoder<br />

med poängfunktioner fann man att DIFF var det mest intressanta av de alternativ<br />

som prövades. Observera att det är ett flexibelt instrument, som kan modifieras<br />

och förbättras på många sätt för att passa den egna undersökningens speciella<br />

problem och krav. Anpassningen kan göras på samma sätt som vid bestämning av<br />

kritiska värdet (se ovan).<br />

4.7 Referenser<br />

Anderson, K. (1989), ”Enhancing Clerical Cost-Effectiveness in the Average Weekly Earnings”,<br />

Belconnen, Australia: Australian Bureau of Statistics, Statistical Services Branch, November 1989.<br />

Engström, P. and C. Ängsved (1994), ”A Description of a Graphical Macro Editing Application.”<br />

Conference of European Statisticians, Work Session on Statistical Data Editing, working paper No.<br />

35, Cork 1994.<br />

Engström, P. (1995), A study on using selective editing in the Swedish survey on wages and<br />

employment in industry. Conference of European Statisticians, Work Session on Statistical Data<br />

Editing, room paper No. 11, Athens 1995.<br />

Farewell, K. and Raine M. (2001), “Some Current Approaches to Editing in the ABS”, ICES II –<br />

Proceedings of the Second International Conference on Establishment Surveys, Invited Papers.<br />

American Statistical Association 2001, pp 529–538.<br />

Granquist L. 1990, ”A Review of Some Macro-Editing Methods for Rationalizing the Editing<br />

Process”, Proceedings of Statistics Canada Symposium 90, Measurement and Improvement of<br />

Data Quality, October 1990.<br />

Granquist L. (1994), ”Macro-editing—A Review of Some Methods for Rationalizing the Editing of<br />

Survey Data” in Conference of European Statisticians, Statistical Standards and Studies-No. 44,<br />

111–126.<br />

Höglund, E. (1994), “ Macroediting in Statistics—The Hidiroglou-Berthelot Method (Statistical<br />

Edits) ” in Conference of European Statisticians, Statistical Standards and Studies-No. 44, 127–<br />

136.<br />

Latouche, M., and Berthelot. J.-M. (1992), ”Use of a score function to prioritize and limit<br />

recontacts in business surveys”, Journal of official Statistics, Vol. 8, No. 3, 1992, pp. 389–400.<br />

Lawrence, D., and McDavitt, C. (1994), ”Significance Editing in the Australian Survey of Average<br />

Weekly Earnings,” Journal of Official Statistics, 10, pp. 437–447.<br />

Lawrence, D., and McKenzie, R. (2000), “The General Application of Significance Editing,” Journal<br />

of Official Statistics, 16, pp. 243–253.<br />

Linacre, S. J., and D. J. Trewin (1989), "Evaluation of Errors and Appropriate Resource Allocation<br />

in Economic Collections," Proceedings of the US Bureau of the Census Fifth Annual Research<br />

Conference, U. S. Department of Commerse, Bureau of the Census, March 19–22, 1989, pp. 197–<br />

209.<br />

van de Pol, F. (1995), Selective editing in the Netherlands Annual Construction Survey.<br />

Conference of European Statisticians, Work Session on Statistical Data Editing, working paper No.<br />

26, Athens 1995<br />

Wickberg I. (1990), ”Makro<strong>granskning</strong> med Hidiroglou-Berthelots metod och med aggregatmetoden<br />

utvärderad mot produktions<strong>granskning</strong>en av månadsstatistiken över sysselsättning och<br />

löner under november 1987 för industriarbetare”, GRANSK-PM nr 20,<br />

1990–06–25.<br />

47


Kontrollmetoder<br />

Bilaga kapitel 4<br />

Hidiroglou-Berthelots metod (HB-metoden)<br />

Antag att variabeln X i () t ska kontrolleras, där i är objekt och t är period. Vanlig<br />

testvariabel är förändringskvoten:<br />

X i () t<br />

Ri<br />

=<br />

(1)<br />

X i ( t −1)<br />

HB-metoden innebär att testvariabeln ovan transformeras samt att acceptansintervallet<br />

för denna transformerade testvariabel beräknas utifrån de data som ska<br />

granskas. Intervallet har egenskaperna att det är robust mot felaktiga data och<br />

okänsligt mot den naturliga variationen i förändringskvoter (se exempel 4.4).<br />

Dessa egenskaper åstadkoms genom att robusta parametrar, som median och<br />

kvartilavstånd, används i acceptansgränsintervallen och genom att testvariabeln<br />

transformeras två gånger. Första transformationen syftar <strong>till</strong> att få intervallet<br />

approximativt symmetriskt för att man ska bli kvitt en parameter. Den andra<br />

transformationen syftar <strong>till</strong> att göra acceptansintervallet känsligare för numeriskt<br />

stora värden på variabeln, vilket sker genom att den symmetritransformerade<br />

förändringskvoten multipliceras med ett storleksmått.<br />

Symmetritransformationen<br />

Låt<br />

⎧ RMEDIAN<br />

⎪<br />

1−<br />

,<br />

Ri<br />

Si<br />

= ⎨<br />

Ri<br />

⎪ −1,<br />

⎪⎩<br />

RMEDIAN<br />

48<br />

0 < R < R<br />

i<br />

i<br />

R ≥ R<br />

MEDIAN<br />

MEDIAN<br />

där RMEDIAN är medianvärdet för i R<br />

Storlekstransformationen<br />

U<br />

Ei<br />

= Si<br />

∗ ( MAX ( X i ( t −1)<br />

, X i ( t)<br />

) , 0 ≤ U ≤ 1<br />

(3)<br />

Acceptansgränserna<br />

Acceptansgränser bildas på följande sätt:<br />

Låt<br />

D = MAX E − E , A*<br />

E<br />

Q1<br />

Q3<br />

( MEDIAN Q1<br />

MEDIAN )<br />

( E − E , A E )<br />

D = MAX<br />

*<br />

Q3<br />

MEDIAN<br />

MEDIAN<br />

där index Q1 och Q3 står för undre och övre kvartilen, och A är en konstant som<br />

normalt sätts <strong>till</strong> 0,05.<br />

Syftet med A* EMEDIAN<br />

är att undvika svårigheter när kvartilavstånden är mycket<br />

små. Det vill säga när E i är klustrade kring ett värde, vilket innebär att små<br />

avvikelser kan bli klassificerade som outliers.<br />

Undre gräns:<br />

EMEDIAN − C * DQ1<br />

(4)<br />

(2)


Övre gräns:<br />

E MEDIAN + C * DQ3<br />

(5)<br />

Kontrollmetoder<br />

Parametervärdena C och U kan bestämmas utifrån tester på insamlade data. Här<br />

kan det vara mycket lämpligt att använda samma typ av diagram som används på<br />

sidan 120 i Granquist (1994) för att fastställa bra värden på konstanterna C och U<br />

ovan. En interaktiv grafisk applikation vore lämplig, i vilken man direkt skulle se<br />

hur acceptansgränserna ändras för olika värden på konstanterna.<br />

Poängfunktionen DIFF<br />

Poängfunktionen DIFF har utvecklats av Latouche och Berthelot (1992). Metoden<br />

används av Statistics Canada m.fl.<br />

Låt<br />

y i,<br />

k , t vara värdet för objekt i (i = 1, … ,I) och variabel k (k = 1, … ,K)<br />

vid tidpunkt t<br />

y ′ i , k , t−1<br />

vara värdet för objekt i (i = 1, … ,I) och variabel k (k = 1, … ,K)<br />

vid tidpunkt t-1<br />

w i,<br />

t<br />

vara vägningstalet för objekt i (i = 1, … ,I) vid tidpunkt t<br />

P k vara relativ betydelse av variabel k<br />

Z i,<br />

k , t<br />

⎧1<br />

= ⎨<br />

⎩0<br />

om variabel k felsignaliseras<br />

annars<br />

av en eller flera kontroller<br />

Y ˆd , k , t−1<br />

vara en skattning av totalen från redovisningsgrupp d (där undersökningsenhet<br />

i ingår) för variabel k, vid tiden t-1.<br />

Poängfunktionen DIFF ges då av;<br />

DIFF<br />

i,.,<br />

t<br />

=<br />

w<br />

y<br />

− y′<br />

K<br />

i,<br />

t i,<br />

k , t i,<br />

k , t−1<br />

∑<br />

k = 1 Yˆ<br />

d , k , t−1<br />

Z<br />

i,<br />

k , t<br />

P<br />

k<br />

Om DIFF i,.,<br />

t är större eller lika med något kritiskt värde, sker verifiering.<br />

Poängfunktionen är framför allt avsedd för kontroller mot misstänkta fel i kontinuerliga<br />

variabler. Men man kan även ta med uppenbara fel, förutsatt att man har<br />

ett bra och heltäckande system för automatimputeringar.<br />

(6)<br />

49


Kontrollmetoder<br />

50


5 Grafisk <strong>granskning</strong><br />

Grafisk <strong>granskning</strong><br />

I detta kapitel ska vi klargöra vad grafisk <strong>granskning</strong> är samt redovisa för- och<br />

nackdelar, <strong>till</strong>ämpningsområden och begränsningar. Interaktiv grafisk <strong>granskning</strong><br />

exemplifieras med både input- och output<strong>granskning</strong>.<br />

5.1 Bakgrund<br />

Människor har lättare för att läsa och analysera bilder, än siffror och bokstäver.<br />

Därför har man länge funderat på om det går att använda grafik vid <strong>granskning</strong>.<br />

John Tukey lanserade i början på 1970-talet EDA, Exploratory Data Analysis.<br />

Hans ansatser byggde på manuella rutiner, där man relativt snabbt konstruerade<br />

grafer. Den tekniska utvecklingen under de senaste decennierna har visat att<br />

idéerna om grafisk <strong>granskning</strong> av data i statistiska undersökningar mycket väl<br />

kunde realiseras.<br />

I slutet av 1980-talet startades de första projekten för att utveckla grafiska <strong>granskning</strong>ssystem<br />

– och några år senare projekt för att ta fram generella programvaror<br />

för EDA. Många EDA-metoder är dels utmärkta <strong>granskning</strong>smetoder, dels hjälpmedel<br />

när det gäller att utveckla metoder och instrument för att ta fram effektiva<br />

acceptansgränser för traditionella <strong>granskning</strong>sprogram.<br />

Ett brännande problem för SCB de senaste åren har varit missöden med kvarvarande<br />

fel i data som förorsakat fel i publicerad statistik. Dessa brister i kvalitetssäkringen<br />

kan dock snabbt och enkelt undanröjas med hjälp av grafisk <strong>granskning</strong><br />

– något som följande fiktiva exempel illustrerar.<br />

Exempel på en situation<br />

Antag att vi har en löneundersökning där variablerna total lönesumma och antal<br />

arbetade timmar är två av många variabler. Variablerna kontrolleras med kontrollen<br />

lön/timme. Den genomsnittliga timlönen är 100 kr med standardavvikelsen 20<br />

kr.<br />

I sista minuten före slutbearbetning kommer en blankett in. Man beslutar att den<br />

ska granskas manuellt, därför att en ytterligare <strong>granskning</strong>skörning tar för lång tid,<br />

är för dyr, eller medför annat oundvikligt men i det här sammanhanget onödigt arbete.<br />

Vid den manuella <strong>granskning</strong>en upptäcker man inte att timlönen för företaget felaktigt<br />

har angivits <strong>till</strong> 1200 kronor. Företaget är stort eller har stort uppräkningstal,<br />

vilket medför att felet uppmärksammas i pressen. Punkten 1200 hade legat skyhögt<br />

över alla andra i ett punktdiagram med lönesumma och arbetstimmar som y-<br />

respektive x-axel eller hade utgjort en extrempunkt i ett lådagram av variabeln<br />

löner/timmar.<br />

På någon eller några minuter hade man kunnat hitta felet med hjälp av grafik och<br />

därmed undvikit fadäsen!<br />

5.2 Vad är interaktiv grafisk <strong>granskning</strong>?<br />

Med interaktiv grafisk <strong>granskning</strong> menar vi inte bara samarbete mellan datoranvändare<br />

och dator utan framför allt ”kommunikation” mellan bilder och mellan<br />

bild och datablad.<br />

51


Grafisk <strong>granskning</strong><br />

Praktiskt betyder interaktiv grafisk <strong>granskning</strong> att:<br />

• visa alla objekt som punkter eller staplar i diagram efter en eller flera<br />

variabler<br />

• markera misstänkta objekt, varvid identitet och variabelvärden visas på<br />

skärmen för verifiering<br />

• avläsa effekterna av ändringar och avsluta <strong>granskning</strong>en när effekterna ser<br />

ut att sakna betydelse för skattningar.<br />

Interaktiv grafisk <strong>granskning</strong> är en kraftfull metod för att hitta avvikande värden,<br />

men även för att hitta egendomliga mönster. Det finns programvaror som är utmärkta<br />

för detta. De är enkla att implementera och använda. Metoden ger också<br />

god överblick av datamaterialet och bidrar dessutom <strong>till</strong> ökad ämneskunskap.<br />

En <strong>granskning</strong> kan initieras på några få minuter, och diagram kan sedan tas fram<br />

på en eller annan sekund – vilket är ovärderligt när man ska granska enstaka<br />

objekt som kommer in i sista minuten.<br />

Med den ständigt ökande datorkraften i våra persondatorer och programvaror som<br />

SAS-Insight kommer grafisk interaktiv <strong>granskning</strong> att bli ett allt starkare alternativ<br />

<strong>till</strong> <strong>granskning</strong> med inprogrammerade kontroller även för stora undersökningar.<br />

För måttligt stora undersökningar torde grafisk <strong>granskning</strong> redan nu vara betydligt<br />

effektivare än traditionell <strong>granskning</strong> (se avsnittet 5.6).<br />

Standardiserat uttag av grafer<br />

Grafisk <strong>granskning</strong> används ofta flexibelt (ad-hoc). I en produktionssituation kan<br />

detta vara mindre önskvärt, i synnerhet om <strong>granskning</strong>en utförs av flera personer.<br />

Granskningen blir beroende av den enskilda personens förmåga att se <strong>till</strong> att<br />

<strong>granskning</strong>en blir fullständig och är också emot principen vid SCB att minska<br />

variationen i angreppssätt. I stort löses problemet med ett program som dels startar<br />

SAS/Insight, dels producerar på förhand bestämda grafer.<br />

5.3 Användning<br />

Interaktiv grafisk <strong>granskning</strong> används i produktion i:<br />

• produktions<strong>granskning</strong><br />

• Nya Zeelands ekonomiska undersökningar med ”gred”<br />

• output<strong>granskning</strong> (se exemplet i avsnitt 5.6)<br />

• SCB:s kortperiodiska statistik lönestatistik (KSP) sedan 1995<br />

• SCB:s kortperiodiska lönestatistik (KLP) sedan 1996<br />

• USA:s löne- och sysselsättningsstatistik med ”Aries” sedan 1993.<br />

Gred är ett generellt grafiskt <strong>granskning</strong>ssystem, medan systemen för output<strong>granskning</strong><br />

är skräddarsydda applikationer.<br />

System liknande SCB-applikationerna (se avsnitt 5.6), som fått mycket stor uppmärksamhet,<br />

kan utvecklas på några veckor. Aries har ökat produktiviteten med<br />

100 procent i USA:s federala löpande löne- och sysselsättningsstatistik genom att<br />

datalistor ersatts med grafer. Produktivitetsökningen kan uttryckas med följande<br />

travestering av ett gammalt ordspråk:<br />

”En grafisk bild säger mer än hundra datalistor.”<br />

52


Grafisk <strong>granskning</strong><br />

5.4 Introduktion <strong>till</strong> grafisk <strong>granskning</strong><br />

Grafisk <strong>granskning</strong> klarar merparten av vad traditionell <strong>granskning</strong> gör. Dessutom<br />

kan man med hjälp av t.ex. plottningar hitta mönster som avslöjar skevheter i materialet.<br />

Sådana är svårare att upptäcka med traditionell <strong>granskning</strong>.<br />

Den grafiska <strong>granskning</strong>en bygger på bilder som plottningar och stapeldiagram.<br />

Graferna beskriver en eller flera variabler i datasetet. Om flera grafer visas samtidigt,<br />

blir <strong>granskning</strong>en flerdimensionell. Bilderna samvarierar på så sätt att om<br />

man markerar ett område i en graf, blir de samtidigt markerade i övriga grafer och<br />

i databladet. Detta ger en god bild av hur variabler är relaterade <strong>till</strong> varandra. När<br />

man studerar graferna, kan man med fördel utnyttja verktygen färger och symboler<br />

för att markera olika grupper av objekt som ska jämföras.<br />

Verktyg<br />

• Överblicka datamaterialet med punktdiagrammatris.<br />

• Koda om partiellt bortfall (missing value) <strong>till</strong> ett avvikande numeriskt<br />

värde.<br />

• Transformera om variabeler med sned fördelning, t.ex. med logaritm eller<br />

kvadratrot.<br />

• Prova olika typer av diagramtyper:<br />

– histogram/stapeldiagram (eng.:histogram/bar chart)<br />

– lådagram (eng.: box plot)<br />

– punktdiagram (eng.: scatter plot)<br />

– tredimensionellt punktdiagram (eng.: rotation plot)<br />

– linjediagram (eng.: line plot).<br />

• Använd färger och olika symboler för att visa t.ex. delgrupper.<br />

• Kombinera diagramtyper i samma skärmbild.<br />

• Utnyttja interaktionen mellan flera olika diagram och datablad.<br />

• Gruppera materialet.<br />

• Jämför mot likartat datamaterial, t.ex. från föregående undersökning.<br />

• Inkludera uppräkningstal i analysen vid urvalsundersökning.<br />

• Dela vid behov upp stora datamaterial.<br />

Idéer, tips<br />

• För att finna uppenbara fel – använd stapeldiagram.<br />

• För att bestämma acceptansgränser – använd lådagram.<br />

• För att hitta avvikelsefel – använd punktdiagram eller lådagram.<br />

• För att hitta inliers – använd punktdiagram.<br />

• För output<strong>granskning</strong> – använd lådagram.<br />

5.5 Exempel<br />

Med hjälp av några exempel med tonvikt på feltyperna uppenbara fel, avvikelsefel<br />

och definitionsfel (se kapitel 2) illustreras grafisk <strong>granskning</strong>. Dessutom visas ett<br />

exempel på hur grafisk <strong>granskning</strong> kan användas som ett komplement <strong>till</strong> traditionell<br />

<strong>granskning</strong> när man ska välja acceptansgränser. I anknytning <strong>till</strong> exemplen<br />

ges kortfattade beskrivningar av de två grundläggande graferna, punktdiagram och<br />

lådagram.<br />

53


Grafisk <strong>granskning</strong><br />

5.5.1 Uppenbara fel<br />

Diagram 1<br />

Illustration av uppenbara fel. Giltiga värden för kod är 1–4<br />

54<br />

Med stapeldiagram kan man avslöja<br />

felaktiga koder eller om en<br />

kod saknas. I figur 1 är det 23 objekt<br />

som saknar kod för företagskategori<br />

(FTGKAT=0). När stapeln<br />

med den ogiltiga koden markeras,<br />

markeras även posterna i databladet,<br />

varefter man kan ta ut<br />

dessa för vidare behandling<br />

Om man dubbelklickar på stapeln, visas ett fönster med de 23 posterna med samtliga<br />

variabelvärden.<br />

Genom att komplettera stapeldiagrammet (diagram 1) med ytterligare grafer, som<br />

histogram, lådagram och punktdiagram, kan man identifiera de felkodade objekten.<br />

Om man markerar objekten med en avvikande färg, syns de tydligare i diagram<br />

och datablad.<br />

En kontroll av icke giltiga värden kan på detta sätt ofta göras snabbt och enkelt för<br />

ett antal variabler samtidigt.<br />

5.5.2 Misstänkta fel – avvikelsefel<br />

Punktdiagrammatris<br />

Ett punktdiagram illustrerar samband mellan två eller tre variabler. En punktdiagrammatris<br />

(diagram 2) är flera tvådimensionella punktdiagram i en och samma<br />

bild och består av parvisa kombinationer av variabler. Punktdiagrammatrisen är ett<br />

effektivt verktyg när man vill studera sambandet mellan flera variabler (se SAS/<br />

Insight kapitel 5, Exploring Data in Two Dimensions, och kapitel 35, Scatter<br />

Plots).<br />

I diagonalen, där variabelnamnen står, kan man avläsa maximi- och minimivärden.<br />

Punktdiagrammatrisen är symmetrisk: diagrammen <strong>till</strong> vänster om diagonalen<br />

med variabelnamnen är en spegelbild av diagrammen <strong>till</strong> höger om diagonalen.<br />

Det är därför <strong>till</strong>räckligt att studera diagrammen <strong>till</strong> vänster eller höger om diagonalen.<br />

Data i detta exempel är hämtade från en region i inkvarteringsstatistiken, där bland<br />

annat uppgifter om intäkter och antal belagda rum samlas in för ett antal hotellanläggningar<br />

i olika regioner. I en punktdiagrammatris, diagram 2, studeras sambandet<br />

mellan variablerna intäkt, intäkt per belagt rum och intäkt per belagt rum<br />

föregående år.


Diagram 2<br />

Inkvarteringsstatistiken. Månadsuppgifter<br />

Grafisk <strong>granskning</strong><br />

Variabler:<br />

PRIS1<br />

logiintäkt<br />

KRRUM<br />

intäkt per belagt rum<br />

KRRUM7<br />

intäkt per belagt rum föregående<br />

år<br />

När man markerar en punkt i en av rutorna i diagrammet, visas identiteten för<br />

objektet (här företaget) samtidigt som man kan se var observationerna finns i de<br />

övriga rutorna. Ett dubbelklick på en punkt ger samtliga uppgifter för företaget. I<br />

exemplet har vi markerat en punkt i rutan uppe <strong>till</strong> höger. Objektet visar sig ha<br />

identiteten ’88’. Den har markerats med ”×” och får då automatiskt samma<br />

markering i övriga diagram och även i databladet.<br />

Lådagram<br />

Ett lådagram används för att bland annat illustrera spridningen i ett material (se<br />

Wallgren m.fl. Statistikens bilder, kapitlet Att visa variation). Diagram 3 och 4 är<br />

lådagram. Lådagrammet kan indelas i beståndsdelarna låda, morrhår och extremvärden.<br />

Lådan begränsas av den undre och övre kvartilen. Följaktligen ligger<br />

50 procent av fördelningen i lådan. Strecket inne i lådan är medianen.<br />

Morrhåren är strecken på vardera sidan om lådan. Morrhårens längd är en valfri<br />

konstant (k) multiplicerat med kvartilavvikelsen (se SAS/Insight, kapitel 33 Box<br />

Plots and Mosaic Plots, avsnitt Method). Standardvärdet för konstanten k är 1,5.<br />

Om inte det passar, kan man välja ett annat k-värde. Det är det egna valet, baserat<br />

på erfarenhet, som styr!<br />

Punkterna <strong>till</strong> höger och vänster om morrhåren är extremvärden.<br />

En jämförelse mot tidigare uppgifter kan man göra genom att ta differensen eller<br />

kvoten mellan nya och gamla värdet (KRDIFF). I ett lådagram (diagram 3) framträder<br />

objekt med stora skillnader tydligt. En bra strategi vid <strong>granskning</strong> är att<br />

börja från ytterkanterna och gå inåt mot morrhåren.<br />

55


Grafisk <strong>granskning</strong><br />

Diagram 3<br />

Inkvarteringsstatistiken. Genomsnittlig skillnad i intäkt per rum jämfört med<br />

föregående år<br />

Lådagram kan användas för att snabbt bestämma acceptansgränser om man avser<br />

att på traditionellt sätt ta fram misstänkta poster för verifiering.<br />

I den stora lådan ligger 50 procent av fördelningen, dvs. hälften av hotellen tog<br />

mellan 400 kr och 600 kr per natt. Den stora svärmen av observationer ligger<br />

mellan 200 kr och 800 kr. Sätter man acceptansgränserna 200 kr och 800 kr, får<br />

man ut endast de extrema värdena, vilket ofta räcker (se avvikelsefel).<br />

Diagram 4<br />

Inkvarteringsstatistiken. Fördelning för intäkt per belagda rum<br />

I en urvalsundersökning kan man, för att ta hänsyn <strong>till</strong> uppräkningstal vid<br />

<strong>granskning</strong>en, även ta fram en graf med uppräkningstal som Y-variabel och<br />

undersökningsvariablerna som X-variabler.<br />

Diagram 5<br />

Inflytande på skattning. Alla punkter på kurvan har samma inflytande<br />

56<br />

Produkten av variabelvärdet och uppräkningstalet<br />

bestämmer observationens<br />

tyngd i skattningen. I diagram 5 är pro-<br />

dukten w VAR<br />

⋅ 1, där w är uppräknings-<br />

talet, konstant på kurvan. Misstänkta värden<br />

ligger <strong>till</strong> höger om kurvan.


Grafisk <strong>granskning</strong><br />

Misstänkta observationer hittar man genom att kombinera diagrammen 5 och 6.<br />

Tekniken exemplifieras på data från djurräkningen. Vi har i grafen manuellt ritat<br />

in pilar <strong>till</strong> de observationer som vi kan tänka oss att vi behöver undersöka närmare.<br />

Genom att man kan ta fram fler variabler samtidigt, blir denna process ofta<br />

ganska snabb. Variabeln vikt är uppräkningstal och övriga variabler är antalet djur<br />

av fyra olika djurslag.<br />

Diagram 6<br />

Djurundersökningen. Misstänkta fel<br />

Som alternativ kan <strong>granskning</strong> i urvalsundersökningar göras direkt på uppräknade<br />

data, dvs. variabelvärden multiplicerade med uppräkningstal.<br />

5.5.3 Misstänkta fel – definitionsfel<br />

Definitionsfel är systematiska svarsfel (se kapitel 2), vilka praktiskt taget är omöjliga<br />

att hitta med traditionell <strong>granskning</strong>. Här kommer poängen med EDA enligt<br />

Tukey:<br />

”The true value of a graph is found when it forces us to see something we<br />

could not see before.”<br />

Idén är att finna mönster som indikerar förekomst av oförutsedda definitionsfel i<br />

ett datamaterial.<br />

Exemplet från konsumentprisindex, KPI, nedan visar hur man med SAS/Insight<br />

kan identifiera felaktiga ”svarsbeteenden”.<br />

57


Grafisk <strong>granskning</strong><br />

Exempel: Svarsbeteende, KPI<br />

Diagram 7<br />

KPI. Kvalitetsvärdering vid byte av vara<br />

58<br />

Varje månad samlas prisuppgifter in för ett<br />

urval av varor i ett urval av butiker. Prisuppgifterna<br />

utgör en del av underlaget för<br />

beräkningen av KPI. Index beräknas ett år i<br />

taget genom att man jämför priser under<br />

aktuell månad med priser i december året<br />

innan. Från månad <strong>till</strong> månad försvinner en<br />

del produkter från butikernas sortiment och<br />

ersätts då med urval av nya produkter.<br />

Intervjuarna, som sköter insamlingen, ska värdera skillnaden i kvalitet mellan den gamla<br />

och den nya produkten. Värderingen ska huvudsakligen göras utifrån intervjuarens egna<br />

bedömningar. Det är inte <strong>till</strong>åtet att som regel sätta kvalitetsskillnaden lika med prisskillnaden,<br />

bara om det är motiverat.<br />

I detta diagram plottas kvalitetsvärderingen (RKVALT) mot prisskillnaden (RDIFFORD),<br />

båda ställda i relation <strong>till</strong> prisnivå. Värdemängderna har begränsats <strong>till</strong> intervallet<br />

[-0,5;+0,5].<br />

Här ser man tydligt att kvalitetsvärderingen 0 är vanlig (horisontell punktsamling), och det<br />

är <strong>till</strong>åtet. Det är också vanligt att kvalitetsskillnaden är lika med prisskillnaden (diagonal<br />

linje y = x ), vilket generellt är o<strong>till</strong>åtet. Man kan också se ett litet antal punkter på en linje<br />

y =− x,<br />

vilket antyder att kvalitetsvärderingen kan ha fått fel tecken, t.ex. vid dataregistreringen.<br />

Det går också att skönja att det förekommer att kvalitetsvärderingen sätts lika med halva<br />

prisskillnaden (en diagonal linje 2 ⋅ y = x). Förekomsten av dessa mönster är intressant<br />

att konstatera, och de o<strong>till</strong>åtna beteendena hos intervjuarna bör åtgärdas med utbildning<br />

och information. Däremot är det inte meningsfullt att för de enskilda dataposterna försöka<br />

hitta ”rätt” värde, eftersom varje enskild datapost kan vara ”korrekt” samtidigt som<br />

massförekomsten tyder på felaktigt förfarande.<br />

5.6 Grafisk aggregat<strong>granskning</strong><br />

Aggregat<strong>granskning</strong> innebär att man först kontrollerar aggregerade data (makronivå)<br />

och därefter identifierar de objekt i misstänkta aggregat som sannolikt bidragit<br />

mest <strong>till</strong> att aggregatet betecknats som misstänkt (mikronivå).<br />

I arbetsställeundersökningen Kortperiodisk sysselsättningsstatistik (KS) används<br />

sedan 1995 ett system för grafisk output<strong>granskning</strong>. Systemet granskar för närvarande<br />

endast variabeln ”Antal anställda”. Ungefär samma typ av system används<br />

också sedan 1996 i Kortperiodisk lönestatistik inom privat sektor (KLP).<br />

I KS system visar makronivån skattningar och relativ förändring av antal anställda<br />

per näringsgren och län mot föregående månad/kvartal, alternativt motsvarande<br />

månad/kvartal föregående år. Dessutom visas relativ förändring av populationsvariansen<br />

i syfte att identifiera aggregat där stora fel tar ut varandra så att aggregatvärdet<br />

verkar vara korrekt. Förändringar markeras med olika färger beroende<br />

på deras storlek.


Grafisk <strong>granskning</strong><br />

Några erfarenheter av systemet:<br />

• Allmänt – misstänkta data upptäcks mycket snabbare än med traditionella<br />

papperslistor.<br />

• Misstänkta skattningar på makronivån upptäcks snabbt genom färgmarkeringarna.<br />

• Överblick fås över samtliga mikrodata för en misstänkt skattning i samma<br />

bild.<br />

• Avvikande observationer med stor påverkan kan lätt identifieras och åtgärdas.<br />

• Speciella mönster, som exempelvis stor variation eller speciella kluster<br />

(avslöjar eventuellt vissa systematiska fel), kan upptäckas med spridningsdiagrammet.<br />

Ytterligare exempel på grafisk output<strong>granskning</strong> visas i exemplet nedan i diagram<br />

8.<br />

59


Grafisk <strong>granskning</strong><br />

Exempel: Output<strong>granskning</strong> i KPI<br />

Diagram 8<br />

Output<strong>granskning</strong> av KPI. Förändringen, mellan<br />

januari och februari, på varugruppsnivå de senaste<br />

21 åren<br />

KPI beräknas genom en hierarkisk<br />

aggregering av priser upp <strong>till</strong><br />

en total för hela den privata konsumtionen.<br />

På den högsta nivån<br />

används den internationella klassificeringen<br />

COICOP med 12<br />

avdelningar.<br />

Diagrammet här in<strong>till</strong> ger en<br />

snabbkoll av resultaten. Varje<br />

lådagram visar fördelningen av<br />

prisförändringarna från januari <strong>till</strong><br />

februari för åren 1980–2000, dvs.<br />

21 år.<br />

Kod 00 avser KPI totalt. 01–12<br />

avser avdelningar som Livsmedel,<br />

Alkohol & tobak.<br />

Diagram 8 visar<br />

aggregat<strong>granskning</strong> för februari<br />

månad år 2000. Om resultatet<br />

enligt lådagrammets definition är<br />

att betrakta som ”avvikande”<br />

markerar vi detta med .<br />

Här finns två tydliga fall. 07.2.2<br />

avser drivmedel, och för februari<br />

2000 har SCB uppmätt den största<br />

februariändringen under de<br />

senaste 21 åren (OPEC har begränsat<br />

leveranserna alltsedan<br />

vintern 1999 för att hålla uppe<br />

priserna på råolja). Koden 07.3<br />

avser kollektiva transporter, och<br />

prissänkningen beror <strong>till</strong> stor del<br />

på ”rabatten” med 150 kronor<br />

som Stockholms Lokaltrafik lämnade<br />

som ersättning för problem<br />

med pendeltåg och tunnelbana<br />

under vintern år 2000.<br />

Observera att acceptansområdet<br />

för 01.1.6, frukt, inte bör vara<br />

symmetriskt kring 100. Detta var<br />

utgångspunkten i den ursprungliga<br />

<strong>granskning</strong>en.<br />

60


Grafisk <strong>granskning</strong><br />

5.7 SAS/Insight: Hur stora dataset?<br />

Grafisk <strong>granskning</strong> bygger på interaktivt samspel mellan grafer, datablad och enskilda<br />

observationer.<br />

När datamängden ökar, blir punktdiagram gyttriga och svårlästa. Enskilda objekt<br />

kan man inte identifiera genom att klicka på en punkt, eftersom man då markerar<br />

en hel svärm av punkter. Det finns hjälpmedel för att hantera detta: minska punktstorleken<br />

och zoomning. Läsbarheten i histogram, lådagram med flera påverkas<br />

inte direkt av antalet observationer. Däremot bestämmer internminne och processorkapacitet<br />

hur snabbt det går att arbeta. Bildskärmen är ofta den praktiska<br />

begränsningen.<br />

Det finns i princip tre faktorer som har betydelse för grafisk <strong>granskning</strong> med SAS/<br />

Insight:<br />

• datamängden, antal poster och antal variabler<br />

• dataformatet<br />

• organisationen av data.<br />

Det är omöjligt att ge generella rekommendationer för hur stora dataset får vara.<br />

Analys av 100 000 poster kan fungera bra i en <strong>till</strong>ämpning, medan det i en annan<br />

kan vara trögt att arbeta med mindre än halva antalet poster. Man måste pröva sig<br />

fram.<br />

Vid större datamängder rekommenderar vi att man arbetar enligt någon av följande<br />

metoder:<br />

• minska antalet variabler i analysen<br />

• dela upp datamängden i undergrupper<br />

• analysera ett urval av datamängden, t.ex. zoomning (leta efter mönster).<br />

Överblicken över hela datamängden går förlorad, men man vinner i smidighet.<br />

5.8 Kompetens<br />

Man kan indela användarna av grafiska analysinstrument i tre olika kategorier<br />

1. användare som granskar enbart enligt ett på förhand uppgjort schema<br />

2. användare som granskar enligt plan, men även utför fördjupade analyser<br />

3. avancerade användare<br />

En förutsättning för den första gruppen är att kunna hantera analysverktyget, SAS/<br />

Insight. Detta kräver datorvana men inte nödvändigtvis kunskaper i SAS-programmering.<br />

De som utför fördjupade analyser (grupp 2) behöver dessutom elementära kunskaper<br />

i EDA för att kunna analysera mönster, dvs. att identifiera fel med hjälp av<br />

mönster som är karaktäristiska för felen. Det fordras ibland vissa kunskaper i<br />

SAS-programmering.<br />

Den avancerade användaren behöver goda kunskaper i EDA, SAS/Insight och<br />

SAS-programmering.<br />

61


Grafisk <strong>granskning</strong><br />

5.9 Sammanfattning av interaktiv grafisk <strong>granskning</strong><br />

5.9.1 Fördelar<br />

Granskaren kan lätt se vilka datapunkter som kan vara avvikelsefel. Acceptansgränser<br />

behöver inte beräknas och uppdateras. Granskningen anpassas direkt <strong>till</strong><br />

det aktuella materialet utan antaganden. Man får en god överblick över materialet<br />

och ökar kunskaperna om materialet och ämnet.<br />

Metoden löser följande problem som traditionell <strong>granskning</strong> ofta har:<br />

• I förväg satta parametervärden byggda på antaganden från föregående undersökning<br />

blir inaktuella och medför onödiga felsignaler samt snedvrider<br />

<strong>granskning</strong>en. (Det finns exempel där acceptansgränser inte har täckt medianvärdet.)<br />

• Outliers i materialet kan medföra att gränserna snedvrids eller blir för vida<br />

när parametervärdena beräknas ur det material som ska granskas.<br />

• Kontroller blir dåliga på grund av att antaganden om datastrukturer med<br />

mera inte håller <strong>till</strong> följd av förändringar i populationen.<br />

• Införa nya kontroller i <strong>granskning</strong>sprogrammet (vilket kan vara tids- och<br />

resurskrävande).<br />

• Objekt felsignaleras ständigt i varje undersökningsomgång.<br />

• Komplicerade kontroller kan vara svåra att förstå.<br />

• Svårt att få överblick av datamaterialet, ökad insikt i materialet och problemen<br />

med datainsamlingen, samt ökad ämneskunskap.<br />

• Höga initiala IT-kostnader, programmering osv. (gäller speciellt engångsundersökningar).<br />

5.9.2 Problem<br />

Om man använder grafisk <strong>granskning</strong> som enda metod, kan man få följande problem<br />

– speciellt vid stora datamängder med många objekt eller variabler.<br />

• Det kan vara svårt att få överblick över alla problem i ett objekt. En och<br />

samma uppgiftslämnare kan behöva kontaktas flera gånger. Dessutom kan<br />

det bli svårt att få <strong>granskning</strong>en fullständig för alla variabler.<br />

• Det kan vara svårt att få fram processdata och dokumentation över <strong>granskning</strong>en.<br />

• Förändringar i felbeteendet kan påverka <strong>granskning</strong>en (gäller all <strong>granskning</strong>).<br />

• Det kan vara svårare att få <strong>granskning</strong>en reproducerbar.<br />

62


Grafisk <strong>granskning</strong><br />

5.9.3 När kan grafisk interaktiv <strong>granskning</strong> <strong>till</strong>ämpas?<br />

Små datamängder Passar bra för grafisk <strong>granskning</strong>, såväl produktions<strong>granskning</strong><br />

som output<strong>granskning</strong>.<br />

Medelstora datamängder Traditionell <strong>granskning</strong> kompletteras med grafisk<br />

output<strong>granskning</strong>.<br />

Stora datamängder Traditionell <strong>granskning</strong> kan kompletteras med<br />

grafisk för delar av populationen.<br />

När man inte har tid med<br />

flexibilitet (månadsstatistik)<br />

När flexibilitet är viktig Grafisk <strong>granskning</strong>.<br />

Granskningsomfattning liten Grafisk <strong>granskning</strong>.<br />

Traditionell <strong>granskning</strong> eller alternativt en<br />

skräddarsydd grafisk applikation.<br />

Granskningsomfattning större Traditionell <strong>granskning</strong> eller skräddarsydd<br />

applikation för grafisk <strong>granskning</strong>.<br />

5.9.4 Rekommendationer<br />

Använd:<br />

• interaktiv grafisk <strong>granskning</strong> i output<strong>granskning</strong> i alla undersökningar<br />

• grafisk <strong>granskning</strong> i mindre undersökningar<br />

• grafisk <strong>granskning</strong> i engångsundersökningar<br />

• grafiska metoder som hjälpmedel för att utveckla <strong>granskning</strong>sprocesser.<br />

5.10 Referenser<br />

Houston G., and A. G. Bruce (1993), ”gred: Interactive Graphical Editing for Business Surveys”,<br />

Journal of Official Statistics. Vol. 9, No. 1, 1993, pp. 81–90.<br />

SAS/Insight, User’s <strong>Guide</strong> (1999), version 8. SAS Institute Inc. Manualen finns även elektroniskt<br />

<strong>till</strong>gänglig via


Grafisk <strong>granskning</strong><br />

64


6 Vad ska göras vid felsignal?<br />

Vad ska göras vid felsignal?<br />

Insamling av data om produktionsprocessen och sammanställning <strong>till</strong> processdata<br />

är ett område som man först nyligen har börjat utveckla – det gäller både internationellt<br />

och vid SCB. I avsnittet 6.6 kan vi följaktligen endast ange exempel på<br />

vilka data som kan samlas in. Endast en referens ligger <strong>till</strong> grund för vårt resonemang,<br />

nämligen Engström (1997). Inom de närmaste åren kommer dock säkerligen<br />

studier att redovisas som kan ligga <strong>till</strong> grund för riktlinjer och rekommendationer<br />

på området.<br />

Förslaget <strong>till</strong> åtgärdskoder är ett utkast och ska alltså <strong>till</strong>s vidare ses som idéer. De<br />

innehåller dock allt som behövs för sammanställningen <strong>till</strong> de processdata som<br />

föreslås i kapitel 7.<br />

I detta kapitel beskrivs aktiviteter som är förknippade med att <strong>granskning</strong>sprogrammet<br />

signalerar variabler inom objekt för manuell behandling, som här kallas<br />

verifiering. Granskningsprogram kan även signalera observationer/variabler för<br />

maskinell åtgärd, vilken omedelbart utförs av programmet. Detta kallas här automatimputering<br />

och berörs kortfattat i avsnittet om imputering.<br />

Verifieringsprocessen har följande syften:<br />

• kontrollera och åtgärda felsignalerade data<br />

• registrera <strong>granskning</strong>sstatus och utfört arbete<br />

• ge uppgiftslämnarna förståelse för vad de ska ge svar på<br />

• samla in och registrera data över felorsaker, uppgiftslämnarproblem med<br />

mera.<br />

6.1 Felmeddelanden<br />

Med felmeddelande avses här den information som dataprogrammet ger om de<br />

objekt och variabler som flaggas som fel eller misstänkta fel. Syftet med felmeddelandet<br />

är att:<br />

• ge <strong>till</strong>räcklig information för rationell verifiering av felsignaler.<br />

• utgöra ett underlag för data om insamlings- och produktionsprocessen.<br />

6.1.1 Innehåll<br />

Checklista för innehållet i ett felmeddelande<br />

‰ objektidentitet<br />

‰ felsignalerad variabel<br />

‰ kontroll som medförde felsignalen<br />

‰ verbal beskrivning av kontrollen<br />

‰ data om objektet som bedöms nödvändiga för verifieringen.<br />

Data som kan underlätta verifieringen är värden på vissa andra variabler, tidigare<br />

rapporterade värden på den felsignalerade variabeln och värden på härledda<br />

variabler, t.ex. förändringstal.<br />

När en variabel felsignaleras måste en felkod sättas som visar vilket kriterienummer<br />

som förorsakade felsignaleringen.<br />

65


Vad ska göras vid felsignal?<br />

Nedan följer ett exempel från Kortperiodisk lönestatistik, privat sektor (KLP), där<br />

dock allt det som vi rekommenderar inte finns med.<br />

Diagram 1<br />

Exempel på <strong>granskning</strong>sbild med felkod (A), problemet i klartext (C), felorsak och<br />

åtgärd i klartext (B). Kortperiodisk lönestatistik, privat sektor (KLP)<br />

6.1.2 Generering av felmeddelande<br />

Granskningen genomförs vanligen för ett objekt i taget, variabel för variabel eller<br />

kontroll för kontroll. Så fort variabelvärden underkänns i en kontroll, ska variablerna<br />

(fälten) förses med felsignal och felkoder. Felmeddelanden kan genereras på<br />

två sätt:<br />

• omedelbart (variabelvisa felmeddelanden, vilket framför allt gäller dataregistrerings<strong>granskning</strong>)<br />

• efter att datorprogrammet har granskat hela objektet (objektvisa felmeddelanden).<br />

Variabelvisa felmeddelanden. Granskaren registrerar nya värden på berörda variabler,<br />

anger orsaken <strong>till</strong> ändringen (se 6.6) och den maskinella <strong>granskning</strong>en<br />

startas om. Alla kontroller som innehåller de variabler som ändrats görs då om.<br />

Om det felsignalerade värdet accepteras, registrerar granskaren detta genom att<br />

ändra åtgärdskoden. Om felsignalen inte snabbt kan lösas, markerar operatören/<br />

granskaren värdet med en felkod och fortsätter <strong>granskning</strong>en.<br />

Objektvisa meddelanden. När ett objekt gått igenom alla maskinella kontroller,<br />

skrivs det ut ett felmeddelande med alla felsignalerade variabelvärden och <strong>till</strong>hörande<br />

koder (vid dataregistrerings<strong>granskning</strong>: alla återstående variabelvärden och<br />

koder). Meddelandet ska i förekommande fall även omfatta uppgifter om utförda<br />

66<br />

C<br />

B<br />

A


Vad ska göras vid felsignal?<br />

imputeringar. Granskaren eller arbetsgruppen avgör om objektmeddelandet ska<br />

verifieras omedelbart eller först när ett antal meddelanden har samlats på hög.<br />

Rutinen för felmeddelanden ska utformas så, att felsignalerade variabelvärden<br />

med <strong>till</strong>hörande felkoder enkelt kan sammanställas för eventuell ytterligare bearbetning<br />

vid <strong>granskning</strong>en, som t.ex. automatimputering (se ovan).<br />

Den produktansvarige ska utforma kontrollerna och bestämma ordningsföljden<br />

mellan dem samt svara för kodsättningen och den verbala beskrivningen med<br />

<strong>till</strong>hörande information.<br />

6.2 Verifiering av felsignaler<br />

Det primära syftet med verifiering av felsignalerade variabler är att utreda om det<br />

felsignalerade variabelvärdet kan accepteras, är felaktigt eller är en outlier.<br />

Om värdet är felaktigt, ska utredningen även leda <strong>till</strong> att man får fram ett acceptabelt<br />

värde.<br />

Outliers ska egentligen behandlas i estimeringsprocessen, men diskuteras kortfattat<br />

nedan i avsnitt 6.4.<br />

Verifieringen består i att få fram hur det ifrågasatta värdet ska åtgärdas – utifrån<br />

underlag (felmeddelande, blankett m.m.), ämneskunskaper, erfarenheter eller kunskaper<br />

om objektet eller genom kontakt med uppgiftslämnaren. Från processynpunkt<br />

är frågan här hur man ska organisera <strong>till</strong>gänglig information om objektet, så<br />

att verifieringen kan göras så effektivt som möjligt.<br />

6.2.1 Underlag<br />

Underlag är först och främst felmeddelandet och registreringsunderlaget, vilket i<br />

postenkäter är den ifyllda blanketten. Registreringsfel, sortfel, förskjutningsfel,<br />

vissa konsistensfel m.fl. uppenbara (slarv-)fel kan lätt identifieras genom jämförelser<br />

mot registreringsunderlaget. I övrigt är det svaren på övriga frågor,<br />

registeruppgifter, tidigare rapporterade uppgifter samt <strong>till</strong>skriven information<br />

(meddelanden från uppgiftslämnaren) som kan ge nödvändiga ledtrådar. Om<br />

sådana data inte finns på felmeddelandet, måste uppgifterna vara lät<strong>till</strong>gängliga,<br />

helst online – t.ex. genom en inskannad bild av den ifyllda blanketten.<br />

Vid periodiska undersökningar kan tidigare rapporterade uppgifter för relevanta<br />

variabler finnas med på felmeddelandet. I annat fall ska detta underlag finnas lätt<br />

<strong>till</strong>gängligt, helst online. Från <strong>granskning</strong>ssynpunkt är det en fördel om uppgifter<br />

från föregående period är förtryckta på blanketten. Detta ger dessutom ett bra stöd<br />

för uppgiftslämnaren.<br />

Vid verifiering ska man också utnyttja sådana data om det felsignalerade objektet<br />

som finns i <strong>till</strong>gängliga register eller i andra undersökningar.<br />

Om underlaget är o<strong>till</strong>räckligt, ska uppgiftslämnaren kontaktas där det är motiverat<br />

och möjligt. Återkontakterna har dessutom <strong>till</strong> uppgift att samla in data om<br />

förklaringar <strong>till</strong> felsignaler, orsaker <strong>till</strong> fel och uppgiftslämnarens problem att ge<br />

korrekta svar på undersökningens frågor. (Se vidare avsnitt 6.3.)<br />

67


Vad ska göras vid felsignal?<br />

6.2.2 Kompetenskrav<br />

Det är ofta svårt att verifiera felmeddelanden. Visserligen finns det i alla undersökningar<br />

felsignaler som lätt kan verifieras, men för många felsignaler krävs det<br />

omfattande kunskaper i ämnet och om undersökningen. Detta gäller särskilt när<br />

uppgiftslämnaren ska kontaktas. Det krävs fortlöpande utbildning i ämnet, erfarenhetsutbyte<br />

och en <strong>till</strong>räckligt kvalificerad bakgrund.<br />

6.3 Återkontakter<br />

Syften med att kontakta uppgiftslämnaren är att:<br />

• hjälpa uppgiftslämnaren att lämna korrekta svar inte bara vid undersöknings<strong>till</strong>fället<br />

utan även i framtiden<br />

• verifiera felsignaler<br />

• inhämta kunskaper om data, noggrannhet i data, felorsaker och uppgiftslämnarproblem.<br />

Kontakter är kostsamma för både producent och uppgiftslämnare, varför varje<br />

beslut om återkontakt måste vara välgrundat. En fråga man måste ställa sig vid<br />

beslutet om återkontakt är om det är realistiskt att man kan få högre kvalitet.<br />

Återkontakter måste ge betydligt mer än enbart att man verifierar objektets alla<br />

olösta felsignaler. Man ska på ett systematiskt sätt samla in felorsaker samt<br />

synpunkter på undersökningen – både när det gäller de efterfrågade uppgifterna<br />

(t.ex. uppgiftslämnarens möjlighet att lämna uppgifter) och i fråga om blankettens<br />

utformning. Åtgärder och felorsaker kodas på lämpligt sätt (se avsnitt 6.6).<br />

Kontakter måste tas så nära uppgiftslämnandet som möjligt. Om lång tid har förflutit<br />

mellan uppgiftslämnandet och återkontakten, har uppgiftslämnaren troligen<br />

varken tid eller vilja att åter sätta sig in i såväl uppgiftslämnandet som sitt eget<br />

informationssystem. Dessutom kan det vara svårare att få <strong>till</strong>gång <strong>till</strong> data.<br />

Vid engångsundersökningar och vid de första omgångarna av en ny periodisk undersökning<br />

är det befogat med många återkontakter. Efter hand som uppgiftslämnaren<br />

lär sig undersökningen, blanketten förbättras och granskarnas erfarenheter<br />

och kunskap ökar, blir det alltmer de potentiella felens betydelse som ska avgöra<br />

frekvensen av återkontakter.<br />

6.4 Hantering av outliers<br />

Outliers är korrekta data som uppräknade skiljer sig så mycket i absolut storlek<br />

från övriga uppräknade värden i sin redovisningsgrupp, att de aktualiserar frågor<br />

om förändringar i estimationen eller kommentarer i redovisningen av undersökningens<br />

resultat. Detta gäller speciellt urvalsundersökningar.<br />

Outliers behandlas vanligen med:<br />

• reducering av deras inverkan för att undvika dels missvisande information<br />

om målpopulationen, dels störningar i jämförbarheten<br />

• kommentarer i publicerade skattningar.<br />

6.5 Imputering<br />

Ett felsignalerat och felaktigt värde kan imputeras, dvs. ersättas med ett acceptabelt<br />

värde efter fastställda regler utan kontakt med uppgiftslämnaren. Imputering<br />

68


Vad ska göras vid felsignal?<br />

kan göras antingen genom manuell imputering med hjälp av jämförelser mot värden<br />

från tidigare rapportering, information i urvalsramen (registret) eller mot statistikuppgifter<br />

i andra undersökningar. Saknade eller orimliga värden kan även<br />

ersättas med ett acceptabelt värde maskinellt enligt fastställda regler, s.k. automatisk<br />

imputering. Källorna som används för att hitta ersättningsvärden kan vara<br />

desamma för såväl manuell som automatisk imputering.<br />

Automatisk imputering kan göras vid partiellt bortfall och eventuellt för bortfallsobjekt.<br />

Även i samband med verifieringen kan automatisk imputering användas<br />

när felsignalerade variabler ska ersättas med acceptabla värden (t.ex. vid orimliga<br />

värden). Huruvida en felsignalerad variabel ska imputeras automatiskt eller åtgärdas<br />

på annat sätt beror ofta på objektets/felets betydelse för den slutliga skattningen.<br />

En fördel med automatisk imputering framför manuell imputering är att åtgärdade<br />

variabler behandlas på ett likformigt sätt. Risken vid manuell imputering kan vara<br />

att bedömningarna blir subjektiva. Dock finns det objekt och undersökningar där<br />

det inte är möjligt att använda automatisk imputering.<br />

Imputering är ett stort område och tas inte vidare upp här. Det viktiga är att den<br />

imputering som görs följs upp och dokumenteras väl, t.ex. genom att man <strong>till</strong>ämpar<br />

åtgärdskoder som visar hur variabeln har behandlats. Detta beskrivs i följande<br />

avsnitt.<br />

6.6 Insamling av information om <strong>granskning</strong>en<br />

Vidtagna åtgärder, orsaker <strong>till</strong> fel m.m. ska insamlas systematiskt och dataregistreras<br />

som underlag <strong>till</strong> statistik över <strong>granskning</strong>sprocessen (se vidare kapitel 7)<br />

och för att undvika dubbelarbete.<br />

Checklista för verifiering av felsignal<br />

‰ hur felsignalerade data har åtgärdats<br />

‰ vilka orsakerna är <strong>till</strong> identifierade fel<br />

‰ huruvida svar utgör uppskattningar eller är hämtade från uppgiftslämnarens<br />

informationssystem<br />

‰ vad avgivna svar egentligen står för (relevansen i erhållna svar)<br />

‰ vilka problem uppgiftslämnaren har att besvara frågorna<br />

‰ hur stor resursåtgången är, i synnerhet när det gäller återkontakter.<br />

Hur felsignalerade data har åtgärdats, kodas lämpligen enligt ett kodsystem utarbetat<br />

av den produktansvarige.<br />

En åtgärdskod som visar vilken/vilka åtgärder som har genomförts ska definieras<br />

för varje enskild felkod.<br />

Exempel på åtgärder:<br />

• Variabelvärde felsignalerat (men inte verifierat).<br />

• Variabelvärde godkänt utan ändring och utan kontakt med uppgiftslämnaren.<br />

• Variabelvärde godkänt utan ändring efter kontakt med uppgiftslämnaren.<br />

• Åtgärdas senare (t.ex. ett viktigt objekt där uppgiftslämnaren inte har kunnat<br />

nås).<br />

69


Vad ska göras vid felsignal?<br />

• Variabelvärde korrekt men har klassats som outlier och åtgärdas enligt bestämda<br />

regler (se 6.4)<br />

• Variabelvärdet ändrat utan återkontakt (t.ex. överföringsfel).<br />

• Variabelvärdet ändrat med kontakt (primärdata felaktigt) – (ett korrekt<br />

värde har givits av uppgiftslämnaren).<br />

• Variabelvärdet ändrat vid återkontakt (primärdata felaktigt) – (ett uppskattat<br />

värde har givits av uppgiftslämnaren).<br />

• Värde manuellt imputerat (primärdata felaktigt/saknas).<br />

• Värde automatiskt imputerat (primärdata felaktigt/saknas).<br />

• Variabelvärde saknas.<br />

• Objektet <strong>till</strong>hör övertäckningen.<br />

• Objektet utgör bortfall.<br />

Vid insamlingen av information om <strong>granskning</strong>sprocessen är det viktigt att skaffa<br />

information om orsaker <strong>till</strong> att fel uppstått. Informationen från återkontakt eller<br />

blankett används för kodning av felorsaker <strong>till</strong> identifierade fel.<br />

Exempel på orsaker <strong>till</strong> fel:<br />

• fel vid skanning eller dataregistrering<br />

• missuppfattning (definitionsfel) hos uppgiftslämnaren (föranleder<br />

eventuellt åtgärder i blanketten)<br />

• svårigheter för uppgiftslämnaren att lämna efterfrågad uppgift.<br />

Det kan tyckas vara orimligt resurskrävande att felorsaks- och åtgärdskoda varje<br />

variabel eller att registrera tidsåtgången vid återkontakter. Men för att man ska<br />

känna <strong>till</strong> och kunna kontrollera processen, krävs kodning och framställning av<br />

processtatistik. Ofta är det dock inte möjligt att felorsakskoda alla felsignaler eller<br />

att göra det vid varje undersökningsomgång. Man kan då t.ex. välja ut vissa grupper<br />

av inkommande objekt, välja ut vissa variabler, göra kodningar endast för<br />

vissa undersökningsomgångar och så vidare. Det gäller att i början koncentrera sig<br />

på de variabler, delpopulationer osv. som är viktiga och som man känner <strong>till</strong> är<br />

mest problematiska. Hur det ska göras får man i början pröva sig fram <strong>till</strong>.<br />

Resursåtgången, uttryckt i t.ex. tid, är en viktig faktor i planeringen och styrningen<br />

av en undersökning. Vissa aktiviteter kan kontrolleras med hjälp av åtgärdskoder<br />

och indikatorer (se vidare kapitel 7), t.ex. andelen ändringar, antalet återkontakter<br />

eller andelen manuellt imputerade variabelvärden. Andra insatser, såsom tiden<br />

som använts för återkontakter (inklusive tiden för försök <strong>till</strong> återkontakt, dvs. då<br />

uppgiftslämnaren inte har kunnat nås), kräver ett system för att resursåtgången ska<br />

kunna registreras.<br />

6.7 Referens<br />

Engström, P. (1997): A Small Study on Using Editing Process Data for Evaluation of the European<br />

Structure of Earnings Survey. Working paper No. 19, UN/ECE Work Session on Statistical data<br />

Eding, Prague.<br />

70


7 Processdata<br />

Processdata<br />

Checklista<br />

‰ Producera processdata fortlöpande, dvs. automatiskt.<br />

‰ Presentera processdata<br />

{ grafiskt<br />

{ enligt paretoprincip.<br />

‰ Analysera processdata för att<br />

{ på ett tidigt stadium ge besked om något har inträffat som eventuellt<br />

är väsentligt för <strong>granskning</strong>en<br />

{ snabbt finna orsaken <strong>till</strong> det inträffade och se om det finns möjligheter<br />

att rätta <strong>till</strong> de eventuella problemen under pågående process<br />

{ ge information om kontrollers träffsäkerhet och effektivitet.<br />

Som nämndes i inledningen av kapitel 6, är processdata ett utvecklingsområde<br />

som är i sitt inledningsskede såväl internationellt som vid SCB. Vid SCB har en<br />

förstudie gjorts inom det s.k. processdataprojektet (2000) som bland annat<br />

diskuterar processdata för <strong>granskning</strong>.<br />

Ett ramarbete, Nordbotten (2000), utgör grund för detta kapitel. De förslag på<br />

indikatorer som anges har accepterats av den internationella gruppen ”Work<br />

Session on Statistical Data Editing” (leds av FN:s Economic Commission for<br />

Europe) som en plattform att arbeta vidare på. Martin (2000) framför förslag som<br />

är i enlighet med nedanstående.<br />

Utan data om processen är det omöjligt att leva upp <strong>till</strong> principen: ständig förbättring<br />

av hela undersökningen. Syftena med att producera statistik över<br />

<strong>granskning</strong>sprocessen är mer konkret uttryckt att:<br />

• övervaka och styra processen under pågående produktion<br />

• få underlag <strong>till</strong> förbättring av undersökningen<br />

• mäta effekter av processförändringar<br />

• få underlag för analys och kvalitetsredovisningar.<br />

Här redovisas de indikatorer som en <strong>granskning</strong>sprocess åtminstone måste generera<br />

för att syftena ovan ska <strong>till</strong>godoses.<br />

Indikatorerna ska produceras fortlöpande, dvs. automatiskt under och efter varje<br />

produktionscykel. För att indikatorerna i praktiken ska komma <strong>till</strong> faktisk användning,<br />

måste de presenteras lättåtkomligt och attraktivt. Presentationen bör därför<br />

vara grafisk och organiserad enligt paretoprincipen.<br />

Indikatorerna presenteras i två nivåer. I den översta, översiktliga indikatorer (avsnitt<br />

7.1.1), pekas på eventuella problem i processen och visas också hur mycket<br />

arbete som utförs i olika delar av processen. I den andra nivån, avsnitt 7.1.2, presenteras<br />

indikatorer relaterade <strong>till</strong> variabler. De ska användas <strong>till</strong> att identifiera<br />

förekommande problem med variabler eller kontroller.<br />

I avsnitt 7.2 ges en bild av hur processövervakningen enligt modellen skulle kunna<br />

gå <strong>till</strong>.<br />

71


Processdata<br />

7.1 Indikatorer<br />

Indikatorerna bör ange hur mycket <strong>granskning</strong>sarbete som har utförts, hur stor andel<br />

av kontrollerna som resulterat i ändringar av variabelvärden, hur många variabelvärden<br />

som ändrats osv. När man ska analysera effektiviteten i <strong>granskning</strong>sprocesser<br />

är det emellertid inte <strong>till</strong>räckligt med indikatorer. Man behöver också<br />

data om storleken av ändringar, imputeringar, rättningar m.m. Den informationen<br />

samlas lämpligen in i samband med underlaget för indikatorframställningen. Hur<br />

sådana data kan användas anges i kapitel 8, Effekter av <strong>granskning</strong>.<br />

7.1.1 Objektrelaterade indikatorer<br />

I indikatorerna har täljaren och i vissa fall nämnaren ett egenintresse för den produktansvarige<br />

och ska naturligtvis skrivas ut explicit.<br />

Andelen felsignalerade objekt ges av:<br />

O 1 =<br />

72<br />

Antal felsignalerade<br />

objekt<br />

Antal objekt som genomlöpt <strong>granskning</strong>skontroller<br />

Andelen ändrade objekt ges av:<br />

O 2 =<br />

Antal ändrade objekt<br />

Antal objekt som genomlöpt <strong>granskning</strong>skontroller<br />

Andelen återkontaktade objekt ges av:<br />

O 3 =<br />

Antal återkontakter<br />

Antal objekt som genomlöpt <strong>granskning</strong>skontroller<br />

Andelen ändrade objekt efter återkontakter ges av:<br />

O 4 =<br />

Antal ändrade objekt efter återkontakt<br />

Antal återkontaktade<br />

objekt<br />

Ett litet värde på O4 jämfört med värdet för O1 antyder t.ex. att <strong>granskning</strong>sprocessen<br />

är ineffektiv.<br />

Vid återkontakter kan man misslyckas med att få acceptabla data från uppgiftslämnaren.<br />

Om då imputeringar av saknade och felaktiga data har utförts, kan<br />

indikatorn Andelen imputerade av återkontaktade objekt belysa betydelsen av det<br />

problemet:<br />

O 5 =<br />

Antal återkontaktade<br />

objekt för vilka en variabel<br />

imputerats<br />

Antal återkontaktade<br />

objekt<br />

7.1.2 Variabelrelaterade indikatorer<br />

De variabelrelaterade indikatorerna identifierar variabler eller kontroller som<br />

eventuellt orsakar problem i processen. Indikatorerna bör presenteras storleksordnade<br />

(t.ex. i paretodiagram), som i det fiktiva exempel som redovisas i 7.2.<br />

I annat fall drunknar lätt intressanta fall i undersökningar där det finns många<br />

variabler och kontroller.


Andelen felsignaler per variabel ges av:<br />

V 1 =<br />

Antal felsignalerade<br />

objekt för variabel<br />

X<br />

Antal objekt som genomlöpt kontroller för variabel<br />

X<br />

Andelen felsignaler per kontroll ges av:<br />

V 2 =<br />

Antal felsignalerade<br />

objekt av kontroll K för variabel<br />

X<br />

Antal objekt som genomlöpt kontroll K för variabel<br />

X<br />

Andelen ändringar per variabel ges av:<br />

V 3 =<br />

Antal ändringar av variabel<br />

X<br />

Antal objekt med värde på variabel<br />

Träffsäkerheten per variabel ges av:<br />

V 4 =<br />

Antal objekt med ändring för variabel<br />

X<br />

Antal felsignalerade<br />

objekt för variabel<br />

X<br />

X<br />

Processdata<br />

Man kommer mycket långt med dessa indikatorer. Om man emellertid vill gå<br />

vidare, är det mycket enkelt att bygga ut systemet <strong>till</strong> att omfatta de speciella<br />

företeelser i undersökningen som man vill få belysta. Felorsakskodar man vissa<br />

eller alla variabler, kan man t.ex. lägga <strong>till</strong> indikatorn<br />

V 5 =<br />

Antal<br />

felsignaleringar<br />

för variabel<br />

X av orsak O<br />

Antal felsignaleringar<br />

variabel<br />

X<br />

och om man imputerar när återkontakter inte medför att man får acceptabla data,<br />

kan man införa följande indikator:<br />

V 6 =<br />

Antal imputeringar<br />

av variabel<br />

X<br />

Antal återkontaktade<br />

för återkontaktade<br />

objekt<br />

objekt<br />

Metadataprojektets delprojekt om processdata kommer förhoppningsvis att<br />

resultera i någon form av standard för indikatorer.<br />

7.2 Hur övervakning med hjälp av indikatorer skulle<br />

kunna gå <strong>till</strong><br />

En primär uppgift för indikatorer är att på ett tidigt stadium ge besked om att<br />

något har inträffat som eventuellt är väsentligt för <strong>granskning</strong>en. Det kan vara att<br />

acceptansgränser eller parametrar i kontroller fått helt felaktiga värden, t.ex. på<br />

grund av registreringsfel eller felaktiga antaganden i acceptansgränssättningen,<br />

eller också att stora reella förändringar i populationen eller omvärlden inträffat<br />

sedan föregående undersökning eller sedan den undersökning på vilken acceptansgränserna<br />

bygger. Tecken på detta kan vara att antalet felsignalerade objekt är<br />

väsentligt större eller mindre än vid föregående undersökningar.<br />

En andra uppgift är att snabbt finna orsaken <strong>till</strong> det inträffade och se om det finns<br />

möjligheter att rätta <strong>till</strong> de eventuella problemen under pågående process.<br />

73


Processdata<br />

En tredje uppgift är att ge information om kontrollers träffsäkerhet och effektivitet<br />

både för att man ska kunna se <strong>till</strong> att de är på <strong>till</strong>räcklig hög nivå och för att man<br />

ska kunna bedöma var det bäst kan löna sig att sätta in åtgärder i såväl insamlingssom<br />

<strong>granskning</strong>sprocessen. Detta kan vara ett viktigt inslag i evalvering av<br />

<strong>granskning</strong>sprocessen, vilket diskuteras i kapitel 8.<br />

Eftersom alla data för indikatorframställningen måste tas fram under processen, är<br />

det naturligt att oavsett syfte behandla indikatorerna i ett sammanhang. Vår rekommendation<br />

är att man under själva <strong>granskning</strong>sprocessen producerar en databas<br />

eller fil med alla data om vad som händer med originaldata i processen, dvs.<br />

felsignaler, åtgärdskoder osv., inklusive originaldata och färdiggranskade data.<br />

Det bör göras på ett sådant sätt att dessa data kan sammanställas <strong>till</strong> indikatorer<br />

och för de metoder för evalvering som i kapitel 8 betecknas som differensmetoder.<br />

Allt sådant behöver inte tas fram för alla objekt, variabler och kontroller för varje<br />

undersökning. Men dessa data ska finnas, så att man när som helst ska kunna göra<br />

effektivitetsstudier.<br />

Nedan anger vi i form av ett fiktivt exempel hur övervakning med indikatorer<br />

skulle kunna gå <strong>till</strong>. Exemplet bygger på Engström (1996).<br />

När andelen felsignalerade objekt ökar eller minskar för mycket eller när de felsignalerade<br />

objekten är för många eller för få, söker man hitta anledningen <strong>till</strong> den<br />

oväntade förändringen. Man försöker då lokalisera felsignalerade objekt efter<br />

någon viktig indelningsvariabel, undersökningsvariabel och kontroll. Andelen<br />

felsignalerade objekt sorteras i fallande ordning (paretoprincipen). Felsökningen<br />

illustreras med hjälp av diagram.<br />

Fiktivt exempel på övervakningssystem<br />

I en månatlig företagsundersökning felsignalerar <strong>granskning</strong>ssystemet cirka<br />

10 procent av de inkomna objekten.<br />

Andelen felsignalerade objekt ges av indikator O1 och redovisas i ett styrdiagram<br />

som kan nås via undersökningens systemapplikation. Det bedöms att andelen<br />

felsignalerade objekt får variera med ± 2 procent.<br />

Enligt den beslutsregel som <strong>till</strong>ämpas undersöker man processen närmare när<br />

andelen felsignalerade objekt ligger utanför acceptansgränserna.<br />

74


Diagram 1<br />

Andel felsignalerade objekt för undersökningsperioderna januari–maj<br />

18<br />

15<br />

12<br />

9<br />

6<br />

3<br />

0<br />

Jan Feb Mar Apr Maj<br />

Processdata<br />

Eftersom andelen felsignalerade objekt för den aktuella undersökningsperioden bedöms<br />

vara för stort, fortsätter man med undersöka felsignalerade objekt med avseende på<br />

variabler och kontroller. Bransch är då en viktig indelningsvariabel.<br />

Diagram 2<br />

Andel felsignalerade objekt per bransch. Sortering i fallande ordning,<br />

paretodiagram<br />

40<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

A F D E B C<br />

Nästa åtgärd är att undersöka andelen felsignalerade objekt per variabel, indikator V1.<br />

75


Processdata<br />

Diagram 3<br />

Andel felsignalerade objekt per variabel<br />

40<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

76<br />

5<br />

0<br />

X2 X1 X3<br />

Ofta används flera kontroller i <strong>granskning</strong>sprocessen för att identifiera fel. Nästa steg är<br />

därför att undersöka hur många felmarkeringar som de olika kontrollerna ger.<br />

Diagram 4<br />

Andel felsignaler per kontroll. Sortering i fallande skala efter andel felsignaler per<br />

kontroll<br />

40<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

K3 K1 K4 K2<br />

En väsentlig och återkommande uppgift är att utvärdera <strong>granskning</strong>sprocessen. Vi<br />

fortsätter därför med det fiktiva exemplet för att illustrera ett sätt att analysera processen.<br />

Exempel på analys av <strong>granskning</strong>sprocessen med hjälp av processdata<br />

När man ska analysera processen, är andelen ändringar av stor betydelse för<br />

kontrollernas träffsäkerhet. I diagram 5 har andelen felsignalerade objekt per<br />

variabel utökats med andelen ändrade objekt per variabel (indikator V4).


Processdata<br />

Diagram 5<br />

Underlag för analys av processen. Andel felsignaler och ändringar per variabel.<br />

Sortering i fallande skala efter andel felsignaler per variabel<br />

40<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

Felsignaler<br />

Ändringar<br />

A B C<br />

Träffsäkerheten är endast 25 procent för kontroll K3 (diagram 4) när det gäller variabel<br />

X2. Det är många felsignaler och låg träffsäkerhet, varför kontrollen (K3) bör effektiviseras.<br />

Skulle däremot träffsäkerheten vara hög, är det problem med variabeln.<br />

7.3 Referenser<br />

Engström, P. (1996): Monitoring the Editing Process. Working paper No. 9, UN/ECE Work<br />

Session on Statistical Data Editing, Voorburg.<br />

Martin, C. (2000): Meta Data – An Aid to Managing the Edit and Imputation Process. Working<br />

Paper No. 6, UN/ECE Work Session on Statistical Data Editing, Cardiff.<br />

Nordbotten, S. (2000): Evaluating Efficency of Statistical Data Editing: General Framework.<br />

United Nations, Geneva, 2000.<br />

Processdataprojektet (2000): Processdata för processförbättring – Slutrapport från förstudie i<br />

Processdataprojektet. Slutrapport 2000–12–15.<br />

Work Session on Statistical Data Editing: Länk <strong>till</strong> webbplats, http://www.unece.org/stats/<br />

77


Processdata<br />

78


8 Mätning av effekter av <strong>granskning</strong><br />

Mätning av effekter av <strong>granskning</strong><br />

I detta kapitel föreslår vi några enkla metoder som ger information om de<br />

ändringar som görs vid <strong>granskning</strong>. Metoderna bygger inte på processdata utan<br />

enbart på data före och efter den <strong>granskning</strong>sprocess som man vill studera. Det<br />

betyder att de alltid kan användas där man kan spara ogranskade data. Metoderna<br />

ger svar på frågor som:<br />

• Hur ser fördelningen av ändringarna ut?<br />

• Hur påverkar <strong>granskning</strong>en skattningarna?<br />

• Vilken omfattning och betydelse har vissa feltyper?<br />

• Är ändringarna koncentrerade <strong>till</strong> vissa undergrupper, t.ex. vissa<br />

branscher?<br />

Svaren på sådana frågor kan användas när man ska bedöma om det kan finnas<br />

effektivare kontroller, när man vill målinrikta kontroller på vissa feltyper, förbättra<br />

frågeformuleringar och anvisningar generellt eller för vissa undergrupper i populationen<br />

osv.<br />

En förutsättning är att man i en datafil har granskade och ogranskade värden för<br />

alla variabler man vill undersöka.<br />

I avsnitt 8.1 och 8.2 behandlas brutto- och nettoeffekterna av ändringen på skattningen.<br />

När det gäller få och stora avvikelser, vill man inte dra slutsatsen att de tar<br />

ut varandra i nästa undersökning bara för att de råkade göra det denna gång. Därför<br />

analyserar man absolutbeloppen av ändringarna (brutto). Men för de många<br />

små ändringar som delvis tar ut varandra kan man anta att det kommer att inträffa<br />

även i följande undersökningar. Därför analyserar man ändringarna med tecken<br />

(netto).<br />

Differensstudiemetoden har använts i flera undersökningar på SCB, t.ex. finansstatistiken<br />

(Wahlström 1990 och Forsman 1991 b), industristatistiken (Hedlin<br />

1992), lönestatistiken över kommunalt anställda (Lindell 1995 a) och lönestatistiken<br />

över landstingsanställda (Lindell 1995 b). Ursprungligen utvecklades<br />

metoden vid Bureau of the Census och modifierades av Forsman (1991 b).<br />

En mer arbetskrävande metod är feltypsmetoden, som utvecklades av Forsman<br />

(1991 a) på data från dåvarande finansstatistiken. Den förutsätter att man i<br />

<strong>granskning</strong>sprocessen noterar ändringar i den fysiska blanketten, varefter ämnesexperter<br />

klassificerar ändringarna på ett antal feltyper.<br />

Vi rekommenderar att man genomför analysen med en grafisk ansats – gärna med<br />

hjälp av programvaran SAS/Insight. Anledningen är att analyserna av differenserna<br />

mellan granskat och ogranskat då kan göras betydligt mer omfattande och<br />

djupgående, samtidigt som arbetet underlättas.<br />

Rena evalverings- eller utvärderingsmetoder faller utanför ramen för denna CBMrapport.<br />

För sådana metoder hänvisar vi <strong>till</strong> Granquist (1997). Den rapporten är en<br />

översikt av ett antal metoder för evalvering av <strong>granskning</strong>sprocesser, beskrivna i<br />

litteraturen fram <strong>till</strong> 1996. Metoderna är resurskrävande och i många fall sofistikerade.<br />

Några innebär regelrätta evalveringar av kvaliteten i processen och i obser-<br />

79


Mätning av effekter av <strong>granskning</strong><br />

vationsregister. Internationellt utvecklar man år 2002 nya metoder för att beräkna<br />

effekter av <strong>granskning</strong> (Work session on statistical data-editing).<br />

Data från industristatistiken 1990 har använts för att exemplifiera metoderna i<br />

detta kapitel. Industristatistiken 1990 var en totalundersökning (cut off) som omfattar<br />

många variabler. Det totala antalet objekt var 5 540.<br />

När metoderna <strong>till</strong>ämpas på urvalsundersökningar, måste effekten av <strong>granskning</strong>en<br />

mätas på uppräknade tal.<br />

8.1 Differensmetoder<br />

Det finns många exempel på att nya metoder eller utvidgning av acceptansområdena<br />

har kunnat rationalisera <strong>granskning</strong>en väsentligt med bibehållen kvalitet på<br />

undersökningen (Granquist, Kovar 1997). Det beror på att den tidigare metoden<br />

har haft låg träffsäkerhet (se kapitel 4), men även på att de ursprungliga metoderna<br />

har resulterat i många små ändringar med obetydliga effekter på skattningarna.<br />

Vad som i detta sammanhang ska betraktas som obetydligt beror på precisionskraven<br />

och på effekterna av övriga felkällor. Var gränsen går mellan betydelsefulla<br />

och betydelselösa fel är en bedömningsfråga. En riktlinje kan dock vara att<br />

gränsen sätts så, att effekten av ändringarna under gränsen utgör högst en tiondel<br />

av urvalsfelet för estimaten på någorlunda detaljerad nivå. Syftet med differensmetoderna<br />

är att undersöka om processen kan effektiviseras.<br />

Vi ger exempel på två metoder där man utnyttjar skillnaden mellan granskat och<br />

ogranskat värde. I det ena fallet undersöker man differensernas andel av den totala<br />

differensen. I det andra fallet jämförs ändringarna med skattningen.<br />

8.1.1 Differensernas andelar av den totala differensen<br />

Genom denna beräkning får man bl.a. information om ett fåtal stora ändringar<br />

svarar mot en mycket hög andel av den totala ändringen. För detaljer hänvisar vi<br />

<strong>till</strong> Wahlström (1990).<br />

Gör så här:<br />

Välj en eller flera variabler som ska ingå i studien.<br />

• Beräkna för varje objekt absolutbeloppet av differensen mellan det<br />

granskade och det ogranskade värdet.<br />

• Rangordna differenserna i fallande storleksordning. För urvalsundersökningar<br />

multiplicerar man absolutbeloppen med inverterade inklusionssannolikheten<br />

innan man sorterar efter storlek.<br />

• Beräkna ett mått på hur stor andel av summan av (de absoluta) differenserna<br />

som kan hänföras <strong>till</strong> de j största differenserna. Beräkna måttet för<br />

varje j.<br />

• Rita ett diagram, dvs. plotta måttet enligt punkt 4 för varje j såsom i diagram<br />

1 nedan.<br />

Exempel: Industristatistikens <strong>granskning</strong>sprocess<br />

Studien av industristatistikens <strong>granskning</strong>sprocess visar bland annat att, för<br />

variabeln industriproduktion, 3 procent av antalet differenser svarade för ca<br />

90 procent av den totala värdemässiga differensen.<br />

80


Mätning av effekter av <strong>granskning</strong><br />

Tablå 1<br />

Data som används i diagram 1. Tablån är sorterad i fallande skala efter absolutvärdet<br />

av avvikelsen mellan granskat och ogranskat värde. (Andel av förändringen = 0 är<br />

ett tekniskt värde för att figuren ska bli snyggare.) Här har vi bara tagit med de nio största<br />

avvikelserna.<br />

ogranskad granskad granskad-ogranskad |granskad-ogranskad| kum(|granskad-ogranskad|) Andel av förändring Antal arbetsställen<br />

0<br />

31797622 92084 -31705538 31705538 31705538 66.79716314 1<br />

4234634 4234 -4230400 4230400 35935938 75.70976128 2<br />

3162410 17339 -3145071 3145071 39081009 82.33579048 3<br />

601194 0 -601194 601194 39682203 83.60238478 4<br />

613236 156444 -456792 456792 40138995 84.56475324 5<br />

556574 156574 -400000 400000 40538995 85.40747242 6<br />

403330 30847 -372483 372483 40911478 86.19221885 7<br />

241151 24151 -217000 217000 41128478 86.64939401 8<br />

0 208769 208769 208769 41337247 87.08922812 9<br />

Diagram 1<br />

Industristatistiken 1990. Variabeln industriproduktion<br />

Andel av förändring<br />

110<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

1 101 201 301 401 501 601<br />

Antal arbetsställen<br />

Kurvans form beror på att det finns några enstaka mycket stora förändringar.<br />

De utan jämförelse största differenserna i studien av finansstatistiken (Forsman 1991a)<br />

berodde på de så kallade 1000-felen, dvs. fel som orsakades av att observationerna<br />

angivits i fel enhet, t.ex. i kronor i stället för i tusentals kronor.<br />

Gör alltid studier på lägre nivåer än totalnivån. På så sätt kan man dessutom få<br />

veta om <strong>granskning</strong>sarbetet är koncentrerat <strong>till</strong> vissa redovisningsgrupper, t.ex.<br />

branscher. Om det förekommer många felaktiga svar från företag i vissa<br />

branscher, kan det bero på att dessa företag har speciella svårigheter att lämna de<br />

efterfrågade uppgifterna. I så fall har metoden avslöjat en felkälla, och då är det<br />

blanketter och anvisningar som man ska förbättra.<br />

8.1.2 Differensernas successiva inverkan på skattningen<br />

Genom denna beräkning får man reda på om många differenser <strong>till</strong>sammans är<br />

obetydliga jämfört med skattningen. För detaljer hänvisas <strong>till</strong> Forsman (1991 b).<br />

81


Mätning av effekter av <strong>granskning</strong><br />

Gör så här:<br />

• Välj en eller flera variabler som ska ingå i studien.<br />

• Beräkna för varje objekt differensen mellan det granskade och det<br />

ogranskade värdet.<br />

• Rangordna differenserna i fallande skala (efter absolutbeloppet av differensen).<br />

Multiplicera differenserna med inverterade inklusionssannolikheten<br />

när det gäller urvalsundersökningar.<br />

• Beräkna ett mått på hur nära man ligger den publicerade skattningen om<br />

man endast tar hänsyn <strong>till</strong> de j största differenserna. Beräkna måttet, med<br />

hänsyn tagen <strong>till</strong> differensens tecken för varje j.<br />

• Rita ett diagram, dvs. plotta måttet enligt punkt 4 för varje j.<br />

Exempel: industristatistikens <strong>granskning</strong>sprocess<br />

Studien av industristatistikens <strong>granskning</strong>sprocess (Hedlin 1992) visar att, för<br />

variabeln industriproduktion, de 95 procent minsta differenserna sammanlagt<br />

motsvarade mindre än 1 procent av skattningen.<br />

Tablå 2<br />

Data som används i diagram 2. Tablån är sorterad i fallande skala efter<br />

absolutvärdet av avvikelsen mellan granskat och ogranskat värde. Här har vi bara<br />

tagit med de nio största avvikelserna. (Se även tablå 1)<br />

ogranskad granskad granskad-ogranskad |granskad-ogranskad| Effekten av ändringarna Antal arbetsställen<br />

120.870366<br />

31 797 622 92 084 -31 705 538 31 705 538 104.516199 1<br />

4 234 634 4 234 -4 230 400 4 230 400 102.334098 2<br />

3 162 410 17 339 -3 145 071 3 145 071 100.711826 3<br />

601 194 0 -601 194 601 194 100.401722 4<br />

613 236 156 444 -456 792 456 792 100.166102 5<br />

556 574 156 574 -400 000 400 000 99.959776 6<br />

403 330 30 847 -372 483 372 483 99.767644 7<br />

241 151 24 151 -217 000 217 000 99.655713 8<br />

0 208 769 208 769 208 769 99.763399 9<br />

82


Diagram 2<br />

Industriproduktionen, 1990, variabeln industriproduktion<br />

Effekten av ändringarna<br />

120<br />

115<br />

110<br />

105<br />

100<br />

95<br />

Mätning av effekter av <strong>granskning</strong><br />

1 101 201 301 401 501 601<br />

Antal arbetsställen<br />

Figuren visar inverkan av enskilda förändringar på totalskattningen.<br />

Skattningen beräknas dels med hjälp av det granskade materialet, g Yˆ , dels med hjälp av<br />

Yˆ ′ g .<br />

Där g Yˆ ′ är den skattning man får när man successivt, efter differensernas storlek, ersätter<br />

ogranskat med granskade uppgifter.<br />

Yˆ<br />

g<br />

*<br />

Yˆ<br />

′<br />

Kvoten 100 uttrycker förändringen mellan skattningarna i procent. Förändringarna<br />

g<br />

är sorterade i fallande ordning och plottade mot antal arbetsställen (x-axeln).<br />

8.2 Feltypsmetoden<br />

I en feltypsstudie studeras <strong>granskning</strong>ens effekter, uppdelade på olika typer av fel i<br />

det ogranskade materialet. Feltyperna klassificeras innan analysen genomförs (se<br />

Forsman 1991 a).<br />

Studien syftar <strong>till</strong> att sortera ut de feltyper som är mest intressanta från kostnads-<br />

och kvalitetssynpunkt. Om man känner <strong>till</strong> omfattningen av olika typer av fel i det<br />

ogranskade materialet, har man ett utmärkt underlag för att konstruera effektiva<br />

kontroller för identifiering av dessa fel (målinriktning av kontroller). Men man ska<br />

framför allt ändra blanketten, anvisningarna osv. för att minska risken för att<br />

sådana fel uppstår (eliminera felkällan).<br />

Här beskrivs metoden vid urvalsbaserad klassificering av åtgärderna vid <strong>granskning</strong>.<br />

83


Mätning av effekter av <strong>granskning</strong><br />

Gör så här:<br />

• Välj en eller flera variabler som ska ingå i studien.<br />

• Klassificera för varje variabel de fel som upptäcks vid <strong>granskning</strong>en. Det<br />

finns inget generellt sätt att göra klassificeringen på, utan den måste för<br />

varje undersökning bygga på ämneskunskaper. Man bör dock inte samtidigt<br />

ta med mer än högst fyra <strong>till</strong> sex feltyper.<br />

• Dra ett urval av objekt som ska undersökas. Urvalet bör vara så stort att<br />

åtminstone 100 objekt som ändrats kan förväntas komma med. Om man<br />

t.ex. av erfarenhet vet att ca 25 procent av objekten ändras för variabeln i<br />

samband med <strong>granskning</strong>en, bör urvalsstorleken vara minst 400.<br />

• Klassificera felen i samband med <strong>granskning</strong>en.<br />

• Beräkna antalet fel av respektive feltyp.<br />

• Skatta felens effekter på totalskattningen.<br />

8.3 Differensstudier med SAS/Insight<br />

Differensstudier kan med fördel genomföras med hjälp av SAS/Insight. Den här<br />

analysen blir mer flexibel än de som redovisas i 8.1 ovan, genom att man bland<br />

annat simultant kan följa flera variabler. Förutsättningen är att data är organiserade<br />

i en SAS-tabell (se bilagan).<br />

Fördelningen av differensen mellan granskat och ogranskat värde kan åskådliggöras<br />

med hjälp av lådagram eller stapeldiagram (histogram). Effekten på skattningen<br />

beräknas med hjälp av formel 3 i bilagan <strong>till</strong> detta kapitel. Om det finns<br />

enstaka mycket stora avvikelser mellan granskat och ogranskat värde, kan dock<br />

lådagrammet bli otydligt. I detta fall fungerar histogram bättre. Genom att transformera<br />

skalan av ändringarna, t.ex. 10-logaritmering, kan man få en tydligare bild<br />

av både storleksordningen och effekten av ändringarna fördelade på olika intervall.<br />

Man kan välja mellan två metoder som båda bygger på analys av skillnaden mellan<br />

granskat och ogranskat värde.<br />

I den första metoden betraktas hela fördelningen för differenserna med hjälp av ett<br />

histogram. Genom att ändra staplarnas bredd kan man avläsa effekten av<br />

ändringarna i olika intervall.<br />

Idén med den andra metoden går ut på att skapa successiva restmängder. Man tar<br />

successivt bort effekterna av ändringarna i fallande storlek för att se om och i så<br />

fall när vi kommer <strong>till</strong> en punkt då ändringarna saknar betydelse i förhållande <strong>till</strong><br />

skattningen.<br />

Det är enkelt att genomföra en analys med hjälp av SAS/Insight. I bilagan beskrivs<br />

i detalj hur man gör.<br />

Nedanstående exempel från industristatistiken 1990 illustrerar tekniken. För en<br />

van användare tar analysen cirka en timme att genomföra.<br />

Exempel: Industristatistikens <strong>granskning</strong>sprocess<br />

Vi studerar skillnaden mellan granskad och ogranskad uppgift för omsättningen.<br />

Rita ett histogram för fördelningen med avseende på såväl antal observationer<br />

som effekten på skattningen (se bilagan formel 3).<br />

84


Mätning av effekter av <strong>granskning</strong><br />

Skapa absolutbeloppet av skillnaden mellan granskat och ogranskat värde. Dölj<br />

observationer där ingen förändring gjorts (granskad = ogranskad). Bilda ett histogram<br />

för variabeln |granskat – ogranskat| med avseende på såväl antal observationer<br />

som effekten på skattningen.<br />

Diagram 3<br />

Industristatistiken 1990. Skillnad mellan granskad och ogranskad uppgift på<br />

variabeln omsättning. 10 log-skala, dvs. 1 motsvarar 10, 2 100, 3 1000 etc<br />

De numeriskt tre största ändringarna svarar mot (3.8*10 7 + 1.64*10 8 )*10 -9 ≈ 20.2 procent<br />

av skattningen.<br />

Med hjälp av de två histogrammen kan vi dels beräkna antalet objekt i olika intervall, dels<br />

uppskatta effekten av <strong>granskning</strong>en i förhållande <strong>till</strong> skattningen. Kom ihåg att i det undre<br />

histogrammet dividera med skalfaktorn, dvs. här 10 9 , för att få rätt storleksordning på<br />

beräkningen.<br />

Metod 1<br />

Vi utgår från diagram 3 (de logaritmerade absoluta differenserna) och ändrar staplarnas<br />

bredd. Syftet är att studera ändringarnas effekt på skattningen (undre diagrammet). Vi är<br />

speciellt intresserade av de många små ändringarna och dess effekt på skattningen.<br />

Antag att vi i denna undersökning kan ignorera rättningar på en sammanlagd effekt av<br />

maximalt en promille av skattningen, som i det här fallet visar sig vara vid stapelbredden<br />

3.5 (diagram 4). Man måste alltså prova sig fram.<br />

85


Mätning av effekter av <strong>granskning</strong><br />

I en urvalsundersökning kan en nettoeffekt (bias) negligeras som är mindre än en<br />

tiondel av standardavvikelsen i skattningen (Särndal, Swensson, Wretman, 1992).<br />

Diagram 4<br />

Industristatistiken, 1990. Effekten av rättningar<br />

Enligt diagram 4 finns 329 ändringar som är numeriskt mindre än 10 3.5 ≈ 3 162. Deras<br />

sammanlagda bruttoeffekt på skattningen är 1.37*10 6 *10 -9 = 1.37 promille.<br />

Vid statistikredovisning är det nettofelet som är intressant. Många små fel tenderar att ta<br />

ut varandra, varvid nettofelet blir betydligt mindre än bruttofelet.<br />

När vi skall beräkna nettoeffekten av ändringarna återgår vi <strong>till</strong> den ursprungliga undersökningsvariabeln<br />

granskad – ogranskad. Markera stapeln med de 329 observationerna<br />

i diagram 4 och välj ut dessa <strong>till</strong> en ny SAS-tabell med hjälp av i databladets<br />

dialogruta. Bilda ett nytt histogram för denna datamängd (diagram 5). Justera skalan så<br />

att de båda staplarna blir lika breda.<br />

86


Mätning av effekter av <strong>granskning</strong><br />

Diagram 5<br />

Industristatistiken, 1990, fortsättning. Nettoeffekten (undre diagrammet) är<br />

skillnaden mellan staplarnas höjd så när som på den inverterade skalfaktorn<br />

De 329 ändringarna (övre delen av diagram 5) fördelar sig på 247 negativa och 82 positiva<br />

och detta svarar mot en nettoeffekt (beräknad med hjälp av under delen av diagram<br />

5) på skattningen som är (1.13*10 6 - 245771)*10 -9 ≈ 0.88 promille.<br />

Metod 2 Successiva restmängder<br />

Rita ett histogram för absolutvärdet av differensen. Diagram 6 nedan visar resultatet när vi<br />

dolt de mest extrema differenserna.<br />

87


Mätning av effekter av <strong>granskning</strong><br />

Diagram 6<br />

Industristatistiken 1990. Skillnad mellan granskat och ogranskat värde oavsett<br />

tecken. Siffrorna ovanför staplarna i det övre histogrammet markerar antalet<br />

observationer. Siffrorna ovanför staplarna 1 i det undre histogrammet visar, för<br />

givna intervall, effekten av <strong>granskning</strong>en i förhållande <strong>till</strong> skattningen så när som<br />

på en skalfaktor<br />

Fortsätt att dölja differenser från höger <strong>till</strong> vänster, dvs. i första hand 1+1+1+2+3+7+18=33<br />

stycken. Ta dessutom bort dem från beräkningen. Vi är härmed nere på differenser som<br />

är mindre än 50 000. Dessa kvarvarande 566 differensers sammanlagda effekt är 1.77<br />

procent på skattningen. Ovan sade vi att vi i denna undersökning kan ignorera rättningar<br />

på en sammanlagd effekt av maximalt en promille av skattningen. Fortsätt därför att dölja<br />

observationer <strong>till</strong>s man uppnår detta resultat.<br />

Avsluta med ett diagram som visar nettoeffekten av ändringarna (se diagram 5).<br />

I detta exempel görs ingen uppdelning på redovisningsgrupper. Vi rekommenderar att<br />

analysen görs även för viktigare redovisningsgrupper.<br />

Vi har i detta exempel visat att 329/603 ≈ 55 procent av de rättade värdena <strong>till</strong>sammans<br />

svarade mot mindre än en tusendel av den totala skattningen. Här borde<br />

man kunna arbeta fram nya kontroller, t.ex. genom att vidga acceptansgränser.<br />

Målsättningen med de nya kontrollerna är att de inte ska felsignalera observationer<br />

där effekten på skattningen är obetydlig. Med en sådan åtgärd skulle vi kunna<br />

spara en stor del av <strong>granskning</strong>sarbetet. Vi vet också att risken för över<strong>granskning</strong><br />

är stor – större ju fler observationer som felsignaleras. Över<strong>granskning</strong> innebär<br />

bland annat att fel som tidigare inte fanns i materialet kommer in i detta.<br />

8.4 Numerisk metod<br />

Ovanstående beräkningar kan också göras rent numeriskt. Man missar visserligen<br />

den information och känsla för materialet som man får från de successivt framtagna<br />

diagrammen. I gengäld leder metoden snabbt och direkt <strong>till</strong> målet, som är att<br />

få en uppfattning om var gränsen går mellan betydelsefulla och negligerbara<br />

ändringar. Vi vill således finna ett värde d sådant att sammantagna effekten av<br />

1 10-potenser uttrycks i SAS med bokstaven E åtföljd av en siffra. E6 betyder således 10 6<br />

(1 000 000). E-2 betyder 10 -2 (0.01).<br />

88


Mätning av effekter av <strong>granskning</strong><br />

ändringar absolut mindre än d inte skulle haft någon praktisk betydelse på estimaten<br />

i det material man studerar.<br />

⎧><br />

d så är d = betydelsefull<br />

ändring<br />

granskat värde − original värde ⎨<br />

⎩≤<br />

d så är d = betydelselös<br />

ändring<br />

Jämför därefter kvoten mellan skattningen beräknad med endast ändringar större<br />

än d och materialet med alla ändringar medtagna.<br />

∑<br />

( g)<br />

+ w x(<br />

og)<br />

∑<br />

Yˆ = w x<br />

vissa ändringar<br />

i<br />

granskad<br />

∑<br />

( ) g<br />

i<br />

i<br />

originaluppgifter<br />

= i i<br />

i<br />

x w Xˆ alla ändringar<br />

i<br />

Yˆ<br />

kvoten =<br />

Xˆ<br />

Vi använder även i det här fallet data från Industristatistiken 1990 för att exemplifiera<br />

våra beräkningar. Ett val av de fem gränserna d = ∞, 1 000 000, 100 000,<br />

10 000 och 3 000 skulle ha resulterat i tablå 1. Där ∞ symboliserar helt ogranskat<br />

material.<br />

Tablå 1<br />

Industristatistiken 1990. Effekten av <strong>granskning</strong>en på skattningen<br />

∞ 1 000 000<br />

d<br />

100 000 10 000 3 000<br />

Kvot 1.208704 1.007118 0.996902 1.000281 1.000831<br />

Tablån visar effekten av ändringarna på totalskattningen – precis som i exemplet i<br />

8.3 Differensstudier med SAS/Insight. Liksom i exemplet i föregående avsnitt kan<br />

man dra slutsatsen att ”små” förändringar saknar betydelse på skattningen. Det här<br />

behöver dock inte vara fallet om man gör samma jämförelse på redovisningsgrupper.<br />

Vi rekommenderar därför att man även i det här fallet åtminstone genomför<br />

bearbetningar på viktiga (centrala) redovisningsvariabler.<br />

8.5 Referenser<br />

Engström, P. (1995), ”A Study on Using Selective Editing in the Swedish Survey on Wages and<br />

Employment in Industry”, Room paper No. 11, presented at the Conference of European<br />

Statisticians, Work Session on Statistical Data Editing, Athens, Greece, November 6–9, 1995<br />

Forsman, G. (1991a), ”Olika felorsakers betydelse för <strong>granskning</strong>skostnaderna och skattningarnas<br />

kvalitet: en fallstudie på SCB:s finansstatistik”, GRANSK-PM Nr 22,<br />

1991–02–05<br />

Forsman, G. (1991b), ”Handledning för effektstudier av <strong>granskning</strong>”, GRANSK-PM NR 24, 91–<br />

08–25<br />

Granquist, L (1996): ”An Overview of Methods of Evaluating Editing Processes”, A Contribution<br />

to Economic Commission for Europe, (1996): Statistical Data Editing: Methods and Techniques,<br />

Volume No. 2, United Nations New York and Geneva 1997.<br />

Granquist, L and Kovar, J (1997): Editing of Survey Data: How much is enough? In L. Lyberg, P<br />

Biemer M. Collins, E. Leeuw, C. Dippo, N. Schwarz, D. Trewin (eds) Survey Measurement and<br />

Process Quality, Wiley, New York, 1997, pp. 415–436.<br />

89


Mätning av effekter av <strong>granskning</strong><br />

Hedlin, D. (1992), ”Jämförelse av granskade och ogranskade data i industristatistiken”, GRANSK-<br />

PM NR 29, 1992–09–07<br />

Lindell, K. (1995 a), ”Evalveringsstudie av <strong>granskning</strong>sprocessen i lönestatistiken över kommunalt<br />

anställda”, Bakgrundsfakta <strong>till</strong> Arbetsmarknads- och Utbildningsstatistiken 1995:7.<br />

Lindell, K. (1995 b), ”Evalveringsstudie av <strong>granskning</strong>sprocessen i lönestatistiken över<br />

landstingsanställda”, Bakgrundsfakta <strong>till</strong> Arbetsmarknads- och utbildningsstatistiken 1995:8<br />

SAS/Insight, User’s <strong>Guide</strong> (1999), version 8. SAS Institute Inc. Manualen finns även elektroniskt<br />

<strong>till</strong>gänglig via


Mätning av effekter av <strong>granskning</strong><br />

Bilaga kapitel 8<br />

Att skapa en SAS-tabell från en extern databas kan göras i SAS på två sätt<br />

1. (Excel, Access, kommaseparerad fil etc.)<br />

2. Från SYBASE menyvägen eller med hjälp av följande program<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

där SERVER är namnet på servern<br />

DATABAS är namnet på databasen<br />

USERID är användaridentiteten<br />

Var1, var2 etc. är variabelnamn i databasen. Vill man ändra namnen görs det i<br />

rename-satsen.<br />

Detaljerad beskrivning av SAS/Insight-analysen<br />

Manualen SAS/Insight, boken eller online-versionen, är mer utförlig än<br />

nedanstående beskrivning.<br />

Välj en variabel.<br />

Komplettera SAS-tabellen med skattningen 2 beräknad på den granskade variabeln.<br />

Vid en urvalsundersökning använder vi uppräknade värden.<br />

Bilda differensen 3 mellan granskad och ogranskad uppgift för vald variabel, dvs.<br />

granskad − ogranskad<br />

(1)<br />

Beräkna även skattningen med hjälp av de granskade värdena.<br />

Använd analysverktyget Distribution.<br />

Komplettera SAS-tabellen med en ny variabel som nu är en konstant (skattningen<br />

enligt ovan).<br />

Använd Fill values i databladets dialogruta.<br />

Dölj de objekt som inte ändrats i <strong>granskning</strong>en ( granskat = ogranskat ) och ta<br />

bort dem från beräkningen.<br />

Använd variabelverktyget ().<br />

Använd variabelverktyget ().<br />

Ta fram ett histogram (se ref Online-versionen Exploring Data in One Dimension,<br />

Box Plots) över differenserna.<br />

2 Enkla skattningar, såsom medelvärde och total, kan beräknas i SAS/Insight.<br />

3 Differenser och andra transformationer, se ref Online-versionen Transforming Varibles.<br />

91


Mätning av effekter av <strong>granskning</strong><br />

Skapa variabeln absolutvärdet av differensen, dvs.<br />

granskad − ogranskad<br />

(2)<br />

Använd variabelverktyget ([funktion]) och skapa<br />

variabeln (funktion: abs(Y)).<br />

Bilda variabeln effekt<br />

× granskad − ogranskad<br />

effekt = × skalfaktor<br />

skattningen<br />

π<br />

1<br />

(3)<br />

där π är urvalssannolikheten<br />

Skalfaktorn, en tiopotens, bestäms så att variabeln effekt blir större än ett, 1,<br />

för alla objekt. SAS/Insight beaktar nämligen endast heltalsdelen vid vägningen<br />

i diagramverktyget histogram.<br />

Variabeln enligt formel (3) måste skapas i flera steg, t.ex.<br />

1<br />

steg _ 1 = × granskad − ogranskad<br />

(3´)<br />

π<br />

1<br />

× granskad − ogranskad<br />

steg _1<br />

steg _ 2 =<br />

=<br />

π<br />

(3´´)<br />

skattningen<br />

skattningen<br />

Och slutligen det tredje steget som ger formel (3)<br />

1<br />

× granskad − ogranskad<br />

effekt = steg _ 2 × skalfaktor =<br />

π<br />

× skalfaktor<br />

skattningen<br />

Kommentar:<br />

Det finns flera sätt att bestämma skalfaktorn. Det enklaste är att räkna<br />

antalet heltalssiffror i skattningen. Skalfaktorn blir tio upphöjt <strong>till</strong> antalet<br />

heltalssiffror. Ett annat sätt är att sortera SAS-tabellen i fallande skala efter<br />

variabeln, v<br />

× granskad − ogranskad<br />

v =<br />

skattningen<br />

π<br />

1<br />

(3´)<br />

Välj skalfaktorn som det tal, tiopotens, som gör att det minsta (översta)<br />

värdet blir större än ett (1).<br />

10-logaritmera, variabeln (2). (Det finns även alternativa trasformationer som kan<br />

vara möjliga att använda.)<br />

Ta fram ett histogram för det transformerade värdet av variabeln (2)<br />

92<br />

Kommentar:<br />

Histogrammet visar fördelningen för en variabel, i det här fallet absolutvärdet<br />

av differenserna. Stapelns höjd anger antalet objekt i delintervallet. För<br />

att få reda på hur stor effekt <strong>granskning</strong>en har på skattningen, behöver man<br />

ett vägt histogram. Stapelns höjd i det histogrammet visar effekten av<br />

<strong>granskning</strong>ens inverkan på skattningen.


Mätning av effekter av <strong>granskning</strong><br />

Observera att transformationer såsom logaritmering, kvadratrot osv. kan göras<br />

efter att man tagit fram histogrammet. Markera variabeln och använd därefter<br />

variabelverktyget ([funktion]). Välj funktion. Variabelnamn<br />

(Name) och klartext (Label) genereras automatiskt, men det kan vara en fördel att<br />

åtminstone skriva in en egen klartext.<br />

Gör plats för ett diagram in<strong>till</strong> det första diagrammet genom att rita en ruta under<br />

histogrammet.<br />

Ta fram ett histogram för 10-logaritmen av variabeln (2) i den markerade rutan.<br />

Ange effekt (3) som frekvens. Detta visar effekten oavsett tecken.<br />

Ta fram lämplig intervallbredd på följande sätt:<br />

• Markera variabeln (x-axeln) i diagrammet.<br />

• Öppna dialogrutan (f) längst ned <strong>till</strong> vänster i ett av diagrammen.<br />

• Ändra intervallbredden <strong>till</strong>s en lämplig detaljeringsnivå uppnås.<br />

(Fördelningen ändras, dvs. blir mer eller mindre detaljerad.)<br />

Skalan på axeln över frekvenser i det uppräknade histogrammet kan också behöva<br />

modifieras för att staplarna ska bli tydligare (högre)<br />

• Markera variabeln, Frequency.<br />

• Öppna dialogrutan (f) längst ned <strong>till</strong> vänster.<br />

• Ändra maxvärdet <strong>till</strong> värdet på den högsta stalpen.<br />

Kommentar:<br />

I det här fallet är det inte nödvändigt att dölja och ta bort objekt. Logaritmen<br />

för oförändrade värden, granskat = ogranskat , är minus oändligheten.<br />

Av SAS uppfattas detta värde som missing values (uppgift saknas).<br />

Den (bakomliggande) procedur som genererar histogrammet bortser från<br />

missing values.<br />

Histogrammen visar samtliga förändrade värden i storleksordning (logskalan),<br />

”storleksklass”. De stora förändringarna ligger <strong>till</strong> höger och<br />

mindre <strong>till</strong> vänster. Det första diagrammet (ovägt) visar antalet ändringar<br />

för gällande storleksklass. Det andra (vägt) visar effekten av ändringarna<br />

på skattningen.<br />

Bruttoeffekt<br />

Metod 1<br />

Studera fördelningen av ändringarna genom att ändrar staplarnas bredd (”ticks” i<br />

diagrammets dialogruta). Bruttoeffekten av ändringarna på skattningen avläses<br />

som höjden på stapeln.<br />

Metod 2<br />

Skapa den första restmängden:<br />

• Markera ett område från höger <strong>till</strong> vänster i ett av diagrammen.<br />

• Dölj observationerna.<br />

• Ta bort observationerna från beräkningen.<br />

Fortsätt att skapa successiva restmängder genom att dölja objekt i diagrammen<br />

och ta bort dem från beräkningen.<br />

93


Mätning av effekter av <strong>granskning</strong><br />

Nettoeffekt<br />

Nettoeffekten beräknas med hjälp av de observationer vars ändringar bedöms ha<br />

liten inverkan på skattningen. De ändringar som sammanlagt bedöms ha ringa inverkan<br />

på skattningen är de observationer som uppfyller villkoret<br />

granskat − ogranskat ≤ d<br />

där d är gränsen.<br />

Metod 1<br />

Bilda en SAS-tabell med dessa observationer.<br />

• Markera stapeln i diagrammet.<br />

• Gå <strong>till</strong> databladet.<br />

• Välj i databladets dialogruta (f)<br />

Återgå <strong>till</strong> den ursprungliga undersökningsvariabeln granskad – ogranskad.<br />

Bilda ett nytt histogram för denna datamängd (diagram 5). Justera skalan så att de<br />

båda staplarna blir lika breda. Nettoeffekten är differensen av staplarnas höjd<br />

(undre diagrammet). Antalet positiva och negativa ändringar är staplarnas höjd i<br />

det övre diagrammet.<br />

Metod 2<br />

Fortsätt att dölja och ta bort observationer (se Bruttoeffekt Metod 2) <strong>till</strong> dess att<br />

villkoret<br />

granskat − ogranskat > d<br />

är uppfyllt. Denna restmängd används för att beräkna nettoeffekten.<br />

Återgå <strong>till</strong> den ursprungliga undersökningsvariabeln granskad – ogranskad.<br />

Bilda ett nytt histogram för denna datamängd (diagram 5). Justera skalan så att de<br />

båda staplarna blir lika breda. Nettoeffekten är differensen av staplarnas höjd<br />

(undre diagrammet). Antalet positiva och negativa ändringar är staplarnas höjd i<br />

det övre diagrammet.<br />

94


9 IT-miljön och Greta<br />

IT-miljön och Greta<br />

I detta kapitel beskrivs <strong>granskning</strong> med hjälp av SCB:s rekommenderade program,<br />

Greta.<br />

I huvudsak omfattar <strong>granskning</strong>sprocessen delprocesserna dataregistrering,<br />

<strong>granskning</strong> och rättning. Så stor del av <strong>granskning</strong>en som möjligt bör ske vid<br />

dataregistrering/skanning. Kontroll av misstänkta fel ska här bara ske för de<br />

kontroller som inte fordrar uppdatering av acceptansgränser med aktuella data.<br />

Fel och misstänkta data ska presenteras så, att verifiering underlättas och uppdatering<br />

kan göras interaktivt.<br />

9.1 Granskningsprocessens krav på IT-system<br />

Krav på <strong>granskning</strong>sprogram:<br />

• Fel och misstänkta data ska presenteras på ett sådant sätt att<br />

– verifiering underlättas<br />

– uppdatering kan göras interaktivt.<br />

• Det ska vara enkelt för en användare att själv<br />

– ändra kontroller och acceptansgränser<br />

– lägga <strong>till</strong> nya kontroller<br />

– ta bort kontroller<br />

– använda hjälpinformation<br />

– utforma felmeddelanden<br />

– koda felkällor och uppgiftslämnarkapacitet.<br />

• Omedelbar om<strong>granskning</strong> ska kunna göras efter ändringar.<br />

• Systemet ska generera processinformation och information om felorsaker.<br />

• Lät<strong>till</strong>gänglig processtatistik ska kunna tas fram för övervakning och<br />

analys.<br />

• Det ska vara en flexibel databaslösning.<br />

En väl fungerande <strong>granskning</strong>sprocess måste vara flexibel. Detta betyder att det<br />

måste vara enkelt för en användare att utan hjälp från IT-specialister ändra kontroller<br />

och gränsvärden, lägga <strong>till</strong> nya kontroller och ta bort kontroller.<br />

Granskningsprocessen ska generera processdata och data om felorsaker, vilka man<br />

använder för att utveckla undersökningen, t.ex. ändra blankettdesign och variabeldefinitioner.<br />

Detta ställer krav på bland annat flexibel databaslösning.<br />

9.2 Generell programvara eller specialprogrammering<br />

Grundregel:<br />

• Använd helst generell programvara.<br />

• Skräddarsy program bara om prestanda och funktionalitet blir mycket<br />

bättre.<br />

SCB och andra statistikbyråer strävar efter att minska behovet av specialprogrammering<br />

av varje applikation genom att så långt som möjligt <strong>till</strong>handahålla generella<br />

program för varje uppgift. Fördelarna med generell programvara står främst<br />

95


IT-miljön och Greta<br />

att finna i mindre utvecklingsinsats för den enskilda produkten samt billigare underhåll<br />

och drift av det färdiga systemet. Utvecklingsarbetet kan fokuseras på det<br />

generella programmet i vilket nya metoder kan implementeras och därmed komma<br />

hela organisationen <strong>till</strong> del omedelbart. Det finns naturligtvis fall där en generell<br />

programvara inte är lämplig. Då måste specialprogram tas fram. Den enda fördelen<br />

med skräddarsydda program är att man i vissa fall kan optimera prestanda och<br />

funktionalitet. Det måste finnas starka skäl för att specialskriva ett <strong>granskning</strong>sprogram.<br />

9.3 Typer av <strong>granskning</strong>sprocesser<br />

De <strong>granskning</strong>sprocesser som beskrivs i kapitel 3 har varierande grad av IT-stöd<br />

på SCB i form av generella programvaror.<br />

9.3.1 Uppgiftslämnar<strong>granskning</strong><br />

Uppgiftslämnaren får ett elektroniskt formulär på diskett, via e-post eller med<br />

uppkoppling <strong>till</strong> SCB:s webbplats. Allt eftersom de efterfrågade uppgifterna fylls<br />

i, utlöses kontroller och hoppinstruktioner. Uppgiftslämnaren kan också avsluta<br />

med att initiera en <strong>granskning</strong> av samtliga uppgifter och kommentera funna ”avvikelser”<br />

innan uppgifterna skickas <strong>till</strong> SCB. Formuläret kan också innehålla<br />

bakgrundsinformation som kan utnyttjas för <strong>granskning</strong> och återrapportering.<br />

TDE (Touchtone Data Entry) är ett system som är lämpligt när uppgiftslämnaren<br />

ska återkommande besvara ett mycket begränsat antal frågor. Uppgiftslämnaren<br />

kontaktar då själv SCB via telefon och lämnar med hjälp av knappsatsen ett fåtal<br />

uppgifter, vilka kontrolleras omedelbart och uppgiftslämnaren ges möjlighet att<br />

korrigera felaktiga svar.<br />

Dessa system ger i dag inget generellt stöd för <strong>granskning</strong>.<br />

9.3.2 Granskning vid dataregistrering<br />

Skanning är den metod som rekommenderas för dataregistrering av pappersblanketter.<br />

Vid skanning lagras blanketten som en bild i en databas för senare analys.<br />

Det finns ett antal färdiga kontrollfunktioner i SCB:s nuvarande system att utnyttja<br />

vid <strong>granskning</strong>, t.ex. checksifferkontroll, kontroll mot intervall av giltiga värden.<br />

Där<strong>till</strong> kommer möjligheten att utnyttja VBA-kod (VBA, Visual Basic for<br />

Applications) för att programmera mer komplicerade <strong>granskning</strong>svillkor.<br />

SCB:s erfarenheter visar på stora fördelar med att använda skanningteknik för<br />

dataregistrering och <strong>granskning</strong>. Den stora fördelen är att man omedelbart kan<br />

verifiera mot blanketten. Stora besparingar kan göras genom att blanketthanteringen<br />

och den manuella dataregistreringen nästan helt elimineras. Nackdelarna är<br />

få. Skannern kan missa något enstaka papper vid inläsningen. Bilderna av blanketterna<br />

kräver stort diskutrymme, men detta är ett problem som med tiden blir allt<br />

mindre.<br />

För datainsamling via intervju använder SCB sedan många år DATI-systemet<br />

(numera WinDATI), som kan användas för såväl besöks- som telefonintervjuer.<br />

All <strong>granskning</strong> bör ske när intervjuaren lägger in uppgiften i datorn.<br />

96


IT-miljön och Greta<br />

För traditionell dataregistrering av pappersblanketter finns programvaran<br />

RODE/PC. Förutom kontroll av dataregistreringsfel medger systemet att <strong>granskning</strong>skontroller<br />

läggs in för de fält som ska registreras.<br />

9.3.3 Produktions<strong>granskning</strong><br />

För produktions<strong>granskning</strong> i databasmiljö rekommenderas det generella programmet<br />

Greta (se 9.5). Vi avråder från att man skriver egna <strong>granskning</strong>sprogram.<br />

9.3.4 Output<strong>granskning</strong><br />

Grafisk <strong>granskning</strong> används antingen som ett alternativ <strong>till</strong> produktions<strong>granskning</strong><br />

eller som ett komplement. Pc-miljön i kombination med klient-servertekniken är<br />

idealisk för detta.<br />

Ett exempel är ett system vid AM-avdelningen som har fått många positiva omdömen<br />

och bedömts möjligt att generalisera.<br />

SCB utreder och utvecklar metoder för att använda SAS/Insight för i första hand<br />

output<strong>granskning</strong>. Se kapitel 5.<br />

9.4 Komponenter i ett <strong>granskning</strong>sprogram<br />

Ett <strong>granskning</strong>sprogram ska stödja:<br />

• Kontroller: inklusive anpassning av acceptansgränser.<br />

• Hjälpinformation<br />

– definitioner och instruktioner: gäller främst uppgiftslämnar<strong>granskning</strong><br />

men är också utmärkt som hjälpmedel åt granskaren.<br />

• Felsignalering.<br />

• Felmeddelanden.<br />

• Uppdatering (interaktiv) med omedelbar om<strong>granskning</strong>.<br />

• Kodning av felkällor och uppgiftslämnarkapacitet.<br />

• Generering av processdata (loggningar).<br />

• Framtagning av lät<strong>till</strong>gänglig processtatistik för övervakning och analys.<br />

9.5 Standardprogrammet Greta<br />

Greta är SCB:s rekommenderade system för satsvis <strong>granskning</strong> av data som lagras<br />

i databaser i klient-servermiljö. Det är ett system där användaren får möjlighet att<br />

skapa och underhålla sina <strong>granskning</strong>skontroller. All <strong>granskning</strong> sker i servern<br />

med hjälp av SQL.<br />

Syftet med Greta är att:<br />

• <strong>till</strong>handahålla en standardiserad modell för hur <strong>granskning</strong>sarbetet ska gå<br />

<strong>till</strong> i klient-servermiljön<br />

• ge produktansvariga möjlighet att själva, utan stöd från IT-personal, bygga<br />

upp och underhålla <strong>granskning</strong>srutiner<br />

• minska personberoendet<br />

• skapa processinformation som senare kan analyseras.<br />

Den typiska användaren är en produktionsstatistiker i såväl återkommande undersökningar<br />

som engångsundersökningar (uppdrag). Med Greta kan användaren lätt<br />

lägga <strong>till</strong>, ta bort eller förändra kontroller.<br />

97


IT-miljön och Greta<br />

Det bör understrykas att Greta passar bra för uppdrag och engångsundersökningar,<br />

eftersom det är lätt för en uppdragsansvarig att konstruera kontrollerna och interaktivt<br />

rätta upp fel helt utan programmering. Den processinformation som Greta<br />

skapar i dessa fall kan komma <strong>till</strong> användning i liknande uppdrag.<br />

9.5.1 Möjligheter med Greta<br />

Med Greta bygger användaren upp kontroller med nyckelord på svenska via menyval<br />

och inbyggda verktyg. Kontrollsystemet kan omedelbart testas ut i datamaterialet<br />

genom att visa:<br />

• totala antalet felsignalerade variabelvärden<br />

• totala antalet felsignalerade objekt<br />

• antalet objekt fördelade efter antalet felsignaler för objekten (i fallande<br />

ordning).<br />

Inför produktionsstarten kan man försäkra sig om att <strong>granskning</strong>en ser ut att bli<br />

rimlig genom att ovanstående statistik automatiskt presenteras för användaren.<br />

Styrning och uppföljning<br />

Produktionen kan följas och styras genom att Greta presenterar statistik över antalet<br />

objekt fördelade efter felstatus, dvs. hur många objekt som återstår att granska,<br />

hur många som väntar med status ”under utredning” osv.<br />

Anpassning <strong>till</strong> de data som ska granskas<br />

Acceptansgränser för kontroller för misstänkta fel (ex: kvotkontroller X/Y) kan<br />

göras på aggregerade nivåer efter användningens behov. Användaren specificerar<br />

alltså själv nivåer (t ex: efter SNI på ensiffer-, tvåsiffernivå osv.). För varje kontroll<br />

kan man sedan automatiskt anpassa gränserna <strong>till</strong> de data som ska granskas<br />

genom att t.ex. använda Agda för att räkna fram och lägga in parametervärden för<br />

kontrollen i en Greta-tabell.<br />

Selektiv <strong>granskning</strong> / makro<strong>granskning</strong><br />

I detta CBM rekommenderas Hidiroglou-Berthelots metod och en poängfunktion<br />

(score-function) för prioritering av objekt för manuell verifiering (uppföljning),<br />

s.k. selektiv <strong>granskning</strong>. Det krävs viss SQL-kunskap för att implementera selektiv<br />

<strong>granskning</strong> i Greta.<br />

Automaträttningar och imputeringar<br />

För att man ska kunna göra automaträttningar, även kallade deterministiska rättningar,<br />

krävs dels att kontroller kan skrivas så att felet identifieras, dels att ett nytt<br />

värde kan härledas, t.ex. vid summeringsfel. Vissa typer av imputeringar för partiellt<br />

bortfall kan också göras – t.ex. med värdet från föregående period. Ändrade<br />

och nya värden kommer att granskas om kontrollerna för identifiering av fel och<br />

partiellt bortfall placeras först på kontrollistan.<br />

Felmeddelanden<br />

Greta sammanställer flaggningarna <strong>till</strong> objektvisa felmeddelanden som presenteras<br />

på skärmen. Felmeddelandena kan sorteras på olika sätt, t.ex. efter bransch eller<br />

region, beroende på hur man vill organisera den manuella verifieringen. Man kan<br />

98


IT-miljön och Greta<br />

även få meddelandena sorterade efter antalet flaggningar, t.ex. så att man kan<br />

börja med att verifiera de värsta objekten först. Med en poängfunktion implementerad<br />

bör man kunna ta ut objekten i prioritetsordning, dvs. efter objektens<br />

poäng.<br />

Orsaken <strong>till</strong> en flaggning anges genom felkoden, beskrivning av kontrollen i<br />

klartext, angivande av kontrollens värde med mera.<br />

Interaktiv uppdatering med om<strong>granskning</strong><br />

Man ändrar eller godkänner direkt på skärmen samt inför åtgärds- och orsakskoder.<br />

När alla flaggningar är åtgärdade, ska man begära om<strong>granskning</strong> av just det<br />

objektet om man har ändrat eller lagt <strong>till</strong> något värde. Genom om<strong>granskning</strong>en<br />

kontrollerar man ändringarna och får fram om ändringar medför att andra kontroller<br />

utlöses.<br />

Man kan dessutom ångra en felaktig knapptryckning, avbryta verifiering av objekt<br />

för att vid ett senare <strong>till</strong>fälle fortsätta med objektet, markera variabel och objekt<br />

för utredning, markera outliers, dvs. korrekta men starkt avvikande värden som<br />

måste beaktas vid estimationen, m.m.<br />

Top-down-<strong>granskning</strong><br />

Greta ger möjlighet <strong>till</strong> en form av top-down-<strong>granskning</strong> genom att det är möjligt<br />

att sortera objekten eller kontrollerna efter antal felsignaler.<br />

Processtatistik<br />

Ett centralt begrepp i Greta är felradstabellen, som, förutom att vara underlag för<br />

felmeddelanden, utgör underlag för indikatorer och statistik över insamlings- och<br />

produktionsprocessen.<br />

Framställning av processdata som underlag för kontinuerlig förbättring av processer<br />

är grundpelaren i TQM-filosofin och för den moderna synen på <strong>granskning</strong>en.<br />

I den är det identifiering av felkällor som ska stå i fokus, och sådana kunskaper<br />

ska användas <strong>till</strong> åtgärder att förhindra att fel uppstår.<br />

Det är möjligt att med hjälp av SQL-kodning ta fram processdata från felradstabellen.<br />

9.5.2 Gretas svagheter<br />

I dag finns version 2.75 <strong>till</strong>gänglig i nätet. Där har inte alla funktioner som ursprungligen<br />

planerades kunnat införas.<br />

Dataregistrering<br />

Greta är mindre lämpligt att använda vid dataregistrering, eftersom programmet är<br />

konstruerat för att granska hela objekt och inte enskilda variabler. Man kan alltså<br />

inte arbeta interaktivt på så sätt att man får en felsignal när markören lämnar ett<br />

fält som innehåller ett fel. Om man behöver denna funktion, bör man använda<br />

Rode PC.<br />

99


IT-miljön och Greta<br />

Output<strong>granskning</strong><br />

Greta är inte lämpligt för output<strong>granskning</strong> i betydelsen att man först utför kontroller<br />

på aggregat, t.ex. jämförelser med motsvarande tabellcell för perioden<br />

innan; och därefter söker identifiera vilket/vilka objekt som bidragit mest <strong>till</strong><br />

förändringen. För denna funktion kan t.ex. SAS Insight användas.<br />

Grafisk <strong>granskning</strong><br />

Greta ger inget direkt stöd för grafisk <strong>granskning</strong>. Det är dock relativt enkelt att<br />

göra en grafiskt baserad applikation som utnyttjar den information som Greta<br />

skapar.<br />

Omaka objekt<br />

Kontroller som innebär matchning mellan flera tabeller kommer inte att ge felsignal<br />

om ett objekt saknas i någon av de ingående tabellerna.<br />

Exempel: Om <strong>granskning</strong>en bl.a. avser kontroll mot samma objekt föregående<br />

period, kommer ett objekt som inte förekom tidigare period endast att granskas<br />

”inom posten”. Inget meddelande kommer att visa att objektet saknas föregående<br />

period. Nyckelordet ”förekommer i” är reserverat för denna typ av kontroll, men<br />

har inte implementerats i nuvarande version. Detta problem står högst på<br />

önskelistan över förbättring av Greta.<br />

Beroende kontroller<br />

Flödesvillkor (”if … then”, ”select … case”) kan inte uttryckas direkt i Gretas<br />

språk. I stället kan man i de flesta fall uppnå motsvarande funktionalitet genom att<br />

använda funktionen ”Beroende av” i ett eller flera led. Metoden kan dock snabbt<br />

bli osmidig och svår att underhålla.<br />

Exempel: att uttrycka ”om variabel A < x ska variabel B > y, men om variabel A ><br />

x ska variabel B > z” kräver totalt fyra kontroller, varav två beroende.<br />

Matchning mellan databaser<br />

Alla tabeller som ingår i en <strong>granskning</strong> (såväl granskat data som eventuella hjälptabeller)<br />

måste av praktiska skäl finnas i en och samma databas.<br />

Radorienterade tabeller<br />

Greta är utvecklad för att granska data som lagras på traditionellt sätt i en relationsdatabas,<br />

dvs. där en (eller flera) kolumner identifierar objektet och övriga<br />

kolumner representerar variabelvärden: ”identitet”, ”var1”, ”var2”, ”var3”, …<br />

Greta klarar endast vissa mycket begränsade kontroller när variabler i stället<br />

lagrats på s.k. radorienterat sätt, dvs. där en rad i databastabellen i princip kan<br />

beskrivas med tre kolumner: ”identitet”, ”kod”, ”värde” och därmed en kolumn<br />

inte unikt identifierar en variabel.<br />

9.5.3 Vidareutveckling av Greta<br />

Den mest angelägna vidareutvecklingen av Greta är en generell statistikmodul för<br />

presentation av processtatistik.<br />

100


Ordlista<br />

Ord Förklaring<br />

Acceptansgränser Gränser som avgör vilka observationer som<br />

ska godkännas respektive felsignaleras.<br />

Aggregat<strong>granskning</strong> Kontroller utförs på aggregerade data.<br />

Avvikelsefel Värdet på testvariabeln är för stort eller för<br />

litet i förhållande <strong>till</strong> acceptansgränserna.<br />

Ordlista<br />

Balanskontroll Kontroll för att se <strong>till</strong> att värdena på delvariablerna<br />

summerar sig <strong>till</strong> värdet på summavariabeln.<br />

Batch-<strong>granskning</strong> Se produktions<strong>granskning</strong>.<br />

Dataregistrerings<strong>granskning</strong> Identifiering av uppenbara fel vid dataregistrering.<br />

Datastruktur- eller modellfel Definitionsmässiga samband mellan variabler<br />

satisfieras inte.<br />

Specialfall: balanskontroll.<br />

Definitionsfel Många uppgiftslämnare uppfattar en fråga<br />

eller underliggande definitioner på ett likartat<br />

men felaktigt sätt.<br />

EDA, Exploratory Data<br />

Analysis<br />

Utforskning av data med hjälp av diagram.<br />

Felkod Beteckning på den kontroll som signalerade<br />

ett misstänkt eller uppenbart felaktigt värde.<br />

Felmeddelande Den information som <strong>granskning</strong>ssystemet ger<br />

om objekt och variabler som har felsignalerats<br />

eller automatiskt åtgärdats.<br />

Felrad Teknisk term i <strong>granskning</strong>sprogrammet Greta<br />

(kapitel 9).<br />

Felsignal Markering av att ett variabelvärde saknas eller<br />

har underkänts av de maskinella kontrollerna.<br />

Kan även användas om objekt och avser då att<br />

objektet har minst ett felsignalerat variabelvärde.<br />

Feltyp Beteckning eller benämning av visst slag av<br />

fel som förekommer i en datainsamling, t.ex.<br />

registrerings- eller sortfel.<br />

101


Ordlista<br />

Ord Förklaring<br />

Flagga Synonym <strong>till</strong> felsignal.<br />

Grafisk <strong>granskning</strong> Grafisk <strong>granskning</strong> av data beskrivs i form av<br />

olika diagram. Här behandlas interaktiv<br />

<strong>granskning</strong>, vilket innebär kommunikation<br />

mellan diagram och mellan diagram och<br />

datablad.<br />

Granskning<br />

102<br />

Identifiering och åtgärdande av fel och<br />

outliers i individuella data som används för<br />

framställning av statistik. Ett huvudsyfte är att<br />

identifiera felkällor för senare åtgärder i<br />

undersöknings- och produktionsprocessen.<br />

Granskningskod Synonym <strong>till</strong> åtgärdskod.<br />

Granskningsstatus Anger på objektsnivå om objektet har<br />

granskats av programmet, är godkänt eller ska<br />

åtgärdas.<br />

Imputering Ett felsignalerat och felaktigt värde eller saknat<br />

värde ersätts med ett acceptabelt värde<br />

efter fastställda regler utan kontakt med uppgiftslämnaren.<br />

Inlier Felaktiga värden som ligger innanför varje<br />

rimligt val av acceptansgränser för avvikelsefel.<br />

Interaktiv grafisk <strong>granskning</strong> Se grafisk <strong>granskning</strong>.<br />

Konsistensfel Svar på en fråga motsäger svar på en annan<br />

eller andra frågor.<br />

Kontroll Algoritm att urskilja felaktiga, misstänkta<br />

eller saknade värden.<br />

Lådagram Diagram som visar en variabels fördelning,<br />

bl.a. med kvartiler och extremvärden.<br />

Makro<strong>granskning</strong> Se selektiv <strong>granskning</strong>.<br />

Manuell för<strong>granskning</strong> Granskning av postenkäter före registrering.<br />

Mikro<strong>granskning</strong> Identifierar och åtgärdar fel i individuella<br />

data.<br />

Misstänkt värde Värde utanför ett acceptansområde, explicit<br />

eller implicit, som med stor sannolikhet är<br />

felaktigt.


Ord Förklaring<br />

Objektvis dataregistrerings-<br />

<strong>granskning</strong><br />

Granskningen utförs när alla värden för ett<br />

objekt har registrerats.<br />

Ordlista<br />

Outlier Korrekta data som uppräknade skiljer sig så<br />

mycket i absolut storlek från övriga uppräknade<br />

värden i sin redovisningsgrupp, att de<br />

aktualiserar frågor om förändringar i estimationen<br />

eller kommentarer i redovisningen av<br />

undersökningens resultat.<br />

Output<strong>granskning</strong> Granskning när allt material är insamlat för<br />

kontroll av att inga stora misstag har gjorts i<br />

de tidigare utförda processerna. Utförs i allmänhet<br />

på aggregerade data.<br />

Paretodiagram Stapeldiagram som presenteras i fallande<br />

ordning.<br />

Partiellt bortfall Obesvarad fråga trots att objektet har data att<br />

redovisa.<br />

Processdata Data om produktionsprocessen, felkällor och<br />

problem i undersökningen och <strong>granskning</strong>sprocessens<br />

effektivitet.<br />

Processtatistik Statistik över felsignaler, åtgärdade data, orsaker<br />

<strong>till</strong> fel, uppgiftslämnarproblem med mera.<br />

Produktions<strong>granskning</strong> Granskning som utförs på mikrodata efter det<br />

att en viss mängd objekt finns.<br />

Selektiv <strong>granskning</strong> Metod för prioritering av objekt eller variabelvärden<br />

för verifiering.<br />

Strukturfel Se datastruktur- eller modellfel.<br />

Testvariabel En insamlad variabel eller ett aritmetiskt uttryck<br />

av undersökningens variabler, som används<br />

i kontroller.<br />

Top-down Granskning/verifiering utförs i prioriteringsordning<br />

med prioritet ”det värsta först.”<br />

Träffsäkerhet Andel av felsignalerade observationer som<br />

resulterar i att data ändras.<br />

Uppenbara fel Kan identifieras med säkerhet enbart med<br />

<strong>till</strong>gång <strong>till</strong> data om det granskade objektet.<br />

103


Ordlista<br />

Ord Förklaring<br />

Uppgiftslämnar<strong>granskning</strong> Utförs av uppgiftslämnaren (t.ex. vid besvarande<br />

av postenkät eller elektronisk blankett)<br />

eller av uppgiftslämnare och intervjuare gemensamt<br />

i intervjuundersökningar.<br />

Uppgiftslämnarkapacitet Uppgiftslämnaren kan inte besvara frågan<br />

(med rimlig arbetsinsats).<br />

Uppgiftslämnarservice Statistikproducentens stöd <strong>till</strong> uppgiftslämnaren<br />

i rapporteringsarbetet.<br />

Validitetsfel Det registrerade värdet <strong>till</strong>hör inte variabelns<br />

värdeförråd (<strong>till</strong>åtna värden).<br />

Variabelvis dataregistrerings<strong>granskning</strong><br />

104<br />

Registreringen stoppas för åtgärd så fort ett<br />

variabelvärde underkänns.<br />

Verifiering Manuell utredning av felsignalerade variabelvärden<br />

i syfte att fastställa om de kan accepteras,<br />

är felaktiga eller utgör outliers. Fel och<br />

outliers ska åtgärdas och orsaker <strong>till</strong> fel ska<br />

registreras.<br />

Återkontakt Kontakt med uppgiftslämnaren i syfte att verifiera<br />

felsignaler, dvs. få korrekta uppgifter,<br />

finna ut orsaker <strong>till</strong> fel, förklaringar <strong>till</strong> felsignaler<br />

samt att identifiera uppgiftslämnarens<br />

problem med att besvara frågor.<br />

Åtgärdskod Anger vilken/vilka åtgärder som genomförts<br />

för ett variabelvärde. Exempel: Felsignalerat<br />

men ej verifierat; godkänts utan ändring och<br />

utan kontakt med uppgiftslämnaren; ändrats<br />

utan kontakt med uppgiftslämnaren; ändrats<br />

efter kontakt med uppgiftslämnaren. Synonym<br />

<strong>till</strong> <strong>granskning</strong>skod.<br />

Över<strong>granskning</strong> Innebär att det i ett visst skede i processen<br />

<strong>till</strong>kommer fler fel än dem som åtgärdas eller<br />

att resursåtgången inte står i rimlig proportion<br />

<strong>till</strong> kvalitetsförbättringen.


ISBN 91-618-1138-6<br />

Statistikpublikationer kan beställas från SCB, Publikationstjänsten, 701 89 ÖREBRO, e-post: publ@scb.se, telefon:<br />

019-17 68 00, fax: 019-17 64 44. De kan också köpas genom bokhandeln eller direkt hos SCB, Karlavägen 100 i Stockholm.<br />

Aktuell publicering redovisas på vår webbplats (www.scb.se). Ytterligare hjälp ges av SCB:s Bibliotek och Information.<br />

e-post: information@scb.se, telefon: 08-506 948 01, fax: 08-506 948 99.<br />

www www.scb.se<br />

www .scb.se<br />

SCB-Tryck, Örebro 2002.06

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!