Guide till granskning (pdf) - Statistiska centralbyrån
Guide till granskning (pdf) - Statistiska centralbyrån
Guide till granskning (pdf) - Statistiska centralbyrån
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Guide</strong> <strong>till</strong><br />
<strong>granskning</strong><br />
Leopold Granquist<br />
Gunnar Arvidson<br />
Catarina Elffors<br />
Anders Norberg<br />
Lars-Göran Lundell<br />
CBM 2002:1
<strong>Guide</strong> <strong>till</strong><br />
<strong>granskning</strong><br />
Leopold Granquist<br />
Gunnar Arvidson<br />
Catarina Elffors<br />
Anders Norberg<br />
Lars-Göran Lundell<br />
CBM 2002:1
För ytterligare information, kontakta:<br />
Leopold Granquist telefon: 08-506 944 43<br />
e-post: Leopold.Granquist@scb.se<br />
eller<br />
Gunnar Arvidson telefon: 019-17 65 59<br />
e-post: Gunnar.Arvidson@scb.se<br />
Catarina Elffors telefon: 08-506 947 98<br />
e-post: Catarina.Elffors@scb.se<br />
Anders Norberg telefon: 08-506 946 79<br />
e-post: Anders.Norberg@scb.se<br />
© 2002, Statistics Sweden<br />
ISBN: 91-618-1138-6<br />
Printed in Sweden<br />
SCB-tryck, Örebro 2002.06<br />
2
Generaldirektörens förord<br />
Förord<br />
<strong>Statistiska</strong> <strong>centralbyrån</strong> (SCB) utarbetar som en del i det systematiska kvalitetsarbetet<br />
rapporter rörande bästa kända metod på olika områden, s.k. Current Best<br />
Methods (CBM). ”<strong>Guide</strong> <strong>till</strong> <strong>granskning</strong>” är ett sådant CBM-dokument och har<br />
tagits fram inom ramen för SCB:s arbete med att utveckla <strong>granskning</strong>sarbetet. Det<br />
utgör en genomgripande uppdatering av CBM-dokumentet ”Granska effektivt”,<br />
som publicerades i mars 1997.<br />
<strong>Guide</strong>n är avsedd för personer med ansvar för design och utveckling av statistiska<br />
produktionsprocesser vid SCB, andra myndigheter, organisationer och företag.<br />
Granskningens huvuduppgift att vara ett medel för kontinuerlig förbättring av hela<br />
undersökningen betonas. Generella grafiska programvaror rekommenderas komma<br />
<strong>till</strong> allmän användning.<br />
Jag vill tacka den arbetsgrupp, som har utarbetat rapporten, och alla andra, som<br />
har sett <strong>till</strong> att den har tagits fram, för ett fint arbete.<br />
Svante Öberg<br />
Generaldirektör<br />
Arbetsgruppens förord<br />
I föregående CBM-dokument: ”Granska effektivt”, som publicerades i mars 1997,<br />
behandlades i avsnittet om grafisk <strong>granskning</strong> endast skräddarsydda programvaror<br />
för output<strong>granskning</strong>.<br />
Nu finns det emellertid generella grafiska programvaror. De kan effektivt utnyttjas<br />
för nya output<strong>granskning</strong>smetoder, i kontroller, utveckling och utvärdering av<br />
<strong>granskning</strong>skriterier och processer samt för identifiering av systematiska uppgiftslämnarfel<br />
– vilka är svåra att upptäcka med traditionella metoder. Detta genomsyrar<br />
hela dokumentet. Ett särskilt kapitel ägnas åt grafiska metoder, och flera kapitel<br />
har omarbetats grundligt med avseende på de nya möjligheter som tekniken<br />
medger. På detta område ligger SCB i frontlinjen, vilket bl.a. inneburit att experiment<br />
och utveckling har ingått i projektet.<br />
Den internationellt accepterade nya synen på <strong>granskning</strong> – med tonvikten på att<br />
identifiera felkällor och problem i insamlings- och produktionsprocessen – är det<br />
genomgående temat i hela CBM-dokumentet. Föregående version var inriktad på<br />
att rationalisera <strong>granskning</strong>en, medan denna är orienterad mot att kontinuerligt<br />
förbättra kvaliteten i undersökningen. I det avseendet är dokumentet också framåtsyftande<br />
i meningen att det inte finns publicerade artiklar om erfarenheter av<br />
metoder, idéer osv.<br />
Ett biskäl <strong>till</strong> beslutet om uppdatering var att dokumentet skulle förses med checklistor<br />
i större utsträckning och att form och layout skulle samordnas med övriga<br />
CBM-dokument.<br />
3
Förord<br />
Dokumentet har i huvudsak utarbetats av en arbetsgrupp bestående av Gunnar<br />
Arvidson, Catarina Elffors, Leopold Granquist (projektledare), Lars-Gösta Lundell<br />
och Anders Norberg. I inledningsskedet medverkade också Per Engström.<br />
Synpunkter på dokumentets innehåll har vi fått via seminarier och framför allt av<br />
en läsgrupp som bestått av Stina Andersson, Heather Bergdahl och Roland<br />
Friberg.<br />
Dokumentet har språkgranskats av Hans Berglund, och layouten har gjorts av<br />
Inga-Lill Kvist.<br />
4
Innehållsförteckning<br />
Innehåll<br />
GENERALDIREKTÖRENS FÖRORD 3<br />
Arbetsgruppens förord 3<br />
1 PRINCIPER 9<br />
1.1 Granskningens syfte: 9<br />
1.2 Granskningens roll 9<br />
1.3 Faktorer för att uppnå hög slutlig kvalitet<br />
1.3.1 Processperspektivet: ”TQM - ständig förbättring” ska<br />
9<br />
<strong>till</strong>ämpas på 9<br />
1.3.2 God svarskvalitet förutsätter att uppgiftslämnaren 10<br />
1.3.3 Klassificering av fel 11<br />
1.3.4 Bra kontroller – förutsättning för god effektivitet i <strong>granskning</strong>en 11<br />
1.3.5 Systematisk insamling av data över felkällor 12<br />
2 VILKA FEL SKA GRANSKNINGEN HITTA? 13<br />
2.1 Uppenbara fel 14<br />
2.2 Misstänkta fel 15<br />
2.2.1 Avvikelsefel 15<br />
2.2.2 Definitionsfel 16<br />
2.3 Referenser 18<br />
3 VAR SKA GRANSKNINGEN SKE? 19<br />
3.1 Undvik flera stora delprocesser? 19<br />
3.2 Granskning av postenkäter 21<br />
3.2.1 Uppgiftslämnarservice 22<br />
3.2.2 Uppgiftslämnarens egen <strong>granskning</strong> 22<br />
3.2.3 Manuell för<strong>granskning</strong> 23<br />
3.2.4 Dataregistrerings<strong>granskning</strong> 25<br />
3.2.5 Produktions<strong>granskning</strong> 26<br />
3.2.6 Output<strong>granskning</strong> 27<br />
3.3 Elektronisk datainsamling 27<br />
3.3.1 Elektroniska blanketter 28<br />
3.3.2 Tonvalsinsamling 29<br />
3.3.3 Datorstödda intervjuer 30<br />
3.4 Registerdata 30<br />
3.4.1 Kontrollprocess 32<br />
3.4.2 Process- och kontrollvariabler 33<br />
3.4.3 Dokumentation av kontrollprocessen 33<br />
5
Innehåll<br />
3.5 Referenser 33<br />
4 KONTROLLMETODER 35<br />
4.1 Underlag för formulering av kontroller 35<br />
4.1.1 Några speciella problem 35<br />
4.1.2 Blanketten 36<br />
4.1.3 Studier i datamaterialet 37<br />
4.1.4 Processdata och erfarenheter 37<br />
4.2 Generella tips för effektiva avvikelsekontroller 37<br />
4.2.1 Effektiva kontroller 38<br />
4.2.2 Kontroller mot avvikelsefel 38<br />
4.2.3 Begränsning av antalet kontroller 39<br />
4.2.4 Prioritering av objekt genom poängfunktioner 39<br />
4.3 Utformning av kontroller 39<br />
4.3.1 Testvariabler 39<br />
4.3.2 Acceptansområde 40<br />
4.3.3 Gruppering 42<br />
4.4 Selektiv <strong>granskning</strong> – metoder för prioritering av objekt eller<br />
variabelvärden för verifiering 45<br />
4.5 Hur idén med poängfunktioner kan implementeras 46<br />
4.5.1 Lokal poäng 46<br />
4.5.2 Global poäng 46<br />
4.5.3 Kritiska värdet 46<br />
4.6 Erfarenheter 46<br />
4.7 Referenser 47<br />
5 GRAFISK GRANSKNING 51<br />
5.1 Bakgrund 51<br />
5.2 Vad är interaktiv grafisk <strong>granskning</strong>? 51<br />
5.3 Användning 52<br />
5.4 Introduktion <strong>till</strong> grafisk <strong>granskning</strong> 53<br />
5.5 Exempel 53<br />
5.5.1 Uppenbara fel 54<br />
5.5.2 Misstänkta fel – avvikelsefel 54<br />
5.5.3 Misstänkta fel – definitionsfel 57<br />
5.6 Grafisk aggregat<strong>granskning</strong> 58<br />
5.7 SAS/Insight: Hur stora dataset? 61<br />
5.8 Kompetens 61<br />
6
Innehåll<br />
5.9 Sammanfattning av interaktiv grafisk <strong>granskning</strong> 62<br />
5.9.1 Fördelar 62<br />
5.9.2 Problem 62<br />
5.9.3 När kan grafisk interaktiv <strong>granskning</strong> <strong>till</strong>ämpas? 63<br />
5.9.4 Rekommendationer 63<br />
5.10 Referenser 63<br />
6 VAD SKA GÖRAS VID FELSIGNAL? 65<br />
6.1 Felmeddelanden 65<br />
6.1.1 Innehåll 65<br />
6.1.2 Generering av felmeddelande 66<br />
6.2 Verifiering av felsignaler 67<br />
6.2.1 Underlag 67<br />
6.2.2 Kompetenskrav 68<br />
6.3 Återkontakter 68<br />
6.4 Hantering av outliers 68<br />
6.5 Imputering 68<br />
6.6 Insamling av information om <strong>granskning</strong>en 69<br />
6.7 Referens 70<br />
7 PROCESSDATA 71<br />
7.1 Indikatorer 72<br />
7.1.1 Objektrelaterade indikatorer 72<br />
7.1.2 Variabelrelaterade indikatorer 72<br />
7.2 Hur övervakning med hjälp av indikatorer skulle kunna gå <strong>till</strong> 73<br />
7.3 Referenser 77<br />
8 MÄTNING AV EFFEKTER AV GRANSKNING 79<br />
8.1 Differensmetoder 80<br />
8.1.1 Differensernas andelar av den totala differensen 80<br />
8.1.2 Differensernas successiva inverkan på skattningen 81<br />
8.2 Feltypsmetoden 83<br />
8.3 Differensstudier med SAS/Insight 84<br />
8.4 Numerisk metod 88<br />
8.5 Referenser 89<br />
9 IT-MILJÖN OCH GRETA 95<br />
9.1 Granskningsprocessens krav på IT-system 95<br />
9.2 Generell programvara eller specialprogrammering 95<br />
7
Innehåll<br />
9.3 Typer av <strong>granskning</strong>sprocesser 96<br />
9.3.1 Uppgiftslämnar<strong>granskning</strong> 96<br />
9.3.2 Granskning vid dataregistrering 96<br />
9.3.3 Produktions<strong>granskning</strong> 97<br />
9.3.4 Output<strong>granskning</strong> 97<br />
9.4 Komponenter i ett <strong>granskning</strong>sprogram 97<br />
9.5 Standardprogrammet Greta 97<br />
9.5.1 Möjligheter med Greta 98<br />
9.5.2 Gretas svagheter 99<br />
9.5.3 Vidareutveckling av Greta 100<br />
ORDLISTA 101<br />
8
1 Principer<br />
Principer<br />
Vi utgår här från en kontinuerlig företagsundersökning (månad, kvartal, år), men<br />
det som sägs är i princip <strong>till</strong>ämpbart på alla typer av undersökningar.<br />
Med <strong>granskning</strong> menar vi identifiering och åtgärdande av fel och outliers i individuella<br />
data som används för framställning av statistik. Ett huvudsyfte är att identifiera<br />
felkällor för senare åtgärder i undersöknings- och produktionsprocessen.<br />
1.1 Granskningens syfte:<br />
• Förbättra undersökningen = förhindra att fel uppkommer.<br />
• Öka kvaliteten i ingående och utgående data på ett effektivt sätt.<br />
• Bidra <strong>till</strong> kvalitetsbedömningar av statistiken.<br />
1.2 Granskningens roll<br />
• Identifiera felkällor i undersökningen, speciellt problem för uppgiftslämnaren<br />
att besvara frågorna<br />
• Identifiera och åtgärda betydelsefulla fel<br />
Ett upptäckt fel ska alltid ses som en representant för en felkälla eller ett problem<br />
med undersökningen.<br />
Granskning ska ses som en del i arbetet att få hög slutlig kvalitet i statistiken.<br />
1.3 Faktorer för att uppnå hög slutlig kvalitet<br />
• Processperspektiv<br />
• God svarskvalitet<br />
• Bra kontroller<br />
• Systematisk insamling av data över felkällor<br />
1.3.1 Processperspektivet: ”TQM - ständig förbättring” ska <strong>till</strong>ämpas<br />
på<br />
• undersökningen<br />
• <strong>granskning</strong>sprocessen.<br />
Detta innebär att man ska:<br />
• samla in processdata<br />
• analysera<br />
• åtgärda<br />
• mäta effekterna, dvs. samla in processdata, analysera, åtgärda, mäta<br />
osv.<br />
9
Principer<br />
Ständig förbättring förutsätter ett bra processdatasystem<br />
Processdata ska genereras och presenteras på ett sådant sätt att de snabbt kan<br />
analyseras – t.ex. genom pareto-diagram över<br />
• omfattningen av betydelsefulla felkällor<br />
• andelen felsignalerade, manuellt åtgärdade och automatiskt åtgärdade<br />
objekt<br />
• andelen förändrade värden och effekten av förändringarna per variabel<br />
• kontrollernas träffsäkerhet och effektivitet.<br />
Processdata ska ge underlag för var och hur åtgärder ska vidtas för att förbättra undersökningen:<br />
blankettförbättring (mätteknik, frågor, layout); bortfallsreducering;<br />
<strong>granskning</strong> m.m.<br />
Allt i insamlings- och produktionsprocessen ska vara enkelt att ändra!<br />
Variabler, kontroller och acceptansgränser ska kunna ändras utan nämnvärt<br />
arbete och utan specialistkompetens. Organisationen bör <strong>till</strong>handahålla generella<br />
program och en genomtänkt systemutvecklingsmodell. De ska <strong>till</strong>ämpas för alla<br />
undersökningar utom där det kan beläggas att metoderna inte är <strong>till</strong>ämpliga.<br />
SCB:s generella programvara för <strong>granskning</strong> heter GRETA. Programmet är särskilt<br />
flexibelt när det gäller ändringar i kontroller. I kombination med programmet<br />
AGDA kan acceptansgränser nästan helt automatiskt anpassas <strong>till</strong> de data som ska<br />
granskas. Processdata från <strong>granskning</strong>en genereras automatiskt på ett sätt som gör<br />
det möjligt att skapa generella rutiner för sammanställning och presentation av<br />
statistik över <strong>granskning</strong>en.<br />
1.3.2 God svarskvalitet förutsätter att uppgiftslämnaren<br />
• har kapacitet att ta fram data<br />
• exakt förstår innebörden i frågor och definitioner<br />
• är motiverad att lämna så korrekta uppgifter som möjligt<br />
• ges instrument att undvika slarvfel.<br />
Uppgifter bör vara lätt <strong>till</strong>gängliga och ska helst finnas i uppgiftslämnarens informationssystem.<br />
Det är ofta bättre att samla in data med definitioner som är för<br />
uppgiftslämnaren än med dem som vore de ideala för undersökningen. Undvik<br />
begreppsförvirring! Uppgiftslämnarna ska förstå vad de ska svara på. Och vi<br />
måste veta vad svaret avser.<br />
Hög kvalitet i indata kan uppnås om<br />
• frågorna är anpassade <strong>till</strong> uppgiftslämnarnas kapacitet (uppgifter <strong>till</strong>gängliga)<br />
• definitioner och begrepp är lätt <strong>till</strong>gängliga i anslutning <strong>till</strong> respektive fråga<br />
(förståelsen)<br />
• uppgiftslämnaren uppmuntras – generellt och i anslutning <strong>till</strong> svårare frågor<br />
– att kontakta undersökningens uppgiftslämnarservice (förståelsen)<br />
• uppgiftslämnaren får effektiv information om undersökningens betydelse<br />
och eventuellt belönas, t.ex. genom att uppgiftslämnaren får nyckeltal,<br />
resultat, publikationer o.d. (motivera)<br />
• uppgiftslämnaren vägleds att kontrollera sina svar (inga slarvfel).<br />
10
Principer<br />
Krav på uppgiftslämnarservicen:<br />
• hög <strong>till</strong>gänglighet, dvs. ständig jour under dagtid<br />
• telefonsvarare<br />
• fax<br />
• e-post<br />
• kunnig personal, som ska<br />
– besvara frågorna<br />
– fråga efter andra eventuella problem<br />
– dokumentera och registrera frågor och problem!<br />
• flexibilitet i form av längre jourtid och ökad bemanning när insamlingen är<br />
som intensivast.<br />
1.3.3 Klassificering av fel<br />
Granskningsprocessen ska effektivt identifiera och åtgärda betydelsefulla fel. En<br />
klassificering av fel och kontroller gör det lättare att uppnå hög effektivitet (identifiera<br />
de betydelsefulla felen med låg resursförbrukning).<br />
Fel klassificeras i<br />
Uppenbara fel: Kan identifieras säkert med enbart <strong>till</strong>gång på data om det<br />
granskade objektet.<br />
Misstänkta fel: Kontroller kan enbart ”säga” att ett variabelvärde är<br />
”misstänkt”.<br />
Misstänkta fel klassificeras i<br />
Avvikelsefel: Värdet på testvariabeln är för stort eller för litet.<br />
Definitionsfel: Exempel: Felaktigt svarsbeteende. Många uppgiftslämnare uppfattar<br />
en fråga eller underliggande definitioner på ett likartat men felaktigt sätt.<br />
1.3.4 Bra kontroller – förutsättning för god effektivitet i<br />
<strong>granskning</strong>en<br />
För att <strong>granskning</strong>en ska kunna höja kvaliteten fordras<br />
• hög träffsäkerhet när det gäller att hitta betydelsefulla misstänkta fel<br />
• hög kvalitet i verifieringsarbetet.<br />
Kontroller och acceptansgränser för speciellt misstänkta fel måste ändras i takt<br />
med de allt snabbare förändringarna i näringsliv och samhälle.<br />
Verifieringen av felsignaler måste utföras av välutbildad personal enligt välplanerade<br />
rutiner.<br />
Problem<br />
• Kontroller kan öka skevheten.<br />
Exempel: Om sannolikheten är mycket högre att identifiera fel som medför överskattning<br />
än att identifiera dem som medför underskattning. (Det finns exempel<br />
där acceptansgränserna inte täckte medianvärdet av värdena på kontrollfunktionen.)<br />
• Kontroller hittar inte förekommande allvarliga systematiska fel.<br />
Exempel: inliers dvs. felaktiga värden som ligger innanför varje rimligt val av<br />
acceptansgränser.<br />
11
Principer<br />
12<br />
• Kontrollsystemet kan orsaka över<strong>granskning</strong>:<br />
– För många felsignaler kan fördröja publiceringen dvs. minskad tidskvalitet.<br />
– Stora enstaka fel drunknar i mängden av felmeddelanden.<br />
– Nya fel <strong>till</strong>förs och uppgiftslämnarproblem döljs.<br />
Uppkommer genom felaktiga åtgärder för att objektet ska passera<br />
genom kontrollsystemet.<br />
• Felsignalerade värden ändras felaktigt.<br />
1.3.5 Systematisk insamling av data över felkällor<br />
Kontrollsystemet kan bli effektivt om<br />
• kontrollerna och kontrollsystemet utvärderas i ett autentiskt datamaterial<br />
• data över <strong>granskning</strong>ens effekter genereras kontinuerligt (processdatasystemet,<br />
se ovan)<br />
• data över felkällor insamlas och analyseras<br />
• datamaterialet analyseras för att identifiera eventuella inliers.<br />
Med hjälp av <strong>granskning</strong>sprogrammet GRETA kan man se effekter av kontroller<br />
och acceptansgränser.<br />
SAS/Insight ger möjligheter att identifiera inliers och andra förekommande systematiska<br />
fel samt är ett hjälpmedel när det gäller att finna bra kontroller för misstänkta<br />
fel och att avgöra att acceptansgränser ligger rätt.<br />
Vår uppfattning<br />
Processperspektivet och kontrollerna för identifiering av inliers torde öka<br />
kvaliteten väsentligt mer än vad traditionell <strong>granskning</strong> gör.
2 Vilka fel ska <strong>granskning</strong>en hitta?<br />
Vilka fel ska <strong>granskning</strong>en hitta?<br />
I <strong>granskning</strong> utförs kontroller av data. En del kontroller kan fastslå att det finns fel<br />
i ett visst variabelvärde eller bland vissa variabelvärden. Andra kontroller kan enbart<br />
säga att variabelvärden ser misstänkta ut. Troligen finns det ett fel, men det<br />
ifrågasatta värdet kan också vara korrekt.<br />
Värden som kontroller med säkerhet kan konstatera att de är fel kallar vi för<br />
uppenbara fel, medan de värden som identifieras på grundval av att de ser misstänkta<br />
ut och visar sig vara fel kallas för misstänkta fel.<br />
Kategorin uppenbara fel är alltså reserverad för kontroller som med säkerhet identifierar<br />
att uppgifter saknas eller är felaktiga. Ett ”uppenbart” fel betyder emellertid<br />
inte alltid att det är uppenbart ens för en kunnig användare på ämnesområdet.<br />
Ett exempel är fel i identitetsvariabler. Sådana fel upptäcks dock alltid när de<br />
används i matchningar o.d. – genom det kaos de orsakar i produktionssystemet.<br />
Data kan misstänkas vara felaktiga av i huvudsak två skäl: de avviker mycket från<br />
övriga data i samma stratum eller ser ut att vara exempel på ett visst felaktigt<br />
svarsbeteende. Vi kallar den första gruppen för avvikelsefel och den andra gruppen<br />
för definitionsfel. I engelskspråkig litteratur används begreppet inliers för den senare<br />
typen av fel, beroende på att sådana värden normalt accepteras av de kontroller<br />
som används för att avslöja avvikelsefel.<br />
Avvikelsefel upptäcks genom att variabelvärdet eller värdet på testvariabeln är<br />
misstänkt litet eller stort i förhållande <strong>till</strong> vad som är förväntat för den del av populationen<br />
som objektet <strong>till</strong>hör. Det avviker så mycket från övriga värden att det<br />
kan ha en oacceptabelt stor inverkan på skattningen.<br />
Definitionsfel uppstår när många uppgiftslämnare uppfattar en fråga på likartade<br />
men felaktiga sätt eller när de (medvetet eller omedvetet) <strong>till</strong>ämpar andra definitioner<br />
än undersökningens. I företagsstatistik har ett sådant, systematiskt felaktigt,<br />
svarsbeteende sin grund i att uppgiftslämnaren hämtar data direkt från sitt informationssystem<br />
utan att ge akt på att definitionerna inte överensstämmer eller att<br />
han eller hon inte vill eller kan ta fram svar enligt undersökningens definitioner.<br />
Definitionsfelen är en typ av mätfel.<br />
Vi har infört denna ”klassificering” av fel för att dessa utgör skilda <strong>granskning</strong>sproblem.<br />
För det första gör detta det enklare att inse hur man ska identifiera avvikelsefel<br />
på ett effektivt sätt. För det andra vill vi understryka att en väsentlig<br />
uppgift för <strong>granskning</strong>en är att hitta förekommande systematiska definitionsfel.<br />
När det gäller avvikelsefelen, är det främst en fråga om att uppnå hög träffsäkerhet<br />
i kontrollerna. Just detta misslyckas många processer med, vilket framför allt<br />
medför onödiga kostnader som en direkt följd men kan även få men för kvaliteten,<br />
Granquist and Kovar 1997.<br />
Definitionsfelen kan från kvalitetssynpunkt vara den allvarligaste feltypen, och de<br />
kan dessvärre vara synnerligen svåra att identifiera med enbart kontroller. Det behövs<br />
ytterligare åtgärder som t.ex. extra frågor i blanketten.<br />
13
Vilka fel ska <strong>granskning</strong>en hitta?<br />
2.1 Uppenbara fel<br />
Många – men nödvändigtvis inte alla – uppenbara fel måste elimineras i betydelsen<br />
att efter <strong>granskning</strong> ska de ifrågavarande felen inte finnas för något enskilt<br />
objekt. Det är undersökningens kvalitetsansvarige som måste ta ställning <strong>till</strong> vilka<br />
uppenbara fel som ska tas bort. Bedömningen ska göras utifrån produktionsprocessens<br />
krav och hur statistiken används och presenteras.<br />
Dessutom är det inte enbart en kvalitetsfråga utan kan även vara en fråga om användares<br />
förtroende för statistiken. En användare som hittar ett i och för sig betydelselöst<br />
fel i ett enskilt objekt kan se det som bevis för slarv i <strong>granskning</strong>en och<br />
tänka att det då säkert finns många andra fel i statistiken. Detta gäller fel som en<br />
användare utan kännedom om objektets identitet kan fastslå som fel.<br />
Några exempel på uppenbara fel av typen att de skulle kunna upptäckas även av<br />
användare med <strong>till</strong>gång <strong>till</strong> ett avidentifierat material är:<br />
• validitetsfel, dvs. det registrerade värdet <strong>till</strong>hör inte variabelns värdeförråd<br />
(<strong>till</strong>åtna värden)<br />
• motsägelser, dvs. svar på en fråga motsäger svar på en annan eller andra<br />
frågor<br />
• saknade värden på frågor där värden måste finnas t.ex. enligt undersökningens<br />
krav, svar på andra frågor, <strong>till</strong>gänglig bakgrundsinformation osv.<br />
• datastruktur- eller modellfel, dvs. definitionsmässiga samband mellan<br />
variabler satisfieras inte.<br />
Exempel: ”Antal män” ska vara mindre än eller lika med ”summa män och<br />
kvinnor”; svaret på en summavariabel ska överensstämma med summan av<br />
uppgifterna för delvariablerna.<br />
Exempel på uppenbara fel som orsakar kaos eller ställer <strong>till</strong> med avsevärt trassel i<br />
<strong>granskning</strong>s- och produktionsprocessen är:<br />
• fel i identitetsvariabler, speciellt objektsidentiteter<br />
• validitetsfel i variabler som anges i numeriska koder där antalet koder är<br />
stort, dvs. den angivna koden finns inte i kodförteckningen.<br />
Speciellt är fel i identitetsvariabler allvarliga. Sådana fel innebär t.ex. att matchning<br />
mot bakgrundsdata och tidigare inhämtade data misslyckas.<br />
Generellt är det relativt enkelt att identifiera uppenbara fel i betydelsen att konstruera<br />
kontroller för att upptäcka uppenbara fel enligt definitionen. De data som<br />
signaleras av kontrollerna för uppenbara fel ska praktiskt taget alltid innebära att<br />
det finns något fel i någon av de variabler som omfattas av kontrollen, men man<br />
vet inte genast vilken. Men i de fall man utifrån objektets data maskinellt kan<br />
identifiera det felaktiga värdet är det en fördel att <strong>till</strong> kontrollen koppla en maskinell<br />
ändringsrutin som ersätter det felaktiga värdet med ett bättre. En summeringskontroll<br />
kan t.ex. förses med en gräns under vilken en felaktig summering av<br />
uppgiftslämnaren accepteras och åtgärdas med att summavariabeln ändras <strong>till</strong><br />
summan av delvariablernas värden.<br />
Partiellt bortfall<br />
Ett speciellt problem är partiellt bortfall, dvs. att uppgiftslämnaren har lämnat en<br />
fråga obesvarad trots att det finns uppgifter att redovisa. Partiellt bortfall måste<br />
praktiskt taget alltid åtgärdas, eftersom det annars medför underrapportering som<br />
14
Vilka fel ska <strong>granskning</strong>en hitta?<br />
är större ju större det partiella bortfallet är. (Vi utgår från att man inte betraktar<br />
objektet som objektsbortfall när partiellt bortfall förekommer för ett relativt litet<br />
antal variabler.) Detta betyder att produktionsprocessen också måste kunna<br />
identifiera partiellt bortfall för alla variabler där bortfallet är av betydelse.<br />
Dessvärre kan det för en del variabler vara svårt att få det partiella bortfallet att<br />
<strong>till</strong>höra kategorin uppenbara fel, dvs. att konstruera kontroller som med säkerhet<br />
kan påvisa att värden är utelämnade. Problemet är särskilt besvärligt för undersökningar<br />
där uppgiftslämnare normalt har data att redovisa enbart för en del av variablerna,<br />
t.ex. produktion, försäljning eller export avseende ett antal specificerade<br />
varor; sådda arealer eller skördar för ett antal specificerade grödor; djurbestånd för<br />
ett antal angivna djurkategorier osv.<br />
Det gäller dock att söka få fram en så fullständig mängd kontroller som möjligt<br />
som med säkerhet kan påvisa att variabelvärde saknas. För detta krävs det ofta<br />
djupa ämneskunskaper och -erfarenheter. Men man måste nog också angripa<br />
problemet via blankettutformning och -anvisningar för att minska risken t.ex. att<br />
kräva att uppgiftslämnaren ska skriva in ”0” när inget finns att redovisa och ”kan<br />
ej” när en fråga inte kan besvaras. När det inte är uppenbart att en obesvarad fråga<br />
är partiellt bortfall, får man klassificera uppgiften som definitionsfel.<br />
2.2 Misstänkta fel<br />
För att misstänkta fel ska vara intressanta från kvalitetssynpunkt måste de ha betydelse<br />
på skattningsnivå. Det betyder antingen att ett enskilt (avvikelse-)fel påverkar<br />
skattningen eller att sammanlagda effekten av ett antal fel (avvikelsefel<br />
med samma tecken eller definitionsfel) gör det. Därför ska misstänkta fel ha<br />
effekter på skattningsnivå för att ingå i målet för <strong>granskning</strong>soperationen.<br />
2.2.1 Avvikelsefel<br />
Signaler från kontroller inriktade på avvikelsefel innebär oftast enbart att det finns<br />
misstanke om fel. Dessa data måste alltså undersökas ytterligare för att man ska<br />
kunna fastställa om de är felaktiga eller inte. När man måste ta kontakt med uppgiftslämnaren<br />
för att utreda frågan blir det kostsamt för båda parter. Därför måste<br />
de maskinella kontrollerna ha hög träffsäkerhet i att identifiera avvikelsefel som är<br />
betydelsefulla för skattningarna.<br />
Antalet betydande avvikelsefel för en variabel är relativt lågt i de flesta undersökningar.<br />
Detta är empiriskt bekräftat av den mångfald studier i olika former av traditionella<br />
<strong>granskning</strong>sprocesser som genomförts världen över (se t.ex. Granquist<br />
and Kovar 1997). De visar att i traditionell <strong>granskning</strong> med snäva acceptansgränser<br />
felsignaleras många observationer. Av dessa är det ofta inte mer än 30 procent<br />
som är felaktiga, och uppemot 80–90 procent av dessa upptäckta fel har ingen<br />
inverkan alls på skattningarna.<br />
Många avvikelsefel uppstår på grund av slarv antingen hos uppgiftslämnaren eller<br />
vid dataregistreringen. De uppträder därför slumpartat, men felens riktning och<br />
storlek behöver därför inte vara ”likformigt fördelade”. Eftersom vissa slarvfel<br />
kan vara mycket stora, måste avvikelsekontroller ingå i varje <strong>granskning</strong>sprocess.<br />
Antalet fel av betydelse per variabel kan emellertid förväntas vara lågt. Detta bör<br />
15
Vilka fel ska <strong>granskning</strong>en hitta?<br />
man ta hänsyn <strong>till</strong> när man utformar kontroller och acceptansgränser för<br />
avvikelsekontroller.<br />
2.2.2 Definitionsfel<br />
Tills för ett par år sedan har mycket litet intresse ägnats åt definitionsfel, trots att<br />
feltypen ur kvalitetssynpunkt mycket väl kan vara den som medför störst skevhet i<br />
skattningarna. Den internationella benämningen på feltypen, inliers, är dock<br />
egentligen ett snävare begrepp än definitionsfel. (Se DesJardins 1997 och Winkler<br />
1997.)<br />
Definitionsfel uppstår när en uppgiftslämnare har svårigheter att förstå innebörden<br />
av en fråga, saknar möjligheter att besvara den eller är omedveten om att definitionen<br />
på variabeln avviker från den definition uppgiftslämnaren <strong>till</strong>ämpar i sitt informationssystem.<br />
Om feltypen är frekvent för en variabel, kan felen i praktiken<br />
inte identifieras med avvikelsekontroller. Många uppgiftslämnare <strong>till</strong>ämpar ju<br />
samma felaktiga svarsbeteende. Observera att ovan omnämnda studier av <strong>granskning</strong>sprocesser<br />
också belägger att snäva acceptansgränser är en dålig metod när<br />
det gäller att hitta definitionsfel.<br />
Vid programmet AM/FS (Företagsbaserad sysselsättning) har man sedan ett par år<br />
<strong>till</strong>baka systematiskt arbetat med att förebygga definitionsfel. Man besöker uppgiftslämnare<br />
ute på företag/organisationer som har ansvar för många urvalsobjekt i<br />
en given undersökning. Kontakter tas även med representanter från dataservicebyråer<br />
som levererar och ger stöd <strong>till</strong> programvara hos flera uppgiftslämnare. Vid<br />
dessa personliga besök klargör man definitionerna och reder ut ett stort antal missuppfattningar<br />
i fråga om centrala variabler för undersökningen. Exempelvis<br />
gjordes under hösten 2000 ett besök hos TietoEnator, där man <strong>till</strong>sammans med<br />
systemerare och programmerare samt personal från kundsupport gick igenom<br />
undersökningen Kortperiodisk sysselsättningsstatistik för offentlig sektor (KSO).<br />
Man gick igenom variabel för variabel för att hitta potentiella fallgropar i löneprogrammet<br />
”Respons” (en programvara som finns hos ett 30-tal kommuner).<br />
Arbetet innebär att skapa insikt i att allvarliga definitionsfel förekommer, att identifiera<br />
felkällan och att finna åtgärder för att komma <strong>till</strong> rätta med felkällan.<br />
I ”CBM: Fråga rätt” anges i exempel 9.4.1 på sidan 78 att SCB ändrade definitionen<br />
på en variabel (under året nedlagda kostnader) <strong>till</strong> den definition som 90<br />
procent av uppgiftslämnarna alltid <strong>till</strong>ämpade (under året fakturerade kostnader).<br />
Därmed kunde man spara in det omfattande <strong>granskning</strong>sarbete som bestod i att<br />
undersöka vilken definition uppgiftslämnaren <strong>till</strong>ämpade och att ändra siffrorna<br />
för 90 procent av objekten. Omräkning <strong>till</strong> nedlagda kostnader, vilket användarna<br />
kräver, görs nu maskinellt.<br />
Fråga rätt redovisar i exempel 9.4.2 på sidan 79 en ändring av undersökningsdesignen<br />
som minskade arbetet vid <strong>granskning</strong> både för SCB:s personal och för uppgiftslämnarna.<br />
En stor del av <strong>granskning</strong>sarbetet ägnades åt småföretagen, som<br />
hade betydande svårigheter att lämna så detaljerade uppgifter om sin verksamhet<br />
som efterfrågades i postenkäten. I en simuleringsstudie konstaterade man att arbetet<br />
med småföretagen endast marginellt påverkade resultatens <strong>till</strong>förlitlighet.<br />
Metodstudier visade att man via modellberoende skattningar kunde skatta parametrar<br />
för småföretagen med en handfull av svaren i den ursprungliga 50-talet<br />
16
Vilka fel ska <strong>granskning</strong>en hitta?<br />
frågor stora blanketten. Den förenklade blanketten för småföretagen medförde<br />
också en dramatisk ökning av svarsfrekvensen.<br />
Ett par exempel från andra sidan Atlanten får ytterligare belysa problemen.<br />
Exempel 1: Slakteriundersökning<br />
I USA:s slakteriundersökning får de utvalda slakterierna veckovis ange bl.a.<br />
mängden slaktade djur och sammanlagd slaktvikt för varje förekommande djursort.<br />
Vid en översyn av <strong>granskning</strong>ssystemet i samband med en övergång <strong>till</strong> ett<br />
pc-baserat produktionssystem, visade det sig att ett stort antal slakterier lämnade<br />
exakt eller nästan exakt samma uppgifter vecka efter vecka. Möjligen skulle man<br />
kunna acceptera att antalet slaktade djur inte varierar över tiden, åtminstone när<br />
det gäller de slakterier som går för full kapacitet. Men den sammanlagda slaktvikten<br />
kan omöjligen vara densamma vecka från vecka. Man konstruerade därför<br />
en kontroll av tidsserietyp som felsignalerade de slakterier där variationen i slaktvikt<br />
var för låg i förhållande <strong>till</strong> slakteriets tidigare rapporterade slaktvikter. (Se<br />
Mazur 1990.)<br />
Kommentar: I detta fall lyckades man genom kontroller identifiera det felaktiga<br />
svarsbeteendet att i praktiken inte lämna uppgifter.<br />
Exempel 2: Lönestatistik<br />
Bureau of Labor Statistics (BLS) i USA producerar varje månad en lönestatistik<br />
för arbetare. Man genomför också regelbundna svarsanalysstudier. Lönebegreppet<br />
är uppbyggt av mer än 100-talet komponenter, s.k. löneslag, av vilka vissa<br />
ska räknas med, medan andra inte ska tas med. I en svarsanalysstudie undersöktes<br />
om uppgiftslämnarna inkluderade och exkluderade lönekomponenter enligt<br />
lönestatistikens definitioner. Man frågade också de uppgiftslämnare som inte<br />
följde anvisningarna om de i fortsättningen skulle kunna rapportera enligt undersökningens<br />
definitioner. I följande lönestatistik beräknade man estimaten för dem<br />
som ändrade beteende och jämförde resultaten med estimaten för en kontrollgrupp.<br />
Då fann man att för den viktigaste variabeln, Lönen för arbetare i direkt<br />
produktionsarbete, blev det i första gruppen 10.7 med standardavvikelsen 3.2 att<br />
jämföra med 1.6 för kontrollgruppen. (Se Werking m.fl. 1988.)<br />
Kommentar: Eftersom det är fråga om en konsistent felrapportering över tiden,<br />
kan den inte upptäckas med kontroller som bygger på jämförelser över tiden. Ett<br />
sätt att lösa problemet med komponentuppbyggda variabler är att i blanketten<br />
bygga in kontrollfrågor, t.ex. på följande sätt: ”När du svarade på den här frågan<br />
tog du med … och utelämnade ….? Om inte, markera om du i fortsättningen kan<br />
redovisa uppgiften enligt våra anvisningar.”<br />
Definitionsfel som tar sig uttryck i att uppgiftslämnaren inte besvarar en fråga<br />
(inte förstår den, inga data i informationssystemet, för mycket arbete att ta fram<br />
data) indikeras genom högt partiellt bortfall för variabeln. Ibland kan de identifieras<br />
i kontrollerna mot uppenbara fel. Här är uppföljningen av felsignalerna särskilt<br />
viktig, och det är granskarens uppgift att identifiera felorsaken, dvs. felkällorna.<br />
Data från övriga uppgiftslämnare kan här vara mycket osäkra, varför imputeringar<br />
som bygger på dessa data kan få mycket låg kvalitet.<br />
Metoder för att hitta definitionsfel som beror på att uppgiftslämnaren ”tar vad han<br />
har” är:<br />
• skräddarsydda kontroller som i exempel 1 ovan<br />
• kontrollfrågor i blanketten som i exempel 2 ovan<br />
• analys av data med syftet att identifiera felaktiga svarsmönster, t.ex. genom<br />
att använda SAS/INSIGHT (se kapitel 5).<br />
17
Vilka fel ska <strong>granskning</strong>en hitta?<br />
Hela undersökningsprocessen ska genomsyras av att man identifierar felkällor av<br />
definitionsfeltyp och partiellt bortfall (som beroende på kontrolltyp kan hänföras<br />
<strong>till</strong> både uppenbara fel och definitionsfel, se avsnittet om uppenbara fel). Design<br />
av undersökningen, blanketter, uppgiftslämnarservice (se avsnitt 3.2.1), uppföljningen<br />
av felsignaler och evalvering är medel utöver kontroller i blanketten och i<br />
<strong>granskning</strong>sprocessen.<br />
2.3 Referenser<br />
DesJardins, D. (1997): Experiences With Introducing New Graphical Techniques for the Analysis<br />
of Census Data, Work Session on Statistical Data Editing, Prague, Working Paper No. 19.<br />
Granquist, L and Kovar, J (1997): Editing of Survey Data: How much is enough? In L. Lyberg, P<br />
Biemer M. Collins, E. Leeuw, C. Dippo, N. Schwarz, D. Trewin (eds) Survey Measurement and<br />
Process Quality, Wiley, New York, 1997, pp. 415–436.<br />
Mazur, C. (1990): Statistical Edit System for Livestock Slaughter Data, Staff Research Report No.<br />
SRB-90-01, Washington, DC: U.S. Department of Agriculture.<br />
<strong>Statistiska</strong> <strong>centralbyrån</strong> (2001): Fråga rätt! – Utveckla, testa, utvärdera och förbättra blanketter.<br />
CBM-rapport juni 2001.<br />
Werking, G., Tupek, A. and Clayton, R. (1988): CATI and Touchtone Self-Response Applications for<br />
Establishment Surveys, Journal of Official Statistics, 4, pp. 349–362.<br />
Winkler, W. (1997): Problems With Inliers, ECE, Work Session on Statistical Data Editing,<br />
Prague, Working Paper No. 22.<br />
18
3 Var ska <strong>granskning</strong>en ske?<br />
Var ska <strong>granskning</strong>en ske?<br />
Data kan granskas i ett eller flera olika skeden av insamlings- och produktionsprocessen:<br />
• Uppgiftslämnar<strong>granskning</strong>: Utförs av uppgiftslämnaren (t.ex. vid besvarande<br />
av postenkät eller elektronisk blankett) eller av uppgiftslämnare<br />
och intervjuare gemensamt i intervjuundersökningar.<br />
• Manuell för<strong>granskning</strong>: En manuell process som äger rum omedelbart<br />
före dataregistrering.<br />
• Dataregistrerings<strong>granskning</strong>: Verifiering av de uppenbara fel som dataregistreringsprogrammet<br />
identifierar.<br />
• Produktions<strong>granskning</strong> eller batch-<strong>granskning</strong>: Verifiering av de variabler<br />
och objekt som flaggas av <strong>granskning</strong>sprogrammet. Oftast körs<br />
programmet för en mängd (batch) dataregistrerade objekt i taget, s.k. omgångar.<br />
• Output<strong>granskning</strong>: Granskning när allt material är insamlat för kontroll<br />
av att inga stora misstag har gjorts i de tidigare processerna.<br />
I postenkätundersökningar är det vanligt att alla dessa fem processer förekommer<br />
– även om såväl uppgiftslämnar<strong>granskning</strong> som manuell för<strong>granskning</strong> och output<strong>granskning</strong><br />
är mycket mindre processer än t.ex. dataregistrerings- och produktions<strong>granskning</strong>en.<br />
Frågan är hur man ska bygga upp en <strong>granskning</strong>sprocess på ett<br />
bra sätt och vilka delprocesser som ska ingå? Hur detta ska lösas för en specifik<br />
undersökning beror t.ex. på antalet undersökningsvariabler, hur komplicerade<br />
variablerna är, hur data insamlas, vilken kvaliteten är i insamlade data, vilken teknik<br />
och vilka programvaror som finns <strong>till</strong>gängliga.<br />
Varje undersökningsansvarig måste ta ställning <strong>till</strong> följande frågor:<br />
• Vilken eller vilka delprocesser behövs egentligen?<br />
• Är det verkligen nödvändigt med mer än en stor delprocess?<br />
• Hur ska delprocesser samordnas för att man ska undvika bl.a. dubbelarbete<br />
och onödiga uppgiftslämnarkontakter?<br />
Syftet med avsnitt 3.1 är att ge underlag och vägledning för att i varje enskild undersökning<br />
besvara dessa frågor. Rekommendationer för vad som bör tas med i de<br />
delprocesser som förekommer i en postenkätundersökning redovisas i 3.2. I avsnitt<br />
3.3, om elektronisk datainsamling, diskuteras det som utmärker dessa metoder<br />
jämfört med postenkät. Slutligen berörs i avsnitt 3.4 <strong>granskning</strong> av registerdata.<br />
3.1 Undvik flera stora delprocesser?<br />
Datakvaliteten kan förväntas bli högre ju närmare uppgiftslämnandet eller insamlingen<br />
av data som <strong>granskning</strong> sker. Vid t.ex. prisinsamling i butiker och vid<br />
besöks- eller telefonintervjuer bör all <strong>granskning</strong> ske i butiken respektive under<br />
intervjun. Därför rekommenderar vi i 3.2 satsningar på uppgiftslämnarservice<br />
både när uppgiftslämnaren själv tar kontakt med SCB och när inkommande<br />
blanketter är så bristfälligt ifyllda att man måste återkontakta uppgiftslämnaren.<br />
19
Var ska <strong>granskning</strong>en ske?<br />
Dessutom ska man se <strong>till</strong> att uppgiftslämnaren instrueras att granska sina svar. Det<br />
senare kallar vi uppgiftslämnar<strong>granskning</strong>.<br />
Vi framhåller att en fördel med <strong>granskning</strong> vid dataregistrering är att den ofta äger<br />
rum strax efter uppgiftslämnandet. Därmed menar vi att när uppgiftslämnarna behöver<br />
återkontaktas, har de uppgiftslämnandet i färskt minne. En annan fördel är<br />
att blanketten finns framför ögonen på den som granskar. Ingen tid krävs för att ta<br />
fram och sortera blanketter. Dessutom kan ”om<strong>granskning</strong>” av ändringar eller nya<br />
värden ske omedelbart vid registreringen.<br />
Men räcker det med endast dataregistrerings<strong>granskning</strong> i postenkäter? Behövs det<br />
över huvud taget mer än en stor <strong>granskning</strong>sprocess? Fördelen med det är att man<br />
minskar risken för dubbelarbete. En annan fördel är att uppgiftslämnare inte kommer<br />
att kontaktas mer än en gång. Det främsta skälet <strong>till</strong> att vi kraftfullt varnar för<br />
omfattande manuell för<strong>granskning</strong> (3.2.3) är just risken för att man vid efterföljande<br />
dataregistrerings<strong>granskning</strong> gör om mycket av det som redan utförts (se t.ex.<br />
Linacre and Trewin 1989).<br />
Observera även att <strong>granskning</strong>sprocessen som sådan har rationaliserats oerhört<br />
tack vare att datortekniken gjorde det möjligt att integrera registrering, kodning<br />
och <strong>granskning</strong> i pc-miljö (se t.ex. Bethlehem et al. 1989, Granquist 1992 och<br />
Pierzchala 1995). Internationellt uppmärk-sammade man denna möjlighet tidigt<br />
och utvecklade generella program-varor för registrering och samtidig <strong>granskning</strong>,<br />
t.ex. BLAISE (Holland), DC2 (Canada), IPS (Australien) och IMPS (USA). Vid<br />
SCB finns programmet Rode/pc.<br />
Om man har flera stora delprocesser, måste man vidta åtgärder för att undvika det<br />
dubbelarbete och de upprepade återkontakter som kan uppstå <strong>till</strong> följd av att man<br />
har flera större processer. Man får då sätta och utnyttja <strong>granskning</strong>skoder i <strong>granskning</strong>sprogrammen<br />
samt planera verifieringsprocesserna noggrant.<br />
Ett allvarligare problem kan vara att hela <strong>granskning</strong>en tar längre tid. Om <strong>granskning</strong>en<br />
fördröjer publiceringen av statistiken, måste kvalitetsförbättringen på<br />
grund av <strong>granskning</strong>en motivera den försämrade tidskvaliteten. Det gäller också<br />
att förvissa sig om att man faktiskt uppnår en kvalitetsförbättring. Återkontakter<br />
med uppgiftslämnaren kan t.ex. komma att tas så långt efter uppgiftslämnandet att<br />
man inte får högre svarskvalitet.<br />
Man måste ha goda motiv för att t.ex. i postenkätfallet ha ytterligare en stor process<br />
utöver dataregistrerings<strong>granskning</strong>. Skäl kan vara att angelägna kontroller<br />
inte kan utföras i dataregistrerings<strong>granskning</strong> eller att kontroller kan göras mycket<br />
effektivare i t.ex. produktions<strong>granskning</strong>. Det är då fråga om kontroller som<br />
kräver data från andra insamlade objekt. Produktions<strong>granskning</strong> bör då reserveras<br />
enbart för sådana kontroller.<br />
Output<strong>granskning</strong> bör alltid finnas, eftersom huvudsyftet är att säkerställa att inga<br />
stora fel har sluppit igenom tidigare utförd <strong>granskning</strong>. Här rekommenderar vi<br />
grafisk <strong>granskning</strong> (se kapitel 5).<br />
Vid elektronisk datainsamling, som diskuteras i 3.3, bör man vara mycket försiktig<br />
med att låta processen följas av någon annan process än output<strong>granskning</strong>.<br />
Det är särskilt vid uppgiftslämnar<strong>granskning</strong> med elektroniska blanketter som en<br />
sådan situation kan uppstå. Huvudregeln är att <strong>granskning</strong>en vid SCB måste <strong>till</strong>-<br />
20
Var ska <strong>granskning</strong>en ske?<br />
föra något nytt, t.ex. kontroller som bedöms vara för komplicerade för uppgiftslämnaren.<br />
Men man bör absolut inte göra om det som uppgiftslämnaren redan har<br />
gjort.<br />
Checklista för hela <strong>granskning</strong>sprocessen<br />
‰ Ange de <strong>granskning</strong>sprocesser som kan vara aktuella:<br />
{ manuell uppgiftslämnar<strong>granskning</strong><br />
{ manuell för<strong>granskning</strong><br />
{ dataregistrerings<strong>granskning</strong><br />
{ produktions<strong>granskning</strong><br />
{ output<strong>granskning</strong>.<br />
‰ Prioritera bland dessa.<br />
‰ Begränsa antalet processer, men output<strong>granskning</strong> (helst i grafisk form)<br />
bör dock alltid finnas med.<br />
3.2 Granskning av postenkäter<br />
Vi ska här följa de olika faser som en blankett i en SCB-undersökning kan passera<br />
från det att den besvaras av uppgiftslämnaren <strong>till</strong>s objektets data bedöms vara färdiggranskade.<br />
Genom numrerade rubriker urskiljer vi i varje fas i produktionsprocessen<br />
de <strong>granskning</strong>sprocesser och aktiviteter/processer som syftar <strong>till</strong> att höja<br />
svarskvaliteten.<br />
Bilagan <strong>till</strong> kapitel 3 presenterar ett flöde över <strong>granskning</strong>sprocessen i en postenkätundersökning.<br />
Fas 1 – Svarsprocessen<br />
När uppgiftslämnaren tar emot enkäten, blir den första åtgärden att sätta sig in i<br />
frågorna. Vad vill SCB ha svar på? Kan jag besvara frågorna? Var hittar jag uppgifterna?<br />
I huvudsak är det blanketten med sina anvisningar som ska ge uppgiftslämnaren<br />
<strong>till</strong>räcklig information om vilka uppgifter som begärs. Introduktionsbrev om undersökningens<br />
syfte och förekommande anvisningar om variabeldefinitioner<br />
hjälper också uppgiftslämnaren att förstå frågornas innebörd.<br />
Nästa problem för uppgiftslämnaren är att undersöka: Vilka data kan hämtas direkt<br />
från informationssystemet (redovisningssystem, bokföring, kunskaper, minnesbilder<br />
med mera)? Vilka data behöver tas fram på annat sätt? Vilka data går<br />
inte att få fram?<br />
När svårigheter uppstår, är det många uppgiftslämnare som kontaktar SCB. Frågorna<br />
kan gälla:<br />
• om objektet faktiskt <strong>till</strong>hör målpopulationen<br />
• vilka definitioner som <strong>till</strong>ämpas<br />
• vad frågorna innebär<br />
• vad som ska göras när svaren inte kan hämtas direkt ur uppgiftslämnarens<br />
informationssystem, t.ex. på grund av skillnader i definitioner, referensperiod<br />
eller detaljeringsgrad.<br />
Vi rekommenderar att uppgiftslämnaren på alla sätt uppmuntras att ta kontakt med<br />
undersökningens uppgiftslämnarservice. Uppmaningar att ta kontakt bör gärna<br />
21
Var ska <strong>granskning</strong>en ske?<br />
göras upprepade gånger i blanketten, introduktionsbrevet och de anvisningar som<br />
ofta bifogas.<br />
3.2.1 Uppgiftslämnarservice<br />
Uppgiftslämnarservicen måste ha hög kvalitet. Tillgängligheten ska vara hög – det<br />
ska alltid finnas någon som svarar. Erfaren och kunnig personal ska omsorgsfullt<br />
och uppmuntrande ta hand om uppgiftslämnaren. Uppgiftslämnaren ska få all den<br />
hjälp som han eller hon anser sig behöva.<br />
Fördelar med god uppgiftslämnarservice är att<br />
• ingående datakvalitet blir högre<br />
• kunskaper om uppgiftslämnarens problem erhålls<br />
• behovet av att senare i produktionsprocessen ta kontakt med<br />
uppgiftslämnaren minskar<br />
• uppgiftslämnaren lär sig, vilket kan medföra högre kvalitet i svaren vid<br />
nästa undersökning.<br />
Kontakterna med uppgiftslämnarna ska dokumenteras, så att man kan göra statistik<br />
över frågor och identifierade problem. Vissa uppgifter bör också återföras <strong>till</strong><br />
registret eller databasen för att undvika att man tar kontakt med uppgiftslämnaren<br />
i frågor som man redan känner svaren på (en uppgift för systembyggaren).<br />
Checklista för uppgiftslämnarservice<br />
‰ Bemanning: kort eller lång tid av dygnet<br />
{ Telefonsvarare<br />
{ Fax<br />
{ E-post<br />
‰ Se <strong>till</strong> att personalen är kunnig och erfaren.<br />
‰ Skriv i blankett, introduktionsbrev och anvisningar på flera ställen att upp-<br />
giftslämnarservice finns och bör användas.<br />
‰ Dokumentera samtliga samtal på en lista med åtminstone kolumnerna: tid-<br />
punkt; uppgiftslämnare; fråga; tidsåtgång.<br />
3.2.2 Uppgiftslämnarens egen <strong>granskning</strong><br />
Många ambitiösa uppgiftslämnare kontrollerar på eget initiativ sina uppgifter när<br />
blankettens frågor besvaras. Det kan vara kontroller av att siffror skrivs korrekt;<br />
bedömning av att data är rimliga t.ex. i jämförelse med tidigare rapporteringar;<br />
kontroller av att summor stämmer, en delpost är mindre än summaposten osv.<br />
Självklart blir svarskvaliteten högre, uppgiftslämnandet enklare och arbetet för<br />
SCB och uppgiftslämnare mindre, om blanketten uppmanar uppgiftslämnaren att<br />
göra sådana kontroller.<br />
Följaktligen rekommenderar vi att <strong>granskning</strong>en integreras med<br />
uppgiftslämnandet i postenkätundersökningar. Det kan göras genom att blanketten<br />
ger instruktioner <strong>till</strong> uppgiftslämnaren, som t.ex. att<br />
• summera delposterna och jämföra det erhållna resultatet med summaposten<br />
i bokföringen, vid misstämning kontrollera att ...<br />
• kvoten mellan värdet för variabel x och variabel y bör ligga i intervallet<br />
(a,b), om inte: kontrollera att ...<br />
22
Var ska <strong>granskning</strong>en ske?<br />
Idén är att uppgiftslämnaren uppmärksammas på vanligt förekommande fel och<br />
samtidigt ges ytterligare information om vad som efterfrågas. Vi får på så sätt en<br />
styrning av den <strong>granskning</strong> som många uppgiftslämnare ändå gör, samtidigt som<br />
vi (förhoppningsvis) kan få många fler att granska sina egna svar.<br />
Ett problem ligger i att blankettutrymmet i hög grad begränsar möjligheterna <strong>till</strong><br />
sådana självkontroller. Dessutom ska inte sådana kontroller medföra något egentligt<br />
merarbete för uppgiftslämnarna, utan kontrollerna ska upplevas som något<br />
naturligt som ger värdefull hjälp i uppgiftslämnandet. Uppmaningarna får dock<br />
absolut inte vara av generell karaktär som t.ex. ”kontrollera noga svaren på samtliga<br />
frågor”, ”kontrollera att alla frågor är besvarade”, utan de ska vara enkla och<br />
konkreta.<br />
Uppgiftslämnarna bör också i blanketten ges utrymme att förklara varför svar inte<br />
helt stämmer med vad som förväntas enligt anvisningarna, t.ex. när data ligger<br />
utanför ett angivet intervall. Det är också önskvärt att uppgiftslämnaren enkelt kan<br />
markera att en misstämning mot en blankettkontroll har beaktats, men att det<br />
lämnade svaret trots allt är korrekt.<br />
Checklista för manuell uppgiftslämnar<strong>granskning</strong><br />
‰ Förtryck tidigare uppgifter på blanketten.<br />
‰ Uppmana <strong>till</strong> summeringar och kontroll av dessa, t.ex.:<br />
{ Summor stämmer (t.ex. mot andra summor i blanketten eller mot<br />
summor i bokföringen).<br />
{ Delpost mindre än summan.<br />
{ Kvoten mellan värdet för variabel x och y bör ligga i (a,b).<br />
‰ Se <strong>till</strong> att kontrollerna inte innebär merarbete för uppgiftslämnarna.<br />
‰ Se <strong>till</strong> att kontrollerna uppfattas som meningsfulla.<br />
‰ Ge utrymme för kommentarer på blanketten.<br />
Fas 2 – Mottagningsprocessen<br />
Vid ankomsten <strong>till</strong> SCB hamnar blanketten i mottagningsprocessen, som omfattar<br />
allt arbete som föregår dataregistreringen. Exempel:<br />
• behandling av postreturer<br />
• behandling av blanketter från uppgiftslämnare som inte längre <strong>till</strong>hör (eller<br />
inte anser sig <strong>till</strong>höra) populationen<br />
• behandling av blanketter som ställts <strong>till</strong> felaktig adress/uppgiftslämnare<br />
(t.ex. på grund av ägarbyte)<br />
• uppdatering av utsändningsregistret.<br />
I mottagningsprocessen sker också <strong>granskning</strong>, som vi kallar manuell för<strong>granskning</strong>.<br />
Dess innehåll och omfattning ska utformas efter hur dataregistrering sker<br />
och vilket kodnings- och <strong>granskning</strong>sarbete som utförs vid dataregistreringen.<br />
3.2.3 Manuell för<strong>granskning</strong><br />
För<strong>granskning</strong>en har <strong>till</strong> uppgift att:<br />
• kontrollera att objektet <strong>till</strong>hör undersökningspopulationen<br />
• pricka av inkomna svar, såvida inte detta redan gjorts eller görs i ett senare<br />
skede<br />
23
Var ska <strong>granskning</strong>en ske?<br />
• kontrollera att blanketten är <strong>till</strong>räckligt ifylld för att den fortsatta behandlingen<br />
ska vara meningsfull<br />
• utföra kodning, sortomvandlingar m.m., om detta inte kan göras vid dataregistreringen<br />
• åtgärda uppenbara fel som granskaren omedelbart får ögonen på.<br />
När blanketten är o<strong>till</strong>räckligt ifylld eller när grova fel förekommer i strategiska<br />
variabler, måste uppgiftslämnaren kontaktas. Det är då oftast fråga om att vägleda<br />
uppgiftslämnaren att fylla i blanketten. Det är alltså fråga om samma uppgiftslämnarservice<br />
som när uppgiftslämnaren själv tar kontakt (se 3.2.1). Skillnaden ligger<br />
i att uppgiftslämnaren måste motiveras och att man ska söka förutse dennes speciella<br />
problem. I synnerhet vid nya undersökningar är det viktigt att dessa kontakter<br />
dokumenteras.<br />
Vi varnar generellt för omfattande för<strong>granskning</strong>. Principen är att det ska räcka<br />
med en snabb blick på blanketten för att kontrollera att det är meningsfullt att låta<br />
blanketten fortsätta i processen.<br />
Checklista för manuell för<strong>granskning</strong><br />
‰ Kontrollera att objektet <strong>till</strong>hör undersökningspopulationen.<br />
‰ Pricka av inkomna svar.<br />
‰ Kontrollera snabbt att blanketten ser ifylld ut.<br />
‰ Koda.<br />
‰ Gör erforderliga sortomvandlingar.<br />
‰ Åtgärda uppenbara fel som du omedelbart får syn på.<br />
‰ Undvik omfattande kontroller.<br />
‰ Kontakta uppgiftslämnaren när blanketten är för dåligt ifylld eller ser ut att<br />
ha grova fel i strategiska variabler.<br />
‰ Dokumentera samtal med uppgiftslämnarna samt rätta uppenbara fel.<br />
Fas 3 – Dataregistrering<br />
Blanketter som har godkänts i den manuella för<strong>granskning</strong>en ska därefter dataregistreras.<br />
Detta kan göras manuellt eller maskinellt, med s.k. skanning. Det<br />
senare blir allt vanligare i takt med att skanningtekniken utvecklas.<br />
Vid skanning skapas en elektronisk bild av varje blankett. Bilderna tolkas <strong>till</strong> data.<br />
Dessa kontrolleras med i huvudsak validitetskontroller. Det som inte kan tolkas<br />
och det som tolkas osäkert felmarkeras, liksom de värden som inte <strong>till</strong>hör variabelns<br />
värdeförråd. Felmarkerade objekt presenteras variabelvis för operatören för<br />
åtgärd.<br />
SCB:s skanningutrustning finns vid BV/ENK (Enkäter) i Örebro, och skanningen<br />
utförs av specialister. Även om utrustningen medger mer avancerade kontroller av<br />
data än enkla validiteskontroller, kan personalen normalt inte verifiera flaggningar.<br />
Men med den kapacitet SCB:s datanät har i dag kan filer från skanningen<br />
överföras <strong>till</strong> ämnesprogrammen för att verifieras där. Kontakta den skanningsansvarige,<br />
som i februari 2002 är Anis Kovacevic, för information och <strong>till</strong>varata<br />
den potential <strong>till</strong> <strong>granskning</strong> som skanningutrustningen utgör.<br />
24
Var ska <strong>granskning</strong>en ske?<br />
Registrering som integreras med <strong>granskning</strong> kallar vi dataregistrerings<strong>granskning</strong>.<br />
Denna kan utföras interaktivt – antingen variabelvis: variabelvis dataregistrerings<strong>granskning</strong><br />
eller objektvis: objektvis dataregistrerings<strong>granskning</strong>.<br />
3.2.4 Dataregistrerings<strong>granskning</strong><br />
Vid variabelvis dataregistrerings<strong>granskning</strong> stoppas registreringen så fort ett variabelvärde<br />
underkänns i någon kontroll. Registreringen kan fortsätta först när det<br />
flaggade värdet behandlats, dvs. godkänts, åtgärdats eller ”markerats” för senare<br />
verifiering. Markeringen ”görs” när operatören fortsätter inmatningen, antingen<br />
genom att en kod automatiskt påförs variabeln och objektet eller genom att den<br />
felkod som genererats vid flaggningen kvarstår.<br />
Vid registreringen verifieras vissa flaggningar omedelbart, medan de som tar<br />
längre tid verifieras när hela objektet har registrerats eller när ett antal objekt är<br />
klara – beroende på hur personalen finner det lämpligt att arbeta.<br />
Vid objektvis dataregistrerings<strong>granskning</strong> utförs <strong>granskning</strong>en först när alla<br />
värden för ett objekt har registrerats.<br />
Fördelar med dataregistrerings<strong>granskning</strong> är att<br />
• <strong>granskning</strong>en kan ske nära uppgiftslämnandet<br />
• registreringsfel och vissa andra typer av fel kan åtgärdas omedelbart och<br />
orsakar därmed inga problem i den fortsatta processen<br />
• blanketterna är omedelbart <strong>till</strong>gängliga för verifiering av felsignaler<br />
• blanketterna kan arkiveras mycket enkelt<br />
• kodning, sortomvandlingar och beräkningar av nya variabler, t.ex. summor,<br />
kan utföras automatiskt.<br />
Den enda begränsningen i dataregistrerings<strong>granskning</strong> är att kontrollers acceptansgränser<br />
måste vara helt specificerade innan den första blanketten behandlas. I<br />
dataregistrerings<strong>granskning</strong> kan man därför utföra alla kontroller för identifiering<br />
av uppenbara fel samt de kontroller mot misstänkta fel där acceptansgränser inte<br />
beror av data från hur andra objekt har svarat.<br />
Ett krav på dataregistrerings<strong>granskning</strong>en bör vara att all information som uppgiftslämnaren<br />
har <strong>till</strong>fört blanketten i form av kommentarer, upplysningar med<br />
mera registreras i syfte att pappersblanketten inte ska behöva tas fram i ett senare<br />
skede av produktionsprocessen.<br />
Checklista för dataregistrerings<strong>granskning</strong><br />
‰ Kontrollera identiteter.<br />
‰ Anpassa graden av tolkningssäkerhet vid skanning.<br />
‰ Lägg in kontroller för giltiga värden per variabel.<br />
‰ Avgör om verifiering ska göras<br />
{ löpande<br />
{ i efterhand<br />
{ kombinerat.<br />
‰ Registrera kommentarer, upplysningar m.m. från uppgiftslämnarna.<br />
25
Var ska <strong>granskning</strong>en ske?<br />
Fas 4 – Traditionell <strong>granskning</strong><br />
Efter dataregistrering och den <strong>granskning</strong> som utförts vid dataregistrering, granskas<br />
vår blankett <strong>till</strong>sammans med andra registrerade objekt i en s.k. produktionsomgång.<br />
En omgång består av de objekt som registrerats sedan föregående omgång.<br />
I äldre system, där man inte <strong>till</strong>ämpar interaktiv uppdatering, ingår i varje<br />
omgång även om<strong>granskning</strong> av de objekt som flaggats och som fått variabelvärden<br />
ändrade i tidigare omgångar. Vi kallar <strong>till</strong>s vidare denna <strong>granskning</strong>sfas för produktions<strong>granskning</strong>.<br />
3.2.5 Produktions<strong>granskning</strong><br />
Med produktions<strong>granskning</strong> avses den <strong>granskning</strong> som utförs på registrerade data<br />
för inkomna objekt, omgång för omgång <strong>till</strong>s insamlingen avslutats. Observera att<br />
identiteter måste ha kontrollerats innan produktions<strong>granskning</strong>sprogrammet kan<br />
köras. Normalt utförs <strong>granskning</strong>en i flera omgångar i takt med blankettinströmningen.<br />
När undersökningen går ut på att bearbeta administrativa register eller material<br />
som samlats in av andra, omfattar produktions<strong>granskning</strong>en alla objekt på en<br />
gång.<br />
För varje objekt som underkänns i någon av kontrollerna genereras ett felmeddelande<br />
som omfattar alla underkända variabelvärden samt vidtagna maskinella<br />
åtgärder. Meddelandena presenteras för <strong>granskning</strong>spersonalen – antingen i form<br />
av pappersutskrifter eller som interaktiva skärmbilder.<br />
En utförlig beskrivning av processen ges i kapitel 9. I kapitel 6 beskrivs generering<br />
av felmeddelanden och verifieringsprocessen.<br />
Produktions<strong>granskning</strong> omfattar kontroller mot såväl uppenbara som misstänkta<br />
fel samt automatiska åtgärdanden av vissa typer av uppenbara fel. Jämfört med<br />
processen med <strong>granskning</strong> i samband med dataregistreringen kan produktions<strong>granskning</strong>en<br />
innehålla en mer sofistikerad typ av kontroller mot misstänkta fel.<br />
Det är kontroller vars acceptansgränser beror av data från övriga objekt i undersökningen<br />
(kapitel 4) som kan utföras i produktions<strong>granskning</strong> men inte vid<br />
dataregistrerings<strong>granskning</strong>.<br />
Checklista för produktions<strong>granskning</strong><br />
‰ Presentera fel, flaggade värden och maskinellt ändrade värden för varje<br />
objekt för sig. Inom objektet ska felen osv. komma i samma ordning som<br />
variablerna gör på blanketten.<br />
‰ Formulera felen och flaggningarna så, att granskaren får ett bra underlag<br />
för verifieringsarbetet.<br />
‰ Bestäm hur felen respektive flaggningarna av misstänkta värden ska<br />
presenteras för granskaren:<br />
{ skärmbilder, en för varje felsignalerat objekt för interaktiv uppdatering,<br />
vilket vi rekommenderar<br />
eller<br />
{ papperslista med felsignaler samlade för varje felsignalerat objekt i<br />
blankettens variabelordning.<br />
26
Var ska <strong>granskning</strong>en ske?<br />
Fas 5 – Kvalitetssäkring<br />
När insamlingen avbryts och allt material har granskats, framställs tabeller. Vid tabelleringen<br />
kontrolleras tabellceller, oftast genom jämförelser med motsvarande<br />
tabellvärden för föregående period. Denna slut<strong>granskning</strong> kallar vi output<strong>granskning</strong>.<br />
3.2.6 Output<strong>granskning</strong><br />
Output<strong>granskning</strong>ens syfte är att kontrollera att inga allvarliga fel finns kvar i materialet.<br />
Kontroller utförs därför vanligen på aggregerade i stället för på enskilda<br />
variabelvärden. Granskning görs alltså primärt på tabellcellsnivå. Men sedan gäller<br />
det att identifiera det eller de objekt som gör att det aggregerade värdet blivit<br />
misstänkt. Det gör man genom att utföra kontroller för alla objekt som ingår i det<br />
misstänkta aggregatet. Granskningen görs alltså i två steg.<br />
• Steg 1: identifiering av misstänkta tabellceller.<br />
• Steg 2: identifiering av de mest misstänkta objekten inom den misstänkta<br />
tabellcellen.<br />
Output<strong>granskning</strong> kan numera också göras som grafisk slut<strong>granskning</strong> av mikrodata<br />
med EDA-metoder – med t.ex. programvaran SAS/Insight (se kapitel 5 och 8).<br />
Checklista för output<strong>granskning</strong><br />
‰ Välj metod:<br />
{ tabellcells<strong>granskning</strong><br />
{ <strong>granskning</strong> med EDA-metoder.<br />
Tabellcells<strong>granskning</strong><br />
‰ Identifiera misstänkta tabellceller genom<br />
{ jämförelse med tidigare resultat<br />
{ jämförelse med andra celler<br />
{ jämförelser med motsvarande aggregat från andra undersökningar.<br />
‰ Identifiera misstänkta objekt.<br />
3.3 Elektronisk datainsamling<br />
Vid SCB förekommer datorstödd datainsamling i form av elektroniska blanketter,<br />
datoriserade intervjuer (WinDATI) och s.k. tonvalsinsamlingar (Touchtone Data<br />
Entry, TDE). Elektroniska blanketter har fram <strong>till</strong> 2000 mestadels bestått av<br />
Excel-blanketter som distribueras och återsänds ifyllda via diskett eller e-post.<br />
Uppgiftsinsamling via webben finns för ett tiotal undersökningar. Exempel är:<br />
• Elenergiundersökningen (MR/EN), där 250 elenergiföretag i år (2000)<br />
erbjuds möjligheten att lämna uppgifter via webben<br />
• Räddningstjänststatistik (BV/BE), Hakim Sjöström<br />
• Verksamhetsstatistik Svenska Kyrkan (ES/OE), Håkan Johansson<br />
• Grundskolestatistik (AM/S), Kristina Lekeborn<br />
• Forskningsbibliotek och ytterligare tre undersökningar på BV, Kjell<br />
Tambour<br />
• Forskning och utveckling inom universitet och högskolesektorn (ES/FOI),<br />
Peter Skatt<br />
• Intrastat (ES/UH), Jan Sävenborg<br />
27
Var ska <strong>granskning</strong>en ske?<br />
Rapporter finns från insamlingen vid AM/S och ES/OE. För den senare, se Helena<br />
Karlsson (2001).<br />
År 2000 startade U/MET det s.k. indataprojektet som syftar <strong>till</strong> att samordna utvecklingen<br />
av applikationer för datainsamling. Stor vikt har lagts vid säkerhetsfrågor,<br />
verktyg samt metodfrågor vid blandad insamling. Projektet arbetar även<br />
med frågor kring standardisering av administrativ datainsamling via det för myndigheterna<br />
gemensamma Spridnings- och hämtningssystemet – SHS. SCB har<br />
medverkat i ett internationellt utvecklingsarbete, TELER-projektet, med målet att<br />
elektroniskt överföra data från uppgiftslämnarnas informationssystem <strong>till</strong> den statistiska<br />
myndigheten. Projektet har visat att kostnaderna för uppgiftslämnandet<br />
kan minska betydligt om de statistiska uppgifterna kan föras över <strong>till</strong> en s.k.<br />
elektronisk blankett direkt ur bokföringen och därefter överföras <strong>till</strong> statistikproducenten.<br />
För att vidareutveckla denna ansats måste ytterligare studier av bokföringssystem<br />
och SCB-undersökningar genomföras.<br />
Weeks (1992) diskuterar i en översikt de möjligheter som öppnas vid användning<br />
av olika verktyg för datorstödda insamlingsmetoder.<br />
3.3.1 Elektroniska blanketter<br />
Elektroniska blanketter innebär att uppgiftslämnare via diskett eller elektronisk<br />
kommunikation, t.ex. webben och e-post, får ett programpaket bestående av blankett<br />
(med anvisningar, definitioner, föregående rapporterade värden med mera)<br />
samt ett <strong>granskning</strong>sprogram, dvs. ett dataregistreringsprogram med förprogrammerade<br />
kontroller, felmeddelande- och uppdateringsrutiner osv. Ett sådant program<br />
för <strong>granskning</strong> vid dataregistreringen måste vara betydligt mer genomarbetat<br />
när det gäller utformning av felmeddelandetexter och annan information än vad<br />
programmen för dataregistrering av postenkäter brukar vara. Detta registreringsprogram<br />
kan också användas i registreringen och kontrollen av de pappersblanketter<br />
som kommer från uppgiftslämnare som föredrar att rapportera på vanligt sätt,<br />
och kan då hanteras även av ny personal eller i utbildning av personal.<br />
Generellt ställer elektroniska blanketter större krav på design av kontrollerna än<br />
vad som krävs vid dataregistrerings<strong>granskning</strong> av postenkäter. Kontrollerna måste<br />
upplevas som väsentliga av uppgiftslämnarna, dvs. träffsäkerheten i kontrollerna<br />
måste vara hög. Dessutom bör alla kontroller som behövs i <strong>granskning</strong>en finnas<br />
med. Någon mer <strong>granskning</strong> ska inte behövas utöver output<strong>granskning</strong>. Det är en<br />
fördel om <strong>granskning</strong>en här kan göras variabelvis, så att programmet stoppas när<br />
en felsignal initieras och det flaggade värdet kan verifieras omedelbart.<br />
Checklista för <strong>granskning</strong> vid elektronisk datainsamling<br />
Se <strong>till</strong> att:<br />
‰ felsignaler når uppgiftslämnarna just då de är i färd med att besvara frågorna<br />
och har <strong>till</strong>gång <strong>till</strong> det underlag som behövs. Alla slarvfel (t.ex.<br />
registrerings-, summerings- och konsistensfel) som tar sig uttryck i felsignaler<br />
kan därmed åtgärdas direkt av uppgiftslämnarna eller av programmet.<br />
‰ summeringar, andra sammanställningar, sortomvandlingar och härledda<br />
variabler beräknas av programmet och utgör därmed ett stöd för uppgifts-<br />
28
Var ska <strong>granskning</strong>en ske?<br />
lämnandet och verifieringen av felsignaler (jämför ovan själv<strong>granskning</strong>en<br />
i postenkätundersökningar)<br />
‰ anvisningar, definitioner på variabler dyker upp på skärmen när uppgiftslämnarna<br />
kommer <strong>till</strong> aktuell fråga eller när de begär det via att trycka på<br />
en hjälptangent<br />
‰ bakgrundsinformation, registrerade värden från tidigare rapporteringar med<br />
mera <strong>till</strong>handahålls uppgiftslämnarna vid besvarandet av varje fråga<br />
‰ felmeddelandena förser uppgiftslämnarna med tänkbara orsaker <strong>till</strong> flaggningen,<br />
vilket dels underlättar verifieringen, dels ger möjligheter <strong>till</strong> automatisk<br />
registrering av felorsaker<br />
‰ uppgiftslämnarna ges möjligheter att enkelt förmedla upplysningar. De ska<br />
kunna ge information <strong>till</strong> de särskilda omständigheter som gör att deras<br />
svar av programmet betecknas som ”misstänkta” eller varför de inte kan<br />
besvara frågor. Vidare ska de kunna ange om de följt anvisningarna om<br />
vilka komponenter som ska ingå i variabeln.<br />
‰ processen ger information om huruvida felsignalerade uppgifter verkligen<br />
har kontrollerats (verifierats) av uppgiftslämnarna eller inte<br />
‰ registreringar av tidsåtgång, ändringar, orsaker <strong>till</strong> ändringar, förklaringar<br />
<strong>till</strong> felsignaler, uppgifter om uppgiftslämnarkapacitet med mera görs<br />
automatiskt.<br />
Problem eller förutsättningar:<br />
• Uppgiftslämnarna måste ha <strong>till</strong>gång <strong>till</strong> pc och enkelt kunna öppna den<br />
elektroniska blanketten.<br />
• Vid diskettinsamling måste vid periodiska undersökningar individuella<br />
disketter framställas för varje uppgiftslämnare.<br />
• Disketthanteringen utgör ett visst administrativt problem jämfört med<br />
andra elektroniska insamlingsmetoder – större ju fler uppgiftslämnare som<br />
ingår i undersökningen.<br />
För mer detaljer om elektroniska blanketter, se Granquist, Hanaeus och Nilsson<br />
(1994) och Blom, Irebäck (2000).<br />
3.3.2 Tonvalsinsamling<br />
Tonvalsinsamling, Touch-tone Data Entry (TDE), innebär att uppgiftslämnarna<br />
via telefonens knappsats besvarar frågor på en blankett <strong>till</strong> en telefondator när som<br />
helst på dygnet.<br />
Tekniken kan enbart användas i undersökningar med högst 5–10 variabler.<br />
Bureau of Labor Statistics i USA har ca 15 års positiva erfarenheter av tekniken,<br />
som är billigare än både postenkäter och datorstödda telefonintervjuer (se Werking<br />
m.fl. 1988). I Sverige används tekniken av banker, försäkringsföretag, postorderföretag<br />
med flera. Vid SCB har tekniken använts bl.a. i socialbidragsstatistiken<br />
(Granquist 1994), och den används bl.a. i de undersökningar som anges i tablån:<br />
29
Var ska <strong>granskning</strong>en ske?<br />
Undersökning Ansvarig Objekt Periodici- Urvals- Antal Metod<br />
tet storlek variabler<br />
Partihandel och<br />
andra<br />
tjänsteföretag<br />
Detaljandelsundersökning<br />
Prisindex i<br />
producent-<br />
och importled<br />
(PPI)<br />
30<br />
Daniel<br />
Lennartsson<br />
Daniel<br />
Lennartsson<br />
Mats Haglund,<br />
Jan Lesins<br />
Partihandelsföretag<br />
och<br />
andra tjänsteföretag <br />
Detaljhandelsföretag<br />
Kvartalvis 4 000 1 TDE<br />
Månatlig 3 500 1 TDE<br />
Företag Månad 1 200 1–25 prisnoteringar,<br />
ca 3 i snitt<br />
TDE 65 procent,<br />
blankett 30<br />
procent,<br />
övrigt 5 procent<br />
Dataregistrering och <strong>granskning</strong> utförs av uppgiftslämnarna. Inknappade siffror<br />
motläses av telefondatorn, som utför validitets- och konsistenskontroller – varvid<br />
registrerings-, sort- och validitetsfel undviks redan vid källan. Sådana jämförelsekontroller<br />
måste vara enkla och helt naturliga för uppgiftslämnarna. Jämförelsetal<br />
mot inknappade eller tidigare rapporterade data meddelas omedelbart <strong>till</strong> uppgiftslämnarna,<br />
som då kan ta ställning <strong>till</strong> om lämnade data är rimliga eller inte. En<br />
erfarenhet från socialbidragsstatistiken är att uppgiftslämnarna reagerar på mindre<br />
förändringar än de gränser som <strong>till</strong>ämpades för motsvarande kontroller när data<br />
insamlades via postenkäter. Kontrollerna kan alltså göras parameterfria. Ytterligare<br />
en fördel är att man kan låta uppgiftslämnarna bekräfta att lämnade data är<br />
korrekta samt redovisa om vissa komponenter ingår eller är exkluderade i frågor. I<br />
likhet med elektroniska blanketter kan allt som sker i insamlingsprocessen automatiskt<br />
loggas, räknas och sammanställas.<br />
3.3.3 Datorstödda intervjuer<br />
Datorstödda intervjuer innebär att en intervjuare på en dator registrerar svar fråga<br />
för fråga – antingen vid egen utförd datainsamling, t.ex. prisinsamling i en butik,<br />
eller i en personlig intervju via telefon eller besök. Felmeddelanden kommer upp<br />
på skärmen så fort något svar ifrågasätts av de inprogrammerade kontrollerna. I<br />
intervjusituationen förmedlar intervjuaren meddelandet <strong>till</strong> intervjupersonen för<br />
verifiering. Ur kontrollprocessynpunkt gäller i övrigt samma riktlinjer som vid<br />
elektroniska blanketter, frånsett att felmeddelandetexten inte kräver samma omsorg.<br />
Notera särskilt att kontrollerna också här måste ha hög träffsäkerhet och vara<br />
uttömmande, så att behov av återkontakter elimineras.<br />
3.4 Registerdata<br />
Register är ett samlingsbegrepp för flera olika typer av förteckningar. Förteckningarna<br />
kan vara heltäckande eller avse en delmängd av en population (stor eller<br />
liten). Registret kan bygga på återkommande inventeringar och kompletteras med<br />
förändringar, anmälda eller observerade, under mellanliggande perioder. Fastighetstaxeringsregistret<br />
och lantbruksregistret är två exempel på denna typ av
Var ska <strong>granskning</strong>en ske?<br />
register. Register kan också vara rent händelsebaserade. Dödsorsaksregistret är ett<br />
exempel på detta.<br />
Register som upprättas av en annan myndighet eller organisation benämns ofta administrativa<br />
register. Administrativa register och även vissa externa databaser är<br />
primärt upprättade för andra ändamål än statistik.<br />
En kopia på ett administrativt register omvandlas <strong>till</strong> ett statistiskt register med<br />
hjälp av registerstatistiskt metodarbete. Ett led i det registerstatistiska metodarbetet<br />
är <strong>granskning</strong>. Med vår terminologi är det fråga om output<strong>granskning</strong> i syfte<br />
att identifiera kvarvarande fel efter den <strong>granskning</strong> som registerhållaren har utfört.<br />
Denna <strong>granskning</strong> kan ha brister speciellt i fråga om de variabler som inte är av<br />
primärt intresse för de ändamål som registret ska uppfylla. SCB kan dock inte<br />
kontakta uppgiftslämnaren för att verifiera misstänkta fel. Granskningen får därför<br />
begränsas <strong>till</strong> att man utarbetar en rapport över förekomst av uppenbara och misstänkta<br />
potentiellt betydande fel och om möjligt över förekomst av systematiska fel<br />
(felkällor) i registret. Uppenbara fel kan i vissa fall ersättas med korrekta värden,<br />
nämligen när det är uppenbart vilket fel uppgiftslämnaren har gjort. Rapporten kan<br />
ses som en kvalitetsdeklaration av registret för dem som ska använda det. Grafiska<br />
metoder för output<strong>granskning</strong> rekommenderas (se t.ex. kapitel 5, som behandlar<br />
grafisk <strong>granskning</strong>). Granskning av registerdata är ett problem som ännu inte aktualiserats<br />
internationellt. Något systematiskt utvecklingsarbete har inte heller<br />
gjorts vid SCB.<br />
Syftet med <strong>granskning</strong> av registerdata är att<br />
• upptäcka fel<br />
– uppenbara fel<br />
– misstänkta värden (statistiska outliers)<br />
• identifiera felkällor<br />
• kvalitetsdeklarera registret för statistisk användning.<br />
Kontroll av registerdata är en återkommande process som ska genomföras vid<br />
varje större uppdatering av registret.<br />
Skillnaden mellan eget insamlat material och externa databaser är att man i de senare<br />
inte har någon kontroll över datainsamlingen. I stora drag kan man känna <strong>till</strong><br />
vilka uppgifter som samlas in och ungefär när datainsamlingen äger rum. Dock<br />
saknar man ofta mer detaljerad information om exakt vilka uppgifter som samlas<br />
in och hur insamlat material granskas. Det är som regel svårt att från statistisk<br />
synpunkt påverka datainsamlingen, speciellt av variabler som inte är av primärt<br />
intresse för ägaren <strong>till</strong> databasen. Kontakt med databasägaren med t.ex. den ovan<br />
nämnda rapporten som underlag är i stort den enda möjligheten att på sikt kunna<br />
påverka registerkvaliteten och kontrollprocessens omfattning.<br />
Uppdatering av SCB:s register med hjälp av externa databaser kan ske på i princip<br />
två sätt. Antingen görs uppdateringen med hjälp av registrerade förändringar eller<br />
också görs den med hjälp av nya kopior av den externa databasen. Dataöverföring<br />
av externa databaser sker i dag på elektronisk väg. I många fall upprättas ett<br />
parallellt register på SCB, en kopia, där uppgifterna från de externa databaserna<br />
samlas.<br />
31
Var ska <strong>granskning</strong>en ske?<br />
3.4.1 Kontrollprocess<br />
I Lindström (1999) behandlas kvalitetssäkring av register. Man kan i allmänhet<br />
inte påverka (”förbättra”) kvaliteten i inkommande data.<br />
Indirekta metoder används för kontroll av inkommet material: konsistenskontroller<br />
mellan variabler, att klassificeringsvariabler antar godkända värden osv. Output<strong>granskning</strong><br />
för olika redovisningsgrupper ger möjligheter att undersöka om<br />
antalet objekt är rimligt eller om fördelningen av antalet objekt på olika redovisningsgrupper<br />
är rimligt. På motsvarande sätt kan man utnyttja output<strong>granskning</strong><br />
för att kontrollera aggregat på redovisningsgrupper, såsom medelvärden och totaler,<br />
för några centrala variabler. Jämförelsematerial är tidigare produktionsomgångar<br />
eller andra register. Information från databasägaren om version, period och<br />
antal observationer måste naturligtvis utnyttjas.<br />
Även om man hittar fel, är det i praktiken inte möjligt att verifiera felen. Det vi<br />
rekommenderar är att man i en rapport dokumenterar vilka kontroller som utförts,<br />
vilka variabler som kontrollerats samt ger en beskrivning av misstänkta värden<br />
(med hjälp av t.ex. kontrollfunktion, intervall). Rapporten ska överlämnas <strong>till</strong><br />
databasägaren för kännedom. Den bör om möjligt innehålla en systematiskt<br />
uppställd felstatistik som underlag för diskussioner av prioriterade åtgärder.<br />
I register med många variabler är det inte rimligt att kontrollera alla variabler utan<br />
endast dem som är nödvändiga för officiell statistik och vanliga återkommande<br />
<strong>till</strong>ämpningar, t.ex. urvalsramar. Om registret ska användas för andra <strong>till</strong>ämpningar,<br />
måste man överväga om man behöver göra ytterligare kontroller för att se i<br />
vilken utsträckning registret kan användas för <strong>till</strong>ämpningen i fråga.<br />
En kontrollprocess bör innehålla följande moment:<br />
• kontroll av att dataöverföringen fungerar<br />
• kontroll av att period och version är korrekt<br />
• kontroll av att alla objekt finns med<br />
• variabelkontroll av för SCB intressanta variabler<br />
• kontroll av identitetsvariabler<br />
• kontroll av att variabelvärden är rimliga (konsistenskontroller, godkända<br />
värden)<br />
• frekvensberäkningar för vanliga indelningsvariabler (output<strong>granskning</strong>).<br />
En sammanställning av vilka kontroller som genomförts och resultatet av kontrollerna<br />
ska skickas <strong>till</strong> databasägaren samt dokumenteras i den interna kvalitetsdeklarationen.<br />
Även fältobservationer av misstänkta fel, när registret används som<br />
t.ex. urvalsram, ska dokumenteras. Denna dokumentation lämnas <strong>till</strong> den registeransvarige<br />
på SCB.<br />
Ett problem med kontroll av och kvalitet på statistiska register sammanställda med<br />
hjälp av en eller flera externa databaser kan bero på ”envägskommunikation”. (A)<br />
är ägaren <strong>till</strong> en extern databas. Mottagaren (B) på SCB är den registeransvarige.<br />
Användaren (C) av registret är en person på eller utanför SCB. Man kan förutsätta<br />
att alla tre kontrollerar registret måhända med olika utgångspunkter. Om kontakterna<br />
mellan de tre olika instanserna är begränsad och envägs (A→B→C), är det<br />
hög risk att onödigt merarbete uppstår. För att undvika onödigt arbete krävs samarbete<br />
mellan A, B och C. Detta kan man t.ex. åstadkomma med rapporter över<br />
32
Var ska <strong>granskning</strong>en ske?<br />
uppenbara eller misstänkta fel. Återkommande och samordnade evalveringsstudier<br />
kan förbättra kvaliteten på sikt.<br />
3.4.2 Process- och kontrollvariabler<br />
Speciellt frekvens- och antalsberäkningar är enkla processvariabler med hjälp av<br />
vilka man bland annat kan upptäcka om alla objekt kommit med. Tidsserier i form<br />
av frekvenser för respektive aggregat för centrala variabler är ett annat exempel på<br />
kontrollvariabler. Genom att matcha mot andra register, t.ex. en tidigare version,<br />
kan man hitta avvikare. Ofta är det <strong>till</strong>räckligt med jämförelser på aggregerad<br />
nivå, men ibland behöver jämförelser göras på objektsnivå för enstaka variabler.<br />
En sammanfattning av dessa kontroller ska infogas i den dokumentation som<br />
överlämnas <strong>till</strong> databasägaren.<br />
Kontroller kan genomföras både på objektsnivå och på aggregerad nivå (redovisningsgrupper).<br />
Output<strong>granskning</strong>, kontroll på aggregerad nivå, kan utföras t.ex.<br />
grafiskt med hjälp av SAS/Insight och jämförelse av tabellceller med hjälp av<br />
Excel.<br />
3.4.3 Dokumentation av kontrollprocessen<br />
Alla kontroller och kontakter med databasägaren ska dokumenteras. Uppdatera<br />
proceduren med aktuella acceptansgränser. Inkludera även fältobservationer av<br />
uppenbara fel när registret används som t.ex. urvalsram. Stora register måste dokumenteras<br />
i metadata med tydlig information om vilka variabler som kontrollerats.<br />
3.5 Referenser<br />
Bethlehem, J.G., A. J. Hundepool, M. H. Schuerhoff, and L. F. M. Vermeulen (1989), ”BLAISE<br />
2.0 An Introduction”, Vorburg, The Netherlands: Central Bureau of Statistics, February 1989<br />
Blom, E. och Irebäck Hans (2000): Utveckling av elektronisk datafångst 2001 – 2003.<br />
PM 2000-01-31.<br />
Granquist L. (1992): ”Granskningsprocessen i omvandling genom integrering av databeredningsarbetet”,<br />
GRANSK-PM NR 28, 1992–05–18.<br />
Granquist L., C.-G. Hanaeus och G. Nilsson (1994): ”Elektronisk distribution och insamling av<br />
data – Erfarenheter och generella slutsatser från ett försök”, Rapport 30 juni 1994<br />
Granquist, L. (1994): ”Tonvalsinsamling i Socialbidragsstatistiken”, Slutrapport 30 juni 1994<br />
Karlsson, Helena (2001): ” Insamling av verksamhetsstatistik”, Utvärdering 2001–04–09<br />
Linacre, S. J., and D. J. Trewin (1989), ”Evaluation of Errors and Appropriate Resource Allocation<br />
in Economic Collections”, Proceedings of the US Bureau of the Census Fifth Annual Research<br />
Conference, U. S. Department of Commerse, Bureau of the Census, March 19–22, 1989, pp. 197–<br />
209.<br />
Lindström, Håkan L. (1999); Kvalitetssäkring i register för statistikproduktion med administrativt<br />
underlag. Rapport från Registerprojektet, November 1999, SCB.<br />
Pierzchala, M. (1995), ”Editing Systems and Software”, in B.G. Cox, D.A. Binder, N. Chinnappa,<br />
A. Christianson, M.J. Colledge and P.S. Kott (eds.) Business Survey Methods, New York: Wiley,<br />
pp. 425–441.<br />
Weeks, M. F. (1992), ”Computer-Assisted Survey Information Collection: A Review of CASIC<br />
Methods and Their Implications for Survey Operations”, Journal of Official Statistics, Vol. 8,<br />
No.4, 1992, pp. 445–465.<br />
Werking, G., A. Tupek, and R. Clayton (1988), ”CATI and Touchtone Self-Response Applications<br />
for Establishment Surveys”, Journal of Official Statistics, Vol. 4, No.4, 1988, pp. 349–362.<br />
33
Var ska <strong>granskning</strong>en ske?<br />
Bilaga kapitel 3<br />
Granskningsprocessen i en postenkätundersökning<br />
34<br />
Förbättring av<br />
insamlings- och<br />
produktionsprocessen<br />
Svarsprocessen:<br />
Besvarande av<br />
enkät och manuell<br />
uppgiftslämnar<strong>granskning</strong><br />
Problem?<br />
Nej<br />
Manuell<br />
för<strong>granskning</strong><br />
Dataregistrerings<strong>granskning</strong><br />
Produktions<strong>granskning</strong><br />
Output<strong>granskning</strong><br />
Uppgiftslämnarservice<br />
Ja<br />
Återkontakt<br />
Dokumentation av<br />
problem med<br />
besvarande av<br />
enkät<br />
Lagring av<br />
processdata i<br />
systemdatabasen<br />
Insamling av<br />
processdata
4 Kontrollmetoder<br />
Kontrollmetoder<br />
I kapitel 2 klassificeras fel i uppenbara och misstänkta fel. Misstänkta fel delas i<br />
sin tur in i avvikelsefel och definitionsfel. Klassificeringen motiveras med att<br />
feltyperna representerar skilda <strong>granskning</strong>sproblem.<br />
I det här kapitlet diskuterar vi underlag för formulering av kontroller i allmänhet<br />
och metoder för att effektivisera avvikelsekontroller i synnerhet. Metoder för<br />
identifiering av definitionsfel tas upp i kapitlet om grafisk <strong>granskning</strong>.<br />
Avsnitten om avvikelsekontroller <strong>till</strong>handahåller generella råd och rekommendationer,<br />
redovisar några utvalda metoder för selektiv <strong>granskning</strong> och beskriver i<br />
detalj en metod för effektivisering av kvotkontrollen.<br />
Checklista för kontrollmetoder<br />
‰ Klassificera möjliga fel i uppenbara och misstänkta fel.<br />
‰ Skilj mellan avvikelse- och definitionsfel.<br />
‰ Begränsa och samordna kontrollerna för misstänkta fel.<br />
‰ Anpassa kontrollernas acceptansgränser <strong>till</strong> aktuella data.<br />
‰ Använd grafiska metoder i output<strong>granskning</strong>en, men också i produktions<strong>granskning</strong>.<br />
‰ Sammanställ statistik över kontrollers träffsäkerhet.<br />
‰ Sikta mot minst 60 procent träffsäkerhet.<br />
4.1 Underlag för formulering av kontroller<br />
Utifrån kunskaper inom sakområdet och goda insikter i de informationsbehov som<br />
undersökningen ska <strong>till</strong>godose kan man konstruera kontroller för att identifiera i<br />
synnerhet uppenbara fel.<br />
Källor för utformning av kontroller är dessutom<br />
• blanketten<br />
• definitioner och anvisningar för undersökningsvariabler<br />
• information i urvalsram och utsändningsregister<br />
• dataanalys (EDA) med hjälp av t.ex. SAS/Insight på data från undersökningen<br />
• processdata och övriga erfarenheter.<br />
4.1.1 Några speciella problem<br />
Vissa variabler – särskilt i den ekonomiska statistiken – måste av skatterättsliga<br />
eller juridiska orsaker eller av jämförbarhetsskäl följa definitioner som fastställs<br />
och revideras av särskilda nationella och internationella organ. Begreppet lön<br />
innehåller t.ex. cirka 200 komponenter. I en statistisk undersökning kan många av<br />
dessa komponenter vara irrelevanta och får inte räknas in i variabeln lön för att<br />
<strong>till</strong>godose undersökningens syften. Vilka komponenter som ska inkluderas och<br />
vilka som ska exkluderas måste klart framgå av variabeldefinitionen eller av anvisningar<br />
<strong>till</strong> uppgiftslämnarna.<br />
35
Kontrollmetoder<br />
Problemet är att få reda på om uppgiftslämnarna verkligen följer anvisningarna.<br />
För sådana typer av variabler ska det övervägas om man i stället ska fråga efter<br />
samtliga komponenter och maskinellt beräkna undersökningsvariabeln genom<br />
additioner och subtraktioner.<br />
Ett alternativ är att enbart fråga efter de komponenter som ska vara med och<br />
antingen fråga efter summan eller maskinellt beräkna summan som en undersökningsvariabel.<br />
Man kan också i blanketten ställa frågor av typen:<br />
”När du svarade på frågan nnnn räknade du då in komponent bbbb, komponent<br />
cccc,…, och såg <strong>till</strong> att värden på komponent xxxx, komponent yyyy ,…, inte finns<br />
med i de lämnade siffrorna. Om du inte gjorde detta, ange varför och ange också<br />
om du i framtiden skulle kunna rapportera enligt våra önskemål.”<br />
Sådan information kan användas i skattningen – men framför allt vid förbättringar<br />
av undersökningen.<br />
Ett liknande situation uppstår när en variabel (summavariabel) är uppdelad på ett<br />
antal delvariabler, som alla är viktiga undersökningsvariabler. Svaret på summavariabeln<br />
ska då vara lika med summan av delvariablernas värden. Vid <strong>granskning</strong>en<br />
söker man alltid att imputera värden på delvariablerna när svar endast finns<br />
på summavariabeln och att i övrigt säkerställa att summan aritmetiskt stämmer<br />
med summavariabelns värde. Kontroller för att se <strong>till</strong> att värdena på delvariablerna<br />
summerar sig <strong>till</strong> värdet på summavariabeln kallas balanskontroller.<br />
Det är viktigt att ta fram statistik över behovet av imputeringar för delvariablerna<br />
och över frekvensen förändringar av summavariabeln. Stort behov av imputeringar<br />
tyder på att uppgiftslämnarna har svårt att ge värden på delvariablerna. Många<br />
ändringar i summavariabeln indikerar att vi har att göra med en allvarlig felkälla.<br />
Ett alternativ som bl.a. föreslagits av Linacre and Trewin (1989) är att bara fråga<br />
efter delvariablerna och maskinellt beräkna summavariabeln.<br />
En annan möjlighet är att föra in t.ex. följande anvisning och uppgiftslämnarkontroll:<br />
”Ange delvärdena. Beräkna summan av dess och jämför med motsvarande<br />
uppgift i bokföringen innan du för in värdet på summaraden.”<br />
Båda fallen illustrerar att man måste integrera utformningen av mätinstrument och<br />
datainsamling med konstruktionen av kontroller.<br />
4.1.2 Blanketten<br />
Blanketten utgör huvudunderlaget för formulering av kontroller, i synnerhet mot<br />
uppenbara fel.<br />
Kontroller kan skapas genom att man systematiskt går igenom blanketten och dess<br />
variabler på följande sätt: För varje variabel noterar man vilka värden som är <strong>till</strong>låtna.<br />
Därefter anger man för variabel nummer 1 vilka värden som är <strong>till</strong>åtna i<br />
kombination med variabel 2, 3, 4 osv. Sedan gör man samma sak för variabel 1<br />
och 2 <strong>till</strong>sammans med variabel 3, 4 osv. Eftersom varje enskild variabel endast är<br />
relaterad <strong>till</strong> högst en handfull andra variabler, är proceduren inte särskilt arbetskrävande.<br />
Men det är ett effektivt sätt att se <strong>till</strong> att man garderar sig mot alla möjliga<br />
konsistens- och strukturfel.<br />
36
Kontrollmetoder<br />
Kompletterande källor för identifiering av speciellt partiellt bortfall är informationen<br />
i urvalsramen eller utsändningsregistret samt data från tidigare perioder och<br />
eventuella andra undersökningar.<br />
4.1.3 Studier i datamaterialet<br />
Kontroller mot systematiska fel, definitionsfel och avvikelsefel bygger i första<br />
hand på ämneskunskaper. Ett viktigt komplement <strong>till</strong> ämneskunskaperna är att<br />
man studerar materialet (dataanalys) när man skapar kontroller. Den primära<br />
uppgiften är att<br />
• testa kontroller<br />
• finna lämpliga acceptansgränser för kontrollerna<br />
• finna på förhand okända misstänkta svarsmönster, för kontroller mot definitionsfel.<br />
Vi rekommenderar att man använder SAS/Insight. I denna programvara finns det<br />
stöd för att skapa testvariabler. Man kan även göra transformationer av testvariabler,<br />
vilket underlättar val av acceptansgränser. Effekten av valda acceptansgränser<br />
kan lätt avläsas.<br />
Dessutom gör programvaran det möjligt att identifiera misstänkt felaktiga svarsmönster,<br />
dvs. systematiska svarsfel. Detta ska utnyttjas för att skapa kontroller<br />
mot definitionsfel.<br />
4.1.4 Processdata och erfarenheter<br />
Alla potentiellt betydelsefulla felkällor kan inte förutses. Nya felkällor uppstår på<br />
grund av teknisk och administrativ utveckling samt genom förändringar av olika<br />
slag i samhället. Förändringarna i datamaterialet aktualiserar nya eller förändrade<br />
kontroller samt val av acceptansgränser.<br />
Det finns två möjligheter att identifiera behov av förändring av kontroller och<br />
justering av acceptansgränser:<br />
• processdata<br />
• analys av effekter av <strong>granskning</strong> i data med hjälp av SAS/Insight.<br />
Processdata används för att identifiera felkällor och justering av parametrar i<br />
acceptansgränserna. Processdata är en central och viktig information om insamlings-<br />
och produktionsprocessen (se kapitel 5 och 6). Man kan säga att<br />
processdata är en systematisk sammanställning av erfarenheter.<br />
SAS/Insight används för att identifiera felaktiga svarsmönster, dvs. hitta och<br />
kvantifiera möjliga definitionsfel, för att analysera och kontrollera acceptansgränser,<br />
för att analysera processdata och för att studera effekten av <strong>granskning</strong>en.<br />
4.2 Generella tips för effektiva avvikelsekontroller<br />
Övergripande metoder för identifiering av avvikande observationer är att:<br />
• skapa effektiva kontroller som är väl anpassade <strong>till</strong> undersökningens data<br />
(Det är en fördel om kontrollerna kan utformas så att verifieringsarbetet<br />
kan prioriteras <strong>till</strong> de potentiellt största felen.)<br />
• begränsa antalet möjliga kontroller per variabel <strong>till</strong> de mest effektiva<br />
37
Kontrollmetoder<br />
• prioritera verifieringsarbetet, t.ex. med poängfunktioner, <strong>till</strong> de potentiellt<br />
viktigaste objekten.<br />
Dessa förslag kan med fördel <strong>till</strong>ämpas samtidigt, vilket illustreras av Engström<br />
(1995).<br />
4.2.1 Effektiva kontroller<br />
Kontroller för misstänkta avvikelsefel ska<br />
• ha minst 60 procent träffsäkerhet<br />
• hitta de flesta felen, åtminstone fel med betydande effekt på undersökningens<br />
resultat.<br />
SAS/Insight är ett hjälpmedel för att studera kontrollernas egenskaper med<br />
avseende på<br />
• symmetri<br />
• acceptansgränser<br />
• gruppering.<br />
Av kapitel 2 framgår att det förväntade antalet avvikelsefel per variabel är lågt,<br />
troligen någon enstaka procent av antalet observationer. I kombination med målet<br />
att varje kontroll ska ha hög träffsäkerhet, minst 60 procent, innebär det att avvikelsekontroller<br />
inte ska felsignalera mer än högst 3–4 procent av de rapporterade<br />
variabeluppgifterna.<br />
Det är en fördel om testvariabeln har en någorlunda symmetrisk fördelning, eftersom<br />
man då slipper en parameter i acceptansområdet.<br />
4.2.2 Kontroller mot avvikelsefel<br />
En kontroll för misstänkta fel består av en testvariabel och ett acceptansområde. I<br />
kontrollen kan det också ingå ett villkor som avgör vilka objekt som ska kontrolleras.<br />
Exempel på testvariabler (kontroller) som används i KLP<br />
Genomsnittlig timlön = {Lönesumma}/{Arbetade timmar}<br />
Arbetade timmar per anställd = {Arbetade timmar}/{Antal anställda}<br />
Relativ förändring = {Lönesumma månad t}/{Lönesumma månad t-1}<br />
Regeln som avgör om ett objekt ska felsignaleras eller inte benämns acceptansgränser.<br />
Området som gränserna omsluter kallas acceptansområde. Granskningen<br />
kan ofta bli mer effektiv om man delar in populationen i grupper.<br />
Exempel på acceptansområde<br />
Antag att en kontroll med testvariabeln ”Genomsnittlig timlön” har acceptansområdet<br />
(50,120). Ett företag felsignaleras då om värdet på ”Genomsnittlig timlön” är<br />
mindre än 50 eller större än 120.<br />
Ämnesmässiga fakta och framför allt empiriska studier på data från tidigare undersökningar<br />
(med hjälp av analysprogram, som t.ex. SAS/Insight) ger ofta en god<br />
uppfattning om kontroll, acceptansgränser och lämpliga grupperingar. När gruppering<br />
är aktuell, anpassas acceptansgränserna <strong>till</strong> respektive grupp.<br />
38
Kontrollmetoder<br />
Exempel på gruppering av populationen<br />
Beroende på löneavtal och lönestrukturer har testvariabeln ”Genomsnittlig timlön”<br />
olika egenskaper inom olika näringsgrenar, när det gäller både nivå och variation.<br />
Det är därför rimligt att skräddarsy acceptansgränser för ”Genomsnittlig timlön”<br />
för varje näringsgren.<br />
4.2.3 Begränsning av antalet kontroller<br />
Man skulle kunna tro att man, för att gardera sig mot olika tänkbara fel, borde<br />
konstruera många kontroller för varje variabel. Emellertid måste man vara uppmärksam<br />
på att de enskilda kontrollerna faktiskt bidrar <strong>till</strong> att identifiera fel med<br />
rimlig träffsäkerhet. Det finns många exempel på att de fel som ”extra”-kontroller<br />
hittar även upptäcks av en annan kontroll av variabeln. Det medför att ”extra”kontrollen<br />
enbart ökar antalet onödiga felsignaler. Därför måste man för varje<br />
variabel välja ut de kontroller som effektivast identifierar fel – helst genom att<br />
man utvärderar på data från undersökningen. En eller högst två kontroller för en<br />
variabel är i allmänhet <strong>till</strong>räckligt.<br />
Exempel på reducering av antalet kontroller<br />
I en lönestatistik kan för kontroll av lönesumma och antal arbetade timmar<br />
följande fyra kontroller vara tänkbara:<br />
{lönesumma}/{lönesumma föregående period}<br />
{arbetade timmar}/{arbetade timmar föregående period}<br />
{beräknade timlönen}/{beräknade timlönen föregående period}<br />
{lönesumman}/{arbetade timma}<br />
Vid en studie fann vi att för kontroll av såväl lönesumma som antal arbetade timmar<br />
var det <strong>till</strong>räckligt med lönesumma dividerat med antal timmar. De tre övriga<br />
kontrollerna bidrog inte <strong>till</strong> identifiering av felaktiga observationer utan ökade enbart<br />
andelen onödigt flaggade observationer.<br />
4.2.4 Prioritering av objekt genom poängfunktioner<br />
En framgångsrik metod att begränsa verifieringen <strong>till</strong> de misstänkta observationer<br />
som kan ha betydelse på skattningarna är att använda s.k. poängfunktioner<br />
(engelska: score functions). Metoden innebär att varje objekt för vilket minst ett<br />
variabelvärde felsignaleras <strong>till</strong>delas poäng, som beror på objektets urvalsvikt,<br />
variabelns betydelse, avvikelsen från ett riktvärde osv. Därefter verifierar man<br />
enbart de objekt vars poäng överstiger ett värde som är fastställt på förhand.<br />
4.3 Utformning av kontroller<br />
4.3.1 Testvariabler<br />
Testvariabeln är antingen en insamlad variabel eller ett aritmetiskt uttryck baserat<br />
på undersökningens variabler.<br />
Som påpekats i 4.2.1 Effektiva kontroller, underlättar det om testvaribeln har en<br />
symmetrisk fördelning. Medlet för att åstadkomma symmetri är att transformera<br />
testvariabeln. I företagsundersökningar med deras ofta sneda fördelningar är logaritmering<br />
i allmänhet en bra metod.<br />
I företagsundersökningar används ofta ”Relativ förändring”. Detta är en problematisk<br />
variabel om man använder den utan modifieringar. Den naturliga variationen i<br />
en ren förändringskvot är av naturliga skäl betydligt större för små företag än för<br />
39
Kontrollmetoder<br />
stora företag, vilket illustreras av diagrammet nedan. Ett alternativ är att som testvariabel<br />
använda differensen för små företag och förändringskvoten för stora företag.<br />
Men då måste man fastställa gränser dels för differensen och kvoten, dels för<br />
när differensen respektive förändringskvoten ska användas.<br />
Diagram 1<br />
Relativ förändring av antalet anställda februari <strong>till</strong> mars 2000<br />
Diagrammet visar den relativa förändringen av antal anställda från februari <strong>till</strong> mars 2000<br />
plottat mot antal anställda i februari. Av diagrammet framgår tydligt att variationen i förändringen<br />
beror på företagets storlek (mätt i antal anställda). Om samma acceptansgränser<br />
används för samtliga företag, riskerar man dels att få många onödiga återkontakter,<br />
dels att stora fel inte upptäcks genom att acceptansområdet tvingas bli alltför brett<br />
för stora företag. (Källa: Lönestatistik privat sektor)<br />
En metod för att lösa nämnda problem som i experiment och praktisk användning<br />
världen över (inklusive inom SCB) visat sig framgångsrik, är att man konstruerar<br />
en testvariabel som innehåller både ett storleksmått (eller den absoluta differensen)<br />
och den relativa förändringen. Det finns olika utformningar av den idén. Den<br />
som vi rekommenderar är Hidiroglou-Berthelots metod, se bilagan <strong>till</strong> kapitel 4,<br />
främst därför att det är den som vi har erfarenheter av. Metoden kan med fördel<br />
användas för andra typer av kvoter än förändringskvoter, se van de Pol (1994).<br />
4.3.2 Acceptansområde<br />
Acceptansgränser ska bestämmas på huvudsakligen följande grunder:<br />
• ämnesmässiga fakta<br />
• empiriska fakta erhållna genom<br />
– studier av testvariabelns egenskaper inom olika grupperingar av undersökningsenheter<br />
(t.ex. näringsgren, företagsstorlek eller region). Använd<br />
lådagram.<br />
40<br />
Förändring<br />
Antal anställda
Kontrollmetoder<br />
– erfarenheter av hur kontrollen har fungerat i tidigare undersökningar<br />
eller i en genomförd pilotundersökning. Det är träffsäkerheten som man<br />
ska studera.<br />
– studier av säsongsmässiga variationer (gäller kortperiodiska undersökningar).<br />
Ett generellt hjälpmedel är grafisk analys med hjälp av SAS/Insight.<br />
Acceptansgränser ska för varje enskild kontroll anpassas <strong>till</strong> data från tidigare undersökningar<br />
och från den aktuella undersökningen. De ska inte sättas subjektivt,<br />
vilket ofta leder <strong>till</strong> asymmetrisk <strong>granskning</strong> som i sin tur leder <strong>till</strong> bias. Alltför<br />
restriktiva regler för acceptans leder <strong>till</strong> över<strong>granskning</strong>. Det innebär en stor<br />
mängd felmeddelanden. En effekt blir att de granskare som tar hand om felmeddelandena<br />
tappar förtroendet för maskinens <strong>granskning</strong> och därför tänjer gränserna<br />
efter egna uppfattningar om vad som kan vara viktigt att följa upp. En annan<br />
effekt är att enstaka fel kan tappas bort i mängden, och de kan vara stora.<br />
Acceptansgränser ska alltså sättas utifrån de data som ska granskas och baseras på<br />
fakta. Man kan utnyttja den grafiska metoden men också ämneskunskap. Detta<br />
kan åstadkommas genom att man låter gränserna bero på parametrar som exempelvis<br />
median och kvartilavstånd, beräknade från data i den aktuella produktionscykeln.<br />
Eftersom ogranskade data används för att bestämma acceptansgränserna,<br />
bör man inte använda parametrar som påverkas kraftigt av outliers (t.ex. medelvärde<br />
och standardavvikelse). Ett sådant <strong>till</strong>vägagångssätt <strong>till</strong>ämpas t.ex. i<br />
Hidiroglou-Berthelot-metoden.<br />
En enkel men kraftfull metod är att acceptansgränserna sätts lika med<br />
({1:a kvartilen}–{k x kvartilavståndet},{3:e kvartilen}+{k x kvartilavståndet}) där k<br />
är en konstant som bestämmer bredden på acceptansområdet. Det gäller att finna<br />
lämpliga utgångsvärden på denna konstant och därefter följa upp kontrollernas<br />
egenskaper när det gäller träffsäkerhet och betydelsen av hittade fel vid varje<br />
undersöknings<strong>till</strong>fälle.<br />
Lämplig bredd på acceptansområdet<br />
Studier har visat, se Anderson (1989), att lämpliga acceptansgränser kan fås med<br />
k=3. Det går inte säga att detta gäller generellt, men det kan kanske ändå gälla som<br />
riktmärke. Ta gärna hjälp av lådagram i SAS/Insight för att bestämma acceptansområde<br />
och följa upp kontrollens träffsäkerhet.<br />
Vårt råd bygger på arbetet kring utvecklingen av aggregat<strong>granskning</strong>skontroller<br />
(se t.ex. Wickberg 1990) är att acceptansgränser bör sättas så långt från den stora<br />
massan av observationer men så nära den första outliern som möjligt (Granquist<br />
1990).<br />
I de experiment med Hidiroglou-Berthelot-metoden (bilagan <strong>till</strong> kapitel 4) som redovisas<br />
i Höglund (1994), var de bästa värdena på de konstanter som styr bredden<br />
på acceptansområdet: C = 41 och U = 0,4. (U har att göra med objektens storleksfördelning.)<br />
Detta gällde för alla de kontroller i den statistik (dåvarande order- och<br />
leveransstatistiken) som studerades. Grovt motsvarar detta Andersons (1989)<br />
resultat.<br />
41
Kontrollmetoder<br />
Wickberg (1990), Andersson (1989) och Höglund (1994) har visat att k=3 är ett<br />
bra utgångsvärde. K-värdet justeras när man studerar processdata. Observera att vi<br />
i 4.2.1 Effektiva kontroller, har sagt att andelen felsignaler inte ska vara högre än<br />
4 procent.<br />
Vi rekommenderar att man testar olika k-värden. Empiriska resultat från tidigare<br />
eller liknande undersökningar <strong>till</strong>sammans med ämneskunskap kan vara vägledande.<br />
Lådagram i SAS/Insight erbjuder ett utmärkt stöd för att både välja olika kvärden<br />
och testa träffsäkerheten i kontrollen. Om man inte har <strong>till</strong>gång <strong>till</strong> någon<br />
hjälpinformation, föreslår vi att man börjar med låga k-värden, dvs. snäva intervall,<br />
för att genom ökade värden på k öka intervallbredden.<br />
Ett alternativt sätt att få fram lämpliga värden på förekommande parametrar/konstanter<br />
är att utgå från data som granskats med smalare acceptansområden än nödvändigt.<br />
Särskilt rekommenderas det att nya undersökningar och pilotundersökningar<br />
alltid använder smala, men ändå någorlunda rimliga, acceptansområden för<br />
att man ska få många återkontakter och därigenom kunna skaffa sig information<br />
om felkällor och uppgiftslämnarproblem.<br />
När uppgiftsinsamlingen (i vidare mening) har avslutats, beräknas träffsäkerheten<br />
för olika intervall enligt exemplet nedan. Sist analyserar man resultaten för att<br />
bestämma ”bästa” acceptansgränser (helst uttryckta i parametrar och konstanter).<br />
Vår uppfattning är att man bör sikta mot en träffsäkerhet på åtminstone 60 procent<br />
och sträva mot uppemot 80 procent.<br />
Exempel på metod att få fram lämpliga acceptansgränser<br />
Antag att för testvariabeln ”Genomsnittlig timlön” används acceptansgränserna<br />
(70,100) som snävast tänkbara intervall. Ett effektivare acceptansintervall kan då<br />
beräknas genom analys av träffsäkerheter från simuleringar i materialet med<br />
exempelvis intervallen (30,180), (30+k,180–l),…,(70,100) med k = 10 och l = 20.<br />
En alternativ metod för att testa nya kontroller och acceptansgränser beskrivs i<br />
avsnitt 8.3.<br />
4.3.3 Gruppering<br />
Om för vida acceptansgränser <strong>till</strong>ämpas över hela populationen, medför detta att<br />
man inte upptäcker fel som är betydelsefulla för undersökningen. Timlönen för<br />
t.ex. ett städföretag kan vara en tiondel av genomsnittstimlönen för ett datakonsultföretag.<br />
För att man effektivt ska kunna urskilja misstänkta observationer, är<br />
det nödvändigt att acceptansgränser för kontroller mot avvikelsefel tar hänsyn <strong>till</strong><br />
stora skillnader i medelvärden och varians för olika branscher. Men det tjänar<br />
inget <strong>till</strong> att göra en alltför detaljerad indelning av populationen.<br />
En utmärkt metod är att med SAS/Insight framställa lådagram över testvariabelns<br />
fördelningar för att få underlag för en gruppering. Lådagram ger en visuell bild av<br />
fördelningars medianer och spridning. I SAS/Insight kan man få alla lådagram för<br />
undergrupper <strong>till</strong> en grupp (t.ex. hela populationen) utskriven i ett diagram. Med<br />
blotta ögat ser man i ett sådant diagram enkelt om indelningar behöver göras och i<br />
så fall vilka (se kapitel 5).<br />
För att testa om grupperingen <strong>till</strong>för något i <strong>granskning</strong>sarbetet börjar man med att<br />
finna acceptansgränser för hela materialet utan gruppering. Nästa steg är att under-<br />
42
Kontrollmetoder<br />
söka om en uppdelning av materialet ger väsentligt annorlunda acceptansgränser<br />
för olika delgrupper. Vissa klassificeringsvariabler, som t.ex. SNI-kod, är hierarkiskt<br />
uppbyggda, vilket gör det möjligt att testa gruppering från grov indelning <strong>till</strong><br />
allt finare indelning. Två exempel får illustrera tekniken. Det första exemplet –<br />
hämtat från en lönestatistisk undersökning – bygger på granskat material. I det<br />
andra exemplet – prisförändringar på grönsaker i KPI – har några stora fel inplanterats.<br />
Exempel på att finna acceptansgränser. Lönestatistik.<br />
En av <strong>granskning</strong>svariablerna i en lönestatistisk undersökning är timlön, dvs. lön<br />
per arbetade timmar. Acceptansgränserna (k=3) bestäms enklast med hjälp av ett<br />
lådagram i SAS/Insight. Utnyttja referenslinjerna för att ”bestämma” acceptansgränserna.<br />
Om man betraktar hela materialet, kan acceptansgränserna fastställas<br />
<strong>till</strong> ungefär (40,160) kronor per timme.<br />
Diagram 2<br />
Timlön, lön per arbetade timmar, i hela populationen<br />
De ovan valda acceptansgränserna leder sannolikt <strong>till</strong> över<strong>granskning</strong>. Vi försöker därför<br />
inledningsvis med en relativt grov gruppering av materialet. Vi väljer bransch, SNI-kod på<br />
ensiffernivå. Acceptansgränserna varierar med SNI-kod (diagram 3).<br />
Diagram 3<br />
Timlön, lön per arbetade timmar, fördelade på SNI-kod, ensiffernivå<br />
För de flesta branscher på ensiffernivå är troligen acceptansgränserna (40,160) bra utgångsvärden,<br />
utom möjligen för bransch 2 och 7. Ytterligare uppdelning av branscherna<br />
på t.ex. tvåsiffernivå kan ge bättre anpassade acceptansområden. Utnyttja ämneskunskaper<br />
i kombination med reglerna i 4.2.1 Effektiva kontroller.<br />
43
Kontrollmetoder<br />
Utnyttja t.ex. referenslinjerna och börja utifrån och gå mot mitten. Observera att man kan<br />
välja hur täta referenslinjerna ska vara.<br />
Exempel på att finna acceptansgränser. Grönsaker i KPI.<br />
En kontroll i KPI bygger på månadsvisa prisförändringar, här uttryckt som ett index,<br />
och är logaritmerad. (Värdet 100 motsvarar i den naturliga logaritmen 4,6).<br />
För varugruppen grönsaker är det naturligt med ibland relativt stora prisförändringar,<br />
bland annat beroende på säsongvariationer. I den första bilden betraktar vi<br />
därför prisförändringen för hela undergruppen grönsaker.<br />
Diagram 4<br />
KPI, grönsaker. Prisförändring<br />
Undergruppen grönsaker representeras av flera varor. Vi delar därför upp gruppen med<br />
avseende på representantvarorna.<br />
Diagram 5<br />
KPI, grönsaker fördelat på representantvaror<br />
Om man jämför med exemplet ovan, finns det i KPI-exemplet större skillnader mellan<br />
acceptansområdena för undergrupperna jämfört med huvudgruppen. Acceptansområdet<br />
ligger mellan knappt 3 och drygt 6 för hela gruppen, vilket t.ex. ska jämföras med ungefär<br />
(4.2, 5.5) för varugruppen 1654. Lägg också märke <strong>till</strong> att för varugruppen 1621 skulle vi<br />
inte upptäcka några avvikare.<br />
44
Kontrollmetoder<br />
Ett annat men kanske inte lika effektivt sätt är att grunda indelningar av populationen<br />
på ämneskunskaper och erfarenheter helst i form av ett processdatasystem<br />
(se kapitel 7). Både processdata och erfarenheter är bra underlag <strong>till</strong> förbättringar.<br />
4.4 Selektiv <strong>granskning</strong> – metoder för prioritering av<br />
objekt eller variabelvärden för verifiering<br />
Selektiv <strong>granskning</strong> kallas kontrollprocesser som används för att skilja ut (och<br />
eventuellt åtgärda) endast de felsignalerade objekt vars eventuella fel har stor<br />
presumtiv inverkan på skattningarna för någon av de felsignalerade variablerna.<br />
Det är alltså ett sätt att <strong>till</strong>godose kravet på kontroller att de inte bara ska ha hög<br />
träffsäkerhet utan även att felen ska ha betydelse på skattningsnivå (se 4.2.2).<br />
Eftersom den här tekniken kräver skattningar och andra data från en tidigare<br />
undersökning, innebär detta i praktiken att den i första hand är intressant för<br />
periodiska undersökningar.<br />
Tekniken kallades tidigare allmänt för makro<strong>granskning</strong>, en benämning som<br />
fortfarande används. En översikt av sådana metoder ges i Granquist (1994). Här<br />
beskrivs idéerna bakom top-downmetoden och grafisk <strong>granskning</strong>.<br />
Top-down är en allmänt använd teknik i <strong>granskning</strong>. Den innebär att <strong>granskning</strong><br />
och eller verifiering utförs i prioriteringsordning, där prioritet bestäms efter potentiell<br />
effekt på skattningsnivå eller värde på testvariabel. Efter varje ändring av data<br />
beräknas nya skattningar. Granskningen upphör när skattningarna inte längre<br />
påverkas. Top-down används med fördel i output<strong>granskning</strong> (Anderson 1989)<br />
men kan mycket väl <strong>till</strong>ämpas i produktions<strong>granskning</strong> (Granquist 1994).<br />
Vid grafisk <strong>granskning</strong> är det granskaren och effekterna av verifieringen som ”bestämmer”<br />
acceptansgränserna. Tekniken är då att utifrån den grafiska representationen<br />
av data börja med de värsta och sluta när verifieringen inte längre får<br />
effekter på skattningarna.<br />
Selektiv <strong>granskning</strong> kan även ses som en process där de felsignalerade objekt väljs<br />
ut som kräver en omsorgsfull verifiering – medan de övriga objektens felsignaler<br />
antingen lämnas därhän, tas om hand av ett automatiskt imputeringsprogram eller<br />
utsätts för endast enkel och framför allt resurssnål verifiering, dvs. utan återkontakter.<br />
Vid Statistics Canada används selektiv <strong>granskning</strong> i form av en poängfunktion,<br />
DIFF, (Latouche och Berthelot 1992) för att välja ut objekt för verifiering,<br />
medan de övriga objekten tas om hand av det generella helautomatiska <strong>granskning</strong>sprogrammet<br />
GEIS. Lawrence och Mc Kenzie (2000) ger en utförlig beskrivning<br />
av selektiv <strong>granskning</strong> (i artikeln kallad signifikant <strong>granskning</strong>) med en annan<br />
typ av poängfunktion än funktionen DIFF.<br />
En översikt av metoder för selektiv <strong>granskning</strong> med hjälp av poängfunktioner ges i<br />
Farwell och Raine (2000).<br />
45
Kontrollmetoder<br />
4.5 Hur idén med poängfunktioner kan implemen-<br />
teras<br />
En realisering av idén med poängfunktioner kräver metoder för beräkning av<br />
• lokal poäng<br />
• global poäng<br />
• kritiskt värde.<br />
Se Engström (1995) för en beskrivning av ett experiment som utförts vid SCB.<br />
4.5.1 Lokal poäng<br />
Utgångspunkten för den lokala poängen är att den ska vara högre ju mer det potentiella<br />
felet i det flaggade värdet påverkar skattningen på lägsta nivå. Men vi vet ju<br />
inte om det flaggade värdet är felaktigt, hur stort det eventuella felet är eller effekten<br />
på statistikuppgiften för aggregatet. Beräkningen måste således bygga på antaganden<br />
och approximationer. Valet av metod beror därmed på vad som förefaller<br />
mest realistiskt för den egna undersökningen. Några idéer som <strong>till</strong>ämpas som uppskattning<br />
av det potentiella felet är:<br />
• absoluta differensen mellan det ogranskade värdet och motsvarande värde<br />
vid föregående undersökning (se DIFF nedan)<br />
• absoluta avståndet <strong>till</strong> det beräknade medelvärdet av förändringskvoten<br />
(medelvärdet från föregående undersökning multiplicerat med en antagen<br />
utvecklingstrend)<br />
• absoluta avståndet <strong>till</strong> närmaste acceptansgränslinje.<br />
Som approximation för skattningen används i DIFF och andra metoder motsvarande<br />
statistikuppgift vid föregående undersökning.<br />
Den lokala poängen kan också modifieras genom multiplikation med en faktor<br />
som avspeglar variabelns relativa betydelse (DIFF), genom vägning med medelfelet<br />
(Engström 1995), genom division med någon aggregatberoende parameter<br />
för att öka sannolikheten att aggregat med få objekt verifieras m.m.<br />
4.5.2 Global poäng<br />
Global poäng kan bestämmas exempelvis genom:<br />
• summering av de lokala poängen, som i DIFF<br />
• högsta lokala poängen, som i Lawrence och McDavitt (1994)<br />
• någon form av genomsnittspoäng (ingen <strong>till</strong>ämpning rapporterad).<br />
4.5.3 Kritiska värdet<br />
Kritiska värdet kan bestämmas med hjälp av granskade och ogranskade data från<br />
en undersökningsomgång där selektiv <strong>granskning</strong> inte <strong>till</strong>ämpats eller med tekniker<br />
som beskrivs i kapitel 8 eller Latouche och Berthelot (1992).<br />
Det kritiska värdet ska ständigt övervakas. Ett medel för detta är de indikatorer<br />
som föreslås i kapitel 6.<br />
4.6 Erfarenheter<br />
Den metod som vi rekommenderar här beskrivs i detalj i bilaga kapitel 4. Det är<br />
poängfunktionen DIFF som används av Statistics Canada. Vid utvecklingsarbetet<br />
46
Kontrollmetoder<br />
med poängfunktioner fann man att DIFF var det mest intressanta av de alternativ<br />
som prövades. Observera att det är ett flexibelt instrument, som kan modifieras<br />
och förbättras på många sätt för att passa den egna undersökningens speciella<br />
problem och krav. Anpassningen kan göras på samma sätt som vid bestämning av<br />
kritiska värdet (se ovan).<br />
4.7 Referenser<br />
Anderson, K. (1989), ”Enhancing Clerical Cost-Effectiveness in the Average Weekly Earnings”,<br />
Belconnen, Australia: Australian Bureau of Statistics, Statistical Services Branch, November 1989.<br />
Engström, P. and C. Ängsved (1994), ”A Description of a Graphical Macro Editing Application.”<br />
Conference of European Statisticians, Work Session on Statistical Data Editing, working paper No.<br />
35, Cork 1994.<br />
Engström, P. (1995), A study on using selective editing in the Swedish survey on wages and<br />
employment in industry. Conference of European Statisticians, Work Session on Statistical Data<br />
Editing, room paper No. 11, Athens 1995.<br />
Farewell, K. and Raine M. (2001), “Some Current Approaches to Editing in the ABS”, ICES II –<br />
Proceedings of the Second International Conference on Establishment Surveys, Invited Papers.<br />
American Statistical Association 2001, pp 529–538.<br />
Granquist L. 1990, ”A Review of Some Macro-Editing Methods for Rationalizing the Editing<br />
Process”, Proceedings of Statistics Canada Symposium 90, Measurement and Improvement of<br />
Data Quality, October 1990.<br />
Granquist L. (1994), ”Macro-editing—A Review of Some Methods for Rationalizing the Editing of<br />
Survey Data” in Conference of European Statisticians, Statistical Standards and Studies-No. 44,<br />
111–126.<br />
Höglund, E. (1994), “ Macroediting in Statistics—The Hidiroglou-Berthelot Method (Statistical<br />
Edits) ” in Conference of European Statisticians, Statistical Standards and Studies-No. 44, 127–<br />
136.<br />
Latouche, M., and Berthelot. J.-M. (1992), ”Use of a score function to prioritize and limit<br />
recontacts in business surveys”, Journal of official Statistics, Vol. 8, No. 3, 1992, pp. 389–400.<br />
Lawrence, D., and McDavitt, C. (1994), ”Significance Editing in the Australian Survey of Average<br />
Weekly Earnings,” Journal of Official Statistics, 10, pp. 437–447.<br />
Lawrence, D., and McKenzie, R. (2000), “The General Application of Significance Editing,” Journal<br />
of Official Statistics, 16, pp. 243–253.<br />
Linacre, S. J., and D. J. Trewin (1989), "Evaluation of Errors and Appropriate Resource Allocation<br />
in Economic Collections," Proceedings of the US Bureau of the Census Fifth Annual Research<br />
Conference, U. S. Department of Commerse, Bureau of the Census, March 19–22, 1989, pp. 197–<br />
209.<br />
van de Pol, F. (1995), Selective editing in the Netherlands Annual Construction Survey.<br />
Conference of European Statisticians, Work Session on Statistical Data Editing, working paper No.<br />
26, Athens 1995<br />
Wickberg I. (1990), ”Makro<strong>granskning</strong> med Hidiroglou-Berthelots metod och med aggregatmetoden<br />
utvärderad mot produktions<strong>granskning</strong>en av månadsstatistiken över sysselsättning och<br />
löner under november 1987 för industriarbetare”, GRANSK-PM nr 20,<br />
1990–06–25.<br />
47
Kontrollmetoder<br />
Bilaga kapitel 4<br />
Hidiroglou-Berthelots metod (HB-metoden)<br />
Antag att variabeln X i () t ska kontrolleras, där i är objekt och t är period. Vanlig<br />
testvariabel är förändringskvoten:<br />
X i () t<br />
Ri<br />
=<br />
(1)<br />
X i ( t −1)<br />
HB-metoden innebär att testvariabeln ovan transformeras samt att acceptansintervallet<br />
för denna transformerade testvariabel beräknas utifrån de data som ska<br />
granskas. Intervallet har egenskaperna att det är robust mot felaktiga data och<br />
okänsligt mot den naturliga variationen i förändringskvoter (se exempel 4.4).<br />
Dessa egenskaper åstadkoms genom att robusta parametrar, som median och<br />
kvartilavstånd, används i acceptansgränsintervallen och genom att testvariabeln<br />
transformeras två gånger. Första transformationen syftar <strong>till</strong> att få intervallet<br />
approximativt symmetriskt för att man ska bli kvitt en parameter. Den andra<br />
transformationen syftar <strong>till</strong> att göra acceptansintervallet känsligare för numeriskt<br />
stora värden på variabeln, vilket sker genom att den symmetritransformerade<br />
förändringskvoten multipliceras med ett storleksmått.<br />
Symmetritransformationen<br />
Låt<br />
⎧ RMEDIAN<br />
⎪<br />
1−<br />
,<br />
Ri<br />
Si<br />
= ⎨<br />
Ri<br />
⎪ −1,<br />
⎪⎩<br />
RMEDIAN<br />
48<br />
0 < R < R<br />
i<br />
i<br />
R ≥ R<br />
MEDIAN<br />
MEDIAN<br />
där RMEDIAN är medianvärdet för i R<br />
Storlekstransformationen<br />
U<br />
Ei<br />
= Si<br />
∗ ( MAX ( X i ( t −1)<br />
, X i ( t)<br />
) , 0 ≤ U ≤ 1<br />
(3)<br />
Acceptansgränserna<br />
Acceptansgränser bildas på följande sätt:<br />
Låt<br />
D = MAX E − E , A*<br />
E<br />
Q1<br />
Q3<br />
( MEDIAN Q1<br />
MEDIAN )<br />
( E − E , A E )<br />
D = MAX<br />
*<br />
Q3<br />
MEDIAN<br />
MEDIAN<br />
där index Q1 och Q3 står för undre och övre kvartilen, och A är en konstant som<br />
normalt sätts <strong>till</strong> 0,05.<br />
Syftet med A* EMEDIAN<br />
är att undvika svårigheter när kvartilavstånden är mycket<br />
små. Det vill säga när E i är klustrade kring ett värde, vilket innebär att små<br />
avvikelser kan bli klassificerade som outliers.<br />
Undre gräns:<br />
EMEDIAN − C * DQ1<br />
(4)<br />
(2)
Övre gräns:<br />
E MEDIAN + C * DQ3<br />
(5)<br />
Kontrollmetoder<br />
Parametervärdena C och U kan bestämmas utifrån tester på insamlade data. Här<br />
kan det vara mycket lämpligt att använda samma typ av diagram som används på<br />
sidan 120 i Granquist (1994) för att fastställa bra värden på konstanterna C och U<br />
ovan. En interaktiv grafisk applikation vore lämplig, i vilken man direkt skulle se<br />
hur acceptansgränserna ändras för olika värden på konstanterna.<br />
Poängfunktionen DIFF<br />
Poängfunktionen DIFF har utvecklats av Latouche och Berthelot (1992). Metoden<br />
används av Statistics Canada m.fl.<br />
Låt<br />
y i,<br />
k , t vara värdet för objekt i (i = 1, … ,I) och variabel k (k = 1, … ,K)<br />
vid tidpunkt t<br />
y ′ i , k , t−1<br />
vara värdet för objekt i (i = 1, … ,I) och variabel k (k = 1, … ,K)<br />
vid tidpunkt t-1<br />
w i,<br />
t<br />
vara vägningstalet för objekt i (i = 1, … ,I) vid tidpunkt t<br />
P k vara relativ betydelse av variabel k<br />
Z i,<br />
k , t<br />
⎧1<br />
= ⎨<br />
⎩0<br />
om variabel k felsignaliseras<br />
annars<br />
av en eller flera kontroller<br />
Y ˆd , k , t−1<br />
vara en skattning av totalen från redovisningsgrupp d (där undersökningsenhet<br />
i ingår) för variabel k, vid tiden t-1.<br />
Poängfunktionen DIFF ges då av;<br />
DIFF<br />
i,.,<br />
t<br />
=<br />
w<br />
y<br />
− y′<br />
K<br />
i,<br />
t i,<br />
k , t i,<br />
k , t−1<br />
∑<br />
k = 1 Yˆ<br />
d , k , t−1<br />
Z<br />
i,<br />
k , t<br />
P<br />
k<br />
Om DIFF i,.,<br />
t är större eller lika med något kritiskt värde, sker verifiering.<br />
Poängfunktionen är framför allt avsedd för kontroller mot misstänkta fel i kontinuerliga<br />
variabler. Men man kan även ta med uppenbara fel, förutsatt att man har<br />
ett bra och heltäckande system för automatimputeringar.<br />
(6)<br />
49
Kontrollmetoder<br />
50
5 Grafisk <strong>granskning</strong><br />
Grafisk <strong>granskning</strong><br />
I detta kapitel ska vi klargöra vad grafisk <strong>granskning</strong> är samt redovisa för- och<br />
nackdelar, <strong>till</strong>ämpningsområden och begränsningar. Interaktiv grafisk <strong>granskning</strong><br />
exemplifieras med både input- och output<strong>granskning</strong>.<br />
5.1 Bakgrund<br />
Människor har lättare för att läsa och analysera bilder, än siffror och bokstäver.<br />
Därför har man länge funderat på om det går att använda grafik vid <strong>granskning</strong>.<br />
John Tukey lanserade i början på 1970-talet EDA, Exploratory Data Analysis.<br />
Hans ansatser byggde på manuella rutiner, där man relativt snabbt konstruerade<br />
grafer. Den tekniska utvecklingen under de senaste decennierna har visat att<br />
idéerna om grafisk <strong>granskning</strong> av data i statistiska undersökningar mycket väl<br />
kunde realiseras.<br />
I slutet av 1980-talet startades de första projekten för att utveckla grafiska <strong>granskning</strong>ssystem<br />
– och några år senare projekt för att ta fram generella programvaror<br />
för EDA. Många EDA-metoder är dels utmärkta <strong>granskning</strong>smetoder, dels hjälpmedel<br />
när det gäller att utveckla metoder och instrument för att ta fram effektiva<br />
acceptansgränser för traditionella <strong>granskning</strong>sprogram.<br />
Ett brännande problem för SCB de senaste åren har varit missöden med kvarvarande<br />
fel i data som förorsakat fel i publicerad statistik. Dessa brister i kvalitetssäkringen<br />
kan dock snabbt och enkelt undanröjas med hjälp av grafisk <strong>granskning</strong><br />
– något som följande fiktiva exempel illustrerar.<br />
Exempel på en situation<br />
Antag att vi har en löneundersökning där variablerna total lönesumma och antal<br />
arbetade timmar är två av många variabler. Variablerna kontrolleras med kontrollen<br />
lön/timme. Den genomsnittliga timlönen är 100 kr med standardavvikelsen 20<br />
kr.<br />
I sista minuten före slutbearbetning kommer en blankett in. Man beslutar att den<br />
ska granskas manuellt, därför att en ytterligare <strong>granskning</strong>skörning tar för lång tid,<br />
är för dyr, eller medför annat oundvikligt men i det här sammanhanget onödigt arbete.<br />
Vid den manuella <strong>granskning</strong>en upptäcker man inte att timlönen för företaget felaktigt<br />
har angivits <strong>till</strong> 1200 kronor. Företaget är stort eller har stort uppräkningstal,<br />
vilket medför att felet uppmärksammas i pressen. Punkten 1200 hade legat skyhögt<br />
över alla andra i ett punktdiagram med lönesumma och arbetstimmar som y-<br />
respektive x-axel eller hade utgjort en extrempunkt i ett lådagram av variabeln<br />
löner/timmar.<br />
På någon eller några minuter hade man kunnat hitta felet med hjälp av grafik och<br />
därmed undvikit fadäsen!<br />
5.2 Vad är interaktiv grafisk <strong>granskning</strong>?<br />
Med interaktiv grafisk <strong>granskning</strong> menar vi inte bara samarbete mellan datoranvändare<br />
och dator utan framför allt ”kommunikation” mellan bilder och mellan<br />
bild och datablad.<br />
51
Grafisk <strong>granskning</strong><br />
Praktiskt betyder interaktiv grafisk <strong>granskning</strong> att:<br />
• visa alla objekt som punkter eller staplar i diagram efter en eller flera<br />
variabler<br />
• markera misstänkta objekt, varvid identitet och variabelvärden visas på<br />
skärmen för verifiering<br />
• avläsa effekterna av ändringar och avsluta <strong>granskning</strong>en när effekterna ser<br />
ut att sakna betydelse för skattningar.<br />
Interaktiv grafisk <strong>granskning</strong> är en kraftfull metod för att hitta avvikande värden,<br />
men även för att hitta egendomliga mönster. Det finns programvaror som är utmärkta<br />
för detta. De är enkla att implementera och använda. Metoden ger också<br />
god överblick av datamaterialet och bidrar dessutom <strong>till</strong> ökad ämneskunskap.<br />
En <strong>granskning</strong> kan initieras på några få minuter, och diagram kan sedan tas fram<br />
på en eller annan sekund – vilket är ovärderligt när man ska granska enstaka<br />
objekt som kommer in i sista minuten.<br />
Med den ständigt ökande datorkraften i våra persondatorer och programvaror som<br />
SAS-Insight kommer grafisk interaktiv <strong>granskning</strong> att bli ett allt starkare alternativ<br />
<strong>till</strong> <strong>granskning</strong> med inprogrammerade kontroller även för stora undersökningar.<br />
För måttligt stora undersökningar torde grafisk <strong>granskning</strong> redan nu vara betydligt<br />
effektivare än traditionell <strong>granskning</strong> (se avsnittet 5.6).<br />
Standardiserat uttag av grafer<br />
Grafisk <strong>granskning</strong> används ofta flexibelt (ad-hoc). I en produktionssituation kan<br />
detta vara mindre önskvärt, i synnerhet om <strong>granskning</strong>en utförs av flera personer.<br />
Granskningen blir beroende av den enskilda personens förmåga att se <strong>till</strong> att<br />
<strong>granskning</strong>en blir fullständig och är också emot principen vid SCB att minska<br />
variationen i angreppssätt. I stort löses problemet med ett program som dels startar<br />
SAS/Insight, dels producerar på förhand bestämda grafer.<br />
5.3 Användning<br />
Interaktiv grafisk <strong>granskning</strong> används i produktion i:<br />
• produktions<strong>granskning</strong><br />
• Nya Zeelands ekonomiska undersökningar med ”gred”<br />
• output<strong>granskning</strong> (se exemplet i avsnitt 5.6)<br />
• SCB:s kortperiodiska statistik lönestatistik (KSP) sedan 1995<br />
• SCB:s kortperiodiska lönestatistik (KLP) sedan 1996<br />
• USA:s löne- och sysselsättningsstatistik med ”Aries” sedan 1993.<br />
Gred är ett generellt grafiskt <strong>granskning</strong>ssystem, medan systemen för output<strong>granskning</strong><br />
är skräddarsydda applikationer.<br />
System liknande SCB-applikationerna (se avsnitt 5.6), som fått mycket stor uppmärksamhet,<br />
kan utvecklas på några veckor. Aries har ökat produktiviteten med<br />
100 procent i USA:s federala löpande löne- och sysselsättningsstatistik genom att<br />
datalistor ersatts med grafer. Produktivitetsökningen kan uttryckas med följande<br />
travestering av ett gammalt ordspråk:<br />
”En grafisk bild säger mer än hundra datalistor.”<br />
52
Grafisk <strong>granskning</strong><br />
5.4 Introduktion <strong>till</strong> grafisk <strong>granskning</strong><br />
Grafisk <strong>granskning</strong> klarar merparten av vad traditionell <strong>granskning</strong> gör. Dessutom<br />
kan man med hjälp av t.ex. plottningar hitta mönster som avslöjar skevheter i materialet.<br />
Sådana är svårare att upptäcka med traditionell <strong>granskning</strong>.<br />
Den grafiska <strong>granskning</strong>en bygger på bilder som plottningar och stapeldiagram.<br />
Graferna beskriver en eller flera variabler i datasetet. Om flera grafer visas samtidigt,<br />
blir <strong>granskning</strong>en flerdimensionell. Bilderna samvarierar på så sätt att om<br />
man markerar ett område i en graf, blir de samtidigt markerade i övriga grafer och<br />
i databladet. Detta ger en god bild av hur variabler är relaterade <strong>till</strong> varandra. När<br />
man studerar graferna, kan man med fördel utnyttja verktygen färger och symboler<br />
för att markera olika grupper av objekt som ska jämföras.<br />
Verktyg<br />
• Överblicka datamaterialet med punktdiagrammatris.<br />
• Koda om partiellt bortfall (missing value) <strong>till</strong> ett avvikande numeriskt<br />
värde.<br />
• Transformera om variabeler med sned fördelning, t.ex. med logaritm eller<br />
kvadratrot.<br />
• Prova olika typer av diagramtyper:<br />
– histogram/stapeldiagram (eng.:histogram/bar chart)<br />
– lådagram (eng.: box plot)<br />
– punktdiagram (eng.: scatter plot)<br />
– tredimensionellt punktdiagram (eng.: rotation plot)<br />
– linjediagram (eng.: line plot).<br />
• Använd färger och olika symboler för att visa t.ex. delgrupper.<br />
• Kombinera diagramtyper i samma skärmbild.<br />
• Utnyttja interaktionen mellan flera olika diagram och datablad.<br />
• Gruppera materialet.<br />
• Jämför mot likartat datamaterial, t.ex. från föregående undersökning.<br />
• Inkludera uppräkningstal i analysen vid urvalsundersökning.<br />
• Dela vid behov upp stora datamaterial.<br />
Idéer, tips<br />
• För att finna uppenbara fel – använd stapeldiagram.<br />
• För att bestämma acceptansgränser – använd lådagram.<br />
• För att hitta avvikelsefel – använd punktdiagram eller lådagram.<br />
• För att hitta inliers – använd punktdiagram.<br />
• För output<strong>granskning</strong> – använd lådagram.<br />
5.5 Exempel<br />
Med hjälp av några exempel med tonvikt på feltyperna uppenbara fel, avvikelsefel<br />
och definitionsfel (se kapitel 2) illustreras grafisk <strong>granskning</strong>. Dessutom visas ett<br />
exempel på hur grafisk <strong>granskning</strong> kan användas som ett komplement <strong>till</strong> traditionell<br />
<strong>granskning</strong> när man ska välja acceptansgränser. I anknytning <strong>till</strong> exemplen<br />
ges kortfattade beskrivningar av de två grundläggande graferna, punktdiagram och<br />
lådagram.<br />
53
Grafisk <strong>granskning</strong><br />
5.5.1 Uppenbara fel<br />
Diagram 1<br />
Illustration av uppenbara fel. Giltiga värden för kod är 1–4<br />
54<br />
Med stapeldiagram kan man avslöja<br />
felaktiga koder eller om en<br />
kod saknas. I figur 1 är det 23 objekt<br />
som saknar kod för företagskategori<br />
(FTGKAT=0). När stapeln<br />
med den ogiltiga koden markeras,<br />
markeras även posterna i databladet,<br />
varefter man kan ta ut<br />
dessa för vidare behandling<br />
Om man dubbelklickar på stapeln, visas ett fönster med de 23 posterna med samtliga<br />
variabelvärden.<br />
Genom att komplettera stapeldiagrammet (diagram 1) med ytterligare grafer, som<br />
histogram, lådagram och punktdiagram, kan man identifiera de felkodade objekten.<br />
Om man markerar objekten med en avvikande färg, syns de tydligare i diagram<br />
och datablad.<br />
En kontroll av icke giltiga värden kan på detta sätt ofta göras snabbt och enkelt för<br />
ett antal variabler samtidigt.<br />
5.5.2 Misstänkta fel – avvikelsefel<br />
Punktdiagrammatris<br />
Ett punktdiagram illustrerar samband mellan två eller tre variabler. En punktdiagrammatris<br />
(diagram 2) är flera tvådimensionella punktdiagram i en och samma<br />
bild och består av parvisa kombinationer av variabler. Punktdiagrammatrisen är ett<br />
effektivt verktyg när man vill studera sambandet mellan flera variabler (se SAS/<br />
Insight kapitel 5, Exploring Data in Two Dimensions, och kapitel 35, Scatter<br />
Plots).<br />
I diagonalen, där variabelnamnen står, kan man avläsa maximi- och minimivärden.<br />
Punktdiagrammatrisen är symmetrisk: diagrammen <strong>till</strong> vänster om diagonalen<br />
med variabelnamnen är en spegelbild av diagrammen <strong>till</strong> höger om diagonalen.<br />
Det är därför <strong>till</strong>räckligt att studera diagrammen <strong>till</strong> vänster eller höger om diagonalen.<br />
Data i detta exempel är hämtade från en region i inkvarteringsstatistiken, där bland<br />
annat uppgifter om intäkter och antal belagda rum samlas in för ett antal hotellanläggningar<br />
i olika regioner. I en punktdiagrammatris, diagram 2, studeras sambandet<br />
mellan variablerna intäkt, intäkt per belagt rum och intäkt per belagt rum<br />
föregående år.
Diagram 2<br />
Inkvarteringsstatistiken. Månadsuppgifter<br />
Grafisk <strong>granskning</strong><br />
Variabler:<br />
PRIS1<br />
logiintäkt<br />
KRRUM<br />
intäkt per belagt rum<br />
KRRUM7<br />
intäkt per belagt rum föregående<br />
år<br />
När man markerar en punkt i en av rutorna i diagrammet, visas identiteten för<br />
objektet (här företaget) samtidigt som man kan se var observationerna finns i de<br />
övriga rutorna. Ett dubbelklick på en punkt ger samtliga uppgifter för företaget. I<br />
exemplet har vi markerat en punkt i rutan uppe <strong>till</strong> höger. Objektet visar sig ha<br />
identiteten ’88’. Den har markerats med ”×” och får då automatiskt samma<br />
markering i övriga diagram och även i databladet.<br />
Lådagram<br />
Ett lådagram används för att bland annat illustrera spridningen i ett material (se<br />
Wallgren m.fl. Statistikens bilder, kapitlet Att visa variation). Diagram 3 och 4 är<br />
lådagram. Lådagrammet kan indelas i beståndsdelarna låda, morrhår och extremvärden.<br />
Lådan begränsas av den undre och övre kvartilen. Följaktligen ligger<br />
50 procent av fördelningen i lådan. Strecket inne i lådan är medianen.<br />
Morrhåren är strecken på vardera sidan om lådan. Morrhårens längd är en valfri<br />
konstant (k) multiplicerat med kvartilavvikelsen (se SAS/Insight, kapitel 33 Box<br />
Plots and Mosaic Plots, avsnitt Method). Standardvärdet för konstanten k är 1,5.<br />
Om inte det passar, kan man välja ett annat k-värde. Det är det egna valet, baserat<br />
på erfarenhet, som styr!<br />
Punkterna <strong>till</strong> höger och vänster om morrhåren är extremvärden.<br />
En jämförelse mot tidigare uppgifter kan man göra genom att ta differensen eller<br />
kvoten mellan nya och gamla värdet (KRDIFF). I ett lådagram (diagram 3) framträder<br />
objekt med stora skillnader tydligt. En bra strategi vid <strong>granskning</strong> är att<br />
börja från ytterkanterna och gå inåt mot morrhåren.<br />
55
Grafisk <strong>granskning</strong><br />
Diagram 3<br />
Inkvarteringsstatistiken. Genomsnittlig skillnad i intäkt per rum jämfört med<br />
föregående år<br />
Lådagram kan användas för att snabbt bestämma acceptansgränser om man avser<br />
att på traditionellt sätt ta fram misstänkta poster för verifiering.<br />
I den stora lådan ligger 50 procent av fördelningen, dvs. hälften av hotellen tog<br />
mellan 400 kr och 600 kr per natt. Den stora svärmen av observationer ligger<br />
mellan 200 kr och 800 kr. Sätter man acceptansgränserna 200 kr och 800 kr, får<br />
man ut endast de extrema värdena, vilket ofta räcker (se avvikelsefel).<br />
Diagram 4<br />
Inkvarteringsstatistiken. Fördelning för intäkt per belagda rum<br />
I en urvalsundersökning kan man, för att ta hänsyn <strong>till</strong> uppräkningstal vid<br />
<strong>granskning</strong>en, även ta fram en graf med uppräkningstal som Y-variabel och<br />
undersökningsvariablerna som X-variabler.<br />
Diagram 5<br />
Inflytande på skattning. Alla punkter på kurvan har samma inflytande<br />
56<br />
Produkten av variabelvärdet och uppräkningstalet<br />
bestämmer observationens<br />
tyngd i skattningen. I diagram 5 är pro-<br />
dukten w VAR<br />
⋅ 1, där w är uppräknings-<br />
talet, konstant på kurvan. Misstänkta värden<br />
ligger <strong>till</strong> höger om kurvan.
Grafisk <strong>granskning</strong><br />
Misstänkta observationer hittar man genom att kombinera diagrammen 5 och 6.<br />
Tekniken exemplifieras på data från djurräkningen. Vi har i grafen manuellt ritat<br />
in pilar <strong>till</strong> de observationer som vi kan tänka oss att vi behöver undersöka närmare.<br />
Genom att man kan ta fram fler variabler samtidigt, blir denna process ofta<br />
ganska snabb. Variabeln vikt är uppräkningstal och övriga variabler är antalet djur<br />
av fyra olika djurslag.<br />
Diagram 6<br />
Djurundersökningen. Misstänkta fel<br />
Som alternativ kan <strong>granskning</strong> i urvalsundersökningar göras direkt på uppräknade<br />
data, dvs. variabelvärden multiplicerade med uppräkningstal.<br />
5.5.3 Misstänkta fel – definitionsfel<br />
Definitionsfel är systematiska svarsfel (se kapitel 2), vilka praktiskt taget är omöjliga<br />
att hitta med traditionell <strong>granskning</strong>. Här kommer poängen med EDA enligt<br />
Tukey:<br />
”The true value of a graph is found when it forces us to see something we<br />
could not see before.”<br />
Idén är att finna mönster som indikerar förekomst av oförutsedda definitionsfel i<br />
ett datamaterial.<br />
Exemplet från konsumentprisindex, KPI, nedan visar hur man med SAS/Insight<br />
kan identifiera felaktiga ”svarsbeteenden”.<br />
57
Grafisk <strong>granskning</strong><br />
Exempel: Svarsbeteende, KPI<br />
Diagram 7<br />
KPI. Kvalitetsvärdering vid byte av vara<br />
58<br />
Varje månad samlas prisuppgifter in för ett<br />
urval av varor i ett urval av butiker. Prisuppgifterna<br />
utgör en del av underlaget för<br />
beräkningen av KPI. Index beräknas ett år i<br />
taget genom att man jämför priser under<br />
aktuell månad med priser i december året<br />
innan. Från månad <strong>till</strong> månad försvinner en<br />
del produkter från butikernas sortiment och<br />
ersätts då med urval av nya produkter.<br />
Intervjuarna, som sköter insamlingen, ska värdera skillnaden i kvalitet mellan den gamla<br />
och den nya produkten. Värderingen ska huvudsakligen göras utifrån intervjuarens egna<br />
bedömningar. Det är inte <strong>till</strong>åtet att som regel sätta kvalitetsskillnaden lika med prisskillnaden,<br />
bara om det är motiverat.<br />
I detta diagram plottas kvalitetsvärderingen (RKVALT) mot prisskillnaden (RDIFFORD),<br />
båda ställda i relation <strong>till</strong> prisnivå. Värdemängderna har begränsats <strong>till</strong> intervallet<br />
[-0,5;+0,5].<br />
Här ser man tydligt att kvalitetsvärderingen 0 är vanlig (horisontell punktsamling), och det<br />
är <strong>till</strong>åtet. Det är också vanligt att kvalitetsskillnaden är lika med prisskillnaden (diagonal<br />
linje y = x ), vilket generellt är o<strong>till</strong>åtet. Man kan också se ett litet antal punkter på en linje<br />
y =− x,<br />
vilket antyder att kvalitetsvärderingen kan ha fått fel tecken, t.ex. vid dataregistreringen.<br />
Det går också att skönja att det förekommer att kvalitetsvärderingen sätts lika med halva<br />
prisskillnaden (en diagonal linje 2 ⋅ y = x). Förekomsten av dessa mönster är intressant<br />
att konstatera, och de o<strong>till</strong>åtna beteendena hos intervjuarna bör åtgärdas med utbildning<br />
och information. Däremot är det inte meningsfullt att för de enskilda dataposterna försöka<br />
hitta ”rätt” värde, eftersom varje enskild datapost kan vara ”korrekt” samtidigt som<br />
massförekomsten tyder på felaktigt förfarande.<br />
5.6 Grafisk aggregat<strong>granskning</strong><br />
Aggregat<strong>granskning</strong> innebär att man först kontrollerar aggregerade data (makronivå)<br />
och därefter identifierar de objekt i misstänkta aggregat som sannolikt bidragit<br />
mest <strong>till</strong> att aggregatet betecknats som misstänkt (mikronivå).<br />
I arbetsställeundersökningen Kortperiodisk sysselsättningsstatistik (KS) används<br />
sedan 1995 ett system för grafisk output<strong>granskning</strong>. Systemet granskar för närvarande<br />
endast variabeln ”Antal anställda”. Ungefär samma typ av system används<br />
också sedan 1996 i Kortperiodisk lönestatistik inom privat sektor (KLP).<br />
I KS system visar makronivån skattningar och relativ förändring av antal anställda<br />
per näringsgren och län mot föregående månad/kvartal, alternativt motsvarande<br />
månad/kvartal föregående år. Dessutom visas relativ förändring av populationsvariansen<br />
i syfte att identifiera aggregat där stora fel tar ut varandra så att aggregatvärdet<br />
verkar vara korrekt. Förändringar markeras med olika färger beroende<br />
på deras storlek.
Grafisk <strong>granskning</strong><br />
Några erfarenheter av systemet:<br />
• Allmänt – misstänkta data upptäcks mycket snabbare än med traditionella<br />
papperslistor.<br />
• Misstänkta skattningar på makronivån upptäcks snabbt genom färgmarkeringarna.<br />
• Överblick fås över samtliga mikrodata för en misstänkt skattning i samma<br />
bild.<br />
• Avvikande observationer med stor påverkan kan lätt identifieras och åtgärdas.<br />
• Speciella mönster, som exempelvis stor variation eller speciella kluster<br />
(avslöjar eventuellt vissa systematiska fel), kan upptäckas med spridningsdiagrammet.<br />
Ytterligare exempel på grafisk output<strong>granskning</strong> visas i exemplet nedan i diagram<br />
8.<br />
59
Grafisk <strong>granskning</strong><br />
Exempel: Output<strong>granskning</strong> i KPI<br />
Diagram 8<br />
Output<strong>granskning</strong> av KPI. Förändringen, mellan<br />
januari och februari, på varugruppsnivå de senaste<br />
21 åren<br />
KPI beräknas genom en hierarkisk<br />
aggregering av priser upp <strong>till</strong><br />
en total för hela den privata konsumtionen.<br />
På den högsta nivån<br />
används den internationella klassificeringen<br />
COICOP med 12<br />
avdelningar.<br />
Diagrammet här in<strong>till</strong> ger en<br />
snabbkoll av resultaten. Varje<br />
lådagram visar fördelningen av<br />
prisförändringarna från januari <strong>till</strong><br />
februari för åren 1980–2000, dvs.<br />
21 år.<br />
Kod 00 avser KPI totalt. 01–12<br />
avser avdelningar som Livsmedel,<br />
Alkohol & tobak.<br />
Diagram 8 visar<br />
aggregat<strong>granskning</strong> för februari<br />
månad år 2000. Om resultatet<br />
enligt lådagrammets definition är<br />
att betrakta som ”avvikande”<br />
markerar vi detta med .<br />
Här finns två tydliga fall. 07.2.2<br />
avser drivmedel, och för februari<br />
2000 har SCB uppmätt den största<br />
februariändringen under de<br />
senaste 21 åren (OPEC har begränsat<br />
leveranserna alltsedan<br />
vintern 1999 för att hålla uppe<br />
priserna på råolja). Koden 07.3<br />
avser kollektiva transporter, och<br />
prissänkningen beror <strong>till</strong> stor del<br />
på ”rabatten” med 150 kronor<br />
som Stockholms Lokaltrafik lämnade<br />
som ersättning för problem<br />
med pendeltåg och tunnelbana<br />
under vintern år 2000.<br />
Observera att acceptansområdet<br />
för 01.1.6, frukt, inte bör vara<br />
symmetriskt kring 100. Detta var<br />
utgångspunkten i den ursprungliga<br />
<strong>granskning</strong>en.<br />
60
Grafisk <strong>granskning</strong><br />
5.7 SAS/Insight: Hur stora dataset?<br />
Grafisk <strong>granskning</strong> bygger på interaktivt samspel mellan grafer, datablad och enskilda<br />
observationer.<br />
När datamängden ökar, blir punktdiagram gyttriga och svårlästa. Enskilda objekt<br />
kan man inte identifiera genom att klicka på en punkt, eftersom man då markerar<br />
en hel svärm av punkter. Det finns hjälpmedel för att hantera detta: minska punktstorleken<br />
och zoomning. Läsbarheten i histogram, lådagram med flera påverkas<br />
inte direkt av antalet observationer. Däremot bestämmer internminne och processorkapacitet<br />
hur snabbt det går att arbeta. Bildskärmen är ofta den praktiska<br />
begränsningen.<br />
Det finns i princip tre faktorer som har betydelse för grafisk <strong>granskning</strong> med SAS/<br />
Insight:<br />
• datamängden, antal poster och antal variabler<br />
• dataformatet<br />
• organisationen av data.<br />
Det är omöjligt att ge generella rekommendationer för hur stora dataset får vara.<br />
Analys av 100 000 poster kan fungera bra i en <strong>till</strong>ämpning, medan det i en annan<br />
kan vara trögt att arbeta med mindre än halva antalet poster. Man måste pröva sig<br />
fram.<br />
Vid större datamängder rekommenderar vi att man arbetar enligt någon av följande<br />
metoder:<br />
• minska antalet variabler i analysen<br />
• dela upp datamängden i undergrupper<br />
• analysera ett urval av datamängden, t.ex. zoomning (leta efter mönster).<br />
Överblicken över hela datamängden går förlorad, men man vinner i smidighet.<br />
5.8 Kompetens<br />
Man kan indela användarna av grafiska analysinstrument i tre olika kategorier<br />
1. användare som granskar enbart enligt ett på förhand uppgjort schema<br />
2. användare som granskar enligt plan, men även utför fördjupade analyser<br />
3. avancerade användare<br />
En förutsättning för den första gruppen är att kunna hantera analysverktyget, SAS/<br />
Insight. Detta kräver datorvana men inte nödvändigtvis kunskaper i SAS-programmering.<br />
De som utför fördjupade analyser (grupp 2) behöver dessutom elementära kunskaper<br />
i EDA för att kunna analysera mönster, dvs. att identifiera fel med hjälp av<br />
mönster som är karaktäristiska för felen. Det fordras ibland vissa kunskaper i<br />
SAS-programmering.<br />
Den avancerade användaren behöver goda kunskaper i EDA, SAS/Insight och<br />
SAS-programmering.<br />
61
Grafisk <strong>granskning</strong><br />
5.9 Sammanfattning av interaktiv grafisk <strong>granskning</strong><br />
5.9.1 Fördelar<br />
Granskaren kan lätt se vilka datapunkter som kan vara avvikelsefel. Acceptansgränser<br />
behöver inte beräknas och uppdateras. Granskningen anpassas direkt <strong>till</strong><br />
det aktuella materialet utan antaganden. Man får en god överblick över materialet<br />
och ökar kunskaperna om materialet och ämnet.<br />
Metoden löser följande problem som traditionell <strong>granskning</strong> ofta har:<br />
• I förväg satta parametervärden byggda på antaganden från föregående undersökning<br />
blir inaktuella och medför onödiga felsignaler samt snedvrider<br />
<strong>granskning</strong>en. (Det finns exempel där acceptansgränser inte har täckt medianvärdet.)<br />
• Outliers i materialet kan medföra att gränserna snedvrids eller blir för vida<br />
när parametervärdena beräknas ur det material som ska granskas.<br />
• Kontroller blir dåliga på grund av att antaganden om datastrukturer med<br />
mera inte håller <strong>till</strong> följd av förändringar i populationen.<br />
• Införa nya kontroller i <strong>granskning</strong>sprogrammet (vilket kan vara tids- och<br />
resurskrävande).<br />
• Objekt felsignaleras ständigt i varje undersökningsomgång.<br />
• Komplicerade kontroller kan vara svåra att förstå.<br />
• Svårt att få överblick av datamaterialet, ökad insikt i materialet och problemen<br />
med datainsamlingen, samt ökad ämneskunskap.<br />
• Höga initiala IT-kostnader, programmering osv. (gäller speciellt engångsundersökningar).<br />
5.9.2 Problem<br />
Om man använder grafisk <strong>granskning</strong> som enda metod, kan man få följande problem<br />
– speciellt vid stora datamängder med många objekt eller variabler.<br />
• Det kan vara svårt att få överblick över alla problem i ett objekt. En och<br />
samma uppgiftslämnare kan behöva kontaktas flera gånger. Dessutom kan<br />
det bli svårt att få <strong>granskning</strong>en fullständig för alla variabler.<br />
• Det kan vara svårt att få fram processdata och dokumentation över <strong>granskning</strong>en.<br />
• Förändringar i felbeteendet kan påverka <strong>granskning</strong>en (gäller all <strong>granskning</strong>).<br />
• Det kan vara svårare att få <strong>granskning</strong>en reproducerbar.<br />
62
Grafisk <strong>granskning</strong><br />
5.9.3 När kan grafisk interaktiv <strong>granskning</strong> <strong>till</strong>ämpas?<br />
Små datamängder Passar bra för grafisk <strong>granskning</strong>, såväl produktions<strong>granskning</strong><br />
som output<strong>granskning</strong>.<br />
Medelstora datamängder Traditionell <strong>granskning</strong> kompletteras med grafisk<br />
output<strong>granskning</strong>.<br />
Stora datamängder Traditionell <strong>granskning</strong> kan kompletteras med<br />
grafisk för delar av populationen.<br />
När man inte har tid med<br />
flexibilitet (månadsstatistik)<br />
När flexibilitet är viktig Grafisk <strong>granskning</strong>.<br />
Granskningsomfattning liten Grafisk <strong>granskning</strong>.<br />
Traditionell <strong>granskning</strong> eller alternativt en<br />
skräddarsydd grafisk applikation.<br />
Granskningsomfattning större Traditionell <strong>granskning</strong> eller skräddarsydd<br />
applikation för grafisk <strong>granskning</strong>.<br />
5.9.4 Rekommendationer<br />
Använd:<br />
• interaktiv grafisk <strong>granskning</strong> i output<strong>granskning</strong> i alla undersökningar<br />
• grafisk <strong>granskning</strong> i mindre undersökningar<br />
• grafisk <strong>granskning</strong> i engångsundersökningar<br />
• grafiska metoder som hjälpmedel för att utveckla <strong>granskning</strong>sprocesser.<br />
5.10 Referenser<br />
Houston G., and A. G. Bruce (1993), ”gred: Interactive Graphical Editing for Business Surveys”,<br />
Journal of Official Statistics. Vol. 9, No. 1, 1993, pp. 81–90.<br />
SAS/Insight, User’s <strong>Guide</strong> (1999), version 8. SAS Institute Inc. Manualen finns även elektroniskt<br />
<strong>till</strong>gänglig via
Grafisk <strong>granskning</strong><br />
64
6 Vad ska göras vid felsignal?<br />
Vad ska göras vid felsignal?<br />
Insamling av data om produktionsprocessen och sammanställning <strong>till</strong> processdata<br />
är ett område som man först nyligen har börjat utveckla – det gäller både internationellt<br />
och vid SCB. I avsnittet 6.6 kan vi följaktligen endast ange exempel på<br />
vilka data som kan samlas in. Endast en referens ligger <strong>till</strong> grund för vårt resonemang,<br />
nämligen Engström (1997). Inom de närmaste åren kommer dock säkerligen<br />
studier att redovisas som kan ligga <strong>till</strong> grund för riktlinjer och rekommendationer<br />
på området.<br />
Förslaget <strong>till</strong> åtgärdskoder är ett utkast och ska alltså <strong>till</strong>s vidare ses som idéer. De<br />
innehåller dock allt som behövs för sammanställningen <strong>till</strong> de processdata som<br />
föreslås i kapitel 7.<br />
I detta kapitel beskrivs aktiviteter som är förknippade med att <strong>granskning</strong>sprogrammet<br />
signalerar variabler inom objekt för manuell behandling, som här kallas<br />
verifiering. Granskningsprogram kan även signalera observationer/variabler för<br />
maskinell åtgärd, vilken omedelbart utförs av programmet. Detta kallas här automatimputering<br />
och berörs kortfattat i avsnittet om imputering.<br />
Verifieringsprocessen har följande syften:<br />
• kontrollera och åtgärda felsignalerade data<br />
• registrera <strong>granskning</strong>sstatus och utfört arbete<br />
• ge uppgiftslämnarna förståelse för vad de ska ge svar på<br />
• samla in och registrera data över felorsaker, uppgiftslämnarproblem med<br />
mera.<br />
6.1 Felmeddelanden<br />
Med felmeddelande avses här den information som dataprogrammet ger om de<br />
objekt och variabler som flaggas som fel eller misstänkta fel. Syftet med felmeddelandet<br />
är att:<br />
• ge <strong>till</strong>räcklig information för rationell verifiering av felsignaler.<br />
• utgöra ett underlag för data om insamlings- och produktionsprocessen.<br />
6.1.1 Innehåll<br />
Checklista för innehållet i ett felmeddelande<br />
‰ objektidentitet<br />
‰ felsignalerad variabel<br />
‰ kontroll som medförde felsignalen<br />
‰ verbal beskrivning av kontrollen<br />
‰ data om objektet som bedöms nödvändiga för verifieringen.<br />
Data som kan underlätta verifieringen är värden på vissa andra variabler, tidigare<br />
rapporterade värden på den felsignalerade variabeln och värden på härledda<br />
variabler, t.ex. förändringstal.<br />
När en variabel felsignaleras måste en felkod sättas som visar vilket kriterienummer<br />
som förorsakade felsignaleringen.<br />
65
Vad ska göras vid felsignal?<br />
Nedan följer ett exempel från Kortperiodisk lönestatistik, privat sektor (KLP), där<br />
dock allt det som vi rekommenderar inte finns med.<br />
Diagram 1<br />
Exempel på <strong>granskning</strong>sbild med felkod (A), problemet i klartext (C), felorsak och<br />
åtgärd i klartext (B). Kortperiodisk lönestatistik, privat sektor (KLP)<br />
6.1.2 Generering av felmeddelande<br />
Granskningen genomförs vanligen för ett objekt i taget, variabel för variabel eller<br />
kontroll för kontroll. Så fort variabelvärden underkänns i en kontroll, ska variablerna<br />
(fälten) förses med felsignal och felkoder. Felmeddelanden kan genereras på<br />
två sätt:<br />
• omedelbart (variabelvisa felmeddelanden, vilket framför allt gäller dataregistrerings<strong>granskning</strong>)<br />
• efter att datorprogrammet har granskat hela objektet (objektvisa felmeddelanden).<br />
Variabelvisa felmeddelanden. Granskaren registrerar nya värden på berörda variabler,<br />
anger orsaken <strong>till</strong> ändringen (se 6.6) och den maskinella <strong>granskning</strong>en<br />
startas om. Alla kontroller som innehåller de variabler som ändrats görs då om.<br />
Om det felsignalerade värdet accepteras, registrerar granskaren detta genom att<br />
ändra åtgärdskoden. Om felsignalen inte snabbt kan lösas, markerar operatören/<br />
granskaren värdet med en felkod och fortsätter <strong>granskning</strong>en.<br />
Objektvisa meddelanden. När ett objekt gått igenom alla maskinella kontroller,<br />
skrivs det ut ett felmeddelande med alla felsignalerade variabelvärden och <strong>till</strong>hörande<br />
koder (vid dataregistrerings<strong>granskning</strong>: alla återstående variabelvärden och<br />
koder). Meddelandet ska i förekommande fall även omfatta uppgifter om utförda<br />
66<br />
C<br />
B<br />
A
Vad ska göras vid felsignal?<br />
imputeringar. Granskaren eller arbetsgruppen avgör om objektmeddelandet ska<br />
verifieras omedelbart eller först när ett antal meddelanden har samlats på hög.<br />
Rutinen för felmeddelanden ska utformas så, att felsignalerade variabelvärden<br />
med <strong>till</strong>hörande felkoder enkelt kan sammanställas för eventuell ytterligare bearbetning<br />
vid <strong>granskning</strong>en, som t.ex. automatimputering (se ovan).<br />
Den produktansvarige ska utforma kontrollerna och bestämma ordningsföljden<br />
mellan dem samt svara för kodsättningen och den verbala beskrivningen med<br />
<strong>till</strong>hörande information.<br />
6.2 Verifiering av felsignaler<br />
Det primära syftet med verifiering av felsignalerade variabler är att utreda om det<br />
felsignalerade variabelvärdet kan accepteras, är felaktigt eller är en outlier.<br />
Om värdet är felaktigt, ska utredningen även leda <strong>till</strong> att man får fram ett acceptabelt<br />
värde.<br />
Outliers ska egentligen behandlas i estimeringsprocessen, men diskuteras kortfattat<br />
nedan i avsnitt 6.4.<br />
Verifieringen består i att få fram hur det ifrågasatta värdet ska åtgärdas – utifrån<br />
underlag (felmeddelande, blankett m.m.), ämneskunskaper, erfarenheter eller kunskaper<br />
om objektet eller genom kontakt med uppgiftslämnaren. Från processynpunkt<br />
är frågan här hur man ska organisera <strong>till</strong>gänglig information om objektet, så<br />
att verifieringen kan göras så effektivt som möjligt.<br />
6.2.1 Underlag<br />
Underlag är först och främst felmeddelandet och registreringsunderlaget, vilket i<br />
postenkäter är den ifyllda blanketten. Registreringsfel, sortfel, förskjutningsfel,<br />
vissa konsistensfel m.fl. uppenbara (slarv-)fel kan lätt identifieras genom jämförelser<br />
mot registreringsunderlaget. I övrigt är det svaren på övriga frågor,<br />
registeruppgifter, tidigare rapporterade uppgifter samt <strong>till</strong>skriven information<br />
(meddelanden från uppgiftslämnaren) som kan ge nödvändiga ledtrådar. Om<br />
sådana data inte finns på felmeddelandet, måste uppgifterna vara lät<strong>till</strong>gängliga,<br />
helst online – t.ex. genom en inskannad bild av den ifyllda blanketten.<br />
Vid periodiska undersökningar kan tidigare rapporterade uppgifter för relevanta<br />
variabler finnas med på felmeddelandet. I annat fall ska detta underlag finnas lätt<br />
<strong>till</strong>gängligt, helst online. Från <strong>granskning</strong>ssynpunkt är det en fördel om uppgifter<br />
från föregående period är förtryckta på blanketten. Detta ger dessutom ett bra stöd<br />
för uppgiftslämnaren.<br />
Vid verifiering ska man också utnyttja sådana data om det felsignalerade objektet<br />
som finns i <strong>till</strong>gängliga register eller i andra undersökningar.<br />
Om underlaget är o<strong>till</strong>räckligt, ska uppgiftslämnaren kontaktas där det är motiverat<br />
och möjligt. Återkontakterna har dessutom <strong>till</strong> uppgift att samla in data om<br />
förklaringar <strong>till</strong> felsignaler, orsaker <strong>till</strong> fel och uppgiftslämnarens problem att ge<br />
korrekta svar på undersökningens frågor. (Se vidare avsnitt 6.3.)<br />
67
Vad ska göras vid felsignal?<br />
6.2.2 Kompetenskrav<br />
Det är ofta svårt att verifiera felmeddelanden. Visserligen finns det i alla undersökningar<br />
felsignaler som lätt kan verifieras, men för många felsignaler krävs det<br />
omfattande kunskaper i ämnet och om undersökningen. Detta gäller särskilt när<br />
uppgiftslämnaren ska kontaktas. Det krävs fortlöpande utbildning i ämnet, erfarenhetsutbyte<br />
och en <strong>till</strong>räckligt kvalificerad bakgrund.<br />
6.3 Återkontakter<br />
Syften med att kontakta uppgiftslämnaren är att:<br />
• hjälpa uppgiftslämnaren att lämna korrekta svar inte bara vid undersöknings<strong>till</strong>fället<br />
utan även i framtiden<br />
• verifiera felsignaler<br />
• inhämta kunskaper om data, noggrannhet i data, felorsaker och uppgiftslämnarproblem.<br />
Kontakter är kostsamma för både producent och uppgiftslämnare, varför varje<br />
beslut om återkontakt måste vara välgrundat. En fråga man måste ställa sig vid<br />
beslutet om återkontakt är om det är realistiskt att man kan få högre kvalitet.<br />
Återkontakter måste ge betydligt mer än enbart att man verifierar objektets alla<br />
olösta felsignaler. Man ska på ett systematiskt sätt samla in felorsaker samt<br />
synpunkter på undersökningen – både när det gäller de efterfrågade uppgifterna<br />
(t.ex. uppgiftslämnarens möjlighet att lämna uppgifter) och i fråga om blankettens<br />
utformning. Åtgärder och felorsaker kodas på lämpligt sätt (se avsnitt 6.6).<br />
Kontakter måste tas så nära uppgiftslämnandet som möjligt. Om lång tid har förflutit<br />
mellan uppgiftslämnandet och återkontakten, har uppgiftslämnaren troligen<br />
varken tid eller vilja att åter sätta sig in i såväl uppgiftslämnandet som sitt eget<br />
informationssystem. Dessutom kan det vara svårare att få <strong>till</strong>gång <strong>till</strong> data.<br />
Vid engångsundersökningar och vid de första omgångarna av en ny periodisk undersökning<br />
är det befogat med många återkontakter. Efter hand som uppgiftslämnaren<br />
lär sig undersökningen, blanketten förbättras och granskarnas erfarenheter<br />
och kunskap ökar, blir det alltmer de potentiella felens betydelse som ska avgöra<br />
frekvensen av återkontakter.<br />
6.4 Hantering av outliers<br />
Outliers är korrekta data som uppräknade skiljer sig så mycket i absolut storlek<br />
från övriga uppräknade värden i sin redovisningsgrupp, att de aktualiserar frågor<br />
om förändringar i estimationen eller kommentarer i redovisningen av undersökningens<br />
resultat. Detta gäller speciellt urvalsundersökningar.<br />
Outliers behandlas vanligen med:<br />
• reducering av deras inverkan för att undvika dels missvisande information<br />
om målpopulationen, dels störningar i jämförbarheten<br />
• kommentarer i publicerade skattningar.<br />
6.5 Imputering<br />
Ett felsignalerat och felaktigt värde kan imputeras, dvs. ersättas med ett acceptabelt<br />
värde efter fastställda regler utan kontakt med uppgiftslämnaren. Imputering<br />
68
Vad ska göras vid felsignal?<br />
kan göras antingen genom manuell imputering med hjälp av jämförelser mot värden<br />
från tidigare rapportering, information i urvalsramen (registret) eller mot statistikuppgifter<br />
i andra undersökningar. Saknade eller orimliga värden kan även<br />
ersättas med ett acceptabelt värde maskinellt enligt fastställda regler, s.k. automatisk<br />
imputering. Källorna som används för att hitta ersättningsvärden kan vara<br />
desamma för såväl manuell som automatisk imputering.<br />
Automatisk imputering kan göras vid partiellt bortfall och eventuellt för bortfallsobjekt.<br />
Även i samband med verifieringen kan automatisk imputering användas<br />
när felsignalerade variabler ska ersättas med acceptabla värden (t.ex. vid orimliga<br />
värden). Huruvida en felsignalerad variabel ska imputeras automatiskt eller åtgärdas<br />
på annat sätt beror ofta på objektets/felets betydelse för den slutliga skattningen.<br />
En fördel med automatisk imputering framför manuell imputering är att åtgärdade<br />
variabler behandlas på ett likformigt sätt. Risken vid manuell imputering kan vara<br />
att bedömningarna blir subjektiva. Dock finns det objekt och undersökningar där<br />
det inte är möjligt att använda automatisk imputering.<br />
Imputering är ett stort område och tas inte vidare upp här. Det viktiga är att den<br />
imputering som görs följs upp och dokumenteras väl, t.ex. genom att man <strong>till</strong>ämpar<br />
åtgärdskoder som visar hur variabeln har behandlats. Detta beskrivs i följande<br />
avsnitt.<br />
6.6 Insamling av information om <strong>granskning</strong>en<br />
Vidtagna åtgärder, orsaker <strong>till</strong> fel m.m. ska insamlas systematiskt och dataregistreras<br />
som underlag <strong>till</strong> statistik över <strong>granskning</strong>sprocessen (se vidare kapitel 7)<br />
och för att undvika dubbelarbete.<br />
Checklista för verifiering av felsignal<br />
‰ hur felsignalerade data har åtgärdats<br />
‰ vilka orsakerna är <strong>till</strong> identifierade fel<br />
‰ huruvida svar utgör uppskattningar eller är hämtade från uppgiftslämnarens<br />
informationssystem<br />
‰ vad avgivna svar egentligen står för (relevansen i erhållna svar)<br />
‰ vilka problem uppgiftslämnaren har att besvara frågorna<br />
‰ hur stor resursåtgången är, i synnerhet när det gäller återkontakter.<br />
Hur felsignalerade data har åtgärdats, kodas lämpligen enligt ett kodsystem utarbetat<br />
av den produktansvarige.<br />
En åtgärdskod som visar vilken/vilka åtgärder som har genomförts ska definieras<br />
för varje enskild felkod.<br />
Exempel på åtgärder:<br />
• Variabelvärde felsignalerat (men inte verifierat).<br />
• Variabelvärde godkänt utan ändring och utan kontakt med uppgiftslämnaren.<br />
• Variabelvärde godkänt utan ändring efter kontakt med uppgiftslämnaren.<br />
• Åtgärdas senare (t.ex. ett viktigt objekt där uppgiftslämnaren inte har kunnat<br />
nås).<br />
69
Vad ska göras vid felsignal?<br />
• Variabelvärde korrekt men har klassats som outlier och åtgärdas enligt bestämda<br />
regler (se 6.4)<br />
• Variabelvärdet ändrat utan återkontakt (t.ex. överföringsfel).<br />
• Variabelvärdet ändrat med kontakt (primärdata felaktigt) – (ett korrekt<br />
värde har givits av uppgiftslämnaren).<br />
• Variabelvärdet ändrat vid återkontakt (primärdata felaktigt) – (ett uppskattat<br />
värde har givits av uppgiftslämnaren).<br />
• Värde manuellt imputerat (primärdata felaktigt/saknas).<br />
• Värde automatiskt imputerat (primärdata felaktigt/saknas).<br />
• Variabelvärde saknas.<br />
• Objektet <strong>till</strong>hör övertäckningen.<br />
• Objektet utgör bortfall.<br />
Vid insamlingen av information om <strong>granskning</strong>sprocessen är det viktigt att skaffa<br />
information om orsaker <strong>till</strong> att fel uppstått. Informationen från återkontakt eller<br />
blankett används för kodning av felorsaker <strong>till</strong> identifierade fel.<br />
Exempel på orsaker <strong>till</strong> fel:<br />
• fel vid skanning eller dataregistrering<br />
• missuppfattning (definitionsfel) hos uppgiftslämnaren (föranleder<br />
eventuellt åtgärder i blanketten)<br />
• svårigheter för uppgiftslämnaren att lämna efterfrågad uppgift.<br />
Det kan tyckas vara orimligt resurskrävande att felorsaks- och åtgärdskoda varje<br />
variabel eller att registrera tidsåtgången vid återkontakter. Men för att man ska<br />
känna <strong>till</strong> och kunna kontrollera processen, krävs kodning och framställning av<br />
processtatistik. Ofta är det dock inte möjligt att felorsakskoda alla felsignaler eller<br />
att göra det vid varje undersökningsomgång. Man kan då t.ex. välja ut vissa grupper<br />
av inkommande objekt, välja ut vissa variabler, göra kodningar endast för<br />
vissa undersökningsomgångar och så vidare. Det gäller att i början koncentrera sig<br />
på de variabler, delpopulationer osv. som är viktiga och som man känner <strong>till</strong> är<br />
mest problematiska. Hur det ska göras får man i början pröva sig fram <strong>till</strong>.<br />
Resursåtgången, uttryckt i t.ex. tid, är en viktig faktor i planeringen och styrningen<br />
av en undersökning. Vissa aktiviteter kan kontrolleras med hjälp av åtgärdskoder<br />
och indikatorer (se vidare kapitel 7), t.ex. andelen ändringar, antalet återkontakter<br />
eller andelen manuellt imputerade variabelvärden. Andra insatser, såsom tiden<br />
som använts för återkontakter (inklusive tiden för försök <strong>till</strong> återkontakt, dvs. då<br />
uppgiftslämnaren inte har kunnat nås), kräver ett system för att resursåtgången ska<br />
kunna registreras.<br />
6.7 Referens<br />
Engström, P. (1997): A Small Study on Using Editing Process Data for Evaluation of the European<br />
Structure of Earnings Survey. Working paper No. 19, UN/ECE Work Session on Statistical data<br />
Eding, Prague.<br />
70
7 Processdata<br />
Processdata<br />
Checklista<br />
‰ Producera processdata fortlöpande, dvs. automatiskt.<br />
‰ Presentera processdata<br />
{ grafiskt<br />
{ enligt paretoprincip.<br />
‰ Analysera processdata för att<br />
{ på ett tidigt stadium ge besked om något har inträffat som eventuellt<br />
är väsentligt för <strong>granskning</strong>en<br />
{ snabbt finna orsaken <strong>till</strong> det inträffade och se om det finns möjligheter<br />
att rätta <strong>till</strong> de eventuella problemen under pågående process<br />
{ ge information om kontrollers träffsäkerhet och effektivitet.<br />
Som nämndes i inledningen av kapitel 6, är processdata ett utvecklingsområde<br />
som är i sitt inledningsskede såväl internationellt som vid SCB. Vid SCB har en<br />
förstudie gjorts inom det s.k. processdataprojektet (2000) som bland annat<br />
diskuterar processdata för <strong>granskning</strong>.<br />
Ett ramarbete, Nordbotten (2000), utgör grund för detta kapitel. De förslag på<br />
indikatorer som anges har accepterats av den internationella gruppen ”Work<br />
Session on Statistical Data Editing” (leds av FN:s Economic Commission for<br />
Europe) som en plattform att arbeta vidare på. Martin (2000) framför förslag som<br />
är i enlighet med nedanstående.<br />
Utan data om processen är det omöjligt att leva upp <strong>till</strong> principen: ständig förbättring<br />
av hela undersökningen. Syftena med att producera statistik över<br />
<strong>granskning</strong>sprocessen är mer konkret uttryckt att:<br />
• övervaka och styra processen under pågående produktion<br />
• få underlag <strong>till</strong> förbättring av undersökningen<br />
• mäta effekter av processförändringar<br />
• få underlag för analys och kvalitetsredovisningar.<br />
Här redovisas de indikatorer som en <strong>granskning</strong>sprocess åtminstone måste generera<br />
för att syftena ovan ska <strong>till</strong>godoses.<br />
Indikatorerna ska produceras fortlöpande, dvs. automatiskt under och efter varje<br />
produktionscykel. För att indikatorerna i praktiken ska komma <strong>till</strong> faktisk användning,<br />
måste de presenteras lättåtkomligt och attraktivt. Presentationen bör därför<br />
vara grafisk och organiserad enligt paretoprincipen.<br />
Indikatorerna presenteras i två nivåer. I den översta, översiktliga indikatorer (avsnitt<br />
7.1.1), pekas på eventuella problem i processen och visas också hur mycket<br />
arbete som utförs i olika delar av processen. I den andra nivån, avsnitt 7.1.2, presenteras<br />
indikatorer relaterade <strong>till</strong> variabler. De ska användas <strong>till</strong> att identifiera<br />
förekommande problem med variabler eller kontroller.<br />
I avsnitt 7.2 ges en bild av hur processövervakningen enligt modellen skulle kunna<br />
gå <strong>till</strong>.<br />
71
Processdata<br />
7.1 Indikatorer<br />
Indikatorerna bör ange hur mycket <strong>granskning</strong>sarbete som har utförts, hur stor andel<br />
av kontrollerna som resulterat i ändringar av variabelvärden, hur många variabelvärden<br />
som ändrats osv. När man ska analysera effektiviteten i <strong>granskning</strong>sprocesser<br />
är det emellertid inte <strong>till</strong>räckligt med indikatorer. Man behöver också<br />
data om storleken av ändringar, imputeringar, rättningar m.m. Den informationen<br />
samlas lämpligen in i samband med underlaget för indikatorframställningen. Hur<br />
sådana data kan användas anges i kapitel 8, Effekter av <strong>granskning</strong>.<br />
7.1.1 Objektrelaterade indikatorer<br />
I indikatorerna har täljaren och i vissa fall nämnaren ett egenintresse för den produktansvarige<br />
och ska naturligtvis skrivas ut explicit.<br />
Andelen felsignalerade objekt ges av:<br />
O 1 =<br />
72<br />
Antal felsignalerade<br />
objekt<br />
Antal objekt som genomlöpt <strong>granskning</strong>skontroller<br />
Andelen ändrade objekt ges av:<br />
O 2 =<br />
Antal ändrade objekt<br />
Antal objekt som genomlöpt <strong>granskning</strong>skontroller<br />
Andelen återkontaktade objekt ges av:<br />
O 3 =<br />
Antal återkontakter<br />
Antal objekt som genomlöpt <strong>granskning</strong>skontroller<br />
Andelen ändrade objekt efter återkontakter ges av:<br />
O 4 =<br />
Antal ändrade objekt efter återkontakt<br />
Antal återkontaktade<br />
objekt<br />
Ett litet värde på O4 jämfört med värdet för O1 antyder t.ex. att <strong>granskning</strong>sprocessen<br />
är ineffektiv.<br />
Vid återkontakter kan man misslyckas med att få acceptabla data från uppgiftslämnaren.<br />
Om då imputeringar av saknade och felaktiga data har utförts, kan<br />
indikatorn Andelen imputerade av återkontaktade objekt belysa betydelsen av det<br />
problemet:<br />
O 5 =<br />
Antal återkontaktade<br />
objekt för vilka en variabel<br />
imputerats<br />
Antal återkontaktade<br />
objekt<br />
7.1.2 Variabelrelaterade indikatorer<br />
De variabelrelaterade indikatorerna identifierar variabler eller kontroller som<br />
eventuellt orsakar problem i processen. Indikatorerna bör presenteras storleksordnade<br />
(t.ex. i paretodiagram), som i det fiktiva exempel som redovisas i 7.2.<br />
I annat fall drunknar lätt intressanta fall i undersökningar där det finns många<br />
variabler och kontroller.
Andelen felsignaler per variabel ges av:<br />
V 1 =<br />
Antal felsignalerade<br />
objekt för variabel<br />
X<br />
Antal objekt som genomlöpt kontroller för variabel<br />
X<br />
Andelen felsignaler per kontroll ges av:<br />
V 2 =<br />
Antal felsignalerade<br />
objekt av kontroll K för variabel<br />
X<br />
Antal objekt som genomlöpt kontroll K för variabel<br />
X<br />
Andelen ändringar per variabel ges av:<br />
V 3 =<br />
Antal ändringar av variabel<br />
X<br />
Antal objekt med värde på variabel<br />
Träffsäkerheten per variabel ges av:<br />
V 4 =<br />
Antal objekt med ändring för variabel<br />
X<br />
Antal felsignalerade<br />
objekt för variabel<br />
X<br />
X<br />
Processdata<br />
Man kommer mycket långt med dessa indikatorer. Om man emellertid vill gå<br />
vidare, är det mycket enkelt att bygga ut systemet <strong>till</strong> att omfatta de speciella<br />
företeelser i undersökningen som man vill få belysta. Felorsakskodar man vissa<br />
eller alla variabler, kan man t.ex. lägga <strong>till</strong> indikatorn<br />
V 5 =<br />
Antal<br />
felsignaleringar<br />
för variabel<br />
X av orsak O<br />
Antal felsignaleringar<br />
variabel<br />
X<br />
och om man imputerar när återkontakter inte medför att man får acceptabla data,<br />
kan man införa följande indikator:<br />
V 6 =<br />
Antal imputeringar<br />
av variabel<br />
X<br />
Antal återkontaktade<br />
för återkontaktade<br />
objekt<br />
objekt<br />
Metadataprojektets delprojekt om processdata kommer förhoppningsvis att<br />
resultera i någon form av standard för indikatorer.<br />
7.2 Hur övervakning med hjälp av indikatorer skulle<br />
kunna gå <strong>till</strong><br />
En primär uppgift för indikatorer är att på ett tidigt stadium ge besked om att<br />
något har inträffat som eventuellt är väsentligt för <strong>granskning</strong>en. Det kan vara att<br />
acceptansgränser eller parametrar i kontroller fått helt felaktiga värden, t.ex. på<br />
grund av registreringsfel eller felaktiga antaganden i acceptansgränssättningen,<br />
eller också att stora reella förändringar i populationen eller omvärlden inträffat<br />
sedan föregående undersökning eller sedan den undersökning på vilken acceptansgränserna<br />
bygger. Tecken på detta kan vara att antalet felsignalerade objekt är<br />
väsentligt större eller mindre än vid föregående undersökningar.<br />
En andra uppgift är att snabbt finna orsaken <strong>till</strong> det inträffade och se om det finns<br />
möjligheter att rätta <strong>till</strong> de eventuella problemen under pågående process.<br />
73
Processdata<br />
En tredje uppgift är att ge information om kontrollers träffsäkerhet och effektivitet<br />
både för att man ska kunna se <strong>till</strong> att de är på <strong>till</strong>räcklig hög nivå och för att man<br />
ska kunna bedöma var det bäst kan löna sig att sätta in åtgärder i såväl insamlingssom<br />
<strong>granskning</strong>sprocessen. Detta kan vara ett viktigt inslag i evalvering av<br />
<strong>granskning</strong>sprocessen, vilket diskuteras i kapitel 8.<br />
Eftersom alla data för indikatorframställningen måste tas fram under processen, är<br />
det naturligt att oavsett syfte behandla indikatorerna i ett sammanhang. Vår rekommendation<br />
är att man under själva <strong>granskning</strong>sprocessen producerar en databas<br />
eller fil med alla data om vad som händer med originaldata i processen, dvs.<br />
felsignaler, åtgärdskoder osv., inklusive originaldata och färdiggranskade data.<br />
Det bör göras på ett sådant sätt att dessa data kan sammanställas <strong>till</strong> indikatorer<br />
och för de metoder för evalvering som i kapitel 8 betecknas som differensmetoder.<br />
Allt sådant behöver inte tas fram för alla objekt, variabler och kontroller för varje<br />
undersökning. Men dessa data ska finnas, så att man när som helst ska kunna göra<br />
effektivitetsstudier.<br />
Nedan anger vi i form av ett fiktivt exempel hur övervakning med indikatorer<br />
skulle kunna gå <strong>till</strong>. Exemplet bygger på Engström (1996).<br />
När andelen felsignalerade objekt ökar eller minskar för mycket eller när de felsignalerade<br />
objekten är för många eller för få, söker man hitta anledningen <strong>till</strong> den<br />
oväntade förändringen. Man försöker då lokalisera felsignalerade objekt efter<br />
någon viktig indelningsvariabel, undersökningsvariabel och kontroll. Andelen<br />
felsignalerade objekt sorteras i fallande ordning (paretoprincipen). Felsökningen<br />
illustreras med hjälp av diagram.<br />
Fiktivt exempel på övervakningssystem<br />
I en månatlig företagsundersökning felsignalerar <strong>granskning</strong>ssystemet cirka<br />
10 procent av de inkomna objekten.<br />
Andelen felsignalerade objekt ges av indikator O1 och redovisas i ett styrdiagram<br />
som kan nås via undersökningens systemapplikation. Det bedöms att andelen<br />
felsignalerade objekt får variera med ± 2 procent.<br />
Enligt den beslutsregel som <strong>till</strong>ämpas undersöker man processen närmare när<br />
andelen felsignalerade objekt ligger utanför acceptansgränserna.<br />
74
Diagram 1<br />
Andel felsignalerade objekt för undersökningsperioderna januari–maj<br />
18<br />
15<br />
12<br />
9<br />
6<br />
3<br />
0<br />
Jan Feb Mar Apr Maj<br />
Processdata<br />
Eftersom andelen felsignalerade objekt för den aktuella undersökningsperioden bedöms<br />
vara för stort, fortsätter man med undersöka felsignalerade objekt med avseende på<br />
variabler och kontroller. Bransch är då en viktig indelningsvariabel.<br />
Diagram 2<br />
Andel felsignalerade objekt per bransch. Sortering i fallande ordning,<br />
paretodiagram<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
A F D E B C<br />
Nästa åtgärd är att undersöka andelen felsignalerade objekt per variabel, indikator V1.<br />
75
Processdata<br />
Diagram 3<br />
Andel felsignalerade objekt per variabel<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
76<br />
5<br />
0<br />
X2 X1 X3<br />
Ofta används flera kontroller i <strong>granskning</strong>sprocessen för att identifiera fel. Nästa steg är<br />
därför att undersöka hur många felmarkeringar som de olika kontrollerna ger.<br />
Diagram 4<br />
Andel felsignaler per kontroll. Sortering i fallande skala efter andel felsignaler per<br />
kontroll<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
K3 K1 K4 K2<br />
En väsentlig och återkommande uppgift är att utvärdera <strong>granskning</strong>sprocessen. Vi<br />
fortsätter därför med det fiktiva exemplet för att illustrera ett sätt att analysera processen.<br />
Exempel på analys av <strong>granskning</strong>sprocessen med hjälp av processdata<br />
När man ska analysera processen, är andelen ändringar av stor betydelse för<br />
kontrollernas träffsäkerhet. I diagram 5 har andelen felsignalerade objekt per<br />
variabel utökats med andelen ändrade objekt per variabel (indikator V4).
Processdata<br />
Diagram 5<br />
Underlag för analys av processen. Andel felsignaler och ändringar per variabel.<br />
Sortering i fallande skala efter andel felsignaler per variabel<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
Felsignaler<br />
Ändringar<br />
A B C<br />
Träffsäkerheten är endast 25 procent för kontroll K3 (diagram 4) när det gäller variabel<br />
X2. Det är många felsignaler och låg träffsäkerhet, varför kontrollen (K3) bör effektiviseras.<br />
Skulle däremot träffsäkerheten vara hög, är det problem med variabeln.<br />
7.3 Referenser<br />
Engström, P. (1996): Monitoring the Editing Process. Working paper No. 9, UN/ECE Work<br />
Session on Statistical Data Editing, Voorburg.<br />
Martin, C. (2000): Meta Data – An Aid to Managing the Edit and Imputation Process. Working<br />
Paper No. 6, UN/ECE Work Session on Statistical Data Editing, Cardiff.<br />
Nordbotten, S. (2000): Evaluating Efficency of Statistical Data Editing: General Framework.<br />
United Nations, Geneva, 2000.<br />
Processdataprojektet (2000): Processdata för processförbättring – Slutrapport från förstudie i<br />
Processdataprojektet. Slutrapport 2000–12–15.<br />
Work Session on Statistical Data Editing: Länk <strong>till</strong> webbplats, http://www.unece.org/stats/<br />
77
Processdata<br />
78
8 Mätning av effekter av <strong>granskning</strong><br />
Mätning av effekter av <strong>granskning</strong><br />
I detta kapitel föreslår vi några enkla metoder som ger information om de<br />
ändringar som görs vid <strong>granskning</strong>. Metoderna bygger inte på processdata utan<br />
enbart på data före och efter den <strong>granskning</strong>sprocess som man vill studera. Det<br />
betyder att de alltid kan användas där man kan spara ogranskade data. Metoderna<br />
ger svar på frågor som:<br />
• Hur ser fördelningen av ändringarna ut?<br />
• Hur påverkar <strong>granskning</strong>en skattningarna?<br />
• Vilken omfattning och betydelse har vissa feltyper?<br />
• Är ändringarna koncentrerade <strong>till</strong> vissa undergrupper, t.ex. vissa<br />
branscher?<br />
Svaren på sådana frågor kan användas när man ska bedöma om det kan finnas<br />
effektivare kontroller, när man vill målinrikta kontroller på vissa feltyper, förbättra<br />
frågeformuleringar och anvisningar generellt eller för vissa undergrupper i populationen<br />
osv.<br />
En förutsättning är att man i en datafil har granskade och ogranskade värden för<br />
alla variabler man vill undersöka.<br />
I avsnitt 8.1 och 8.2 behandlas brutto- och nettoeffekterna av ändringen på skattningen.<br />
När det gäller få och stora avvikelser, vill man inte dra slutsatsen att de tar<br />
ut varandra i nästa undersökning bara för att de råkade göra det denna gång. Därför<br />
analyserar man absolutbeloppen av ändringarna (brutto). Men för de många<br />
små ändringar som delvis tar ut varandra kan man anta att det kommer att inträffa<br />
även i följande undersökningar. Därför analyserar man ändringarna med tecken<br />
(netto).<br />
Differensstudiemetoden har använts i flera undersökningar på SCB, t.ex. finansstatistiken<br />
(Wahlström 1990 och Forsman 1991 b), industristatistiken (Hedlin<br />
1992), lönestatistiken över kommunalt anställda (Lindell 1995 a) och lönestatistiken<br />
över landstingsanställda (Lindell 1995 b). Ursprungligen utvecklades<br />
metoden vid Bureau of the Census och modifierades av Forsman (1991 b).<br />
En mer arbetskrävande metod är feltypsmetoden, som utvecklades av Forsman<br />
(1991 a) på data från dåvarande finansstatistiken. Den förutsätter att man i<br />
<strong>granskning</strong>sprocessen noterar ändringar i den fysiska blanketten, varefter ämnesexperter<br />
klassificerar ändringarna på ett antal feltyper.<br />
Vi rekommenderar att man genomför analysen med en grafisk ansats – gärna med<br />
hjälp av programvaran SAS/Insight. Anledningen är att analyserna av differenserna<br />
mellan granskat och ogranskat då kan göras betydligt mer omfattande och<br />
djupgående, samtidigt som arbetet underlättas.<br />
Rena evalverings- eller utvärderingsmetoder faller utanför ramen för denna CBMrapport.<br />
För sådana metoder hänvisar vi <strong>till</strong> Granquist (1997). Den rapporten är en<br />
översikt av ett antal metoder för evalvering av <strong>granskning</strong>sprocesser, beskrivna i<br />
litteraturen fram <strong>till</strong> 1996. Metoderna är resurskrävande och i många fall sofistikerade.<br />
Några innebär regelrätta evalveringar av kvaliteten i processen och i obser-<br />
79
Mätning av effekter av <strong>granskning</strong><br />
vationsregister. Internationellt utvecklar man år 2002 nya metoder för att beräkna<br />
effekter av <strong>granskning</strong> (Work session on statistical data-editing).<br />
Data från industristatistiken 1990 har använts för att exemplifiera metoderna i<br />
detta kapitel. Industristatistiken 1990 var en totalundersökning (cut off) som omfattar<br />
många variabler. Det totala antalet objekt var 5 540.<br />
När metoderna <strong>till</strong>ämpas på urvalsundersökningar, måste effekten av <strong>granskning</strong>en<br />
mätas på uppräknade tal.<br />
8.1 Differensmetoder<br />
Det finns många exempel på att nya metoder eller utvidgning av acceptansområdena<br />
har kunnat rationalisera <strong>granskning</strong>en väsentligt med bibehållen kvalitet på<br />
undersökningen (Granquist, Kovar 1997). Det beror på att den tidigare metoden<br />
har haft låg träffsäkerhet (se kapitel 4), men även på att de ursprungliga metoderna<br />
har resulterat i många små ändringar med obetydliga effekter på skattningarna.<br />
Vad som i detta sammanhang ska betraktas som obetydligt beror på precisionskraven<br />
och på effekterna av övriga felkällor. Var gränsen går mellan betydelsefulla<br />
och betydelselösa fel är en bedömningsfråga. En riktlinje kan dock vara att<br />
gränsen sätts så, att effekten av ändringarna under gränsen utgör högst en tiondel<br />
av urvalsfelet för estimaten på någorlunda detaljerad nivå. Syftet med differensmetoderna<br />
är att undersöka om processen kan effektiviseras.<br />
Vi ger exempel på två metoder där man utnyttjar skillnaden mellan granskat och<br />
ogranskat värde. I det ena fallet undersöker man differensernas andel av den totala<br />
differensen. I det andra fallet jämförs ändringarna med skattningen.<br />
8.1.1 Differensernas andelar av den totala differensen<br />
Genom denna beräkning får man bl.a. information om ett fåtal stora ändringar<br />
svarar mot en mycket hög andel av den totala ändringen. För detaljer hänvisar vi<br />
<strong>till</strong> Wahlström (1990).<br />
Gör så här:<br />
Välj en eller flera variabler som ska ingå i studien.<br />
• Beräkna för varje objekt absolutbeloppet av differensen mellan det<br />
granskade och det ogranskade värdet.<br />
• Rangordna differenserna i fallande storleksordning. För urvalsundersökningar<br />
multiplicerar man absolutbeloppen med inverterade inklusionssannolikheten<br />
innan man sorterar efter storlek.<br />
• Beräkna ett mått på hur stor andel av summan av (de absoluta) differenserna<br />
som kan hänföras <strong>till</strong> de j största differenserna. Beräkna måttet för<br />
varje j.<br />
• Rita ett diagram, dvs. plotta måttet enligt punkt 4 för varje j såsom i diagram<br />
1 nedan.<br />
Exempel: Industristatistikens <strong>granskning</strong>sprocess<br />
Studien av industristatistikens <strong>granskning</strong>sprocess visar bland annat att, för<br />
variabeln industriproduktion, 3 procent av antalet differenser svarade för ca<br />
90 procent av den totala värdemässiga differensen.<br />
80
Mätning av effekter av <strong>granskning</strong><br />
Tablå 1<br />
Data som används i diagram 1. Tablån är sorterad i fallande skala efter absolutvärdet<br />
av avvikelsen mellan granskat och ogranskat värde. (Andel av förändringen = 0 är<br />
ett tekniskt värde för att figuren ska bli snyggare.) Här har vi bara tagit med de nio största<br />
avvikelserna.<br />
ogranskad granskad granskad-ogranskad |granskad-ogranskad| kum(|granskad-ogranskad|) Andel av förändring Antal arbetsställen<br />
0<br />
31797622 92084 -31705538 31705538 31705538 66.79716314 1<br />
4234634 4234 -4230400 4230400 35935938 75.70976128 2<br />
3162410 17339 -3145071 3145071 39081009 82.33579048 3<br />
601194 0 -601194 601194 39682203 83.60238478 4<br />
613236 156444 -456792 456792 40138995 84.56475324 5<br />
556574 156574 -400000 400000 40538995 85.40747242 6<br />
403330 30847 -372483 372483 40911478 86.19221885 7<br />
241151 24151 -217000 217000 41128478 86.64939401 8<br />
0 208769 208769 208769 41337247 87.08922812 9<br />
Diagram 1<br />
Industristatistiken 1990. Variabeln industriproduktion<br />
Andel av förändring<br />
110<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
1 101 201 301 401 501 601<br />
Antal arbetsställen<br />
Kurvans form beror på att det finns några enstaka mycket stora förändringar.<br />
De utan jämförelse största differenserna i studien av finansstatistiken (Forsman 1991a)<br />
berodde på de så kallade 1000-felen, dvs. fel som orsakades av att observationerna<br />
angivits i fel enhet, t.ex. i kronor i stället för i tusentals kronor.<br />
Gör alltid studier på lägre nivåer än totalnivån. På så sätt kan man dessutom få<br />
veta om <strong>granskning</strong>sarbetet är koncentrerat <strong>till</strong> vissa redovisningsgrupper, t.ex.<br />
branscher. Om det förekommer många felaktiga svar från företag i vissa<br />
branscher, kan det bero på att dessa företag har speciella svårigheter att lämna de<br />
efterfrågade uppgifterna. I så fall har metoden avslöjat en felkälla, och då är det<br />
blanketter och anvisningar som man ska förbättra.<br />
8.1.2 Differensernas successiva inverkan på skattningen<br />
Genom denna beräkning får man reda på om många differenser <strong>till</strong>sammans är<br />
obetydliga jämfört med skattningen. För detaljer hänvisas <strong>till</strong> Forsman (1991 b).<br />
81
Mätning av effekter av <strong>granskning</strong><br />
Gör så här:<br />
• Välj en eller flera variabler som ska ingå i studien.<br />
• Beräkna för varje objekt differensen mellan det granskade och det<br />
ogranskade värdet.<br />
• Rangordna differenserna i fallande skala (efter absolutbeloppet av differensen).<br />
Multiplicera differenserna med inverterade inklusionssannolikheten<br />
när det gäller urvalsundersökningar.<br />
• Beräkna ett mått på hur nära man ligger den publicerade skattningen om<br />
man endast tar hänsyn <strong>till</strong> de j största differenserna. Beräkna måttet, med<br />
hänsyn tagen <strong>till</strong> differensens tecken för varje j.<br />
• Rita ett diagram, dvs. plotta måttet enligt punkt 4 för varje j.<br />
Exempel: industristatistikens <strong>granskning</strong>sprocess<br />
Studien av industristatistikens <strong>granskning</strong>sprocess (Hedlin 1992) visar att, för<br />
variabeln industriproduktion, de 95 procent minsta differenserna sammanlagt<br />
motsvarade mindre än 1 procent av skattningen.<br />
Tablå 2<br />
Data som används i diagram 2. Tablån är sorterad i fallande skala efter<br />
absolutvärdet av avvikelsen mellan granskat och ogranskat värde. Här har vi bara<br />
tagit med de nio största avvikelserna. (Se även tablå 1)<br />
ogranskad granskad granskad-ogranskad |granskad-ogranskad| Effekten av ändringarna Antal arbetsställen<br />
120.870366<br />
31 797 622 92 084 -31 705 538 31 705 538 104.516199 1<br />
4 234 634 4 234 -4 230 400 4 230 400 102.334098 2<br />
3 162 410 17 339 -3 145 071 3 145 071 100.711826 3<br />
601 194 0 -601 194 601 194 100.401722 4<br />
613 236 156 444 -456 792 456 792 100.166102 5<br />
556 574 156 574 -400 000 400 000 99.959776 6<br />
403 330 30 847 -372 483 372 483 99.767644 7<br />
241 151 24 151 -217 000 217 000 99.655713 8<br />
0 208 769 208 769 208 769 99.763399 9<br />
82
Diagram 2<br />
Industriproduktionen, 1990, variabeln industriproduktion<br />
Effekten av ändringarna<br />
120<br />
115<br />
110<br />
105<br />
100<br />
95<br />
Mätning av effekter av <strong>granskning</strong><br />
1 101 201 301 401 501 601<br />
Antal arbetsställen<br />
Figuren visar inverkan av enskilda förändringar på totalskattningen.<br />
Skattningen beräknas dels med hjälp av det granskade materialet, g Yˆ , dels med hjälp av<br />
Yˆ ′ g .<br />
Där g Yˆ ′ är den skattning man får när man successivt, efter differensernas storlek, ersätter<br />
ogranskat med granskade uppgifter.<br />
Yˆ<br />
g<br />
*<br />
Yˆ<br />
′<br />
Kvoten 100 uttrycker förändringen mellan skattningarna i procent. Förändringarna<br />
g<br />
är sorterade i fallande ordning och plottade mot antal arbetsställen (x-axeln).<br />
8.2 Feltypsmetoden<br />
I en feltypsstudie studeras <strong>granskning</strong>ens effekter, uppdelade på olika typer av fel i<br />
det ogranskade materialet. Feltyperna klassificeras innan analysen genomförs (se<br />
Forsman 1991 a).<br />
Studien syftar <strong>till</strong> att sortera ut de feltyper som är mest intressanta från kostnads-<br />
och kvalitetssynpunkt. Om man känner <strong>till</strong> omfattningen av olika typer av fel i det<br />
ogranskade materialet, har man ett utmärkt underlag för att konstruera effektiva<br />
kontroller för identifiering av dessa fel (målinriktning av kontroller). Men man ska<br />
framför allt ändra blanketten, anvisningarna osv. för att minska risken för att<br />
sådana fel uppstår (eliminera felkällan).<br />
Här beskrivs metoden vid urvalsbaserad klassificering av åtgärderna vid <strong>granskning</strong>.<br />
83
Mätning av effekter av <strong>granskning</strong><br />
Gör så här:<br />
• Välj en eller flera variabler som ska ingå i studien.<br />
• Klassificera för varje variabel de fel som upptäcks vid <strong>granskning</strong>en. Det<br />
finns inget generellt sätt att göra klassificeringen på, utan den måste för<br />
varje undersökning bygga på ämneskunskaper. Man bör dock inte samtidigt<br />
ta med mer än högst fyra <strong>till</strong> sex feltyper.<br />
• Dra ett urval av objekt som ska undersökas. Urvalet bör vara så stort att<br />
åtminstone 100 objekt som ändrats kan förväntas komma med. Om man<br />
t.ex. av erfarenhet vet att ca 25 procent av objekten ändras för variabeln i<br />
samband med <strong>granskning</strong>en, bör urvalsstorleken vara minst 400.<br />
• Klassificera felen i samband med <strong>granskning</strong>en.<br />
• Beräkna antalet fel av respektive feltyp.<br />
• Skatta felens effekter på totalskattningen.<br />
8.3 Differensstudier med SAS/Insight<br />
Differensstudier kan med fördel genomföras med hjälp av SAS/Insight. Den här<br />
analysen blir mer flexibel än de som redovisas i 8.1 ovan, genom att man bland<br />
annat simultant kan följa flera variabler. Förutsättningen är att data är organiserade<br />
i en SAS-tabell (se bilagan).<br />
Fördelningen av differensen mellan granskat och ogranskat värde kan åskådliggöras<br />
med hjälp av lådagram eller stapeldiagram (histogram). Effekten på skattningen<br />
beräknas med hjälp av formel 3 i bilagan <strong>till</strong> detta kapitel. Om det finns<br />
enstaka mycket stora avvikelser mellan granskat och ogranskat värde, kan dock<br />
lådagrammet bli otydligt. I detta fall fungerar histogram bättre. Genom att transformera<br />
skalan av ändringarna, t.ex. 10-logaritmering, kan man få en tydligare bild<br />
av både storleksordningen och effekten av ändringarna fördelade på olika intervall.<br />
Man kan välja mellan två metoder som båda bygger på analys av skillnaden mellan<br />
granskat och ogranskat värde.<br />
I den första metoden betraktas hela fördelningen för differenserna med hjälp av ett<br />
histogram. Genom att ändra staplarnas bredd kan man avläsa effekten av<br />
ändringarna i olika intervall.<br />
Idén med den andra metoden går ut på att skapa successiva restmängder. Man tar<br />
successivt bort effekterna av ändringarna i fallande storlek för att se om och i så<br />
fall när vi kommer <strong>till</strong> en punkt då ändringarna saknar betydelse i förhållande <strong>till</strong><br />
skattningen.<br />
Det är enkelt att genomföra en analys med hjälp av SAS/Insight. I bilagan beskrivs<br />
i detalj hur man gör.<br />
Nedanstående exempel från industristatistiken 1990 illustrerar tekniken. För en<br />
van användare tar analysen cirka en timme att genomföra.<br />
Exempel: Industristatistikens <strong>granskning</strong>sprocess<br />
Vi studerar skillnaden mellan granskad och ogranskad uppgift för omsättningen.<br />
Rita ett histogram för fördelningen med avseende på såväl antal observationer<br />
som effekten på skattningen (se bilagan formel 3).<br />
84
Mätning av effekter av <strong>granskning</strong><br />
Skapa absolutbeloppet av skillnaden mellan granskat och ogranskat värde. Dölj<br />
observationer där ingen förändring gjorts (granskad = ogranskad). Bilda ett histogram<br />
för variabeln |granskat – ogranskat| med avseende på såväl antal observationer<br />
som effekten på skattningen.<br />
Diagram 3<br />
Industristatistiken 1990. Skillnad mellan granskad och ogranskad uppgift på<br />
variabeln omsättning. 10 log-skala, dvs. 1 motsvarar 10, 2 100, 3 1000 etc<br />
De numeriskt tre största ändringarna svarar mot (3.8*10 7 + 1.64*10 8 )*10 -9 ≈ 20.2 procent<br />
av skattningen.<br />
Med hjälp av de två histogrammen kan vi dels beräkna antalet objekt i olika intervall, dels<br />
uppskatta effekten av <strong>granskning</strong>en i förhållande <strong>till</strong> skattningen. Kom ihåg att i det undre<br />
histogrammet dividera med skalfaktorn, dvs. här 10 9 , för att få rätt storleksordning på<br />
beräkningen.<br />
Metod 1<br />
Vi utgår från diagram 3 (de logaritmerade absoluta differenserna) och ändrar staplarnas<br />
bredd. Syftet är att studera ändringarnas effekt på skattningen (undre diagrammet). Vi är<br />
speciellt intresserade av de många små ändringarna och dess effekt på skattningen.<br />
Antag att vi i denna undersökning kan ignorera rättningar på en sammanlagd effekt av<br />
maximalt en promille av skattningen, som i det här fallet visar sig vara vid stapelbredden<br />
3.5 (diagram 4). Man måste alltså prova sig fram.<br />
85
Mätning av effekter av <strong>granskning</strong><br />
I en urvalsundersökning kan en nettoeffekt (bias) negligeras som är mindre än en<br />
tiondel av standardavvikelsen i skattningen (Särndal, Swensson, Wretman, 1992).<br />
Diagram 4<br />
Industristatistiken, 1990. Effekten av rättningar<br />
Enligt diagram 4 finns 329 ändringar som är numeriskt mindre än 10 3.5 ≈ 3 162. Deras<br />
sammanlagda bruttoeffekt på skattningen är 1.37*10 6 *10 -9 = 1.37 promille.<br />
Vid statistikredovisning är det nettofelet som är intressant. Många små fel tenderar att ta<br />
ut varandra, varvid nettofelet blir betydligt mindre än bruttofelet.<br />
När vi skall beräkna nettoeffekten av ändringarna återgår vi <strong>till</strong> den ursprungliga undersökningsvariabeln<br />
granskad – ogranskad. Markera stapeln med de 329 observationerna<br />
i diagram 4 och välj ut dessa <strong>till</strong> en ny SAS-tabell med hjälp av i databladets<br />
dialogruta. Bilda ett nytt histogram för denna datamängd (diagram 5). Justera skalan så<br />
att de båda staplarna blir lika breda.<br />
86
Mätning av effekter av <strong>granskning</strong><br />
Diagram 5<br />
Industristatistiken, 1990, fortsättning. Nettoeffekten (undre diagrammet) är<br />
skillnaden mellan staplarnas höjd så när som på den inverterade skalfaktorn<br />
De 329 ändringarna (övre delen av diagram 5) fördelar sig på 247 negativa och 82 positiva<br />
och detta svarar mot en nettoeffekt (beräknad med hjälp av under delen av diagram<br />
5) på skattningen som är (1.13*10 6 - 245771)*10 -9 ≈ 0.88 promille.<br />
Metod 2 Successiva restmängder<br />
Rita ett histogram för absolutvärdet av differensen. Diagram 6 nedan visar resultatet när vi<br />
dolt de mest extrema differenserna.<br />
87
Mätning av effekter av <strong>granskning</strong><br />
Diagram 6<br />
Industristatistiken 1990. Skillnad mellan granskat och ogranskat värde oavsett<br />
tecken. Siffrorna ovanför staplarna i det övre histogrammet markerar antalet<br />
observationer. Siffrorna ovanför staplarna 1 i det undre histogrammet visar, för<br />
givna intervall, effekten av <strong>granskning</strong>en i förhållande <strong>till</strong> skattningen så när som<br />
på en skalfaktor<br />
Fortsätt att dölja differenser från höger <strong>till</strong> vänster, dvs. i första hand 1+1+1+2+3+7+18=33<br />
stycken. Ta dessutom bort dem från beräkningen. Vi är härmed nere på differenser som<br />
är mindre än 50 000. Dessa kvarvarande 566 differensers sammanlagda effekt är 1.77<br />
procent på skattningen. Ovan sade vi att vi i denna undersökning kan ignorera rättningar<br />
på en sammanlagd effekt av maximalt en promille av skattningen. Fortsätt därför att dölja<br />
observationer <strong>till</strong>s man uppnår detta resultat.<br />
Avsluta med ett diagram som visar nettoeffekten av ändringarna (se diagram 5).<br />
I detta exempel görs ingen uppdelning på redovisningsgrupper. Vi rekommenderar att<br />
analysen görs även för viktigare redovisningsgrupper.<br />
Vi har i detta exempel visat att 329/603 ≈ 55 procent av de rättade värdena <strong>till</strong>sammans<br />
svarade mot mindre än en tusendel av den totala skattningen. Här borde<br />
man kunna arbeta fram nya kontroller, t.ex. genom att vidga acceptansgränser.<br />
Målsättningen med de nya kontrollerna är att de inte ska felsignalera observationer<br />
där effekten på skattningen är obetydlig. Med en sådan åtgärd skulle vi kunna<br />
spara en stor del av <strong>granskning</strong>sarbetet. Vi vet också att risken för över<strong>granskning</strong><br />
är stor – större ju fler observationer som felsignaleras. Över<strong>granskning</strong> innebär<br />
bland annat att fel som tidigare inte fanns i materialet kommer in i detta.<br />
8.4 Numerisk metod<br />
Ovanstående beräkningar kan också göras rent numeriskt. Man missar visserligen<br />
den information och känsla för materialet som man får från de successivt framtagna<br />
diagrammen. I gengäld leder metoden snabbt och direkt <strong>till</strong> målet, som är att<br />
få en uppfattning om var gränsen går mellan betydelsefulla och negligerbara<br />
ändringar. Vi vill således finna ett värde d sådant att sammantagna effekten av<br />
1 10-potenser uttrycks i SAS med bokstaven E åtföljd av en siffra. E6 betyder således 10 6<br />
(1 000 000). E-2 betyder 10 -2 (0.01).<br />
88
Mätning av effekter av <strong>granskning</strong><br />
ändringar absolut mindre än d inte skulle haft någon praktisk betydelse på estimaten<br />
i det material man studerar.<br />
⎧><br />
d så är d = betydelsefull<br />
ändring<br />
granskat värde − original värde ⎨<br />
⎩≤<br />
d så är d = betydelselös<br />
ändring<br />
Jämför därefter kvoten mellan skattningen beräknad med endast ändringar större<br />
än d och materialet med alla ändringar medtagna.<br />
∑<br />
( g)<br />
+ w x(<br />
og)<br />
∑<br />
Yˆ = w x<br />
vissa ändringar<br />
i<br />
granskad<br />
∑<br />
( ) g<br />
i<br />
i<br />
originaluppgifter<br />
= i i<br />
i<br />
x w Xˆ alla ändringar<br />
i<br />
Yˆ<br />
kvoten =<br />
Xˆ<br />
Vi använder även i det här fallet data från Industristatistiken 1990 för att exemplifiera<br />
våra beräkningar. Ett val av de fem gränserna d = ∞, 1 000 000, 100 000,<br />
10 000 och 3 000 skulle ha resulterat i tablå 1. Där ∞ symboliserar helt ogranskat<br />
material.<br />
Tablå 1<br />
Industristatistiken 1990. Effekten av <strong>granskning</strong>en på skattningen<br />
∞ 1 000 000<br />
d<br />
100 000 10 000 3 000<br />
Kvot 1.208704 1.007118 0.996902 1.000281 1.000831<br />
Tablån visar effekten av ändringarna på totalskattningen – precis som i exemplet i<br />
8.3 Differensstudier med SAS/Insight. Liksom i exemplet i föregående avsnitt kan<br />
man dra slutsatsen att ”små” förändringar saknar betydelse på skattningen. Det här<br />
behöver dock inte vara fallet om man gör samma jämförelse på redovisningsgrupper.<br />
Vi rekommenderar därför att man även i det här fallet åtminstone genomför<br />
bearbetningar på viktiga (centrala) redovisningsvariabler.<br />
8.5 Referenser<br />
Engström, P. (1995), ”A Study on Using Selective Editing in the Swedish Survey on Wages and<br />
Employment in Industry”, Room paper No. 11, presented at the Conference of European<br />
Statisticians, Work Session on Statistical Data Editing, Athens, Greece, November 6–9, 1995<br />
Forsman, G. (1991a), ”Olika felorsakers betydelse för <strong>granskning</strong>skostnaderna och skattningarnas<br />
kvalitet: en fallstudie på SCB:s finansstatistik”, GRANSK-PM Nr 22,<br />
1991–02–05<br />
Forsman, G. (1991b), ”Handledning för effektstudier av <strong>granskning</strong>”, GRANSK-PM NR 24, 91–<br />
08–25<br />
Granquist, L (1996): ”An Overview of Methods of Evaluating Editing Processes”, A Contribution<br />
to Economic Commission for Europe, (1996): Statistical Data Editing: Methods and Techniques,<br />
Volume No. 2, United Nations New York and Geneva 1997.<br />
Granquist, L and Kovar, J (1997): Editing of Survey Data: How much is enough? In L. Lyberg, P<br />
Biemer M. Collins, E. Leeuw, C. Dippo, N. Schwarz, D. Trewin (eds) Survey Measurement and<br />
Process Quality, Wiley, New York, 1997, pp. 415–436.<br />
89
Mätning av effekter av <strong>granskning</strong><br />
Hedlin, D. (1992), ”Jämförelse av granskade och ogranskade data i industristatistiken”, GRANSK-<br />
PM NR 29, 1992–09–07<br />
Lindell, K. (1995 a), ”Evalveringsstudie av <strong>granskning</strong>sprocessen i lönestatistiken över kommunalt<br />
anställda”, Bakgrundsfakta <strong>till</strong> Arbetsmarknads- och Utbildningsstatistiken 1995:7.<br />
Lindell, K. (1995 b), ”Evalveringsstudie av <strong>granskning</strong>sprocessen i lönestatistiken över<br />
landstingsanställda”, Bakgrundsfakta <strong>till</strong> Arbetsmarknads- och utbildningsstatistiken 1995:8<br />
SAS/Insight, User’s <strong>Guide</strong> (1999), version 8. SAS Institute Inc. Manualen finns även elektroniskt<br />
<strong>till</strong>gänglig via
Mätning av effekter av <strong>granskning</strong><br />
Bilaga kapitel 8<br />
Att skapa en SAS-tabell från en extern databas kan göras i SAS på två sätt<br />
1. (Excel, Access, kommaseparerad fil etc.)<br />
2. Från SYBASE menyvägen eller med hjälp av följande program<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
där SERVER är namnet på servern<br />
DATABAS är namnet på databasen<br />
USERID är användaridentiteten<br />
Var1, var2 etc. är variabelnamn i databasen. Vill man ändra namnen görs det i<br />
rename-satsen.<br />
Detaljerad beskrivning av SAS/Insight-analysen<br />
Manualen SAS/Insight, boken eller online-versionen, är mer utförlig än<br />
nedanstående beskrivning.<br />
Välj en variabel.<br />
Komplettera SAS-tabellen med skattningen 2 beräknad på den granskade variabeln.<br />
Vid en urvalsundersökning använder vi uppräknade värden.<br />
Bilda differensen 3 mellan granskad och ogranskad uppgift för vald variabel, dvs.<br />
granskad − ogranskad<br />
(1)<br />
Beräkna även skattningen med hjälp av de granskade värdena.<br />
Använd analysverktyget Distribution.<br />
Komplettera SAS-tabellen med en ny variabel som nu är en konstant (skattningen<br />
enligt ovan).<br />
Använd Fill values i databladets dialogruta.<br />
Dölj de objekt som inte ändrats i <strong>granskning</strong>en ( granskat = ogranskat ) och ta<br />
bort dem från beräkningen.<br />
Använd variabelverktyget ().<br />
Använd variabelverktyget ().<br />
Ta fram ett histogram (se ref Online-versionen Exploring Data in One Dimension,<br />
Box Plots) över differenserna.<br />
2 Enkla skattningar, såsom medelvärde och total, kan beräknas i SAS/Insight.<br />
3 Differenser och andra transformationer, se ref Online-versionen Transforming Varibles.<br />
91
Mätning av effekter av <strong>granskning</strong><br />
Skapa variabeln absolutvärdet av differensen, dvs.<br />
granskad − ogranskad<br />
(2)<br />
Använd variabelverktyget ([funktion]) och skapa<br />
variabeln (funktion: abs(Y)).<br />
Bilda variabeln effekt<br />
× granskad − ogranskad<br />
effekt = × skalfaktor<br />
skattningen<br />
π<br />
1<br />
(3)<br />
där π är urvalssannolikheten<br />
Skalfaktorn, en tiopotens, bestäms så att variabeln effekt blir större än ett, 1,<br />
för alla objekt. SAS/Insight beaktar nämligen endast heltalsdelen vid vägningen<br />
i diagramverktyget histogram.<br />
Variabeln enligt formel (3) måste skapas i flera steg, t.ex.<br />
1<br />
steg _ 1 = × granskad − ogranskad<br />
(3´)<br />
π<br />
1<br />
× granskad − ogranskad<br />
steg _1<br />
steg _ 2 =<br />
=<br />
π<br />
(3´´)<br />
skattningen<br />
skattningen<br />
Och slutligen det tredje steget som ger formel (3)<br />
1<br />
× granskad − ogranskad<br />
effekt = steg _ 2 × skalfaktor =<br />
π<br />
× skalfaktor<br />
skattningen<br />
Kommentar:<br />
Det finns flera sätt att bestämma skalfaktorn. Det enklaste är att räkna<br />
antalet heltalssiffror i skattningen. Skalfaktorn blir tio upphöjt <strong>till</strong> antalet<br />
heltalssiffror. Ett annat sätt är att sortera SAS-tabellen i fallande skala efter<br />
variabeln, v<br />
× granskad − ogranskad<br />
v =<br />
skattningen<br />
π<br />
1<br />
(3´)<br />
Välj skalfaktorn som det tal, tiopotens, som gör att det minsta (översta)<br />
värdet blir större än ett (1).<br />
10-logaritmera, variabeln (2). (Det finns även alternativa trasformationer som kan<br />
vara möjliga att använda.)<br />
Ta fram ett histogram för det transformerade värdet av variabeln (2)<br />
92<br />
Kommentar:<br />
Histogrammet visar fördelningen för en variabel, i det här fallet absolutvärdet<br />
av differenserna. Stapelns höjd anger antalet objekt i delintervallet. För<br />
att få reda på hur stor effekt <strong>granskning</strong>en har på skattningen, behöver man<br />
ett vägt histogram. Stapelns höjd i det histogrammet visar effekten av<br />
<strong>granskning</strong>ens inverkan på skattningen.
Mätning av effekter av <strong>granskning</strong><br />
Observera att transformationer såsom logaritmering, kvadratrot osv. kan göras<br />
efter att man tagit fram histogrammet. Markera variabeln och använd därefter<br />
variabelverktyget ([funktion]). Välj funktion. Variabelnamn<br />
(Name) och klartext (Label) genereras automatiskt, men det kan vara en fördel att<br />
åtminstone skriva in en egen klartext.<br />
Gör plats för ett diagram in<strong>till</strong> det första diagrammet genom att rita en ruta under<br />
histogrammet.<br />
Ta fram ett histogram för 10-logaritmen av variabeln (2) i den markerade rutan.<br />
Ange effekt (3) som frekvens. Detta visar effekten oavsett tecken.<br />
Ta fram lämplig intervallbredd på följande sätt:<br />
• Markera variabeln (x-axeln) i diagrammet.<br />
• Öppna dialogrutan (f) längst ned <strong>till</strong> vänster i ett av diagrammen.<br />
• Ändra intervallbredden <strong>till</strong>s en lämplig detaljeringsnivå uppnås.<br />
(Fördelningen ändras, dvs. blir mer eller mindre detaljerad.)<br />
Skalan på axeln över frekvenser i det uppräknade histogrammet kan också behöva<br />
modifieras för att staplarna ska bli tydligare (högre)<br />
• Markera variabeln, Frequency.<br />
• Öppna dialogrutan (f) längst ned <strong>till</strong> vänster.<br />
• Ändra maxvärdet <strong>till</strong> värdet på den högsta stalpen.<br />
Kommentar:<br />
I det här fallet är det inte nödvändigt att dölja och ta bort objekt. Logaritmen<br />
för oförändrade värden, granskat = ogranskat , är minus oändligheten.<br />
Av SAS uppfattas detta värde som missing values (uppgift saknas).<br />
Den (bakomliggande) procedur som genererar histogrammet bortser från<br />
missing values.<br />
Histogrammen visar samtliga förändrade värden i storleksordning (logskalan),<br />
”storleksklass”. De stora förändringarna ligger <strong>till</strong> höger och<br />
mindre <strong>till</strong> vänster. Det första diagrammet (ovägt) visar antalet ändringar<br />
för gällande storleksklass. Det andra (vägt) visar effekten av ändringarna<br />
på skattningen.<br />
Bruttoeffekt<br />
Metod 1<br />
Studera fördelningen av ändringarna genom att ändrar staplarnas bredd (”ticks” i<br />
diagrammets dialogruta). Bruttoeffekten av ändringarna på skattningen avläses<br />
som höjden på stapeln.<br />
Metod 2<br />
Skapa den första restmängden:<br />
• Markera ett område från höger <strong>till</strong> vänster i ett av diagrammen.<br />
• Dölj observationerna.<br />
• Ta bort observationerna från beräkningen.<br />
Fortsätt att skapa successiva restmängder genom att dölja objekt i diagrammen<br />
och ta bort dem från beräkningen.<br />
93
Mätning av effekter av <strong>granskning</strong><br />
Nettoeffekt<br />
Nettoeffekten beräknas med hjälp av de observationer vars ändringar bedöms ha<br />
liten inverkan på skattningen. De ändringar som sammanlagt bedöms ha ringa inverkan<br />
på skattningen är de observationer som uppfyller villkoret<br />
granskat − ogranskat ≤ d<br />
där d är gränsen.<br />
Metod 1<br />
Bilda en SAS-tabell med dessa observationer.<br />
• Markera stapeln i diagrammet.<br />
• Gå <strong>till</strong> databladet.<br />
• Välj i databladets dialogruta (f)<br />
Återgå <strong>till</strong> den ursprungliga undersökningsvariabeln granskad – ogranskad.<br />
Bilda ett nytt histogram för denna datamängd (diagram 5). Justera skalan så att de<br />
båda staplarna blir lika breda. Nettoeffekten är differensen av staplarnas höjd<br />
(undre diagrammet). Antalet positiva och negativa ändringar är staplarnas höjd i<br />
det övre diagrammet.<br />
Metod 2<br />
Fortsätt att dölja och ta bort observationer (se Bruttoeffekt Metod 2) <strong>till</strong> dess att<br />
villkoret<br />
granskat − ogranskat > d<br />
är uppfyllt. Denna restmängd används för att beräkna nettoeffekten.<br />
Återgå <strong>till</strong> den ursprungliga undersökningsvariabeln granskad – ogranskad.<br />
Bilda ett nytt histogram för denna datamängd (diagram 5). Justera skalan så att de<br />
båda staplarna blir lika breda. Nettoeffekten är differensen av staplarnas höjd<br />
(undre diagrammet). Antalet positiva och negativa ändringar är staplarnas höjd i<br />
det övre diagrammet.<br />
94
9 IT-miljön och Greta<br />
IT-miljön och Greta<br />
I detta kapitel beskrivs <strong>granskning</strong> med hjälp av SCB:s rekommenderade program,<br />
Greta.<br />
I huvudsak omfattar <strong>granskning</strong>sprocessen delprocesserna dataregistrering,<br />
<strong>granskning</strong> och rättning. Så stor del av <strong>granskning</strong>en som möjligt bör ske vid<br />
dataregistrering/skanning. Kontroll av misstänkta fel ska här bara ske för de<br />
kontroller som inte fordrar uppdatering av acceptansgränser med aktuella data.<br />
Fel och misstänkta data ska presenteras så, att verifiering underlättas och uppdatering<br />
kan göras interaktivt.<br />
9.1 Granskningsprocessens krav på IT-system<br />
Krav på <strong>granskning</strong>sprogram:<br />
• Fel och misstänkta data ska presenteras på ett sådant sätt att<br />
– verifiering underlättas<br />
– uppdatering kan göras interaktivt.<br />
• Det ska vara enkelt för en användare att själv<br />
– ändra kontroller och acceptansgränser<br />
– lägga <strong>till</strong> nya kontroller<br />
– ta bort kontroller<br />
– använda hjälpinformation<br />
– utforma felmeddelanden<br />
– koda felkällor och uppgiftslämnarkapacitet.<br />
• Omedelbar om<strong>granskning</strong> ska kunna göras efter ändringar.<br />
• Systemet ska generera processinformation och information om felorsaker.<br />
• Lät<strong>till</strong>gänglig processtatistik ska kunna tas fram för övervakning och<br />
analys.<br />
• Det ska vara en flexibel databaslösning.<br />
En väl fungerande <strong>granskning</strong>sprocess måste vara flexibel. Detta betyder att det<br />
måste vara enkelt för en användare att utan hjälp från IT-specialister ändra kontroller<br />
och gränsvärden, lägga <strong>till</strong> nya kontroller och ta bort kontroller.<br />
Granskningsprocessen ska generera processdata och data om felorsaker, vilka man<br />
använder för att utveckla undersökningen, t.ex. ändra blankettdesign och variabeldefinitioner.<br />
Detta ställer krav på bland annat flexibel databaslösning.<br />
9.2 Generell programvara eller specialprogrammering<br />
Grundregel:<br />
• Använd helst generell programvara.<br />
• Skräddarsy program bara om prestanda och funktionalitet blir mycket<br />
bättre.<br />
SCB och andra statistikbyråer strävar efter att minska behovet av specialprogrammering<br />
av varje applikation genom att så långt som möjligt <strong>till</strong>handahålla generella<br />
program för varje uppgift. Fördelarna med generell programvara står främst<br />
95
IT-miljön och Greta<br />
att finna i mindre utvecklingsinsats för den enskilda produkten samt billigare underhåll<br />
och drift av det färdiga systemet. Utvecklingsarbetet kan fokuseras på det<br />
generella programmet i vilket nya metoder kan implementeras och därmed komma<br />
hela organisationen <strong>till</strong> del omedelbart. Det finns naturligtvis fall där en generell<br />
programvara inte är lämplig. Då måste specialprogram tas fram. Den enda fördelen<br />
med skräddarsydda program är att man i vissa fall kan optimera prestanda och<br />
funktionalitet. Det måste finnas starka skäl för att specialskriva ett <strong>granskning</strong>sprogram.<br />
9.3 Typer av <strong>granskning</strong>sprocesser<br />
De <strong>granskning</strong>sprocesser som beskrivs i kapitel 3 har varierande grad av IT-stöd<br />
på SCB i form av generella programvaror.<br />
9.3.1 Uppgiftslämnar<strong>granskning</strong><br />
Uppgiftslämnaren får ett elektroniskt formulär på diskett, via e-post eller med<br />
uppkoppling <strong>till</strong> SCB:s webbplats. Allt eftersom de efterfrågade uppgifterna fylls<br />
i, utlöses kontroller och hoppinstruktioner. Uppgiftslämnaren kan också avsluta<br />
med att initiera en <strong>granskning</strong> av samtliga uppgifter och kommentera funna ”avvikelser”<br />
innan uppgifterna skickas <strong>till</strong> SCB. Formuläret kan också innehålla<br />
bakgrundsinformation som kan utnyttjas för <strong>granskning</strong> och återrapportering.<br />
TDE (Touchtone Data Entry) är ett system som är lämpligt när uppgiftslämnaren<br />
ska återkommande besvara ett mycket begränsat antal frågor. Uppgiftslämnaren<br />
kontaktar då själv SCB via telefon och lämnar med hjälp av knappsatsen ett fåtal<br />
uppgifter, vilka kontrolleras omedelbart och uppgiftslämnaren ges möjlighet att<br />
korrigera felaktiga svar.<br />
Dessa system ger i dag inget generellt stöd för <strong>granskning</strong>.<br />
9.3.2 Granskning vid dataregistrering<br />
Skanning är den metod som rekommenderas för dataregistrering av pappersblanketter.<br />
Vid skanning lagras blanketten som en bild i en databas för senare analys.<br />
Det finns ett antal färdiga kontrollfunktioner i SCB:s nuvarande system att utnyttja<br />
vid <strong>granskning</strong>, t.ex. checksifferkontroll, kontroll mot intervall av giltiga värden.<br />
Där<strong>till</strong> kommer möjligheten att utnyttja VBA-kod (VBA, Visual Basic for<br />
Applications) för att programmera mer komplicerade <strong>granskning</strong>svillkor.<br />
SCB:s erfarenheter visar på stora fördelar med att använda skanningteknik för<br />
dataregistrering och <strong>granskning</strong>. Den stora fördelen är att man omedelbart kan<br />
verifiera mot blanketten. Stora besparingar kan göras genom att blanketthanteringen<br />
och den manuella dataregistreringen nästan helt elimineras. Nackdelarna är<br />
få. Skannern kan missa något enstaka papper vid inläsningen. Bilderna av blanketterna<br />
kräver stort diskutrymme, men detta är ett problem som med tiden blir allt<br />
mindre.<br />
För datainsamling via intervju använder SCB sedan många år DATI-systemet<br />
(numera WinDATI), som kan användas för såväl besöks- som telefonintervjuer.<br />
All <strong>granskning</strong> bör ske när intervjuaren lägger in uppgiften i datorn.<br />
96
IT-miljön och Greta<br />
För traditionell dataregistrering av pappersblanketter finns programvaran<br />
RODE/PC. Förutom kontroll av dataregistreringsfel medger systemet att <strong>granskning</strong>skontroller<br />
läggs in för de fält som ska registreras.<br />
9.3.3 Produktions<strong>granskning</strong><br />
För produktions<strong>granskning</strong> i databasmiljö rekommenderas det generella programmet<br />
Greta (se 9.5). Vi avråder från att man skriver egna <strong>granskning</strong>sprogram.<br />
9.3.4 Output<strong>granskning</strong><br />
Grafisk <strong>granskning</strong> används antingen som ett alternativ <strong>till</strong> produktions<strong>granskning</strong><br />
eller som ett komplement. Pc-miljön i kombination med klient-servertekniken är<br />
idealisk för detta.<br />
Ett exempel är ett system vid AM-avdelningen som har fått många positiva omdömen<br />
och bedömts möjligt att generalisera.<br />
SCB utreder och utvecklar metoder för att använda SAS/Insight för i första hand<br />
output<strong>granskning</strong>. Se kapitel 5.<br />
9.4 Komponenter i ett <strong>granskning</strong>sprogram<br />
Ett <strong>granskning</strong>sprogram ska stödja:<br />
• Kontroller: inklusive anpassning av acceptansgränser.<br />
• Hjälpinformation<br />
– definitioner och instruktioner: gäller främst uppgiftslämnar<strong>granskning</strong><br />
men är också utmärkt som hjälpmedel åt granskaren.<br />
• Felsignalering.<br />
• Felmeddelanden.<br />
• Uppdatering (interaktiv) med omedelbar om<strong>granskning</strong>.<br />
• Kodning av felkällor och uppgiftslämnarkapacitet.<br />
• Generering av processdata (loggningar).<br />
• Framtagning av lät<strong>till</strong>gänglig processtatistik för övervakning och analys.<br />
9.5 Standardprogrammet Greta<br />
Greta är SCB:s rekommenderade system för satsvis <strong>granskning</strong> av data som lagras<br />
i databaser i klient-servermiljö. Det är ett system där användaren får möjlighet att<br />
skapa och underhålla sina <strong>granskning</strong>skontroller. All <strong>granskning</strong> sker i servern<br />
med hjälp av SQL.<br />
Syftet med Greta är att:<br />
• <strong>till</strong>handahålla en standardiserad modell för hur <strong>granskning</strong>sarbetet ska gå<br />
<strong>till</strong> i klient-servermiljön<br />
• ge produktansvariga möjlighet att själva, utan stöd från IT-personal, bygga<br />
upp och underhålla <strong>granskning</strong>srutiner<br />
• minska personberoendet<br />
• skapa processinformation som senare kan analyseras.<br />
Den typiska användaren är en produktionsstatistiker i såväl återkommande undersökningar<br />
som engångsundersökningar (uppdrag). Med Greta kan användaren lätt<br />
lägga <strong>till</strong>, ta bort eller förändra kontroller.<br />
97
IT-miljön och Greta<br />
Det bör understrykas att Greta passar bra för uppdrag och engångsundersökningar,<br />
eftersom det är lätt för en uppdragsansvarig att konstruera kontrollerna och interaktivt<br />
rätta upp fel helt utan programmering. Den processinformation som Greta<br />
skapar i dessa fall kan komma <strong>till</strong> användning i liknande uppdrag.<br />
9.5.1 Möjligheter med Greta<br />
Med Greta bygger användaren upp kontroller med nyckelord på svenska via menyval<br />
och inbyggda verktyg. Kontrollsystemet kan omedelbart testas ut i datamaterialet<br />
genom att visa:<br />
• totala antalet felsignalerade variabelvärden<br />
• totala antalet felsignalerade objekt<br />
• antalet objekt fördelade efter antalet felsignaler för objekten (i fallande<br />
ordning).<br />
Inför produktionsstarten kan man försäkra sig om att <strong>granskning</strong>en ser ut att bli<br />
rimlig genom att ovanstående statistik automatiskt presenteras för användaren.<br />
Styrning och uppföljning<br />
Produktionen kan följas och styras genom att Greta presenterar statistik över antalet<br />
objekt fördelade efter felstatus, dvs. hur många objekt som återstår att granska,<br />
hur många som väntar med status ”under utredning” osv.<br />
Anpassning <strong>till</strong> de data som ska granskas<br />
Acceptansgränser för kontroller för misstänkta fel (ex: kvotkontroller X/Y) kan<br />
göras på aggregerade nivåer efter användningens behov. Användaren specificerar<br />
alltså själv nivåer (t ex: efter SNI på ensiffer-, tvåsiffernivå osv.). För varje kontroll<br />
kan man sedan automatiskt anpassa gränserna <strong>till</strong> de data som ska granskas<br />
genom att t.ex. använda Agda för att räkna fram och lägga in parametervärden för<br />
kontrollen i en Greta-tabell.<br />
Selektiv <strong>granskning</strong> / makro<strong>granskning</strong><br />
I detta CBM rekommenderas Hidiroglou-Berthelots metod och en poängfunktion<br />
(score-function) för prioritering av objekt för manuell verifiering (uppföljning),<br />
s.k. selektiv <strong>granskning</strong>. Det krävs viss SQL-kunskap för att implementera selektiv<br />
<strong>granskning</strong> i Greta.<br />
Automaträttningar och imputeringar<br />
För att man ska kunna göra automaträttningar, även kallade deterministiska rättningar,<br />
krävs dels att kontroller kan skrivas så att felet identifieras, dels att ett nytt<br />
värde kan härledas, t.ex. vid summeringsfel. Vissa typer av imputeringar för partiellt<br />
bortfall kan också göras – t.ex. med värdet från föregående period. Ändrade<br />
och nya värden kommer att granskas om kontrollerna för identifiering av fel och<br />
partiellt bortfall placeras först på kontrollistan.<br />
Felmeddelanden<br />
Greta sammanställer flaggningarna <strong>till</strong> objektvisa felmeddelanden som presenteras<br />
på skärmen. Felmeddelandena kan sorteras på olika sätt, t.ex. efter bransch eller<br />
region, beroende på hur man vill organisera den manuella verifieringen. Man kan<br />
98
IT-miljön och Greta<br />
även få meddelandena sorterade efter antalet flaggningar, t.ex. så att man kan<br />
börja med att verifiera de värsta objekten först. Med en poängfunktion implementerad<br />
bör man kunna ta ut objekten i prioritetsordning, dvs. efter objektens<br />
poäng.<br />
Orsaken <strong>till</strong> en flaggning anges genom felkoden, beskrivning av kontrollen i<br />
klartext, angivande av kontrollens värde med mera.<br />
Interaktiv uppdatering med om<strong>granskning</strong><br />
Man ändrar eller godkänner direkt på skärmen samt inför åtgärds- och orsakskoder.<br />
När alla flaggningar är åtgärdade, ska man begära om<strong>granskning</strong> av just det<br />
objektet om man har ändrat eller lagt <strong>till</strong> något värde. Genom om<strong>granskning</strong>en<br />
kontrollerar man ändringarna och får fram om ändringar medför att andra kontroller<br />
utlöses.<br />
Man kan dessutom ångra en felaktig knapptryckning, avbryta verifiering av objekt<br />
för att vid ett senare <strong>till</strong>fälle fortsätta med objektet, markera variabel och objekt<br />
för utredning, markera outliers, dvs. korrekta men starkt avvikande värden som<br />
måste beaktas vid estimationen, m.m.<br />
Top-down-<strong>granskning</strong><br />
Greta ger möjlighet <strong>till</strong> en form av top-down-<strong>granskning</strong> genom att det är möjligt<br />
att sortera objekten eller kontrollerna efter antal felsignaler.<br />
Processtatistik<br />
Ett centralt begrepp i Greta är felradstabellen, som, förutom att vara underlag för<br />
felmeddelanden, utgör underlag för indikatorer och statistik över insamlings- och<br />
produktionsprocessen.<br />
Framställning av processdata som underlag för kontinuerlig förbättring av processer<br />
är grundpelaren i TQM-filosofin och för den moderna synen på <strong>granskning</strong>en.<br />
I den är det identifiering av felkällor som ska stå i fokus, och sådana kunskaper<br />
ska användas <strong>till</strong> åtgärder att förhindra att fel uppstår.<br />
Det är möjligt att med hjälp av SQL-kodning ta fram processdata från felradstabellen.<br />
9.5.2 Gretas svagheter<br />
I dag finns version 2.75 <strong>till</strong>gänglig i nätet. Där har inte alla funktioner som ursprungligen<br />
planerades kunnat införas.<br />
Dataregistrering<br />
Greta är mindre lämpligt att använda vid dataregistrering, eftersom programmet är<br />
konstruerat för att granska hela objekt och inte enskilda variabler. Man kan alltså<br />
inte arbeta interaktivt på så sätt att man får en felsignal när markören lämnar ett<br />
fält som innehåller ett fel. Om man behöver denna funktion, bör man använda<br />
Rode PC.<br />
99
IT-miljön och Greta<br />
Output<strong>granskning</strong><br />
Greta är inte lämpligt för output<strong>granskning</strong> i betydelsen att man först utför kontroller<br />
på aggregat, t.ex. jämförelser med motsvarande tabellcell för perioden<br />
innan; och därefter söker identifiera vilket/vilka objekt som bidragit mest <strong>till</strong><br />
förändringen. För denna funktion kan t.ex. SAS Insight användas.<br />
Grafisk <strong>granskning</strong><br />
Greta ger inget direkt stöd för grafisk <strong>granskning</strong>. Det är dock relativt enkelt att<br />
göra en grafiskt baserad applikation som utnyttjar den information som Greta<br />
skapar.<br />
Omaka objekt<br />
Kontroller som innebär matchning mellan flera tabeller kommer inte att ge felsignal<br />
om ett objekt saknas i någon av de ingående tabellerna.<br />
Exempel: Om <strong>granskning</strong>en bl.a. avser kontroll mot samma objekt föregående<br />
period, kommer ett objekt som inte förekom tidigare period endast att granskas<br />
”inom posten”. Inget meddelande kommer att visa att objektet saknas föregående<br />
period. Nyckelordet ”förekommer i” är reserverat för denna typ av kontroll, men<br />
har inte implementerats i nuvarande version. Detta problem står högst på<br />
önskelistan över förbättring av Greta.<br />
Beroende kontroller<br />
Flödesvillkor (”if … then”, ”select … case”) kan inte uttryckas direkt i Gretas<br />
språk. I stället kan man i de flesta fall uppnå motsvarande funktionalitet genom att<br />
använda funktionen ”Beroende av” i ett eller flera led. Metoden kan dock snabbt<br />
bli osmidig och svår att underhålla.<br />
Exempel: att uttrycka ”om variabel A < x ska variabel B > y, men om variabel A ><br />
x ska variabel B > z” kräver totalt fyra kontroller, varav två beroende.<br />
Matchning mellan databaser<br />
Alla tabeller som ingår i en <strong>granskning</strong> (såväl granskat data som eventuella hjälptabeller)<br />
måste av praktiska skäl finnas i en och samma databas.<br />
Radorienterade tabeller<br />
Greta är utvecklad för att granska data som lagras på traditionellt sätt i en relationsdatabas,<br />
dvs. där en (eller flera) kolumner identifierar objektet och övriga<br />
kolumner representerar variabelvärden: ”identitet”, ”var1”, ”var2”, ”var3”, …<br />
Greta klarar endast vissa mycket begränsade kontroller när variabler i stället<br />
lagrats på s.k. radorienterat sätt, dvs. där en rad i databastabellen i princip kan<br />
beskrivas med tre kolumner: ”identitet”, ”kod”, ”värde” och därmed en kolumn<br />
inte unikt identifierar en variabel.<br />
9.5.3 Vidareutveckling av Greta<br />
Den mest angelägna vidareutvecklingen av Greta är en generell statistikmodul för<br />
presentation av processtatistik.<br />
100
Ordlista<br />
Ord Förklaring<br />
Acceptansgränser Gränser som avgör vilka observationer som<br />
ska godkännas respektive felsignaleras.<br />
Aggregat<strong>granskning</strong> Kontroller utförs på aggregerade data.<br />
Avvikelsefel Värdet på testvariabeln är för stort eller för<br />
litet i förhållande <strong>till</strong> acceptansgränserna.<br />
Ordlista<br />
Balanskontroll Kontroll för att se <strong>till</strong> att värdena på delvariablerna<br />
summerar sig <strong>till</strong> värdet på summavariabeln.<br />
Batch-<strong>granskning</strong> Se produktions<strong>granskning</strong>.<br />
Dataregistrerings<strong>granskning</strong> Identifiering av uppenbara fel vid dataregistrering.<br />
Datastruktur- eller modellfel Definitionsmässiga samband mellan variabler<br />
satisfieras inte.<br />
Specialfall: balanskontroll.<br />
Definitionsfel Många uppgiftslämnare uppfattar en fråga<br />
eller underliggande definitioner på ett likartat<br />
men felaktigt sätt.<br />
EDA, Exploratory Data<br />
Analysis<br />
Utforskning av data med hjälp av diagram.<br />
Felkod Beteckning på den kontroll som signalerade<br />
ett misstänkt eller uppenbart felaktigt värde.<br />
Felmeddelande Den information som <strong>granskning</strong>ssystemet ger<br />
om objekt och variabler som har felsignalerats<br />
eller automatiskt åtgärdats.<br />
Felrad Teknisk term i <strong>granskning</strong>sprogrammet Greta<br />
(kapitel 9).<br />
Felsignal Markering av att ett variabelvärde saknas eller<br />
har underkänts av de maskinella kontrollerna.<br />
Kan även användas om objekt och avser då att<br />
objektet har minst ett felsignalerat variabelvärde.<br />
Feltyp Beteckning eller benämning av visst slag av<br />
fel som förekommer i en datainsamling, t.ex.<br />
registrerings- eller sortfel.<br />
101
Ordlista<br />
Ord Förklaring<br />
Flagga Synonym <strong>till</strong> felsignal.<br />
Grafisk <strong>granskning</strong> Grafisk <strong>granskning</strong> av data beskrivs i form av<br />
olika diagram. Här behandlas interaktiv<br />
<strong>granskning</strong>, vilket innebär kommunikation<br />
mellan diagram och mellan diagram och<br />
datablad.<br />
Granskning<br />
102<br />
Identifiering och åtgärdande av fel och<br />
outliers i individuella data som används för<br />
framställning av statistik. Ett huvudsyfte är att<br />
identifiera felkällor för senare åtgärder i<br />
undersöknings- och produktionsprocessen.<br />
Granskningskod Synonym <strong>till</strong> åtgärdskod.<br />
Granskningsstatus Anger på objektsnivå om objektet har<br />
granskats av programmet, är godkänt eller ska<br />
åtgärdas.<br />
Imputering Ett felsignalerat och felaktigt värde eller saknat<br />
värde ersätts med ett acceptabelt värde<br />
efter fastställda regler utan kontakt med uppgiftslämnaren.<br />
Inlier Felaktiga värden som ligger innanför varje<br />
rimligt val av acceptansgränser för avvikelsefel.<br />
Interaktiv grafisk <strong>granskning</strong> Se grafisk <strong>granskning</strong>.<br />
Konsistensfel Svar på en fråga motsäger svar på en annan<br />
eller andra frågor.<br />
Kontroll Algoritm att urskilja felaktiga, misstänkta<br />
eller saknade värden.<br />
Lådagram Diagram som visar en variabels fördelning,<br />
bl.a. med kvartiler och extremvärden.<br />
Makro<strong>granskning</strong> Se selektiv <strong>granskning</strong>.<br />
Manuell för<strong>granskning</strong> Granskning av postenkäter före registrering.<br />
Mikro<strong>granskning</strong> Identifierar och åtgärdar fel i individuella<br />
data.<br />
Misstänkt värde Värde utanför ett acceptansområde, explicit<br />
eller implicit, som med stor sannolikhet är<br />
felaktigt.
Ord Förklaring<br />
Objektvis dataregistrerings-<br />
<strong>granskning</strong><br />
Granskningen utförs när alla värden för ett<br />
objekt har registrerats.<br />
Ordlista<br />
Outlier Korrekta data som uppräknade skiljer sig så<br />
mycket i absolut storlek från övriga uppräknade<br />
värden i sin redovisningsgrupp, att de<br />
aktualiserar frågor om förändringar i estimationen<br />
eller kommentarer i redovisningen av<br />
undersökningens resultat.<br />
Output<strong>granskning</strong> Granskning när allt material är insamlat för<br />
kontroll av att inga stora misstag har gjorts i<br />
de tidigare utförda processerna. Utförs i allmänhet<br />
på aggregerade data.<br />
Paretodiagram Stapeldiagram som presenteras i fallande<br />
ordning.<br />
Partiellt bortfall Obesvarad fråga trots att objektet har data att<br />
redovisa.<br />
Processdata Data om produktionsprocessen, felkällor och<br />
problem i undersökningen och <strong>granskning</strong>sprocessens<br />
effektivitet.<br />
Processtatistik Statistik över felsignaler, åtgärdade data, orsaker<br />
<strong>till</strong> fel, uppgiftslämnarproblem med mera.<br />
Produktions<strong>granskning</strong> Granskning som utförs på mikrodata efter det<br />
att en viss mängd objekt finns.<br />
Selektiv <strong>granskning</strong> Metod för prioritering av objekt eller variabelvärden<br />
för verifiering.<br />
Strukturfel Se datastruktur- eller modellfel.<br />
Testvariabel En insamlad variabel eller ett aritmetiskt uttryck<br />
av undersökningens variabler, som används<br />
i kontroller.<br />
Top-down Granskning/verifiering utförs i prioriteringsordning<br />
med prioritet ”det värsta först.”<br />
Träffsäkerhet Andel av felsignalerade observationer som<br />
resulterar i att data ändras.<br />
Uppenbara fel Kan identifieras med säkerhet enbart med<br />
<strong>till</strong>gång <strong>till</strong> data om det granskade objektet.<br />
103
Ordlista<br />
Ord Förklaring<br />
Uppgiftslämnar<strong>granskning</strong> Utförs av uppgiftslämnaren (t.ex. vid besvarande<br />
av postenkät eller elektronisk blankett)<br />
eller av uppgiftslämnare och intervjuare gemensamt<br />
i intervjuundersökningar.<br />
Uppgiftslämnarkapacitet Uppgiftslämnaren kan inte besvara frågan<br />
(med rimlig arbetsinsats).<br />
Uppgiftslämnarservice Statistikproducentens stöd <strong>till</strong> uppgiftslämnaren<br />
i rapporteringsarbetet.<br />
Validitetsfel Det registrerade värdet <strong>till</strong>hör inte variabelns<br />
värdeförråd (<strong>till</strong>åtna värden).<br />
Variabelvis dataregistrerings<strong>granskning</strong><br />
104<br />
Registreringen stoppas för åtgärd så fort ett<br />
variabelvärde underkänns.<br />
Verifiering Manuell utredning av felsignalerade variabelvärden<br />
i syfte att fastställa om de kan accepteras,<br />
är felaktiga eller utgör outliers. Fel och<br />
outliers ska åtgärdas och orsaker <strong>till</strong> fel ska<br />
registreras.<br />
Återkontakt Kontakt med uppgiftslämnaren i syfte att verifiera<br />
felsignaler, dvs. få korrekta uppgifter,<br />
finna ut orsaker <strong>till</strong> fel, förklaringar <strong>till</strong> felsignaler<br />
samt att identifiera uppgiftslämnarens<br />
problem med att besvara frågor.<br />
Åtgärdskod Anger vilken/vilka åtgärder som genomförts<br />
för ett variabelvärde. Exempel: Felsignalerat<br />
men ej verifierat; godkänts utan ändring och<br />
utan kontakt med uppgiftslämnaren; ändrats<br />
utan kontakt med uppgiftslämnaren; ändrats<br />
efter kontakt med uppgiftslämnaren. Synonym<br />
<strong>till</strong> <strong>granskning</strong>skod.<br />
Över<strong>granskning</strong> Innebär att det i ett visst skede i processen<br />
<strong>till</strong>kommer fler fel än dem som åtgärdas eller<br />
att resursåtgången inte står i rimlig proportion<br />
<strong>till</strong> kvalitetsförbättringen.
ISBN 91-618-1138-6<br />
Statistikpublikationer kan beställas från SCB, Publikationstjänsten, 701 89 ÖREBRO, e-post: publ@scb.se, telefon:<br />
019-17 68 00, fax: 019-17 64 44. De kan också köpas genom bokhandeln eller direkt hos SCB, Karlavägen 100 i Stockholm.<br />
Aktuell publicering redovisas på vår webbplats (www.scb.se). Ytterligare hjälp ges av SCB:s Bibliotek och Information.<br />
e-post: information@scb.se, telefon: 08-506 948 01, fax: 08-506 948 99.<br />
www www.scb.se<br />
www .scb.se<br />
SCB-Tryck, Örebro 2002.06