Data i Danmarks Statistik - Statens Institut for Folkesundhed
Data i Danmarks Statistik - Statens Institut for Folkesundhed
Data i Danmarks Statistik - Statens Institut for Folkesundhed
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Data</strong> om sociale <strong>for</strong>hold<br />
til <strong>for</strong>skningsbrug<br />
i <strong>Danmarks</strong> <strong>Statistik</strong><br />
Maj 2012
Disposition<br />
• Forudsætninger <strong>for</strong> registerbaseret <strong>for</strong>skning<br />
• <strong>Data</strong> i <strong>Danmarks</strong> <strong>Statistik</strong> med relevans i en<br />
social/sundhedsmæssig sammenhæng<br />
• Typer af enheder<br />
• Mulighed <strong>for</strong> at kombinere oplysninger<br />
• Forbehold<br />
• Eksempel på anvendelse af data<br />
• Forskernes muligheder <strong>for</strong> at arbejde med data<br />
• In<strong>for</strong>mation om FSE og om registre/data
Indsamlingsmetoder - datatyper<br />
• Spørgeskemaer<br />
• Interview<br />
• <strong>Data</strong> på grundlag af administrative<br />
registre<br />
– langt hovedparten af statistiske data<br />
- verdens første<br />
folke- og boligtælling<br />
på registerbasis 1981
Grundlaget <strong>for</strong> registerbaseret <strong>for</strong>skning<br />
• CPR nummerets indførelse i 1968<br />
• Administrative data i elektronisk <strong>for</strong>m<br />
• Bearbejdning af administrative data til<br />
statistiske data<br />
• Introduktion af IT
Årsager:<br />
Epidemiologisk model<br />
køn, alder, familie<br />
uddannelse<br />
arbejde: stilling og<br />
erhverv og arbejdsplads<br />
indkomst og <strong>for</strong>mue<br />
sociale <strong>for</strong>hold<br />
bolig<strong>for</strong>hold, nærmiljø<br />
arvelige <strong>for</strong>hold<br />
Forekomst af sygdom:<br />
Helbreds<strong>for</strong>hold<br />
Konsekvenser:<br />
<strong>for</strong>brug af offentlige<br />
ydelser<br />
sygelighed og døde-<br />
lighed<br />
prognose <strong>for</strong> arbejde<br />
mv.<br />
<strong>for</strong> de pårørende<br />
se endvidere:<br />
DIKE 1997: Registre inden <strong>for</strong> sundhedsområdet
Social position og helbred<br />
Forældres sociale position<br />
Uddannelse<br />
Erhverv<br />
Indkomst<br />
Yngwe Åberg. Health Equity Studies no. 5, 2005: Karolinska <strong>Institut</strong><br />
Børns sygelighed<br />
Formue<br />
Helbred
Periode med oplysninger<br />
• Sundhedsoplysninger<br />
– Indlæggelser på hospital 1977<br />
– Dødsårsager 1977<br />
– Sygesikringsoplysninger 1987<br />
• Socioøkonomiske oplysninger<br />
– Demografiske <strong>for</strong>hold 1977<br />
– Erhverv og indkomst 1977<br />
– Uddannelse 1980<br />
– Bolig<strong>for</strong>hold 1980<br />
– Sociale ydelser 1984
Typer af data<br />
Fraskilt<br />
Gift<br />
Papirløs<br />
Ugift<br />
Fraskilt<br />
Gift<br />
Papirløs<br />
Ugift<br />
Fraskilt<br />
Gift<br />
Papirløs<br />
Ugift<br />
1. Status opgørelse<br />
t1 t2 t3 t4<br />
2. Panel<br />
t1 t2 t3 t4<br />
3. Events/spells/periode<br />
t1 t2 t3 t4
Familie<br />
Familiedannelse<br />
• Årlige oplysninger pr. 1. januar<br />
• C-familie udgået (1980 – 2007)<br />
• Ny E-familie fra 1986 og frem<br />
• E-familie omfatter hjemmeboende<br />
børn til og med 24 år.
Familier / Husstande<br />
Familie:<br />
• Personer på samme adresse<br />
• Henvisninger til hinanden fx ægtefæller,<br />
børn/<strong>for</strong>ældre mv.<br />
Husstande:<br />
• Familier på samme adresse<br />
• Ex. Plejehjem
Uddannelse - statusopgørelse<br />
• Højst fuldførte uddannelse (pr. 1. januar)<br />
– start i 1980<br />
– dannes ud fra elevregistret<br />
– suppleres med data fra Kvalifikationsregister<br />
• Folke- og boligtællingen fra 1970<br />
• Indvandrernes medbragte uddannelse<br />
– variablen HF_kilde angiver kilden
Uddannelse - <strong>for</strong>løbsdata og karakterer<br />
• Elevregistret<br />
– detaljerede uddannelses<strong>for</strong>løb<br />
– inkl. afbrudte <strong>for</strong>løb<br />
– data fra 1. oktober 1973<br />
– opdateres årligt med indberetninger fra<br />
uddannelsesinstitutionerne<br />
• Karakterer<br />
– folkeskole<br />
– studentereksamen
Socioøkonomisk status<br />
• Status (ultimo november)<br />
– Registerbaseret arbejdsstyrkestatistik<br />
– IDA: Kobling til arbejdssted: mulighed<br />
<strong>for</strong> at finde kollegaer<br />
• Årsbetragtning<br />
– AKM
Socioøkonomisk status<br />
• I arbejdsstyrken<br />
– Selvstændige - medhj. ægtefæller:<br />
antal ansatte<br />
– Lønmodtagere (færdigshedsniveau)<br />
– Arbejdsløse<br />
• Uden <strong>for</strong> arbejdsstyrken
IDA-databasen - Karakteristika<br />
• Enheder (kan <strong>for</strong>bindes)<br />
– Personer<br />
– Ansættelser<br />
– Arbejdssteder<br />
• Registerbaseret<br />
– Administrative registre er kilde<br />
– Enheder/variable er begrænset af kilder<br />
• Årlig statusopgørelse (november)<br />
• Longitudinel (fra 1980)<br />
– enheder kan følges over tid
Fertilitetsdatabasen<br />
• Henvisninger mellem børn og <strong>for</strong>ældre<br />
– Stort set komplette henvisninger <strong>for</strong> ”børn” født fra<br />
1960 og frem<br />
• Baggrundsoplysninger om Mor og Far<br />
• Medicinske oplysninger - om barnet<br />
– Fødselsdata<br />
• Moderens alder, paritet, fødselsvægt<br />
• Gestationsalder, dødfødsler og<br />
spædbarnsdødelighed
<strong>Data</strong>struktur <strong>for</strong> udtræk pr. kalenderår<br />
ÅR PNR CFELLE CSTATUS ALDER<br />
1980 001 enlig 21<br />
1981 001 enlig 22<br />
1982 001 002 papirløs 23<br />
1983 001 002 papirløs 24<br />
1984 001 002 gift 25<br />
1985 001 002 gift 26<br />
1986 001 002 gift 27<br />
1987 001 002 gift 28<br />
1988 001 skilt 29<br />
.
Enheder<br />
• Person<br />
• Par<br />
• Familie<br />
• Husstand<br />
• Bolig<br />
• Firma/arbejdssted og skole<br />
• Geografi (sogn, kommune, kvadratnet)
Family unit<br />
Persons living at same address<br />
Mother<br />
Child 2 Child 2<br />
Husband/father
Kvadratnet
Relation mellem enheder<br />
Bolig/<br />
bygning<br />
Person<br />
- adresse<br />
- arbejdsstedskode<br />
- ejer - ejer<br />
- adresse<br />
Arbejdssted
Fordele ved at anvende registeroplysninger<br />
• Kan være eneste kilde<br />
• Totaldækkende<br />
• Intet bortfald<br />
• Relativt enkelt at finde små populationer<br />
• Mulighed <strong>for</strong> at finde kontrolgrupper<br />
• Beregning af relativ risiko <strong>for</strong> grupper af personer<br />
• Mulighed <strong>for</strong> at kombinere oplysninger<br />
• Oplysninger fra en længere årrække<br />
• Muligheder <strong>for</strong> longitudinelle analyser<br />
(personer/enheder følges over tid)
Forbehold<br />
• <strong>Data</strong>brud<br />
– Familiedefinition<br />
– Socioøkonomisk status<br />
• Populationsafstemning<br />
• Nomatch-tilfælde<br />
• Relevans<br />
• Operationalisering<br />
• Klassifikationsfejl<br />
– Familie (imputering)<br />
– Socioøkonomisk status<br />
• Pålidelighed/gyldighed<br />
– Arbejdsløshed
Selvmord og sociale <strong>for</strong>hold<br />
• Case-control studie<br />
• 20-60 årige i periode 1982-1997<br />
• Ca. 9000 selvmord<br />
• Ca. 180000 kontroller<br />
-------------------------------------------------------------------------------<br />
Kilde:<br />
Social Science & Medicine 64 (2007) 451–461<br />
Combining individual and ecological data to determine<br />
compositional and contextual socio-economic risk<br />
factors <strong>for</strong> suicide<br />
Esben Agerbo, Jonathan A.C. Sterne, David J. Gunnell
Analyse- og <strong>for</strong>sknings-potentiale<br />
• <strong>Danmarks</strong> <strong>Statistik</strong> har store<br />
datamængder/mange in<strong>for</strong>mationer<br />
• Forskeres egne data kan indgå i<br />
analyser<br />
• Mange mulighederne <strong>for</strong> projekter i<br />
de <strong>Danmarks</strong> <strong>Statistik</strong>s data
Begrænsning:<br />
Diskretionsprincipper<br />
• Begrænsninger som følge af:<br />
– Lov om behandling af personoplysninger<br />
– <strong>Danmarks</strong> <strong>Statistik</strong><br />
• <strong>Data</strong>, der kan afsløre personers eller<br />
virksomheders identitet, må ikke anvendes<br />
• Bagvejsidentifikation må ikke finde sted -<br />
skal være meget vanskelig (ond tro)<br />
• ”need-to-know” princip<br />
• <strong>Data</strong> <strong>for</strong>bliver i <strong>Danmarks</strong> <strong>Statistik</strong>
Typisk projekt<strong>for</strong>løb<br />
• Autorisation af <strong>for</strong>sknings/analyse miljø<br />
• Projektbeskrivelse sendes til <strong>Danmarks</strong> <strong>Statistik</strong><br />
• Beskrivelse af <strong>for</strong>mål, studiepopulation,<br />
variabler/registre, periode<br />
• Planlægning af registerudtræk<br />
• Beregning af pris – 1187 kr. pr. time <strong>for</strong> udtræk af<br />
data (januar 2012)<br />
• Vi sender en kontrakt med pris og <strong>for</strong>ventet<br />
leveringstid<br />
• Brug af eksterne data, kræver godkendelse fra<br />
<strong>Data</strong>tilsynet (<strong>for</strong>skerens ansvar)
Typisk projekt<strong>for</strong>løb<br />
• Forskeren underskriver en særlig <strong>for</strong>skeraftale<br />
• Forsker får adgang til projektfolder på<br />
<strong>for</strong>skermaskine eller på egen PC/server i<br />
<strong>Danmarks</strong> <strong>Statistik</strong>- password mv.<br />
• Identifikationsoplysninger (CPR-nr, CVR mv.)<br />
afidentificeres med en projektspecifik nøgle –<br />
navne mv. i klartekst slettes<br />
• Udtræk af data kopieres til <strong>for</strong>skermaskine og<br />
checkes af <strong>for</strong>skeren<br />
• Resultater af analyse sendes vha. mail-system<br />
som vedhæftede filer til <strong>for</strong>skers mail-adresse
Regler <strong>for</strong> adgang til data<br />
• Alle mikrodata inkl. <strong>for</strong>skernes data bliver i<br />
<strong>Danmarks</strong> <strong>Statistik</strong><br />
• Al arbejde med mikrodata skal ske på<br />
<strong>for</strong>skermaskine<br />
• Forskerne må ikke printe individuelle records og<br />
må ikke downloade mikrodata<br />
• Kun output med statistiske resultater (tabeller,<br />
estimationer mv.) må hjemtages<br />
• Grundregel er at hjemsendt materiale skal være<br />
på statistikniveau - ikke er muligt at identificere<br />
enkelt personer eller virksomheder
Hvordan kan man få adgang til meta data?<br />
• www.dst.dk/TilSalg/Forskningsservice.aspx<br />
– Register<strong>for</strong>skning<br />
– <strong>Data</strong><br />
– Dokumentation<br />
• TIMES (dokumentation af enkelt registre)<br />
• Højkvalitetsdokumentation (historisk<br />
dokumentation af ca. 500 variable)<br />
• Varedeklarationer<br />
– Adgang til data<br />
– Vejledninger i brug af <strong>for</strong>skermaskiner<br />
– Nyt og Meddelelser