Behandling af kvantitative data_d 19 11 2012
Behandling af kvantitative data_d 19 11 2012
Behandling af kvantitative data_d 19 11 2012
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Behandling</strong> <strong>af</strong> <strong>kvantitative</strong><br />
<strong>data</strong><br />
<strong>19</strong>.<strong>11</strong>.<strong>2012</strong>
I dag skal vi snakke om…<br />
• Kvantitativ metode i kort form<br />
• Hvordan man kan kode og indtaste <strong>data</strong><br />
• Data på forskellig måleniveau<br />
• Hvilke muligheder, der er for at analysere<br />
<strong>data</strong><br />
– Deskriptiv>
Kvantitativ metode<br />
• Handler typisk om at observere og forklare folks<br />
holdninger og adfærd.<br />
• Handler ikke om at forstå, hvorfor folk mener<br />
eller gør, som de gør. Vi er groft sagt ligeglade<br />
med at forstå deres overvejelser.<br />
• Antagelse: Det er muligt at måle og <strong>af</strong>dække<br />
sammenhænge i folks adfærd og holdning<br />
kvantitativt.<br />
• Afsæt i en mere positivistisk/Naturvidenskabelig<br />
tradition.
Kvantitativ metode<br />
• Data vil ofte være i form <strong>af</strong> observationer<br />
eller besvarelser <strong>af</strong> såkaldte lukkede<br />
spørgsmål, hvor respondenterne har<br />
kunnet vælge mellem flere prædefinerede<br />
svarmuligheder.<br />
• ”Hvad ville du stemme, hvis der var<br />
Folketingsvalg i dag”?<br />
• ”På en skala fra 0 til 10...”.
Kvantitativ metode<br />
• Spørgeskemaundersøgelser med lukkede<br />
svarmuligheder, register<strong>data</strong> ol.<br />
• Oftest et større <strong>data</strong>materiale end ved<br />
kvalitative undersøgelser. F.eks. En<br />
meningsmåling med 1.000 respondenter<br />
• Hellevik: Et ekstensivt oplæg med mange<br />
enheder, men få oplysninger om hver<br />
• Systematisk præsentation <strong>af</strong> stimuli og<br />
registrering <strong>af</strong> <strong>data</strong>
Kvantitativ metode<br />
• I kvantitativ metode handler det om ved<br />
statistiske analyser at finde<br />
sammenhænge og mønstre i <strong>data</strong><br />
kausalitet og generalisere resultaterne<br />
• Det er styrken ved kvantitativ metode, at<br />
man kan det!
Hvornår er en<br />
spørgeskemaundersøgelse det rigtige<br />
redskab?<br />
• Når man gerne vil indsamle mange<br />
besvarelser<br />
• Når man gerne vil arbejde med<br />
kvantificerbare <strong>data</strong><br />
• Når man gerne vil kunne generalisere sin<br />
resultater fra undersøgelsen til en større<br />
population
Kodning <strong>af</strong> <strong>data</strong><br />
• Ved kodningen gennemgås materialet og<br />
hver enhed får en værdi på alle<br />
variablene.<br />
• Hver værdi svarer til en tal i kodebogen.<br />
• Giver lettere overblik og mulighed for at<br />
<strong>data</strong>behandling f.eks. i excell.
Kodning <strong>af</strong> <strong>data</strong><br />
• Kodning <strong>af</strong> enhederne i<br />
klassifikationsskema<br />
• Angiver værdierne på alle variable<br />
• Klassifikation, der er udtømmende og<br />
gensidigt udelukkende<br />
• Hænger jo tæt sammen med<br />
udformningen <strong>af</strong> jeres spørgeskema og<br />
operationaliseringen <strong>af</strong> jeres variable
Kodning <strong>af</strong> <strong>data</strong><br />
• Når kodningen <strong>af</strong> <strong>data</strong> er <strong>af</strong>sluttet<br />
foreligger <strong>data</strong> i form <strong>af</strong> tal<br />
• Hvordan vi kan analysere på tallene<br />
<strong>af</strong>hænger <strong>af</strong>, hvilken type information<br />
tallene dækker over<br />
• Man taler om en variabels måleniveau<br />
• Variable med forskellige måleniveau kan<br />
analyseres på forskellige måder
Nominal måleniveau<br />
• Det simpleste måleniveau<br />
• Kategorierne på variablen er gensidigt<br />
udelukkende, intet andet.<br />
• Ikke muligt at rangordne eller sige noget<br />
om <strong>af</strong>stande mellem dem<br />
• Eks.: Køn og nationalitet
Ordinal måleniveau<br />
• Kategorierne på variablen er gensidigt<br />
udelukkende, og det er muligt at tale om<br />
højere eller lavere værdier på variablen<br />
• Ikke muligt at fortolke <strong>af</strong>stande<br />
• Eks.: Helt enig, overvejende enig, hverken<br />
enig eller uenig, overvejende uenig, helt<br />
uenig.
Interval niveau<br />
• Kategorierne på variablen er gensidigt<br />
udelukkende, det er muligt at tale om<br />
højere eller lavere værdier på variablen og<br />
det er muligt at fortolke <strong>af</strong>stande<br />
• Man kan f.eks. sige, at to enheder er<br />
tættere på hinanden<br />
• Eks.: Historisk tid.
Forholdstal/ratio niveau<br />
• Alt det foregående, og variablen har også<br />
et absolut nulpunkt.<br />
• Man kan meningsfuld fortolke forholdet<br />
mellem to enheder.<br />
• Eks.: Alder – en person har dobbel så høj<br />
alder som en anden
Måleniveauer<br />
• Variable med forskellige måleniveauer<br />
giver forskellige analysemuligheder<br />
• Igen er det noget, man skal overveje<br />
allerede i formuleringen <strong>af</strong> sit<br />
spørgeskema<br />
• Spørg på så højt et måleniveau som<br />
muligt, f.eks. alder.
Hvad siger<br />
kodetallene<br />
noget om?<br />
Måleniveauer<br />
Nominal Ordinal Interval Ratio/forhold<br />
Forskelle + + + +<br />
Rangordne + + +<br />
Afstande + +<br />
Forhold +
Hvad kan man gøre i<br />
forbindelse med analysen<br />
Skille enheder med forskellige<br />
værdier fra hinanden<br />
Rangordne enhederne efter<br />
værdiernes størrelse<br />
Lægge værdier sammen og<br />
trække dem fra hinanden<br />
Måleniveauer<br />
Nominal Ordinal Interval Ratio/for<br />
hold<br />
+ + + +<br />
+ + +<br />
+ +<br />
Gange og dividere værdier +
Analyse<br />
• Formålet med analysen er at trække den<br />
information ud <strong>af</strong> <strong>data</strong>, der skal til for at<br />
besvare ens problemstilling<br />
• Afhængig <strong>af</strong> ens problemstilling, kan man<br />
lave forskellige typer analyser
Analyse<br />
• Hvor bredt udtaler man sig:<br />
– Deskriptiv >< induktiv analyse<br />
• Hvor mange variable inddrager man i sin<br />
analyse?:<br />
– Univariat<br />
– Bivariat<br />
– Multivariat analyse
Deskriptiv statistik<br />
• Man siger kun noget om stikprøven<br />
• Forenkle og sammenfatte det foreliggende<br />
talmateriale<br />
• Skabe orden i og overblik over den<br />
<strong>data</strong>matrise, man har kodet.<br />
• Kvalitetssikre den indsamlede stikprøve,<br />
inden man evt. går videre til næste niveau<br />
i analysen
Induktiv statistik<br />
• Generaliserende statisk<br />
• På baggrund <strong>af</strong> de resultater, man har<br />
fundet i sin stikprøve, siger man noget om<br />
den population, man har taget stikprøven<br />
fra.<br />
• Stiller som tidligere nævnt en række krav<br />
til kvaliteten <strong>af</strong> den stikprøve, man har<br />
indsamlet
Univariat analyse<br />
• Siger noget om enhedernes fordeling på<br />
en enkelt variabel<br />
• F.eks., hvor mange er hhv. enige og<br />
uenige i et udsagn<br />
• Kan belyses ved hjælp <strong>af</strong><br />
frekvensfordelinger, forskellige gr<strong>af</strong>iske<br />
fremstillinger og statistiske mål for<br />
centraltendens og spredning
Univariat analyse<br />
• Frekvensfordeling: Hvor mange gange<br />
forekommer de forskellige værdier for en<br />
variabel?<br />
• Kan både opgøres i absolutte tal og i<br />
andele.<br />
• Hvor mange er hhv. enige og uenige?<br />
• Hvor stor en andel er hhv. enig og uenig?<br />
• Afbilledes typisk ved hjælp <strong>af</strong><br />
stolpediagrammer
Univariat analyse<br />
• Statistiske mål for centraltendensen i en<br />
frekvensværdi – den typiske værdi<br />
• Afhænger <strong>af</strong> måleniveau<br />
• Modus: Den oftest forekommende værdi<br />
• Median: Den ”midterste værdi”, dvs. den<br />
værdi, der ligger i midten, når enhederne<br />
er rangordnet<br />
• Gennemsnit: Den gennemsnitlige værdi<br />
for enhederne
Univariat analyse<br />
Nominal Ordinal Interval/forholdst<br />
al<br />
Modus + + +<br />
Median + +<br />
Gennemsnit +
Bivariat analyse<br />
• Kigger på sammenhængene mellem to<br />
variable<br />
• F.eks. en bivariat frekvenstabel/krydstabel,<br />
der viser om bestemte værdier på vore<br />
variable optræder sammen.<br />
• Giver mulighed for at undersøge om der er<br />
sammenhæng mellem to variable
Bivariat analyse<br />
• Sammenhænge: Vi undersøger, om<br />
fordelingen <strong>af</strong> enheder på en variabel er<br />
betinget <strong>af</strong> enhedernes værdier på en<br />
anden variabel<br />
• Den første variabel er den <strong>af</strong>hængige<br />
• Den anden variabel er den u<strong>af</strong>hængige<br />
• Vi bruger den u<strong>af</strong>hængige variabel til at<br />
dele enhederne ind i grupper, og så<br />
undersøger vi, om fordelingen på den<br />
<strong>af</strong>hængige varierer på tværs <strong>af</strong> grupperne
Bivariat analyse<br />
• Når man laver sine krydstabeller definerer<br />
man også sin <strong>af</strong>hængige og u<strong>af</strong>hængige<br />
variabel<br />
• Når man laver krydstabeller procentuerer<br />
man, så det summerer til 100 pct på den<br />
u<strong>af</strong>hængige variabel<br />
• Overvejelser omkring, hvad der er den<br />
u<strong>af</strong>hængige og <strong>af</strong>hængige variabel<br />
relaterer sig til overvejelser om<br />
tidsrækkefølge osv.
Bivariat analyse<br />
• Statistiske mål: der beskriver forskellige<br />
slags sammenhænge mellem to variable<br />
• Igen <strong>af</strong>hængig <strong>af</strong>, hvilket måleniveau ens<br />
variable er på.<br />
• Mange muligheder for statistiske analyser<br />
• Fi, Thau, gamma osv.<br />
• I skal IKKE beregne statistiske<br />
sammenhængsmål!
Multivariat analyse<br />
• Beskriver sammenhænge mellem tre<br />
variable eller flere.<br />
• Giver f.eks. Mulighed for at kontrollere for<br />
påvirkning fra tredjevariabel<br />
• Dekomponere en bivariat sammenhæng<br />
og undersøge, om der er tale om en<br />
direkte, medieret eller spuriøs<br />
sammenhæng.
Multivariat analyse<br />
• Med mindre I holder jer til multivariate<br />
frekvensfordelinger med tre variable,<br />
bevæger I jer udover, hvad I skal kunne i<br />
dette fag.<br />
• Det bliver hurtigt meget uoverskeligt.
Mere om induktiv statistik<br />
• Nogle centrale begreber, som det er nyttigt<br />
at forstå, men som I ikke forventes at<br />
bruge.<br />
• Induktiv statistik trækker på<br />
sandsynlighedsregning – igen det stiller en<br />
række krav til stikprøven og<br />
<strong>data</strong>indsamlingen
Dataindsamling<br />
• Skal tilrettelægges, så vi får en så<br />
repræsentativ stikprøve som muligt<br />
• Undgå skævheder =<br />
generaliseringsproblemer<br />
• Generaliseringsproblemer mindsker<br />
undersøgelsens validitet<br />
• Tilfældighed i udvælgelse <strong>af</strong> enhederne i<br />
stikprøven er <strong>af</strong>gørende
Sandsynlighedsudvælgelse<br />
• Idealet er sandsynlighedsudvælgelse: Alle<br />
enheder i populationen har en kendt<br />
sandsynlighed for at blive udtrukket<br />
• Fordel: Resultaterne kan generaliseres<br />
med en kendt statistisk sikkerhed<br />
• Dette sikres gennem tilfældighed i<br />
udtrækningen <strong>af</strong> de enheder, der kommer<br />
med i stikprøven
Sandsynlighedsudvælgelse<br />
• Simpel tilfældig udvælgelse: Alle enheder<br />
har lige stor sandsynlighed for at indgå i<br />
stikprøven<br />
• Stratificeret udvælgelse og<br />
klyngeudvælgelse: enhederne kan have<br />
forskellige, men kendte sandsynligheder<br />
for at indgå i stikprøven.
Sandsynlighedsudvælgelse<br />
• Foregår i praksis ved hjælp <strong>af</strong> en liste over<br />
populationen, f.eks. Et CPR-udtræk fra en<br />
kommune, en liste over medarbejdere fra<br />
en virksomhed.<br />
• Herfra udvælges enhederne, der skal<br />
indgå i stikprøven: Det sker tilfældigt<br />
• Evt. indenfor klynger eller strata.
Sandsynlighedsudvælgelse<br />
• Kræver mange ressourcer<br />
• Er ofte et uopnåeligt ideal mere end<br />
praktisk virkelighed<br />
• Meget andet kan gå galt<br />
• Så bare fordi man har sendt<br />
spørgeskemaer ud til et tilfældigt udtræk,<br />
er man ikke sikker på kvaliteten<br />
• Systematisk bortfald kan f.eks. fjerne<br />
tilfældighedselementet
Sandsynlighedsudvælgelse<br />
• Er i nogle situationer ikke en mulighed:<br />
• Mangel på ressourcer<br />
• Hvis vi ikke kan sk<strong>af</strong>fe en liste over populationen<br />
og lave udtræk fra<br />
• Hvis vi ikke kan <strong>af</strong>grænse populationen præcist<br />
nok<br />
• Eks. Survey blandt voldsramte kvinder og<br />
homoseksuelle mænd
Ikke-sandsynlighedsudvælgelse<br />
• Indsamling, hvor vi ikke kender den<br />
enkelte enheds sandsynlighed for at indgå<br />
i stikprøven<br />
• Derfor kan vi ikke med kendt statistisk<br />
sikkerhed generalisere resultaterne<br />
• Det behøver dog ikke være ødelæggende<br />
for generaliserbarheden <strong>af</strong> resultaterne (vi<br />
ved det bare ikke)<br />
• Tilfældigheden i udvælgelsen er<br />
<strong>af</strong>gørende
Ikke-tilfældig udvælgelse<br />
• Skønsmæssig udvælgelse:<br />
– I udvælger de enheder, der skal indgå i<br />
stikprøven<br />
• Selvselektion:<br />
– Enhederne vælger selv, om de vil indgå i<br />
stikprøven<br />
• Stor risiko for systematiske skævheder i<br />
stikprøven<br />
• Over- og underrepræsentation <strong>af</strong> grupper
Tilfældig ikke-<br />
sandsynlighedsudvælgelse<br />
• Udvælgelse på slump:<br />
– Både I og enhederne er med til at <strong>af</strong>gøre, om<br />
de indgår i stikprøven (Voxpop)<br />
• Kvoteudvælgelse:<br />
– Udvælgelse på slump med opfyldelse <strong>af</strong><br />
kvoter<br />
• Tilfældighedselementet bidrager til at<br />
mindske skævheder<br />
• Kræver dog en del omtanke, og man kan<br />
aldrig være sikker på, om der er<br />
skævheder
Dataindsamling<br />
• Skal tilrettelægges, så vi får en så<br />
repræsentativ stikprøve som muligt<br />
• Definer målgruppen for undersøgelsen<br />
• Hvordan får jeg indsamlet en<br />
repræsentativ stikprøve <strong>af</strong> besvarelser fra<br />
denne målgruppe?<br />
• Både validiteten og reliabiliteten
Inferens<br />
• Når man går fra stikprøven til populationen<br />
• Man undersøger, hvor sikker man kan være på,<br />
at estimatet (værdien i stikprøven) er lig med<br />
populationsparametren (Værdien i populationen,<br />
som man i virkeligheden er interesseret i)<br />
• Man giver et konkret tal for sandsynligheden<br />
herfor eller et interval, hvor indenfor parametren<br />
med en vis sandsynlighed befinder sig
Inferens<br />
• Ikke noget I forventes at arbejde med i opgaven<br />
• I skal ikke teste for signifikans eller opstille<br />
konfidensintervaller<br />
• Nyttigt begreb at forstå, når I generelt<br />
præsenteres for undersøgelser og resultater <strong>af</strong><br />
undersøgelser
Signifikans<br />
• En signifikanstest siger noget om sandsynligheden for at<br />
en sammenhæng man har fundet i sin stikprøve også<br />
findes i populationen.<br />
• Man taler om forskellige signifikansniveauer – typisk 5 %<br />
• Med et signifikansniveau på 5 % skal sandsynligheden<br />
for, at den sammenhæng, vi har fundet i stikprøven også<br />
findes i populationen, være større end 95 %<br />
• Ellers tør vi ikke tro på, at sammenhængen ikke bare er<br />
en tilfældighed i vores stikprøve
Signifikans<br />
• Signifikanstesten er en statistisk test, der<br />
baserer sig på sandsynlighedsregning<br />
• Hvis signifikanstesten viser, at en sammenhæng<br />
er signifikant på f.eks. et 5% signifikansniveau<br />
• Så vil det sige, at der kun er en 5 %<br />
sandsynlighed for at få det resultat, vi har fundet<br />
i stikprøven, hvis sammenhængen ikke også<br />
findes i populationen.
Signifikans<br />
• Signifikanstesten fortæller os altså, hvor sikre, vi<br />
kan være på resultaterne <strong>af</strong> vores undersøgelse<br />
• Det er meget sjældent, at de resultater fra<br />
undersøgelser, der bliver gengivet i medierne er<br />
blevet signifikanstestet.<br />
• Så reelt ved man ikke, hvor sikker man kan<br />
være på, om den sammenhæng man har fundet,<br />
har noget på sig
Konfidensinterval<br />
• Er et bånd rundt om det estimat, man har<br />
fundet i stikprøven.<br />
• Indenfor dette bånd befinder værdien for<br />
populationen – ”den sande værdi” sig med<br />
en vis sandsynlighed<br />
• Hvis man har et signifikansniveau på 5%<br />
vil værdien for populationen med 95 %<br />
sikkerhed befinde sig i kofidensintervallet
Konfidensinterval<br />
• Tænkt eksempel: Hvis man I en stikprøve<br />
f.eks. har fundet, at 50,2% <strong>af</strong><br />
respondenterne angiver at ville stemme<br />
på oppositionen, hvis der var valg i<br />
morgen, så ligger den sande stemmeandel<br />
på oppositionen med 95 % sikkerhed<br />
mellem 48,7% og 51,7%
Konfidensinterval<br />
• Hænger sammen med den statistiske<br />
usikkerhed<br />
• Så jo større en stikprøve, jo smallere bliver<br />
båndet – konfidensintervallet<br />
• Jo større krav man stiller til<br />
sandsynligheden for at indfange den<br />
sande værdi i intervallet – jo bredere bliver<br />
båndet
Jeres analyser<br />
• I skal ikke lave avancerede statistiske<br />
analyser<br />
• Det kan være fint at holde sig til<br />
deskriptive univariate analyser – <strong>af</strong>hænger<br />
<strong>af</strong> jeres problemstilling<br />
• Sørg i stedet for at opbygge et solidt<br />
argument.<br />
• Forhold jer til kvaliteten <strong>af</strong> jeres stikprøve,<br />
undersøgelsesdesignet osv.<br />
• Vær opmærksom på begrænsningerne
Opsamling<br />
• Inden <strong>data</strong>behandlingen og analysen – kast et kritisk blik<br />
på stikprøven. Er kvaliteten i orden?<br />
• Eksplorativ eller hypotesestyret analyse<br />
• I kan estimere parametre – andele og gennemsnit<br />
• Lede efter årsagssammenhænge<br />
• I skal ikke lave statistiske analyser – nøjes med<br />
frekvenstabeller og krydstabeller<br />
• Sørg i stedet for at opbygge solide argumenter – tjek for<br />
tredjevariabel osv.<br />
• Signifikanstest og konfidensintervaller er centrale<br />
begreber, når man infererer