29.09.2013 Views

Behandling af kvantitative data_d 19 11 2012

Behandling af kvantitative data_d 19 11 2012

Behandling af kvantitative data_d 19 11 2012

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Behandling</strong> <strong>af</strong> <strong>kvantitative</strong><br />

<strong>data</strong><br />

<strong>19</strong>.<strong>11</strong>.<strong>2012</strong>


I dag skal vi snakke om…<br />

• Kvantitativ metode i kort form<br />

• Hvordan man kan kode og indtaste <strong>data</strong><br />

• Data på forskellig måleniveau<br />

• Hvilke muligheder, der er for at analysere<br />

<strong>data</strong><br />

– Deskriptiv>


Kvantitativ metode<br />

• Handler typisk om at observere og forklare folks<br />

holdninger og adfærd.<br />

• Handler ikke om at forstå, hvorfor folk mener<br />

eller gør, som de gør. Vi er groft sagt ligeglade<br />

med at forstå deres overvejelser.<br />

• Antagelse: Det er muligt at måle og <strong>af</strong>dække<br />

sammenhænge i folks adfærd og holdning<br />

kvantitativt.<br />

• Afsæt i en mere positivistisk/Naturvidenskabelig<br />

tradition.


Kvantitativ metode<br />

• Data vil ofte være i form <strong>af</strong> observationer<br />

eller besvarelser <strong>af</strong> såkaldte lukkede<br />

spørgsmål, hvor respondenterne har<br />

kunnet vælge mellem flere prædefinerede<br />

svarmuligheder.<br />

• ”Hvad ville du stemme, hvis der var<br />

Folketingsvalg i dag”?<br />

• ”På en skala fra 0 til 10...”.


Kvantitativ metode<br />

• Spørgeskemaundersøgelser med lukkede<br />

svarmuligheder, register<strong>data</strong> ol.<br />

• Oftest et større <strong>data</strong>materiale end ved<br />

kvalitative undersøgelser. F.eks. En<br />

meningsmåling med 1.000 respondenter<br />

• Hellevik: Et ekstensivt oplæg med mange<br />

enheder, men få oplysninger om hver<br />

• Systematisk præsentation <strong>af</strong> stimuli og<br />

registrering <strong>af</strong> <strong>data</strong>


Kvantitativ metode<br />

• I kvantitativ metode handler det om ved<br />

statistiske analyser at finde<br />

sammenhænge og mønstre i <strong>data</strong><br />

kausalitet og generalisere resultaterne<br />

• Det er styrken ved kvantitativ metode, at<br />

man kan det!


Hvornår er en<br />

spørgeskemaundersøgelse det rigtige<br />

redskab?<br />

• Når man gerne vil indsamle mange<br />

besvarelser<br />

• Når man gerne vil arbejde med<br />

kvantificerbare <strong>data</strong><br />

• Når man gerne vil kunne generalisere sin<br />

resultater fra undersøgelsen til en større<br />

population


Kodning <strong>af</strong> <strong>data</strong><br />

• Ved kodningen gennemgås materialet og<br />

hver enhed får en værdi på alle<br />

variablene.<br />

• Hver værdi svarer til en tal i kodebogen.<br />

• Giver lettere overblik og mulighed for at<br />

<strong>data</strong>behandling f.eks. i excell.


Kodning <strong>af</strong> <strong>data</strong><br />

• Kodning <strong>af</strong> enhederne i<br />

klassifikationsskema<br />

• Angiver værdierne på alle variable<br />

• Klassifikation, der er udtømmende og<br />

gensidigt udelukkende<br />

• Hænger jo tæt sammen med<br />

udformningen <strong>af</strong> jeres spørgeskema og<br />

operationaliseringen <strong>af</strong> jeres variable


Kodning <strong>af</strong> <strong>data</strong><br />

• Når kodningen <strong>af</strong> <strong>data</strong> er <strong>af</strong>sluttet<br />

foreligger <strong>data</strong> i form <strong>af</strong> tal<br />

• Hvordan vi kan analysere på tallene<br />

<strong>af</strong>hænger <strong>af</strong>, hvilken type information<br />

tallene dækker over<br />

• Man taler om en variabels måleniveau<br />

• Variable med forskellige måleniveau kan<br />

analyseres på forskellige måder


Nominal måleniveau<br />

• Det simpleste måleniveau<br />

• Kategorierne på variablen er gensidigt<br />

udelukkende, intet andet.<br />

• Ikke muligt at rangordne eller sige noget<br />

om <strong>af</strong>stande mellem dem<br />

• Eks.: Køn og nationalitet


Ordinal måleniveau<br />

• Kategorierne på variablen er gensidigt<br />

udelukkende, og det er muligt at tale om<br />

højere eller lavere værdier på variablen<br />

• Ikke muligt at fortolke <strong>af</strong>stande<br />

• Eks.: Helt enig, overvejende enig, hverken<br />

enig eller uenig, overvejende uenig, helt<br />

uenig.


Interval niveau<br />

• Kategorierne på variablen er gensidigt<br />

udelukkende, det er muligt at tale om<br />

højere eller lavere værdier på variablen og<br />

det er muligt at fortolke <strong>af</strong>stande<br />

• Man kan f.eks. sige, at to enheder er<br />

tættere på hinanden<br />

• Eks.: Historisk tid.


Forholdstal/ratio niveau<br />

• Alt det foregående, og variablen har også<br />

et absolut nulpunkt.<br />

• Man kan meningsfuld fortolke forholdet<br />

mellem to enheder.<br />

• Eks.: Alder – en person har dobbel så høj<br />

alder som en anden


Måleniveauer<br />

• Variable med forskellige måleniveauer<br />

giver forskellige analysemuligheder<br />

• Igen er det noget, man skal overveje<br />

allerede i formuleringen <strong>af</strong> sit<br />

spørgeskema<br />

• Spørg på så højt et måleniveau som<br />

muligt, f.eks. alder.


Hvad siger<br />

kodetallene<br />

noget om?<br />

Måleniveauer<br />

Nominal Ordinal Interval Ratio/forhold<br />

Forskelle + + + +<br />

Rangordne + + +<br />

Afstande + +<br />

Forhold +


Hvad kan man gøre i<br />

forbindelse med analysen<br />

Skille enheder med forskellige<br />

værdier fra hinanden<br />

Rangordne enhederne efter<br />

værdiernes størrelse<br />

Lægge værdier sammen og<br />

trække dem fra hinanden<br />

Måleniveauer<br />

Nominal Ordinal Interval Ratio/for<br />

hold<br />

+ + + +<br />

+ + +<br />

+ +<br />

Gange og dividere værdier +


Analyse<br />

• Formålet med analysen er at trække den<br />

information ud <strong>af</strong> <strong>data</strong>, der skal til for at<br />

besvare ens problemstilling<br />

• Afhængig <strong>af</strong> ens problemstilling, kan man<br />

lave forskellige typer analyser


Analyse<br />

• Hvor bredt udtaler man sig:<br />

– Deskriptiv >< induktiv analyse<br />

• Hvor mange variable inddrager man i sin<br />

analyse?:<br />

– Univariat<br />

– Bivariat<br />

– Multivariat analyse


Deskriptiv statistik<br />

• Man siger kun noget om stikprøven<br />

• Forenkle og sammenfatte det foreliggende<br />

talmateriale<br />

• Skabe orden i og overblik over den<br />

<strong>data</strong>matrise, man har kodet.<br />

• Kvalitetssikre den indsamlede stikprøve,<br />

inden man evt. går videre til næste niveau<br />

i analysen


Induktiv statistik<br />

• Generaliserende statisk<br />

• På baggrund <strong>af</strong> de resultater, man har<br />

fundet i sin stikprøve, siger man noget om<br />

den population, man har taget stikprøven<br />

fra.<br />

• Stiller som tidligere nævnt en række krav<br />

til kvaliteten <strong>af</strong> den stikprøve, man har<br />

indsamlet


Univariat analyse<br />

• Siger noget om enhedernes fordeling på<br />

en enkelt variabel<br />

• F.eks., hvor mange er hhv. enige og<br />

uenige i et udsagn<br />

• Kan belyses ved hjælp <strong>af</strong><br />

frekvensfordelinger, forskellige gr<strong>af</strong>iske<br />

fremstillinger og statistiske mål for<br />

centraltendens og spredning


Univariat analyse<br />

• Frekvensfordeling: Hvor mange gange<br />

forekommer de forskellige værdier for en<br />

variabel?<br />

• Kan både opgøres i absolutte tal og i<br />

andele.<br />

• Hvor mange er hhv. enige og uenige?<br />

• Hvor stor en andel er hhv. enig og uenig?<br />

• Afbilledes typisk ved hjælp <strong>af</strong><br />

stolpediagrammer


Univariat analyse<br />

• Statistiske mål for centraltendensen i en<br />

frekvensværdi – den typiske værdi<br />

• Afhænger <strong>af</strong> måleniveau<br />

• Modus: Den oftest forekommende værdi<br />

• Median: Den ”midterste værdi”, dvs. den<br />

værdi, der ligger i midten, når enhederne<br />

er rangordnet<br />

• Gennemsnit: Den gennemsnitlige værdi<br />

for enhederne


Univariat analyse<br />

Nominal Ordinal Interval/forholdst<br />

al<br />

Modus + + +<br />

Median + +<br />

Gennemsnit +


Bivariat analyse<br />

• Kigger på sammenhængene mellem to<br />

variable<br />

• F.eks. en bivariat frekvenstabel/krydstabel,<br />

der viser om bestemte værdier på vore<br />

variable optræder sammen.<br />

• Giver mulighed for at undersøge om der er<br />

sammenhæng mellem to variable


Bivariat analyse<br />

• Sammenhænge: Vi undersøger, om<br />

fordelingen <strong>af</strong> enheder på en variabel er<br />

betinget <strong>af</strong> enhedernes værdier på en<br />

anden variabel<br />

• Den første variabel er den <strong>af</strong>hængige<br />

• Den anden variabel er den u<strong>af</strong>hængige<br />

• Vi bruger den u<strong>af</strong>hængige variabel til at<br />

dele enhederne ind i grupper, og så<br />

undersøger vi, om fordelingen på den<br />

<strong>af</strong>hængige varierer på tværs <strong>af</strong> grupperne


Bivariat analyse<br />

• Når man laver sine krydstabeller definerer<br />

man også sin <strong>af</strong>hængige og u<strong>af</strong>hængige<br />

variabel<br />

• Når man laver krydstabeller procentuerer<br />

man, så det summerer til 100 pct på den<br />

u<strong>af</strong>hængige variabel<br />

• Overvejelser omkring, hvad der er den<br />

u<strong>af</strong>hængige og <strong>af</strong>hængige variabel<br />

relaterer sig til overvejelser om<br />

tidsrækkefølge osv.


Bivariat analyse<br />

• Statistiske mål: der beskriver forskellige<br />

slags sammenhænge mellem to variable<br />

• Igen <strong>af</strong>hængig <strong>af</strong>, hvilket måleniveau ens<br />

variable er på.<br />

• Mange muligheder for statistiske analyser<br />

• Fi, Thau, gamma osv.<br />

• I skal IKKE beregne statistiske<br />

sammenhængsmål!


Multivariat analyse<br />

• Beskriver sammenhænge mellem tre<br />

variable eller flere.<br />

• Giver f.eks. Mulighed for at kontrollere for<br />

påvirkning fra tredjevariabel<br />

• Dekomponere en bivariat sammenhæng<br />

og undersøge, om der er tale om en<br />

direkte, medieret eller spuriøs<br />

sammenhæng.


Multivariat analyse<br />

• Med mindre I holder jer til multivariate<br />

frekvensfordelinger med tre variable,<br />

bevæger I jer udover, hvad I skal kunne i<br />

dette fag.<br />

• Det bliver hurtigt meget uoverskeligt.


Mere om induktiv statistik<br />

• Nogle centrale begreber, som det er nyttigt<br />

at forstå, men som I ikke forventes at<br />

bruge.<br />

• Induktiv statistik trækker på<br />

sandsynlighedsregning – igen det stiller en<br />

række krav til stikprøven og<br />

<strong>data</strong>indsamlingen


Dataindsamling<br />

• Skal tilrettelægges, så vi får en så<br />

repræsentativ stikprøve som muligt<br />

• Undgå skævheder =<br />

generaliseringsproblemer<br />

• Generaliseringsproblemer mindsker<br />

undersøgelsens validitet<br />

• Tilfældighed i udvælgelse <strong>af</strong> enhederne i<br />

stikprøven er <strong>af</strong>gørende


Sandsynlighedsudvælgelse<br />

• Idealet er sandsynlighedsudvælgelse: Alle<br />

enheder i populationen har en kendt<br />

sandsynlighed for at blive udtrukket<br />

• Fordel: Resultaterne kan generaliseres<br />

med en kendt statistisk sikkerhed<br />

• Dette sikres gennem tilfældighed i<br />

udtrækningen <strong>af</strong> de enheder, der kommer<br />

med i stikprøven


Sandsynlighedsudvælgelse<br />

• Simpel tilfældig udvælgelse: Alle enheder<br />

har lige stor sandsynlighed for at indgå i<br />

stikprøven<br />

• Stratificeret udvælgelse og<br />

klyngeudvælgelse: enhederne kan have<br />

forskellige, men kendte sandsynligheder<br />

for at indgå i stikprøven.


Sandsynlighedsudvælgelse<br />

• Foregår i praksis ved hjælp <strong>af</strong> en liste over<br />

populationen, f.eks. Et CPR-udtræk fra en<br />

kommune, en liste over medarbejdere fra<br />

en virksomhed.<br />

• Herfra udvælges enhederne, der skal<br />

indgå i stikprøven: Det sker tilfældigt<br />

• Evt. indenfor klynger eller strata.


Sandsynlighedsudvælgelse<br />

• Kræver mange ressourcer<br />

• Er ofte et uopnåeligt ideal mere end<br />

praktisk virkelighed<br />

• Meget andet kan gå galt<br />

• Så bare fordi man har sendt<br />

spørgeskemaer ud til et tilfældigt udtræk,<br />

er man ikke sikker på kvaliteten<br />

• Systematisk bortfald kan f.eks. fjerne<br />

tilfældighedselementet


Sandsynlighedsudvælgelse<br />

• Er i nogle situationer ikke en mulighed:<br />

• Mangel på ressourcer<br />

• Hvis vi ikke kan sk<strong>af</strong>fe en liste over populationen<br />

og lave udtræk fra<br />

• Hvis vi ikke kan <strong>af</strong>grænse populationen præcist<br />

nok<br />

• Eks. Survey blandt voldsramte kvinder og<br />

homoseksuelle mænd


Ikke-sandsynlighedsudvælgelse<br />

• Indsamling, hvor vi ikke kender den<br />

enkelte enheds sandsynlighed for at indgå<br />

i stikprøven<br />

• Derfor kan vi ikke med kendt statistisk<br />

sikkerhed generalisere resultaterne<br />

• Det behøver dog ikke være ødelæggende<br />

for generaliserbarheden <strong>af</strong> resultaterne (vi<br />

ved det bare ikke)<br />

• Tilfældigheden i udvælgelsen er<br />

<strong>af</strong>gørende


Ikke-tilfældig udvælgelse<br />

• Skønsmæssig udvælgelse:<br />

– I udvælger de enheder, der skal indgå i<br />

stikprøven<br />

• Selvselektion:<br />

– Enhederne vælger selv, om de vil indgå i<br />

stikprøven<br />

• Stor risiko for systematiske skævheder i<br />

stikprøven<br />

• Over- og underrepræsentation <strong>af</strong> grupper


Tilfældig ikke-<br />

sandsynlighedsudvælgelse<br />

• Udvælgelse på slump:<br />

– Både I og enhederne er med til at <strong>af</strong>gøre, om<br />

de indgår i stikprøven (Voxpop)<br />

• Kvoteudvælgelse:<br />

– Udvælgelse på slump med opfyldelse <strong>af</strong><br />

kvoter<br />

• Tilfældighedselementet bidrager til at<br />

mindske skævheder<br />

• Kræver dog en del omtanke, og man kan<br />

aldrig være sikker på, om der er<br />

skævheder


Dataindsamling<br />

• Skal tilrettelægges, så vi får en så<br />

repræsentativ stikprøve som muligt<br />

• Definer målgruppen for undersøgelsen<br />

• Hvordan får jeg indsamlet en<br />

repræsentativ stikprøve <strong>af</strong> besvarelser fra<br />

denne målgruppe?<br />

• Både validiteten og reliabiliteten


Inferens<br />

• Når man går fra stikprøven til populationen<br />

• Man undersøger, hvor sikker man kan være på,<br />

at estimatet (værdien i stikprøven) er lig med<br />

populationsparametren (Værdien i populationen,<br />

som man i virkeligheden er interesseret i)<br />

• Man giver et konkret tal for sandsynligheden<br />

herfor eller et interval, hvor indenfor parametren<br />

med en vis sandsynlighed befinder sig


Inferens<br />

• Ikke noget I forventes at arbejde med i opgaven<br />

• I skal ikke teste for signifikans eller opstille<br />

konfidensintervaller<br />

• Nyttigt begreb at forstå, når I generelt<br />

præsenteres for undersøgelser og resultater <strong>af</strong><br />

undersøgelser


Signifikans<br />

• En signifikanstest siger noget om sandsynligheden for at<br />

en sammenhæng man har fundet i sin stikprøve også<br />

findes i populationen.<br />

• Man taler om forskellige signifikansniveauer – typisk 5 %<br />

• Med et signifikansniveau på 5 % skal sandsynligheden<br />

for, at den sammenhæng, vi har fundet i stikprøven også<br />

findes i populationen, være større end 95 %<br />

• Ellers tør vi ikke tro på, at sammenhængen ikke bare er<br />

en tilfældighed i vores stikprøve


Signifikans<br />

• Signifikanstesten er en statistisk test, der<br />

baserer sig på sandsynlighedsregning<br />

• Hvis signifikanstesten viser, at en sammenhæng<br />

er signifikant på f.eks. et 5% signifikansniveau<br />

• Så vil det sige, at der kun er en 5 %<br />

sandsynlighed for at få det resultat, vi har fundet<br />

i stikprøven, hvis sammenhængen ikke også<br />

findes i populationen.


Signifikans<br />

• Signifikanstesten fortæller os altså, hvor sikre, vi<br />

kan være på resultaterne <strong>af</strong> vores undersøgelse<br />

• Det er meget sjældent, at de resultater fra<br />

undersøgelser, der bliver gengivet i medierne er<br />

blevet signifikanstestet.<br />

• Så reelt ved man ikke, hvor sikker man kan<br />

være på, om den sammenhæng man har fundet,<br />

har noget på sig


Konfidensinterval<br />

• Er et bånd rundt om det estimat, man har<br />

fundet i stikprøven.<br />

• Indenfor dette bånd befinder værdien for<br />

populationen – ”den sande værdi” sig med<br />

en vis sandsynlighed<br />

• Hvis man har et signifikansniveau på 5%<br />

vil værdien for populationen med 95 %<br />

sikkerhed befinde sig i kofidensintervallet


Konfidensinterval<br />

• Tænkt eksempel: Hvis man I en stikprøve<br />

f.eks. har fundet, at 50,2% <strong>af</strong><br />

respondenterne angiver at ville stemme<br />

på oppositionen, hvis der var valg i<br />

morgen, så ligger den sande stemmeandel<br />

på oppositionen med 95 % sikkerhed<br />

mellem 48,7% og 51,7%


Konfidensinterval<br />

• Hænger sammen med den statistiske<br />

usikkerhed<br />

• Så jo større en stikprøve, jo smallere bliver<br />

båndet – konfidensintervallet<br />

• Jo større krav man stiller til<br />

sandsynligheden for at indfange den<br />

sande værdi i intervallet – jo bredere bliver<br />

båndet


Jeres analyser<br />

• I skal ikke lave avancerede statistiske<br />

analyser<br />

• Det kan være fint at holde sig til<br />

deskriptive univariate analyser – <strong>af</strong>hænger<br />

<strong>af</strong> jeres problemstilling<br />

• Sørg i stedet for at opbygge et solidt<br />

argument.<br />

• Forhold jer til kvaliteten <strong>af</strong> jeres stikprøve,<br />

undersøgelsesdesignet osv.<br />

• Vær opmærksom på begrænsningerne


Opsamling<br />

• Inden <strong>data</strong>behandlingen og analysen – kast et kritisk blik<br />

på stikprøven. Er kvaliteten i orden?<br />

• Eksplorativ eller hypotesestyret analyse<br />

• I kan estimere parametre – andele og gennemsnit<br />

• Lede efter årsagssammenhænge<br />

• I skal ikke lave statistiske analyser – nøjes med<br />

frekvenstabeller og krydstabeller<br />

• Sørg i stedet for at opbygge solide argumenter – tjek for<br />

tredjevariabel osv.<br />

• Signifikanstest og konfidensintervaller er centrale<br />

begreber, når man infererer

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!