SPSS opgave 1.pdf
SPSS opgave 1.pdf
SPSS opgave 1.pdf
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Introduktion til <strong>SPSS</strong><br />
Øvelserne på dette statistikkursus skal gennemføres ved hjælp af det såkaldte <strong>SPSS</strong> program.<br />
Det er erfaringsmæssigt sådan, at man i forbindelse af øvelserne på statistikkurser bruger uforholds-<br />
mæssigt megen tid og mange mentale kræfter på at få statistikprogrammerne til at fungere i stedet<br />
for at bruge kræfterne på at forstå forudsætningerne og pointerne i de statistiske metoder. For at<br />
modvirke dette starter vi med to gange tre timers introduktion til <strong>SPSS</strong>, hvor I kan få mulighed for<br />
at lære programmet at kende, før vi skal i gang med den egentlige statistik. Øvelserne stiller i<br />
princippet ikke krav om kendskab til andet end de deskriptive statistiske metoder, som I kender fra<br />
undervisningen i folkeskolen og gymnasiet.<br />
Filen DEMO95 – september 2011.xls, der kan hentes på hjemmesiden, er en excelfil med<br />
oplysninger fra en undersøgelse af sundheden blandt voksne (mindst 18 år) i København i 1995. En<br />
fil indeholdende det spørgeskema, der blev brugt til undersøgelsen kan hentes på samme side. I<br />
forbindelse med disse øvelser skal vi<br />
1) indlæse excelfilen i <strong>SPSS</strong>,<br />
2) definere variablene så de bliver parate til den statistiske analyse<br />
3) omkode nogle variable og beregne nye<br />
4) indlæse en excelfil med nogle supplerende variable og flette denne fil sammen med den<br />
første fil<br />
5) foretage nogle simple deskriptive statistiske analyser<br />
Bemærk, at du bør gemme resultaterne af hver øvelse, således at du i efterfølgende øvelser<br />
kan gå tilbage og hente oplysninger. <strong>SPSS</strong> filen skal i øvrigt bruges i forbindelse med senere<br />
øvelser i analyse af data, så det er også af den grund vigtigt at du gemmer filen og har styr på,<br />
hvad den indeholder.<br />
1
Opgave 1. Indlæsning af excel fil<br />
Download Excel-filen og gem den med navnet DEMO95 – september 2011.xls på din egen<br />
computer. Excel-filen indeholder svarene på spørgsmål 1, 5, 33, 40, 41, 73 – 76. Formuleringen af<br />
disse spørgsmål kan I se på de næste sider.<br />
Luk Excel-filen op, så I kan se, hvad den indeholder. Der er tale om en almindelig data matrice med<br />
personer i rækkerne og variablene i søjlerne. Bemærk, at der i toppen af hver søjle er angivet et<br />
søjlenavn, der refererer til spørgsmålet i skemaet. V1-søjlen indeholder således svarene på<br />
spørgsmål 1. <strong>SPSS</strong> vil bruge disse søjletekster som variabelnavne, når I beder <strong>SPSS</strong> om at indlæse<br />
excelfilen.<br />
For at indlæse Excel-filen skal I klikke på File menuen i <strong>SPSS</strong>, vælge Open – Data… og finde den<br />
fil der skal indlæses. Husk at filtypen skal være Excel. (Alternativt kan I højreklikke på Excel-filen,<br />
vælge ”Åben med”… og vælge <strong>SPSS</strong>).<br />
Når filen er indlæst skal I<br />
- Gemme filen som en <strong>SPSS</strong> fil (filtypen er SAV) – kald den DEMO95.SAV<br />
- Bede <strong>SPSS</strong> om at kortlægge frekvensfordelingerne for samtlige variable (menupunkterne er<br />
Analyze → Descriptives→Frequencies)<br />
Brug lidt tid til at bladre tabelsamlingen i gennem, så I vænner jer til <strong>SPSS</strong>s måde at præsentere<br />
output på. Som I kan se i tabellerne, så mangler der en hel del oplysninger om variablene i <strong>SPSS</strong>-<br />
filen. Det vil der blive rådet bod på i forbindelse med næste <strong>opgave</strong>.<br />
2
5.<br />
3
Opgave 2 Definition af variable<br />
I forbindelse med indlæsningen af Excel-filen definerede <strong>SPSS</strong> nogle variable med navne, der<br />
svarede til variabelnavnene i den øverste række af Excel-filen, men udover det blev der ikke gemt<br />
noget, der kunne fortælle hvad de registrerede oplysninger dækkede. Formålet med denne <strong>opgave</strong> er<br />
derfor at færdiggøre variabeldefinitionerne, således at de oplysninger, som spørgeskemaet indeholder<br />
om spørgsmålene bliver overført til variabeldefinitionerne (jf. spørgeskemaet ovenfor).<br />
Variabeldefinitionen foregår i <strong>SPSS</strong>s ”variable view”<br />
Følgende skal defineres for samtlige variable:<br />
• Forklarende tekster til variable (variabel labels)<br />
• Kategori tekster (value labels)<br />
• Brugerdefinerede ”missing values” – de tilladelige værdier fremgår af spørgeskemaet. Alle<br />
andre værdier, som der måtte være i datasættet, skal defineres som missing values (jf. de<br />
frekvenstabeller du lavede i øvelse 1)<br />
I kan også ændre variabelnavne, hvis I synes det er hensigtsmæssigt. I stedet for at navnet på den<br />
variabel, der indeholder oplysninger om køn hedder V74 kan den med fordel hedde ”Køn”.<br />
Da der er tale om mange variable kan dette tage en hel del tid, hvis man ikke benytter sig af<br />
mulighederne for klippe og klistre i <strong>SPSS</strong>. V5a-V5i referer til spørgsmål, der alle har de samme<br />
svarkategorier. I stedet for at definere dem en ad gangen kan I nøjes med at definere dem for V5a<br />
og derefter først tage en kopi af dem kopiere dem (Ctrl C) som kan klistres til de øvrige variable.<br />
Samme procedure kan i øvrigt bruges til oplysninger om koder for uoplyste og alle de andre<br />
variabelinformationer.<br />
Efter at variablene er defineret kan I gå tilbage til data-viewet. I View-menuen kan I bede om at få<br />
kategoritekster i stedet for de observerede variabelværdier i datamatricen, hvis dette vurderes mere<br />
praktisk end at se kodeværdierne.<br />
Check variabeldefinitionerne ved at bruge Variables-muligheden under Utilities-menuen eller ved at<br />
bruge Display Data File Information-muligheden under File-menuen.<br />
5
Opgave 3a Deskriptiv statistik på hele eller dele af materialet.<br />
Formålet med <strong>opgave</strong>rne 3a og 3b er dels at afprøve <strong>SPSS</strong>s faciliteter til deskriptiv databehandling<br />
og dels at lære, hvordan man kan foretage analyser af dele af datamaterialet, uden at man behøver at<br />
lave nye datamaterialer, der kun indeholder de personer, som man vil arbejde med.<br />
Der skal foretages tre deskriptive analyser.<br />
Der skal først udarbejdes univariate beskrivelser af fordelingerne af samtlige variable i datamate-<br />
rialet ved hjælp af frekvenstabeller, søjlediagrammer og/eller histogrammer. I behøver ikke at lave<br />
alle ting for alle variable, men tænk lidt over hvordan I selv synes det vil være bedst at få forde-<br />
lingen af de forskellige variable beskrevet.<br />
Derefter skal der laves to-vejs tabeller, der viser hvorledes det selvrapporterede helbred hænger<br />
sammen med svarene på spørgsmål 5, 33, 40 og 74.<br />
Til sidst skal I plotte personernes vægt mod personernes højde i et såkaldt scatterplot.<br />
Man skelner mellem to typer af deskriptive metoder, grafiske og numeriske.<br />
De grafiske metoder findes under menuen GRAPHS. Vælg ”Legacy dialogs” (de andre muligheder<br />
er alt for langsommelige at arbejde med), hvor I kan finde muligheder for at lave Histograms (til<br />
kontinuerte fordelinger), Bar Charts (til fordelinger af kategoriske variable) og Scatter plots (til at<br />
vise sammenhængen mellem variable).<br />
Numeriske metoder findes under menuen ANALYZE. Vælg Descriptive Statistics, hvor det i denne<br />
øvelse især er Frequencies og Crosstabs, som I skal bruge. I forbindelse med brugen af Crosstabs<br />
skal I tænke over hvad der skal vises i cellerne (række procenter eller søjleprocenter?). Tryk på<br />
Cells for at fastlægge indholdet af cellerne.<br />
6
Opgave 3b Deskriptiv statistik på dele af materialet.<br />
I den første del af denne <strong>opgave</strong> skal i gennemføre de samme deskriptive analyser, som I lavede i<br />
<strong>opgave</strong> 3a, men analyserne skal kun foretages for de personer, der ryger. For at gøre dette skal I<br />
vælge DATA → Select Cases og derefter give <strong>SPSS</strong> oplysning om, at I kun vil arbejde med de<br />
personer, hvor V33 = 1 (rygerne).<br />
Husk at slå valget fra, når I er færdige med denne del af øvelsen.<br />
I den anden del af denne øvelse skal I gennemføre de samme deskriptive analyser for mænd og<br />
kvinder hver for sig (udvælg 2-3 analyser, som du vil gentage). For at overtale <strong>SPSS</strong> til det, skal I<br />
vælge DATA → Split file og derefter bede om at få output organiseret (eller sammenlignet) ved<br />
grupper givet ved V74.<br />
Opgave 4 Repetition af indlæsning og klargøring af excel materiale, og<br />
sammenfletning af to datamaterialer<br />
Spørgsmål 2 og 3 i spørgeskemaet var ikke inkluderet i den excel fil, som I startede med. Svarene på disse to<br />
spørgsmål findes i filen V2v3.xls. Denne fil skal nu indlæses og klargøres som <strong>SPSS</strong> materiale, og derefter<br />
flettes sammen med det store materiale i DEMO95.<br />
De manglende spørgsmål var<br />
7
Arbejdsgangen er følgende:<br />
1) Indlæs Excell-filen (V2v3.xls) i <strong>SPSS</strong>, gem den som en <strong>SPSS</strong>-datafil, og gør<br />
variablene klar til brug.<br />
2) Sortér begge datafiler på løbenummer i stigende orden og gem dem.<br />
3) Læg de to filer (DATA | MERGE FILES | ADD VARIABLES) med<br />
løbenummeret som ”key”-variabel og dem filen med et nyt navn<br />
4) Flyt v2 og v3til de rette pladser i datamaterialet.<br />
Opgave 5. Beregning af nye variable.<br />
Næste skridt er at danne nye variable, der skal bruges til de statistiske analyser. Der er to måder,<br />
man kan gøre dette på. Man kan enten beregne dem som funktioner af en eller flere variable eller<br />
man kan omkode eksisterende variable. I denne øvelse skal I udelukkende beregne ved hjælp af<br />
<strong>SPSS</strong>s Compute-procedure. Omkodningen kommer i næste øvelse.<br />
Før I går i gang med beregningen af de nye variable er det en god ide, hvis I først gemme materialet<br />
under det oprindelige navn og derefter gemmer materialet under et nyt navn. De beregninger, som I<br />
foretager vil kun blive foretaget i materialet med det nye navn, således at I har muligheder for at<br />
vende tilbage til det oprindelige materiale, hvis I opdager, at I har lavet fejl i forbindelse med<br />
beregningerne (det sker for os alle på et eller andet tidspunkt).<br />
De variable, der skal beregnes, er fremhævet med fed skrift i det efterfølgende. Kommentarerne til<br />
beregningerne er skrevet med almindelig skrift.<br />
Brug Compute-proceduren under Transform-menuen til at beregne 2 nye variable:<br />
a) Alder = 1995 – fødselsår<br />
b) BMI = vægt i kg /højde 2<br />
I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller<br />
eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende:<br />
- Check konstruktionen begge variable ved at lave en Case Summary tabel (Analyze-menuen,<br />
Reports og Case Summary) og konstatér for et par personer at beregningerne er foretaget<br />
korrekt!<br />
8
Opgave 6. Omkodninger<br />
Brug <strong>SPSS</strong>s Recode into different-procedure at danne følgende nye variable:<br />
a) En binær selvrapporteret helbreds-variabel<br />
b) En aldersvariabel, hvor alderen er angivet i 10-års alderskategorier<br />
c) En BMI-variabel, der angiver, om BMI er større eller mindre end 30<br />
Den omkodede helbreds-variabel skal have værdien 0 for ”meget dårligt” til ”nogenlunde” og 1 for<br />
”godt” til ”meget godt” .<br />
Omkod BMI-variablen, så ”BMI under 30” får værdien 0 (ikke obese) og ”BMI over 30” får<br />
værdien 1 (obese)<br />
I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller<br />
eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende:<br />
- Check om den binære helbreds-variabel (a) er omkodet korrekte ved hjælp af en krydstabel.<br />
- Check om aldersvariablen (b) er omkodet korrekt ved at sammenligne frekvenserne for den<br />
nye og den oprindelige variabel<br />
- Lav en Case Summary tabel for at checke at BMI-variablen (c) er omkodet korrekt.<br />
9
Opgave 7. Beregning af nye variable med brug af logiske betingelser<br />
Den næste variabel skal kun beregnes for rygerne. Øvelsen er kompliceret. Hvis tiden er knap er I<br />
derfor velkomne til at springe den over.<br />
- En variabel som samler spørgsmålene 40 og 41 til én variabel, der angiver, hvor mange<br />
gange personen har forsøgt at holde op med at ryge.<br />
Start med at undersøge fordelingen af spørgsmålene 40 og 41 for rygerne (V33 = 1 eller 2). Den nye<br />
variabel skal kun beregnes for disse personer.<br />
Vi vil kalde den nye variabel Nforsøg<br />
Start med at sætte Nforsøg = 0 for personer med V33 = 1 eller 2 og V40 = 2 (nej)<br />
For en ordens skyld bør du lave en frekvenstabel for Nforsøg. Den skal have værdien 0 for de<br />
rygere, der aldrig har forsøgt og være uoplyst for alle andre.<br />
Sæt derefter Nforsøg = V41 personer med V33 = 1 eller 2 og V40 = 1 (ja)<br />
I anden omgang vil <strong>SPSS</strong> vil advare dig om at du er i færd med at ændre en eksisterende variabel.<br />
Det er ofte en dårlig ide, men i dette tilfælde er det i orden.<br />
Derefter skal du igen udarbejde en frekvenstabel for Nforsøg. Den skal være uoplyst for alle ikke<br />
rygere.<br />
10