15.09.2013 Views

SPSS opgave 1.pdf

SPSS opgave 1.pdf

SPSS opgave 1.pdf

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Introduktion til <strong>SPSS</strong><br />

Øvelserne på dette statistikkursus skal gennemføres ved hjælp af det såkaldte <strong>SPSS</strong> program.<br />

Det er erfaringsmæssigt sådan, at man i forbindelse af øvelserne på statistikkurser bruger uforholds-<br />

mæssigt megen tid og mange mentale kræfter på at få statistikprogrammerne til at fungere i stedet<br />

for at bruge kræfterne på at forstå forudsætningerne og pointerne i de statistiske metoder. For at<br />

modvirke dette starter vi med to gange tre timers introduktion til <strong>SPSS</strong>, hvor I kan få mulighed for<br />

at lære programmet at kende, før vi skal i gang med den egentlige statistik. Øvelserne stiller i<br />

princippet ikke krav om kendskab til andet end de deskriptive statistiske metoder, som I kender fra<br />

undervisningen i folkeskolen og gymnasiet.<br />

Filen DEMO95 – september 2011.xls, der kan hentes på hjemmesiden, er en excelfil med<br />

oplysninger fra en undersøgelse af sundheden blandt voksne (mindst 18 år) i København i 1995. En<br />

fil indeholdende det spørgeskema, der blev brugt til undersøgelsen kan hentes på samme side. I<br />

forbindelse med disse øvelser skal vi<br />

1) indlæse excelfilen i <strong>SPSS</strong>,<br />

2) definere variablene så de bliver parate til den statistiske analyse<br />

3) omkode nogle variable og beregne nye<br />

4) indlæse en excelfil med nogle supplerende variable og flette denne fil sammen med den<br />

første fil<br />

5) foretage nogle simple deskriptive statistiske analyser<br />

Bemærk, at du bør gemme resultaterne af hver øvelse, således at du i efterfølgende øvelser<br />

kan gå tilbage og hente oplysninger. <strong>SPSS</strong> filen skal i øvrigt bruges i forbindelse med senere<br />

øvelser i analyse af data, så det er også af den grund vigtigt at du gemmer filen og har styr på,<br />

hvad den indeholder.<br />

1


Opgave 1. Indlæsning af excel fil<br />

Download Excel-filen og gem den med navnet DEMO95 – september 2011.xls på din egen<br />

computer. Excel-filen indeholder svarene på spørgsmål 1, 5, 33, 40, 41, 73 – 76. Formuleringen af<br />

disse spørgsmål kan I se på de næste sider.<br />

Luk Excel-filen op, så I kan se, hvad den indeholder. Der er tale om en almindelig data matrice med<br />

personer i rækkerne og variablene i søjlerne. Bemærk, at der i toppen af hver søjle er angivet et<br />

søjlenavn, der refererer til spørgsmålet i skemaet. V1-søjlen indeholder således svarene på<br />

spørgsmål 1. <strong>SPSS</strong> vil bruge disse søjletekster som variabelnavne, når I beder <strong>SPSS</strong> om at indlæse<br />

excelfilen.<br />

For at indlæse Excel-filen skal I klikke på File menuen i <strong>SPSS</strong>, vælge Open – Data… og finde den<br />

fil der skal indlæses. Husk at filtypen skal være Excel. (Alternativt kan I højreklikke på Excel-filen,<br />

vælge ”Åben med”… og vælge <strong>SPSS</strong>).<br />

Når filen er indlæst skal I<br />

- Gemme filen som en <strong>SPSS</strong> fil (filtypen er SAV) – kald den DEMO95.SAV<br />

- Bede <strong>SPSS</strong> om at kortlægge frekvensfordelingerne for samtlige variable (menupunkterne er<br />

Analyze → Descriptives→Frequencies)<br />

Brug lidt tid til at bladre tabelsamlingen i gennem, så I vænner jer til <strong>SPSS</strong>s måde at præsentere<br />

output på. Som I kan se i tabellerne, så mangler der en hel del oplysninger om variablene i <strong>SPSS</strong>-<br />

filen. Det vil der blive rådet bod på i forbindelse med næste <strong>opgave</strong>.<br />

2


5.<br />

3


Opgave 2 Definition af variable<br />

I forbindelse med indlæsningen af Excel-filen definerede <strong>SPSS</strong> nogle variable med navne, der<br />

svarede til variabelnavnene i den øverste række af Excel-filen, men udover det blev der ikke gemt<br />

noget, der kunne fortælle hvad de registrerede oplysninger dækkede. Formålet med denne <strong>opgave</strong> er<br />

derfor at færdiggøre variabeldefinitionerne, således at de oplysninger, som spørgeskemaet indeholder<br />

om spørgsmålene bliver overført til variabeldefinitionerne (jf. spørgeskemaet ovenfor).<br />

Variabeldefinitionen foregår i <strong>SPSS</strong>s ”variable view”<br />

Følgende skal defineres for samtlige variable:<br />

• Forklarende tekster til variable (variabel labels)<br />

• Kategori tekster (value labels)<br />

• Brugerdefinerede ”missing values” – de tilladelige værdier fremgår af spørgeskemaet. Alle<br />

andre værdier, som der måtte være i datasættet, skal defineres som missing values (jf. de<br />

frekvenstabeller du lavede i øvelse 1)<br />

I kan også ændre variabelnavne, hvis I synes det er hensigtsmæssigt. I stedet for at navnet på den<br />

variabel, der indeholder oplysninger om køn hedder V74 kan den med fordel hedde ”Køn”.<br />

Da der er tale om mange variable kan dette tage en hel del tid, hvis man ikke benytter sig af<br />

mulighederne for klippe og klistre i <strong>SPSS</strong>. V5a-V5i referer til spørgsmål, der alle har de samme<br />

svarkategorier. I stedet for at definere dem en ad gangen kan I nøjes med at definere dem for V5a<br />

og derefter først tage en kopi af dem kopiere dem (Ctrl C) som kan klistres til de øvrige variable.<br />

Samme procedure kan i øvrigt bruges til oplysninger om koder for uoplyste og alle de andre<br />

variabelinformationer.<br />

Efter at variablene er defineret kan I gå tilbage til data-viewet. I View-menuen kan I bede om at få<br />

kategoritekster i stedet for de observerede variabelværdier i datamatricen, hvis dette vurderes mere<br />

praktisk end at se kodeværdierne.<br />

Check variabeldefinitionerne ved at bruge Variables-muligheden under Utilities-menuen eller ved at<br />

bruge Display Data File Information-muligheden under File-menuen.<br />

5


Opgave 3a Deskriptiv statistik på hele eller dele af materialet.<br />

Formålet med <strong>opgave</strong>rne 3a og 3b er dels at afprøve <strong>SPSS</strong>s faciliteter til deskriptiv databehandling<br />

og dels at lære, hvordan man kan foretage analyser af dele af datamaterialet, uden at man behøver at<br />

lave nye datamaterialer, der kun indeholder de personer, som man vil arbejde med.<br />

Der skal foretages tre deskriptive analyser.<br />

Der skal først udarbejdes univariate beskrivelser af fordelingerne af samtlige variable i datamate-<br />

rialet ved hjælp af frekvenstabeller, søjlediagrammer og/eller histogrammer. I behøver ikke at lave<br />

alle ting for alle variable, men tænk lidt over hvordan I selv synes det vil være bedst at få forde-<br />

lingen af de forskellige variable beskrevet.<br />

Derefter skal der laves to-vejs tabeller, der viser hvorledes det selvrapporterede helbred hænger<br />

sammen med svarene på spørgsmål 5, 33, 40 og 74.<br />

Til sidst skal I plotte personernes vægt mod personernes højde i et såkaldt scatterplot.<br />

Man skelner mellem to typer af deskriptive metoder, grafiske og numeriske.<br />

De grafiske metoder findes under menuen GRAPHS. Vælg ”Legacy dialogs” (de andre muligheder<br />

er alt for langsommelige at arbejde med), hvor I kan finde muligheder for at lave Histograms (til<br />

kontinuerte fordelinger), Bar Charts (til fordelinger af kategoriske variable) og Scatter plots (til at<br />

vise sammenhængen mellem variable).<br />

Numeriske metoder findes under menuen ANALYZE. Vælg Descriptive Statistics, hvor det i denne<br />

øvelse især er Frequencies og Crosstabs, som I skal bruge. I forbindelse med brugen af Crosstabs<br />

skal I tænke over hvad der skal vises i cellerne (række procenter eller søjleprocenter?). Tryk på<br />

Cells for at fastlægge indholdet af cellerne.<br />

6


Opgave 3b Deskriptiv statistik på dele af materialet.<br />

I den første del af denne <strong>opgave</strong> skal i gennemføre de samme deskriptive analyser, som I lavede i<br />

<strong>opgave</strong> 3a, men analyserne skal kun foretages for de personer, der ryger. For at gøre dette skal I<br />

vælge DATA → Select Cases og derefter give <strong>SPSS</strong> oplysning om, at I kun vil arbejde med de<br />

personer, hvor V33 = 1 (rygerne).<br />

Husk at slå valget fra, når I er færdige med denne del af øvelsen.<br />

I den anden del af denne øvelse skal I gennemføre de samme deskriptive analyser for mænd og<br />

kvinder hver for sig (udvælg 2-3 analyser, som du vil gentage). For at overtale <strong>SPSS</strong> til det, skal I<br />

vælge DATA → Split file og derefter bede om at få output organiseret (eller sammenlignet) ved<br />

grupper givet ved V74.<br />

Opgave 4 Repetition af indlæsning og klargøring af excel materiale, og<br />

sammenfletning af to datamaterialer<br />

Spørgsmål 2 og 3 i spørgeskemaet var ikke inkluderet i den excel fil, som I startede med. Svarene på disse to<br />

spørgsmål findes i filen V2v3.xls. Denne fil skal nu indlæses og klargøres som <strong>SPSS</strong> materiale, og derefter<br />

flettes sammen med det store materiale i DEMO95.<br />

De manglende spørgsmål var<br />

7


Arbejdsgangen er følgende:<br />

1) Indlæs Excell-filen (V2v3.xls) i <strong>SPSS</strong>, gem den som en <strong>SPSS</strong>-datafil, og gør<br />

variablene klar til brug.<br />

2) Sortér begge datafiler på løbenummer i stigende orden og gem dem.<br />

3) Læg de to filer (DATA | MERGE FILES | ADD VARIABLES) med<br />

løbenummeret som ”key”-variabel og dem filen med et nyt navn<br />

4) Flyt v2 og v3til de rette pladser i datamaterialet.<br />

Opgave 5. Beregning af nye variable.<br />

Næste skridt er at danne nye variable, der skal bruges til de statistiske analyser. Der er to måder,<br />

man kan gøre dette på. Man kan enten beregne dem som funktioner af en eller flere variable eller<br />

man kan omkode eksisterende variable. I denne øvelse skal I udelukkende beregne ved hjælp af<br />

<strong>SPSS</strong>s Compute-procedure. Omkodningen kommer i næste øvelse.<br />

Før I går i gang med beregningen af de nye variable er det en god ide, hvis I først gemme materialet<br />

under det oprindelige navn og derefter gemmer materialet under et nyt navn. De beregninger, som I<br />

foretager vil kun blive foretaget i materialet med det nye navn, således at I har muligheder for at<br />

vende tilbage til det oprindelige materiale, hvis I opdager, at I har lavet fejl i forbindelse med<br />

beregningerne (det sker for os alle på et eller andet tidspunkt).<br />

De variable, der skal beregnes, er fremhævet med fed skrift i det efterfølgende. Kommentarerne til<br />

beregningerne er skrevet med almindelig skrift.<br />

Brug Compute-proceduren under Transform-menuen til at beregne 2 nye variable:<br />

a) Alder = 1995 – fødselsår<br />

b) BMI = vægt i kg /højde 2<br />

I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller<br />

eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende:<br />

- Check konstruktionen begge variable ved at lave en Case Summary tabel (Analyze-menuen,<br />

Reports og Case Summary) og konstatér for et par personer at beregningerne er foretaget<br />

korrekt!<br />

8


Opgave 6. Omkodninger<br />

Brug <strong>SPSS</strong>s Recode into different-procedure at danne følgende nye variable:<br />

a) En binær selvrapporteret helbreds-variabel<br />

b) En aldersvariabel, hvor alderen er angivet i 10-års alderskategorier<br />

c) En BMI-variabel, der angiver, om BMI er større eller mindre end 30<br />

Den omkodede helbreds-variabel skal have værdien 0 for ”meget dårligt” til ”nogenlunde” og 1 for<br />

”godt” til ”meget godt” .<br />

Omkod BMI-variablen, så ”BMI under 30” får værdien 0 (ikke obese) og ”BMI over 30” får<br />

værdien 1 (obese)<br />

I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller<br />

eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende:<br />

- Check om den binære helbreds-variabel (a) er omkodet korrekte ved hjælp af en krydstabel.<br />

- Check om aldersvariablen (b) er omkodet korrekt ved at sammenligne frekvenserne for den<br />

nye og den oprindelige variabel<br />

- Lav en Case Summary tabel for at checke at BMI-variablen (c) er omkodet korrekt.<br />

9


Opgave 7. Beregning af nye variable med brug af logiske betingelser<br />

Den næste variabel skal kun beregnes for rygerne. Øvelsen er kompliceret. Hvis tiden er knap er I<br />

derfor velkomne til at springe den over.<br />

- En variabel som samler spørgsmålene 40 og 41 til én variabel, der angiver, hvor mange<br />

gange personen har forsøgt at holde op med at ryge.<br />

Start med at undersøge fordelingen af spørgsmålene 40 og 41 for rygerne (V33 = 1 eller 2). Den nye<br />

variabel skal kun beregnes for disse personer.<br />

Vi vil kalde den nye variabel Nforsøg<br />

Start med at sætte Nforsøg = 0 for personer med V33 = 1 eller 2 og V40 = 2 (nej)<br />

For en ordens skyld bør du lave en frekvenstabel for Nforsøg. Den skal have værdien 0 for de<br />

rygere, der aldrig har forsøgt og være uoplyst for alle andre.<br />

Sæt derefter Nforsøg = V41 personer med V33 = 1 eller 2 og V40 = 1 (ja)<br />

I anden omgang vil <strong>SPSS</strong> vil advare dig om at du er i færd med at ændre en eksisterende variabel.<br />

Det er ofte en dårlig ide, men i dette tilfælde er det i orden.<br />

Derefter skal du igen udarbejde en frekvenstabel for Nforsøg. Den skal være uoplyst for alle ikke<br />

rygere.<br />

10

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!