15.09.2013 Views

SPSS opgave 1.pdf

SPSS opgave 1.pdf

SPSS opgave 1.pdf

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Introduktion til <strong>SPSS</strong><br />

Øvelserne på dette statistikkursus skal gennemføres ved hjælp af det såkaldte <strong>SPSS</strong> program.<br />

Det er erfaringsmæssigt sådan, at man i forbindelse af øvelserne på statistikkurser bruger uforholds-<br />

mæssigt megen tid og mange mentale kræfter på at få statistikprogrammerne til at fungere i stedet<br />

for at bruge kræfterne på at forstå forudsætningerne og pointerne i de statistiske metoder. For at<br />

modvirke dette starter vi med to gange tre timers introduktion til <strong>SPSS</strong>, hvor I kan få mulighed for<br />

at lære programmet at kende, før vi skal i gang med den egentlige statistik. Øvelserne stiller i<br />

princippet ikke krav om kendskab til andet end de deskriptive statistiske metoder, som I kender fra<br />

undervisningen i folkeskolen og gymnasiet.<br />

Filen DEMO95 – september 2011.xls, der kan hentes på hjemmesiden, er en excelfil med<br />

oplysninger fra en undersøgelse af sundheden blandt voksne (mindst 18 år) i København i 1995. En<br />

fil indeholdende det spørgeskema, der blev brugt til undersøgelsen kan hentes på samme side. I<br />

forbindelse med disse øvelser skal vi<br />

1) indlæse excelfilen i <strong>SPSS</strong>,<br />

2) definere variablene så de bliver parate til den statistiske analyse<br />

3) omkode nogle variable og beregne nye<br />

4) indlæse en excelfil med nogle supplerende variable og flette denne fil sammen med den<br />

første fil<br />

5) foretage nogle simple deskriptive statistiske analyser<br />

Bemærk, at du bør gemme resultaterne af hver øvelse, således at du i efterfølgende øvelser<br />

kan gå tilbage og hente oplysninger. <strong>SPSS</strong> filen skal i øvrigt bruges i forbindelse med senere<br />

øvelser i analyse af data, så det er også af den grund vigtigt at du gemmer filen og har styr på,<br />

hvad den indeholder.<br />

1


Opgave 1. Indlæsning af excel fil<br />

Download Excel-filen og gem den med navnet DEMO95 – september 2011.xls på din egen<br />

computer. Excel-filen indeholder svarene på spørgsmål 1, 5, 33, 40, 41, 73 – 76. Formuleringen af<br />

disse spørgsmål kan I se på de næste sider.<br />

Luk Excel-filen op, så I kan se, hvad den indeholder. Der er tale om en almindelig data matrice med<br />

personer i rækkerne og variablene i søjlerne. Bemærk, at der i toppen af hver søjle er angivet et<br />

søjlenavn, der refererer til spørgsmålet i skemaet. V1-søjlen indeholder således svarene på<br />

spørgsmål 1. <strong>SPSS</strong> vil bruge disse søjletekster som variabelnavne, når I beder <strong>SPSS</strong> om at indlæse<br />

excelfilen.<br />

For at indlæse Excel-filen skal I klikke på File menuen i <strong>SPSS</strong>, vælge Open – Data… og finde den<br />

fil der skal indlæses. Husk at filtypen skal være Excel. (Alternativt kan I højreklikke på Excel-filen,<br />

vælge ”Åben med”… og vælge <strong>SPSS</strong>).<br />

Når filen er indlæst skal I<br />

- Gemme filen som en <strong>SPSS</strong> fil (filtypen er SAV) – kald den DEMO95.SAV<br />

- Bede <strong>SPSS</strong> om at kortlægge frekvensfordelingerne for samtlige variable (menupunkterne er<br />

Analyze → Descriptives→Frequencies)<br />

Brug lidt tid til at bladre tabelsamlingen i gennem, så I vænner jer til <strong>SPSS</strong>s måde at præsentere<br />

output på. Som I kan se i tabellerne, så mangler der en hel del oplysninger om variablene i <strong>SPSS</strong>-<br />

filen. Det vil der blive rådet bod på i forbindelse med næste <strong>opgave</strong>.<br />

2


5.<br />

3


Opgave 2 Definition af variable<br />

I forbindelse med indlæsningen af Excel-filen definerede <strong>SPSS</strong> nogle variable med navne, der<br />

svarede til variabelnavnene i den øverste række af Excel-filen, men udover det blev der ikke gemt<br />

noget, der kunne fortælle hvad de registrerede oplysninger dækkede. Formålet med denne <strong>opgave</strong> er<br />

derfor at færdiggøre variabeldefinitionerne, således at de oplysninger, som spørgeskemaet indeholder<br />

om spørgsmålene bliver overført til variabeldefinitionerne (jf. spørgeskemaet ovenfor).<br />

Variabeldefinitionen foregår i <strong>SPSS</strong>s ”variable view”<br />

Følgende skal defineres for samtlige variable:<br />

• Forklarende tekster til variable (variabel labels)<br />

• Kategori tekster (value labels)<br />

• Brugerdefinerede ”missing values” – de tilladelige værdier fremgår af spørgeskemaet. Alle<br />

andre værdier, som der måtte være i datasættet, skal defineres som missing values (jf. de<br />

frekvenstabeller du lavede i øvelse 1)<br />

I kan også ændre variabelnavne, hvis I synes det er hensigtsmæssigt. I stedet for at navnet på den<br />

variabel, der indeholder oplysninger om køn hedder V74 kan den med fordel hedde ”Køn”.<br />

Da der er tale om mange variable kan dette tage en hel del tid, hvis man ikke benytter sig af<br />

mulighederne for klippe og klistre i <strong>SPSS</strong>. V5a-V5i referer til spørgsmål, der alle har de samme<br />

svarkategorier. I stedet for at definere dem en ad gangen kan I nøjes med at definere dem for V5a<br />

og derefter først tage en kopi af dem kopiere dem (Ctrl C) som kan klistres til de øvrige variable.<br />

Samme procedure kan i øvrigt bruges til oplysninger om koder for uoplyste og alle de andre<br />

variabelinformationer.<br />

Efter at variablene er defineret kan I gå tilbage til data-viewet. I View-menuen kan I bede om at få<br />

kategoritekster i stedet for de observerede variabelværdier i datamatricen, hvis dette vurderes mere<br />

praktisk end at se kodeværdierne.<br />

Check variabeldefinitionerne ved at bruge Variables-muligheden under Utilities-menuen eller ved at<br />

bruge Display Data File Information-muligheden under File-menuen.<br />

5


Opgave 3a Deskriptiv statistik på hele eller dele af materialet.<br />

Formålet med <strong>opgave</strong>rne 3a og 3b er dels at afprøve <strong>SPSS</strong>s faciliteter til deskriptiv databehandling<br />

og dels at lære, hvordan man kan foretage analyser af dele af datamaterialet, uden at man behøver at<br />

lave nye datamaterialer, der kun indeholder de personer, som man vil arbejde med.<br />

Der skal foretages tre deskriptive analyser.<br />

Der skal først udarbejdes univariate beskrivelser af fordelingerne af samtlige variable i datamate-<br />

rialet ved hjælp af frekvenstabeller, søjlediagrammer og/eller histogrammer. I behøver ikke at lave<br />

alle ting for alle variable, men tænk lidt over hvordan I selv synes det vil være bedst at få forde-<br />

lingen af de forskellige variable beskrevet.<br />

Derefter skal der laves to-vejs tabeller, der viser hvorledes det selvrapporterede helbred hænger<br />

sammen med svarene på spørgsmål 5, 33, 40 og 74.<br />

Til sidst skal I plotte personernes vægt mod personernes højde i et såkaldt scatterplot.<br />

Man skelner mellem to typer af deskriptive metoder, grafiske og numeriske.<br />

De grafiske metoder findes under menuen GRAPHS. Vælg ”Legacy dialogs” (de andre muligheder<br />

er alt for langsommelige at arbejde med), hvor I kan finde muligheder for at lave Histograms (til<br />

kontinuerte fordelinger), Bar Charts (til fordelinger af kategoriske variable) og Scatter plots (til at<br />

vise sammenhængen mellem variable).<br />

Numeriske metoder findes under menuen ANALYZE. Vælg Descriptive Statistics, hvor det i denne<br />

øvelse især er Frequencies og Crosstabs, som I skal bruge. I forbindelse med brugen af Crosstabs<br />

skal I tænke over hvad der skal vises i cellerne (række procenter eller søjleprocenter?). Tryk på<br />

Cells for at fastlægge indholdet af cellerne.<br />

6


Opgave 3b Deskriptiv statistik på dele af materialet.<br />

I den første del af denne <strong>opgave</strong> skal i gennemføre de samme deskriptive analyser, som I lavede i<br />

<strong>opgave</strong> 3a, men analyserne skal kun foretages for de personer, der ryger. For at gøre dette skal I<br />

vælge DATA → Select Cases og derefter give <strong>SPSS</strong> oplysning om, at I kun vil arbejde med de<br />

personer, hvor V33 = 1 (rygerne).<br />

Husk at slå valget fra, når I er færdige med denne del af øvelsen.<br />

I den anden del af denne øvelse skal I gennemføre de samme deskriptive analyser for mænd og<br />

kvinder hver for sig (udvælg 2-3 analyser, som du vil gentage). For at overtale <strong>SPSS</strong> til det, skal I<br />

vælge DATA → Split file og derefter bede om at få output organiseret (eller sammenlignet) ved<br />

grupper givet ved V74.<br />

Opgave 4 Repetition af indlæsning og klargøring af excel materiale, og<br />

sammenfletning af to datamaterialer<br />

Spørgsmål 2 og 3 i spørgeskemaet var ikke inkluderet i den excel fil, som I startede med. Svarene på disse to<br />

spørgsmål findes i filen V2v3.xls. Denne fil skal nu indlæses og klargøres som <strong>SPSS</strong> materiale, og derefter<br />

flettes sammen med det store materiale i DEMO95.<br />

De manglende spørgsmål var<br />

7


Arbejdsgangen er følgende:<br />

1) Indlæs Excell-filen (V2v3.xls) i <strong>SPSS</strong>, gem den som en <strong>SPSS</strong>-datafil, og gør<br />

variablene klar til brug.<br />

2) Sortér begge datafiler på løbenummer i stigende orden og gem dem.<br />

3) Læg de to filer (DATA | MERGE FILES | ADD VARIABLES) med<br />

løbenummeret som ”key”-variabel og dem filen med et nyt navn<br />

4) Flyt v2 og v3til de rette pladser i datamaterialet.<br />

Opgave 5. Beregning af nye variable.<br />

Næste skridt er at danne nye variable, der skal bruges til de statistiske analyser. Der er to måder,<br />

man kan gøre dette på. Man kan enten beregne dem som funktioner af en eller flere variable eller<br />

man kan omkode eksisterende variable. I denne øvelse skal I udelukkende beregne ved hjælp af<br />

<strong>SPSS</strong>s Compute-procedure. Omkodningen kommer i næste øvelse.<br />

Før I går i gang med beregningen af de nye variable er det en god ide, hvis I først gemme materialet<br />

under det oprindelige navn og derefter gemmer materialet under et nyt navn. De beregninger, som I<br />

foretager vil kun blive foretaget i materialet med det nye navn, således at I har muligheder for at<br />

vende tilbage til det oprindelige materiale, hvis I opdager, at I har lavet fejl i forbindelse med<br />

beregningerne (det sker for os alle på et eller andet tidspunkt).<br />

De variable, der skal beregnes, er fremhævet med fed skrift i det efterfølgende. Kommentarerne til<br />

beregningerne er skrevet med almindelig skrift.<br />

Brug Compute-proceduren under Transform-menuen til at beregne 2 nye variable:<br />

a) Alder = 1995 – fødselsår<br />

b) BMI = vægt i kg /højde 2<br />

I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller<br />

eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende:<br />

- Check konstruktionen begge variable ved at lave en Case Summary tabel (Analyze-menuen,<br />

Reports og Case Summary) og konstatér for et par personer at beregningerne er foretaget<br />

korrekt!<br />

8


Opgave 6. Omkodninger<br />

Brug <strong>SPSS</strong>s Recode into different-procedure at danne følgende nye variable:<br />

a) En binær selvrapporteret helbreds-variabel<br />

b) En aldersvariabel, hvor alderen er angivet i 10-års alderskategorier<br />

c) En BMI-variabel, der angiver, om BMI er større eller mindre end 30<br />

Den omkodede helbreds-variabel skal have værdien 0 for ”meget dårligt” til ”nogenlunde” og 1 for<br />

”godt” til ”meget godt” .<br />

Omkod BMI-variablen, så ”BMI under 30” får værdien 0 (ikke obese) og ”BMI over 30” får<br />

værdien 1 (obese)<br />

I forlængelse af beregningen af nye variable skal man altid se på frekvenstabeller, krydstabeller<br />

eller Case summary tabeller, der kan fortælle, om beregningerne er forløbet tilfredsstillende:<br />

- Check om den binære helbreds-variabel (a) er omkodet korrekte ved hjælp af en krydstabel.<br />

- Check om aldersvariablen (b) er omkodet korrekt ved at sammenligne frekvenserne for den<br />

nye og den oprindelige variabel<br />

- Lav en Case Summary tabel for at checke at BMI-variablen (c) er omkodet korrekt.<br />

9


Opgave 7. Beregning af nye variable med brug af logiske betingelser<br />

Den næste variabel skal kun beregnes for rygerne. Øvelsen er kompliceret. Hvis tiden er knap er I<br />

derfor velkomne til at springe den over.<br />

- En variabel som samler spørgsmålene 40 og 41 til én variabel, der angiver, hvor mange<br />

gange personen har forsøgt at holde op med at ryge.<br />

Start med at undersøge fordelingen af spørgsmålene 40 og 41 for rygerne (V33 = 1 eller 2). Den nye<br />

variabel skal kun beregnes for disse personer.<br />

Vi vil kalde den nye variabel Nforsøg<br />

Start med at sætte Nforsøg = 0 for personer med V33 = 1 eller 2 og V40 = 2 (nej)<br />

For en ordens skyld bør du lave en frekvenstabel for Nforsøg. Den skal have værdien 0 for de<br />

rygere, der aldrig har forsøgt og være uoplyst for alle andre.<br />

Sæt derefter Nforsøg = V41 personer med V33 = 1 eller 2 og V40 = 1 (ja)<br />

I anden omgang vil <strong>SPSS</strong> vil advare dig om at du er i færd med at ændre en eksisterende variabel.<br />

Det er ofte en dårlig ide, men i dette tilfælde er det i orden.<br />

Derefter skal du igen udarbejde en frekvenstabel for Nforsøg. Den skal være uoplyst for alle ikke<br />

rygere.<br />

10

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!