27.07.2013 Views

Introduktion til SPSS 11.5

Introduktion til SPSS 11.5

Introduktion til SPSS 11.5

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Introduktion</strong><br />

<strong>til</strong> <strong>SPSS</strong> <strong>11.5</strong><br />

Forfattere<br />

Hans Christian Birkegaard<br />

Rasmus Porsgaard<br />

Beskrivelse IT-Afdelingen<br />

Gennemgang af statistiske Udg. 082003<br />

metoder i <strong>SPSS</strong>, <strong>til</strong> anvendelse<br />

på HA-studiet.


Indholdsfortegnelse<br />

1 INTRODUKTION.............................................................................................................1<br />

2 GENERELT OM <strong>SPSS</strong>.....................................................................................................3<br />

2.1 INDHOLD AF DATA EDITOREN ......................................................................................3<br />

2.1.1 FILE-menupunktet...............................................................................................3<br />

2.1.2 EDIT-menupunktet ..............................................................................................3<br />

2.1.3 VIEW-menupunktet..............................................................................................3<br />

2.1.4 DATA-menupunktet .............................................................................................3<br />

2.1.5 TRANSFORM-menupunktet ................................................................................3<br />

2.1.6 ANALYZE-menupunktet ......................................................................................4<br />

2.1.7 GRAPHS-menupunktet........................................................................................4<br />

2.1.8 UTILITIES-menupunktet .....................................................................................4<br />

2.1.9 HELP-menupunktet .............................................................................................4<br />

2.2 INDHOLD AF OUTPUT DELEN.........................................................................................5<br />

2.3 INDHOLD AF SYNTAX VINDUET.....................................................................................6<br />

2.4 INDHOLD AF CHART EDITOREN.....................................................................................7<br />

3 INDLÆSNING AF DATA I <strong>SPSS</strong>...................................................................................8<br />

3.1 INDLÆSNING DIREKTE I DATA EDITOREN .....................................................................8<br />

3.1.1 Oprettelse af nyt datasæt.....................................................................................8<br />

3.1.2 Indlæsning af eksisterende datasæt...................................................................10<br />

3.2 IMPORT AF DATA FRA ANDRE PROGRAMMER ..............................................................10<br />

3.2.1 Import af data fra Excel ....................................................................................10<br />

3.2.2 Import af tekstfil (ASCII data)...........................................................................10<br />

3.2.3 Import af data fra SAS.......................................................................................10<br />

3.3 EKSPORT AF DATA......................................................................................................11<br />

3.4 OPBYGNING AF DATASÆT...........................................................................................11<br />

4 DATABEHANDLING ....................................................................................................14<br />

4.1 DATA-MENUPUNKTET ................................................................................................14<br />

4.1.1 Definering af datoer <strong>til</strong> brug i tidsserieanalyse ................................................14<br />

4.1.2 Sortering af observationerne.............................................................................14<br />

4.1.3 Transponering af data.......................................................................................14<br />

4.1.4 Samling af data i forhold <strong>til</strong> én variabel ...........................................................14<br />

4.1.5 Opdeling af filer ................................................................................................15<br />

4.1.6 Valg af observationer der opfylder bestemte krav ............................................16<br />

4.1.7 Vægtning af variabler .......................................................................................17<br />

4.2 TRANSFORM-MENUPUNKTET ......................................................................................17<br />

4.2.1 Konstruktion af nye variabler ...........................................................................17<br />

4.2.2 Optælling af ens <strong>til</strong>fælde ...................................................................................18<br />

4.2.3 Omkodning af variabler ....................................................................................20<br />

4.2.4 Rangordning af observationerne.......................................................................20<br />

4.2.5 Automatisk omkodning af variabler ..................................................................20<br />

4.2.6 Ændring af Missing Values...............................................................................21<br />

4.2.7 Konstruktion af tidsserier..................................................................................22<br />

4.3 KLASSESAMMENLÆGNING..........................................................................................22<br />

4.3.1 Klassesammenlægning vha. dialogbokse ..........................................................23


4.3.1.1 Eksisterende variabler omkodes....................................................................23<br />

4.3.1.2 Oprettelse af nye kodede variabler................................................................24<br />

4.3.2 Kodning af klassesammenlægning ....................................................................25<br />

4.4 MISSING VALUES........................................................................................................25<br />

5 SIMPLE TABELLER.....................................................................................................28<br />

5.1 BASIC TABLE OUTPUT ................................................................................................28<br />

6 FREKVENSTABELLER ...............................................................................................30<br />

6.1 TABLE OF FREQUENCIES OUTPUT................................................................................31<br />

7 BESKRIVENDE MÅL – DESCRIPTIVES..................................................................32<br />

7.1 DESCRIPTIVE STATISTICS OUTPUT..............................................................................32<br />

8 FREKVENSER OG BESKRIVENDE MÅL................................................................33<br />

8.1 FREQUENCIES OUTPUT................................................................................................34<br />

9 GRAFISKE PLOTS (CHART EDITOR) .....................................................................36<br />

9.1 INDSÆTTELSE AF REFERENCELINIER...........................................................................36<br />

9.2 INDSÆTTELSE AF TREND LINIE...................................................................................37<br />

9.3 REDIGERING AF AKSER...............................................................................................37<br />

10 NORMALITETSTEST, OUTLIERS OG PROBITPLOT......................................39<br />

10.1 EXPLORE OUTPUT.......................................................................................................40<br />

11 KORRELATIONSMATRICER ................................................................................42<br />

11.1 KORRELATIONSMATRICE............................................................................................42<br />

11.2 BIVARIATE CORRELATION OUTPUT ............................................................................43<br />

12 T-TEST.........................................................................................................................44<br />

12.1 SIMPEL T-TEST...........................................................................................................44<br />

12.1.1 Output................................................................................................................44<br />

12.2 T-TEST MELLEM 2 UAFHÆNGIGE STIKPRØVER............................................................45<br />

12.3 T-TEST PÅ PARVISE STIKPRØVER................................................................................47<br />

13 ONE-WAY ANOVA ...................................................................................................48<br />

13.1 OUTPUT......................................................................................................................50<br />

14 GENEREL VARIANSANALYSE .............................................................................52<br />

14.1 GLM OUTPUT.............................................................................................................55<br />

14.2 FORUDSÆTNINGER .....................................................................................................58<br />

14.2.1 Varianshomogenitet ..........................................................................................58<br />

14.2.2 Normalfordelte fejlled .......................................................................................58<br />

14.2.3 Uafhængighed mellem fejlledene ......................................................................59<br />

15 REGRESSION.............................................................................................................60<br />

15.1 REGRESSION OUTPUT..................................................................................................63<br />

15.1.1 Generel information ..........................................................................................63<br />

15.1.2 Forudsætningstest .............................................................................................64<br />

15.1.2.1 Multicollinearitet ved VIF-estimaterne.....................................................64<br />

15.1.2.2 Normalfordelingstest.................................................................................65


15.1.2.2.1 Probitplot...............................................................................................65<br />

15.1.2.2.2 Plot af standardiserede residualer..........................................................65<br />

15.1.2.3 Autokorrelationstests.................................................................................66<br />

15.1.2.3.1 Durbin Watson ......................................................................................66<br />

15.1.2.3.2 LM-test for autokorrelation...................................................................66<br />

15.1.2.4 LM-test for heteroskedasticitet .................................................................68<br />

15.1.3 Plot af regressionslinie .....................................................................................69<br />

16 HOMOGENITETS- OG UAFHÆNGIGHEDSTEST.............................................71<br />

16.1 FORSKEL MELLEM DE TO TEST....................................................................................71<br />

16.2 OPBYGNING AF DATASÆTTET.....................................................................................71<br />

16.3 GENNEMFØRSEL AF TESTET........................................................................................73<br />

16.4 OUTPUT......................................................................................................................75<br />

16.5 FORUDSÆTNINGER .....................................................................................................76<br />

17 LOG-LINEÆR MODEL............................................................................................77<br />

17.1 FORMÅL .....................................................................................................................77<br />

17.2 LØSNING ....................................................................................................................77<br />

17.3 MODEL-EKSEMPEL .....................................................................................................77<br />

17.3.1 Effekt-eliminering..............................................................................................81<br />

17.4 VALIDERING...............................................................................................................83<br />

17.5 U-EFFEKTER...............................................................................................................84<br />

18 LOGIT..........................................................................................................................88<br />

18.1 FORMÅL .....................................................................................................................88<br />

18.2 LØSNING ....................................................................................................................88<br />

18.3 MODEL-EKSEMPEL .....................................................................................................88<br />

18.3.1 Effekt-eliminering..............................................................................................93<br />

18.4 VALIDERING...............................................................................................................94<br />

18.5 W-EFFEKTER ..............................................................................................................94<br />

19 ITA MAKRO’ER ........................................................................................................97<br />

19.1 BARTLETT’S TEST ......................................................................................................97<br />

19.2 COCHRAN’S TEST.......................................................................................................99<br />

19.3 FRIEDMAN’S TEST....................................................................................................101<br />

19.4 KRUSKAL WALLIS TEST...........................................................................................103<br />

19.5 PROBIT PLOT............................................................................................................105<br />

19.6 BONFERRONI INTERVALLER FOR 1.ORDENS INTERAKTIONER....................................106<br />

19.7 LM TEST FOR HETEROSCEDASTICITET......................................................................110<br />

19.8 LM TEST FOR AUTOKORRELATION ...........................................................................111


<strong>Introduktion</strong><br />

1 <strong>Introduktion</strong><br />

Formålet med denne manual er at give et indblik i brugen af <strong>SPSS</strong> generelt med<br />

databehandling for HA-linierne. Her vil blive beskrevet en række analyseformer, som dækker<br />

de statistiske teknikker, der bliver anvendt på bachelor-studiet. Teknikkerne, der anvendes på<br />

cand.merc.-studiet, findes i den <strong>til</strong>svarende manual for cand.merc.<br />

Manualen skal læses som en eksempelmanual, hvorved forstås, at den ikke giver et teoretisk<br />

grundlag for analyseformerne, men udelukkende vil være af beskrivende karakter, hvor der<br />

ved alle analyseformer tages udgangspunkt i en konkret problems<strong>til</strong>ling med løsningsforslag.<br />

Dette betyder, at manualen kun er et eksempel på, hvordan en given opgave kan løses og<br />

derfor ikke en endelig facitliste. Hvor det findes nødvendigt, er der henvisninger <strong>til</strong> de<br />

lærebøger, der anvendes i statistikundervisningen på henholdsvis HA 1. og 2. år. Her kan<br />

findes uddybning af den bagvedliggende teori. Der er i manualen henvisninger <strong>til</strong> følgende<br />

litteratur:<br />

Aczel (1999) : Tidligere lærebog af Amir D. Aczel, ”Complete Business statistics” 4 th ed.<br />

Keller (2002) : Nuværende lærebog af Keller og Warrack ”Statistics for Management and<br />

Economics” 6th 2002.<br />

H265 : Intern undervisningsmateriale H265 ”Lecture notes in Statistics for HA & HA(dat.) &<br />

BSc(B) 3rd semester” 2002<br />

Langt størstedelen af de opgaver der gennemgås tager sit udgangspunkt i Rusundersøgelsen<br />

1998 og filen \\ita2\exemp\<strong>SPSS</strong>\Ha manual\Rus98_eng.sav . I de eksempler hvor dette ikke<br />

er <strong>til</strong>fældet, vil det fremgå af det konkrete eksempel.<br />

Alle de anvendte <strong>SPSS</strong> filer kan findes på handelshøjskolens X-drev under biblioteket <strong>SPSS</strong><br />

og Ha manual.<br />

I forhold <strong>til</strong> sidste udgave er der lavet følgende ændringer og <strong>til</strong>føjelser:<br />

• Alle screenshots og beskrivelser er opdateret <strong>til</strong> <strong>SPSS</strong> version <strong>11.5</strong><br />

• Nyt afsnit <strong>til</strong>føjet <strong>til</strong> nyudviklet ITA makro omhandlende Bonferroni konfidensintervaller<br />

for interaktionsled (anvendes ifbm. Variansanalyse)<br />

• Der er i de enkelte afsnit <strong>til</strong>føjet henvisninger <strong>til</strong> lærebøger som anvendes i<br />

statistikundervisningen på HA studiet.<br />

• Rettelser af diverse fejl og uddybning af problems<strong>til</strong>linger i enkelte afsnit<br />

Rapporteringer om evt. fejl og mangler modtages gerne på hik@asb.dk.<br />

/ITA August 2003<br />

1


Faktoranalyse<br />

<strong>Introduktion</strong><br />

variabler<br />

Log-lineær analyse<br />

nej<br />

Interesse for<br />

variabler eller<br />

observationer<br />

observartioner<br />

Klyngeanalyse<br />

Skal nogle af variablerne<br />

betragtes som afhængige<br />

af andre?<br />

begge<br />

Flerdimensional<br />

skalering<br />

nominal<br />

Logit-analyse<br />

nominal<br />

Skala for uafhængige<br />

Inden man påbegynder analyserne i <strong>SPSS</strong>, er det vigtigt først at gøre sig klart, på hvilken form<br />

de <strong>til</strong>gængelige data findes, og dermed hvilke analyser der er mulighed for at foretage. Valget<br />

af analysemetode afhænger af såvel antal variable, sammenhængen mellem disse samt deres<br />

skalering. På ovenstående figur er det muligt at bestemme de mulige analysemetoder udfra<br />

disse forhold.<br />

interval<br />

én<br />

ordinal<br />

ja<br />

Skala for afhængige<br />

variabler<br />

Diskriminantanalyse<br />

Conjointanalyse<br />

Antal afhængige<br />

variabler<br />

Nominal<br />

interval<br />

Skala for uafhæn<br />

gige variabler<br />

Variansanalyse<br />

Regression m/dummy<br />

flere intervalskalerede<br />

interval<br />

Regressionsanalyse<br />

Skala for<br />

uafhængige<br />

Nominal<br />

MANOVA/GLM<br />

interval<br />

Kononisk analyse<br />

2


Generelt om <strong>SPSS</strong><br />

2 Generelt om <strong>SPSS</strong><br />

Overordnet består <strong>SPSS</strong> af fire vinduer. En Data editor, en Output del, et Syntax vindue og en<br />

Chart Editor. Data Editoren er yderligere delt op i heldholdvis en Data view og Variable view<br />

del. I førstnævnte indtastes data, foretages behandling samt angivelse af kommandoer, mens<br />

sidstnævnte bruges <strong>til</strong> definering af variabler. Output-delen udskriver resultaterne og figurer<br />

samtidig med, at den også fungerer som log-vindue. I Chart Editoren foretages der<br />

grafbehandling, mens syntax vinduet kan bruges <strong>til</strong> at foretage analyser ved brug af kode.<br />

2.1 Indhold af Data Editoren<br />

Øverst i Data Editoren ses menulinien, hvis punkter omtales nedenfor:<br />

2.1.1 FILE-menupunktet<br />

Dette punkt bruges <strong>til</strong> dataadministration, dvs. indhentning og udlæsning af data samt udskrift.<br />

Endvidere er det under dette punkt muligt at få gemt sit arbejde. Alt i alt eksisterer der her de<br />

samme muligheder som for andre windows programmer.<br />

2.1.2 EDIT-menupunktet<br />

Edit er ligeledes et generelt menupunkt, der benyttes <strong>til</strong> redigering af det aktuelle vindues<br />

indhold. Herunder ligger CUT, COPY og PASTE-funktionerne. Derudover er det muligt, under<br />

OPTIONS, at ændre på skrifttype for outputtet, tegn for decimaladskillelse osv.<br />

2.1.3 VIEW-menupunktet<br />

Herunder er det muligt at vælge <strong>til</strong>stedeværelsen af statuslinie, gitterlinier m.v. <strong>til</strong>/fra.<br />

Endvidere er det også her, Data Editorens font/skriftstørrelse defineres.<br />

2.1.4 DATA-menupunktet<br />

Under dette menupunkt er det muligt at foretage datamanipulation af forskellig art. Der kan her<br />

blandt andet være tale om sortering af observationerne ”Sort Cases…” eller udvælgelse af<br />

observationer ”Select cases…”. En uddybning af dette punkt findes i afsnit 4.<br />

2.1.5 TRANSFORM-menupunktet<br />

Under Transform er det muligt at udregne nye variabler, omkode eksisterende variabler,<br />

rangordne datasæt (konstruere ordinaldata) m.v.<br />

3


Generelt om <strong>SPSS</strong><br />

2.1.6 ANALYZE-menupunktet<br />

Under dette menupunkt vælges, hvilken statistisk analysemetode der ønskes anvendt.<br />

Nedenstående tabel beskriver kort, hvilke overordnede analysemetoder der findes i <strong>SPSS</strong>:<br />

Analysemetode Beskrivelse<br />

Reports Case- og report summaries<br />

Descriptive statistics Beskrivende statistik, frekvenser mv.<br />

Custom Tables Konstruktion af div. tabeller<br />

Compare Means Sammenligning af forskellige middelværdier - bl.a. v.h.a. t-test<br />

og ANOVA<br />

General Linear Model Estimation vha. GLM, MANOVA<br />

Correlate Forskellige associationsmål for datamaterialets variabler. Der er<br />

f.eks. mulighed for beregning af kovarians, Pearsons<br />

Regression<br />

korrelationskoefficient osv.<br />

Regression, både lineær, logistisk eller efter kurve<br />

Loglinear Generel log-lineær analyse samt logit<br />

Classify Klynge- og diskriminantanalyse<br />

Data Reduction Faktor- og korrespondanceanalyse<br />

Scale Itemanalyse og multidimensionel skalering<br />

Nonparametric Tests χ 2 -, binominal-, hypotese- og uafhængighedstest<br />

Time Series Autoregression og ARIMA<br />

Survival Kaplan-Maier, Cox-regression osv.<br />

Multiple response Freksvenstabeller og crosstabs for multiple response sets<br />

2.1.7 GRAPHS-menupunktet<br />

Ønskes et grafisk overblik af datasættet, skal menupunktet Graphs benyttes. Her er det muligt<br />

at konstruere henholdsvis histogrammer, linie-, lagkage-, box-, pareto, pp-, og qq-diagrammer.<br />

2.1.8 UTILITIES-menupunktet<br />

Her er det muligt at få informationer om de forskellige variabler som f.eks. type, længde osv.<br />

Ønsker man, af en eller anden grund ikke at analysere alle variablerne, er det muligt at<br />

konstruere et nyt datasæt på baggrund af nogle af de eksisterende variabler. Dette gøres<br />

under punktet ”Define Sets..”. Under punktet ”Use Sets…” er det derefter muligt at benytte<br />

disse nye datasæt.<br />

2.1.9 HELP-menupunktet<br />

I Help er det muligt at søge efter hjælp <strong>til</strong>, hvordan diverse analyser og manipulationer<br />

foretages i <strong>SPSS</strong>. Det vigtigste underpunkt her er Topics, hvorunder man i index kan foretage<br />

en søgning ved at indtaste nøgleord. Det vil dog ofte være <strong>til</strong>fældet, at man er i tvivl om, hvad<br />

der skal klikkes <strong>til</strong> i forbindelse med en analyse, og hvad de enkelte muligheder betyder. I<br />

dette <strong>til</strong>fælde er det lettest at højreklikke med musen på ”teksten”, man er i tvivl om. Er man<br />

eksempelvis i tvivl om, hvad Model fit betyder i regressionsanalysens underpunkt Statistics,<br />

4


Generelt om <strong>SPSS</strong><br />

kan man med musen højreklikke på teksten Model fit, hvorefter <strong>SPSS</strong> kommer med en kort<br />

forklaring (jfr. nedenstående):<br />

2.2 Indhold af output delen<br />

I output delen gælder for menuerne File og Edit det samme som beskrevet under afsnit 2.1.1<br />

og 2.1.2. Til Edit menuen er der dog en ekstra mulighed, nemlig Copy Objects. Denne kan<br />

anbefales, når tabeller og lign. skal kopieres fra <strong>SPSS</strong> <strong>til</strong> eksempelvis MS Word, idet den<br />

bevarer tabel formateringen som den er i <strong>SPSS</strong>.<br />

Som før nævnt udskriver Output-delen resultater og figurer fra de kørte analyser, samtidig<br />

med at den også fungerer som log-vindue. Man kan blandt andet skifte mellem Data Editordelen<br />

og Output-delen under menupunktet Window. Output-delen er bygget op omkring et todelt<br />

vindue, hvor der i venstre-siden findes en træstruktur, der giver et overblik over outputtet<br />

fra de enkelte analyser.<br />

5


Generelt om <strong>SPSS</strong><br />

Vil man se outputtet for en sådan analyse, skal man blot klikke på det pågældende punkt på<br />

træet, og resultatet dukker op i højre side af skærmen, som er det primære output vindue.<br />

Ved evt. fejl i forbindelse med en kørsel, fremkommer et log-punkt, der efterfølgende giver<br />

meddelelse om fejl. Som det ses i figuren optræder der under hver overskrift et underpunkt der<br />

hedder Notes. Herunder findes oplysninger, om hvornår analysen er kørt og på hvilken<br />

baggrund. Som default er dette punkt usynligt, men oplysningerne kan hentes frem ved at<br />

dobbeltklikke på punktet i træstrukturen.<br />

2.3 Indhold af syntax vinduet<br />

Syntax vinduet er den del af <strong>SPSS</strong>, der bruges <strong>til</strong> de lidt mere avancerede analyser som ikke<br />

umiddelbart kan gennemføres udfra standard menuerne. Vinduet giver mulighed for at kode<br />

de analyser, man ønsker at foretage direkte ind i <strong>SPSS</strong> meget i s<strong>til</strong> med eksempelvis SAS<br />

eller Visual Basic.<br />

For at åbne syntax-vinduet vælges File New Syntax som vist på nedenstående figur<br />

6


Generelt om <strong>SPSS</strong><br />

Når man har valgt det pågældende menu punkt, fremkommer syntax-vinduet som vist<br />

nedenfor:<br />

I vinduet kan man indtaste de programkoder, man ønsker <strong>SPSS</strong> skal udføre. Når koden er<br />

skrevet, eksekveres den ved at markere det ønskede stykke og derefter vælge Run <br />

Selection eller trykke på Play knappen på menulinien.<br />

2.4 Indhold af Chart editoren<br />

Chart editoren bruges <strong>til</strong> at redigere grafer med i <strong>SPSS</strong>. For en deltaljeret beskrivelse af<br />

editoren og dens funktioner henvises <strong>til</strong> afsnit 9.<br />

7


Indlæsning af data i <strong>SPSS</strong><br />

3 Indlæsning af data i <strong>SPSS</strong><br />

Der er overordnet to måder, hvorpå data kan indlæses i <strong>SPSS</strong>. Den ene er direkte indtastning<br />

i Data Editoren, og den anden er import af data fra andre programmer eller fra tekstfiler.<br />

3.1 Indlæsning direkte i Data Editoren<br />

Indlæsningen af data direkte i <strong>SPSS</strong> kan ske på to forskellige måder, enten ved at oprette et<br />

helt nyt datasæt eller ved at indlæse et allerede eksisterende datasæt. Den sidste mulighed<br />

bliver nødvendig, når der skal løses statistiske problems<strong>til</strong>linger ved at bruge datasæt, som<br />

underviserne har placeret på X-drevet under <strong>SPSS</strong> og DATA (X:\<strong>SPSS</strong>\DATA\). Uanset på<br />

hvilken måde man får fat i sit datasæt, skal man være opmærksom på opbygningen da denne<br />

har stor indflydelse på muligheden for at lave analysen. Hvordan man skal opbygge sit<br />

datasæt vil blive gennemgået nærmere i afsnit 3.4.<br />

3.1.1 Oprettelse af nyt datasæt<br />

Indtastningen af data i <strong>SPSS</strong> er meget simpel, da systemet er kendt fra f.eks. Excel, hvor<br />

rækkerne udgør datamaterialets observationer, mens kolonnerne udgør de definerede<br />

variabler. I overensstemmelse hermed indikerer første kolonne observationsnumrene og<br />

øverste række variabelnavnene. Dette er illustreret i følgende figur, hvor der er to variabler,<br />

variabel og var_2. Til disse to variabler er <strong>til</strong>knyttet 9 observationer, som f.eks. kunne være<br />

årene fra 1990-1998 eller 9 personer (respondenter).<br />

Når <strong>SPSS</strong> startes op, kommer man automatisk <strong>til</strong> Data Editoren, hvor indtastningen foregår.<br />

Man kan ligeledes vælge File New Data, hvis man under arbejdet med et eksisterende<br />

datasæt, ønsker at oprette et nyt.<br />

Inden man går i gang med at indtaste data, er det en god idé at få navngivet og defineret de<br />

enkelte variabler. Dette kan gøres ved at vælge fanebladet Variable view i nederste venstre<br />

hjørne. Alternativt kan man dobbeltklikke på en given variabel, hvorved nedenstående<br />

fremkommer:<br />

8


Indlæsning af data i <strong>SPSS</strong><br />

Som det ses, er det her muligt at navngive variablen. Under Type defineres hvilken type<br />

variabel, der er tale om. Da markøren i ovenstående figur er under Type, fremkommer denne<br />

knap som ved et tryk giver følgende valgmuligheder for Type:<br />

Numeric vælges, hvis der er tale om almindelige talværdier, og String hvis det er tekst (f.eks.<br />

mand/kvinde). Man anvender dog næsten altid typen numerisk, idet langt størstedelen af de<br />

statistiske analyser kræver denne variabeldefinition for at kunne køres. På <strong>til</strong>svarende vis<br />

fremkommer der valgmuligheder for Values og Missing.<br />

Under Label er det muligt at angive en uddybende forklaring <strong>til</strong> Name, hvilket ofte vil være en<br />

god idé. Missing bruges <strong>til</strong> at definere, hvorvidt visse diskrete værdier eller intervaller af tal<br />

skal opfattes som ”missing values”, hvilket vil sige at de skal udelades af eventuelle analyser.<br />

Under Values kan indsættes labels <strong>til</strong> de enkelte værdier (eksempelvis værdien 1 for mand og<br />

2 for kvinde).<br />

Det er muligt at kopiere og sætte ind (ved hjælp af Copy og Paste under menuen Edit), hvilket<br />

specielt ved større ensartede datasæt er en stor fordel.<br />

I forbindelse med navngivning af variabler skal nedenstående regler overholdes:<br />

• Navnet skal starte med et bogstav og må ikke ende med et punktum.<br />

• Der må maksimalt indgå 8 karakterer i navnet.<br />

• Benyt ikke mellemrum og andre specielle karakterer (f.eks. !, ?, ‘, og *).<br />

• Alle variabelnavne skal være forskellige.<br />

• Følgende bogstavkombinationer er reserverede, og kan ikke benyttes:<br />

ALL NE EQ TO LE LT BY<br />

OR GT AND NOT GE WITH<br />

9


Indlæsning af data i <strong>SPSS</strong><br />

Når de enkelte variabler er navngivet og defineret, kan man indtaste data. Dette gøres ved at<br />

gå <strong>til</strong>bage <strong>til</strong> Data view og derefter indtaste på normal regnearksvis. Herefter vælges Save<br />

As… under menupunktet File for at gemme.<br />

3.1.2 Indlæsning af eksisterende datasæt<br />

Findes datasættet allerede, åbnes det blot i bedste windows-s<strong>til</strong>, dvs. Open… under<br />

menupunktet File, og det vil automatisk blive læst ind i Data Editoren <strong>til</strong> videre bearbejdning.<br />

3.2 Import af data fra andre programmer<br />

Det er ikke altid, at man læser datasættet direkte ind i <strong>SPSS</strong>. Det kan f.eks. skyldes, at man<br />

kun har Excel derhjemme, hvorfor dette regneark skal indlæses i <strong>SPSS</strong>. Endvidere sker det<br />

ofte, at der startes en analyse i SAS, som skal fortsættes i <strong>SPSS</strong>, hvorfor dette SAS-datasæt<br />

skal indlæses i <strong>SPSS</strong>. Den sidste mulighed er, at man har tastet datasættet ind i f.eks.<br />

Notepad som en tekstfil (ASCII-format), da man så kan læse dataene ind i alle de<br />

programmer, man ønsker. Det vil sige, at der overordnet er tre forskellige muligheder for at<br />

importere data, som beskrives efterfølgende.<br />

3.2.1 Import af data fra Excel<br />

Ønskes data indlæst fra Excel, kan to metoder benyttes. Den første metode er at markere<br />

datasættet excl. variabelnavnene i Excel. Derefter kopieres de for endeligt at blive sat ind i<br />

<strong>SPSS</strong> vha. Paste. Ulempen ved denne metode er, at variabelnavnene ikke kopieres med,<br />

hvorfor man bliver nødt <strong>til</strong> at indtaste disse på ny. Ved at benytte følgende metode, kan dette<br />

dog undgås. Proceduren herfor er følgende:<br />

1) I <strong>SPSS</strong> vælges File Open Data.<br />

2) Under Files of type vælges Excel, og der trykkes på ’Open’, hvorved dataene gerne skulle<br />

komme frem i Data Editoren.<br />

3.2.2 Import af tekstfil (ASCII data)<br />

Indlæsning af tekstfiler (ASCII data), der enten er adskilt ved faste kolonner eller med en<br />

separator (som komma, tab, mellemrum osv.), foretages ved at vælge File Read Text Data.<br />

Herefter bliver man vejledt igennem forløbet, hvor man blandt andet angiver, hvorledes<br />

dataene er adskilt.<br />

3.2.3 Import af data fra SAS<br />

Ved indhentning af data fra SAS, skal man først få SAS <strong>til</strong> at udskrive dataene i ASCII-format,<br />

hvorefter man kan bruge ovenstående metode <strong>til</strong> indlæsning af tekstfiler. Dette gøres vha.<br />

koderne på næste side (der skrives i SAS):<br />

10


Indlæsning af data i <strong>SPSS</strong><br />

LIBNAME kuk 'x:\sas\data'; *Definerer stien, hvor SAS-datasættet ligger<br />

DATA indlaes; *Opretter et tomt datasæt der hedder indlaes<br />

SET kuk.benzin; *Fylder det tommer datasæt indlæs op med "benzin"<br />

PROC PRINT DATA = indlaes; *Udskriver datasættet for at give et overblik<br />

FILENAME gem 'o:\<strong>til</strong>_spss.dat'; *Opretter en fil kaldet <strong>til</strong>_spss på o-drevet samt<br />

*en sti her<strong>til</strong> kaldet gem<br />

DATA indlaes; *Opretter datasættet indlaes endnu engang<br />

SET indlaes; *Fylder datasættet indlaes med data<br />

FILE gem NOTITLES; *Fortæller at nu skal der gemmes noget i <strong>til</strong>_spss<br />

PUT cg aar cp fcg fcp pck; *Fortæller hvilke variabler der skal gemmes<br />

RUN;<br />

3.3 Eksport af data<br />

Ved eksport af data fra <strong>SPSS</strong> <strong>til</strong> et andet program, kan dette gøres under File Save As…<br />

Under Save as type vælges, i hvilket format filen skal gemmes.<br />

3.4 Opbygning af datasæt.<br />

Når man skal anvende sit datasæt <strong>til</strong> forskellige analyser, skal man være meget opmærksom<br />

på at opbygningen af det aktuelle datasæt gør det muligt at udføre den aktuelle analyse. For<br />

at dette skal kunne lade sig gøre, er det vigtigt at man holder sig for øje hvilken analyse man<br />

ønsker at anvende og hvilken model, der passer <strong>til</strong> den respektive analyse. I de fleste analyser<br />

er det således at der er en afhængig variabel og en eller flere forskellige forklarende variable.<br />

Når man i <strong>SPSS</strong> skal køre en analyse skal disse forskellige variable så være adskilt.<br />

Et eksempel på dette er vist nedenfor:<br />

11


Indlæsning af data i <strong>SPSS</strong><br />

I dette eksempel kunne analysen være en regressions analyse hvor man vil forsøge at forklare<br />

en persons vægt ud fra højde og forældrenes højde. For at kunne gøre dette, er det som<br />

nævnt ovenfor, nødvendigt at de enkelte variable er adskilt, således at disse kan defineres<br />

som hhv. afhængig og forklarende variable, når analysen skal køres.<br />

Hvis datasættet er opbygget anderledes er det nødvendigt at ændre det og eventuelt <strong>til</strong>føje en<br />

såkaldt grupperingsvariabel. Dette vil ofte forekomme ved eksperiment analyse, hvor man<br />

laver målinger på en variabel under forskellige påvirkninger.<br />

Et eksempel på dette kunne være, at man målte et prisindeks for forskellige lande og hver<br />

række angav resultaterne. Hvis dette er <strong>til</strong>fældet og man ønsker at måle hvorvidt prisindekset<br />

er ens for de forskellige lande, er man nødt <strong>til</strong> at lave sit datasæt om og indføre en<br />

grupperingsvariabel.<br />

Nedenfor er vist et eksempel på hvordan datasættet kunne se ud hhv. før og efter det er<br />

klargjort <strong>til</strong> analyse. Til venstre er eksemplet hvor resultaterne er opdelt i de forskellige rækker,<br />

<strong>til</strong> højre er det ændret således at den målingsvariabel (pris) man ønsker at undersøge<br />

er én variabel og man har indført en grupperingsvariabel.<br />

12


Indlæsning af data i <strong>SPSS</strong><br />

Hvilken af de to opbygninger vist ovenfor, der skal anvendes afhænger altså af hvilke analyser<br />

der skal gennemføres. Opbygningen <strong>til</strong> venstre anvendes typisk i forbindelse med<br />

regressionsanalyse, mens opbygningen <strong>til</strong> højre med grupperingsvariablen bruges i<br />

forbindelse med T-test, variansanalyse og lign.<br />

13


Databehandling<br />

4 Databehandling<br />

I forbindelse med databehandling er særligt to menupunkter interessante; Data og Transform.<br />

I det følgende vil de væsentligste funktioner under disse menupunkter blive beskrevet.<br />

4.1 Data-menupunktet<br />

Her foretages globale ændringer i <strong>SPSS</strong>-datasættet, som f.eks. transponering af variabler og<br />

observationer samt opdeling af observationerne i mindre grupper.<br />

4.1.1 Definering af datoer <strong>til</strong> brug i tidsserieanalyse<br />

Under Define Dates… er det muligt at oprette nye variabler, der definerer en kontinuert<br />

tidsrække, som kan benyttes <strong>til</strong> en tidsserieanalyse. Efter at have defineret, hvilken tidsrække<br />

observationerne følger, klikkes på OK, og nye variabler konstrueres.<br />

4.1.2 Sortering af observationerne<br />

Sortering af observationerne i forhold <strong>til</strong> en eller flere variabler foretages under punktet Sort<br />

Cases… Her skal blot gøres opmærksom på, at man ved at sortere sit datasæt kan løbe ind i<br />

problemer, hvis en senere tidsserieanalyse skal foretages. Dette problem kan afhjælpes, hvis<br />

man inden sorteringen laver et observationsnummer jvf. ovenstående.<br />

4.1.3 Transponering af data<br />

Transponering af data, således at kolonner bliver <strong>til</strong> rækker og rækker <strong>til</strong> kolonner, gøres vha.<br />

Transpose…<br />

Variabler, der ønskes medtaget i det nye datasæt, markeres i det venstre vindue, hvorefter et<br />

klik på den øverste pil overfører dem <strong>til</strong> øverste højre vindue. I Name Variable-feltet kan<br />

overføres en variabel med en unik værdi, hvis udfald vil blive brugt som nye variabelnavne.<br />

4.1.4 Samling af data i forhold <strong>til</strong> én variabel<br />

Under punktet Aggregate er det muligt at sammenlægge observationer på baggrund af<br />

udfaldet for én variabel. Har man f.eks. et datasæt med forskellige respondenters vægt og<br />

køn, vil en sammenlægning mht. køn medføre et nyt datasæt, hvor hver observation angiver<br />

14


Databehandling<br />

eksempelvis gennemsnitsværdien af vægten for hvert køn - dvs. én observation for hvert køn.<br />

Når der klikkes på Aggregate…, fremkommer følgende dialogboks:<br />

De variabler, man ønsker sit datasæt sammenlagt i forhold <strong>til</strong>, skal flyttes <strong>til</strong> vinduet Break<br />

Variable(s) (i ovenstående <strong>til</strong>fælde ville det være variablen Sex). De variabler, man ønsker en<br />

sammenlægning af, skal derefter overflyttes <strong>til</strong> vinduet Aggregate Variable(s) (i ovenstående<br />

<strong>til</strong>fælde Height). Under punktet ’Function…’ defineres, hvilken statistisk funktion, der skal ligge<br />

bag de enkelte variablers sammenlægning. Nye variabelnavne kan defineres ved at klikke på<br />

’Name & Label…’.<br />

Klikkes der på Save number of ….., oprettes en ny variabel indeholdende antallet af<br />

observationer, der er blevet sammenlagt for hver break variabel. Endelig skal det bestemmes,<br />

hvor den nye fil skal oprettes. Dette gøres vha. de to nederste punkter.<br />

4.1.5 Opdeling af filer<br />

Punktet Split Files opdeler datafiler i separate grupper på baggrund af en eller flere variabler.<br />

Dette betyder, at der for hver gang der køres en test, i stedet for kun at komme 1 output,<br />

kommer et antal outputs svarende <strong>til</strong> antallet af udfald for den valgte grupperingsvariabel.<br />

15


Databehandling<br />

Vælges gruppering efter flere variabler, vil den blive grupperet i underkategorier af den øverste<br />

variabel på listen. Der kan maksimalt grupperes efter 8 variabler. Er observationerne ikke i<br />

forvejen sorteret efter samme liste, som den skal grupperes efter, skal der klikkes på Sort the<br />

file by grouping variables. Ved at klikke på Compare Groups vil de opdelte filer blive<br />

præsenteret sammen for senere at kunne sammenlignes. Ved at klikke på Organize output by<br />

groups, vil de opdelte filer blive præsenteret hver for sig.<br />

4.1.6 Valg af observationer der opfylder bestemte krav<br />

Menupunktet Select Cases <strong>til</strong>byder flere forskellige metoder <strong>til</strong> udvælgelse af observationer på<br />

baggrund af variabler, komplekse formler og <strong>til</strong>fældig udvælgelse.<br />

Af ovenstående dialogboks ses de muligheder, der er for at udvælge data <strong>til</strong> senere analyse.<br />

Den første mulighed er vha. en ”if-sætning”. Vælges denne, er der mulighed for kompleks<br />

udvælgelse af observationerne. Klikkes på ’if…’, fremkommer følgende dialogboks:<br />

Her er det muligt at specificere, hvilke observationer man ønsker udvalgt. Dette gøres ved at<br />

opskrive en almindelig matematisk funktion, hvor de observationer vælges, der opfylder det<br />

matematiske kriterie.<br />

16


Databehandling<br />

Resten af udvælgelseskriterierne giver sig selv og vil derfor ikke blive gennemgået i denne<br />

forbindelse.<br />

Til sidst vælges under Unselected Cases Are om fravalgte data skal slettes eller blot filtreres<br />

fra. Frafiltreringen foregår ved, at <strong>SPSS</strong> opretter en ny variabel (filter_$), der får værdien 0 og<br />

1 for hhv. fravalgt og valgt. Fortryder man filtreringen, skal man blot vælge All Cases…,<br />

hvorefter alle observationerne igen vil indgå i analysen. Det er lidt mere problematisk, hvis<br />

man har valgt at slette de fravalgte observationer. Hvis datasættet er blevet gemt, efter de er<br />

blevet slettet, er dataene gået tabt og kan ikke gendannes.<br />

4.1.7 Vægtning af variabler<br />

Menupunktet Weight Cases åbner mulighed for at give de enkelte observationer forskellige<br />

vægte <strong>til</strong> analyseformål. Værdien af den vægtede variabel skal derefter angive antallet af ens<br />

observationer for hver enkelt observation i datasættet. Dette er eksempelvis nyttigt ved<br />

indtastning af rene antalstabeller.<br />

4.2 Transform-menupunktet<br />

Ønskes enkelte udvalgte variabler ændret, eller nye konstrueret, kan dette gøres under<br />

Transform… menupunktet.<br />

4.2.1 Konstruktion af nye variabler<br />

Menupunktet Compute… konstruerer nye variabler på baggrund af numerisk transformation af<br />

andre variabler. Vælges dette punkt, fremkommer følgende dialogboks:<br />

Vil man konstruere en ny variabel, defineres et navn for denne i feltet Target Variable (her kan<br />

man også vælge en allerede eksisterende, hvorefter denne vil blive ændret). Værdien af den<br />

nye variabel defineres i feltet Numeric Expression vha. en matematisk funktion.<br />

Fremgangsmåden er lige<strong>til</strong>: Man vælger nogle af de eksisterende variabler og lader disse<br />

indgå i formlen, hvorefter der klikkes på ’OK’, og den nye variabel konstrueres.<br />

17


Databehandling<br />

4.2.2 Optælling af ens <strong>til</strong>fælde<br />

Vælges punktet Count…, er det muligt at konstruere en ny variabel, der for hver observation<br />

angiver antallet af <strong>til</strong>fælde, hvor en række variabler antager en bestemt værdi. Bliver hver<br />

respondent eksempelvis spurgt, om han har prøvet en række forskellige produkter, kan den<br />

nye variabel angive, hvor mange af produkterne han har prøvet. Dialogboksen ser ud som<br />

følger:<br />

I feltet Target Variable skrives hvilket variabelnavn, den nye variabel skal have. Til feltet<br />

Numeric Variables overflyttes de variabler, der ønskes en optælling over.<br />

Resten af dialogboksen forklares vha. et eksempel. Der ønskes en optælling af, hvor mange<br />

af følgende krav, hver enkelt kvinde opfylder.<br />

• Højde mellem 170 og 175 cm.<br />

• Vægt på 65 kg.<br />

Først vælges variabelnavn, berørte variabler osv. som ovenfor.<br />

Derefter skal defineres hvilke variabler, optællingen skal afgrænses <strong>til</strong> at omfatte (kvinderne).<br />

Dette gøres ved at klikke på ’if…’, hvorefter følgende dialogboks fremkommer:<br />

18


Databehandling<br />

Her startes med at definere på hvilke variabler, der skal afgrænses og derefter på hvilket<br />

kriterie. Dvs. variablen Sex vælges og sættes lig 1 (dvs. kun kvinder tælles). Der skal her<br />

gøres opmærksom på, at variablerne skal omkodes <strong>til</strong> at være numeriske, hvis det er<br />

tekstvariabler (dette gøres nemmest under punktet Automatic Recode… i menuen Transform,<br />

se herom senere i afsnit 4.2.5). Når der er afgrænset, klikkes på ’Continue’.<br />

Ved definition af, hvilke værdier de enkelte variabler skal antage, før observationerne bliver<br />

optalt, skal man i tekstboksen Count Occurrences of Value within Cases klikke på ’Define<br />

Values…’, hvorefter følgende dialogboks fremkommer:<br />

Her er der forskellige valgmuligheder. Man kan definere en bestemt værdi, et interval, en øvre<br />

og nedre grænse mv. I forbindelse med dette eksempel vælges først en værdi for vægten,<br />

dvs. under Value skrives 65, hvorefter der klikkes på ’Add’. Højden skal ligge i et interval,<br />

hvorfor der klikkes på Range og højeste/laveste værdi indtastes, og der klikkes på ’Add’. Når<br />

samtlige valgkriterier er indtastet, klikkes på ’Continue’.<br />

Ved kørsel af ovenstående eksempel fås følgende output(datasæt reduceret):<br />

Det ses, at eksempelvis observation 67 har 2 variabler, der opfylder kravene.<br />

19


Databehandling<br />

4.2.3 Omkodning af variabler<br />

Omkodning af variabler foretages, når en ny variabel skal oprettes på baggrund af<br />

eksisterende variablers værdier, eller en variabel skal omkodes (f.eks. at alle forekomster af<br />

”2” skal erstattes med ”Kvinde”).<br />

Netop omkodning af variabler bruges meget i forbindelse med klassesammenlægninger <strong>til</strong><br />

logit- og log-lineær modeller, hvorfor dette behandles separat i afsnit 4.3 om<br />

Klassesammenlægning.<br />

4.2.4 Rangordning af observationerne<br />

Skal datasættet rangordnes, gøres dette under Rank Cases. Her fremkommer følgende<br />

dialogboks:<br />

I feltet Variable(s) skrives de variabler, der ønskes rangordnet, og i feltet By skrives i forhold <strong>til</strong><br />

hvilke variabler (hvis der er nogen). Klikkes der på ’Rank Types…’, er det muligt at vælge<br />

forskellige typer rangordning. Klikkes der på ’Ties…’, er det muligt at vælge, hvilken metode<br />

der ønskes benyttet, hvis der er flere ens udfald for den variabel, der rangordnes. Tabellen på<br />

næste side viser, hvilke resultater de forskellige metoder under ’Ties...’ medfører:<br />

Værdi / Metode Mean Low High<br />

10 1 1 1<br />

15 3 2 4<br />

15 3 2 4<br />

15 3 2 4<br />

16 5 5 5<br />

20 6 6 6<br />

4.2.5 Automatisk omkodning af variabler<br />

Skal en tekstvariabel omkodes <strong>til</strong> en numerisk værdi, gøres dette nemt under Automatic<br />

Recode… Her fremkommer følgende dialogboks:<br />

20


Databehandling<br />

Vil man eksempelvis omkode sex, der er en tekstvariabel (M, K) <strong>til</strong> en numerisk variabel (1, 2),<br />

er fremgangsmåden som følger. Først vælges hvilken variabel, der ønskes omkodet (sex).<br />

Derefter navngives den nye variabel i feltet <strong>til</strong> højre for knappen ’New Name’. Når dette er<br />

gjort, klikkes på knappen ’New Name’, og der trykkes ’OK’. Herefter konstruerer <strong>SPSS</strong> den<br />

nye variabel og <strong>til</strong>deler automatisk denne værdierne fra 1 op <strong>til</strong> det antal udfald, tekstvariablen<br />

kan antage.<br />

4.2.6 Ændring af Missing Values<br />

Indeholder datasættet missing values, kan dette give nogle problemer i senere analyser og<br />

beregninger. Derfor kan det være nødvendigt at <strong>til</strong>dele disse missing values en værdi vha.<br />

punktet Replace Missing Values. For nærmere uddybning af problematikken med missing<br />

values henvises <strong>til</strong> afsnit 4.4 nedenfor.<br />

Vælges Transform Replace missing values… fremkommer følgende dialogboks:<br />

Først vælges hvilke variabler, der skal have ændret sine missing values. Derefter vælges<br />

hvilken metode, der skal benyttes her<strong>til</strong>. Her kan f.eks. vælges et gennemsnit af de<br />

eksisterende værdier (Series mean), et gennemsnit af de nærmeste observationer (Mean of<br />

nearby points), lineær interpolation mv. Vælges gennemsnit af de nærmeste observationer,<br />

skal defineres hvad nærmeste observationer vil sige. Dette gøres under Span of nearby<br />

points, hvor værdien bestemmer, hvor mange af de foregående observationer, der skal indgå i<br />

beregningen. Ved klik på ’OK’ danner <strong>SPSS</strong> en ny variabel, hvor missing values er udskiftet.<br />

<strong>SPSS</strong> navngiver selv den nye variabel. Dette kan dog også gøres manuelt under Name.<br />

21


Databehandling<br />

4.2.7 Konstruktion af tidsserier<br />

Under punktet Create Time Series… er det muligt at danne nye variabler som funktion af<br />

allerede eksisterende numeriske tidsserievariabler.<br />

Først vælges, hvilken variabel tidsserien skal dannes på baggrund af ved at vælge variablerne<br />

i venstre side og derefter trykke på pilen. Derefter bestemmes under Order, hvilken forsinkelse<br />

(lag), der skal ligge <strong>til</strong> baggrund for den nye variabel. Endelig bestemmes, hvilken metode der<br />

skal ligge bag beregningen. Her er det eksempelvis muligt at vælge; difference, glidende<br />

gennemsnit, lag osv. Når dette er gjort, vil et klik på OK-knappen få <strong>SPSS</strong> <strong>til</strong> at danne den nye<br />

variabel.<br />

4.3 Klassesammenlægning<br />

Blandt andet logit- og log-lineære analyser, samt de ikke parametriske tests, bygger på<br />

antalstabeller, hvilket er en optælling af, hvor mange gange en given kombination af faktorer<br />

forekommer. Et eksempel ses i nedenstående tabel:<br />

Obs (celler) Faktor1 Faktor2 Antal<br />

1 Mand 1 9<br />

2 Mand 2 5<br />

3 Mand 3 3<br />

4 Mand 4 8<br />

5 Kvinde 1 5<br />

6 Kvinde 2 2<br />

7 Kvinde 3 10<br />

8 Kvinde 4 7<br />

Af tabellen ses, at der eksempelvis var 10 respondenter, der var kvinder (faktor1) samt<br />

scorede 3 på faktor2. Det kan i mange <strong>til</strong>fælde være interessant at lave<br />

klassesammenlægninger – eksempelvis hvis en models forudsætninger om mindste<br />

forventede antal ikke umiddelbart opfyldes.<br />

Ved klassesammenlægninger slås flere niveauer sammen og derved fås et højere antal<br />

observationer i hver celle. Eksempelvis kunne man i ovenstående tabel fores<strong>til</strong>le sig, at vi for<br />

22


Databehandling<br />

faktor2 slog niveau 1 og 2 sammen samt niveau 3 og 4. Dette ville reducere vores antalstabel<br />

<strong>til</strong> 4 celler og langt flere respondenter i hver – se tabellen:<br />

Obs (celler) Faktor1 Faktor2 Antal<br />

1 Mand 1 (1+2) 14<br />

2 Mand 2 (3+4) 11<br />

3 Kvinde 1 (1+2) 7<br />

4 Kvinde 2 (3+4) 17<br />

Det skal understreges, at klassesammenlægning beror på en subjektiv vurdering af, hvorvidt<br />

niveauerne er så enslydende, at man kan forsvare en sammenlægning.<br />

4.3.1 Klassesammenlægning vha. dialogbokse<br />

Som vist på nedenstående figur, kan omkodning eller klassesammenlægning enten ske i den<br />

samme variabel, eller der kan oprettes en ny:<br />

4.3.1.1 Eksisterende variabler omkodes<br />

Ved at klikke på underpunktet Recode into Same Variables er det muligt at omkode<br />

allerede eksisterende variabler. Det er både muligt at omkode numeriske variabler og<br />

tekstvariabler.<br />

I den første dialogboks vælges, hvilken/hvilke variabler der ønskes omkodet. Hvis flere<br />

variabler vælges, skal de alle være af samme type. For at udvælge de variabler, der ønskes<br />

omkodet, klikkes på ’if…’. Her kan disse udvælges vha. logiske relationer. Det er også muligt<br />

blot at vælge samtlige variabler. I forbindelse med omkodningen er et vigtigt punkt ’Old and<br />

New Values…’. Ved klik på dette ikon fremkommer følgende dialogboks:<br />

23


Databehandling<br />

Under Old Value vælges, hvilke værdier der skal omkodes. Er der tale om en enkelt værdi,<br />

vælges det øverste felt Value. Er der tale om ikke-definerede manglende værdier, vælges<br />

System-missing. Er der tale om variabler, der er defineret missing values eller er ukendte,<br />

vælges System- or user-missing. For uddybning af problematikken med at omkode variabler<br />

indeholdende missing values henvises <strong>til</strong> afsnit 4.4 nedenfor.<br />

Er der tale om et interval; dobbeltsidet, nedre ensidet eller øvre ensidet, vælges en af de tre<br />

nederste muligheder.<br />

I højre side af dialogboksen defineres, hvad de gamle værdier skal omkodes <strong>til</strong>, hvis de<br />

antager den givne værdi.<br />

Efter omkodningen er defineret, klikkes på ’Add’, derefter på ’Continue’ og ’OK’, hvorefter<br />

omkodningen foretages.<br />

4.3.1.2 Oprettelse af nye kodede variabler<br />

Ved at klikke på underpunktet Recode Into Different Variables…, er det muligt at danne nye<br />

variabler ud fra allerede eksisterende variabler. Det er både muligt at omkode numeriske<br />

variabler og tekstvariabler. Dialogboksen ser ud som følger:<br />

I venstre side vælges hvilke variabler, der skal omkodes <strong>til</strong> nye variabler. I højre side defineres<br />

den nye variabels navn. Når dette er defineret, klikkes på ’Change’, og kombinationen <strong>til</strong>føjes<br />

24


Databehandling<br />

listen i midten. Hvis man ikke er interesseret i omkodning i alle <strong>til</strong>fælde, kan man under ’if…’<br />

definere, hvilke <strong>til</strong>fælde man er interesseret i.<br />

Hvilke værdier de omkodede observationer skal antage, kan defineres under punktet ’Old and<br />

New Values…’. Herefter fremkommer en ny dialogboks, hvor det er muligt at vælge hvilke<br />

værdier der skal omkodes henholdsvis fra og <strong>til</strong>. Dialogboksen er magen <strong>til</strong> den beskrevet i<br />

afsnit 4.3.1.1 ovenfor, hvorfor den ikke beskrives yderligere her.<br />

4.3.2 Kodning af klassesammenlægning<br />

En anden metode er manuelt at kode klassesammenlægningerne. Der vælges File New <br />

Syntax, hvorefter et vindue som nedenstående åbnes:<br />

Syntaksen kan ses af ovenstående vindue:<br />

RECODE: Start af proceduren RECODE<br />

• Den første ”recode”-procedure tager alle værdier fra variablen var_navn, der er mellem 0<br />

og 1 og sætter dem lig 0. Alle øvrige værdier bliver dernæst sat lig 1. Bemærk, at<br />

værdierne kodes ind i den allerede eksisterende variabel.<br />

• Den anden procedure gør følgende: 1 og 3 sættes lig 1, 4 og 5 sættes lig 3, 7 <strong>til</strong> 8 samt 11<br />

<strong>til</strong> 13 sættes lig 7. Det hele kodes ind i en ny variabel, der oprettes.<br />

EXECUTE: Udfører proceduren.<br />

Husk, at hvert statement/procedure afsluttes med et punktum.<br />

4.4 Missing values<br />

Begrebet missing values dækker over manglende svar / ikke-udfyldte felter i en variabel.<br />

Problemet med missing values er mest udtalt i forbindelse med spørgeskema undersøgelser,<br />

hvor respondenter har undladt at svare på et eller flere af de s<strong>til</strong>lede spørgsmål.<br />

Før man påbegynder eventuelle analyser af sine data, er det vigtigt at have afklaret, hvordan<br />

disse missing values skal behandles. Den mest almindelige metode er at definere hvilke værdi<br />

af variablen, der repræsenterer en missing value jf. afsnit 3.1.1. Når en variabel så antager<br />

25


Databehandling<br />

denne værdi, udelades den af de statistiske analyser, således, at kun dem der rent faktisk har<br />

svaret på det s<strong>til</strong>lede spørgsmål medtages i analyserne.<br />

En anden, og knap så hyppigt anvendt metode er den beskrevet i afsnit 4.2.6, hvor en missing<br />

value erstattes med en bestemt værdi, ex. gennemsnittet af de øvrige observationer, og<br />

herefter medtages i analysen på samme vilkår som de øvrige observationer. Denne metode<br />

giver naturligvis ikke mening at anvende i forbindelse med spørgeskemaundersøgelser og<br />

lign., men bruges oftest i forbindelse med eksempelvis tidsserier, hvor man ønsker at fjerne<br />

eventuelle huller i serien.<br />

En anden situation hvor det er vigtigt at have fokus på missing values er i forbindelse med<br />

datamanipulation, hvor variabler med missing values indgår. Ønsker man eksempelvis at<br />

recode en variabel, er der nemlig risiko for at komme <strong>til</strong> at ”fjerne” eventuelle missing values<br />

og udskifte dem med andre værdier, så de kommer <strong>til</strong> at indgå i efterfølgende analyser og<br />

derved forvrænger analyseresultatet.<br />

Et eksempel herpå kunne være at man ønsker at recode variablen hold, med følgende<br />

niveauer:<br />

0 = missing value 1 = HA, 2 = HA(dat), 3 = HA(int), 4 = HA(jur)<br />

<strong>til</strong> en ny variabel med følgende 2 niveauer: 1 = HA og 2 = øvrige hold, som vist i dialogboksen<br />

nedenfor.<br />

Gøres dette , som beskrevet i afsnit 4.3.1 (Transform Recode Into different…) sættes<br />

1 = 1 og else = 2. Dette vil betyde at alle missing values bliver <strong>til</strong> 2, og dermed fremstår som<br />

var de besvarede, hvilket selvfølgelig er meget uhensigtsmæssigt.<br />

For at forhindre dette, er det vigtigt at man i forbindelse med omkodningen sørger for at<br />

missing values har samme værdi før og efter omkodningen. Dette kan gøres ved at anvende<br />

muligheden ”system-missing” der som beskrevet i afsnit 4.3.1.1, sørger for at medtage missing<br />

values fra den oprindelige variabel i den nye. Dialogboksen skal da se ud som vist nedenfor.<br />

26


Databehandling<br />

Foretager man omkodningen på denne måde er man sikker på at eventuelle missing values<br />

bliver bevaret selv efter omkodningen<br />

27


Simple tabeller<br />

5 Simple tabeller<br />

Det er muligt i <strong>SPSS</strong> at lave simple tabeller, der beskriver en sammenhæng mellem diverse<br />

variabler i en form for antalstabel. Disse tabeller kan være simple to-dimensionelle tabeller<br />

eller fler-dimensionelle tabeller. For at være i stand <strong>til</strong> at lave simple tabeller, skal man gøre<br />

følgende: Vælg Analyze Custom Tables Basic Tables<br />

• I Summaries indsættes den eller de variabler, der skal beregnes gennemsnit eller andre<br />

beskrivende mål for.<br />

• Subgroups bruges <strong>til</strong> at lave flerdimensionelle tabeller.<br />

• Variable som indsættes i Down boksen vises i venstre side af tabellen<br />

• Variable som indsættes i Across boksen vises i øverste del af tabellen.<br />

• Vælges ’Statistics…’ er der mulighed for at medtage andre tal end gennemsnit, som er<br />

default. Eksempelvis kan minimum, maximum og median vælges.<br />

• Vælges ’Layout…’ er der mulighed for at ændre på udseendet af outputtet. Eksempelvis<br />

kan man vælge at lade variable i Down boksen blive vist i den øverste del af tabellen, og<br />

omvendt med variable fra Across boksen.<br />

• Vælges ’Totals…’ er der mulighed for at medtage totalsummen for hver gruppevariabel.<br />

• Vælges ’Format…’ kan missing-values sættes <strong>til</strong> 0.<br />

• Vælges ’Titles…’ kan titlerne på tabellen ændres.<br />

5.1 Basic Table output<br />

Et eksempel på et Basic Table output ses i nedenstående tabel. Outputtet viser inds<strong>til</strong>lingerne<br />

valgt i dialogboksen ovenfor, dvs. respondenternes gennemsnitlige vægt delt op i grupper<br />

baseret på køn, uddannelsesretning og fremtidig forventet indkomst.<br />

28


Simple tabeller<br />

Education<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

Expect income > 300.000<br />

Group Total<br />

Expect income > 300.000<br />

Group Total<br />

Expect income > 300.000<br />

Group Total<br />

Expect income > 300.000<br />

Group Total<br />

Expect income > 300.000<br />

Group Total<br />

Yes<br />

No<br />

Yes<br />

No<br />

Yes<br />

No<br />

Yes<br />

No<br />

Yes<br />

No<br />

Your weight<br />

Your weight<br />

Your weight<br />

Your weight<br />

Your weight<br />

Sex<br />

Female Male Group Total<br />

61 78 72<br />

61 74 70<br />

61 77 72<br />

63 78 73<br />

62 78 72<br />

63 78 73<br />

61 77 70<br />

61 75 65<br />

61 77 69<br />

62 78 70<br />

55 74 70<br />

61 78 70<br />

58 73 69<br />

61 83 73<br />

59 76 70<br />

Det ses at Group Total er medtaget i dette eksempel. Outputtet kan have forskelligt udseende,<br />

afhængig af, hvilke valgmuligheder der er aktiveret ved ops<strong>til</strong>ling af tabellen.<br />

29


Frekvenstabeller side 30<br />

6 Frekvenstabeller<br />

<strong>SPSS</strong> har forskellige muligheder for at lave frekvenstabeller. Dette kapitel beskriver én<br />

metode, men i afsnit 4 vises en anden metode. Fremgangsmåden er her som følger: Vælg<br />

Analyze Custom Tables Tables of frequencies<br />

Følgende dialogboks fremkommer derpå:<br />

• I Frequencies for indsættes de variabler som skal optælles.<br />

• I Subgroups laves eventuelle undergrupper.<br />

• Indsættes variablen i In Each Table opdeles den i kolonner øverst i tabellen.<br />

• Indsættes variablen i Separate Tables ops<strong>til</strong>les en ny tabel for hver undergruppe.<br />

• Vælges ’Statistics…’ er der bl.a. mulighed for at få %-tallene for hver gruppe med.<br />

• Vælges ’Layout…’ er der mulighed for at ændre på placeringen af variablerne i<br />

outputtet.<br />

• Vælges ’Format…’ er der mulighed for at sætte missing values <strong>til</strong> 0.<br />

• Vælges ’Titles…’ kan titlerne på tabellen ændres.<br />

30


Frekvenstabeller side 31<br />

6.1 Table of frequencies output<br />

I det nedenstående ses et eksempel på et output af en frekvenstabel, svarende <strong>til</strong> de<br />

inds<strong>til</strong>linger, der er angivet i dialogboksen ovenfor<br />

Education<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

Sex<br />

Sex<br />

Sex<br />

Sex<br />

Sex<br />

Female<br />

Male<br />

Female<br />

Male<br />

Female<br />

Male<br />

Female<br />

Male<br />

Female<br />

Male<br />

Expect income > 300.000<br />

Expect income > 300.000<br />

Expect income > 300.000<br />

Expect income > 300.000<br />

Expect income > 300.000<br />

Expect income > 300.000<br />

Expect income > 300.000<br />

Expect income > 300.000<br />

Expect income > 300.000<br />

Expect income > 300.000<br />

Yes<br />

No<br />

Count % Count %<br />

37 69,8% 16 30,2%<br />

75 74,3% 26 25,7%<br />

36 78,3% 10 21,7%<br />

76 80,0% 19 20,0%<br />

21 60,0% 14 40,0%<br />

28 84,8% 5 15,2%<br />

26 96,3% 1 3,7%<br />

26 86,7% 4 13,3%<br />

6 60,0% 4 40,0%<br />

15 75,0% 5 25,0%<br />

Udseendet kan være forskelligt, alt efter hvordan man har defineret layoutet for ens tabel.<br />

Det ses, at %-tallene for hver gruppe er medtaget, og at variablerne Education og sex<br />

figurerer som undergrupper.<br />

Tabellen viser altså eksempelvis hvor stor en andel, der forventer at tjene henholdsvis<br />

over/under 300.000 kr. i fremtiden, inddelt i grupper baseret på køn og uddannelsesretning.<br />

Således forventer kun 60 % af de kvindelige BA(Int.)’ere at tjene over 300.000 mens hele<br />

96,3 % af de kvindelige HA(Jur.) studerende gør.<br />

31


Beskrivende mål – Descriptives<br />

7 Beskrivende mål – Descriptives<br />

Det er ofte ønskværdigt at få en række beskrivende mål for en bestemt variabel – herunder<br />

gennemsnit og standardafvigelse. Dette findes under: Analyze Descriptive Statistics <br />

Descriptives.<br />

Følgende dialogboks fremkommer:<br />

• I Variable(s) indsættes den/de variabler som ønskes beskrevet.<br />

• Ved at afkrydse Save standardized values as variables gemmes de standardiserede<br />

residualer som en ny variabel i datasættet.<br />

• ’Options…’ giver mulighed for at vælge de ønskede beskrivende mål.<br />

7.1 Descriptive Statistics output<br />

I nedenstående er vist et eksempel på et output af beskrivende statistik. Outputtets udseende<br />

er afhængig af, hvilke valgmuligheder som er aktiveret. I dette <strong>til</strong>fælde vises beskrivende<br />

statistik for det adgangsgivende karaktergennemsnit.<br />

Average marks (Karakter)<br />

at qualifying exam<br />

Valid N (listwise)<br />

Descriptive Statistics<br />

N Minimum Maximum Mean Std. Deviation<br />

445 6,3 10,4 8,476 ,738<br />

445<br />

32


Frekvenser og beskrivende mål<br />

8 Frekvenser og beskrivende mål<br />

I henhold <strong>til</strong> de to foregående afsnit, er det muligt at udtrække såvel beskrivende mål som<br />

frekvenser på én gang. Ydermere skal dette menupunkt bruges, hvis man ønsker at se<br />

kvar<strong>til</strong>er og plots af frekvenserne. Vælg: Analyze Descriptive Statistics Frequencies<br />

hvorved følgende fremkommer:<br />

• I Variable(s) indsættes den/de variabler der ønskes mål for.<br />

• Vælges Display frequency tables udskrives der en frekvenstabel i outputtet, som viser<br />

hyppigheden og andelen af hver udfald.<br />

• Vælges ’Statistics…’ er der mulighed for at medtage forskellige beskrivende mål<br />

såsom gennemsnit, standardafvigelse og skævhedsmål. Derudover kan vælges at<br />

udskrive percen<strong>til</strong> værdier af forskellig slags.<br />

33


Frekvenser og beskrivende mål<br />

• Vælges ’Charts…’ er der mulighed for at lave plot af frekvenstabellerne. Den mest<br />

anvendte er histogrammet med en normalfordelingskurve, som illustreret ovenfor.<br />

Denne giver mulighed for at foretage en grafisk vurdering af, hvorvidt den valgte<br />

variabel er normalfordelt.<br />

• Vælges ’Format…’ er der mulighed for at formatere tabellen efter eget ønske.<br />

8.1 Frequencies output<br />

Vælges inds<strong>til</strong>lingerne som vist ovenfor fås følgende output, som viser forskellige mål for det<br />

gennemsnitlige antal genstande indtaget i ugen før rusugen. Var der valgt statistik for mere<br />

end én variabel, ville de følgende output blive udskrevet for hver variabel.<br />

Statistics<br />

Drinks (Genstande), number of in week 34<br />

N<br />

Valid<br />

Missing<br />

Mean<br />

Median<br />

Std. Deviation<br />

Skewness<br />

Std. Error of Skewness<br />

Kurtosis<br />

Std. Error of Kurtosis<br />

Percen<strong>til</strong>es<br />

25<br />

50<br />

75<br />

455<br />

0<br />

12,19<br />

10,00<br />

12,30<br />

1,888<br />

,114<br />

5,155<br />

,228<br />

3,00<br />

10,00<br />

18,00<br />

34


Frekvenser og beskrivende mål<br />

Valid<br />

Frequency<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

Drinks (Genstande), number of in week 34 (uddrag)<br />

0<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

8<br />

9<br />

10<br />

11<br />

12<br />

13<br />

14<br />

15<br />

Frequency Percent Valid Percent<br />

Cumulative<br />

Percent<br />

70 15,4 15,4 15,4<br />

6 1,3 1,3 16,7<br />

27 5,9 5,9 22,6<br />

11 2,4 2,4 25,1<br />

26 5,7 5,7 30,8<br />

32 7,0 7,0 37,8<br />

9 2,0 2,0 39,8<br />

11 2,4 2,4 42,2<br />

17 3,7 3,7 45,9<br />

6 1,3 1,3 47,3<br />

46 10,1 10,1 57,4<br />

2 ,4 ,4 57,8<br />

23 5,1 5,1 62,9<br />

4 ,9 ,9 63,7<br />

8 1,8 1,8 65,5<br />

30 6,6 6,6 72,1<br />

Drinks (Genstande), number of in week 34<br />

0<br />

N = 455,00<br />

0,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0<br />

5,0 15,0 25,0 35,0 45,0 55,0 65,0<br />

Drinks (Genstande), number of in week 34<br />

Std. Dev = 12,30<br />

Mean = 12,2<br />

35


Grafiske plots (Chart Editor)<br />

9 Grafiske plots (Chart Editor)<br />

I Chart Editor er det muligt at redigere grafer. Editoren aktiveres ved at dobbeltklikke på den<br />

graf man ønsker at redigere. Chart Editor er et separat vindue i lighed med Data Editor og<br />

Output viewer. Er man i gang med redigering af en graf, vil denne være grå-skraveret i output<br />

viewer’en, ind<strong>til</strong> Chart Editor bliver lukket ned igen, som vist nedenfor<br />

I Chart Editor kan man redigere stort set alle dele af grafen, samt indsætte referencelinier<br />

m.m.. Fremgangsmåden minder i grove træk om Excel’s graf funktion og vil blive præsenteret i<br />

det følgende.<br />

9.1 Indsættelse af referencelinier<br />

I chart-editorens hovedmenu vælges Chart Reference Line. Derefter vælges, hvilken akse<br />

linien skal gå ud fra (Interval = X-aksen og Scale = Y-aksen), og nedenstående dialogboks<br />

fremkommer.<br />

Her skal det specificeres hvor linien/linierne skal ligge. Dette gøres i menuvinduet på næste<br />

side. Først indtastes den ønskede værdi i feltet Position of Line(s) hvorefter linien <strong>til</strong>føjes listen<br />

ved at trykke ’Add’.<br />

36


Grafiske plots (Chart Editor)<br />

Når de ønskede referencelinier er indtastet trykkes ’OK’, hvorved de <strong>til</strong>føjes på grafen som vist<br />

nedenfor.<br />

9.2 Indsættelse af Trend Linie<br />

I hovedmenuen vælges Chart Options. Her er der bl.a. mulighed for at indsætte en<br />

trendlinie under Fit line. I undermenuen ’Fit options…’ er der mulighed for at vælge<br />

regressionstypen ex. lineær, kvadratisk osv, samt definere Regression Prediction Line(s)<br />

(Konfidensbånd for den regresserede linie).<br />

9.3 Redigering af akser<br />

Skal akserne redigeres, gøres dette under Chart Axis i hovedmenuen. Her er mulighed for<br />

at specificere interval og skala på akserne samt ændre navngivning mv.<br />

37


Grafiske plots (Chart Editor)<br />

38


Normalitetstest, outliers og probitplot<br />

10 Normalitetstest, outliers og probitplot<br />

Ofte vil det være aktuelt at teste for normalitet og lave et probitplot. Herved kan det<br />

undersøges, hvorvidt forudsætningerne for de efterfølgende tests er opfyldt. Endvidere kan<br />

det være fornuftigt at lave en eksplorativ test for at undersøge, hvilke observationer der kan<br />

betragtes som outliers. Disse vil da under normale omstændigheder kunne ekskluderes inden<br />

den statistiske analyse. Test for normalitet og probitplot findes under:<br />

Analyze Descriptive Statistics Explore<br />

Og følgende dialogboks fremkommer:<br />

• I Dependent List indsættes de variabler, der skal testes for.<br />

• I Factor List er der mulighed for at opdele den afhængige variabel ud fra en<br />

nominalskaleret variabel. Her kan køn eksempelvis placeres, hvilket betyder at de<br />

valgte statistikker bliver vist separat for både mænd og kvinder.<br />

• Under Display skal Both afkrydses hvis man både ønsker plot og teststatistik.<br />

• Vælges ’Statistics…’ er der mulighed for at vælge signifikansniveau, outliers og<br />

percen<strong>til</strong>er mv., som vist nedenfor.<br />

39


Normalitetstest, outliers og probitplot<br />

• Under ‘Plots…’ vælges ”Normality plots with tests”, som vist nedenfor. Det interessante<br />

her er de to tests der laves - nemlig: ”Kolmogorov-Smirnov-testet” og ”Shapiro-Wilktestet”<br />

(sidstnævnte laves dog kun, hvis stikprøven ikke overstiger 50). I stedet for det<br />

Q-Q plot, der fremkommer i forbindelse med denne funktion, anbefales det dog at<br />

bruge den makro, som IT-afdelingen har udviklet, der laver et decideret probitplot (se<br />

nærmere herom i afsnit 19.5).<br />

• Vælges ’Options…” åbnes muligheden for at ekskludere variabler i en bestemt ønsket<br />

rækkefølge eller bare rapportere om status.<br />

10.1 Explore output<br />

Følgende er udsnit af det output, der fremkommer ud fra de valgte muligheder. Øverste tabel<br />

viser normalitetstestet, mens den nederste viser statistik <strong>til</strong> identifikation af eventuelle outliers.<br />

Tests of Normality<br />

Kolmogorov-Smirnov<br />

Statistic df Sig.<br />

Your weight ,053 451 ,004<br />

a<br />

a.<br />

Lilliefors Significance Correction<br />

40


Normalitetstest, outliers og probitplot<br />

Your weight<br />

Highest<br />

Lowest<br />

Extreme Values<br />

1<br />

2<br />

3<br />

4<br />

5<br />

1<br />

2<br />

3<br />

4<br />

5<br />

Case Number Value<br />

251 118<br />

449 105<br />

175 105<br />

16 104<br />

256 103<br />

304 47<br />

329 47<br />

287 48<br />

164 48<br />

25 , a<br />

a.<br />

Only a partial list of cases with the value 48 are shown<br />

in the table of lower extremes.<br />

41


Korrelationsmatricer side 42<br />

11 Korrelationsmatricer<br />

Der kan i <strong>SPSS</strong> anvendes tre forskellige metoder <strong>til</strong> udarbejdelse af korrelationsmatricer,<br />

hvoraf den ene - bivariate korrelationer (beregning af Pearsons korrelationskoefficient) - er<br />

den mest anvendte på HA-studiet.<br />

11.1 Korrelationsmatrice<br />

Den mest almindelige form for generering af en korrelationsmatrice findes ved at vælge:<br />

Analyze Correlate Bivariate…<br />

• I Variables indsættes de variabler der ønskes medtaget i korrelationsmatricen.<br />

• I Correlation Coefficients afkrydses de korrelationskoefficienter der skal beregnes. Det<br />

normale valg er Pearson.<br />

• Under Test of Significance vælges testformen – ensidet eller tosidet. Det bemærkes at<br />

de signifikante korrelationer som udgangspunkt markeres med */** pga. Flag signifikant<br />

correlations. Det skal endvidere pointeres, at signifikante korrelationer ikke er<br />

ensbetydende med, at de pågældende variabler er signifikante i en<br />

regressionsanalyse.<br />

• Vælges ’Options…’ åbnes muligheden for at beregne middelværdi og<br />

standardafvigelse. Endvidere er der mulighed for at vælge nogle krydsproduktstørrelser.<br />

42


Korrelationsmatricer side 43<br />

11.2 Bivariate Correlation output<br />

Af outputtet nedenfor ses det at variablerne Your height og Your Weight er ret kraftigt<br />

korreleret, med en koefficient på 0,749. Derimod er korrelationen mellem karakter og de to<br />

øvrige variabler ret beskeden.<br />

Endvidere viser output-tabellen tosidede signifikansniveauer for korrelationen mellem de<br />

enkelte variabler, samt det samlede antal af observationer inkluderet i testen for korrelation.<br />

Your height<br />

Your weight<br />

Average marks (Karakter)<br />

at qualifying exam<br />

Correlations<br />

Pearson Correlation<br />

Sig. (2-tailed)<br />

N<br />

Pearson Correlation<br />

Sig. (2-tailed)<br />

N<br />

Pearson Correlation<br />

Sig. (2-tailed)<br />

N<br />

**.<br />

Correlation is significant at the 0.01 level (2-tailed).<br />

Your height Your weight<br />

Average<br />

marks<br />

(Karakter) at<br />

qualifying<br />

exam<br />

1,000 ,749** -,029<br />

, ,000 ,546<br />

454 450 444<br />

,749** 1,000 -,124**<br />

,000 , ,009<br />

450 451 442<br />

-,029 -,124** 1,000<br />

,546 ,009 ,<br />

444 442 445<br />

43


T-Test<br />

12 T-Test<br />

12.1 Simpel T-test 1<br />

Simpel T-test bruges, når man ønsker at teste, om en variabels gennemsnit er lig med en<br />

given middelværdi. F.eks. kunne man ønske at teste, om det adgangsgivende<br />

karaktergennemsnit for studerende på handelshøjskolen kan antages at være 6. Der er altså<br />

tale om en to-sidet test, hvis hypotese ser ud som følger:<br />

H<br />

H<br />

0<br />

1<br />

: µ<br />

: µ<br />

karakter<br />

karakter<br />

= 6<br />

≠ 6<br />

Proceduren er som følger: Analyze Compare means One-sample T-Test<br />

Den ønskede variabel føres over i Test Variable(s) og teststørrelsen fra hypotesen angives i<br />

Test Value. Det skal bemærkes at denne værdi gælder for alle de valgte variabler. Under<br />

’Options…’ vælges det ønskede konfidensniveau. Som standard beregnes et 95%konfidensinterval.<br />

12.1.1 Output<br />

I det følgende output kan det ses, at der testes på, hvorvidt den valgte variabels gennemsnit er<br />

lig med testværdien 6.<br />

1 For uddybning af teorien bag se : Aczel (1999) kap. 7.1 og 7.2 og Keller (2002) kap. 11.3<br />

44


T-Test<br />

Average marks (Karakter)<br />

at qualifying exam<br />

One-Sample Test<br />

Test Value = 6<br />

Mean<br />

95% Confidence<br />

Interval of the<br />

Difference<br />

t df Sig. (2-tailed) Difference Lower Upper<br />

70,764 444 ,000 2,476 2,407 2,545<br />

I outputtet ses såvel testets t-observator som det <strong>til</strong>hørende konfidensinterval. Det mest<br />

interessante i forbindelse med t-testet er imidlertid feltet sig. som angiver p-værdien for det<br />

gennemførte test. Som det fremgår af outputtet ovenfor er p-værdien stort set lig nul, hvilket<br />

betyder at den ops<strong>til</strong>lede H0 hypotese forkastes og middelværdien derfor er forskellig fra 6. Det<br />

kan således afvises, at det adgangsgivende karaktergennemsnit er lig 6<br />

12.2 T-Test mellem 2 uafhængige stikprøver 2<br />

Ovenstående er dog ikke <strong>til</strong>strækkeligt, hvis man ønsker at sammenligne middelværdierne fra<br />

to uafhængige stikprøver. Et eksempel kunne være at teste hvorvidt, det adgangsgivende<br />

karaktergennemsnit kan antages at være ens for henholdsvis mænd og kvinder.<br />

Hypotesen for en sådan test ser ud som følger:<br />

H<br />

H<br />

0<br />

1<br />

: µ<br />

: µ<br />

karakter,<br />

mænd<br />

karakter,<br />

mænd<br />

= µ<br />

≠ µ<br />

karakter,<br />

kvinder<br />

karakter,<br />

kvinder<br />

⇔ µ<br />

⇔ µ<br />

karakter,<br />

mænd<br />

karakter,<br />

mænd<br />

− µ<br />

− µ<br />

karakter,<br />

kvinder<br />

karakter,<br />

kvinder<br />

Testen kan kun laves for to grupper. Hvis man ønsker at teste tre eller flere grupper, er man<br />

nødsaget <strong>til</strong> at anvende variansanalyse (ANOVA eller GLM – se afsnit 13 og 14). Testen laves<br />

ved at vælge Analyze Compare Means Independent-Samples T-test<br />

2 Aczel (1999) kap. 8.3 og 8.4 og Keller (2002) kap. 13.2<br />

= 0<br />

≠ 0<br />

45


T-Test<br />

• Variablen Average Marks vælges som testvariabel.<br />

• Variablen Sex vælges som gruppevariabel, og ’Define Groups…’ bruges <strong>til</strong> at definere<br />

de to værdier, som den pågældende grupperingsvariabel kan antage. I dette eksempel<br />

er de to grupper henholdsvis 1 for kvinde og 2 for mand.<br />

• ’Options…’ fastsætter konfidensinterval.<br />

Når de ønskede inds<strong>til</strong>linger er valgt trykkes ’OK’ og analysen gennemføres.<br />

Outputtet i dette eksempel er som følger (Independent samples test er kun et uddrag):<br />

Average marks (Karakter)<br />

at qualifying exam<br />

Average marks (Karakter)<br />

at qualifying exam<br />

Sex<br />

Female<br />

Male<br />

Group Statistics<br />

N Mean Std. Deviation<br />

Std. Error<br />

Mean<br />

170 8,534 ,712 5,463E-02<br />

275 8,440 ,753 4,539E-02<br />

Independent Samples Test<br />

Equal variances<br />

assumed<br />

Equal variances<br />

not assumed<br />

Levene's Test<br />

for Equality of<br />

Variances<br />

F Sig.<br />

t-test for Equality<br />

of Means<br />

t df<br />

,195 ,659 1,303 443<br />

1,320 373,200<br />

Øverste tabel i outputtet viser beskrivende statistik for den valgte variabel efter opdeling i de to<br />

grupper. I den nederste tabel ses resultatet af den statistiske analyse. Yderst <strong>til</strong> venstre i<br />

tabellen ses Levene’s Test for varianshomogenitet, og som det fremgår af p-værdien på 0,659<br />

er der varianshomogenitet. Dette betyder at det er værdierne på linien ”Equal Variances<br />

assumed”, der skal anvendes <strong>til</strong> at fortolke analysen. Som det fremgår midt i tabellen fås en<br />

tobs på 1,303, hvilket giver en p-værdi på 0,193. På baggrund heraf kan det altså konkluderes<br />

at H0 fastholdes, og der er dermed ikke belæg for at sige, at der er forskel mellem det<br />

adgangsgivende karaktergennemsnit for henholdsvis mænd og kvinder.<br />

46


T-Test<br />

12.3 T-Test på parvise stikprøver 3<br />

Skal der som ovenfor sammenlignes gennemsnit mellem to grupper, men de ikke er<br />

uafhængige, anvendes T-test for parvise stikprøver. Denne type test anvendes som oftest, når<br />

man ønsker at måle effekten af en behandling på én gruppe respondenter. Således måles<br />

gruppen henholdsvis før og efter en given behandling og disse to målinger sammenlignes<br />

herefter.<br />

En gruppe mennesker skal måles på deres matematiske kunnen før og efter et<br />

selvrealiseringskursus hos Karsten Mørch. I eksemplet er karakteren angivet i variablerne<br />

kar_mat1 og kar_mat2. Analysen foretages ved først at vælge Analyze Compare means <br />

Paired-Samples T-test<br />

Herefter indsættes de to variabler i dialogboksen med følgende udseende:<br />

Outputtet bliver nogenlunde som det ovenstående under T-Test mellem 2 uafhængige<br />

stikprøver. Vær opmærksom på, at begge variabler skal vælges, før de kan flyttes over under<br />

Paired Variables.<br />

3 Aczel (1999) kap. 8.2 og Keller (2002) kap. 13.4<br />

47


One-Way ANOVA<br />

13 One-Way Anova 4<br />

Hvis ønsket er at teste middelværdien i flere end 2 grupper, er man nødsaget <strong>til</strong> at anvende<br />

ANOVA. I det følgende vil brugen af one-way ANOVA blive gennemgået udfra et eksempel,<br />

hvor det ønskes testet, hvorvidt de studerendes vægt kan antages at være ens på tværs af de<br />

forskellige uddannelsesretninger. Bemærk at brugen af funktionen one-way ANOVA<br />

forudsætter at eksperimentet er balanceret, dvs. at der er lige mange observationer i hver<br />

gruppe. Er dette ikke opfyldt, skal funktionen GLM, beskrevet i næste afsnit, anvendes i<br />

stedet.<br />

Hypotesen for testen der gennemføres i det følgende er:<br />

H 0 :<br />

BsC B<br />

H<br />

1<br />

µ HA = µ HA(<br />

dat.)<br />

= µ BA(int)<br />

= µ HA(<br />

jur.)<br />

= µ<br />

: Mindst 2 forskellige<br />

Testen udføres ved at vælge Analyze Compare means One-Way ANOVA.<br />

Derefter fremkommer følgende dialogboks, hvor den/de ønskede variabler føres over i<br />

Dependent List:<br />

Under Factor skal selve klassifikationsvariablen stå. I dette eksempel er det variablen<br />

Education, som angiver den valgte uddannelsesretning. Denne variabel må ikke være af typen<br />

”String”. Er dette <strong>til</strong>fældet, skal den først omkodes – jf. afsnit 4.2.5.<br />

Der er dog nogle yderligere oplysninger der skal specificeres, inden testen kan gennemføres:<br />

• Vælges ’Options…’ er der mulighed for at medtage beskrivende mål samt teste for<br />

varianshomogenitet mellem grupperne (Levene’s test), hvilket er vist på figuren<br />

nedenfor. Sidstnævnte er en af forudsætninger for at gennemføre variansanalysen.<br />

4 Aczel (1999) kap. 9 og Keller (2002) kap. 15.2<br />

48


One-Way ANOVA<br />

Denne varianshomogenitetstest bliver dog normalt gennemført i undervisningen ved hjælp af<br />

Bartlett’s test, hvorfor der i IT-afdelingen er udviklet en makro, der netop udfører denne test<br />

(se afsnit 19.1).<br />

• Vælges ’Post Hoc…’ er der mulighed for at lave en del forskellige tests om forskelle<br />

mellem grupperne<br />

Dette sker på baggrund af forudsætning om enten varianshomogenitet eller<br />

variansheterogenitet. Det anbefales som regel at anvende Bonferroni’s test, som forudsætter<br />

varianshomogenitet, hvilket også er valgt i dette eksempel.<br />

49


One-Way ANOVA<br />

13.1 Output<br />

Outputtet fra ANOVA er som følger.<br />

Test of Homogeneity of Variances<br />

Your weight<br />

Levene<br />

Statistic df1 df2 Sig.<br />

,736 4 446 ,568<br />

Your weight<br />

Between Groups<br />

Within Groups<br />

Total<br />

Post Hoc Tests<br />

Dependent Variable: Your weight<br />

Bonferroni<br />

(I) Education<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

(J) Education<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

HA1-6<br />

BA int<br />

HA jur<br />

BSc B<br />

HA1-6<br />

HA7-10,dat<br />

HA jur<br />

BSc B<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

BSc B<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

ANOVA<br />

Sum of<br />

Squares df Mean Square F Sig.<br />

1064,936 4 266,234 1,788 ,130<br />

66408,332 446 148,898<br />

67473,268 450<br />

Multiple Comparisons<br />

Mean<br />

Difference<br />

95% Confidence Interval<br />

(I-J) Std. Error Sig. Lower Bound Upper Bound<br />

-,93 1,42 1,000 -4,94 3,08<br />

3,40 1,77 ,554 -1,59 8,39<br />

1,96 1,89 1,000 -3,38 7,30<br />

1,64 2,44 1,000 -5,24 8,51<br />

,93 1,42 1,000 -3,08 4,94<br />

4,33 1,79 ,161 -,73 9,38<br />

2,89 1,91 1,000 -2,51 8,29<br />

2,57 2,45 1,000 -4,35 9,48<br />

-3,40 1,77 ,554 -8,39 1,59<br />

-4,33 1,79 ,161 -9,38 ,73<br />

-1,44 2,18 1,000 -7,60 4,73<br />

-1,76 2,67 1,000 -9,29 5,77<br />

-1,96 1,89 1,000 -7,30 3,38<br />

-2,89 1,91 1,000 -8,29 2,51<br />

1,44 2,18 1,000 -4,73 7,60<br />

-,32 2,75 1,000 -8,09 7,44<br />

-1,64 2,44 1,000 -8,51 5,24<br />

-2,57 2,45 1,000 -9,48 4,35<br />

1,76 2,67 1,000 -5,77 9,29<br />

,32 2,75 1,000 -7,44 8,09<br />

Udfra øverste tabel ses det, at der er varianshomogenitet, idet p-værdien er langt over 0,05.<br />

Endvidere kan det konkluderes udfra midterste tabel at H0 hypotesen skal fastholdes, idet p-<br />

50


One-Way ANOVA<br />

værdien er 0,13. Der er således ikke forskel på den gennemsnitlige vægt på tværs af de<br />

forskellige uddannelsesretninger.<br />

Nederste tabel som tester for eventuelle forskelle mellem de enkelte grupper er således ikke<br />

relevant i dette eksempel, men det bør nævnes at i <strong>til</strong>fælde af at H0 afvises, så vil forskellene<br />

mellem de enkelte niveauer kunne aflæses i denne.<br />

51


Generel variansanalyse<br />

14 Generel variansanalyse 5<br />

Variansanalysen er en statistisk metode <strong>til</strong> bestemmelse af eksistensen af forskelle mellem<br />

grupper med forskellige populations middelværdier. Den førnævnte mulighed med oneway-<br />

ANOVA kræver, at eksperimentet er balanceret (dvs. har lige mange observationer i hver<br />

gruppe), hvilket i mange <strong>til</strong>fælde ikke vil være opfyldt. Derudover giver den kun mulighed for at<br />

medtage én enkelt faktor, hvilket udelukker kørslen af en fler-faktor variansanalyse.<br />

Derfor er det nødvendigt at kunne bruge en mere generel fremgangsmåde ved<br />

variansanalyse, nemlig GLM. Det skal bemærkes at denne metode uden problemer kan<br />

anvendes i alle situationer, altså også der hvor man vil kunne nøjes med at køre analysen vha.<br />

one-way ANOVA.<br />

I følgende eksempel vil det blive undersøgt hvorvidt køn, valg af uddannelsesretning samt<br />

interaktionen mellem disse har betydning for den studerendes adgangsgivende karakter. Den<br />

fulde model bliver altså:<br />

Average Marks = µ + sex + education + sex*education<br />

Der vælges følgende: Analyze General Linear Model Univariate.<br />

Herved fremkommer følgende dialogboks:<br />

5 H265 kap. 7<br />

52


Generel variansanalyse<br />

Ved den simple, ensidede variansanalyse er det kun nødvendigt at føre den afhængige,<br />

intervalskalerede variabel over i Dependent Variable. I Fixed Factor(s) skal<br />

grupperingsvariablerne føres over. Dette er i vores <strong>til</strong>fælde de nominalskalerede variabler sex<br />

og education.<br />

Første skridt i en variansanalyse er at teste de ops<strong>til</strong>lede hypoteser. Hvis man afviser H0 (alle<br />

middelværdierne er ens), skal der analyseres videre for at se, hvilke middelværdier der ikke er<br />

ens.<br />

• Vælges ’Model…’ kan man enten specificere en Full factorial model, hvor alle<br />

interaktionsleddene bliver estimeret, eller man kan selv opbygge modellen vha.<br />

Custom. Sidstnævnte anbefales, da det gør den eventuelle efterfølgende<br />

modelreduktion nemmere. Sum of squares skal altid vælges <strong>til</strong> ”Type I”.<br />

Man specificerer modellen ved at klikke de effekter, man ønsker i modellen, over under Model.<br />

Under Build Term(s) vælges, om det er hovedeffekter eller interaktionseffekterne, der skal<br />

medtages fra de markerede variabler. Hvis man vil have interaktionen mellem sex og educatio<br />

med i modellen, kan denne medtages ved at markere begge variabler, vælge Interaktion under<br />

Build Term(s) og derefter klikke variablerne over. Her er det vigtigt, at man klikker over, så de<br />

simpleste effekter står øverst – dvs. hovedeffekter øverst, derefter 1. ordens<br />

interaktionseffekter, så 2. ordens interaktionseffekter osv..<br />

• Vælges ’Options…’ er der mulighed for at få udskrevet gennemsnittene for ens<br />

faktor(er) ved at placere dem i boksen Display Means for: som vist nedenfor. Ved at<br />

placere education der, udskrives altså karaktergennemsnittene separat for hver hold.<br />

Ønskes det overordnede gennemsnit X ligeledes udskrevet skal (overall) også <strong>til</strong>føjes.<br />

<strong>SPSS</strong> kan derudover sammenligne de valgte hovedeffekter (dog ikke<br />

interaktionseffekter; anvend i stedet ITA makro) ved at afkrydse Compare main effects.<br />

53


Generel variansanalyse<br />

Homogeneity tests skal ligeledes afkrydses, idet denne har direkte betydning for selve<br />

estimationen. Dog bruges Bartlett’s test ofte <strong>til</strong> denne test i undervisningen, hvorfor ITafdelingen<br />

har udviklet en makro <strong>til</strong> udførelse af denne test (se afsnit 19.1). Ønskes modellens<br />

parameter estimater udskrevet skal Parameter estimates afkrydses.<br />

Endvidere er det her muligt at ændre signifikansniveauet fra de 0,05, der som udgangspunkt<br />

er valgt.<br />

• Vælges ’Post hoc…’ kan der udføres tests på forskellene mellem grupperne. Dette<br />

sker på baggrund af forudsætningen om varianshomogenitet eller variansheterogenitet.<br />

F.eks. findes Bonferroni her, under antagelse af varianshomogenitet.<br />

54


Generel variansanalyse<br />

I dette vindue skal man flytte den/de faktorer, man ønsker Post hoc tests for, over i feltet Post<br />

Hoc tests for. Derefter vil man kunne vælge de tests, man ønsker udført. Her er valgt<br />

Bonferroni. Ofte vil man vente med at udregne simultane konfidensintervaller <strong>til</strong> man har<br />

reduceret modellen <strong>til</strong> den endelige model. Derudover skal det også påpeges at man normalt<br />

ikke anvender simultane KI’er <strong>til</strong> variable, der kun har to niveauer, som f.eks. sex. Simultane<br />

konfidensintervaller for interaktionseffekter må desværre beregnes manuelt, da <strong>SPSS</strong> ikke<br />

indeholder funktioner her<strong>til</strong>.<br />

14.1 GLM output<br />

Outputtet fra denne analyse er meget lig outputtet fra ANOVA – dog med visse forbedringer,<br />

da der her er mere information at hente. Outputtet vil dog afhænge af de valgmuligheder, man<br />

har benyttet sig af.<br />

Selve “ANOVA-tabellen” er vist nedenfor.<br />

Tests of Between-Subjects Effects<br />

Dependent Variable: Average marks (Karakter) at qualifying exam<br />

Source<br />

Corrected Model<br />

Intercept<br />

SEX<br />

9,545a Type I Sum<br />

of Squares df Mean Square F Sig.<br />

9 1,061 1,985 ,039<br />

31971,302 1 31971,302 59847,555 ,000<br />

,923 1 ,923 1,729 ,189<br />

EDUCATIO<br />

7,539 4 1,885 3,528 ,008<br />

SEX * EDUCATIO 1,083 4 ,271 ,507 ,731<br />

Error<br />

232,382 435 ,534<br />

Total<br />

32213,230 445<br />

Corrected Total 241,928 444<br />

a.<br />

R Squared = ,039 (Adjusted R Squared = ,020)<br />

55


Generel variansanalyse<br />

Det ses af ovenstående tabel, at såvel hovedeffekten sex som interaktionen er insignifikante.<br />

Ud fra det hierarkiske princip, skal interaktionen således fjernes fra modellen først. Dette<br />

gøres ved at vælge ’Model…’ og <strong>til</strong>bageføre interaktionen fra Model <strong>til</strong> Factors & Covariates .<br />

Efter fjernelse af interaktionen, viser det sig, at hovedeffekten sex stadig er insignifikant,<br />

hvorfor denne også fjernes på <strong>til</strong>svarende vis. Nedenstående tabel viser den endelige model,<br />

indeholdende educatio som eneste signifikante faktor. Som det fremgår vises ligeledes<br />

2<br />

forklaringsgraden R under tabellen nedenfor. Der skal dog gøres opmærksom på, at der i<br />

forbindelse med variansanalyse, normalt ikke konkluderes på denne størrelse. Til vurderingen<br />

af modellens signifikans, skal i stedet anvendes de gennemførte F-tests.<br />

Tests of Between-Subjects Effects<br />

Dependent Variable: Average marks (Karakter) at qualifying exam<br />

7,733a Type I Sum<br />

Source<br />

of Squares df Mean Square F Sig.<br />

Corrected Model<br />

4 1,933 3,632 ,006<br />

Intercept<br />

31971,302 1 31971,302 60067,171 ,000<br />

EDUCATIO<br />

7,733 4 1,933 3,632 ,006<br />

Error<br />

234,194 440 ,532<br />

Total<br />

32213,230 445<br />

Corrected Total 241,928 444<br />

a. R Squared = ,032 (Adjusted R Squared = ,023)<br />

I tabellen nedenfor er parameter estimaterne for modellen udskrevet under kolonnen B, samt<br />

de <strong>til</strong>hørende t-test.<br />

Parameter Estimates<br />

Dependent Variable: Average marks (Karakter) at qualifying exam<br />

Parameter<br />

Intercept<br />

[EDUCATIO=1]<br />

[EDUCATIO=2]<br />

[EDUCATIO=3]<br />

[EDUCATIO=4]<br />

[EDUCATIO=5]<br />

8,723 ,156 56,079 ,000 8,417 9,028<br />

-,284 ,166 -1,707 ,089 -,611 ,043<br />

-,255 ,167 -1,525 ,128 -,583 ,074<br />

-,032 ,179 -,176 ,860 -,383 ,320<br />

-,477 ,183 -2,606 ,009 -,837 -,117<br />

0a 95% Confidence Interval<br />

B Std. Error t Sig. Lower Bound Upper Bound<br />

. . . . .<br />

a. This parameter is set to zero because it is redundant.<br />

Har man under ’Options…’ valgt at udskrive gennemsnittene for de forskellige faktorer, får<br />

man nedenstående output. Øverste tabel viser det overordnede gennemsnit X mens tabellen<br />

nedenunder viser gennemsnittene for de forskellige udfald af variablen Education. Her ses at<br />

det overordnede karaktergennemsnit for alle respondenter er 8,513 mens eksempelvis<br />

HA(jur.) har et karaktergennemsnit på 8,246 og BscB har 8,723<br />

3. Grand Mean<br />

Dependent Variable: Average marks (Karakter) at<br />

qualifying exam<br />

95% Confidence Interval<br />

Mean Std. Error Lower Bound Upper Bound<br />

8,513 ,044 8,427 8,600<br />

56


Generel variansanalyse<br />

1. Education<br />

Dependent Variable: Average marks (Karakter) at qualifying exam<br />

Education<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

95% Confidence Interval<br />

Mean Std. Error Lower Bound Upper Bound<br />

8,439 ,059 8,323 8,555<br />

8,468 ,061 8,349 8,588<br />

8,691 ,088 8,517 8,865<br />

8,246 ,097 8,056 8,436<br />

8,723 ,156 8,417 9,028<br />

Som det fremgår af tabellerne ovenfor er der således forskel i karaktergennemsnittene på<br />

tværs af de forskellige studieretninger. Spørgsmålet er hvorvidt der er tale om signifikante<br />

forskelle. Dette undersøges i nedenstående tabel hvor Post Hoc tests gennemføres.<br />

Kan der påvises signifikante forskelle imellem grupper, ved en p-værdi på 0,05 eller derunder,<br />

er det illustreret i outputtet med symbolet *.<br />

Konklusionen bliver således, at BA (int) har et signifikant højere karaktergennemsnit end HA<br />

(jur.) Samtidig kan det konkluderes, at der ikke er signifikante forskelle at spore imellem de<br />

øvrige hold.<br />

Der gøres opmærksom på, at hvis den endelige model der er ops<strong>til</strong>let, indeholder<br />

interaktionseffekter så giver det ingen mening, at anvende den her beskrevne metode <strong>til</strong> at<br />

sammenligne hovedeffekternes niveauer. I stedet henvises <strong>til</strong> afsnit 19.6??? om bonferroni<br />

intervaller for 1.ordens interaktionseffekter, som giver mulighed for at foretage de nødvendige<br />

udregninger for at kunne drage konklusioner om interaktionseffekten i modellen.<br />

Multiple Comparisons<br />

Dependent Variable: Average marks (Karakter) at qualifying exam<br />

Bonferroni<br />

(I) Education<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

(J) Education<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

HA1-6<br />

BA int<br />

HA jur<br />

BSc B<br />

HA1-6<br />

HA7-10,dat<br />

HA jur<br />

BSc B<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

BSc B<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

Based on observed means.<br />

*.<br />

The mean difference is significant at the ,05 level.<br />

Mean<br />

Difference<br />

95% Confidence Interval<br />

(I-J) Std. Error Sig. Lower Bound Upper Bound<br />

-2,909E-02 8,457E-02 1,000 -,268 ,210<br />

-,252 ,106 ,180 -,552 4,747E-02<br />

,193 ,113 ,881 -,126 ,512<br />

-,284 ,166 ,886 -,753 ,185<br />

2,909E-02 8,457E-02 1,000 -,210 ,268<br />

-,223 ,107 ,382 -,526 7,974E-02<br />

,222 ,114 ,520 -9,965E-02 ,545<br />

-,255 ,167 1,000 -,726 ,216<br />

,252 ,106 ,180 -4,747E-02 ,552<br />

,223 ,107 ,382 -7,974E-02 ,526<br />

,446* ,131 ,007 7,593E-02 ,815<br />

-3,155E-02 ,179 1,000 -,536 ,473<br />

-,193 ,113 ,881 -,512 ,126<br />

-,222 ,114 ,520 -,545 9,965E-02<br />

-,446* ,131 ,007 -,815 -7,593E-02<br />

-,477 ,183 ,095 -,994 3,951E-02<br />

,284 ,166 ,886 -,185 ,753<br />

,255 ,167 1,000 -,216 ,726<br />

3,155E-02 ,179 1,000 -,473 ,536<br />

,477 ,183 ,095 -3,951E-02 ,994<br />

57


Generel variansanalyse<br />

14.2 Forudsætninger 6<br />

Til gennemførslen af variansanalysen hører en række forudsætninger, som skal være opfyldt,<br />

for at sikre validiteten af analysen og de deraf følgende fortolkninger. Følgende skal være<br />

opfyldt :<br />

1) Varianshomogenitet<br />

2) Normalfordelte fejlled<br />

3) Uafhængighed mellem fejlledene<br />

14.2.1 Varianshomogenitet<br />

For at teste for varianshomogenitet på tværs af de i testen involverede grupper,er det muligt at<br />

anvende såvel Bartlett’s som Levene’s test. I det følgende vil forudsætningen blive testet ved<br />

hjælp af Levene’s. For anvendelse af Bartlett’s test henvises <strong>til</strong> ITA’s makro, som er beskrevet<br />

i afsnit 19.1.<br />

Hypotesen <strong>til</strong> testet ser ud som følger:<br />

2 2<br />

2<br />

H 0 : σ 1 =<br />

σ 2 = ... = σ r<br />

H : Mindst 2<br />

1<br />

For at få <strong>SPSS</strong> <strong>til</strong> at køre Levene’s test skal funktionen aktiveres under kørslen af selve<br />

variansanalysen. Dette sker ved under menuen Analyze General Linear Model <br />

Univariate at vælge knappen ’Options…’ og aktivere Homogeneity tests. Dette medfører, at<br />

der <strong>til</strong> outputtet af variansanalysen <strong>til</strong>føjes følgende tabel.<br />

Levene's Test of Equality of Error Variances a<br />

Dependent Variable: Average marks (Karakter) at<br />

qualifying exam<br />

F df1 df2 Sig.<br />

1,412 9 435 ,180<br />

Tests the null hypothesis that the error variance of<br />

the dependent variable is equal across groups.<br />

a. Design: Intercept+EDUCATIO<br />

Som det fremgår er p-værdien <strong>til</strong> testet 0,18, hvilket betyder at H0 skal fastholdes, dvs. i dette<br />

<strong>til</strong>fælde er der varianshomogenitet og forudsætningen er opfyldt.<br />

14.2.2 Normalfordelte fejlled<br />

Forudsætningen om normalfordelte fejlled testes lettest ved at lave et probit plot udfra de<br />

standardiserede residualer. For beskrivelse af fremgangsmåden henvises <strong>til</strong> kapitel 19.5.<br />

6 H265 kap. 7.1.2<br />

forskellige<br />

58


Generel variansanalyse<br />

14.2.3 Uafhængighed mellem fejlledene<br />

Forudsætningen testes ved under menuen Graphs Scatter… at lave et plot af de<br />

standardiserede residualer op mod et observationsnummer. I dette plot skal der checkes for<br />

systematiske sammenhænge/ mønstre, hvilket ikke må optræde, hvis forudsætningen om<br />

uafhængighed skal være opfyldt<br />

Hvis der i datasættet ikke allerede er en variabel med observationsnummeret, kan en sådan<br />

<strong>til</strong>føjes under menupunktet Data Define Dates... I dialogboksen vælges Days, og trykkes<br />

’OK’, hvorefter der dannes en ny variabel.<br />

59


Regression<br />

15 Regression 7<br />

Selve grundlaget for regressionsmodellen er, at der muligvis eksisterer en funktionel lineær<br />

sammenhæng mellem to eller flere kontinuerte variabler. I sådanne <strong>til</strong>fælde ønsker man at<br />

<strong>til</strong>nærme den funktionelle sammenhæng vha. en funktion. Til dette formål anvendes<br />

regressionsanalyse.<br />

Eksempelvis kunne man ønske at forudsige respondenternes højde ud fra forældrenes højde<br />

samt respondenternes vægt. Dette kan estimeres vha. en regressionsmodel på følgende<br />

måde: Vælg Analyze Regression Linear<br />

Derefter fremkommer følgende dialogboks:<br />

• I Dependent indsættes den afhængige variabel (Y-variablen), som i dette <strong>til</strong>fælde er<br />

Your height.<br />

• De forklarende variabler (x-variablerne) indsættes i Independent(s). (Your weight, Your<br />

father’s height og Your mother’s height, ).<br />

• Method kan bruges <strong>til</strong> at eliminere de forklarende variabler automatisk (enten via<br />

stepwise, remove eller backward metoden), ud fra et givet signifikansniveau i en<br />

multipel regression. Som udgangspunkt elimineres de ikke automatisk.<br />

7<br />

Simpel lineær regression: Aczel (1999) kap. 10 og Keller (2002) kap. 18 og H265 kap. 2.<br />

Multipel regression: H265 kap. 3 og Aczel (1999) kap. 11 og Keller (2002) kap. 19<br />

60


Regression<br />

• Selection Variable kan bruges <strong>til</strong> at begrænse analysen <strong>til</strong> de observationer, der har en<br />

given værdi for en bestemt variabel. Man kunne f.eks. specificere analysen <strong>til</strong> kun at<br />

omhandle kvinderne ved at overføre ”Køn” <strong>til</strong> Selection Variable, hvorefter der klikkes<br />

på ’Rule…’ og værdien 1 indskrives.<br />

Den ops<strong>til</strong>lede regressionsmodel ser ud som følger:<br />

Your heighti = β0 + β1* Your weighti + β2* Your mother’s heighti +<br />

β3* Your father’s heighti + εi<br />

• Vælges ’Statistics…’ kan diverse tests og statistikker udføres. Her kan vælges selve<br />

estimaterne, kovariansmatricen, en test for model fit (ANOVA-tabel) og test for<br />

multikollinaritet (forudsætningstest) mfl. Endvidere kan Durbin-Watson testen for 1.<br />

ordens autokorrelation medtages.<br />

• Vælges ’Plot…’ kan der genereres forskellige plots. Denne liste er dog begrænset <strong>til</strong> de<br />

variabler, der forefindes i venstre felt. Derfor er listen ikke <strong>til</strong>strækkelig <strong>til</strong> senere<br />

forudsætningstests.<br />

61


Regression<br />

• ’Save…’ er vigtig at bruge i den henseende, at man har muligheden for at gemme<br />

nyttige informationer. Her tænkes specielt på residualerne og de standardiserede<br />

residualer, da disse skal bruges <strong>til</strong> senere forudsætningstest.<br />

I dette <strong>til</strong>fælde er der valgt kun at gemme ustandardiserede og standardiserede residualer.<br />

Disse bliver to nye variabler i datasættet, som man så kan bruge i senere beregninger og<br />

plots.<br />

62


Regression<br />

• ’Options…’ giver mulighed for at <strong>til</strong>passe F-testen i den automatiske<br />

elimineringsprocedure, hvis man havde valgt en sådan.<br />

15.1 Regression output<br />

Det ovenstående giver følgende output, der vil blive delt op i en generel del og en<br />

forudsætningsdel.<br />

15.1.1 Generel information<br />

Den første tabel indeholder summariske informationer om modellen – herunder<br />

determinationskoefficienten (forklaringsgraden). De to sidste tabeller er henholdsvis ANOVAtabellen<br />

med test af modellens fit samt en tabel indeholdende koefficienterne med test af<br />

disse og information om multicollinearitet.<br />

Model Summary b<br />

,778a Adjusted Std. Error of<br />

Model R R Square R Square the Estimate<br />

1<br />

,606 ,603 5,97<br />

a. Predictors: (Constant), Your father's height, Your<br />

weight, Your mother's height<br />

b. Dependent Variable: Your height<br />

ANOVA b<br />

22563,676 3 7521,225 211,270 ,000a Model<br />

Sum of<br />

Squares df Mean Square F Sig.<br />

1 Regression<br />

Residual 14667,209 412 35,600<br />

Total 37230,885 415<br />

a. Predictors: (Constant), Your father's height, Your weight, Your mother's height<br />

b.<br />

Dependent Variable: Your height<br />

63


Regression<br />

Coefficients a<br />

Unstandardized<br />

Coefficients<br />

Standardi<br />

zed<br />

Coefficien<br />

ts<br />

Model<br />

B Std. Error Beta t Sig.<br />

1 (Constant)<br />

61,308 10,723 5,718 ,000<br />

Your weight<br />

,529 ,025 ,686 21,457 ,000<br />

Your mother's height ,298 ,052 ,185 5,788 ,000<br />

Your father's height<br />

a. Dependent Variable: Your height<br />

,163 ,046 ,112 3,525 ,000<br />

Af udskriften fremgår det, at den estimerede regressionsmodel har følgende udseende:<br />

Your heighti = 61,308 + 0,529*Your weighti + 0,298* Your mother’s heighti + 0,163* Your<br />

father’s heighti + ei<br />

Endvidere fremgår det, at samtlige tre koefficienter samt konstantleddet er signifikante uanset<br />

signifikansniveau.<br />

15.1.2 Forudsætningstest 8<br />

<strong>SPSS</strong> kan anvendes <strong>til</strong> at vurdere følgende forudsætninger i en regressionsmodel:<br />

1. Multicollinearitet ved VIF-estimater.<br />

2. Normalfordelingstest via probitplot og plot af standardiserede residualer.<br />

3. Autokorrelationstest via Durbin-Watson og LM-test.<br />

4. Variansheteroscedasticitet via LM-test.<br />

Disse vil efterfølgende blive beskrevet nærmere.<br />

15.1.2.1 Multicollinearitet ved VIF-estimaterne<br />

VIF-estimaterne måler, om der eksisterer en høj grad af lineær sammenhæng mellem nogle af<br />

de forklarende variabler, hvilket helst ikke skulle forekomme. Hvis der er multicollinearitet<br />

(høje VIF-estimater), kan dette medføre, at koefficientestimaterne ikke kan tolkes partielt. Om<br />

der forekommer en sammenhæng mellem nogle af de forklarende variabler, kan ses ved den<br />

såkaldte VIF (variance inflation factor). VIF = 1/(1-Rx 2 ).<br />

De ønskede størrelser bliver angivet sammen med estimaterne og en separat tabel ved<br />

afkrydsning af Collinearity diagnostics under knappen ’Statistics…’ i dialogboksen. Følgende<br />

fremkommer som output <strong>til</strong> nærmere tolkning.<br />

8 H265 kap. 4 og Keller (2002) kap. 18.9 og 19.4 og Aczel (1999) kap. 11.6<br />

64


Regression<br />

Model<br />

1<br />

(Constant)<br />

Your weight<br />

Your mother's height<br />

Your father's height<br />

a. Dependent Variable: Your height<br />

15.1.2.2 Normalfordelingstest<br />

Coefficients a<br />

Unstandardized<br />

Standardi<br />

zed<br />

Coefficien<br />

Coefficients<br />

ts<br />

Collinearity Statistics<br />

B Std. Error Beta t Sig. Tolerance VIF<br />

61,308 10,723 5,718 ,000<br />

,529 ,025 ,686 21,457 ,000 ,936 1,069<br />

,298 ,052 ,185 5,788 ,000 ,932 1,073<br />

,163 ,046 ,112 3,525 ,000 ,949 1,053<br />

Normalfordelingstest kan laves på flere måder, blandt andet ved probitplot og plot af de<br />

standardiserede residualer.<br />

15.1.2.2.1 Probitplot<br />

Et probitplot af de standardiserede residualer foretages for at teste, om de standardiserede<br />

residualer kan antages at følge en normalfordeling (εi ~ NF). Der er i IT-afdelingen udviklet en<br />

makro, der laver dette probitplot. Makroen findes under menupunktet ITA Makro (se mere<br />

under afsnit 19.5).<br />

15.1.2.2.2 Plot af standardiserede residualer<br />

Dette plot er <strong>SPSS</strong> ikke født med, hvilket vil sige, at man skal hjælpe <strong>SPSS</strong> med at lave dette<br />

plot, hvor de standardiserede residualer plottes op mod den afhængige variabel, som her er<br />

Your height. Man skal her udnytte, at man under Save-dialogboksen gemte de<br />

standardiserede residualer som en ny variabel i datasættet. Denne variabel skal nemlig<br />

bruges <strong>til</strong> at lave et scatterplot sammen med variablen Your height. Der vælges Graphs <br />

Scatter Simple.<br />

Derefter fremkommer dialogboksen:<br />

65


Regression<br />

Her skal de standardiserede residualer, benævnt zre_1, være på Y-aksen og den afhængige<br />

variabel på X-aksen. Dette giver følgende output:<br />

Standardized Residual<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

-4<br />

150<br />

160<br />

Your height<br />

170<br />

180<br />

190<br />

200<br />

I afsnit 9 om Grafiske Plots ses, hvorledes man indsætter vandrette linier, som skærer Yaksen<br />

i -1,96og 1,96. Disse angives for at fungere som hjælpelinier <strong>til</strong> aflæsning. Omkring<br />

95% af observationerne skal gerne ligge inden for disse grænser.<br />

15.1.2.3 Autokorrelationstests<br />

Test for autokorrelation anvendes for at teste, om residualerne i modellen er højt korrelerede.<br />

Man kan teste dette på flere måder. Durbin-Watson testen kan bruges, når man ønsker at<br />

teste for 1. ordens autokorrelation, mens denne metode ikke er <strong>til</strong>strækkelig ved test for højere<br />

ordens autokorrelation. Hvis man ønsker at teste for 2. ordens autokorrelation eller højere, kan<br />

man anvende et LM-test.<br />

I dette afsnit fortsættes med den samme analyse, som vist ovenfor, selv om test for<br />

autokorrelation i dette materiale ikke er relevant. Dette skyldes at det anvendte eksempel ikke<br />

er baseret på tidsseriedata. Det er således måden at teste på, der fokuseres på her.<br />

15.1.2.3.1 Durbin Watson<br />

Kan vælges under ’Statistics…’. Outputtet kommer med under ”Model Summary”, som det kan<br />

ses under afsnit 15.1.1<br />

15.1.2.3.2 LM-test for autokorrelation<br />

Det skal som noget af det første noteres, at test for autokorrelation oftest kun anvendes når de<br />

foreliggende data er en tidsserie.<br />

IT-afdelingen har udviklet en makro som letter LM-testen betydeligt og det anbefales at bruge<br />

denne <strong>til</strong> at foretage testen. Beskrivelse af fremgangsmåden i forbindelse hermed kan findes i<br />

210<br />

66


Regression<br />

afsnit 19.8. Nedenstående fremgangsmåde er den manuelle og mere besværlige , som kan<br />

anvendes hvis man ikke har makroen <strong>til</strong>gængelig.<br />

LM-testen kræver, at man ”lagger” residualerne det antal gange, man ønsker at teste for<br />

autokorrelation. Hvis man f.eks. ønsker at teste for 3.ordens autokorrelation, skal man lagge<br />

residualerne, således at man opnår en variabel, der hedder lag_1, en variabel der hedder<br />

lag_2 og en der hedder lag_3. Dette kræver lidt benarbejde og foregår på følgende måde (dog<br />

kun demonstreret for lag_3): Start med at vælge Transform Compute.<br />

Herefter fremkommer følgende dialogboks:<br />

Under Target Variable angives det nye navn, som her er Lag_3. Feltet Numeric Expression<br />

udfyldes på følgende måde:<br />

1. Vælg ”LAG(variable,ncases)” under Functions og tryk på pilen, der peger op.<br />

2. Dobbeltklik på ”res_1”, og den vil blive ført over i funktionen.<br />

3. Skriv dernæst lagantallet bagefter ”res_1”, som her er tallet 3.<br />

4. Tryk på ok, og en ny lagget variabel er lavet.<br />

Man skal dog være opmærksom på, at de første tre observationer i en variabel, der er lagget<br />

tre gange, vil blive lig ”missing”. Dette betyder, at datasættet reduceres med tre observationer.<br />

For at undgå dette kan man evt. rette disse <strong>til</strong> 0 i Data Editoren, men oftest lader man dem<br />

være missing.<br />

Dernæst skal der igen laves en regressionsmodel. Dog skal den afhængige variabel her være<br />

residualet og de forklarende variabler udvides fra kun at indeholde de normale variabler <strong>til</strong><br />

også at indeholde de laggede residualer. Således demonstreret af følgende dialogboks på<br />

næste side:<br />

67


Regression<br />

Formålet med at estimere denne regressionsmodel er alene at få en R 2 -størrelse, da denne<br />

skal bruges i test af autokorrelation. Observatoren udregnes her som (t-k)* R 2 , hvor t er antal<br />

observationer (normalt benævnt n, men da det er en tidsrække, er betegnelsen t). Denne<br />

størrelse skal slås op i en χ 2 -fordeling med p-frihedsgrader. P er lig antallet af lags.<br />

15.1.2.4 LM-test for heteroskedasticitet<br />

Der er <strong>til</strong> nærværende test ligeledes udviklet en makro som letter proceduren betydeligt i<br />

forhold <strong>til</strong> den manuelle fremgangsmåde som beskrives nedenfor. For gennemgang af<br />

makroen henvises <strong>til</strong> afsnit 19.7<br />

Når forudsætningen om konstant varians på fejlleddet er brudt, er modellen belastet af<br />

heteroskedasticitet, dvs. var(εi) ej konstant. Denne test udføres ved at teste, om residualet<br />

opløftet <strong>til</strong> anden potens er relateret <strong>til</strong> nogle af variablerne i modellen. Derfor skal man her<br />

ops<strong>til</strong>le en regressionsmodel, hvor man forsøger at forklare det kvadrerede residual vha.<br />

forskellige lineære og ikke-lineære transformationer af de oprindelige forklarende variabler.<br />

For at være i stand <strong>til</strong> dette, skal der igen oprettes nogle nye variabler i datasættet; her<br />

bestående af (residualet) 2 og de forklarende variabler opløftet i anden (ex.(Your weight) 2 ) ved<br />

følgende transformation:<br />

68


Regression<br />

Vælg Transform Compute. Dermed fremkommer følgende dialogboks:<br />

I feltet Target variable angives igen navnet på den nye variabel, som i dette <strong>til</strong>fælde er<br />

Weight2. Denne opløftes i anden potens, og der trykkes på OK. Som tidligere nævnt skal dette<br />

gøres for alle de forklarende variabler og residualet.<br />

Disse nye variabler skal igen bruges i en ny regressionsmodel, som har følgende udseende:<br />

ei 2 = α0 + α1* Your weighti + α2*(Your weight)i 2 + α 3* Your father’s heighti + α4*(Your father’s<br />

height)i 2 + α5* Your mother’s heighti + α6*(Your mother’s height)i 2 + αi<br />

Modellen skal estimeres for at få R 2 -værdien frem, da denne skal bruges i testet n* R 2 , som<br />

bliver vurderet i en χ 2 -fordeling med k-frihedsgrader, hvor k er antallet af forklarende variabler i<br />

ovenstående regressionsmodel (her 6).<br />

15.1.3 Plot af regressionslinie<br />

Ved simpel regression vil det ofte være ønskeligt at lave et plot af de to variabler mod<br />

hinanden. Hvis man i eksemplet f.eks. blot ønskede at forudsige respondenternes vægt ud fra<br />

deres højde, kan man i <strong>SPSS</strong> plotte variablerne mod hinanden og derefter indsætte<br />

regressionslinien. Dette gøres ved at vælge Graphs Scatter Simple.<br />

Herefter vælges variablen Your height <strong>til</strong> x-aksen og variablen Your weight <strong>til</strong> y-aksen. For at<br />

indsætte regressionslinien dobbeltklikkes på grafen i output vinduet, og menupunktet Chart <br />

Options vælges og Total afkrydses under Fit Line. Grafen vil herefter fremkomme som vist<br />

nedenfor.<br />

69


Regression<br />

Your weight<br />

120<br />

100<br />

80<br />

60<br />

40<br />

150<br />

160<br />

Your height<br />

170<br />

180<br />

190<br />

200<br />

210<br />

70


Homogenitets- og Uafhængighedstest<br />

16 Homogenitets- og Uafhængighedstest 9<br />

Homogenitets- og uafhængighedstestene anvendes når man ønsker at teste for<br />

sammenhænge eller afhængighed mellem en række kvalitative data med nominel skalering.<br />

Formålet med begge test er således at bestemme, hvorvidt antallet af udfald i en bestemt<br />

gruppe eller kategori er afhængig af antal udfald i en anden. Disse grupper er ofte ops<strong>til</strong>let<br />

som række og kolonner i en antalstabel, og testen svarer derfor <strong>til</strong> at se, om der er<br />

sammenhæng mellem antallet af observationer i disse rækker og kolonner.<br />

Både Homogenitets- og uafhængighedstest er såkaldte ikke-parametriske test og de kan<br />

begge gennemføres vha. Analyze nonparametric tests. I dette afsnit vil der dog blive<br />

anvendt en anden analysemetode, der anvender en χ 2 -observator.<br />

16.1 Forskel mellem de to test<br />

Der er en række forskelle, som adskiller de to nævnte test fra hinanden. Uafhængighedstesten<br />

ser på, hvorvidt der er afhængighed mellem 2 variabler udtaget i én enkelt stikprøve. Det<br />

kunne eksempelvis være sammenhængen mellem køn og valgte uddannelsesretning, som<br />

gennemgås nedenfor. Homogenitetstesten behandler derimod kun 1 variabel men 2 eller flere<br />

separate stikprøver/delpopulationer. Det kunne eksempelvis være sammenhængen mellem<br />

resultatet af 2 eller flere meningsmålinger gennemført uafhængigt af hinanden. Der er flere<br />

forskellige forudsætninger for de to tests, disse forudsætninger gennemgås, i afsnit 16.5.<br />

Forskellen mellem de to test har dog ingen praktisk betydning for gennemførelsen af testet,<br />

idet såvel den anvendte χ 2 -observator som udførslen i <strong>SPSS</strong> er ens. Eneste forskel mellem de<br />

to bliver således den ops<strong>til</strong>lede hypotese, der ser ud som følger, afhængig af hvilke af de to<br />

test, der er tale om.<br />

H<br />

H<br />

0<br />

1<br />

: Homogenitet<br />

/<br />

: Ikke<br />

Homogenitet<br />

Uafhængighed<br />

/<br />

Ikke Uafhængighed<br />

16.2 Opbygning af datasættet<br />

el.<br />

afhængighed<br />

Inden selve testen køres i <strong>SPSS</strong>, er det vigtigt at det datasæt, der er indlæst opbygges rigtigt,<br />

ellers bliver outputtet fra analysen forkert. Der er to måder som datasættet kan være opbygget<br />

på, hvilket er illustreret på nedenstående skærmbilleder. På billedet <strong>til</strong> venstre er hver enkelt<br />

respondent indtastet som en separat række, således at antallet af rækker svarer <strong>til</strong> antallet af<br />

9 Aczel (1999) kap. 14.9 og Keller (2002) kap. 16.3 og H265 kap. 12.1.1 og 12.1.2<br />

71


Homogenitets- og Uafhængighedstest<br />

adspurgte. På billedet <strong>til</strong> højre repræsenterer hver række derimod de celler, som hver<br />

respondent kan falde ind under og den anførte antalsvariabel angiver, hvor mange der falder i<br />

hver.<br />

Anvendes førstnævnte opbygning kan den statistiske analyse umiddelbart gennemføres, mens<br />

sidstnævnte opbygning kræver at datasættet først vægtes med antalsvariablen, der her<br />

benævnes count. Dette gøres ved på menulinien at vælge Data Weight Cases…hvilket<br />

frembringer følgende dialogboks.<br />

Herefter vælges Weight cases by og antalsvariablen klikkes over i Frequency Variable-feltet,<br />

hvorefter der trykkes ’OK’.<br />

Datasættet er nu klar <strong>til</strong> den egentlige analyse<br />

72


Homogenitets- og Uafhængighedstest<br />

16.3 Gennemførsel af testet<br />

I det følgende gennemgås en uafhængighedstest som tager udgangspunkt i datasættet<br />

\\ita2\exemp\spss\Ha manual\rus98_eng.sav.<br />

Der ønskes undersøgt hvorvidt der er uafhængighed mellem de studerendes køn og den<br />

udd.retning de har valgt.<br />

Analysen udføres på følgende måse i <strong>SPSS</strong>.<br />

På menulinien vælges Analyze Descriptive Statistics Crosstabs… hvorved følgende<br />

dialogboks fremkommer.<br />

De to variabler hvorpå analysen ønskes kørt føres over i henholdsvis Row(s) og Column(s)<br />

felterne som vist ovenfor. Det er uden betydning for analysen i hvilket felt den enkelte variabel<br />

placeres, idet det kun har betydning for udseendet af den antalstabel som dannes.<br />

Efter dette er gjort skal inds<strong>til</strong>lingerne for den statistiske analyse opsættes, hvilket gøres på de<br />

tre knapper nederst på dialogboksen:<br />

• Vælges knappen ’Statistics…’ fremkommer dialogboksen nedenfor, og er det muligt at<br />

bestemme hvilke teststatistikker, der skal medtages i outputtet. Såvel homogenitets-<br />

som uafhængighedstesten anvender følgende χ 2 -observator :<br />

73


Homogenitets- og Uafhængighedstest<br />

(<br />

∑∑ −<br />

r c Oij<br />

E<br />

E<br />

i=<br />

1 j= 1 ij<br />

ij<br />

)<br />

2<br />

~ χ<br />

2<br />

( r−1)(<br />

c−1)<br />

For at anvende denne observator markeres feltet Chi-square og herefter trykkes<br />

’Continue’<br />

• Vælges knappen ’Cells…’ er det muligt at vælge, hvilke oplysninger/statistikker som<br />

skal medtages i den antalstabel som dannes i outputtet. Nedenstående dialogboks<br />

giver en lang række valg muligheder. De mest anvendte er Observed og Expected, der<br />

udskriver henholdsvis de observerede- og forventede værdier, hvilket anvendes <strong>til</strong> at<br />

udregne χ 2 observatoren. Derudover skal Standardized under Residuals markeres, idet<br />

de standardiserede residualer derved udskrives. Efter de ønskede valgmuligheder er<br />

markeret trykkes ’Continue’.<br />

74


Homogenitets- og Uafhængighedstest<br />

Herefter vender <strong>SPSS</strong> <strong>til</strong>bage <strong>til</strong> dialogboksen Crosstabs, og forudsat at alle inds<strong>til</strong>linger er<br />

som de ønskes trykkes ’OK’, hvorefter analysen køres.<br />

16.4 Output<br />

Køres analysen med de ovenfor valgte inds<strong>til</strong>linger fremkommer følgende output, som danner<br />

grundlag for fortolkning af analysens resultat.<br />

Sex<br />

Total<br />

Female<br />

Male<br />

Antalstabellen øverst indeholder de oplysninger, som blev valgt i ovenstående dialogboks,<br />

altså de forventede og observerede antal observationer samt det standardiserede residual i<br />

hver celle. I den anden tabel nedenfor er selve χ 2 observatoren og den <strong>til</strong>hørende p-værdi<br />

angivet. Det er Pearson Chi-Square teststatistik der skal anvendes. Som det fremgår er<br />

2<br />

χ obs her lig 10,992, hvilket er lig summen af de kvadrerede standardiserede residualer dvs.<br />

2<br />

2 2<br />

( − 0,<br />

8)<br />

+ ( −1,<br />

0)<br />

+ 1,<br />

9 .... . = 10,992<br />

2<br />

Den <strong>til</strong>hørende p-værdi, altså ( 10,<br />

992)<br />

> χ P bliver følgelig 0,027.<br />

Pearson Chi-Square<br />

Likelihood Ratio<br />

Linear-by-Linear<br />

Association<br />

Count<br />

Expected Count<br />

Std. Residual<br />

Count<br />

Expected Count<br />

Std. Residual<br />

Count<br />

Expected Count<br />

Sex * Education Crosstabulation<br />

( 4)<br />

Chi-Square Tests<br />

10,992a Value df<br />

Asymp. Sig.<br />

(2-sided)<br />

4 ,027<br />

10,806 4 ,029<br />

3,000 1 ,083<br />

N of Valid Cases<br />

455<br />

a. 0 cells (,0%) have expected count less than 5. The<br />

minimum expected count is 11,41.<br />

Education<br />

HA1-6 HA7-10,dat BA int HA jur BSc B Total<br />

53 47 36 27 10 173<br />

58,9 54,8 26,2 21,7 11,4 173,0<br />

-,8 -1,0 1,9 1,1 -,4<br />

102 97 33 30 20 282<br />

96,1 89,2 42,8 35,3 18,6 282,0<br />

,6 ,8 -1,5 -,9 ,3<br />

155 144 69 57 30 455<br />

155,0 144,0 69,0 57,0 30,0 455,0<br />

Anvendes eksempelvis et α-niveau på 0,05, betyder det at H0 afvises og det konkluderes, at<br />

der er afhængighed mellem køn og den valgte uddannelsesretning.<br />

75


Homogenitets- og Uafhængighedstest<br />

Spørgsmålet er så bare hvori afhængigheden består. Til at vurdere dette skal de<br />

standardiserede residualer i antalstabellen ovenfor anvendes. De standardiserede residualer<br />

er defineret som:<br />

SR<br />

ij<br />

O<br />

=<br />

ij<br />

− E<br />

E<br />

ij<br />

ij<br />

Altså som differencen mellem den observerede og forventede værdi divideret med<br />

kvadratroden af den forventede værdi.<br />

Som det fremgår af antalstabellen findes den største værdi på 1,9 hos pigerne på BA(int.).<br />

Dette betyder at det observerede antal piger på BA(int.) er betydeligt større end forventet hvis<br />

der var uafhængighed. På <strong>til</strong>svarende måde ses af en værdi på –1,5 for drengene på BA(int.),<br />

at det observerede antal drenge er noget mindre end det forventede antal.<br />

Konklusionen bliver altså at de to observerede variabler er afhængige og den primære<br />

afhængighed består i, at pigerne er overrepræsenteret på BA(Int.), mens drengene er<br />

underrepræsenteret. Denne afhængighed er dog ikke signifikant idet std.res < |1,96|. Dette er<br />

uheldigt idet en afvisning af H0 hypotesen oftest vil betyde, at der vil være mindst én enkelt<br />

signifikant afhængighed, dvs. hvor std.res > |1,96|.<br />

16.5 Forudsætninger<br />

En forudsætning for at den anvendte observator med rimelighed kan aproximeres <strong>til</strong> χ 2<br />

fordelingen, og at testens konklusionen dermed er brugbar, er at den forventede værdi i<br />

enhver celle Eij er større end 5. Dette aflæses udfra antalstabellen i afsnit 16.4, og som det<br />

fremgår, er den mindste forventede værdi på 11,4 hvorfor forudsætningen i dette <strong>til</strong>fælde er<br />

opfyldt.<br />

I situationer hvor der forekommer celler med en forventet værdi på under 5, kan analysens<br />

konklusion ikke med rimelighed anvendes. Forudsætningsbruddet skal derimod søges løst,<br />

hvilket oftest gøres ved at foretage sammenlægninger af nogle grupper i analysen, således at<br />

den forventede værdi igen bliver større end fem. For beskrivelse af fremgangsmåden i<br />

forbindelse hermed henvises <strong>til</strong> afsnit 4.3 om klassesammenlægning.<br />

Den sidste forudsætning for de to tests er at variablerne enten følger en multinomisk eller en<br />

k-dimensional hypergeometrisk fordeling. De to fordelinger svarer <strong>til</strong> hhv. en binomial fordeling<br />

og en hypergeometrisk fordeling, men med flere end 2 udfaldsmuligheder.<br />

76


Log-lineær model<br />

17 Log-lineær model 10<br />

17.1 Formål<br />

Formålet med den log-lineære analyse er at analysere, om der er sammenhænge mellem<br />

forskellige variablers niveauer (udfald). Udgangspunktet for den log-lineære model er en<br />

antalstabel, hvor de observerede værdier er kategoriseret i et antal celler. I det følgende går<br />

det ud på at estimere en model, som kan forklare det forventede antal i hver enkelt celle ved<br />

hjælp af en række u-effekter.<br />

Til test af en given model benyttes likelihood-ratio testeren – samt det hierarkiske princip med<br />

baglæns eliminering. Med udgangspunkt i den fulde model gennemføres der først en<br />

screeningsprocedure. Ved screeningen forsøger man at fjerne alle u-effekter af samme orden<br />

på én gang – f.eks. alle 2. ordenseffekter. Dette sker ved hjælp af betinget testning, hvilket vil<br />

sige, at man eksempelvis forsøger at fjerne alle 2. ordens effekter, givet at 3. ordens<br />

effekterne er fjernet.<br />

Efter screening forsøges de enkelte u-effekter elimineret individuelt, dvs. alle de u-effekter,<br />

som kan antages lig 0 fjernes fra modellen en ad gangen. Den model der fremkommer, kaldes<br />

den endelige model og er kendetegnet ved, at en eller flere af niveauerne for hver af de<br />

<strong>til</strong>passede marginaler er signifikant forskellig fra 0. For at finde de niveauer for hver u-effekt,<br />

som er signifikant forskellig fra 0, må man beregne de standardiserede u-effekter. Da dette<br />

desværre er meget besværligt i <strong>SPSS</strong>, vil denne del blive vist udført i programmet SAS.<br />

17.2 Løsning<br />

Den bedst anvendelige måde at lave en log-lineær analyse i <strong>SPSS</strong> er vha. Syntax-metoden.<br />

Ved denne metode skrives programkoder direkte i syntax-vinduet som fremkommer under<br />

menupunktet File New Syntax. Der henvises <strong>til</strong> afsnit 2.3, hvor en gennemgang i brugen<br />

af syntax-editoren findes.<br />

I det følgende vil der blive vist et eksempel på, hvordan man screener og eliminerer effekter<br />

ved hjælp af programkode.<br />

17.3 Model-eksempel<br />

Udgangspunktet for gennemgangen af log-lineær analysen er en undersøgelse af, om der er<br />

en sammenghæng mellem folks forventede indkomst som beskrives ved variablen expected<br />

income(sp02),deres køn (sex(sp01)) og deres uddannelsesretning (education(hold)).<br />

Den formulerede model kan derfor specificeres som en tre-dimensionel log-lineær model, hvor<br />

sammenhængen mellem expected income, sex og education skal belyses.<br />

10 H265 kap. 13<br />

77


Log-lineær model<br />

Der skal gøres opmærksom på, at datasættet ikke må indeholde ”huller” i rækkefølgen i de<br />

forskellige variablers udfald. F.eks. må rækkefølgen ikke være 1, 2 og 4, men skal i stedet<br />

omkodes forinden <strong>til</strong> 1, 2 og 3. Dette er meget vigtigt at huske, da <strong>SPSS</strong> ellers i det første<br />

<strong>til</strong>fælde vil opfatte situationen således, at der er nul observationer under tallet 3, dvs. som om<br />

muligheden for udfaldet tre foreligger.<br />

En forudsætning for at kunne benytte den log-lineære model er, at dataene er kategoriseret<br />

(optalt) i en antalstabel. Hvis dataene ligger som observationsværdier/caseværdier for hver<br />

enkelt respondent, som det eksempelvis er <strong>til</strong>fældet her, er man nødt <strong>til</strong> at lave en antalstabel,<br />

hvilket gøres ved hjælp af funktionen CROSSTABS. Nedenfor er vist programkoden for<br />

dannelsen af antalstabellen:<br />

Koden indtastes i syntax editoren som åbnes ved at vælge File New Syntax<br />

PROCEDURE OUTPUT OUTFILE = 'c:\ud.txt'.<br />

CROSSTABS<br />

/VARIABLES = hold(1,5) sp01 (1,2) sp02 (1,2)<br />

/TABLES hold BY sp01 BY sp02<br />

/CELLS = COUNT EXPECTED<br />

/WRITE = ALL.<br />

SET UNDEFINED = NOWARN.<br />

DATA LIST FILE = 'c:\UD.TXT'<br />

LIST /tal1 * tal2 * count * hold * sp01 * sp02.<br />

EXECUTE.<br />

Det ses af syntaxen at tal1 og tal2 er angivet. Disse tal er udelukkende kontrolvariabler og skal<br />

ikke bruges i den videre analyse. Der skal altid kun angives disse to variabler uanset antallet<br />

af variabler, man undersøger. De optalte værdier findes nu i variablen count.<br />

78


Log-lineær model<br />

Forventer indk. > 300.000<br />

Ja<br />

Nej<br />

Hold * Køn * Forventer indk. > 300.000 Crosstabulation<br />

Hold<br />

Total<br />

Hold<br />

Total<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Køn<br />

Kvinde Mand Total<br />

37 75 112<br />

40,8 71,2 112,0<br />

36 76 112<br />

40,8 71,2 112,0<br />

21 28 49<br />

17,8 31,2 49,0<br />

26 26 52<br />

18,9 33,1 52,0<br />

6 15 21<br />

7,6 13,4 21,0<br />

126 220 346<br />

126,0 220,0 346,0<br />

16 26 42<br />

18,2 23,8 42,0<br />

10 19 29<br />

12,5 16,5 29,0<br />

14 5 19<br />

8,2 10,8 19,0<br />

1 4 5<br />

2,2 2,8 5,0<br />

4 5 9<br />

3,9 5,1 9,0<br />

45 59 104<br />

45,0 59,0 104,0<br />

Efter optællingen i antalstabellen bør man altid tjekke det observerede antal i hver celle,<br />

eftersom der er nogle minimumskrav <strong>til</strong> det forventede antal i hver celle. Endvidere bør man<br />

være opmærksom på, om der er nul i en celle/klasse, da man ikke kan tage logaritmen <strong>til</strong> nul.<br />

En nem måde at omgås dette problem er ved at lægge 0.5 <strong>til</strong> hver enkelt celle, hvormed man<br />

samtidig korrigerer for, at man benytter χ 2 -fordelingen <strong>til</strong> diskrete data. Det anbefales altid at<br />

foretage denne korrektion.<br />

79


Log-lineær model<br />

Nedenfor er syntaxskoden vist, og som man bemærker, er der indlagt en ny variabel ved navn<br />

constant, der gør det muligt at teste, om samtlige effekter fra totaleffekten kan udelades –<br />

svarende <strong>til</strong> hypotesen H0 : Ln(npijk ) = u<br />

COMPUTE count = count + 0.5.<br />

COMPUTE constant =1.<br />

EXECUTE.<br />

Screening:<br />

Den egentlige log-lineære analyse kan herefter starte, da dataene nu foreligger på den<br />

nødvendige form. Først foretages en screening, hvor alle effekterne på et givet niveau søges<br />

fjernet vha. baglæns eliminering og med udgangspunkt i den fulde model, som i dette<br />

eksempel er givet ved:<br />

ln(mijk) = u + u1(i) + u2(j) + u3(k) (total- og hovedeffekter)<br />

+ u12(ij) + u13(ik) + u23(jk) (1. ordens interaktionseffekt)<br />

+ u123(ijk) (2. ordens interaktionseffekt)<br />

Den første hypotese, der skal testes i screeningen, er om 2. ordens interaktionseffekten kan<br />

udelades. Derfor ops<strong>til</strong>les hypotesen:<br />

H0 : u123(ijk) = 0 (2. ordens interaktion kan screenes ud)<br />

H1 : Den fulde model er signifikant<br />

Hypotesen testes i <strong>SPSS</strong> med nedenstående kode. Det bemærkes, at der under denne<br />

metode skal angives et WEIGHT-statement, som refererer <strong>til</strong> den variabel, der indeholder de<br />

observerede antal.<br />

WEIGHT BY count.<br />

LOGLINEAR hold(1,5) sp01(1,2) sp02(1,2) WITH constant<br />

/PRINT NONE<br />

/DESIGN constant hold sp01 sp02 hold * sp01 hold * sp02 sp01 * sp02.<br />

Det skal her bemærkes, at alle led i modellen inkl. hovedeffekterne skal skrives manuelt, da<br />

<strong>SPSS</strong> ikke automatisk følger det hierarkiske princip. De eneste led der undlades fra Design<br />

statement’et ovenfor er således 2. ordens interaktionerne, som der jo testet for. Det er et<br />

generelt princip i forbindelse med analyserne, at det/de led der ønskes testet for, skal<br />

udelades af /Design statementet.<br />

Køres koden nu, får man følgende output.<br />

80


Log-lineær model<br />

Goodness-of-Fit test statistics<br />

Likelihood Ratio Chi Square = 5,68223 DF = 4 P = ,224<br />

Pearson Chi Square = 5,53029 DF = 4 P = ,237<br />

Som nævnt tidligere anvendes Likelihood Ratio testeren.<br />

Til hypotesen H0 : u123(ijk) = 0 får man en G 2 -størrelse på 5,68 med 4 frihedsgrader, hvilket ved<br />

opslag i χ 2 -fordelingen giver en p-værdi på 0,224. Der er med andre ord stor støtte for den<br />

ops<strong>til</strong>lede H0-hypotese. Da p-værdien er over de traditionelle 0,05, kan H0 fastholdes, hvormed<br />

2. ordenseffekten kan udelades af modellen. På samme vis fortsættes med de øvrige<br />

screenings-tabeller – blot med den <strong>til</strong>føjelse, at vi tester op imod den forrige sande model.<br />

Denne måde at teste på kaldes for betinget testning, og resultatet er vist i nedenstående tabel.<br />

Hypoteser Variation (G 2 ) Frihedsgrader p-værdi<br />

H(123) 5,68 4 0,22<br />

H(12,13,23 | 123) 28,46 – 5,68 = 22,78 13 – 4 = 9 0,07<br />

H(1,2,3 | 12,13,23) 320,64 – 28,46 = 292,18 19-13 = 6 0,00<br />

H(0) 320,64 IJK – 1 = 19 -<br />

Af tabellen fremgår, at man ikke kan fjerne samtlige hovedeffekter. Det næste man derfor må<br />

teste er, om man kan eliminere én eller flere af hovedeffekterne separat, hvilket gøres i næste<br />

afsnit.<br />

Hvis man ville teste for hovedordenseffekternes signifikans, skal den oprettede konstant<br />

inddrages i modellen på følgende vis:<br />

WEIGHT BY count.<br />

LOGLINEAR hold(1,5) sp01(1,2) sp02(1,2) WITH constant<br />

/PRINT NONE<br />

/DESIGN constant.<br />

17.3.1 Effekt-eliminering<br />

Eliminering foregår ved, at man estimerer en reduceret model – dvs. hvor man udelader et<br />

eller flere led i forhold <strong>til</strong> den fuldstændige model. Det led, der viser sig at være mest<br />

insignifikant iht. <strong>til</strong> testen ved hjælp af G 2 , tages ud af modellen. Dette gentages, ind<strong>til</strong> der ikke<br />

er flere insignifikante led i modellen. Også her bruges betinget testning – hvis man<br />

eksempelvis har fjernet interaktionseffekten 12, testes der næste gang, om eksempelvis 13 og<br />

23 kan fjernes givet, at 12 er fjernet:<br />

81


Log-lineær model<br />

WEIGHT BY count.<br />

LOGLINEAR hold(1,5) sp01(1,2) sp02(1,2) WITH constant<br />

/PRINT NONE<br />

/DESIGN constant hold sp01<br />

/DESIGN constant hold sp02<br />

/DESIGN constant sp01 sp02.<br />

Hele programkoden <strong>til</strong> eliminering af hovedeffekterne er vist i tabellen ovenfor, medens<br />

outputtet er vist i nedenstående tabel.<br />

Goodness-of-Fit test statistics<br />

Likelihood Ratio Chi Square = 162,42 DF = 14 P = .000<br />

Pearson Chi Square = 152,00 DF = 14 P = .000<br />

Goodness-of-Fit test statistics<br />

Likelihood Ratio Chi Square = 54,06 DF = 14 P = .000<br />

Pearson Chi Square = 51,56 DF = 14 P = .000<br />

Goodness-of-Fit test statistics<br />

Likelihood Ratio Chi Square = 161,09 DF = 17 P = .000<br />

Pearson Chi Square = 154,12 DF = 17 P = .000<br />

Resultatet af hypotesen, hvor hovedordenseffekten sex(sp01) er fjernet, giver en variation på<br />

25,60, hvilket med 10 frihedsgrader giver en sandsynlighed på 0.0043. Risikoen for at vælge<br />

H1, givet H0 er sand, er således næsten lig nul. Det medfører, at denne hovedordenseffekt ikke<br />

kan udelades af modellen. For overskuelighedens skyld er beregningerne for alle de<br />

betingede sandsynligheder vist i følgende tabel.<br />

Hypoteser Variation Frihedsgrader p-værdi<br />

H(2 | 12,13,23) 162,42 – 28,46 = 133,96 14 - 4 = 10 0,000<br />

H(1 | 12,13,23) 54,06 – 28,46 = 25,6 14 - 4 = 10 0,0043<br />

H(3 | 12,13,23) 161,09 – 28,46 = 132,63 17-4 = 13 0,000<br />

På baggrund af tabellen kan det konkluderes, at der ved betinget test ikke kan elimineres<br />

nogle hovedeffekter. Derfor bliver den endelige model følgende:<br />

ln(mijk) = u + u1(i) + u2(j) + u3(k)<br />

82


Log-lineær model<br />

17.4 Validering<br />

Før den endelige model kan anvendes <strong>til</strong> at beskrive sammenhængene mellem de enkelte<br />

udfald, må to forudsætninger først være opfyldt.<br />

1. Det forventede antal i hver celle skal opfylde nogle minimumsregler.<br />

2. De standardiserede residualer skal være normalfordelte med en middelværdi på 0,<br />

og der må ikke være et mønster i disse.<br />

Ovenstående betyder, at vi skal se på de forventede antal i antalstabellen og samtidig på de<br />

standardiserede residualer for samtlige effekter i den endelige model. Nederst i udskriften i<br />

outputdelen ses en tabel, der indeholder det optalte datasæt, det forventede antal samt de<br />

standardiserede residualer for alle niveauer. På baggrund af tabellen er det nu muligt at<br />

vurdere de to forudsætninger.<br />

Ad (1) : Minimumsreglen<br />

Til validering af minimumsreglen er der følgende metoder:<br />

Yarnold:<br />

antal celler med forventet<br />

E (#) pr. celle > 5 *<br />

antal celler<br />

antal < 5<br />

= 5*<br />

Fischer: E(#) pr. celle > 5<br />

Lawal: E(#) pr. celle > 3<br />

Først anvendes Yarnold’s minimumsgrænse, der fås ved at udregne den forventede værdi for<br />

hver celle. Dette kan gøres ved i antalstabellen på side 79 at tage en given celles rækketotal<br />

multipliceret med cellens søjletotal, og dividere med totalsummen for hele tabellen. De<br />

forventede værdier er dog i det konkrete <strong>til</strong>fælde allerede udregnet i tabellen, ud fra syntaks<br />

koden Crosstabs angivet på side 78. Der er i dette eksempel 3 celler hvor den forventede<br />

værdi er under 5. Minimumsgrænsen kan derfor udregnes <strong>til</strong> 5*3/20 = 0,75. Der gælder altså,<br />

at når der er en celle med et observeret antal på mindre en 5*r/k vil approksimationen <strong>til</strong> χ 2 -<br />

fordelingen være forbundet med stor usikkerhed. I dette eksempel beregnes 5*r/k <strong>til</strong> 0,75,<br />

hvilket betyder at Yarnolds minimumsregel overholdes. De to øvrige minimumsregler<br />

overholdes derimod ikke.<br />

Ad (2) : Standardiserede residualer<br />

Modellen, som blev fundet ovenfor, estimerer det forventede antal i hver celle. Da vi ønsker at<br />

bruge modellen <strong>til</strong> at sige noget om det observerede antal, skulle de forventede værdier gerne<br />

stemme overens med de observerede, for at modellen er fitted. Det er på den baggrund, at<br />

man skal teste om de standardiserede residualer afviger stærkt fra nul – er dette <strong>til</strong>fældet, kan<br />

man ikke anvende modellen <strong>til</strong> at udtale sig om de observerede værdier.<br />

r<br />

k<br />

83


Log-lineær model<br />

Benytter man et 5% signifikansniveau ifbm. en normalfordeling, må residualet ikke være<br />

numerisk større end 1,96. Desuden bør man tjekke, om residualerne følger et bestemt<br />

mønster, hvilket ikke må være <strong>til</strong>fældet, hvis forudsætningen om uafhængighed skal være<br />

opfyldt.<br />

I syntax’en kan følgende indskrives, således at en variabel med de standardiserede residualer<br />

ops<strong>til</strong>les i datasættet:<br />

GENLOG hold sp01 sp02 WITH constant<br />

/PRINT NONE<br />

/PLOT NONE<br />

/DESIGN constant hold sp01 sp02<br />

/SAVE ZRESID.<br />

Med henblik på at sikre sig, at de standardiserede residualer fastholdes indenfor et område på<br />

+/- 1,96, kan man ops<strong>til</strong>le et scatterplot som netop holder de standardiserede residualer op<br />

imod et observationsnummer. Plottet ses nedenfor:<br />

Standardized Residual<br />

4<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

-4<br />

Obs number<br />

Det ses at de fleste af de standardicerede residualer er inden for grænsen på +/- 1,96.<br />

Endvidere er det vigtigt at pointere, at residualerne samtidig skal ligge pænt omkring en<br />

middelværdi på 0, hvilket ser ud <strong>til</strong> at være <strong>til</strong>fældet i ovenstående plot.<br />

17.5 U-effekter<br />

0<br />

10<br />

Cases weighted by COUNT<br />

20<br />

Formålet med at ops<strong>til</strong>le en statistisk model er at transformere talmaterialet <strong>til</strong> nogle<br />

kvantitative mål, som kan sammenholdes med en sandsynlighedsfordeling (f.eks.<br />

30<br />

84


Log-lineær model<br />

normalfordelingen) og dermed danne grundlag for en fortolkning. Efter at have konstateret at<br />

mindst et af niveauerne er signifikant forskellig fra de øvrige, bliver det næste skridt at finde ud<br />

af, hvilke niveauer der er signifikant forskellige. Dette gøres ved at udregne u-effekterne for<br />

den endelige model.<br />

Da udregningerne af de standardiserede u-effekter i <strong>SPSS</strong> desværre er ret omfattende, er der<br />

i stedet valgt at anvende statistikprogrammet SAS <strong>til</strong> dette formål. Det er derfor først og<br />

fremmest nødvendigt at eksportere datasættet (med form som antalstabel) fra <strong>SPSS</strong> <strong>til</strong> SAS.<br />

Efter den endelige loglineære model er fundet, vælges i <strong>SPSS</strong> File New Syntax,<br />

hvorefter nedenstående skrives i syntax’en for at gemme datasættet som en portable file, der<br />

efterfølgende kan importeres i SAS.<br />

Koden markeres med musen, og Selection vælges i menuen Run. Herefter gemmer <strong>SPSS</strong><br />

datasættet som c:\data.por.<br />

Det er nu tid <strong>til</strong> at åbne SAS. I program editoren (aktiveres med F5) skrives koden, der er vist i<br />

nedenstående boks. Det er dog kun nødvendigt at ændre i koden de 3 steder, der er markeret<br />

med fed. Resten skal altid skrives direkte af.<br />

LIBNAME pegepind 'c:\';<br />

FILENAME hent 'c:\data.por';<br />

PROC CONVERT <strong>SPSS</strong>=hent<br />

OUT = pegepind.sasdata;<br />

RUN;<br />

PROC PRINTTO PRINT = 'c:\out.txt';<br />

PROC CATMOD DATA = pegepind.sasdata;<br />

WEIGHT count;<br />

MODEL hold*sp01*sp02*constant = _RESPONSE_<br />

/NOITER NOPROFILE NODESIGN NORESPONSE NOPARM PRED=FREQ;<br />

LOGLIN hold sp01 sp02;<br />

RESPONSE OUTEST = paramet;<br />

RUN;<br />

1)<br />

2)<br />

85


Log-lineær model<br />

%STD_UEFF(DATA = pegepind.sasdata, OUTEST = paramet, LOGLIN =<br />

hold sp01 sp02 );<br />

RUN;<br />

1) Her skrives navnene på de variabler, der indgår i modellen. Variabelnavnene adskilles med<br />

en stjerne.<br />

2) + 3) Den endelige loglineære model skal specificeres her. Først skrives hovedeffekterne<br />

adskilt af mellemrum, hvorefter interaktionseffekterne skrives, startende med 1. ordens<br />

interaktionseffekterne. Interaktion mellem to variabler angives i SAS med en stjerne.<br />

Efter hele koden er skrevet, markeres den med musen, og Submit vælges i menuen Locals,<br />

hvorved koden køres og outputtet genereres. Såfremt SAS ikke automatisk går over i<br />

outputvinduet, vælges Window Output.<br />

Fremkommer der ikke noget output, skyldes det ofte en fejl i indtastningen af koden. For at<br />

finde fejlen er det ofte en hjælp af kigge i Log vinduet, der kan frembringes vha. Window log.<br />

En typisk fejl som opstår er :<br />

%STD_UEFF(DATA = pegepind.sasdata, OUTEST = paramet, LOGLIN = 180<br />

WARNING: Apparent invocation of macro STD_UEFF not resolved.<br />

Fejlen skyldes oftest at makroen STD_UEFF, som kaldes i ovenstående procedure, ikke er<br />

installeret på computeren. Makroen findes på skolens X-drev under X:\SAS\Macro og filen skal<br />

kopieres over i SAS’ makro bibliotek som ofte findes under C:\Program Files\SAS<br />

Institute\SAS\V8\core\sasmacro. Når dette er sket kan koden køres igen, og fejlen skulle<br />

gerne være afhjulpet.<br />

For at få outputtet over i Word vælges i SAS (i outputvinduet) Select all og efterfølgende Copy<br />

fra menuen Edit. Herefter åbnes Word, og Paste vælges fra menuen Edit, hvorefter outputtet<br />

fra SAS vil blive kopieret over i Word. På grund af forskelle i skriftstørrelsen vil outputtet<br />

umiddelbart være uoverskueligt. Outputtet i Word markeres derfor med musen, og<br />

skriftstørrelsen ændres <strong>til</strong> 8.<br />

Efter skriftstørrelsen er ændret, vil outputtet se ud som vist i uddrag nedenfor:<br />

Estimat Varians Std.afv. Psi=<br />

OBS HOLD SP01 SP02 u s²(u) s(u) u/s(u)<br />

1 1 . . 0.6890 0.0069 0.0830 8.3053<br />

2 2 . . 0.6020 0.0072 0.0850 7.0788<br />

3 3 . . -0.1124 0.0116 0.1077 -1.0433<br />

4 4 . . -0.2834 0.0132 0.1149 -2.4658<br />

3)<br />

86


Log-lineær model<br />

5 5 . . -0.8952 0.0218 0.1476 -6.0658<br />

6 . 1 . -0.2392 0.0023 0.0480 -4.9878<br />

7 . 2 . 0.2392 0.0023 0.0480 4.9878<br />

8 . . 1 0.5847 0.0030 0.0548 10.6651<br />

9 . . 2 -0.5847 0.0030 0.0548 -10.665<br />

Til venstre i outputtet angives niveauerne for modellens variabler. Det skal i denne forbindelse<br />

nævnes, at SAS ”navngiver” niveauerne fortløbende fra og med 1. Det vil sige, at niveauer,<br />

der oprindelig havde værdien 0, <strong>til</strong>deles værdien 1. Efterfølgende i outputtet angiver SAS<br />

estimaterne og de <strong>til</strong>hørende varianser og standardafvigelser. På baggrund af et niveaus<br />

estimat og standardafvigelse beregnes den standardiserede u-effekt i kolonnen yderst <strong>til</strong><br />

højre.<br />

Tolkningen af outputtet sker på baggrund af niveauerne og de <strong>til</strong>hørende standardiserede ueffekter,<br />

yderst <strong>til</strong> højre i outputtet ovenfor.<br />

87


Logit<br />

18 Logit 11<br />

18.1 Formål<br />

Formålet med logit-modellen er at analysere for sammenhænge mellem en afhængig variabel<br />

og en eller flere uafhængige variabler. Der er med andre ord tale om analyse i lighed med<br />

f.eks. regression. Udgangspunktet for logit-modellen er, ligesom ved den log-lineære model en<br />

antalstabel, hvor de observerede værdier er kategoriseret i et antal celler. Målet med den<br />

beskrevne procedure er at estimere en model, som kan forklare udfaldet af den afhængige<br />

variabel ved hjælp af de uafhængige variabler, idet den afhængige kun har 2 mulige udfald.<br />

Som følge af ligheden med den log-lineære model gennemføres testningen af en logit-model<br />

efter de samme principper – først en screening og derefter en individuel eliminering af de<br />

resterende effekter. Dog må u-effekter, der kun vedrører uafhængige variabler – eller<br />

kombinationer heraf – ikke elimineres, når der testes i en logit-model.<br />

18.2 Løsning<br />

Den bedst anvendelige måde at lave en logit-analyse i <strong>SPSS</strong> er vha. Syntax-metoden. Ved<br />

denne metode skrives programkoder direkte i syntax-vinduet, som fremkommer under<br />

menupunktet; File New Syntax.<br />

Der henvises <strong>til</strong> afsnit 2.3 for nærmere beskrivelse af brugen af <strong>SPSS</strong> syntax-editor.<br />

I det følgende vil der blive vist et eksempel på, hvordan man screener og eliminerer effekter<br />

ved hjælp af programkode.<br />

18.3 Model-eksempel<br />

Udgangspunktet for gennemgangen af logit-analysen er datasættet fra RUS98_eng<br />

undersøgelsen. I gennemgangen vil det blive belyst om det, at folk forventer en lønindkomst<br />

på over 300.000, afhænger af hvilken uddannelsesretning de har samt deres køn.<br />

Hvorvidt folk forventer en indkomst over 300.000 (kan beskrives ved variablen sp02). Det<br />

vurderes her at de enkelte respondenters uddannelsesretning (variablen hold) samt deres køn<br />

(variablen sp01) har indflydelse på deres forventninger <strong>til</strong> indkomsten.<br />

Det er denne hypotese der vil blive undersøgt i dette afsnit.<br />

Opbygningen af de enkelte variable vil kort blive gennemgået her:<br />

11 H265 kap. 15.1<br />

88


Logit<br />

Forventet indkomst (sp02): 1 Ja (over 300.000)<br />

2 Nej (ikke over 300.000)<br />

Køn (sp01): 1 Kvinde<br />

2 mand<br />

Uddannelsesretning (hold): 1 HA 1-6<br />

2 HA 7-10, dat<br />

3 BA int<br />

4 HA jur<br />

5 BSc B<br />

Der skal gøres opmærksom på, at datasættet ikke må indeholde ”huller” i rækkefølgen i de<br />

forskellige variablers udfald. Eksempelvis må rækkefølgen ikke være 1, 2 og 4, men skal i<br />

stedet omkodes <strong>til</strong> 1, 2 og 3. Dette er meget vigtigt at huske, da <strong>SPSS</strong> ellers i det første<br />

<strong>til</strong>fælde vil opfatte situationen således, at der er nul observationer under tallet 3, dvs. som om<br />

muligheden for udfaldet tre foreligger.<br />

En forudsætning for at kunne benytte logit-modellen er, at dataene er kategoriseret (=optalt) i<br />

en antalstabel. Hvis dataene ligger som observationsværdier/caseværdier for hver enkelt<br />

respondent, som det er <strong>til</strong>fældet her, er man nødt <strong>til</strong> at lave en antalstabel, hvilket gøres ved<br />

hjælp af funktionen CROSSTABS.<br />

Nedenfor er vist programkoden for dannelsen af antalstabellen.<br />

PROCEDURE OUTPUT OUTFILE = 'c:\ud.txt'.<br />

CROSSTABS<br />

/VARIABLES = hold(1,5) sp01 (1,2) sp02 (1,2)<br />

/TABLES hold BY sp01 BY sp02<br />

/CELLS = COUNT EXPECTED<br />

/WRITE = ALL.<br />

SET UNDEFINED = NOWARN.<br />

DATA LIST FILE = 'c:\ud.txt'<br />

LIST /tal1 * tal2 * count * hold * sp01 * sp02.<br />

EXECUTE.<br />

Efter ”FREE” er variablerne tal1 og tal2 angivet. Disse tal er udelukkende kontrolvariabler og<br />

skal ikke bruges i den videre analyse. Der skal altid kun angives disse to variabler uanset<br />

antallet af variabler, man undersøger. De optalte værdier findes nu i variablen count.<br />

89


Logit<br />

Forventer indk. > 300.000<br />

Ja<br />

Nej<br />

Hold * Køn * Forventer indk. > 300.000 Crosstabulation<br />

Hold<br />

Total<br />

Hold<br />

Total<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

HA1-6<br />

HA7-10,dat<br />

BA int<br />

HA jur<br />

BSc B<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Count<br />

Expected Count<br />

Køn<br />

Kvinde Mand Total<br />

37 75 112<br />

40,8 71,2 112,0<br />

36 76 112<br />

40,8 71,2 112,0<br />

21 28 49<br />

17,8 31,2 49,0<br />

26 26 52<br />

18,9 33,1 52,0<br />

6 15 21<br />

7,6 13,4 21,0<br />

126 220 346<br />

126,0 220,0 346,0<br />

16 26 42<br />

18,2 23,8 42,0<br />

10 19 29<br />

12,5 16,5 29,0<br />

14 5 19<br />

8,2 10,8 19,0<br />

1 4 5<br />

2,2 2,8 5,0<br />

4 5 9<br />

3,9 5,1 9,0<br />

45 59 104<br />

45,0 59,0 104,0<br />

Efter optællingen i antalstabellen bør man altid tjekke det observerede antal i hver celle,<br />

eftersom der er nogle minimumskrav <strong>til</strong> det forventede antal i hver celle. Endvidere bør man<br />

være opmærksom på, om der er nul i en celle/klasse, da man ikke kan tage logaritmen <strong>til</strong> nul.<br />

En nem måde at omgå dette problem er ved at lægge 0.5 <strong>til</strong> hver enkelt celle, hvormed man<br />

samtidig korrigerer for, at man benytter χ 2 -fordelingen <strong>til</strong> diskrete data. Det anbefales altid at<br />

foretage denne korrektion.<br />

Nedenfor er syntaxkoden vist, og som man bemærker, er der indlagt en ny variabel ved navn<br />

constant, der gør det muligt at teste, om samtlige effekter fra totaleffekten kan udelades –<br />

svarende <strong>til</strong> hypotesen H0 : Ln (npijk ) = u<br />

90


Logit<br />

COMPUTE count = count + 0.5.<br />

COMPUTE constant =1.<br />

EXECUTE.<br />

Screening:<br />

En logit-model opstår som differencen mellem to log-lineære modeller som følger:<br />

Logit(ij) = log (mij1) – log (mij2)<br />

= u + u1(i) + u2(j) + u3(1) + u12(ij) + u13(i1) + u23(j1) + u123(ij1)<br />

- u - u1(i) - u2(j) - u3(2) - u12(ij) - u13(i2) - u23(j2) - u123(ij2)<br />

= w + w1(i) + w2(j) + w12(ij)<br />

I dette eksempel undersøges forskellige variablers påvirkning på indkomstforventningen og<br />

det er derfor denne variabel (sp02) der isoleres. Dette gøres ved at fokusere på forskellen<br />

mellem de to loglineære modeller, hvor sp02 antager værdierne 1 og 2. I ovenstående model<br />

er denne variabel angivet som u3(1) og u3(2).<br />

Testningen i logit-modellen kan gennemføres ved først at foretage en screening, hvor alle weffekterne<br />

på et givet niveau søges fjernet vha. baglæns eliminering og med udgangspunkt i<br />

den fulde model, som i dette eksempel er givet ved:<br />

Logitij = w + w1(i) + w2(j) (total- og hovedeffekter)<br />

+ w12(ij) (1. ordens interaktionseffekt)<br />

Den første hypotese, der skal testes i screeningen, er, om interaktionseffekten kan udelades.<br />

Derfor ops<strong>til</strong>les hypotesen:<br />

H0 : W12(ij) = 0 (interaktion kan screenes ud)<br />

H1 : Den fulde model er signifikant<br />

Dette svarer <strong>til</strong> at teste, om u123(ijk) = 0 i den log-lineære model. Hypotesen testes i <strong>SPSS</strong> med<br />

nedenstående kode. Det bemærkes, at der under denne metode skal angives et WEIGHTstatement,<br />

som refererer <strong>til</strong> den variabel, der indeholder det observerede antal.<br />

WEIGHT BY count.<br />

LOGLINEAR sp02(1,2) BY hold(1,5) sp01(1,2) WITH constant<br />

/PRINT NONE<br />

/DESIGN constant sp01 sp02 hold sp01*sp02 sp01*hold sp02*hold.<br />

Det skal her bemærkes, at alle led i modellen inkl. hovedeffekterne skal skrives manuelt, da<br />

<strong>SPSS</strong> ikke automatisk følger det hierarkiske princip. Køres koden nu, får man følgende output.<br />

91


Logit<br />

Goodness-of-Fit test statistics<br />

Likelihood Ratio Chi Square = 5,68223 DF = 4 P = ,224<br />

Pearson Chi Square = 5,53029 DF = 4 P = ,237<br />

Til hypotesen H0 : w12(ij) = 0 får man en G 2 størrelse på 5,68 med 4 frihedsgrader, hvilket ved<br />

opslag i χ 2 -fordelingen giver en sandsynlighed på 0,224. Der er med andre ord stor støtte for<br />

den ops<strong>til</strong>lede H0-hypotese. Da p-værdien er over de traditionelle 0,05, kan H0 fastholdes,<br />

hvormed interaktionseffekten kan udelades af modellen.<br />

Næste trin i screeningen er at teste, om hovedeffekterne kan udelades svarende <strong>til</strong> hypotesen:<br />

H0: w1(i) = w2(j) = 0<br />

Eller i den log-lineære model<br />

H0: u13(ik) = u23(jk) = 0<br />

Bemærk, at der i logit-modellen kun testes for elementer, der indeholder den afhængige<br />

variabel (sp02). I nedenstående syntax testes således for, om hovedeffekterne er<br />

insignifikante.<br />

WEIGHT BY count.<br />

LOGLINEAR sp02(1,2) BY hold(1,5) sp01(1,2) WITH constant<br />

/PRINT NONE<br />

/DESIGN sp02 * constant.<br />

Køres koden nu, får man følgende output:<br />

Goodness-of-Fit test statistics<br />

Likelihood Ratio Chi Square = 18,52463 DF = 9 P = ,030<br />

Pearson Chi Square = 17,42091 DF = 11 P = ,043<br />

Outputtet viser den ubetingede test. Den betingede test beregnes således:<br />

Hypoteser Variation Frihedsgrader p-værdi<br />

H(12) 5,68 4 0,224<br />

H(1,2 | 12) 18,52 – 5,68 = 12,84 9 – 4 = 5 0,002<br />

92


Logit<br />

Af tabellen fremgår, at man ikke kan fjerne samtlige hovedeffekter. Det næste man derfor må<br />

teste er, om man kan eliminere den ene eller den anden hovedeffekt (uddannelsesretning<br />

(hold) eller køn (sp01).<br />

18.3.1 Effekt-eliminering<br />

Eliminering foregår ved, at man estimerer en reduceret model – dvs. hvor man udelader et<br />

eller flere led i forhold <strong>til</strong> den fuldstændige model. Det led, der er mest insignifikant iht. <strong>til</strong> G 2 -<br />

testen, tages ud af modellen. Dette gentages, ind<strong>til</strong> der ikke er flere insignifikante led i<br />

modellen.<br />

Screeningen har allerede vist, at interaktionen w(12ij) godt kan udelades, så der er ingen grund<br />

<strong>til</strong> at gentage denne testning. I stedet fokuseres direkte på hovedeffekterne. Hovedeffekten<br />

sp01 (sp02*sp01 i den log-lineære model) og hold (sp02*hold i den log-lineære model).<br />

Hovedeffekterne testes ved at udelade dem fra DESIGN linien.<br />

WEIGHT BY count.<br />

LOGLINEAR sp02(1,2) BY hold(1,5) sp01(1,2) WITH constant<br />

/PRINT NONE<br />

/DESIGN constant sp02 sp01 hold hold*sp01 sp02*hold<br />

/DESIGN constant sp02 sp01 hold hold*sp01 sp02*sp01.<br />

Hele programkoden <strong>til</strong> eliminering af hovedeffekterne er vist i tabellen ovenfor, mens outputtet<br />

er vist i nedenstående tabel.<br />

Goodness-of-Fit test statistics<br />

Likelihood Ratio Chi Square = 7,70095 DF = 5 P = ,174<br />

Pearson Chi Square = 7,50420 DF = 5 P = ,186<br />

Goodness-of-Fit test statistics<br />

Likelihood Ratio Chi Square = 16,83258 DF = 8 P = ,032<br />

Pearson Chi Square = 14,83541 DF = 8 P = ,062<br />

Outputtet viser igen kun de ubetingede tests. Beregningerne af de betingede tests er vist i<br />

tabellen nedenfor:<br />

Hypoteser Variation Frihedsgrader p-værdi<br />

H(1 | 12) 7,70 – 5,68 = 2,02 5 - 4 = 1 0,1552<br />

H(2 | 12) 16,83 – 5,68 = 11,15 8 - 5 = 3 0,0109<br />

93


Logit<br />

På baggrund af tabellen kan det konkluderes, at hovedeffekten sp01 (køn) ikke har nogen<br />

indflydelse på forventningerne <strong>til</strong> løn. Derfor bliver den endelige model som følgende:<br />

logit(ij) = w + w2(j)<br />

18.4 Validering<br />

Før den endelige model kan anvendes <strong>til</strong> at beskrive sammenhængene mellem de enkelte<br />

udfald, må to forudsætninger først være opfyldt.<br />

1. Det forventede antal i hver celle skal opfylde nogle minimumsregler.<br />

2. De standardiserede residualer skal være normalfordelte med en middelværdi på 0, og<br />

der må ikke være et mønster i disse.<br />

For nærmere beskrivelse af forudsætningerne for logit-analysen, se venligst afsnittet<br />

17.4 Validering under beskrivelsen af den log-lineære analyse, idet forudsætningsanalysen for<br />

disse to modeller er identiske.<br />

18.5 W-effekter<br />

Efter at have konstateret, at mindst en af de forklarende variabler er signifikant, bliver det<br />

næste skridt at beskrive sammenhængen i detaljer. Dette gøres ved at udregne w-effekterne i<br />

den endelige log-lineære model og på basis heraf de enkelte logit’s.<br />

Nedenstående syntaks udskriver w-effekterne for den endelige model – dog undlader <strong>SPSS</strong> at<br />

udskrive de sidste niveauer, hvorfor disse må udregnes manuelt.<br />

WEIGHT BY count.<br />

LOGLINEAR sp02(1,2) BY hold(1,5) sp01(1,2) WITH constant<br />

/PRINT ESTIM<br />

/DESIGN constant sp02 hold sp01 hold*sp02 hold*sp01.<br />

I det nedenstående ses et udsnit af outputtet. Under kolonnen ’Coeff’ finder vi w-effekterne.<br />

Disse w-effekter skal vi bruge <strong>til</strong> at beregne de betingede sandsynligheder, der er selve målet<br />

med logit-analysen.<br />

94


Logit<br />

Estimates for Parameters (udsnit)<br />

Sp02 (forventet indkomst)<br />

Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI<br />

1 ,6175658672 ,06844 8,95797 ,48244 ,75269<br />

Hold*sp02<br />

Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI<br />

7 -,134472016 ,09782 -1,37470 -,32620 ,05725<br />

8 ,455293513 ,10526 ,43253 -,16079 ,25184<br />

9 -,159420501 ,12350 -1,29083 -,40148 0,8264<br />

10 ,4717003527 ,18051 2,61319 ,11791 ,82550<br />

For at forstå udregningen af de betingede sandsynligheder starter vi med at kaste et blik på<br />

den endelige model, som ses her:<br />

logitij = w + w2(j)<br />

Hvor…<br />

w = u3(1) – u3(2) = 2u3(1)<br />

w2(j) = u23(j1) – u23(j2)<br />

= 2u23(j1)<br />

Hvor W2(j) er W-effekten for hold.<br />

Modellen er således opbygget, at den afhængige variabel sp02 (forventet indkomst)) beskrives<br />

alene ved hjælp af den forklarende variabel Hold. Der indgår således ingen interaktioner. Idet<br />

højresiden af modellen ovenfor betegnes z, og idet den betingede sandsynlighed for forventet<br />

indkomst betegnes p, kan modellen omformes <strong>til</strong>:<br />

p<br />

1<br />

ln<br />

= z ⇔ p =<br />

1 − p<br />

1 +<br />

e z −<br />

Sandsynligheden for at folk der går på HA-alm hold 1-6 (hold = 1) forventer en indkomst på<br />

under 300.000 (sp02 = 1), kan derfor beregnes på følgende måde.<br />

1<br />

P =<br />

=<br />

⎛<br />

⎞<br />

− ⎜2<br />

⋅ ⎜<br />

⎛0,6175658672⎟<br />

⎞ + 2 ⋅ ⎜<br />

⎛−<br />

0,<br />

134472016⎟<br />

⎞<br />

⎟<br />

⎝ ⎝<br />

⎠ ⎝<br />

⎠⎠<br />

1+<br />

e<br />

0,<br />

7244<br />

Man kan heraf udlede, at sandsynligheden for at studerende, der læser på HA-alm hold 1-6,<br />

forventer en lønindkomst på under 300.000 er 72,44%. Tilsvarende må dette betyde at<br />

sandsynligheden for at en studerende på HA-alm hold 1-6, forventer en løn på over 300.000 er<br />

27,56% (1-0,7244).<br />

95


Logit<br />

<strong>SPSS</strong>-outputtet udskriver ikke det sidste niveau af w-effekter inden for hver variabel. Dette kan<br />

dog hurtigt udregnes manuelt, da w-effekterne altid har summen nul indenfor en given<br />

variabel. For w-effekten hold*sp02 er der 5 niveauer og kun de 4 er givet i <strong>SPSS</strong> outputtet.<br />

Nedenstående Excel-vindue viser udregningen af det sidste udfald af hold*sp02.<br />

96


ITA makro’er<br />

19 ITA makro’er<br />

ITA har udviklet en række makroer <strong>til</strong> afhjælpning af analyser og forudsætningstest, som enten<br />

ikke eksisterer i <strong>SPSS</strong> eller kun vanskeligt lader sig gøre.<br />

Der gøres i denne forbindelse opmærksom på, at makroerne ikke tager højde for split file og<br />

weight cases.<br />

Eftersom makroerne løbende er under revidering kan enkelte ændringer forekomme i forhold<br />

<strong>til</strong> det skrevne i denne manual.<br />

Alle makroerne er <strong>til</strong>gængelige i <strong>SPSS</strong> på computerne i ITA under menupunktet ”ITA Macro”.<br />

Ønsker man at installere makroerne på sin egen computer, findes installationsprogrammet på<br />

skolens X-drev under X:\<strong>SPSS</strong>\macro\Home Install. De <strong>til</strong>gængelige makroer beskrives i det<br />

følgende.<br />

19.1 Bartlett’s Test 12<br />

Denne makro anvendes ved test for varianshomogenitet mellem grupperne i<br />

variansanalysesammenhæng. <strong>SPSS</strong> arbejder som udgangspunkt med Levene’s test, men<br />

Bartlett’s test betragtes som værende mere pålidelig. Bemærk at grupperingsvariablen skal<br />

være numerisk og nominelt skaleret.<br />

Derudover er der den begrænsning, at grupperne maksimalt kan dannes ud fra 7 variabler,<br />

samt at der skal være mindst 3 observationer i hver gruppe/faktorkombination.<br />

Derudover kan makroen ikke tage højde for missing values, hvorfor disse bør ekskluderes<br />

inden testen køres. Dette gøres ved at anvende funktionen Select cases (Data Select<br />

cases…) og herefter vælge knappen ’If…’ og udfylde dialogboksen som gjort nedenfor.<br />

12 H265 s. 161<br />

97


ITA makro’er<br />

Det If-sætningen ovenfor gør, er at den fravælger alle observationer, hvor der er en missing<br />

value. Bemærk at det er den afhængige variabel, der skal indgå i udtrykket ovenfor. Herefter<br />

trykkes ’Continue’ og ’OK’, hvorefter man vender <strong>til</strong>bage <strong>til</strong> datasættet. Herefter kan man gå<br />

videre med Bartletts test.<br />

I det følgende fortsættes eksemplet fra afsnit 13 om variansanalyse, og der testet for, om der<br />

er varianshomogenitet mellem de forskellige uddannelsesretninger, hvad angår de<br />

studerendes vægt.<br />

Hypotesen for denne Bartlett’s test er som følger :<br />

H 0 :<br />

BsC B<br />

H<br />

1<br />

σ HA = σ HA(<br />

dat.)<br />

= σ BA(int)<br />

= σ HA(<br />

jur.)<br />

= σ<br />

: Mindst 2 forskellige<br />

Testen køres ved at på menulinien at vælge ITA Macro Bartlett, hvorved nedenstående<br />

dialogboks fremkommer. I denne vælges vægt (sp04) i dropdown boksen Select Dependent<br />

Variable og grupperingsvariablen Hold flyttes over i feltet Group Variable. Herefter skal der i<br />

Create Groups by altid vælges det størst mulige antal valgte variabler, hvilket i dette <strong>til</strong>fælde er<br />

1.<br />

98


ITA makro’er<br />

Efter dette er gjort trykkes ’OK’ hvorved analysen køres og følgende output genereres.<br />

:<br />

Groups created by 1 variable(s)<br />

Variable # 1<br />

Degrees of<br />

freedom Chi Square P-value<br />

hold 4 5,3215 0,2559<br />

Det ses, at testen resulterer i en χ 2 værdi på 5,3215 og en p-værdi på 0,2559. På baggrund<br />

heraf fastholdes H0, og det er dermed sandsynliggjort, at der foreligger varianshomogenitet.<br />

Bemærk at dette er i overensstemmelse med konklusionen i afsnit 13.1, hvor Levene’s test<br />

også fastholdte tesen om varianshomogenitet.<br />

19.2 Cochran’s Test 13<br />

I eksemplet <strong>til</strong> Cochran’s test anvendes et datasæt, hvor en række respondenter har vurderet<br />

4 forskellige produkter, med henholdsvis kan lide/ikke lide (0/1). Datasættet kan findes på<br />

\\ita2\exemp\spss\Ha manual\cochran.sav. Cochran’s test bruges, i dette <strong>til</strong>fælde, <strong>til</strong> at<br />

undersøge om der er forskel i <strong>til</strong>fredsheden på tværs af de forskellige produkter.<br />

Cochran anvendes ved blokopdelte eksperimenter, hvor en blok typisk vil repræsentere én<br />

respondent. Alle variabler, der skal testes, skal være i binær form (0/1). Makroen beregner<br />

Cochran’s Testor og udskriver en tabel over parvise sammenligninger af de foretagne<br />

behandlinger, som kan bruges <strong>til</strong> at vise hvor forskellen mellem de enkelte eksisterer.<br />

Hypotesen for testet bliver da :<br />

H0 : p1 = p2 = p3 = p4 ⇒ Ingen behandlingsefffekt. pi er sandsynligheden for<br />

<strong>til</strong>fredshed ved det i’te produkt. Her ens for alle produkter<br />

H1 : Mindst 2 forskellige ⇒ Behandlings effekt, sandsynligheden for <strong>til</strong>fredshed er forskellig<br />

mellem de 4 produkter<br />

Testen køres ved at vælge ITA Makro Cochran, hvorved følgende dialogboks fremkommer:<br />

13 H265 kap. 8.2.2<br />

99


ITA makro’er<br />

De variabler der ønskes medtaget i testen føres over i feltet i højre side, som det er gjort<br />

ovenfor. I dette <strong>til</strong>fældes ønskes alle 4 produkter inkluderet.<br />

Under Significance level ses at (1-alpha) = 0,95. Dette er en henvisning <strong>til</strong>, at der arbejdes<br />

med α = 0,05. Dette fastholdes som udgangspunkt.<br />

Når de ønskede inds<strong>til</strong>linger er valgt trykkes ’OK’, hvorved analysen køres og følgende output<br />

genereres. Den øverste tabel er er en frekvenstabel, der angiver hvor mange, der har svaret<br />

henholdsvis kan lide (1) eller kan ikke lide (0) <strong>til</strong> hver af de 4 produkter.<br />

PRODUKT1<br />

PRODUKT2<br />

PRODUKT3<br />

PRODUKT4<br />

Frequencies<br />

Value<br />

0 1<br />

1 10<br />

6 5<br />

2 9<br />

9 2<br />

Den anden tabel som ses nedenfor viser selve Cochran testet. Som det ses fås en Q-værdi på<br />

13,667, hvilket giver en p-værdi på 0,003. Dette betyder at H0 afvises, og det er dermed<br />

sandsynliggjort, at der er forskel i <strong>til</strong>fredsheden mellem de 4 produkter.<br />

Test Statistics<br />

11<br />

13,667a N<br />

Cochran's Q<br />

df<br />

3<br />

Asymp. Sig. ,003<br />

a. 1 is treated as a success.<br />

Den sidste tabel nedenfor viser parvise sammenligninger mellem de enkelte produkter, og er<br />

således kun relevant såfremt man ovenfor har vist, at der er forskel mellem nogle enkelte<br />

produkter. For at der eksisterer en signifikant forskel mellem to produkter skal differencen i<br />

2<br />

dette <strong>til</strong>fælde være numerisk større end 0,6225. ( χ<br />

fordeling)<br />

( 1−α<br />

; r−1)<br />

100


ITA makro’er<br />

Table of ((P-streg).i-(P-streg).j) significant differences:<br />

((P-streg).i-(P-streg).j) > 0,6225<br />

Level of significance: 0,05<br />

produkt1<br />

Variables<br />

produkt2 produkt3 produkt4<br />

produkt1 , , , ,<br />

produkt2 -,4545 , , ,<br />

produkt3 -,0909 ,3636 , ,<br />

produkt4 -,7273 -,2727 -,6364 ,<br />

Som det fremgår af tabellen er dette <strong>til</strong>fældet mellem henholdsvis produkt 1 og 4 samt 3 og 4.<br />

Det kan altså konkluderes, at <strong>til</strong>fredsheden med såvel produkt 1 som 3 er signifikant større<br />

end med produkt 4. De øvrige forskelle er ikke signifikante.<br />

19.3 Friedman’s Test 14<br />

Friedman’s Test anvendes, ligesom Cochran ovenfor, f.eks. når en gruppe respondenter har<br />

vurderet effekten af forskellige behandlinger, dvs. ved eksperimenter med blokdesign.<br />

I modsætning <strong>til</strong> Cochran’s test skal variablerne i dette <strong>til</strong>fælde dog være ordinal skaleret<br />

(eksempelvis rangordnet 1-5) i stedet for nominal.<br />

Indledningsvis skal variablerne omkodes <strong>til</strong> rangdata, hvilket gøres ved at give den mindste<br />

observation i hver observationsrække (dvs. lavest vurderet af hver respondent) værdien 1,<br />

mens den næstlaveste får værdien 2 osv. Efter omkodning <strong>til</strong> rangdata er foretaget, beregnes<br />

summen af vurderingerne for hver behandling, dvs. søjlesummen. Slutteligt testes der for<br />

forskelle på søjlesummerne (behandlingerne).<br />

I det følgende eksempel har en række respondenter hver vurderet fem produkter på en skala<br />

fra 1-5, efter hvor <strong>til</strong>fredse de var med produktet. Datasættet kan findes på<br />

\\ita2\exemp\spss\Ha manual\friedmann.sav.<br />

På baggrund af disse vurderinger ønskes det undersøgt, hvorvidt der kan påvises forskel i<br />

<strong>til</strong>fredsheden mellem de enkelte produkter<br />

Hypotesen for testet er som følger:<br />

H0 : µ produkt 1 = µ produkt 2 =…= µ r ⇒ Ingen behandlingseffekt, dvs. <strong>til</strong>fredsheden er ens<br />

H1 : Mindst 2 forskellige ⇒ Behandlingseffekt, dvs. <strong>til</strong>fredsheden med nogle produkter er<br />

større end andre.<br />

14 H265 kap. 8.1.2<br />

101


ITA makro’er<br />

Testet køres ved at vælge ITA Macro Friedmann, hvorved følgende dialogboks<br />

fremkommer. De variabler der ønskes medtages i testen placeres under Selected Variable,<br />

som det er gjort nedenfor. Derpå trykkes ’OK’, hvorefter testen køres<br />

Makroen rangordner selv observationerne, såfremt datamaterialet ikke er rangordnet på<br />

forhånd. Bemærk at dataformatet skal være numerisk, samt at missing values udelades i<br />

beregningerne.<br />

Outputtet af testen er de to tabeller som er vist nedenfor. Den øverste indeholder selve<br />

teststatistikken og som testparameter bruges en χ 2 -fordeling med r-1 frihedsgrader.<br />

Som det fremgår fås i dette <strong>til</strong>fælde en χ 2 værdi på 13,205, hvilket giver en p-værdi på 0,01.<br />

På den baggrund afvises H0 således, og det er dermed sandsynliggjort, at der er forskel på<br />

graden af <strong>til</strong>fredshed mellem de fem produkter.<br />

Test Statistics a<br />

N<br />

50<br />

Chi-Square 13,205<br />

df<br />

4<br />

Asymp. Sig. ,010<br />

a. Friedman Test<br />

Til at finde ud af på hvilke niveauer denne <strong>til</strong>fredshedsforskel består anvendes nedenstående<br />

tabel, som indeholder parvise sammenligninger af de forskellige produkter.<br />

Der kan påvises en signifikant forskel mellem to produkter såfremt værdierne i nedenstående<br />

tabel er numerisk større end q(r,α), hvor r angiver antallet af grupper, som her er fem. Qstatistikken<br />

slås i dette <strong>til</strong>fælde op i en tabel, som q(5;0,05) = 3,858.<br />

Som det fremgår af tabellen nedenfor, eksisterer der således signifikante forskelle mellem<br />

henholdsvis produkt 1 og 4 samt produkt 1 og 5.<br />

102


ITA makro’er<br />

Konklusionen bliver altså, at der er forskel på <strong>til</strong>fredsheden med de 5 produkter, og den<br />

primære forskel består i at <strong>til</strong>fredsheden med produkt 1 er signifikant større end <strong>til</strong>fredsheden<br />

med produkt 4 og 5.<br />

Concordancecoefficient (W) = 6,60232<br />

Tabel over (Ri - Rj)/SQRT(n*r*(r+1)/12 signifikante forskelle<br />

hvor |Ri - Rj|/SQRT( 50* 5*( 5+1)/12) > q( 5, alfa)<br />

Variables<br />

produkt1 produkt2 produkt3 produkt4 produkt5<br />

produkt1 , , , , ,<br />

produkt2 -2,32551 , , , ,<br />

produkt3 -1,74413 ,58137 , , ,<br />

produkt4 -3,89075 -1,56524 -2,14662 , ,<br />

produkt5 -4,11436 -1,78885 -2,37023 -,22360 ,<br />

19.4 Kruskal Wallis Test 15<br />

Kruskal Wallis test anvendes, når man ønsker at analysere, om der er forskel mellem<br />

forskellige behandlinger. Under normale omstændigheder ville en ANOVA anvendes ved en<br />

variansanalyse med én faktor. Men i <strong>til</strong>fælde hvor testvariablen er rangordnet dvs. ordinal<br />

skaleret, anvendes en Kruskal Wallis test. Derfor gælder for KW-testen følgende:<br />

Testvariablen skal være rangordnet, mens grupperingsvariablen skal være ordinal skaleret og<br />

have et endeligt antal udfald.<br />

I det følgende eksempel har en smagsekspert vurderet 3 produkter med forskellig pH-værdi,<br />

og givet dem en vurdering på en skala fra 0-100 efter smag.<br />

På baggrund heraf ønskes det undersøgt om der er forskel på ekspertens opfattelse af de tre<br />

produkters smag.<br />

Datasættet kan findes på \\ita2\exemp\spss\Ha manual\Kruskall wallis.sav<br />

Hypotesen for testet bliver da som følger:<br />

H0 : µ1 = µ2 =…= µr ⇒ Ingen behandlingseffekt<br />

H1 : Mindst 2 forskellige ⇒ Behandlingseffekt<br />

Som nævnt er en af forudsætningerne for at anvende Kruskal Wallis testet, at den afhængige<br />

variabel er ordinal skaleret. Vurderingen af de forskellige produkter skal altså rangordnes<br />

således, at den der fik laveste værdi på 0-100 skalaen får værdien 1, den næstlaveste<br />

værdien 2 osv ( er der flere værdier der er ens skal alle disse <strong>til</strong>deles samme middelværdi).<br />

15 H265 kap. 8.1.1<br />

103


ITA makro’er<br />

Det er dog ikke nødvendigt at foretage rangordningen manuelt inden testen køres, idet<br />

makroen selv foretager denne.<br />

Testen køres ved at vælge ITA Macro Kruskal-Wallis hvorved nedenstående dialogboks<br />

fremkommer.<br />

I feltet <strong>til</strong> venstre markeres den variabel der ønskes som test variabel med den blå markør. I<br />

dette <strong>til</strong>fælde er det variablen smag. I feltet <strong>til</strong> højre markeres den variabel, hvorefter testen<br />

skal grupperes, hvilket i dette <strong>til</strong>fælde er ph.<br />

Køres testen med ovenstående eksempel fås følgende output (reduceret).<br />

Test Statistics a,b<br />

RANK of<br />

SMAG<br />

Chi-Square 10,516<br />

df<br />

2<br />

Asymp. Sig. ,005<br />

a. Kruskal Wallis Test<br />

b. Grouping Variable: PH<br />

Som det fremgår af tabellen ovenfor fås en p-værdi på 0,005, hvilket betyder, at H0 afvises og<br />

der således er forskel på smagsvurderingen af de tre produkter.<br />

For at undersøge hvilke niveauer forskellene består anvendes Dunn’s test, som ses i tabellen<br />

nedenfor.<br />

104


ITA makro’er<br />

D U N N ' s C . I . R(i)/n(i) - R(j)/n(j)<br />

:<br />

ph<br />

1,00<br />

2,00<br />

3,00<br />

ph<br />

1,00 2,00 3,00<br />

, , ,<br />

6,42 , ,<br />

9,83* 3,42 ,<br />

* Indicates a significant difference at a 0,05 level<br />

Eksisterer der signifikante forskelle mellem nogle af grupperne, vil det i tabellen være<br />

markeret med en stjerne. Som det fremgår, er der en signifikant forskel mellem produkt 1 og<br />

3, idet produkt 3 er vurderet signifikant højere smagsmæssigt end produkt 1.<br />

19.5 Probit Plot<br />

Et probit plot af de standardiserede residualer laves for at teste, om de standardiserede<br />

residualer kan antages at følge en normalfordeling (ε ~ NF). Dette er én af forudsætningerne<br />

ved eksempelvis variansanalyse samt regressionsanalyse. Det skal i denne sammenhæng<br />

nævnes, at de standardiserede residualer ikke automatisk udarbejdes i probit plottet. Derfor<br />

skal residualerne forekomme som en variabel i data editoren, inden plottet laves. ITA’s makro<br />

for probit plot beregner frak<strong>til</strong>erne <strong>til</strong> en numerisk værdi, og plotter disse mod frak<strong>til</strong>erne i en<br />

standardnormalfordeling.<br />

Eksemplet bygger videre på afsnit 14 – generel variansanalyse. Det er i varians analyse en<br />

forudsætning at fejlledene er <strong>til</strong>nærmelsesvis normalfordelte. Når man har den endelige model<br />

i variansanalysen gemmes de standardiserede residualer under Analyze General linear<br />

model univariate. Hvorefter save.. vælges og standardized markeres under residuals.<br />

Nedenstående graf viser et eksempel på et probit plot:<br />

105


ITA makro’er<br />

4<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

-4<br />

Probit plot<br />

Test for Normality<br />

Plot of observed against normally distributed values<br />

-3<br />

-2<br />

-1<br />

0<br />

1<br />

2<br />

3<br />

4<br />

Standardized Residua<br />

HELP<br />

Standardized Residua<br />

NORMAL of ZRE_1 usin<br />

Fordelingen af standardiserede residualer skal ligge på 45-graders linien for at være<br />

normalfordelt. Det ses af ovenstående eksempel, at dette ikke er <strong>til</strong>fældet. Ud fra en visuel<br />

betragtning kan det derfor se ud som om, at der er forudsætningsbrud, idet de<br />

standardiserede residualer ikke synes at være normalfordelte.<br />

19.6 Bonferroni intervaller for 1.ordens interaktioner 16<br />

Som nævnt i afsnit 14 om variansanalyse så har <strong>SPSS</strong> som udgangspunkt ikke mulighed for<br />

at sammenligne gennemsnit mellem de forskellige niveauer indenfor et interaktionsled. Har<br />

man således udfra GLM metoden fundet en endelig model, som indeholder et signifikant<br />

interaktionsled, så kan denne makro anvendes <strong>til</strong> at sammenligne disse gennemsnit, for<br />

derigennem at bestemme hvilke niveauer, der er signifikant forskellige fra hinanden. Som<br />

bagvedliggende metode <strong>til</strong> disse sammenligninger, er der valgt at benytte bonferroni intervaller<br />

for ikke-balanceret design.<br />

Makroen kan kun anvendes <strong>til</strong> at sammenligne niveauer for 1. ordens interaktionseffekter,<br />

hvilket vil sige at en model indeholdende højere ordens interaktionseffekter, stadig skal<br />

beregnes manuelt ud fra de bagvedliggende formler.<br />

Der gøres opmærksom på, at hvis den endelige ANOVA model man har ops<strong>til</strong>let kun<br />

indeholder signifikante hovedeffekter, så skal denne makro ikke anvendes. I stedet skal den i<br />

ANOVA proceduren indbyggede bonferroni funktion anvendes, hvilket er beskrevet i afsnit 14.<br />

I det følgende gennemgås et eksempel for at belyse makroens funktionalitet og fortolkningen<br />

af det producerede output. Gennemgangen tager udgangspunkt i datasættet<br />

\\ita2\exemp\spss\Ha manual\EM8_segmenter.sav som indeholder resultatet af en<br />

spørgeskemaundersøgelse omkring forbruget af friske jordbær. Ops<strong>til</strong>lingen af følgende<br />

16 H265 kap. 7.3.3<br />

106


ITA makro’er<br />

ANOVA model, foretages vha. den almindelige GLM metode beskrevet i afsnit 14.<br />

Udgangsmodellen ser ud som følger :<br />

q8= µ + q1 + q17 + age + segment + q1*q17 + q1*age + q1*segment + q17*age +<br />

q17*segment + age*segment<br />

Det der ønskes forklaret er antallet af købte jordbær (q8) udfra variablerne ”dyrker de selv<br />

jordbær?” (q1: Ja/nej), primære indkøbssted (q17: frugt og grønt forretn./<br />

supermarked/torvet/selvpluk/stalddør), alder (age) og segment som forbrugeren <strong>til</strong>hører<br />

(segment : gammeldags/uengagerede/Nye traditioner). Resultatet af udgangsmodellen vha.<br />

GLM bliver tabellen nedenfor:<br />

Tests of Between-Subjects Effects<br />

Dependent Variable: hvor mange købte ?<br />

6015,870a Type I Sum<br />

Source<br />

of Squares df Mean Square F Sig.<br />

Corrected Model<br />

53 113,507 2,763 ,000<br />

Intercept<br />

19583,434 1 19583,434 476,652 ,000<br />

SEGMENT 1647,302 2 823,651 20,047 ,000<br />

AGE<br />

374,930 4 93,733 2,281 ,060<br />

Q17<br />

1643,990 4 410,997 10,003 ,000<br />

Q1<br />

,226 1 ,226 ,005 ,941<br />

SEGMENT * AGE 559,166 8 69,896 1,701 ,096<br />

SEGMENT * Q17 642,874 8 80,359 1,956 ,050<br />

SEGMENT * Q1 158,071 2 79,035 1,924 ,147<br />

AGE * Q17<br />

798,883 16 49,930 1,215 ,252<br />

AGE * Q1<br />

131,405 4 32,851 ,800 ,526<br />

Q17 * Q1<br />

59,023 4 14,756 ,359 ,838<br />

Error<br />

18611,696 453 41,085<br />

Total<br />

44211,000 507<br />

Corrected Total 24627,566 506<br />

a. R Squared = ,244 (Adjusted R Squared = ,156)<br />

Som det fremgår, er en lang række af de inkluderede faktorer insignifikante, hvorfor de fjernes<br />

under hensyntagen <strong>til</strong> det hierarkiske princip. Den endelige model kommer <strong>til</strong> at se ud som<br />

følger<br />

107


ITA makro’er<br />

Dependent Variable: hvor mange købte ?<br />

Tests of Between-Subjects Effects<br />

3899,929a Source<br />

Type I Sum<br />

of Squares df Mean Square F Sig.<br />

Corrected Model<br />

14 278,566 6,612 ,000<br />

Intercept<br />

19583,434 1 19583,434 464,841 ,000<br />

SEGMENT 1647,302 2 823,651 19,551 ,000<br />

Q17<br />

1577,280 4 394,320 9,360 ,000<br />

SEGMENT * Q17 675,347 8 84,418 2,004 ,044<br />

Error<br />

20727,637 492 42,129<br />

Total<br />

44211,000 507<br />

Corrected Total 24627,566 506<br />

a. R Squared = ,158 (Adjusted R Squared = ,134)<br />

Som det fremgår, indeholder modellen et signifikant 1.ordens interaktionsled, hvorfor det er<br />

nødvendigt at anvende ITA makroen, for at sammenligne de forskellige niveauer.<br />

Makroen startes ved på menulinien at vælge ITA macro Bonferroni hvorved nedenstående<br />

dialogboks fremkommer. I dialogboksen skal den endelige model fundet vha. ANOVA ovenfor<br />

indtastes.<br />

I dropdown boksen øverst vælges den afhængige variabel, i dette <strong>til</strong>fælde q8. Dernæst skal de<br />

forklarende faktorer, her segment og q17, <strong>til</strong>føjes <strong>til</strong> boksen Selected variables, hvilket gøres<br />

ved at markere dem i boksen yderst <strong>til</strong> venstre og trykke på den øverste pil. Når det er gjort<br />

skal modellen opbygges, hvilket gøres ved under Interactions at vælge de ønskede effekter<br />

der skal inkluderes, her hovedeffekter samt 1.ordens interaktion, og trykke på knappen ’Add to<br />

model’.<br />

108


ITA makro’er<br />

Det er vigtigt at de faktorer der står under model, svarer <strong>til</strong> dem som er fundet signifikante<br />

under variansanalysen ovenfor. Er der derfor <strong>til</strong>føjet for mange faktorer ved brug af ’Add to<br />

model’, kan de slettes igen ved at markere dem under Model og vælge ’Remove from model’.<br />

Køres makroen med de ovenfor angivne inds<strong>til</strong>linger fremkommer bonferroni tabellen nedenfor<br />

(uddrag).<br />

Første og anden kolonne angiver de to niveauer der sammenlignes, mens tredje og fjerde<br />

kolonne angiver gennemsnittet for hver af de to niveauer. Femte kolonne angiver forskellen,<br />

mellem de to gennemsnit i de forrige kolonner. Sjette kolonne Errormargin angiver<br />

konfidensintervallets fejlmargin. De to sidste kolonner angiver henholdsvis nederste- og<br />

øverste grænse i bonferroni konfidensintervallet.<br />

For at der er signifikant forskel mellem de to gennemsnit der sammenlignes skal Meandiff. ><br />

Errormargin.<br />

Tages række ét som eksempel, ses at respondenter i segment 2 der køber i frugt og<br />

grøntforretninger forretninger (interaction 1) i gennemsnit køber 14,4286 bakker jordbær,<br />

mens respondenter i segment 3 der køber i frugt og grønt forrentninger (interaction 2) i<br />

gennemsnit køber 4,7857 bakker. Der er således en forskel i den købte mængde på 14,4286-<br />

4,7857 = 9,6429 hvilket er mere end fejlmarginen på 8,148. Der er altså i dette <strong>til</strong>fælde<br />

signifikant forskel mellem gennemsnittet i de to grupper.<br />

Dependent variable: q8<br />

Interaction (1)<br />

frugt/grøntforretn.*segment 2<br />

frugt/grøntforretn.*segment 3<br />

frugt/grøntforretn.*segment 4<br />

95 % Bonferroni K.I. q17*segment<br />

Interaction (2) Mean (1) Mean (2) Meandiff Errormargin Low Upper<br />

frugt/grøntforretn.*segment 3 14,4286 4,7857 9,6429 8,1480 1,4949 17,7908<br />

frugt/grøntforretn.*segment 4 14,4286 5,0000 9,4286 8,7735 ,6551 18,2020<br />

supermarked.*segment 2 14,4286 7,1250 7,3036 8,3232 -1,0197 15,6268<br />

supermarked.*segment 3 14,4286 3,6935 10,7350 7,7512 2,9838 18,4862<br />

supermarked.*segment 4 14,4286 4,5636 9,8649 7,9689 1,8960 17,8338<br />

torvet*segment 2 14,4286 4,0000 10,4286 10,7452 -,3167 21,1738<br />

torvet*segment 3 14,4286 5,9130 8,5155 8,5717 -,0562 17,0873<br />

torvet*segment 4 14,4286 9,3750 5,0536 10,7452 -5,6917 15,7988<br />

Selvpluk*segment 2 14,4286 12,8182 1,6104 8,1962 -6,5858 9,8065<br />

Selvpluk*segment 3 14,4286 10,7778 3,6508 8,2293 -4,5785 11,8801<br />

Selvpluk*segment 4 14,4286 6,8750 7,5536 8,9622 -1,4086 16,5157<br />

stalddør*segment 2 14,4286 8,9200 5,5086 8,4719 -2,9633 13,9804<br />

stalddør*segment 3 14,4286 6,0769 8,3516 7,9140 ,4376 16,2657<br />

stalddør*segment 4 14,4286 5,9143 8,5143 8,2937 ,2206 16,8080<br />

frugt/grøntforretn.*segment 4 4,7857 5,0000 -,2143 5,2823 -5,4966 5,0680<br />

supermarked.*segment 2 4,7857 7,1250 -2,3393 4,4951 -6,8343 2,1558<br />

supermarked.*segment 3 4,7857 3,6935 1,0922 3,3182 -2,2260 4,4104<br />

supermarked.*segment 4 4,7857 4,5636 ,2221 3,7990 -3,5769 4,0211<br />

torvet*segment 2 4,7857 4,0000 ,7857 8,1480 -7,3623 8,9337<br />

torvet*segment 3 4,7857 5,9130 -1,1273 4,9401 -6,0674 3,8127<br />

torvet*segment 4 4,7857 9,3750 -4,5893 8,1480 -12,7373 3,5587<br />

Selvpluk*segment 2 4,7857 12,8182 -8,0325 4,2551 -12,2876 -3,7773<br />

Selvpluk*segment 3 4,7857 10,7778 -5,9921 4,3187 -10,3108 -1,6734<br />

Selvpluk*segment 4 4,7857 6,8750 -2,0893 5,5901 -7,6794 3,5008<br />

stalddør*segment 2 4,7857 8,9200 -4,1343 4,7647 -8,8989 ,6304<br />

stalddør*segment 3 4,7857 6,0769 -1,2912 3,6825 -4,9738 2,3913<br />

stalddør*segment 4 4,7857 5,9143 -1,1286 4,4401 -5,5686 3,3115<br />

supermarked.*segment 2 5,0000 7,1250 -2,1250 5,5488 -7,6738 3,4238<br />

supermarked.*segment 3 5,0000 3,6935 1,3065 4,6470 -3,3405 5,9534<br />

supermarked.*segment 4 5,0000 4,5636 ,4364 5,0016 -4,5653 5,4380<br />

Konklusionen bliver således at forbrugere klassificeret i segment 2 og som primært køber ind i<br />

frugt og grønt forretninger køber signifikant flere jordbær end forbrugerne i segment 3, som<br />

køber ind samme sted.<br />

109


ITA makro’er<br />

På samme måde gennemgås alle de resterende linier, for at finde signifikante forskelle mellem<br />

niveauerne.<br />

Der gøres opmærksom på at, hvis makroen skal lave over 500 sammenligninger fremkommer<br />

en advarselsboks, da beregningerne kan tage lang tid og systemet kan blive ustabilt.<br />

Problemet opstår som regel kun når modellen indeholder mange interaktionsled.<br />

19.7 LM test for heteroscedasticitet 17<br />

Følgende makro anvendes <strong>til</strong> at teste for heteroscedasticitet. Denne test er især relevant i<br />

forbindelse med regressionsanalysen, hvor fraværet af heteroscedasticitet er en forudsætning<br />

for analysens gennemførelse jf. afsnit 15.1.2.4.<br />

Hypotesen for analysen er som følger:<br />

H<br />

H<br />

0<br />

1<br />

: Homoscedasticitet<br />

: Heteroscedasticitet<br />

Testen køres ved at vælge ITA macro LM-Test for heteroscedasticity, hvorved<br />

nedenstående dialogboks fremkommer:<br />

I dette afsnit fortsættes eksemplet fra afsnit 15 om regression. Der testes i det følgende<br />

således for heteroscedasticitet i forbindelse med følgende regression.<br />

17 H265 kap. 4.1.2<br />

110


ITA makro’er<br />

Your heighti = β0 + β1* Your weighti + β2* Your mother’s heighti +<br />

β3* Your father’s heighti + εi<br />

Den afhængige variabel er således højde(sp05) mens vægt(sp04), din mors højde (sp06) og<br />

din fars højde(sp07) er uafhængige variable.<br />

Denne regression er indført i dialogboksen, som det ses ovenfor. Da der kun skal medtages<br />

almindelige hovedeffekter afkrydses Fixed factors (Xi). Ønskes testen baseret på de<br />

standardiserede residualer kan feltet Use standardized residuals afkrydses, ellers trykkes bare<br />

’OK’. Testen køres herefter og nedenstående output fremkommer<br />

:<br />

a.<br />

Test Results<br />

Model R^2 nR^2 DF Sig<br />

Fixed Factors 0,0357 14,8512 3 0,0019<br />

a,b,c<br />

Dependent variable: sp05<br />

b. Predictors: (Constant), sp04, sp06, sp07<br />

c. Standardized residuals are used<br />

Teststatistikken for testen er<br />

n χ<br />

2 2<br />

× R ~ k og som det fremgår af p-værdien på 0,0019 må H0<br />

hypotesen afvises. Der er således heteroscedasticitet, hvilket er et forudsætningsbrud i<br />

forbindelse med regressionsanalysen.<br />

19.8 LM test for autokorrelation 18<br />

Følgende makro anvendes ligeledes i forbindelse med regressionsanalysen <strong>til</strong> at teste for<br />

forudsætningen om autokorrelerede fejlled jf. afsnit 15.1.2.3. Testen køres ved i menulinien at<br />

vælge ITA Macro LM-Test for autocorrelation hvorved følgende dialogboks fremkommer<br />

18 H265 kap. 4.3.4<br />

111


ITA makro’er<br />

Autokorrelationstesten tager udgangspunkt i eksemplet gennemført i afsnit 15. Den afhængige<br />

variabel er således højde(sp05) mens vægt, din mors højde og din fars højde er uafhængige<br />

variable. Hypotesen for testet er som følger :<br />

H<br />

H<br />

0<br />

1<br />

: Corr(<br />

ε i , ε j ) = 0 dvs.<br />

ingen autokorrelation<br />

: Corr(<br />

ε , ε ) ≠ 0 dvs.<br />

autokorrelation<br />

i<br />

j<br />

Den vigtigste inds<strong>til</strong>ling i dialogboksen ovenfor er Number of Lags, som angiver hvor mange<br />

gange residualet skal lagges, dvs. hvilken autokorrelationsorden, der skal testes for. I dette<br />

eksempel testes således for autokorrelation af 3. orden. I Replace missing values with 0 er det<br />

muligt at vælge, hvorvidt de første værdier, som forsvinder ved at lagge residualet, skal<br />

undlades eller skal sættes <strong>til</strong> værdien 0. I dette eksempel undlades disse.<br />

Trykkes herefter ’OK’ fremkommer følgende output<br />

:<br />

Test Results<br />

Model R^2 (T-k)*R^2 DF Sig<br />

Lags 2 0,0043 1,7802 2 0,4106<br />

Lags 3 0,0105 4,3365 3 0,2273<br />

a,b,c<br />

a. Dependent variable: sp05<br />

b. Predictors: (Constant), sp04, sp06, sp07<br />

c.<br />

Missing values are included in analysis<br />

112


ITA makro’er<br />

Hvorvidt der er autokorrelation og af hvilken orden, fortolkes udfra p-værdien i ovenstående<br />

output.<br />

I linien Lags 3 fås en p-værdi på 0,2273, hvilket betyder at H0 fastholdes og det kan således<br />

konkluderes, at der ikke er autokorrelation af 3. orden. På <strong>til</strong>svarende vis ses det af p-værdien<br />

på 0,4106, at der heller ikke er autokorrelation af 2. orden.<br />

For at være sikker på at modellen er helt fri for autokorrelation, skal man dog ligeledes huske<br />

at kontrollere for 1. ordens autokorrelation, hvilket gøres udfra Durbin Watson test statistikken,<br />

som udskrives i forbindelse med kørslen af selve regressionen.<br />

113

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!