13.07.2015 Views

Introduktion till SPSS - Matematikcentrum

Introduktion till SPSS - Matematikcentrum

Introduktion till SPSS - Matematikcentrum

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Matematikcentrum</strong> 1(8)Matematisk StatistikLunds UniversitetMASB11 - Biostatistisk grundkursHT2010LaborationFördelningar och simuleringTisdag: 09/11-10, MH:231Grupp A: 8.15-10.00Grupp B: 10.15-12.00Grupp C: 13.15-15.00


<strong>Introduktion</strong>Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktionersom finns i <strong>SPSS</strong> vad det gäller simulering och dels att öka förståelsen för vissagrundläggande områden inom sannolikhetsteorin t.ex. slumpmässiga urval,slumpvariabel, sannolikhetsfördelning och summor av slumpvariabler (Centralagränsvärdessatsen).Simulering i <strong>SPSS</strong> (PASW)Simulering i <strong>SPSS</strong> görs genom att man använder speciella färdiga funktioner undermenyalternativet Transform>Compute Variable. Dock måste man först skapa ettdatamaterial med ett bestämt antal rader. Detta gör man för att <strong>SPSS</strong> alltid skapar ettslumptal för varje rad i datamaterialet. Börja därför med att lägga in värdet 10 (eller vilketvärde som helst) på den tionde raden i den första kolumnen i ditt datamaterial. Vi kommeralltså nu automatiskt att få 10 slumptal.Om man t ex vill ha ett antal slumptal från en normalfördelning med väntevärdet(populationsmedelvärdet) 100 och standardavvikelsen 15 använder manTransform>Compute Variable. Under Function group bläddrar man fram <strong>till</strong>Random numbers och Rv.Normal. När man tryckt in de önskade värdena kan det se utså här:


Här bildas alltså en ny variabel som får namnet ”normal” och den innehåller lika mångaslumptal från normalfördelningen som det finns observationer (rader) i datamaterialet.Exempel på fördelningar som finns i <strong>SPSS</strong> är (RV=Random Variable) :Fördelning Funktion ExempelBinomial RV.BINOM(n,p) RV.BINOM(10,0.5)Poisson RV.POISSON(mean) RV.BINOM(2)NormalRV.NORMAL(mean,stddev RV.NORMAL(100,15))Likformig (Rektangel) RV.UNIFORM(min,max) RV.UNIFORM(10,20)(engelska: Uniform)Exponential RV.EXP(scale) RV.EXP(1)mean = väntevärdet i fördelningenstddev = standardavvikelsen i fördelningenscale = 1 / väntevärdet (i exponentialfördelningen)1. Bilda en ny kolumn med hjälp av Transform>Compute Variable. Den skall hetaNORMAL och innehålla 10 slumptal från en normalfördelning med väntevärdet 10 ochstandardavvikelsen 2. Bilda sedan en andra kolumn som heter UNI och innehåller 10slumptal från en likformig fördelning mellan 10 och 20. Ledning: RV.NORMAL(10,2)och RV.UNIFORM(10,20)Observera att slumptalen kan ses som stickprov om 10 observationer från två kändapopulationer. Kontrollera nu med hjälp av Graph>Legacy Dialogs>Histogram hur välstickproven överensstämmer med populationerna. Teoretiskt ser populationerna ut så här:51015101520Normal (10,4) Uniform (10,20)Hur väl stämmer stickproven överens med populationerna? Upprepa nu för stickprovsstorlekn=50 observationer. Bör överensstämmelsen bli bättre eller sämre?


2. På kursens hemsida http://www.maths.lth.se/matstat/kurser/masb11/vtm3/material - underDatafiler - hittar du hjälpfilen OBS.SAV. Hämta hem denna fil <strong>till</strong> din dator. Deninnehåller 1000 rader och en variabel som heter OBS.Skapa nu tre stickprov om n=1000 observationer från följande fördelningar:• Normal(10,2)• Uniform(10,20)• Exponential med medelvärdet 1 (RV.EXP(1))Kontrollera med histogram hur fördelningarna ser ut. Kryssa för Display normal curve.Om man vill kontrollera hur pass nära ett stickprov är en viss teoretisk fördelning kanman använda olika grafiska metoder. En sådan metod är en s k Q-Q plot (Q=Quantile). Ien Q-Q plot jämför man de verkliga värdena i stickprovet med det man kunde förväntasig från en viss teoretisk fördelning. Om de observerade värdena överensstämmer med deförväntade så kommer punkterna i en Q-Q plot att ligga längs en rät linje. Jämför nu detre stickproven ovan med vad vi kunde förvänta oss från en normalfördelning.Menyalternativet du skall ge är Analyze>Descriptive Statistics>Q-Q plots och detskall då se ut så här:Tryck på OK, I resultatet finns två figurer för varje variabel. Den intressanta är den somkallas Normal Q-Q plot. Dina figurer bör se ut ungefär så här:


18Normal Q-Q Plot of NORMAL30Normal Q-Q Plot of UNI16141220Expected Normal Value10864224681012141618Expected Normal Value1000102030Observed ValueObserved Value2,5Normal Q-Q Plot of EXP2,01,51,0Expected Normal Value,50,0-,5-1,0-1,5-2-1012345Observed ValueVi ser alltså att olika avvikelser från normalfördelning resulterar i olika kurvutseende.3. I de tidigare uppgifterna har vi simulerat vad som händer om vi tar stickprov av olikastorlekar från olika kända fördelningar. Vi skall nu gå vidare och undersöka vad somhänder om vi bildar olika storheter i stickprovet. Vilka egenskaper får då dessa storheter?Vi börjar med att undersöka vilken fördelningen summan av två observationer från ennormalfördelning (10,2) har. Börja med att gå in under Transform>Compute Variableoch definiera en ny variabel NORM1 som RV.NORMAL(10,2). Tryck sedan på knappenPaste innan du ger OK. Då öppnas följande s k syntaxfönster.


Detta är ett exempel på den programkod som <strong>SPSS</strong> alltid genererar när vi utför enoperation. Om man vill utföra samma operation många gånger kan det vara praktiskt attutnyttja <strong>SPSS</strong> programkod (syntax). Kopiera de två raderna i syntaxfönstret så att viupprepar raderna ännu en gång. Byt namnet norm1 <strong>till</strong> norm2 i den andra omgången så attdet ser ut så här:


När vi kör dessa kommandon kommer det att bildas två nya variabler som heter NORM1och NORM2 och som innehåller 1000 slumptal var. Programkoden körs genom att manger menysekvensen Run>All i syntaxfönstret. De två kolumnerna med slumptal finns nu idatamaterialet. Om man vill kan man också spara syntaxfönstret för dokumentation ellersenare användning (File>Save As / File>Open>Syntax).Bilda nu summan av de två kolumnerna NORM1 och NORM2. Undersök vilkenfördelning summan har genom att göra ett histogram och en Q-Q plot.Vilken fördelning har summan? Svar: ______Vad bör väntevärdet bli? Svar: ______Standardavvikelsen? Svar: _____ (Svar finns längst bak)Centrala gränsvärdessatsenCentrala gränsvärdessatsen (CGS) är ett av de viktigaste resultaten i den statistiska teorin.Den säger att fördelningen för en summa (medelvärde) av oberoende slumpvariabler medsamma fördelning går mot en normalfördelning om antalet termer är <strong>till</strong>räckligt stort. Iden första uppgiften skall du undersöka hur många termer (observationer) som behövs föratt få en bra normalfördelningsapproximation. Vi skall i uppgiften jämföra observationerfrån en likformig fördelning mellan 10 och 20 och en exponentialfördelning medmedelvärdet 1.• Simulera nu 1000 slumptal från en likformig fördelning mellan 10 och 20. Om duvill kan du använda den variabel du fick fram under punkten 2 ovan. Kallavariabeln UNI1.• Skapa ytterligare en variabel UNI2 med 1000 slumptal från samma fördelning.Bilda summan av UNI1 och UNI2 och undersök hur fördelningen för summa ser utgenom att göra ett histogram och/eller en Q-Q plot.• Skapa nu ytterligare en variabel UNI3 och bilda summan UNI1+UNI2+UNI3. Hurser fördelningen för summan ut?• Fortsätt nu på samma sätt och lägg <strong>till</strong> variabler <strong>till</strong>s fördelningen för summan kanapproximeras bra av en normalfördelning. Hur många termer behöver du använda?Kontrollera att väntevärdet och standardavvikelsen för summan stämmer överensmed vad de teoretiskt bör vara. Ledning: Man kan visa att om X är uniform (a,b):=> EX = a+ b2Var X =b− a212• Upprepa nu denna procedur för slumptal från en exponentialfördelning medväntevärdet 1. Bilda alltså variabler med 1000 slumptal och summera ihop dessa.Verkar fördelningen gå snabbare eller långsammare mot en normalfördelning ändet gjorde för den likformiga fördelningen. Vad beror detta på?


• Centrala gränsvärdessatsen i praktiken: På 35 patienter med Hodgkins sjukdommätte man antalet T4 celler i blodet (antal/mm³). Samtidigt mätte manmotsvarande antal hos 35 patienter som hade andra sjukdomar (Non-Hodgkins).Data ligger i filen HODGKIN.SAV som du hittar på kursens hemsidahttp://www.maths.lth.se/matstat/kurser/masb11/htm3/material. Undersök om antaletceller i blodet är normalfördelat för de båda grupperna.• Du hade tänkt att jämföra grupperna genom att bilda differensen mellan de tvågruppmedelvärdena. Kan du använda dig av centrala gränsvärdessatsen i dettafall? Kan du säga något om vilken fördelning differensen i medelvärden har? Ärdet ett stort problem att variabeln inte är normalfördelad i de båda grupperna?Sammanfattning <strong>SPSS</strong>PasteFile>Open>DataFile>Open>SyntaxFile>Save AsTransform>ComputeAnalyze> Descriptive Statistics >DescriptivesGraphs> Legacy Dialogs> HistogramAnalyze>Descriptive Statistics >Q-Q plotData>Split FileÖppnar syntaxfönsterÖppna <strong>SPSS</strong>-dataÖppnar sparat syntaxfönsterSparar aktuellt fönsterBilda nya variablerBeskrivande måttHistogramQ-Q plotDela upp materialet i grupperSvar på frågorna:Summan blir normalfördelad (alla linjära kombinationer av normalfördelningar blir i signormalfördelade). Väntevärdet bör bli summan av de två väntevärdena (10+10=20) ochför att få standardavvikelsen så lägger vi ihop de två varianserna och tar roten ur summan.2 2 2 2 =8= 2,83S= X 1+X 2ES=EX 1+EX 2Var S= Var X 1 + Var X 2 ⇒σ S =Var SHodgkins sjukdom:


Ursprungliga data är definitivt ej normalfördelade men enligt centrala gränsvärdessatsenkommer medelvärdena i de två grupperna att approximativt vara det. Därmed kommerskillnaden mellan medelvärdena också att vara approximativt normalfördelad.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!