16.09.2013 Views

Luften i Umeå - Umeå universitet

Luften i Umeå - Umeå universitet

Luften i Umeå - Umeå universitet

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Luften</strong> i <strong>Umeå</strong><br />

En bortfallsanalys av samhällsbyggnadskontoret/miljö- och<br />

hälsoskydds mätningar av luftföroreningsvariablerna kvävedioxid<br />

(NO2) samt partiklar per kubikmeter luft (PM10), uppmätta vid<br />

Västra Esplanaden i centrala <strong>Umeå</strong> där multipel imputation<br />

tillämpats för att erhålla väntevärdesriktiga<br />

gränsöverskridningsfrekvenser.<br />

Gunnar Brandén<br />

Student<br />

VT 2009<br />

Kandidatuppsats, 15 hp<br />

Statistik C, 30 hp<br />

Handledare: Göran Arnoldsson


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Innehållsförteckning<br />

1. Inledning 5<br />

1.1. Bakgrund 5<br />

1.2. Tidigare Studier 6<br />

1.2.1. Rubin 6<br />

1.2.1.1. Missing Completely At Random (MCAR) 6<br />

1.2.1.2. Missing At Random (MAR) 7<br />

1.2.1.3. Ignorerbar Bortfallsmekanism 7<br />

1.2.1.4. Icke-ignorerbar Bortfallsmekanism 8<br />

1.2.2. Palma och Del Pino 8<br />

1.2.3. Hopke, Liu och Rubin 9<br />

1.2.4. Hoffman 9<br />

2. Datamaterialet 12<br />

2.1. Presentation 12<br />

2.2. Mätning av NO2 12<br />

2.3. Mätning av PM10 12<br />

2.4. Tidigare redovisning av data 12<br />

2.5. Datafångst 15<br />

2.5.1. NO2 15<br />

2.5.2. PM10 16<br />

3. Metoder 17<br />

3.1. Listvis uteslutning 17<br />

3.2. Medelvärdessubstitution 18<br />

3.3. Regression med konvergerande prediktionsvärden 19<br />

3.4. Box-Jenkin’s modell med prediktion av de saknade observationerna 20<br />

3.5. EM-algoritm 21<br />

3.6. Multipel Imputation (MI) 22<br />

3.7. Val av metod 26<br />

4. Imputationsprocessen 28<br />

2


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

4.1. Analys av en tidsserieprocess 28<br />

4.1.1. Modellering av tidsberoendet 29<br />

4.1.1.1. NO2 29<br />

4.1.1.2. PM10 32<br />

4.1.2. Övriga varaibler av intresse 32<br />

4.2. Tillämpning av multipel imputation 33<br />

4.3. Nya skattningar av gränsöverskridningsfrekvenser 33<br />

4.3.1. NO2 34<br />

4.3.1.1. Timmedelvärde 34<br />

4.3.1.2. Dygnsmedelvärde 35<br />

4.3.1.3. Årsmedelvärde 36<br />

4.3.2. PM10 36<br />

4.3.2.1. Dygnsmedelvärde 37<br />

4.3.2.2. Årsmedelvärde 37<br />

5. Diskussion 38<br />

5.1. Antaganden om MCAR/MAR samt klassificering av bortfallsmekanismen 38<br />

5.2. Slutsatser av tidigare studier 39<br />

5.3. Metodkontroll 40<br />

5.4. Metodens implikationer 40<br />

6. Tillkännagivanden 41<br />

7. Referenser 41<br />

7.1. Litteratur 41<br />

7.2. Artiklar och skrivelser 41<br />

7.3. Övriga källor 42<br />

8. Bilagor…<br />

8.1. 1a 43<br />

8.2. 1b 44<br />

8.3. 2a 49<br />

8.4. 2b 54<br />

8.5. 3a 58<br />

3


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

8.6. 3b 60<br />

8.7. 4a 62<br />

8.8. 4b 66<br />

8.9. 5 68<br />

4


1. Inledning<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

1.1. Bakgrund<br />

I april 1999 antar riksdagen 15 nationella miljökvalitetsmål, varav ett är Frisk Luft vilket innebär att<br />

utomhusluften ska vara så ren att människors hälsa samt djur, växter och kulturvärden inte skadas.<br />

Samhällsbyggnadskontoret/miljö- och hälsoskydd i <strong>Umeå</strong> är tillsynsmyndighet enligt Miljöbalken med<br />

tillhörande förordningar gällande utomhusluften i <strong>Umeå</strong> Kommun. Med utgångpunkt i EU-direktivet<br />

ramdirektivet för luftkvalitet 96/62/EG samt dotterdirektiven 1999/30/EG, 2000/69/EG och 2002/3/EG<br />

har bindande nationella föreskrifter utarbetats i form av Miljökvalitetsnormer (MKN) med avseende<br />

på kvävedioxid (NO2), partiklar (PM10), bly, kolmonoxid, bensen samt marknära ozon där mätning av<br />

de första två ämnena, NO2 samt PM10, visat på normöverskridande värden i <strong>Umeå</strong>. 1<br />

Att data sammanställs på ett korrekt sätt är av största vikt då kommuner kan bli ålagda att<br />

vidta åtgärdsprogram för att förbättra luftkvalitén samt att tillstånd inte får beviljas för verksamheter<br />

som försvårar att normvärden klaras. Därav har man från <strong>Umeå</strong> Kommuns sida efterfrågat en metod<br />

för att ta hand om saknade observationer och mätfel som uppstår i samband med mätning av<br />

variablerna NO2 och PM10, samt hur man bör sammanställa det insamlade datat för att spegla de<br />

lagstadgade normvärdena.<br />

Denna uppsats kommer således fokusera på att dels fastställa en lämplig metod för att ta<br />

hand om det saknade datamaterialet och sedan dra slutsatser om vilka effekter eller konsekvenser<br />

olika lösningar har på detta problem, men även beröra lämpliga analyseringsperspektiv med<br />

tillhörande sammanställningsförfaranden. Datamaterialet kommer att analyseras dels med avseende<br />

på antalet saknade observationer och mätfel, men också med avseende på någon form av systematik<br />

eller trend bland dessa. Denna analys kommer att vara avgörande för valet av metod att handskas med<br />

de saknade observationerna.<br />

Målsättningen är att använda den framtagna metoden för att skatta nya medelvärden och<br />

sedan jämföra dessa med avseende på gränsöverskridningsfrekvens mot de skattningar som gjordes<br />

av Samhällsbyggnadskontoret/miljö- och hälsoskydd i <strong>Umeå</strong> för 2006, 2007och 2008.<br />

1 Samhällsbyggnadskontoret Miljö – och hälsoskydd, (2006-01, 2007-01, 2008-02). <strong>Luften</strong> i <strong>Umeå</strong> – Sammanställning av<br />

mätningar vid Västra Esplanaden 2006-01-01 – 2008-12-31. <strong>Umeå</strong> Kommun.<br />

5


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

1.2. Tidigare studier<br />

1.2.1. Rubin<br />

I en numera klassisk artikel 2 av Donald B. Rubin definierar han fyra plausibla antaganden om de<br />

bortfallsmekanismer som påverkar om en observation kommer att saknas eller ej enligt:<br />

1.2.1.1. Missing Completely At Random (MCAR)<br />

Observationer som saknas på en variabel, Y, sägs vara MCAR om sannolikheten för att<br />

observationen kommer att saknas är orelaterad till värdet på Y samt alla andra variabler X (en<br />

variabelvektor), i datsetet:<br />

Pr(Y = saknas Y, X ) = Pr(Y=<br />

saknas)<br />

När MCAR antagandet är uppfyllt för samtliga variabler så kan de observerade värdena på Y ses<br />

som ett subsample av det ursprungliga datasetet, vilket innebär att de ursprungliga<br />

premisserna för antaganden om sannolikhet förblir intakta. Notera att saknade observationer<br />

på Y kan vara relaterade till förekomsten av saknade observationer på någon annan variabel Xi<br />

och fortfarande vara MCAR, restriktionen avser alltså endast värden på de andra variablerna 3.<br />

Exempel:<br />

Låt Y = ålder, X = kön<br />

I en undersökning vill man kartlägga åldersfördelningen i en stad med avseende på kön, detta<br />

med hjälp av en enkät där man ombeds tala om sin ålder (Y = 0, 1, 2, … ) samt om man är man<br />

eller kvinna (X = 0 om man, 1 om kvinna). Om respondenter som vägrat svara på hur gamla de<br />

är också vägrat att svara på om de är en man eller kvinna oaktat könstillhörighet eller ålder,<br />

så är de bortfallna observationerna fortfarande MCAR. Men om exempelvis män i högre<br />

utsträckning än kvinnor vägrat att tala om sin ålder så innebär det att värdet på X innehåller<br />

information om sannolikheten för att Y inte skall observeras, och därmed är de saknade<br />

observationerna inte MCAR.<br />

2 Rubin, D.B. (1976). Inference and missing data. Biometrica, 63, 581-592.<br />

3 Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in the Social Sciences, 07-136.<br />

Thousand Oaks, CA: Sage. p 3-4.<br />

6


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

1.2.1.2. Missing At Random (MAR)<br />

Som namnet antyder så är antagandet om MAR ett svagare antagande än MCAR där<br />

observationer som saknas på en variabel, Y, sägs vara MAR om sannolikheten för saknade<br />

observationer på Y är orelaterad till värdet på Y efter att man kontrollerat för samtliga andra<br />

variabler, X, i datasetet:<br />

Exempel:<br />

Pr(Y= saknas Y, X ) = Pr(Y=<br />

saknas|<br />

X)<br />

I det föregående exemplet så fastställdes det att om män har en högre tendens att vägra delge<br />

sig av sin ålder så är de saknade observationerna på åldersvariabeln Y inte längre MCAR. Skulle<br />

det dock vara så att män vägrade att tala om sin ålder - oavsett vilken ålder de uppnått - så<br />

skulle de saknade observationerna på Y vara MAR. Sannolikheten för saknade observationer på<br />

Y får alltså vara olika mellan mansgruppen och kvinnogruppen, så länge sannolikheten för<br />

saknade observationer på Y inom de bägge grupperna är orelaterad till Y, i detta fall<br />

individernas ålder.<br />

1.2.1.3. Ignorerbar bortfallsmekanism<br />

En bortfallsmekanism sägs vara ignorerbar om:<br />

i. datat kan antas vara minst MAR<br />

ii. de parametrar som styr bortfallsmekanismen är orelaterade till de parameterar som<br />

skall estimeras i modellen.<br />

Att bortfallsmekanismen är ignorerbar innebär i princip att det inte tillför något att försöka<br />

modellera bortfallsmekanismen i estimationsprocessen. Allison (2001) går även så långt som att<br />

se antagandet om MAR och ignorerbarhet som ekvivalent 4.<br />

4 Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in the Social Sciences, 07-136.<br />

Thousand Oaks, CA: Sage. p 5.<br />

7


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

1.2.1.4. Icke-ignorerar bortfallsmekanism<br />

Om datat inte kan antas vara MAR så sägs bortfallsmekanismen vara icke-ignorerbar. Detta<br />

innebär att statistikern bör modellera bortfallsmekanismen för att få tillförlitliga skattningar av<br />

parametrarna i sin modell. Allison (2001) påpekar dock att estimering av bortfallsmekanismen<br />

kräver mycket god förhandskunskap inom undersökningsområdet då datat för det första säger<br />

väldigt lite eller ingenting om vilken modell som kan vara lämplig att använda sig av och för det<br />

andra är väldigt känsligt för just valet av modell.<br />

1.2.2. Palma och Del Pino<br />

Wilfredo Palma och Guido Del Pino 5 har använt data på minivattennivåerna i floden Nilen och<br />

ansatt en Autoregressive Moving Average (ARMA) modell och en Autoregressive Fractionally<br />

Integrated Moving Average (ARFIMA) modell för att jämföra de bägge modellernas egenskaper<br />

med avseende på prediktionsfel i tidsseriedata när saknade observationer förekommer.<br />

Skillnaden mellan en ARMA modell och en ARFIMA modell är att tidsserien i ARFIMA modellen<br />

integreras fraktionellt, dvs med ett tal som inte är ett heltal. För en utförligare förklaring av en<br />

ARFIMA modell hänvisas till Chatfield 2003 6 men kortfattat så är den d:te differensen i en<br />

ARFIMA( p, d, q) modell en fraktionell differens vars binomiala uttryck ej konvergerar enligt:<br />

( 1 )<br />

2 ( d −1)<br />

B d(<br />

d −1)(<br />

d − 2)<br />

⎡<br />

⎤<br />

− ... X<br />

3<br />

d 1−<br />

dB + d<br />

B<br />

B X t = ⎢<br />

−<br />

− ⎥<br />

⎣ 2!<br />

3!<br />

⎦<br />

Där B är en backshiftoperator. Därmed erhålls en oändlig summa av viktade förflutna värden, vilket<br />

gjort att denna typ av modeller kommit att kallas Long-Memory Models och är exempelvis särskilt<br />

användbara för en AR(1) modell vars autokorrelationsfunktion inte ”dör ut” i ett exponentiellt<br />

förlopp 7 , vilket indikerar att observationer långt ifrån varandra fortfarande har ett visst beroende<br />

sinsemellan under förutsättningen att tidsserien i övrigt är stationär.<br />

Slutsatsen som Palma och Del Pino drar är att medan prediktionsfelet i en ARMA modell<br />

växer snabbare än i en ARFIMA modell i takt med att observationer saknas, så minskar också<br />

sedan prediktionsfelet snabbare i en ARMA modell då information återigen förs in i modellen,<br />

5 Palma, W. Del Pino, G. (1999) Statistical Analysis of incomplete long-range dependent data. Biometrica, 86, 4, p 965 – 972.<br />

6 Chatfield, C. (2003). The analysis of Time Series, an introduction. 6 th ed. Chapman & Hall/CRC. p 260-262.<br />

7 Ibid.<br />

t<br />

8


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

dvs då ”glappet” är passerat. För att exemplificera de hastigheter som prediktionsfelet rör sig<br />

med så tog det 55 saknade observationer för att Mean Square Prediction Error (MSPE) skulle<br />

öka till en viss nivå, medan det tog färre än sex observatoner för MSPE att återgå till<br />

ursprungsnivån, i en ARFIMA modell. 8<br />

1.2.3. Hopke, Liu och Rubin<br />

Philip K. Hopke, Chuanhai Liu, och Donald B. Rubin 9 skriver i en tekniskt relativt krävande<br />

artikel om strategier för att hantera saknade observationer genom att titta på tidsseriedata av<br />

luftföroreningar i Arktis och fokuserar sedan på multipel imputation. Jag återkommer till denna<br />

metod senare i uppsatsen men en central insikt som författarna sluter sig till är att<br />

imputationsmodeller i regel inte behöver vara lika exakta som kompletta datamodeller,<br />

eftersom imputationsmodellerna endast påverkar den del av datat som är imputerat. Om<br />

exempelvis en imputationsmodell är 10 % ofullständig för ett dataset med 30 % saknade<br />

observationer så kommer den slutgiltiga modellen endast vara 3 % ofullständig för den<br />

slutgiltiga inferensen.<br />

1.2.4. Hoffman<br />

Szymon Hoffman 10 har tittat på utvecklingen av prediktionsfelet i en tidsserieanalys med bl a<br />

mätningar på NO2 modellerat med ett Artifial Neural Network (ANN) med avseende på en<br />

lookahead variabel. Denna variabel ingick i modellerna som en tidsserieparameter och angav<br />

hur långt fram i tiden den modellerade outputen är ifrån den senast införda inputen, där<br />

modellernas precision förväntas bero på värdet av lookahead. En ANN modell är en matematisk<br />

modell som urpsrungligen utarbetades i ett försök att modellera hur den mänskliga hjärnan<br />

fungerar och kan ses som ett system som sammanbinder en eller flera ”inputs” till ett eller flera<br />

”outputs” på ett sätt som kan vara icke-linjärt men inte behöver vara det och kännetecknas<br />

vanligtvis av en s.k. feed-forward design som indikerar riktningarna i relationerna i ANN modell<br />

enligt:<br />

8 Palma, W. Del Pino, G. (1999) Statistical Analysis of incomplete long-range dependent data. Biometrica, 86, 4, p 965 – 972.<br />

9 Hopke, P.K. Liu, C. Rubin, D.B. (2001) Multiple Imputation for Multivariate Data with Missing and Below-Threshold<br />

Measurements: Time-Series Concentrations of Pollutants in the Arctic. Biometrics, 57, p 22-33.<br />

10 Hoffman, S. (2006). Short-Time Forecasting of Atmospheric NOx Concentration by Neural Networks. Environmental<br />

Engineering Science, Vol.23, No. 4, p. 603 - 609<br />

9


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Input<br />

Input<br />

Input<br />

Nod 1<br />

Nod 2<br />

Output<br />

ANN modellen ovan består av 3 inputs varav den första till exempel skulle kunna vara en<br />

konstant samt den andra och tredje två olika variabler säg X1 = längd och X2 = ålder. I ett<br />

”mellanskikt” befinner sig noder eller neuroner som kan beskrivas som aktiveringsfunktioner<br />

där först en vikt appliceras mellan varje variabel Xi och varje nod i modellen som beskriver<br />

styrkan i varje koppling enligt:<br />

Därefter konverteras varje kvantitet<br />

v<br />

j<br />

∑<br />

= i<br />

w x<br />

i<br />

i<br />

v till det predikterade värdet för varje nod genom att<br />

j<br />

applicera skiktfunktionen. Denna funktion kan exempelvis vara en logistisk funktion enligt:<br />

z<br />

j<br />

1<br />

=<br />

1 + e<br />

När värden är beräknade för alla noder så går man analogt till väga för att beräkna värden för<br />

(alla) output(s), dvs man viktar en gång till och beräknar återigen via en aktiveringsfunktion<br />

nämligen outputfunktionen. Därmed är output, som vi kan kalla för Y, relaterad till inputen via<br />

följande uttryck 11:<br />

där<br />

− v<br />

⎡⎛<br />

⎛ ⎞ ⎞⎤<br />

y = Φ ⎢⎜<br />

⎟<br />

o ⎜∑<br />

w'<br />

j Φ h ⎜∑<br />

wij<br />

xi<br />

⎟ + w'o<br />

⎟⎥<br />

⎢⎣<br />

⎝ j ⎝ i ⎠ ⎠⎥⎦<br />

Φ o<br />

är aktivationsfunktionen vid output, som vid tidsserieanalys oftast<br />

är en identitetslänk, och<br />

j<br />

Φ h<br />

aktivationsfunktionen vid mellanskiktet.<br />

11 Chatfield, C. (2003). The analysis of Time Series, an introduction. 6 th ed. Chapman & Hall/CRC. p 232.<br />

10


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

I sin studie har Hoffman ansatt två modeller, en modell med ett linjärt beroende mellan<br />

input och output och en med ett icke-linjärt beroende. I bägge fallen använde han sig av<br />

tillgängligt data som input i modellerna och saknade (framtida) data som output. Datat till<br />

studien är inhämtat från två städer i södra Polen: Zabrze (1994 - 1997), samt Kedzierzyn-Kozle<br />

(1994 - 1999) varav Zabrze har uppvisat högre koncentrationer av NO och NO2.<br />

Resultaten av studien visar på flera intressanta aspekter:<br />

i. För det första så var den icke-linjära modellens precision inte distinkt bättre än<br />

den linjära modellens, och Hoffman drar slutsatsen att ”den linjära modellen<br />

förefaller fördelaktig med anledning av dess enkelhet och korta beräkningstid”. 12<br />

ii. För det andra så tyder studien på att predikteringen av NOx har bättre precision<br />

i Zarbze än i Kedzierzyn-Kozle, dvs. i den mer förorenade staden.<br />

iii. För det tredje så visar det sig att precisionen i modelleringen av NOx sjunker<br />

relativt fort vid stigande värden på lookahead. Ett ”bra” precisionsspann<br />

definierades som tidsspannet där korrelationskoefficienten var > 0,8: ett spann<br />

som ofta inte sträckte sig över mer än två tidspunkter för en ANN modell.<br />

iv. Slutligen pekar studien i en enkel jämförelse på att två andra betydligt simplare<br />

metoder, nämligen last-value och linjär interpolation gav minst lika bra<br />

precision om inte bättre.<br />

12 Hoffman, S. (2006). Short-Time Forecasting of Atmospheric NOx Concentration by Neural Networks. Environmental<br />

Engineering Science, Vol.23, No. 4, p. 608<br />

11


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

2. Datamaterialet<br />

2.1. Presentation<br />

I <strong>Umeå</strong> mäts och sammanställs värden av NO2 samt PM10 i luften med hjälp av mätutrustning som<br />

samlar in timmedelvärden för respektive variabel. Denna mätutrustning finns placerad på för<br />

ändamålet strategiska positioner i <strong>Umeå</strong> med avseende på förväntade värden på respektive variabel,<br />

där mätvärden inhämtade från Västra Esplanaden i centrala <strong>Umeå</strong> under 2006, 2007 och 2008 fått<br />

utgöra det data som använts i denna uppsats. Utifrån de uppmätta timmedelvärdena bildas<br />

dygnsmedelvärden där minst 21 av de 24 timmedelvärdena måste uppmätts korrekt för att<br />

dygnsmedelvärdet skall godkännas. Även årsmedelvärden sammanställs utifrån timmedelvärdena för<br />

bägge variablerna. För NO2 beräknas även 98:e percentilen för tim- och dygnsmedelvärdet medan man<br />

för PM10 endast beräknar 90:e percentilen för dygnsmedelvärdet. Det bör också nämnas att antalet<br />

timmar under ett vanligt år är 8760, men eftersom 2008 var ett skottår så uppgår det totala antalet<br />

timmar under tidsperioden till 8760 + 8760 + 8784 = 26304.<br />

2.2. Mätning av NO2<br />

Data registreras av mätaren i ppb och skall sedan omvandlas till µg/m 3. Detta görs via en multiplikator,<br />

K, som för 2006 var 1,91*10 3 samt för 2007 och 2008 var 1,92*10 3 . Dessa olika värden på K anses<br />

korrigera för kalibreringsförändringar och därmed vara direkt jämförbara.<br />

2.3. Mätning av PM10<br />

Data som mätinstrumentet samlar in underskattar partikelhalterna jämfört med EU:s referensmetod<br />

varför det korrigeras uppåt med en multiplikator som för 2006 och 2007 var 1,3 men för 2008 var 1,2.<br />

Dessa olika värden anses korrigera för kalibreringsförändringar och därmed vara direkt jämförbara.<br />

2.4. Tidigare redovisning av data<br />

Samhällsbyggnadskontoret miljö- och hälsoskydd i <strong>Umeå</strong> Kommun sammanställer årligen<br />

mätresultaten under året i en rapport under rubriken ”<strong>Luften</strong> i <strong>Umeå</strong>”. I denna rapport nämner man<br />

relevanta lagar och förordningar och ger en fullgod bakgrundsbild till varför och hur man genomfört<br />

12


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

mätningarna. Dessa jämförs sedan mot de lagstadgade miljökvalitétsnormerna för utomhusluft i<br />

termer av timmedelvärden, dygnsmedelvärden samt årsmedelvärden med avseende på<br />

gränsöverskridningsfrekvens. Man skriver exempelvis om NO2:<br />

Samt angående PM10:<br />

”Till skydd för människors hälsa får kvävedioxid efter den 31 december 2005 inte<br />

förekomma i utomhusluft med mer än:<br />

1. i genomsnitt 90 mikrogram per kubikmeter (µg/m 3 ) luft under en timme.<br />

2. i genomsnitt 60 mikrogram per kubikmeter (µg/m 3) luft under ett dygn.<br />

3. i genomsnitt 40 mikrogram per kubikmeter (µg/m 3 ) luft under ett<br />

kalenderår.<br />

Timmedelvärdet får överskridas 175 gånger per år (98-percentil) förutsatt att<br />

föroreningsnivån aldrig överstiger 200 mikrogram per kubikmeter luft under en timme mer<br />

än 18 gånger per kalenderår (99,8-percentil).<br />

Dygnsmedelvärdet får överskridas 7 gånger per kalenderår (98-percentil).” 13<br />

”Till skydd för människors hälsa får partiklar efter den 31 december 2004 inte förekomma i<br />

utomhusluft mer än:<br />

1. i genomsnitt 50 mikrogram per kubikmeter luft under ett dygn.<br />

2. i genomsnitt 40 mikrogram per kubikmeter luft under ett kalenderår.<br />

Det värde som anges i första stycket 1 får överskridas 35 gånger per kalenderår (90-<br />

precentil).” 14<br />

Därmed är det alltså gränsöverskridningsfrekvensen som är det centrala i undersökningen, alltså hur<br />

många timmar under året som varit direkt farliga för människors hälsa samt i förlängningen av detta<br />

hur många dygn som varit det och därefter klargöra om kalenderåret i sin helhet utgjort ett hot mot<br />

människors hälsa p.g.a. förorenad utomhusluft. Med avseende på det databortfall som uppstått under<br />

året står följande att läsa i exempelvis 2008 års rapport:<br />

13 Samhällsbyggnadskontoret Miljö – och hälsoskydd, (2008-02). <strong>Luften</strong> i <strong>Umeå</strong> – Sammanställning av mätningar vid Västra<br />

Esplanaden 2008-01-01 – 2008-12-31. <strong>Umeå</strong> Kommun<br />

14 Ibid.<br />

13


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

”Visst databortfall finns under korta perioder vid exempelvis service och underhåll av<br />

utrustningen. Datafångsten för NO2 mätningarna har varit 96-97 % vilket är mycket bra och<br />

uppfyller de krav på 90 % datafångst som Naturvårdsverket ställer.”<br />

Därefter det väsentliga:<br />

”Den stora datafångsten medför att redovisade uppgifter rörande luftföroreningssituationen<br />

bedöms återspegla den faktiska situationen med avseende på luftföroreningar på Västra<br />

Esplanaden på ett tillfredsställande sätt.”<br />

Med detta antagande nöjer man sig och går således inte vidare med någon bortfallsanalys. Detta<br />

resonemang anser jag vara diskutabelt på grund av att det man har till uppgift att göra – mäta<br />

gränsöverskridningsfrekvensen – inte stämmer direkt överens med det man anser att de redovisade<br />

uppgifterna återspeglar: nämligen ”den faktiska situationen med avseende på luftföroreningar på Västra<br />

Esplanaden”. Distinktionen mellan dessa två ändamål och de olika arbetssätt och analys dem påfordrar<br />

återkommer jag till.<br />

2.5. Datafångst 15<br />

Med utgångspunkt i Rubin’s antaganden om saknade observationer, MCAR och MAR, så har jag valt att<br />

titta på ett antal numeriska beskrivningar av datat vid givna tim-, dygns- och månadsvärden för att<br />

undersöka huruvida bortfallsfrekvensen kan vara relaterad till specifika tidspunkter som i sin tur är<br />

relaterade till värden på NO2 respektive PM10.<br />

2.5.1. NO2<br />

Till att börja med så kan det konstateras att datafångsten för NO2 har varit exceptionellt bra<br />

under dessa tre år, sammanlagt hela 97,6 %. Tittar vi sedan på de tre olika datamatriserna så<br />

ser vi att:<br />

i. Skillnaderna i datafångst är väldigt små med avseende på dygnets tjugofyra<br />

timmar, där den 12:e timmen har flest bortfall: 1064 registrerade mätningar mot<br />

exempelvis 1072 registrerade mätningar för den 22:a timmen.<br />

15 Läsaren hänvisas till Bilaga 1a vad gäller samanställningar och grafer för NO2,<br />

samt Bilaga 1b vad gäller sammanställningar och grafer för PM10.<br />

14


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

ii. Skillnaderna i datafångst är väldigt små även med avseende på veckans sju dygn<br />

där torsdagen har flest bortfall: 3620 registrerade mätningar mot exempelvis 3695<br />

registrerade mätningar för söndagen.<br />

iii. Skillnaderna är något större med avseende på årets tolv månader där augusti har<br />

flest bortfall: 1916 registrerade mätningar mot exempelvis 2232 registrerade<br />

mätningar för januari och maj.<br />

Dessa resultat anser jag ger en fingervisning om att bortfallen tycks komma ”i klump” och bildar<br />

på så sätt ”glapp” i tidsserien där värden saknas, snarare än att de inträffar vid för<br />

undersökningen relevanta tidpunkter såsom under en viss tid på dygnet eller under en viss del<br />

av året. Detta då skillnaden i bortfall för olika timmar på dygnet förefaller vara lägst, följt av<br />

skillnaden för olika dagar i veckan och störst är skillnaden för årets olika månader. Om det hade<br />

varit så att bortfallen uppstått ett i taget så borde inte en sådan trend kunna uppfattas.<br />

Tittar vi sedan på medelvärden vid olika faktornivåer ges följande:<br />

Av dessa datamatriser så framgår det tydligt att dygnsmedelvärdena för NO2, helt enligt<br />

förväntningarna, är lägre för lördagar och söndagar än för de fem arbetsdagarna. Det framgår<br />

också att timmedelvärdena är något högre för de timmar på dygnet som man förväntar sig att<br />

den mänskliga aktiviteten skall vara relativt hög dvs. på morgonen ungefär mellan 8-10 och på<br />

kvällen ungefär mellan 16-18. Vad gäller skillnader mellan årets tolv månader så kan man se att<br />

medelvärdena för semestermånaderna, juni, juli och augusti, är lägre än medelvärdena för årets<br />

övriga nio månader vilket är i enighet med de trendindikationer som mätningarna påvisat<br />

hittills.<br />

Men inget av detta indikerar en relation mellan saknade observationer och värdet på NO2.<br />

Som ni minns så var bortfallet som störst för augusti månad, men den månaden utmärker sig<br />

varken med avseende på dess centraltendens eller på dess extremvärden och spridning. Av<br />

veckans sju dagar så var bortfallet störst för torsdagen, som också är det dygn som i och för sig<br />

har högst medelvärde men som knappast är tillräckligt högt i förhållande till övriga<br />

dygnsmedelvärden för att meritera vidare analys och som heller inte har vare sig störst<br />

extremvärden eller spridning. Ser vi slutligen till dygnets tjugofyra timmar så var bortfallet<br />

störst under den 12:e (och 13:e) timmen, timmar som inte heller utmärker sig på något relevant<br />

sätt.<br />

15


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

2.5.2. PM10<br />

För PM10 ser datafångsten ut som följande:<br />

Även för PM10 har datafångsten varit bra: sammanlagt 94,5 % under åren 2006, 2007 och<br />

2008. Tittar vi sedan på datamatriserna så ser vi att:<br />

i. Skillnaderna i datafångst är väldigt små med avseende på dygnets tjugofyra<br />

timmar även för PM10, där den 10:e timmen har flest bortfall: 1029<br />

registrerade mätningar mot exempelvis 1043 registrerade mätningar för den<br />

17:e timmen.<br />

ii. Skillnaderna i datafångst också är väldigt små med avseende på veckans sju<br />

dagar, där måndagen har flest bortfall: 3501 registrerade mätningar mot<br />

exempelvis 3602 registrerade mätningar för fredagen.<br />

iii. Skillnaderna i datafångst, precis som för NO2, är lite större med avseende på<br />

årets tolv månader, där februari har flest bortfall med 1905 registrerade<br />

mätningar mot exempelvis 2228 registrerade mätningar i juli.<br />

Tolkningen av dessa bortfallsfrekvenser blir analog med den föregående, nämligen att bortfallen<br />

”kommer i klump” och på så sätt drabbar de för studien relevanta tidpunkterna tämligen lika.<br />

Trots liknande bortfallsfrekvens som NO2 så kan fortfarande en jämförelse en granskning<br />

av medelvärden och spridning vid olika faktornivåer vara intresse: (se: Bilaga 2 b.)<br />

Det framgår att timmedelvärdena för PM10 är högst de timmar på dygnet som man kan<br />

förvänta sig att det är många fordon på vägarna. Ser vi sedan till dygnsmedelvärden så finner vi<br />

återigen att lördag och söndag har lägre medelvärden än övriga veckodagar, vilket säkerligen<br />

beror på en större mängd trafik under arbetsdagarna. Jämför vi dessa iakttagelser med<br />

bortfallsfrekvenserna för PM10 så meriterar det knappast någon vidare analys av relationen<br />

mellan värden på PM10 och sannolikheten för saknade observationer.<br />

16


3. Metoder<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

3.1. Listvis uteslutning<br />

Den absolut vanligaste (men därmed inte sagt bästa!) metoden för att handskas med saknade<br />

observationer är listvis uteslutningsmetoden. Den innebär att samtliga observationer i ett dataset som<br />

saknar data på någon variabel utesluts ur undersökningen, varpå undersökaren i bästa fall antar att<br />

det som återstår av stickprovet är ett obundet slumpmässigt urval av det ursprungliga stickprovet som<br />

åtminstone implicerar att han förstår innebörden av vad han gör, eller i värsta fall antar att de<br />

uteslutna observationerna ”ända inte spelar någon roll” utan närmare analys, vilket tyvärr är desto<br />

vanligare.<br />

Nåväl, vad medför då denna metod? Allison (2001) pekar på två uppenbara fördelar 16 :<br />

• Den kan användas vid all statistisk analys, oavsett om man arbetar med en strukturell<br />

ekvationsmodell i AMOS eller en korstabell i Excel.<br />

• Inga specifika beräkningsmetoder fordras, man kan helt enkelt gå vidare som om<br />

ingenting hänt.<br />

Förutom dess parsimoniska egenskaper så innehar listvis uteslutningsmetoden också en hel del goda<br />

egenskaper ur statistisk synpunkt under förutsättningen att data är MCAR:<br />

o Om parameterskattningarna i det ursprungliga stickprovet var unbiased så kommer<br />

dem även att vara det för reducerade stickprovet.<br />

o Standardavvikelser och teststatistikor som erhålls av det reducerade stickprovet<br />

kommer fortfarande att vara lika korrekta. Här bör man dock notera att det generellt<br />

gäller att ju fler observationer man har i ett givet dataset desto lägre tenderar<br />

standardavvikelserna skattas, detta då man helt enkelt har mer information att tillgå<br />

och därför kan göra säkrare skattningar.<br />

Till nackdelarna hör bland annat det som nämns ovan, nämligen att man ”kastar bort” information som<br />

annars kan vara användbar i undersökningen. Detta är i synnerhet ett allvarligt problem om man<br />

16 Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in the Social Sciences, 07-<br />

136. Thousand Oaks, CA: Sage. p 6.<br />

17


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

jobbat hårt och betalat mycket för att erhålla sitt datamaterial, då kan det vara svårt att försvara att<br />

man kastar en påtaglig del av det arbetet i papperskorgen.<br />

Vidare så innebär överträdelser av MCAR antgandet i sitt dataset att listvis<br />

uteslutningsmetoden kan orsaka icke-väntevärdesriktiga estimatorer. Om det finns en<br />

beroendestruktur bland förklaringsvariabler och beroendevariabler i modellen som innebär att<br />

sannolikheten för att observera ett värde på en beroendevariabel är beroende av värdet på en<br />

förklaringsvariabel så kommer listvis uteslutningsmetoden att orsaka icke-väntevärdesriktiga<br />

estimatorer. Detsamma gäller exempelvis om en sådan beroendestruktur föreligger i en<br />

regressionsmodell som innebär att regressionskoefficienterna i modellen inte kan antas vara lika för<br />

alla individer i stickprovet.<br />

Med detta sagt så förblir ändå listvis uteslutningsmetoden den metod som jag hädanefter<br />

kommer att jämföra övriga metoder med av den enkla anledningen att denna metod är den minst<br />

komplicerade, mest lättförstådda, och mest använda av alla metoder samtidigt som den under vissa<br />

förutsättningar har väldigt goda statistiska egenskaper. Därmed ger den så att säga högst<br />

marginalavkastning, dvs man får mycket för väldigt lite i termer av arbetsbörda och statistisk<br />

ackuratess. Vad man dock måste ha i tanken hela tiden är att det inte bara kan vara en viss metods<br />

generella egenskaper som avgör om den är bäst, utan dess egenskaper utifrån det specifika problem<br />

som varje undersökning utgör där mätning av gränsöverskridningsfrekvens definitivt är ett sådant<br />

specifikt problem.<br />

3.2. Medelvärdessubstitution<br />

En annan ganska vanlig metod för att ta hand om saknade observationer har varit<br />

medelvärdessubstitution. Det går helt enkelt till så att man beräknar medelvärdet på den variabel som<br />

det saknas observationer på utifrån det data man har tillgängligt och imputerar dessa skattningar i sin<br />

datamatris och genomför sedan inferens som om man hade ett fullständigt stickprov. Denna metod<br />

delar fördelen med listvis uteslutning att vara väldigt enkel att både genomföra och intuitivt förstå och<br />

tolka. Andra egenskaper hos medelvärdessubstitution är:<br />

o Metoden är alltid konservativ 17 i den meningen att de imputerade värdena inte kommer<br />

att medföra speciellt stora förändringar av medelvärdet för fördelningen i stort vilket<br />

kan vara bra om man är väldigt osäker på området.<br />

17 Tabachnik, B.G, Fidell, L.S. (2007) Using Multivariate Statistics 5:th ed. Pearson Education, Inc. p.67.<br />

18


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

o Variansen hos den imputerade variabeln kommer antagligen att underskattas - ganska<br />

kraftigt - då medelvärdena rimligtvis kommer att ligga närmre fördelningens faktiska<br />

centraltendens än de värden som dem ersätter. Detta föranleder givetvis att<br />

teststatistikorna inte längre är tillförlitliga, och man har problem med inferensen.<br />

Givetvis kan man genomföra denna metod något mindre primitivt genom att exempelvis beräkna<br />

medelvärden vid givna faktornivåer under förutsättningen att sådana finns att tillgå i sin modell, men<br />

inget av detta kommer att kunna lösa de ovanstående problemen med medelvärdessubstitution, utan<br />

på sin höjd minimera dem. Allison (2001) påpekar också problemet med den icke-väntevärdesriktiga<br />

variansskattningen med denna metod och drar slutsatsen att den ”generellt bör undvikas.” 18<br />

3.3. Regression med konvergerande prediktionsvärden<br />

Genom att ansätta en regressionsmodell med den variabel som saknar observationer som<br />

beroendevariabel, Y, och de övriga variablerna i datasetet som förklaringsvariabler, Xi, så kan de<br />

saknade observationerna på beroendevariabeln skattas. På så sätt tar man tillvara på den information<br />

om beroendevariabeln som eventuellt finns hos de övriga variablerna i datasetet.<br />

Tabachnik och Fidell (2007) 19 påpekar att det är lämpligast att fortsätta med metoden tills<br />

man fått konvergens i prediktionsvärdena för de saknade observationerna. Det innebär att de<br />

predikterade värdena från den första beräkningsomgången förs in i datasetet varpå statistikern<br />

predikterar nya värden för de saknade observationerna. Detta pågår tills konvergens uppnåtts, dvs tills<br />

skillnaderna mellan de värden som införs för prediktering och de resulterande prediktionsvärdena är<br />

tillräckligt små för ändamålet.<br />

Vilka konsekvenser medför då denna metod?<br />

o Den intuitivt mest uppenbara effekten är att man kommer att få predikterade<br />

värden som kommer att passa in för bra i sitt dataset i förhållande till de värden<br />

som dem ersätter med avseende på de övriga variablerna i datasetet eftersom dessa<br />

utgjort den informationsbas som renderat i de framtagna skattningarna. Detta<br />

kommer naturligtvis att påverka modellen som helhet och sambanden i modellen<br />

kommer att överskattas.<br />

18 Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in the Social Sciences, 07-<br />

136. Thousand Oaks, CA: Sage. p 11.<br />

19 Tabachnik, B.G, Fidell, L.S. (2007) Using Multivariate Statistics 5:th ed. Pearson Education, Inc. p.67.<br />

19


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

o En annan högst trolig effekt är att de imputerade värdena, precis som vid<br />

medelvärdessubstitution, kommer att vara ”för snälla” dvs avvika för lite än de<br />

borde från dess centraltendens eftersom de skattats som en perfekt linjärfunktion<br />

av förklaringsvariablerna. Detta medför en underskattning av variansen och därmed<br />

en överskattning av teststatistikorna.<br />

o Slutligen kräver denna metod att det finns variabler i datasetet som innehåller<br />

tillräckligt bra information om den variabel som det saknas information på för att<br />

man skall få tillförlitliga resultat.<br />

3.4. Box-Jenkin’s modell med prediktion av saknade observationer<br />

I den numera klassiska boken från 1970 av George Edward Pelham Box och Gwilym Meirion Jenkins,<br />

Time series analysis: Forecasting and control så föds modellbyggnadsmetodologin ARIMA<br />

(Autoregressive Integrated Moving Average) med tillhörande förhållningssätt till tidsserieanalys. För en<br />

utförligare förklaring av själva modellmetodologin så rekommenderar jag kap. 3 - 5 i Chatfield (2003),<br />

dock antas läsaren hädanefter åtminstone vara tillräckligt insatt i ämnet för kommande resonemang i<br />

uppsatsen.<br />

I en ansatt ARIMA modell så modellerar man värdet man ser just nu med hjälp av den<br />

information som finns i variabelns förflutna värden, exakt hur denna modell ser ut kommer givetvis att<br />

vara fullständigt bundet av den beroendestruktur som datat uppvisar. Vad innebär då detta för<br />

problemet med saknade observationer?<br />

Då beroendestrukturen i datat är modellerat med hjälp av en Box-Jenkin’s modell så är<br />

resonemanget analogt när det gäller att modellera framtida värden, man använder alltså all den<br />

information som finns i tidigare observationer av tidsserien för att prediktera värdet vid framtida<br />

tidpunkter. Ett möjligt tillvägagångssätt för att skatta saknade observationer blir då att använda sig av<br />

all information som finns i tidsserien fram till den första saknade observationen, och därefter<br />

prediktera S tidsenheter frammåt och således erhålla en skattning för dem saknade observationerna<br />

enligt följande uttryck under exempelvis en ansatt AR(1):<br />

X T + S = αX T + S −1<br />

+ εT<br />

+ S<br />

En sådanhär metod stöter dock på allvarliga problem när bortfallet bildar glapp i tidsserien, som det<br />

gör i detta fall, eftersom man då måste använda sig av predikterade värden som om de vore<br />

20


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

observerade. Detta medför givetvis allvarliga problem, åtminstone på det teoretiska planet, men jag<br />

återkommer till detta senare.<br />

3.5. EM-algoritm<br />

EM-algoritmen är en generell metod för att ta fram maximum likelihood (ML) estimat när delar av<br />

datat saknas, men kommer i denna uppsats att behandlas under antagande om multivariat<br />

normalfördelade variabler i modellen vilket get ett specialfall av EM-algoritmen. Även om detta<br />

antagande är ett ganska starkt antagande så har det visat sig att om någon variabel (som saknar<br />

observationer, annars kan den vara fördelad hur som helst i princip) i datasetet inte är normalfördelad<br />

så har ändå maximum-likelihood skattningar under detta antagande ofta väldigt goda egenskaper,<br />

speciellt om datat kan antas vara MCAR. 20<br />

Algoritmen består i detta specialfall av två olika steg:<br />

1. Expectation<br />

Man börjar med att anta startvärden på de parametrar man skall estimera, dvs<br />

medelvärdet och kovariansmatrisen (som består av korrelationer och<br />

standardavvikelser). Dessa startvärden kan exempelvis fås genom att tillämpa listvis<br />

uteslutningsmetoden och därefter genomföra konventionella ML-skattningar på det<br />

reducerade stickprovet. Sedan beräknas regressionskoefficienter baserade på dessa<br />

startvärden för samtliga variabler i datasetet för att således erhålla skattningar av de<br />

saknade värdena och därmed, som Allison (2003) påpekar, har detta steg i algoritmen<br />

under antagandet om multivariat normalfördelade variabler i allt väsentligt reducerats<br />

till en regressionsimputationsprocess. 21 Lägg dock märke till att man här tar till vara på<br />

all information som finns i alla variabler i datasetet utan att behöva dela in dem i<br />

förklarings- respektive responsvariabler.<br />

20 Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in the Social Sciences, 07-<br />

136. Thousand Oaks, CA: Sage. p 18.<br />

21 Ibid, p 20.<br />

21


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

2. Maximization<br />

När alla saknade värden har skattats och imputerats i datasetet i expectation-steget så<br />

består maximization-steget av att beräkna nya ML-värden för medelvärdet och<br />

kovariansmatrisen. Här är det lämpligt att vara på sin vakt 22 då konventionella<br />

imputationsprocesser i mjukvara ofta underestimerar variansen i modellen genom att<br />

inte korrigera de imputerade värdena med de residualvarianser- och kovarianser som<br />

erhålls av regressionsekvationen i det föregående expectation-steget.<br />

När vi beräknat nya medelvärden och kovariansmatriser så återgår man till expectation-steget och<br />

skattar nya värden för de saknade observationerna med hjälp av de nya parametervärdena, för att<br />

därefter återigen beräkna parametrarna på nytt. Dessa två steg upprepas till dess att skattningarna<br />

konvergerat.<br />

3.6. Multipel Imputation (MI)<br />

Som titeln antyder så innebär denna imputationsmetod att man återskapar flera uppsättningar dataset<br />

med skattade värden för de saknade observationern. Men för att förstå hur MI fungerar, och<br />

framförallt varför det fungerar, så ska jag snabbt nämna de några av de svårigheter som statistikern<br />

står inför när data skall imputeras:<br />

o För det första så vill man att metoden skall fungera för alla typer av data som finns i<br />

datasetet, och att de estimat som metoden genererar uppvisar goda egenskaper.<br />

o Vidare så vill man att den beräkningstekniska delen av metoden skall vara så enkel<br />

som möjligt för att underlätta tolkningen av skattningarna som tas fram.<br />

o Framförallt så vill man att den imputationsmetod man använder sig av återskapar<br />

de faktiska observationerna som saknas på ett så korrekt sätt som möjligt med<br />

avseende på variabelns sanna variabilitet och därefter genererar<br />

parameterskattningar som tar i beaktande att de imputerade värdena är baserade<br />

sample estimat av parametrar och inte sanna parametrar. Därmed identifieras<br />

svårigheten att ta i beaktande följande faktum:<br />

22 Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in the Social Sciences, 07-<br />

136. Thousand Oaks, CA: Sage. p 20.<br />

22


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

att de imputerade värdena inte är riktiga värden och därför inte bör<br />

betraktas som sådana, samt att de erhållna parameterskattningarna<br />

som imputationsvärdena baseras på är sampling estimat och inte<br />

estimat av de sanna parametrarna.<br />

En potentiellt pinsam situation kan uppstå när MI används, nämligen att olika undersökningar får fram<br />

olika värden trots att man använder exakt samma dataunderlag. Det kan låta ovetenskapligt, men det<br />

är faktiskt så att det är just detta faktum som är en av de mest briljanta delarna i denna metod.<br />

Anledningen till att MI alltid genererar olika värden varje gång är att slumpmässig variation medvetet<br />

införs i imputationsprocessen för att på så sätt gå ifrån en deterministisk imputationsmetod till förmån<br />

för en slumpmässig imputationsmetod. Detta ifrångående tar i beaktande att de imputerade värdena<br />

inte är sanna värden, ett faktum som för deterministiska imputationsmetoder ofrånkomligen<br />

resulterar underskattningar av variansen/kovariansen hos variablerna i fråga. Som jag nämnde<br />

tidigare så kan detta problem hanteras i en EM-algoritm genom att residualvarianserna från<br />

regressionsekvationen används för att korrigera dem konventionella beräkningsformlerna, varpå<br />

Allison (2003) anser att ett fullgott alternativ är att göra en slumpmässig dragning från<br />

residualfördelningen från varje variabel som skall imputeras och sedan addera dessa slumpmässiga<br />

dragningar till de imputerade värdena. Anta exempelvis ett dataset med två variabler, X och Y, där<br />

observationer på X saknas. Då beräknas det slumpmässiga imputationsvärdet enligt: 23<br />

xi xi<br />

σ x yψ<br />

i<br />

2<br />

~ ^<br />

= + ,<br />

2<br />

Där σ är variabelns standardavvikelse, ψ i är slumpmässiga dragningar från residualfördelningen<br />

för X, xi ^<br />

är det predikterade av X från regressionen av X på Y, x i<br />

~<br />

är det modifierade imputerade<br />

värdet som går in i datasetet. Detta hanteringssätt förekommer i MI och möjliggör användandet av<br />

konvetionella formler för att beräkna varianser och kovarianser. Därmed kan slumpmässig imputation<br />

eliminera den bias som deterministisk imputation orsakar, men problem kvarstår. Då imputerade<br />

värden används som om dem vore observerade värden, oavsett om dem är slumpmässiga eller<br />

deterministiska, så uppkommer problemet med generellt ”för bra” imputationsvärden 24 , förmodligen<br />

23 Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in the Social Sciences, 07-<br />

136. Thousand Oaks, CA: Sage. p 28.<br />

24 Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in the Social Sciences, 07-<br />

136. Thousand Oaks, CA: Sage. p 29.<br />

23


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

som ett resultat av att dem skattats som en linjärkombination av de andra variablerna i datasetet.<br />

Detta åtgärdas i MI genom att man återskapar flera uppsättningar dataset med imputerade värden som<br />

vart och ett kommer att ha unika skattningar tack vare att den deterministiska imputationsmetoden<br />

övergetts till förmån för den slumpmässiga genom att göra dragningar ur variabelns<br />

residualfördelning. Dessa uppsättningar poolas sedan ihop för att vikta upp standardavvikelsen hos<br />

variabeln i fråga och man erhåller en betydligt mindre biased skattning enligt: 25<br />

Där<br />

~ 1 m ^<br />

X = ∑ X i<br />

m i=<br />

1<br />

~<br />

X är den slutgiltiga skattningen för imputationen, samt:<br />

~<br />

⎛ 1 ⎞<br />

T = U + ⎜1+<br />

⎟B ⎝ m ⎠<br />

Där T är den totala estimerade variansen medan B och<br />

~<br />

U utgör mellangrupps- respektive genomsnitts-<br />

inomgruppsvariansen hos imputationsgrupperna beräknade enligt:<br />

1<br />

B =<br />

m −1<br />

~ 1 m<br />

= ∑<br />

m i=<br />

1<br />

U<br />

m<br />

∑<br />

i=<br />

1<br />

U<br />

i<br />

⎛<br />

⎜ X<br />

⎝<br />

^<br />

i<br />

~ ⎞⎛<br />

− X ⎟⎜<br />

X<br />

⎠⎝<br />

^<br />

i<br />

~ '<br />

⎞<br />

− X ⎟<br />

⎠<br />

Notationer:<br />

m : antal återskapade dataset<br />

m.h.a. multipel imputation<br />

X = (X1, … , Xk) ’ : parametervektor<br />

med k antal element att estimera<br />

^ ^ ^<br />

X i = ( X 1 , … , X k i)’ : estimerade<br />

parametervektorer m.h.a.<br />

det i:te återskapade datasetet<br />

Ui : estimerad kovariansmatris av<br />

25 SPSS Statistics 17.0 (2008-12-01) SPSS Multiple Imputation Pooling Algorithms: Combining Results After Multiple<br />

Imputation vidare refererat till:<br />

Li, K.H. Raghunathan, T.E. Rubin, D.B. (1991) Large-Sample Significance Levels from Multiply Imputed Data Using Moment-<br />

Based Statistics and an F Reference Distribution. Journal of the American Statistical Association. 86, 1065-1073. samt:<br />

Schafer, J.L. (1997) Analysis of Incomplete Multivariate Data. London: Chapman and Hall.<br />

24<br />

^<br />

X i


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Problem kvarstår dock fortfarande, för när xi ^<br />

skall skattas så betraktas de parameterskattningar som<br />

används i regressionsekvationen som om de vore sanna parametrar, men eftersom dem är sample<br />

estimat av parametrar så är det inte lämpligt att använda sig av samma värden på dessa parametrar för<br />

varje imputationsskattning, dem bör variera. Ett sätt att tillåta en slumpmässig variation i<br />

parameterskattningarna är att göra slumpmässiga dragningar ur vad som kallas the Bayesian posterior<br />

distribution of parameters. 26 Tyvärr är detta lättare sagt än gjort, och fordrar specialiserad mjukvara<br />

som exempelvis beräknar Markov chain Monte Carlo (MCMC)-algoritmer, något som lyckligtvis finns i<br />

SPSS 17.0 som val av imputationsmetod under ”Fully Conditional Specification” (FCS).<br />

Dessutom konstaterar Allison (2003) 27 att så länge stickprovet är stort och proportionen<br />

saknade observationer är litet så kommer MI utan detta extra steg vanligtvis ge resultat som är väldigt<br />

nära de resultat man annars fått, speciellt om datat kan antas vara MCAR.<br />

Vidare kan nämnas att medan jag anser att det bästa sättet att genomföra multipel<br />

imputation på för just det problem som denna uppsats avhandlar är det sätt som presenterats ovan, så<br />

finns det andra tillvägagångssätt. Ett klassiskt exempel är den icke-parametriska så kallade ”Hot-Deck”<br />

metoden, frekvent använd av U.S. Census Bureau där man bildar korstabeller av variabler som är<br />

relaterade till variabeln med saknade observationer och helt enkelt väljer ut ett ”donationsvärde” i<br />

denna korstabell för varje saknat värde. För att randomisera denna urvalsprocess bland de möjliga<br />

donationsvärdena, på ett sätt som tar all naturlig variation i variabeln i beaktande, så myntade Donald<br />

P. Rubin en metod som han uppkallade the approximate Bayesian Bootstrap. 28 Denna metod kom sedan<br />

att kompletteras av R. J. A. Little med en partiell-parametrisk metod som kallas Predictive Mean<br />

Matching som för övrigt finns att tillgå i SPSS 17.0. För en utförligare förklaring om hur ”Hot-Deck”<br />

metoden används så hänvisas läsaren till relevanta kapitel Allison (2003), men den är alltså inte<br />

aktuell denna gång.<br />

26 Iversen, Gudmund R. (1976). Bayesian Statistical Inference. Sage University Papers Series on Quantative Applications in<br />

the Social Sciences, 07-001. Beverly Hills and London: Sage Pubns.<br />

27 Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in the Social Sciences, 07-<br />

136. Thousand Oaks, CA: Sage. p 31-32.<br />

28 Ibid, p 58.<br />

25


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

3.7. Val av metod<br />

Av dessa olika metoder, vilken lämpar sig bäst?<br />

För att svara på den frågan så måste vi här definiera kärnan i vad som skall åstadkommas<br />

med den metod som slutligen väljs. Jag nämnde i avsnitt 2.3 Tidigare redovisning av data att jag anser<br />

att det är en väsentlig skillnad i de två syftena:<br />

1. Mäta gränsöverskridningsfrekvensen<br />

2. Spegla den faktiska situationen med avseende på luftföroreningar<br />

Jag skulle nu vilja återkoppla till detta. För att på ett korrekt sätt mäta gränsöverskridningsfrekvensen<br />

så menar jag på att det inte räcker att de saknade observationerna styrs av en slumpmässig<br />

bortfallsmekanism för att avfärda vidare bortfallsanalys, eftersom vad man har för avsikt att mäta inte<br />

är den stokastiska processens centraltendens utan den frekvens med vilken den avviker från denna<br />

med avseende på givna distanser, gränsvärden.<br />

Exempel:<br />

Låt oss säga att datafångsten ett visst år uppgår till 95% och att bortfallet kan antas vara<br />

MCAR. Detta ger att av årets 8760 timmar så saknar man data på totalt 438 timmar. Antag<br />

vidare för enkelhetens skull att sannolikheten för att ett timmedelvärde skall överskrida ett<br />

visst gränsvärde är konstant över alla timmar på året, och att denna sannolikhet är 0,015.<br />

Detta ger att det i genomsnitt sker ett gränsöverskridande var 66:e timme, varvid det<br />

förväntade antalet gränsöverskridningar på ett år blir 8760 * 0,015 = 131,4. Men eftersom man<br />

endast lyckats fånga upp 8322 timmar så blir det skattade antalet gränsöverskridningar<br />

endast 8322 * 0,015 = 124,83. För att få fram det korrekta antalet gränsöverskridningar under<br />

ett år så bör man addera produkten av antalet saknade timmedelvärden och sannolikheten för<br />

att en timme skall överskrida gränsvärdet till det förväntade antalet gränsöverskridningar som<br />

det uppfångade datat genererat enligt:<br />

(8322 * 0,015) + (438*0,015) = 124,83 + 6,57 = 131,4<br />

Ty om inte detta görs, om bortfallsanalys negligeras, så underskattas<br />

gränsöverskridningsfrekvensen ofrånkomligt.<br />

26


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Exemplet ovan är givetvis en förenkling av verkligheten, i själva verket är inte sannolikheten för att ett<br />

timmedelvärde skall överskrida gränsvärdet varken känd eller konstant för alla timmar under året.<br />

Men det understryker den fundamentala skillnaden mellan att undersöka en centraltendens och en<br />

gränsöverskridningsfrekvens, där det första under antagandet om MCAR mycket väl kan stå sig bra,<br />

t.o.m. med ett mycket större bortfall än vad som finns i detta dataunderlag, men där det senare måste<br />

ta hänsyn till allt bortfall för att kunna åstadkomma väntevärdesriktiga skattningar.<br />

Mot bakgrund av detta resonemang så faller naturligtvis listvis uteslutningsmetoden bort,<br />

trots dess enkelhet och icke-förstörande egenskaper. Vidare är medelvärdssubstitution inte mycket<br />

bättre då denna definitivt kommer att resultera i att inga gränsöverskridande värden skattas med<br />

tanke på medelvärdesnivåerna i datat. En regressionsmodell med konvergerande prediktionsvärden är<br />

då ett bättre alternativ, men där framkommer det fundamentala problemet att de skattade värdena<br />

kommer att vara linjärkombinationer av de andra variablerna i modellen och därmed vara oförmögna<br />

att fånga upp variabelns reella variabilitet och därmed orsaka allehanda problem. Vad gäller Box-<br />

Jenkin’s modell med prediktion av saknade observationer så kan den metoden möjligtvis prestera bra<br />

om det är så att observationer saknas en och en, men som jag tidigare beskrivit så tycks<br />

observationerna i dessa dataset saknas ”i klump”, dvs de bildar glapp i tidsserien. Detta är naturligtvis<br />

väldigt problematiskt, då den bästa informationen om en tidsenhet antagligen ligger i dem omedelbart<br />

omkringliggande observationerna. Denna problematik är just vad Palma och Del Pino, samt Hoffman<br />

undersökte utifrån olika prespektiv, och slutsatsen där blev ju som bekant att man med tillförlitlighet<br />

sällan kan skatta mer än två tidsenheter framåt på detta sätt och att prediktionsfelet växer snabbt i<br />

takt med längden på observationsglappet. Man skulle då kunna tänka sig att sätta in de tidigare<br />

skattade värdena i prediktionsmodellen för att på så sätt kunna tillgodogöra sig den information som<br />

eventuellt finns i dessa, men problemet är då att vi inte vet något om kvalitén i den informationen då<br />

man i så fall använder deterministiskt imputerade värden i modellen som om de vore observerade<br />

värden. Det skulle vidare krävas omfattande modellkontrollering för att kunna dra korrekta slutsatser<br />

av en sådan inferens.<br />

Därmed har valet av metod reducerats till ett val mellan multipel imputation eller en EM-<br />

algoritm, ett val som jag för detta ändamål ser som uppenbart då multipel imputation tar i beaktande<br />

allt det som EM-algoritmen gör och utöver det, det inneboende faktum att imputerade värden aldrig<br />

någonsin fullt ut kan motsvara observerade värden och därför innehåller tekniker för att ta hand om<br />

även detta.<br />

27


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

4. Imputationsprocessen<br />

4.1. Analysen av en tidsserieprocess 29<br />

Sekvensen av observationer i en tidsserie utvecklas enligt sannolikhetslagar, därav finns det till<br />

processen {Xt} en simultan fördelningsanalys. Om denna är känd så blir det också möjligt att göra<br />

uttalanden om sannolika framtida värden på X, och en förutsättning för detta är att ansätta mycket<br />

restriktiva antaganden för den statistiska strukturen hos den stokastiska tidsserieprocessen. Det finns<br />

två olika sådana restriktioner som tillämpas, strikt stationaritet samt svag stationaritet varav det<br />

senare är vad som tillämpas och refereras till i denna uppsats och definieras enligt:<br />

E<br />

X<br />

1. ( ) = µ<br />

V<br />

X<br />

2. ( ) 2<br />

t<br />

t<br />

= σ<br />

3. ( t t k ) k X X γ =<br />

cov , +<br />

Där: t = indexering av tidslag, k = indexering av tidsförskjutning<br />

Här anger det första kriteriet att medelvärdet måste vara konstant för alla värden på t. Det andra<br />

kriteriet anger att variansen måste vara konstant för alla värden på t, och det tredje kriteriet till sist<br />

anger att autokovariansen ej får vara beroende av tidpunkterna själva utan endast av<br />

tidsförskjutningen mellan två tidspunkter. Vid strikt stationeritet stipuleras även kriterier för att<br />

moment av högre ordning för varje kombination av variablerna: Xt1, Xt2, Xt3, …. är oberoende av tiden,<br />

kriterier som för övrigt är explicita för exempelvis normalfördelade processer då dessa som bekant<br />

definieras fullt ut av sina två första moment, medelvärde och varians.<br />

Under detta antagande om stationaritet så kommer processen uppvisa följande<br />

fundamentala eganskaper för att kunna handskas med det faktum att man endast har en realisering av<br />

processen och därmed ej kan erhålla fler än ett stickprov vid varje tidpunkt:<br />

o Stickprovsmedelvärdet konvergerar mot processens sanna medelvärde.<br />

o Variansestimaten konvergerar mot processens sanna varians.<br />

29 Läsaren hänvisas till Bilaga 2a vad gäller samanställningar och grafer för NO2,<br />

samt Bilaga 2b vad gäller sammanställningar och grafer för PM10.<br />

28


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

o Procecessens längd i mättillfällen, T, som kan ses som T stycken upprepade<br />

stickprov på samma process.<br />

Därmed så kommer jag även att modellera den beroendestruktur som finns i datat med avseende på<br />

tidsförskjutningar förutom de faktorvariabler som finns inbyggda i datasetet:<br />

• Timma i: i = 1, 2, … 24.<br />

• Dag j: j = måndag, tisdag, onsdag, … söndag.<br />

• Månad o: o = januari, februari, mars, … december.<br />

4.1.1. Modellering av tidsserieberoendet<br />

En utförlig redogörelse av hur man analyserar och diagnostiserar en tidsserieprocess kan<br />

inhämtas hos Chatfield (2003), jag kommer dock hädanefter att utgå ifrån att läsaren är bekant<br />

med de kommande resonemangen.<br />

4.1.1.1. NO2<br />

För att avgöra huruvida det är möjligt att arbeta under antaganden om normalitet så började<br />

jag med att plotta mina observationer i en dotplott och en Q - Q plott. Av dotplotten framgår<br />

tydligt att variablen är kraftigt skev åt höger och detta återspeglas i Q –Q plotten som även<br />

indikerar att en logaritmisk transformation av variabeln skulle kunna resultera i en betydligt<br />

bättre anpassning till normalfördelningen, samtidigt som en sådan transformation är en<br />

åtgärd som ofta stabiliserar en eventuellt heteroskedastisk varians. Transformationen<br />

genomfördes och bägge plottarna vittnar nu om att en logaritmisk transformation av<br />

variabeln NO2 möjliggör ett fortsatt arbete under antagande om normalfördelning (och i<br />

förlängningen multivariat normalfördelning när vi kommer till imputationsprocessen).<br />

Nästa steg blev att undersöka tidsserieprocessen och antagandet om<br />

stationaritet. Detta påbörjades genom att först plotta datat i en tidsserieplot, något som<br />

visade sig vara lättare sagt än gjort när man har 26304 observationer i datasetet. När det<br />

kommer till den fina konsten ”eye-ball statistics” i tidsserieplottar så brukar jag alltid dela<br />

upp tidsserien i säg 8 lika långa segment, och om jag inte kan avgöra var i tidsserien som<br />

datat hör hemma genom att endast titta på den så brukar jag gå vidare i analysen. Nu anser<br />

jag dock att detta är genomförbart och lösningen blir då en differentiering, och eftersom vi<br />

29


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

har med timmedelvärden att göra så säsongsdifferentierade jag tidsserien med en<br />

periodicitet på 24 enligt:<br />

∆ X = X − X t<br />

24 t t −24<br />

Där Δ är en differentieringsoperator<br />

Differentieringen ser ut att ha avlägsnat dygnstrenden och tagit ner processen på en<br />

stationär nivå, därmed går jag vidare i analysen och genomför ett Dickey-Fuller test av<br />

enhetsrot 30 som under en förenklad modell, AR(1) genomförs enligt:<br />

X α X + ε<br />

= t<br />

t−1<br />

Om α = 1 så har vi en s.k. random walk eftersom varians och medelvärde då beror av t.<br />

∆X = X − X = α X + ε − X<br />

t t<br />

t<br />

* t−1<br />

t t −1<br />

X = α −1<br />

X + ε<br />

∆ −1<br />

t ( ) t t<br />

( α −1 ) = δ<br />

δ X + ε<br />

t−1<br />

t<br />

H0: δ = 0 enhetsrot, dvs ej stationär<br />

HA: δ < 0 stationär<br />

δ<br />

s⎜<br />

⎛δ<br />

⎟<br />

⎞<br />

⎝ ⎠<br />

= ^<br />

Teststatistika: t ~ Dickey-Fuller*<br />

*Statistikan är ej t-fördelad, utan fördelad efter en specifik fördelning, som brukar refereras som Dickey-Fuller Table.<br />

Med en parameter i modellen så är tkrit = -1,95.<br />

Med två parametrar i modellen så är tkrit = -2,89.<br />

Med tre parametrar i modellen så är tkrit = -3,45.<br />

^<br />

Osv…<br />

30 Chatfield, C. (2003). The analysis of Time Series, an introduction. 6 th ed. Chapman & Hall/CRC. p 263.<br />

t<br />

30


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Testet gav tobs = -17,0 vilket innebär att H0 förkastas och därmed anser jag att det inte<br />

föreligger tillräckliga grunder för att behandla processen som icke-stationär.<br />

Nästa steg i analysen blev att undersöka processens autokorrelationsfunktion<br />

(ACF) samt partiella autokorrelationsfunktion (PACF) för att blottlägga den<br />

beroendestruktur som finns i tidsseriedatat. Det dök upp en tydlig spik i PACF medan<br />

förloppet i ACF var exponentiellt avtagande vilket är ett skolboksexempel på en AR-process.<br />

Därmed ansatte jag en AR(1) process utöver den säsongsdifferentiering som redan<br />

innefattats och plottade därefter ACF och PACF igen, varpå plottarna nu indikerande ett<br />

långsiktigt beroende i variabeln vid den 24:e laggen. Detta anser jag vara intuitivt<br />

lättförståeligt då dygnets timmar säkerligen samvarierar mellan dygnen, d.v.s. värdet på NO2<br />

klockan 12.00 är relaterat till värdet på NO2 klockan 12.00 föregående dygn. Därmed<br />

ansattes en SARIMA(1,0,0)(0,1,1) 24 modell och ACF samt PACF plottades igen för att<br />

undersöka huruvida den framtagna modellen förmått modellera bruset i tidsserien. Det<br />

anges även en teststatistika i SPSS utskriften, Ljung-Box statistikan som är ett test för vitt<br />

brus - som är detsamma som att säga att modellen är plausibel - men som jag<br />

erfarenhetsmässigt bedömmer vara mycket instabil och opålitlig och därför i bästa fall kan<br />

utgöra en minimal del av analysen.<br />

I och med ansättandet av SARIMA(1,0,0)(0,1,1) 24 modellen så ser ACF och<br />

PACF riktigt bra ut, och påvisar inte längre några uppenbara tendenser. Dessvärre har Ljung-<br />

Box statistikan ett ganska högt värde på 244,156 vilket är en indikation på att det finns<br />

tidsberoende kvar i datat som modellen inte förmått förklara. Tyvärr är det i realiteten så att<br />

vissa beroenden ibland kan vara mer eller mindre omöjliga att modellera, och desto oftare så<br />

kostar det mer i form av komplexitet i modellen än det smakar i form av förbättrade<br />

skattningar att försöka göra det. Men för att undersöka saken närmare så plottade jag upp<br />

residualerna från modellen och fann att de var väldigt normalfördelade, vilket är bra. Jag<br />

plottade sedan residualerna mot tiden för att möjligtvis kunna få en indikation på hur jag<br />

skulle kunna förbättra modellen eller åtminstone göra en bedömning av styrkan i det<br />

beroende som enligt Ljung-Box statistikan fortfarande föreligger. Tyvärr så fick jag inget<br />

stadigt att gå på av just detta tillvägagångssätt men den sammantagna informationen från<br />

residualplottar, ACF och PACF plottar, den höga förklaringsgraden i modellen (stationärt R 2<br />

= 0,861), samt de signifikanta parameterskattningarna anser jag alla talar för att gå vidare<br />

med den ansatta modellen.<br />

31


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

4.1.1.2. PM10<br />

Tillvägagångssättet i analysen för PM10 blir givetvis snarlik den för NO2. Även denna gång<br />

började jag med att plotta observationerna i en dotplott för att avgöra huruvida det är<br />

möjligt att arbeta under antaganden om normalitet. Av dotplotten framgår tydligt att även<br />

denna variabel är kraftigt skev åt höger och som också återspeglas i Q –Q plotten som<br />

återigen indikerar att en logaritmisk transformation av variabeln skulle kunna resultera i en<br />

betydligt bättre anpassning till normalfördelningen. Transformationen genomfördes och<br />

även om det inte ser lika bra ut som det gjorde för NO2 så anser jag ändå att avvikelserna<br />

från normalfördelningen är tillräckligt små för att den logaritmiska transformationen ska<br />

möjliggöra ett fortsatt arbete under antagande om normalfördelning.<br />

Nästa steg blev att undersöka tidsserieprocessen och antagandet om<br />

stationaritet: ”eye-ball statistics” tillämpades och även här ser en differentiering ut att vara<br />

nödvändig, och eftersom vi fortfarande har med timmedelvärden att göra så<br />

säsongsdifferentierade jag tidsserien med en periodicitet på 24. Denna differentiering såg ut<br />

att ha avlägsnat dygnstrenden hyfsat tillfredsställande och tagit ner processen på en<br />

stationär nivå, därmed gick jag vidare i analysen och genomförde ett Dickey-Fuller test.<br />

Detta gav ett tobs = -16,0 vilket innebär att H0 förkastas och därmed anser jag<br />

att det för PM10 inte heller föreligger tillräckliga grunder för att behandla processen som<br />

icke-stationär. Nästa steg i analysen blev att undersöka processens ACF samt PACF för att<br />

blottlägga beroendestrukturen. Även här dök det upp tydliga spikar i PACF medan ACF<br />

uppvisade ett exponentiellt avtagande mönster, och därför ansattes likaså en AR(1) och<br />

funktionerna plottades igen. Samma mönster som för NO2 dök upp i plottarna även denna<br />

gång med ett tydligt säsongsberoende varför jag som nästa åtgärd ansatte en<br />

SARIMA(1,0,0)(0,1,1) 24 och därefter plottade ACF och PACF ännu en gång. Ljung-Box<br />

statistikan var lägre denna gång: 69,372 men resonemanget blir även denna gång analogt<br />

som för föregående variabel och jag nöjer mig med den modell som jag kommit fram till.<br />

4.1.2. Övriga variabler av intresse<br />

De tidigare nämnda inneboende variablerna i datatsetet är som sagt på vilken timma av dygnets<br />

tjugofyra som värdet är uppmätt, vilken dag av veckans sju dagar som värdet tillhör, och vilken<br />

månad av årets tolv månader som värdet tillhör. Dessa olika faktorvariabler med tillhörande<br />

nivåer kommer givetvis inkluderas i imputationsmodellen då dessa säkerligen innehåller<br />

32


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

information om det värde som saknas och följdaktligen ska skattas. Det finns förstås andra<br />

variabler som också hade varit av intresse, såsom utomhustemperatur och vindstyrka etc, men<br />

som tyvärr inte uppmätts och som därför måste lämnas därhän.<br />

4.2. Tillämpning av multipel imputation 31<br />

Genom tillämpning av multipel imputation enligt ovanstående redogörelse så återskapades 5<br />

uppsättningar dataset som därefter poolades ihop för att bilda två kompletta dataset, för varje<br />

variabel. Utifrån utskrifterna ifrån processerna så framgår det att imputeringen av de saknade<br />

observationerna mycket riktigt har en påverkan vad gäller gränsöverskridningseffekten.<br />

För att kontrollera konvergensen i ittereringsprocessen med FCS metoden så plottade jag<br />

upp den mot 200 iterationer – väldigt många – och kan därefter konstatera att standardavvikelsen<br />

stabiliserade sig efter cirka 60 iterationer medan medelvärdet var stabilt under hela processen för<br />

bägge variablerna.<br />

4.3. Nya skattningar av gränsöverskridningsfrekvenser 32<br />

Det fullständiga datasetet med imputerade värden ska nu användas för att beräkna<br />

gränsöverskridningsfrekvensen för de respektive variablerna på nytt.<br />

Det kan även nämnas att jag som rutinåtgärd analyserat det rådata som dataseten bygger<br />

på och där tagit bort negativa- samt nollvärden och således behandlat dessa som mätfel. Därmed<br />

beräknas nedanstående dygns- och årsmedelvärden givetvis utifrån det antal observationer som<br />

inkluderats i repsektive kalkyl: dvs om det endast funnits 22 observerade timmar på ett dygn så har<br />

dessa summerats och summan dividerats med 22 och inte 24, detsamma gäller för årsmedelvärden.<br />

31 Läsaren hänvisas till Bilaga 3a vad gäller tillmäpningen för NO2,<br />

samt Bilaga 3b vad gäller tillämpningen för PM10.<br />

32 Läsaren hänvisas till Bilaga 4a vad gäller samanställningar för NO2,<br />

samt Bilaga 4b vad gäller sammanställningar för PM10.<br />

33


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

4.3.1. NO2<br />

Nedan följer beräkningar för gränsöverskridningsfrekvensen med avseende på olika mått:<br />

4.3.1.1. Timmedelvärde<br />

• För 2006 anges i kommunens rapport en gränsöverskridningsfrekvens på 286 (dvs<br />

286 timmar under 2006 översteg MKN på 90 µg/m 3). Jag kontrollerade detta genom<br />

att befalla SPSS att välja ut alla observationer som översteg90 µg/m 3 i datasetet och<br />

därefter koda om dem i en dikotom filtreringsvariabel som antog värdet 0 om<br />

observationen ej överskred 90 µg/m 3 eller antog värdet 1 om den överskred 90<br />

µg/m 3. Därefter summerade jag alla ettorna och enligt dessa beräkningar på det<br />

urpsrungliga datasetet så bör den siffran istället vara 296.<br />

Samma procedur gjordes på det fullständiga datasetet och den justerade<br />

överskridningsfrekvensen summerades till 298, alltså 2 fler gränsöverskridningar än i<br />

det ursprungliga datasetet av totalt 22 imputerade värden.<br />

• För 2007 anges i kommunens rapport en gränsöverskridningsfrekvens på 567. Jag<br />

kontrollerade detta på samma sätt som tidigare och fann att den siffran bör vara 566.<br />

Samma procedur gjordes på det fullständiga datasetet och den justerade<br />

överskridningsfrekvensen summerades till 571, alltså 5 fler gränsöverskridningar än i<br />

det ursprungliga datasetet eller 4 fler enligt kommunrapporten av totalt 392<br />

imputerade värden.<br />

• För 2008 anges i kommunens rapport en gränsöverskridningsfrekvens på 433. Jag<br />

kontrollerade detta på samma sätt som tidigare och fann att den siffran bör vara 433,<br />

alltså överensstämmande siffror.<br />

Samma procedur gjordes på det fullständiga datasetet och den justerade<br />

överskridningsfrekvensen summerades till 433, alltså genererades inget<br />

gränsöverskridande timmedelvärde för 2008 genom imputationsprocessen.<br />

34


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Sammantaget bedömer jag att de multipelt imputerade värdenas effekt på<br />

gränsöverskridningsfrekvensen är realistiska, vilket talar för att metoden är lämplig samt<br />

utförts på ett korrekt sätt.<br />

4.3.1.2. Dygnsmedelvärde<br />

• För 2006 anges i kommunens rapport en gränsöverskridningsfrekvens på 53. När jag<br />

skulle kontrollera detta så upptäckte jag en diskrepans i rapporteringen av<br />

dygnsmedelvärden från 2006 i förhållande till 2007 och 2008 då man under 2006<br />

krävt att endast 18 av dygnets 24 timmar skall vara registrerade för att<br />

dygnsmedelvärdet skall godkännas. Jag ämnar därvidlag anta att<br />

samhällsbyggnadskontoret/miljö- och hälsoskydd i <strong>Umeå</strong> haft goda skäl till detta och<br />

genomför därför min kontrolle under jämförliga premisser. Denna gjordes genom att<br />

jag rekonstruerade datamatrisen så att dygnets 24 timmar blev variabler med<br />

uppmätta (alternativt saknade) värden för årets 365 dygn, varpå jag befallde SPSS att<br />

beräkna radmedelvärden för de 365 olika raderna och sedan spara dessa i en ny<br />

variabel som då innehöll alla årets dygnsmedelvärden. Jag kontrollerade sedan<br />

antalet timmar registrerade för varje dygn och fann att 2006-06-22 skulle exkluderas,<br />

i enlighet med kommunrapporten. Därefter befalldes SPSS att koda om dem i en<br />

dikotom filtreringsvariabel som antog värdet 0 om medelvärdet ej överskred 60<br />

µg/m 3 eller antog värdet 1 om den överskred 60 µg/m 3 . Därefter summerade jag alla<br />

ettorna och enligt dessa beräkningar på det urpsrungliga datasetet så bör<br />

gränsöverskridningsfrekvensen med avseende på dygnsmedelvärden vara 56.<br />

Samma procedur gjordes på det fullständiga datasetet och den justerade<br />

överskridningsfrekvensen summerades också till 56.<br />

• För 2007 anges i kommunens rapport en gränsöverskridningsfrekvens på 62. Jag<br />

kontrollerade detta på samma sätt som tidigare och fann att den siffran mycket riktigt<br />

bör vara 62.<br />

Samma procedur gjordes på det fullständiga datasetet och den justerade<br />

överskridningsfrekvensen summerades även den till 62.<br />

35


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

• För 2008 anges i kommunens rapport en gränsöverskridningsfrekvens på 41. Jag<br />

kontrollerade detta på samma sätt som tidigare och fann att den siffran bör vara 41,<br />

alltså överensstämmande siffror.<br />

Samma procedur gjordes på det fullständiga datasetet och den justerade<br />

överskridningsfrekvensen summerades till 40, därmed har ett imputerat värde för en<br />

saknad observation skattats lägre än dess tillhörande dygns medelvärde och på så<br />

sätt fått ner det under gränsen för överskridning. Detta är ytterligare ett exempel på<br />

varför det är olämpligt att bortse ifrån bortfallet i datafångsten.<br />

4.3.1.3. Årsmedelvärde<br />

• För 2006 anges i kommunens rapport ett årsmedelvärde på 42, vilket<br />

överensstämmer både med min egen beräkning på det ursprungliga datasetet samt<br />

med det årsmedelvärde som det framtagna fullständiga datasetet gav upphov till.<br />

• För 2007 anges i kommunens rapport ett årsmedelvärde på 44, vilket är något högre<br />

än min egen beräkning på det ursprungliga datasetet som gav ett årsmedelvärde på<br />

43. Det årsmedelvärde som det framtagna fullständiga datasetet gav upphov till<br />

visade sig också vara 43.<br />

• För 2008 anges i kommunens rapport ett årsmedelvärde på 41,6. Jag kontrollerade<br />

4.3.2. PM10<br />

detta på samma sätt som tidigare och fann att den siffran var korrekt. Årsmedelvärdet<br />

baserat på det fullständiga datasetet blev även det 41,6.<br />

Tillvägagångssättet för kontroll av tidigare beräkningar baserade på det ursprungliga datasetet<br />

samt för nya beräkningar baserade på det imputerade fullständiga datasetet är likadant för<br />

PM10 som det var för NO2. Nedan följer beräkningar för gränsöverskridningsfrekvensen med<br />

avseende på olika mått:<br />

36


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

4.3.2.1. Dygnsmedelvärde<br />

• För 2006 anges i kommunrapporten en gränsöverskridningsfrekvens på 34, vilket<br />

överenstämmer med min kontrollräkning. Däremot visar det sig att det fullständiga<br />

datasetet genererat 35 gränsöverskridande dygn.<br />

• För 2007 anges i kommunrapporten en gränsöverskridningsfrekvens på 25, vilket<br />

inte överenstämmer med min kontrollräkning som säger att siffran bör vara 23.<br />

Däremot ger en beräkning baserad på det fullständiga datasetet en<br />

gränsöverskridningsfrekvens på hela 35 vilket för tillbaka<br />

gränsöverskridningsfrekvensen till 2006 års nivåer.<br />

• För 2008 anges i kommunrapporten en gränsöverskridningsfrekvens på 28, vilket<br />

överenstämmer både med min kontrollräkning baserad på det ursprungliga datasetet<br />

samt den gränsöverskridningsfrekvens som beräknades baserad på det fullständiga<br />

datasetet.<br />

4.3.2.2. Årsmedelvärde<br />

• För 2006 anges i kommunens rapport ett årsmedelvärde på 28,7 vilket<br />

överensstämmer med min egen beräkning på det ursprungliga datasetet sånär som på<br />

ett avrundningsfel upp till 28,8. Det årsmedelvärde som det fullständiga datasetet gav<br />

upphov till var även det 28,7.<br />

• För 2007 anges i kommunens rapport ett årsmedelvärde på 26, men som enligt min<br />

egen beräkning på det ursprungliga datasetet bör vara 27,3. Beräkningen baserad på<br />

det fullständiga datasetet tar ner årsmedelvärdet till 27,1.<br />

• För 2008 anges i kommunens rapport ett årsmedelvärde på 25,4. Jag kontrollerade<br />

detta på samma sätt som tidigare och fann att den siffran var korrekt. Årsmedelvärdet<br />

baserat på det fullständiga datasetet blev 25,6.<br />

37


5. Diskussion<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

5.1. Antaganden om MCAR/MAR samt klassificering av bortfallsmekanismen<br />

I avsnitt 2.5 Datafångst så konstaterades att bortfallet inte tycks vara relaterat till värdet på NO2 eller<br />

PM10 för respektive dataset. Det gick heller inte att hitta någon indikation på att specifika värden på<br />

timmar, dagar, eller månader förmådde förklara bortfallet, utan den information som gick att utvinna<br />

var att bortfallet följde en trend där skillnaden i antalet fångade observationer mellan olika värden på<br />

de inkluderade faktorerna tycktes växa ju större tidsspann dem innefattade. Störst var skillnaderna<br />

mellan årets tolv månader, därefter skillnaden mellan veckans sju dagar, och minst var skillnaden<br />

mellan dygnets tjugofyra timmar. Detta anser jag tyder på att bortfallen kommer ”i klump” och därmed<br />

bildar luckor eller glapp i tidsserien. Man kan t.e.x. tänka sig att en mätstation drabbas av<br />

strömavbrott, och att det hinner gå ett antal timmar innan detta uppmärksammats, rapporterats och<br />

slutligen åtgärdats. Därmed går ett antal observationer irad förlorade snarare än enstaka<br />

observationer slumpmässigt placerade i mätprocessen. Inget i denna trend talar dock emot det tidigare<br />

postulerade antagandet om MCAR i avsnitt 1.2.1.1, och jag ser heller ingen intuitiv förklaring till varför<br />

bortfallet inte skulle vara MCAR. Jag har slutligen tittat på väntetider mellan att mätningarna går ner,<br />

för om de är exponentialfördelade, därmed slumpmässiga, så är det ett argument som talar för MCAR.<br />

Som framgår av Q-Q plottarna mot exponentialfördelningen så tycks detta gälla för NO2 men är något<br />

mer tveksamt för PM10. 33 Vad detta beror på är svårt att säga, men jag tycker ändå att det är<br />

tillräckligt nära för att inte vara ett argument emot MCAR för någon av variablerna. Därmed anser jag<br />

att såsom bortfallet hitills har sett ut för samhällsbyggnadskontoret/miljö- och hälsoskydd i <strong>Umeå</strong>s<br />

mätningar av NO2 och PM10 utmed Västra Esplanaden så kan det antas vara Missing Completely At<br />

Random, MCAR.<br />

Som jag nämnde i avsnitt 1.2.1.2 så anser Allison (2001) att antaganden om MAR och<br />

ignorerbar bortfallsmekanism är ekvivalent, och eftersom MAR är ett svagare antagande än MCAR så<br />

bör bortfallsmekanismen i detta fall i alla anseenden betraktas som ignorerbar i bemärkelsen att det<br />

inte skulle tillföra modellen något att försöka modellera bortfallsmekanismen.<br />

33 Läsaren hänvisas till Bilaga 5 vad gäller Q-Q plottar mot exponentialfördelningen för NO2 och PM10<br />

38


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

5.2. Slutsatser av tidigare studier<br />

Jag skulle nu vilja återknyta till de några av de studier som nämndes i avsnitt 1.2 Tidigare Studier för<br />

att förtydliga och förklara några av de val jag gjort under arbetets gång.<br />

För att återkoppla till diskussionen som jag kortfattat förde på sidan 29 angående den<br />

höga Ljung-Box statistikan för dem ansatta tidsseriemodellerna, betänk tidigare nämnda Philip K.<br />

Hopkes, Chuanhai Lius, och Donald B. Rubins artikel om strategier för att hantera saknade<br />

observationer genom att titta på tidsseriedata av luftföroreningar i Arktis där författarna sluter sig till<br />

att:<br />

”imputationsmodeller i regel inte behöver vara lika exakta som<br />

kompletta datamodeller, eftersom imputationsmodellerna endast<br />

påverkar den del av datat som är imputerat. Om exempelvis en<br />

imputationsmodell är 10 % ofullständig för ett dataset med 30 %<br />

saknade observationer så kommer den slutgiltiga modellen endast<br />

vara 3 % ofullständig för den slutgiltiga inferensen.”<br />

Ljung-Box statistikan är alltså en teststatistika som indikerar huruvida allt det tidsberoende<br />

som finns i datat fångats upp av modellen, dvs om endast ”vitt brus” finns kvar i datat. Då denna<br />

fick ett signifikant högt värde så förkastades nollhypotesen om vitt brus, men vad betyder detta<br />

för just denna undersökning?<br />

Det huvudsakliga ändamålet med att modellera tidsberoendet var den här gången att få<br />

fram variabler som korrelerade starkt med responsvariabeln i fråga för att på så sätt möjliggöra<br />

en linjärprediktion av de saknade observationerna i respektive dataset med hjälp av dessa. Det<br />

avgörande var alltså inte att få med precis allt tidsberoende som fanns i datasetet, utan det<br />

starkaste, mest väsentliga tidsberoendet, vilket uppnåddes. För man sedan in det ovan nämnda<br />

perspektivet om skillnaden i krav på en imputationsmodell och en komplett datamodell så ter<br />

sig implikationen av den höga Ljung-Box statistikan än mindre relevant. Detta i kombination<br />

med att de faktiska värden som slutligen imputerades är högst realistiska, samt Szymon<br />

Hoffmans slutsats att predikteringen av NOx är bättre när höga halter uppmätts (som här är<br />

fallet, <strong>Umeå</strong>s utomhusluft är i denna bemärkelse mer förorenad än de bägge polska städernas<br />

utomhusluft), gör att jag står fast vid min tidigare ståndpunkt om att den tidsseriemodellering<br />

som genomfördes var korrekt utifrån de premisser som förelåg.<br />

39


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

5.3. Metodkontroll<br />

För att kontrolla den tillämpade metoden så genomförde jag en kontrollprocedur där jag utgick<br />

ifrån de observerade värdena som fanns i variabeln NO2 och slumpade därefter ut cirka 5% av<br />

dessa som fick agera kontrollvärden. Jag skapade sedan ett nytt dataset där kontrollvärdena togs<br />

bort för att sedan skattas med multipel imputation, och följande resultat erhölls:<br />

o Av de kontrollvärden som slumpades fram så hade 65 av dessa ett uppmätt värde<br />

som överskred MKN, dvs 90 μg/m 3 . Av motsvarande 65 observationer i det poolade<br />

imputationssetet så hade 55st ett skattat värde som överskred MKN, därmed<br />

predikterades ca 84,6 % korrekt av just dess 65 observationer.<br />

o Av de totala antalet skattade värden i det poolade imputationssetet så hade 68st ett<br />

gränsöverskridande värde, vilket ger en sammanlagd överprediktion på ca 4, 6%.<br />

Detta anser jag vara mycket tillfredsställande för undersökningens ändamål - skattning av<br />

gränsöverskridningsfrekvensen - som medför att högst prioritet ges en så exakt skattning som<br />

möjligt men sedan att felskattningarna hellre hamnar på ovansidan av det förväntade värdet, så att<br />

säga.<br />

5.4. Metodens implikationer<br />

I avsnitt 4.3 Nya skattningar av gränsöverskridningsfrekvenser så framgår det hur den multipla<br />

imputationsprocessens praktiska implikationer faller ut med avseende på tim-, dygns- och<br />

årsmedelvärden. De flesta förändringarna i gränsöverskridningsfrekvenserna är relativt<br />

marginella, utom vad gäller dygnsmedelvärdena för PM10. Där har imputationsprocessen bidragit<br />

på ett betydelsefullt sätt genom att skatta gränsöverskridningsfrekvensen till 35 vilket är precis<br />

den gränsöverskridningsfrekvens som är tillåten på ett år, och betydligt högre än den tidigare<br />

rapporterade frekvensen på 25.<br />

Även om dessa praktiska följder av metodens tillämpning givetvis är fundamentala, så<br />

finns där andra perspektiv värda att begrunda. För vad innebär det inte för trovärdigheten i det<br />

miljöarbete som bedrivs från en stads och kommuns sida att de mätningar av luftföroreningar som<br />

görs också är så korrekta som möjligt?<br />

40


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

6. Tillkännagivanden<br />

Jag vill tacka Fredrik Lönneborg vid samhällsbyggnadskontoret/miljö- och hälsoskydd för att ha<br />

efterfrågat detta intressanta uppsatsämne samt försett mig med allt det dataunderlag som använts i<br />

uppsatsen. Jag vill också tacka Göran Arnoldsson vid Statistiska Institutionen, <strong>Umeå</strong> Universitet som<br />

handlett mig under uppsatsskrivandet och kommit med många insiktsfulla synpunkter och idéer.<br />

7. Referenser<br />

7.1. Litteratur<br />

Chatfield, Chris. (2003). The analysis of Time Series, an introduction, 6 th ed. Chapman &<br />

Hall/CRC.<br />

Tabachnik, B.G, Fidell, L.S. (2007) Using Multivariate Statistics, 5:th ed. Pearson Education, Inc.<br />

7.2. Artiklar och skrivelser<br />

Allison, P.D. (2001). Missing Data. Sage University Papers Series on Quantative Applications in<br />

the Social Sciences, 07-136. Thousand Oaks, CA: Sage.<br />

Hoffman, S. (2006). Short-Time Forecasting of Atmospheric NOx Concentration by Neural<br />

Networks. Environmental Engineering Science, Vol.23, No. 4, p. 603 – 609<br />

Hopke, P.K. Liu, C. Rubin, D.B. (2001) Multiple Imputation for Multivariate Data with Missing<br />

and Below-Threshold Measurements: Time-Series Concentrations of Pollutants in the<br />

Arctic. Biometrics, 57, p. 22-33.<br />

Iversen, G. R. (1976). Bayesian Statistical Inference. Sage University Papers Series on<br />

Quantative Applications in the Social Sciences, 07-001. Beverly Hills and London: Sage.<br />

Li, K.H. Raghunathan, T.E. Rubin, D.B. (1991) Large-Sample Significance Levels from Multiply<br />

Imputed Data Using Moment-Based Statistics and an F Reference Distribution. Journal of<br />

the American Statistical Association. 86, 1065-1073<br />

Palma, W. Del Pino, G. (1999) Statistical Analysis of incomplete long-range dependent data.<br />

Biometrica, 86, 4, p. 965 – 972.<br />

Rubin, D.B. (1976). Inference and missing data. Biometrica, 63, p. 581-592.<br />

41


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Samhällsbyggnadskontoret Miljö – och hälsoskydd, (2006). <strong>Luften</strong> i <strong>Umeå</strong> – Sammanställning<br />

av mätningar vid Västra Esplanaden 2006-01-01 – 2006-12-31. <strong>Umeå</strong> Kommun.<br />

Samhällsbyggnadskontoret Miljö – och hälsoskydd, (2007). <strong>Luften</strong> i <strong>Umeå</strong> – Sammanställning<br />

av mätningar vid Västra Esplanaden 2007-01-01 – 2007-12-31. <strong>Umeå</strong> Kommun.<br />

Samhällsbyggnadskontoret Miljö – och hälsoskydd, (2008). <strong>Luften</strong> i <strong>Umeå</strong> – Sammanställning<br />

av mätningar vid Västra Esplanaden 2008-01-01 – 2008-12-31. <strong>Umeå</strong> Kommun.<br />

Schafer, J.L. (1997) Analysis of Incomplete Multivariate Data. London: Chapman and Hall<br />

7.3. Övriga källor<br />

SPSS Statistics 17.0 (2008-12-01) SPSS Multiple Imputation Pooling Algorithms: Combining<br />

Results After Multiple Imputation.<br />

42


Bilaga 1a<br />

Valid<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Hour_Day<br />

Frequency Percent Valid Percent<br />

1:00 1071 4,1 4,2<br />

2:00 1071 4,1 4,2<br />

3:00 1071 4,1 4,2<br />

4:00 1071 4,1 4,2<br />

5:00 1071 4,1 4,2<br />

6:00 1071 4,1 4,2<br />

7:00 1071 4,1 4,2<br />

8:00 1071 4,1 4,2<br />

9:00 1071 4,1 4,2<br />

10:00 1069 4,1 4,2<br />

11:00 1066 4,1 4,2<br />

12:00 1064 4,0 4,1<br />

13:00 1064 4,0 4,1<br />

14:00 1067 4,1 4,2<br />

15:00 1069 4,1 4,2<br />

16:00 1069 4,1 4,2<br />

17:00 1070 4,1 4,2<br />

18:00 1071 4,1 4,2<br />

19:00 1071 4,1 4,2<br />

20:00 1072 4,1 4,2<br />

21:00 1072 4,1 4,2<br />

22:00 1072 4,1 4,2<br />

23:00 1071 4,1 4,2<br />

24:00 1068 4,1 4,2<br />

Total 25674 97,6 100,0<br />

Missing System 630 2,4<br />

Total 26304 100,0<br />

NO2 frekvenser<br />

Valid<br />

Day_Week<br />

Frequency Percent Valid Percent<br />

Sunday 3695 14,0 14,4<br />

Monday 3692 14,0 14,4<br />

Tuesday 3684 14,0 14,3<br />

Wednesday 3669 13,9 14,3<br />

Thursday 3620 13,8 14,1<br />

Friday 3642 13,8 14,2<br />

Saturday 3672 14,0 14,3<br />

Total 25674 97,6 100,0<br />

Missing System 630 2,4<br />

Total 26304 100,0<br />

Valid<br />

Month_Year<br />

Frequency Percent Valid Percent<br />

January 2232 8,5 8,7<br />

February 2040 7,8 7,9<br />

March 2231 8,5 8,7<br />

April 2160 8,2 8,4<br />

May 2232 8,5 8,7<br />

June 2153 8,2 8,4<br />

July 2063 7,8 8,0<br />

August 1916 7,3 7,5<br />

September 2160 8,2 8,4<br />

October 2198 8,4 8,6<br />

November 2077 7,9 8,1<br />

December 2212 8,4 8,6<br />

Total 25674 97,6 100,0<br />

Missing System 630 2,4<br />

Total 26304 100,0<br />

43


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Observationsfrekvens för dygnets<br />

24 timmar, NO2<br />

Observationsfrekvens för veckans<br />

7 dagar, NO2<br />

Observationsfrekvens för årets<br />

12 månader, NO2<br />

44


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Hour Mean Std. Dev. Minimum Maximum<br />

1:00 31,88719 18,829105 3,820 136,320<br />

2:00 28,20931 16,780096 3,820 119,040<br />

3:00 25,63964 15,679387 3,820 115,200<br />

4:00 23,25044 14,538450 1,910 105,600<br />

5:00 23,64969 14,254822 1,910 82,130<br />

6:00 31,21571 19,093410 1,910 130,560<br />

7:00 44,06809 26,803747 1,910 172,800<br />

8:00 51,60415 31,960966 3,820 289,920<br />

9:00 51,19729 32,883649 3,820 309,120<br />

10:00 48,13401 27,983434 3,840 263,040<br />

11:00 47,43885 27,229944 5,760 282,240<br />

12:00 46,18478 23,701947 7,640 174,720<br />

13:00 46,84300 23,221826 5,760 203,520<br />

14:00 47,47724 23,962352 7,680 205,440<br />

15:00 49,79972 24,896616 3,840 195,840<br />

16:00 52,41969 27,354149 5,760 276,480<br />

17:00 53,20072 29,020041 7,680 332,160<br />

18:00 50,93627 28,708077 5,760 303,360<br />

19:00 48,71179 28,096443 5,730 316,800<br />

20:00 47,30751 25,512849 5,730 230,400<br />

21:00 46,55369 24,819503 5,760 224,640<br />

22:00 45,09551 23,218393 5,760 199,680<br />

23:00 41,67712 22,697433 5,730 222,720<br />

24:00 36,77286 20,181494 3,820 149,760<br />

NO2 medelvärden<br />

Day Mean Std. Dev. Minimum Maximum<br />

Sunday 30,967 20,469091 1,910 205,440<br />

Monday 45,744 28,955677 3,820 291,840<br />

Tuesday 46,953 25,302539 5,730 316,800<br />

Wednesday 48,018 26,763055 3,840 309,120<br />

Thursday 48,199 26,617572 3,840 261,120<br />

Friday 45,021 27,555450 3,840 332,160<br />

Saturday 32,497 19,329534 3,820 140,160<br />

Month Mean Std. Dev. Minimum Maximum<br />

January 45,261 29,800762 3,840 253,440<br />

February 51,517 28,243067 5,760 205,440<br />

March 52,795 26,932706 5,730 182,400<br />

April 40,024 23,756153 3,840 222,720<br />

May 40,734 19,576454 5,760 147,840<br />

June 33,780 16,245555 3,820 96,000<br />

July 29,060 13,691939 3,820 80,640<br />

August 36,930 17,201631 3,840 110,780<br />

September 38,877 21,326914 1,920 134,400<br />

October 44,441 28,922597 3,820 289,920<br />

November 52,967 38,147708 3,840 332,160<br />

December 42,433 26,821890 1,910 316,800<br />

45


Bilaga 1b<br />

Valid<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Hour_Day<br />

Frequency Percent Valid Percent<br />

1:00 1035 3,9 4,2<br />

2:00 1034 3,9 4,2<br />

3:00 1033 3,9 4,2<br />

4:00 1030 3,9 4,1<br />

5:00 1032 3,9 4,2<br />

6:00 1033 3,9 4,2<br />

7:00 1034 3,9 4,2<br />

8:00 1034 3,9 4,2<br />

9:00 1031 3,9 4,1<br />

10:00 1029 3,9 4,1<br />

11:00 1030 3,9 4,1<br />

12:00 1033 3,9 4,2<br />

13:00 1039 3,9 4,2<br />

14:00 1041 4,0 4,2<br />

15:00 1041 4,0 4,2<br />

16:00 1041 4,0 4,2<br />

17:00 1043 4,0 4,2<br />

18:00 1041 4,0 4,2<br />

19:00 1039 3,9 4,2<br />

20:00 1040 4,0 4,2<br />

21:00 1040 4,0 4,2<br />

22:00 1039 3,9 4,2<br />

23:00 1035 3,9 4,2<br />

24:00 1032 3,9 4,2<br />

Total 24859 94,5 100,0<br />

Missing System 1445 5,5<br />

Total 26304 100,0<br />

PM10 frekvenser<br />

Day_Week<br />

Frequency Percent Valid Percent<br />

Valid Sunday 3510 13,3 14,1<br />

Monday 3501 13,3 14,1<br />

Tuesday 3552 13,5 14,3<br />

Wednesday 3580 13,6 14,4<br />

Thursday 3531 13,4 14,2<br />

Friday 3602 13,7 14,5<br />

Saturday 3583 13,6 14,4<br />

Total 24859 94,5 100,0<br />

Month_Year<br />

Frequency Percent Valid Percent<br />

Valid January 2223 8,5 8,9<br />

February 1905 7,2 7,7<br />

March 1951 7,4 7,8<br />

April 2079 7,9 8,4<br />

May 2134 8,1 8,6<br />

June 1960 7,5 7,9<br />

July 2228 8,5 9,0<br />

August 2100 8,0 8,4<br />

September 2012 7,6 8,1<br />

October 2156 8,2 8,7<br />

November 1923 7,3 7,7<br />

December 2188 8,3 8,8<br />

Total 24859 94,5 100,0<br />

46


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Observationsfrekvens för dygnets<br />

24 timmar, PM10<br />

Observationsfrekvens för veckans<br />

6 dagar, PM10<br />

Observationsfrekvens för årets<br />

12 månader, PM10<br />

47


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

PM10_Corr * Hour_Day<br />

Hour_Day Mean Std. Deviation Minimum Maximum<br />

1:00 21,6173 24,89805 1,43 296,53<br />

2:00 18,8138 19,77820 1,08 277,08<br />

3:00 16,4212 15,83727 ,84 257,53<br />

4:00 15,1834 14,76192 ,65 235,82<br />

5:00 16,1350 18,42395 ,13 379,08<br />

6:00 22,2564 34,34047 ,52 440,28<br />

7:00 30,2658 47,74623 ,65 572,04<br />

8:00 32,8663 44,53998 ,91 627,12<br />

9:00 30,3016 35,71811 1,69 351,91<br />

10:00 29,5840 41,06717 1,69 711,88<br />

11:00 28,5230 33,65061 3,38 374,16<br />

12:00 28,5355 30,98290 4,55 346,19<br />

13:00 29,7880 32,70658 ,39 284,57<br />

14:00 30,2013 33,17407 1,32 257,40<br />

15:00 31,8021 37,08935 2,60 476,58<br />

16:00 32,8518 36,72943 3,48 328,77<br />

17:00 32,5355 38,11726 1,04 326,69<br />

18:00 30,7905 37,48204 1,82 364,44<br />

19:00 29,6830 36,00751 2,99 352,30<br />

20:00 29,5784 41,27724 ,26 512,20<br />

21:00 30,0786 43,75199 2,21 549,12<br />

22:00 29,7886 43,51460 ,65 586,68<br />

23:00 28,8654 42,76460 1,68 726,84<br />

24:00 25,0358 38,38792 1,43 886,80<br />

PM10 medelvärden<br />

PM10_Corr * Day_Week<br />

Day_Week Mean Std. Deviation Minimum Maximum<br />

Sunday 19,2006 22,73537 ,65 430,30<br />

Monday 28,3814 38,08098 ,84 572,04<br />

Tuesday 30,1593 38,81539 ,26 711,88<br />

Wednesday 30,2539 37,26477 ,91 586,68<br />

Thursday 33,0223 46,97277 1,82 886,80<br />

Friday 28,9116 36,94870 ,13 627,12<br />

Saturday 20,1461 20,24763 ,39 254,54<br />

PM10_Corr * Month_Year<br />

Month_Year Mean Std. Deviation Minimum Maximum<br />

January 17,8311 17,26375 ,26 259,35<br />

February 28,3368 35,32924 1,92 364,44<br />

March 44,8268 63,07492 ,52 627,12<br />

April 57,6509 71,99017 1,43 886,80<br />

May 36,2279 30,61315 1,82 374,66<br />

June 22,3526 20,22735 1,08 711,88<br />

July 16,8711 8,67443 2,52 99,06<br />

August 21,3507 11,62742 2,40 99,71<br />

September 21,3742 13,58620 ,39 117,72<br />

October 26,2629 29,59338 ,13 451,80<br />

November 18,1696 19,25795 ,91 191,62<br />

December 16,4849 14,45233 ,84 218,66<br />

48


Bilaga 2a<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

NO2 tidsseriemodellering<br />

Spridningsdiagram före (t.h.) och efter (t.v.) logaritmering av NO2.<br />

Normalitetsplott (m.a.p. kvartilerna: Q-Q) före (t.v.) och efter (t.h.) logaritmering av NO2.<br />

49


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Tidsseriediagram för logaritmen av NO2 före säsongsdifferentiering.<br />

Tidsseriediagram för logaritmen av NO2 efter säsongsdifferentiering<br />

Utskrift till Dickey-Fuller test av enhetsrot för logaritmen av NO2 efter säsongsdifferentiering<br />

Coefficients a,b<br />

Unstandardized Coefficients<br />

Model B Std. Error Sig.<br />

1 LAGS(ln_NO2_Corr,24) -,017 ,001 ,000<br />

a. Dependent Variable: SDIFF(ln_NO2_Corr,1,24)<br />

b. Linear Regression through the Origin<br />

50


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Plott av den partiella autokorrelationsfunktionen för logaritmen av NO2.<br />

Plott av autokorrelationsfunktionen för logaritmen av NO2.<br />

51


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Plott av autokorrelationsfunktionen (t.v.) samt partiella autokorrelationsfunktionen (t.h.) för logaritmen<br />

av NO2 efter ansättande av en AR(1) process.<br />

Plott av autokorrelationsfunktionen (t.v.) samt partiella autokorrelationsfunktionen (t.h.) för logaritmen<br />

av NO2 efter ansättande av en SARIMA (1,0,0)(0,1,1) 24 process.<br />

Model<br />

Utskrift med modellens Ljung-Box statistika och förklaringsgrad.<br />

Number of<br />

Predictors<br />

Model Statistics<br />

Model Fit statistics Ljung-Box Q(18)<br />

Stationary R-<br />

squared R-squared Statistics DF Sig.<br />

Number of<br />

Outliers<br />

µg/m3_Corr-Model_1 0 ,861 ,821 244,156 16 ,000 0<br />

52


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Spridningsdiagram för den ansatta modellens residualer.<br />

Tidsseriediagram för den ansatta modellens residualer.<br />

53


Bilaga 2b<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

PM10 tidseriemodellering<br />

Spridningsdiagram före (t.h.) och efter (t.v.) logaritmering av PM10.<br />

Normalitetsplott (m.a.p. kvartilerna: Q-Q) före (t.v.) och efter (t.h.) logaritmering av PM10.<br />

54


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Tidsseriediagram för logaritmen av PM10 före säsongsdifferentiering.<br />

Tidsseriediagram för logaritmen av PM10 efter säsongsdifferentiering<br />

Utskrift till Dickey-Fuller test av enhetsrot för logaritmen av PM10 efter säsongsdifferentiering<br />

Coefficients a,b<br />

Unstandardized Coefficients<br />

Standardized<br />

Coefficients<br />

Model B Std. Error Beta t Sig.<br />

1 LAGS(ln_pm10_Corr,24) -,032 ,002 -,129 -20,316 ,000<br />

a. Dependent Variable: SDIFF(ln_pm10_Corr,1,24)<br />

b. Linear Regression through the Origin<br />

55


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Plott av autokorrelationsfunktionen (t.v.) samt partiella autokorrelationsfunktionen (t.h.) för logaritmen<br />

av PM10.<br />

Plott av autokorrelationsfunktionen (t.v.) samt partiella autokorrelationsfunktionen (t.h.) för logaritmen<br />

av PM10 efter ansättande av en AR(1) process.<br />

56


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Plott av autokorrelationsfunktionen (t.v.) samt partiella autokorrelationsfunktionen (t.h.) för logaritmen<br />

av PM10 efter ansättande av en SARIMA(1,0,0)(0,1,1) 24 process.<br />

Model<br />

Utskrift för modellen med Ljung-Box statistika och förklaringsgrad<br />

Number of<br />

Predictors<br />

Model Statistics<br />

Model Fit<br />

statistics Ljung-Box Q(18)<br />

Stationary R-<br />

squared Statistics DF Sig.<br />

Number of<br />

Outliers<br />

PM10_Corr-Model_1 0 ,821 69,372 16 ,000 0<br />

57


Bilaga 3a<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Imputationsprocessen för NO2<br />

Imputation Specifications<br />

Imputation Method Fully Conditional Specification<br />

Number of Imputations 5<br />

Model for Scale Variables Linear Regression<br />

Interactions Included in<br />

Models<br />

(none)<br />

Imputation Constraints<br />

Role in Imputation Imputed Values<br />

Dependent Predictor Minimum Maximum<br />

Log of NO2_Corr Yes Yes (none) (none)<br />

LAGS(ln_NO2_Corr,1) No Yes<br />

Noise residual from<br />

ln_NO2_Corr-Model_1<br />

No Yes<br />

Hour_Day No Yes<br />

Day_Week No Yes<br />

Month_Year No Yes<br />

Utskrift med numeriska beskrivningar för de återskapade dataseten samt det ursprungliga.<br />

Data<br />

Impu<br />

ln_NO2_Corr<br />

tation N Mean<br />

Std.<br />

Deviation Minimum Maximum<br />

Original Data 25673 3,5629 ,63500 ,6471 5,8056<br />

Imputed Values<br />

Complete Data After<br />

Imputation<br />

1 631 3,5004 ,63703 1,7437 5,3306<br />

2 631 3,5090 ,64534 1,8020 6,1026<br />

3 631 3,4678 ,66542 1,6253 5,4648<br />

4 631 3,4529 ,62050 1,4495 5,2146<br />

5 631 3,4512 ,62720 1,5572 5,0946<br />

1 26304 3,5614 ,63511 ,6471 5,8056<br />

2 26304 3,5616 ,63529 ,6471 6,1026<br />

3 26304 3,5606 ,63590 ,6471 5,8056<br />

4 26304 3,5602 ,63487 ,6471 5,8056<br />

5 26304 3,5602 ,63503 ,6471 5,8056<br />

58


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Plott över konvergens i iterationsprocessen för medelvärde (övre) samt standardavvikelse (undre).<br />

59


Bilaga 3b<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Imputationsprocessen för PM10<br />

Imputation Specifications<br />

Imputation Method Fully Conditional Specification<br />

Number of Imputations 5<br />

Model for Scale Variables Linear Regression<br />

Interactions Included in<br />

Models<br />

(none)<br />

Imputation Constraints<br />

Role in Imputation Imputed Values<br />

Dependent Predictor Minimum Maximum<br />

ln_pm10_Corr Yes Yes (none) (none)<br />

LAGS(ln_pm10_Corr,1) No Yes<br />

Noise residual from<br />

ln_pm10_Corr-Model_1<br />

No Yes<br />

Hour_Day No Yes<br />

Day_Week No Yes<br />

Month_Year No Yes<br />

Utskrift med numeriska beskrivningar för de återskapade dataseten samt det ursprungliga.<br />

Data<br />

Imputati<br />

ln_pm10_Corr<br />

on N Mean Std. Deviation Minimum Maximum<br />

Original Data 24859 2,95033 ,755876 -2,04022 6,78762<br />

Imputed Values<br />

Complete Data After<br />

Imputation<br />

1 1445 3,01567 ,741689 ,57627 6,40109<br />

2 1445 2,99290 ,759442 ,40406 6,39995<br />

3 1445 3,00139 ,730950 ,38324 5,94190<br />

4 1445 2,96027 ,740780 ,57726 5,51256<br />

5 1445 3,01582 ,745752 ,38470 5,90594<br />

1 26304 2,95392 ,755236 -2,04022 6,78762<br />

2 26304 2,95267 ,756120 -2,04022 6,78762<br />

3 26304 2,95313 ,754604 -2,04022 6,78762<br />

4 26304 2,95088 ,755044 -2,04022 6,78762<br />

5 26304 2,95393 ,755456 -2,04022 6,78762<br />

60


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

Plott över konvergens i iterationsprocessen för medelvärde (övre) samt standardavvikelse (undre).<br />

61


Bilaga 4a<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

NO2 gränsöverskridningsfrekvens: timmedelvärden<br />

2006 enligt min beräkning på ursprungligt dataset<br />

Descriptive Statistics<br />

N Sum<br />

NO2_1910 > 90 (FILTER) 296 296<br />

Valid N (listwise) 296<br />

2006 enligt beräkning på fullständigt dataset<br />

imp_NO2_2006 > 90<br />

(FILTER)<br />

Descriptive Statistics<br />

Valid N (listwise) 298<br />

N Sum<br />

298 298<br />

2007 enligt min beräkning på ursprungligt dataset<br />

Descriptive Statistics<br />

N Sum<br />

NO2_1920 > 90 (FILTER) 566 566<br />

Valid N (listwise) 566<br />

2007 enligt beräkning på fullständigt dataset<br />

imp_NO2_2007 > 90<br />

(FILTER)<br />

Descriptive Statistics<br />

Valid N (listwise) 571<br />

N Sum<br />

571 571<br />

2008 enligt min beräkning på det ursprungliga datasetet<br />

Descriptive Statistics<br />

N Sum<br />

NO2_1920 > 90 (FILTER) 433 433<br />

Valid N (listwise) 433<br />

62


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

2008 enligt beräkning på fullständigt datatset<br />

imp_NO2_2008 > 90<br />

(FILTER)<br />

Descriptive Statistics<br />

Valid N (listwise) 433<br />

N Sum<br />

433 433<br />

NO2 gränsöverskridningsfrekvens: dygnsmedelvärden<br />

2006 enligt min beräkning på ursprungligt dataset<br />

Descriptive Statistics<br />

N Sum<br />

day_mean > 60 (FILTER) 56 56<br />

Valid N (listwise) 56<br />

2006 enligt beräkning på fullständigt dataset<br />

imp_day_mean > 60<br />

(FILTER)<br />

Descriptive Statistics<br />

Valid N (listwise) 56<br />

N Sum<br />

56 56<br />

2007 enligt min beräkning på ursprungligt dataset<br />

Descriptive Statistics<br />

N Sum<br />

day_mean > 60 (FILTER) 62 62<br />

Valid N (listwise) 62<br />

2007 enligt beräkning på fullständigt dataset<br />

imp_day_mean > 60<br />

(FILTER)<br />

Descriptive Statistics<br />

Valid N (listwise) 62<br />

N Sum<br />

62 62<br />

63


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

2008 enligt min beräkning på ursprungligt dataset<br />

Descriptive Statistics<br />

N Sum<br />

day_mean > 60 (FILTER) 41 41<br />

Valid N (listwise) 41<br />

2008 enligt beräkning på fullständigt dataset<br />

imp_day_mean > 60<br />

(FILTER)<br />

Descriptive Statistics<br />

Valid N (listwise) 40<br />

N Sum<br />

40 40<br />

2006 enligt mina beräkningar på ursprungligt data<br />

Descriptive Statistics<br />

N Mean<br />

µg/m3_Corr 8737 42,18396<br />

Valid N (listwise) 8737<br />

2006 enligt beräkningar på fullständigt dataset<br />

Descriptive Statistics<br />

N Mean<br />

imp_NO2_2006 8760 42,21728<br />

Valid N (listwise) 8760<br />

2007 enligt mina beräkningar på ursprungligt data<br />

Descriptive Statistics<br />

N Mean<br />

µg/m3_Corr 8369 43,59425<br />

Valid N (listwise) 8369<br />

NO2 årsmedelvärden<br />

64


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

2007 enligt beräkningar på fullständigt dataset<br />

Descriptive Statistics<br />

N Mean<br />

imp_µg/m3_Corr 8760 43,36712<br />

Valid N (listwise) 8760<br />

2008 enligt mina beräkningar på ursprungligt dataset<br />

Descriptive Statistics<br />

N Mean<br />

µg/m3_Corr 8567 41,64923<br />

Valid N (listwise) 8567<br />

2008 enligt beräkningar på fullständigt dataset<br />

Descriptive Statistics<br />

N Mean<br />

imp_µg/m3_Corr 8784 41,61032<br />

Valid N (listwise) 8784<br />

65


Bilaga 4b<br />

<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

PM10 gränsöverskridningsfrekvens: dygnsmedelvärde<br />

2006 enligt min beräkning på ursprungligt dataset<br />

Descriptive Statistics<br />

N Sum<br />

day_mean > 50 (FILTER) 34 34<br />

Valid N (listwise) 34<br />

2006 enligt beräkningar på fullständigt dataset<br />

imp_day_mean > 50<br />

(FILTER)<br />

Descriptive Statistics<br />

Valid N (listwise) 35<br />

N Sum<br />

35 35<br />

2007 enligt mina beräkningar på ursprungligt dataset<br />

Descriptive Statistics<br />

N Sum<br />

day_mean > 50 (FILTER) 23 23<br />

Valid N (listwise) 23<br />

2007 enligt beräkningar på fullständigt dataset<br />

imp_day_mean > 50<br />

(FILTER)<br />

Descriptive Statistics<br />

Valid N (listwise) 35<br />

N Sum<br />

35 35<br />

2008 enligt mina beräkningar på ursprungligt dataset<br />

Descriptive Statistics<br />

N Sum<br />

day_mean > 50 (FILTER) 28 28<br />

Valid N (listwise) 28<br />

66


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

2008 enligt beräkningar på fullständigt dataset<br />

Descriptive Statistics<br />

N Sum<br />

imp_day_mean > 50 28 28<br />

2006 enligt mina beräkningar på ursprungligt dataset<br />

Descriptive Statistics<br />

N Mean<br />

PM10_Corr 8499 28,7737<br />

2006 enligt beräkningar på fullständigt dataset<br />

Descriptive Statistics<br />

N Mean<br />

Imputed_PM10_Corr 8760 28,74058<br />

PM10 årsmedelvärde<br />

2007 enligt mina beräkningar på ursprungligt dataset<br />

Descriptive Statistics<br />

N Mean<br />

PM10_Corr 8181 27,2510<br />

2007 enligt beräkningar på fullständigt dataset<br />

Descriptive Statistics<br />

N Mean<br />

Imputed_PM10_Corr 8760 27,06028<br />

2008 enligt mina beräkningar på ursprungligt dataset<br />

Descriptive Statistics<br />

N Mean<br />

PM10_Corr 8179 25,3856<br />

67


<strong>Luften</strong> i <strong>Umeå</strong><br />

Gunnar Brandén VT09 Statistiska Institutionen <strong>Umeå</strong> Universitet<br />

2008 enligt beräkningar på fullständigt dataset<br />

Descriptive Statistics<br />

N Mean<br />

Imputed_PM10_Corr 8784 25,57773<br />

Bilaga 5<br />

Q-Q plott för NO2<br />

Q-Q plott för PM10<br />

diff(duNO2$downs)<br />

diff(duPM10$downs)<br />

Q-Q plottar mot exponentialfördelningen<br />

5000<br />

4000<br />

3000<br />

2000<br />

1000<br />

0<br />

1200<br />

1000<br />

800<br />

600<br />

400<br />

200<br />

0<br />

0 1000 2000 3000 4000 5000<br />

function(p) qexp(p, rate = 1/mean(diff(duNO2$downs)))<br />

0 500 1000 1500<br />

function(p) qexp(p, rate = 1/mean(diff(duPM10$downs)))<br />

68

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!