Zeitreihenanalyse mit R

Zeitreihenanalyse mit RMatti Schneider, Sebastian MentemeierSS 2010

Inhaltsverzeichnis1 Klassische Zeitreihenanalyse 41.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.1 Das klassische Komponentenmodell . . . . . . . . . . . . . . . . . . . . . 41.1.2 Additives und multiplikatives Modell . . . . . . . . . . . . . . . . . . . . 51.1.3 multiplikatives Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Darstellung von Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.1 Gleitender Durchschnitt . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.2 Trendbestimmung mit saisonalen Einflüssen . . . . . . . . . . . . . . . . 81.2.3 Bestimmung der Saisonkomponente . . . . . . . . . . . . . . . . . . . . 81.2.4 Vergleich mit Vorjahresdaten . . . . . . . . . . . . . . . . . . . . . . . . 91.3 Parametrische Modelle für Trend und Saisonkomponente . . . . . . . . . . . . . 91.3.1 Ohne Saisonkomponente . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3.2 Regressionsmodelle für die Saisonkomponente . . . . . . . . . . . . . . . 101.3.3 Prognose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4 Exponentielle Glättung und adaptive Prognose . . . . . . . . . . . . . . . . . . 111.4.1 Exponentielle Glättung . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4.2 Bestimmung des optimalen α . . . . . . . . . . . . . . . . . . . . . . . . 121.4.3 Exponentielles Glätten mit Wachstum . . . . . . . . . . . . . . . . . . . 121.4.4 Holt-Winters-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.5 R-Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.5.1 Saisonkomponenten aus linearen Modellen berechnen . . . . . . . . . . . 141.5.2 Vorhersagen aus linearen Modellen . . . . . . . . . . . . . . . . . . . . . 152 AR-Modelle 162.1 schwach Stationäre Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.1 Definition und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.2 empirische Kenngrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2 AR(p) Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2.1 Schätzung von φ 1 , . . . , φ p . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2.2 Schätzung von σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2.3 Vorhersagen in AR(p) Modellen . . . . . . . . . . . . . . . . . . . . . . . 252.3 Tests für die Zeitreihenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3.1 Box-Pierce Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.2 Ljung-Box Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.3 Turning Point Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4 R-Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272

3 ARMA-Modelle 283.1 Partielle Autokorrelationsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 283.1.1 Optimale lineare Prognose in AR-Modellen . . . . . . . . . . . . . . . . 283.1.2 Die partielle Autokorrelationsfunktion . . . . . . . . . . . . . . . . . . . 293.1.3 Schätzung der PACF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.2 MA(q)-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.2.1 Invertierbare MA-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2.2 Schätzen der Parameter θ 1 , . . . , θ n . . . . . . . . . . . . . . . . . . . . . 333.2.3 Optimale Prognose in MA(q)-Modellen . . . . . . . . . . . . . . . . . . 343.3 Modellwahl: Akaike Information Criterion . . . . . . . . . . . . . . . . . . . . . 343.4 ARMA-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.4.1 ACVF eines kausalen ARMA(1,1)-Prozesses . . . . . . . . . . . . . . . . 363.4.2 Box-Jenkins-Methode der Modellwahl . . . . . . . . . . . . . . . . . . . 373.5 R-Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 ARIMA-Modelle 394.1 Integrierte Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.1.1 ARIMA-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2 Tests auf (In-)Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2.1 Test auf Differenzen-Stationarität: Dickey-Fuller-Test . . . . . . . . . . 414.2.2 Test auf (Trend-)Stationarität: KPSS-Test . . . . . . . . . . . . . . . . . 424.2.3 Abschließende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 424.3 R-Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435 GARCH-Modell 445.1 Heteroskedastische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.2 ARCH(q) Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2.1 Der Prozess (X 2 t ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.3 GARCH(p, q) Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.4 Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.5 R-Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503

1 Klassische Zeitreihenanalyse1.1 EinführungEine Zeitreihe ist eine zeitlich geordnete Folge (X t ) t∈T von Beobachtungen einer Größe, z.B. derTemperatur am Flughafen Münster-Osnabrück, der Studierendenzahl an der WWU oder einesKonjunkturindikators. Wir beschränken uns hier auf den Fall T ⊂ Z, wobei reale Zeitreihenstets endliche Indexmengen (also Beobachtungszeiträume) besitzen werden, für eine elegantetheoretische Darstellung wird jedoch meist T = Z oder T = N gewählt.1.1.1 Das klassische KomponentenmodellBetrachten wir zwei exemplarische Zeitreihen: Jährliche Werte für das deutsche Bruttoinlandsproduktim Vergleich zum Wert des Jahres 2005 (welches dem Wert 100 entspricht), und diemonatlichen Durchschnitte der Tagesmitteltemperaturen am Flughafen Münster-Osnabrück:BIPTagesmittel−Temperaturen am FMOIndex20 40 60 80 100Temperatur in Grad Celsius0 5 10 15 201950 1960 1970 1980 1990 2000 2010Time2000 2002 2004 2006 2008 2010TimeAbbildung 1.1: Bruttoinlandsprodukt Jahresdaten 1950-2009 sowie monatliche Durchschnitteder Tagesmitteltemperaturen am Flughafen Münster-OsnabrückWir beobachten gewisse Muster, so ist das BIP ist im Großen und Ganzen gesehen wachsend,die Temperaturkurve hat einen wiederkehrenden jährlichen Verlauf, der alle weiteren Informationendeutlich überlagert. Doch welche Informationen sind überhaupt gemeint?Im klassischen Komponentenmodell (vgl. [4, S. 9]) geht man für Zeitreihen von folgenden vierKomponenten aus:(a) dem Trend, das ist eine langfristige systematische Veränderung des mittleren Niveaus derZeitreihe;(b) einer Konjunkturkomponente, die eine mehrjährige, nicht notwendig regelmäßige Schwankungdarstellt;4

(c) der Saison, das ist eine jahreszeitlich bedingte Schwankungskomponente, die sich relativunverändert jedes Jahr wiederholt(d) der Restkomponente, die die nicht zu erklärenden Einflüsse oder Störungen zusammenfasst.Die ersten beiden Komponenten werden bisweilen zu einer einzigen, der sogenannten glattenKomponente zusammengefasst. Alternativ fasst man manchmal die Komponenten (ii) und (iii)zur sogenannten zyklischen Komponente zusammen. Die Summe der Saisonkomponenten solltestets Null ergeben.Da die Unterscheidung zwischen Trend und Konjunkturkomponente rein wirtschaftswissenschaftlicherNatur ist, werden wir uns im Folgenden auf die definitorisch besser voneinanderabgrenzbaren Komponenten Trend, Saison und Residuen (Restkomponente) beschränken.Die Zerlegung in die genannten Komponenten ist dennoch nicht eindeutig, und wir werdenim Laufe des Praktikums verschiedene Ansätze kennenlernen, deren Plausibilität stets auchvon Hintergrundinformationen über die Zeitreihe abhängen wird, wie z.B. zugrundeliegendenphysikalischen Gesetzen oder ökonomischen Theorien.Der Trend µ t ist je nach Ansatz eine Gerade, oder auch eine langsam variierende Funktion derZeit, die Saisonkompontente s t ist typischerweise periodisch (12-periodisch bei Monatsdaten,4-periodisch bei Quartalsdaten usw.), die Restkomponente r t ist in der stochastisch fundiertenZeitreihenanalyse die interessante Komponente, da sie ja gerade die zufällige / nicht beschreibbareKomponente ist. Mit der Auswahl geeigneter stochastischer Modelle für die Residuenwerden wir uns hauptsächlich in diesem Praktikum beschäftigen; zunächst lernen wir jedocheinige Ansätze zur Zerlegung gegebener Zeitreihen in die beschriebenen Komponenten kennen.1.1.2 Additives und multiplikatives ModellFür das Zusammenspiel der Komponenten gibt es im wesentlichen zwei Ansätze, zwischendenen zumeist bereits durch grafische Darstellung der Zeitreihe unterschieden werden kann.Ist die Streuungsbreite um einen augenscheinlichen Trend zeitlich konstant, so kann von einemadditiven Modellx t = µ t + s t + r t (1.1.1)ausgegangen werden, welche wir auch im Folgenden untersuchen wollen.Ein Beispiel für eine Zeitreihe, die mit einem additiven Modell behandelt werden kann, sinddie monatlichen Daten über die US-amerikanische Arbeitslosenquote:1.1.3 multiplikatives ModellWächst hingegen die Streuungsbreite mit wachsenden Werten der Zeitreihe, so sollte von einemmultiplikativen Modellx t = µ t · s t · r t (1.1.2)ausgegangen werden.Ein Beispiel für eine Zeitreihe, die mit einem multiplikativen Modell behandelt werden kann,sind die monatlichen Passagierzahlen einer US-amerikanischen Fluglinie.5

Arbeitslosenquote USA, Jan 1996 − Okt 20064.0 4.5 5.0 5.5 6.01996 1998 2000 2002 2004 2006TimeAbbildung 1.2: Arbeitslosenquote der Vereinigten Staaten, monatliche Daten von Januar 1996bis Oktober 2006Passagiere PanAM, 1949−19601000 Passagiere100 200 300 400 500 6001950 1952 1954 1956 1958 1960TimeAbbildung 1.3: Passagierzahlen (in Tausend) der PanAm, 1949-1960, Monatsdaten6

Multiplikative Modelle können durch Logarithmieren der Beobachtungswerte in ein additivesModell überführt wird. Auch andere Transformationen, um die Streuungsbreite zu harmonisieren,sind möglich (→ Box-Cox-Transformationen). Will man jedoch die im transformiertenModell gewonnenen Erkenntnisse, z.B. Prognosen, auf das ursprüngliche Modell übertragen, somuss man Vorsicht walten lassen, bereits beim Übergang vom multiplikativen zum additivenModell. Diese Problematik kann jedoch erst im Rahmen stochastischer Modelle für Zeitreihenbehandelt werden.1.2 Darstellung von ZeitreihenWir lernen zunächst ein (auch vom Rechenaufwand her) einfaches Verfahren kennen, umZeitreihen in die oben beschriebenen Komponenten zu zerlegen, und damit zugleich die inder Zeitreihe enthaltenen Informationen aufzubereiten.1.2.1 Gleitender DurchschnittDenken wir an die Darstellung der Arbeitslosenquote in den USA, so haben wir vermutlichzuerst auf den groben Verlauf geachtet, und uns eine geeignete Kurve vorgestellt, um welche dieWerte zu schwanken schienen. Möchten wir diese Kurve nun berechnen, so müssen die Schwankungeneliminiert werden. Diese werden typischerweise durch Mittelbildung ausgeglichen.Möchte man also den Trend als eine langsam variierende Funktion aus den beobachteten Datenberechnen, so bietet es sich an, zu jedem Zeitpunkt nicht den beobachteten Wert selbst, sonderneine Mittelung aus benachbarten Werten zu betrachten. Gewiss nicht das Mittel über diegesamte Reihe, dies würde eine zeitlich konstante neue Reihe liefern, sondern etwa über alinke wie rechte Nachbarwerte. Dies ist die Methode des gleitenden Durchschnitts: Für a ∈ Ndefiniert manµ t := 1 a∑x t+k . (1.2.1)2a + 1An der Stelle t wird also das arithmetische Mittel aus x t , und den a links und rechts benachbartenWerten gebildet. Große Werte für a führen zu glatten Trends, kleine Werte für a zuweniger glatten Trends.Beachte, dass so am Anfang und Ende des Beobachtungszeitraum a Werte für µ t undefiniertbleiben. Dies muss insbesondere bei der Berechnung von Saisonkomponenten beachtet werden.1Betrachtet man statt der konstanten Gewichtung mit2a+1allgemein absolut summierbareFolgen (λ i ) i∈Z (sogenannte lineare Filter), so ist die gefilterte Zeitreihe gegeben durchµ t :=∞∑k=−∞k=−aλ k x t+k . (1.2.2)1Der gleitende Durchschnitt ist also der zentrierte Filter2a+1(1, 1, . . . , 1). Dabei bedeutet zentriert,dass der a + 1te (also der mittlere) Eintrag des Filters gerade dem Gewicht für x t (beider Berechnung von µ t ) entspricht.In R benutzt man den Befehl filter mit method="c", sowie sides=2 für zentrierte Filter.7

1.2.2 Trendbestimmung mit saisonalen EinflüssenLiegen keine saisonalen Einflüsse vor, so kann der Trend mittels des gleitenden Durchschnittsund beliebig gewähltem a bestimmt werden, wobei ein großes a das Augenmerk auf langfristigeÄnderungen legt, kleines a hingegen kurzfristige Änderungen im mittleren Niveau widerspiegelt.Liegen hingegen (über verschiedene Jahre hinweg konstante) saisonale Einflüsse vor, so mussdie Breite so gewählt werden, dass stets über ganze Perioden gemittelt wird, sonst würdendie saisonalen Einflüsse im Trend noch erhalten bleiben. Ein intuitiver Ansatz für monatlicheDaten wäre, den gleitenden Durchschnitt über 12 Monate zu bilden. Aber welchem Monatsollen wir beispielsweise das Mittelzuordnen? Juni oder Juli?Deshalb wird stattdessen der durch112 x 1 + · · · + 112 x 12( 1 24 , 1 12 , . . . , 1 , 1} {{ 12}24 )11 maldefinierte zentrierte Filter angewendet, d.h.µ t = 1 24 x t−6 + 1 125∑k=−5x t+k + 1 24 x t+6. (1.2.3)Hier ist jeder Monat mit dem gleichen Gewicht vertreten, und die Summe ist um x t zentriert.Bei Quartalsdaten verfährt man analog.Den so berechneten Trend für die US-Arbeitslosenquote sehen wir hier:1.2.3 Bestimmung der SaisonkomponenteIst der Trend nach obiger Methode saisonbereinigt berechnet, so gilt im additiven Modells t = (x t − µ t ) − r t .Da die Saisonkomponente gerade als periodisch definiert wurde, also bspw. bei Jahresdatens t = s t+12 gelten soll, würde ohne Restkomponente gelten(x 1 − µ 1 ) = s 1 = s 13 = (x 1 3 − µ 1 3) = . . .Da die tatsächlichen Differenzen (x t − µ t ) aber nicht periodisch sind, sondern gerade Schwankungenaufweisen, berechnen wir die Saisonkomponenten als arithmetisches Mittel aus allenzum jeweiligen Monat (bzw. Quartal) zugehörigen Differenzen (x t − µ t ), d.h. für n = k · 12Beobachtungens i = 1 k−1 ∑(x i+12t − µ i+12t ) (1.2.4)kt=08

gl. Durchschnitt Arbeitslosenquote USA4.0 4.5 5.0 5.5 6.01996 1998 2000 2002 2004 2006TimeAbbildung 1.4: Gleitender Durchschnitt (Jahresfilter) der Arbeitslosenquote der VereinigtenStaatenfür 1 ≤ i ≤ 12. Beachte, dass bei Bestimmtung von µ t als gleitendem Durchschnitt Randwertefür µ t fehlen, die entsprechenden Summanden werden dann bei der Berechnung der Saisonkomponenteausgelassen.Eventuell ist es nötig, die Saisonkomponenten anschließend zu zentrieren, dazu wird ihr arithmetischeMittel berechnet, und (falls ≠ 0), von allen Saisonkomponenten abgezogen. Dieseadditive Konstante wird dann dem Trend zugerechnet.Die hier beschriebene Zerlegung ist in R in der Funktion decompose implementiert.1.2.4 Vergleich mit VorjahresdatenBei Zeitreihen mit Saisoneinflüssen wird oft auch ein Vergleich mit dem Vorjahreszeitraumgezogen, da sich in einem additiven Modell die Saisoneinflüsse so aufheben. Man wendet deneinseitigen Filter λ −12 = −1, λ 0 = 1, alle übrigen Einträge 0, an, welcher zur gefiltertenZeitreihe y t = x t − x t−12 führt. Für einseitige Filter muss in R die Option sides=1 gewähltwerden, die Gewichte werden dann als (λ 0 , λ −1 , . . . ) interpretiert.1.3 Parametrische Modelle für Trend und SaisonkomponenteNimmt man über die Annahme eines additiven Modells hinaus weiterhin an, dass der Trendeine gewisse (meist lineare) Funktion der Zeit ist, so können die zugehörigen Parameter (Achsenabschnittund Steigung) mit Methoden der linearen Regression bestimmt werden. Da in9

Decomposition of additive time seriesrandom−0.2 0.0 0.2seasonaltrendobserved−0.04 0.00 0.024.0 4.5 5.0 5.5 6.04.0 4.5 5.0 5.5 6.01996 1998 2000 2002 2004 2006TimeAbbildung 1.5: Anwendung von decompose auf die Arbeitslosendatendiese Berechnung alle beobachteten Werte einfließen, spricht man von einem globalen Ansatz -der gleitende Durchschnitt ist ein lokaler Ansatz, da nur benachbarte Werte in die Berechnungdes Trends zum Zeitpunkt t einfließen.1.3.1 Ohne SaisonkomponenteEin typischer Ansatz in einem Modell ohne Saisonkomponente istx t = α + β · t + r tmit unbekannten Parametern α und β, die mit der Methode der Kleinsten Quadrate geschätztwerden können. In R ist dies im Befehl lm (für lineares Modell) implementiert. Für Stochastiker:Beachte, dass im Allgemeinen die Annahmen eines linearen Modells nicht erfüllt sind, da wirbei Zeitreihen gerade gewisse Abhängigkeiten der Fehler- oder Restterme r t unterstellen. Esgibt Korrekturmöglichkeiten, fürs erste genügt uns aber, dass die korrigierten Ergebnisse nichtstark von den mit KQS-Schätzern erhaltenen abweichen.1.3.2 Regressionsmodelle für die SaisonkomponenteEs gibt zwei Ansätze: Den zuvor verfolgten Ansatz einer Folge von 12 monatlichen Komponenten,welche (bei linearem Trend) dem Modellx t = α + β · t + s i + r t ;i ≡ t(mod12)entspricht; und die Modellierung mittels trigonometrischer Funktionen( 6∑γ k cos( 2π k t) + η k sin( 2π )k t) k=1x t = α + β · t ++ r t10

mit zu bestimmenden Parametern α, β, γ k , η k , 1 ≤ k ≤ 6. Dabei kann auf η 1 verzichtet werden- überlege, welche Werte sin(2πt) für t ∈ Z annimmt.1.3.3 PrognoseHat man eine Zeitreihe bis zum Zeitpunkt T beobachtet, und einen linearen Trend und eventuelleSaisonkomponenten berechnet, so kann man unter der Annahme, dass das Modell auchfür zukünftige Werte zutreffend ist (insbesondere sich also der Trend fortsetzt), Prognosewerteberechnen:ˆx T +k|T = α + β · (T + k) + S ⌊T +k⌋ .Dabei bezeichnet S ⌊T +k⌋ die zum Zeitpunkt T + k gehörige Saisonkomponente.Dieses Verfahren hat jedoch zwei Nachteile: Zum einen setzt es explizit einen linearen (oderzumindest funktional festgelegten) Trend voraus, zum anderen ist ein Update aufwendig: Liegenneue Beobachtungen vor, so muss die gesamte Regression erneut durchgeführt werden.1.4 Exponentielle Glättung und adaptive Prognose1.4.1 Exponentielle GlättungEin weiteres Verfahren, einen Trend zu berechnen, ist das sogenannte exponentielle Glätten;welches insbesondere für die Prognose den Vorteil hat, dass es sich ohne großen Rechenaufwandupdaten lässt.Ihm liegt die Idee zugrunde, dass sich künftige Beobachtungen eher auf dem Niveau von Wertenaus der jüngeren Vergangenheit befinden werden, als durch weit zurückliegende Werte beeinflusstzu werden - man denke an die Zeitreihe der Bundesligaplatzierungen eines beliebigenVereins. Die Erfolge der 60er Jahre mögen allenfalls ein finanzielles Polster angelegt haben,wesentlich relevanter ist jedoch die Qualität der aktuellen Mannschaft, die sich am bestendurch die Vorjahresplatzierung einschätzen lässt.Formal führen wir zunächst rekursiv das Niveau ein (der Trend in der Sprechweise der exponentiellenGlättung). Unsere Beobachtungen mögen zum Zeitpunkt 0 beginnen, dann setzenwir n 0 = x 0 , undn t := αx t + (1 − α)n t−1für t ≥ 1. Der auftauchende Parameter α heißt Glättungsparameter, und entstammt sinnvollerweisedem Intervall (0, 1). Großes α bedeutet starke "Gegenwartsorientierung" des Niveaus,ein kleines α räumt vergangenen Werten mehr Gewicht ein, wie auch die explizite Formelzeigt.t−1∑n t := (1 − α) k αx t−i + (1 − α) t x 0k=0Als Prognose nehmen wir nun einfach an, dass zukünftige Werte auf dem berechneten Niveauliegen, d.h.ˆx T +k|T = n T .11

Exponentielle Glättung mit alpha=0.1Exponentielle Glättung mit alpha=0.7Zinssatz3 4 5 6 7Zinssatz3 4 5 6 71995 2000 2005 2010Time1995 2000 2005 2010TimeAbbildung 1.6: Umlaufrendite inländischer Inhaberschuldverschreibungen, exponentiell geglättetmit Parametern α = 0.1 bzw α = 0.9.Aus der rekursiven Definition wird deutlich, dass die Aktualisierung des Niveaus sehr einfachist, neben α müssen nur der neue beobachtete Wert x T +1 und das aktuelle Niveau n T bekanntsein. Bei Regressionsverfahren hätten wir alle bisher beobachteten Werte speichern müssen.1.4.2 Bestimmung des optimalen αWie aber ist α zu wählen? Es lässt sich ein Gütekriterium angeben, und zwar die sogenanntemittlere Summe der quadrierten 1-Schritt-Prognose-Fehler: Für jedes t ≥ 1 wird n t−1 (mittelsα) berechnet, und der prognostizierte Wert n t−1 mit dem tatsächlich beobachteten Wert x tverglichen. Als optimal sehen wir nun ein α an, welches die mittlere Summe der quadriertenFehler minimiert.α ! = arg min 1 TT∑(x t − ˆx t|t−1 (α)) 2 = arg min 1 Tt=1T∑(x t − n t−1 (α)) 2 (1.4.1)t=11.4.3 Exponentielles Glätten mit WachstumBetrachte nochmals die mit α = 0.1 geglättete Zeitreihe der Umlaufrendite. Bei fallenden Wertenliegt das Niveau meist über dem tatsächlichen Verlauf, umgekehrt bei steigenden Werten.Das dies eine generelle Schwäche ist, bestätigt ein erneuter Blick auf die Berechnungsformel.Bei fallenden Werten wird ein gewichtetes Mittel aus dem aktuellen Wert, und zurückliegenden,höheren Werten gebildet, so dass das Ergebnis höher ist als der aktuelle Wert.Deshalb wird das Verfahren erweitert, indem neben dem Niveau auch eine Steigung m t mitder Methode des exponentiellen Glättens berechnet wird:n 0 = x 0 , n 1 = x 1 ;m 0 = x 1 − x 0 , m 1 = m 0 .n t = αx t + (1 − α)(n t−1 + m t−1 )m t = β(n t − n t−1 ) + (1 − β)m t−112

So wird das vergangene Niveau entsprechend angehoben / abgesenkt, bevor es in die Berechnungdes aktuellen Niveaus einfliesst.1.4.4 Holt-Winters-VerfahrenSchließlich kann das Niveau durch saisonale Einflüsse verfälscht werden. Führt man deshalbnoch Saisonkomponenten s t ein, die ebenfalls permanent aktualisiert werden, so gelangt manzum Holt-Winters-Verfahren, welches exponentielle Glättung mit Saison und Wachstum darstellt.Die Aktualisierungsformeln lauten dann für Zeitreihen mit Periode p und additiverSaisonkomponenten t = α(x t − s t−p ) + (1 − α)(n t−1 + m t−1 )m t = β(n t − n t−1 ) + (1 − β)m t−1s t = γ(x t − a t ) + (1 − γ)s t−p .Etwas subtiler ist die Berechnung der Startwerte; diese müssen offensichtlich für eine gesamtePeriode angegeben werden. Am einfachsten ist die Steigung: m t = 1 p (x p−1 − x 0 ) für 0 ≤ t < p.Eine Gerade mit dieser gegebenen Steigung wird nun mit der Methode der kleinsten Quadratean die Daten x 0 , . . . , x p−1 angepasst (im Endeffekt also nur der Achsenabschnitt berechnet),und s t wird dann als Abweichung von x t von der berechneten Gerade festgesetzt. Dies führt zurMinimierung von ∑ p−1t=0 s2 t (bei gegebener Steigung der Geraden). Schließlich wird n t = x t − s tgesetzt für 0 ≤ t < p.Das Holt-Winters-Verfahren ist in R als HoltWinters implementiert, und umfasst alle beschriebenenFunktionen. Die Parameter α, β, γ können angegeben werden, ansonsten werden sie als(möglicherweise nur lokale!) Minima der Summe der quadrierten Ein-Schritt-Prognose-Fehlerbestimmt. Vorhersagen macht die Funktion predict.1.5 R-Befehlets In R erstellt man Zeitreihen mit dem Befehl ts(data,start,frequency). Dabei kanndata ein Vektor, eine Matrix oder eine Datentabelle sein, je nachdem, wieviele Zeitreihenman in einer Variablen zusammenfassen will; start muss ein Vektor mit 2 Komponentensein: Die erste gibt das Startjahr an, die zweite den Startmonat. Der Parameterfrequency gibt die Häufigkeit der Beobachtungen pro Zeiteinheit an, etwa 12, wennman 12 Beobachtungen pro Jahr hatwindow Mit dem Befehl window(x, start, end, frequency) kann man einen Ausschnitt auseiner Zeitreihe herausnehmenfrequency(x) Gibt die Frequenz der Zeitreihe x ausstart(x) gibt das Startjahr und den Startmonat von x aus, analog end(x)plot(x) plottet die Zeitreihe xts.plot Will man mehrere Zeitreihen in einem Plot anzeigen lassen, so ist diese Funktion nützlich:In ihr lassen sich beliebig viele Zeitreihen gleicher Frequenz übergeben.13

decompose Zerlegt eine Zeitreihe in Trend-, Saison- und Restkomponente. Der Trend wird als gleitenderDurchschnitt mit dem zentrierten Filter 1 p ( 1 2 , 1, . . . , 1 2) berechnet, die Saisonkomponentenals mittlere monatliche Abweichungen. Auf die gewonnenen Zerlegungen kann (alsZeitreihen) mittels decompose(Zeitreihe)$seasonal, $trend bzw. $random zugegriffenwerden.filter Wendet einen angegebenen Filter auf eine Zeitreihe an, und liefert die gefilterte Zeitreihezurück. Für die oben beschriebenen Filter muss als Argument method="convolution"übergeben werden, die Filter selbst werden als zentrierte Filter interpretiert, und alsVektor übergeben. Das exponentielle Glätten kann als rekursiver Filter angesehen werden(method="recursive"), hier müssen zusätzlich Startwerte übergeben werden.predict Nimmt als Argument ein Modell (z.B. die Ausgabe von HoltWinters, oder lm), undliefert eine Zeitreihe mit anhand des Modells vorhergesagten Werten. Die Anzahl derVorhersagen wird als Argument n.ahead=Anzahl übergeben.HoltWinters Implementierung des exponentiellen Glättens, nimmt als Argument eine Zeitreihe, undWerte für α, β und γ. Soll keine Steigung und/oder Saisonkomponente berechnet werden,so müssen β bzw. γ Null gesetzt werden. Ohne Angabe von Werten werden diese anhandder 1-Schritt-Prognose-Fehler bestimmt.lm Methode zur Behandlung von linearen Modellen, insbesondere für lineare Regression. DerAnsatz über die funktionale Abhängigkeit wird in der Form x ~ time(x) beispielsweisefür einen linearen Trend übergeben. Um Saisonkomponenten mit zubestimmen, muss derBefehllm(Zeitreihe ~ time(Zeitreihe) +factor(cycle(Zeitreihe)))verwendet werden. Die Funktionen cycle und time, angewendet auf eine Zeitreihe, lieferndas vermutete. Der Befehl factor sorgt insbesondere dafür, dass die Saisonkomponentenicht als lineare Funktion des Monatswertes (z.B. Juni=6), sondern für jeden Monat alseinzelner Wert bestimmt wird.Sollen die Residuen weiter untersucht werden, so müssen diese wieder in eine Zeitreiheumgewandelt werden, dies geschieht mit dem Befehl ts.1.5.1 Saisonkomponenten aus linearen Modellen berechnenEin lineares Modell in der oben beschriebenen Formlm(Zeitreihe ~ time(Zeitreihe) +factor(cycle(Zeitreihe)))liefert nur 11 Saisonkomponenten ˜s 2 , . . . , ˜s 12 , sowie die additive Konstante (Intercept) ã. Indiesem ist die erste Saisonkomponente bereits eingerechnet, für die zentrierten Saisonkomponentens i und die zugehörige additive Konstante a gilt:ã = (a + s 1 ), ˜s i = (s i − s 1 )Um zu den zentrierten Saisonkomponenten s i zu gelangen, bilden wir zunächst den Vektor(ã, ˜s 2 + ã, . . . , ˜s 12 + ã) = (a + s 1 , . . . , a + s 1 2),berechnen dessen arithmetisches Mittel, welches gerade a entspricht, und erhalten schließlichdie zentrierten Saisonkomponenten, indem wir von jedem Eintrag a subtrahieren.14

Diese Umrechnungen sind jedoch nur notwendig, wenn Sie die zentrierten Saisonkomponentenangeben oder plotten wollen, für Vorhersagen ist die R-interne Darstellung äquivalent.1.5.2 Vorhersagen aus linearen ModellenDiese geschehen mit der Funktion predict, allerdings funktioniert der Parameter n.aheadbei linearen Modellen (z.B. Regressionsmodelle zur Bestimmung eines linearen Trends) nicht.Stattdessen muss newdata angegeben werden, und zwar in subtiler Form. Diese lässt sich anhandeines Beispiels am besten nachvollziehen. Sei x eine Zeitreihe. Die Variablenzuweisungenzu Beginn sind hier nötig.ZEIT

2 AR-ModelleBislang wurden nur deskriptive und modellfreie Methoden vorgestellt und kein stochastischesModell, mit dem wir „rechnen“ können. Dies werden wir in diesem Kapitel ändern: Wir werdenden Begriff der schwachen Stationarität, AR(p) Modelle und einige – für die Zeitreihenanalyseinteressante – Tests kennenlernen.2.1 schwach Stationäre ProzesseFür theoretische Überlegungen nehmen wir weiterhin an, dass eine Zeitreihen-Beobachtungx 1 , . . . , x n von einem stochastischen Prozess (im Folgenden abkürzend ZR-Prozess genannt)X = (X t ) t∈Z (2.1.1)stammt, der weit weit in der Vergangenheit gestartet ist und noch bis in alle Ewigkeit läuft.Als potentielle Modelle wollen wir nicht alle stochastischen Prozesse zulassen, sondern unsauf diejenigen beschränken, die „brauchbare“ Eigenschaften besitzen. Im Besonderen sind wirnatürlich daran interessiert, Vorhersagen für konkrete Datensätze treffen zu können.2.1.1 Definition und BeispieleDas einfachste Beispiel eines stochastischen Prozesses kennen wir bereits aus elementarenStochastik-Vorlesungen, auch wenn es dort üblicher ist von einer „Folge von Zufallsgrößen“zu sprechen.Beispiel 2.1.1 (IID White Noise) Der Prozess (W t ) t∈Z bestehe aus stochastisch unabhängigund identisch verteilten Zufallsgrößen mit endlichem Erwartungswert EW 0 = µ und endlicherVarianz Var(W 0 ) = σ 2 . Im Folgenden schreiben wir abkürzend (W t ) ∼ IID(µ, σ 2 ) für diesenProzess.Für einen IID(µ, σ 2 ) ist keine Vorhersage möglich (Unabhängigkeit!), er ist aber ein wichigerBaustein für weitere Prozesse, etwa in dem wir die Partialsummen S t = W 1 + · · · + W t bilden.Dabei müssen wir einen „Startpunkt“ S 0 festlegen, d. h. die Zeitparametermenge ist in diesemFall nicht Z, sondern N 0 . Für unsere Zwecke ist es ausreichend wenn wir S 0 = 0 setzen, genauer:Beispiel 2.1.2 (Random Walk) Der Prozess (S t ) t∈N0sei definiert durcht∑S t = W i = S t−1 + W t (2.1.2)i=1für t = 1, 2, . . . , wobei (W t ) ∼ IID(µ, σ 2 ) und S 0 = 0. (S n ) n∈N0 heißt Random-Walk mitStartpunkt S 0 und Zuwachsverteilung F = Verteilung von W 0 .16

Der Pfad eines Random-Walkes ist wesentlich „glatter“ als der eines IID(µ, σ 2 ) Prozesses, wasAbbildung 2.1 verdeutlicht.−2 −1 0 1−5 −4 −3 −2 −1 0 10 20 40 60 80 1000 20 40 60 80 100Abbildung 2.1: Sample eines IID(0,0.5) Prozesses (Normalverteilung) und des zugehörigenRandom-Walkes (hier ist S 0 = W 0 ).Wie schon erwähnt wollen wir nicht die (viel zu große) „Menge aller Prozesse“ untersuchen,sondern uns auf eine Teilmenge einschränken, die gewisse Eigenschaften besitzt. Aus diesemGrund führen wir nun die Klasse der schwach stationären Prozesse ein: Sie ist „groß genug“für die Modellierung vieler Zeitreihen und besitzt zudem gute Vorhersage-Eigenschaften.Definition 2.1.3 (schwache Stationarität) Ein ZR-Prozess X = (X t ) t∈Z heißt schwach stationär,falls jedes X i endliche Varianz besitzt und es gilt:(a) EX t = µ für alle t ∈ Z(b) Cov(X t , X t+h ) = Cov(X 0 , X h ) für alle t, h ∈ Z(b) besagt, dass die Kovarianz von X t und X s nur vom Abstand zwischen t und s abhängt undnicht von t und s selber. Für diese Kenngröße ist es also egal, ob wir X zwischen 12 Uhr und13 Uhr, oder zwischen 18 Uhr und 19 Uhr beobachten.Die Funktion (t, s) ↦→ Cov(X t , X s ) ist so wichtig, dass sie einen eigenen Namen erhält.Definition 2.1.4 Es sei X = (X t ) t∈Z ein ZR-Prozess.(a) Die Funktion γ(t, s) = Cov(X t , X s ) heißt die zu X gehörige Kovarianzfunktion.(b) Ist X schwach stationär, so giltfür alle t, h ∈ Z. In diesem Fall können wirγ(t, t + h) = γ(0, 0 + h)γ(h) = γ(t, t + h) (2.1.3)definieren. γ heißt Auto-Kovarianzfunktion von X, h heißt auch Lag. Es bezeichne weiterdie Autokorrelationsfunktion (ACF) von X.ϱ(h) = γ(h)γ(0) , (2.1.4)17

Wir beachten, dass die ACF betragsmäßig stets ≤ 1 ist. Beispiele schwach stationärer Prozessewerden wir in Kürze kennenlernen, siehe etwa Beispiele 2.1.5 und 2.2.1.2.1.2 empirische KenngrößenDieser Abschnitt dient der Einführung einiger empirischer Kenngrößen für die Beobachtungx = (x 1 , . . . , x n ).Das Stichprobenmittel bezeichnen wir mitx n = 1 nn∑x t . (2.1.5)t=1In R erhalten wir es mit dem Befehl mean(x). Den erwartungstreuen Schätzer für die Varianzbekommen wir mit var(x).1n − 1Ein Ansatz, die Autokovarianzfunktion γ zu schätzen ist es,̂γ(h) = 1 nn−h ∑t=1n∑(x t − x n ) 2 (2.1.6)t=1(x t+h − x n ) · (x t − x n ) (2.1.7)für h = 0, 1, . . . , n − 1 zu setzen. Wir nennen ̂γ die empirische Auto-Kovarianzfunktion undbeachten, dass ̂γ(0), bis auf den Faktor n−1n, dem Ausdruck (2.1.6) entspricht.Die empirische Autokorrelationsfunktion (eACF) definieren wir alŝϱ(h) = ̂γ(h)̂γ(0) . (2.1.8)Um (2.1.8) definieren zu können, müssen wir ̂γ(0) > 0 voraussetzen. Der Fall ̂γ(0) = 0 istfür uns aber auch nicht sonderlich interessant, denn es würde x 1 = · · · = x n gelten. Daherschließen wir dies immer aus.Wir definieren weiter die empirische Auto-Kovarianzmatrix (bis zum Lag p) als die p×p Matrix⎛⎞̂γ(0) ̂γ(1) . . . ̂γ(p − 1)̂γ(1) ̂γ(0) . . . ̂γ(p − 2)̂Γ p = (̂γ(|i − j|)) i,j=1,...,p=⎜.⎝ . . .. ⎟ (2.1.9). ⎠̂γ(p − 1) ̂γ(p − 2) . . . ̂γ(0)und die empirische Auto-Korrelationsmatrix (bis zum Lag p) alŝR p = (̂ϱ(|i − j|)) i,j=1,...,p= 1̂γ(0) · ̂Γ p (2.1.10)Wegen ̂ϱ(0) = 1 stehen auf der Diagonalen von ̂R p nur Einsen. ̂Γ p und ̂R p sind positiv semidifinit,symmetrisch und invertierbar, denn es gilt̂Γ p = n −1 · T · T t18

mit der p × 2p Matrix⎛⎞0 · · · 0 0 y 1 · · · y p−1 y p0 · · · 0 y 1 y 2 · · · y p 0T =⎜⎟⎝.. ⎠0 y 1 · · · y p−1 y p 0 · · · 0und y i = x i − x nDie eACF ist eine wichtige Kenngröße für die Zeitreihen-Analyse, daher sollten wir von wichtigenZeitreihen-Modellen die (theoretische) ACF kennen, um später anhand einer Beobachtungein „vernünftiges“ Modell wählen zu können.In R erhalten wir die eACF mit dem Befehl acf(x), wobei x sowohl ein ts-Objekt, als auchein gewöhnlicher Vektor sein kann. Führen wir dies für die Beobachtungen aus Abbildung 2.1aus, so erkennen wir, dass die empirische ACF der i. i. d. Folge nahezu 0 ist (ab dem Lag 1)und die des Random Walkes linear abfällt, vgl. Abbildung 2.2.−0.2 0.0 0.2 0.4 0.6 0.8 1.0−0.2 0.0 0.2 0.4 0.6 0.8 1.00 5 10 15 200 5 10 15 20Abbildung 2.2: Empirische Autokorrelationsfunktionen der Zeitreihen aus Abbildung 2.1.In den nächsten beiden Beispielen zeigt sich, dass der IID(µ, σ 2 ) schwach stationär ist, einRandom-Walk jedoch nicht.Beispiel 2.1.5 (White Noise Prozess) Sei (W t ) ∼ IID(µ, σ 2 ), ein IID White Noise Prozess.Für diesen gilt{Var(Wt ) = σ 2 h = 0γ(t, t + h) = Cov(W t , W t+h ) =0 h ≠ 0denn im Fall h ≠ 0 sind W t und W t+h stoch. unabh. und somit unkorreliert. Also ist W schwachstationär mit{1 h = 0ϱ(h) =(2.1.11)0 h ≠ 0Allgemeiner heiße ein Prozess (W t ) t∈Z White Noise Prozess (kurz WN(µ, σ 2 )), falls die (W t ) t∈Zpaarweise unkorreliert sind, EW t = µ und Var(W t ) = σ 2 für alle t ∈ Z gilt. Mit der gleichenRechnung sehen wir, dass auch ein WN(µ, σ 2 ) Prozess schwach stationär mit ACF ϱ ist.19

Beispiel 2.1.6 (Random Walk) Sei (W t ) ∼ IID(0, σ 2 ) und (S t ) t∈N0 der zugehörige Random-Walk mit Start in 0, d. h. S t = S t−1 + W t und S 0 = 0. Für diesen Prozess gilt ES t = 0,Var(S t ) = t · σ 2 für alle t ≥ 1 undγ(t, t + h) = Cov(S t , S t+h )= Cov(S t , S t + W t+1 + W t+2 + · · · + W t+h )= Cov(S t , S t ) + Cov(S t , W t+1 ) + · · · + Cov(S t , W t+h ) = t · σ 2 .} {{ } } {{ } } {{ }=Var(S t)=0=0Da dies von t abhängt, ist (S t ) t∈N0nicht schwach stationär.Definition 2.1.7 Für einen ZR-Prozess (X t ) t∈Z sei der Differenzen-Prozess (∆X t ) t∈Z definiertals∆X t = X t − X t−1 t ∈ Z. (2.1.12)Ist (S t ) ein Random-Walk, so bildet der Differenzen-Prozess (∆S t ) t=1,2,... eine Folge unabhängigidentisch verteilter Zufallsgrößen. Durch Anwenden des Operators ∆ wird in diesem Fallaus einem nicht schwach stationärer Prozess ein schwach stationärer. Häufig ist es so, dassmehrmaliges Anwenden von ∆ einen schwach stationären Prozess liefert.In R berechnen wir den Differenzen-Prozess mit diff(x). Die Funktion bildet aus dem n-elementigen Vektor x = (x[1], . . . , x[n]) den Differenzenvektor (x[2] − x[1], . . . , x[n] − x[n − 1])der Länge n − 1.2.2 AR(p) ModelleIn diesem Abschnitt führen wir eine spezielle Klasse stochastischer Prozesse ein, sogenannteautoregressive Prozesse: X t soll sich in Abhängigkeit seiner vergangenen Wert X t−1 , X t−2 , . . .schreiben lassen, etwaX t = f(X t−1 , X t−2 , . . . )für eine Funktion f. Zusätzlich nehmen wir an, dass zu jedem Zeitpunkt eine Störung (WhiteNoise) in die Beobachtung mit eingeht, d. h. X t ist von der BauartX t = f(X t−1 , X t−2 , . . . ) + W tfür einen WN(0, σ 2 ) Prozess (W t ). Bei AR Modellen beschränken wir uns auf lineare Funktionenf und sollten eigentlich von linearen autoregressiven Modellen sprechen. Bevor wir dieseModelle in voller Allgemeinheit einführen untersuchen wir das einfache Beispiel f(x) = φ · x.Für φ = 1 erhalten wir einen Random-Walk, d. h. einen nicht schwach stationären Prozess. Für|φ| < 1 wird der Prozess schwach stationär.Beispiel 2.2.1 (AR(1) Modelle) Der Prozess (X t ) t∈Z sei definiert durchX t = φ · X t−1 + W t (2.2.1)20

mit (W t ) ∼ WN(0, σ 2 ) und φ ∈ R mit |φ| < 1. Jedes X t lässt sich schreiben alsX t = W t + φ · W t−1 + φ 2 · W t−2 + . . .∞∑= φ i · W t−i , (2.2.2)denn die Reihe in (2.2.2) konvergiert fast sicher wegen |φ| < 1.i=0Es gilt somit EX t = 0 für alle t ∈ Z undγ(t, t + h) = Cov(X t , X t+h )⎛∞∑= Cov ⎝ φ i · W t−i ,=∞∑i=0i=0⎞∞∑φ j · W t+h−j⎠j=0φ i · φ h+i · Cov(W t−i , W t−i ),} {{ }=σ 2denn für j ≠ h + i sind W t−i und W t+h−j unkorreliert (vgl. Definition von WN). Wir erhaltenunter erneuter Beachtung von |φ| < 1∞∑γ(t, t + h) = φ h · σ 2 · φ 2ii=0= φh · σ 21 − φ 2und damit die schwache Stationarität von (X t ) mit ACFϱ(h) = γ(h)γ(0) = φh . (2.2.3)−3 −2 −1 0 1 2 3−0.2 0.0 0.2 0.4 0.6 0.8 1.00 20 40 60 80 1000 5 10 15 20Abbildung 2.3: Sample eines AR(1) Prozesses mit φ = 0.7 und zugehöriger eACF.Definition 2.2.2 (AR(p) Modelle) Ein stochastischer Prozess (X t ) heißt autoregressiver Prozessder Ordnung p (kurz: AR(p)) Prozess, falls jedes X t die DarstellungX t = φ 1 X t−1 + φ 2 X t−2 + · · · + φ p X t−p + W t (2.2.4)21

für einen WN(0, σ 2 ) Prozess (W t ) und Konstanten φ 1 , . . . , φ p ∈ R mit φ p ≠ 0 besitzt.Im Fall p = ∞, d. h.müssen wir∞∑X t = W t + φ i X t−i (2.2.5)i=1∞∑|φ i | < ∞ (2.2.6)i=1fordern, um die fast sichere Konvergenz in (2.2.5) zu gewährleisten.Mit Hilfe des Backshift-Operators B, der durch BX t = X t−1 (und damit induktiv B n X t =X t−n ) definiert ist, lässt sich (2.2.4) äquivalent als(1 − φ 1 B − φ 2 B 2 − · · · − φ p B p )X t = X t − φ 1 X t−1 − · · · − φ p X t−p = W tschreiben. Definieren wir Φ(B) = 1 − φ 1 B − · · · − φ p B p , so lautet die Forderung (2.2.4) inKurzform:Φ(B)X t = W t für alle t ∈ Z. (2.2.7)Obwohl Φ ein Polynom in B ist können wir damit rechnen, als wäre es eine PolynomabbildungΦ : C → C. Insbesondere können wir von den Nullstellen von Φ sprechen.Für p = 1 und φ 1 = 1 erhalten wir einen Random-Walk. Es stellt sich also die Frage, unterwelchen Voraussetzungen an die Konstanten φ 1 , . . . , φ p ein AR(p) Prozess schwach stationärist. In der Tat ist dafür wichtig, wo die Nullstellen von Φ liegen.Satz 2.2.3 (a) Für die Gleichung (2.2.4) gibt es genau dann eine schwach stationäre Lösung(X t ), wenn alle Nullstellen von Φ außerhalb des Einheitskreises {z ∈ C : |z| = 1} liegen.Diese schwach stationäre Lösung ist zudem eindeutig.(b) Gilt sogar |z| > 1 für alle Nullstellen z ∈ C von Φ, so können wir jedes X t alsschreiben, wobei die Konstanten ψ 0 , ψ 1 , . . . sich aus∞∑X t = ψ i · W t−i (2.2.8)i=0Ψ(z) =∞∑i=0ψ i · z i = 1Φ(z)für alle z ∈ C (2.2.9)ergeben und ∑ ∞i=0 |ψ i | < ∞ erfüllen.(X t ) heißt in dem Fall kausal bzgl. (W t ) und die ψ 0 , ψ 1 , . . . lassen sich rekursiv durchp∑ψ j = φ i · ψ j−i j = 1, 2, . . . (2.2.10)i=1bestimmen. Dabei sei ψ 0 = 1 und ψ −j = 0 für j ≥ 1 gesetzt.22

Bevor wir der Fragestellung nachgehen, wie wir für einen Datensatz x 1 , . . . , x n „gute“ Schätzwertefür φ 1 , . . . , φ p erhalten, betrachten wir einige Beispiele.Beispiel 2.2.4 (a) Für ein AR(1) Modell mit φ = φ 1 ergibt sich Φ(z) = 1−φ·z mit Nullstelle1/φ. Demnach ist für φ = ±1 (Random Walk) der Prozess nicht schwach stationär, für|φ| ≠ 1 ist er schwach stationär und für |φ| < 1 sogar kausal mit ψ j = φ j .(b) Das AR(2) Modell X t = X t−1 − 1 4 X t−2 + W t ist schwach stationär, denn hier ist Φ(z) =1 − z + 1 4 z2 = 1 4 · (z − 2)2 , also 2 die einzige Nullstelle von Φ.(c) Das AR(2) Modell X t = 1 2 X t−1 + 1 2 X t−2 + W t ist nicht schwach stationär, denn wirerhalten Φ(z) = − 1 2 · (z − 1) · (2 + z) mit den Nullstellen 1 und −2.Ein numerischer Algorithmus zur Nullstellensuchen von Polynomen ist in R in die Funktionpolyroot(t) implementiert, wobei t = (t[1], . . . , t[n]) die Koeffizienten des Polynoms z ↦→ t[1]+t[2]·z+· · ·+t[n]·z n−1 angeben. Im Beispiel (b) müssten wir demnach polyroot(c(1,-1,1/4))aufrufen, für (c) wäre es polyroot(c(1,-1/2,-1/2)).2.2.1 Schätzung von φ 1 , . . . , φ pHaben wir die Ordnung p für eine Beobachtung x 1 , . . . , x n fixiert und möchten die Koeffizientenφ 1 , . . . , φ p schätzen, so gibt es verschiedene Ansätze, z. B. durch die Minimierung der Summeder Fehlerquadrate (klassische Regression), durch einen Maximum-Likelihood-Ansatz (unterder zusätzlichen Annahme, dass jedes W t normalverteilt ist) oder durch die sogenannten Yule-Walker Gleichungen, auf die wir im Folgenden genauer eingehen werden.Wir nehmen an, (X t ) ist ein AR(p)-Prozess, Φ(B)X t = W t , der kausal bzgl. (W t ) ∼ WN(0, σ 2 )ist. Er besitzt also die Darstellung∞∑X t = ψ i · W t−i (2.2.11)i=0mit (ψ i ) i∈N0 gemäß (2.2.10). Multiplizieren wir für j = 1, . . . , p beide Seiten von Φ(B)X t = W tmit X t−j und bilden den Erwartungswert, so giltE(X t−j · Φ(B)X t ) = E(X t−j · W t ) = 0, (2.2.12)denn aufgrund von (2.2.11) sind W t und X t−j unkorreliert für j ≥ 1. Andererseits gilt wegenE(X t ) = 0E(X t−j · Φ(B)X t ) = E(X t−j · X t ) − φ 1 E(X t−j · X t−1 ) − · · · − φ p E(X t−j · X t−p )(2.2.12) und (2.2.13) zusammen ergeben= Cov(X t−j , X t ) − φ 1 Cov(X t−j , X t−1 ) − · · · − φ p Cov(X t−j , X t−p )= γ(j) − φ 1 γ(1 − j) − · · · − φ p γ(p − j).γ(j) = φ 1 γ(1 − j) + · · · + φ p γ(p − j) für alle j = 1, . . . , p,(2.2.13)23

oder kürzer⎛ ⎞ ⎛ ⎞φ 1 γ(1)φ 2Γ p ·⎜ ⎟⎝ .= γ(2)⎜ ⎟⎠ ⎝ . ⎠φ p γ(p)wobei⎛⎞γ(0) γ(1) . . . γ(p − 1)γ(1) γ(0) . . . γ(p − 2)Γ p = (γ(i − j)) i,j=1,...,p =⎜.⎝ . . .. ⎟ . ⎠γ(p − 1) γ(p − 2) . . . γ(0)(2.2.14)(2.2.15)die Auto-Kovarianzmatrix (bis zum Lag p) sei. Die Gleichungen (2.2.14) nennen wir auchYule-Walker Gleichungen.Ersetzen wir γ(1), . . . , γ(p) und Γ p in (2.2.14) durch ihre empirischen Gegenstücke (wir beachtendie Analogie zum Momentenmethode Verfahren: dort werden die theoretischen Momenteden empirischen Momenten gleichgesetzt), so erhalten wir⎛ ⎛ ⎞⎞φ 1⎜ ̂Γ p · ⎝ .φ p⎟⎠ =⎜⎝̂γ(1).̂γ(p)⎟⎠ (2.2.16)Da ̂Γ p invertierbar ist (sofern nicht gerade x 1 = · · · = x n gilt), erhalten wir auf diese ArtSchätzer für φ 1 , . . . , φ p durch⎛ ⎞⎛ ⎞⎛ ⎞̂φ 1̂γ(1)̂ϱ(1)⎜ ⎟⎝ . ⎠ = (̂Γ p ) −1 ⎜ ⎟ · ⎝ ⎠ = ( ̂R p ) −1 ⎜ ⎟ · ⎝ ⎠ (2.2.17)̂φ p.̂γ(p).̂ϱ(p)Wollen wir in R den Datensatz x 1 , . . . , x n an ein AR(p)-Modell fitten, so benutzten wir denBefehl ar(x, aic = FALSE, order.max = p, method = "yule-walker").Andere mögliche Methoden sind "ols" (Minimierung der Summe der Fehlerquadrate) und"mle" (Maximum-Likelihood Verfahren).Geben wir p nicht an und setzen aic = TRUE, so wählt R automatisch ein p mit gutem aicWert (siehe dazu Abschnitt 3.3).2.2.2 Schätzung von σ 2Neben den Parameter φ 1 , . . . , φ p wollen wir noch die Varianz des White-Noise Prozesses (W t ) t∈Zschätzen. In der Situation eines kausalen AR(p)-Prozesses (X t ) multiplizieren wir Φ(B)X t =W t dazu auf beiden Seiten mit X t = ∑ ∞i=0 ψ i ·W t−i und bilden den Erwartungswert. Dies liefertzum einen∞∑E(X t · W t ) = E( ψ i · W t−i · W t ) = E( ψ 0 · W}{{} t · W t ) = Var(W t ) = σ 2 (2.2.18)i=0=124

und zum anderenE(X t · W t ) = E(Φ(B)X t · X t ) = E(X 2 t − φ 1 · X t−1 · X t − · · · − φ p · X t−p · X t )= Var(X t ) − φ 1 · γ(1) − · · · − φ p · γ(p)⎛ ⎞γ(1))⎜ ⎟= γ(0) −(φ 1 · · · φ p · ⎝ . ⎠γ(p)(2.2.19)Zusammen erhalten wir⎛ ⎞γ(1))σ 2 ⎜ ⎟= γ(0) −(φ 1 · · · φ p · ⎝ . ⎠γ(p)Der Yule-Walker Schätzer ̂σ 2 für σ 2 ist demnach durch⎛ ⎞ ⎛⎛ ⎞⎞̂γ(1)̂ϱ(1)(̂σ 2 = ̂γ(0) − ̂φ 1 · · · ̂φ)(⎜ ⎟ ⎜p · ⎝ . ⎠ = ̂γ(0) · ⎝1 − ̂φ 1 · · · ̂φ)⎜ ⎟⎟p · ⎝ . ⎠⎠ (2.2.20)̂γ(p)̂ϱ(p)gegeben und wird in R beim Aufruf der ar Funktion (method = "yule-walker") mit berechnet.2.2.3 Vorhersagen in AR(p) ModellenIn einem AR(p) Modell Φ(B)X t = W t ist eine Vorhersage für den Zeitpunkt n + 1 durchgegeben.̂x n+1 = φ 1 x n + φ 2 x n−1 + · · · + φ p x n−p+1 (2.2.21)In R erhalten wir diese wieder mit der Funktion predict(ar(x)).Achtung: Die Funktion ar arbeitet immer mit den zentrierten Daten x 1 − x, . . . , x n − x, d. h.die Vorhersage ist durchgegeben.̂x n+1 = x + ̂φ 1 · (x n − x) + · · · + ̂φ p · (x n−p+1 − x) (2.2.22)2.3 Tests für die ZeitreihenanalyseIm folgenden werden drei Tests vorgestellt, mit denen sich signikant nachweisen lässt, dass eineBeobachtung x 1 , . . . , x n nicht von einer i. i. d. Folge stammt.Ausgangspunkt der beiden ersten Tests ist der folgende Satz, der sich aus dem schwachenGesetz der großen Zahlen folgern lässt.25

Satz 2.3.1 Ist (W t ) ∼ IID(µ, σ 2 ), und x 1 , . . . , x n eine Beobachtung von (W t ) mit eACF ̂ϱ n ,so gilt für alle h ≥ 1√ n · (̂ϱn (1), . . . , ̂ϱ n (h))d−→ N (0, 1) h für n → ∞. (2.3.1)Der Satz besagt, dass für große n die eACF (̂ϱ n (h)) h≥1 approximativ eine unabhängige Folgevon N (0, 1/n) Beobachtungen ist. Es fallen demnach approximativ 95% der Werte von ̂ϱ n (h)in das Intervall ±1.96/ √ n (denn qnorm(.975), das 1 − 0.975 = 2.5% Quantil der Standardnormalverteilung,ist in etwa gleich 1.96). Dieses Intervall wird in R im Plot der acf Funktionblau gestrichelt dargestellt.2.3.1 Box-Pierce TestStatt sich die ganze Folge (̂ϱ(h)) h≥1 anzuschauen, können wir auch die StatistikQ = n ·L∑h=1̂ϱ(h) 2 (2.3.2)betrachten, die für große n verteilt ist wie ∑ Lh=1 Y 2 h , mit (Y i) i. i. d. und standardnormalverteilt,d. h. für große n ist Q approximativ χ 2 L verteilt.Die HypotheseH : ̂ϱ(1) = · · · = ̂ϱ(L) = 0 (2.3.3)wird zum Niveau α verworfen, wenn Q > χ 2 L,1−α(= qchisq(1 − α, L)) ist.Für n < 100 arbeitet dieser Test nicht zufriedenstellend, ebenso ist die Wahl von L schwierig.Als Faustregel wählen wir L etwa als 2 · √n, es schadet aber nicht, wenn wir alle p-Werte biszu diesem L berechnen lassen und anhand aller p-Werte eine Entscheidung fällen.In R erhalten wir diesen Test durch Box.test(x, lag), wobei x wie gewohnt die Zeitreihe ist,und lag dem L von oben entspricht.2.3.2 Ljung-Box TestFür kleine Beobachtungslängen n greifen wir statt des Box-Pierce Tests auf den Ljung-BoxTest zurück, bei dem statt Q die StatistikQ ′ = n · (n + 2) ·L∑h=11n − h · ̂ϱ(h)2 (2.3.4)berechnet wird, die ebenfalls für große n approximativ χ 2 Lverteilt ist.In R erhalten wir diesen Test, indem wir beim Box.test das optionale Argument type ="Ljung-Box" wählen.26

2.3.3 Turning Point TestWir sagen, die Beobachtung x 1 , . . . , x n besitzt einen Wendepunkt in i (1 x i+1 gilt, oder wenn x i−1 > x i und x i < x i+1 gilt. Es sei T n die Anzahl derWendepunkte von x 1 , . . . , x n .Satz 2.3.2 Ist X 1 , . . . , X n eine i. i. d. Folge und die Verteilung von X 1 stetig, so giltT ∗ n = T n − ET n√Var(Tn )ET n = (n − 2) · 2316n − 29Var(T n ) =90d−→ N (0, 1)d. h. für große n ist T n approximativ N ((n − 2) · 23 , 16n−2990) verteilt.Ein großer Wert von T n −ET n deutet darauf hin, dass die Zeitreihe zu viel hin und her springt,um von einer i. i. d. Folge zu kommen. Ein kleiner Wert von T n −ET n deutet auf eine Korrelationzwischen benachbarten Beobachtungen hin. Satz 2.3.2 liefert einen plausiblen Test zum Niveauα für die HypotheseH : x 1 , . . . , x n stammt von einer i. i. d. Beobachtung. (2.3.5)Wir verwerfen H, wenn |T ∗ n| > Φ 1−α/2 ist. Φ 1−α/2 ist dabei das 1 − α/2-Quantil der Standardnormalverteilung(= qnorm(1 − α/2)).2.4 R-Befehleacf(x) Plottet die empirische Autokorrelationsfunktion (ACF) der Zeitreihe (oder des Vektors)x. Auf die Zahlenwerte können wir mit acf(x)$acf zugreifen.diff(x) Bildet aus x = (x[1], . . . , x[n]) den Differenzenvektor (x[2] − x[1], . . . , x[n] − x[n − 1])polyroot(t) Berechnet numerisch die Nullstellen des Polynoms z ↦→ t[1] + t[2] · z + · · · + t[n] · z n−1ar(x) Passt an x ein AR(p) Modell an. Optionale Argumente:Setzen wir aic = FALSE, so wird p = order.max als Ordnung gewählt, im Fall aic =TRUE wählt R das p ≤ order.max, so dass das gefittete Modell minimalen aic Wertbesitzt.Mit method geben wir an, wie die Koeffizienten φ 1 , . . . , φ p geschätzt werden sollen. Standardist "yule-walker", möglich sind noch "mle" (Maximum-Likelihood), "ols" (Minimierungder Fehlerquadrate)und "burg" (Burg’s Algorithmus).Box.test(x, lag) Führt einen Box-Pierce Test für x durch. Die Wahl von lag ist schwierig: Am Besten diep-Werte für lag = 1, . . . , 2 · √length(x)berechnen.Für einen Ljung-Box Test muss type = "Ljung-Box" gewählt werden.qnorm(1-a) Das 1-a-Quantil einer Standardnormalverteilung.qchisq(1-a,L) Das 1-a-Quantil einer χ 2 -Verteilung mit L Freiheitsgraden.27

3 ARMA-ModelleIn diesem Kapitel lernen wir Methoden kennen, ein geeignetes Modell für eine vorliegendeZeitreihe zu bestimmen; sowie zwei weitere Klassen von Modellen.3.1 Partielle Autokorrelationsfunktion3.1.1 Optimale lineare Prognose in AR-ModellenGegeben ein kausales AR(p)-ModellX t = φ 1 X t−1 + · · · + φ p X t−p + W tmit (W t ) ∼ W N(0, σ 2 ), können wir leicht einen gleichmäßig besten linearen erwartungstreuenSchätzer für X t , gegeben (X t−k ) k≥1 , bestimmen. Dabei nennen wir den linearen Schätzer ˆX teinen gleichmäßig besten, wenn er( ) 2E ˆXt − X tunter allen linearen Schätzern für alle denkbaren σ 2 minimiert.Es ist einfachˆX t = φ 1 X t−1 + · · · + φ p X t−p ,denn aufgrund der Kausalität sind W t und (X t−k ) k≥1 unkorreliert, also gilt für jeden weiterenlinearen erwartungstreuen Schätzer g = a 0 + a 1 X t−1 + a 2 X t−2 + . . .E (g − X t ) 2 = E(g − ˆX t + ˆX) 2t − X t(g − ˆX)tDie naheliegende Prognose= Var= Var+ 2Cov(g − ˆX t , ˆX t − X t ) + Var( ˆX t − X t )(g − ˆX t)+ 2Cov( g − ˆX t} {{ }= Var(g − ˆX)t + 0 + σ 2≥ E( ˆXt − X t) 2(= σ 2 )ˆx t+1|t = φ 1 x t + · · · + φ p x t−punkorreliert mit W t, W t ) + Var(W t )für beobachtete Zeitreihen, hinter denen wir ein AR(p)-Modell vermuten, ist also auch dietheoretisch beste (zumindest unter den linearen).Im Folgenden benötigen wir eine einfache Verallgemeinerung, nämlich einen gleichmäßig bestenlinearen erwartungstreuen Schätzer für X t , gegeben nicht die gesamte Prozessvergangenheit,28

sondern nur eine Auswahl von Zufallsgrößen, bspw. (X t−1 , X t−2 ). Wir suchen also eine Linearkombinationa 0 + a 1 X t−1 + a 2 X t−2 mit der Eigenschaft, dassE[(X t − a 0 + a 1 X t−1 + a 2 X t−2 ) 2]minimal wird. Wir bezeichnen diese mitPr[X t | X t−1 , X t−2 ],wobei die Abkürzung Pr dadurch gerechtfertigt wird, dass wir hier gerade die Projektion vonX t auf den von 1, X t−1 , X t−2 erzeugten Unterraum des Hilbertraums L 2 (Ω, A, P) berechnen.Insbesondere hat sie die Eigenschaft, dassCov(X t − Pr[X t | X t−1 , X t−2 ], X t−i ) = 0für i ∈ {1, 2}, sie enthält also alle Korrelationen zwischen X t und X t−1 , X t−2 . Dies beispielhaftzur Einführung, die allgemeinen Schreibweisen und Beziehungen gelten natürlich analog.Beachte abschließend den Unterschied zum bedingten Erwartungswert! Dieser ist die Projektionauf den Unterraum L 2 (Ω, σ(X t−1 , . . . , X t−h+1 ), P), welcher wesentlich größer ist.3.1.2 Die partielle AutokorrelationsfunktionBetrachten wir die ACF eines AR(1)-Prozesses: Diese fällt exponentiell gegen Null ab, ist aberinsbesondere auch für Lags größer 1 positiv, obwohl wir aus der Struktur des Prozesses wissen,dass X t und X t−2 nicht direkt voneinander abhängen. Die Korrelation ergibt sich vielmehr,weil X t mit X t−1 , und X t−1 wiederum mit X t−2 korreliert ist. Die Autokorrelationsfunktionberücksichtigt also auch indirekte Korrelationen zwischen X t und X t−h .Zudem lässt sich anhand der ACF nicht einschätzen, wie der Parameter p zu wählen ist;p ∈ {1, 2}liefert eine qualitativ gleiche ACF.Theoretische ACF eines AR(1)−ProzessesTheoretische ACF eines AR(2)−ProzessesACF0.0 0.2 0.4 0.6 0.8 1.0ACF0.0 0.2 0.4 0.6 0.8 1.05 10 15Index5 10 15IndexAbbildung 3.1: Theoretische ACF: AR(1)-Prozesses, φ = 0.7, sowie AR(2)-Prozess, φ 1 = 1 undφ 2 = −0.25Deshalb suchen wir nun nach einer Funktion, welche nur direkte Korrelationen berücksichtigt,und mehr Aussagekraft für die Wahl eines geeigneten p besitzt; dies wird die partielleAutokorrelationsfunktion leisten.29

Definition 3.1.1 (Partielle Autokorrelationsfunktion)Sei (X t ) t∈T ein schwach stationärer Prozess. Die partielle Autokorrelationsfunktion ϕ(h) istfür h ≥ 1 definiert durchCov(X 2 , X 1 )ϕ(1) == ϱ(1)(Var(X 2 )Var(X 1 )) 1 2Cov ( )X h+1 − Pr[X h+1 | X 2 , . . . , X h ], X 1ϕ(h) =, h > 1.(Var(X h+1 − Pr[X h+1 | X 2 , . . . , X h ])Var(X 1 )) 1 2Man betrachtet also nur die Korrelationen zwischen X 1 und X h+1 , die verbleiben, wenn alleKorrelationen mit den dazwischenliegenden Variablen entfernt wurden, diese sind ja gerade inPr[X h+1 | X 2 , . . . , X h ] enthalten.Beispiel 3.1.2 (PACF eines AR(1)-Prozesses)Sei (X t ) t∈Z ein kausaler AR(1)-Prozess mit X t = φX t−1 + W t . Dann ist also für alle h ≥ 2Pr(X h+1 | X 2 , . . . , X h ) = φX h , und somitfür alle h > 1.ϕ(1) = corr(X 2 , X 1 ) = ϱ(1) = φϕ(h) = corr(X h+1 − Pr(X h | X 2 , . . . , X h−1 ), X 1 ) = corr(W t , X 1 ) = 03.1.3 Schätzung der PACFDie Vermutung, dass für beliebige AR(p)-Prozesse die Koeffizienten gerade den partiellen Autokorrelationenentsprechen, trifft nicht zu. Die partiellen Autokorrelationen sind betraglichdurch 1 beschränkt, die Koeffizienten nicht. Es gilt aber folgender Satz:Satz 3.1.3 Für einen AR(p)-Prozess gilt ϕ(p) = φ(p), und ϕ(h) = 0 für h > p.Dies zeigt eine analoge Rechnung zu oben.Dieser Satz liefert auch die Idee für eine alternative Definition der PACF (die obiger in derTat äquivalent ist, siehe [4], Satz 4.1.2.6):Definition 3.1.4 Die partielle Autokorrelation ϕ(h) ist der Koeffizient φ(h) von X t−h inPr[X h+1 | X 2 , . . . , X h ].Empirisch bedeutet dies, dass wir die ePACF berechnen können, indem wir sukzessive AR(h)-Modelle, h ≥ 1l an die Daten fitten. Mittels der Yule-Walker-Gleichungen berechnet sich dieempirische partielle Autokorrelationsfunktion dann als3.2 MA(q)-Modelle[ ]−1ˆϕ(h) = ˆΓh ˆγhWir lernen nun eine zweite wichtige Prozessklasse kennen, die sich in gewisser Weise invers zurKlasse der AR-Prozesse verhält. Es sind die sogenannten Moving-Average-Prozesse.h .30

Definition 3.2.1 (Moving Average-Prozess)(X t ) t∈Z heißt Moving Average-Prozess der Ordnung q, kurz MA(q)-Prozess, falls jedes X t dieDarstellungX t = W t + θ 1 W t−1 + · · · + θ q W t−qfür (W t ) W N(0, σ 2 ) und Konstanten θ 1 , . . . , θ q mit θ q ≠ 0 besitzt.Der Name erklärt sich dadurch, dass der Prozess als gleitender Durchschnitt der zurückliegendenWhite Noise gebildet wird.MA(1)x−3 −2 −1 0 1 2 30 200 400 600 800 1000TimeAbbildung 3.2: Reihe mit 1000 Realisierungen eines MA(1)-ProzessesEin MA(q)-Prozess ist stets schwach stationär (ohne Voraussetzungen an (θ i ) 1≤i≤q !), da er eineLinearkombination unkorrelierter schwach stationärer Prozesse ist.Die ACF eines MA(1)-Prozess lässt sich leicht berechnen, es giltE(X t ) = 0für alle h ≥ 2.γ(0) = Var(W 1 + θW 0 ) = Var(W 1 ) + θ 2 Var(W 0 ) + 2Cov(W 1 , θW 0 ) = (1 + θ 2 )σ 2γ(1) = Cov(W 2 + θW 1 , W 1 + θW 0 ) = θCov(W 1 , W 1 ) = θσ 2γ(h) = Cov(W h+1 + θW h , W 1 + θW 0 ) = 031

Damit folgt für die ACF⎧⎪⎨ 1 h = 0ϱ(h) =θh = 11+θ⎪⎩2 0 h > 1Allgemein gilt:Satz 3.2.2 Die ACF eines MA(q)-Prozesses ist gegeben durch⎧1 h = 0⎪⎨ ∑ q−kϱ(h) =i=0 θ iθ i+k ∑q h = 1, . . . , qi=0⎪⎩θ2 i0 h > q(3.2.1)wobei θ 0 = 1.Der Beweis bleibt dem Leser zur Übung überlassen.Werfen wir nun einen Blick auf die eACF und ePACF der oben gezeigten Realisierung einesMA(1)-Prozesses. Daran mag deutlich werden, inwiefern der MA(1)-Prozess sich invers zumAR(1)-Prozess verhält.Series xSeries xACF0.0 0.2 0.4 0.6 0.8 1.0Partial ACF−0.2 0.0 0.2 0.40 5 10 15 20 25 30Lag0 5 10 15 20 25 30LagAbbildung 3.3: Empirische ACF und PACF der obigen ReiheDas Verhalten von ACF und PACF ist also bei diesen Prozessen gerade vertauscht. Steigenwir nun etwas tiefer in die wechselseitigen Beziehungen ein.3.2.1 Invertierbare MA-ProzesseObige Definition lässt sich auf q = ∞ erweitern, falls wir zusätzlich fordern, dass ∑ ∞i=1 |θ i | < ∞.Erinnern wir uns an kausale AR-Prozesse, so stellen wir fest, dass die Kausalitätseigenschaftgerade besagt, dass der Prozess als MA(∞)-Prozess dargestellt werden kann (insbesondere32

konvergierte die Summe der Koeffizienten). Dies erklärt das Nichtverschwinden der ACF eineskausalen AR-Prozesses.Eine analoge Aussage gilt auch für MA-Prozesse, die entsprechende Eigenschaft heißt hier Invertierbarkeit.Dazu schreiben wir mit Hilfe des Back-Shift-Operators die Differenzengleichungeines MA(q)-Prozesses alsX t = Θ(B)W t .Definition 3.2.3 (Invertierbare MA(q)-Prozesse)Ein MA(q)-Prozess (X t ) heißt invertierbar, falls (X t ) eine Darstellung als AR(∞)-Prozessbesitzt, d.h. ∑ ∞i=1 |φ i | < ∞ und∞∑X t = − φ i X t−i + W t .i=1Satz 3.2.4 Ein MA(q)-Prozess ist invertierbar genau dann, wenn Θ(z) ≠ 0 für alle z ∈ C mit|z| ≤ 1. Dann berechnen sich die Koeffizienten der AR(∞)-Darstellung aus1∞Θ(z) = 1 + ∑φ i z i .Daraus folgt, dass die PACF eines MA(q)-Prozesses überall von Null verschiedene Einträgebesitzt, da sie der PACF eines AR(∞)-Prozesses entspricht.Auf eine exakte Berechung der PACF, die insbesondere exponentielles Abfallen nachweisenwürde, verzichten wir hier. Die Berechnung erfolgt mittels der Yule-Walker-Gleichungen.Satz 3.2.5 Die PACF des MA(1)-Prozesses X t = W t + θW t−1 ist gegeben durchi=1(−θ) hϕ(h) = −1 + θ 2 + · · · + θ 2h = (1 − θ 2 )−(−θ)h 1 − θ 2(h+1)für alle h ≥ 1, erfüllt also ϕ(h) = c(−θ) h für eine geeignete Konstante c.3.2.2 Schätzen der Parameter θ 1 , . . . , θ nGab es bei einem AR-Modell zahlreiche Ansätze, die Parameter zu schätzen, so ist dies beieinem MA(q)-Modell weitaus schwieriger, weshalb zumeist auf AR-Modelle zurückgegriffenwird, zumal invertierbare MA-Modelle eine AR(∞)-Darstellung besitzen. MA-Modelle werdenhauptsächlich aus Gründen der Parametereffizienz betrachtet, dazu kommen wir jedoch später.Wie aber werden nun die Parameter geschätzt? Eine Möglichkeit sind Maximum-Likelihood-Schätzungen, wobei hierfür angenommen wird, dass die White Noise unabhängig identischnormal verteilt ist. Diese Einschränkung sollte keine Bauchschmerzen bereiten, da wir ja nur einModell suchen, dass die Daten beschreiben kann, nicht aber die wirklichen Gesetzmäßigkeitenhinter den Daten ergründen können.Ein andererer Ansatz ist die Minimierung der Summe der quadrierten 1-Schritt-Prognose-Fehler, konkret ist also die Funktionn∑S(θ 1 , . . . , θ q ) = (x t − (θ 1 ŵ t−1 + · · · + θ q ŵ t−q )) 2t=133

zu minimieren. Das Problem dabei ist, dass die ŵ t nicht beobachtet wurden, sondern gerade die1-Schritt-Prognose-Fehler sind, und rekursiv berechnet werden müssen. Dafür wiederum müssenStartwerte für θ 1 , . . . , θ q vorgegeben werden; sowie Startwerte w −q = · · · = w 0 = 0. Damitwerden zunächst alle ŵ t berechnet, und die so entstehende Summe nun bzgl. θ 1 , . . . , θ q minimiert.Daraus können dann neue Schätzwerte für ŵ t bestimmt werden, und die so entstehendeSumme minimiert werden. Das Verfahren wird iteriert.Ein alternativer, von Durbin vorgeschlagener Ansatz ist, zunächst ein AR(p) Modell hoherOrdnung anzupassen; darin die empirischen Fehler ŵ t (die Residuen nach Modellanpassung)zu bestimmen, und dann einmalig S zu minimieren.In R berechnet arima(Zeitreihe, order=(0,0,q), include.mean=T)$coef die Koeffizienteneines MA(q)-Modells mittels Maximum-Likelihood.3.2.3 Optimale Prognose in MA(q)-ModellenEine gleichmäßig bester linearer erwartungstreuer Schätzer für X t , gegeben (W t−k ) k≥1 , istˆX t = θ 1 W t−1 + · · · + θ q W t−1 .Weitergehende Prognosen erhält man im Gegensatz zu AR(p)-Modellen nicht durch Iterieren,sondern es istˆX t+j = E(W t+j + θ 1 W t+j−1 + · · · + θ j W t ) + θ j+1 W t−1 + . . . θ q W t+j−q= 0 + +θ j+1 W t−1 + . . . θ q W t+j−q ,insbesondere also ˆX t+j = 0 für j ≥ q.Dies beweist man ähnlich wie für AR(p)-Modelle.Alternativ kann für invertierbare Prozesse die AR(∞)-Darstellung gewählt werden, und dortwie üblich eine Vorhersage berechnet werden.3.3 Modellwahl: Akaike Information CriterionEin allgemeines Prinzip in der Modellierung ist die Sparsamkeit: Je mehr freie Parameter einModell besitzt, umso genauer kann es zwar an die Daten angepasst werden, verliert damit aberzugleich an Vorhersagekraft (jede weitere Beobachtung würde eine große Zahl von Parameternändern), und ist in diesem Sinne nicht robust.Man denke an die Temperaturkurve im Verlauf eines Jahres. Sie wird bis zum Sommer ansteigen,danach abfallen. Dieser Sachverhalt wird durch eine periodische, stückweise lineareFunktion (Dreiecksfunktion), oder eine Sinuskurve ausreichend beschrieben. Nimmt man hingegenein Polynom vom Grad 364, so kann dieses perfekt an die Daten angepasst werden, esstellt aber keinen typischen Verlauf dar, sondern gibt stattdessen bspw. HöchsttemperaturenMitte April, sowie einen kalten September an, was in einem beliebigen Jahr nur mit sehr geringerWahrscheinlichkeit zutrifft; der grobe Verlauf Sommer-Winter wird jedoch in jedem Jahrwieder auftauchen. Sprich, die Dreiecksfunktion spiegelt den Temperaturverlauf in jedem Jahrwieder.34

Dies ist die Grundidee des Akaike Information Criterion (AIC): Ein Modell für Datensatz Aist umso besser, je besser es auch als Modell für Datensatz B taugt, wobei B vom gleichendatengenerierenden Prozess (z.B. einem Thermometer am FMO) stammt wie A. Formal lässtsich dies mittels der (log-) Likelihood-Funktion ausdrücken: l M (B|ˆθ(A)) bezeichne die (logarithmierte)Wahrscheinlichkeit(sdichte) des Datensatzes B in einem festen Modell M, dessenParameter ˆθ anhand von Datensatz A gewählt wurden.Unter der Annahme, dass tatsächlich das Modell M den Daten generierenden Prozess beschreibt(mit tatsächlichem Parametern θ 0 ), können wir der Modellierung mittels M und ˆθ(·)die Zahl]E M,θ0[l M (B|ˆθ(A))zuordnen, wobei B und A zwei unabhängig identische, anhand M und θ 0 generierte Datensätzeseien.Diese Zahlen sind also ein Gütekriterium für Modelle: jedem Modell kann eine Zahl zugeordnetwerden, und wir entscheiden uns für das Modell mit der höchsten Zahl.Allerdings ist obige Formel keine durchführbare Rechenvorschrift; mit wachsendem Stichprobenumfanggilt jedoch, dass− 1 ]2 AIC ≈ E M,θ 0[l M (B|ˆθ(A)) ,das AIC muss also minimiert werden. Zur Herleitung dieser Beziehung siehe [4, Bemerkung6.3.3.9]. Das AIC selbst schließlich ist, bei gegebenem Datensatz A, definiert alsAIC = −2 · l M (A|ˆθ(A)) + 2 · Anzahl Modellparameter.Beachte dabei, dass σ 2 ebenfalls ein Modellparamter ist. Die Vorzeichen und -faktoren sindhistorisch bedingt; zudem berechnet R das AIC wie zuletzt angegeben. Das AIC eines gefittetenModells kann in R meist durch Anhängen von $AIC an den Modellaufruf, oder durchAIC(Modell) ausgegeben werden.In der Methode ar geschieht die Modellwahl standardmäßig anhand des AIC, dies erklärt,warum wir zunächst aic=F gesetzt hatten.3.4 ARMA-ModelleWie wir gesehen haben, können wir sowohl AR(p)-Prozesse als auch (invertierbare) MA-Prozesse einfach als AR-Modelle mit hoher Ordnung behandeln, jedoch kann dies schnell zueiner hohen Parameterzahl führen, welche im AIC bestraft wird. Einen Ausweg weist eineKombination aus beiden Prozessen, die sogenannten ARMA(p,q)-Prozesse.Definition 3.4.1 (ARMA(p,q)-Prozess)(X t ) heißt ARMA(p,q)-Prozess, falls (X t ) stationär ist, und es Polynome Φ und Θ vom Gradp bzw. q gibt, sodass alle X t der DarstellungΦ(B)X t = Θ(B)W tmit (W t ) ∼ W N(0, σ 2 ) genügen. Der Prozess heißt kausal bzw. invertierbar (bzgl. W t ), wenndie Polynomfunktion Φ(z) bzw. Θ(z) für alle z ∈ C mit |z| ≤ 1 invertierbar ist.35

Dabei ist (X t ) stationär genau dann, wenn der AR-Teil stationär ist, wenn also Φ(z) ≠ 0 füralle z ∈ C mit |z| = 1. Ist (X t ) invertierbar, so existiert eine Darstellung als AR(∞)-Prozess,mit AR-Polynom ˜Φ, gegeben durch˜Φ(z) = Φ(z)θ(z) .Ist (X t ) kausal, so existiert eine Darstellung als MA(∞)-Prozess, mit MA-Polynom Ψ, gegebendurchΨ(z) = Φ(z)θ(z) .Ein ARMA(p,q)-Modell benötigt bei gleichem AIC zumeist weniger Parameter als ein reinesAR- oder MA-Modell; bedenke, dass es zugleich einem AR(∞) wie einem MA(∞)-Modellentsprechen kann (s.u). Zudem kann eine gemeinsame Nullstelle von Φ und Θ gekürzt werden;die Definitionsgleichung ist in einem solchen Fall redundant.3.4.1 ACVF eines kausalen ARMA(1,1)-ProzessesSei X t gegeben durch(1 − φB)X t = (1 + θB)W t .Da der Prozess kausal ist, können wir schreibenX t = (1 − φB) −1 (1 + θB)W t( ∞)∑= φ i B i (1 + θB)W ti=0()∞∑∞∑= 1 + φ i+1 B i+1 + φ i θB i+1 W ti=0i=0∞∑= W t + (φ + θ) φ i−1 W t−i ,i=1und erhalten somitsowieγ(0) = Var(X 0 ) = σ 2 + σ 2 (φ + θ) 2 (1 − φ 2 ) −1Die ACF berechnet sich damit zuCov(X 0 , X h ) =(φ + θ)φ h−1 σ 2 + (φ + θ) 2 σ 2 φ h (1 − φ 2 ) −1 .ϱ(h) = φh−1 (φ + θ)(1 + φθ)1 + φθ + θ 2 ,insbesondere gilt ϱ(h) = φ · ϱ(h − 1). Dies entspricht gerade dem von einem AR(1)-Prozessbekannten Verhalten der ACF für h > 1.36

3.4.2 Box-Jenkins-Methode der ModellwahlAllerdings wird die PACF eines ARMA(1,1)-Prozesses auch für Lags größer 1 nicht verschwinden,im Gegensatz zum AR(1)-Prozess. Eine Zusammenstellung unseres Wissens über ACFund PACF führt uns zur sogenannten Box-Jenkins-Methode der Modellwahl.ACF ϱ(h)PACF ϕ(h)AR(p) exponentielle Hüllkurve endlich. ϕ(h) = 0 für h>pMA(q) endlich. ϱ(h) = 0 für h > q exponentielle HüllkurveARMA(p,q) wie AR(p) ab h>q wie MA(q) ab h>pDurch Betrachtung von eACF und ePACF können wir also (als Alternative zum AIC) eingeeignetes Modell auswählen, insbesondere wenn eine ab einem gewissen Lag unter die Signifikanzgrenzenverschwindet.Diese Vorgehensweise ist jedoch nur empfehlenswert für p + q ≤ 2, da ansonsten die Überlagerungendas Bild zu sehr verwischen.3.5 R-Befehlepacf Plottet die empirische partielle Autokorrelationsfunktion einer gegebenen Zeitreihe. Aufdie Zahlenwerte kann interessanterweise mit pacf$acf zugegriffen werden. Kein Schreibfehler!arima Gegeben eine Zeitreihe, berechnet die Funktion Schätzwerte für AR- und MA-Parameter.Die Ordnung muss als order=c(p,0,q) angegeben werden. Der mittlere Paramter entsprichtdem I in ARIMA, und steht für die Integrationsordnung (dazu später mehr).Das Argument include.mean=FALSE muss verwendet werden, wenn zentrierte Zeitreihenvorliegen, ansonsten wird auch ein Mittelwert geschätzt, und als Intercept ausgegeben.Typische Syntax:arima(Zeitreihe, order=c(p,0,q), include.mean=F)$aicDas angehängte $aic bewirkt die Ausgabe des AIC für das gefittete Modell; die Koeffizientenerhält man mit $coef, die Varianz der WN mit $sigma2. Der einfache Aufruf liefertall diese Daten auf einen Blick. Die Schätzung der Koeffizienten geschieht standardmäßigmit der Maximum-Likelihood-Methode.Durch Angabe von xreg=time(Zeitreihe) kann zugleich ein linearer Trend geschätztwerden. Bei Vorhersagen mittels predict muss dann neben n.ahead zusätzlich newxreg=neueZeitangegeben werden; wobei neueZeit ein Vektor mit den Daten (=Monaten bzw. Jahren)sein muss, für welche die Vorhersage berechnet werden soll. Diesen erhält man am einfachstenals time(neueZeitreihe).arima.sim Simuliert AR(I)MA-Prozesse. Typische Syntax:arima.sim(n=100, list(order=c(1,0,2), ar=0.3, ma=c(0.2,0.5)),sd=1)n=100 gibt die Anzahl der Realisierungen an, die Modellspezifikation geschieht durch die37

Angaben in der Liste, wobei bei ARMA-Modellen auf die Angabe von order verzichtetwerden kann, es genügt, die Koeffizienten ungleich Null anzugeben. Durch sd wird dieStandardabweichung σ der WN festgelegt.38

4 ARIMA-ModelleDieses Kapitel widmet sich der Untersuchung von nicht schwach-stationären Zeitreihenprozessen;insbesondere von Zeitreihen, die einen stochastischen Trend aufweisen, der sich nicht alseinfache Funktion der Zeit beschreiben lässt.4.1 Integrierte ProzesseErinnern wir uns an die Zeitreihe der Umlaufrenditen inländischer Inhaberschuldverschreibungen.Augenscheinlich besitzt diese Zeitreihe einen Trend, das mittlere Niveau ändert sichlangfristig. Einen linearen Trend anzunehmen, würde jedoch den ökonomischen Gesetzmäßigkeitenwidersprechen, da die Zinssätze keine negativen Werte annehmen können, und auchgewisse Grenzen in der Vergangenheit nie überschritten haben. Vielmehr können wir hier voneinem stochastischen Trend sprechen, das heißt, der Trend kann durch einen Random Walkbeschrieben werden.Umlaufrendite inländischer InhaberschuldverschreibungenZinssatz3 4 5 6 7−5 −4 −3 −2 −1 0 11995 2000 2005 2010Time0 20 40 60 80 100Abbildung 4.1: Umlaufrendite inländischer Inhaberschuldverschreibungen, daneben 100 Realisierungeneines RWZur Unterscheidung nicht schwach-stationärer Zeitreihen führen wir zwei Begriffe ein; wir beschränkenuns dabei auf den Fall, dass die Zeitreihe durch einmaliges Differenzieren (d.h. Bildender Zeitreihe ∆X t = X t − X t−1 ) in eine schwach stationäre Zeitreihe überführt werden kann.Im Folgenden ist die Zeitparametermenge T üblicherweise die Menge der natürlichen Zahlen.Definition 4.1.1 (Trend-stationär)(X t ) heißt Trend-stationär, falls für jedes t ∈ T die DarstellungX t = a + b · t + Ψ(B)W tmit ∑ ∞i=0 |Ψ j | < ∞ und (W t ) ∼ W N(0, σ 2 ) gilt.39

Da b = 0 nicht ausgeschlossen wurde, ist auch jeder schwach stationäre Prozess, der eineMA(∞)-Darstellung besizt, Trend-stationär.Definition 4.1.2 (Differenzen-stationär)(X t ) heißt integriert der Ordnung 1 oder Differenzen-stationär, falls ∆X t = X t − X t−1 dieDifferenzengleichung∆X t = (1 − B)X t = b + Ψ(B)W tmit Ψ(1) ≠ 0, (W t ) ∼ W N(0, σ 2 ) und ∑ ∞i=0 i |Ψ i | < ∞ erfüllt.Die Bedingung Ψ(1) ≠ 0 heißt, dass 1 keine Nullstelle von Ψ ist; dies schließt also gerade aus,dass (X t ) Trend bzw. schwach stationär ist, da sonst der Linearfaktor (1 − B) auftaucht, dennfür X t = a + b · t + ˜Ψ(B)W t gilt∆X t = (b) + ˜Ψ(B)W t − ˜Ψ(B)W t−1 = (b) + ˜Ψ(B)W t − ˜Ψ(B)BW t= (b) + (1 − B) ˜Ψ(B)W t ,hierbei entspricht das Polynom (die Potenzreihe) (1 − B) ˜Ψ(B) dem Polynom Ψ(B) in derDefinition.Die erweiterte Summierbarkeitsbedingung sorgt dafür, dass X t = X 0 + ∑ ti=1 ∆X i existiert(s.u.) Die allgemeine Struktur Differenzen-stationären Prozesen liefert die Beveridge-Nelson-Zerlegung:Satz 4.1.3 (Beveridge-Nelson-Zerlegung) Jeder Differenzen-stationäre Prozess (X t ) t≥0 besitztdie folgende Zerlegung:t∑X t = X 0 + b · t +Ψ(1) W} {{ }j + ˜Ψ(B)W 0 − ˜Ψ(B)W t .} {{ }linearer Trendj=1} {{ } stationäre KomponenteRandom WalkDie Reihe ˜Ψ erhält man dabei aus der Beziehung Ψ(z) = Ψ(1) + (z − 1) ˜Ψ(z), z ∈ C.Da bei Differenzen-stationären Prozessen gerade Ψ(1) ≠ 0, besitzen diese also tatsächlich stetseinen Random-Walk-Anteil.Beweis. Die Existenz und Eindeutigkeit von ˜Ψ erhält man durch Taylorentwicklung von Ψ umden Entwicklungspunkt 1. Man sieht, dass ˜Ψ j = ∑ ∞i=j+1 Ψ i , und damit auch∣∞∑∣ ˜Ψ∣ ∣∣ ∑ ∞ ∞∑ ∣∣∣∣∣ ∞∑ ∞∑∞∑j = Ψ i ≤ |Ψ i | = j |Ψ j | < ∞. (4.1.1)j=0 j=0 ∣i=j+1j=0 i=j+1 j=040

Aus der Definition erhält man nun durch Einsetzen und Erkennen einer Teleskopsumme:t∑X t = X 0 + ∆X jj=1t∑= X 0 +(b + [Ψ(1) + (B − 1) ˜Ψ(B)]W)jj=1t∑ t∑= X 0 + b · t + Ψ(1) W j + (B − 1) ˜Ψ(B)W jj=1 j=1Wegen (4.1.1) ist der letzte Term tatsächlich stationär, da die Koeffizienten von ˜Ψ absolutsummierbar sind.4.1.1 ARIMA-ModelleBei Differenzen-stationären Prozessen kann im Allgemeinen angenommen werden, dass derstationäre Prozess ein ARMA-Prozess ist. Solche Prozesse heißen integrierte ARMA-Prozesse,kurz ARIMA(p,d,q)-Prozesse, wobei der Parameter d angibt, wie oft der Prozess differenziertwerden muss, bis er stationär wird.Definition 4.1.4 (X t ) heißt ARIMA(p,d,q)-Prozess, wenn Polynome Φ und Θ vom Grad pbzw. q existieren, sodass für jedes t die Darstellungmit (W t ) WN gilt.Φ(B)(1 − B) d X t = Θ(B)W tDie R-Funktion arima passt ein ARIMA-Modell an gegebene Zeitreihen an. Liegt augenscheinlichzusätzlich ein linearer Trend vor, so kann dieser durch Angabe von xreg=time(Zeitreihe)mit bestimmt werden. Diese lineare Regression wird durchgeführt, bevor der Prozess differenziertwird.4.2 Tests auf (In-)Stationarität4.2.1 Test auf Differenzen-Stationarität: Dickey-Fuller-TestEin Ansatz, einen Test zu entwickeln, ist folgender: Wir nehmen als Hypothese, eine vorgelegteZeitreihe sei Differenzen-stationär. Wenn der stationäre Teil des Differenzenprozesses eineAR(p)-Darstellung besitzt, so kann der Prozess selbst als AR(p+1) Prozess (mit lin. Trend)der Form(1 − B)Φ(B)X t = b + (1 − B)(1 − φ 1 B − · · · − φ p B p )X t = W tangesehen werden. Dies formen wir um zuX t = b + X t−1 + φ 1 (1 − B)X t−1 + · · · + φ p (1 − B)X t−p + W t= b + X t−1 + φ 1 ∆X t−1 + · · · + φ p ∆X t−p + W t .41

Mittels des Regressionsansatzesx t = b + a 1 x t−1 + a 2 (x t−1 − x t−2 ) + · · · + a p+1 (x t−p − x t−p−1 )können nun KQS-Schätzer â 1 , . . . , a p+1 ˆ bestimmt werden; und wir können unsere Hypotheseformulieren alsH: a 1 = 1,und den Test anhand von â 1 durchführen. Leider besitzt â 1 unter der Hypothese keine Standardverteilung,die Statistik liegt nur vertafelt vor. Als Alternative wird üblicherweise K:|a 1 | < 1 gewählt; also (Trend-)Stationarität.Dieser Test wurde von Dickey und Fuller vorgeschlagen, und ist als adf.test (AugmentedDickey-Fuller-Test) in R im Paket tseries enthalten.4.2.2 Test auf (Trend-)Stationarität: KPSS-TestAls Gegenstück zum ADF-Test lernen wir nun einen Test kennen, dessen Hypothese ist, einevorgelegte Zeitreihe sei (Trend-)stationär. Beide Tests zusammen können also signifikantangeben, ob Trend- oder Differenzen-Stationarität vorliegt.Wir beschreiben zunächst nur den Test auf Stationarität; einen Test auf Trend-Stationaritäterhält man durch Regression eines linearen Trends, und Betrachtung der Residuen. DemKwiatkowski-Phillips-Schmidt-Shin-Test liegt die Idee zugrunde, dass nach der Beveridge-Nelson-Zerlegung jeder Differenzen-stationäre Prozess eine Random-Walk-Komponente besitzt. Da dieübrigen Komponenten stationär bzw. deterministisch sind, besitzen diese eine konstante Varianz;die Varianz der RW-Komponente wächst jedoch linear in t. Betrachte die TeststatistikS T =∑ Tt=1Xt2T 2Ĵ ,Twobei Ĵ T ein Schätzer für die sogenannte langfristige Varianz ist; die hier an die Stelle von σ 2treten muss, aber von gleicher Größenordnung ist. Besitzt X t eine RW-Komponente, so wachsenZähler und Nenner mit der gleichen Ordnung; im stationären Fall hingegen konvergiert dieVarianz der Teststatistik gegen Null, und somit auch die Teststatistik selbst in Wahrscheinlichkeit.Auch hier liegen die Werte der Teststatistik nur vertafelt vor, und auch dort wurden nur einigekritische Werte berechnet.Der in R implementierte kpss.test aus dem Paket tseries liefert deshalb nur p-Werte zwischen0.01 und 0.1; bei potentiell größeren oder kleineren Werten zusammen mit einer Warnung,dass der tatsächliche p-Wert davon abweicht. Standardmäßig testet R auf reine Stationarität,wird ein linearer Trend vermutet, so muss der Test mit dem zusätzlichen Argumentnull="Trend" aufgerufen werden.4.2.3 Abschließende BemerkungenWir haben nun zahlreiche Verfahren kennengelernt, wie Zeitreihen modelliert werden können.Welche Methode angewendet wird, sollte stets durch vorhandenes Hintergrundwissen über42

mögliche Trends oder Saisoneinflüsse; sowie durch Betrachtung des Graphen entschieden werden.Schließlich mag dies auch immer von der Zielsetzung abhängen, ob man an einer elegantenDarstellung oder vielleicht einer weitreichenden Prognose interessiert ist.Eine klassiche Zerlegung, wie auch Differenzierung können beide geeignet sein, Saison undTrend auszublenden, um zu einem stationären Prozess zu gelangen. Eine Richtlinie kann hierwohl nur die Erfahrung geben.4.3 R-Befehleadf.test Augmented Dickey-Fuller Test. Enthalten im Paket tseries.Hypothese: Prozess ist Differenzen-stationär, d.h. integriert von der Ordnung 1,Alternative: Prozess ist Trend-stationär.kpss.test KPSS-Test. Enthalten im Paket tseries.Hypothese: Prozess ist stationär (Standard) bzw. Trend-stationär (Option null="Trend")Alternative: Prozess ist Differenzen-stationär.43

5 GARCH-Modell5.1 Heteroskedastische ModelleKurse von Finanzmarkttiteln sind meist starken und in ihrer Amplitude nicht konstantenSchwankungen unterworfen: Perioden mit hektischen Kursausschlägen werden von ruhigen Periodenabgelöst, d. h. Perioden in denen die Schwankungen geringer sind. Innerhalb einer Periodesind die Amplituden der Ausschläge positiv autokorreliert: Hohe Ausschläge werden mitgroßer Wahrscheinlichkeit von hohen Ausschlägen gefolgt und niedrige Ausschläge mit hoherWahrscheinlichkeit von niedrigen.Mit anderen Worten: Die bedingte Varianz des Einschrittprognosefehlers ist nicht konstant(das wäre der homoskedastische Fall) sondern variabel (das nennen wir heteroskedastischesVerhalten). Bei Hochfrequentierten Daten (z. B. Tagesdaten) tritt der heteroskedastische Fallhäufig ein.Beispiel 5.1.1 Die Renditen des Standard & Poor’s 500 Aktienindex aus den 90er Jahrenweisen drei Perioden auf: Im zweitel Drittel des Jahrzehnts sind die Ausschläge geringer undim letzten Drittel sehr hoch, vgl. Abbildung 5.1.−6 −4 −2 0 2 40 500 1000 1500 2000 2500Abbildung 5.1: Renditen des SP500 Aktienindex (1990 bis 1999).In ARMA Modellen existiert ein solches Verhalten nicht, denn sie sind homoskedastisch. Wirbetrachten dazu den einfachsten Fall des AR(1) Modelles.Beispiel 5.1.2 (Einschrittprognosefehler im AR(1) Modell) Sei X ein AR(1) Prozess, etwaX t = φ · X t−1 + W tmit (W t ) ∼ WN(0, σ 2 ). Haben wir eine Beobachtung x 1 , . . . , x n gegeben, so ist der beste lineare44

Schätzer für den Zeitpunkt n + 1 von X durcĥX n+1 = φ · X n (5.1.1)gegeben (wobei φ im Anwendungsfall durch einen Schätzer ̂φ ersetzt werden muss).Die bedingte Varianz des Einschrittprognosefehlers ist in diesem FallE((X n+1 − ̂X n+1 ) 2 | X 1 , . . . , X n ) = E(W 2 n+1 | X 1 , . . . , X n ) = E(W 2 n+1) = σ 2 , (5.1.2)d. h. konstant gleich σ 2 . Die gleiche Rechnung könnten wir für ein AR(p) Modell durchführen:Auch hier ist die bedingte Varianz des Einschrittprognosefehlers konstant σ 2 .Beachten wir, dass hiergilt, so können wir (5.1.2) auch alsschreiben.̂X n+1 = E(X n+1 | X n , X n−1 , . . . ) (5.1.3)Var(X n+1 | X n , X n−1 , . . . ) = σ 2 (5.1.4)Diese theoretische Überlegung lässt sich auch empirisch überprüfen, etwa indem man eineAR(2) Simulation schrittweise an ein AR(2) Modell fittet. Zum Vergleich zeigt Abbildung 5.2den Einschrittprognosefehler, wenn man die SP500 Zeitreihe aus Abbildung 5.1 schrittweise anein AR(2) Modell fittet.0 2 4 6 8 10 120 10 20 30 40 500 500 1000 1500 2000 2500 30000 500 1000 1500 2000 2500Abbildung 5.2: Verlauf des Einschrittprognosefehlers einer AR(2) Simulation und von SP500(schrittweise an ein AR(2) Modell gefittet).Für ARMA Modell ist die bedingte Varianz von X t , gegeben die Vergangenheit, konstant. DasZiel der folgenden Modellbildung ist es, die bedingte Varianz (5.1.4) variabel zu gestalten, d. h.wir hätten gerne einen Prozess (X t ), derVar(X t | X t−1 , X t−2 , . . . ) = σ 2 t (5.1.5)erfüllt. (σ 2 t ) soll dabei eine (nichtkonstante) Folge von Zufallsgrößen sein, den wir als Volatilitätsprozess(Varianzprozess) bezeichnen.45

Ein naheliegender Ansatz für (X t ) t∈Z istX t = N t · σ t (5.1.6)mit einer i. i. d. Folge von standardnormalverteilten Zufallsgrößen (N t ), so dass N t auch unabhängigvon σ t ist für jedes t ∈ Z. Den Prozess (N t ) nennen wir auch Innovationsprozess.Eine einfache Methode ist es, den Varianzprozess als Funktion der Vergangenheit modellieren,d. h. jedes σ 2 t hat die Gestaltfür eine Funktion f.σ 2 t = f(X t−1 , X t−2 , . . . ) (5.1.7)Setzten wir die Momentenannahme E(σ 2 t ) < ∞ voraus, so gilt zum einenE(X t | X t−1 , X t−2 , . . . ) = E(σ t · N t | X t−1 , X t−2 , . . . )= σ t · E(N t | X t−1 , X t−2 , . . . )= σ t · E(N t )= 0denn σ t ist messbar bzgl. X t−1 , X t−2 , . . . und N t ist N (0, 1)-verteilt und unabhängig vonX t−1 , X t−2 , . . . . Wir erhaltend. h. (5.1.5).Var(X t | X t−1 , X t−2 , . . . ) = E(X 2 t | X t−1 , X t−2 , . . . )= E(σ 2 t · N 2 t | X t−1 , X t−2 , . . . )= σ 2 t · E(N 2 t | X t−1 , X t−2 , . . . )= σ 2 t · E(N 2 t )= σ 2 t ,Vor der Einführung von ARCH Modellen mittelte man die Quadrate x 2 t−1 , x2 t−2 , . . . in einemZeitfenster der Breite B, d. h. man setztef(x t−1 , x t−2 , . . . ) = 1 B∑B · x 2 t−i. (5.1.8)i=15.2 ARCH(q) ModellARCH Modelle machen den Ansatz, die Summe in (5.1.8) noch zu gewichten. Durch die „Erfindung“dieses Modells im Jahr 1982 gelangte Robert F. Engle in 2003 an den Nobelpreis fürWirtschaftswissenschaften.Definition 5.2.1 Ein Prozess X = (X t ) t∈Z heißt autoregressiver, bedingt heteroskedastischerProzess der Ordnung q (kurz: ARCH(q)), fallsX t = N t · σ t mit σ 2 t = α 0 + α 1 · X 2 t−1 + α 2 · X 2 t−2 + · · · + α q · X 2 t−q (5.2.1)46

für alle t ∈ Z gilt. Dabei sei der Innovationsprozess (N t ) i. i. d. und standardnormalverteilt,und zudem sei N t unabhängig von σ t für jedes t ∈ Z. Es wird außerdemα 0 > 0 und α i ≥ 0 für alle i = 1, . . . , q (5.2.2)angenommen, damit der Volatilitätsprozess (σ 2 t ) positiv ist.Gemäß (5.1.5) giltVar(X t | X t−1 , X t−2 , . . . ) = σ 2 t = α 0 + α 1 · X 2 t−1 + · · · + α q · X 2 t−q,was auch die Namensgebung erklärt: Die bedingte Varianz von X t , gegeben die Vergangenheit,wird autoregressiv (d. h. abhängig von der Vergangenheit) modelliert. Wir beachten aber, dassim Fall α 1 = · · · = α q = 0 der Homoskedastische Fall vorliegt.Die Standardnormalverteilungsannahme an den Innovationsprozess (N t ) sichert sogar, dassX t | X t−1 , X t−2 , . . . , X t−q ∼ N (0, α 0 + α 1 · X 2 t−1 + · · · + α q · X 2 t−q) (5.2.3)gilt. Das heißt, die bedingte Verteilung von X t , gegeben die Vergangenheit, ist eine Normalverteilungmit Mittelwert 0 und Varianz σ 2 t . Wir beachten aber, dass X t selber nicht normalverteiltist.Die Normalverteilungsannahme an die (N t ) ist nicht wesentlich für ARCH-Effekte und wirkönnten auch einen beliebigen WN(0, 1) Prozess für (N t ) zulassen. Der Einfachheit halberbleiben wir aber bei einer i. i. d. N (0,1) Folge.Für den Fall q = ∞ müssen wir wie gewohntfordern, um die Konvergenz sicher zu stellen.∞∑|α i | < ∞ (5.2.4)i=1Wie schon bei ARMA Prozesses stellt sich die natürliche Frage, unter welchen Voraussetzungenan die Parameter eine schwach stationäre Lösung (X t ) der Gleichung (5.2.1) existiert. Diebefriedigende Antwort liefert der folgende Satz.Satz 5.2.2 Es existiert genau dann eine schwach stationäre Lösung (X t ) von (5.2.1), wenngiltq∑α i < 1. (5.2.5)i=1Proof. Die Notwendigkeit von (5.2.5) lässt sich einfach beweisen, indem wir Var(X t ) berechnen.Aufgrund von E(X t ) = E(N t · σ t ) = E(N t ) · E(σ t ) = 0 istVar(X t ) = E(X 2 t )= E(Nt 2 ) ·E(σt 2 )} {{ }=1= α 0 + α 1 · E(Xt−1) 2 + · · · + α q · E(Xt−q)2= α 0 + α 1 · Var(X 2 t−1) + · · · + α q · Var(X 2 t−q).47

Ist (X t ) schwach stationär, so gilt Var(X t ) = · · · = Var(X 2 t−q) und wir erhaltenVar(X t ) =für alle t ∈ Z. Da eine Varianz stets nichtnegativ ist, impliziert diesα 01 − α 1 − · · · − α q(5.2.6)1 − α 1 − · · · − α q ≥ 0.Im Fall 1 − α 1 − · · · − α q = 0 wäre Var(X t ) = ∞, was für einen schwach stationären Prozess(X t ) per Definition ausgeschlossen wird. Dies zeigt die Notwendigkeit von (5.2.5).Dass (5.2.5) auch hinreichend ist wollen wir hier nicht beweisen. Eine weitere äquivalenteCharakterisierung von (5.2.5), die man im Beweis benötigt, lautet: Alle Nullstellen z ∈ C vonΦ(z) = 1 − α 1 · z − · · · − α q · z q sind betragsmäßig größer als 1.5.2.1 Der Prozess (X 2 t )Die starke Korrelation der Quadrate (X 2 t ), die wir im SP500 Beispiel erkannt haben, ist ineinem ARCH(q) Prozess (X t ) vorhanden:Definieren wir W t = X 2 t − σ 2 t , so gilt E(W t ) = 0 und mit (5.2.1)d. h. (X 2 t ) besitzt eine autoregressive Struktur.X 2 t = α 0 + α 1 · X 2 t−1 + · · · + α q · X 2 t−q + W t , (5.2.7)5.3 GARCH(p, q) ModelleAus den Bedürfnissen der Praxis entstanden zahlreiche Erweiterungen des ARCH Modells Eszeigt sich etwa bei Finanzreihen, dass die Korrelation der Quadrate weit in die Vergangenheitzurückreicht, d. h. für eine gute Schätzung ist ein großes q von Nöten.Eine sparsamere Parametrisierung erlaubt dagegen das verallgemeinerte ARCH Modell derOrdnung (p, q) (kurz: GARCH(p, q)). Wir gehen wieder von X t = σ t · N t aus und definierenden Volatilitätsprozess alsfür alle t ∈ Z. Wir fordern dabeiq∑p∑σt 2 = α 0 + α i · Xt−i 2 + β i · σt−i 2 (5.3.1)i=1i=1α 0 > 0, α i ≥ 0 für alle i = 1, . . . , q und β j ≥ 0 für alle j = 1, . . . , p (5.3.2)um σ 2 t > 0 zu gewährleisten.Der Fall p = 0 entspricht offenbar dem ARCH(q) Modell (also ARCH(q) ≡ GARCH(0, q)).Satz 5.3.1 Für das GARCH(p,q) existiert genau dann eine schwach stationäre Lösung (X t ),wennq∑ p∑α i + β i < 1 (5.3.3)i=1i=148

erfüllt ist. In diesem Fall giltVar(X t ) =α 01 − ∑ qi=1 α i − ∑ pi=1 β i(5.3.4)für alle t ∈ Z. (X t ) lässt sich zudem stets als ARCH(∞) Prozess auffassen, d. h. es existierenKonstanten (γ i ) i∈N0 mit γ 0 > 0, γ i ≥ 0 für alle i ≥ 1 und∞∑σt 2 = γ 0 + γ i · Xt−i2i=1sowie∞∑|γ i | < ∞. (5.3.5)i=1Wir merken an, dass für den quadrierten Prozess (Xt 2 ) und W t = Xt 2 − σt2EW t = 0)(auch hier istq∨pXt 2 ∑= α 0 + (α i + β i ) · Xt−i 2 −i=1p∑β i · W t−i + W ti=1gilt. Dabei sei α i = 0 für alle i > q sowie β i = 0 für alle i > p gesetzt. (X 2 t ) besitzt also eineARMA(q ∨ p, p) Struktur.5.4 ParameterschätzungAusgangspunkt für die Maximum-Likelihood Schätzung der α ′ s und β ′ s ist das folgende Lemma.Lemma 5.4.1 Es sei f 1 die Dichte einer Zufallsgröße X 1 und f t (· | x t−1 , . . . , x 1 ) die (bedingte)Dichte von X t gegeben X t−1 = x t−1 , . . . , X 1 = x 1 . Dann besitzt (X 1 , . . . , X n ) die Dichte f,gegeben durchn∏f(x 1 , . . . , x n ) = f 1 (x 1 ) · f t (x t | x t−1 , . . . , x 1 ). (5.4.1)t=2Ist (X t ) eine ARCH(q) Zeitreihe mit normalverteilten Innovationen, so ist die bedingte Verteilungvon X t gegeben X t−1 , · · · , X t−q eine Normalverteilung mit Mittelwert 0 und Varianzσ 2 t . Die Marginaldichte f 1 und die Dichten f t (· | x t−1 , . . . , x 1 ) für 2 ≤ t ≤ q sind dagegennur schwer bestimmbar. Daher maximiert man in (5.4.1) nur die Faktoren t > q, d. h. dieQuasi-Likelihood-FunktionL x (α 0 , . . . , α q ) =n∏t=q+1f t (x t | x t−1 , . . . , x 1 ) =wobei ϕ die Dichte der Standardnormalverteilung sei.n∏t=q+1σ −1t· ϕ(x t · σ −1t ) (5.4.2)Für ein GARCH(p, q) Fitting betrachten wir auch die Quasi-Likelihood-Funktion L x , um dieParameter zu schätzen. Wir schreiben dann L x (α 0 , . . . , α q , β 1 , . . . , β p ) und beachten, dass σ tin diesem Fall auch wirklich von β 1 , . . . , β p abhängt.Die Wahl von q und p können wir mit einem modifizierten Akaike Kriterium durchgeführen:AICC = −2 ·nn − q · log(L x(̂α 0 , . . . , ̂α q , ̂β 1 , . . . , ̂β np )) + 2 · (q + p + 2) ·n − p − q − 3(5.4.3)49

Das Paket tseries in R stellt eine Funktion garch(x) bereit, mit der man ein GARCH(p,q) Modell an einen Datensatz x fitten kann. Das AICC Kriterium ist leider in diese Funktionnicht implementiert (Übung).5.5 R-Befehlegarch(x) Fittet x an ein GARCH(p, q) Modell. p und q müssen dabei im Vektor order übergebenwerden (Standardwert ist p=q=1)Setzt man trace = FALSE, so verschwindet der Output, den das Optimierungsverfahrenfür die Maximumssuche ausgibt.In $n.likeli ist −log(L x (̂α 0 , . . . , ̂α q , ̂β 1 , . . . , ̂β p )) gespeichert.Die Funktion ist Teil des Packetes tseries, welches man mit library(tseries) ladenmuss.summary(obj) Gibt eine Übersicht zu einem Objekt aus und berechnet einige Diagnosetests im Falleines garch Objektes. Man kann daran ablesen, wie signifikant die geschätzten Parameter̂α 0 , . . . , ̂α q , ̂β 1 , . . . , ̂β p in das Modell eingehen: (***) bedeutet starke Signifikanz,kein Sternchen sehr schwache. Im letzteren Fall sollte man x an ein GARCH Modell mitkleinerer Ordnung fitten.50

Literaturverzeichnis[1] P. Cowpertwait, A. Metcalfe: Introductory Time Series with R, Springer 2009[2] P. Brockwell, R. Davis: Introduction to Time Series and Forecasting, Springer 1996[3] K. Neusser: Zeitreihenanalyse in den Wirtschaftswissenschaften, Teubner 2006[4] R. Schlittgen, B. Streitberg: Zeitreihenanalyse, 5. Auflage, R. Oldenbourg Verlag MünchenWien 1994[5] W. Zucchini: Vorlesungsskript Zeitreihenanalyse. Göttingen, 2004. online unter: http://www.statoek.wiso.uni-goettingen.de/veranstaltungen/zeitreihen/sommer04/51

Zeitreihenanalyse mit R

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?