13.07.2015 Aufrufe

Testen auf Normalverteilung: Der Jarque-Bera-Test

Testen auf Normalverteilung: Der Jarque-Bera-Test

Testen auf Normalverteilung: Der Jarque-Bera-Test

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong><strong>Test</strong>en</strong> <strong>auf</strong> <strong>Normalverteilung</strong>: <strong>Der</strong><strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong>DiplomarbeitMathematisches Institut


Inhaltsverzeichnis1 Einleitung 12 Score <strong>Test</strong> 22.1 Grundlagen Schätztheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2 Maximum Likelihood Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . 32.3 Grundlagen <strong>Test</strong>theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.4 Herleitung Score <strong>Test</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 <strong><strong>Test</strong>en</strong> <strong>auf</strong> univariate <strong>Normalverteilung</strong> 203.1 Pearson-Verteilungssystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.2 <strong><strong>Test</strong>en</strong> von Beobachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.3 <strong><strong>Test</strong>en</strong> von Regressionsresiduen . . . . . . . . . . . . . . . . . . . . . . . . . 274 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> im Vergleich 294.1 Kritische Werte und <strong>Test</strong>alternativen . . . . . . . . . . . . . . . . . . . . . . 294.2 Powervergleich innerhalb des Pearson-Systems . . . . . . . . . . . . . . . . . 334.3 Powervergleich in speziellen Situationen . . . . . . . . . . . . . . . . . . . . 375 <strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate <strong>Normalverteilung</strong> 435.1 Multivariate Schiefe- und Wölbungsmaße . . . . . . . . . . . . . . . . . . . 445.2 Asymptotische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3 Multivariate <strong>Test</strong>statistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . 556 Anwendungen 57Anhang 62A Anhang 63A.1 Grenzwertsätze aus der Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . 63A.2 Matrixoperationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63A.3 Empirische Analysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64i


Literaturverzeichnis 65


Abbildungsverzeichnis4.1 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich innerhalb des Pearson-Verteilungssystemszum Signifikanzniveau 5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich bei einigen contaminierten <strong>Normalverteilung</strong>enzum Signifikanzniveau 5% . . . . . . . . . . . . . . . . . . . 394.3 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich bei einigen contaminierten <strong>Normalverteilung</strong>enzum Signifikanzniveau 5% . . . . . . . . . . . . . . . . . . . 404.4 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich bei einigen contaminierten <strong>Normalverteilung</strong>enzum Signifikanzniveau 5% . . . . . . . . . . . . . . . . . . . 41iii


Tabellenverzeichnis4.1 Empirische kritische Werte der JB-Statistik bei 10 7 Replikationen . . . . . 304.2 Empirische kritische Werte der JB U -Statistik bei 10 7 Replikationen . . . . 324.3 Empirische kritische Werte der JB JG -Statistik bei 10 4 Replikationen. . . . 334.4 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich innerhalb des Pearson-Verteilungssystemszum Signifikanzniveau 5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355.1 Kritische Werte der multivariaten <strong>Jarque</strong>-<strong>Bera</strong> Statistiken MJB und ˜ MJB 566.1 <strong>Jarque</strong>-<strong>Bera</strong> Werte der Renditen einiger ausgewählter DAX-Komponentenund des DAX-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58A.1 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich innerhalb des Pearson-Verteilungssystemszum Signifikanzniveau 1% . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64A.2 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich innerhalb des Pearson-Verteilungssystemszum Signifikanzniveau 10% . . . . . . . . . . . . . . . . . . . . . . . . . . . 65A.3 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich bei einigen CN-Verteilungen zumSignifikanzniveau 5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66A.4 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich bei einigen CN-Verteilungen zumSignifikanzniveau 5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66A.5 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> im Powervergleich bei einigen CN-Verteilungen zumSignifikanzniveau 5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67iv


Kapitel 1Einleitung1


Kapitel 2Score <strong>Test</strong>In der mathematischen Statistik ist man daran interessiert anhand von Stichproben, dargestelltdurch Realisierungen zumeist unabhängiger und identisch verteilter (i.i.d.) Zufallsvariablen,Aussagen über die Parameter der Verteilung einer Grundgesamtheit zu treffen.Dazu werden statistische Modelle <strong>auf</strong>gestellt, <strong>auf</strong> deren Grundlage Schätz- oder <strong>Test</strong>problemebehandelt werden können. Ziel des ersten Kapitels ist es, eine <strong>Test</strong>statistik herzuleiten,mit deren Hilfe Fragen in Bezug <strong>auf</strong> Hypothesen über bestimmte Verteilungsparameterbeantwortet werden können. Unabdingbare Voraussetzung dafür bildet die Theorieder Likelihood-Schätzer, die im Bereich der Schätzprobleme als eine der gängigsten zumAuffinden von Schätzern für Parameterfunktionen angesehen werden kann. Aus diesemGrund wird im ersten Abschnitt eine kurze Einführung in die Schätztheorie gegeben unddar<strong>auf</strong> <strong>auf</strong>bauend in Abschnitt zwei die Theorie der Likelihood-Funktionen entwickelt,in der Maximum-Likelihood-Schätzer definiert und im Anschluß einige wichtige Eigenschaftenvon Maximum-Likelihood-Schätzern bewiesen werden. Abschnitt drei beginnt miteiner Erläuterung der Problematik in <strong>Test</strong>problemen und motiviert, ausgehend von einfachenHypothesen, in Abschnitt vier mit Hilfe von Likelihood-Quotienten den Übergangzu komplexeren Hypothesen. Die Vorgehensweise orientiert sich dabei an der in [CH74].Definitionen und Notationen sind zum Teil aus [Als09], sowie [Hel08] übernommen.2.1 Grundlagen SchätztheorieWie der Name bereits vermuten lässt ist es das Ziel der Schätztheorie, anhand von StichprobenSchätzungen über interessierende Parameter anzustellen. Dabei ist eine Stichprobex = (x 1 , . . . , x n ) ein n-Tupel von Beobachtungen, die im wahrscheinlichkeitstheoretischenZusammenhang als Realisierung von Zufallsvariablen X 1 , . . . , X n <strong>auf</strong>gefasst werden. Daszugrunde liegende Modell lässt sich dabei wie folgt beschreiben:Ausgangspunkt bildet ein statistischen Experiment E = (X , A, (P θ ) θ∈Θ ), welches sich aus2


2.2. Maximum Likelihood Theorie 3einem Stichprobenraum X , einer σ-Algebra A über X und einer Familie (P θ ) θ∈Θ vonWahrscheinlichkeitsmaßen mit Θ ⊆ R d als Parameterraum der Wahrscheinlichkeitsfamiliezusammensetzt. Die Stichprobe stellt ein Element des Stichprobenraums dar und kanndann als Realisierung einer Zufallsvariablen X : (Ω, F) → (X , A) und einer zugehörigenFamilie von Wahrscheinlichkeitsmaßen (Q θ ) θ∈Θ identifiziert werden, wobei Q X θ= P θ füralle θ ∈ Θ gilt. Auf die Struktur von (Ω, F) kommt es bei der Untersuchung der vorliegendenStichprobe nicht an. Auf diese Weise können Beobachtungen mit Zufallsvariablenin Verbindung gebracht werden, so dass eine Stichprobe dem Zufall unterliegt, welcherüber die Zufallsvariablen – genauer über die Verteilungen der Zufallsvariablen – in daseingangs beschriebene Modell einfließt. Dazu sei (P θ ) θ∈Θ dominiert durch ein Maß µ, sodass nach dem Satz von Radon-Nikodým f(x; θ) = dP θ /dµ gilt. Im stetigen Fall ist f(x; θ)die Wahrscheinlichkeitsdichte und im diskreten Fall die Wahrscheinlichkeitsfunktion zu P θ ,was im L<strong>auf</strong>e der vorliegenden Arbeit nicht mehr explizit erwähnt wird. Die Verteilungder Zufallsvariablen wird nun bis <strong>auf</strong> den Parameter(-vektor) als bekannt angenommen, sodass die Schätzungen eben jenen unbekannten Paramter(-vektor) betreffen. Ein Schätzeroder eine Schätzfunktion für θ ist dabei eine meßbare Abbildung T : X → Θ, die anhandeiner vorliegenden Stichprobe dem zu schätzenden Parameter einen Wert zuweist.Sinnvoller Weise versucht man T dabei so zu wählen, dass ein möglichst guter Schätzerresultiert, wobei hier <strong>auf</strong> Details über die Spezifizierung der Eigenschaft gut in diesemZusammenhang verzichtet werden soll.Drei der wohl bekanntesten Schätzmethoden bilden die Momentenmethode, die Bayesmethodeund die Theorie der Likelihood-Schätzer. Mit letzterer werden wir uns im folgendenausführlich beschäftigen. Obwohl es sich bei den betroffenen Parametern fast ausschließlichum Vektoren handeln wird, werden diese, sowie <strong>auf</strong>tretende Matrizen, durchFettdruck von skalaren Parametern unterschieden.2.2 Maximum Likelihood TheorieIm folgenden wird davon ausgegangen, dass es sich bei der Stichprobe x = (x 1 , . . . , x n )um Realisierungen von i.i.d. Zufallsvariablen X 1 , . . . , X n handelt, die gemäß einer VerteilungP θ gezogen wurden. Es sei dar<strong>auf</strong> hingewiesen, dass es sich dabei nicht ausschließlichum eine feste Stichprobe handeln wird. In einigen Situationen werden Zufallsvariablen betrachtet,um gewisse Größen wie Erwartungswerte und Varianzen herleiten zu können. EineUnterscheidung wird dabei in Form von Klein- bzw. Großschreibung deutlich gemacht.Wir beginnen mit einigen Definitionen, die unter den getroffenen Annahmen gelten.Definition 2.2.1. Es seien x 1 , . . . , x n Realisierungen von i.i.d. Zufallsvariablen X 1 , . . . , X n ,


4 Score <strong>Test</strong>die gemäß einer Verteilung P θ gezogen werden. Dann heißt die FunktionL(·; x) : Θ → [0, ∞)mit Abbildungsvorschriftn∏L(θ; x) = f(x i ; θ) = f(x; θ)i=1Likelihood-Funktion zur Stichprobe x = (x 1 , . . . , x n ).Die Motivation für Likelihood-Funktionen lässt sich wie folgt erklären: Betrachtet maneine diskret verteilte Zufallsvariable X, so gibt die Verteilung P θ von X bei gegebenem Parametervektorθ = (θ 1 , . . . , θ d ) die relativen Häufigkeiten der einzelnen Werte aus derGrundgesamtheit an. Somit liegt es nahe, dass bei einer zufälligen Stichprobe jener Parametervektorˆθ = (ˆθ 1 , . . . , ˆθ d ) am ehesten dem wahren Parametervektor θ entspricht, beidem die Wahrscheinlichkeit einer Realisierung der gezogenen Stichprobe am größten ist.Die Intuition lässt sich durch Grenzübergang <strong>auf</strong> den stetigen Fall übertragen. Mathematischbestimmt man ˆθ also durch Maximieren der Likelihood-Funktion in θ.Definition 2.2.2. Gegeben sei die Situation aus Definition (2.2.1). Dann bezeichnet ˆθden Maximum-Likelihood-Schätzer (MLS) für θ, fallsL(ˆθ; x) ≥ L(θ ′ ; x)für alle θ ′ ∈ Θ gilt. Die Maximierung erfolgt dabei komponentenweise in θ 1 bis θ d .Für praktische Zwecke ist es oft vorteilhaft den Logarithmus der Likelihood-Funktionzu verwenden. Aufgrund der Monotonie des Logarithmus ändert sich bei Extremwertuntersuchungennichts. Da von dieser Eigenschaft häufig Gebrauch gemacht wird, erhält derLogarithmus der Likelihood-Funktion eine eigene Bezeichnung. Wir definieren die Log-Likelihood-Funktion durchl(θ; x) = log ( L(θ; x) ) .Einige Merkmale des MLS sind für die Entwicklung der weiteren Theorie wesentlich. Unteranderem besitzt ˆθ eine asymptotische <strong>Normalverteilung</strong> um den wahren Parametervektorθ ∈ Θ. Diese Eigenschaft gilt uneingeschränkt, vorausgesetzt es werden sogenannte Regularitätsbedingungenan die Likelihood-Funktion gestellt. Zuerst jedoch werden einigeBegriffe eingeführt, die im folgenden eine zentrale Rolle spielen. Im Zusammenhang mitder Theorie der Likelihood-Funktionen erhält die Ableitung der Log-Likelihood-Funktionnach θ eine eigene Bezeichnung.


2.2. Maximum Likelihood Theorie 5Definition 2.2.3. Es gelten die Voraussetzungen aus Definition (2.2.1), dann heißtS(θ; x) = ∂( ) ∂∂θ log L(θ; x) = ∂Tl(θ; x), . . . , l(θ; x)∂θ 1 ∂θ dScore-Funktion oder einfach Score für x = (x 1 , . . . x n ).Um die Score-Funktion von der Abhängigkeit des gesamten Beobachtungsvektors zulösen, definieren wir zusätzlich den Score der i-ten Beobachtung durchS(θ; x i ) = ∂∂θ l(θ; x i),so dass im Fall unabhängiger ZufallsvariablenS(θ; x) = ∂ ( n∂θ log ∏)f(x i ; θ) = ∂∂θi=1n∑log f(x i ; θ) =i=1n∑S(θ; x i )i=1gilt. Die so eingeführte Score-Funktion bei festen Stichproben hängt somit nur vom unbekanntenParamtervektor θ ab. Betrachtet man jedoch Zufallsvariablen anstelle festerBeobachtungen, so besteht S(θ; X) selbst aus Zufallsvariablen und dem Score kann einErwartungswertvektor zugeordnet werden.Definition 2.2.4. Es gelten die Annahmen aus Definition (2.2.3), dann heißtI(θ; X) = IE θ[S(θ; X)S(θ; X)T ]die Fisher-Information von θ zur Stichprobe X = (X 1 , . . . , X n ). Für einzelne Beobachtungenist somitI(θ; X i ) = IE θ[S(θ; Xi )S(θ; X i ) T ]die Fisher-Information von θ zur Beobachtung X i .Die Fisher Information kann angesehen werden als Maß für die Güte des zu schätzendenParameters. Je größer I(θ; X) ist, desto genauer lässt sich θ schätzen. Man kann zeigen,dass unter gewissen Voraussetzungen 1 für die Kovarianz eines erwartungstreuen Schätzersˆθ für θ gilt: Cov θ[ˆθ(X)]≥ I(θ; X) −1 . Ein Schätzer, der diese untere sogenannte (mehrdimensionale)Cramer-Rao-Schranke annimmt wird als effizient bezeichnet. Man beachte,dass es sich bei Score-Funktionen und Fisher-Informationen in der Situation vektorwertigerParameter θ selbst um Vektoren bzw. Matrizen handelt.Wir kommen zu den angekündigten Regularitätsbedingungen (an P θ ):1. Θ ist offen mit dim(Θ) < ∞.2. Für alle θ, θ ′ ∈ Θ mit θ ≠ θ ′ gilt: f(x; θ) ≠ f(x; θ ′ ).1 Vgl. WN70, S.70


6 Score <strong>Test</strong>3. In einer Umgebung U θ des wahren Parametervektors θ ∈ Θ gilt:(a) S(θ ′ ; X), ∂∂θ S(θ′ ; X), ∂2∂θ 2 S(θ ′ ; X) existieren fast sicher für alle θ ′ ∈ U θ .(b) Es existiert eine Funktion g(X) mit IE[g(X)] < ∞ und n −1 | ∂2∂θ 2 S(θ ′ ; X)|


2.2. Maximum Likelihood Theorie 7Integriert man die Gleichung bzgl. P θ , so folgt wegen dP θ = f(x; θ)dµ[ ∂] ∫ ∂2IE θ∂θ S(θ; X)T =∂θ 2 f(x; θ)µ(dx) − IE [θ S(θ; X)S(θ; X)T ]und mit ∫ ∫∂ 2f(x; θ)µ(dx) = ∂2 f(x; θ)µ(dx) = 0 die Behauptung.∂θ 2 ∂θ 2 } {{ }= 1Betrachtet man reguläre Verteilungsfamilien, so lässt sich mit Lemma (2.2.5) für i.i.d.Zufallsvariablen X 1 , . . . , X n eine weitere Darstellungsmöglichkeit der Fisher-Informationangeben. Es giltI(θ; X i ) = Cov [ S(θ; X i ) ] ,wobei Cov [ S(θ; X i ) ] = ( Cov [ S j (θ; X i ), S k (θ; X i ) ]) 1≤j,k≤d die Kovarianzmatrix von S(θ; X i)bezeichnet. Unter Beachtung der Unabhängigkeit der X i für i = 1, . . . , n lässt sich weiterzeigen, dass I(θ; X) = ∑ ni=1 I(θ; X i) und somit speziell für identisch verteilte Zufallsvariablengilt.I(θ; X) = nI(θ; X i ) (2.3)Die eingangs erwähnte Eigenschaft der asymptotischen <strong>Normalverteilung</strong> des MLS wollenwir in einem Satz festhalten und unter Annahme der Regularitätsbedingungen beweisen.Dazu wird das Konzept der multivariaten <strong>Normalverteilung</strong> benötigt, welches imfolgenden in ausreichender Kürze mit einigen dazugehörigen Resultaten vorgestellt wird.Ab jetzt wird angenommen, dass die Likelihood-Funktion der zugrunde liegenden Verteilungden Regularitätsbedingungen genüge. Als Erweiterung des Prinzips normalverteilterZufallsvariablen (univariate <strong>Normalverteilung</strong>) werden nun Zufallsvektoren betrachtet, denenebenfalls eine <strong>Normalverteilung</strong> (multivariate <strong>Normalverteilung</strong>) zugeordnet wird. Wirbeschränken uns dabei <strong>auf</strong> den Fall nichtsingulärer Kovarianzmatrizen.Definition 2.2.7. Es sei X = (X 1 , . . . , X p ) T ein p-dimensionaler Zufallsvektor mit Wertenim R p . Dann besitzt X eine p-variate nichtsinguläre <strong>Normalverteilung</strong> mit Erwartungswertvektorµ = (µ 1 , . . . µ p ) T und positiv definiter Kovarianzmatrix Σ, falls die Dichte vonX gegeben ist durchf(x) = ∣ ∣(2π)Σ ∣ ∣ − 1 2exp(− 1 )2 (x − µ)T Σ −1 (x − µ)mit µ j ∈ R für j = 1, . . . , p und Σ > 0. ∣ ∣Σ ∣ ∣ bezeichnet dabei die Determinante der MatrixΣ. Wir schreiben X ∼ N p (µ, Σ).Einige für den späteren Kontext wichtige Eigenschaften lauten wie folgt:


8 Score <strong>Test</strong>Lemma 2.2.8. Es sei X ∼ N p (µ, Σ) mit Σ > 0. Dann gilt:(X − µ) T Σ −1 (X − µ) ∼ χ 2 (p) .Beweis. Dies folgt direkt aus einer Zerlegung Σ = CC T mit C als (p × p)-Matrix und derDefinition der χ 2 -Verteilung. Eine Darstellung von C in vorliegender Form ist mit Hilfeder Cholesky-Zerlegung 2 möglich.Lemma 2.2.9. Es sei X ∼ N p (µ, Σ) mit Σ > 0. Weiter sei A eine (k × p)-Matrix mitvollem Rang, k ≤ p und b ein k-Vektor. Dann gilt:(AX + b ∼ N k Aµ + b, AΣAT )Beweis. <strong>Der</strong> Beweis ergibt sich aus einer Darstellung der charakteristischen Funktion vonAX + b.Lemma 2.2.10. Es sei X = (X T 1 , X T 2 ) T ∼ N p (µ, Σ) mit Σ > 0, X 1 sei r-Vektor und( )X 2 sei (p − r)-Vektor. Weiter sei µ = (µ T 1 , Σ11 Σ 12µT 2 )T und Σ =. Dann gilt:Σ 21 Σ 22X 2 |X 1 ∼ N p−r (µ 2 + Σ 21 Σ −111 (X 1 − µ 1 ), Σ 22 − Σ 21 Σ −111 Σ 12).Beweis. Es sei X 2.1 = X 2 − Σ 21 Σ −111 X 1. Dann gilt X 2.1 ∼ N p−r (µ 2 − Σ 21 Σ −111 µ 1, Σ 22 −() ( )Σ 21 Σ −111 Σ 12) was leicht mit der Darstellung X 2.1 = −Σ 21 Σ −1 X 111 I p−r und Lem-X 2ma (2.2.9) eingesehen werden kann. Es sei nun X 2 = X 2.1 + Σ 21 Σ −111 X 1. Unter Bedingenvon X 1 ist Σ 21 Σ −111 X 1 konstant, so dass IE[X 2 |X 1 ] = IE[X 2.1 ] + Σ 21 Σ −111 X 1 =µ 2 + Σ 21 Σ11 −1 (X 1 − µ 1 ) und Var[X 2 |X 1 ] = Var[X 2.1 ] = Σ 22 − Σ 21 Σ −111 Σ 12.Um nun die gewünschten Eigenschaften des MLS herzuleiten beginnen wir mit einemPrinzip, das unabhängig von der gewählten Schätzmethode Bedeutung findet.Definition 2.2.11. Es seien X 1 , . . . , X n i.i.d. Zufallsvariablen mit Verteilung P θ und ˆθ nsei ein Schätzer für θ <strong>auf</strong> der Basis X 1 , . . . , X n . Dann heißt ˆθ n (schwach) konsistent, wennˆθ n in Wahrscheinlichkeit gegen θ konvergiert, d.h. lim n→∞ P ( ‖ˆθ n − θ‖ > ɛ ) = 0 für alleɛ > 0. ‖ · ‖ bezeichnet dabei die euklidische Norm.Anschaulich bedeutet die Konsistenz eines Schätzers also, dass sich der Schätzer demzu schätzenden Parameter bei zunehmender Beobachtungsanzahl immer weiter nähert.2 Vgl. Anhang (A.2)


2.2. Maximum Likelihood Theorie 9Lemma 2.2.12. Es seien X 1 , . . . , X n i.i.d. Zufallsvariablen mit Verteilung P θ . Sind dieRegularitätsbedingungen erfüllt, dann ist der MLS ˆθ <strong>auf</strong> der Basis X 1 , . . . , X n konsistent.Beweis. Da es sich hierbei um einen sehr konstruktiven Beweis handelt, der im weiterenZusammenhang nicht weiter von Relevanz ist, verweisen wir den interessierten Leser <strong>auf</strong>[Wal49], S. 595-601.Betrachtet man den MLS ˆθ nicht als Funktion bezüglich einer festen Stichprobe x =(x 1 , . . . , x n ), sondern als Funktion in den Zufallsvariablen X 1 , . . . , X n , so kann der Schätzerselbst als Zufallsvariable interpretiert werden. Dies ermöglicht es, dem Schätzer eine Verteilungzuzuweisen, die wir mit Hilfe wahrscheinlichkeitstheoretischer Mittel herleiten werden.Satz 2.2.13. Es seien X 1 , . . . , X n i.i.d. Zufallsvariablen mit Verteilung P θ , θ = (θ 1 , . . . , θ d ) T .Sind die Regularitätsbedingungen erfüllt und ist ˆθ MLS für θ <strong>auf</strong> der Basis X 1 , . . . , X n ,dann gilt:√ n(ˆθ − θ)D−→ Nd(0, I(θ; X 1 ) −1) .D−→ bezeichnet dabei die Konvergenz in Verteilung.Beweis. Wir entwickeln die Komponenten des Score-Vektors ( S 1 (ˆθ; X), . . . , S d (ˆθ; X) ) T =S(ˆθ; X) mit S j (ˆθ; X) = ∂∂θ jl(ˆθ; X) für j = 1, . . . , d, mittels der Taylorformel, die <strong>auf</strong>grundder Regularitätsbedingung 3(a) angewendet werden kann, um den wahren Parameter θ =(θ 1 , . . . , θ d ) T . Es giltS j (ˆθ; X) = S j (θ; X) +d∑k=1∂∂θ kS j (θ; X)(ˆθ k − θ k ) + 1 2d∑k,l=1mit |˜θ − θ| < |ˆθ − θ|. Da S j (ˆθ; X) = 0 folgt nach Division durch √ nS j (θ; X)√ n= −∑ dk=1= √ (n − 1 n∂∂θ kS j (θ; X)(ˆθ k − θ k )√ n− 1 2k=1∑ dk,l=1∂ 2∂θ k ∂θ lS j (˜θ; X)(ˆθ k − θ k )(ˆθ l − θ l )∂ 2∂θ k ∂θ lS j (˜θ; X)(ˆθ k − θ k )(ˆθ l − θ l )√ nd∑ ∂S j (θ; X)(ˆθ k − θ k ) − 1 d∑ ∂ 2S j (˜θ; X)(ˆθ k − θ k )(ˆθ l − θ l )∂θ k 2n ∂θ k ∂θ lk,l=1} {{ }=:Z n)Nach Regularitätsbedingung 3(b) existiert eine Funktion g(X), so dass n −1∣ ∣ ∂ 2∂θ k ∂θ lS j (˜θ; X) ∣ 0 mit einer Folge(Z n ) n∈N>0 von Zufallsvariablen und einer Funktion f : N >0 → R. Also istS j (θ; X)√ n= √ (n − 1 nk=1f(n)d∑ ∂( n∑ ))S j (θ; X i ) (ˆθ k − θ k ) − o p (1) ,∂θ ki=1.


10 Score <strong>Test</strong>wobei mit dem schwachen Gesetz der großen Zahlen 3 gilt:− 1 nd∑ ∂( n∑ )S j (θ; X i ) (ˆθ k − θ k ) n→∞ −→ −∂θ kk=1i=1d∑k=1∂∂θ kIE θ[Sj (θ; X 1 ) ] (ˆθ k − θ k )[Reg−Bed.4 ∂]= −IE θ S j (θ; X 1 ) (ˆθ 1 − θ 1 ) − . . .∂θ 1[ ∂]− IE θ S j (θ; X 1 ) (ˆθ d − θ d )∂θ d(2.2)= I j1 (θ; X 1 )(ˆθ 1 − θ 1 ) + · · · + I jd (θ; X 1 )(ˆθ d − θ d )= ( I j1 (θ; X 1 ), . . . , I jd (θ; X 1 ) ) (ˆθ − θ).Es folgt1√ nS j (θ; X) a = √ n ( I j1 (θ; X 1 ), . . . , I jd (θ; X 1 ) ) (ˆθ − θ)⎛⎞I 11 (θ; X 1 ) · · · I 1d (θ; X 1 )und folglich mit I(θ; X 1 ) = ⎜. ⎝ . .. .⎟⎠I d1 (θ; X 1 ) · · · I dd (θ; X 1 )1√ nS(θ; X) a = √ nI(θ; X 1 )(ˆθ − θ)⇔ √ n(ˆθ − θ) a = 1 √ nI(θ; X 1 ) −1 S(θ; X). (2.4)a= steht dabei für asymptotisch äquivalent, so dass für große Stichproben der linke undder rechte Term annähernd identisch sind. Da wegen Lemma (2.2.5) IE θ[Sj (θ; X i ) ] = 0für i = 1, . . . , n, j = 1, . . . , d und Definition (2.2.4) IE θ[Sj (θ; X 1 )S k (θ; X 1 ) ] = I jk (θ; X 1 )für j, k = 1, . . . , d folgt mit dem mehrdimensionalen zentralen Grenzwertsatz 41(√ I(θ; X 1 ) −1 S(θ; X) −→ D N d 0, I(θ; X 1 ) −1)nund somit die Behauptung.Es lässt sich zeigen, dass die asymptotische <strong>Normalverteilung</strong> der Likelihood-Funktionauch unter schwächeren Annahmen Gültigkeit findet. 5 (Diese implizieren bspw. dass dieForderung 3(a) zu restriktiv ist.) Dies soll hier jedoch nicht näher beleuchtet werden.3 Vgl. Anhang (A.1)4 Vgl. Anhang (A.1)5 Vgl. [LeC70], S.802-828


2.3. Grundlagen <strong>Test</strong>theorie 112.3 Grundlagen <strong>Test</strong>theorieIm folgenden wird das Ziel sein einen <strong>Test</strong> zu entwickeln, mit dessen Hilfe Entscheidungenüber die Richtigkeit einer Hypothese getroffen werden können. Grundlegend lässt sichdie Schätz- von der <strong>Test</strong>theorie dahingehend unterscheiden, dass beim Schätzen von Parameternbestimmte Werte für die unbekannten Parameter anhand von Plausibilitätenfestgelegt werden, wohingegen beim <strong><strong>Test</strong>en</strong> von Hypothesen Plausibilitäten für bereitsfestgelegte Werte überprüft werden. Man unterscheidet dabei zwischen einer NullhypotheseH 0 : θ ∈ Θ 0 ⊆ Θ und einer Alternativhypothese H 1 : θ ∈ Θ\Θ 0 , wobei Θ ⊆ R d denParameterraum einer bekannten Verteilungsfamilie (P θ ) θ∈Θ darstellt. Auf der Grundlagevon Beobachtungen, simuliert durch Realisierungen von i.i.d. Zufallsvariablen, werdenIndizien für das Annehmen oder Verwerfen der Nullhypothese gesammelt. Die Entscheidungenwerden dabei modelliert durch eine meßbare Abbildung δ : (X , A) → (D, E) vomRaum (X , A) der möglichen Realisierungen in den Raum (D, E) der möglichen Entscheidungen.In unseren <strong>Test</strong>problemen entspricht D dem abgeschlossenen Einheitsintervall,d.h. D = [0, 1] und wir bezeichnen eine Entscheidungsfunktion φ : X → [0, 1] als <strong>Test</strong>,so daß <strong>auf</strong> der Grundlage einer Stichprobe x ∈ X der <strong>Test</strong> φ(x) = γ mit γ ∈ [0, 1],eine Entscheidung mit Wahrscheinlichkeit γ für die Alternativhypothese liefert. Im Fallγ ∈]0, 1[ bedeutet dies, dass die Entscheidung keineswegs eindeutig zugunsten einer derHypothesen getroffen wird. Dies modelliert eine Art Unentschlossenheit zwischen den Entscheidungsmöglichkeitenund wird als Randomisieren bezeichnet. In nicht-randomisierten<strong>Test</strong>problemen, d.h. γ ∈ {0, 1} hingegen wird eine eindeutige Entscheidung getroffen, diemit φ(x) = 1 für die Alternativhypothese, bzw. gegen die Nullhypothese und mit φ(x) = 0für die Nullhypothese ausfällt. Dabei ist zu beachten, dass eine Entscheidung gegen dieAlternativhypothese, d.h. also eine Annahme der Nullhypothese <strong>auf</strong>grund einer Stichprobenicht gleichzusetzen ist mit einem Beweis für die Richtigkeit der Nullhypothese, sondernlediglich, dass die Nullhypothese wegen mangelnder Beweislage nicht verworfen werdenkann (vergleichbar dem juristischen Grundsatz in dubio pro reo“). In den vorliegenden”<strong>Test</strong>problemen können somit zwei mögliche Fehler <strong>auf</strong>treten:Fehler 1.Art Verwerfen der Nullhypothese obwohl diese richtig ist.Fehler 2.Art Annahme der Nullhypothese obwohl diese falsch ist.Die Auswirkungen beider Fehler differieren in aller Regel sehr stark. Da es i.A. keinen<strong>Test</strong> gibt, der die Wahrscheinlichkeiten beider Fehler simultan minimiert, die irrtümlicheEntscheidung für die Alternativhypothese jedoch schwerwiegendere Auswirkungen hat alsdie irrtümliche Annahme der zumeist konservativen Nullhypothese, ist es von Interessedas Risiko eines Fehlers 1.Art unter einem vorgegebenen Signifikanzniveau α ∈ [0, 1] zu


12 Score <strong>Test</strong>halten und unter diesen <strong>Test</strong>s denjenigen zu wählen, der die Fehlerwahrscheinlichkeit 2.Artminimiert. α gibt dabei die maximale Wahrscheinlichkeit an, mit der eine irrtümlicheAnnahme der Alternativhypothese toleriert wird, was unter Verwendung der Gütefunktionβ φ : θ ↦→ IE θ [φ(X)] bedeutet, einen <strong>Test</strong> φ mit IE θ [φ(X)] ≤ α für alle θ ∈ Θ 0 zu finden.Ein <strong>Test</strong>, der diese Eigenschaft erfüllt, wird als <strong>Test</strong> zum Niveau α bezeichnet und dieMenge all solcher <strong>Test</strong>s zum Niveau α definieren wir als Φ α . Da es weiter von Interesseist unter den <strong>Test</strong>s φ ∈ Φ α denjenigen zu wählen, der die Fehlerwahrscheinlichkeit 2.Artminimiert – dies entspricht einer Maximierung der Gütefunktion in θ ∈ Θ 1 – gilt für dengleichmäßig besten <strong>Test</strong> φ 0 zum Niveau α:IE θ [φ 0 (X)] = maxφ∈Φ αIE θ [φ(X)]für alle θ ∈ Θ 1 . Wir kommen zu der <strong>auf</strong> Neyman und Pearson zurückgehenden Entdeckungzur Beschreibung gleichmäßig bester <strong>Test</strong>s in <strong>Test</strong>problemen mit einfachen Hypothesen.Satz 2.3.1. Es seien P θ0 und P θ1 Wahrscheinlichkeitsmaße <strong>auf</strong> (X , A) mit Dichtenf(x; θ 0 ) und f(x; θ 1 ) bzgl. eines dominierenden Maßes µ. Weiter sei α ∈ (0, 1) undc ∈ [0, ∞). Dann gilt:Ist ψ ∈ Φ α mit ψ(x) = 1 {f(x;θ1 )>cf(x;θ 0 )} und c so gewählt, dass IE θ0 [ψ(X)] = α, dann istIE θ1 [ψ(X)] = max φ∈Φα IE θ1 [φ(X)], d.h. ψ ist gleichmäßig bester <strong>Test</strong> zum Niveau α fürH 0 : θ = θ 0 gegen H 1 : θ = θ 1 .Beweis. Sei φ ∈ Φ α beliebig. Dann gilt:f(x; θ 1 ) − cf(x; θ 0 ) > 0 ⇒ ψ(x) = 1 ⇒ ψ(x) − φ(x) ≥ 0f(x; θ 1 ) − cf(x; θ 0 ) < 0 ⇒ ψ(x) = 0 ⇒ ψ(x) − φ(x) ≤ 0.Somit ist (ψ(x) − φ(x))(f(x; θ 1 ) − cf(x; θ 0 )) ≥ 0. Integration bzgl. µ liefert∫∫0 ≤ ψ(x)f(x; θ 1 )dµ − φ(x)f(x; θ 1 )dµ− c( ∫ ∫)ψ(x)f(x; θ 0 )dµ − φ(x)f(x; θ 0 )dµ⇔ 0 ≤ IE θ1 [ψ(X)] − IE θ1 [φ(X)] − c ( )IE θ0 [ψ(X)] − IE} {{ }θ0 [φ(X)]} {{ }=α≤α⇒ 0 ≤ IE θ1 [ψ(X)] − IE θ1 [φ(X)].<strong>Der</strong> Ablehnungsbereich K α des Neyman Pearson <strong>Test</strong>s wird also im Falle einfacher Hypothesenüber den Quotienten f(x; θ 1 )/f(x; θ 0 ) bestimmt. Es gilt K α = {x : f(x; θ 1 )/f(x; θ 0 ) >c}, wobei c so zu wählen ist, dass das Signifikanzniveau α voll ausgeschöpft wird. Es sei


2.4. Herleitung Score <strong>Test</strong> 13dar<strong>auf</strong> hingewiesen, dass das Neyman-Pearson Lemma bewußt für Wahrscheinlichkeitsdichtenvorgestellt wurde. Für diskrete Wahrscheinlichkeitsverteilungen muß die <strong>Test</strong>gestaltleicht verändert werden, da eine Randomisierung nötig ist um eine Ausschöpfung desSignifikanzniveaus α zu gewährleisten.Dehnen wir die Situation einfacher Hypothesen <strong>auf</strong> den in der Realität wesentlichinteressanteren Fall zweiseitiger Alternativhypothesen aus, d.h. H 0 : θ ∈ [θ 1 , θ 2 ] gegenH 1 : θ /∈ [θ 1 , θ 2 ] mit θ 1 , θ 2 ∈ Θ ⊆ R und θ 1 ≤ θ 2 , so müssen wir enttäuscht feststellen, dassgleichmäßig beste <strong>Test</strong>s i.d.R. nicht existieren. Um weiterhin in gewissem Sinne optimale<strong>Test</strong>s zu erhalten muß das Prinzip der Unverfälschtheit eingeführt werden. Dieses besagt,dass neben den vorigen Annahmen die zusätzliche Bedingung IE θ [φ(X)] ≥ α für alleθ ∈ Θ 1 erfüllt sein muß. Bezeichnen wir mit Φ α,u die Menge aller unverfälschten <strong>Test</strong>szum Niveau α, so erfüllt der gleichmäßig beste unverfälschte <strong>Test</strong> φ 0 zum Niveau α folglichdie Bedingungen φ 0 ∈ Φ α,u undIE θ [φ 0 (X)] = maxφ∈Φ α,uIE θ [φ(X)]für alle θ ∈ Θ 1 . Bei Vorliegen einer einparametrigen Exponentialfamilie lässt sich auchin dieser Situation eine <strong>Test</strong>gestalt ähnlich zu der in der Situation einfacher Hypothesenangeben. 6 Dies induziert, dass die Verteilung der Statistik, anhand welcher eine Entscheidungfür oder gegen die Alternativhypothese getroffen wird, bekannt sein muß, um die fürdas Einhalten der Irrtumswahrscheinlichkeit notwendigen kritischen Werte zu bestimmen.Für einige Verteilungen stehen dabei Tafelwerke zur Verfügung, die das Festlegen der kritischenWerte bei gegebenem α erleichtern. 7 Oft ist es auch möglich eine nicht vertafelteVerteilung mit Hilfe einer Transformation in eine vertafelte Verteilung zu überführen. Gelingtdies nicht, so ist die Bestimmung der kritischen Werte wesentlich erschwert. EinenAusweg aus dieser Problematik werden wir im folgenden kennenlernen.2.4 Herleitung Score <strong>Test</strong>Damit der Score <strong>Test</strong> hergeleitet werden kann, müssen wir uns etwas ausführlicher mit derTheorie der Likelihood-Quotienten <strong>Test</strong>s beschäftigen. Dazu ist der vorliegende Abschnittso <strong>auf</strong>gebaut, dass zu Beginn Likelihood-Quotienten <strong>Test</strong>s ohne nuisance Parameter eingeführtwerden, bevor im Anschluß Likelihood-Quotienten <strong>Test</strong>s mit nuisance Parameternuntersucht werden.Likelihood-Quotienten <strong>Test</strong>s ohne nuisance Parameter:Wir fahren mit einem Spezialfall der Situation des vorigen Abschnitts, nämlich einfachen6 Für eine detaillierte Einführung in die <strong>Test</strong>theorie sei <strong>auf</strong> [Als09] verwiesen.7 Hierzu zählen u.a. die Standard-<strong>Normalverteilung</strong> und die Chi-Quadrat-Verteilung. Einige Fraktilstabellensind bspw. in [Rin08], Kap. E1, angegeben.


14 Score <strong>Test</strong>Nullhypothesen bei zweiseitigen Alternativen fort. Dazu sei erneut x = (x 1 , . . . , x n ) eineStichprobe bestehend aus i.i.d. Zufallsvariablen X 1 , . . . , X n . Dann betrachten wir denLikelihood-Quotientensup θ ′ ∈Θ 1L(θ ′ ; x)L(θ 0 ; x)( 1)=: exp2 λmit Θ 1 ⊆ Θ, so dass im Fall Θ 1 = Θ\θ 0λ = 2 (supθ ′ ∈Θ\θ 0l(θ ′ ; x) − l(θ 0 ; x) )und mit Λ := max(0, λ)Λ = 2 ( l(ˆθ; x) − l(θ 0 ; x) )folgt. Λ wird dabei als Likelihood-Quotienten <strong>Test</strong> bezeichnet.Obwohl für n < ∞ die Verteilung von Λ sowohl von n als auch von der Wahrscheinlichkeitsdichteder X i abhängt, können wir zeigen, dass in regulären Problemen die asymptotischeVerteilung von Λ für n → ∞ ein einheitliches Ergebnis liefert. Dies ermöglicht es,approximativ für große Stichproben unabhängig von der Verteilung von Λ die kritischenWerte anhand der α-Fraktile der asymptotischen Verteilung festzumachen. Umso erfreulicherist die Tatsache, dass es sich bei der asymptotischen Verteilung um die gut vertafelteChi-Quadrat-Verteilung mit Anzahl der Freiheitsgrade entsprechend der Dimension von θhandelt.Satz 2.4.1. Es seien x 1 , . . . , x n Realisierungen von i.i.d. Zufallsvariablen X 1 , . . . , X n , diegemäß einer regulären Verteilung P θ gezogen werden. Dann gilt für die Verteilung von Λbei einer Nullhypothese der Form H 0 : θ = θ 0 = (θ 10 , . . . , θ d0 ) T gegen H 1 : θ ≠ θ 0 :ΛD −→ χ 2 (dim(θ)) .Beweis. Unter Annahme der Nullhypothese H 0 : θ = θ 0 ∈ Θ entwickeln wir Λ um θ 0 ineine Taylorreihe. Dazu sei erneut S k (θ; X) =l(ˆθ; X) = l(θ 0 ; X) +d∑S k (θ 0 ; X)(ˆθ k − θ k0 ) + 1 2k=1= l(θ 0 ; X) + S(θ 0 ; X) T (ˆθ − θ 0 ) + 1 2mit |˜θ − θ 0 | < |ˆθ − θ 0 | undS j (ˆθ; X) = S j (θ 0 ; X) += S j (θ 0 ; X) +∂∂θ kl(θ; X) für k = 1, . . . , d. Es gilt:d∑k,m=1∂∂θ mS k (˜θ; X)(ˆθ k − θ k0 )(ˆθ m − θ m0 )d∑(ˆθ m − θ m0 ) ∂ S(˜θ; X) T (ˆθ − θ 0 )∂θ mm=1d∑ ∂S j (˜θ; X)(ˆθk − θ k0 )∂θ kk=1( ∂) T∂θ S j(˜θ; X) (ˆθ − θ0 )(2.5)


2.4. Herleitung Score <strong>Test</strong> 15mit |˜θ − θ0 | < |ˆθ − θ 0 |. Es folgtSomit ist( ∂) S(ˆθ; X) = S(θ 0 ; X) +∂θ S(˜θ; TX)T (ˆθ − θ0 )( ∂) ⇔ S(θ 0 ; X) = S(ˆθ; X) −∂θ S(˜θ; TX)T (ˆθ − θ0 ). (2.6)Λ = 2 ( l(ˆθ; X) − l(θ 0 ; X) )((2.5)= 2 S(θ 0 ; X) T (ˆθ − θ 0 ) + 1 2m=1((2.6)= 2 S(ˆθ; X) T (ˆθ − θ} {{ } 0 ) − (ˆθ − θ 0 ) T= 0+ 1 2 (ˆθ − θ 0 ) T ∂∂θ S(˜θ; X) T (ˆθ − θ 0 )= −(ˆθ − θ 0 ) T ∂d∑(ˆθ m − θ m0 ) ∂)S(˜θ; X) T (ˆθ − θ 0 )∂θ m∂∂θ S(˜θ; X) T (ˆθ − θ 0 ))∂θ S(˘θ; X) T (ˆθ − θ 0 ) mit |˘θ − θ 0 | < |ˆθ − θ 0 |= n(ˆθ − θ 0 ) T ( − 1 ∂n ∂θ S(θ 0; X) T ) (ˆθ − θ 0 ) + o p (1) . (2.7)} {{ }n→∞−→ 0In der letzten Gleichung wurde benutzt, dass ˆθ und infolge dessen auch ˘θ konsistentsind. Somit lässt sich (ˆθ − θ 0 ) T ∂∂θ S(˘θ; X) T (ˆθ − θ 0 ) in (ˆθ − θ 0 ) T ∂∂θ S(θ 0; X) T (ˆθ − θ 0 ) undeinen o p (1)-Term zerlegen. Mit dem schwachen Gesetz der großen Zahlen folgt− 1 ∂[n ∂θ S(θ 0; X) T n→∞ ∂] −→ −IE θ0∂θ S(θ 0; X 1 ) T (2.2)= I(θ 0 ; X 1 ).Es gilt also Λ a = n(ˆθ − θ 0 ) T I(θ 0 ; X 1 )(ˆθ − θ 0 ) und mit der Cholesky-Zerlegung ist eineDarstellung der Form I(θ 0 ; X 1 ) = A(θ 0 ; X 1 ) T A(θ 0 ; X 1 ) möglich, so dassΛ a = n(ˆθ − θ 0 ) T A(θ 0 ; X 1 ) T A(θ 0 ; X 1 )(ˆθ − θ 0 )= (√ nA(θ 0 ; X 1 )(ˆθ − θ 0 ) ) T (√ nA(θ0 ; X 1 )(ˆθ − θ 0 ) ) .Mit Satz (2.2.13) folgt √ nA(θ 0 ; X 1 )(ˆθ−θ 0 )D −→ N d(0, Id)und mit Lemma (2.2.8) schließlichdie Behauptung.Likelihood-Quotienten <strong>Test</strong>s mit nuisance Parametern:Die gewonnenen Resultate werden wir nun dazu nutzen, einen <strong>Test</strong> zu entwickeln, derdie Situation einfacher Nullhypothesen <strong>auf</strong> komplexere Nullhypothesen erweitert. Genauerbedeutet dies, dass wir einen Signifikanztest herleiten, der im Fall mehrdimensionalenParameters θ die Nullhypothese H 0 : θ ∈ Θ 0 ⊆ Θ gegen die AlternativhypotheseH 1 : θ ∈ Θ\Θ 0 testet. Dar<strong>auf</strong> <strong>auf</strong>bauend lassen sich asymptotisch äquivalente <strong>Test</strong>s herleiten,die häufig für die Praxis vorteilhafte Eigenschaften <strong>auf</strong>weisen.


16 Score <strong>Test</strong>Anders als im Fall einfacher Nullhypothesen wird es im folgenden nicht das Ziel sein Annahmenüber den gesamten Parametervektor θ = (θ 1 , . . . , θ d ) T zu verifizieren, sondern eswerden nur Annahmen über r < d Vektorkomponenten geprüft. Dabei ist es von Vorteilden Parametervektor in einen zu testenden und einen nicht zu testenden Teil <strong>auf</strong>zuspalten.Wir schreiben θ = ( θ T 1 , θ T 2) T ∈ R d mit θ T 1 = (θ 11 , . . . , θ 1r ) und θ T 2 = (θ 21 , . . . , θ 2d−r ), sodass die Nullhypothese H 0 : ( θ T 1 , θ T ) T (2 = θT10 , θ T ) T2 gegen H1 : ( θ T 1 , θ T ) T (2 ≠ θT10 , θ T 2lautet und wieder als <strong>Test</strong>problem der Situation einfacher Nullhypothesen betrachtet werdenkann, mit dem Unterschied, dass θ 2 als nicht zu testen, jedoch unbekannt bei der Analysedes Problems mitgeschleppt wird. Man bezeichnet θ 2 deswegen auch als nuisance- oderStörparameter. Da θ 2 nicht bekannt ist, bedient man sich eines Schätzers für θ 2 bei derUntersuchung von H 0 , wobei man zwischen unrestringiertem und restringiertem Schätzerunterscheidet. <strong>Der</strong> restringierte Schätzer ˆθ 20 schätzt θ 2 unter Annahme der Nullhypotheseθ 1 = θ 10 , wohingegen der unrestringierte Schätzer ˆθ 2 den Störparameter ohne Annahmenan θ 1 schätzt. Die Schätzmethode ist dabei die der MLS. Zusammenfassend gelten folgendeBezeichnungen für die Parametervektoren θ i mit i ∈ {1, 2}:) Tθ iθ i0ˆθ iˆθ i0 wahrer P arametervektor, P arametervektor unter der Nullhypothese, unrestringierter MLS, restringierter MLS.durchDen Fall einfacher Hypothesen erweiternd definieren wir den Likelihood-Quotientensup θ ′ ∈Θ 1L(θ ′ ; x) ( 1)sup θ ′ ∈Θ 0L(θ ′ ; x) =: exp 2 λ ,so dass man im Fall Θ 1 = Θ\Θ 0 mit Λ := max(0, λ) einen neuen Quotienten der Formsup θ ′ ∈Θ L(θ ′ ; x)( 1)sup θ ′ ∈Θ 0L(θ ′ ; x) =: exp 2 Λund folglichΛ = 2 ( l(ˆθ; x) − l(ˆθ 0 ; x) )erhält.Satz 2.4.2. Es seien x 1 , . . . , x n Realisierungen von i.i.d. Zufallsvariablen X 1 , . . . , X n ,die gemäß einer regulären Verteilung P (θ T1 ,θ T gezogen werden. Dann gilt für die Verteilungvon Λ bei einer Nullhypothese der Form H 0 : θ2 )T(T1 , θ T ) T (2 = θT10 , θ T ) T2 gegenH 1 : ( θ T 1 , θ T ) T (2 ≠ θT10 , θ T ) T2 :Λ −→ D χ 2 (dim(θ 1 )) .


2.4. Herleitung Score <strong>Test</strong> 17Beweis. Unter Annahme der Nullhypothese gelten folgende Abkürzungen: θ 0 =) ( )(ˆθ1ˆθ = ,ˆθ ˆθθ100 = . Es ist2ˆθ 20(θ10),θ 2Mit (2.7) folgtΛ = 2 ( l(ˆθ; X) − l(ˆθ 0 ; X) )= 2 ( l(ˆθ; X) − l(θ 0 ; X) ) − 2 ( l(ˆθ 0 ; X) − l(θ 0 ; X) ) .2 ( l(ˆθ; X) − l(θ 0 ; X) ) ) T ( (ˆθ1 − θ 10= n− 1 ) (ˆθ1 )∂ˆθ 2 − θ 2n ∂θ S(θ 0; X) T − θ 10+ o p (1) (2.8)ˆθ 2 − θ 2und2 ( l(ˆθ 0 ; X) − l(θ 0 ; X) ) ( ) T ( 0= n− 1 ) ( )∂ˆθ 20 − θ 2n ∂θ S(θ 0; X) T 0+ o p (1).ˆθ 20 − θ 2Das schwache Gesetz der großen Zahlen liefertso dass mit (2.2)Λ a =− 1 ∂n ∂θ S(θ 0; X) T n→∞−→ − 1 [ ∂]n IE θ 0∂θ S(θ 0; X) T ,) T ) ( ) T ( )(ˆθ1 − θ 10(ˆθ1 − θ 10 00I(θ 0 ; X)−I(θ 0 ; X)ˆθ 2 − θ 2ˆθ 2 − θ 2ˆθ 20 − θ 2ˆθ 20 − θ 2(2.9)( )I11 (θ 0 ; X) I 12 (θ 0 ; X)gilt. Eine Partitionierung der Fisher-Information in I(θ 0 ; X) =I 21 (θ 0 ; X) I 22 (θ 0 ; X)mit I 11 (θ 0 ; X) ∈ R r×r , I 12 (θ 0 ; X) = I 21 (θ 0 ; X) T ∈ R r×(d−r) , I 22 (θ 0 ; X) ∈ R (d−r)×(d−r)bringt mit der abkürzenden Schreibweise I ij = I ij (θ 0 ; X) für i, j = 1, 2 die DarstellungΛ a =) T ( ) ( ) T ( )(ˆθ1 − θ 10 I11 (ˆθ 1 − θ 10 ) + I 12 (ˆθ 2 − θ 2 ) 0 I12 (ˆθ 20 − θ 2 )−ˆθ 2 − θ 2 I 21 (ˆθ 1 − θ 10 ) + I 22 (ˆθ 2 − θ 2 ) ˆθ 20 − θ 2 I 22 (ˆθ 20 − θ 2 )= (ˆθ 1 − θ 10 ) T I 11 (ˆθ 1 − θ 10 ) + (ˆθ 1 − θ 10 ) T I 12 (ˆθ 2 − θ 2 ) + (ˆθ} {{ } 2 − θ 2 ) T I 21 (ˆθ 1 − θ 10 )} {{ }=:[1]=:[2]+ (ˆθ 2 − θ 2 ) T I 22 (ˆθ 2 − θ 2 ) − (ˆθ} {{ } 20 − θ 2 ) T I 22 (ˆθ 20 − θ 2 ) .} {{ }=:[3]=:[4]Um den Term <strong>auf</strong> der rechten Seite der Gleichung in eine geschlossenere Form zu bringen,stellen wir den restringierten MLS ˆθ 20 in Abhängigkeit der beiden unrestringierten MLS


18 Score <strong>Test</strong>ˆθ 1 und ˆθ 2 , sowie dem unter der Nullhypothese wahren Parameter θ 10 dar und berechnendamit [4]. Dazu sei( )II(θ 0 ; X) −1 11 (θ 0 ; X) I 12 (θ 0 ; X)=I 21 (θ 0 ; X) I 22 (θ 0 ; X)eine Partitionierung der Inversen der Fisher-Information an der Stelle θ 0 . Abkürzend bezeichneauch hier I ij = I ij (θ) 0 ; X) für i, j = 1, 2. Die Beweisidee folgt [Paw01].( (ˆθ1( )D θ 1Nach Satz (2.2.13) gilt −→ N d , I(θ; X)),ˆθ −1 so dass bei Unkenntnis von2 θ 2θ 1 und θ 2 der MLS für IE[ˆθ 2 ] = ˆθ 2 ist. Ist θ 1 allerdings nicht unbekannt – im vorliegendenFall ist unter Annahme der Nullhypothese θ 1 = θ 10 bekannt – so hat dies Auswirkungen<strong>auf</strong> IE[ˆθ 2 ], sofern die Verteilung von ˆθ 2 von θ 10 abhängt. Nun gilt mit Lemma (2.2.10) fürdie bedingte multivariate <strong>Normalverteilung</strong> von ˆθ 2 gegeben ˆθ 1ˆθ 2 |ˆθ 1a ∼ Nd−r(θ 2 + I 21 (I 11 ) −1 (ˆθ 1 − θ 10 ), I 22 − I 21 (I 11 ) −1 I 12 ),also speziell IE[ˆθ 2 |ˆθ 1 ] = θ 2 + I 21 (I 11 ) −1 (ˆθ 1 − θ 10 ). Es folgt wegen θ 1 = θ 10 , dass ˆθ 2 imMittel der bedingten Erwartung entspricht. Dies bedeutetˆθ 2 = IE[ˆθ 2 |ˆθ 1 ] = θ 2 + I 21 (I 11 ) −1 (ˆθ 1 − θ 10 )⇔ θ 2 = ˆθ 2 − I 21 (I 11 ) −1 (ˆθ 1 − θ 10 )was unter Maximum-Likelihood-Schätzung zu ˆθ 20 = ˆθ 2 − I 21 (I 11 ) −1 (ˆθ 1 − θ 10 ) und unterBerücksichtigung von(I −1 =)J −1−JI 12 (I 22 ) −1−(I 22 ) −1 I 21 J −1 I 22 + (I 22 ) −1 I 21 J −1 I 12 (I 22 ) −1(2.10)mit J = I 11 − I 12 (I 22 ) −1 I 21 zu ˆθ 20 = ˆθ 2 + (I 22 ) −1 I 21 (ˆθ 1 − θ 10 ) führt. Subtrahiert man<strong>auf</strong> beiden Seiten θ 2 , so folgt[4] =((ˆθ 2 − θ 2 ) T + (ˆθ 1 − θ 10 ) T (I 21 ) T ( (I 22 ) −1) ) ()TI 22 (ˆθ 2 − θ 2 ) + (I 22 ) −1 I 21 (ˆθ 1 − θ 10 )= (ˆθ 2 − θ 2 ) T I 22 (ˆθ 2 − θ 2 ) + (ˆθ} {{ } 2 − θ 2 ) T I 21 (ˆθ 1 − θ 10 )} {{ }=[3]=[2]+ (ˆθ 1 − θ 10 ) T (I 21 ) T ((I22 ) −1) T I22 (ˆθ} {{ }2 − θ 2 )} {{ }}= I 12 =I{{ }=[1]+ (ˆθ 1 − θ 10 ) T (I 21 ) T ( (I 22 ) −1) T I21 (ˆθ 1 − θ 10 ).Es ergibt sich Λ a = (ˆθ1 − θ 10) T (I11 − (I 21 ) T ( (I 22 ) −1) T I21)(ˆθ1 − θ 10)und mit (2.10)schließlichΛ a = (ˆθ 1 − θ 10 ) T (I 11 ) −1 (ˆθ 1 − θ 10 ). (2.11)


2.4. Herleitung Score <strong>Test</strong> 19Mit derselben Schlußfolgerung wie im Beweis zu Satz (2.4.1) ist der Beweis vollständig.Bisher haben wir uns ausschließlich mit Likelihood-Quotienten <strong>Test</strong>s beschäftigt undderen asymptotische Verteilung abgeleitet. Da das eigentliche Ziel jedoch darin bestehtden Score <strong>Test</strong> herzuleiten, werden wir nun die gewonnenen Erkenntnisse genau für diesenZweck nutzen. Da für unabhängige und identisch verteilte Zufallsvariablen X 1 , . . . , X nnach (2.3) I(θ 0 ; X) = nI(θ 0 ; X 1 ) gilt, folgt mit (2.4)I(θ 0 ; X)(ˆθ − θ 0 ) = a S(θ 0 ; X).Wir kürzen wieder ab und schreiben I ij = I ij (θ 0 ; X) für i, j = 1, 2. Dann gilt also(I11 (ˆθ 1 − θ 10 ) + I 12 (ˆθ 2 − θ 20 ) = a )S 1 (θ 0 ; X)I 21 (ˆθ 1 − θ 10 ) + I 22 (ˆθ 2 − θ 20 ) = a , so dassS 2 (θ 0 ; X)(ˆθ 1 − θ 10 ) = a ( I 11 − I 12 (I 22 ) −1 ) −1 (I 21 S1 (θ 0 ; X) − I 12 (I 22 ) −1 S 2 (θ 0 ; X) ) .folgt. Einsetzen in (2.11) ergibt als asymptotisch äquivalente Statistik zu Λ mit derabkürzenden Schreibweise S i = S i (θ 0 ; X) für i = 1, 2:a (Λ S = S1 − I 12 (I 22 ) −1 ) T (S 2 I11 − I 12 (I 22 ) −1 ) −1 (I 21 S1 − I 12 (I 22 ) −1 )S 2 .Setzt man θ 2 = ˆθ 20 , so addiert sich <strong>auf</strong>grund der Konsistenz des MLS ein o p (1)-Term, derfür n → ∞ verschwindet und es ist S 2 = 0. Aufgrund ihrer Wichtigkeit für die folgendeTheorie halten wir die gewonnene <strong>Test</strong>statistik in einer Definition fest.Definition 2.4.3. Es gelten die Annahmen aus Satz (2.4.2). Dann heißt die durchΛ S (ˆθ 20 ) = S 1 (ˆθ 0 ; X) T I 11 (ˆθ 0 ; X) −1 S 1 (ˆθ 0 ; X) (2.12)definierte Statistik Score <strong>Test</strong>.Bemerkung 2.4.4. Da Λ S asymptotisch äquivalent zu Λ ist, besitzt auch Λ S eine asymptotischeChi-Quadrat-Verteilung mit Anzahl an Freiheitsgraden ≡ dim(θ 1 ). Welcher dervorliegenden <strong>Test</strong>s also letzten Endes angewendet wird, hängt i.d.R. von der Berechenbarkeitder Schätzer ab. Für den Likelihood-Quotienten <strong>Test</strong> muß der unrestringierte MLSberechnet werden, wohingegen für den Score <strong>Test</strong> der MLS unter der Nullhypothese ausreichendist. Dies stellt in vielen Situationen einen klaren Vorteil dar.


Kapitel 3<strong><strong>Test</strong>en</strong> <strong>auf</strong> univariate<strong>Normalverteilung</strong>Nachdem nun die Grundlage für die Herleitung unseres eigentlichen Ziels bereitgestelltist, werden wir in diesem Kapitel die Verteilungen von i.i.d. Beobachtungen sowie vonunbeobachtbaren i.i.d. Regressionsresiduen analysieren. Das Ziel wird es sein einen <strong>Test</strong>zu entwickeln, mit dessen Hilfe die Hypothese der <strong>Normalverteilung</strong> der zu testendenGrößen bestätigt oder verworfen werden kann. Dazu werden wir den Score <strong>Test</strong> nutzen.Wir erhalten einen <strong>Test</strong>, dessen Vorzüge nicht nur in seiner leichten Anwendbarkeit, sondernauch asymptotischen Effizienz liegen. Im ersten Abschnitt wird dazu das Pearson-Verteilungssystem eingeführt und die für unsere Zwecke notwendige Verbindung mit der<strong>Normalverteilung</strong> herausgearbeitet. Die Abschnitte zwei und drei wenden die gewonnenenResultate <strong>auf</strong> Beobachtungen, bzw. Regressionsresiduen an um die speziell <strong>auf</strong> <strong>Normalverteilung</strong>testende <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong>statistik herzuleiten. Die Vorgehensweise orientiert sichan [BJ81] und ist dabei derart, dass wir das Pearsonsche Verteilungssystem betrachten und<strong>auf</strong> dieses den Score <strong>Test</strong> anwenden. Da die <strong>Normalverteilung</strong> ein spezielles Mitglied diesesSystems darstellt, kann so die gewünschte Hypothese innerhalb dieses Verteilungssystemsgetestet werden.3.1 Pearson-VerteilungssystemZiel des vorliegenden Abschnitts ist die Darstellung der Dichte einer <strong>Normalverteilung</strong> alshomogene lineare Differentialgleichung (DGL) und die daraus resultierende Verdeutlichungdes Zusammenhangs mit dem Pearson-Verteilungssystem. Dazu sei∂p(x) = a(x)p(x)∂x20


3.1. Pearson-Verteilungssystem 21eine DGL mit stetigen Funktionen a(x) und p(x), die hier vorerst nicht weiter spezifiziertwerden sollen. Dann bildetp(x) = c exp ( A(x) )mit A(x) als Stammfunktion von a(x) und c ∈ R konstant eine Lösung der gegebenenDGL.Es sei nun X eine Zufallsvariable mit X ∼ N (0, σ 2 ) und Dichte f(x) = (2πσ 2 ) −1/2 exp ( −x 2 /(2σ 2 ) ) . Dann ist eine Darstellung der Dichte f(x) in Form obiger DGL mit Lösungf(x) = c exp ( A(x) ) , c = (2πσ 2 ) −1/2 , A(x) = −x 2 /(2σ 2 ) durch(−x/σ 2 )f(x) gegeben.∂∂x f(x) = A′ (x)f(x) =Wir konkretisieren den Ausdruck a(x) in obiger DGL, indem wir ein System von Gleichungenfür a(x) angeben, welches durch Variation der darin enthaltenen Variablen spezifiziertwerden kann. Dieses <strong>auf</strong> Pearson zurückgehende System aus dem Jahre 1895 besitzt dieGestalt∂∂x p(x) = − c 1 + xp(x) (3.1)c 0 + c 1 x + c 2 x2 für x ∈ R und wird als Pearson-Verteilungssystem bezeichnet. Es enthält alle Funktionenp(x), die eine Lösung dieser DGL darstellen, wobei c 0 , c 1 und c 2 formgebende Parametersind, die maßgeblich für die Gestalt der Funktionen verantwortlich sind. Für eineausführlichere Auseinandersetzung mit dieser DGL sei <strong>auf</strong> [KS69], Kap. 6, sowie [JK94]verwiesen.Damit Wahrscheinlichkeitsverteilungen als Lösungen von (3.1) resultieren, ist <strong>auf</strong> Normiertheitund Positivität, d.h. ∫ ∞−∞p(x)dx = 1 und p(x) ≥ 0 für alle x ∈ R zu achten. Inder Situation c 0 = σ 2 , c 1 = c 2 = 0 erhält man den Spezialfall der <strong>Normalverteilung</strong> mitErwartungswert 0 und Varianz σ 2 , wenn die Stammfunktion von a(x) wie im obigen Fallals A(x) = ∫ x0 a(t)dt = −x2 /(2σ 2 ) gewählt ist und der konstante Faktor c = (2πσ 2 ) −1/2entspricht. Diesen Spezialfall werden wir im folgenden dazu nutzen, beobachtete Ereignisseinnerhalb dieses Systems <strong>auf</strong> <strong>Normalverteilung</strong> zu testen.Dass das <strong><strong>Test</strong>en</strong> <strong>auf</strong> <strong>Normalverteilung</strong> nur innerhalb dieses Systems, also nur gegen Verteilungenaus diesem System vorgenommen wird, stellt insofern eine Einschränkung dar,als dass gegen gewisse Verteilungen, wie bspw. die Lognormal-Verteilung nicht getestetwerden kann. Empirische Studien allerdings belegen, dass trotz dieser misslichen Situationdie <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong>statistik im Vergleich mit anderen <strong>Test</strong>s <strong>auf</strong> <strong>Normalverteilung</strong>,die auch gegen Nicht-Pearson-Verteilungen testen, eine höhere Güte <strong>auf</strong>weist. 1 Desweiterenist festzuhalten, dass ein breites Spektrum an Verteilungen (u.a. Beta-, Gamma-, t-und F -Verteilung) durch das Pearson-System abgedeckt wird, was die Attraktivität des<strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong>s nicht nur anhand seiner einfachen Form begründet.1 Vgl. [JB87].


22 <strong><strong>Test</strong>en</strong> <strong>auf</strong> univariate <strong>Normalverteilung</strong>3.2 <strong><strong>Test</strong>en</strong> von BeobachtungenBevor wir damit beginnen Beobachtungen <strong>auf</strong> <strong>Normalverteilung</strong> zu testen, werden wireine Lösung der DGL (3.1) speziell für Wahrscheinlichkeitsdichten g(y) = g(y; c 1 , c 2 , c 0 )mit y ∈ R herleiten. Da die Gestalt von a(y) = a(y; c 1 , c 2 , c 0 ) im Wesentlichen durchdie Parameter c 0 , c 1 und c 2 bestimmt wird, werden wir für die folgende Argumentationeine neue Notation einführen, die sich im späteren Zusammenhang als sehr nützlicherweist. Es bezeichne ∫ a(y; c 1 , c 2 , c 0 )dy die Stammfunktion von a(y; c 1 , c 2 , c 0 ) mit konstantemSummanden null. Mit dieser Schreibweise können unabhängig von den gewähltenParametern c 0 , c 1 und c 2 diese speziellen Stammfunktionen aus der Menge alles Stammfunktionen∫ yy 0a(t; c 1 , c 2 , c 0 )dt von a(y; c 1 , c 2 , c 0 ) gewählt werden, ohne die entsprechendenWerte für y 0 angeben zu müssen. Dann gilt für Wahrscheinlichkeitsdichten aus demPearson-Verteilungssystem die folgende Darstellung:∂∂y g(y; c 1, c 2 , c 0 ) = a(y; c 1 , c 2 , c 0 )g(y; c 1 , c 2 , c 0 )⇐⇒ log ( g(y; c 1 , c 2 , c 0 ) ) ∫= a(y; c 1 , c 2 , c 0 )dy( ∫ )⇐⇒ g(y; c 1 , c 2 , c 0 ) = exp a(y; c 1 , c 2 , c 0 )dyg Dichte⇐⇒ g(y; c 1 , c 2 , c 0 ) =( ∫ )exp a(y; c1 , c 2 , c 0 )dy∫ (∞ ∫−∞ exp a(y; c1 , c 2 , c 0 )dy)dy. (3.2)Es seien nun x 1 , . . . , x n Beobachtungen, die man sich als Realisierungen von i.i.d. Zufallsvariablenvorstelle. Um zu prüfen ob es sich um normalverteilte Beobachtungen mitunbekanntem Erwartungswert µ und unbekannter Varianz σ 2 handelt, zentrieren wir dieBeobachtungen durch y i = x i − µ für i = 1, . . . , n und prüfen ob für die zugehörigenZufallsvariablen IE[Y i ] = 0 und V ar[Y i ] = σ 2 gilt. Es bezeichne g(y) die Dichte der ZufallsvariablenY i für i = 1, . . . , n und außerdem sei g(y) aus dem Pearson-Verteilungssystems.Betrachten wir nun die zentrierten Beobachtungen y 1 , . . . , y n , so ist die Log-Likelihood-Funktion der Stichprobe y = (y 1 , . . . , y n ) unter Berücksichtigung von (3.2) gegeben durch( ∫ ∞) n∑∫l(c 1 , c 2 , c 0 ; y) = −n log v 1 (y; c 1 , c 2 , c 0 )dy + a(y i ; c 1 , c 2 , c 0 )dy i (3.3)−∞i=1( ∫ )mit v 1 (y; c 1 , c 2 , c 0 ) = exp a(y; c1 , c 2 , c 0 )dy .Um nun die Nullhypothese der <strong>Normalverteilung</strong> der Y i zu testen sei θ = (θ T 1 , θ 2 ) T mitθ T 1 = (c 1 , c 2 ) und θ 2 = c 0 , so dass die Nullhypothese nach Abschnitt (3.1) H 0 : θ T =(0, 0, σ 2 ) lautet. Auf diese wenden wir den Score <strong>Test</strong> (2.12) an, für den wir den ScoreS 1 (c 1 , c 2 , c 0 ; Y ) und die Teilmatrix I 11 (c 1 , c 2 , c 0 ; Y ) der Fisher-InformationsmatrixI(c 1 , c 2 , c 0 ; Y ) an der Stelle des restringierten MLS ˆθ 0 benötigen. Wir bestimmen als


3.2. <strong><strong>Test</strong>en</strong> von Beobachtungen 23erstes die Ableitungen der Log-Likelihood-Funktion nach den einzelnen Komponenten desParametervektors θ und setzen dann die Parameter entsprechend der gewünschten Hypothese.Da in den folgenden Darstellungen v 1 (y; c 1 , c 2 , c 0 ) innerhalb der Ableitungen derLog-Likelihood-Funktion nach den Parameterkomponenten nicht mehr von den Differentiationsvariablenabhängt schreiben wir kurz v 1 . Zusätzlich sei v 2 (c j ) =∂∂c ja(y; c 1 , c 2 , c 0 ),wobei hier eine Abhängigkeit von den Differentiationsvariablen innerhalb der Ableitungender Log-Likelihood-Funktion besteht. Mit dieser Notation gilt für j ∈ {0, 1, 2}:∫∂∞l(θ; y) = −nV1−1 v 1 V 2 (c j )dy + Z(c j ) (3.4)∂c j −∞mit V 1 = ∫ ∞−∞ v 1dy, V 2 (c j ) = ∫ v 2 (c j )dy und Z(c j ) = ∑ n∫i=1 v2 (c j )dy i . Eine weitereVereinfachung der Formergibt sich mit U = V −11 und V (c j ) = ∫ ∞−∞ v 1V 2 (c j )dy.∂∂c jl(θ; y) = −nUV (c j ) + Z(c j ) (3.5)Lemma 3.2.1. Unter der Nullhypothese ist θ T = (0, 0, σ 2 ) und somit v 1 = exp ( −y 2 /(2σ 2 ) ) , V 1 = (2πσ 2 ) 1/2 , U = (2πσ 2 ) −1/2 , v 2 (c 1 ) = −(σ 2 + y 2 )/σ 4 , v 2 (c 2 ) = y 3 /σ 4 ,v 2 (c 0 ) = y/σ 4 , V 2 (c 1 ) = y/σ 2 − y 3 /(3σ 4 ), V 2 (c 2 ) = y 4 /(4σ 4 ), V 2 (c 0 ) = y 2 /(2σ 4 ), V (c 1 ) =∫ )∞−∞ 1(v y/σ 2 − y 3 /(3σ 4 ) dy, V (c 2 ) = ∫ ∞−∞ v 1y 4 /(4σ 4 )dy, V (c 0 ) = ∫ ∞−∞ v 1y 2 /(2σ 4 )dy,Z(c 1 ) = ∑ ni=1 y i/σ 2 − yi 3/(3σ4 ), Z(c 2 ) = ∑ ni=1 y4 i /(4σ4 ) und Z(c 0 ) = ∑ ni=1 y2 i /(2σ4 ).Weiter sei µ j = n −1 ∑ ni=1 yj i= n −1 ∑ ni=1 (x i − µ) j das j-te empirische Moment vonY i . Da der Erwartungswert µ der X i unbekannt ist, verwenden wir als Schätzer für µden Stichprobenmittelwert ¯x = n −1 ∑ ni=1 x i, so dass ˆµ j = n −1 ∑ ni=1 (x i − ¯x) j das j-teempirische Moment von Y i unter Schätzung von µ bezeichnet.()Proposition 3.2.2. Es sei S 1 (θ; y) T =∂∂∂c 1l(θ; y),∂c 2l(θ; y) der Score im vorliegenden<strong>Test</strong>problem. Dann gilt:(S 1 (ˆθ 0 ; y) T = n − ˆµ 3 ˆµ 43ˆµ 2 ,2 4ˆµ 2 − 3 ).24Beweis. Wir berechnen zuerst die partiellen Ableitungen von l(θ; y) nach c 1 und c 2 an derStelle θ 0 = (0, 0, σ 2 ) T . Man beachte dabei, dass unter der Nullhypothese Y i normalverteiltist und somit IE θ0 [Y i ] = 0, IE θ0 [Y 2i ] = σ2 , IE θ0 [Y 3i ] = 0 und IE θ 0[Y 4i ] = 3σ4 gilt. Es folgt


24 <strong><strong>Test</strong>en</strong> <strong>auf</strong> univariate <strong>Normalverteilung</strong>mit (3.5) und Lemma (3.2.1)( ∫∞∂1l(θ 0 ; y) = −n∂c 1 σ 2−∞y i Uv 1 dy i − 13σ 4} {{ }=IE θ0 [Y i ](µ1= nσ 2 − µ )33σ 4∫∞yi 3 Uv 1 dy i − 1 1σ 2 n} {{ }=IE θ0 [Yi 3]−∞n∑y i + 1i=1=µ 1} {{ }1n∑3σ 4 yi3 ni=1} {{ }=µ 3)und(∂1l(θ 0 ; y) = −n∂c 2 4σ 4∫∞(µ4= n4σ 4 − 3 4yi 4 Uv 1 dy i − 1 1n∑4σ 4 yi4 n−∞i=1} {{ } } {{ }=IE θ0 [Yi )4].=µ 4)Setzt man θ 0 = ˆθ 0 , so folgt wegen ˆσ 2 = ˆµ 2 und ˆµ 1 = 0 die Behauptung.Um die Fisher-Informationsmatrix herzuleiten, bestimmen wir die zweiten partiellenAbleitungen in den einzelnen Kombinationen der Parameterkomponenten. Mit Hilfe von(3.5) gilt für j, k ∈ {0, 1, 2}:mit∑ ni=1∂∂c kU = −U 2 V (c k ),∂∂c kV 2 (c j ).∂ 2∂c k ∂c jl(θ; y) = −n(∂∂c kV (c j ) = ∫ ∞−∞ v 1V (c j ) ∂ U + U ∂ )V (c j )∂c k ∂c k(V 2 (c k )V 2 (c j ) + ∂∂c kV 2 (c j )+ ∂ Z(c j ) (3.6)∂c k)dy und∂∂c kZ(c j ) =[Proposition 3.2.3. Es sei I(θ; Y ) = −IE ∂ 2θ0 ∂θ i ∂θ jl(θ; Y ) ] mit i, j = 1, 2 die Fisher-Information im vorliegenden <strong>Test</strong>problem. Dann gilt:⎛( )I11 (ˆθ 0 ; Y ) I 12 (ˆθ 0 ; Y )I(ˆθ 0 ; Y ) == n ⎜I 21 (ˆθ 0 ; Y ) I 22 (ˆθ 0 ; Y )⎝23ˆµ 20 00 632ˆµ 23 102ˆµ 2 2ˆµ 2 2Beweis. Wir berechnen die zweiten Ableitungen von l(θ; y) nach c 1 , c 2 und c 0 erneutzuerst an der Stelle θ 0 . Es gilt mit (3.6) und Lemma (3.2.1):∂ 2( ( 1∂c 2 l(θ 0 ; y) = −n −1σ 2 IE θ 0[Y i ] − 1 ) 23σ 4 IE θ 0[Yi 3 1] +σ 4 IE θ 0[Yi 2 ] − 23σ 6 IE θ 0[Y 4+ 19σ 8 IE θ 0[Yi 6 ] + 1 σ 4 IE θ 0[Yi 2 ] − 12σ 6 IE θ 0[Yi 4 ] − 1 σ 4 µ 2 + 1 )2σ 6 µ 4⎞⎟⎠i ]


3.2. <strong><strong>Test</strong>en</strong> von Beobachtungen 25∂ 2∂c 2 2∂ 2∂c 2 0(l(θ 0 ; y) = −n(( 1= −n6σ 2 − µ 2σ 4 + µ )42σ 6 ,= −n(l(θ 0 ; y) = −n( 1= −n( 1) 2−4σ 4 IE θ 0[Yi 4 1] +16σ 8 IE θ 0[Yi 8 ] − 13σ 6 IE θ 0[Yi 6 ] + 1 )3σ 6 µ 61 + µ 63σ 6 ),( 1−2σ 4 ),2σ 4 IE θ 0[Y 2i ]) 2+ 14σ 8 IE θ 0[Yi 4 ] − 1 σ 6 IE θ 0[Yi 2 ] + 1 )σ 6 µ 2∂ 2(l(θ 0 ; y) = −n − 1 ( 1∂c 1 ∂c 2 4σ 4 IE θ 0[Yi 4 ]σ 2 IE θ 0[Y i ] − 1 )3σ 4 IE θ 0[Yi 3 ]+ 14σ 6 IE θ 0[Yi 5 ] − 112σ 8 = IE θ 0[Yi 7 ] − 13σ 4 IE θ 0[Y 3+ 215σ 6 IE θ 0[Yi 5 ] + 13σ 4 µ 3 − 2 )15σ 6 µ 5(µ3= −n3σ 4 − 2µ )515σ 6 ,∂ 2(l(θ 0 ; y) = −n − 1 ( 1∂c 1 ∂c 0 2σ 4 IE θ 0[Yi 2 ]σ 2 IE θ 0[Y i ] − 13σ 4 IE θ 0[Y 3+ 76σ 6 IE θ 0[Yi 3 ] − 1 σ 4 IE θ 0[Y i ] + 1 σ 4 µ 1 − 23σ 6 µ 3(µ1σ 4 − 2µ )33σ 6 ,= −n∂ 2(l(θ 0 ; y) = −n − 1∂c 2 ∂c 0 2σ 4 IE θ 0[Y 2( )µ4= −n2σ 6 .i ]i ])i ] − 16σ 8 IE θ 0[Yi 5 ])14σ 4 IE θ 0[Yi 4 ] + 18σ 8 IE θ 0[Yi 6 ] − 12σ 6 IE θ 0[Yi 4 ] + 1 )2σ 6 µ 4[Mit I(θ; Y ) = −IE ∂ 2θ0 ∂θ i ∂θ jl(θ; Y ) ] , IE θ0 [µ j ] = 1 ∑ nn i=1 IE θ 0[Y ji ] = IE θ 0[Y ji ], IE θ 0[Yi 2]=σ 2 , IE θ0 [Yi 4]= 3σ4 , IE θ0 [Yi 6]= 15σ6 , IE θ0 [Yi 8]= 105σ8 , IE θ0 [Yi k ] = 0 falls k ungerade undˆσ 2 = ˆµ 2 folgt die Behauptung.Wendet man die Propositionen (3.2.2) und (3.2.3) <strong>auf</strong> die Score-<strong>Test</strong>statistik (2.12)an, führt dies zu( 1 ˆµ 2 3Λ S = n6 ˆµ 3 + 1 ( ) 2 ) ˆµ4224 ˆµ 2 − 3 .2Um die Bedeutung dieses Ausdrucks besser zu verstehen führen wir zwei Momenten-


26 <strong><strong>Test</strong>en</strong> <strong>auf</strong> univariate <strong>Normalverteilung</strong>verhältnisse ein, mit denen eine Abweichung von der <strong>Normalverteilung</strong> gemessen werdenkann.Definition 3.2.4. Es sei X eine Zufallsvariable mit IE[X] = µ und Var[X] = σ 2 . Weitersei µ j = IE[(X − µ) j ] das j-te zentrierte Moment von X. Dann bezeichnetdie Schiefe von X und[( ) X − µ 3 ]β 1 = IEσ[( ) X − µ 4 ]β 2 = IEσ= µ 3µ 3/22= µ 4µ 2 2die Wölbung von X. Für eine Stichprobe X bestehend aus i.i.d Zufallsvariablen X 1 , . . . , X nsei entsprechend ˆµ j = n −1 ∑ ni=1 (X i − ¯X) j mit ¯X = n −1 ∑ ni=1 X i das j-te empirischezentrierte Moment und ˆµ 2 die Stichprobenvarianz von X. Dann bildet√b1 = ˆµ 3ˆµ 3/22die empirische Schiefe unddie empirische Wölbung.b 2 = ˆµ 4ˆµ 2 2Anschaulich misst die Schiefe einer Verteilung die Neigung nach links oder rechts, dieWölbung die Krümmung, bzw. die Steilheit einer Verteilung. Symmetrische Verteilungenbesitzen demnach eine Schiefe von 0, die Umkehrung dieser Aussage gilt jedoch nicht. DieWölbung einer <strong>Normalverteilung</strong> beträgt 3.Wir fassen die Ergebnisse im vorliegenden <strong>Test</strong>problem zusammen und geben diese ineiner Definition wieder.Definition 3.2.5. Es gelte die Situation des vorliegenden <strong>Test</strong>problems. Dann definiertJB = n 6( ( ( √ ) 2 b2 − 3 ) 2 )b1 +4(3.7)die <strong>auf</strong> [JB87] zurückgehende <strong>Test</strong>statistik. Man bezeichnet sie auch einfach als <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong>.Bemerkung 3.2.6. <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> <strong>auf</strong> <strong>Normalverteilung</strong> von Beobachtungen nutztsomit sowohl die empirische Schiefe als auch die empirische Wölbung, um ein Abweichenvon der <strong>Normalverteilung</strong> festzustellen. Mit Bemerkung (2.4.4) folgt, dass JB eine asymptotischeχ 2 (2)-Verteilung besitzt und die Nullhypothese der <strong>Normalverteilung</strong> zum Niveauα ablehnt, falls der Wert von JB größer als das (1-α)-Quantil der χ 2 (2)-Verteilung ist.


3.3. <strong><strong>Test</strong>en</strong> von Regressionsresiduen 273.3 <strong><strong>Test</strong>en</strong> von RegressionsresiduenIn diesem Abschnitt gehen wir einen Schritt weiter und leiten einen <strong>Test</strong> her, mit dem dieMöglichkeit besteht unbekannte und zudem auch unbeobachtbare Regressionsresiduen <strong>auf</strong><strong>Normalverteilung</strong> zu testen. Dazu betrachten wir das lineare Regressionsmodellx = Y β + ɛmit Beobachtungsvektor x = (x 1 , . . . , x n ) T , bekannter (n × d) Design-Matrix Y = (y ij ),unbekannten Regressionskoeffizienten β 1 , . . . , β d , zusammengefasst im Vektor β = (β 1 , . . . , β d ) Tund i.i.d. Zufallsvariablen (Regressionsresiduen) ɛ 1 , . . . , ɛ n mit IE[ɛ i ] = 0 für alle i =1, . . . , n und Var[ɛ i ] = Var[ɛ j ] für alle i ≠ j. Es sei g(ɛ) die Dichte der Residuen ɛ i füri = 1, . . . , n und zudem sei g(ɛ) aus dem Pearson-Verteilungssystem, so dass∂∂ɛ g(ɛ; c c 1 + ɛ1, c 2 , c 0 ) = −c 0 + c 1 ɛ + c 2 ɛ 2 g(ɛ; c 1, c 2 , c 0 )gilt. Wie im vorherigen Modell definieren die j-ten empirischen Momente der Residuen ɛ idurch µ j = n −1 ∑ ni=1 ɛj i, wobei ein entscheidender Unterschied <strong>auf</strong>tritt. Da die Parameterβ i für i = 1, . . . , d in unserem Modell nicht bekannt sind, müssen diese geschätzt werden.Dazu sei Y i = (Y i1 , . . . , Y id ). Dann gilt ˆµ j = n −1 ∑ ni=1 ˆɛj i = n−1 ∑ ni=1 (x i − Y i ˆβ) j , wobeiwir als Schätzer für β den Kleinste-Quadrate-Schätzer (KQS) ˆβ(x) = (Y T Y ) −1 Y T xverwenden. Erneut stellt die Funktion g(ɛ; c 1 , c 2 , c 0 ) mit c 1 = c 2 = 0 die Dichte einer<strong>Normalverteilung</strong> dar, so dass mit θ = (θ T 1 , θ 2 ), θ T 1 = (c 1 , c 2 ), θ 2 = c 0 die zu testendeHypothese H 0 : θ 1 = (0, 0) T lautet. Die Log-Likelihood-Funktion l(c 1 , c 2 , c 0 ; ɛ) ist folglichidentisch (3.3) mit ɛ anstelle von y, so dass an der Stelle θ 0 mit dem Beweis zu Proposition(3.2.2)und mit dem Beweis zu Proposition (3.2.3)(S 1 (θ 0 ; ɛ) T µ1= nσ 2 − µ 33σ 4 , µ 44σ 4 − 3 )4⎛I(θ 0 ; ɛ) = n ⎜⎝23σ 2 0 00 63032σ 2 1⎞⎟2σ 2 ⎠2σ 4folgt. Somit gilt wegen ˆσ 2 = ˆµ 2 und mit etwas Rechenarbeit( 1 ˆµ 2 3Λ S = n6 ˆµ 3 + 1 ( ) 2 ) ( ˆµ43 ˆµ 2 1224 ˆµ 2 − 3 + n − ˆµ )1ˆµ 322 ˆµ 2 ˆµ 2 .2Beachtet man, dass für die KQS-Residuen ˆɛ i das erste empirische Moment unter Schätzungdes Erwartungswerts, namentlich ˆµ 1= n −1 ∑ ni=1 ˆɛ i = n −1( ∑ ni=1 x i − ∑ ni=1 Y i ˆβ(x i ) ) ,


28 <strong><strong>Test</strong>en</strong> <strong>auf</strong> univariate <strong>Normalverteilung</strong>wegen ˆβ(x i ) = ( Y T ) −1Y Ti Y i i x i = Y −1ix i identisch Null ist, so erhält man wie in derSituation des <strong><strong>Test</strong>en</strong>s <strong>auf</strong> <strong>Normalverteilung</strong> von i.i.d. Beobachtungen( 1 ˆµ 2 3Λ S = n6 ˆµ 3 + 1 ( ) 2 ) ˆµ4224 ˆµ 2 − 3 .2Schreiben wir in dieser Situation für die empirischen Momente unter KQ-Schätzung√ˆb1 =ˆµ 3 /ˆµ 3/22 und ˆb 2 = ˆµ 4 /ˆµ 2 2 , so folgtJB = n 6( ( √ˆb1) 2+(ˆb2 − 3 ) 2Bemerkung 3.3.1. Es besteht also auch die Möglichkeit Regressionsresiduen mit dervon <strong>Jarque</strong> und <strong>Bera</strong> vorgeschlagenen <strong>Test</strong>statistik <strong>auf</strong> <strong>Normalverteilung</strong> zu testen. Hierzuwerden ausschließlich die ersten vier empirischen Momente der KQS-Residuen ˆɛ i benötigt,für die allerdings die Regressionskoeffizienten β i für i = 1, . . . , d geschätzt werden müssen.4).


Kapitel 4<strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> im VergleichObwohl der <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> <strong>auf</strong>grund seiner einfachen Struktur ein praktisches Werkzeugim <strong><strong>Test</strong>en</strong> <strong>auf</strong> <strong>Normalverteilung</strong> darstellt, stellen sich bei genauerer Untersuchung einigesehr mangelhafte Eigenschaften heraus. Auf diese soll im vorliegenden Kapitel näher eingegangenwerden und zugleich werden einige Modifizierungen der <strong>Test</strong>statistik hergeleitet.Zusätzlich wird zur Einordnung der Effizienz des JB-<strong>Test</strong> ein Vergleich mit anderen –sowohl parametrischen als auch nicht-parametrischen – <strong>Test</strong>s <strong>auf</strong> <strong>Normalverteilung</strong> vorgenommenund die Ergebnisse anhand von empirischen Analysen untermauert. Begonnenwird im ersten Abschnitt mit der Herleitung empirischer kritischer Werte, die für dienachfolgenden Untersuchungen unerlässlich sind.4.1 Kritische Werte und <strong>Test</strong>alternativenDa in vielen Gebieten der Wissenschaft der <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> (JB-<strong>Test</strong>) ein gängiges Mittelzum <strong><strong>Test</strong>en</strong> <strong>auf</strong> <strong>Normalverteilung</strong> sowohl von Beobachtungen als auch hauptsächlichzum <strong><strong>Test</strong>en</strong> von Regressionsresiduen geworden ist, gewinnt die Frage nach seiner Effizienzimmer mehr an Bedeutung. Zudem werden in den meisten Anwendungen nicht seine exaktenQuantile bei den Untersuchungen zur Entscheidung herangezogen, sondern wesentlichhäufiger die seiner asymptotischen Verteilung. Da jedoch die Verteilung des JB-<strong>Test</strong>s nursehr langsam gegen seine Grenzverteilung konvergiert, resultieren erhebliche Abweichungender Verteilung der <strong>Test</strong>statistik bei endlichen Stichproben von der asymptotischenVerteilung. Dies hat zur Folge, dass ungenügende Ergebnisse resultieren können, wenn dieSignifikanzwerte der χ 2 (2)-Verteilung dazu genutzt werden, eine Entscheidung über die Hypotheseder <strong>Normalverteilung</strong> bei Vorliegen kleiner Stichproben zu treffen. Um dennochin sinnvoller Weise mit dem JB-<strong>Test</strong> arbeiten zu können, müssen für endliche und insbesonderekleine Stichproben die kritischen Werte (kW) empirisch bestimmt werden, da dieexakte Verteilung der <strong>Test</strong>statistik für endliches n nicht bekannt ist. Im L<strong>auf</strong>e der For-29


30 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> im Vergleichschung rund um den JB-<strong>Test</strong> wurden so bereits in immer umfangreicheren Untersuchungenvon einigen Autoren wie [Urz96], [DS96] und aktuell von [WK09] emprische kritischeWerte (ekW) publiziert. Dazu wurden Monte-Carlo Simulationen <strong>auf</strong> der Basis normalverteilterStichproben unterschiedlicher Größenordnung durchgeführt. Um möglichst präziseErgebnisse zu erhalten wird eine große Anzahl solcher Simulationen, sog. Replikationen,durchgeführt und die Werte der JB-Statistik dieser Simulationen berechnet. Die kW zugegebenem Signifikanzniveau α lassen sich dann anhand der JB-Werte bestimmen, d.h.zum Niveau α bildet der (1 − α) · (#Replikationen)-größte JB-Wert den ekW. Aufgrunddes Umfangs und der daraus resultierenden Genauigkeit genannter Analysen, die in eigenenUntersuchungen so nicht möglich wäre, wird an dieser Stelle <strong>auf</strong> erneute Berechnungvon ekW verzichtet und <strong>auf</strong> vorhandene Datensätze zurückgegriffen. Zum Vergleich mitden asymptotischen kW werden die kW für verschiedene Stichprobengrößen n und Signifikanzniveausα angegeben, die <strong>auf</strong> der Basis von je 10 7 Replikationen von Wurtz undKatzgraber mit dem Programm R berechnet wurden und in [WK09] zu finden sind. Diesewaren nach eigenem Wissensstand die genauesten zur Zeit der Veröffentlichung ihres Papersverfügbaren. Eine Übersicht der ekW gibt die Tabelle (4.1)n = 10 n = 20 n = 35 n = 50 n = 75 n = 100 n = 150 n = 200α = 0.005 7.300 13.471 16.414 17.281 17.305 16.959 16.257 15.638α = 0.01 5.703 9.718 11.736 12.392 12.586 12.491 12.185 11.882α = 0.05 2.525 3.795 4.593 4.976 5.278 5.430 5.598 5.676α = 0.1 1.623 2.347 2.881 3.183 3.486 3.673 3.904 4.033α = 0.2 1.124 1.562 1.916 2.128 2.346 2.487 2.656 2.756n = 300 n = 400 n = 800 n = 1000 n = 1600 n = 2400 n = 10000 n → ∞α = 0.005 14.669 13.583 12.726 12.366 11.762 11.384 10.792 10.597α = 0.01 11.358 10.778 10.299 10.117 9.810 9.608 9.313 9.210α = 0.05 5.773 5.855 5.910 5.924 5.957 5.967 5.986 5.991α = 0.1 4.189 4.332 4.427 4.457 4.513 4.542 4.589 4.605α = 0.2 2.876 2.988 3.065 3.091 3.136 3.161 3.207 3.219Tabelle 4.1: Empirische kritische Werte der JB-Statistik bei 10 7 Replikationen. Vgl.[WK09], Tabelle 1.Man sieht, dass der JB-<strong>Test</strong> für α ≥ 0.05 bei Benutzung der kW der asymptotischenVerteilung vor allem bei kleinen Stichproben sehr konservativ ist. Die fehlende Struktur derkW für α < 0.05 lässt sich nicht so leicht interpretieren. Dass die ekW großer Stichprobenjedoch weiter entfernt von den asymptotischen kW liegen als die ekW kleiner Stichprobenzeigt deutlich, dass die Verwendung der Quantlile der χ 2 (2)-Verteilung speziell in der Situationkleiner Stichproben zwangsläufig zu fehlerhaften Schlussfolgerungen führt.Obwohl der heute als <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> bekannte <strong>Test</strong> <strong>auf</strong> <strong>Normalverteilung</strong> erst durch


4.1. Kritische Werte und <strong>Test</strong>alternativen 31Jaruqe und <strong>Bera</strong>, die ihn bei Ihren Untersuchungen als ein Spezialfall des Score-<strong>Test</strong>sinnerhalb des Pearson-Verteilungs-Systems entdeckten 1 , seine große Popularität erlangte,tauchte die <strong>Test</strong>statistik im Vorfeld bereits an anderer Stelle in der Literatur <strong>auf</strong>.Bowman und Shenton waren es, die ihn erstmals nannten 2 , nachdem sie herausgefundenhatten, dass sich die asymptotischen Erwartungswerte sowie die asymptotischen Varianzender empirischen Schiefe √ b 1 und der empirischen Wölbung b 2 unter Annahmeder <strong>Normalverteilung</strong> als 0 und 3, bzw. 6/n und 24/n ergeben. Weiterhin zeigtensie, dass die asymptotische Kovarianz beider Größen null ist und beide Größen asymptotischnormalverteilt sind. Dies begründet in einfacher Weise die Grenzverteilung der<strong>Test</strong>statistik, stellt vor diesem Hintergrund der JB-<strong>Test</strong> nichts weiter als die Summezweier asymptotisch unabhängiger und quadrierter N (0, 1)-verteilter Zufallsvariablen dar.Diese Erkenntnis gibt Anlaß zu einer Modifizierung der <strong>Test</strong>statistik dahingehend, anstelleder asymptotischen Erwartungswerte und der asymptotischen Varianzen die exaktenErwartunsgwerte und Varianzen der Größen √ b 1 und b 2 zu betrachten. UnterVerwendung der Eigenschaften der k-Statistiken in [Fis30] berechnete Urzua in [Urz96]IE[ √ b 1 ] = 0, IE[b 2 ] = 3(n − 1)(n + 1) −1 , Var[ √ b 1 ] = 6(n − 2) ( (n + 1)(n + 3) ) −1 undVar[b 2 ] = 24n(n − 2)(n − 3) ( (n + 1) 2 (n + 3)(n + 5) ) −1 , sodass eine neue, modifizierte<strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong>statistik der Gestalt( √ ( b1 ) 2JB U = nVar[ √ b 1 ] + (b 2 − IE[b 2 ]) 2 )Var[b 2 ]((n + 1)(n + 3)= (n − 3)( √ b 1 ) 2 +6(n − 2)(n − 3)(n + 1)(n + 5)(b 2 −4n3(n − 1)) ) 2n + 1resultiert. Da sich JB und JB U asymptotisch entsprechen, besitzt auch JB U eine χ 2 (2) -Grenzverteilung und ein Vergleich der ekW der neuen <strong>Test</strong>statistik mit denen der asymptotischenVerteilung erscheint wünschenswert. Dazu wird erneut <strong>auf</strong> die Ergebnisse in[WK09] für ausgewählte Signifikanzniveaus α zurückgegriffen. Diese sind in Tabelle (4.2)zusammengefasst.Man sieht, dass für α < 0.05 bei Verwendung der ekW der neue <strong>Test</strong> deutlich konservativerist als bei Verwendung der kW der χ 2 (2)-Verteilung. Auch ist die Entwicklung derekW mit steigender Stichprobengröße wesentlich weniger von Schwankungen geprägt.Im direkten Vergleich mit der ursprünglichen JB-Statistik zeigt sich in der Anwendung<strong>auf</strong> Regressionsresiduen, dass bei bestimmten Alternativen der neue <strong>Test</strong> eine wesentlichhöhere Güte <strong>auf</strong>weist. Betrachtet man als Alternativhypothesen zur Hypotheseder <strong>Normalverteilung</strong> bspw. die Studentsche t-Verteilung mit 5 Freiheitsgraden, die χ 2 (2) -Verteilung, die Laplace-Verteilung oder die Lognormal-Verteilung (alle zum Erwartungswert0 und Varianz 25), so zeigen die Ergebnisse in [Urz96], Tabelle 2, dass bei Verwendung1 Vgl. [JB87].2 Vgl. [BS75].


32 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> im Vergleichn = 10 n = 20 n = 35 n = 50 n = 75 n = 100 n = 150 n = 200α = 0.005 23.831 25.963 24.569 23.229 21.334 19.986 18.285 17.156α = 0.01 18.374 18.643 17.540 16.659 15.506 14.719 13.707 13.042α = 0.05 7.416 6.932 6.679 6.553 6.414 6.319 6.218 6.149α = 0.1 4.177 3.966 3.961 3.998 4.066 4.126 4.218 4.272α = 0.2 2.183 2.216 2.355 2.462 2.588 2.677 2.790 2.858n = 300 n = 400 n = 800 n = 1000 n = 1600 n = 2400 n = 10000 n → ∞α = 0.005 15.689 14.211 13.129 12.694 11.971 11.525 10.827 10.597α = 0.01 12.149 11.271 10.616 10.372 9.967 9.716 9.339 9.210α = 0.05 6.093 6.050 6.031 6.022 6.018 6.008 5.996 5.991α = 0.1 4.355 4.434 4.492 4.510 4.546 4.565 4.594 4.605α = 0.2 2.946 3.032 3.092 3.113 3.150 3.171 3.206 3.219Tabelle 4.2: Empirische kritische Werte der JB U -Statistik bei 10 7 Replikationen. Vgl.[WK09], Tabelle 1.der Signifikanzwerte der χ 2 (2) -Verteilung zum Niveau α = 0.1 die neue Statistik JB U fürStichprobengrößen n ∈ {20, 35, 50, 100} die ursprüngliche Statistik JB hinsichtlich desFehlers 2.Art deutlich unterbietet. Bei Betrachtung der ekW anstelle der asymptotischenkW zeigt sich ein ähnliches Bild, obwohl die Dominanz in dieser Situation nicht so eindeutigist und bezüglich der χ 2 (2)- sowie der Lognormal-Verteilung die JB-Statistik sogarteilweise dominiert. Zusammenfassend jedoch geben die Resultate Anlaß dazu die neueStatistik speziell in der Situation kleiner Stichproben der alten Statistik vorzuziehen.Eine weitere Variation der <strong>Jarque</strong>-<strong>Bera</strong>-Statistik basiert <strong>auf</strong> Versionen der empirischenSchiefe und Wölbung. Da die Stichprobenwölbung b 2 aus Definition (3.2.4) nur einenverzerrten Schätzer für die theoretische Wölbung einer <strong>Normalverteilung</strong> darstellt (IE[b 2 −3] = −6(n + 1) −1 ≠ 0), passen wir diese an und betrachten die <strong>auf</strong> [JG98] zurückgehendenSchiefe- und Wölbungsmaße k 1 = √ n(n − 1) √ b 1 (n − 2) −1 und k 2 = (n − 1) ( (n + 1)(b 2 −3) + 6 )( (n − 2)(n − 3) ) −1 , die zudem konsistent sind. Auf die selbe Art und Weise wie imFalle des JB-<strong>Test</strong>s erhalten wir so eine weitere <strong>Test</strong>statistik der FormJB JG = n ( )k1 2 + k2 2.6 4Da für diese <strong>Test</strong>statistik keine ekW vorliegen, werden diese in eigener Arbeit mit demProgramm R nach der oben beschriebenen Vorgehensweise ermittelt. Die Berechnung berschränktsich jedoch <strong>auf</strong> die Parameterwerte α = 0.05 und n ∈ {10, 20, 50, 100, 200, 400}um in dieser speziellen Situation die JB JG -Statistik in die Vergleichsanalysen einbeziehenzu können. Aufgrund der geringen Computerleistung, mit dem die Berechnungen durchgeführtwerden, ist dies nur <strong>auf</strong> der Basis von 10 4 Replikationen möglich. Die Ergebnissesind demzufolge wesentlich ungenauer als die in [WK09] für JB und JB U , sollen dennoch


4.2. Powervergleich innerhalb des Pearson-Systems 33in den Untersuchungen benutzt werden. Die folgende Tabelle gibt die ermittelten Wertean.n = 10 n = 20 n = 50 n = 100 n = 200 n = 400α = 0.05 5.879 5.700 6.094 6.294 6.223 5.990Tabelle 4.3: Empirische kritische Werte der JB JG -Statistik bei 10 4 Replikationen.4.2 Powervergleich innerhalb des Pearson-SystemsUm zu verstehen wie die Power der <strong>Jarque</strong>-<strong>Bera</strong>-Statistiken im Vergleich zu anderen <strong>Test</strong>s<strong>auf</strong> <strong>Normalverteilung</strong> einzuordnen ist, werden wir diese im vorliegenden Abschnitt innerhalbdes Pearson-Systems mit der Power anderer <strong>Test</strong>s vergleichen. Power bezeichnet dabeidie Wahrscheinlichkeit, bei Vorliegen der Alternativhypothese richtigerweise die Nullhypotheseder <strong>Normalverteilung</strong> zu verwerfen. Je höher die Power eines <strong>Test</strong>s ist, destogeringer ist also die Wahrscheinlichkeit einen Fehler 2. Art zu begehen. Dabei hängt diePower maßgeblich vom vorgegebenen Signifikanzniveau α ab, zumal dieses ja gerade derWahrscheinlichkeit entspricht, mit der ein Fehler 1. Art gerade noch toleriert wird. Diesmotiviert also nach denjenigen <strong>Test</strong>s zu suchen, deren Power im Vergleich zu anderen <strong>Test</strong>smöglichst groß ist. Dazu wird das <strong>Test</strong>modell in [JB87], Kapitel 5, überarbeitet und <strong>auf</strong> derBasis aktueller kritischer Werte für JB, JB U und JB JG , sowie unter Austausch und Hinzunahmeeiniger <strong>Test</strong>s <strong>auf</strong> <strong>Normalverteilung</strong> erweitert und präzisiert. Die Alternativen zur<strong>Normalverteilung</strong> bestehen aus den folgenden Pearson-Verteilungen: Beta(3, 2)-Verteilung,Student’s t-Verteilung mit 5 Freiheitsgraden und Gamma(2, 1)-Verteilung. Zusätzlich wirdals Nicht-Pearson-Verteilung die Lognormal-Verteilung untersucht. Speziell wird in dervorliegenden Situation für die Stichprobengrößen n ∈ {10, 20, 50, 100, 200, 400} zum Signifikanzniveauα ∈ {0.01, 0.05, 0.1} die Power der folgenden <strong>Test</strong>s verglichen:• Anderson-Darling-(Anpassungs-)<strong>Test</strong>: <strong>Der</strong> Anderson-Darling-<strong>Test</strong> ist ein <strong>Test</strong> derempirischen Verteilungsfunktion. Er basiert <strong>auf</strong> der Tatsache, dass unter Annahmeder <strong>Normalverteilung</strong> eine Transformation in eine Gleichverteilung möglich ist. Dazuwird die geordnete Stichprobe X (1) , . . . , X (n) nach der Transformation mit einemAbstandstest <strong>auf</strong> Gleichverteilung getestet. Mit Y (i) = ˆσ −1 (X (i) − ¯X) wobei ˆσ 2 =(n − 1) −1 ∑ ni=1 (X i − ¯X) 2 lautet die <strong>Test</strong>statistikAD = −n − 1 nn∑(2i − 1) ( log ( Φ ( )) ( ( )))Y (i) + log 1 − Φ Y(n−i+1) .i=1


34 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> im VergleichΦ ist die Verteilungsfunktion der N (0, 1)-Verteilung. Die Berechnung der p-Wertebasiert dabei <strong>auf</strong> den Werten des Produkts c · AD, wobei c ein Faktor ist, der vonder Stichprobengröße sowie der zu testenden hypothetischen Verteilung abhängt.• Lilliefors-<strong>Test</strong>: Als eine Modifizierung des Kolmogorov-Smirnov-<strong>Test</strong>s ist der Lilliefors-<strong>Test</strong> ebenso wie der Anderson-Darling-<strong>Test</strong> ein <strong>Test</strong>, der <strong>auf</strong> der empirischen Verteilungsfunktionbasiert. Seine <strong>Test</strong>statistik misst den maximalen Abstand zwischender empirischen Verteilungsfunktion der Daten X 1 , . . . X n und einer N ( ¯X, ˆσ 2 )-Verteilung, ˆσ 2 = (n − 1) −1 ∑ ni=1 (X i − ¯X) 2 . Mit Y i = ˆσ −1 (X i − ¯X) lautet die <strong>Test</strong>statistikLIL = max{LIL + , LIL − },wobei LIL + = max i=1,...,n { i n − Φ( Y i)} und LIL − = max i=1,...,n {Φ ( Y i)−i−1n }.• Cramér-von-Mises-<strong>Test</strong>: <strong>Der</strong> Cramér-von-Mises-<strong>Test</strong> ist ein weiterer Anpassungstest.Seine <strong>Test</strong>statistik berechnet sich aus der <strong>auf</strong>steigend angeordneten StichprobeX (1) , . . . , X (n) und besitzt mit den Bezeichnungen Y (i) = ˆσ −1 (X (i) − ¯X),ˆσ 2 = (n − 1) −1 ∑ ni=1 (X (i) − ¯X) 2 schließlich die GestaltCV M = 1 n∑(12n + Φ ( )) 2i − 1 2Y (i) − .2ni=1• Pearson-Chi-Quadrat-<strong>Test</strong>: <strong>Der</strong> Chi-Quadrat-<strong>Test</strong> von Pearson beruht <strong>auf</strong> einemVergleich der Anzahl n j an Elementen einer Stichprobe, die in k vorgegebene Klassenfallen mit der erwarteten Anzahl n 0j<strong>Test</strong>statistik lautetP EA =unter Annahme der <strong>Normalverteilung</strong>. Diek∑j=1(n j − n 0j ) 2n 0j.Aufgrund der asymptotischen χ 2 -Verteilung werden die p-Werte dabei über dieχ 2 (k−3)-Verteilung berechnet.• Shapiro-Francia-<strong>Test</strong>: Anders als die bisherigen <strong>Test</strong>s basiert der Shapiro-Francia-<strong>Test</strong> nicht <strong>auf</strong> der empirischen Verteilungsfunktion, sondern <strong>auf</strong> der quadriertenKorrelation der geordneten Stichprobe X = (X (1) , . . . , X (n) ) und den geordnetenQuantilen q (i) , i = 1, . . . , n, einer N (0, 1)-Verteilung. Dabei hängen die Quantilevon der Stichprobengröße n ab. Es werden die Quantile der Werte c i =i−3/8n+1−3/4 füri = 1, . . . , n betrachtet. Mit q = (q (1) , . . . , q (n) ) hat die <strong>Test</strong>statistik somit die FormSF = ( Cor[X, q] ) 2 .Die Hypothese der <strong>Normalverteilung</strong> wird abgelehnt, falls der Wert der Statistikunterhalb des entsprechenden kritischen Wertes liegt.


4.2. Powervergleich innerhalb des Pearson-Systems 35Die Tabelle (4.4) zeigt die Ergebnisse der Analysen, die mit dem Programm R <strong>auf</strong> derBasis von je 500 Replikationen durchgeführt wurden. Dazu wurden Zufallszahlen der einzelnenVerteilungen erzeugt und im Falle der Statistiken AD, LIL, CV M, P EA und SFdie Nullhypothese der <strong>Normalverteilung</strong> abgelehnt, falls der p-Wert der entsprechendenStatistiken unterhalb des Niveaus α lag. Die Anzahl der abgelehnten Nullypothesen imVerhältnis zur Anzahl der Replikationen ergibt die Power der einzelnen <strong>Test</strong>s. Die p-Werteder Statistiken wurden dabei von den in R implementierten <strong>Test</strong>s übernommen.JB JB U JB JG AD LIL CV M P EA SFBeta(3,2) n = 10 0.034 0.032 0.03 0.05 0.042 0.048 0.074 0.048n = 20 0.022 0.016 0.018 0.076 0.064 0.072 0.052 0.044n = 50 0.02 0.016 0.016 0.168 0.118 0.14 0.108 0.116n = 100 0.092 0.038 0.03 0.406 0.22 0.316 0.174 0.336n = 200 0.732 0.648 0.6 0.812 0.534 0.704 0.386 0.872n = 400 0.996 0.998 0.996 0.986 0.864 0.974 0.794 1Students t (5df) n = 10 0.158 0.156 0.144 0.134 0.104 0.126 0.112 0.146n = 20 0.222 0.232 0.24 0.196 0.114 0.166 0.09 0.23n = 50 0.416 0.426 0.424 0.274 0.204 0.242 0.13 0.394n = 100 0.642 0.66 0.646 0.51 0.326 0.45 0.184 0.648n = 200 0.89 0.894 0.894 0.732 0.534 0.7 0.288 0.876n = 400 0.986 0.984 0.986 0.96 0.812 0.92 0.474 0.982Gamma(2,1) n = 10 0.192 0.176 0.174 0.202 0.152 0.178 0.182 0.206n = 20 0.382 0.352 0.358 0.44 0.282 0.394 0.286 0.482n = 50 0.848 0.792 0.798 0.906 0.726 0.862 0.664 0.932n = 100 0.992 0.988 0.988 0.998 0.954 0.992 0.926 1n = 200 1 1 1 1 1 1 1 1n = 400 1 1 1 1 1 0.996 1 1Log-Normal n = 10 0.5 0.432 0.43 0.584 0.464 0.558 0.53 0.594n = 20 0.832 0.81 0.818 0.892 0.798 0.874 0.82 0.904n = 50 1 1 1 1 0.996 1 0.998 1n = 100 1 1 1 1 1 0.884 1 1n = 200 1 1 1 1 1 0.158 1 1n = 400 1 1 1 1 1 0 1 1Tabelle 4.4: Powervergleich bei 500 Replikationen, α = 0.05. Zur leichteren Interpretationder <strong>Test</strong>ergebnisse sind die effizientesten <strong>Test</strong>s in den einzelnen Kategoriendurch Fettdruck hervorgehoben. Die Grafiken zeigen die Dichte derentsprechenden Verteilungen (durchgezogene Linien) im Vergleich zur normiertenund zentrierten <strong>Normalverteilung</strong> (gestrichelte Linien).Da nun für den p-Wert bei Vorliegen einer Stichprobe x und einer <strong>Test</strong>statistik S mitdem Ergebnis S(x) = s die Beziehung p = P (S ≥ s|H 0 ) erfüllt ist und für den kritischenWert c zum Signifikanzniveau α die Beziehung α = P (S ≥ c|H 0 ) gilt, lässt sich auch


36 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> im Vergleicheine Beziehung zwischen dem (erst nach Erhalt der Stichprobe bekannten) p-Wert unddem (vor Auswertung der <strong>Test</strong>statistik festzulegendem) Signifikanzniveau α ausmachen.Es gilt: p < α ⇔ s > c. Dies erlaubt die Berechnung der Power im Falle der JB-, JB U -und JB JG -Statistiken, die über die ekW vorgenommen wurde, die in den Tabellen (4.1)bis (4.3) angegeben sind. Dabei wird die Nullhypothese abgelehnt falls der Wert der Statistikden von der Stichprobengröße n abhängigen ekW zum entsprechenden Niveau αübersteigt. Die Power berechnet sich dann ebenfalls anhand der Anzahl der abgelehntenNullhypothesen im Verhältnis zur Gesamtzahl der durchgeführten Replikationen.Abbildung 4.1: Power der <strong>Test</strong>statistiken JB, JB U , JB JG , AD, LIL, CV M, P EAund SF . Die exakten Ergebnisse der Analysen können der Tabelle (4.4)entnommen werden.


4.3. Powervergleich in speziellen Situationen 37Sicherlich können <strong>auf</strong>grund der geringen Anzahl an Replikationen keine exakten Schlüsseüber die Power der einzelnen <strong>Test</strong>s gezogen werden, jedoch zeichnen sich Tendenzen ab, dieeine Vermutung über die relativen Verhältnisse zulassen. Da die Ergebnisse in den Fällenα = 0.01 und α = 0.1 denen aus Tabelle (4.4) recht ähnlich sind werden diese aus Platzgründenim Anhang nachgereicht. Zur besseren Übersicht werden die <strong>Test</strong>ergebnisse dereinzelnen Verteilungen als grafische Darstellung in Abbildung (4.1) wiedergegeben. Dabeiwird in den Grafiken zur besseren Übersicht ein linearer Zusammenhang zwischen den Ergebnissenunterstellt. Die Ergebnisse der Stichprobengrößen n ∈ {10, 20, 50, 100, 200, 400}sind <strong>auf</strong> der JB-Kurve durch Sternchen gekennzeichnet, wobei für die Gamma(2, 1)-Verteilung nur n ∈ {10, 20, 50, 100} und für die Lognormal-Verteilung nur n ∈ {10, 20, 50}betrachtet werden.Fazit: Zu erkennen ist, dass sowohl für die Gamma(2, 1)-Verteilung als auch dieLognormal-Verteilung der SF -<strong>Test</strong> von Shapiro und Francia die anderen <strong>Test</strong>s hinsichtlichseiner Power überbietet. In der Situation kleiner bis mittelgroßer Stichproben n ∈{20, 50, 100} stellt sich speziell gegen die Beta(3, 2)-Verteilung der Anderson-Darling-<strong>Test</strong>als Favorit heraus. Die <strong>Jarque</strong>-<strong>Bera</strong>-Statistiken hingegen bieten die beste Power im <strong><strong>Test</strong>en</strong>gegen Students t-Verteilung mit fünf Freiheitsgraden. Obwohl die Statistiken JB U undJB JG bei fast allen Stichprobengrößen die JB-Statistik dominiert, sind die Unterschiededoch sehr gering. Hinsichtlich der anderen Verteilungen ist die Power der JB-Statistik sogargrößer als die der beiden anderen Statistiken, mindestens jedoch genauso groß. Somitkann davon ausgegangen werden, dass sowohl der JB U -<strong>Test</strong> als auch der JB JG -<strong>Test</strong> inder Situation des <strong><strong>Test</strong>en</strong>s <strong>auf</strong> <strong>Normalverteilung</strong> von Beobachtungen keine überzeugendeVerbesserung gegenüber dem JB-<strong>Test</strong> darstellt. Die restlichen drei <strong>Test</strong>statistiken LIL,CV M und P EA konnten bis <strong>auf</strong> den Pearson-<strong>Test</strong> im Falle der Beta(3, 2)-Verteilung fürn = 10 in keiner der getesteten Situationen für kleine Stichprobengrößen mit den anderen<strong>Test</strong>s mithalten.4.3 Powervergleich in speziellen Situationen<strong>Der</strong> vorige Abschnitt hat gezeigt, dass abgesehen von der Stichprobengröße vor allemdie Form der zugrunde liegenden Verteilung die Grundlage für eine Bewertung in unterschiedlichen<strong>Test</strong>situationen darstellt. So ist es doch verwunderlich, dass sich speziell imFall der einzigen symmetrischen Verteilung, der t-Verteilung, die <strong>Jarque</strong>-<strong>Bera</strong>-Statistikenals beste <strong>Test</strong>s herausgestellt haben, basieren die <strong>Jarque</strong>-<strong>Bera</strong>-Statistiken doch <strong>auf</strong> derSchiefe und der Wölbung der zugrunde liegenden Verteilung. Die Schiefe im Falle einersymmetrischen Verteilung, also insbesondere der t-Verteilung, ist allerdings null und nur


38 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> im Vergleichnoch die Wölbung trägt ihren Teil zur <strong>Test</strong>statistk bei. Dies motiviert die Frage nachder Gestalt, welche dazu führt, dass einige <strong>Test</strong>s in gewissen Situationen andere <strong>Test</strong>sdominieren. Um <strong>auf</strong> diese Frage näher eingehen zu können wird im folgenden von denVerteilungen des vorigen Abschnittes Abstand genommen und ein Modell betrachtet, mitdem nach individuellen Wünschen Verteilungsformen realisiert werden können. Dieses Modellbietet die Möglichkeit Verteilungen zu generieren, die bestimmte Eigenschaften <strong>auf</strong>weisenund zudem ”nah“ an der <strong>Normalverteilung</strong> liegen. So können die Auswirkungenunterschiedlicher Abweichungen von der <strong>Normalverteilung</strong> untersucht werden. Dazu werdenverschiedene Formen symmetrischer wie auch nicht symmetrischer Verteilungen mitund ohne Abweichung der für die <strong>Normalverteilung</strong> typischen Wölbung erzeugt. Weiterhinwerden nicht nur unimodale, sondern auch bimodale Verteilungen betrachtet. ZurBeschreibung des Modells betrachten wir zwei Zufallsgrößen der folgenden Form: Es seienX 1 und X 2 Zufallsvariablen mit X 1 ∼ N (µ 1 , σ1 2) und X 2 ∼ N (µ 2 , σ2 2 ). Weiter seip ∈ (0, 1). Dann betrachten wir die Zufallsvariable Z = (1 − p)X 1 + pX 2 , so dass für dieVerteilung von Z gilt: P (Z ≤ z = x 1 + x 2 ) = (1 − p)Φ ( x 1 −µ 1) (σ 1+ pΦx2 −µ 2)σ 2. Diese Artder Verteilung wird als Contaminated Normal- Distribution (CN-Verteilung) bezeichnetund lässt sich durch p 1 , . . . , p k mit p i ∈ (0, 1) für i = 1, . . . , k und ∑ ki=1 p i = 1 sowieX 1 , . . . , X k mit X i ∼ N (µ i , σi 2 ) für i = 1, . . . , k <strong>auf</strong> k normalverteilte Zufallsvariablenerweitern. Die nachfolgenden Analysen werden sich jedoch <strong>auf</strong> den Fall zweier Zufallsvariablenbeschränken. Dazu sei o.B.d.A. µ 1 = 0 und σ 2 1 = 1 sowie IE[X 2] ∈ {0, 1, 2, 3},Var[X 2 ] ∈ {0.5, 1, 3} und p ∈ {0.1, 0.25, 0.3, 0.5, 0.75}. Aufgrund der miserablen Ergebnisseder Statistiken LIL, CV M und P EA in den <strong>Test</strong>situationen des vorigen Abschnittesbeschränken sich die folgenden Analysen <strong>auf</strong> die <strong>Test</strong>statistiken JB, AD und SF . DieAbbildungen (4.2) bis (4.4) zeigen die Ergebnisse der Analysen, die mit dem Programm R<strong>auf</strong> der Basis von ja 1000 Replikationen zum Signifikanzniveau α = 0.05 durchgeführt wurden.Die Sternchen <strong>auf</strong> den JB-Kurven in den Grafiken deuten die Lage der Stichprobengrößenn ∈ {20, 50, 100, 200, 400} an. Zudem sind unterhalb der jeweiligen Powergrafikendie Dichten der zugehörigen CN-Verteilungen im Vergleich zur zentrierten und standardisierten<strong>Normalverteilung</strong> dargestellt. Die Vorgehensweise entspricht dabei der des erstenModells, wobei diesmal Zufallszahlen der einzelnen Kombinationen von Z erzeugt wurden.Die Berechnung der Power im Falle der JB-Statistik wurde dabei erneut über die ekWvorgenommen, die in Tabelle (4.1) angegeben sind, die Power der Statistiken AD und SFüber die p-Werte der in R implementierten <strong>Test</strong>s.Fazit: Neben der absoluten Power des JB-<strong>Test</strong>s, die sich hinsichtlich der Stichprobengrößenbei den unterschiedlichen Verteilungsformen deutlich unterscheiden, gibt es auchgravierende Unterschiede in der relativen Power zu den beiden anderen <strong>Test</strong>statistiken. Es


4.3. Powervergleich in speziellen Situationen 39Abbildung 4.2: Power der <strong>Test</strong>statistiken JB, AD und SF in Abhängigkeit der Stichprobengrößen bei den CN-Verteilungen mit Parametern σ2 2 = 1,µ 2 ∈ {2, 3} und p ∈ {0.1, 0.3, 0.5}. Die exakten Ergebnisse der Analysenkönnen der Tabelle (A.3) entnommen werden.


40 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> im VergleichAbbildung 4.3: Power der <strong>Test</strong>statistiken JB, AD und SF in Abhängigkeit der Stichprobengrößen bei den CN-Verteilungen mit Parametern σ2 2 = 0.5,µ 2 ∈ {1, 2} und p ∈ {0.25, 0.5, 0.75}. Die exakten Ergebnisse der Analysenkönnen der Tabelle (A.4) entnommen werden.


4.3. Powervergleich in speziellen Situationen 41Abbildung 4.4: Power der <strong>Test</strong>statistiken JB, AD und SF in Abhängigkeit der Stichprobengrößen bei den CN-Verteilungen mit Parametern σ2 2 = 3,µ 2 ∈ {0, 2} und p ∈ {0.25, 0.5, 0.75}. Die exakten Ergebnisse der Analysenkönnen der Tabelle (A.5) entnommen werden.


42 <strong>Der</strong> <strong>Jarque</strong>-<strong>Bera</strong>-<strong>Test</strong> im Vergleichist klar zu erkennen, dass vor allem in der Situation bidmodaler CN-Verteilungen der JB-<strong>Test</strong> für Stichproben der Größenordnung n ≤ 200 deutlich schlechtere Ergebnisse liefertals seine Konkurrenz. Betrachtet man die unimodalen CN-Verteilungen, so unterliegt derJB-<strong>Test</strong> insbesondere in den Situationen, in denen die Schiefe und/oder die Wölbung nurminimal von denen der <strong>Normalverteilung</strong> abweichen. Ist eine Abweichung deutlicher zu erkennen,so stellt der JB-<strong>Test</strong> auch für kleine Stichproben ein hilfreiches und gleichwertigesMittel zum <strong><strong>Test</strong>en</strong> <strong>auf</strong> <strong>Normalverteilung</strong> dar.


Kapitel 5<strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate<strong>Normalverteilung</strong>Die Theorie des <strong><strong>Test</strong>en</strong>s <strong>auf</strong> univariate <strong>Normalverteilung</strong> basierte <strong>auf</strong> der Annahme einerStichprobe x = (x 1 , . . . , x n ), welche als Realisierung von sowohl unabhängigen, als auchidentisch verteilten Zufallsvariablen X 1 , . . . , X n angenommen wurde. Um im folgendennicht nur <strong>auf</strong> Zusammenhänge zwischen einzelnen Beobachtungen einzugehen, sondernauch zwischen verschiedenen Merkmalen dieser Beobachtungen, erweitern wir den Ansatzindem wir in diesem Kapitel Stichproben X = (X 1 , . . . , X n ) betrachten, die ausp-Zufallsvektoren X i = (X 1i , . . . , X pi ) T für i = 1, . . . , n bestehen, wobei X 1i , . . . , X pieindimensionale Zufallsvariablen darstellen. X i wird dadurch zu einer Beobachtung, diep Merkmale beinhaltet, deren Abhängigkeitsstruktur untereinander durch die (p × p)-Kovarianzmatrix Cov[X i ] = ( σ jk)1≤j,k≤p mit σ jk = Cov[X ji , X ki ] für i = 1, . . . , n ausgedrücktwerden kann. Dazu nehmen wir im folgenden an, dass sowohl die ErwartungswertvektorenIE[X i ], als auch die Kovarianzmatrizen Cov[X i ] der betrachteten ZufallsvektorenX i für i = 1, . . . , n existieren. Die einzelnen Zufallsvektoren werden dabei wieim univariaten Fall als unabhängig und identisch verteilt angenommen. Eine StichprobeX bestehend aus n Beobachtungsvektoren der Länge p kann somit als (p × n)-Matrix⎛⎞X 11 · · · X 1nX = ⎜ . ⎝ . .. .⎟⎠ dargestellt werden. Man bezeichnet X als Daten- oder Beobachtungsmatrix.Geometrisch lassen sich die Spalten der Matrix als Punkte imX p1 · · · X pnp-dimensionalenRaum deuten, welche der Untersuchung eines Zusammenhangs verschiedener Objekte(Beobachtungen) untereinander dienen können. Die Zeilen hingegen sind Punkte im n-dimensionalen Raum und werden benutzt um Beziehungen zwischen verschiedenen Merkmalen<strong>auf</strong>zudecken.43


44 <strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate <strong>Normalverteilung</strong>Statistische Problemstellungen, die dem angegebenen Modell zugrundeliegen, werdenin den Bereich der multivariaten Statistik eingeordnet. Ebenso wie im univariaten Fall bestehtnun Interesse daran, anhand einer Stichprobe Aussagen über die Verteilung der denBeobachtungen zugrunde liegenden Grundgesamtheit zu treffen. Unser Augenmerk liegtspeziell <strong>auf</strong> der Erweiterung des im vorigen Kapitel entwickelten Modells. Zwangsläufigstellt sich die Frage, ob sich das von <strong>Jarque</strong> und <strong>Bera</strong> hergeleitete Ergebnis einer <strong>Test</strong>statistikzum <strong><strong>Test</strong>en</strong> <strong>auf</strong> univariate <strong>Normalverteilung</strong> in ähnlicher Weise <strong>auf</strong> den multivariatenFall übertragen lässt. Dazu sind die im eindimensionalen Fall recht anschaulichenMaße für die Schiefe und Wölbung einer Verteilung <strong>auf</strong> die multivariaten Situationen zuübertragen. Da es sich jedoch nicht um eindeutige Fortsetzungen handelt, wie man bereitsan der Vielfältigkeit der sich mit diesem Thema auseinandersetzenden Literatur erkennenkann, bietet sich die Möglichkeit mehrerer <strong>Test</strong>erweiterungen. In der vorliegenden Analysebeschränken wir uns dabei <strong>auf</strong> die zwei wohl bekanntesten Fortsetzungen von Mardia,weisen jedoch dar<strong>auf</strong> hin, dass weitere Vorschläge für multivariate Maße wie die in [Sri84]und [MA73] sowie [Sma80] und [Son01] zur Verfügung stehen. In Abschnitt eins führen wirdazu die in [Mar70] vorgeschlagenen Maße für die multivariate Schiefe sowie die multivariateWölbung ein und geben einige wichtige Eigenschaften derselben. Daran anschließendwerden einige daraus resultierende <strong>Test</strong>statistiken untersucht.5.1 Multivariate Schiefe- und WölbungsmaßeWie bereits einleitend erwähnt, greifen wir <strong>auf</strong> die Ergebnisse von Mardia zurück undgeben die Schiefe- und Wölbungsmaße an, die in [Mar74] wie folgt definiert werden.Definition 5.1.1. Es seien X = (X 1 , . . . , X p ) T und Y = (Y 1 , . . . , Y p ) T unabhängigeund identisch verteilte p-Zufallsvektoren mit existierendem Erwartungswertvektor µ =(µ 1 , . . . , µ p ) T und existierender Kovarianzmatrix Σ. Dann bezeichne in Übereinstimmungder Notation des univariaten Falls[( (X ) Tβ 1,p = IE − µ Σ−1 ( Y − µ )) 3](5.1)das multivariate Schiefemaß nach Mardia und[( (X ) Tβ 2,p = IE − µ Σ−1 ( X − µ )) 2](5.2)das multivariate Wölbungsmaß nach Mardia.Die Motivation für die Darstellung des Schiefemaßes in vorliegender Form lässt sich anhandvon [Mar70] begründen. Ausgehend von dem in [KS67], S.466, hergeleiteten Ergebnisder asymptotischen Äquivalenz von Cor[ ¯X, S 2 ] und (β 1 /2) 1/2 mit ¯X als Stichprobenmittel


5.1. Multivariate Schiefe- und Wölbungsmaße 45der univariaten Zufallsvariablen X 1 , . . . , X n , S 2 als Stichprobenvarianz und β 1 als univariatemSchiefemaß (der zugrunde liegenden Grundgesamtheit) unter gewissen Konvergenzvoraussetzungenan die zweiten Momente (Var[ ¯X], Var[S 2 ], Cov[ ¯X, S 2 ] zur Ordnungn −1 ), versuchte Mardia die asymptotische Beziehung zwischen der Korrelation oben angegebenerGrößen und der Schiefe <strong>auf</strong> den mehrdimensionalen Fall zu übertragen. Resultatwar das Maßβ 1,p =p∑p∑r,s,t=1 r ′ ,s ′ ,t ′ =1σ rr′ σ ss′ σ tt′ µ (rst) s ′ t ′111 µr′ 111mit (σ rs ) = Σ −1 und µ (s 1,...,s k )r 1 ,...,r k= IE [ ∏ ki=1 (X s i− µ si ) r i].<strong>Der</strong> multivariaten Wölbung liegt eine Beziehung zum Ein-Stichproben Pitman´s Permutationstestzugrunde, so dassβ 2,p =p∑p∑r,s=1 r ′ ,s ′ =1σ rs σ r′ s ′ µ (rsr′ s ′ )1111gilt. Daraus leitete Mardia über Bilinearformen die obigen Ergebnisse (5.1) und (5.2) ab.Es sei nun X = (X 1 , . . . , X n ) eine Stichprobe aus i.i.d. p-Zufallsvektoren mit unbekannterVerteilung. Da der Erwartungswertvektor µ = IE[X i ] = ( IE[X 1i ], . . . , IE[X pi ] ) Tder Zufallsvektoren X i für i = 1, . . . , n unbekannt ist, werden wir diesen im folgendenschätzen. Es sei ˆµ = ¯X = ( ¯X 1 , . . . , ¯X p ) T der Stichprobenmittelwertvektor mit ¯Xj =n −1 ∑ ni=1 X ji für j = 1, . . . , p als Stichprobenmittel des j-ten Merkmals. Ebenso schätzenwir Σ durch die Stichprobenkovarianzmatrix S = (s jk ) 1≤j,k≤p mit s jk = n −1 ∑ ni=1 (X ji −¯X j )(X ki − ¯X k ). Dann lässt sich das Stichprobenanalogon zu (5.1) und (5.2) wie folgtdefinieren.Definition 5.1.2. Es gelten die getroffenen Annahmen. Dann bezeichnetb 1,p = 1 n∑ n∑ ( (Xin 2− ¯X ) T S−1 ( X j − ¯X )) 3i=1 j=1die multivariate Stichprobenschiefe nach Mardia undb 2,p = 1 n∑ ( (Xi− ¯X ) T S−1 ( X i − ¯X )) 2ni=1die multivariate Stichprobenwölbung nach Mardia.(5.3)(5.4)Bemerkung 5.1.3. Es seien X und Y unabhängige und identisch N p (µ, Σ)-verteilteZufallsvektoren. Dann gilt:β 1,p = 0 und β 2,p = p(p + 2)


46 <strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate <strong>Normalverteilung</strong>Beweis. Es seien X und Y unabhängig und identisch N p (µ, Σ)-verteilt. Da die Verteilungvon ( X −µ ) T Σ−1 ( Y −µ ) symmetrisch um ( X −µ ) T Σ−1 ( Y −µ ) = 0 ist, folgt IE [(( X −µ ) T Σ−1 ( Y − µ )) 3]= 0 und mit (5.1) die Behauptung. Für die zweite Aussage wirdLemma (2.2.8) benutzt. Es gilt ( X − µ ) T Σ−1 ( X − µ ) ∼ χ 2 (p) , so dass mit (5.2) β 2,p =IE [ (χ 2 (p) )2] = p(p + 2) folgt.Weiter zu bemerken ist, dass die neuen Maße auch in der univariaten Situation p = 1angewendet werden können. Es gilt dann b 1,1 = b 1 und b 2,1 = b 2 .5.2 Asymptotische VerteilungDieser Abschnitt befasst sich mit der asymptotischen Verteilung der von Mardia angegebenenmultivariaten Maße. Diese kann dazu genutzt werden, <strong>Test</strong>s <strong>auf</strong> multivariate<strong>Normalverteilung</strong> herzuleiten, wie dies auch von Mardia getan wurde. Die asymptotischeVerteilung dient dazu, die kritischen Werte der <strong>Test</strong>s zu vorgegebenem Signifikanzniveau αanhand der kritischen Werte der asymptotischen Verteilung zu bestimmen. Diese stimmen<strong>auf</strong>grund der Asymptotik der Verteilung für wachsende Stichprobenumfänge mit steigenderGenauigkeit überein. Damit ist das fehlende Wissen über die exakte Verteilung der<strong>Test</strong>statistik nicht weiter von Relevanz, vorausgesetzt die Stichprobe ist groß genug. Diesist allerdings in den meisten Anwendungen nicht der Fall. Für kleine Stichproben werdenwir deshalb wie im univariaten Fall empirische Analysen durchführen und somit wenn auchnicht exakte, jedoch hinreichend genaue kritische Werte ermitteln. Auf diese, <strong>auf</strong> Monte-Carlo-Simulationen basierenden Untersuchungen werden wir später näher eingehen. DasErgebnis der asymptotischen Verteilung liefert der folgendeSatz 5.2.1. Es seien b 1,p und b 2,p wie in (5.3) und (5.4) und X = (X 1 , . . . , X n ) eineStichprobe aus i.i.d. p-Zufallsvektoren mit X i ∼ N p (µ, Σ) für i = 1, . . . , n. Weiter sei() 1/2 ()B 1,p = n 6 b 1,p und B 2,p =(n + 1)b 2,p − p(p + 2)(n − 1) .Dann gilt:(n+3)(n+5)8p(p+2)(n−3)(n−p−1)(n−p+1)B 1,pD −→ χ2(p(p+1)(p+2)/6)undB 2,pD −→ N (0, 1).Bevor wir mit dem Beweis des Satzes beginnen ist die Einführung einer Verteilungnotwendig, die als multivariate Verallgemeinerung der χ 2 -Verteilung angesehen werdenkann.


5.2. Asymptotische Verteilung 47Definition 5.2.2. Es sei X = (X 1 , . . . , X n ) mit X i ∼ N p (0, Σ) für i = 1, . . . , n undM = XX T = ∑ ni=1 X iX T i . Dann besitzt M eine Wishart-Verteilung mit SkalenmatrixΣ und n Freiheitsgraden. Wir schreiben M ∼ W p (n, Σ).Beweis. Wir beginnen den Beweis des Satzes mit einem Lemma. Dieses liefert zusammenmit dem zentralen Grenzwertsatz die asymptotische Konvergenz von B 2,p . Danachbestimmen wir die asymptotische Verteilung der multivariaten Schiefe b 1,p .Lemma 5.2.3. Es sei b 2,p wie in (5.4). Dann gilt mit X = (X 1 , . . . , X n ) und X i ∼N p (µ, Σ) für i = 1, . . . , n:IE [ ] 1b 2,p = p(p + 2)(n − 1)n + 1 undVar [ ] 8p(p + 2)(n − 3)b 2,p =(n + 1) 2 (n − p + 1)(n − p − 1).(n + 3)(n + 5)Beweis zum Lemma 5.2.3. <strong>Der</strong> Beweis des Lemmas basiert <strong>auf</strong> [Mar74], Kap. 4. Es seiX i = (X 1i , . . . , X pi ) Tfür i = 1, . . . , n mit X i ∼ N p (µ, Σ). Aufgrund der Invarianz vonb 2,p unter nichtsingulären Transformationen X ↦→ AX +b, was sich leicht durch Einsetzenin (5.4) zeigen lässt, beschränken wir uns o.B.d.A. <strong>auf</strong> den Fall µ = 0 und Σ = I p . Weiterseimitso dassM = nS =R ij = ( X i − ¯X ) T M−1 ( X j − ¯X ) (5.5)n∑ (Xi − ¯X )( X i − ¯X ) n∑T = X i X T i − n ¯X ¯X T , (5.6)i=1b 2,p = ni=1n∑Rii 2 (5.7)gilt. Die Berechnung der Momente von b 2,p geschieht nun über die Momente von R ij .Dazu betrachten wir X (r) = (X r1 , . . . , X rn ) Ti=1als n-Vektor im Merkmal r und transformierenX (r) mittels einer orthogonalen Transformation zu ζ (r) = (ζ r1 , . . . , ζ rn ) T . Die zurBeschreibung dieser orthogonalen Abbildung benutzte (n × n)-Matrix hat die Gestalt⎛⎞d 2 e 2 0 · · · · · · 0. d 3 d 3 e .. 3 .. dH = 4 d 4 d 4 e .. 4 .. . . . .. . .. 0⎜⎝ d n · · · · · · · · · d n e⎟ n ⎠n −1/2 · · · · · · · · · · · · n −1/2


48 <strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate <strong>Normalverteilung</strong>mit d j = ( j(j − 1) ) −1/2 , ej = −(j − 1)d j und wird als verallgemeinerte Helmert-Matrixbezeichnet. Es sei ζ = (ζ ri ) 1≤r≤p,1≤i≤n definiert durch ζ (r) = HX (r) für r = 1, . . . , p.Dann istund somit ζζ T = XH T HX T H orthogonal= XX T . Es folgtζ T = HX T (5.8)n∑X i X T i = XX T = ζζ T =i=1n∑ζ i ζ T i . (5.9)i=1Weiter folgt mit (5.8) und der Darstellung von H, dass ζ rn = n −1/2 ∑ ni=1 X ri, so dassζ n = n 1/2 ¯X und folglichgilt. Mit (5.6), (5.9) und (5.10) folgtζ n ζ T n = n ¯X ¯X T (5.10)M =n∑n−1∑ζ i ζ T i − ζ n ζ T n = ζ i ζ T i . (5.11)i=1i=1Aus (5.8) kann auch eine Darstellung von X in Abhängigkeit von ζ bestimmt werden. Esist X T = H −1 ζ T und wegen der Orthogonalität von H ist X T = H T ζ T ⇔ X = ζH.Mit der Darstellung von H folgt somitundn−1∑X i = e i ζ i−1 + d k+1 ζ k + n − 1 2 ζn für i = 1, . . . , n − 1k=iX n = e n ζ n−1 + n − 1 2 ζnmit ζ 0 = 0. Es ist n −1/2 ζ n = ¯X. <strong>Der</strong> Kürze halber schreiben wir X i für i = 1, . . . , n − 1und X n als eine Gleichung der Formn−1∑X i − ¯X = e i ζ i−1 + d k+1 ζ k für i = 1, . . . , n (5.12)k=iwobei für i = n gelte: ∑ n−1k=n d k+1ζ k = 0.Zerlegt man M derart, dass M = T T T mit einer (p × p)-Matrix T , dann folgt mit (5.5)und (5.12)R ij ==(n−1∑ ) T ( ) n−1∑ )e i ζ i−1 + d k+1 ζ k T T T −1(e j ζ j−1 + d k+1 ζ kk=ik=j(n−1∑ ) Te i ζ i−1 + d k+1 ζ k(T −1) T ( n−1∑ )T−1e j ζ j−1 + d k+1 ζ kk=ik=j


5.2. Asymptotische Verteilung 49=(n−1∑) n−1T ∑e i T −1 ζ i−1 + d k+1 T −1 ζ k(e j T −1 ζ j−1 + d k+1 T −1 ζ k).k=iDefiniert man Z i = T −1 ζ i für i = 1, . . . , n, so istk=jR ij =(n−1∑ ) n−1T ∑ )e i Z i−1 + d k+1 Z k(e j Z j−1 + d k+1 Z kk=ik=j(5.13)und die Momente von R ij lassen sich anhand der Momente von Z i herleiten. Diese wollenwir im folgenden bestimmen. Grundlage dafür ist die Dichte der (p × k)-Matrix (k)Z =(Z 1 , . . . , Z k ), für deren Bestimmung wir <strong>auf</strong> ein Resultat von Khatri zurückgreifen, <strong>auf</strong>dessen Beweis hier verzichtet werden soll. <strong>Der</strong> interessierte Leser sei <strong>auf</strong> [Kha59], S.1259,verwiesen. Das Resultat lautet wie folgt.Lemma 5.2.4. Es seien Q eine (p × p)-Matrix und V eine (p × k)-Matrix. Q und Vseien unabhängig verteilt mit Q ∼ W p (n, Σ) und V = (V 1 , . . . , V k ) mit V i ∼ N p (0, Σ)für i = 1, . . . , k. Weiter sei U = Q+V V T und R eine (p×p)-Matrix, so dass RR T = U.Dann gilt:U und Z = R −1 Vsind unabhängig mit U ∼ W p (n + k, Σ) und Z hat eine Dichteder Form f(Z; n + k, k, p) = c(n + k, k, p) ∣ ∣I p − ZZ T ∣ 1 2 (n−p−1) mit c(n + k, k, p) =π − 1 2 pk ∏ ( )(pj=1 Γ n+k−j+12Γ ( n−j+1) ) −12 . Γ steht in diesem Zusammenhang für die Gammafunktion.Es sei nun Q = (ζ k+1 , . . . , ζ n−1 )(ζ k+1 , . . . , ζ n−1 ) T , dann ist Q ∼ W p (n − k − 1, Σ).Weiter sei V = (ζ 1 , . . . ζ k ), dann gilt mit (5.11) M = Q + V V T . Nach Lemma 5.2.4 sindM und (k)Z = (Z 1 , . . . , Z k ) = T −1 V unabhängig und ferner besitzt (k)Z die Dichtef( (k)Z ; n − 1, k, p) = c(n − 1, k, p) ∣ ∣I p − (k)j=1Z (k)T ∣ 1Z2 (n−k−p−2)p∏ (= π − 1 n − j)( ( n − k − j2 pk Γ Γ22)) −1 ∣ ∣∣Ip− (k)Z (k)T ∣ 1∣∣Z2 (n−k−p−2) .Diese wird im folgenden benutzt, um die Momente von b 2,p zu bestimmen. Zuvor jedochstellen wir einige nützliche Lemmata <strong>auf</strong>. Dazu seien x i und y i für i = 1, . . . , n im folgendenreelle Zahlen. Die Beweise der Lemmata benutzen das Prinzip der augmented symmetricfunctions, deren Herleitung an dieser Stelle im Interesse einer verständlichen Darstellungüberflüssig erscheint und infolge dessen vernachlässigt wird. Die notwendigen Definitionenzum Verständnis lauten(r) =n∑i=1x r i


50 <strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate <strong>Normalverteilung</strong>s pq =und [(p 1 q 1 ) π 1, . . . , (p λ q λ ) π λ] =n∑i=1x p i yq in∑i 1 ,...,i ν=1i 1 ≠···≠iνx p 1i 1y q 1i 1 · · · x p λiνy q λiνmit ν = ∑ λi=1 π i. Mit Hilfe der Tabellen 1 · 1 · 2, 1 · 6 · 4 und 1 · 6 · 8 in [DKB66] könnendie folgenden Resultate gewonnen werden.Lemma 5.2.5. In der vorliegenden Situation gilt:( n−1∑k=i−1) n−1 2 ∑c k Z j,k =k=i−1c 2 k Z2 j,k +n−1∑c k1 Z j,k1 c k2 Z j,k2 (5.14)k 1 ,k 2 =i−1Beweis. Dies resultiert aus einer Darstellung der Form s 2 11 = [22] + [11, 11]Lemma 5.2.6. In der vorliegenden Situation gilt:[( ∑pIEn−1∑j=1 k=i−1c 2 k Z2 j,k) 2 ]=+p∑j=1p∑j 1 ,j 2 =1j 1 ≠j 2( n−1 ∑k=i−1( n−1 ∑k=i−1c 4 k IE[Z4 j,k ] +n−1∑c 4 k IE[Z2 j 1 ,k Z2 j 2 ,k ] +k 1 ,k 2 =i−1k 1 ≠k 2c 2 k 1c 2 k 2IE[Z 2 j,k 1Z 2 j,k 2]n−1∑)k 1 ,k 2 =i−1k 1 ≠k 2c 2 k 1c 2 k 2IE[Z 2 j 1 ,k 1Z 2 j 2 ,k 2])(5.15)Beweis. (5.15) ist das Ergebnis einer Zerlegung der Form (1) 2 = [2] + [1 2 ] und Einsetzender Gleichungenund( n−1∑k=i−1c 2 k Z2 j 1 ,k( n−1∑k=i−1)( n−1∑k=i−1c 2 k Z2 j,kc 2 k Z2 j 2 ,k) 2=n−1∑)=k=i−1n−1∑k=i−1c 4 k Z4 j,k +n−1∑c 4 k Z2 j 1 ,k Z2 j 2 ,k +c 2 k 1Zj,k 2 1c 2 k 2Zj,k 2 2(5.16)k 1 ,k 2 =i−1n−1∑k 1 ,k 2 =i−1k 1 ≠k 2c 2 k 1Z 2 j 1 ,k 1c 2 k 2Z 2 j 2 ,k 2. (5.17)(5.16) und (5.17) resultieren aus der Darstellung s 2 22 = [44] + [22, 22], wobei in (5.17)dar<strong>auf</strong> zu achten ist, dass Z j1 ,k und Z j2 ,k wegen j 1 ≠ j 2 in verschiedenen Merkmalenvorliegen.Lemma 5.2.7. In der vorliegenden Situation gilt:[( ∑pIEn−1∑) 2 ]c k1 Z j,k1 c k2 Z j,k2j=1 k 1 ,k 2 =i−1k 1 ≠k 2


5.2. Asymptotische Verteilung 51=p∑j=1+++ 4+(2n−1∑k 1 ,k 2 ,k 3 ,k 4 =i−1n−1∑c 2 k 1c 2 k 2IE[Z j,k 2 1Zj,k 2 2] + 4 c 2 k 1c k2 c k3 IE[Z j,k 2 1Z j,k2 Z j,k3 ]k 1 ,k 2 =i−1k 1 ,k 2 ,k 3 =i−11 2 1 2 3n−1∑)c k1 c k2 c k3 c k4 IE[Z j,k1 Z j,k2 Z j,k3 Z j,k4 ]k 1 ≠k 2 ≠k 3 ≠k 4p∑n−1∑2k 1 ≠k 2k 1 ,k 2 =i−1(j 1 ,j 2 =1j 1 ≠j 2n−1∑k 1 ,k 2 ,k 3 =i−1k 1 ≠k 2 ≠k 3c 2 k 1c k2 c k3 IE[Z j1 ,k 1Z j2 ,k 1Z j1 ,k 2Z j2 ,k 3]n−1∑k 1 ,k 2 ,k 3 ,k 4 =i−1k 1 ≠k 2 ≠k 3 ≠k 4c k1 c k2 c k3 c k4 IE[Z j1 ,k 1Z j1 ,k 2Z j2 ,k 3Z j2 ,k 4])(5.18)Beweis. (5.18) ist das Ergebnis einer Zerlegung der Form (1) 2 = [2] + [1 2 ] und Einsetzender Gleichungen( n−1∑) 2c k1 Z j,k1 c k2 Z j,k2k 1 ,k 2 =i−1k 1 ≠k 2= 2+n−1∑k 1 ,k 2 =i−1k 1 ≠k 2c 2 k 1Z 2 j,k 1c 2 k 2Z 2 j,k 2+ 4n−1∑n−1∑k 1 ,k 2 ,k 3 =i−1k 1 ≠k 2 ≠k 3c 2 k 1Z 2 j,k 1c k2 Z j,k2 c k3 Z j,k3c k1 Z j,k1 c k2 Z j,k2 c k3 Z j,k3 c k4 Z j,k4 (5.19)k 1 ,k 2 ,k 3 ,k 4 =i−1und( n−1∑k 1 ,k 2 =i−1k 1 ≠k 2)(c k1 Z j1 ,k 1c k2 Z j1 ,k 2n−1∑k 1 ,k 2 =i−1k 1 ≠k 2)c k1 Z j2 ,k 1c k2 Z j2 ,k 2= 2+n−1∑k 1 ,k 2 =i−1k 1 ≠k 2c 2 k 1Z j1 ,k 1Z j2 ,k 1c 2 k 2Z j1 ,k 2Z j2 ,k 2+ 4n−1∑n−1∑k 1 ,k 2 ,k 3 =i−1k 1 ≠k 2 ≠k 3c 2 k 1Z j1 ,k 1Z j2 ,k 1c k2 Z j1 ,k 2c k3 Z j2 ,k 3c k1 Z j1 ,k 1c k2 Z j1 ,k 2c k3 Z j2 ,k 3c k4 Z j2 ,k 4. (5.20)k 1 ,k 2 ,k 3 ,k 4 =i−1(5.19) und (5.20) ergeben sich mit Hilfe der Gleichungen [(11) 2 ] 2 1·6·4 = (−s 22 + s 2 11 )2 =s 2 22 − 2s 22s 2 11 + s4 1·6·811 = 2[(22) 2 ] + 4[22, (11) 2 ] + [(11) 4 ]. Hierbei ist dar<strong>auf</strong> zu achten, dassZ in Gleichung (5.20) in zwei Merkmalen <strong>auf</strong>tritt, so dass c, Z j1 und Z j2 drei Variablendarstellen.


52 <strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate <strong>Normalverteilung</strong>Lemma 5.2.8. In der vorliegenden Situation gilt:[( ∑p2IE= 2n−1∑j=1 k=i−1p∑j=1+ 2(2c 2 k Z2 j,kn−1∑)( p ∑n−1∑)]c k1 Z j,k1 c k2 Z j,k2j=1 k 1 ,k 2 =i−1k 1 ≠k 2n−1∑c 3 k 1c k2 IE[Z j,k 3 1Z j,k2 ] +k 1 ,k 2 =i−1k 1 ≠k 2p∑( n−1∑2j 1 ≠j 2 k 1 ≠k 2k 1 ,k 2 =i−1j 1 ,j 2 =1k 1 ,k 2 ,k 3 =i−1k 1 ≠k 2 ≠k 3c 2 k 1c k2 c k3 IE[Z 2 j,k 1Z j,k2 Z j,k3 ]n−1∑k 1 ,k 2 ,k 3 =i−1k 1 ≠k 2 ≠k 3c 2 k 1c k2 c k3 IE[Z 2 j 1 ,k 1Z j2 ,k 2Z j2 ,k 3]Beweis. (5.21) ergibt sich durch Zerlegung der Form (1)(1) = [2] + [1 2 ] und den Gleichungenund( n−1∑k=i−1( n−1∑= 2k=i−1= 2c 2 k Z2 j 1 ,kc 2 k Z2 j,kn−1∑k 1 ,k 2 =i−1)( n−1∑n−1∑k 1 ,k 2 =i−1k 1 ,k 2 =i−1k 1 ≠k 2c k1 Z j,k1 c k2 Z j,k2)k 1 ≠k 2c 3 k 1Z 3 j,k 1c k2 Z j,k2 +)( n−1∑k 1 ,k 2 =i−1k 1 ≠k 2c k1 Z j2 ,k 1c k2 Z j2 ,k 2)k 1 ≠k 2c 3 k 1Z 2 j 1 ,k 1Z j2 ,k 1c k2 Z j2 ,k 2+n−1∑c 2 k 1Zj,k 2 1c k2 Z j,k2 c k3 Z j,k3 (5.22)k 1 ,k 2 ,k 3 =i−1n−1∑k 1 ,k 2 ,k 3 =i−1k 1 ≠k 2 ≠k 3c 2 k 1Z 2 j 1 ,k 1c k2 Z j2 ,k 2c k3 Z j2 ,k 3.)(5.23)(5.22) und (5.23) wiederum folgen als Lösungen der Gleichung [22][(11) 2 ] 1·6·4 = −s 2 22 +s 22 s 2 11 = 2[33, 11] + [22, (11)2 ] und wiederholter Beachtung, dass c, Z j1 und Z j2 unterschiedlicheVariablen sind.Wir fahren mit den Momenten von b 2,p fort. Dazu sei c k = e i 1 {k=i−1} +d k+1 1 {k=i,...,n−1} .Dann folgt mit IE [ Z v j,k]= 0 für v ungerade und wegen der Unabhängigkeit der Zk fürk = 1, . . . , n:IE [ [] (5.7)b 2,p = IE n(5.13)= n(5.14)= ni=1n∑i=1R 2 ii]n∑[( p∑ ( n−1∑ ) ) 2 2 ]IEc k Z j,kj=1n∑i=1[( p∑IEj=1k=i−1n−1∑k=i−1c 2 k Z2 j,k + p∑n−1∑) 2 ]c k1 Z j,k1 c k2 Z j,k2j=1 k 1 ,k 2 =i−1k 1 ≠k 2).(5.21)


5.2. Asymptotische Verteilung 53Ein weiteres Ergebnis von Khatri und Pillai ist hilfreich, um die Gleichung zu vereinfachen.= n(5.15),(5.18),(5.21)= n(n∑[( p∑IEj=1i=1[( p∑+ 2IEj=1++ 2n∑i=1( p∑j=1p∑j 1 ,j 2 =1j 1 ≠j 2n−1∑n−1∑k=i−1( n−1 ∑( n−1 ∑k=i−1k=i−1n−1∑k=i−1c 2 k Z2 j,kc 2 k Z2 j,k)( p∑j=1c 4 k IE[Z4 j,k ] + 3c 4 k IE[Z2 j 1 ,k Z2 j 2 ,k ] +) 2 ] [( p∑+ IEj=1n−1∑n−1∑k 1 ,k 2 =i−1k 1 ≠k 2Z j,k1 c k2 Z) 2 ]c k1 Z j,k1 c k2 Z j,k2)] )j,k2k 1 ≠k 2k 1 ,k 2 =i−1n−1∑k 1 ,k 2 =i−1k 1 ≠k 2c 2 k 1c 2 k 2IE[Z 2 j,k 1Z 2 j,k 2]n−1∑k 1 ,k 2 =i−1k 1 ,k 2 =i−1k 1 ≠k 2c 2 k 1c 2 k 2IE[Z j1 ,k 1Z j2 ,k 1Z j1 ,k 2Z j2 ,k 2])k 1 ≠k 2c 2 k 1c 2 k 2IE[Z 2 j 1 ,k 1Z 2 j 2 ,k 2]Lemma 5.2.9. Es sei M eine (p × k)-Matrix bestehend aus Zufallsvariablen M ji für j =1, . . . , p, i = 1, . . . , k. M besitze die Dichte g(M; f, k, p) = c(f, k, p) ∣ ∣I p −MM T ∣ 1 2 (f−p−k−1)mit c(f, k, p) = π − 1 2 pk ∏ ( )( ( ))pj=1 Γ f−j+12Γ f−k−j+1 −1.2 Dann gilt:) ) .IE [ Mji2 ] 1 =fIE [ Mj 2 1 i 1Mj 2 ] 32 i 2 =f(f + 2)1=f(f + 2)f + 1=(f − 1)f(f + 2)für j = 1, . . . , p, i = 1, . . . , k,für j 1 = j 2 , i 1 = i 2 ,für j 1 = j 2 , i 1 ≠ i 2 oder j 1 ≠ j 2 , i 1 = i 2 ,für j 1 ≠ j 2 , i 1 ≠ i 2 .Beweis. <strong>Der</strong> Beweis basiert <strong>auf</strong> einer Zerlegung der multivariaten Dichte von M in einProdukt univariater Beta-Verteilungen, soll aber hier nicht näher ausgeführt werden. FürDetails verweisen wir <strong>auf</strong> [KP66], S.149ff.Mit Lemma 5.2.9 folgt somitIE [ (]n∑(3b 2,p = n p(n − 1)(n + 1)i=1(1+ p(p − 1)(n − 1)(n + 1)n−1∑k=i−1n−1∑k=i−1c 4 k + 3(n − 1)(n + 1)c 4 k +n−1∑)c 2 k 1c 2 k 2k 1 ,k 2 =i−1k 1 ≠k 2n(n − 2)(n − 1)(n + 1)n−1∑)c 2 k 1c 2 k 2k 1 ,k 2 =i−1k 1 ≠k 2


54 <strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate <strong>Normalverteilung</strong>+ 2p∑j 1 ,j 2 =1j 1 ≠j 2n−1∑k 1 ,k 2 =i−1k 1 ≠k 2c 2 k 1c 2 k 2IE[Z j1 ,k 1Z j2 ,k 1Z j1 ,k 2Z j2 ,k 2]Lemma 5.2.10. Es sei c k = e i 1 {k=i−1} + d k+1 1 {k=i,...,n−1} , d j = (j(j − 1)) −1/2 , e j =−(j − 1)d j . Dann gilt:Beweis.n−1∑k=i−1n−1∑k=i−1c 2 k = n − 1n .c 2 k = c2 i−1 + c 2 i + · · · + c 2 n−1 = e 2 i + d 2 i+1 + · · · + d 2 n).H orth.= 1 − (n −1/2 ) 2 = n − 1nEs folgt nun mit ∑ (n−1k=i−1 c4 k = ∑n−1) 2 ∑k=i−1 c2 k − n−1k 1 ,k 2 =i−1c 2 k 1c 2 k 2und Lemma 5.2.10k 1 ≠k 2schließlichIE [ (]n∑b 2,p = n+i=1+ 23p(n − 1)(n + 1)2p(p − 1)(n − 1)(n + 1)(n − 2)p∑j 1 ,j 2 =1j 1 ≠j 2n−1∑= 1 p(p + 2)(n − 1).n + 1( n − 1n) 2n−1∑c 2 k 1c 2 k 2+k 1 ,k 2 =i−1k 1 ≠k 2p(p − 1)(n − 1)(n + 1)k 1 ,k 2 =i−1k 1 ≠k 2c 2 k 1c 2 k 2IE[Z j1 ,k 1Z j2 ,k 1Z j1 ,k 2Z j2 ,k 2])( n − 1n) 2Bemerkung 5.2.11. Die hier vorliegende Varianz der multivariaten Wölbung b 2,p istexakt. Mardia gab in [Mar70] eine weitere Darstellung für die Varianz an, die zwar eineeinfacherere Struktur besitzt, allerdings nur zur Ordnung n −1 gültig ist. Diese lautetVar [ ] 8p(p + 2)b 2,p = .nNachdem nun der Erwartungswert und die Varianz der multivariaten Wölbung b 2,pvorliegen, kann die asymptotische Verteilung von B 2,p bestimmt werden. Diese folgt leichtmit dem zentralen Grenzwertsatz, der das gewünschte Ergebnis direkt liefert. Ebenso folgtdie asymptotische <strong>Normalverteilung</strong> des Ausdrucks( ) 8p(p + 2) −12 ( )˜B 2,p =b2,p − β 2,p .n


5.3. Multivariate <strong>Test</strong>statistiken 55Obwohl die asymptotischen Verteilungen von B 2,p und ˜B 2,p übereinstimmen, sind die beidenGrößen für endliches n nicht identisch. Dies wird beim <strong><strong>Test</strong>en</strong> <strong>auf</strong> <strong>Normalverteilung</strong>insofern eine Rolle spielen, da die Stichproben endlich sind. Um zu überprüfen welcheder beiden Statistiken für unsere Zwecke besser geeignet ist, müssen die kritischen Werteempirisch berechnet und die Power der beiden Statistiken miteinander verglichen werden.Wir kommen zum zweiten Teil des Beweises. Die asymptotische Verteilung der multivariatenSchiefe hingegen erhalten wird <strong>auf</strong> eine andere Art. Die Vorgehensweise folgt [Mar70],Abs. 2.5.5.3 Multivariate <strong>Test</strong>statistikenAus den im vorigen Abschnitt gewonnenen Resultaten lassen sich mehrere <strong>Test</strong>statistikenableiten. Je nachdem ob die exakte oder asymptotische Varianz des multivariatenWölbungsmaßes b 2,p eingesetzt wird sind dies B 1,p , B 2,p und ˜B 2,p . Mardias <strong>Test</strong> sieht dabeivor, dass die Nullhypothese der <strong>Normalverteilung</strong> der der Stichprobe zugrundeliegendenGrundgesamtheit abgelehnt wird, falls die Werte der Statistik B 1,p oder der Statistik B 2,pan der Stelle der Stichprobe größer als die zugehörigen kritischen Werte sind. Alternativwähle man ˜B 2,p anstelle von B 2,p . Zu vorgegebenem Signifikanzniveau lassen sich die kritischenWerte dabei anhand der asymptotischen Verteilungen bestimmen. Diese Art des<strong><strong>Test</strong>en</strong>s <strong>auf</strong> <strong>Normalverteilung</strong> impliziert also, dass keine <strong>Normalverteilung</strong> vorliegt, fallsdie empirische Schiefe oder die empirische Wölbung zu stark von der theoretischen Schiefeoder Wölbung einer <strong>Normalverteilung</strong> abweicht. ”Oder“ ist in diesem Zusammenhang inseiner Bedeutung nicht ausschließend, d.h. dass bei sowohl starker empirischer Schiefe alsauch starker empirischer Wölbung die Hypothese der <strong>Normalverteilung</strong> ebenfalls abgelehntwird. <strong>Der</strong> <strong>Test</strong> beruht also genau genommen <strong>auf</strong> zwei <strong>Test</strong>statistiken.Ein <strong>Test</strong>, welcher die beiden multivariaten Maße b 1,p und b 2,p in einer <strong>Test</strong>statistk zusammenführt,lässt sich ebenfalls ableiten.Satz 5.3.1. Es gelten die Bezeichnungen und Voraussetzungen des vorigen Abschnittes.Dann können( ) 2 ( ) 2MJB = B 1,p + B 2,p und ˜MJB = B 1,p + ˜B2,pals multivariate <strong>Jarque</strong>-<strong>Bera</strong>-Statistiken angesehen werden. Da B 2,p nach Satz (5.2.1) eineasymptotische Standardnormalverteilung besitzt, haben sowohl MJB als auch ˜MJB eineasymptotische χ 2 -Verteilung mit p(p+1)(p+2)6+ 1 Freiheitsgraden. 1Bemerkung 5.3.2. Speziell im Fall p = 1 stimmt ˜MJB mit dem JB-<strong>Test</strong> aus (3.7)überein.1 Vgl. [KOS09].


56 <strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate <strong>Normalverteilung</strong>Somit besteht auch im <strong><strong>Test</strong>en</strong> <strong>auf</strong> multivariate <strong>Normalverteilung</strong> die Möglichkeit, zugegebenem Signifikanzniveau die kritischen Werte anhand der asymptotischen Verteilungender Statistiken b 1,p und b 2,p zu bestimmen. Für kleine Stichproben jedoch resultierenwie auch im univariaten Fall nur sehr mangelhafte Ergebnisse. Deshalb hat Mardia (1974)kritische Werte für seinen <strong>Test</strong> speziell im Fall p = 2 und einige ausgewählte Stichprobengrößenn für jeweils b 1,2 und b 2,2 angegeben. Da diese Berechnungen bereits zu einemfesten Wert p und mehreren Stichprobengrößen sehr <strong>auf</strong>wendig sind, werden wir <strong>auf</strong> erneuteBerechnungen verzichten und nur die empirischen kritischen Werte der simultantestenden <strong>Test</strong>statistiken MJB und ˜MJB für p = 4 und ausgewählte Stichprobengrößenund Signifikanzniveaus angeben. Die Vorgehensweise ähnelt dabei der im univariaten Fall,soll hier aber dennoch kurz erläutert werden: Mit dem Programm R werden 10 4 Stichprobender Größe n, bestehend aus 4-variaten Beobachtungen generiert. Jede Stichprobebesteht somit aus einer 4 × n Datenmatrix X, wobei jede der n Spalten eine Realisationeines 4-variat normalverteilten Zufallsvektors darstellt. Die Zufallsvektoren untereinanderwerden dabei als i.i.d. angenommen. Für jede der 10 4 Stichproben wird dann der Wert der<strong>Test</strong>statistik berechnet. Zu gegebenem Signifikanzniveau α werden die kritischen Werteanhand des (1-α)·(#Replikationen)-größten Wertes bestimmt. Die Tabelle (5.1) gibt dieberechneten Werte an.p = 4n = 10 n = 50 n = 150 n → ∞MJB ˜MJB MJB ˜MJB MJB ˜MJB MJB, ˜MJBα = 0.01 29.51 23.08 43.75 39.91 42.76 40.86 38.93α = 0.05 23.15 20.30 32.86 31.18 34.16 33.40 32.67α = 0.1 20.22 18.91 28.62 27.51 29.93 29.60 29.62Tabelle 5.1: Kritische Werte der multivariaten <strong>Jarque</strong>-<strong>Bera</strong> Statistiken.


Kapitel 6Anwendungen<strong><strong>Test</strong>en</strong> der Rendite des DAX-Index und einiger DAX-Komponenten <strong>auf</strong> (multivariate)<strong>Normalverteilung</strong>:Dazu muß im Vorfeld geklärt werden, was genau unter dem Begriff Rendite verstandenwird. Als Wertzuwachs bei positiver, bzw. Wertverlust bei negativer Rendite folgen wirder Definition in [ST06] und definieren die (diskrete) Rendite einer Aktie A im Zeitpunktt ∈ {1, . . . , T } durchR t = A t − A t−1A t−1. (6.1)Obwohl die von uns betrachteten Aktien im L<strong>auf</strong>e eines Handelstages fortl<strong>auf</strong>enden Preisanpassungenunterliegen, beschränken wir uns <strong>auf</strong> die Schlußwerte der Handelstage, sodass die angegebene Gleichung in unserer Verwendung als Tagesrendite (TR) interpretiertwerden kann. Es gilt somitT R t =A tA t−1− 1,so dass T R t ∈ [−1, ∞). Weiter betrachten wir auch die Wochen-(WR), Monats-(MR) undJahresrenditen (JR). Dabei können die Tagesrenditen jedoch nicht einfach <strong>auf</strong>summiertwerden, denn es gilt für ein Zeitintervall der Länge i:R t,t+i = A t+i − A tA t=∏t+ij=t+1( AjA j−1)− 1 =∏t+ij=t+1( )T R t + 1 − 1.Weiter zu beachten ist, dass an Wochenenden und Feiertagen nicht gehandelt wird, sodass gewisse Anpassungen getroffen werden müssen. Für T = x Jahre = 12x Monate =52x Wochen definieren wir in unserem ModellW R t =⌊ nik ⌋ ∏j=⌊ n(i−1)k ⌋+157(T R j + 1) − 1


58 Anwendungenmit n = #Handelstage innerhalb der x Jahre, k = 52x und i = 1, . . . , k. Selbige Definitionengelten für MR t und JR t mit k = 12x, bzw. k = x anstelle von k = 52x.In der Tabelle (6.1) sind die JB-Werte für die Renditen einiger DAX-Aktien und des DAX-Index für den Dreijahreszeitraum vom 02.01.09 - 30.12.11 zusammengefasst. Zu erkennenist, dass für sowohl Tages- als auch Wochenrenditen die Hypothese der <strong>Normalverteilung</strong>bis <strong>auf</strong> die Wochenrenditen von E.on im Fall α = 0.01 zu jedem üblichen Signifikanzniveauabgelehnt wird. 1 Die Monats- und Jahresrenditen hingegen werden allesamt alsnormalverteilt angenommen. Begründen lässt sich dies anhand des zentralen Grenzwertsatzes.Betrachten wir die Renditen nämlich nicht als diskret sondern stetig, so gilt für dieTagesrenditen (Tr): T r t = log(AtA t−1)= log(T R t + 1) und somit( At+i) ( ∏t+iA) jT r t,t+i = log = log=A t Aj=t+1 j−1∑t+ij=t+1Daher können W R, MR und JR als Summe der Tagesrenditen über die entsprechendenZeiträume <strong>auf</strong>gefasst werden und der zentrale Grenzwertsatz liefert die Erklärung unsererT r j .Ergebnisse. Die <strong>Test</strong>statistiken JB U und JB JG liefern dieselben Resultate.JB(TR) JB(WR) JB(MR) JB(JR)DAX 94.38 56.30 1.79 0.51Allianz 286.67 26.19 0.48 0.36Daimler 137.22 30.24 0.65 0.53E.on 258.57 7.52 2.77 0.36Tabelle 6.1: Werte der JB-Statistik einiger ausgewählter DAX-Komponenten und desDAX-Index für die Tages-(TR), Wochen-(MR), Monats-(MR) und Jahresrenditen(JR) vom 02.01.09 - 30.12.11.Weiterhin wollen wir überprüfen ob die Monats- und Jahresrenditen sogar multivariatnormalverteilt sind. Dazu fassen wir die Monatsrenditen in einer 4 × 36 Datenmatrix Xzusammen und wenden <strong>auf</strong> diese die Statistiken MJB und ˜MJB aus Satz (5.3.1) an.Zur Entscheidungfindung ziehen wir die empirischen kritischen Werte heran, die wir derTabelle (5.1) entnehmen können. Es ist MJB(X) = 25.31 und ˜MJB(X) = 23.00, sodass auch die Annahme der multivariaten <strong>Normalverteilung</strong> unserer Monatsrenditen nichtverworfen werden kann.1 Vgl. Tabelle (4.1)


59Fazit: Nach der Renditedefinition (6.1) kann also weder davon ausgegangen werden,dass die Tages- und Wochenrenditen multivariat-, noch univariat normalverteilt sind. Dasich die Monatsrenditen bei stetiger Renditedefinition als Summe gleichverteilter Zufallsgrößenergeben, liefert der zentrale Grenzwertsatz, dass in dieser Situation die Hypotheseder <strong>Normalverteilung</strong> nicht verworfen werden kann. Dieses Resultat gilt auch bei schwachenAbhängigkeiten, wie sie innerhalb der untersuchten DAX-Unternehmen <strong>auf</strong>tretenkönnen. Verschiedene Modelle zur Anpassung an die empirische Verteilung der untersuchtenTagesrenditen sind bspw. in [ST06] gegeben.


Literaturverzeichnis[Als09] Gerold Alsmeyer: Mathematische Statistik 3.Auflage 2009[BJ81] Anil K. <strong>Bera</strong>, Carlos M. <strong>Jarque</strong>: An efficient Large-Sample <strong>Test</strong> for Normalityof Observations and Regression Residuals. Working Paper No.040, March1981.[BS75] K. O. Bowman, L. R. Shenton: Omnibus <strong>Test</strong> Contours for Departures fromNormality Based on √ b 1 and b 2 . Biometrika, Vol. 62, No. 2 (Aug.1975), pp. 243-250.[CH74] D.R. Cox, D.V. Hinkley Theoretical Statistics. 1974; Chapman and Hall.[DKB66] F. N. David, M. G. Kendall, D. E. Barton: Symmetric function and alliedtables. Cambridge, At the University Press, 1966.[DS96] Partha Deb, Martin Sefton: The distribution of Lagrange multiplier test ofnormality. Economic Letters 51 (1996), pp. 123-130.[Fis30] R. A. Fisher: The Moments of the Distribution for Normal Samples of Measuresof Departure from Normality. Proceedings of the Royal Society of London, Vol. 130,No. 812 (Dec. 2, 1930), pp. 16-28.[Hel08] Leonhard Held: Methoden der statistischen Inferenz. Spektrum AkademischerVerlag Heidelberg, 2008.[JB87] Carlos M. <strong>Jarque</strong>, Anil K. <strong>Bera</strong>: A <strong>Test</strong> for Normality of Observations andRegression Residuals. International Statistical Review, Vol.55, No.2 (Aug.1987),pp.167-171.[JG98] D. N. Joanest, C. A. Gill: Comparing measures of sample skewness and kurtosis.The Statistician (1998), 47, Part 1, pp. 183-189.[JK94] Norman L. Johnson, Samuel Kotz: Continuous univariate distributions/1.2nd Edition, 1994.60


LITERATURVERZEICHNIS 61[Kha59] C. G. Khatri: On the mutual Independence of Certain Statistics. The Annalsof Mathematical Statistics, Vol.30, No.4 (Dec.,1959), pp.1258-1262.[KOS09] Koizumi K., Okamoto N., Seo T.: On <strong>Jarque</strong>-<strong>Bera</strong> tests for assessing multivariatenormality. Journal of Statistics: Advances in Theory and Applications, 1,pp.207-220.[KP66] C. G. Khatri, K. C. S. Pillai: On the moments of traces of two matrices inmultivariate Analysis. Annals of the Institute of Statistical Mathematics, Volume19, Number 1 (May,1966), pp.143-156.[KS67] M.G. Kendall, A. Stuart: The advanced theory of statistics. Vol.II, 2nd edition,1967. London:Griffin.[KS69] M.G. Kendall, A. Stuart: The advanced theory of statistics. Vol.I, 3rd edition,1969. London:Griffin.[LeC70] L. LeCam: On the assumptions used to prove asymptotic normality of MaximumLikelihood Estimates. The Annals of Mathematical Statistics 1970, Vol.41, No.3.[MA73] J. F. Malkovich, A. A. Afifi: On <strong>Test</strong>s for Multivariate Normality. Journalof the American Statistical Association, March 1973, Volume 68, Number 341,pp.176-179.[Man10] Panagiotis Mantalos: Robust Critical Values for the <strong>Jarque</strong>-<strong>Bera</strong> <strong>Test</strong> forNormality. JIBS Working Papers NO.2010-8, Jönköping International BusinessSchool, Jönköping University.[Mar70] K. V. Mardia: Measures of multivariate skewness and kurtosis with applications.Biometrika, 57, pp.519-530, 1970.[Mar74] K. V. Mardia: Applications of some measures of multivariate skewness anskurtosis in testing normality and robustness studies. Sankhya B, 36, pp.115-128,1974.[Paw01] Yudi Pawitan: In All Likelihood. University Press, Oxford, 2001.[Rin08] Rinne: Taschenbuch der Statistik. Verlag Harri Deutsch, 4. Auflage 2008.[Sma80] N. J. H. Small: Marginal skewness and kurtosis in testing multivariate normality.Applied Statistics, 22, pp.260-266.[Son01] K. Song: Rènyi information, loglikelihood and an intrinsic distribution measure.Journal of Statistical Planning and Inference, 93, pp.51-69, 2001.


62 LITERATURVERZEICHNIS[Sri84] M. S. Srivastava: A measure of skewness and kurtosis and a graphical method forassessing multivariate normality. Statistics and Probability Letters, 2, pp.263-267.[ST06] Friedrich Schmid, Mark Trede: Finanzmarktstatistik. Springer Verlag BerlinHeidelberg 2006.[Urz96] Carlos M. Urzúa: On the correct use of omnibus tests for normality. EconomicLetters 53 (1996), pp. 247-251.[Wal49] Abraham Wald: Note on the Consistency of Maximum Likelihood Estimate.Annals of Mathematical Statistics, Volume 20, Number 4 (1949), pp.595-601.[WK09] Diethelm Wuertz, Helmut Katzgraber: Precise finite-sample quantiles ofthe <strong>Jarque</strong>-<strong>Bera</strong> adjusted Lagrange multiplier test. 11. December 2009; Swiss FederalInstitute of Technology, Zurich.[WN70] H.Witting, G.Nölle: Angewandte mathematische Statistik. B.G. TeubnerStuttgart, 1970.


Anhang AAnhangA.1 Grenzwertsätze aus der WahrscheinlichkeitstheorieZentraler Grenzwertsatz (mehrdimensional):Es seien X 1 , . . . , X n i.i.d. p-Zufallsvektoren mit IE[X i ] = µ für i = 1, . . . , n und Cov[X i ] =Σ für i = 1, . . . , n. Weiter sei ¯X = 1 n∑ ni=1 X i. Dann gilt:√ n( ¯X − µ )D −→ Np (0, Σ).Schwaches Gesetz der großen Zahlen (mehrdimensional):A.2 MatrixoperationenCholesky-Zerlegung:Eine symmetrische Matrix A ist genau dann positiv definit, wenn es eine obere DreicksmatrixG =⎜ .⎛⎞g 11 · · · · · · g 1d. 0 .. .⎝ . .. . gibt, so dass G T G = A. Man nennt G auch die.. .⎟⎠0 · · · 0 g ddMatrix-Wurzel aus der Matrix A. Die Cholesky Zerlegung ist ein numerisches Verfahren,das eine solche Matrix G berechnet.Invertierung von Blockmatrizen :63


64 AnhangA.3 Empirische AnalysenNumerische Ergebnisse der Analysen im Powervergleich der <strong>Test</strong>statistikenJB, JB U , AD, LIL, CV M, P EA und SF innerhalb des Pearson-Verteilungssystems:JB JB U AD LIL CV M P EA SFBeta(3,2) n = 10n = 20n = 50n = 100n = 200n = 400Students t (5df) n = 10n = 20n = 50n = 100n = 200n = 400Gamma(2,1) n = 10n = 20n = 50n = 100n = 200n = 400Log-Normal n = 10n = 20n = 50n = 100n = 200n = 400Tabelle A.1: Powervergleich bei 500 Replikationen, α = 0.01. Zur leichteren Interpretationder <strong>Test</strong>ergebnisse sind die effizientesten <strong>Test</strong>s in den einzelnen Kategoriendurch Fettdruck hervorgehoben. Die Grafiken zeigen Dichten derentsprechenden Verteilungen (durchgezogene Linien) im Vergleich zur normiertenund zentrierten <strong>Normalverteilung</strong> (gestrichelte Linien).


A.3. Empirische Analysen 65JB JB U AD LIL CV M P EA SFBeta(3,2) n = 10 0.014 0.014 0.008 0.006 0.006 0.012 0.012n = 20n = 50n = 100n = 200n = 400Students t (5df) n = 10n = 20n = 50n = 100n = 200n = 400Gamma(2,1) n = 10n = 20n = 50n = 100n = 200n = 400Log-Normal n = 10n = 20n = 50n = 100n = 200n = 400Tabelle A.2: Powervergleich bei 500 Replikationen, α = 0.1. Zur leichteren Interpretationder <strong>Test</strong>ergebnisse sind die effizientesten <strong>Test</strong>s in den einzelnen Kategoriendurch Fettdruck hervorgehoben. Die Grafiken zeigen Dichten der entsprechendenVerteilungen (durchgezogene Linien) im Vergleich zur normiertenund zentrierten <strong>Normalverteilung</strong> (gestrichelte Linien).Numerische Ergebnisse der Analysen im Powervergleich der <strong>Test</strong>statistikenJB, AD und SF innerhalb verschiedener CN-Verteilungen:


σ 2 1 = σ2 2 = 1p = 0.1 p = 0.3 p = 0.5JB AD SF JB AD SF JB AD SFµ 2 = 2µ 2 = 3n = 20 0.119 0.088 0.122 0.045 0.075 0.065 0.013 0.044 0.023n = 50 0.188 0.149 0.191 0.051 0.13 0.088 0.003 0.079 0.029n = 100 0.262 0.218 0.271 0.073 0.231 0.16 0.007 0.135 0.043n = 200 0.466 0.396 0.448 0.248 0.492 0.361 0.064 0.244 0.109n = 400 0.76 0.683 0.772 0.642 0.821 0.725 0.37 0.563 0.375n = 20 0.27 0.243 0.283 0.074 0.24 0.17 0.011 0.135 0.057n = 50 0.54 0.506 0.574 0.104 0.589 0.425 0.002 0.446 0.226n = 100 0.838 0.824 0.86 0.509 0.913 0.811 0.209 0.82 0.582n = 200 0.991 0.982 0.992 0.959 0.998 0.989 0.892 0.998 0.967n = 400 1 1 1 1 1 1 1 1 1Tabelle A.3: Powervergleich bei 1000 Replikationen, α = 0.05.σ 2 2 = 0.5p = 0.25 p = 0.5 p = 0.75JB AD SF JB AD SF JB AD SFµ 2 = 1µ 2 = 2n = 20 0.059 0.084 0.07 0.198 0.224 0.235 0.348 0.335 0.378n = 50 0.072 0.16 0.126 0.382 0.529 0.495 0.729 0.683 0.741n = 100 0.148 0.308 0.263 0.714 0.862 0.837 0.952 0.946 0.96n = 200 0.355 0.596 0.495 0.954 0.99 0.985 0.999 0.998 0.999n = 400 0.725 0.908 0.856 1 1 1 1 1 1n = 20 0.017 0.085 0.038 0.079 0.337 0.247 0.521 0.684 0.672n = 50 0.008 0.194 0.074 0.198 0.801 0.648 0.926 0.98 0.982n = 100 0.043 0.451 0.252 0.818 0.994 0.974 1 1 1n = 200 0.376 0.791 0.662 0.999 1 1 1 1 1n = 400 0.902 0.99 0.986 1 1 1 1 1 1Tabelle A.4: Powervergleich bei 1000 Replikationen, α = 0.05.


σ 2 2 = 3p = 0.25 p = 0.5 p = 0.75JB AD SF JB AD SF JB AD SFµ 2 = 0µ 2 = 2n = 20 0.445 0.365 0.453 0.276 0.261 0.307 0.149 0.128 0.155n = 50 0.775 0.701 0.788 0.522 0.583 0.61 0.167 0.201 0.208n = 100 0.966 0.926 0.97 0.758 0.875 0.854 0.28 0.395 0.349n = 200 1 0.998 1 0.95 0.997 0.985 0.45 0.671 0.572n = 400 1 1 1 1 1 1 0.679 0.932 0.855n = 20 0.538 0.528 0.581 0.313 0.402 0.425 0.112 0.154 0.146n = 50 0.914 0.897 0.937 0.628 0.813 0.773 0.189 0.316 0.272n = 100 0.997 0.99 0.998 0.886 0.983 0.976 0.29 0.579 0.465n = 200 1 1 1 0.992 1 1 0.529 0.906 0.796n = 400 1 1 1 0.999 1 1 0.811 0.995 0.977Tabelle A.5: Powervergleich bei 1000 Replikationen, α = 0.05.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!