Grundlagen der Stochastik - Georg-August-Universität Göttingen

Grundlagen der Stochastik - Georg-August-Universität Göttingen Grundlagen der Stochastik - Georg-August-Universität Göttingen

von num.math.uni.goettingen.de Mehr von diesem Publisher

02.12.2012 Aufrufe

Grundlagen der Stochastik In Anlehnung an die Vorlesung ’Grundlagen der Stochastik’ an der Georg-August-Universität Göttingen von PD Dr. Fiebig im Wintersemester 2007/2008 Kirsten Bolze Göttingen, bolze@math.uni-goettingen.de Frank Werner Göttingen, fwerner@math.uni-goettingen.de

Grundlagen der Stochastik

In Anlehnung an die Vorlesung ’Grundlagen der Stochastik’ an der Georg-August-Universität Göttingen

von PD Dr. Fiebig im Wintersemester 2007/2008

Kirsten Bolze

Göttingen, bolze@math.uni-goettingen.de

Frank Werner

Göttingen, fwerner@math.uni-goettingen.de

2 Inhaltsverzeichnis

Inhaltsverzeichnis

Inhaltsverzeichnis 2

Literatur 4

Vorwort 5

1 Grundbegriffe 6

1.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Mengentheoretische Verknüpfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.2 Relative Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.3 Axiomatik nach Kolmogoroff (1939) . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2 Laplace Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3 Allgemeine diskrete Wahrscheinlichkeitsräume und -funktionen . . . . . . . . . . . . . . . 13

1.4 Siebformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4.1 Allgemeine Siebformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4.2 Die Bonferroni-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.4.3 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 Kombinatorik 22

2.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.1.1 Ziehen mit Zurücklegen (Binomialverteilung) . . . . . . . . . . . . . . . . . . . . . 26

2.1.2 Ziehen ohne Zurücklegen (Hypergeometrische Verteilung) . . . . . . . . . . . . . . 27

2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 31

3.1 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3 Mehrstufige Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen . . . . . 40

3.4 Produkt-Experimente und spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 43

3.4.1 Mit Produktexperimenten zusammenhängende Verteilungen . . . . . . . . . . . . . 45

4 Zufallsvariablen, Verteilungen 48

4.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.1.1 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.2 Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.1 Eigenschaften der Possionverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5 Kenngrößen von Verteilungen 60

5.1 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.1.1 Erwartungswerte einiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.1.2 Eigenschaften des Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.1.3 Produktformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.2 Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.2.1 Varianzen einiger diskreter Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 69

6 Wahrscheinlichkeitsungleichungen und das SGGZ 72

6.1 Das schwache Gesetz großer Zahlen (SGGZ) . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.1.1 Spezialfall - Das SGGZ von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 73

6.2 Exponential-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

7 Faltung, bedingte Verteilungen und Korrelation 77

7.1 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7.1.1 Spezialfall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

7.1.2 Faltungen einiger wichtiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 78

7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

7.2.1 Der bedingte Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

7.2.2 Die bedingte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

7.2.3 Anwendung der iterierten Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23) . . . . . . . . . . . . . . . . . . . 84

7.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Inhaltsverzeichnis 3

8 Erzeugende Funktion und Verzweigungsprozesse 87

8.1 Verzweigungsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

8.1.1 Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

8.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

8.1.3 Aussterbewahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

9 Grenzwertsatz von de Moivre-Laplace 95

9.1 Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 95

9.2 Anwendung I: Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . 98

9.3 Anwendung II: Bestimmung eines Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . 99

10 Allgemeine Modelle und stetige Verteilungen 100

10.1 Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen . . . . . . . . . . . . . . . . . . 100

10.2 Wahrscheinlichkeitsverteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen . . . 102

10.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

10.4 Zufallsvariablen mit stetiger Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

10.4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

10.4.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

10.4.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

10.4.4 Die Pareto-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

10.4.5 Die Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

10.4.6 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

10.5 Berechnung und Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . 108

10.6 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

10.7 Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

10.8 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

10.9 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

10.9.1 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

10.10Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz . . . . . . . . . . . . . . . 125

10.10.1Die Jensen’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

10.10.2Der zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . . . . . 127

11 Markov-Ketten mit endlichem Zustandsraum 133

11.1 Steuerung der Sprünge: Übergangsmatrizen und -graphen . . . . . . . . . . . . . . . . . . 133

11.1.1 Potenzen der Matrix P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

11.1.2 Die Periode einer Übergangsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

11.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten . . . . . . . . . . . . . . 140

11.3 Invariante Maße und Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

11.4 Rückkehrzeiten und starkes Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

11.4.1 Der Rückkehrzeitensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

11.5 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

11.5.1 Irrfahrt auf ungerichtetem Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . 150

11.5.2 Ehrenfeld-Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

12 Schätzer und statistische Tests 154

12.1 Punktschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

12.1.1 ML-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

12.1.2 Erwartungstreue Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

12.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

12.2.1 Der einseitige Gaußtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

12.2.2 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

A Tabelle der Standardnormalverteilung 163

B Kenngrößen der wichtigsten Verteilungen 164

B.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

B.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

Stichwortverzeichnis 166

4 Literatur

Literatur

[Dehling/Haupt] Herold Dehling, Beate Haupt : Einführung in die Wahrscheinlichkeitstheorie und

Statistik

Springerverlag Berlin, 1. Auflage 2007, 306 Seiten, ISBN: 3-540-20380-X

[Krengel] Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik

Viewegverlag, 8. Auflage 2005, 257 Seiten, ISBN: 3-834-80063-5

Vorwort 5

Vorwort

Dieses Skript ist unter einigem Arbeitsaufwand während der Vorlesung ” Grundlagen der Stochastik“ von

PD Dr. Fiebig im Wintersemester 2007/2008 an der Georg-August-Universität Göttingen entstanden.

Der Begriff der Stochastik umfasst heutzutage die Unterbegriffe der Wahrscheinlichkeitstheorie und der

Statistik. Die Wahrscheinlichkeitstheorie umfasst dabei die Wahrscheinlichkeitsgesetze und das Studium

wahrscheinlichkeitstheoretischer Modelle mit mathematischen Methoden, während die Statistik sich mit

der Analyse und Modellierung von Datenstrukturen befasst. Die Ursprünge der Stochastik als Wissenschaft

gehen auf das Glücksspiel (Würfeln, Kartenspiel etc.) zurück und liegen etwa um 1630. Als erste

stellten Menschen wie Pascal oder Fermat Fragen wie ” Was ist wahrscheinlicher? Bei vier Würfen mit

einem Würfel eine 6 oder bei 24 Würfen mit zwei Würfeln eine Doppel-6 zu haben?“

Der Begriff der Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) geprägt.

Die axiomatische Einführung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogoroff.

Heutzutage findet die Stochastik in vielen Gebieten Anwendung. Zum Beispiel in der Informatik bei Datenkompression,

Spracherkennung, maschinellem Lernen oder Netzwerken, in der Technik bei der Qualitätskontrolle

oder der Signalerkennung, in der Finanzmathematik bei der Berechnung von Prämien oder

in der Biologie und Medizin bei der Bilderkennung oder der DNA-Analyse.

In sich ist die Stochastik ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen aus

Prognosen für die Daten getätigt werden und gleichzeitig mittels Daten bereits bestehende Modelle geprüft

und neue Modelle geschaffen werden.

Es handelt sich hierbei ausdrücklich nur um eine studentische Mitschrift, nicht um ein offiziell vom Dozenten

herausgegebenes Skript. Trotz großer Anstrengungen sind sicherlich einige Fehler mathematischer

wie auch sprachlicher Natur im Skript verblieben, was hoffentlich nicht allzu große Schwierigkeiten für

das Verständnis aufwerfen wird.

Göttingen, 23. Januar 2009

Kirsten Bolze, Frank Werner

6 1 Grundbegriffe

Motivation

Zur Motivation wollen wir zwei Beispiele für stochastische Modelle angeben.

• Europäische Call-Option

Dieses Beispiel kommt aus der Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeitpunkt

t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufen

zu können. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht?

Eine mögliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung eines

stochastischen Modells zur Entwicklung der Preisentwicklung gegeben:

C = S(0) · Φ(ω) − k · exp (−r) · Φ � ω − σ √ �

t1

Dabei ist S(0) der heutige Preis der Aktie, r ein festgesetzter Zinssatz und σ die Voluntarität

(Schwankung) des Marktes. ω ist gegeben als

ω =

2 t1

rt1 + σ 2 − log

σ √ t1

� �

k

S(0)

und Φ ist die Verteilungsfunktion der Standard-Normalverteilung, d.h.

Φ(ω) =

�ω

−∞

�

1

√ exp −

2π x2

�

dx

2

Für dieses Modell wurde 1997 der Nobelpreis für Ökonomie verliehen.

• Spracherkennung

Sei A die Mikrofonaufnahme eines gesprochenen Wortes. Für jedes Wort wi in der deutschen Sprache

sei Wi das Ereignis

” wi wurde gesprochen“

Gesucht ist nun das Wort wi, das der Sprecher tatsächlich gesagt hat, d.h. mit unserem Modell das

Wort wi, für welches

P (wi | A)

am größten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1,...,100.000 o.Ä. durchlaufen,

um alle Wörter der deutschen Sprache abzudecken.

Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet für jedes (!) i mit Hilfe stochastischer

Aussprachemodelle die Wahrscheinlichkeit P (A | wi). Aus Tabellen entnimmt sie zusätzlich

die relative Häufigkeit P (Wi) mit der das Wort wi in der deutschen Sprache auftritt. Dann nutzen

wir die Bayes-Formel

P (A | wi) · P (Wi)

P (wi | A) =

100.000 �

P (A | wk) · P (Wk)

k=1

Der Nenner dieses Ausdrucks hängt nicht von i ab, daher ist P (wi | A) maximal genau dann, wenn

P (A | wi) · P (Wi) maximal ist.

1 Grundbegriffe

1.1 Definition:

Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Versuchsbedingungen

bestimmt ist.

Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren.

1 Grundbegriffe 7

1.1 Einführung

1.2 Definition:

Ein diskreter Grundraum Ω = {ω1,ω2,...} ist eine nicht leere, abzählbare (oder endliche) Menge.

Ein Element ω ∈ Ω nennen wir Ergebnis, eine Teilmenge A ⊆ Ω ein Ereignis.

Beispiel 1.3:

Für einen Würfelwurf mit einem Würfel wäre Ω = {1,2,3,4,5,6}. 5 ∈ Ω entspricht dann dem Ergebnis

” 5 wurde geworfen“ und {2,4,6} dem Ereignis eine gerade Zahl wurde gewürfelt“.

”

1.4 Definition:

Sei Ω ein diskreter Grundraum. Wir nennen

• Ω ⊆ Ω das sichere Ereignis und

• ∅ ⊆ Ω das unmögliche Ereignis.

1.1.1 Mengentheoretische Verknüpfungen

Beispiel 1.5:

Wir betrachten einen zweifachen Würfelwurf. Ein geeigneter Grundraum hier ist

Ω = {1,2,3,4,5,6) × {1,2,3,4,5,6) = {1,2,3,4,5,6} 2 = {(i,j) | i,j ∈ N, 1 ≤ i,j ≤ 6}

Wir betrachten die Ereignisse

Diese Ereignisse entsprechen dann den Teilmengen

und

A = ” Beim ersten Wurf wird eine 6 gewürfelt“

A = ” Beim zweiten Wurf wird eine 3 gewürfelt“

A = {(6,i) | i ∈ N, 1 ≤ i ≤ 6} ⊂ Ω

B = {(j,3) | j ∈ N, 1 ≤ j ≤ 6}

Dann ist A ∩B = {(6,3)} und das entspricht dem Ereignis, dass sowohl A als auch B eintreten, d.h. dass

im ersten Wurf eine 6 und im zweiten Wurf eine 3 kommt.

1.6 Definition:

Sei Ω ein diskreter Grundraum und seien Ai, i ∈ N sowie A,B Ereignisse. Dann entsprechen

• ” A und B treten ein“ dem Ereignis A ∩ B

• ” A oder B treten ein“ dem Ereignis A ∪ B

• ” Jedes der Ai, i ∈ N ist eingetreten“ dem Ereignis �

Ai

i∈N

• ” Mindestens eins der Ai, i ∈ N ist eingetreten“ dem Ereignis �

• ” A ist nicht eingetreten“ dem Ereignis A c := Ω \ A.

Ai

i∈N

Man kann sich mittels Venn-Diagrammen gut Verknüpfungen von Ereignissen verdeutlichen.

1.7 Definition:

Sei Ω ein diskreter Grundraum und seien Ai ⊆ Ω, i ∈ N paarweise disjunkte Ereignisse, d.h.

i �= j ⇒ Ai ∩ Aj = ∅

Dann schreiben wir auch �

Ai =: �

i∈N

8 1 Grundbegriffe

1.1.2 Relative Häufigkeiten

Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation dafür sind sogenannte

relative Häufigkeiten:

1.8 Definition:

Sei Ω0 ein diskreter Grundraum. Die relative Häufigkeit eines Ereignisses A ⊆ Ω0 in einer Folge von

Relationen ω1,ω2,...,ωn aus gleichwertigen Experimenten ist definiert als

Beispiel 1.9:

rn (A) := 1

n # {j = 1,...,n | ωj ∈ A}

Bei 300 Würfen einer Reißzwecke landet 124 mal die Spitze oben, sonst landet der Kopf oben. Sei ” 1“

das Ergebnis ” Spitze nach oben“ und ” 0“ das Ergebnis ” Kopf nach oben“. Dann ist

Ω := {0,1} 300 = {(ω1,...,ω300) | ωi ∈ {0,1} ∀ 1 ≤ i ≤ 300}

ein geeigneter Grundraum für dieses Experiment. Außerdem setzt man Ω0 := {0,1} als den Grundraum

für einen einfachen Wurf der Reißzwecke fest. Entsprechend ist für n = 300 also

und es gilt rn ({1}) = 1

300 · 124.

Ω = Ω n 0

Wir wollen nun einige offensichtliche Eigenschaften relativer Häufigkeiten in einem Lemma festhalten:

1.10 Lemma:

Es gelten die folgenden Relationen:

• 0 ≤ rn (A) ≤ 1 ∀ A ⊆ Ω0.

• rn (Ω0) = 1.

• rn (A + B) = rn (A) + rn (B) für A,B ⊆ Ω mit A ∩ B = ∅.

Die Idee ist nun, dass die relativen Häufigkeiten rn (A) für n ��

∞ gegen die Wahrscheinlichkeit P (A)

eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich die

relativen Häufigkeiten für immer größer werdendes n stabilsieren. Um diese Aussage auch beweisen zu

können, brauchen wir nun eine geeignete Axiomatik.

1.1.3 Axiomatik nach Kolmogoroff (1939)

1.11 Definition:

Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω,P), wobei Ω ein diskreter Grundraum und

P eine auf den Teilmengen P (Ω) definierte reellwertige Funktion ist, welche die folgenden Axiome erfüllt:

(A1) Positivität

Es gilt P (A) ≥ 0 für alle A ⊆ Ω.

(A2) Normiertheit

Es gilt P (Ω) = 1.

(A3) σ-Additivität

Für jede Folge paarweise disjunkter Teilmengen A1,A2,... ⊆ Ω gilt

�

∞�

�

∞�

P = P (Ai)

i=1

Ai

P heißt Wahrscheinlichkeitsmaß oder auch (Wahrscheinlichkeits-)Verteilung auf Ω. P(A) ist die

Wahrscheinlichkeit des Ereignisses A ⊂ Ω.

i=1

1 Grundbegriffe 9

Folgerung 1.12 (Rechenregeln):

(R1) Es ist P(∅) = 0.

(R2) Es gilt Additivität, d.h.

Beweis:

P

� n�

i=1

Ai

�

=

n�

P(Ai)

i=1

für endlich viele paarweise disjunkte Mengen A1,...,An.

(R1) Setze Ai = ∅ für i = 1,2,3,.... Dann gilt

�

∞�

R ∋ P(∅) = P

i=1

Aus der Konvergenz der Summe folgt P(∅) = 0.

(R2) Setze in (A3) Ai = ∅ für i > n und benutze (R1).

Ai

�

(A3)

=

∞�

P(Ai) = P(∅)

In der Stochastik sollten die Ergebnisse, die man aus der Modellierung erhält, empirisch verifiziert werden.

Beim Wurf der Reißzwecke setzt man z.B. Ω = {0,1}, P(1) = 0.4 und P(0) = 0.6 (wobei 1 ” Spitze oben“

bedeutet) und bestätigt sich dies so in unserem Versuch mit 300 Würfen, denn

1.13 Definition:

i=1

r300(1) = 124

300 ≈ 0.4 und r300(0) = 176

≈ 0.6

300

Sei Ω eine Menge und A ⊆ Ω eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit

Wir erinnern uns an die de Morgan’schen Regeln:

1.14 Hilfssatz:

Für zwei Mengen M und N gelten:

Beweis:

A c := Ω \ A

M c ∪ N c = (M ∩ N) c

M c ∩ N c = (M ∪ N) c

Sei x ∈ M c ∪ N c . Dann gilt sicherlich entweder x ∈ M c oder x ∈ N c (oder beides), d.h. x /∈ M oder

x /∈ N (oder beides). Daher ist x /∈ M ∩ N und daher

x ∈ (M ∩ N) c

Ist andersherum x ∈ (M ∩ N) c , so ist x /∈ M ∩ N und daher entweder x /∈ N oder x /∈ M (oder beides).

Entsprechend gilt sicherlich x ∈ M c oder x ∈ N c was (1.1) zeigt.

Sei x ∈ M c ∩ N c . Dann ist x ∈ M c und x ∈ N c , d.h. x /∈ M und x /∈ N. Daher gilt auch x /∈ M ∪ N und

entsprechend

x ∈ (M ∪ N) c

Ist andersherum x ∈ (M ∪ N) c , so ist x /∈ M ∪ N, also x /∈ M und x /∈ N. Das hat aber x ∈ M c und

x ∈ N c zur Folge und daher gilt

x ∈ M c ∩ N c

Das zeigt (1.2).

Bemerkung 1.15:

Natürlich verallgemeinern die de Morgan’schen Regeln sich direkt auf unendliche Vereinigungen und

Schnitte. Sind Ai, i ∈ N Mengen, so gilt:

∞�

A c �

∞�

�c i =

(1.3)

i=1

∞�

i=1

A c i =

Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14.

i=1

� ∞�

i=1

Ai

� c

(1.1)

(1.2)

(1.4)

10 1 Grundbegriffe

1.16 Lemma (weitere Rechenregeln):

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum. A,B und Ai seien Ereignisse für i ∈ N. Dann gilt:

(R3) P(A) = 1 − P(A c )

(R4) P(A) ≤ 1 für alle A ⊂ Ω

(R5) P(A \ B) = P(A) − P(B) falls B ⊂ A

(R6) P(B) ≤ P(A), wenn B ⊂ A (Monotonie)

(R7) Für beliebige endliche oder unendliche Folgen A1,A2,A3,... gilt (Boole’sche Ungleichung)

�

P

�

≤ �

P(Ai)

i

Ai

(R8) Falls A1 ⊂ A2 ⊂ A3 ⊂ ..., so gilt (Stetigkeit von unten)

�

∞�

�

P Ai = lim P(Ai)

i→∞

i=1

(R9) Falls A1 ⊃ A2 ⊃ A3 ⊃ ..., so gilt (Stetigkeit von oben)

�

∞�

�

P Ai = lim P(Ai)

i→∞

Beweis:

i=1

Zum Beweis werden nur die Kolmogoroff-Axiome sowie die Folgerungen (R1) und (R2) benutzt:

(R3) Es gilt Ω = A ∪ Ac mit A,Ac disjunkt und damit 1 (A2)

= P(Ω) = P(A ∪ Ac ) (R2)

Durch Umstellen erhält man P(A) = 1 − P(A c ).

(R4) Da P(A c ) (A1)

≥ 0 folgt mit (R3) P(A) = 1 − P(A c ) ≤ 1.

i

= P(A) + P(A c ).

(R5) Da A = (A \ B) ∪ B eine disjunkte Vereinigung ist, gilt laut (R2) P(A) = P(A \ B) + P(B).

(R6) Nach Rechenregel (R3) ist P(B) = P(A) −P(A \B). Außerdem ist P(A \B) (A1)

≥ 0 und es folgt die

Behauptung.

(R7) Setze B1 := A1,B2 := A2 \ A1,B3 := A3 \ (A1 ∪ A2),... d.h.

Bn := An \ (A1 ∪ A2 ∪ ... ∪ An−1) für n ∈ N

Die Bi sind paarweise disjunkt und Bi ⊂ Ai für alle i ∈ N. Es gilt also

�

Bi = �

und damit

P

� �

i∈N

Ai

�

= P

(R8) Setze die Bi wie eben. Dann gilt:

�

∞�

P

i=1

� �

Ai

i∈N

�

i∈N

Bi

�

(A3)

= P

(A3)

=

i∈N

Ai

�

= P(Bi) (R4)

≤ �

P(Ai)

i∈N

� ∞�

i=1

Bi

∞�

P(Bi)

i=1

= lim

n→∞

i=1

(R2)

= lim

n→∞ P

�

n�

P(Bi)

� n�

i=1

= lim

n→∞ P(An)

Bi

�

i∈N

1 Grundbegriffe 11

(R9) Gilt A1 ⊃ A2 ⊃ ..., so ist offenbar

Wir berechnen daher

was die Behauptung zeigt.

1.2 Laplace Experimente

1.17 Definition:

P

� ∞�

i=1

Ai

Ein Paar (Ω,P) heißt Laplace-Raum, wenn

gilt.

• Ω = {ω1,...,ωn} endlich ist und

• für alle A ⊆ Ω

�

A c 1 ⊂ A c 2 ⊂ ...

��

∞�

(1.4)

= P

(R3)

= 1 − P

i=1

A c i

� ∞�

i=1

� c�

A c i

�

(R8)

= 1 − lim

i→∞ P (A c i)

(R3)

= 1 −

= lim

i→∞ P (Ai)

�

1 − lim

i→∞ P (A1)

P(A) = #A

#Ω = # günstige Fälle“

”

# mögliche Fälle“

”

P heißt Laplace-Verteilung oder diskrete Gleichverteilung auf Ω = {ω1,...,ωn}.

Bemerkung 1.18:

Sei (Ω,P) ein Laplace-Raum. Dann ist

Beispiel 1.19:

P({ω}) = 1 1

=

#Ω n

∀ ω ∈ Ω

(1) Gegeben sei ein Würfel. Wir setzen als Grundraum Ω = {1,2,...,6} mit P als der Laplace-Verteilung.

Uns interessiert das Ereignis A =“gerade Zahl“ = {2,4,6}. Dann gilt:

P(A) = #A #{2,4,6}

= =

#Ω 6

1

2

(2) Beim Wurf der Reißzwecke liegt kein Laplace-Raum vor, da

P(1) = 0.4 �= 0.6 = P(0)

(3) Man muss darauf achten den ” richtigen“ Laplace-Raum zu wählen. Beim (gleichzeitigen) Wurf

zweier fairer Münzen ist die Wahrscheinlichkeit des Ereignisses

gesucht.

B = “einmal Kopf und einmal Zahl wird geworfen“

Modell 1: Wir setzen Ω := {KK,KZ,ZK,ZZ} als Laplace-Raum. Das liefert

P(B) = P ({KZ,ZK}) = #{ZK,KZ}

#Ω

�

= 2 1

=

4 2

12 1 Grundbegriffe

Modell 2: Wir setzen Ω := {KK,KZ,ZZ} ohne Beachtung der Ordnung - das liefert

P({KZ}) = 1

3

Dieses Ergebnis ist empirisch wiederlegbar.

(4) Summe von Augenzahlen

Es werde zwei Mal gewürfelt. Sei Am =“Die Augensumme ist m“ für m = 2,3,...,12.

Unser Modell ist Ω = {1,2,...,6} 2 = {(i,j) | 1 ≤ i,j ≤ 6} als Laplace-Raum, d.h.

Offenbar ist #Ω = 36. Nun ergibt sich

P(Am) = #Am

#Ω

#A2 = #{(1,1)} = 1 P(A2) = 1

36

#A3 = #{(1,2),(2,1)} = 2 P(A3) = 2

36

#A4 = #{(1,3),(2,2),(3,1)} = 3 P(A4) = 3

36

#A5 = #{(1,4),(2,3),(3,2),(4,1)} = 4 P(A5) = 4

36

#A6 = #{(1,5),(2,4),(3,3),(4,2),(5,1)} = 5 P(A6) = 5

36

#A7 = #{(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)} = 6 P(A7) = 6

36

#A8 = #{(2,6),(3,5),(4,4),(5,3),(6,2)} = 5 P(A8) = 5

36

.

#A12 = #{(6,6)} = 1 P(A12) = 1

36

(5) Teilungsproblem des Luca Paccioli (1494)

Zwei Spieler A und B wiederholen ein faires Spiel (z.B. Münzwurf). Wer zuerst sechs Spiele gewonnen

hat, bekommt den gesamten Einsatz. Das Spiel muss beim Stand 5:3 abgebrochen werden. Wie ist

der Einsatz gerecht aufzuteilen?

Um diese Frage zu beantworten, betrachten wir Verläufe, die zu einer Entscheidung führen. Es

ergeben sich die folgenden Modelle:

Modell 1: A, BA, BBA, BBB. Bei dieser Betrachtung gewinnt A in 3 von 4 Fällen. Damit gehen 3

4 des

an Spieler B.

Einsatzes an Spieler A und 1

4

Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach der Definition

an Spieler B.

des Laplace-Raums gehen 7

8

des Einsatzes an Spieler A und 1

8

(6) Wir werfen 10 mal eine Münze. Gesucht ist die Wahrscheinlichkeit des Ereignisses

C = “mindestens 1 mal tritt Kopf auf“

Unser Modell ist Ω := {K,Z} 10 = {(a1,...,a10) | ai ∈ {K,Z}} als Laplace-Raum.

Es folgt #Ω = 1024 und wir berechnen

P(C) = #C

#Ω

mit Hilfe des Komplements von C, denn dieses ist einfacher zu bestimmen!

P(C) = 1 − P(C c ) = 1 − #Cc

#Ω = 1 − # { Es tritt kein mal Kopf auf“}

” = 1 −

#Ω

1 1023

=

1024 1024

(7) Maxima von Augenzahlen

Es wird k mal gewürfelt. Sei m ∈ {1,2,...,6} und das Ereignis Bm =“höchste Augenzahl ist m“.

Wir verwenden als Modell den Laplace-Raum

Ω := {1,...,6} k = {(a1,...,ak) | ai ∈ {1,...,6}}

Für 1 ≤ m ≤ 6 setze Am als das Ereignis Am =“alle Augenzahlen sind ≤ m“ fest und erhalte so

P(Am) = #Am

#Ω

mk

= .

6k Dann gilt Bm = Am \ Am−1 und Am−1 ⊂ Am. Die Rechenregel (R5) liefert nun

P(Bm) = P(Am) − P(Am−1) = mk (m − 1)k

−

6k 6k .

.

= mk − (m − 1) k

6k .

1 Grundbegriffe 13

1.3 Allgemeine diskrete Wahrscheinlichkeitsräume und -funktionen

1.20 Lemma:

Ist (Ω,P) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte

Beweis:

Sei A ⊆ Ω beliebig. Dann gilt

P ({ω}) , ω ∈ Ω

A = �

{ω} = �

{ω}

ω∈A

und diese Vereinigung ist abzählbar, da der Grundraum Ω selbst schon abzählbar ist. Es folgt aus (A3):

� �

�

P (A) = P {ω} = �

P ({ω}) .

ω∈A

ω∈Ω

Daher ist P durch die Werte in der Voraussetzung bereits festgelegt.

Bemerkung 1.21:

Wegen (A1) und (R4) ist bereits klar, dass

0 ≤ P ({ω}) ≤ 1

für alle ω ∈ Ω gilt. Genauso muss nach (A2) und (A3) auch

�

P ({ω}) (A3)

� �

�

= P {ω}

gelten.

ω∈Ω

Das veranlasst uns zu folgender

ω∈Ω

= P (Ω) (A2)

= 1

1.22 Definition:

Sei Ω ein diskreter Grundraum. Eine Abbildung p : Ω ��

[0,1] mit der Eigenschaft

�

p(ω) = 1

heißt Wahrscheinlichkeitsfunktion auf Ω.

Bemerkung 1.23:

ω∈Ω

Ist P eine Wahrscheinlichkeitsverteilung auf Ω, so ist

wie oben gesehen eine Wahrscheinlichkeitsfunktion.

Beispiel 1.24:

p(ω) := P ({ω})

Wir betrachten den zu einmaligem Würfeln gehörigen Laplace-Raum. Dann ist die entsprechende Wahrscheinlichkeitsfunktion

p gegeben durch

Beispiel 1.25:

p(1) = p(2) = ... = p(6) = 1

6 .

Wir betrachten wieder unser Beispiel der Reißzwecke. Die hier entstehende Wahrscheinlichkeitsfunktion

p ist gegeben durch

p(1) = 0.4, p(0) = 0.6.

1.26 Satz:

Sei Ω ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf Ω. Dann definieren wir durch

P (A) := �

p(ω) , A ⊆ Ω

eine Wahrscheinlichkeitsverteilung P auf Ω.

ω∈A

14 1 Grundbegriffe

Beweis:

Wir müssen lediglich die Axiome (A1), (A2) und (A3) prüfen.

(A1) Sei A ⊆ Ω beliebig. Da p ≥ 0 gilt, folgt sofort

(A2) Offenbar ist

(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann ist

P

P (A) = �

p(ω) ≥ 0.

��

ω∈A

≥0

P (Ω) = �

p(ω) = 1.

� ∞�

i=1

Ai

�

ω∈Ω

= �

ω∈ ∞�

Ai

i=1

p(ω) .

Per Definition ist p ≥ 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen der

Disjunktheit der Ai: �

∞�

P

�

∞� �

∞�

= p(ω) = P (Ai) .

Das zeigt die Behauptung.

Bemerkung 1.27:

i=1

Ai

i=1 ω∈Ai

Für diskrete Grundräume Ω haben wir also folgendes:

Die Menge M aller Wahrscheinlichkeitsverteilungen P auf Ω und die Menge aller Wahrscheinlichkeitsfunktionen

p auf Ω lassen sich bijektiv durch

ineinander abbilden.

i=1

P ↦→ p, p(ω) := P ({ω}) , ω ∈ Ω

Die Frage, die man sich also stellt ist, warum man nicht gleich nur mit Wahrscheinlichkeitsfunktionen

arbeitet.

Eine Antwort darauf ist leicht zu geben, denn im Fall eines nicht-diskreten Grundraumes wie Ω = [0,1]

oder Ω = R macht eine Frage nach P ({a}), a ∈ Ω - also nach der Wahrscheinlichkeit eines einzelnen

Ergebnisses - keinen Sinn! Diese Wahrscheinlichkeit wäre stets 0.

Man stelle sich Beispielsweise einen Zufallsgenerator vor, der ” gleichverteilt“ Zahlen aus [0,1] zieht. Die

Wahrscheinlichkeit, dass eine 0 gezogen wird, müsste dann 0 sein, aber die Summe über alle Zahlen der

Wahrscheinlichkeiten wäre weiterhin 1. Das macht schlicht und ergreifend keinen Sinn!

Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abzählbare) Grundräume Ω

verallgemeinern und liefern so eine einheitliche Theorie für alle Wahrscheinlichkeitsräume.

Beispiel 1.28:

Wir können einen gefälschten Würfel modellieren durch

p(1) := 0.1, p(2) = ... = p(5) = 0.175, p(6) = 0.2.

Das definiert eine Wahrscheinlichkeitsfunktion auf Ω = {1,2,...,6}. Die zugehörige Wahrscheinlichkeitsverteilung

nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung.

Beispiel 1.29:

Auf Ω = {2,3,...,12} definiere die Wahrscheinlichkeitsfunktion p durch den Vektor

� �

1 2 5 6 5 1

, ,..., , , ,..., .

36 36 36 36 36 36

Damit ist natürlich gemeint, dass p(2) = 1 2

36 , p(3) = 36 etc. ist. Diese Wahrscheinlichkeitsfunktion definiert

als Wahrscheinlichkeitsverteilugn genau die Verteilung der Augensumme bei zweimaligem Würfeln.

1 Grundbegriffe 15

1.4 Siebformeln

In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen oder abschätzen, wenn

wir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (Ω,P) ein Wahrscheinlichkeitsraum.

1.30 Lemma:

Sind A1,A2 ⊆ Ω Ereignisse, so gilt

Beweis:

P (A1 ∪ A2) = P (A1) + P (A2) − P (A1 ∩ A2) .

Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 ∩ A2). Dann ist A1 ∪ A2 = B1 ∪ B2 und B1 ∩ B2 = ∅.

Daher gilt:

Das zeigt die Behauptung.

Beispiel 1.31:

Wir definieren das Ereignis A als

P (A1 ∪ A2) = P (B1 ∪ B2)

(R2)

= P (B1) + P (B2)

= P (A1) + P (A1 \ (A1 ∩ A2))

(R5)

= P (A1) + P (A2) − P (A1 ∩ A2) .

A:= ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 oder durch 5 teilbar“

Um P (A) zu berechnen definieren wir

A2:= ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 teilbar“

A5:= ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 5 teilbar“

Dann gilt A = A2 ∪ A5, offenbar ist P (A2) = 50 1

100 = 2 , P (A5) = 20 1

100 = 5 und

P (A2 ∩ A5) = P ( ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 und durch 5 teilbar“)

Nach Lemma 1.30 ist also

= P ( Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 10 teilbar“) =

” 10 1

=

100 10 .

P (A) = P (A2) + P (A5) − P (A2 ∩ A5) = 1 1 1 3

+ − =

2 5 10 5 .

Sind A1,A2,A3 ⊆ Ω nun drei Ereignisse, so ergibt sich als Siebregel

P (A1 ∪ A2 ∪ A3)

= P (A1) + P (A2) + P (A3) − P (A1 ∩ A2) − P (A1 ∩ A3) − P (A2 ∩ A3) + P (A1 ∩ A2 ∩ A3) ,

wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch aus

den folgenden allgemeinen Siebformeln.

1.4.1 Allgemeine Siebformeln

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A1,...,An ⊂ Ω Ereignisse, n ≥ 2. Setze

�

Sk :=

P (Ai1 ∩ ... ∩ Aik )

für 1 ≤ k ≤ n.

1≤i1

16 1 Grundbegriffe

Beweis:

Wir zeigen die Aussage durch Induktion über n.

• Induktionsanfang (I.A.):

Lemma 1.30 liefert

• Induktionsvoraussetzung (I.V.):

Gelte

P (A1 ∪ A2) = P (A1) +P (A2) − P (A1 ∩ A2) =

� ��

für alle Ereignisse A1,...,Am ⊆ Ω.

• Induktionsschritt (n ��

n + 1):

Wir setzen

Dann gilt:

�

n+1 �

P

i=1

Ai

�

=S1

P

= P (B ∪ An+1)

I.A.

� n�

i=1

Ai

�

=

=S2

n�

k=1

B := A1 ∪ ... ∪ An

(−1) k−1 Sk

= P (B) + P (An+1) − P (B ∩ An+1)

�

n�

�

��

n�

= P + P (An+1) − P

I.V.

=

I.V.

=

n�

k=1

i=1

Ai

(−1) k−1 Sk + P (An+1) − P

n�

(−1) k−1

k=1

−

n�

(−1) k−1

k=1

n�

(−1) k−1

k=1

−

n�

(−1) k−1

k=1

�

1≤i≤n

−

P (Ai) +

n�

(−1) k−1

k=1

�

1≤i≤n+1

−

�

1≤i1

1 Grundbegriffe 17

=

n+1 � n−1 �

P (Ai) − (−1) k−1

i=1

+

i=1

�

k=1

1≤i1

18 1 Grundbegriffe

Damit folgt dann:

P

was die Behauptung zeigt.

Mit den Bezeichnungen

� n�

i=1

Ai

�

Sk :=

für 1 ≤ k ≤ n kann man jetzt folgern:

Folgerung 1.34:

= P

=

� n�

i=1

Bi

n�

P (Bi)

i=1

�

⎛ ⎛ ⎞⎞

n�

i−1 �

⎝P (Ai) − P ⎝ (Aj ∩ Ai) ⎠⎠

i=1

n�

P (Ai) −

i=1

�

1≤i1

1 Grundbegriffe 19

=

i1−1 �

j=1

P (Ai1 ∩ ... ∩ Aim ∩ Aj)

i1−1 �

− P

i1−1 �

j=1

� j−1

�

k=1

(Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ai1 ∩ ... ∩ Aim ∩ Ak)

P (Ai1 ∩ ... ∩ Aim ∩ Aj)

i1−1 �

− P

j=1

� j−1

�

k=1

(Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ak)

Setzen wir das nun in die Induktionsvoraussetzung ein, so erhalten wir

�

n�

�

I.V.

=

P

m�

i=1

m�

i=1

Ai

(−1) i−1 Si + (−1) m

i1−1 �

− P

m�

i=1

j=1

� j−1

�

k=1

(−1) i−1 Si + (−1) m

+(−1) m+1

m�

i=1

�

1≤i1

20 1 Grundbegriffe

Beweis:

Nach Definition eines Wahrscheinlichkeitsraums ist für jede Auswahl 1 ≤ i1 < ... < im ≤ n

⎛

⎞

i1−1 �

P ⎝ (Ai1 ∩ ... ∩ Aim ∩ Aj) ⎠ ≥ 0

Ist nun m ∈ {1,...,n} ungerade, so folgt

P

� n�

i=1

Ai

�

(1.6)

=

≤

m�

i=1

j=1

(−1) i−1 Si + (−1) m

m�

(−1) i−1 Si −

i=1

m�

i=1

(−1) i−1 Si

�

1≤i1

1 Grundbegriffe 21

Beweis:

Es gilt

Das zeigt die Behauptung.

P

� n�

i=1

Ai

�

��

n�

(R3)

= 1 − P

(1.3)

= 1 − P

(1.7)

≥ 1 −

(R3)

= 1 −

≥ 1 −

� n�

i=1

A c i

Ai

n�

P (A c i)

i=1

�

� c�

n�

(1 − P (Ai))

i=1

n�

(1 − 1 − εi) = 1 −

i=1

In der Anwendung sieht das so aus: Man betrachtet etwa ein System mit n Komponenten, welches nur

funktioniert, wenn alle Komponenten funktionieren. Dann ist

und

Ai = ” Die i-te Komponente ist intakt“

n�

Ai = Das System ist intakt“

”

i=1

Man erhält so eine Abschätzung für die Sicherheit des Systems, wenn man Abschätzungen für die Sicherheit

der Komponenten hat.

Beispiel 1.38:

Ist etwa P (Ai) ≥ 0.99 für alle i = 1,...,n, also εi = 0.01 für alle i = 1,...,n, so ist das System immerhin

noch mit Wahrscheinlichkeit �

n�

�

P Ai ≥ 1 − n

100

intakt.

i=1

n�

i=1

εi

22 2 Kombinatorik

2 Kombinatorik

Hier wollen wir das sogenannte Urnen- und Fächermodell einführen. Dazu betrachten wir vier verschiedene

Grundräume ΩI,ΩII,ΩIII,ΩIV die aus Urnen- bzw. Fächermodellen entstehen und bestimmen ihre

Kardinalitäten. In der Praxis werden ΩI,ΩII und ΩIII oft als Grundräume für Laplace-Räume benutzt,

ΩIV ist spezieller.

Beispiel 2.1:

Wir wollen Würfeln als Urnenmodell realisieren. Dabei entspricht dann der erste Wurf dem Ziehen einer

Kugel aus einer Urne mit sechs Kugeln, welche mit den Zahlen 1,2,3,4,5,6 beschriftet sind, und dem

Zurücklegen der Kugel nach dem Ziehen. Der zweite Wurf ist dann wieder das Ziehen einer Kugel aus

der selben Urne mit zurücklegen etc..

Das realisiert genau Würfeln als Laplace-Raum wie bereits bekannt.

Urnenmodell I:

k-faches Ziehen mit Zurücklegen unter Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln,

welche die Nummern 1 bis n tragen.

Der Grundraum ist hier

ΩI = {(a1,...,ak) | 1 ≤ ai ≤ n, i = 1,...,n}

wobei ai der Nummer der im i−ten Experiment gezogenen Kugel entspricht. Es ist

#ΩI = n k

Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1,...,k nummeriert

werden und verteilt diese Kugeln in n Fächer. Dabei sind mehrere Kugeln pro Fach erlaubt. Notiert wird

als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift ” i“ gelandet ist. Der Grundraum

der Ergebnisse ist dann genau wie oben schon eingeführt

Beispiel 2.2:

ΩI = {(a1,...,ak) | 1 ≤ ai ≤ n, i = 1,...,n}

Das Fächermodell findet etwa dann Verwendung, wenn sich k Kunden an n verfügbaren Schaltern anstellen

oder in der Informatik k Jobs auf n Prozessoren verteilt werden.

Urnenmodell II:

k-faches Ziehen ohne Zurücklegen unter Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln,

welche die Nummern 1 bis n tragen. Das ist offenbar nur für k ≤ n möglich.

Der Grundraum ist hier

ΩII = {(a1,...,ak) | ai �= aj für i �= j und ai ∈ {1,...,n} für i = 1,...,k}

wobei ai der Nummer der im i−ten Experiment gezogenen Kugel entspricht. Die Kardinalität von ΩII

berechnet sich wie folgt:

Beim Ziehen der ersten Kugel gibt es n Möglichkeiten, beim Ziehen der zweiten Kugel n−1 Möglichkeiten

usw, daher ist

n!

#ΩII = n · (n − 1) · ... · (n − k + 1) =

(n − k)! =: (n) k

Wir sprechen diese Zahl als ” n unten k“.

Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1,...,k nummeriert

werden und verteilt diese Kugeln in n Fächer. Diesmal ist aber jeweils maximal eine Kugel pro Fach

erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift ” i“ gelandet

ist.

2 Kombinatorik 23

Bemerkung 2.3 (Spezialfall):

Wir betrachten nun den Fall n = k, d.h. alle Kugeln werden gezogen. Dann erhalten wir hier als ΩII

genau die Menge aller Permutationen der Zahlen {1,...,n}, da in den Tupeln (a1,...,an) jede Zahl aus

{1,...,n} genau einmal auftaucht. Man sieht mit obiger Formel sofort

Beispiel 2.4:

#ΩII = (n) n = n!

(1) Wir wollen die Wahrscheinlichkeit für Fixpunkte von Permutationen berechnen.

Dazu sei k = n und ΩII mit der Laplace-Verteilung versehen. Entsprechend gilt dann für jede

Permutation (a1,...,an) ∈ ΩII der Menge {1,...,n}, dass

P ({(a1,...,an)}) = 1

#ΩII

= 1

n!

Sei nun Ai := {(a1,...,an) ∈ ΩII | ai = i} das Ereignis Die Permutation hat an der Stelle i einen

”

Fixpunkt“. Dann gilt

P (Ai) = #Ai

=

#ΩII

(n − 1)!

=

n!

1

∀ i = 1,...,n

n

da Ai genau die Menge aller Permutationen von {1,...,n} ist, welche i festhält, also nur n−1-Zahlen

aus {1,...,n} \ {i} permutiert. Das entspricht genau einer Permutation der Zahlen

{1,...,n} \ {i} ∼ = {1,...,n − 1}

und deren Anzahl ist wie oben gesehen genau (n − 1)!.

(2) Eine Person probiert ihre n Schlüssel zufällig an einem Schloss durch. Nur einer der Schlüssel passt.

Sei Bi das Ereignis ” der i-te Schlüssel passt“. Wir bezeichnen die Schlüssel mit 1,...,n und nehmen

durch Umnummerieren stets an, dass 1 der passende Schlüssel ist. Als Modell verwenden wir wieder

ΩII als Laplace-Raum. Dann ist

und entsprechend

wie oben.

Bi {(a1,...,an) ∈ ΩII | ai = 1}

P (Bi) = #Bi

=

#ΩII

1

n

Urnenmodell III:

k-faches Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln,

welche die Nummern 1 bis n tragen. Das ist offenbar wieder nur für k ≤ n möglich.

Der Grundraum ist hier

ΩIII = {T ⊂ {1,...,n} | #T = k}

Einer Teilmenge T ∈ ΩIII entspricht dann das Experiment, dass genau die Kugeln mit den Zahlen

i ∈ T gezogen wurden (Reihenfolge egal!). Die Kardinalität von ΩII berechnet sich mit dem Prinzip des

Schäfers: 1

Will man #ΩIII durch abzählen berechnen, so erscheint dies sehr schwer. Man definiert also

1 Prinzip des Schäfers:

f : ΩII

��

ΩIII durch f ((a1,...,ak)) := {a1,...,ak}

Will man wissen, wie viele Schafe auf der Wiese stehen, so muss man nicht zwingend die Schafe selbst zählen. Man kann

auch die Anzahl der Beine auf der Wiese zählen und durch die Anzahl der Beine pro Schaf teilen, das liefert das selbe

Ergebnis:

# Beine

= # Schafe

4

Dieses Prinzip klingt zunächst sehr abstrus, aber oben wird die enorme Mächtigkeit des Prinzips klar.

24 2 Kombinatorik

Diese Abbildung ist wohldefiniert, da wir für jedes (a1,...,ak) ∈ ΩII gefordert hatten, dass die ai paarweise

verschieden sind. Man erhält als Bild unter f also tatsächlich eine k-elementige Teilmenge von {1,...,n}.

Ganz offenbar ist f surjektiv und jede Menge {a1,...,ak} ∈ ΩIII (∼Schaf) hat genau k! Urbilder (∼Beine)

unter f, da es wie oben gesehen k! Permutationen einer k-elementigen Menge gibt. Daher gilt:

#ΩIII = #ΩII · 1

k! = (n) k

k! =

n!

k!(n − k)! =:

Die Zahl � � n

k wird auch Binomialkoeffizient“ oder n über k“ genannt.

” ”

Bemerkung 2.5 (Eigenschaften der Binomialkoeffizenten):

(1) Es gilt � � � �

n n

=

k n − k

(2) Der Binomische Lehrsatz besagt

(3) Die Anzahl der möglichen Auswahlen

(x + y) n =

n�

k=0

� �

n

x

k

k y n−k

� n

k

1 ≤ i1 < ... < ik ≤ n (2.1)

- wie sie etwa in Abschnitt 1.4.1 vorkommen - entspricht genau der Anzahl der k-elementigen

Teilmengen von {1,...,n} (einfach die Ordnung vergessen). Daher gibt es genau

� �

n

k

Möglichkeiten, Zahlen i1,...,ik wie in (2.1) auszuwählen.

Beispiel 2.6:

Ein klassisches Beispiel für das Urnenmodell III ist das gewöhnliche Lotto. Hier werden 6 Kugeln aus

49 möglichen Kugel ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen, d.h. es ist

n = 49 und k = 6. Man sieht an diesem Beispiel sehr deutlich, dass auch wirklich nur die Teilmenge T

der gezogenen Kugeln entscheidend ist.

Um die Wahrscheinlichkeit für 6 Richtige zu berechnen, betrachten wir ΩIII als Laplace-Raum und erhalten

so für einen beliebigen festen Tip T = {a1,...,a6} ⊂ {1,...,49} die Wahrscheinlichkeit

P (T) = #T

#ΩIII

= 1 1

� =

13.983.816

6 Richtige im Lotto erscheinen also als sehr unwahrscheinlich!

Jetzt wollen wir noch das zugehörige Fächermodell entwickeln.

Man betrachtet dazu die verschiedenen Möglichkeiten k nicht zu unterscheidende Kugeln auf n Fächer

zu verteilen. Dabei ist jeweils wieder maximal eine Kugel pro Fach erlaubt. Notiert wird als Ergebnis nur

die Teilmenge der besetzten Fächer.

� 49

6

Urnenmodell IV:

k-faches Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln,

welche die Nummern 1 bis n tragen.

Als Ergebnis notieren wir nur das Tupel (k1,...,kn), wobei die Zahl ki angibt, wie oft die Kugel mit der

Nummer i gezogen wurde. Zwangsläufig gilt dann

n�

ki = k

i=1

�

2 Kombinatorik 25

Der Grundraum ist also

Beispiel 2.7:

ΩIV :=

�

(k1,...,kn)

�

� 0 ≤ ki ≤ k ∀ i = 1,...n und

n�

�

ki = k

Wir haben n = 6 Kugeln und ziehen k = 10 mal. Dann ist das Ergebnis ein Vektor

(3,0,2,4,0,1)

welcher symbolisiert, dass 3 mal Kugel Nummer 1 gezogen wurde, 0 mal Kugel Nummer 2, 2 mal Kugel

Nummer 3 usw..

Bevor wir die Kardinalität von ΩIV bestimmen wollen wir kurz das zugehörige Fächermodell vorstellen.

Man betrachte k Kugeln, die auf n Fächer verteilt werden - mit erlaubter Mehrfachbesetzung der Fächer

- und zähle als Ergebnis nur, wie viele Kugeln im i-ten Fach sind für i = 1,...,n.

Beispiel 2.8:

In der Praxis findet dieses Modell etwa Verwendung, wenn k Kunden sich an n Schaltern anstellen und

man nachher die Auslastung der einzelnen Schalter betrachten will.

Jetzt wollen wir #ΩIV bestimmen. Auch dazu konstruieren wir wieder eine geeignete Abbildung in einen

Raum, dessen Kardinalität wir bereits kennen.

Wir betrachten die Menge aller Folgen der Zahlen 0 und 1 der Länge n + k − 1. Wir betrachten jetzt 0

als eine Kugel und 1 als die Markierung für ” nächstes Fach“. Unter dieser Identifikation wird etwa das

Ergebnis (3,0,2,4,0,1) aus Beispiel 2.7 zur Folge

000110010000110

Wollen wir eine Bijektion zwischen ΩIV und einer Teilmenge von {(ai,...,an) | ai ∈ {0,1} für i = 1,...,n}

erhalten, so muss jede der Folgen genau n − 1 1en und k 0en enthalten. Unter dieser Bedingung erhalten

wir offenbar eine Bijektion!

Eine Folge der Länge n+k −1 mit genau n−1 1en und k 0en ist aber bereits eindeutig durch die Auswahl

der Positionen der k 0en (also Kugeln) eindeutig bestimmt - die anderen Positionen müssen 1en sein.

Daher ist

� �

n + k − 1

#ΩIV = # {T ⊂ {1,...,n + k − 1} | #T = k} =

k

wie oben berechnet.

In Beispiel 2.7 ergibt sich also

#ΩIV =

i=1

� �

10 + 6 − 1 15!

= = 3003

10 10!(15 − 10)!

Wenn wir die Laplace-Verteilung annehmen, dann hat entsprechend jede Konfiguration die Wahrscheinlichkeit

P(k1,k2,...,kn) = 1

≈ 0,00033

2.9 Definition:

Wir definieren den Multinomialkoeffizient als

Bemerkung 2.10:

⎧

� �

k

⎨

:=

k1,k2,...,kn ⎩

#ΩIV

k!

k1!·k2!·...·kn! falls ki ≥ 0 ∀ 1 ≤ i ≤ n, n�

0 sonst

i=1

ki = k

Für den Fall k = 2 kennen wir dies bereits als den Binomialkoeffizienten. Sei k = k1 + k2, dann gilt:

� �

k k!

=

k1,k2 k1! · k2! =

k!

k1!(k − k1)!

2.11 Lemma:

Die Anzahl der Möglichkeiten eine Menge A der Kardinalität k in n Teilmengen A1,...,An mit #Ai = ki

und n�

ki = k zu zerlegen ist gegeben durch

i=1

� �

k

k!

=

k1,k2,...,kn k1! · k2! · ... · kn!

26 2 Kombinatorik

Beweis:

Für A1 gibt es � � k

Möglichkeiten, Elemente auszuwählen. Dann ist #(A \ A1) = k − k1 und es gibt für

k1

A2 nur noch � � k−k1 Möglichkeiten, Elemente auszuwählen. Für A3 bleiben k2

� � k−k1−k2 Möglichkeiten usw..

k3

Die Gesamtzahl der Möglichkeiten A in Teilmengen der Größe k1,...,kn zu zerlegen beträgt also

� � � � � � � �

k k − k1 k − k1 − k2 k − k1 − k2 − ... − kn−1

· ·

· ... ·

=

Das zeigt die Behauptung.

k1

k2

k!

k1!(k − k1)! ·

k!

k1! · k2! · ... · kn!

k3

(k − k1)!

k2!((k − k1 − k2)! ·

Beispiel 2.12 (zum Vergleich zu Beispiel 2.7):

Wir wollen nun das obige Beispiel noch einmal bzgl. des Grundraums

kn

(k − k1 − k2)!

· ... ·

k3!(k − k1 − k2 − k3)!

ΩI = {(a1,...,ak) | ai ∈ 1,...,n für 1 ≤ i ≤ k}

und der Laplace-Verteilung betrachten. Es werden 10 von 1 bis 10 nummerierte Kugeln auf 6 Fächer

verteilt. ai ist das Fach der i-ten Kugel. Sei

Ak1,k2,...,k6 = {(a1,...,a6) | genau k1 der ai’s sind 1, k2 der ai’s sind 2, ..., kn der ai’s sind 6}

Laut Lemma 2.11 ist

und daher gilt

Einsetzen in (2.2) liefert nun

#Ak1,...,k6 =

P(Ak1,k2,...,kn

�

k

k1,...,k6

�

1 k!

) = ·

nk k1! · ... · kn!

P(A3,0,2,4,0,1) =

1

610 ·

10!

≈ 0,0002

4! · 0! · 2! · 3! · 0! · 1!

P(A10,0,0,0,0,0) = 1 10!

· ≈ 0,000000017

610 10!

P(A2,2,2,2,1,1) = 1 10!

·

≈ 0,0037

610 2! · 2! · 2! · 2! · 1! · 1!

Trotzdem: Gewisse Elementarteilchen (Bosonen) verteilen sich auf verschiedene Energiezustände gemäß

der Laplace-Verteilung auf ΩIV.

2.1 Binomial- und Hypergeometrische Verteilung

Wir betrachten eine Urne mit N Kugeln, wobei R rote Kugeln und N − R weiße Kugeln enthalten sind.

Daraus wird eine Stichprobe im Umfang von n Kugeln auf 2 Arten (mit und ohne Zurücklegen) gezogen.

Gesucht ist die Wahrscheinlichkeit genau r rote Kugeln zu ziehen.

2.1.1 Ziehen mit Zurücklegen (Binomialverteilung)

Gegeben sei

ΩI = {(a1,a2,...,an) | 1 ≤ ai ≤ N}

mit der Laplace-Verteilung. Es seien die Kugeln 1,2,...,R die roten Kugeln. Gesucht ist P(Er), wobei

Er = {(a1,a2,...an) | #{i | ai ∈ {1,2,...,R}} = r}

Er entspricht den r roten Kugeln, anders gesagt den r ” Erfolgen“.

Wir wollen nun #Er bestimmen:

Sie I ⊂ {1,2,...,n} die Indexmenge der Ziehungen, bei denen eine rote Kugel gezogen wurde. Dann ist

Er die disjunkte Vereinigung aller Ereignisse

EI = {(a1,a2,...,an) | ai ∈ {1,2,...,R} ⇔ i ∈ I}

� kn

kn

�

(2.2)

2 Kombinatorik 27

über alle r-elementigen Teilmengen I ⊂ {1,2,...,n}. Für festes I ist

#EI = R r · (N − R) n−r

und es gibt � � n

r Teilmengen I ⊂ {1,2,...,n} mit #I = r. Damit ist

P(Er) = #Er

#ΩI

= 1

·

Nn 2.13 Definition (Binomialverteilung):

Für p ∈ [0,1] und n ∈ N heißt

binn,p(j) = b(n,p,j) =

� �

n

· R

r

r · (N − R) n−r =

� �

n

·

r

� � �

R

· 1 −

N

R

�n−r N

� �

n

p

j

j (1 − p) n−j , 0 ≤ j ≤ n

die Binomialverteilung mit Erfolgswahrscheinlichkeit p und Stichprobenumfang n.

Beispiel 2.14 (Münzwurf):

n-maliges Werfen einer Münze ist wie Ziehen mit Zurücklegen aus einer Urne mit 2 Kugeln. Wir modellieren

mit Hilfe der Binomialverteilung:

P( ” k mal Kopf“) =

� �

n

·

k

� �k 1

·

2

� �n−k 1

=

2

2.1.2 Ziehen ohne Zurücklegen (Hypergeometrische Verteilung)

� n

k

�� 1

2

Man zieht eine Teilmenge T von n ≤ N Kugeln. Wir betrachten den Grundraum

ΩIII = {T ⊂ {1,2,...,N} | #T = n}

und damit ist #ΩIII = � � N

n . Die Kugeln 1,2,...,R seien rot. Hier ist

Er = {T ⊂ {1,2,...,N} | #(T ∩ {1,...,R}) = r, #T = n}

= {T ⊂ {1,2,...,N} | #(T ∩ {1,2,...,R}) = r,#(T ∩ {R + 1,...,N}) = n − r}

Dabei gibt es genau � � � � R

N−R

r Teilmengen von {1,2,...,R} der Kardinalität r und n−r Teilmengen der Kardinalität

n − r von {R + 1,...,N}. Damit folgt

� � � �

R N − R

#Er = ·

r n − r

2.15 Definition:

Wir nennen

hyp(r,n,R,N) := P(Er) = #Er

#ΩIII

die hypergeometrische Verteilung zu den Parametern n, N und R.

Beispiel 2.16 (Skat):

=

� R

r

� � � N−R

· n−r

�

Beim Skatspiel gibt es 32 Karten, darunter 4 Asse. 3 Spieler bekommen je 10 Karten. Es ist die Wahrscheinlichkeit

für das Ereignis ” Spieler 1 bekommt 3 Asse“ gesucht.

Modell: 32 Kugeln, davon R=4 rote Kugeln und n= 10 Ziehungen.

Gesucht: P(3 Erfolge) = P(E3)

Wir oben gesehen berechnet man mit der hypergeometrischen Verteilung:

� � � � 4 28

3 · 7

P(E3) = hyp(3,10,4,32) � = 66

≈ 0,073

899

� 32

10

� N

n

� n

28 2 Kombinatorik

2.2 Das Stimmzettelproblem

Die Auszählung der Stimmen einer Wahl hat ergeben: Kandidat A gewinnt mit a Stimmen gegenüber

Kandidat B mit b Stimmen, a > b. Gesucht ist die Wahrscheinlichkeit des Ereignisses

2.17 Satz:

Wenn a > b, so ist

E:= ” A liegt während der gesamten Auszählung in Führung“.

und hängt damit nur vom Quotienten b

a ab.

Beweis:

P(E) =

1 − b

a

1 + b

a

Wir stellen die Auszählung der Stimmzettel als Pfad da. Der Pfad

entspräche dann also der Auszählung

“B,B,A,A,A,B,A,A,B“

” erste Stimme für B, zweite Stimme für B, dritte Stimme für A usw. “

Graphisch kann man sich diesen beispielhaften Pfad wie folgt verdeutlichen:

Stimmen für A

Wir betrachten dazu also

5

4

3

2

1

0

0 1 2 3 4 5

Stimmen für B

Abbildung 1: Der Auszählungspfad ” B,B,A,A,A,B,A,A,B“

Ω = {Pfade von (0,0) nach (b,a)}

als Laplace-Raum. Ein Pfad aus Ω wird offenbar schon durch die Zeitpunkte der A-Stimmen eindeutig

festgelegt und hat logischerweise Länge a + b, daher gilt

� �

a + b

#Ω =

b

Wir wollen Ω jetzt disjunkt zerlegen. Sei dazu

E1 = {Pfade oberhalb der Diagonalen}

E2 = {Pfade durch (0,1) , die nicht oberhalb der Diagonalen liegen}

E3 = {Pfade, die durch (1,0) verlaufen}

Da jeder Pfad, welcher oberhalb der Diagonalen verläuft, automatisch durch (0,1) verlaufen muss, gilt

dann

3�

Ω =

i=1

2 Kombinatorik 29

A

2

1

0

0 1 2 B

A

2

1

0

0 1 2 B

A

2

1

0

0 1 2 B

Abbildung 2: Von links nach rechts: Beispiel eines Pfades aus E1, aus E2 und aus E3

Gesucht ist in diesem Zusammenhang natürlich

P (E) = P (E1) = #E1

#Ω

und wir können #E1 über #E1 = #Ω−#E2 −#E3 berechnen. Die Kardinalität #E3 von E3 ist offenbar

� �

a + b − 1

#E3 = = Anzahl der Pfade der Länge a + b − 1 von (1,0) nach (b,a)

a

da jeder Pfad aus E1 genau eins kürzer ist als ein Pfad aus Ω. Jetzt verwenden wir folgendes

2.18 Lemma (Spiegelungsprinzip):

Falls a > b, so gilt

Beweis:

#E2 = #E3

Da a > b ist, muss jeder Pfad aus E3 mindestens einmal die Diagonale schneiden (er beginnt ja schließlich

bei (1,0)!). Sei (c,d) der erste Schnittpunkt des Pfades mit der Diagonalen. Jetzt spiegeln wir den Teilpfad

von (0,0) nach (c,d) an der Diagonalen und erhalten insgesamt einen Pfad aus E2.

A

2

1

0

0 1 2 B

Diese Abbildung ist offenbar bijektiv.

Damit folgt dann sofort

Daraus folgt

und das zeigt die Behauptung.

=⇒

A

2

1

0

0 1 2 B

Abbildung 3: Verdeutlichung des Spiegelungsprinzips

� � � �

a + b a + b − 1

#E1 = #Ω − 2#E3 = − 2

b a

P (E) = #E

#Ω = 1 − 2� � a+b−1

a

� � a+b

a

(a + b − 1)!a!b!

= 1 − 2

a!(b − 1)!(a + b)!

= 1 − 2 b

a + b

= a + b − 2b

= a − b

a + b

= 1 − b

a

1 + b

30 2 Kombinatorik

Beispiel 2.19:

Wir betrachten die Wahlergebnisse

a = 100 und b = 50 (2.3)

a = 200 und b = 100. (2.4)

In beiden Fällen ist

b 1

=

a 2

und damit sagt uns obiger Satz, dass die Wahrscheinlichkeit, dass der siegende Kandidat A während der

gesamten Auszählung in Führung lag, in beiden Fällen (2.3) und (2.4) bei

liegt.

P(E) =

1 − 1

2

1 + 1

2

= 1

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 31

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und

mehrstufige Experimente

3.1 Unabhängigkeit

Wir beginnen mit einem motivierenden Beispiel.

Beispiel 3.1:

Man betrachtet das Werfen zweier Würfel und die Ereignisse

A = ” Augensumme ist gerade“

B = ” Mindestens eine 6“

Wir fragen uns hier, ob das Eintreten von B die Wahrscheinlichkeit des Eintretens von A beeinflusst. Dazu

simulieren wir n = 10.000 Würfe mit zwei Würfeln und erhalten in unserer Simulation, dass das Ereignis

A hA = 5069 mal, das Ereignis B hb = 3061 mal und das Ereignis A ∩ B (also A und B gleichzeitig)

genau hA∩B = 1386 mal eintritt.

Wenn B ” keinen Einfluss“ auf das Eintreten von A hat, so sollte

hA

n

≈ hA∩B

hB

gelten. Wir können diese Aussage auf relative Häufigkeiten umformen:

hA∩B

n

≈ hA

n

· hB

n .

Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert nun die folgende

3.2 Definition:

Sei (Ω,P) eine Wahrscheinlichkeitsraum. Zwei Ereignisse A,B ⊂ Ω heißen unabhängig, falls

gilt.

Beispiel 3.3:

P (A ∩ B) = P (A) · P (B)

Im Beispiel 3.1 oben vermutet man dann nach der Simulation, dass A und B nicht unabhängig sind, denn

hA∩B

n

= 0.1386 �= 0.155 ≈ hA

n

· hB

n .

Um diese Aussage anhand der Definition nachzuprüfen betrachtet man Ω = {1,2,3,4,5,6} 2 als Laplace-

Raum und hat damit

Also gilt #A = 18 und #B = 11. Das liefert

Jetzt berechnet man noch

A = {(1,1) ,(1,3) ,(1,5) ,(2,2) ,...,(6,6)} ,

B = {(1,6) ,...,(6,6) ,(6,1) ,...,(6,5)} .

P (A) = 1

2

und P (B) = 11

36 .

A ∩ B = {(2,6) ,(4,6) ,(6,6) ,(6,2) ,(6,4)}

und hat damit

#A ∩ B 5 11 1 11

P (A ∩ B) = = �= = · = P (A) · P (B).

#Ω 36 78 2 36

Die angegebenen Ereignisse A und B sind also in der Tat abhängig.

Beispiel 3.4:

Betrachte wieder das Setting aus Beispiel 3.1 und das zusätzliche Ereignis

C = ” Der erste Wurf ist eine 6“

Wir wollen zeigen, dass A und C unabhängig sind. Dazu berechnen wir

was diese Aussage zeigt.

P (A ∩ C) = P ({(6,2),(6,4),(6,6)}) = 3 1 1 1

= = · = P (A) · P (C) ,

36 12 2 6

32 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Beispiel 3.5:

Wir betrachten eine Urne mit drei von 1 bis 3 nummerierten Kugeln, davon seien die Kugeln 1 und 2 rot

und Kugel 3 weiß. Wir wollen zwei Ziehungen durchführen und betrachten die Ereignisse

A = ” erster Zug rot“

B = ” zweiter Zug weiß“

Ziehen wir mit Zurücklegen, so ist offenbar Ω = {(i,j) | 1 ≤ i,j ≤ 3} und daher #Ω = 9. Das liefert

P (A) = 2 1

2 2

, P (B) = , P (A ∩ B) = P ({(1,3) ,(2,3)}) = = = P (A) · P (B).

3 3 #Ω 9

Mit Zurücklegen sind A und B also unabhängig.

Ziehen wir ohne Zurücklegen, so ist offenbar Ω = {(i,j) | 1 ≤ i,j ≤ 3,i �= j} und daher #Ω = 6. Das

liefert

P (A) = 2

3 ,

P (B) = P ({(1,3) ,(2,3)}) = 2 1

=

#Ω 3 ,

P (A ∩ B) = P ({(1,3) ,(2,3)}) = 2 2

= �= P (A) · P (B).

#Ω 6

Ohne Zurücklegen sind A und B also abhängig!

Bemerkung 3.6:

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A,B ⊂ Ω zwei Ereignisse mit A ∩B = ∅. Dann können

A und B offenbar nur dann unabhängig sein, wenn

d.h. wenn entweder P (A) = 0 oder P (B) = 0 gilt.

0 = P (A ∩ B) = P (A) · P (B),

Jetzt wollen wir unsere Definition auf n Ereignisse A1,...,An ⊂ Ω des Wahrscheinlichkeitsraumes (Ω,P)

verallgemeinern. Wir definieren dazu wie folgt:

3.7 Definition:

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A1,...,An ⊂ Ω Ereignisse.

Wir nennen A1,...,An unabhängig, falls für jede Auswahl von k Indizes i ≤ i1 < ... < ik ≤ n, 1 ≤ k ≤ n

beliebig, die Gleichung

⎛ ⎞

k�

P ⎝

k�

⎠ = P � �

Aij

gilt.

j=1

Diese Definition mag zunächst etwas unintuitiv erscheinen, sie ermöglicht aber folgendes

3.8 Lemma:

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A1,...,An ⊂ Ω unabhängige Ereignisse.

Aij

(1) Für jede Auswahl 1 ≤ k ≤ n und 1 ≤ i1 < ... < ik ≤ n beliebig ist dann auch die entstehende

Teilfamilie Ai1 ,...,Aik unabhängig.

(2) Sei Bi = Ai oder Bi = A c i für jedes 1 ≤ i ≤ n. Dann sind auch die Ereignisse B1,...,Bn unabhängig.

Beweis:

(1) Diese Aussage ist mit der Definition sofort klar.

(2) Offenbar genügt es zu zeigen, dass die Ereignisse A c 1,A2,...,An ebenfalls unabhängig sind. Den

allgemeinen Fall erhalten wir daraus durch iteriertes Anwenden und Umbennenen (das genaue

Vorgehen dafür kann man etwa bei [Dehling/Haupt] nachlesen.).

Wir wollen die offenbar gültige Gleichung

j=1

P (A c ∩ B) = P (B) − P (A ∩ B) (3.1)

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 33

nutzen. Seien nun 1 ≤ i1 < ... < ik ≤ n vorgegeben. Ist i1 > 1, so ist in unserem Setting nichts zu

zeigen. Ist i1 = 1, so gilt

P (A c 1 ∩ ... ∩ Aik )

was die Behauptung zeigt.

(3.1)

= P (Ai2 ∩ ... ∩ Aik ) − P (A1 ∩ Ai2 ∩ ... ∩ Aik )

Unabhängigkeit von A1,Ai 2 ,...,Ai k

= P (Ai2 ) · ... · P (Aik ) − P (A1) · ... · P (Aik )

= (1 − P (A1))

= P (A c 1) ·

k�

P � �

Aij

j=2

k�

P � �

Aij

Im Beweis des Lemmas haben wir schon gesehen, wieso wir in unserer Definition nicht nur die Unabhängigkeit

aller Teilfamilien gefordert haben. Folgendes Beispiel zeigt, wie gravierend der Unterschied

ist:

Beispiel 3.9 (Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit):

Wir betrachten de dreifachen Münzwurf, also Ω = {K,Z} 3 mit der Laplace-Verteilung. Wir betrachten

die Ereignisse

Scheinbar ist dann

P (A1) =

j=2

A1 = ” erster Wurf = zweiter Wurf“

A2 = ” zweiter Wurf = dritter Wurf“

A3 = ” erster Wurf = dritter Wurf“

# {KKK,KKZ,ZZZ,ZZK}

#Ω

= 4 1

=

8 2

und ganz analog P (A2) = P (A3) = 1

2 . Jetzt berechnen wir die Wahrscheinlichkeiten der Schnitte:

P (A1 ∩ A2) =

# {KKK,ZZZ}

#Ω

= 1

4 = P (A1 ∩ A3) = P (A2 ∩ A3) .

Wegen 1 1 1

2 · 2 = 4 sind also A1,A2 und A3 paarweise unabhängig. Da aber

P (A1 ∩ A2 ∩ A3) = P ({KKK,ZZZ}) = P (A1 ∩ A2) = P (A1 ∩ A3) = P (A2 ∩ A3) = 1 1 1 1

�= · ·

4 2 2 2

sind die Ereignisse A1,A2 und A3 insgesamt nicht unabhängig.

Das ergibt anschaulich auch Sinn, schließlich erzwingt das Eintreten von A1 und A2 bereits das Eintreten

von A3 und umgekehrt.

3.2 Bedingte Wahrscheinlichkeiten

Bei n Versuchen trete das Ereignis A ∩B mit Häufigkeit hA∩B und das Ereignis B mit Häufigkeit hB �= 0

auf. Anschaulich ist dann

gegeben als

in relativen Häufigkeiten.

die relative Häufigkeit des Auftretens von A, gegeben ” B tritt auf“

hA∩B

Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert uns jetzt folgende

3.10 Definition:

hB

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A,B ⊂ Ω Ereignisse. Ist P (B) > 0, so ist

=

P (A | B) :=

hA∩B

n

hB

n

P (A ∩ B)

P (B)

die bedingte Wahrscheinlichkeit des Auftretens von A gegeben B.

34 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Beispiel 3.11:

Wir Würfeln einfach mit einem fairen Würfel. Dazu verwenden wir Ω = {1,2,3,4,5,6} mit der Laplace-

Verteilung. Sei A = {4,5,6} und B = {2,4,6}. Dann ist

und

Das liefert P (A | B) = 2

3

mit der Definition.

P (A) = P (B) = 1

2

P (A ∩ B) = P ({4,6}) = 1

3 .

Anschaulich ergibt diese Aussage auch Sinn: Wenn man schon weiß, dass eine gerade Zahl gewürfelt

wurde, so ist die Wahrscheinlichkeit, dass der Wurf ≥ 4 ist, genau 2

3 .

Beispiel 3.12:

Wir betrachten eine Familie mit zwei Kindern. Als Grundraum verwenden wir Ω = {JJ,JM,MJ,MM}

mit der Laplace-Verteilung. Wir wollen nun die Wahrscheinlichkeit dafür ausrechnen, dass die Familie

zwei Jungen hat, wenn schon gegeben ist, dass sie mindestens einen Jungen hat. Seien also

Dann ist A ∩ B = {JJ} und daher gilt

3.13 Satz (Multiplikationsformel):

A := {JJ}

B := {JJ,JM,MJ} .

P ( ” 2 Jungen“ | ” mindestens 1 Junge“) = P (A | B) =

Sei (Ω,P) ein Wahrscheinlichkeitsraum.

(1) Sind zwei Ereignisse A,B ⊂ Ω gegeben, so gilt

(2) Sind n Ereignisse A1,...,An ⊂ Ω gegeben, so gilt

Beweis:

P (A ∩ B) = P (A | B) · P (B) .

P (A ∩ B)

P (B)

P (A1 ∩ ... ∩ An) = P (A1) · P (A2 | A1) · P (A3 | A1 ∩ A2) · ... · P

(1) Es gilt per Definition

(2) Einsetzen der Definition liefert

P (A | B) · P (B) =

P (A ∩ B)

P (B)

�

· P (B) = P (A ∩ B).

P (A1) · P (A2 | A1) · P (A3 | A1 ∩ A2) · ... · P

= P (A1) ·

⎛

n� �

P ⎝Ak

�

k=2

n�

P

k=2

P

� k�

Aj

j=1

�

k−1 �

Aj

j=1

⎛

n� k�

P ⎝

k=2

j=1

Aj

k−1 �

j=1

�

⎞

⎠ ·

Aj

⎞

⎠

n� 1

�

k−1 �

P

k=2

Aj

j=1

�

An

= 1

3 .

�

n−1 �

i=1

n−1 �

i=1

Ai

�

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 35

Das zeigt die Behauptung.

Beispiel 3.14:

= P (A1) ·

⎛

n� k�

P ⎝

k=2

⎛

n�

= P (A1) · P ⎝

⎛

n�

= P ⎝

j=1

Aj

⎞

⎠ .

j=1

Aj

⎞

Aj

⎠ ·

⎞

⎠ ·

n−1 �

k=1

1

P (A1)

P

1

�

k�

Aj

j=1

Wir wollen die Wahrscheinlichkeit berechnen, dass bei Skat jeder der drei Spieler genau ein Ass erhält.

Sei dazu

Ai := ” der i-te Spieler hat genau ein Ass“ für i = 1,2,3

Mit der hypergeometrischen Verteilung sieht man schnell

�

3.15 Satz:

P (A1) =

� �� 4 28

1 9 �32 10

� , P (A2 | A1) =

� �� 3 19

1 9 �22 10

� , P (A3 | A1 ∩ A2) =

Mittels der Multiplikationsformel erhalten wir so die gesuchte Wahrscheinlichkeit:

�

� �� 2 10

1 9 �12 10

P (A1 ∩ A2 ∩ A3) = P (A1) · P (A2 | A1) · P (A3 | A1 ∩ A2) = 385 3 10 50

· · =

899 7 33 899 .

Sei (Ω,P) ein Wahrscheinlichkeitsraum und P (B) > 0. Dann definieren wir durch

eine Wahrscheinlichkeitsverteilung auf Ω.

Beweis:

Wir müssen die Axiome (A1) bis (A3) nachprüfen:

PB (A) := P (A | B), A ⊂ Ω

(A1) Sei A ⊆ Ω beliebig. Da P eine Wahrscheinlichkeitsverteilung auf Ω ist, gilt

(A2) Offenbar ist

PB (A) = P (A | B) =

PB (Ω) = P (Ω | B) =

(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann gilt

PB

� ∞�

i=1

Ai

�

= P

=

(A3) für P

=

P (A ∩ B)

P (B)

P (Ω ∩ B)

P (B)

� ∞�

i=1

��

∞�

P

Ai | B

Ai

i=1

≥ 0.

P (B)

= = 1.

P (B)

�

� �

∩ B

P (B)

�

∞�

�

P (Ai ∩ B)

i=1

P (B)

∞� P (Ai ∩ B)

P (B) =

i=1

∞�

PB (Ai) .

i=1

�

� .

36 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Das zeigt die Behauptung.

Bemerkung 3.16:

Damit gelten die Rechenregeln (R1) bis (R9) auch für PB, d.h. zum Beispiel

für zwei Ereignisse A,B ⊂ Ω,P (B) > 0 usw..

Bemerkung 3.17:

P (A c | B) = PB (A c ) = 1 − PB (A) = 1 − P (A | B)

Die Wahrscheinlichkeitsfunktion pB zu PB ist offenbar gegeben als

Beispiel 3.18:

pB (ω) = PB ({ω}) =

P ({ω} ∩ B)

P (B)

=

� P({ω})

P(B)

falls ω ∈ B

0 falls ω /∈ B

, ω ∈ A.

Wir würfeln zweifach mit einem fairen Würfel. Dazu nutzen wir wieder Ω = {1,2,3,4,5,6} 2 als Grundraum

mit der Laplace-Verteilung. Betrachte das Ereignis

Dann ist P (B) = 6

36

durch den Vektor

gegeben.

3.19 Satz:

Sei (Ω,P) ein Wahrscheinlichkeitsraum.

B = ” Augensumme ist ≥ 10 ”

= 1

36 und die Wahrscheinlichkeitsfunktion pB auf der Menge der Augensummen ist

�

(pB (2) ,pB (3),...,pB (12)) = 0,0,0,0,0,0,0,0, 3

�

2 1

, ,

6 6 6

(1) (Formel von der totalen Wahrscheinlichkeit)

Sei Bi,i ∈ I eine abzählbar unendliche oder endliche disjunkte Zerlegung von Ω. Dann gilt für alle

A ⊂ Ω die Formel

P (A) = �

P (Bi) · P (A | Bi) (3.2)

i∈I

(2) (Formel von Bayes)

Beweis:

Seien die Voraussetzungen wie in (1). Ist P (A) > 0, so gilt für jedes k ∈ I:

(1) Mit der Mulitplikationsformel gilt

was die Aussage zeigt.

P (A)

P (Bk | A) = P (A | Bk) · P (Bk)

�

P (A | Bi) · P (Bi)

i∈I

�

Bi=Ω

i∈I

= P

�

A ∩

� �

i∈I

Bi

��

�

= P (A ∩ Bi)

Bi∩Bj=∅ für i�=j

=

Multiplikationsformel

=

i∈I

�

P (A ∩ Bi)

i∈I

�

P (A | Bi) · P (Bi)

i∈I

(3.3)

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 37

(2) Hier folgt unter Benutzung von (1):

P (Bk | A) =

Das zeigt ebenfalls die Behauptung.

Beispiel 3.20:

=

Multiplikationsformel

=

(3.2)

=

P (Bk ∩ A)

P (A)

P (A ∩ Bk)

P (A)

P (A | Bk) · P (Bk)

P (A)

P (A | Bk) · P (Bk)

�

P (A | Bi) · P (Bi) .

Eine Krankheit tritt bei 0.5% der Bevölkerung auf. Ein Test ist bei 99% der Kranken positiv, aber auch

bei 2% der Gesunden. Gesucht ist die Wahrscheinlichkeit bei positivem Testergebnis die Krankheit zu

haben.

Betrachte nun folgendes Modell: Sei Ω die Bevölkerung und P die Laplace-Verteilung. Sei weiterhin B1

die Menge der gesunden Menschen, B2 die der kranken Menschen und A die Menge der Menschen mit

positivem Testergebnis . Dann ist Ω = B1 ∪ B2 mit B1 ∩ B2 = ∅.

P(B1) = 0.995 P(B2) = 0.005

P(A|B1) = 0.02 P(A|B2) = 0.99

Mit der Formel von Bayes berechnet man

P(B2|A) =

=

P(A|B2) · P(B2)

2�

P(A|Bi) · P(Bi)

i=1

i∈I

P(A|B2) · P(B2)

P(A|B1) · P(B1) + P(A|B2) · P(B2)

0.99 · 0.005

=

0.02 · 0.995 + 0.99 · 0.005

≈ 0.2

Das bedeutet, im Fall eines postitiven Test ist man nur mit einer Wahrscheinlichkeit von 20% wirklich

erkrankt.

Beispiel 3.21 (Simpson-Paradoxon):

Im Folgenden werden wir ein Beispiel aus dem Bereich ” How to lie with statistics“ geben, d.h. es wird eine

Aussage mit Daten belegt (wir werden hier vereinfachte Werte verwenden) die offensichtlich zu stimmen

scheint. Bei genauerer Betrachtung und unter Berücksichtigung aller Werte im Detail ergibt sich jedoch

genau die gegenteilige Aussage:

University of Berkeley:

In einem Jahr haben sich 1200 Männer und 900 Frauen um einen Studienplatz beworben. Zugelassen

wurden 55% der Männer und nur 48,9% der Frauen. Offensichtlich wurden die Männer bevorzugt, oder

nicht?

Eine genauere Betrachtung der Daten zeigt, dass es Bewerbungen in zwei Fächern A und B gab.

Männer Frauen

beworben zugelassen beworben zugelassen

Fach A 900 540=60% 100 80=80%

Fach B 300 120=40% 800 360=45%

Summe 1200 660=55% 900 440=48,8%

Die Frauen wurden also in jedem Fach bevorzugt!

Dies können wir auch mit bedingten Wahrscheinlichkeiten nachrechnen:

Seien Zm =“zugelassene Männer“, Am =“Bewerber Fach A“ und Bm =“Bewerber Fach B“. Dann gilt

38 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

nach dem Satz der totalen Wahrscheinlichkeit:

P(Zm) = P(Zm|Am) · P(Am) + P(Zm|Bm) · P(Bm)

= 0.6 · 0.75 + 0.4 · 0.25

= 0.55

Seien nun entsprechend Zf =“zugelassene Frauen“, Af =“Bewerberinnen Fach A“ und Bf =“Bewerberinnen

Fach B“.

P(Zf) = P(Zf |Af) · P(Af) + P(Zf |Bf) · P(Bf)

= 0.8 · 1

9

= 0.488

+ 0.45 · 8

9

Das Ergebnis kommt zustande, da sich anteilig viel mehr Männer als Frauen in Fach A beworben haben,

wobei dort die Zulassung einfacher zu erringen war. Andererseits haben sich wesentlich mehr Frauen für

Fach B entschieden, wo die Zulassung nur schwer zu erringen ist.

3.3 Mehrstufige Experimente

Wir betrachten aufeinanderfolgende Experimente, bei denen die Ergebnisse der ausgeführten Experimente

die Wahrscheinlichkeiten für den Ausgang des nächsten Experiments bestimmen.

Sei p1 der Wahrscheinlichkeitsvektor für die Ausgänge des ersten Experiments. Beim Ausgang a1 ∈ Ω1

ist jeweils p2( · |a1) ein Wahrscheinlichkeitsvektor für die Ausgänge des zweiten Experiments.

Beispiel 3.22 (zweistufiges Zufallsexperiment):

In einer Urne befinden sich 3 Kugeln, davon sind zwei rot und eine ist weiß. Wir ziehen zwei Mal ohne

Zurücklegen.

In der ersten Ziehung erhält man mit einer Wahrscheinlichkeit von 2

3 eine rote Kugel und mit einer

eine weiße Kugel, d.h.

Wahrscheinlichkeit von 1

3

p1(R) = 2

3 , p1(W) = 1

3 .

In der zweiten Ziehung kann, wenn zuerst rot gezogen wurde, entweder rot oder weiß jeweils mit der

Wahrscheinlichkeit 1

2 gezogen werden oder wenn zu Beginn die weiße Kugel gezogen wurde, mit Sicherheit

nun eine rote Kugel gezogen werden. Das heißt

bzw.

Der Grundraum des 2-stufigen Modells ist

mit der Wahrscheinlichkeitsfunktion

p2(R,R) = 1

2 , p2(R,W) = 1

2

p2(R,W) = 1, p2(W,W) = 0.

Ω = Ω1 × Ω2 = {(a1,a2) | ai ∈ Ωi}

p(a1,a2) := p(a1) · p2(a2|a1).

Das heißt p(a1,a2) ist das Produkt der Wahrscheinlichkeiten im Baumdiagramm entlang des Pfades:

START → a1 → a2.

Im Bsp.:

Bemerkung 3.23:

p(R|W) = p1(R) · p2(W |R) = 2 1 1

· =

3 2 3 .

Für Teilmengen A ⊆ Ω, welche einer Menge von Pfaden entspricht, ist

P(A) = �

p1(a1) · p2(a2|a1)

die Summe aller Pfadwahrscheinlichkeiten.

(a1,a2)∈A

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 39

Beispiel 3.24:

Es stehe Xi für das Ergebnis des i-ten Teilexperiments, i = 1,2, dann gilt:

P(X2 = R) = P( zweite Kugel ist rot“) = P(R,R) + P(W,R) =

” 2 1 1 2

· + · 1 =

3 2 3 3

3.25 Definition (n-stufiges Experiment):

Seien Ω1,Ω2,...,Ωn diskrete Grundräume. Sei p1 eine Wahrscheinlichkeitsfunktion auf Ω1 (Startwahrscheinlichkeit).

Für jedes a1 ∈ Ω1 sei eine Wahrscheinlichkeitsfunktion p2(a2|a1) auf den Ausgang des

zweiten Teilexperiments gegeben.

Allgemein: Für jede Folge von Ausgängen a1,a2,...,aj−1 mit ai ∈ Ωi, 1 ≤ i ≤ j − 1 der ersten j-1

Teilexperimente ist eine Wahrscheinlichkeitsfunktion

pj(aj|a1,...aj−1)

auf den Ausgängen aj ∈ Ωj gegeben. Für einen Pfad (a1,...,an) ∈ Ω1 × ... × Ωn setzt man

p(a1,...,an) = p1(a1) · p2(a2|a1) · ... · pn(an|a1,...,an−1).

Dann ist p eine Wahrscheinlichkeitsfunktion auf Ω = Ω1 × ... × Ωn und definiert eine Wahrscheinlichkeitsverteilung

P über

P(A) := �

p(a1,...,an), A ⊆ Ω.

(a1,...,an)∈A

P ist dann die Verteilung des mehrstufigen Experiments.

Beispiel 3.26 (Polya’sches Urnenmodell):

In diesem Modell, das ursprünglich dazu gedacht war, die Ausbreitung von Krankheiten zu simulieren,

enthält eine Urne r rote und s schwarze Kugeln. Eine Kugel wird gezogen, dann wird zurückgelegt mit

c ∈ Z zusätzlichen Kugeln der gleichen Farbe.

Das heißt für c = −1 entspricht dies dem Ziehen ohne Zurücklegen und für c = 0 dem Ziehen mit

Zurücklegen.

Ein graphisches Beispiel:

⑥ ⑥ ⑥

✑

✑✰

✑

◗

◗◗◗◗◗◗◗� 1

3

⑥ ⑥ ⑥ ⑥ ⑥ ⑥

⑥

⑥2

3

⑥

✁

⑥3

4 ✁

✁

❆ 1

❆ 4

❆

✁

❆

✁ ❆

✁☛

❆❯

✁☛

❆❯

⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥

⑥ ⑥1

2

1

2 ⑥

⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥

Abbildung 4: Polya’sches Urnenmodell mit c = 1, r = 2, s = 1.

Dann ist

P(X2 = R) = 2 3 1 1 2

· + · =

3 4 3 2 3 = P(X1 = R)

Wir wollen nun zeigen, dass unabhängig vom gewählten c immer gilt: Die Wahrscheinlichkeit für 2.Kugel

”

ist rot“ ist immer gleich der Wahrscheinlichkeit für 1.Kugel ist rot“:

”

Beweis:

Es sind

p1(R) = r

r + s , p1(S) = s

r + s

r + c

p2(R|R) =

r + s + c , p2(S|R)

s

=

r + s + c

40 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Damit ist

Man berechnet

Bemerkung 3.27:

Man beobachtet also:

P(X2 = R) = P(R,R) + P(S,R)

=

r

r + s ·

r

r + s ·

r

r + s

= P(X1 = R).

r + c s

+

r + s + c r + s ·

r

r + s + c

�

r + c

r + s + c +

�

s

r + s + c

p(R,S,R,R) = p1(R) · p2(S|R) · p3(R|RS) · p4(R|RSR)

=

r

r + s ·

s

r + s + c ·

r + c

r + s + 2c ·

r + 2c

r + s + 3c

Ist (a1,...,an) eine Ergebnis-Folge mit k roten Ziehungen (# {i | ai = R} = k) so ist

p(a1,...,an) =

n−1 �

i=0

�

1

r + s + ic

� k−1 �

·

i=0

n−k−1 �

(k + ic) ·

i=0

(s + ic) .

Das heißt die Wahrscheinlichkeit von (a1,...,an) hängt nur von der Anzahl gezogener Kugeln ab, nicht

von der Reihenfolge. Daher gilt

p(a τ(1),...,a τ(n)) = p(a1,...,an)

für jede Permutation τ von {1,...,n}. Solche Verteilungen nennt man auch austauschbar.

Aufgabe 3.28:

Zeige damit

P(Xj = R) = r

für alle j = 1,2,...

r + s

3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen

(1) Ist Ω1 × ... × Ωn ein mehrstufiges Modell mit Übergangswahrscheinlichkeiten

so setzen wir

pj (aj | a1,...,aj−1) , 1 ≤ j ≤ n

(b1,...,bk) := {(a1,...,an) | ai = bi für 1 ≤ i ≤ k}

als die Menge aller Pfade, die mit b1,...,bk beginnen fest. Dann gilt:

Beweis:

P (b1,...,bk) = p1 (b1) · p2 (b2 | b1) · ... · pk (bk | b1,...,bk)

Wir zeigen nur den Fall n = 2, k = 1, die anderen Fälle überlegt man sich analog (wobei der Beweis

dann sehr Index-lastig wird). Es gilt

P (b1) = P ({b1} × Ω)

= �

p(b1,a2)

a2∈Ω2

= �

a2∈Ω2

= p1 (b1) · �

p1 (b1) · p2 (a2 | b1)

a2∈Ω2

p2 (a2 | b1)

� ��

=1

da p2 eine Wahrscheinlichkeitsfunktion ist. Das zeigt schon die Behauptung.

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 41

(2) Ganz analog gilt

P (bk+1,...,bn | b1,...,bk) = pk+1 (bk+1 | b1,...,bk) ·pk+2 (bk+2 | b1,...,bk+1) ·... ·pn (bn | b1,...,bn−1)

Beweis:

Wir zeigen wieder nur den Fall n = 2, k = 1. Dort gilt

Das zeigt die Behauptung.

P (b2 | b1) =

Beispiel 3.29 (Ziehen aus zufälliger Urne):

Teil (1)

=

p(b1,b2)

p(b1)

p1 (b1) p2 (b2 | b1)

p1 (b1)

= p2 (b2 | b1) .

Wir betrachten vier Urnen U1,U2,U3,U4. Jede der Urnen enthalte drei Kugeln, wobei Ui genau i −1 rote

und 3 − (i − 1) schwarze Kugeln enthalte. Unser mehrstufiges Experiment sieht jetzt wie folgt aus:

Schritt 1 Wähle rein zufällig eine Urne.

Schritt 2 Ziehe eine Kugel und notiere die Farbe.

Dieses Experiment gestaltet sich etwa so:

❆

❆ ✁ ✁ ⑥ ⑥ ⑥

U1 - Urne 1

✁ ❆

❆

START

✏✏

�

✏✏

✡ ❏ ��

1

4 ✏✏

✏✏

✡ ❏ 4

1 1

✏✏

4✡

❏4

✏✏

✏✮

✡ ❏

✡✢

❏❫

✁ ✁ ❆

❆ ✁ ✁

⑥ ⑥ ⑥ ⑥ ⑥ ⑥

U2 - Urne 2 U3 - Urne 3

✁ ❆

0

✁ ❆

1 ✁ ❆

✁ ❆

1 ✁ ❆ 2 2 ✁ ❆ 1

✁ ❆ 3✁

❆3

3✁

❆3

✁ ❆

✁☛ ❆❯ ✁ ❆ ✁ ❆

⑥ ⑥ ✁ ❆ ✁ ❆

✁☛ ❆❯ ✁☛ ❆❯

⑥ ⑥ ⑥ ⑥

Abbildung 5: ” Ziehen aus zufälliger Urne“

❆

❆ ✁ ✁ ⑥ ⑥ ⑥

U4 - Urne 4

✁ ❆

✁

1

✁

❆

0

✁ ❆

✁

✁☛

⑥

❆

❆❯

⑥

Es ist also Ω1 = {1,2,3,4}, wobei die Zahl i ∈ Ω1 dann einfach der Nummer der Urne im ersten Schritt

entspricht. Wir sehen sofort, dass

p1 (1) = ... = p1 (4) = 1

4 .

Weiter verwenden wir Ω2 = {R,S} was der Farbe der im zweiten Schritt gezogenen Kugel entsprechen

soll. Da die Urne U1 keine roten Kugeln enthält, ist also

p2 (R | 1) = 0 und p2 (S | 1) = 1.

Ganz analog enthält die Urne U2 eine rote und zwei schwarze Kugeln, es ist also

p2 (R | 2) = 1

3 und p2 (S | 2) = 2

3 .

Ganz analog berechnet man die anderen Werte für p2.

Wir wollen nun folgende Frage beantworten:

Was kann man über die im ersten Schritt gewählte Urne aussagen, gegeben es wurde im zweiten Schritt

eine rote Kugel gezogen?

42 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Zur Beantwortung setzen wir

Wie oben sieht man sofort, dass

Bi := ” Urne i im ersten Schritt gewählt“, i = 1,2,3,4,

A := ” rote Kugel im zweiten Schritt gezogen“.

P (A | B1) = 0, P (A | B2) = 1

3 , P (A | B2) = 2

3 , P (A | B3) = 1.

Mit der Formel von der totalen Wahrscheinlichkeit (3.2) folgt

P (A) =

4�

P (A | Bi) · P (Bi) =

i=1

4�

i=1

p2 (R | i) · p1 (i) = 1

2 .

Mit der Formel von Bayes (3.3) ergibt sich nun für die gesuchte Wahrscheinlichkeit

Als Vektor gilt also

Das ist die sogenannte

P (Bk | A)

(3.3)

= P (Bk | A)

=

P (A | Bk) · P (Bk)

4�

P (A | Bi) · P (Bi)

i=1

� ��

=P(A)

= 2P (A | Bk) · P (Bk)

� ��

= 1

4

=

1

2 P (A | Bk) , k = 1,2,3,4.

�

(P (Bk | A)) k=1,2,3,4 = 0, 1

�

2 3

, ,

6 6 6

a-posteriori-Verteilung auf den Urnennummern 1,2,3,4 zur a-priori-Verteilung 1

4

, 1

4

1 1 , 4 , 4 .

Der MAP-Schätzer (MAP steht für ” maximum a-posteriori“) der Urnennummer k wählt das k mit maximalem

P (Bk | A) aus - hier also k = 4. Das ” beantwortet“ die obige Frage.

Beispiel 3.30:

Wir betrachten eine leicht geänderte Variante von Beispiel 3.29: Die Urne im ersten Schritt wird nicht

ein zufällig gewählt, sondern per Münzwurf bestimmt. Wir werfen dazu drei faire Münzen und wähle die

Urne, die so viele rote Kugeln enthält, wie oft ” Kopf“ geworfen wurde. Wegen

P ({ZZZ}) = 1

3

, P ({KZZ,ZKZ,ZZK}) =

8 8

usw. erhalten wir also die a-priori-Verteilung 1 3 3

8 , 8 , 8

Beispiel 3.29 oben und stellen uns die selbe Frage. Offenbar ist hier

P (A) = 0 · 1 1 3 2 3 1 1

+ · + · + 1 · =

8 3 8 3 8 8 2

und wie oben gilt

� �

P (A | Bk) · P (Bk)

(P (Bk | A)) k=1,2,3,4 =

1

2

, 1

8 . Wir definieren A und Bi, i = 1,2,3,4 wie im

k=1,2,3,4

�

= 0, 1

�

1 1

, ,

4 2 4

Hier würde der MAP-Schätzer also die Urne mit der Nummer k = 3 auswählen.

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 43

3.4 Produkt-Experimente und spezielle Verteilungen

Für i = 1,...,n seien (Ωi,Pi) diskrete Wahrscheinlichkeitsräume. Die stochastisch unabhängige Ausführung

mehrerer Experimente aus (Ωi,Pi), i = 1,...,n, wird modelliert durch

Ω := Ω1 × ... × Ωn =

n�

Ωi, P :=

wobei die Produktverteilung P durch die Wahrscheinlichkeitsfunktion

gegeben ist.

3.31 Definition:

p(a1,...,an) =

i=1

n

⊗Pi, (3.4)

i=1

n�

Pi ({ai}) , (a1,...,an) ∈ Ω = {(b1,...,bn) | bi ∈ Ωi, i = 1,...,n} (3.5)

i=1

Der Raum (Ω,P) wie in (3.4) definiert heißt Produkt der Wahrscheinlichkeitsräume (Ωi,Pi) , i =

1,...,n.

Bemerkung 3.32:

(Ω,P) ist selbst wieder ein Wahrscheinlichkeitsraum.

Beweis:

Es genügt zu zeigen, dass p wie in (3.5) eine Wahrscheinlichkeitsfunktion ist, denn offenbar ist Ω als

endliches Produkt abzählbarer Mengen selbst wieder abzählbar.

Das p positiv und σ-additiv ist, also die Axiome (A1) und (A3) erfüllt, ist klar, denn jedes der Pi erfüllt

diese Axiome. Außerdem gilt

P (Ω) = �

p(a1,...,an) = �

n�

� �

�

P1 ({a1}) · ... · Pn ({an}) = Pk ({ak}) = 1

(a1,...,an)∈Ω

und das zeigt die Behauptung.

Beispiel 3.33:

(a1,...,an)∈Ω

k=1

ak∈Ωk

� ��

(A3) für P k

= 1

Wir wollen das Produkt der Experimente ” Würfeln“ und ” Münzwurf“ bilden. Sei dazu Ω1 := {K,Z}

ebenso mit der Laplace-Verteilung versehen wie Ω2 := {1,2,3,4,5,6}. Dann ist

und es gilt

für alle Tupel (a1,a2) ∈ Ω.

Ω = Ω1 × Ω2 = {(a1,a2) | a1 ∈ {K,Z} ,a2 ∈ {1,2,3,4,5,6}}

p(a1,a2) = P1 ({a1})

� ��

= 1

2

·P2 ({a2})

� ��

= 1

=

6

1

12

Dieses Ergebnis ist natürlich ziemlich eintönig, würde man etwa eine gefälschte Münze verwenden, so

wäre das Ergebnis interessanter.

Bemerkung 3.34:

Man kann den Produktraum (Ω,P) auch als mehrstufiges Modell mit den Übergangswahrscheinlichkeiten

pi (ai | a1,...,ai−1) = Pi ({ai}) , 1 ≤ i ≤ n, ak ∈ Ωk

auffassen. Man beachte, dass diese Übergangswahrscheinlichkeiten nicht von den vorangehenden Stufen

abhängen.

3.35 Definition:

Für Ereignisse Ai ⊆ Ωi, 1 ≤ i ≤ n definieren wir das Produktereignis in (Ω,P) als

A := A1 × A2 × ... × An = {(a1,...,an) | ai ∈ Ai, 1 ≤ i ≤ n}

44 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Bemerkung 3.36:

Dann gilt

Beweis:

Es ist

3.37 Satz:

was die Behauptung zeigt.

P (A) =

n�

Pk (Ak)

k=1

P (A) = P (A1 × ... × An)

�

Definition

=

p(a1,...,an)

=

(a1,...,an)∈A

�

(a1,...,an)∈A k=1

n�

�

k=1

ak∈Ak

n�

Pk (Ak) ,

k=1

n�

Pk ({ak})

Seien Ai ⊆ Ωi Ereignisse. Setze A ∗ k := {(a1,...,an) ∈ Ω | ak ∈ Ak} für 1 ≤ k ≤ n. Für das Produktexperiment

(Ω,P) wie in (3.4) gelten:

(1) P (A ∗ k ) = Pk (Ak) für jedes 1 ≤ k ≤ n.

(2) Die Ereignisse A ∗ 1,...,A ∗ n sind in jedem Fall unabhängig.

Beweis:

(1) Es ist

P (A ∗ i ) = P (Ω1 × ... × Ωi−1 × Ai × Ωi+1 × ... × Ωn)

was die Behauptung zeigt.

(2) Für jede Teilfamilie

gilt

Bemerkung 3.36

= P1 (Ω1) · ... · Pi−1 (Ωi−1) · Pi (Ai) · Pi+1 (Ωi+1) · ... · Pn (Ωn)

= Pi (Ai) ,

�

A ∗ i1 ,...,A∗ ik mit 1 ≤ ii < ... < ik ≤ n

⎛

k�

P ⎝ A ∗ ⎞

⎠

ij = P (Ω1 × ... × Ωi1−1 × Ai1 × Ωi1+1 × ...)

j=1

Bemerkung 3.36

Das zeigt auch hier die Behauptung.

Bemerkung 3.38:

= Pi1 (Ai1 ) · ... · Pik (Aik ) · P1 (Ω1) ·...

� ��

=1

(1) � � � � ∗ ∗

= P Ai1 · ... · P Aik .

Mit Hilfe dieses Satzes können wir sehr leicht einen Wahrscheinlichkeitsraum (Ω,P) konstruieren, der n

unabhängige Ereignisse enthält, die vorgegebene Wahrscheinlichkeiten p1,...,pn haben:

Setze Ω1 = ... = Ωn = {0,1}, A1 = ... = An = {1} und definieren für jedes i = 1,...,n

Pi ({0}) := 1 − pi, Pi ({1}) := pi

� ��

Pi(Ai)

Nach dem Satz sind dann A ∗ 1,...,A ∗ n unabhängige Experimente mit den vorgegebenen Wahrscheinlichkeiten.

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 45

3.4.1 Mit Produktexperimenten zusammenhängende Verteilungen

(1) Binomialverteilung ( ” Zählen von Erfolgen“)

Ein Bernoulli-Experiment ist ein Experiment mit Ω = {0,1} und Erfolgswahrscheinlichkeit

p(1) = p ∈ [0,1], p(0) = 1 − p.

Setze p1 := p und p0 := 1 − p. Das Produkt von n Bernoulli-Experimenten mit gleicher Erfolgswahrscheinlichkeit

ist dann

Sei jetzt

Ω = {0,1} n , p(a1,...,an) = pa1 · ... · pan für (a1,...,an) ∈ Ω

⎧

⎨

Ak :=

⎩ (a1,...,an)

�

⎫

n� ⎬

aj = k

⎭

das Ereignis k Erfolge“ für 0 ≤ k ≤ n. Dann ist #Ak =

” � � n

k , für jedes (a1,...,an) ∈ Ak gilt

und daher folgt

j=1

P ({(a1,...,an)}) = p k (1 − p) n−k

P (Ak) =

Wir erhalten also genau die Binomialverteilung.

(2) Multinomialverteilung ( ” Zählen von Ausgängen“)

� �

n

p

k

k (1 − p) n−k , 0 ≤ k ≤ n.

Man führt n identische, stochastisch unabhängige Experimente durch. Jedes Experiment hat r

Ausgänge 1,...,r, die mit Wahrscheinlichkeiten p1,...,pr auftreten.

Modell: Seien Ωi = {1,...,r} und die Wahrscheinlichkeitsverteilungen Pi durch den Wahrscheinlichkeitsvektor

(p1,...,pr) gegeben (1 ≤ i ≤ n).

Im Produktexperiment ist

und somit

Ω = Ω1 × ... × Ωn = {1,...,r} n

und P =

p(a1,..,an) = pa1 · ... · pan .

n

⊗Pi i=1

Sei Ak1,...,kr das Ereignis in n Versuchen k1 mal den Ausgang 1“, ..., kr mal den Ausgang r“ zu

” ”

erhalten (dabei muss natürlich n�

ki = n und 0 ≤ ki für i ≤ i ≤ n gelten). Dann ist

i=1

die auf �

P(Ak1,...,kr ) =

�

(k1,...,kr) � �

n

k1,...,kr

�

· p k1

1 · ... · pkr r

n�

�

ki = n,0 ≤ ki

gegebene Multinomialverteilung mit Parametern n und p1,..,pr. Dabei muss natürlich

gelten.

Beispiel 3.39:

i=1

r�

pi = 1

i=1

Auf einem Glücksrad sind 3 Bereiche markiert. Beim zufälligen Drehen stoppt das Rad mit Wahr-

scheinlichkeit p1 = 1

2 im Bereich ” 1“, mit p2 = 3

8 im Bereich ” 2“ und mit p3 = 1

8 im Bereich ” 3“.

Dann ist

P(5 mal ” 1“, 3 mal ” 2“, 2 mal ” 3“) = P(A5,3,2) =

� �

10

·

5,3,2

� �5 1

·

2

� �3 3

·

8

� �2 1

.

46 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

(3) Geometrische Verteilung ( ” Warten auf den ersten Erfolg“)

Gegeben sei ein n-faches Bernoulli-Experiment Ω = {0,1} n mit Erfolgswahrscheinlichkeit p ∈ [0,1].

Sei für 1 ≤ k ≤ n Ak das Ereignis ” erster Erfolg im k-ten Versuch ” (1 ≤ k ≤ n). Dann ist

Beweis:

P(Ak) = (1 − p) k−1 · p

Im Produktexperiment ist natürlich Pi = P für jedes 1 ≤ i ≤ n, wobei P ({0}) = 1−p, P ({1}) = p.

Offenbar entspricht für 1 ≤ k ≤ n das Ereignis Ak genau der Menge

{0} × ... × {0} × {1} ,

� ��

(k−1)-mal

da ja vor dem Erfolg im k-ten Versuch nur Misserfolge auftreten dürfen. Gemäß Bemerkung 3.36

gilt dann

P (Ak) = P ({0} × ... × {0} × {1}) =

was die Behauptung zeigt.

Intuitiv richtig erscheint die Aussage auch für n

k−1 �

i=1

Pi ({0}) · Pk ({1}) = (1 − p) k−1 · p,

��

∞, also

pk := Pk(Ak) = (1 − p) k−1 · p, k = 1,2,....

Für den formalen Beweis benötigt man Maßtheorie. Diese Gleichung definiert die geometrische Verteilung

auf N mit P(1) = p,P(2) = (1 − p) · p,....

Dies ist tatsächlich eine Wahrscheinlichkeitsverteilung auf N, da es sich um eine Wahrscheinlichkeitsfunktion

handelt:

∞�

pk = p · (1 − p) k−1

k=1

= p ·

geometrische Reihe

= p ·

=

p

= 1.

k=1

∞�

(1 − p) k

k=0

�

1

1 − (1 − p)

(4) Negative Binomialverteilung ( ” k Misserfolge vor dem r-ten Erfolg“)

Wir betrachten ein n-faches Bernoulli-Experiment, n ∈ N, mit Erfolgswahrscheinlichkeit p ∈ [0,1].

Seien r,k ∈ N mit k + r ≤ n. Setze

3.40 Lemma:

Es gilt

Beweis:

A := ” genau k Misserfolge vor dem r-ten Erfolg“.

�

k + r − 1

P(A) =

k

�

p r (1 − p) k

Sei Ω = {0,1} k+r der Produktraum mit der Verteilung, welche durch pi(1) = p, pi(0) = 1 − p,

1 ≤ i ≤ k + r gegeben ist. Natürlich soll dabei 1“ für Erfolg“ und 0“ für Misserfolg“ stehen.

” ” ” ”

Nach der Binomialverteilung ist die Wahrscheinlichkeit, genau r − 1 Erfolge und k Misserfolge vor

dem r-ten Erfolg zu erhalten genau

� k + r − 1

r − 1

�

p r−1 (1 − p) k+r−1−(r−1)

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 47

und daher folgt

was die Behauptung zeigt.

P (A) =

=

� k + r − 1

r − 1

�

p r−1 (1 − p) k · p

��

r−ter Erfolg

�

k + r − 1

�

k + r − 1 − (r − 1)

�

k + r − 1

k

�

p r (1 − p) k ,

p r (1 − p) k

Diese Verteilung nennt man auch die negative Binomialverteilung.

48 4 Zufallsvariablen, Verteilungen

4 Zufallsvariablen, Verteilungen

4.1 Zufallsvariablen

Das Ziel der Einführung von Zufallsvariablen ist eine unkomplizierte Beschreibung von Ereignissen. Sie

bilden ein wichtiges Handwerkszeug zur Formulierung und Lösung von stochastischen Problemen.

4.1 Definition:

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und Ω ′ �= ∅ eine beliebige Menge. Eine Abbildung

X : Ω

��

Ω ′

heißt Zufallsvariable (abgekürzt auch ZV) mit Werten in Ω ′ .

Falls Ω ′ ⊂ R d so heißt X ein d-dimensionaler Zufallsvektor, falls d = 1 ist, so nennen wir X

reellwertige Zufallsvariable.

Beispiel 4.2:

Beim zweimaligen Würfeln ist Ω = {1,...,6} 2 und ω = (a1,a2) ∈ Ω mit 1 ≤ ai ≤ 6.

Wir betrachten die Summe der Augenzahlen

das Maximum der Würfelergebnisse

oder das Produkt der Augenzahlen

X(ω) := a1 + a2,

X(ω) := max {a1,a2} ,

X(ω) := a1 · a2.

Dann ist etwa X(ω) = a1 + a2 ist reellwertige Zufallsvariable mit Werten in Ω ′ = {2,...,12}.

Bemerkung 4.3:

X muss nicht injektiv und auch nicht surjektiv sein.

X ” transportiert“ Wahrscheinlichkeitsmasse, z.B. wenn X(ω) = a1 + a2 ist

P(X = 4) = P({(a1,a2) | a1 + a2 = 4})

= P({(1,3),(2,2),(3,1)})

= P({(1,3)}) + P({(2,2)}) + P({(3,1)})

= 1 1 1 1

+ + =

36 36 36 12

Das heißt, man bestimmt die Verteilung von X auf Ω ′ über Mengen wie X −1 ({4}).

X −1 ist eine Abbildung von Mengen, d.h

X : P(Ω ′ ) → P(Ω) A ′ ↦−→ X −1 (A ′ ) = {ω ∈ Ω | X(ω) ∈ A ′ }.

Die allgemeinen Regeln für Urbilder gelten natürlich auch für Zufallsvariablen, wir wollen sie ohne Beweis

in folgendem Lemma festhalten:

4.4 Lemma (Eigenschaften):

Es gilt:

(U1) X−1 (X(Ω)) = Ω und X−1 (∅) = ∅

(U2) X−1 � �

�

= �

(U3) X−1 �

�

A

i∈I

′ i

A

i∈I

′ i

�

= �

X

i∈I

−1 (A ′ i )

X

i∈I

−1 (A ′ i )

(U4) X −1 (Ω ′ \ A ′ ) = Ω \ X −1 (A ′ )

4.5 Definition:

Sei ohne Einschränkung Ω ′ = X(Ω). Für einen diskreten Wahrscheinlichkeitsraum (Ω,P) wird durch

P X : P (Ω ′ )

��

′ X ′ −1 ′

R, A ↦→ P (A ) := P(X (A ))

eine Wahrscheinlichkeitsverteilung P X auf der diskreten Menge Ω ′ definiert.

P X heißt Verteilung von X auf Ω ′ (unter P).

4 Zufallsvariablen, Verteilungen 49

Beweis:

Wir müssen die Axiome (A1), (A2) und (A3) eines Wahrscheinlichkeitsraumes nachweisen:

(A1) P X (A ′ ) ≥ 0 gilt.

(A2) P X (Ω ′ ) Definition

= P � X −1 (Ω ′ ) � = P(Ω) = 1

(A3) Seien A ′ 1,A ′ 2,... disjunkte Teilmengen von Ω ′ . Dann gilt

P X

� ∞�

i=1

A ′ i

�

Definition

= P

�

X −1

� ∞�

i=1

� ∞�

i=1

�

∞�

(U3)

= P (A ′ �

i)

σ-Additivität

=

Definition

=

∞�

i=1

A ′ i

P(X −1 (A ′ i))

∞�

P X (A ′ i).

Das zeigt, dass P X in der Tat ein Wahrscheinlichkeitsmaß auf Ω ′ ist.

Bemerkung 4.6:

Mittels ” Transport von P durch X“ entsteht also ein neuer Wahrscheinlichkeitsraum (Ω ′ ,P X ).

Notation 1:

Sei (Ω,P) diskreter Wahrscheinlichkeitsraum, X : Ω → Ω ′ eine Zufallsvariable.

Man schreibt/meint

und

i=1

(X = x) := {ω ∈ Ω | X(ω) = x} , x ∈ Ω ′

��

(X ∈ A) := {X ∈ A} = {ω ∈ Ω | X(ω) ∈ A} ,A ⊂ Ω ′ .

Damit schreibt man P X (A) = P(X ∈ A) sowie P X ({x}) = P (X = x).

Falls X reellwertig ist (d.h. Ω ′ ⊂ R) so benutzt man auch (X ≤ x) = {X ≤ x} = {ω ∈ Ω | X(ω) ≤ x}.

Beispiel 4.7:

Sei Ω = {1,...,6} 2 ,P(a1,a2) = 1

36 ∀ (a1,a2) ∈ Ω.

• X(a1,a2) = a1 + a2 mit Ω ′ = {2,3,...,12}.

Für x ∈ Ω ′ gilt:

P X = P � X −1 ({x}) � =

• X(a1,a2) = max {a1,a2} mit Ω ′ = {1,...,6}

Für x ∈ Ω ′ gilt:

� x−1

36

13−x

36

falls x = 2,...,7,

falls x = 8,...,12 .

P X (x) = P(X = x) = P ({a1,a2) | max {a1,a2} = x}) =

Dadurch ist eine Wahrscheinlichkeitsmaß auf Ω ′ gegeben.

2x − 1

.

36

Man spricht oft einfach von einer Ω ′ -wertigen Zufallsvariablen X, mit Verteilung P X und erwähnt weder

(Ω,P) noch die spezielle Abbildung X.

50 4 Zufallsvariablen, Verteilungen

4.8 Definition (Indikatorvariable):

Für A ⊂ Ω definieren wir durch

die Indikatorvariable zu A.

1A : Ω

Die Verteilung von X = 1A sieht wie folgt aus:

�

1 falls ω ∈ A

��

{0,1}, 1A(ω) =

0 falls w /∈ A

• P X ({1}) = P � X −1 ({1}) � = P({ω ∈ Ω | X(ω) = 1}) = P(A)

• P X ({0}) = P � X −1 ({1}) � = P({ω ∈ Ω | X(ω) = 0}) = P(A C )

Beispiel 4.9:

Sei Ω = {1,...,6} und A = {2,4,6}. Dann ordnet 1A wie folgt zu:

Bemerkung 4.10:

2,4,6 ↦→ 1,

1,3,5 ↦→ 0.

Falls Ω ′ ⊂ R d ,d ≥ 2 und damit X(ω) = (X1(ω),...,Xd(ω)) so ist für A = A1 × ... × Ad:

⎛ ⎞

d�

P(X ∈ A) = P ⎝ {Xj ∈ Aj} ⎠ .

Insbesondere gilt also

⎛

d�

P(X = x) = P(X1 = x1,...,Xd = xd) = P ⎝ X −1

⎞

i ({xi}) ⎠ .

4.11 Definition (Gemeinsame Verteilung):

Sei (Ω,P) gegeben, Xj : Ω ��

′ Ω j , j = 1,...,n seien Zufallsvariablen. Wir definieren

X : Ω

j=1

��

Ω ′ 1 × ... × Ω ′ n durch ω ↦→ (X1(ω),...,Xn(ω)).

Dann heißt P X = P (X1,...Xn) die gemeinsame Verteilung von X1,...Xn. Die zugehörige Wahrscheinlichkeitsfunktion

ist

Beispiel 4.12:

p(x1,...xn) = P(X1 = x1,...Xn = xn) für alle Tupel (x1,...,xn) ∈ Ω ′ .

Wir wollen wieder zweifach mit einem fairen Würfel werfen. Betrachte also Ω = {1,2,3,4,5,6} mit der

Lapace-Verteilung P. Definiere für (a1,a2) = ω ∈ Ω die Zufallsvariablen X1,X2 : Ω ��Ω

(also Ω ′ = Ω),

X1 (ω) := min {a1,a2} ,

X2 (ω) := max {a1,a2} .

Die gemeinsame Verteilung von X1 und X2 können wir dann als Matrix schreiben. Setze dazu c := 1

36

und erhalte

x1 / x2 1 2 3 4 5 6 P (X1) ({x1})

1 c 2c 2c 2c 2c 2c 11c

2 0 c 2c 2c 2c 2c 9c

3 0 0 c 2c 2c 2c 7c

4 0 0 0 c 2c 2c 5c

5 0 0 0 0 c 2c 3c

6 0 0 0 0 0 c c

P (X2) ({x2}) c 3c 5c 7c 9c 11c

4 Zufallsvariablen, Verteilungen 51

Dabei steht in der Zelle (i,j) natürlich P (X1,X2) ({i} × {j}) = P (X1 = i,X2 = j) und wir haben in der

letzten Zeile / Spalte gleich noch die Werte der Einzel-Verteilungen P X1 und P X2 eingetragen, da diese

sich einfach als Summe der Zeilen- / Spalteneinträge berechnen.

4.13 Definition:

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien Xj : Ω

Für eine Indexauswahl

1 ≤ i1 < ... < ik ≤ n

��

′ Ω j für 1 ≤ j ≤ n Zufallsvariablen.

nennen wir die gemeinsame Verteilung von Xi1 ,...,Xik eine k-dimensionale Randverteilung oder

auch Marginalverteilung.

Beispiel 4.14:

Sei X = (X1,X2). Dann sind P Xi für i = 1,2 1-dimensionale Randverteilungen und es gilt zum Beispiel

P X1 (x1) = P (X1 = x1) = �

P (X1 = x1,X2 = x2) , x1 ∈ Ω ′ 1.

x2∈X2(Ω)

4.1.1 Unabhängigkeit von Zufallsvariablen

Die Idee ist, dass zwei Zufallsvariablen X1,X2 unabhängig sind, wenn

gilt.

Beispiel 4.15:

P (X1 = x1,X2 = x2) = P (X1 = x1) · P (X2 = x2) ∀ (x1,x2) ∈ Ω ′ 1 × Ω ′ 2

In obigem Beispiel 4.12 kann man aus der Tabelle leicht ablesen, dass

gilt, aber

P (X1 = 1,X2 = 1) = 1

36

P (X1 = 1) · P (X2 = 1) = 11 1

·

36 36

�= 1

36

ist. Daher sollten X1 und X2 wie dort definiert nicht unabhängig sein.

4.16 Definition:

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω

Wir nennen X1,...,Xn unabhängig, wenn

P (X1,...,Xn) =

n

⊗P i=1

Xi

gilt. Dabei meint n

⊗ P

i=1

Xi einfach das Produkt der Verteilungen, also

Beispiel 4.17:

Sei n = 2 und seien X1,X2 : Ω

n

⊗P i=1

Xi (A1 × ... × An) =

n�

P Xi (Ai) , Ai ∈ Ω ′ i für i = 1,...n.

Einzelverteilungen P X1 und P X2 wie im obigen Beispiel eintragen:

Man stellt fest, dass

i=1

��

′ Ω i für 1 ≤ i ≤ n Zufallsvariablen.

��

{0,1} durch folgende Tabelle gegeben, in welche wir auch gleich die

x1/x2 0 1 P X1 ({x1})

0 0.12 0.28 0.4

1 0.18 0.42 0.6

P X2 ({x2}) 0.3 0.7

2

⊗P i=1

Xi (x1,x2) Definition

= P X1 (x1) · P X2 (x2) = P (X1 = x1) · P (X2 = x2)

52 4 Zufallsvariablen, Verteilungen

4.18 Satz:

gilt. In jeder Zelle gilt

und daher sind X1 und X2 hier unabhängig.

P (X1 = x1) · P (X2 = x2) = P (X1 = x1,X2 = x2)

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω

Dann sind die folgenden Aussagen äquivalent:

(1) X1,...,Xn sind unabhängig.

(2) Für alle Ai ⊆ Ω ′ i , 1 ≤ i ≤ n gilt

(3) Für alle xi ∈ Ω ′ i , 1 ≤ i �= n gilt

Beweis:

” (1)⇒(2)“ Für beliebige Ai ⊆ Ω ′ i , 1 ≤ i ≤ n, gilt

P (X1 ∈ A1,...,Xn ∈ An) =

P (X1 = x1,...,Xn = xn) =

n�

P (Xi ∈ Ai) .

i=1

n�

P (Xi = xi) .

i=1

��

′ Ω i für 1 ≤ i ≤ n Zufallsvariablen.

P (X1 ∈ A1,...,Xn ∈ An) = P ((X1,...,Xn) ∈ A1 × ... × An)

= P (X1,...,Xn) (A1 × ... × An)

�

X1,...,Xn unabhängig

=

” (2)⇒(3)“ Für gegebene xi ∈ Ω ′ i , 1 ≤ i ≤ n setze Ai := {xi}.

” (3)⇒(1)“ Hier gilt für alle xi ∈ Ω ′ i , 1 ≤ i ≤ n:

P (X1,...,Xn) (x1,...,xn)

=

(3)

=

Definition

=

�

n

⊗ P

i=1

Xi

n�

P Xi (Ai)

i=1

n�

P (Xi ∈ Ai)

i=1

n�

P (Xi = xi)

i=1

�

n

⊗P i=1

Xi

�

(A1 × ... × An)

(x1,...,xn)

Daher stimmen die zu den Verteilungen P (X1,...,Xn) und n

⊗ P

i=1

Xi gehörigen Wahrscheinlichkeitsfunktionen

auf allen Tupeln (x1,...,xn) ∈ Ω1 × ... × Ωn überein und aus diesem Grund müssen die

beiden Verteilungen gleich sein.

Unabhängige Zufallsvariablen verwendet man üblicherweise zur Modellierung von Ausgängen von Experimenten,

die völlig getrennt ablaufen. Betrachte etwa das folgende Problem, welches allgemein als

Ziegenproblem oder auch 3-Türen-Problem bekannt ist:

Beispiel 4.19:

Wir betrachten drei Türen mit den Nummern 1 bis 3, wobei hinter einer rein zufälligen Tür ein Gewinn

(etwa ein Auto) und hinter den anderen beiden Türen je eine Ziege ist. Die Türen sind natürlich

verschlossen. Das Spiel läuft nun wie folgt ab:

(1) Der Kandidat wählt eine Tür.

4 Zufallsvariablen, Verteilungen 53

(2) Der Moderator öffnet eine der beiden anderen Türen, aber nicht die, hinter welcher sich der Gewinn

befindet.

(3) Der Kandidat darf wechseln.

Die Frage ist nun, ob es sich für den Kandidaten lohnt, zu wechseln.

Wir modellieren das Problem durch folgende Zufallsvariablen:

• X1:= Nummer der Tür, hinter welcher sich der Gewinn befindet (∈ {1,2,3}).

• X2:= Nummer der Tür, die der Kandidat in Schritt (1) auswählt (∈ {1,2,3}).

Nach unseren Annahmen ist dann

P (X1 = 1) = P (X1 = 2) = P (X1 = 3) = 1

3

(der Gewinn ist rein zufällig verteilt) und die Zufallsvariablen X1 und X2 sind unabhängig (der Kandidat

hat keine Informationen über die Gewinntür.

Verfolgt der Kandidat die Strategie ” nicht wechseln“, so gewinnt er genau dann, wenn X1 = X2 gilt. Also

P ( ” Gewinn“) = P (X1 = X2)

=

X1,X2 unabhängig

=

3�

P (X1 = i,X2 = i)

i=1

3�

P (X1 = i) ·P (X2 = i)

i=1

1

3

1

3 .

� ��

= 1

3

3�

P (X2 = i)

i=1

� ��

=1

Man beachte, dass es für dieses Ergebnis völlig egal ist, wie X2 verteilt ist, d.h. z.B. davon, ob der

Kandidat mit Vorliebe eine der Türen auswählt.

Verfolgt der Kandidat dagegen die Strategie ” wechseln“, so gewinnt er genau dann, wenn X1 �= X2 gilt

(weil der Moderator dann nur genau eine Tür öffnen kann, hinter der natürlich eine Ziege steht, und der

Kandidat in Schritt (3) dann zwangsläufig auf die Gewinn-Tür wechselt). Es folgt also

P ( Gewinn“) = P (X1 �= X2) = 1 − P (X1 = X2) = 1 −

” 1 2

=

3 3 .

Die Strategie ” wechseln“ ist also deutlich besser!

4.20 Definition (Funktionen von Zufallsvariablen):

Sei Ω ein diskreter Grundraum und seien Ω ′ ,Ω ′′ beliebige Mengen. Sei X : Ω

und g : Ω ′ ��

′′ Ω eine beliebige Abbildung. Dann wird durch

g(X) := g ◦ X : Ω

��

′′

Ω

eine Ω ′′ -wertige Zufallsvariable g ◦ X durch ω ↦→ g(X(ω)) auf Ω definiert.

Beispiel 4.21:

Sei g : Rn ��

R gegeben durch x = (x1,...,xn) ↦→ n�

xi. Ist

X : Ω

eine Zufallsvariable, so ist g(X) gegeben durch

ω ↦→

i=1

��

n

R , ω ↦→ (X1(ω),...,Xn(ω))

n�

Xi(ω), ω ∈ Ω.

i=1

��

Ω ′ eine Zufallsvariable

54 4 Zufallsvariablen, Verteilungen

Beispiel 4.22:

Sei X : Ω

��

R eine Zufallsvariable und g : R

��

R gegeben durch

x ↦→ x k

für ein k ∈ N. Dann ist (g(X)) (ω) = (X(ω)) k , ω ∈ Ω und wir schreiben auch

X k := g(X)

4.23 Lemma:

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω ��

Ωi, 1 ≤ i ≤ n unabhängige Zufallsvariablen.

Sei 1 ≤ i1 < ... < ik ≤ n eine Indexauswahl. Dann sind auch die Zufallsvariablen

unabhängig.

Beweis:

Xi1 ,...,Xik

Laut Satz 4.18 genügt es zu zeigen, dass für alle Aij ⊂ Ω′ , 1 ≤ j ≤ k, gilt:

ij

Es gilt

P (Xi 1 ,...,Xi k) (Ai1

× ... × Aik ) =

P (Xi 1 ,...,Xi k) (Ai1

k�

P � Xij

j=1

× ... × Aik )

= P (Xi1 ∈ Ai1 ,...,Xik ∈ Aik )

= P � X1 ∈ Ω ′ 1

� ��

trivial!

∈ Aij

,...,Xi1−1 ∈ Ω ′ i1−1,Xi1

∈ Ai1 ,Xi1+1 ∈ Ω ′ i1+1

� ��

trivial!

� .

� ��

trivial!

...,Xik−1 ∈ Ω ′ ik−1,Xik

∈ Aik ,Xik+1 ∈ Ω ′ ik+1,...,Xn

∈ Ω ′ n

� ��

trivial!

� ��

trivial!

�

· P (Xi1

X1,...,Xn unabh.

= P (X1 ∈ Ω ′ 1) · ... · P � Xi1−1 ∈ Ω ′ i1−1

· P � Xi1+1 ∈ Ω ′ � �

i1+1 · ... · P Xik−1 ∈ Ω ′ ik−1

=

Damit ist die Behauptung gezeigt.

· P � Xik+1 ∈ Ω ′ ik+1

n�

i=1

i�=i j ∀j∈{1,...,k}

k�

P � Xij

j=1

� · ... · P (Xn ∈ Ω ′ n)

P (Xi ∈ Ω ′ � ��

i) ·

�

=1

∈ Aij

� .

k�

P � Xij

j=1

∈ Aij

� ��

trivial!

,...

�

∈ Ai1 ) ·

�

· P (Xik ∈ Aik ) ·

4.24 Satz (Blockungslemma):

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω ��

Ωi, 1 ≤ i ≤ n unabhängige Zufallsvariablen.

Sei I1,...,Ik eine disjunkte Zerlegung der Menge {1,...,n} und setze cj := #Ij. Seien zuletzt

beliebige Abbildungen. Ist Ij =

unabhängig.

gj : × i∈Ij

Ω ′ i

��

′′

Ω j , j = 1,...,k

�

i j

1 ,...,ij �

cj , so sind auch die Zufallsvariablen

Yj := gj

�

X i j

1

,...,X i j cj

�

, j = 1,...,k

�

4 Zufallsvariablen, Verteilungen 55

Beweis:

Es genügt offenbar zu zeigen, dass für eine Abbildung

g : Ω ′ 1 × ... × Ω ′ m

und X := g (X1,...,Xm) die Zufallsvariablen

X,Xm+1,...,Xn

��

Ω ′′ , 1 ≤ m < n,

ebenfalls unabhängig sind. Laut Satz 4.18 haben wir also ∀ xi ∈ Ω ′ i , m + 1 ≤ i ≤ n, ∀ y ∈ Ω′′ zu zeigen:

n�

i=m+1

P (Xi = xi) · P (X = y) = P (X = y,Xm+1 = xm+1,...,Xn = xn) (4.1)

Für y ∈ Ω ′′ berechnen wir dazu zunächst

P (X = y) = P � X −1 ({y}) �

Damit folgt

=

= P �� a ∈ Ω | X1(a) ∈ g −1 ({y}) ,...,Xm(a) ∈ g −1 ({y}) ��

= P (X1,...,Xm) � g −1 ({y}) �

=

�

p (X1,...,Xm) (a)

=

Unabhängigkeit, Lemma 4.23

=

a∈g −1 ({y})

�

a∈g −1 ({y})

P (X1 = a,...,Xm = a)

P (X = y) · P (Xm+1 = xm+1,...,Xn = xn)

�

P (X1 = a,...,Xn = a) · P (Xm+1 = xm+1,...,Xn = xn)

a∈g −1 ({y})

�

a∈g −1 ({y})

P (X1 = a,...,Xm = a,Xm+1 = xm+1,...,Xn = xn)

= P � X1 ∈ g −1 ({y}) ,...,Xm ∈ g −1 ({y}) ,Xm+1 = xm+1,...,Xn = xn

= P (X = y,Xm+1 = xm+1,...,Xn = xn)

Damit ist 4.1 und daher die Behauptung gezeigt.

Beispiel 4.25:

Sind X1,...,Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit Werten

in R, so sind auch die Zufallsvariablen

X 2 1,...,X 2 n

unabhängig. Um das zu zeigen, wende einfach das Blockungslemma mit Ii = {i} , 1 ≤ i ≤ n und

g1(x) = g2(x) = ... = gn(x) = x 2 an.

Genauso folgt dann die Unabhängigkeit von

oder

usw..

Beispiel 4.26:

|X1|,..., |Xn|

X 2 1, |X2|, |X3| 5 ,...

Seien X1,...,X5 unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit

Werten in R. Dann sind auch die Zufallsvariablen

X1 sin(X4),X2 · exp(X3 · X5)

unabhängig. Um das zu sehen wende das Blockungslemma auf I1 = {1,4} und I2 = {2,3,5} mit g1 (x,y) =

x · sin(y), g2 (x,y,z) = x · exp (y · z) an.

�

56 4 Zufallsvariablen, Verteilungen

4.2 Verteilungen

Sei stets (Ω,P) ein diskreter Wahrscheinlichkeitsraum und X : Ω

4.27 Definition:

��

′ Ω eine Zufallsvariable.

Ist Ω ′ = {x1,...,xn}, so nennen wir X Laplace-verteilt (oder auch gleichverteilt), falls

4.28 Definition:

P (x = xk) = 1

n

∀ k = 1,...,n.

Ist Ω ′ = {0,1}, so nennen wir X Bernoulli-verteilt mit Parameter p ∈ [0,1], falls

Wir schreiben dann auch X ∼ B(1,p).

4.29 Definition:

P (X = 1) = p, P (x = 0) = 1 − p.

Ist Ω ′ = {1,...,n}, so nennen wir X Binomial-verteilt mit Parametern p ∈ [0,1] , n ∈ N, falls

� �

n

P (X = k) = p

k

k (1 − p) n−k , k = 0,...,n.

4.30 Satz:

Wir schreiben dann auch X ∼ B(n,p).

Abbildung 6: Binomialverteilungen B(n,p) mit p = 0.1,0.2,0.5,0.8

Seien X1,...,Xn unabhängige Zufallsvariablen auf (Ω,P) und es gelte Xi ∼ B(1,p) für jedes i ∈ {1,...,n}

mit festem p ∈ [0,1]. Dann gilt

X1 + ... + Xn ∼ B(n,p).

Beweis:

Es ist

P (X1 + ... + Xn = k) =

Für jedes (a1,...,an) ∈ {0,1} n mit n�

ai = k gilt

P (X1 = a1,...,Xn = an)

Außerdem ist

�

#

(a1,...,an) ∈ {0,1} n |

i=1

�

(a1 ,...,an)∈{0,1} n

n�

ai =k

i=1

P (X1 = a1,...,Xn = an)

X1,...,Xn unabhängig

= P (X1 = a1) · ... · P (Xn = an) = p k (1 − p) n−k

n�

�

ai = k

i=1

Damit folgt schon die Behauptung.

= #k − elementige Teilmengen einer n − elementigen Menge

=

� �

n

.

4 Zufallsvariablen, Verteilungen 57

4.31 Definition:

Ist Ω ′ = N, so nennen wir X geometrisch verteilt mit Parameter p ∈ [0,1], falls

Wir schreiben dann auch X ∼ Geo(p).

4.32 Lemma:

Ist X ∼ Geo(p), so gilt

für jedes k ∈ N.

Beweis:

Es ist

P (X = k) = p · (1 − p) k−1 , k ∈ N.

Abbildung 7: Geometrische Verteilungen Geo(p) mit p = 0.5,0.25,0.1

P (X ≥ k) =

für jedes k ∈ N. Das zeigt die Behauptung.

Bemerkung 4.33:

P (X ≥ k) = (1 − p) k−1

=

∞�

P (X = j)

j=k

∞�

(1 − p) j−1 p

j=k

= p · (1 − p) k−1

= (1 − p) k−1

∞�

(1 − p) j

j=0

� ��

= 1

p

In diesem Zusammenhang spricht man bei der geometrisch verteilten Zufallsvariablen auch von der

” Überlebenswahrscheinlichkeit“.

Will man etwa modellieren, wie groß die Wahrscheinlichkeit ist, dass ein bestimmtes Bauteil mehr als k

Arbeitsgänge hält, so verwendet man X ∼ Geo(p) mit der Wahrscheinlichkeit p, dass das Bauteil einen

festen Arbeitsgang überlebt.

4.34 Lemma:

Ist X ∼ Geo(p) eine Zufallsvariable, so gilt die Gedächtnislosigkeit, nämlich

P (X ≥ k + j | X > j) = P (x ≥ k) ∀ j,k ∈ N.

58 4 Zufallsvariablen, Verteilungen

Beweis:

Seien k,j ∈ N. Da k ≥ 1 ist stets

{X ≥ k + j} ∩ {X > j} = {ω ∈ Ω | X(ω) ≥ k + j} ∩ {ω ∈ Ω | X(ω) ≥ j + 1} = {X ≥ k + j} (4.2)

Damit folgt

Damit ist die Behauptung gezeigt.

Bemerkung 4.35:

P (X ≥ k + j | X > j)

(4.2)

=

Lemma 4.32

=

P (X ≥ k + j)

P (X ≥ j + 1)

(1 − p) k+j−1

(1 − p) j

= (1 − p) k−1

Lemma 4.32

= P (X ≥ k) .

Die Umkehrung dieser Aussage gilt ebenfalls. Vergleiche dazu Übungsblatt 5.

Bemerkung 4.36:

Betrachtet man X ∼ Geo(p) als ” Überlebenswahrscheinlichkeit“, so sagt die Gedächtnislosigkeit genau,

dass gebrauchte Bauteile ebenso gut wie neue Bauteile sind.

4.37 Definition:

Ist Ω ′ = N0, so nennen wir X Poisson-verteilt mit Parameter λ ∈ (0, ∞), falls

Wir schreiben dann auch X ∼ Poi(λ).

Bemerkung 4.38:

P (X = k) = exp (−λ) · λk

,k ∈ N0.

k!

� ��

=poi λ (k)

Abbildung 8: Poisson-Verteilungen Poi(λ) mit λ = 2,4,10,16

Poisson-verteilte Zufallsvariablen werden empirisch beobachtet bei z.B.

• Anrufen pro Minute in einem Call-Center,

• der Anzahl radioaktiver Zerfälle pro Zeitintervall und

• der Anzahl von Meteoriteneinschlägen in einem Gebiet pro Zeitintervall.

Allgemein tritt die Poisson-Verteilung dann auf, wenn Realisationen vieler möglicher, aber nur mit kleiner

Wahrscheinlichkeit eintretender Ereignisse gewählt werden.

4 Zufallsvariablen, Verteilungen 59

4.2.1 Eigenschaften der Possionverteilung

4.39 Satz (Poisson-Grenzwertsatz):

Ist (Xn)n≥1 eine Folge von B(n,pn) verteilten Zufallsvariablen mit n · pn

Beweis:

Zunächst gilt

P(Xn = k) =

= n · (n − 1) · ... · (n − k + 1)

lim

n→∞ P(Xn = k) = poiλ(k) für k = 0,1,...

� �

n

· p

k

k n · (1 − p) n−k

k!

· 1

nk · (n · pn) k �

·

= n n − 1 n − k + 1

· · ... · ·

n n n

(n · pn) k

·

k!

Berechnen wir nun die Grenzwerte einzeln, so haben wir

n n − 1 n − k + 1

· · ... ·

n n n

�

1 −

n

�

1 −

��

∞ ��

1,

(n · pn) k ��

��

k!

n ∞

n ·

�

pn

n

(1 − pn) −k ��

��

n ∞

1.

n

��

∞ ��

λ ∈ (0, ∞), so gilt

1 − npn

�n · (1 − pn)

n

−k

n ·

�

pn

n

· (1 − pn)

n

−k

λ k

k! ,

��

∞ ��

exp(−λ),

Das liefert

P(Xn = k) n ��

��

∞ λ

exp(−λ) · k

k!

mit der obigen Darstellung und zeigt die Behauptung.

Die folgende Fehlerabschätzung wollen wir nur ohne Beweis angeben:

4.40 Satz (Fehlerabschätzung für die Poisson-Approximation der Binomialverteilung):

Sei X ∼ B(n,p) und λ := n · p. Dann gilt für jede Teilmenge A ⊂ {0,1,2,...}:

�

� �

�

�P(x

∈ A) − poi

�

λ(k) �

�

≤ (1 − exp(−np)) · p

Insbesondere ist

Beispiel 4.41:

k∈A

≤ p.

�

λk �

�

�P(X = k) − exp(−λ) · �

k! � ≤ (1 − exp(−np)) · p ∀k = 0,1,2,...

Sei n = 1000 und p = 10−3 . Dann ist der Fehler der Approximation:

�

� � �

�

�P(x

∈ A) − poi

�

λ(k) �

k∈A

� ≤ (1 − exp(1)) · 10−3 ≈ 0.64 · 10 −3 = 0.00064

60 5 Kenngrößen von Verteilungen

5 Kenngrößen von Verteilungen

5.1 Der Erwartungswert

5.1 Lemma:

Sei X : Ω → Ω ′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf

Ω. Dann gilt �

|X(ω)| · P(ω) < ∞ ⇔ �

|x| · P X (x) < ∞

ω∈Ω

x∈Ω ′

und in diesem Falle �

X(ω) · P(ω) = �

x · P(X = x).

Beweis:

Wir berechnen

ω∈Ω

x∈Ω ′

�

X(ω) · P(ω) = �

ω∈Ω

x∈Ω ′

= �

x∈Ω ′

�

ω∈Ω

X(ω)=x

�

ω∈Ω

X(ω)=x

= �

x · �

x∈Ω ′

ω∈Ω

X(ω)=x

X(ω) · P(ω)

x · P(ω)

P(ω)

= �

x · P(X = x).

Die gleiche Rechnung mit |X(ω)| bzw. |x| zeigt, dass die ” < ∞“-Bedingungen äquivalent sind.

5.2 Definition:

x∈Ω ′

Sei X : Ω → Ω ′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf

Ω. Wir definieren den Erwartungswert E(X) von X durch

E(X) := �

X(ω) · P(ω), falls �

|X(ω)| · P(ω) < ∞ (5.1)

Bemerkung 5.3:

ω∈Ω

= �

x · P(X = x), falls �

|x| · P X (x) < ∞. (5.2)

x∈Ω ′

(5.2) zeigt, dass E(X) nur von der Verteilung P X von X abhängt. E(X) ist in diesem Sinne also eine

” Kenngröße“ der Verteilung von X.

Bemerkung 5.4:

x∈Ω ′

Die geforderte (absolute) Konvergenz stellt sicher, dass E(X) wohldefiniert ist.

Bemerkung 5.5:

Ist X ≥ 0 (d.h. X nimmt nur nicht-negative Werte an), dann kann man in (5.1) und (5.2) auf die

” < ∞“-Forderung verzichten und lässt auch E(X) = ∞ zu.

5.1.1 Erwartungswerte einiger Verteilungen

Beispiel 5.6:

Sei X Laplace-verteilt auf Ω ′ = {x1,...,xN } ⊂ R. Dann gilt

E(X) =

N�

i=1

xi · P(X = xi) = 1

N ·

Ein Spezialfall ist {x1,...,xN } = {1,...,N}. Dann ist

E(X) = 1

N

N�

i=1

i = 1

N

N�

i=1

xi, da P(X = xi) = 1

N .

· N(N + 1)

2

Bei einem herkömmlichen Würfel ist demnach E(X) = 3.5.

= N + 1

.

5 Kenngrößen von Verteilungen 61

Beispiel 5.7:

Sei X ∼ B(1,p) eine Bernoulli-verteilte Zufallsvariable mit Ω ′ = {0,1} und P(X = 1) = p. Dann ist

E(X) = 0 · (1 − p) + p = p.

Insbesondere liefert das für die Indikatorvariable X = 1A einer Teilmenge A ⊂ Ω und eine Wahrscheinlichkeitsverteilung

P auf Ω, dass X ∼ B(1,p) mit p = P(A), also E(X) = P(A).

Damit ist für das Würfeln einer geraden Zahl (also A = {2,4,6} ⊂ {1,...,6}) der Erwartungswert

was der Intuition entspricht.

Beispiel 5.8:

E(1A) = P(A) = 1

2 ,

Sei X ∼ B(n,p) eine Binomial-verteilte Zufallsvariable. Dann bereitet uns die Berechnung von

E(X) =

n�

k=0

�

k ·

� �

n

· p

k

k · (1 − p) n−k

�

einige Schwierigkeiten. Wir werden weiter unten im Beispiel 5.15 eine bessere Methode kennenlernen.

Beispiel 5.9:

Sei X ∼ Poi(λ) eine Poisson-verteilte Zufallsvariable. Dann ist

5.10 Hilfssatz:

E(X) =

∞�

k=0

k · exp(−λ) · λk

k!

= exp(−λ) · λ ·

∞�

k=1

∞�

k=0

λ k−1

(k − 1)!

λ k

k!

= exp(−λ) · λ · exp(λ)

= λ.

Sei X eine diskrete Zufallsvariable auf (Ω,P) mit Werten in N0. Dann gilt

Beweis:

Nach 5.1 gilt

E (X) =

n=0

∞�

P (X ≥ n) . (5.3)

n=1

∞�

E (X) = n · P (X = n) = n · P (X = n) ,

und diese Summe konvergiert absolut. Daher können wir Umordnen und erhalten so

was die Behauptung zeigt.

Beispiel 5.11:

E (X) =

n=1 k=n

n=1

∞� ∞�

∞�

P (X = k) = P (X ≥ n) ,

Sei X ∼ Geo(p) eine geometrisch verteilte Zufallsvariable. Dann ist E(X) = 1

p .

n=1

62 5 Kenngrößen von Verteilungen

Beweis:

Anwenden von Hilfssatz 5.10 liefert

E (X)

womit die Behauptung schon gezeigt ist.

(5.3)

=

Lemma 4.32

=

∞�

P (X ≥ n)

n=1

∞�

(1 − p) n−1

n=1

∞�

(1 − p) n

n=0

1

1 − (1 − p)

1

p ,

Das heißt beim Würfeln mit X =“Warten auf die erste 6“:

E(X) = 1

1

6

5.1.2 Eigenschaften des Erwartungswertes

5.12 Satz (Transformationsformel):

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum, X eine diskrete Zufallsvariable mit Werten in Ω ′ und

g := Ω ′ → R eine Abbildung mit �

|g(x)| · P(X = x) < ∞.

Dann ist

Beweis:

Für die Verteilung von Y = g ◦ X gilt:

Damit erhalten wir

x∈Ω ′

= 6.

E(g(X)) = �

g(x) · P(X = x).

x∈Ω ′

P(Y = y) = P(g ◦ X = y)

= P ({ω | g ◦ X(ω) = y})

⎛

⎞

=

⎜

�

⎟

P ⎝ {ω | X(ω) = x} ⎠

= �

E(g(X)) = E(Y )

= �

x∈Ω

g(x)=y

y∈Y (Ω)

= �

y∈Y (Ω)

= �

x∈Ω

g(x)=y

P(X = x)

y · P(Y = y)

y ·

�

x∈g −1 ({y})

�

y∈Y (Ω) x∈g−1 ({y})

= �

�

y∈Y (Ω) x∈g−1 ({y})

= �

g(x) · P(X = x)

x∈Ω ′

P(X = x)

y · P(X = x)

g(x) · P(X = x)

Die selbe Rechnung mit Beträgen zeigt, dass der Erwartungswert E (g(X)) im definierten Sinne existiert.

5 Kenngrößen von Verteilungen 63

Beispiel 5.13:

Sei g(x) = x k . Dann heißt

E(X k ) = �

x k P(X = x) k = 1,2,...

x∈Ω ′

das k-te Moment von X, sofern dieser Ausdruck existiert. Insbesondere ist das ” 1.Moment von X“

gleich dem Erwartungswert von X.

5.14 Satz (Linearität und Monotonie des Erwartungswertes):

Seinen X,Y Zufallsvariablen auf (Ω,P), s.d. E(X) und E(Y ) existieren. Sei außerdem a ∈ R. Dann

gelten die folgenden Rechenregeln:

(1) E(X + Y ) = E(X) + E(Y )

(2) E(aX) = a · E(X)

(3) X ≥ Y ⇒ E(X) ≥ E(Y ) (d.h.X(ω) ≥ Y (ω)∀ω)

Beweis:

(1) Per Definition gilt

E(X + Y ) = �

(X + Y )(ω) · P(ω)

ω∈Ω

= �

(X(ω) + Y (ω)) · P(ω)

ω∈Ω

= �

X(ω) · P(ω) + �

Y (ω) · P(ω)

ω∈Ω

= E(X) + E(Y ).

ω∈Ω

Die gleiche Rechnung mit Beträgen zeigt, dass E(X + Y ) existiert.

(2) Hier ist

(3) Zuletzt berechnet man

Damit ist der Satz bewiesen.

Beispiel 5.15:

E(aX) = �

a · X(ω) · P(ω) = a · �

X(ω) · P(ω) = a · E(X).

ω∈Ω

E(X) = �

X(ω) · P(ω) ≥ �

Y (ω) · P(ω) = E(Y ).

ω∈Ω

Sei X ∼ B(n,p) eine Binomial-verteilte Zufallsvariable und seien X1,X2,...,Xn unabhängig nach B(1,p)

verteilt. Nach Satz 4.30 ist dann X1 +X2 +...+Xn ∼ B(n,p), das heißt X und X1 +X2 +...+Xn haben

die gleiche Verteilung. Folglich gilt

E(X) = E(X1 + X2 + ... + Xn) Linearität

= E(X1) + E(X2) + ... + E(Xn) = n · p,

ω∈Ω

da E(X1) = ... = E(Xn) = p für Bernoulli-verteilte X1,...,Xn.

Beispiel 5.16:

Sei X(a1,a2,...,an) gleich der Anzahl der Fixpunkte der Permutation a1,a2,...,an von 1,2,...,n.

Für n = 4 gilt dann z.B. X(1,4,3,2) = 2.

Allgemein schreiben wir:

X(a1,a2,...,an) = #{i | ai = i}

Sei P die Laplace-Verteilung auf dem Raum aller Permutationen. Für Ai = {(a1,...,an) | ai = i} gilt

dann

n�

X = 1Ai .

Mit Hilfe der Linearität können wir zeigen:

�

n�

�

E(X) = E =

i=1

1Ai

n�

i=1

E(1Ai ) =

n�

P(Ai) =

i=1

n�

i=1

1

= 1.

64 5 Kenngrößen von Verteilungen

Beispiel 5.17 (Sammlerproblem):

Wir ziehen aus einer Urne mit n Kugeln, welche mit 1,...,n nummeriert sind, mit Zurücklegen bis jede

Kugel mindestens einmal gezogen wurde. Wir wollen nun die benötigte Anzahl X von Ziehungen modellieren

und den Erwartungswert E(X) bestimmen.

Sei X = X0 + X1 + X2 + ... + Xn−1 wobei Xi ∼ Geo( n−i

n ) und E(Xi) = n

n−i nach Beispiel 5.11.

(Dabei beschreibt Xi das Warten auf den Erfolg eine neue Kugel wird gezogen“ nachdem bereits i ver-

”

schiedene Kugeln gezogen wurden, insbesondere X0 ≡ 1)

Wird z.B. Die Folge 2,2,3,2,3,4,2,1 aus einer Urne mit 4 Kugeln gezogen, so ist X = 8 und X0 = 1,X1 =

2,X2 = 3,X4 = 2.

Man berechnet

E(X) = E(X0) + E(X1) + ... + E(Xn − 1)

= n n

+

n n − 1

= n ·

n�

i=1

1

i

≈ n · ln(n).

n n

+ + ... +

n − 2 1

Damit können wir den Erwartungswert für n = 3,10,100 und 10000 berechnen:

5.1.3 Produktformel

n E(X)

3 5.5

10 29.3

100 518.7

10000 97876.1

Seien X und Y zwei reelle, diskrete Zufallsvariablen. Man kann sich fragen, ob stets

gilt.

Beispiel 5.18:

Sei X ∼ B(1,p) und Y = X. Dann haben wir

E (X · Y ) = E (X) · E (Y ) (5.4)

E (X · Y ) = E � X 2� = E (X) = p,

da X 2 = X, denn schließlich nimmt X nur Werte in {0,1} an. Andererseits ist aber

E (X) · E (Y ) = (E (X)) 2 = p 2 .

Für p ∈ (0,1) gilt aber p 2 �= p, womit (5.4) im Allgemeinen also falsch ist.

5.19 Satz (Produktformel für unabhängige Zufallsvariablen):

Seien X,Y unabhängige Zufallsvariablen auf (Ω,P) mit existenten Erwartungswerten E(X), E(Y ). Dann

gilt

E (X · Y ) = E(X) · E(Y ).

5 Kenngrößen von Verteilungen 65

Beweis:

Mittels der ersten Definition des Erwartungswerts (5.1) berechnet man

�

E (X · Y ) = (X · Y ) (ω)P ({ω})

=

X,Y unabhängig

=

ω∈Ω

�

X(ω) · Y (ω) · P ({ω})

ω∈Ω

�

x∈X(Ω) y∈Y (Ω) ω∈Ω

X(ω)=x,Y (ω)=y

�

x∈X(Ω) y∈Y (Ω)

�

x∈X(Ω) y∈Y (Ω)

�

x∈X(Ω) y∈Y (Ω)

⎛

⎝ �

x∈X(Ω)

x · y

X (ω) · Y (ω) ·P ({ω})

� ��

=x·y

�

P ({ω})

ω∈Ω

X(ω)=x,Y (ω)=y

P(X = x,Y = y)

P(X = x) · P(Y = y)

⎞ ⎛

xP(X = x) ⎠ · ⎝ �

y∈Y (Ω)

⎞

yP (Y = y) ⎠ ,

was nach der zweiten Definition (5.2) des Erwartungswertes genau E(X) · E(Y ) entspricht.

Um die Existenz des Erwartungswertes E(X · Y ) zu zeigen, führt man zunächst die selbe Rechnung mit

Beträgen durch.

Beispiel 5.20:

Wir betrachten zwei faire Würfel und die Zufallsvariablen X1 :=“erster Wurf“, X2 :=“zweiter Wurf“.

Mit obigem Satz gilt dann

5.2 Varianzen

5.21 Definition:

E (X · Y ) = E (X) · E (Y ) =

� �2 7

.

2

Sei X eine reelle Zufallsvariable mit E � X 2� < ∞. Dann wird die Varianz von X definiert durch

�

V (X) := E (X − E (X)) 2�

.

Ebenso definiert man die Standardabweichung σX von X als

Bemerkung 5.22:

σX := � V (X).

(1) Da E � X 2� < ∞ ist und für jede reelle Zahl x ∈ R auch |x| ≤ 1 + x 2 gilt, ist auch E (|X|) < ∞

und daher existiert E (X) unter der Voraussetzung E � X 2� < ∞. Insbesondere ist V (X) also

wohldefiniert.

(2) Da (X − E(X)) 2 ≥ gilt, muss auch V (X) ≥ 0 sein und σX ist wohldefiniert.

(3) X − E(X) geht aus X durch ” Zentrieren“ hervor, d.h.

E (X − E(X)) = E(X) − E(E(X)) = E(X) − E(X) = 0,

da der Erwartungswert E(E(X)) der festen Zahl E(X) (d.h. der konstanten Zufallsvariable ω ↦→

E(X)) natürlich wieder E(X) selbst ist.

Bemerkung 5.23:

Die Varianz ist die mittlere quadratische Abweichung von X zu E(X).

66 5 Kenngrößen von Verteilungen

Bemerkung 5.24:

Nach der Transformationsformel für den Erwartungswert (Satz 5.12) gilt mit der Funktion g(x) :=

(x − E(X)) 2 , x ∈ R:

V (X) = E(g(X)) Transformationsformel �

=

(x − E(X)) 2 · P (X = x). (5.5)

Beispiel 5.25:

x∈X(Ω)

Wir betrachten das einmalige Würfeln mit einem fairen Würfen und definieren die Zufallsvariable X als

die Augenzahl. Dann haben wir schon berechnet, dass E(X) = 7

2 , und daher ist die Varianz von X nach

obiger Bemerkung gegeben als

6�

�

V (X) = x − 7

�2 1 35

=

2 6 12 .

5.26 Definition:

x=1

Sei k ∈ N und X eine reelle Zufallsvariable auf (Ω,P). Falls

�

E (X − E(X)) k�

existiert, so nennen wir diese Zahl das k-te zentrale Moment von X.

Bemerkung 5.27:

Die Darstellung der Varianz mittels der Transformationsformel (5.5) zeigt, dass V (X) allein durch die

Verteilung von X festgelegt ist. Es handelt sich also wie beim Erwartungswert auch um eine ” Kenngröße“

der Verteilung.

5.28 Definition:

Seien X,Y reelle Zufallsvariablen mit E � X 2� < ∞, E � Y 2� < ∞. Dann wird die Kovarianz von X und

Y definiert durch

CoV (X,Y ) = E ((X − E(X)) · (Y − E(Y ))).

Bemerkung 5.29:

Für eine reelle Zufallsvariable gilt dann

CoV(X,X) = V (X).

5.30 Satz (Rechenregeln für die Varianz):

Seien X,Y und Xi für 1 ≤ i ≤ n reelle Zufallsvariablen mit E � X2� < ∞, E � Y 2� < ∞ und E � X2 �

i < ∞,

1 ≤ i ≤ n. Seien außerdem a,b ∈ R. Dann gelten die folgenden Rechenregeln

(V1) V (X) = E � X 2� − (E (X)) 2 , insbesondere ist V (X) < ∞.

(V2) V (aX + b) = a 2 · V (X).

(V3) CoV (X,Y ) = E (X · Y ) − E (X) · E (Y ).

(V4) Für Summen gilt

V

� n�

i=1

Xi

�

=

n�

V (Xi) −

i=1

(V5) Sind X1,...,Xn unabhängig, so gilt sogar

�

n�

V

Beweis:

i=1

Xi

�

=

n�

CoV (Xi,Xj) .

i,j=1

i�=j

n�

V (Xi) .

(V1) Mittels der Linearität des Erwartungswerts hat man

�

V (X) = E (X − E (X)) 2�

�

= E X 2 − 2E (X) · X + (E (X)) 2�

= E � X 2� �

− 2E (X) · E (E (X)) + E (E (X)) 2�

i=1

= E � X 2� − 2(E (X)) 2 + (E (X)) 2

= E � X 2� − (E (X)) 2 .

5 Kenngrößen von Verteilungen 67

Dabei haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen natürlich

der Wert der Zufallsvariablen selbst ist.

(V2) Es ist

(V3) Man berechnet

V (aX + b) =

�

E ((aX + b) − E (aX + b)) 2�

=

�

E (aX + b − aE (X) − E (b)) 2�

=

�

E a 2 (X − E(X)) 2�

= a 2 �

E (X − E(X)) 2�

= a 2 V (X).

CoV (X,Y ) = E ((X − E(X)) · (Y − E(Y )))

= E (X · Y − X · E(Y ) − Y · E(X) + E (X) · E (Y ))

= E (X · Y ) − E (X) · E(E(Y )) − E(Y ) · E(E(X)) + E(E(X)) · E(E(Y ))

= E (X · Y ) − E (X) · E (Y ) − E (Y ) · E (X) + E (X) · E (Y )

= E (X · Y ) − E (X) · E (Y ) .

Auch hier haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen

natürlich der Wert der Zufallsvariablen selbst ist.

(V4) Wir setzen Zi := Xi − E (Xi) für 1 ≤ i ≤ n. Dann ist

n�

�

n�

�

n�

Xi − E = (Xi − E (Xi)) =

womit

folgt.

V

i=1

� n�

i=1

Xi

�

i=1

Xi

i=1

n�

Zi, (5.6)

i=1

⎛�

n�

�

n�

= E ⎝ Xi − E

(5.6)

i=1

⎛�

n�

= E ⎝

i=1

⎛�

n�

= E ⎝

=

Zi=Xi−E(Xi)

=

⎛

i=1

n�

i,j=1

Zi

� 2 ⎞

⎠

i=1

� ⎛

n�

· ⎝

Zi · Zj

n�

E (Zi · Zj)

i,j=1

n�

i=1

E � Z 2� i +

n�

V (Xi) +

i=1

⎞

⎠

j=1

Zj

Xi

�� 2 ⎞

⎞⎞

⎠⎠

n�

E (Zi · Zj)

i,j=1

i�=j

⎠

n�

CoV (Xi,Xj)

(V5) Nach Satz 5.19 gilt wegen der Unabhängigkeit von X1,...,Xn für alle Paare 1 ≤ i,j ≤ n, i �= j:

i,j=1

i�=j

E (Xi · Xj) = E (Xi) · E (Xj) .

Mit Regel (V3) ist also CoV (Xi,Xj) = 0 falls i �= j. Damit folgt (V5) aus (V4).

68 5 Kenngrößen von Verteilungen

Bemerkung 5.31:

Im Beweis von (V5) haben wir gezeigt, dass für unabhängige, reelle Zufallsvariablen X,Y stets

CoV (X,Y ) = 0

gilt. Die Umkehrung dagegen ist im allgemeinen falsch, wie das folgende Beispiel zeigt:

Beispiel 5.32:

Betrachte eine Zufallsvariable X mit Werten in {−N,...,N} auf einem diskreten Wahrscheinlichkeitsraum

(Ω,P). Wir nehmen an, dass

und 0

P (X = n) = P (X = −n) ∀ n ∈ {−N,...,N}

Dann gilt CoV � X,X 2� = 0, aber X und X 2 sind nicht unabhängig.

Beweis:

Zunächst ist

E (X)

(5.1)

=

N�

k=−N

k · P (X = k)

N�

= 0 · P (X = 0) + k · P (X = k) − k · P (X = −k)

=

N�

k=1

k · (P(X = k) − P(X = −k))

� ��

=0 nach Voraussetzung

= 0. (5.7)

Genauso folgt mit der Transformationsformel (Satz 5.12) für g(x) = x 3 , dass

E � X 3� (5.1)

=

N�

k=−N

k 3 · P (X = k)

k=1

= 0 3 N�

· P (X = 0) + k 3 N�

· P (X = k) − k 3 · P (X = −k)

=

N�

k=1

Damit folgt nach Definition der Kovarianz

CoV � X,X 2�

k 3 · (P(X = k) − P(X = −k))

� ��

=0 nach Voraussetzung

= 0. (5.8)

= E

k=1

��X − E(X)

� ��

=0 nach (5.7)

��

2 2

X − E X

= E � X 3 − X · E � X 2��

= E � X 3� − E (X) · E � X 2�

(5.7) & (5.8)

= 0.

Bleibt zu zeigen, dass X und X 2 nicht unabhängig sind. Dazu nehmen wir an, X und X 2 wären unabhängig.

Dann gilt insbesondere

P (X,X2 ) (0,0) = P X (0) · P X 2

(0)

5 Kenngrößen von Verteilungen 69

Beachten wir nun, dass X 2 = 0 ⇔ X = 0, so folgt

P (X = 0) = P (X = 0,X = 0)

= P � X = 0,X 2 = 0 �

= P (X,X2 ) (0,0)

= P X (0) · P X2

(0)

= P (X = 0) · P � X 2 = 0 �

= (P (X = 0)) 2 ,

was ein Widerspruch zu P (X = 0) ∈ (0,1) ist. Es folgt die Behauptung.

5.33 Definition:

Seien X,Y reelle Zufallsvariablen. Wir nennen X und Y unkorreliert, falls

gilt.

Es gilt also:

CoV (X,Y ) = 0

unabhängig ⇒

�⇐ unkorreliert

5.2.1 Varianzen einiger diskreter Verteilungen

Beispiel 5.34:

Sei X ∼ B(1,p) für p ∈ [0,1] eine reelle Zufallsvariable. Dann ist E(X) = p wie schon berechnet und

daher gilt wegen X 2 = X (X hat wieder nur Werte in {0,1}):

V (X)

V (X) = E � X 2� − (E (X)) 2

= E (X) − (E (X)) 2

= p − p 2

= p · (1 − p) .

0 1

Abbildung 9: Die Varianz einer Bernoulli-verteilten Zufallsvariablen X ∼ B(1,p) in Abhängigkeit von

p ∈ [0,1]

Beispiel 5.35:

Sei X ∼ B(n,p) mit n ∈ N und p ∈ [0,1]. Seien außerdem X1,...,Xn ∼ B(1,p) unabhängig. Nach Satz

4.30 gilt dann

X1 + ... + Xn ∼ B(n,p) ,

weshalb X und X1 + ... + Xn die gleiche Verteilung besitzen. Da die Varianz nur von der Verteilung

abhängt, gilt also

�

n�

�

V (X) = V

(V5)

i=1

Xi

n�

V (Xi)

i=1

Beispiel 5.34

= np (1 − p)

70 5 Kenngrößen von Verteilungen

Beispiel 5.36:

Sei X ∼ Poi (λ) für ein 0 < λ < ∞. Dann ist

P (X = k) = exp (−λ) · λk

k!

für k ∈ N

und es gilt E (X) = λ wie schon berechnet. Um die Varianz von X zu bestimmen nutzen wir (V1) und

haben so

V (X) = E � X 2� − (E(X)) 2 = E � X 2� − λ 2 .

Zur Berechnung von E � X 2� nutzen wir den folgenden Trick:

E � X 2� = E � X 2 − X � + E (X) .

Dann wende die Transformationsformel (Satz 5.12) mit g(k) := k2 −k auf E(X2 −X) = E(g(X)) an und

erhalte so

E � X 2 − X �

= E (g(X))

Das ergibt zusammen

Beispiel 5.37:

Transformationsformel

=

∞� � � 2

k − k P (X = k)

k=0

∞�

k=0

∞�

k=2

= exp (−λ)

k (k − 1) exp (−λ) λk

k!

k (k − 1) exp (−λ) λk

k!

∞�

k=2

= λ 2 exp (−λ)

λ k

(k − 2)!

∞�

k=0

λ k

k!

= λ 2 exp (−λ) exp(λ)

= λ 2 .

V (X) = E � X 2 − X � + E (X) − (E (X)) 2 = λ 2 + λ − λ 2 = λ

Sei X ∼ Geo(p) für ein p ∈ [0,1]. Wir haben schon gesehen, dass dann E(X) = 1

p gilt. Um die Varianz

zu berechnen, nutzen wir das folgende

5.38 Lemma:

Ist X eine Zufallsvariable mit Werten in N, so gilt

Beweis:

E � X 2� =

∞�

(2n − 1) P (X ≥ n) .

Mit der Transformationsformel (Satz 5.12) für g(k) := k 2 folgt direkt

n=0

n=1

∞�

E (X) = n 2 ∞�

P (X = n) = n 2 P (X = n) .

n=1

5 Kenngrößen von Verteilungen 71

Diese Reihe ist absolut konvergent, daher kann sie in der folgenden Form umgeordnet werden:

∞�

n 2 P (X = n) = 1 · P (X = 1) + 4 · P (X = 2) + 9 · P (X = 3) + 16 · P (X = 4) + ...

n=1

= (P (X = 1) + P (X = 2) + ...) + 3P (X = 2) + 8P (X = 3) + 15P (X = 4) + ...

= (P (X = 1) + P (X = 2) + ...) + 3(P (X = 2) + P (X = 3) + P (X = 4) + ...)

+5P (X = 3) + 12P (X = 4) + ...

= (P (X = 1) + P (X = 2) + ...) + 3(P (X = 2) + P (X = 3) + P (X = 4) + ...)

=

Es folgt die Behauptung.

+5(P (X = 3) + P (X = 4) + ...) + 7P (X = 4) + ...

∞�

(2n − 1) · P (X ≥ n) .

n=1

Außerdem gilt laut Lemma 4.32 P (X ≥ k) = (1 − p) k−1 , womit dann

E � X 2� = 1

p

= 1

p

∞�

p(2n − 1) (1 − p) n−1

n=1

∞�

(2n − 1) P (X = n)

n=1

gilt. Jetzt wenden wir die Transformationsformel (Satz 5.12) mit g(k) = 2k −1 rückwärts an und erhalten

so

Für die Varianz gilt damit

E � X 2� = 1

E ((2X − 1))

p

= 1 1

2E(X) −

p p

= 2 1

−

p2 p

= 2 − p

p 2 .

V (X) (V1)

= E � X 2� − (E (X)) 2 =

2 − p

p

1 1 − p

− = 2 p2 p2 .

72 6 Wahrscheinlichkeitsungleichungen und das SGGZ

6 Wahrscheinlichkeitsungleichungen und das SGGZ

6.1 Das schwache Gesetz großer Zahlen (SGGZ)

6.1 Satz (Markov-Ungleichung):

Sei X ≥ 0 eine diskrete Zufallsvariable (d.h. X nimmt nur nicht-negative reelle Werte an) auf (Ω,P).

Dann gilt für jedes reelle a > 0:

Beweis:

Es gilt

was die Behauptung zeigt.

6.2 Satz (Tschebyschow-Ungleichung):

P (X ≥ a) ≤ E(X)

a

P (X ≥ a) = �

≤

x∈X(Ω),x≥a

�

x∈X(Ω),x≥a

�

x∈X(Ω)

= 1

a E(X),

P (X = x)

x

P (X = x)

a

x

P (X = x)

a

Sei X eine reelle, diskrete Zufallsvariable mit E � X 2� < ∞. Dann gilt für jedes reelle a > 0:

Beweis:

P (|X − E(X)| ≥ a) ≤

Da sowohl |X − E(X)| als auch a positive Zahlen sind, ist

Damit gilt

womit die Behauptung gezeigt ist.

Folgerung 6.3:

V (X)

a 2

(6.1)

(6.2)

|X − E(X)| ≥ a ⇔ (X − E(X)) ≥ a 2 . (6.3)

P (|X − E(X)| ≥ a)

�

(6.3)

= P (X − E(X)) 2 ≥ a 2�

(6.1)

≤

=

E

�

(X − E(X)) 2�

V (X)

a 2 ,

Sei X eine reelle, diskrete Zufallsvariable mit E � X 2� < ∞. Dann gilt für jedes reelle c > 0:

Beweis:

P (|X − E(X)| ≥ cσX) ≤ 1

c 2

Wende (6.2) mit a = cσX an und nutze σX = � V (X).

Bemerkung 6.4:

Für jede reelle, diskrete Zufallsvariable X mit E � X 2� < ∞ gilt also

usw.

a 2

P (|X − E(X)| ≥ 2σX) ≤ 1

4

P (|X − E(X)| ≥ 3σX) ≤ 1

9

(6.4)

6 Wahrscheinlichkeitsungleichungen und das SGGZ 73

Beispiel 6.5:

Wir betrachten 100 faire Münzwürfe und definieren die Zufallsvariable X als die Anzahl der Kopf“-

”

Ergebnisse. Dann ist X ∼ B � 100, 1

�

1

2 , E(X) = 50 und nach Beispiel 5.35 gilt V (X) = 100 · 4 = 25. Also

ist σX = 5 und daher haben wir nach (6.4):

Bemerkung 6.6:

P (|X − 50| ≥ 10) ≤ 1

4

P (|X − 50| ≥ 15) ≤ 1

9

Die Abschätzungen, die man mit der Tschebyschow-Ungleichung erreichen kann, können oft verbessert

werden. Siehe dazu etwa später die Exponentialungleichungen oder den zentralen Grenzwertsatz.

6.7 Satz (Schwaches Gesetz großer Zahlen (SGGZ)):

Seien X1,...,Xn unabhängige diskrete Zufallsvariablen mit gleicher Verteilung auf (Ω,P) und es gelte

E � X2 �

i < ∞ für jedes 1 ≤ i ≤ n. Dann gilt für jedes ε > 0:

Beweis:

P

��

1

n

Zunächst halten wir fest, dass

n�

� �

�

Xi − E (X1) � ≥ ε ≤

�

i=1

E (X1) = E

�

1

n

V (X1)

nε 2

n

n�

�

E (Xi) .

i=1

��

∞ ��

0. (6.5)

Außerdem gilt E (X1) = E (Xi) für jedes 1 ≤ i ≤ n, da alle Zufallsvariablen nach Voraussetzung die

gleiche Verteilung besitzen.

Daher folgt mit der Tschebyschow-Ungleichung:

P

��

1

n

Das zeigt die Behauptung.

Bemerkung 6.8:

n�

� �

�

Xi − E (Xi) � ≥ ε

�

i=1

Damit liegt für große n der empirische Mittelwert

(6.2)

≤

(V2)

=

X1,...,Xn unabhängig

=

mit hoher Wahrscheinlichkeit in der ε-Nähe des Erwartungswertes E(X1).

6.1.1 Spezialfall - Das SGGZ von Bernoulli

6.9 Satz:

1

n

n�

i=1

Xi

=

V

�

1

n

n�

Xi

i=1

ε 2

�

n�

V

Xi

i=1

n2ε2 n�

V (Xi)

i=1

n2ε2 V (X1)

nε 2 .

Seien Xi ∼ B(1,p) für ein p ∈ [0,1] und 1 ≤ i ≤ n, außerdem seien X1,...,Xn unabhängig. Dann gilt

��

�� n�

�

1

�

P Xi − p�

≥ ε ≤

n � 1

. (6.6)

4nε2 i=1

�

�

74 6 Wahrscheinlichkeitsungleichungen und das SGGZ

Beweis:

Wir wissen schon, dass E (X1) = p und V (X1) = p · (1 − p) gilt. Nach dem SGGZ gilt also

��

�� n�

�

1

�

� p · (1 − p)

P Xi − p�

≥ ε ≤

n � nε2 .

Offenbar ist aber p · (1 − p) ≤ 1

4

Beispiel 6.10:

i=1

∀ p ∈ R, womit die Behauptung folgt.

Wir betrachten 1000 faire Münzwürfe und setzen

�

1 Kopf im i-ten Wurf

Xi :=

0 Zahl im i-ten Wurf

Dann gilt Xi ∼ B � 1, 1

�

2 für alle 1 ≤ i ≤ 1000 und die Zufallsvariablen X1,...,X1000 sind unabhängig.

Nun setzen wir

1000 �

X := Xi,

was der Anzahl an Kopf-Würfen in 1000 Würfen entspricht. Es ist

i=1

1000 �

E (X) = E (Xi) =

i=1

1000 �

und entsprechend berechnet man mit dem SGGZ von Bernoulli:

Damit ist auch

i=1

.

1

= 500

2

P (X ≤ 400 oder X ≥ 600) = P (|X − 500| ≥ 100)

��

�� 1000

1 �

= P Xi −

1000

1

�

2�

(6.6)

≤

=

i=1

1

4 · 1000 · 1

100

1

= 0.025.

40

�

1

≥

10

P (400 < X < 600) = 1 − P (X ≤ 400 oder X ≥ 600) ≥ 1 − 0.025 = 0.975.

6.2 Exponential-Ungleichungen

Notation 2:

Sind X1,...,Xn unabhängige und gleichverteilte diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum

(Ω,P) gegeben, so schreiben wir auch

falls die Verteilung die Bernoulli-Verteilung ist usw..

Xi

i.i.d.

∼ B(1,p) ,

i.i.d. steht dabei für ” independent identically distributed“.

6.11 Satz (Bernstein-Ungleichung):

Seien Xi

i.i.d.

∼ B(1,p) für ein p ∈ [0,1]. Dann gilt für alle ε > 0:

�

n�

�

1

P Xi − p ≥ ε

n

i=1

≤

�

exp − 1

4 nε2

�

n�

�

1

P Xi − p ≤ −ε

n

i=1

≤

�

,

�

exp − 1

4 nε2

��

�� n�

�

1

�

P Xi − p�

≥ ε

n �

≤

�

,

�

2exp − 1

4 nε2

�

. (6.7)

i=1

6 Wahrscheinlichkeitsungleichungen und das SGGZ 75

Beweis:

Offenbar folgt die dritte Ungleichung mittels der Boole’schen Ungleichung (1.7) bereits aus den ersten

beiden Ungleichungen:

��

�� n�

� �

1

� (1.7) n�

� �

n�

�

1

P Xi − p�

≥ ε ≤ P Xi − p ≥ ε + P Xi − p ≤ −ε .

n � n

n

i=1

Wir zeigen nur die erste Ungleichung, die zweite lässt sich absolut analog beweisen.

�

n�

�

1

P Xi − p ≥ ε

n

i=1

=

�

n�

�

1

P Xi ≥ p + ε

n

i=1

�

n�

�

P Xi ≥ np + nε . (6.8)

Nach Satz 4.30 ist n�

Xi ∼ B(n,p), daher folgt also für m := ⌈n(p + ε)⌉:

P

�

1

n

i=1

n�

�

Xi − p ≥ ε

i=1

(6.8)

=

λ>0 beliebig

≤

n�

k=m

i=1

� �

n n−k

k

p (1 − p)

k � ��

=:q

n�

exp (λ (k − n(p + ε)))

k=m

= exp(−λnε)

n�

k=m

n�

k=m

i=1

� �

n

p

k

k q n−k

� �

n

exp(λk − λnp) p

k

k q n−k

� �

n

(pexp (λq))

k

k (q exp (−λp)) n−k

= exp(−λnε) (pexp (λq) + q exp(−λp)) n . (6.9)

Allgemein ist exp (x) ≤ x + exp � x2� für x ∈ R2 , daher folgt

�

n�

�

1

P Xi − p ≥ ε

n

(6.9)

≤ exp (−λnε) (pexp (λq) + q exp (−λp)) n

i=1

= exp (−λnε) � p � λq + exp � λ 2 q 2�� + q � −λp + exp � λ 2 p 2�� n

= exp (−λnε) � pexp � λ 2 q 2� + q exp � λ 2 p 2�� n

≤ exp (−λnε) � pexp � λ 2� + q exp � λ 2�� n

= exp (−λnε) exp � nλ 2�

= exp � n � λ 2 − λε ��

(6.10)

für jedes λ > 0. Nun wählen wir λ = ε

2 , was genau dem Minimum von λ ↦→ λ2 − λε entspricht. Es folgt

damit

P

�

1

n

n�

Xi − p ≥ ε

i=1

was die Behauptung zeigt.

Beispiel 6.12:

� (6.10)

��ε �2 ≤ exp n −

2

ε

2 εn

�

= exp − 1

4 ε2 �

n ,

Wir betrachten wieder die Münzwürfe aus Beispiel 6.10. Die Bernstein-Ungleichung liefert

��

�� 1000

1 �

P Xi −

1000

1

� �

�

(6.7) �

� ≥ 0.1 ≤ 2exp −

2�

1

� �

1

1000 · = 2exp −

4 100

10

�

≈ 0.164,

4

i=1

was offenbar deutlich schlechter ist, als das Ergebnis mit dem SGGZ! Der Grund dafür ist, dass n = 1000

einfach noch zu klein ist!

Wir werden aber gleich sehen, dass man mit noch besseren Exponential-Ungleichungen noch deutlich

bessere Ergebnisse erzielen kann.

2 Für x < 0 ist diese Ungleichung offensichtlich. Für x = 0 gilt Gleichheit und für x≥1ist x 2 ≥ x, womit die Ungleichung

aus der strengen Monotonie der exp-Funktion folgt. 0 < x < 1?

76 6 Wahrscheinlichkeitsungleichungen und das SGGZ

Die folgende Exponential-Ungleichung wollen wir nur angeben, nicht beweisen:

6.13 Satz (Chernov-Ungleichung):

Seien Xi

i.i.d.

∼ B(1,p) für ein p ∈ [0,1]. Dann gilt für alle ε > 0:

�

n�

�

1

P Xi − p ≥ ε

n

i=1

≤ exp � −2nε 2� �

n�

�

1

P Xi − p ≤ −ε

n

i=1

≤

,

exp � −2nε 2� ��

�� n�

�

1

�

P Xi − p�

≥ ε

n �

≤

,

2exp � −2nε 2� . (6.11)

i=1

Noch allgemeiner sogar ist die folgende Ungleichung, die wir ebenfalls nicht beweisen wollen:

6.14 Satz (Hoeffding-Ungleichung):

Seien X1,...,Xn i.i.d. Zufallsvariablen. Es gebe reelle Zahlen a

Mit c := b − a gilt dann für alle ε > 0:

��

�� n�

�

1

� �

�

2 n

P Xi − E (X1) � ≥ ε ≤ 2exp −2ε

n

� c2 �

.

Bemerkung 6.15:

i=1

Offenbar folgt die Chernov-Ungleichung aus der Hoeffding-Ungleichung mit a = 0 und b = 1.

Beispiel 6.16:

Wir betrachten wieder die Münzwürfe aus Beispiel 6.10. Die Chernov-Ungleichung liefert hier

��

�� 1000

1 �

P Xi −

1000

1

� �

�

(6.11) �

� ≥ 0.1 ≤ 2exp −2 · 1000 ·

2�

1

�

= 2exp (−20) ≈ 0.00000000412

100

i=1

- besser gehts nicht!

7 Faltung, bedingte Verteilungen und Korrelation 77

7 Faltung, bedingte Verteilungen und Korrelation

7.1 Die Faltung

Wir betrachten oft Summen unabhängiger Zufallsvariablen. Was kann man über die Verteilung dieser

Summe aussagen?

7.1 Satz:

Es seien X1,...,Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P).

(1) Dann ist die Verteilung P X1+...+Xn der Summe X1 + ... + Xn durch die Verteilungen P X1 ,...,P Xn

der Zufallsvariablen X1,...,Xn festgelegt.

(2) Für x ∈ (X1 + ... + Xn) (Ω) (also x im Wertebereich der Summe) gilt

�

P (X1 + ... + Xn = x) =

P (X1 = x1) · ... · P (Xn = xn) . (7.1)

Beweis:

x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)

x 1 +...+xn=x

Offenbar folgt (2) aus (1). Für (1) sehen wir zunächst, dass

�

{X1 + ... + Xn = x} =

Damit folgt

P (X1 + ... + Xn = x) =

und die Behauptung ist gezeigt.

7.2 Definition:

X1,...,Xn unabhängig

=

x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)

x 1 +...+xn=x

�

x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)

x 1 +...+xn=x

�

x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)

x 1 +...+xn=x

{X1 = x1,...,Xn = xn} .

P (X1 = x1,...,Xn = xn)

P (X1 = x1) · ... · P (Xn = xn)

Seien X1,...,Xn unabhängige Zufallsvariablen. Wir definieren die Faltung von P X1 ,...,P Xn als

P X1 ⋆ ...⋆P Xn := P X1+...+Xn .

Obiger Satz, Teil (2), rechtfertigt diese Bezeichnung.

7.3 Definition:

Für Wahrscheinlichkeitsverteilungen P1,...,Pn auf Ω definiert man allgemeiner die Faltung P1 ⋆ ...⋆Pn

als die Verteilung von X1 + ... + Xn, wobei Xi, 1 ≤ i ≤ n, unabhängige Zufallsvariablen mit P Xi = Pi

sind.

Bemerkung 7.4:

Im Allgemeinen (d.h. ohne Unabhängigkeit), ist die Verteilung der Summe X +Y zweier Zufallsvariablen

X und Y nicht durch die Verteilungen von X und Y festgelegt.

Beispiel 7.5:

Seien X,Y i.i.d.

∼ B(1,p). In Satz 4.30 haben wir gesehen, dass dann X + Y ∼ B(2,p) gilt, d.h. die

Verteilung von X + Y entspricht dem Wahrscheinlichkeitsvektor

� 1

4

1 1

, ,

2 4

In diesem Sinne ist die Bernoulli-Verteilung eine ” schöne“ Verteilung, ihre Faltung gibt wieder eine uns

bekannte und leicht zu berechnende Verteilung - die Binomialverteilung!

Beispiel 7.6:

Sei X ∼ B � 1, 1

�

2 und Y = X. Insbesondere sind X und Y dann nicht unabhängig und es gilt auch

Y ∼ B � 1, 1

�

2 . Damit gilt

⎧

1

⎪⎨ 2 falls x = 0

P (X + Y = x) = P (2X = x) = 0 falls x = 1 .

⎪⎩

�

.

1

2 falls x = 2

78 7 Faltung, bedingte Verteilungen und Korrelation

7.1.1 Spezialfall

Seien X,Y unabhängige, diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit

X (Ω) ⊂ N0, Y (Ω) ⊂ N0. Dann ist (X + Y ) (Ω) ⊂ N0 und es gilt für k ∈ N0:

Beispiel 7.7:

P (X + Y = k)

(7.1)

=

�

x,y∈N 0

x+y=k

P (X = x) · P (Y = y)

k�

P (X = x) P (Y = k − x)

x=0

k�

pX (x) · pY (k − x) (7.2)

x=0

Wir betrachten die Augensumme beim zweifachen Würfeln. Setze dazu X1 := erster Wurf und X2 :=

zweiter Wurf. Wir haben in einem früheren Beispiel schon gesehen, dass die Verteilung der Summe

P (X + Y = k) für k = 2,...,12 den Wahrscheinlichkeitsvektor

� 1

2 3 4 5 6 5 4 3 2 1

, , , , , , , , , ,

36 36 36 36 36 36 36 36 36 36 36

liefert. Das kann man mit der obigen Darstellung leicht nachrechnen.

7.1.2 Faltungen einiger wichtiger Verteilungen

7.8 Satz:

Seien X,Y zwei unabhängige, diskrete Zufallsvariablen mit X ∼ Poi (λ) , Y ∼ Poi (µ) für zwei Parameter

0 < λ,µ < ∞. Dann gilt

X + Y ∼ Poi (λ + µ) .

Beweis:

Da die Poisson-Verteilung für Zufallsvariablen mit Werten in N0 definiert ist, können wir obigen Spezialfall

anwenden:

Das zeigt die Behauptung.

P (X + Y = k)

(7.2)

=

�

k�

P (X = x) · P (Y = k − x)

x=0

k�

x=0

1

k!

exp (−λ) λx µk−x

exp (−µ)

x! (k − x)!

exp (−(λ + µ))

k�

x=0

1

= exp (−(λ + µ)) (λ + µ)k

k!

= poiλ+µ (k) .

k!

x!(k − x)! λx µ k−x

Damit ist also die Faltung zweier Poisson-Verteilungen einfach die Poisson-Verteilung zur Summe der

Parameter.

Praktisch braucht man dieses Ergebnis etwa bei den Anrufen pro Minute in einem Call-Center, die aus

zwei Zentralen zusammenlaufen. Die Anzahl der Anrufe pro Minute ist bei der ersten Zentrale dabei

Poi (λ) verteilt, bei der zweiten Zentrale Poi (µ) verteilt.

Der Satz oben sagt uns nun, dass die Gesamtzahl der Anrufe pro Minute im Call-Center dann Poi (λ + µ)

verteilt ist.

7.9 Hilfssatz:

Es gilt

k�

x=0

� ��

n m

=

x k − x

� n + m

k

�

7 Faltung, bedingte Verteilungen und Korrelation 79

Beweis:

Wir wir im Kapitel über Kombinatorik gesehen haben, ist � � a

b genau die Anzahl der Möglichkeiten, b

Elemente aus einer a-elementigen Menge auszuwählen. Also ist � � n+m

k genau die Anzahl der Möglichkeiten,

aus der Menge {1,...,n + m} genau k Elemente auszuwählen.

Eine solche Auswahl kann zerlegt werden in die Elemente, die aus {1,...,n} ausgewählt werden, und

die Elemente, die aus {n + 1,...,n + m} ausgewählt werden. Die Summe dieser beiden Auswahlen muss

entsprechend k ergeben. Jetzt klassifizieren wir dies �nach der Kardinalität x der ersten Auswahl, die

genau die Summe all dieser Klassifikationen, d.h.

7.10 Satz:

zwischen 0 und k liegen muss. Offenbar ist dann � n+m

k

was die Behauptung zeigt.

� �

n + m

=

k

k�

x=0

� ��

n m

,

x k − x

Seien X ∼ B(n,p) und Y ∼ B(m,p) unabhängige Zufallsvariablen mit Parametern p ∈ [0,1] und

n,m ∈ N. Dann gilt

X + Y ∼ B(m + n,p) .

Beweis:

Für 0 ≤ k ≤ m + n gilt

P X+Y (k) = P (X + Y = k)

(7.2)

=

k�

P (X = x) P (Y = k − x)

x=0

k�

x=0

k�

x=0

= p k (1 − p) n+m−k

Hilfssatz 7.9

=

� �

n

p

x

x (1 − p) n−x

� �

m

p

k − x

k−x (1 − p) m−(k−x)

� ��

n m

p

x k − x

k (1 − p) n−x+m−k+x

� n + m

k

k�

x=0

�

p k (1 − p) n+m−k .

� ��

n m

x k − x

Das das Ende dieser Gleichung der Binomialverteilung mit Parametern n + m und p ist, folgt die Behauptung.

80 7 Faltung, bedingte Verteilungen und Korrelation

7.2 Bedingte Verteilungen

7.11 Definition:

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω ��

′ Ω , Y : Ω

Zufallsvariablen auf diesem Raum. Sei weiter x ∈ X (Ω) mit P (X = x) > 0.

Die bedingte Verteilung von Y gegeben X = x ist

P (Y ∈ A | X = x) für A ⊂ Ω ′′ .

Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist

p Y |X (y|x) := P (Y = y | X = x) =

P (Y = y,X = x)

P (X = x)

��

′′ Ω diskrete

= p (X,Y )(x,y)

, (x,y) ∈ Ω

pX(x)

′ ,Ω ′′ .

D.h. für jedes x wie in der Annahme ist p Y |X (·|x) eine Wahrscheinlichkeitsfunktion auf Ω ′′ bzw. Y (Ω).

Beispiel 7.12:

Wir würfeln zweimal mit einem fairen Würfel und definieren unsere Zufallsvariablen X1,X2 als die Ergebnisse

des i-ten Wurfes, i = 1,2 entsprechend. Natürlich sind X1 und X2 unabhängig. Setze nun

Dann ist Y die Augensumme des Experiments.

Zunächst berechnen wir formal

Y := X1 + X2, X := X1.

P (Y = y | X = x) = P (X1 + X2 = y | X1 = x)

=

P (X1 + X2 = y,X1 = x)

P (X1 = x)

P (X2 = y − x,X1 = x)

=

P (X1 = x)

�

1

X1,X2 unabhängig

6 falls 1 ≤ y − x ≤ 6

= P (X2 = y − x) =

.

0 sonst

Zur Verdeutlichung wollen wir noch die Tabelle der bedingten Wahrscheinlichkeitsfunktion p Y |X(y|x)

angeben. In der x-ten Zeile steht dabei p Y |X(·|x):

Beispiel 7.13:

x/y 2 3 4 5 6 7 8 9 10 11 12

1

6

1

6

2 0 1

6

1

6

1

6

3 0 0 1

6

1

6

1

6

1

6

4 0 0 0 1

6

1

6

1

6

1

6

1

6

5 0 0 0 0 1

6

1

6 0 0 0 0 0

1

6

1

6

1

6

1

6

6 0 0 0 0 0 1

6

1

6 0 0 0 0

1

6

1

6

1

6

1

6 0 0 0

1

6

1

6

1

6 0 0

Seien X ∼ B(n,p) und Y ∼ B(m,p) unabhängige Zufallsvariablen. Die bedingte Verteilung von X

gegeben X + Y = k entspricht dann (nach Satz 7.10 ist X + Y ∼ B(n + m,r)) der Frage

” Wie viele Erfolge treten in den ersten n Experimenten auf, wenn k Erfolge in n + m Experimenten

auftreten?“

1

6

1

6

1

6

1

6

1

6

1

6

0

1

7 Faltung, bedingte Verteilungen und Korrelation 81

Man berechnet

p X|X+Y (j|k) = P (X = j | X + Y = k)

=

X,Y unabhängig

=

P (X = j,Y = k − j)

P (X + Y = k)

P (X = j) P (Y = k − j)

P (X + Y = k)

� � n j n−j

j p (1 − p) � � m k−j m−(k−j)

k−j p (1 − p)

� � n+m

k pk m+n−k

(1 − p)

� �� n m

j k−j

� ,

� n+m

k

und sieht so, dass die bedingte Verteilung genau der hypergeometrischen Verteilung für das Experiment

” n + m Kugeln gegeben, davon n rote.

Ziehe k Kugeln und bestimme die Wahrscheinlichkeit, dass genau j rote Kugeln darunter sind!“

entspricht.

Beispiel 7.14:

Seien X ∼ Poi (λ), Y ∼ Poi (µ) unabhängige Zufallsvariablen. Wir modellieren damit etwa Anfragen an

einen Server, die über zwei Zwischenstellen eingehen. Dabei wird die Anzahl der Anfragen pro Minute an

der ersten Zwischenstelle mittels X1 und die Anzahl der Anfragen pro Minute an der zweiten Zwischenstelle

mittels X2 simuliert. Die bedingte Verteilung von X gegeben X+Y = k ist dann die Frage, wie viele

der Anfragen am Server von der ersten Zwischenstelle kommen. Nach Satz 7.8 ist X + Y ∼ Poi (λ + µ)

und damit berechnet man

p X|X+Y (j|k) = P (X = j | X + Y = k)

=

X,Y unabhängig

=

P (X = j,Y = k − j)

P (X + Y = k)

P (X = j) P (Y = k − j)

P (X + Y = k)

exp (−λ) λj

µk−j

j! exp(−µ) (k−j)!

exp (−λ − µ) (λ+µ)k

k!

� �

k

λ

j

j µ k−j 1

� � � �j � �

k λ µ

·

j λ + µ λ + µ

(λ + µ) j (λ + µ) k−j

Damit ist die bedingte Verteilung von X gegeben X + Y = k genau durch B

Nach obigen Beispielen kann man schon vermuten:

Bemerkung 7.15:

k−j

� ��

=1− λ

λ+µ

�

k, λ

λ+µ

.

�

gegeben.

Die Zufallsvariablen X und Y sind genau dann unabhängig, wenn p Y |X (y|x) = pY (y) ∀ (x,y) ∈ Ω ′ × Ω ′′

gilt.

Beweis:

Nach Definition der bedingten Wahrscheinlichkeit ist

Wir sehen also

p Y |X(y,x) = pY (y) ⇔ p (X,Y )(x,y)

pX(x)

= pY (y)

⇔ P (X,Y ) (x,y) = P Y (y) · P X (x).

p Y |X (y|x) = pY (y) ∀ (x,y) ∈ Ω ′ × Ω ′′ ⇔ P (X,Y ) = P X ⊗ P Y .

Nach Satz 4.18 ist die hintere Bedingung aber äquivalent zur Unabhängigkeit von X und Y .

82 7 Faltung, bedingte Verteilungen und Korrelation

7.2.1 Der bedingte Erwartungswert

7.16 Definition:

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω

��

Ω ′ , Y : Ω

��

Ω ′′ diskrete

Zufallsvariablen auf diesem Raum. Für x ∈ Ω ′ mit P (X = x) > 0 ist der bedingte Erwartungswert

von Y gegeben X = x definiert durch

Beispiel 7.17:

E (Y | X = x) = �

y∈Y (Ω)

y · p Y |X (y|x) .

Wir betrachten zweifaches Würfeln wie oben mit den Zufallsvariablen Y =Augensumme und X =erster

Wurf. Dann schließen wir aus obiger Tabelle, dass

Beispiel 7.18:

�12

E (Y | X = x) = y · pY |X(y|x) =

y=2

x+6 �

y=x+1

y

= x + 3.5.

6

Seien X ∼ Poi (λ) und Y� ∼ Poi (µ) unabhängig. Dann ist die bedingte Verteilung von X gegeben

X+Y = x genau durch B x, λ

�

λ+µ gegeben, womit nach dem Erwartungswert für Binomial-Experimente

sofort

E � X � �

�

λ

X + Y = x = x ·

λ + µ

folgt.

7.2.2 Die bedingte Erwartung

Der eben definierte bedingte Erwartungswert E (Y | X = x) ist eine Funktion von x. Setze daher

7.19 Definition:

Die Abbildung g (X) : Ω

g (x) := E (Y | X = x) , x ∈ X (Ω) .

��

R, also

X

Ω ��

X(Ω) ��

R

ist eine Zufallsvariable auf Ω und heißt die bedingte Erwartung von Y gegeben X. Wir schreiben auch

Beispiel 7.20:

E (Y | X) := g (X) .

Wir würfeln wieder wie in Beispiel 7.17. Dort haben wir schon berechnet, dass E (Y | X = x) = x + 3.5

gilt. Daher ist die bedingte Erwartung hier die Zufallsvariable

Beispiel 7.21:

E (Y | X) = X + 3.5.

Wir betrachten wieder Poisson-verteilte Zufallsvariablen X und Y wie in Beispiel 7.18. Mit der Rechnung

aus diesem Beispiel folgt

λ

E (X | X + Y ) = (Y + X)

λ + µ .

Wir wollen nun zeigen, dass man manchmal den Erwartungswert E (Y ) sehr gut mit Hilfe der bedingten

Erwartung berechnen kann. Dazu nutzen wir den folgenden Satz:

7.22 Satz (iterierte Erwartung):

Es gilt

Beweis:

Wende Satz 7.23 mit f ≡ 1 an.

g

E (Y ) = E (E (Y | X)). (7.3)

7 Faltung, bedingte Verteilungen und Korrelation 83

7.23 Satz:

Der folgende Satz ist allgemeiner und beinhaltet den Satz über die iterierte Erwartung bereits:

Für eine beliebige Abbildung f : X (Ω)

Beweis:

Betrachte

��

R gilt

E (f(X) · Y ) = E (f(X) · E (Y | X)).

(X,Y )

Ω ��

X(Ω) × Y (Ω)

��

⊂R2 ⊂R2 h ��

für h (x,y) := f(x) · y. Dann folgt mit doppelter Anwendung der Transformationsformel (Satz 5.12)

was die Behauptung zeigt.

Beispiel 7.24:

E (f(X) · Y ) = E (h(X,Y ))

= �

h(x,y)P (X = x,Y = y)

x∈X(Ω)

y∈Y (Ω)

= �

�

x∈X(Ω) y∈Y (Ω)

= �

x∈X(Ω)

= �

x∈X(Ω)

= �

x∈X(Ω)

R

f(x) · yp Y |X (y|x) · pX (x)

f(x) · pX (x) �

yp Y |X (y|x)

y∈Y (Ω)

� ��

=E(Y | X=x)

f(x) · pX (x) E (Y | X = x)

� ��

=g(x)

f(x)g(x) · pX (x)

= E (f(X) · g(X))

= E (f(X) · E (Y | X)),

Wieder zweifaches Würfeln wie in Beispiel 7.17 (also Y =Augensumme, X =erster Wurf). Wir haben

oben schon gesehen, dass E (Y | X) = X + 3.5 gilt. Damit folgt aus dem Satz oben:

E (Y ) (7.3)

= E (E (Y | X)) = E (X + 3.5) = E (X) + 3.5 = 7.

7.2.3 Anwendung der iterierten Erwartung

7.25 Definition:

Sei I eine beliebige Indexmenge und seien Xi, i ∈ I Zufallsvariablen. Wir nennen Xi,i ∈ I unabhängig,

falls jede endliche Teilfamilie Xij , j ∈ J, #J < ∞, unabhängig ist.

Der folgende Satz behandelt den Erwartungswert zufälliger Summen:

7.26 Satz (Wald’sche Identität):

Sei N eine Zufallsvariable mit Werten in N0. Seien X1,X2,... Zufallsvariablen mit gleichem Erwartungswert

und N,X1,X2,... im obigen Sinne unabhängig. Setze

Dann gilt

SN (ω) :=

N(ω) �

i=1

Xi (ω) .

E (SN) = E (N) · E (X1) .

84 7 Faltung, bedingte Verteilungen und Korrelation

Beweis:

Es gilt

p SN |N (j|n) = P (SN = j,N = n)

P (N = n)

=

�

n�

�

P Xi = j,N = n

i=1

P (N = n)

.

Nach Dem Blockungslemma (Satz 4.24) sind auch n�

Xi und N unabhängig, das liefert

Damit ist aber per Definition

p SN |N (j|n) = P

E (SN | N = n) =

i=1

� n�

i=1

Xi = j

�

∞�

�

n�

�

j · P Xi = j

j=0

= E

� n�

i=1

Xi

= n · E (X1) ,

da nach Voraussetzung alle Xi’s den gleichen Erwartungswert haben. Das zeigt

i=1

�

E (SN | N) = N · E (X1)

und mit dem Satz über die iterierte Erwartung folgt

Das zeigt die Behauptung.

Beispiel 7.27:

E (SN) (7.3)

= E (E (SN | N)) = E (N · E (X1)) = E (N) · E (X1) .

Wir betrachten N als die Anzahl Schadensfälle in einem Jahr bei einer Versicherung und X1,X2,...

als die entsprechenden Schadenshöhen. Dann liefert uns die Wald’sche Identität eine Formel für die zu

erwartenden Leistungen, die die Versicherung zu zahlen hat.

Beispiel 7.28:

Wir betrachten N als Anzahl von Münzwürfen, bis das Ergebnis ” Kopf“ zum ersten Mal auftritt und Xi

als die Augenzahl eines Würfelwurfs. Dann entspricht die Summe

SN (ω) :=

N(ω) �

i=1

Xi (ω)

genau der Summe der Augenzahlen der Würfelwürfe, bis bei parallelen Münzwürfen erstmalig Kopf“

”

kommt. Da N ∼ Geo � �

1

2 gilt, liefert die Wald’sche Identität

E (SN) = E (N) · E (X1) = 2 · 3.5 = 7.

7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23)

Wir wollen hier E (Y | X) als ” bester Vorhersager von Y gegeben die Information X“ betrachten

(bezüglich des erwarteten quadratischen Fehlers). Wir beobachten zunächst:

Bemerkung 7.29:

Sei Y eine reelle Zufallsvariable. Die reelle Zahl a = a ∗ ∈ R, so dass der erwartete quadratische Fehler

(E(Y − a) 2 ) minimal wird, ist a ∗ = E(Y ).

Beweis:

Per Definition ist für unser a ∗ genau

E � (Y − a ∗ ) 2� = V (Y ).

7 Faltung, bedingte Verteilungen und Korrelation 85

Kleiner kann dieser Wert nicht werden, denn V (Y ) ist minimal, denn setzt man

so ist

f(a) = E � (Y − a) 2� = E(Y 2 ) − 2aE(Y ) + a 2 ,

f ′ (a) = −2E(Y ) + 2a = 0 ⇔ a = E(Y ).

Da es sich bei f um eine nach oben geöffnete Parabel handelt, ist a ∗ = E (Y ) somit das eindeutige globale

Minimum.

7.30 Satz:

Seien X und Y reelle Zufallsvariablen. Für jede Funktion ϕ : X(Ω) ��

R ist

�

E (Y − ϕ(X)) 2�

≥ E � (Y − E(Y | X)) 2�

und Gleichheit gilt genau für ϕ(x) = E(Y | X).

Beweis:

Sei ϕ : X(Ω)

Nach Satz 7.23 sind

Daher folgt

��

R eine beliebige Funktion. Dann gilt

�

E (Y − E(Y | X)) 2�

�

+ E (ϕ(X) − E( Y | X)) 2�

= E � Y 2� �

− 2E (Y · E (Y | X)) + E (E (Y | X)) 2�

+E

�

(ϕ(X)) 2�

− 2E (ϕ(X) · E(Y |X)) + E

(7.4)

�

(E(Y |X)) 2�

. (7.5)

E (ϕ(X) · E (Y | X)) = E (ϕ(X) · Y ) (7.6)

E(Y · E(Y | X) )

� ��

=:f(X)

= E (E(Y | X) · E(Y | X)) = E � (E(Y |X)) 2� . (7.7)

−2E (Y · E(Y | X)) + E � (E(Y | X)) 2� − 2E (ϕ(X) · E(Y | X)) + E � (E(Y | X)) 2�

(7.6) &(7.7)

= −2E � (E(Y |X)) 2� + 2E � (E(Y |X)) 2� − 2E (ϕ(X) · Y )

= −2E(ϕ(X) · Y )

und damit haben wir

(7.5)

�

E (Y − E(Y |X)) 2�

�

+ E (ϕ(X) − E(Y |X)) 2�

� 2 2

= E(Y ) − 2E(ϕ(X) · Y ) + E (ϕ(X)) �

�

= E (Y − ϕ(X)) 2�

Da (ϕ(X) − E(Y |X)) 2 �

≥ 0 ist auch E (ϕ(X) − E(Y |X)) 2�

≥ 0 und es folgt die Behauptung.

Bemerkung 7.31:

In diesem Sinn ist E(Y | X) der beste Vorhersager von Y gegeben X, denn er minimiert den erwarteten

quadratischen Fehler.

7.3 Korrelation

Wir wollen nun den besten Vorhersager der Form aX + b (a,b ∈ R) finden. Das heißt, wir betrachten im

Folgenden nur lineare ϕ.

7.32 Definition:

Seien X,Y reelle Zufallsvariablen mit V (X) > 0,V (Y ) > 0. Ihr Korrelationskoeffizient ist

ρX,Y :=

CoV(X,Y )

� V (X) · � V (Y ) =

CoV(X,Y )

.

σX · σY

86 7 Faltung, bedingte Verteilungen und Korrelation

Bemerkung 7.33:

X und Y sind unkorreliert genau dann, wenn ρX,Y = 0 ist.

7.34 Satz (Bester linearer Vorhersager):

Die Zahl E � (Y − aX − b) 2� wird minimal für a ∗ = σY

σX · ρX,Y und b ∗ = E(Y ) − σY

σX · ρX,Y · E(X). Für

den minimalen Wert gilt:

�

E (Y − a ∗ X − b ∗ ) 2�

= � 1 − ρ 2 �

X,Y · V (Y ),

wobei (1 − ρ2 X,Y ) die Verbesserung gegenüber dem konstanten Vorhersager V (Y ) ist.

Beweis:

Für festes a wird laut Bemerkung 7.29 E � (Y − aX − b) 2� minimiert (wobei wir Y −aX als Zufallsvariable

Z betrachten und b finden wollen, s.d. der Ausdruck minimiert wird) durch b ∗ = E(Y − aX) = E(Y ) −

aE(X) und es ist

�

E (Y − aX − b ∗ ) 2�

= V (Y − aX).

Nun müssen wir ein a finden, sodass V (Y − aX) minimal wird.

Wenn wir

f(a) := V (Y −aX) = V (Y )+CoV(Y, −aX)+CoV(−aX,Y )+V (−aX) = V (Y )−2aCoV(X,Y )+a 2 V (X)

setzen, so ist

genau dann, wenn

f ′ (a) = −2CoV(X,Y ) + 2aV (X) = 0

a = a ∗ =

CoV(X,Y )

V (X)

ist und es folgt durch Einsetzen in die Gleichung oben

= σY

· ρX,Y

σX

V (Y − a ∗ CoV(X,Y )

X) = V (Y ) − 2 · CoV(X,Y ) +

V (X)

Das zeigt die Behauptung.

Bemerkung 7.35:

Mit a = 0 und b = E(Y ) folgt:

und damit

7.36 Definition:

CoV(X,Y )2

= V (Y ) − 2 +

V (X)

CoV(X,Y )2

V (X)

�

CoV(X,Y )2

= V (Y ) · 1 −

V (X)

= V (Y ) · � 1 − ρ 2 �

X,Y

�

(Y − a ∗ X − b ∗ ) 2�

0 ≤ E

� ��

=(1−ρ 2 X,Y )·V (Y )

� CoV(X,Y )

V (X)

�

≤ E (Y − 0X − E(Y )) 2�

= V (Y )

0 ≤ ρ 2 X,Y ≤ 1 bzw. − 1 ≤ ρX,Y ≤ 1.

Ist ρX,Y > 0, so nennen wir X und Y positiv korreliert.

� 2

· V (X)

Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten auch größere Y -Werte

voraussagen.

7.37 Definition:

Ist ρX,Y < 0, so nennen wir X und Y negativ korreliert.

Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten kleinere Y -Werte

voraussagen.

8 Erzeugende Funktion und Verzweigungsprozesse 87

8 Erzeugende Funktion und Verzweigungsprozesse

In diesem Abschnitt werden wir sehen, dass man Wahrscheinlichkeitsverteilungen Funktionen 3 zuordnen

kann, sodass kompliziertes Rechnen mit Wahrscheinlichkeitsverteilungen (z.B. Faltungen) zum einfachen

Rechnen mit den zugehörigen Funktionen wird (z.B. Produkt der Funktionen).

In der Wahrscheinlichkeits- und Maßtheorie wird dies bei Momenterzeugenden Funktionen und bei

Fourier-Transformationen genutzt.

Wir betrachten hier nun als einfacheres Beispiel für analytische Methoden:

8.1 Definition (Erzeugende Funktion):

Sei X eine diskrete Zufallsvariable auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit Werten in N0.

Sei pk = P(X = k) für k ∈ N0. Die erzeugende Funktion (der Verteilung) von X ist die Funktion

Bemerkung 8.2:

Wegen gX(1) = ∞�

k=0

Insbesondere gilt gX(1) = 1.

gX(t) :=

∞�

k=0

pk · t k .

pk = 1 und pk ≥ 0 folgt, dass gX(t) für alle t ∈ [−1,1] konvergiert (sogar absolut).

Folglich können wir den Differenzierbarkeitssatz für Potenzreihen anwenden, das liefert das folgende

8.3 Lemma:

Für t ∈ (−1,1) ist die j-te Ableitung gegeben durch

8.4 Satz:

g (j)

X (t) =

∞�

k · (k − 1) · ... · (k − j + 1) · pk · t (k−j) .

k=j

Die Verteilung von X ist durch gX festgelegt.

Beweis:

Es gilt P(X = 0) = p0 = gx(0) und mit obigem Lemma g (j)

x (0) = j! · pj, das heißt

Es folgt die Behauptung.

Beispiel 8.5:

Sei X ∼ Poi(λ). Dann gilt

k=0

pk

P(X = j) = 1

· g(j)

X j! (0).

∞�

gX(t) = exp(−λ) · λk

·t

� ��

k!

�

k ∞� (λt)

= exp(−λ)

k

= exp(−λ) · exp(λ · t)

k!

Diese Funktion sieht für λ = 2 wie folgt aus:

3 Das meint entweder R

2

1

k=0

−1 0 1 t

Abbildung 10: Die erzeugende Funktion gX für X ∼ Poi (2).

��

R oder C

��

88 8 Erzeugende Funktion und Verzweigungsprozesse

Beispiel 8.6:

Sei X ∼ B(n,p). Dann gilt

gX(t) =

Diese Funktion sieht für n = 2 und p = 1

2

8.7 Satz (Eigenschaften):

Sei g = gX eine erzeugende Funktion.

n�

k=0

� �

n

p

k

k · (1 − p) n−k · t k

= (p · t + (1 − p)) n

wie folgt aus:

2

1

−1 0 1 t

Abbildung 11: Die erzeugende Funktion gX für X ∼ B � 2, 1

�

2 .

• Für 0 ≤ t ≤ 1 ist g stetig, monoton wachsend und konvex.

• Es gilt

Beweis:

und allgemeiner

lim

tր1 g(1) (t) = E(X)

lim

tր1 g(j) (t) = E (X · (X − 1) · (X − 2) · ... · (X − j + 1)) .

Man nennt dies j-tes faktorielles Moment von X.

• Als absolut konvergente Potenzreihe ist g in [−1,1] stetig. Da mit dem Lemma

g ′ (t) =

∞�

k · pkt k−1

gilt und k · pk ≥ 0 ist, ist g ′ ≥ 0 in [0,1] und daher g monoton wachsend in [0,1].

k=1

g ist konvex, da es eine positive (pk ≥ 0!) Linearkombination der konvexen Funktion t ↦→ t k mit

k ≥ 0 ist.

• Der Abel’sche Grenzwertsatz besagt: Wenn ak ≥ 0 und ak ∈ R so gilt

∞�

lim akt k ∞�

=

tր1

k=0

wobei beide Seiten ∞ sein können. Mit der Transformationsformel für den Erwartungswert (Satz

5.12) gilt für die Funktion h(k) := k · (k − 1) · ... · (k − j + 1)

lim

tր1 g(j) (t) =

k=0

ak

∞�

k · (k − 1) · ... · (k − j + 1) · pk

k=j

Transformationsformel

= E(h(X))

= E(X(X − 1)(X − 2) · ... · (X − j + 1)).

8 Erzeugende Funktion und Verzweigungsprozesse 89

Beispiel 8.8:

Sei X ∼ Poi(λ). Wir wollen nun E(X) und V (X) analytisch bestimmen (obwohl wir das Ergebnis ja

schon kennen).

Die erzeugende Funktion ist nach Beispiel 8.5

Man berechnet die Ableitungen

Mit dem Satz ist

und

Wir erhalten durch Umstellen

8.9 Satz:

gX(t) = exp(−λ) · exp(λt).

g (1)

X (t) = exp(−λ) · λ · exp(λt)

g (2)

X (t) = exp(−λ) · λ2 · exp(λt).

E(X) = lim g

tր1 (1)

X = exp(−λ) · exp(λ) · λ = λ

E(X(X − 1)) = E � X 2� − E(X) = lim

tր1 g (2)

X (t) = λ2 .

V (X) = E � X 2� − (E(X)) 2 = � λ 2 + λ � − λ 2 = λ.

Seien X,Y unabhängige Zufallsvariablen mit Werten in N0. Dann gilt

Beweis:

gX+Y (t) = gX(t) · gY (t), t ∈ [−1,1] .

Sei t ∈ [−1,1] fest. Wir sehen mit der Transformationsformel (Satz 5.12) für die Funktion h(x) := tx ,

x ≥ 0:

E � t X� ∞�

= E (h(X)) = t k · P(X = k) = gX (t) .

k=0

Nach dem Blockungslemma sind auch die Zufallsvariablen t X und t Y unabhängig und mit der Produktformel

für den Erwartungswert unabhängiger Zufallsvariablen (Satz 5.19) folgt

Das zeigt schon die Behauptung.

Beispiel 8.10:

gX+Y (t) = E � t X+Y � = E � t X · t Y � = E(t X ) · E(t Y ) = gX(t) · gY (t).

Wir wollen nun mit dieser Formel zeigen, dass

gilt.

Beweis:

Poi(λ)⋆Poi(µ) = Poi(λ + µ)

Seien X ∼ Poi(λ) und Y ∼ Poi(µ) unabhängig. Dann gilt

gX+Y (t)

Satz 8.9

= gX(t) · gY (t)

= exp(λ)exp(λt)exp(−µ)exp(µt)

= exp(−(λ + µ))exp((λ + µ)t)

und da nach Satz 8.4 die Verteilung von X +Y bereits durch gX+Y festgelegt ist folgt die Behauptung.

Wir wollen an dieser Stelle noch einen zweiten, elementaren Beweis ohne Benutzung des Erwartungswertes

bzw. des Blockungslemmas für die oben schon gezeigte Formel

gX+Y (t) = gX(t) · gY (t), t ∈ [−1,1] (8.1)

für unabhängige Zufallsvariablen X,Y mit Werten N0 geben:

90 8 Erzeugende Funktion und Verzweigungsprozesse

Beweis:

Per Definition ist

gX+Y (t) =

was die Behauptung schon zeigt.

Folgerung 8.11:

(7.2)

=

Cauchy-Reihenprodukt

=

∞�

P (X + Y = k) t k

k=0

⎛

⎞

∞� k�

⎝ P (X = j) · P (Y = k − j) ⎠ t k

k=0

j=0

��

=t j ·t k−j

⎛

∞�

⎝ P (X = j) t j

⎞ �

∞�

⎠ · P (Y = k) t k

�

j=0

= gX(t) · gY (t),

Für endlich viele unabhängige, N0-wertige Zufallsvariablen X1,...,Xn gilt

als Funktion.

Beweis:

Einfach induktiv (8.1) anwenden.

gX1+...+Xn

8.12 Satz (Erzeugende Funktion für zufällige Summe):

= gX1 · ... · gXn

Seien N,X1,X2,... unabhängige, N0-wertige diskrete Zufallsvariablen auf (Ω,P), s.d. die Zufallsvariablen

X1,X2,... alle die gleiche Verteilung haben. Setze

Dann ist

SN (ω) :=

Beweis:

Da nach dem Blockungslemma auch N und n�

fest, dass

N(ω) �

j=1

Xi (ω) , ω ∈ Ω.

k=0

gSN (t) = (gN ◦ gX1 ) (t) = gN (gX1 (t)) ∀ t ∈ [−1,1] .

i=1

P (Sn = k) =

=

Xi für jedes n ∈ N0 unabhängig sind, stellen wir zunächst

∞�

P (N = n,Sn = k)

n=0

∞�

P (N = n) · (Sn = k) (8.2)

Damit folgt direkt aus der Definition der erzeugenden Funktion für t ∈ [−1,1], dass

(t) =

∞�

P (SN = k) · t k

gSN

(8.2)

=

absolute Konvergenz

=

X1,X2,... gleich verteilt

=

k=0

∞�

n=0

k=0 n=0

∞�

P (N = n) · P (Sn = k) · t k

∞�

P (N = n)

n=0

∞�

n=0

∞�

P (Sn = k) · t k

k=0

� ��

Folgerung 8.11

=gSn (t) = gX (t)·...·gXn 1 (t)

P (N = n) gX1 (t) · ... · gXn (t)

∞�

P (N = n) (gX1 (t))n

n=0

= gN (gX1 (t)).

8 Erzeugende Funktion und Verzweigungsprozesse 91

Das zeigt die Behauptung.

Als Korollar erhalten wir hier einen Spezialfall (N0-wertige Zufallsvariablen) der Wald’schen Identität:

Korollar 8.13:

Unter den Voraussetzungen von Satz 8.12 gilt

Beweis:

E (SN) = E (N) · E (X1) .

Für jede Zufallsvariable X ist nach Satz 8.7 E (X) = lim g

tր1 ′ X (t). Daher folgt:

E (SN) = lim

tր1 g ′ SN (t)

Satz 8.12

= lim

tր1 (gN ◦ gX1 )′ (t)

= lim

tր1 g (X1) (t) · g ′ N (gX1 (t))

= lim

tր1 g (X1) (t) · lim

tր1 g ′ N (gX1 (t))

Da nach Bemerkung 8.2 gX1 (1) = 1 gilt und gX1 nach Satz 8.7 monoton wachsend ist, gilt

Da lim g

tր1 ′ N (t) = E(N) existiert, folgt

was die Behauptung zeigt.

gX1

(t) ր 1 für t ր 1.

E (SN) = lim

tր1 g (X1) (t) · lim

tր1 g ′ N (gX1 (t))

= lim

tր1 g (X1) (t) · lim

tր1 g ′ N (t)

= E(X1) · E(N),

92 8 Erzeugende Funktion und Verzweigungsprozesse

8.1 Verzweigungsprozesse

Wir nehmen an, dass es in der 0-ten Generation Z0 = 1 Teilchen gibt. Dieses erzeugt eine zufällige Anzahl

k ∈ N0 von Nachkommen gemäß einer Wahrscheinlichkeitsfunktion, die durch p0,p1,p2,... gegeben ist.

Dabei bezeichnet pi die Wahrscheinlichkeit, dass i Nachkommen erzeugt werden etc..

Diese Nachkommen bilden die erste Generation.

Die Teilchen der ersten Generation erzeugen dann unabhängig voneinander wieder Nachkommen nach

dem gleichen Zufallsgesetz p0,p1,p2,.... Diese Nachkommen bilden dann die zweite Generation usw..

8.1.1 Modellbildung

Diesen Prozess wollen wir nun modellieren:

Sei (pk) k∈N0 die vorgegebene Wahrscheinlichkeitsfunktion. Seien außerdem Xn,j für n,j ∈ N unabhängige

Zufallsvariablen mit Werten in N0 und P (Xn,j = k) = pk für alle n,j ∈ N und k ∈ N0. Sei zuletzt Z0 = 1.

Die Anzahl der Teilchen in der ersten Generation sei durch Z1 := X1,1 gegeben. Wir definieren nun

induktiv die Anzahl der Teilchen in der n-ten Generation:

Ist Zn−1 (also die Anzahl Teilchen in der n-ten Generation) schon definiert, so setze

Zn :=

Zn−1 �

j=1

Die Xn,j entspricht also der Anzahl an Nachkommen, die das j-te Element aus der n − 1-ten Generation

zur n-ten Generation beisteuert.

Xn,j.

Die Folge von Zufallsvariablen (Zn) n∈N heißt dann Galton-Watson-Prozess.

8.1.2 Motivation

Verzweigungsprozesse werden aus den verschiedensten Motivationen heraus betrachtet: So interessierten

sich um 1870 einige Forscher für die Wahrscheinlichkeit des Aussterbens von Familiennamen, welche

mittels eines Verzweigungprozesses wie oben berechnet werden kann.

Heutzutage werden Verzweigungsprozesse vor allem in der Kernphysik und beim Studium von Netzwerken

gebraucht.

8.1.3 Aussterbewahrscheinlichkeit

Sei qn := P (Zn = 0) die Wahrscheinlichkeit, dass die n-te Generation leer ist (d.h. zur Generation n

oder früher ” ausgestorben“), n ∈ N. Dann ist q1 die Wahrscheinlichkeit, dass der Prozess in der ersten

Generation ausstirbt usw..

Offenbar ist das Ereignis, dass der ganze Prozess irgendwann ausstirbt, gegeben als

J :=

∞�

{Zn = 0} .

n=1

Auch klar ist, dass {Zn = 0} ⊂ {Zn+1 = 0} für alle n ∈ N gilt, da der Prozess natürlich ausgestorben

bleibt, wenn er einmal ausgestorben ist. Mit (R9) aus §1 folgt

q = P (J ) = lim

n→∞ P (Zn = 0) = lim

n→∞ qn.

Wir nennen q auch die Aussterbewahrscheinlichkeit des Prozesses.

Zur Bestimmung von q können wir also die Zahlen qn berechnen. Dazu wollen wir die erzeugenden

Funktionen gZn (0) = P (Zn = 0) = qn nutzen.

Da nach Konstruktion alle Zufallsvariablen Xn,j die gleiche Verteilung, ergo auch die gleiche erzeugende

Funktion

∞�

g (t) := gXn,j (t) = pkt k

mit den am Anfang vorgegebenen Zahlen pk haben, gilt

gZ1

k=0

Z1=X1,1

= gX1,1 = g.

8 Erzeugende Funktion und Verzweigungsprozesse 93

Genauso folgt

und induktiv

Daher ist

8.14 Lemma:

Die Zahl

Z1 �

Z2 =

j=1

Z2 �

Z3 =

j=1

X2,j

X3,j

(8.12)

⇒ gZ2 = gZ1 ◦ gX1,1 = g ◦ g

(8.12)

⇒ gZ3 = gZ2 ◦ gX2,1 = g ◦ g ◦ g

gZn

= g ◦ ... ◦ g .

� ��

n−mal

q = lim

n→∞ qn = lim gZn (0) = lim

n→∞ n→∞

q = lim

n→∞

g ◦ ... ◦ g(0)

� ��

n−mal

ist die kleinste Lösung der Gleichung g(t) = t im Intervall [0,1].

Beweis:

g ◦ ... ◦ g(0).

� ��

n−mal

Da g monoton steigend ist und g(1) = 1 gilt, ist g eine Selbstabbildung auf [0,1]. Daher ist g(0) ≥ 0 und

entsprechend g(g(0)) ≥ g(0) mit der Monotonie. Induktiv folgt, dass die Folge qn = g ◦ ... ◦ g(0) monoton

wachsend und durch 1 beschränkt ist. Daher existiert die Zahl q.

Jetzt zeigen wir zunächst, dass q eine Lösung von g(t) = t ist:

�

g(q) = g

lim

n→∞

g ◦ ... ◦ g(0)

� ��

n−mal

� g stetig

= lim g ◦ ... ◦ g (0) = q.

n→∞ � ��

(n+1)−mal

Bleibt zu zeigen, dass q die kleinste Zahl aus [0,1] mit dieser Eigenschaft ist.

Sei x ∈ [0,1] mit g(x) = x. Insbesondere gilt dann auch für alle n ∈ N

Aus der Monotonie von g folgt

g ◦ ... ◦ g(x)

= x.

� ��

n−mal

0 ≤ x ⇒ g(0) ≤ g(x) = x ⇒ g(g(0)) ≤ g(g(x)) = x ⇒ g ◦ ... ◦ g(0)

≤ x ∀ n ∈ N.

� ��

n−mal

Durch Bilden des Grenzwertes n

8.15 Definition:

Wir nennen g : [0,1]

mischen Systems.

��

∞ erhält man die Behauptung.

��

[0,1] ein dynamisches System und die Zahl q heißt Grenzwert des dyna

94 8 Erzeugende Funktion und Verzweigungsprozesse

Beispiel 8.16:

Sei pk := exp(−λ) λk

k!

1 mit λ = 2 , so kann man am Graphen der erzeugenden Funktion

g(t) = exp (−λ) exp (λt)

leicht sehen, dass t = 1 die kleinste Lösung der Gleichung g(t) = t ist:

g(t)

Abbildung 12: Die Funktion g(t) = exp � −1 � �

1

2 exp 2t� .

Daher ist hier q = 1, was bedeutet, dass der Prozess mit Sicherheit ausstirbt!

Verwendet man dagegen λ = 2, so kann man am Graphen von g(t) = exp (−λ)exp (λt) leicht sehen, das

der kleinste Wert t mit g(t) = t kleiner als 1 (nämlich t ≈ 0.2032) ist:

g(t)

�

Abbildung 13: Die Funktion g(t) = exp(−2) exp (2t).

Wir wollen nun noch einige Aussagen über q allein mittels der Zahlen p0 = P (Xn,j = 0) und E (Xn,j)

ohne Beweis angeben. Den Beweis lassen wir allein deshalb weg, weil er elementare Analysis ist und sonst

nichts mit Stochastik zu tun hat.

8.17 Satz (ohne Beweis):

(1) Ist p0 = 0, so gilt q = 0.

(2) Ist p0 > 0 und E (Xn,j) > 1, so ist q ∈ ]0,1[.

(3) Ist p0 > 0 und E (Xn,j) = 1, so gilt trotzdem q = 1.

Auf den Übungsblättern wird für die Zahlen pk := p · (1 − p) k explizit gezeigt, dass

q < 1 ⇔ E (Xn,j) > 1.

t

�

�

9 Grenzwertsatz von de Moivre-Laplace 95

9 Grenzwertsatz von de Moivre-Laplace

9.1 Normalapproximation der Binomialverteilung

Diese Approximation liefert ein Ergebnis für Summen unabhängiger Bernoulli-Variablen. Später wird sie

als Spezialfall eines allgemeinen ” zentralen Grenzwertsatzes“ bewiesen.

Seien X1,X2,...Xn unabhängig und nach B(1,p) verteilt. Sei Sn = X1 + X2 + ... + Xn. Man stellt sich

0

Sei p = 1

2 . Betrachte zum Beispiel Stabdiagramme für

• n = 1 und S1 = X1,

• n = 2 und S2 = X1 + X2 ∼ B � 2, 1

�

2 ,

• n = 50 und Sn = 50�

i=1

Xi ∼ B � 50, 1

�

2 .

Lässt man nun n gegen unendlich laufen, so ist Sn ∼ B(n,p), d.h. der Erwartungswert E(Sn) = n · p

sowie die Varianz V (Sn) = n·p·(1−p) gehen gegen unendlich - die Verteilung streut immer mehr. Genau

das sehen wir auch bei Betrachtung der Stabdiagramme.

Beide Effekte kann man ” stabilisieren“ indem man zu standardisierten Zufallsvariablen übergeht:

Setze

Dann gilt für alle n ∈ N:

E (S ∗ n) = E

=

S ∗ n = Sn − E(Sn)

� .

V (Sn)

= 0,

V (S ∗ n) = V

=

= V (Sn)

= 1.

�

Sn − E(Sn)

�

V (Sn)

1

� V (Sn) · E (Sn − E(Sn))

�

Sn − E(Sn)

�

V (Sn)

1

V (Sn) · V (Sn − E(Sn))

V (Sn)

Die Werte, die die Zufallsvariable S ∗ n annimmt, sind

Beispiel 9.1:

x0,x1,...xn ∈ R wobei xk =

k − np

√ npq , 0 ≤ k ≤ n,q = 1 − p.

• Für n = 100, p = 1

2 ist zum Beispiel xk = k−50 k

5 = 5 − 10, 0 ≤ k ≤ 100.

Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 5 Werte an.

• Für n = 10.000, p = 1

2 ist zum Beispiel xk = k−5000 k

50 = 50 − 100, 0 ≤ k ≤ 100.

Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 50 Werte an.

Wir möchten nun die Wahrscheinlichkeit bestimmen, dass S ∗ n in einem Intervall [a,b] liegt. Dazu formulieren

wir den folgenden Satz.

96 9 Grenzwertsatz von de Moivre-Laplace

9.2 Satz (Grenzwertsatz von de Moivre-Laplace):

Sei

Sei 0

Dann gilt für jedes Paar a

Mit der Stammfunktion

kann man schreiben:

lim

n→∞ P (a ≤ S∗ n ≤ b) =

ϕ(x) := 1

�

√ exp −

2π x2

�

, x ∈ R.

2

�b

a

i.i.d

∼ B(1,p).

ϕ(x)dx bzw. einseitig lim

n→∞ P (S∗ n ≤ b) =

Φ(t) :=

�t

−∞

ϕ(τ)dτ, t ∈ R

lim

n→∞ P (a ≤ S∗ n ≤ b) = Φ(b) − Φ(a).

Der Beweis folgt später aus dem zentralen Grenzwertsatz (Satz 10.100).

Bemerkung 9.3:

Die Aussagen gelten auch für ”

9 Grenzwertsatz von de Moivre-Laplace 97

Oder direkt als Funktion:

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

−4.0−3.6

−3.2−2.8

−2.4−2.0

−1.6−1.2

−0.8−0.4

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0

Abbildung 16: Die Verteilungsfunktion Φ der Standardnormalverteilung.

Für Φ(t) gibt es keinen geschlossenen Ausdruck, daher ist es für Werte t ≥ 0 tabelliert:

Beispiel 9.8:

• Φ(1) ≈ 0.8413,

• Φ(1.645) ≈ 0.95,

• Φ(1.96) ≈ 0.975,

d.h. zum Beispiel

Für weitere Werte siehe Anhang A.

Bemerkung 9.9:

lim

n→∞ P (S∗ n ≤ 1)

n

��

∞ ��

Φ(1) = 0.8413.

Um Φ an negativen Stellen auszuwerten, betrachtet man für t > 0:

Beispiel 9.10:

Seien X1,...,Xn

Dann bestimmt man

i.i.d

∼ B(1,p),

Φ(−t) =

Symmetrie von ϕ

=

Sn :=

=

�−t

−∞

�

t

∞

�∞

−∞

ϕ(τ)dτ

= 1 − Φ(t)

n�

i=1

ϕ(τ)dτ −

�t

−∞

Xi und S ∗ n := Sn − np

√ npq .

lim

n→∞ P(−1 ≤ S∗ n ≤ 1) = Φ(1) − Φ(−1)

ϕ(τ)dτ

= Φ(1) − (1 − Φ(1))

= 2Φ(1) − 1

Tabelle

= 2 · 0.8413 − 1 ≈ 0.68

98 9 Grenzwertsatz von de Moivre-Laplace

9.2 Anwendung I: Normalapproximation der Binomialverteilung

Wir erinnern uns: Die Poissonapproximation mit λ = n ·p für B(n,p) ist eine gute Approximation, wenn

p sehr klein ist.

Die Normalapproximation die wir nun vorstellen wollen ist gut, wenn p nicht zu nahe bei 0 oder 1 ist.

Als Faustregel für ” gut“ gilt hier: npq ≥ 9.

Für Sn ∼ B(n,p) und ganzzahlige Werte 0 ≤ i ≤ j ≤ n gilt

Bemerkung 9.11:

P(i ≤ Sn ≤ j) =

�

i − np

P √

npq

� ��

=:a

de Moivre

≈ Φ

� j − np

√ npq

≤ Sn − np

√

npq

� ��

=S∗ ≤

n

�

− Φ

sup | P (a ≤ S

9 Grenzwertsatz von de Moivre-Laplace 99

Bei der Rechnung mit Korrekturtermen ergibt sich:

� 1 � � 1

10 + 2 −10 − 2

P (90 ≤ Sn ≤ 110) ≈ Φ − Φ

9.13 9.13

� �

10.5

= 2 · Φ − 1

9.13

≈ 2 · Φ(1.15) − 1

≈ 2 · 0.8749 − 1

= 0.7498.

Der wahre Wert liegt bei P (90 ≤ Sn ≤ 110) = 0.7501 - für n = 600 kann man diesen rechnergestützt

noch leicht exakt berechnen.

Mit Tschebyschow erhält man:

- keine große Erkenntnis!

P (90 ≤ Sn ≤ 110) = 1 − P (|Sn − 100| ≥ 11)

� ��

≤

V (Sn) 83.3

112 = 121 ≈0.69

≥ 0.31

9.3 Anwendung II: Bestimmung eines Stichprobenumfangs

Konkret wollen wir dies für Wahlvorhersagen durchführen. Die Aufgabe ist, den Anteil an einer Partei A

aus einer Umfrage von n zufällig ausgewählten Befragten heraus zu schätzen.

Wähler von A

Seien X1,...Xn ∼ B(1,p) unabhängig und p = alle Wahlberechtigten , womit p unbekannt ist!

Aufgabe: Schätze p durch ˆp = 1

n Sn. Wie groß ist n zu wählen, damit für jedes p ∈ [0,1] mit Wahrscheinlichkeit

≥ 0.95 der wahre Wert p im (zufälligen) Intervall [ˆp − ε, ˆp + ε] liegt?

Sei ε = 0.01, das heißt 1% Abweichung ist erlaubt. Dann ist

Es folgt

Pp (p ∈ [ˆp − ε, ˆp + ε]) = Pp(−0.01 ≤ ˆp − p ≤ 0.01)

Aus der Tabelle entnimmt man

und somit folgt

Φ

= Pp

de Moivre

≈ Φ

�

−0.01 · n nˆp − np

√ ≤ √ ≤

npq npq

� �

0.01 · n

√ − Φ

npq

� �

0.01 · n

= 2 · Φ √ − 1

npq

� ��

!

≥0.95

� �

0.01 · n !

√ ≥

npq

1.95

= 0.975.

2

Φ(t) ≥ 0.975 für t ≥ 1.96

0.01·n

√ npq ≥ 1.96

⇔ √ n ≥ 196 √ pq

⇔ n ≥ (196) 2 · pq

��

≤ 1

4

⇐ n ≥ 9604.

Ist die Vorinformation p ≤ 0.1 gegeben, dann genügt es

Menschen zu befragen.

� �

−0.01 · n

√

npq

n ≥ (196) 2 · max

p∈[0,0.1] p(1 − p) = (196)2 · 0.1 · 0.9 = 3458

�

0.01 · n

√

npq

100 10 Allgemeine Modelle und stetige Verteilungen

10 Allgemeine Modelle und stetige Verteilungen

Von diesem Abschnitt an wollen wir uns nicht mehr länger auf diskrete Wahrscheinlichkeitsräume beschränken.

Motiviert durch den Grenzwertsatz von de Moivre (Satz 9.2) kann man sich vorstellen, eine

” Zufallsgröße X“ zu betrachten, die jede reelle Zahl als Wert annehmen kann, s.d.

�b

P (a ≤ X ≤ b) = ϕ(t)dt = Φ(b) − Φ(a) (10.1)

für a

ϕ(t) = 1

�

√ exp −

2π t2

�

.

2

a

In diesem Fall würde man sagen, dass X Standard-Normalverteilt ist und X ∼ N(0,1) schreiben.

Außerdem definiert (10.1) eine Funktion, die jedem reellen Intervall [a,b] eine ” Wahrscheinlichkeit“ zuordnet.

Für Anwendungen, wie wir sie ab Abschnitt 10.3 behandeln wollen, genügt diese Vorstellung voll und

ganz. Wir wollen hier aber vorher etwas Hintergrund behandeln, der vorwiegend aus Maßtheorie besteht.

10.1 Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen

10.1 Definition:

Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, A,P), s.d. Ω eine beliebige Menge und A eine

σ-Algebra auf Ω ist, d.h. ein System von Teilmengen von Ω mit den folgenden Eigenschaften:

(σ1) Ω ∈ A

(σ2) A ∈ A ⇒ A c ∈ A

(σ3) A1,A2,... ∈ A ⇒ ∞�

Ai ∈ A

i=1

Außerdem ist P eine auf A definierte reelle Funktion mit

(A1) P (A) ≥ 0 ∀ A ∈ A

(A2) P (Ω) = 1

(A3) Sind A1,A2,... ∈ A paarweise disjunkt, so gilt

�

∞�

�

∞�

P = P (Ai) .

P heißt dann (Wahrscheinlichkeits-)Verteilung auf (Ω, A).

Bemerkung 10.2:

i=1

Das Axiom (σ3) sorgt dafür, dass Axiom (A3) Sinn macht.

Beispiel 10.3:

Ai

Ist Ω eine diskrete (d.h. abzählbare) Menge, so kann man A = P (Ω) (d.h. die Potenzmenge von Ω)

verwenden und erhält so genau die diskreten Wahrscheinlichkeitsräume, wie wir sie bisher betrachtet

haben.

Beispiel 10.4:

Für jede Menge Ω kann man A = {∅,Ω} betrachten. Dieser Fall ist aber nicht sehr interessant, man

spricht dann auch von der trivialen σ-Algebra.

Bemerkung 10.5:

Aus den Axiomen (σ1) bis (σ3) folgt, dass eine σ-Algebra A gegen abzählbare mengentheoretische Operationen

wie Schnitte, Komplementbildung, Differenz, Vereinigung etc. abgeschlossen ist. So gilt zum

Beispiel

∞�

��

∞�

�c�c �

∞�

�c (1.3)

A1,A2,... ∈ A ⇒ Ai =

= ,

und die rechte Menge ist wegen (σ2) und (σ3) wieder in A.

i=1

Ai

i=1

A c i

10 Allgemeine Modelle und stetige Verteilungen 101

Bemerkung 10.6:

Für eine Wahrscheinlichkeitsverteilung P wie in der Definition oben gelten ebenfalls alle Rechenregeln,

die wir am Anfang für den diskreten Fall hergeleitet haben (d.h. Siebformel, (R1) bis (R9) usw.), da diese

ja nur aus den Axiomen (A1) bis (A3) gefolgert wurden.

10.7 Definition:

Sei (Ω, A,P) ein Wahrscheinlichkeitsraum und � Ω ′ , A ′� eine beliebige Menge Ω ′ mit σ-Algebra A ′ auf Ω ′ .

Eine Zufallsvariable X auf (Ω, A,P) ist eine Abbildung X : Ω ��

′ Ω s.d.

gilt.

Bemerkung 10.8:

Allgemeine Abbildungen X : (Ω, A)

10.9 Definition:

X −1 (A) = {x ∈ Ω | X(x) ∈ A ′ } ∈ A ∀ A ′ ∈ A ′

(10.2)

��

� Ω ′ , A ′� mit der Eigenschaft (10.2) nennt man auch meßbar.

Sei (Ω, A,P) ein Wahrscheinlichkeitsraum und � Ω ′ , A ′� eine beliebige Menge Ω ′ mit σ-Algebra A ′ auf Ω ′ .

Eine Zufallsvariable X auf (Ω, A,P) definiert durch

P X (A ′ ) := P � X −1 (A ′ ) � , A ′ ∈ A ′

eine Wahrscheinlichkeitsverteilung P X auf � Ω ′ , A ′� , d.h. wir erhalten einen weiteren Wahrscheinlichkeitsraum

� Ω ′ , A ′ ,P X� . Wir nennen P X auch Verteilung von X.

Formal müssten wir hier jetzt die Axiome (A1) bis (A3) für P X nachrechen. Das gleicht aber wörtlich

dem diskreten Fall, der nach Definition 4.5 gezeigt wurde.

Bemerkung 10.10:

Wie im diskreten Fall auch schreibt man auch

P (X ∈ A ′ ) := P � X −1 (A ′ ) � , A ′ ∈ A ′ .

Man kann sich nun fragen, wozu das Mengensystem A eigentlich notwendig ist. Warum kann man nicht

immer einfach mit A = P (Ω) - also der Potenzmenge - wie im diskreten Fall arbeiten? Das folgende

Beispiel liefert eine Begründung:

Beispiel 10.11:

Es gibt keine Wahrscheinlichkeitsverteilung auf allen Teilmengen von Ω = [0,1[ mit folgender Eigenschaft:

Ist A ⊂ [0,1[ und x ∈ [0,1[ so, dass A + x := {a + x | a ∈ A} ⊂ [0,1[ ist,

so gilt stets P (A) = P (A + x).

Wir wollen also zeigen, dass es keine verschiebungsinvariante Wahrscheinlichkeitsverteilung auf P ([0,1[)

geben kann, wie es z.B. von einer Normalverteilung“ zu erwarten wäre.

”

Dazu betrachten wir eine spezielle Menge A0 ⊂ � 0, 1

�

2 (auch Vitali-Menge genannt), die wir wie folgt

konstruieren: Betrachte die Äquivalenzrelaztion

auf [0,1[. Diese zerlegt [0,1[ in Äquivalenzklassen

x ∼ y :⇔ |x − y| ∈ Q

[x] := {y | |x − y| ∈ Q} , x ∈ [0,1[ .

Gemäß dem Auswahlaxiom wähle aus jeder Klasse [x] einen Vertreter z [x] ∈ � 0, 1

�

2 und definiere A0 als

die Vereinigung all dieser Punkte. Man kann nun zeigen, dass eine Verteilung P auf P ([0,1[) sowohl

als auch

erfüllen müsste - ein Widerspruch!

P (A0) = 0

P (A0) > 0

Der einzige Ausweg ist also, P nur für bestimmte Teilmengen zu definieren, was uns zum obigen Begriff

der σ-Algebra führt.

Ohne Beweis wollen wir folgendes Resultat angeben:

Bemerkung 10.12 (Satz von Banach-Kuratowski):

Auf (R, P (R)) gibt es nur diskrete Wahrscheinlichkeitsverteilungen.

102 10 Allgemeine Modelle und stetige Verteilungen

10.2 W-Verteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen

Um Wahrscheinlichkeitsverteilungen ” auf R“ zu betrachten, benötigen wir zunächst eine σ-Algebra. Wir

betrachten die folgende

10.13 Definition:

Die Borel’sche σ-Algebra B auf R ist die kleinste σ-Algebra, die alle offenen Mengen enthält.

Man beachte folgenden Satz aus der Maßtheorie:

10.14 Satz (ohne Beweis):

Die folgenden Forderungen an eine σ-Algebra auf R sind äquivalent:

(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält.

(2) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form [a,b] mit a

(3) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form [a,b[ mit a

(4) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form (−∞,b] mit b ∈ R enthält.

Bemerkung 10.15:

Die Borel’sche σ-Algebra B enthält im Wesentlichen alle Teilmengen von R, die einem in der Praxis

begegnen. Allerdings enthält sie nicht alle Teilmengen von R, die Vitali-Menge A0 von oben ist nicht in

B enthalten.

10.16 Definition:

Sei (Ω, A,P) ein Wahrscheinlichkeitsraum. Eine reelle Zufallsvariable X auf (Ω, A,P) ist eine meßbare

Abbildung

(Ω, A,P) X ��

(R, B) .

Beispiel 10.17:

Ein bekannter Satz aus der Maßtheorie sagt zum Beispiel, dass jede stetige Abbildung X : R

eine reelle Zufallsvariable

X : (R, B,P) ��

(R, B)

ist.

��

R auch

Wie oben schon gesehen, liefert X als reelle Zufallsvariable dann eine Wahrscheinlichkeitsverteilung auf R.

Das meint hier dann natürlich auf (R, B). Solche Verteilungen kann man mittels Funktionen beschreiben:

10.18 Definition:

Eine Funktion F : R

��

[0,1] heißt Verteilungsfunktion, wenn

(1) F monoton wachsend ist (nicht notwendiger Weise streng monoton wachsend),

(2) es gilt

(3) F ist rechtsstetig, d.h. für alle x ∈ R gilt

Beispiel 10.19:

Der folgende Graph definiert eine Verteilungsfunktion:

lim F(x) = 0 und lim F(x) = 1 und

x→−∞ x→∞

−1

F(x) = lim

yցx F(y).

1

0 1

Abbildung 17: Beispiel einer Verteilungsfunktion.

10.20 Satz:

10 Allgemeine Modelle und stetige Verteilungen 103

Sei P eine Verteilung auf R. Dann ist

eine Verteilungsfunktion.

Beweis:

Nutze aus §1 die Rechenregeln (R8) und (R9):

A1 ⊃ A2 ⊃ ... ⇒ P

A1 ⊂ A2 ⊂ ... ⇒ P

F(x) := P ((−∞,x])

� ∞�

i=1

� ∞�

i=1

Ai

�

= lim

i→∞ P (Ai) (10.3)

= lim

i→∞ P (Ai) (10.4)

Da P als Wahrscheinlichkeitsverteilung monoton ist (A ⊂ B ⇒ P (A) ≤ P (B)), ist auch F monoton

wachsend. Außerdem folgt für An := (−∞,n]

und genauso

�

−∞�

�

(10.3)

lim F (x) = lim F(n) = lim P (An) = P An = P (∅) = 0

x→−∞ n→−∞ n→−∞

n=−1

�

∞�

�

(10.4)

lim F(x) = P (−∞,n] = P (R) = 1.

x→∞

n=1

Bleibt die Rechtsstetigkeit von F zu zeigen. Sei dazu (xn) n∈N eine Folge aus R, die gegen x ∈ R konvergiert

und xn ≥ x ∀ n ∈ N erfüllt. Ohne Einschränkung können wir xn+1 ≤ xn für alle n ∈ N annehmen, denn

andernfalls wählen wir eine Teilfolge mit dieser Eigenschaft aus. Dann gilt

und daher folgt

Das zeigt die Behauptung.

Bemerkung 10.21:

∞�

(−∞,xn] = (−∞,x]

n=1

lim

n→∞ F (xn)

(10.3)

= lim P ((−∞,xn]) = P ((−∞,x]) = F(x).

n→∞

Insbesondere gilt also: Ist X eine reelle Zufallsvariable, so ist

die Verteilungsfunktion der Verteilung von X.

FX(x) := P (X ≤ x) = P X ((−∞,x])

Für diskrete Zufallsvariablen, die nur die Werte x1,x2,... annehmen, ist

FX(x) =

∞�

P (X = xi) = P (X ≤ x) .

i=1

x i ≤x

Im Folgenden sehen wir etwa den Graphen von FX für eine Zufallsvariable X ∼ B � 2, 1

�

, denn es gilt

P (X = 0) = 1

4

, P (X = 1) = 1

2

, P (X = 2) = 1

4 :

1

�

0 1 2 3

Abbildung 18: Der Graph der Verteilungsfunktion FX für X ∼ B � 2, 1

�

2 .

Wir zitieren nun folgenden Satz aus der Maßtheorie:

�

104 10 Allgemeine Modelle und stetige Verteilungen

10.22 Satz (Umkehrung):

Ist F eine Verteilungsfunktion, so gibt es genau eine Verteilung P auf R (d.h. auf (R, B)), s.d.

gilt. Damit gilt dann auch

für alle a

Bemerkung 10.23:

P ((−∞,x]) = F(x) ∀ x ∈ R

P ((−∞,b]) − P ((−∞,a]) = ((a,b]) = F (b) − F (a)

Die Sätze 10.20 und 10.22 zeigen, dass es eine Bijektion zwischen der Menge aller Verteilungsfunktionen

und der Menge aller Verteilungen auf R gibt. Die Abbildung F ↦→ P wird dabei durch Satz 10.22 geliefert.

Sie ist nach Satz 10.20 surjektiv, und wie wir nun sehen werden auch injektiv:

Sind F1,F2 zwei Verteilungsfunktionen mit F1 �= F2, so gibt es ein x ∈ R mit F1(x) �= F2(x). Entsprechend

erfüllen dann die zugehörigen Verteilungen P1 und P2

womit die Verteilungen nicht gleich sein können.

10.3 Stetige Verteilungen

10.24 Definition:

10.25 Satz:

Eine Dichte ist eine integrierbare Funktion f : R

dass

P1 ((−∞,x]) = F1(x) �= F2(x) = P2 ((−∞,x]),

�∞

−∞

Beachte, das ” integrierbar“ hier ” Riemann-integrierbar“ heißt.

��R

mit f(t) ≥ 0 für alle t ∈ R und der Eigenschaft,

f(t)dt = 1. (10.5)

Wir wollen in dieser Vorlesung nur Dichten betrachten, die stetig bis auf

höchstens endlich viele Sprungstellen sind!!

Zu jeder Dichte f gibt es genau eine Verteilung P auf R mit

für a

Beweis:

Setze

P (]a,b]) =

F(x) :=

�x

−∞

�b

a

f(t)dt

f(t)dt.

Da f nur endlich viele Sprungstellen hat, wissen wir bereits aus der Analysis I, dass F stetig ist. Außerdem

folgt wegen der Positivität von f, dass F monoton wachsend ist. Wegen (10.5) ist lim F(x) = 1. Das

x→∞

lim F(x) = 0 gilt ist klar.

x→−∞

Nach Satz 10.22 gibt es genau eine Verteilung P auf R (das meint natürlich wieder auf (R, B)) mit der

Eigenschaft wie in der Behauptung.

10.26 Definition:

Wahrscheinlichkeitsverteilungen auf R, für die es eine Dichte f mit

P (]a,b]) =

für alle a

�b

a

f(t)dt

10 Allgemeine Modelle und stetige Verteilungen 105

10.27 Definition:

Eine reelle Zufallsvariable X heißt stetig verteilt, wenn die Verteilung P X von X eine Dichte hat, d.h.

wenn

�b

P (a ≤ X ≤ b) = f(t)dt

für eine geeignete Dichte f gilt.

Bemerkung 10.28:

Ist P eine stetige Verteilung, so gilt

für alle x ∈ R.

Beweis:

Es gilt

a

P ({x}) = 0

P ({x}) (10.3)

= lim

n→∞ P

��

x − 1

n ,x

��

= lim

n→∞

�x

x− 1

n

f(t)dt = 0

nach unserer Annahme, dass f stetig bis auf höchstens endlich viele Sprungstellen ist.

Folgerung 10.29:

Insbesondere gilt für stetige Verteilungen also

usw..

P ([a,b]) = P (]a,b])

Ab jetzt betrachten wir nur noch Zufallsvariablen mit stetigen Verteilungen, d.h. solche, für die es eine

Dichte f mit

�b

P (a ≤ X ≤ b) = f(t)dt

gibt.

10.4 Zufallsvariablen mit stetiger Verteilung

In diesem Abschnitt wollen wir einige stetige Verteilungen vorstellen und einen Überblick der Eigenschaften

geben:

10.4.1 Die Gleichverteilung

Die Dichte der Gleichverteilung auf dem Einheitsintervall [0,1] ist gegeben durch

�

1

f (t) = 1 [0,1](t) =

0

falls t ∈ [0,1]

falls t /∈ [0,1]

, t ∈ R.

Ist eine Zufallsvariable X gleichverteilt auf [0,1], so schreiben wir auch

a

X ∼ U (0,1) .

Die zugehörige Verteilungsfunktion ist

⎧

⎪⎨ 0 falls x ≤ 0

F (x) = P (X ≤ x) = x falls 0 ≤ x ≤ 1

⎪⎩

1 falls x ≥ 1

Den Graph dieser Funktion haben wir schon als Abbildung 17 gesehen.

Allgemeiner:

Die Gleichverteilung auf einem reellen Intervall [r,s] ist gegeben durch die Dichte

f(t) = 1

s − r 1 [r,s](t).

Ist X eine gleichverteilte Zufallsvariable auf [r,s], so schreiben wir auch

X ∼ U (r,s) .

106 10 Allgemeine Modelle und stetige Verteilungen

10.4.2 Die Normalverteilung

Die Dichte der Normalverteilung N � µ,σ 2� mit µ ∈ R, σ 2 ∈ (0, ∞) ist gegeben als

ϕ µ,σ 2(t) = f(t) :=

1

√

2πσ2 exp

�

(x − µ)2

−

2σ2 �

.

Wir kennen schon den Spezialfall µ = 0,σ 2 = 1 der Standard-Normalverteilung. Wir werden später noch

sehen, dass für eine Zufallsvariable X ∼ N � µ,σ 2� die Zahl µ der Erwartungswert und σ 2 die Varianz ist.

Solche Zufallsvariablen X ∼ N � µ,σ 2� verwendet man etwa dann, wenn X eine ungenaue Messung mit

Erwartungswert (bekannt z.B. aus der Theorie) µ ist. Insbesondere simuliert man damit eine Verteilung

natürlicher Messgrößen.

Die Verteilungsfunktion

Φ(x) =

�x

−∞

ϕ0,1(t)dt

der Standard-Normalverteilung ist tabelliert. Mit Hilfe dieser Tabelle kann man aber auch

�x

−∞

ϕ µ,σ 2 (t) dt,

also die Verteilungsfunktion einer beliebigen Normalverteilung, berechnen, wie wir in Bemerkung 10.36

sehen werden.

Außerdem zeigen wir in Beispiel 10.35, dass

gilt.

10.4.3 Die Exponentialverteilung

X ∼ N (0,1) ,µ ∈ R,σ ∈ (0, ∞) ⇒ Y = σX + µ ∼ N (µ,σ)

Setze für einen reellen Parameter λ > 0 die Dichte der Exponentialverteilung als

f(t) :=

fest. Diese Funktion sieht für λ = 2 wie folgt aus:

� λ exp (−λt) falls t ≥ 0

−1

0 falls t < 0

1

0 1

Abbildung 19: Die Funktion f(t) für λ = 2.

Wir nennen f die Dichte der Exponentialverteilung Exp(λ) auf R. Die zugehörige Verteilungsfunktion

ist

�

1 − exp(−λx)

F(x) =

0

falls x > 0

falls x ≤ 0 .

Insbesondere gilt für eine Zufallsvariable X ∼ Exp(λ) und 0 ≤ a < b:

P (a ≤ X ≤ b) = F (b) − F (a) = (1 − exp (−λb)) − (1 − exp (−λa)) = exp (−λb) − exp (−λa) .

Man verwendet Zufallsvariablen X ∼ Exp(λ) z.B.

• zur Simulation der Lebensdauer von Geräten / technischen Bauteilen, falls sie ” gebraucht wie neu“

sind (wir sehen gleich, welche Bedeutung das hat).

• zur Simulation von Längen von Zeitintervallen bei Serveranfragen, Anrufen in einem Call-Center

oder radiaoktiven Zerfallsprozessen.

10 Allgemeine Modelle und stetige Verteilungen 107

• zur Simulation von Bedienzeiten an Schaltern.

Für X ∼ Exp (λ) ist ein Leichtes, mit Hilfe der Verteilungsfunktion die ” Überlebensdauer“ zu berechnen:

P (X > x) = 1 − P (X ≤ x) = 1 − F(x) = exp (−λx) .

Wir sehen sofort, dass die Überlebensdauer also exponentiell schnell fällt!

Jetzt wollen wir uns dem Ausspruch ” gebraucht wie neu“ bzw. der Gedächtnislosigkeit dieser Verteilung

widmen. Für x,t ≥ 0 gilt

P (X > t + x | X > t) =

= P (X > t + x)

= exp (−λ (t + x))

P (X > t + x und X > t)

P (X > t)

exp (−λt)

= exp(−λx)

= P (X > x).

Simuliert man also die Lebensdauer eines Geräts mit der Exponentialverteilung, so hat ein gebraucht

gekauftes Gerät die selbe Qualität wie ein Neues!

10.4.4 Die Pareto-Verteilung

Man betrachtet für einen Parameter α > 0 die Dichte

�

α

f(t) = (t+1) α+1 falls t ≥ 0

0 falls t < 0 .

Der Graph von f stellt sich wie folgt dar:

−1

3

2

1

0 1

Abbildung 20: Die Funktion f(t) für α = 4.

Zunächst ähnelt diese Funktion der Dichte der Exponentialverteilung, aber wir sehen im Gegensatz, dass

hier nur polynomielles Abfallverhalten vorliegt!

Diese Dichte f definiert uns die Pareto-Verteilung. Für eine paretoverteilte Zufallsvariable X mit

Parameter α > 0 schreiben wir auch X ∼ Pareto(α).

Man modelliert mit der Pareto-Verteilung etwa Dateigrößen in Byte in Datenbanken oder auf Servern.

Allgemeiner modelliert man mit Ihr Verteilungen, bei denen große Werte selten, aber nicht so selten wie

bei Exp (λ) sind.

Heutzutage wird die Pareto-Verteilung auch oft verwendet, wo früher die Exponentialverteilung verwendet

wurde.

108 10 Allgemeine Modelle und stetige Verteilungen

10.4.5 Die Cauchy-Verteilung

Betrachte die Dichte

Diese hat den Graphen

−2

f(t) :=

−1

1

π (1 + t 2 ) .

0 1

Abbildung 21: Die Funktion f(t) für λ = 2.

und definiert uns die Cauchy-Verteilung. Wir werden in Beispiel 10.41 noch sehen, dass diese Verteilung

keinen Erwartungswert besitzt.

10.4.6 Die Gamma-Verteilung

Zunächst benötigen wir die

10.30 Definition (Gamma-Funktion):

10.31 Satz:

Sei x ∈ (0, ∞). Dann definiert man die Gamma-Funktion Γ durch

�∞

Γ(x) = t x−1 exp(−t) dt.

0

Wir wissen bereits aus der Analysis I, dass dieses Integal konvergiert und eine beliebig oft differenzierbare

Funktion definiert. Außerdem erfüllt sie bekanntlich die Funktionalgleichung

Γ(x + 1) = xΓ(x) ∀ x ∈ (0, ∞) ,

was auch Γ(n) = (n − 1)! mit n ∈ N zeigt. Zuletzt sollte noch erwähnt werden, dass

Γ

� �

1

=

2

1

2

�

0

∞

exp � x 2� dx = √ π.

Nun definieren wir die Gamma-Verteilung Gamma (r,λ) für reelle Parameter r,λ > 0 durch die Dichte

� r

λ

Γ(r) f(t) =

tr−1 exp (−λt) falls t > 0

0 falls t ≤ 0 .

Zunächst betrachten wir einige Spezialfälle:

(1) (a) Sei r = 1. Dann erhalten wir offenbar genau die Exponentialverteilung mit Parameter λ, da

die Dichten übereinstimmen.

(b) Sei r ∈ N. Man kann zeigen, dass dann Gamma (r,λ) genau die Verteilung von X1 + ... + Xr

i.i.d.

für Zufallsvariablen X1,...,Xr ∼ Exp (λ) ist (vergleiche eines der Übungsblätter).

(2) (a) Gamma � �

1 1

2

2 , 2 ist genau die Verteilung von X für X ∼ N (0,1), wie wir in Beispiel 10.32

sehen werden.

(b) Gamma � �

n 1

2

2 , 2 für n ∈ N ist genau die Verteilung von X1+...+X 2 i.i.d.

n, falls X1,...,Xn ∼ N (0,1)

gilt.

Diese Verteilung ist in der Statistik wichtig, sie wird auch Chi-Quadrat-Verteilung mit n

Freiheitsgraden genannt und als χ 2 n bezeichnet.

10.5 Berechnung und Transformation von Dichten

Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte c1,...,ck stetig differenzierbar ist.

Sei C = {c1,...,ck}. Dann definiert

�

′ F (t) falls t ∈ C

f (t) :=

0 falls t /∈ C

eine Dichte für die durch F definierte Verteilung auf R.

10 Allgemeine Modelle und stetige Verteilungen 109

Beweis:

Mit Satz 10.25 genügt es offenbar zu zeigen, dass f eine Dichte ist (denn das f dann die Verteilungsfunktion

F erzeugt, ist mit etwas Analysis I und der Stetigkeit von F klar).

Da F eine Verteilungsfunktion ist, ist F monoton wachsend und daher F ′ ≥ 0, wo F ′ existiert. Daher ist

auch f ≥ 0.

Setze nun c0 := −∞ und ck+1 := +∞. Nach Umnummerierung nehmen wir ohne Einschränkung

c0 < c1 < ... < ck < ck+1

an. Dann gilt (mit F(−∞) = 0 und F(∞) = 1) für i = 0,...,k die Relation

�

ci+1

ci

�b

f(t)dt = lim

aցci,bրci+1

da F stetig ist. Das zeigt

�∞

−∞

f(t)dt =

k�

�

ci+1

i=0

ci

a

f(t)dt = lim (F(b) − F(a)) = F(ci+1) − F(ci), (10.6)

aցci,bրci+1

f(t)dt (10.6)

=

k�

(F(ci+1) − F(ci)) = F (∞) − F (−∞) = 1.

i=0

Also ist f eine Dichte und es folgt die Behauptung.

Beispiel 10.32 (Anwendung):

Sei X ∼ N (0,1) und Y := X2 . Dann ist Y ∼ χ2 1 = Gamma � �

1 1

2 , 2 .

Beweis:

Sei FY die Verteilungsfunktion der Verteilung von Y . Da Y ≥ 0 ist, muss auch FY (x) = P (Y ≤ x) = 0

für x < 0 gelten. Falls x ≥ 0, so haben wir

FY (x) = P (Y ≤ x)

= P � 0 ≤ X 2 ≤ x �

= P � − √ x ≤ X ≤ √ x �

= Φ �√ x � − Φ � − √ x �

= 2Φ �√ x � − 1,

wobei Φ die Verteilungsfunktion der Standard-Normalverteilung ist.

Wegen (Φ( √ x)) ′ = ϕ( √ x) 1

2 √ x ist FY an allen Punkten x �= 0 stetig differenzierbar und mit Satz 10.31

folgt, dass die Dichte von Y gegeben ist durch

�

′ F Y (x)

fY (x) =

0

falls x > 0

falls x ≤ 0 =

�

2(Φ( √ x)) ′

0

falls x > 0

falls x ≤ 0 =

Wegen Γ � �

1 √

2 = π ist der Faktor

und es folgt die Behauptung.

1

√ 2π =

� � 1

1 2

2

Γ � 1

2

Für die folgende Transformation brauchen wir erst folgende

10.33 Definition:

Seien I,J ⊂ R zwei Intervalle. Ein Diffeomorphismus u : I

und u−1 stetig differenzierbar sind.

Dann gilt der folgende

10.34 Satz (Transformationsformel für Dichten):

�

� 1

√2πx exp � − x

�

2 falls x �= 0

0 falls x = 0 .

��

J ist eine bijektive Abbildung, s.d. u

Sei X eine stetig verteilte Zufallsvariable mit Dichte fX und Werten in einem offenen Intervall I ⊂ R.

Sei außerdem u : I ��

J ein Diffeomorphismus. Dann hat Y := u (X) auf J die Dichte

� � �

−1 �

u (y) · � � u −1� �

′ �

(y) � .

fY (y) = fX

110 10 Allgemeine Modelle und stetige Verteilungen

Beweis:

Zunächst können wir ohne Einschränkung annehmen, dass u streng monoton steigend ist (da u ein Diffeomorphismus

ist, muss u streng monoton sein). Dann wollen wir die Substitutionsregel

�b

a

f(x)dx =

�

g −1 (b)

g −1 (a)

(f ◦ g)(y) · g ′ (y) dy

für den Diffeomorphismus g = u −1 anwenden. Damit folgt

P (a ≤ Y ≤ b) = P � u −1 (a) ≤ X ≤ u −1 (b) �

da u nach Annahme streng monoton steigend ist.

Beispiel 10.35 (Anwendung):

=

u −1 � (b)

u −1 (a)

�b

a

fX

fX (x) dx

� � � −1 −1

u (y) u � ′

(y)

� ��

=|(u−1 ) ′ dy

(y)|

Sei X ∼ N (0,1) und Y := σX + µ mit µ,σ ∈ R und σ > 0. Dann ist Y ∼ N � µ,σ 2� .

Beweis:

Wir setzen

u (x) := σx + µ.

Bei dieser Abbildung handelt es sich offenbar um einen Diffeomorphismus mit

u −1 (y) =

y − µ

σ

und � u −1� ′ (y) = 1

σ .

Mit Satz 10.34 folgt für die Dichte fY von Y und fX von X, dass

� �

y − µ

fY (y) = fX ·

σ

1

�

1 (y − µ)2

= √ exp −

σ 2π 2σ2 �

· 1

σ =

1

√

2πσ2 exp

�

(y − µ)2

−

2σ2 �

,

was genau der Dichte zu N � µ,σ 2� entspricht.

Alternativ kann man diese Aussage auch mit Hilfe von Satz 10.31 beweisen:

Beweis (alternativ):

Es ist

FY (y) = P (Y ≤ y) = P (σX + µ ≤ y) = P

�

X ≤

�

y − µ

= Φ

σ

� �

y − µ

für die Verteilungsfunktion Φ der Standard-Normalverteilung. Mit Satz 10.31 ist dann

� � �� ′

y − µ

fY (y) = Φ =

σ

1

σ Φ′

� �

y − µ

=

σ

1

σ ϕ

� �

y − µ

σ

für die Dichte ϕ der Standard-Normalverteilung - und das ist genau die Dichte zu N � µ,σ 2� .

Bemerkung 10.36:

Ganz analog können wir nun zeigen, wie man die Verteilungsfunktion zu N � µ,σ 2� aus den Tabellen für

Φ (der Verteilungsfunktion von N (0,1)) berechnet:

Ist Y ∼ N � µ,σ 2� für µ,σ ∈ R, σ > 0, so folgt wie in Beispiel 10.35, dass

gilt. Damit ist dann aber

- und das ist tabelliert!

X := 1

(Y − µ) ∼ N (0,1)

σ

P (Y ≤ y) = P (σX + µ ≤ y) = P

�

X ≤

�

y − µ

= Φ

σ

� �

y − µ

10 Allgemeine Modelle und stetige Verteilungen 111

10.6 Erwartungswert und Varianz

10.37 Definition:

Sei X eine stetig verteilte Zufallsvariable mit Dichte f. Der Erwartungswert von X existiert, falls

In diesem Fall definiert man

�∞

−∞

E (X) :=

|x|f(x)dx < ∞.

�∞

−∞

xf(x)dx.

Wir sehen hier schon die Analogie zum diskreten Fall: Die Summe in (5.2) wird durch ein Integral ersetzt,

und die Einzelwahrscheinlichkeiten P werden durch die Dichte f ersetzt.

Bemerkung 10.38:

Ist X wie in der Definition und X ≥ 0, so kann man stets

E (X) :=

�∞

−∞

setzen und entsprechend einfach ∞ als Wert zulassen.

Beispiel 10.39:

Sei X ∼ U (r,s). Dann ist

Beispiel 10.40:

Sei X ∼ N (0,1). Dann ist

E (X) =

Beispiel 10.41:

�∞

−∞

E (X) =

�s

r

xϕ(x)dx = 1

√ 2π

xf(x)dx

x 1 1 1

dx =

s − r s − r 2 x2�� s

r

�∞

−∞

1 s

=

2

2 − r2 s + r

=

s − r 2 .

�

xexp − x2

�

dx =

2

1

�

√ exp −

2π x2

�

�� ∞

= 0.

2 −∞

Sei X eine Cauchy-verteilte Zufallsvariable. Für die zugehörige Dichte f ist dann

�∞

−∞

|x|f(x)dx =

�∞

−∞

Daher hat X keinen Erwartungswert!

|x|

π (1 + x2 1

dx =

) π

�∞

0

2x 1

dx =

1 + x2 π lim

R→∞

�

ln � 1 + x 2� � � R

0

�

= ∞.

112 10 Allgemeine Modelle und stetige Verteilungen

Beispiel 10.42:

Sei X ∼ Exp (λ). Dann ist

Beispiel 10.43:

E (X) =

�

0

∞

0

tλ exp (−λt) dt

�∞

= λ t exp (−λt) dt

partielle Integration

= λ

=

�

0

∞

⎛

⎝ t

−λ exp(−λt)� �∞ 1

−

0 −λ

exp (−λt) dt

= − 1

λ exp (−λt)�� ∞

0

=

1

λ .

�

0

∞

⎞

exp (−λt) dt⎠

Sei X ∼ Pareto (α). Zunächst untersuchen wir, für welche α > 0 der Erwartungswert existiert. Bekanntlich

existiert das Integral

�∞

1

dt

tβ c

mit beliebigem c > 0 genau dann, wenn β > 1. Daher ist der Erwartungswert für α ≤ 1 zwangsläufig

nicht existent. Für α > 1 gilt:

�∞

0

αt

α+1 dt =

(t + 1)

=

�∞

t + 1

α

α α+1 dt − α+1 dt

(t + 1) (t + 1)

0

�∞

α

(t + 1) α dt − 1

0

α

1 − α (t + 1)1−α�� ∞

− 1

0

= − α

− 1

1 − α

α α − 1

= −

α − 1 α − 1

1

=

α − 1 .

Da X ∼ Pareto(α) nach Definition der Dichte als nicht-negativ angenommen werden kann, haben wir

also

�

∞

E (X) =

falls α ≤ 1

1

α−1 falls α > 1 .

Aus der Maßtheorie zitieren wir ohne Beweis den folgenden

10.44 Satz (Transformationsformel für den Erwartungswert - ohne Beweis):

Sei X eine reelle Zufallsvariable mit Dichte f und g : R ��

R eine meßbare Funktion (also z.B. stetig).

Dann gilt

E (g(X)) =

�∞

−∞

0

g(x) · f(x)dx, (10.7)

10 Allgemeine Modelle und stetige Verteilungen 113

falls

ist.

Bemerkung 10.45:

�∞

−∞

|g(x)|f(x)dx < ∞

Damit folgt im Falle der Existenz zum Beispiel mit g(x) := ax + b:

Beispiel 10.46:

E (aX + b)

(10.7)

=

�∞

−∞

= a

�∞

−∞

= aE (X) + b

(ax + b) f(x)dx

xf(x)dx + b

Sei X ∼ N (0,1). In Beispiel 10.35 haben wir schon gezeigt, dass dann

σX + µ ∼ N � µ,σ 2�

�∞

−∞

f(x)dx

� ��

=1

gilt. Ebenso haben wir in Beispiel 10.40 schon gesehen, dass E (X) = 0 gilt. Nach obiger Rechnung folgt

E (σX + µ) = σE(X) + µ = µ.

Daher ist µ wie schon weiter oben bemerkt der Erwartungswert einer N � µ,σ 2� -verteilten Zufallsvariablen.

10.47 Definition:

Sei X eine stetig verteilte reelle Zufallsvariable. Falls E

�

|X| k�

< ∞ gilt (in dem Sinne, dass der Erwar-

tungswert für nicht-negative Zufallsvariablen in [0, ∞] stets existiert), so nennen wir

das k-te Moment von X.

10.48 Definition:

E � X k�

Sei X eine stetig verteilte reelle Zufallsvariable, s.d. E (X) existiert. Dann definieren wir die Varianz

von X durch

�

V (X) := E (X − E(X)) 2�

= E � X 2� − (E (X)) 2 .

Bemerkung 10.49:

Sei X eine reelle Zufallsvariable mit Dichte f. Mit der Transformationsformel (Satz 10.44) ist

falls existent.

Beispiel 10.50:

V (X) =

�∞

−∞

⎛

x 2 f(x)dx − ⎝

�∞

−∞

⎞

xf(x)dx⎠

Sei X ∼ U (0,1). Wir haben in Beispiel 10.39 schon gesehen, dass dann E (X) = 1

2 gilt. Nach Bemerkung

10.49 haben wir also

V (X) =

�1

0

x 2 dx − 1 1 1 1

= − =

4 3 4 12 .

114 10 Allgemeine Modelle und stetige Verteilungen

Allgemein folgt ganz genauso

Bemerkung 10.51:

X ∼ U (r,s) ⇒ V (X) =

Man zeigt ganz genau wie im diskreten Fall, dass

gilt.

Beispiel 10.52:

�s

1

s − r

r

x 2 �

s + r

dx −

2

= s3 − r3 (s + r)2

−

3(s − r) 4

= 4s2 + 4rs + 4r 2

12

= s2 − 2rs + r 2

12

= (s − r)2

.

12

V (aX + b) = a 2 V (X)

� 2

− 3s2 + 6rs + 3r 2

12

Sei X ∼ N (0,1). In Beispiel 10.40 haben wir gesehen, dass E(X) = 0 gilt. Bemerkung 10.49 liefert also

V (X) =

=

partielle Integration

=

�∞

−∞

= 1

1

√ 2π

1

√ 2π

1

√ 2π

Mit der Regel aus Bemerkung 10.51 zeigt das

�

2 1

x √ exp −

2π x2

�

dx

2

�∞

−∞

� �

x · xexp − x2

��

2

� ��

⎛

�

⎝ −xexp

�∞

−∞

� �

= exp − x2

�� ′

2

dx

�

− x2

��

�� ∞

2 −∞ +

�

exp − x2

�

dx

2

Y ∼ N � µ,σ 2� ⇒ V (Y ) = σ 2 ,

da für X ∼ N (0,1) mit Beispiel 10.35 σX + µ ∼ N � µ,σ 2� gilt.

10.7 Mehrdimensionale stetige Verteilungen

�∞

−∞

�

exp − x2

�

2

⎞

dx⎠

Zunächst müssen wir festlegen, welche Teilmengen des R n eine Wahrscheinlichkeit erhalten können und

welche nicht. Dazu gehen wir genau wie auf R vor und wählen eine geeignete σ-Algebra.

10.53 Definition:

Die Borel’sche σ-Algebra Bn des R n ist die kleinste σ-Algebra auf dem R n , die alle offenen Mengen

enthält.

Auch im R n behält Satz 10.14 seine Gültigkeit! Allerdings ändert sich hier die Formulierung etwas:

10.54 Satz (ohne Beweis):

Die folgenden Forderungen an eine σ-Algebra auf R n sind äquivalent:

(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält.

10 Allgemeine Modelle und stetige Verteilungen 115

(2) Es handelt sich um die kleinste σ-Algebra, die alle Rechtecke

mit a = (a1,...,an) , b = (b1,...,bn) ∈ R n enthält.

(a,b] := (a1,b1] × ... × (an,bn]

10.55 Definition:

Eine Dichte auf Rn ist eine integrierbare Funktion f : Rn ��

R mit f ≥ 0 und

�

f(x)dx = 1.

Ebenso zitieren wir den folgenden Satz aus der Maßtheorie:

R n

10.56 Satz (ohne Beweis):

Ist f : Rn ��

n R eine Dichte auf dem R , so gibt es zu f genau eine Wahrscheinlichkeitsverteilung P

auf (Rn , Bn) mit der Eigenschaft, dass

für alle Rechtecke (a,b].

10.57 Definition:

�b1

�bn

�

P ((a,b]) = ... f (x1,...,xn) dxn...dx1 =:

a1

an

(a,b]

f(x)dx

Die reellen Zufallsvariablen X1,...,Xn haben die gemeinsame Dichte f, wenn f eine Dichte auf dem

Rn ist und für alle a,b ∈ Rn gilt:

�

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) = f(x)dx.

Beispiel 10.58:

Für n = 2 ist f := 1 [0,1] 2 die Dichte der Gleichverteilung auf [0,1] 2 .

Beispiel 10.59:

Durch

f := 1

π 1 {(x,y)∈R 2 | x 2 +y 2 ≤1}

definieren wir die Dichte der Gleichverteilung auf dem Einheitskreis im R 2 .

Bemerkung 10.60:

Diese Beispiele lassen sich durchaus verallgemeinern:

Ist A ⊂ R 2 ein glattes Gebiet (d.h., dass der topologische Rand von A in jedem Punkt lokal Graph einer

beliebig oft differenzierbaren Funktion ist), so ist 1A Riemann-Integrierbar und die Funktion

ist die Dichte der Gleichverteilung auf A.

10.61 Definition (Produktdichten):

Sind f1,...,fn Dichten auf R, so ist

f :=

1

Vol(A) 1A

(a,b]

f (x1,...,xn) := f1 (x1) · ... · fn (xn)

eine Dichte auf dem R n . f heißt Produktdichte der Dichten f1,...,fn. Die gemäß Satz 10.56 zu f

gehörende Wahrscheinlichkeitsverteilung P auf (R n , Bn) heißt Produktverteilung der zu f1,...,fn

gehörenden Verteilungen P1,...,Pn auf R gemäß Satz 10.25. Maßtheoretisch schreibt man auch

Beispiel 10.62:

P = P1 × ... × Pn.

Die Funktion 1 [0,1] 2 ist die Dichte zu P1 × P2, wenn P1,P2 Gleichverteilungen auf [0,1] sind.

116 10 Allgemeine Modelle und stetige Verteilungen

Beispiel 10.63:

Sei n ∈ N≥2 und sei fi(xi) := 1

√ 2π exp

gegeben durch

beziehungsweise

f(x1,...,xn) = f1(x1) · ... · fn(xn) =

�

− x2

�

i für i = 1,...,n. Dann ist die zugehörige Produktdichte

2

� �n �

1

√2π exp − 1 � 2

x1 + ... + x

2

2� n

�

n − 2 f(x) = (2π) exp − �x�2 �

2

, x ∈ R

2

n

für die gewöhnliche euklidische Norm auf dem R n . Für n = 3 sieht die Produktdichte wie folgt aus:

x

z

Abbildung 22: Die Produktdichte der Standard-Normalverteilung im R 3 .

An dieser Stelle zitieren wir folgende Sätze aus der Maßtheorie:

10.64 Satz (ohne Beweis):

Sind X,Y zwei reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem R2 , so gilt für jedes glatte

Gebiet A ⊂ R2 , dass

�

P ((X,Y ) ∈ A) = f(x,y)d(x,y).

Außerdem benötigen wir die Transformationsformel für den Erwartungswert von Funktionen von Zufallsvektoren:

10.65 Satz (ohne Beweis):

Sind X1,...,Xn reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem Rn und ist g : Rn ��

meßbar (z.B. stetig), so gilt

�

R

E (g (X1,...,Xn)) = g(x)f(x)dx (10.8)

falls �

ist.

10.66 Hilfssatz:

R n

A

R n

|g(x)|f(x)dx < ∞

Sind X1,X2 zwei reelle Zufallsvariablen mit gemeinsamer Dichte f, so ist

die Dichte zu X1 und

die Dichte zu X2.

f1 (x1) :=

f2 (x2) :=

�∞

−∞

�∞

−∞

f(x1,x2)dx2

f(x1,x2)dx1

10 Allgemeine Modelle und stetige Verteilungen 117

Beweis:

Es gilt

P (a1 ≤ X1 ≤ b1) = P (a1 ≤ X1 ≤ b1, −∞ < X2 < ∞)

Satz 10.64

=

�b1

�∞

a1 −∞

f(x1,x2)dx2 dx1.

� ��

=f1(x1)

Ganz analog kann man für f2 vorgehen. Das zeigt schon die Behauptung.

Bemerkung 10.67:

Jetzt können wir endlich zeigen, dass der Erwartungswert linear ist:

Beweis:

E (X1 + X2) = E (X1) + E (X2) .

Wir wenden den Satz 10.65 im Fall n = 2 auf die Funktion g(x1,x2) = x1 + x2 an. Das liefert

�

E (X1 + X2) = (x1 + x2) f(x1,x2) d(x1,x2)

=

Damit ist die Behauptung gezeigt.

10.8 Unabhängigkeit

10.68 Definition:

R 2

�

R 2

�

R

�

x1f(x1,x2)d(x1,x2) +

x1

Hilfssatz 10.66

= E (X1) + E (X2)

R

R 2

⎛

�

⎞

�

⎝ f(x1,x2)dx2 ⎠ dx1 +

Reelle Zufallsvariablen X1,...,Xn heißen unabhängig, wenn

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) =

für alle a = (a1,...,an) , b = (b1,...,bn) ∈ R n gilt.

10.69 Satz (Unabhängigkeit bei stetigen Verteilungen):

x2f(x1,x2)d(x1,x2)

R

x2

⎛

⎞

�

⎝ f(x1,x2)dx1 ⎠ dx2

R

n�

P (ai ≤ Xi ≤ bi)

(1) Sind X1,...,Xn unabhängige Zufallsvariablen mit Dichten f1,...,fn entsprechend, so ist die gemeinsame

Dichte f durch die Produktdichte

gegeben.

i=1

f (x1,...,xn) := f1 (x1) · ... · fn (xn) (10.9)

(2) Sind X1,...,Xn reelle Zufallsvariablen und hat die gemeinsame Dichte die Gestalt (10.9), so sind

X1,...,Xn unabhängig und fi ist die Dichte zu Xi, i = 1,...,n.

Beweis:

(1) Wegen der Unabhängigkeit und der Definition der Dichten fi gilt

n�

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) = P (ai ≤ Xi ≤ bi)

=

i=1

bi n�

�

fi(xi)dxi

i=1

ai

�

(a,b]

f(x)dx

118 10 Allgemeine Modelle und stetige Verteilungen

für alle Rechtecke (a,b], weshalb f aus (10.9) die gemeinsame Dichte zu X1,...,Xn ist.

(2) Da X1,...,Xn eine gemeinsame Dichte der Form (10.9) haben, ist

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) =

=

�b1

�bn

... f1(x1) · ... · fn(xn)dxn...dx1

a1

i=1

ai

an

bi n�

�

fi(xi)dxi

(10.10)

��

für jedes Rechteck (a,b].

Für festes i ∈ {1,...,n} lassen wir jetzt in dieser Gleichung aj − ∞,bj ∞ für alle j �= i

gehen. Dann geht die linke Seite gegen P (ai ≤ Xi ≤ bi) und die rechte Seite gegen

da jedes fj eine Dichte ist und somit

ist, also

Damit ist aber wegen (10.10)

∞�

−∞

�bi

ai

fi (xi) dxi,

fj(xj)dxj = 1 erfüllt. Das zeigt, dass fi die Dichte zu Xi

P (ai ≤ Xi ≤ bi) =

�bi

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) =

womit X1,...,Xn per Definition unabhängig sind.

Beispiel 10.70:

ai

fi(xi)dxi.

n�

P (ai ≤ Xi ≤ bi) ,

Wir betrachten einen Schalter mit Bedienzeiten, die nach Exp (λ) verteilt sind. Nehmen wir an, wir stehen

an zweiter Stelle, d.h. noch eine Kunde ist vor uns. Wir wollen die Wahrscheinlichkeit bestimmen, dass

wir mindestens doppelt so lange zur Abfertigung brauchen, wir die Person vor uns. Dazu modellieren wir

den Kunden vor uns als Zufallsvariable X ∼ Exp (λ) sowie uns als Y ∼ Exp (λ) und nehmen an, dass X

und Y unabhängig sind. Gefragt ist dann nach

i=1

P (Y ≥ 2X) . (10.11)

Mit obigem Satz 10.69 folgt, dass X und Y eine gemeinsame Dichte f in Produktform haben, d.h.

Um (10.11) zu bestimmen betrachten wir

f (x,y) = (λ exp (−λx)) (λ exp (−λy)) 1 [0,∞) 2.

A = {(x,y) | x,y ≥ 0,y ≥ 2x} .

10 Allgemeine Modelle und stetige Verteilungen 119

Mit Satz 10.64 folgt

P (A) =

�

A

f(x,y)dxdy

= λ 2

�∞�

∞

exp(−λ(x + y)) dy dx

0

2x

= λ 2

�∞�

∞

exp(−λ(x + y)) dy dx

=

0

2x

�∞

⎛

�∞

⎞

λ exp (−λx) ⎝ exp (−λy) dy⎠

dx

�

0

∞

= 1

3

2x

λ exp (−λx)exp (−2λx) dx

�

0

∞

3λ exp (−3λx) dx

= 1

3 (−exp (−3λx)) � �∞ 0

= 1

3 .

Zuletzt sei noch der folgende Satz aus der Maßtheorie erwähnt:

10.71 Satz (ohne Beweis):

10.72 Satz:

Das Blockungslemma gilt in der selben Form wie in Satz 4.24 auch für Zufallsvariablen mit stetigen

Verteilungen.

Wir zeigen nun, dass der Produktsatz für unabhängige Zufallsvariablen auch im stetigen Fall gilt:

Sind X und Y unabhängige Zufallsvariablen mit Dichten fX und fY , so gilt

E(X · Y ) = E(X) · E(Y ).

Beweis:

Setze g(x,y) = x · y, g : R2 ��

R. Die Dichte zu (X,Y ) hat gemäß Satz 10.69 Produktform f(x,y) =

fX(x) · fY (y), da X und Y unabhängig sind.

Damit gilt

Das zeigt die Behauptung.

Korollar 10.73:

E(X · Y ) = E(g(X,Y ))

Transformationsformel

=

�∞

−∞ −∞

�∞

−∞ −∞

�∞

−∞

Sind X und Y stetige unabhängige Zufallsvariablen, so gilt

das heißt, X und Y sind unkorreliert.

g(x,y) · f(x,y)dxdy

x · y · fX(x) · fY (y)dxdy

x · fX(x)dx ·

�∞

−∞

CoV(X,Y ) = E(X · Y ) − E(X)E(Y ) = 0,

y · fY (y)dy.

120 10 Allgemeine Modelle und stetige Verteilungen

10.74 Definition (Faltung):

Seien f1 und f2 Dichten auf R. Die Dichte

f1 ⋆ f2(z) =

nennen wir Faltung f1 ⋆ f2 von f1 und f2.

�∞

−∞

f1(x)f2(z − x)dx

10.75 Satz (Dichten für Summen von unabhängigen Zufallsvariablen mit Dichten):

Seien X und Y unabhängige Zufallsvariablen mit Dichten fX und fY . Dann hat X+Y die Dichte fX ⋆ fY .

Beweis:

X und Y haben die gemeinsame Dichte f(x,y) = fX(x) · fY (y), da X und Y unabhängig sind. Sei A die

Menge

A := {(x,y) | x + y ≤ b} .

Dann gilt

Damit ist die Behauptung gezeigt.

P(X + Y ≤ b) =

Beispiel 10.76 (Gleichverteilung U(0,1)):

=

�

A

�∞

−∞

�∞

f(x,y)dxdy

−∞ −∞

�b

−∞

�b

−∞

⎛

⎞

�b−x

⎝ fX(x)fY (y)dy⎠

dx

�b

−∞

⎛

�

⎝

fX(x)fY (z − x)dz dx

∞

−∞

⎞

fx(x)fy(z − x)dx⎠

dz

fX ⋆ fY (z)dz.

Seien X und Y unabhängig und gleichverteilt auf [0,1]. Dann ist die Dichte von X + Y gegeben als

⎧

⎪⎨ t falls 0 ≤ t ≤ 1

fX+Y (t) = 2 − t

⎪⎩

0

falls 1 ≤ t ≤ 2

sonst

.

−2

−1

1

0 1 2 3

Abbildung 23: Die Dichte von X + Y für X,Y i.i.d.

∼ U (0,1).

10 Allgemeine Modelle und stetige Verteilungen 121

Beweis:

10.77 Satz:

Offenbar ist fX(t) = 1 [0,1](t) = fY (t). Mit obigem Satz ist die Dichte fX+Y von X + Y gegeben als

(fX ⋆ fY ) (z) =

=

�∞

−∞

�1

0

�

= −

Nun unterscheiden wir vier Fälle:

z�

• Ist z < 0, so ist offenbar 1 [0,1] (y) dy = 0.

• Ist z > 2, so ist offenbar

z−1

z�

z−1

• Ist 0 ≤ z ≤ 1, so berechnet man

• Ist 1 ≤ z ≤ 2, so berechnet man

Das zeigt die Behauptung.

=

�z

z−1

1 [0,1] (y) dy = 0.

�z

z−1

�z

z−1

fX(x) · fY (z − x) dx

1 [0,1] (z − x) dx

z−1

z

1 [0,1] (y) dy =

1 [0,1] (y) dy

1 [0,1] (y) dy.

�1

z−1

�z

0

1dy = z.

1dy = 2 − z.

Seien Xi ∼ N(µi,σ 2 i ), für i = 1,2 unabhängig. Dann ist X1 +X2 normalverteilt mit Parametern µ1 +µ2

und σ2 1 + σ2 2, d.h.

X1 + X2 ∼ N � µ1 + µ2,σ 2 1 + σ 2� 2 .

Beweis:

Es genügt zu zeigen, dass

(X1 − µ1) + (X2 − µ2) ∼ N � 0,σ 2 1 + σ 2� 2

gilt, wobei (X1 − µ1) ∼ N � 0,σ2 �

1 und (X2 − µ2) ∼ N � 0,σ2 �

2 verteilt sind. Nach Definition der Faltung

zweier Dichten ergibt sich für festes z ∈ R:

Wir setzen nun

� �

f0,σ2 ⋆ f

1 0,σ2 2

(z) =

σ :=

=

�∞

−∞

�

1

√ exp −

2πσ1

1 x

2

σ2 � �

1 (z − x)2

· √ exp −

1 2πσ2 2σ2 �

dx

2

⎛

⎞

1

2πσ1σ2

�∞

−∞

⎜

exp ⎜

⎝ −1

� 2 x

2 σ2 +

1

(z − x)2

σ2 � ⎟ dx. (10.12)

2 ⎠

� ��

=:(∗)

�

σ2 1 + σ2 σ

2 und w = w(x) = · x −

σ1σ2

σ1

z.

σσ2

122 10 Allgemeine Modelle und stetige Verteilungen

Dann ist

w 2 + z2

σ2 = σ2 1 + σ2 2

σ2 1σ2 2

x 2 − 2xz

σ 2 2

= x2

σ2 +

1

x2

σ2 −

2

2xz

σ2 +

2

z2

σ2 2

= x2

σ2 +

1

(z − x)2

σ2 2

= (∗).

+ σ2 1

σ2σ2 2

z 2 + z2

σ 2

� ��

Da dw = σ

σ1σ2

dx ist, folgt dx = σ1σ2 σ dw. Wir substituieren also in (10.12) und erhalten so

� �

f0,σ2 ⋆ f

1 0,σ2 2

(z) =

Damit ist der Satz bewiesen.

=

1

2πσ1σ2

�∞

−∞

1

2πσ exp

�

− z2

2σ2 �

−

= f 0,σ 2(z)

= f 0,σ 2 1 +σ 2 2 (z).

10.9 Die mehrdimensionale Normalverteilung

10.78 Definition:

= z2

σ 2 2

�

exp − 1

�

w

2

2 + z2

σ2 ��

σ1σ2

σ dw

�∞

�

1

√ exp −

2π 1

2 w2

�

dw

� ��

=1 (Std.normalverteilung)

Wir haben in Beispiel 10.63 schon gesehen, dass für unabhängige Zufallsvariablen Z1,...,Zn ∼ N (0,1)

die Zufallsgröße Z = (Z1,...,Zn) T die Dichte

f (z1,...,zn) = 1

�

√ n exp −

2π 1

n�

z

2

2 �

i

besitzt. Diese Verteilung wollen wir von nun an die n-dimensionale Standard-Normalverteilung

nennen. Wir schreiben dann auch

(Z1,...,Zn) T ∼ N (0,In) ,

wobei wir mit

die n × n-Einheitsmatrix bezeichnen.

10.79 Definition:

In =

⎛

⎜

⎝

1 0

. ..

0 1

Sei Z = (Z1,...,Zn) T ∼ N (0,In), A eine reelle n×n-Matrix und µ ∈ R. Dann nennen wir die Verteilung

von

A · Z + µ

eine n-dimensionale Normalverteilung zu A und µ.

10.80 Definition:

Sei Z = (Z1,...,Zn) T ein Zufallsvektor. Der Erwartungswert von Z ist der Vektor

Beispiel 10.81:

−∞

⎞

⎟

⎠

ν=1

E (Z) = (E (Z1) ,...,E (Zn)) T .

Sei Z ∼ N (0,In). Dann ist offenbar E (Z) = 0 ∈ R n . Außerdem folgt für jede n × n-Matrix A und jedes

µ ∈ R n , dass

E (AZ + µ) = AE (Z) + µ = µ.

10 Allgemeine Modelle und stetige Verteilungen 123

10.82 Definition:

Sei Z = (Z1,...,Zn) T ein allgemeiner Zufallsvektor. Die Kovarianzmatrix von Z ist

Beispiel 10.83:

Sei Z = (Z1,...,Zn) T ∼ N (0,In). Wegen

ist ΣZ = In.

10.84 Lemma:

ΣZ := (CoV (Zi,Zj)) 1≤i,j≤n .

CoV (Zi,Zj) =

� 0 falls i �= j

1 falls i = j

Sei Z ein beliebiger Zufallsvektor, A = (ai,j) 1≤i,j≤n eine beliebige reelle n × n-Matrix und µ ∈ R n . Dann

gilt für X := A · Z + µ, dass

ΣX = A · ΣZ · A T .

Beweis:

Es ist

CoV (Xi,Xj) = E ((Xi − E (Xi)) (Xj − E (Xj)))

��

n�

� �

n�

= E

− E

� A · Σz · A T�

i,j

Das zeigt die Behauptung.

Beispiel 10.85:

= E

=

�� n�

k=1

�� n�

n�

k,l=1

n�

k,l=1

k=1

ai,kZk + µi

aj,kZk + µj

�

E

� n�

k=1

ai,k (Zk − E (Zk))

ai,k CoV (Zk,Zl)aj,l

ai,k CoV (Zk,Zl)a T l,j

�

k=1

aj,kZk + µj

·

� n�

l=1

ai,kZk + µi

��

aj,l (Zl − E (Zl))

Sei Z ∼ N (0,In) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ Rn . Nach

Lemma 10.84 gilt dann

ΣX = A · ΣZ

��

·A T = A · A T .

=In

Damit sind Erwartungswert und Kovarianzmatrix der n-dimensionalen Normalverteilung zu A und µ

gegeben durch µ und ΣX = A · AT .

Bemerkung 10.86:

Sei Z ∼ N (0,In) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ R n . Dann ist

die Matrix ΣX = A · A T stets symmetrisch und positiv semi-definit, d.h. für jedes x ∈ R n gilt

x T ΣXx ≥ 0.

Die Umkehrung ist ebenfalls richtig: Jede Matrix Σ, die symmetrisch und positiv semi-definit ist, ist

Kovarianzmatrix einer n-dimensionalen Normalverteilung. Das folgt einfach aus der Hauptachsentransformation,

denn demnach ist Σ = V · D · V T für eine orthogonale Matrix V und eine Diagonalmatrix

⎛ ⎞

D =

⎜

⎝

d1

. ..

0

0 dn

⎟

⎠ .

·

��

124 10 Allgemeine Modelle und stetige Verteilungen

Da Σ positiv semi-definit ist, sind alle Zahlen di ≥ 0. Wir setzen

⎛ √

d1

⎜

A := V · ⎜

⎝

0

�

. ..

��

⎞

0

⎟

⎠ ·V

√

dn

�

T ,

und haben dann

10.87 Definition:

=: √ D

A · A T = V · √ D · V T · V · √ D · V T = V · D · V T = Σ.

� ��

=In

Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) = 0, so sprechen wir

von einer ausgearteten Normalverteilung.

10.88 Definition:

10.89 Satz:

Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) �= 0, so sprechen wir

von einer nicht ausgearteten Normalverteilung.

Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung mit Erwartungswert µ ∈ Rn und

det(Σ) �= 0. Dann ist die zugehörige Dichte gegeben als

Beweis:

f (x) =

1

�√ 2π �n � det(Σ) exp

�

− 1

�

(x − µ)

2

T · Σ −1 �

· (x − µ)

�

, x ∈ R n . (10.13)

Wir wollen den Transformationssatz für Dichten im Rn benutzen: Hat Z = (Z1,...,Zn) T auf offenem

M ⊂ Rn die Dichte fZ und ist u : M ��

n N für N ⊂ R ebenfalls offen ein Diffeomorphismus, so hat

X := u (Z) die Dichte

� � � � ��

−1

u (x) · �det −1

D(u )(x) � . (10.14)

fX (x) = fZ

Dabei bezeichnet D(u −1 ) das totale Differential von u −1 .

Dieser Satz folgt direkt aus der Transformationsformel im R n , der explizite Beweis findet sich bei

[Dehling/Haupt], Seite 181.

Hier ist Z ∼ N (0,In), M = N = R n und u (x) = Ax + µ mit A wie in Bemerkung 10.86 zu Σ definitiert.

Da det (Σ) �= 0 ist, ist auch det (A) �= 0, d.h.

existiert. Damit ist dann

u −1 (x) = A −1 (y − µ)

�

�det D � u −1� (x) � � = � �det(A −1 ) � � =

1

|det (A)| =

1

� det(Σ) .

Beachte dabei, dass det(Σ) > 0 wegen der positiven Semi-Definitheit von Σ.

Da n�

z2 i = (z1,...,zn) · (z1,...,zn) T ist, gilt

i=1

fZ(z) =

�

1

�√ �n exp −

2π 1

2 zT �

· z .

Mit der angegebenen Transformationsformel für Dichten (10.14) folgt

fX (x) =

=

und somit die Behauptung.

1

�√ 2π �n exp

1

�√ 2π �n · � det(Σ) exp

�

− 1

��A � −1 T � � −1

(x − µ) A (x − µ)

2

��

·

�

− 1

�

(x − µ)

2

T Σ −1 �

(x − µ)

�

1

� det(Σ)

10.93 Satz:

10 Allgemeine Modelle und stetige Verteilungen 125

Bemerkung 10.90:

Ist det (Σ) = 0, so gibt es keine Dichte auf dem R n für die zugehörige Verteilung.

Bemerkung 10.91:

Man beachte, dass die n-dimensionale Normalverteilung bereits durch Σ und µ festgelegt ist!

Bemerkung 10.92:

Der Fall det (Σ) �= 0 entspricht genau dem Fall, dass Σ symmetrisch und strikt positiv definit ist, d.h.

x T Σx > 0 ∀ x ∈ R n \ {0} .

Für jede solche Matrix existiert also eine n-dimensionale Normalverteilung mit Dichte wie im Satz. Die

Matrix A dieser Verteilung ist dann wie in Bemerkung 10.86 gegeben.

10.9.1 Folgerungen

Sei X = (X1,...,Xn) T nach N (µ,Σ) verteilt, d.h. es ist µ = E (X) und Σ = CoV (X). Sei außerdem

det (Σ) �= 0. Dann gilt

Xi ∼ N (µi,Σi,i) .

Allgemeiner: Ist c ∈ Rn \ {0}, so ist

n�

�

n� n�

ciXi ∼ N ciµi,

Sind die Xi’s paarweise unkorreliert, so sind sie unabhängig.

Beweis:

i=1

c 2 iΣi,i

Da alles nur von der Verteilung abhängt, können wir wie folgt vorgehen: Finde eine n × n-Matrix A, s.d.

A · A T = Σ gilt. Dann ist X = A · Z + µ für Z ∼ N (0,In). Damit folgt aber

Xi =

n�

Ai,kZk + µi,

womit mehrfaches anwenden des Faltungssatzes für die Normalverteilung (Satz 10.77) sofort

�

n�

Xi ∼ N µi,

� �

n�

= N µi,

�

= N (µi,Σi,i)

k=1

A 2 i,k

k=1

liefert. Ganz analog geht man für beliebiges c ∈ R n \ {0} vor.

Ai,kA T k,i

Kommen wir zur Unabhängigkeit. Sind die Xi’s unkorreliert, so ist CoV(X) = Σ eine Diagonalmatrix.

Die Dichte fX von X ist gemäß 10.13 gegeben, und da Σ −1 ebenso wie Σ Diagonalform hat, ist sie in

Produktform. Satz 10.69 liefert, dass die Xi’s unabhängig sind.

10.10 Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz

Bemerkung 10.94:

Wir haben schon gesehen, dass für stetige Zufallsvariablen X und Y ebenso wie für diskrete die Linearität

des Erwartungswertes gilt:

Außerdem ist der Erwartungswert monoton, d.h.

E (aX + Y ) = aE (X) + E (Y ) , a ∈ R. (10.15)

X ≤ Y ⇒ E (X) ≤ E (Y ) .

Man kann ebenso (maßtheoretisch) zeigen, dass alle Rechenregeln, die im diskreten Fall für die Varianz

gelten, sich auf den stetigen Fall übertragen, also

für a,b ∈ R und X stetig verteilte Zufallsvariable usw..

�

.

V (aX + b) = a 2 V (X) (10.16)

Ebenso gelten die Markov-, Tschebyschow- und Hoeffding Ungleichung sowie das SGGZ genau wie im

stetigen Fall.

Wir werden die Regeln (10.15) und (10.16) nun einfach mitbenutzen.

126 10 Allgemeine Modelle und stetige Verteilungen

10.10.1 Die Jensen’sche Ungleichung

Bevor wir zum zentralen Grenzwertsatz schreiten brauchen wir noch folgendes

10.95 Lemma (Jensen’sche Ungleichung):

Ist X eine reelle Zufallsvariable (diskret oder stetig, das Lemma gilt in beiden Fällen) und g : R

eine konvexe Funktion, so gilt im Falle der Existenz von E (X) und E (g(X)) die Ungleichung

Beweis:

g (E (X)) ≤ E (g (X)).

Für eine konvexe Funktion g können wir an den Punkt (E (X),g (E (X))) eine (ohne weitere Voraussetzungen

nicht zwingend eindeutige) lineare Approximation an g legen. Diese hat die Form

L(x) = c · (x − E (X)) + g (E (X)),

wobei c = g ′ (E (X)), falls g an E (X) ∈ I differenzierbar ist. Insbesondere gilt dann

E (L(X)) = E (c · (X − E (X)) + g (E (X)))

= c · (E (X) − E (X)) + g (E (X))

= g (E (X))

Da g konvex und L linear ist, gilt L ≤ g und mit der Monotonie des Erwartungswerts folgt so

was die Behauptung zeigt.

Beispiel 10.96:

g (E (X)) = E (L(X)) ≤ E (g (X)),

Sei X eine reelle Zufallsvariable. Ist etwa g(x) = x 2 , so folgt

(E (X)) 2 ≤ E � X 2� .

Dieses Ergebnis folgt auch schon daraus, dass 0 ≤ V (X) = E � X 2� − (E (X)) 2 ist.

Bemerkung 10.97:

Sei X eine reelle Zufallsvariable. Insbesondere kann man das Lemma auch für Intervalle I ⊂ R, etwa

I = [0, ∞) anwenden, wenn X Werte in I hat.

��

10 Allgemeine Modelle und stetige Verteilungen 127

10.10.2 Der zentrale Grenzwertsatz (ZGWS)

10.98 Definition (drittes zentrales Moment):

Sei X eine reelle Zufallsvariable. Wir definieren

als das dritte zentrale Moment von X.

Bemerkung 10.99:

γ (X) := E

�

|X − E (X)| 3�

Sei X eine reelle Zufallsvariable. Offenbar hängt γ (X) nur von der Verteilung von X ab.

10.100 Satz (Zentraler Grenzwertsatz):

Sei P X eine feste Verteilung einer reellen Zufallsvariablen X s.d. E (X), V (X) und γ := γ(X) existieren

und V (X) > 0 ist (das ist zum Beispiel für B(n,p) ,Geo(p),Exp (λ),N � µ,σ 2� usw. der Fall).

Für jedes n ∈ N seien X1,...,Xn unabhängige reelle Zufallsvariablen, die alle nach P X verteilt sind. Sei

nun

n�

Sn :=

und Φ die Verteilungsfunktion von N (0,1). Dann gilt

�

sup�

x∈R � P

�

� �

Sn − E (Sn)

�

� ≤ x − Φ(x) �

V (Sn) �

Wir beweisen diese Version des zentralen Grenzwertsatzes ein wenig weiter unten.

Bemerkung 10.101:

i=1

Xi

n

��

∞ ��

0. (10.17)

Natürlich gilt unter den gemachten Voraussetzungen die Formel (10.17) genauso mit < anstelle von ≤.

Bemerkung 10.102:

Natürlich folgt mit dem zentralen Grenzwertsatz auch

�

sup�

a≤b � P

�

a ≤ Sn

�

− E (Sn)

�

� ≤ b − (Φ(b) − Φ(a)) �

V (Sn) �

10.103 Satz (Zentraler Grenzwertsatz - alternative Formulierung):

n

��

∞ ��

0.

Sei X1,X2,... eine Folge unabhängiger reeller Zufallsvariablen mit gleicher Verteilung, s.d. E (X1), V (X1)

und γ (X1) existieren und V (X1) > 0 gilt. Sei außerdem Φ die Verteilungsfunktion zu N (0,1).

Dann gilt

� ⎛

�

� n�

�

n�

�

⎞ �

�

� ⎜ Xi − E Xi ⎟ �

� ⎜

⎟ �

sup�

�P

⎜ i=1 i=1

⎜ � �

x∈R � ⎝ n�

� ≤ x ⎟ − Φ(x) �

�

⎠ �

�

V

�

Xi

i=1

Folgerung 10.104 (Grenzwertsatz von de Moivre-Laplace):

n

��

∞ ��

0.

Satz 9.2 folgt sofort durch Anwenden des zentralen Grenzwertsatzes (alternative Formulierung) mit

0

Nun zeigen wir zunächst folgenden

10.105 Hilfssatz:

Sei Y ∼ N � 0,σ 2� verteilt. Dann gilt

Beweis:

�

E |Y | 3�

�

8

=

π σ3 .

Gemäß der Transformationsformel für den Erwartungswert (Satz 10.44) ist

�

E |Y | 3�

=

�∞

−∞

|t| 3 1

√

2πσ2 exp

�

− 1

�

t2

2σ2 0

dt

2

√

2πσ2 ·

�∞

t 3 �

exp − 1

�

t2 dt.

2σ2

128 10 Allgemeine Modelle und stetige Verteilungen

Nun substituiert man t = σ √ 2x, womit dt = σ

√ 2x dx ist und

�

E |Y | 3�

Das zeigt die Behauptung.

=

2

√

2πσ2 ·

�

0

∞

2σ4 √

2πσ2 ·

�

0

∞

σ 3√ 2x 3

�

exp − 1

2σ2 σ2 �

σ

2x √2x dx

√ 2x 2

exp(−x) dx

= 4σ3

�∞

√ · xexp (−x) dx

2π

= 4σ3

√ 2π · Γ(2)

= 4σ3

√ 2π · (2 − 1)!

=

�

16

2π σ3

�

8

π σ3 .

Bevor wir nun zum Beweis des zentralen Grenzwertsatzes schreiten stellen wir noch fest:

Bemerkung 10.106:

Sind die Zufallsvariablen Xi unabhängig, so gilt

�

n�

�

V =

i=1

was wir im diskreten Fall auch bewiesen haben.

Beweis (von Satz 10.100):

Setze

Fn (x) := P

Xi

n�

V (Xi) ,

i=1

�

Sn − E (Sn)

� ≤ x

V (Sn)

für x ∈ R und σ := � V (x1). Wir müssen also zeigen, dass

sup |Fn(x) − Φ(x)|

x∈R

Für (10.18) genügt es zu zeigen, dass es für jedes ε > 0 ein δ > 0 gibt, s.d.

γ

√ nσ 3

n

≤ δ ⇒ sup |Fn(x) − Φ(x)| ≤ ε,

x∈R

denn falls dieses gilt, finden wir immer ein hinreichend großes n ∈ N s.d.

ist.

sup |Fn(x) − Φ(x)| ≤ ε

x∈R

Wir beginnen dazu mit einigen Vorbereitungen. Setze

Zi := Xi − E (Xi)

�

nV (Xi)

für i = 1,...,n. Dann ist nach der Bemerkung 10.106

Sn − E (Sn)

� V (Sn) =

n�

i=1

��

∞ ��

. (10.18)

Zi

γ

√ nσ 3 ≤ δ und somit

10 Allgemeine Modelle und stetige Verteilungen 129

und entsprechend auch

Fn (x) = P

� n�

i=1

Zi ≤ x

�

, x ∈ R.

Offenbar ist E (Zi) = 0 für i = 1,...,n und man berechnet mit den Regeln für die Varianz

für jedes i = 1,...,n. Zuletzt ist

E � Z 2� i = V (Zi) + (E (Zi)) 2 1

=

� �� nV (Xi)

=0

· V (Xi − E (Xi)) = 1

n

�

E |Zi| 3�

= E

�

|Xi − E (Xi)| 3

�

nV (Xi) 3

�

=

γ

( √ n) 3 .

σ3 Seien ferner Y1,...,Yn unabhängig (auch von den Zi’s) mit Yi ∼ N � 0, 1

�

n . Nach dem Faltungssatz für die

Normalverteilung (Satz 10.77) ist dann

n�

Yi ∼ N (0,1)

i=1

verteilt. Außerdem ist E (Yi) = 0, E � Y 2

�

i = V (Yi) = 1

n

E � |Yi| 3� =

� 8

π

und mit Hilfssatz 10.105 auch

1

√ n 3 .

Wähle zu beliebigem ε > 0 eine mindestens dreifach stetig differenzierbare Funktion f mit 0 ≤ f ≤ 1 und

�

1 falls t ≤ 0

f(t) =

0 falls t ≥ ε .

Setze dann zu x ∈ R fx(t) := f(t − x), t ∈ R und M := sup |f

t∈R

′′′ (t)|. Nach dem Satz von Taylor gilt dann

für alle t,h ∈ R

fx(t + h) = fx(t) + f ′ x(t) · h + f ′′

x(t) · h2

2

Jetzt definieren wir

und wählen n ∈ N so groß, dass

Wir zeigen nun, dass

�

� E

� �

n�

fx

für alle x ∈ R gilt.

Setze S Z j

:= j�

i=1

Zi

��

− E

+ v(t,h) mit |v(t,h)| ≤ sup |f

t∈R

′′′

x (t)| · |h|3

6

δ := δ(ε) =

M

γ

√ nσ 3 ≤ δ gilt.

�

fx

� n�

i=1

Yi

3.6 · ε

�

1 +

Schritt I

� 8

π

i=1

�

��

≤ M

�

n� � �

E |Zi|

6

3�

�

+ E |Yi| 3��

|h|3

≤ M · . (10.19)

6

(10.20)

Zi für j = 1,...,n. Betrachte nun t = S

i=1

Z n−1 und h = Zn in der Taylorentwicklung (10.19):

fx

� Z

Sn−1 + Zn

� ��

=SZ � � � � Z ′ Z

= fx Sn−1 + f x Sn−1 n

Nach dem Blockungslemma sind f ′ �

Z

x Sn−1 unseren Vorüberlegungen

E � � �� Z Z ′ Z

fx Sn = E fx Sn−1 + E f x Sn−1 � · Zn + f ′′

x

�

und Zn sowie f ′′

�

Z

x Sn−1 �� · E (Zn)

� ��

=0

� � Z Z

Sn−1 · 2 n

2 + v � S Z �

n−1,Zn .

� und Z 2

n

2

+E � f ′′ � �� Z

x Sn−1 · E

unabhängig, d.h. es folgt mit

� � 2 Zn 2

� ��

= 1

2n

+E � v � S Z ��

n−1,Zn .

130 10 Allgemeine Modelle und stetige Verteilungen

Genauso folgt mit h = Yn, dass

E � � �� Z Z

fx Sn−1 + Yn = E fx Sn−1 Subtrahieren der Gleichungen liefert

� �

�E fx

��

Z

− E fx Sn−1 + Yn

� =

� S Z n

�

Da wir ja eigentlich eine Abschätzung für �

�E � fx

�

�� 2

′′ Z Yn + E f x Sn−1 · E

≤

�

2

�

� ��

= 1

2n

� E � v � S Z n−1,Zn

�

� E � v � S Z n−1,Zn

+E � v � S Z ��

n−1,Yn .

��

Z

− E v S �

n−1,Yn

��

� + �E Z

v S �

n−1,Yn

Jensen’sche Ungleichung

≤ E �� v � S Z ��

n ,Zn � + E �v � S Z ��

n−1,Yn

(10.19), Monotonie

≤

�

� ��

Z Sn − E fx

nun die Taylor-Entwicklung (10.19) mit t = � S Z n−2 + Yn

M

� �

E |Zn|

6

3�

�

+ E |Yn| 3��

.

�

n�

��

haben wollen, betrachten wir

Yi

i=1

wir ganz analog zur obigen Rechnung durch Subtrahieren die Abschätzung

� � � ��

� Z Z

E fx Sn−1 + Yn − E fx Sn−2 + Yn−1 + Yn

�

M

≤

6

Nutze dann die Taylor-Entwicklung (10.19) mit t = � S Z n−3 + Yn−1Yn

Das liefert dann allgemein

� und h = Zn−1 bzw. h = Yn−1. Dort erhalten

�

E

�

�E � � ��

Z Z

fx Sk + Yk+1 + ... + Yn − E fx Sk−1 + Yk + ... + Yn � ≤ M

6

�

|Zn−1| 3�

+ E

�

|Yn−1| 3��

.

� und h = Zn−2 bzw. h = Yn−2 usw..

� �

E |Zk| 3�

�

+ E |Yk| 3��

für alle k ∈ {1,...,n}. Mit der Dreiecksungleichung folgt so die behauptete Gleichung (10.20).

Schritt II

Wir wollen nun zeigen, dass die rechte Seite aus Schritt I (10.20) ≤ 0.6ε ist. Nach unseren Vorüberlegungen

ist die rechte Seite

�

n�

M

� �

E |Zi|

6

3�

�

+ E |Yi| 3��

= M

�

γ

√

6 nσ3 +

� �

8 1

√ . (10.21)

π n

σ 3 =

i=1

Da g (x) := x 3

2 konvex ist, folgt mit der Jensen’schen Ungleichung 10.95, dass

�� 3 V (X) = � E � 3 �

|X − E (X) |

2�� |X � 3 �

2 2 2

≤ E − E(X)| = E � |X − E(X)| 3� = γ

ist. Daher ist

und es folgt, dass die rechte Seite 10.21

γ

≥ 1

σ3 �

M γ

√

6 nσ3 +

� �

8 1

√

π n

≤ M

�

γ γ

√ +

6 nσ3 σ3 � �

8 1

√

π n

= M

� � �

γ 8

√ 1 +

6 nσ3 π

� ��

≤δ

≤ M

6 δ

� � �

8

1 +

π

= M 3.6ε

�

6

M 1 +

� � �

8

� 1 +

π

erfüllt - also genau die Behauptung.

= 3.6

6 ε

= 0.6ε

� 8

10 Allgemeine Modelle und stetige Verteilungen 131

Schritt III

Nach Definition der Zi haben wir nun für alle x ∈ R

�

n�

�

Fn(x) = P Zi ≤ x

da 1 (−∞,x]

� n�

Zi

i=1

�

� �

n�

∼ B 1,P

Zi ≤ x

i=1

mit der Monotonie des Erwartungswerts

was mit Schritt I und II wiederum

= E

�

i=1

1 (−∞,x]

� n�

i=1

Zi

��

,

��

gilt. Nach Wahl von f ist 1 (−∞,x] ≤ fx und daher folgt

Fn (x) ≤ E

�

fx

� n�

i=1

Yi

Zi

��

,

+ 0.6ε

zeigt. Nun ist 1 (−∞,x+ε] ≥ fx nach Wahl von f und daher folgt wieder mit der Monotonie

Fn (x) ≤ E

�

1 (−∞,x+ε]

� n�

i=1

Yi

��

+ 0.6ε = P

� n�

i=1

Yi ≤ x + ε

Da wie schon bemerkt laut Faltungssatz (Satz 10.77) n�

Yi ∼ N (0,1) gilt, ist

d.h. wir haben

P

� n�

i=1

Yi ≤ x + ε

i=1

�

= Φ(x + ε) ,

Fn (x) ≤ Φ(x + ε) + 0.6ε.

�

+ 0.6ε.

Der Mittelwertsatz der Differentialrechnung liefert Φ(x + ε) ≤ Φ(x) + εΦ ′ (ξ) für ein ξ ∈ R. Wegen

Φ ′ (ξ) = ϕ(ξ) ≤ 1

√ 2π ≤ 0.4 für die Dichte ϕ der Standard-Normalverteilung folgt somit

Ganz analog erhält man

und mit dem Mittelwertsatz zusätzlich

Zusammen zeigt das

Fn(x) ≤ Φ(x) + 0.4ε + 0.6ε = Φ(x) + ε.

Φ(x − ε) ≤ Fn(x) + 0.6ε

Φ(x) ≤ Φ(x − ε) + 0.4ε.

|Fn(x) − Φ(x)| ≤ ε

für alle x ∈ R und daher über (10.18) die Behauptung.

10.107 Satz (Fehlerabschätzung nach Berry-Esseen):

Im obigen zentralen Grenzwertsatz (Satz 10.100) gilt für jedes n ∈ N

�

� P

�

� �

Sn − E (Sn)

�

� 0.8γ

� ≤ x − Φ(x) � ≤ √

V (Sn) � nσ3 für jedes x ∈ R. Diese Relation gilt auch mit einem < anstelle von ≤. Außerdem gilt damit

�

� P

�

a ≤ Sn

�

− E (Sn)

�

� 1.6γ

� ≤ b − (Φ(b) − Φ(a)) � ≤ √

V (Sn) � nσ3 .

132 10 Allgemeine Modelle und stetige Verteilungen

Beweis:

Diese Abschätzungen folgen schon aus unserem Beweis des zentralen Grenzwertsatzes. Es ist nur etwas

Arbeitsaufwand, sie herauszulesen.

Beispiel 10.108:

Wir wollen Fehlerabschätzungen für den Grenzwertsatz von de Moivre-Laplace (Satz 9.2) im Fall p = 1

2

herleiten. Seien also X1,X2,... ∼ B � 1, 1

�

2 unabhängige Zufallsvariablen. Dann ist V (Xi) = 1

4 , d.h. mit

den Bezeichnungen des zentralen Grenzversatzes ist

Außerdem ist |Xi − E(Xi)| = 1

2 , da E (Xi) = 1

2

σ 3 = V (X) 3

2 = 1

8 .

ist, d.h.

�

γ = E |X1 − E(X1)| 3�

= 1

8 .

Daher ist γ

σ 3 = 1 und die Fehlerabschätzungen werden zu

0.8

√ n bzw. 1.6

√ n .

11 Markov-Ketten mit endlichem Zustandsraum 133

11 Markov-Ketten mit endlichem Zustandsraum

Die Idee

Wir wollen ein stochastisches Modell für die Bewegung eines Teilchens auf endlich vielen Zuständen

geben, wobei die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen Zustand und nicht von

der weiteren Vergangenheit abhängt. Diese Eigenschaft wird auch ” Markov-Eigenschaft“ genannt und ist

oftmals nur eine Approximation der Wirklichkeit. Die Lösung für ein solches Modell sind Markov-Ketten,

die wir in Abschnitt 11.2 kennen lernen werden.

Beispiel 11.1:

Wir betrachten einen Springer, der sich allein auf dem Schachbrett bewegt. Er wählt aus allen ihm

erlaubten Zügen jeweils rein zufällig (also gleichverteilt) den nächsten Raus. In diesem Beispiel entsprechen

die Zustände den 64 Feldern des Schachbretts und das Teilchen dem Springer.

Man kann sich jetzt etwa Fragen, wie lang die erwartete Zeit ist, bis der Springer wieder in seiner

Startposition ankommt.

Beispiel 11.2:

Ein weiteres Beispiel ist ein sogenannter ” Netbot“, der zufällig gemäß Ausgangslinks von Seite zu Seite

wandert.

Beispiel 11.3 (Markov):

Markov betrachtete ursprünglich folgendes Problem: Wenn die Folge von Vokalen / Konsonanten in

Puschkin’s Roman ” Eugene Onegin“ die Markov-Eigenschaft hätte, dann wäre die ” Übergangsmatrix“

(definieren wir weiter unten) gegeben durch

0.128

��

0.872

��

V ��

K

��

0.663

Heutzutage werden Markov-Ketten vor allem als Modell für DNA-Folgen genutzt, wobei das Alphabet

dann {A,C,G,T} ist.

Eine andere Interpretation von Markov-Ketten ist, dass ein System (�= Teilchen) sich in einem von endlich

vielen Zuständen befindet. Zu bestimmten Event-Zeitpunkten springt es dann in einen neuen Zustand.

Diese Interpretation wird heutzutage etwas bei der Pufferauslastung von Servern verwendet.

11.1 Steuerung der Sprünge: Übergangsmatrizen und -graphen

11.4 Definition:

Eine Zustandsmenge S ist eine endliche Menge.

Sei von jetzt an stets S eine Zustandsmenge. Oftmals ist S = {1,...,N}, allerdings verwenden wir oft das

Symbol 1 für den Zustand ” 1“, um nicht durcheinander zu kommen.

11.5 Definition:

0.337

Sei #S = N ∈ N. Eine N × N-Matrix P = (pi,j) i,j∈S mit den Eigenschaften

• pi,j ≥ 0 ∀ i,j ∈ S

• �

pi,j = 1 ∀ i ∈ S

j∈S

heißt stochastische Matrix oder Übergangsmatrix auf S.

In diesem Fall sind alle Zeilen von P stochastische Vektoren.

Notation 3:

Sei P eine Übergangsmatrix auf S. Für den Eintrag von P in der i-ten Zeile und j-ten Spalte schreiben

wir

P(i,j) = pi,j

bei i,j ∈ S.

134 11 Markov-Ketten mit endlichem Zustandsraum

Beispiel 11.6:

Wir wollen die tägliche Wetterentwicklung modellieren. Dazu sei

S := {Regen, Sonne, bewölkt} .

Wir nummerieren die Zustände in dieser Reihe durch (also Regen �= 1, Sonne �= 2, bewölkt �= 3).

Als Übergangsmatrix definieren wir

Das soll etwa bedeuten, dass

11.7 Definition:

P :=

⎛

⎜

⎝

0 1 0

1

3 0 2

3

1 1 1

3 3 3

⎞

⎟

⎠ .

P (morgen bewölkt | heute Sonne) = p2,3 = 2

3 .

Zu einer Übergangsmatrix P auf S gehört stets ein Übergangsgraph GP, welcher wie folgt zu konstruieren

ist:

Die Menge E der Ecken von GP ist S. Eine Kante von i ∈ S nach j ∈ S mit Gewicht pi,j wird gehört

genau dann zur Kantenmenge V von GP, wenn pi,j > 0 gilt.

Beispiel 11.8:

In unserem Wettermodell aus Beispiel 11.6 wäre der zugehörige Graph

1

3

��

2

��

1 ��

1

3

3 1

��

Beispiel 11.9 (Lieblingsbeispiel des Dozenten):

Betrachte die Übergangsmatrix

P =

3

� 0 1

Dann ist der zugehörige Übergangsgraph GP gegeben als

11.10 Definition:

1

2

1

2

1

3

�

��

1 ��

2

��

1

2

Sei G = (V,E) ein Graph und i,j ∈ V . Ein Pfad oder Weg von i nach j in G ist eine Folge von Ecken

.

2

3

vi,i1 ,vi1,i2 ,...,vin−1,in ,vin,j

zwischen den Punkten i und i1, i1 und i2,... entsprechend mit i1,...,in ∈ V .

Im allgemeinen existiert kein Pfad zwischen beliebigen i,j ∈ V . Für einen Pfad w gegeben durch i =

i0,i1,...,in = j von i nach j sei |w| = n seine Länge. Wir schreiben für w auch

i w ��

j.

Man kann Wege auch verknüpfen: Ist i w1 �

� j und j w2 �

� k, so ist i w1w2 �

� k ebenfalls ein Weg mit

|w1w2| = |w1| + |w2|.

1

2

.

1

11 Markov-Ketten mit endlichem Zustandsraum 135

11.11 Definition:

11.14 Satz:

Sei P eine Übergangsmatrix auf S. P beziehungsweise der zugehörige Übergangsgraph GP heißen

irreduzibel, wenn es für jedes Paar i,j ∈ S ein Pfad von i nach j von GP gibt.

Beispiel 11.12:

Die Übergangsmatrize bzw.- graphen aus obigen Beispielen 11.6 und 11.9 sind beide irreduzibel. Betrachtet

man dagegen die Übergangsmatrix �

1

P =

�

0

,

so sieht man am zugehörigen Graphen

1

��

1

2

1

2

1

��

2

��

leicht, dass dieses Beispiel nicht irreduzibel ist - es gibt keinen Pfad von 1 nach 2 !

Bemerkung 11.13:

1

2

Man beobachtet nun Folgendes: Ist P eine Übergangsmatrix auf S, so beschreibt eine Folge von Zuständen

aus S genau dann einen Pfad von i nach j, wenn

ist, d.h. falls die Zahl

strikt positiv ist.

pi0,i1

i = i0, i1, ...,in−1, in = j

> 0 und pi1,i2 > 0 und ... und pin−1,in > 0

n−1 �

ν=0

piν,iν+1

Wir definieren diese Zahl als das Gewicht des Pfades und die Zahl n als seine Länge.

11.1.1 Potenzen der Matrix P

Im Weiteren benötigen wir ständig n-te Potenzen der Matrix P. Sei n ∈ N und N = #S. Man beachte:

• Die N × N-Matrix P2 = P · P ist gegeben durch

P 2 (i,j) = �

pi,k · pk,j = �

P(i,k) · P(k,j) , i,j ∈ S.

k∈S

• Allgemein folgt induktiv für P n = P · P n−1 , dass

P n (i,j) = �

i1,...,in−1∈S

1

2

pi,i1 · ... · pin−1,j, i,j ∈ S, (11.1)

d.h. dass die Zahl P n (i,j) genau die Summe aller Gewichte von Pfaden der Länge n von i nach j

ist.

Damit haben wir sofort folgenden

Sei P eine Übergangsmatrix auf S. Dann gilt:

P ist genau dann irreduzibel, wenn es für jedes Paar i,j ∈ S ein n = n(i,j) ∈ N mit

gibt.

P n (i,j) > 0

136 11 Markov-Ketten mit endlichem Zustandsraum

Beweis:

Ist P irreduzibel, so gibt es zu i,j ∈ S ein n = n(i,j) und einen Pfad der Länge n von i nach j mit

Gewicht λ ∈ (0,1]. Wie wir oben schon beobachtet haben, ist P n (i,j) die Summe aller Gewichte von

Pfaden der Länge n von i nach j, und da Gwichte von Pfaden stets positiv sind folgt

P n (i,j) ≥ λ > 0.

Gibt es zu i,j ∈ S ein n = n(i,j) mit P n (i,j) > 0, so bedeutet das aus dem gleichen Grund, dass ein

Pfad von i nach j in GP der Länge n existiert.

Beispiel 11.15:

Sei

Dann ist � 1 0

0 1

�

P =

= P 2 = P 4 = ... und

� 0 1

1 0

�

.

� 0 1

1 0

�

= P = P 3 = P 5 = ....

Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugehörigen

Graphen GP leicht erkennen:

Beispiel 11.16:

Wir betrachten wieder die Übergangsmatrix

aus Beispiel 11.9. Dann ist

1

��

1 ��

2 .

P =

P 2 =

1

� 0 1

1

2

�

1

2

1

4

� �

womit offenbar n = 2 für jedes Paar i,j ∈ S =

zu zeigen.

1 , 2 ausreicht, um die Irreduzibilität mit dem Satz

Wir werden meist nur irreduzible Übergangsmatrizen P

betrachten!

11.1.2 Die Periode einer Übergangsmatrix

11.17 Definition:

Sei P eine irreduzible Übergangsmatrix auf S. Die Periode eines Zustands i ∈ S ist der größte gemeinsame

Teiler der Menge

Beispiel 11.18:

{n ∈ N | es gibt einen Pfad der Länge n von i nach i} = {n ∈ N | P n (i,i) > 0} .

Wir betrachten wieder die Übergangsmatrix

P =

1

2

1

2

3

4

� 0 1

1 0

aus Beispiel 11.15.

� �

Für den Zustand i = 1 existieren offenbar Pfade mit Längen 2,4,6,8,... von i nach

i, daher ist d 1 = 2. Das kann man mit der zweiten Charakterisierung der Menge aus der Definition

auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen.

� �

Genauso ist d 2 = 2.

�

11.20 Satz:

11 Markov-Ketten mit endlichem Zustandsraum 137

Beispiel 11.19:

Wir kommen wieder zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist

� �

0 1

P = .

1

2

• Für i = 1 finden wir offenbar Pfade von i nach i mit den Längen 2,3,4,5,6 usw., schließlich können

wir im Zustand

� �

2 “ immer rotieren. Das größte gemeinsame Teiler dieser Menge ist 1, d.h. wir

”

haben d 1 = 1.

• Für i = 2 gibt es sogar

�

einen

�

Pfad von i nach i mit Länge 1, weshalb es keinen größeren Teiler als

1 geben kann. Es folgt d 2 = 1.

Nach diesen beiden Beispielen kann man schon vermuten: Für jedes i ∈ S ist d(i) gleich. In der Tat ist

diese Aussage stets richtig:

Sei P eine irreduzible Übergangsmatrix auf S. Dann ist die Periode d(i) für jedes i ∈ S gleich.

Beweis:

Seien i,j ∈ S. Es genügt zu zeigen, dass d(i) die Zahl d(j) teilt, also d(i) � � d(j).

Da P irreduzibel ist finden wir einen Weg i w1 ��

j mit |w1| = r und j w2 ��

i mit |w2| = r. Insbesondere

ist dann

mit |w1w2| = r + s. Das zeigt zunächst

1

2

i w1w2 ��

i

d(i) � �r + s. (11.2)

Ist nun j w �

��

j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i) �n. Da dann

ein Pfad mit |w1ww2| = r + s + n ist, folgt daraus

i w1ww2 ��

i

Mit (11.2) und (11.3) folgt aber d(i) � � n, was zu zeigen war.

Bemerkung 11.21:

d(i) � �r + s + n. (11.3)

Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zuständen

auch für nicht irreduzible Übergangsmatrizen P definieren, allerdings kann dann d(i) �= d(j) für i �= j,

i,j ∈ S gelten.

11.22 Definition:

Sei P eine irreduzible Übergangsmatrix auf S. Wir nennen die Zahl

d := d(i), i ∈ S beliebig

die Periode von P. Nach obigem Satz ist d wohldefiniert.

11.23 Definition:

Sei P eine irreduzible Übergangsmatrix auf S. Ist d = 1, so nennen wir P aperiodisch.

Bemerkung 11.24:

Zur Bestimmung der Periode d kann man sich also ein i ∈ S aussuchen. Gibt es im Übergangsgraphen

GP zum Beispiel eine Schleife der Form

p1

... ��

��

i ��

so wählt man als Zustand i und hat sofort d = 1.

p2

p3>0

11.27 Satz:

138 11 Markov-Ketten mit endlichem Zustandsraum

Beispiel 11.25:

Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen

1

2

��

1 ��

2 ��

3 ��

4

1

2

1

2

1

2

� �

gegeben ist. Da es offenbar nur Wege gerader Längen von i nach i für jedes i ∈ S = 1 , 2 , 3 , 4

geben kann, ist d = 2.

Beispiel 11.26:

Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen

1

2

1

2

��

1

��

1

2

��

2

��

3

1

2

� �

gegeben ist. Dann finden wir für jedes i ∈ S =

folgt.

1 , 2 , 3 Wege der Länge 2 und 3, weshalb d = 1

Seine Übergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n ∈ N mit

gibt.

Beweis:

1

2

P n (i,j) > 0 ∀ i,j ∈ S

Wir wollen die folgende zahlentheoretische Tatsache verwenden:

Ist der größte gemeinsame Teiler ggT (n1,n2,...) unendlich vieler natürlicher Zahlen = 1, so gibt es ein

k ∈ N mit ggT (n1,...,nk) = 1. Dann existiert ein M ∈ N s.d. jedes m ≥ M geschrieben werden kann als

m = a1 · n1 + ... + aknk

mit Koeffizienten ai ∈ N, i = 1,..,k. Dies sieht man leicht über die Theorie der Hauptideale ein.

” ⇒“ Sei 1 ∈ S. Da P aperiodisch ist, ist d

� �

1 = 1 und es gibt nach unserer zahlentheoretischen

Tatsache ein M ∈ N, s.d. für alle m ≥ M ein Weg

existiert.

1

w ��

1 , |w| = m

Für #S = N setze nun n := M + 2N. Da P irreduzibel ist, finden wir zu i,j ∈ S beliebig einen

Weg

i w1 ��

j

mit |w1| ≤ N, indem wir keine Zustände unnötigerweise doppelt besuchen. Genauso existiert auch

ein Weg

w2

1 ��

j

mit |w2| ≤ N. Gemäß der Wahl von M finden wir einen Pfad

1

w ��

1

2

1

2

1

11 Markov-Ketten mit endlichem Zustandsraum 139

mit |w| = 2N − |w1| − |w2| + M ≥ M. Damit ist

mit |w1ww2| = 2N + M, also P n (i,j) > 0.

i w1ww2 ��

j

” ⇐“ Ist Pn (i,j) > 0 für alle i,j ∈ S, so folgt aus der Darstellungsformel

P n+1 (i,j) = �

P(i,k) · P n (k,j)

k∈S

und der Tatsache, dass jede Zeile von P ein stochastischer Vektor der Länge N ist , auch sofort

P n+1 (i,j) > 0 ∀ i,j ∈ S. Daher gibt es Wege der Länge n und n + 1 von 1 nach 1 . Es folgt

d(1) � � (n + 1) − n = 1 und somit d(1) = 1. Daher ist P aperiodisch.

Die Irreduzibilität von P folgt bereits aus Satz 11.14.

11.2 Markov-Ketten

Von jetzt an werden wir stets ohne Einschränkung S = {1,...,N} annehmen. Bisher haben wir in diesem

Zusammenhang unsere Zustände stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen.

Es ist aus dem Kontext klar, ob ein Zustand oder eine Zahl gemeint ist.

11.28 Definition:

Eine Startverteilung auf S = {1,...,N} ist eine Wahrscheinlichkeitsverteilung

11.29 Definition:

π0 := (π0 (1) ,...,π0 (N)).

Sei P eine Übergangsmatrix und π0 eine Startverteilung auf S.

Eine Markov-Kette zu P mit Startverteilung π0 ist eine Folge

X0,X1,X2,X3,...

von (diskreten) Zufallsvariablen mit Werten in S, s.d.

(1) P (X0 = i) = π0 (i) (Startverteilung)

(2) (Markov-Eigenschaft)

Für alle Wahlen n ≥ 0, 0 ≤ k ≤ n, in+1,...,in−k ∈ S mit P (Xn = in,...,Xn−k = in−k) �= 0 gilt

P (Xn+1 = in+1 | Xn = in,...,Xn−k = in−k) = P (Xn+1 = in+1 | Xn = in) = P(in,in+1) .

Bemerkung 11.30:

(1) Xn gibt in diesem Modell den zufälligen Zustand zur Zeit n ∈ N an.

(2) Die Markov-Eigenschaft (oder auch kurz ME) modelliert die Eigenschaft des stochastischen

Prozesses X0,X1,X2,..., dass ” die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen

Zustand und nicht von der weiteren Vergangenheit abhängt“, wie wir es in der Idee zu Beginn

gefordert haben.

Die Forderung P (Xn = in,...,Xn−k = in−k) �= 0 ist mathematisch unerlässlich, wir werden sie aber

stets stillschweigend annehmen.

Man kann sich nun Fragen, ob es überhaupt Markov-Ketten gibt (d.h. ob für jede Übergangsmatrix und

jede Startbedingung Zufallsvariablen X0,X1,... mit obigen Eigenschaften existieren). Die Maßtheorie

beantwortet diese Frage mit ja.

Man kann nun einige Eigenschaften von X0,X1,X2 berechnen und zeigen, dass es sich um das ” richtige“

Modell für das zufällige, durch P gesteuerte Wandern auf GP bei zufälligem, durch π0 gesteuertem Start

handelt.

140 11 Markov-Ketten mit endlichem Zustandsraum

11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten

Wir betrachten hier stets einen Markov-Prozess aus Definition 11.29.

Bemerkung 11.31 (Pfadwahrscheinlichkeiten):

Für m ∈ N und i0,i1,...,im ∈ S haben wir

P � �

Xn+m = im,Xn+m−1 = im−1,...,Xn = i0

� ��

=:B

Daher folgt induktiv

P (Xn+m = im,Xn+m−1 = im−1,...,Xn = i0) =

= P (Xn+m = im | B)

Markov-Eigenschaft

= P(im−1,im) · P (B).

m�

P(iν−1,iν) · P (Xn = i0) .

Die Wahrscheinlichkeit P (Xn = i0) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist

P (X0 = ii) = π0 (i0)

durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit also

genau unseren Wünschen!

Bemerkung 11.32 (m-Schritt Übergangswahrscheinlichkeiten):

Sind i,j ∈ S, so erhält man durch disjunkte Zerlegung von S in seine Elemente sofort

=

ν=1

P (Xn+m = j,Xn = i)

�

P (Xn+m = j,Xn+m−1 = im−1,...,Xn+1 = i1,Xn = i)

im−1,...,i1∈S

Bemerkung 11.31

= P (Xn = i) · �

im−1,...,i1∈S

(11.1)

= P (Xn = i) · P(i,j) .

Insbesondere folgt durch Division des Terms P (Xn = i), dass

Beispiel 11.33:

Ist

P (Xn+m = j | Xn = i) = P m (i,j) .

P =

� 0 1

die Übergangsmatrix aus Beispiel 11.9, so berechnet man

�

P 2 =

�

1

2

1

4

1

2

3

4

, P 4 =

�

3

8

5

16

5

8

11

16

1

2

1

2

P(i,i1) · P(i1,i2) · ... · P(im−1,j)

�

, P 10 ≈

� 0.33398 0.66602

Daher ist zum Beispiel P (Xn+4 = 1 | Xn = 2) = P4 (2,1) = 5

16 = 0.3125.

Bemerkung 11.34 (Verteilung zur Zeit n):

Sei

πn (j) := P (Xn = j) , j ∈ S

0.33301 0.66699

die Verteilung von Xn. Dann ist πn ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit der

Formel von der totalen Wahrscheinlichkeit für jedes j ∈ S

πn (j) = P (Xn = j)

(3.2)

=

�

P (Xn = j | X0 = i) · P (X0 = i)

Bemerkung 11.32

=

i∈S

�

P n (i,j) · π0 (i)

i∈S

= (π0P n ) (j) ,

�

11 Markov-Ketten mit endlichem Zustandsraum 141

wobei π0P n das Matrix-Produkt aus dem Zeilenvektor (also der 1 ×N-Matrix) π0 und der N ×N-Matrix

P n bezeichnet. Das liefert die Formel

Beispiel 11.35:

πn = π0P n . (11.4)

Wir betrachten wieder das Setting aus Beispiel 11.33. Ist etwa π0 = (0,1), d.h. starten wir mit Sicherheit

im Zustand 2, so ist

π4 = π0P 4 = zweite Zeile von P 4 � �

5 11

= , .

16 16

Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet.

Ist dagegen π0 = � �

1 1

2 , 2 , was etwa einem Münzwurf für den Startzustand entspricht, so ist

π4 = π0P 4 = 1

2 · erste Zeile von P4 + 1

2 · zweite Zeile von P4 � �

11 21

= , .

32 32

Wir werden im nächsten Abschnitt allgemein sehen, dass

für jede beliebige Startverteilung π0 gilt!

πn

n

��

∞ ��

�

1 2

,

3 3

11.3 Invariante Maße und Konvergenzsätze

11.36 Definition:

Ist P eine Übergangsmatrix und π eine Wahrscheinlichkeitsverteilung auf S mit der Eigenschaft, dass

ist, so nennt man π eine invariante Verteilung.

Bemerkung 11.37:

πP = π

Der Begriff ” invariant“ macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt

πP n = πP � P n−1� = πP n−1 = ... = π.

D.h. wenn X0,X1,X2,... eine Markov-Kette zu P mit der speziellen Startverteilung π0 = π ist, so gilt

nach (11.4).

11.38 Satz (Konvergenzsatz):

πn = π ∀ n ∈ N

Sei P eine irreduzible und aperiodische Übergangsmatrix.

(1) Dann gibt es genau eine invariante Verteilung π zu P. Außerdem konvergieren alle Zeilen von P n

(exponentiell schnell) gegen π, d.h.

P n (i,j)

n

�

��

∞ ��

π (j) ∀ i ∈ S.

(2) Ist X0,X1,X2,... eine Markov-Kette zu P und einer beliebigen Startverteilung π0, so gilt

d.h. P (Xn = j)

n

πn

��

∞ ��

π (j) für alle j ∈ S.

n

��

∞ ��

π,

142 11 Markov-Ketten mit endlichem Zustandsraum

Beweis:

(1) Wir unterteilen den Beweis in zwei Schritte:

Sei j ∈ S beliebig aber fest. Wir setzen

Wegen

und

ist die Folge m (n)

j

fallend in n.

Schritt I

m (n)

j := min

i∈S Pn (i,j) �= Minimum der Werte der j − en Spalte von P n ,

M (n)

j := max

i∈S Pn (i,j) �= Maximum der Werte der j − en Spalte von P n .

Unser Ziel ist es nun zu zeigen, dass

gilt.

m (n+1)

j = min

i∈S Pn+1 (i,j)

= min

i∈S

≥ min

i∈S

= m (n)

j

�

P(i,k) P n (k,j)

k∈S

�

k∈S

P(i,k) m (n)

j

M (n+1)

j = max

i∈S Pn+1 (i,j)

= max

i∈S

≤ min

i∈S

= M (n)

j

�

P(i,k) P n (k,j)

k∈S

�

k∈S

P(i,k) M (n)

j

monoton wachsend in n (nicht zwingend streng) und die Folge M(n)

j monoton

M (n)

j

− m(n)

j

n

��

∞ ��

0 (11.5)

Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L ∈ N und ein δ > 0 gibt,

s.d.

P L (i,j) ≥ δ ∀ i,j ∈ S

ist. Sei n ∈ N zunächst fest. Wähle

• ein i0 ∈ S mit

und

• ein i1 ∈ S mit

Sei nun

und I− := S \ I+. Mit dieser Einteilung folgt

�

k∈I+

P n+L (i0,j) = m (n+L)

j

P n+L (i1,j) = M (n+L)

j .

I+ := � k ∈ S | P L (i1,k) ≥ P L (i0,k) �

� L

P (i1,k) − P L (i0,k) � + � � L

P (i1,k) − P L (i0,k) � = �

k∈I−

k∈S

P L (i1,k) − �

P L (i0,k)

k∈S

= 1 − 1 = 0. (11.6)

11 Markov-Ketten mit endlichem Zustandsraum 143

Damit gilt dann

M (n+L)

j

− m (n+L)

j = P n+L (i1,j) − P n+L (i0,j)

= �

P n (i1,k) P L (k,j) − �

k∈S

� L

P (i1,k) − P L (i0,k) �

= �

P

� ��

n (k,j)

k∈S

=:dk

= �

dkP n (k,j) + �

dkP n (k,j) ,

k∈I+

k∈I−

P n (i0,k) P L (k,j)

und da für k ∈ I+ offenbar dk ≥ 0 und für k ∈ I− offenbar dk < 0 gilt folgt so

M (n+L)

j − m (n+L)

j ≤ � �

+

(11.6)

=

Induktiv folgt also für jedes m ∈ N, dass

�

M (m·L)

j

Da wir schon wissen, dass m (n)

j

Aussage (11.5).

Setze nun

≤

k∈I+

�

k∈I+

dkM (n)

j

dk

�

M (n)

j

�

M (n)

j

− m(n)

j

�

≤ (1 − δ) · M (n)

j

− m (m·L)

� �

m

j ≤ (1 − δ)

M (0)

j

k∈I−

− m(n)

j

�

· �

− m(0) j

k∈I+

dkm (n)

j

�

− m(n)

j

�

� ��

≤1

monoton wächst und M(n)

j

Schritt II

π (j) := lim

n→∞ m(n) j = lim

n→∞ M(n) j .

� P L (i1,k) − δ �

�

.

m

��

∞ ��

0.

monoton fällt folgt so die behauptete

Da die Folgen m (n)

j und M (n)

j beschränkt (durch [0,1]) und monoton sind, existieren diese Grenzwerte.

Wegen

m (n)

j ≤ Pn (i,j) ≤ M (n)

j ∀ i ∈ S

folgt sofort

P n (i,j)

n

��

∞ ��

π (j)

für alle j ∈ S. Nun weisen wir die noch fehlenden Eigenschaften nach:

• Wir müssen zeigen, dass π ein Wahrscheinlichkeitsvektor ist. Da aber

(P n (1,j)) j∈S

für jedes n ∈ N ein Wahrscheinlichkeitsvektor ist und diese Folge für n

vergiert, ist diese Aussage klar.

• Wir müssen zeigen, dass π eine invariante Verteilung für P ist. Das folgt aus

πP(j) = �

π(k)P(k,j) ←− n

k∈S

für jedes j ∈ S.

��

�

∞

k∈S

P n (i,k) π(k)P(k,j) = P n+1 (i,j)

��

∞ gegen π kon-

n

��

∞ ��

π(j)

144 11 Markov-Ketten mit endlichem Zustandsraum

• Wir müssen zeigen, dass π eindeutig bestimmt ist. Sei dazu π ′ eine Wahrscheinlichkeitsverteilung

mit π ′ = π ′ P. Insbesondere ist dann π ′ = π ′ P n für alle n ∈ N und daher gilt für alle

j ∈ S

Im Grenzübergang n

π ′ (j) = �

��

∞ ist Pn (k,j)

k∈S

π ′ (k)P n (k,j) .

��

π (j), d.h. es folgt

π ′ (j) = �

π ′ (k) π(j) = π(j)

k∈S

� ��

=1

für alle j ∈ S, was gleichbedeutend mit π = π ′ ist.

(2) Mit Teil (1) folgt leicht für jede beliebige Startverteilung π0 und jedes j ∈ S

Das zeigt πn

Beispiel 11.39:

n

P (Xn = j) = πn (j)

��

∞ ��

π.

Bemerkung 11.34

n

= (π0P n ) (j)

�

= π0(k) P

k∈S

n (k,j)

� ��

n ��

∞ �

��

∞ ��

π (j) �

π0(k)

= π(j).

Wir haben schon gesehen, dass die Übergangsmatrix

� �

0 1

P =

1

2

1

2

k∈S

� ��

=1

aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zunächst eine invariante Verteilung π,

d.h. ein π = (π(1),π(2)) mit πP = π. Das liefert das Gleichungssystem

1

π(2)

2

= π(1)

π(1) + 1

π(2)

2

= π(2),

woraus nur π = (a,2a) mit einem beliebigen a ∈ R folgt. Da allerdings π ein Wahrscheinlichkeitsvektor

. Es folgt, dass

sein soll, muss a + 2a = 1 gelten, d.h. a = 1

3

π =

� �

1 2

,

3 3

die einzige invariante Verteilung zu P ist, was eine Probe leicht bestätigt:

� �

1 2

πP = ,

3 3

� � � �

0 1 1 2

= , = π.

3 3

Mit Satz 11.38 folgt also

und P (Xn = 1)

n

��

∞ ��

1

3 , P (Xn = 2)

1

2

1

2

P n �

n ��

1

∞ ��

3

n

1

3

��

∞ ��

2

3

2

3

2

3

�

� π(j)

für jede beliebige Startverteilung π0.

11 Markov-Ketten mit endlichem Zustandsraum 145

11.40 Hilfssatz:

Sei P eine irreduzible Übergangsmatrix auf S = {1,...,N}. Dann ist die Matrix

�

Pk := 1 − 1

�

P +

k

1

k IN

für die N × N-Einheitsmatrix IN für jedes k ∈ N≥2 aperiodisch und irreduzibel.

Beweis:

Laut Satz 11.27 müssen wir zeigen, dass es ein M ∈ N gibt, s.d. P M k

(i,j) > 0 ∀ i,j ∈ S.

Da P irreduzibel ist, gibt es gemäß Satz 11.14 zu jedem Paar i,j ∈ S ein n(i,j) mit Pn(i,j) (i,j) > 0.

Setze nun

M := max n(i,j) .

i,j∈S

Sei nun i,j ∈ S beliebig. Mit dem binomischen Lehrsatz gilt offenbar

P M k =

M�

ν=0

da I j

N = IN und P · IN = IN · P = P. Also ist

P M k (i,j) =

M�

� � �

M

1 −

ν

ν=0

1

�ν 1

k kM−ν P

� ��

>0

ν (i,j)

� ��

≥0

Das zeigt die Behauptung.

11.41 Satz (Invariante Verteilung):

� ��

M

1 −

ν

1

�ν 1

k kM−ν Pν ,

≥

� � �

M

1 −

n(i,j)

1

�n(i,j) 1

k kM−n(i,j) Pn(i,j) (i,j) > 0.

Ist P eine irreduzible Übergangsmatrix, so gibt es genau eine invariante Verteilung π zu P.

Beweis:

Sei wieder ohne Einschränkung S = {1,...,N}.

• Existenz:

Sei IN die N × N-Einheitsmatrix. Für k ∈ N≥2 setze

�

Pk := 1 − 1

�

P +

k

1

k IN. (11.7)

Diese Matrix ist gemäß Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zu

jedem k ∈ N≥2 genau eine invariante Verteilung π (k) zu Pk.

Da π (k) Koordinatenweise durch [0,1] beschränkt ist, existiert eine Teilfolge ki s.d.

π ki

i

��

∞ ��

π

für eine Wahrscheinlichkeitsverteilung π gilt. Diese erfüllt dann

Mit i

• Eindeutigkeit:

��

∞ in dieser Gleichung folgt

π ki = π ki · Pki .

π = π · P.

Ist π = πP und π ′ = π ′ P für zwei Wahrscheinlichkeitsverteilungen π,π ′ , so folgt insbesondere nach

(11.7), dass

was nach Satz 11.38 π = π ′ zur Folge hat.

π = πP2

π ′ = π ′ P2,

Der Konvergenzsatz lässt sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen dieses

Ergebnis allerdings nur ohne Beweis angeben:

146 11 Markov-Ketten mit endlichem Zustandsraum

Bemerkung 11.42 (Konvergenzsatz für periodische Matrizen):

Sei d > 1 die Periode der irreduziblen Übergangsmatrix P. Setze

Si(n) := {j ∈ S | es gibt einen Pfad der Länge n von i nach j in S}.

Für j /∈ Si(n) ist dann P (Xn = j) = 0 und es gilt

exponentiell schnell.

max

j∈Si(n) |P (Xn = j) − d · π(j)|

11.4 Rückkehrzeiten und starkes Gesetz

11.43 Definition:

n

��

∞ ��

0

Sei P eine irreduzible Übergangsmatrix auf S = {1,...,N} und i ∈ S. Sei Ti die zufällige Zeit (∈ N), die

vergeht, bis die ” in i gestartete“ Markov-Kette X0,X1,X2,... zu P wieder in i ankommt. Dabei bedeutet

in i gestartet, dass π0 = ei für den i-ten karthesischen Einheitsvektor ei gilt. Dann ist

und wir nennen Ti die Rückkehrzeit von i.

Bemerkung 11.44:

Beachte, dass

Beispiel 11.45:

Ti = inf {n ≥ 1 | Xn = i}

{Ti = n} = {Xn = i,.Xn−1 �= i,...,X1 �= i,X0 = i} .

Betrachte wieder die Übergangsmatrix P zum Übergangsgraphen GP aus Beispiel 11.9:

1

��

1 ��

2

��

1

2

Identifiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert der zufälligen Größe T1 bestimmen.

Offenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) = � �

1 n

2 für n ≥ 1. Damit folgt

∞�

E (T1) = n · P (T1 = n)

=

n=0

∞�

� �n−1 1

n

2

n=2

∞�

� �n 1

(n + 1)

2

n=1

1

2

∞�

� �n ∞�

� �n 1 1

n + .

2 2

n=1

� ��

=1

Da die erste Summe dem Erwartungswert einer Zufallsvariablen X ∼ Geo � �

1

2 entspricht ist ihr Wert = 2,

d.h. wir haben

E (T1) = 3.

Für Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) = 1

2 ist

E (T2) = 1 · 1 1 3

+ 2 · =

2 2 2 .

Insbesondere sehen wir in diesem Beispiel schon, dass

für die zu P invariante Verteilung π = � �

1 2

3 , 3 gilt.

E (Ti) = 1

π(i)

11 Markov-Ketten mit endlichem Zustandsraum 147

11.46 Satz (Positive Rekurrenz - ohne Beweis):

Sei P eine irreduzible Übergangsmatrix und X0,X1,... die zugehörige in i ∈ S gestartete Markov-Kette.

Dann gilt:

(1) Man kehrt sicher zu i zurück, d.h.

(2) Es ist

∞�

P (Ti = n) = 1.

n=1

E (Ti) =

∞�

P (Ti = n) < ∞.

n=1

Ein Teil des Beweises ist Aufgabe 5 des Übungsblatts 12.

Bemerkung 11.47:

Ist #S = ∞, so ist der Satz von der positiven Rekurrenz im allgemeinen falsch.

11.4.1 Der Rückkehrzeitensatz

11.48 Lemma:

Sei X0,X1,X2,... eine Markov-Kette und E ⊂ Sn . Dann gilt für jedes in+1,in ∈ S

P � �

Xn+1 = in+1 | Xn = in,(X0,...,Xn−1)

∈ E = P (Xn+1 = in+1 | Xn = in) .

� ��

(11.8)

=:A =:B =:C

Beweis:

Wir zerlegen das Ereignis C disjunkt als

C = �

k∈I

mit Ck’s von der Form {X0 = i0,...,Xn−1 = in−1} für ein Tupel (i0,...,in−1) ∈ E. Nach der Markov-

Eigenschaft gilt

P (A | B ∩ Ck) = P (A | B) ∀ k ∈ I,

d.h. es folgt

Ck

P (A ∩ B ∩ Ck) = P (A | B) · P (B ∩ Ck) ∀ k ∈ I

nach Definition der bedingten Wahrscheinlichkeit. Bilden der Summe über k ∈ I liefert

was per Definition gleichbedeutend mit

ist - das ist genau die Behauptung.

11.49 Satz (Rückkehrzeitensatz):

P (A ∩ B ∩ C) = P (A | B) · P (B ∩ C) ,

P (A | B ∩ C) = P (A | B)

Sei P eine irreduzible Übergangsmatrix und π die zugehörige invariante Verteilung. Dann gilt

für jedes i ∈ S.

Beweis:

E (Ti) = 1

π(i)

Wir betrachten bei Start im Zustand i ∈ S die Hilfsfunktion

µ(k) :=

∞�

P (Xn = k,Ti > n) , k ∈ S.

n=0

Dabei ist X0,X1,X2,... die in i gestartete Markov-Kette mit Übergangsmatrix P und die Zahlen

P (Xn = k,Ti > n) entsprechen der Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aber

bis zur Zeit n noch nicht wieder in i war.

148 11 Markov-Ketten mit endlichem Zustandsraum

Ohne Einschränkung nehmen wir wieder S = {1,...,N} an. Setze dann

Dann gilt

N�

µ(k) =

k=1

µ := (µ(1),...,µ(N)).

=

∞�

n=0 k=1

N�

P (Xn = k,Ti > n)

∞�

P (Ti > n)

n=0

∞�

P (Ti ≥ n)

n=1

(5.3)

= E (Ti)

und diese Zahl ist nach dem Satz über die positive Rekurrenz oben < ∞. Daher ist

� �

1 µ(1) µ(N)

· µ = ,...,

E (Ti) E (Ti) E (Ti)

ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Verteilung

von P handelt.

Zur Vorbereitung berechnen wir für k ∈ S, k �= i und j ∈ S, dass

P (Xn+1 = j,Xn = k,Ti > n) = P (Xn+1 = j | Xn = k,Ti > n) · P (Xn = k,Ti > n) .

Verwenden wir nun das Lemma oben für E = {(i,j1,...,jn−1) ∈ S n | j1,...,jn−1 �= i}, so folgt wegen

dass

{Ti > n} = {Xn−1 �= i,...,X1 �= i,X0 = i} ˆ=(X0,...,Xn−1) ∈ E,

P (Xn+1 = j,Xn = k,Ti > n)

(11.8)

= P (Xn+1 = j | Xn = k) · P (Xn = k,Ti > n)

= P(k,j) · P (Xn = k,Ti > n) .

Man beobachtet schnell, dass diese Gleichung auch für k = i richtig bleibt:Ist n > 0, so sind zwingend

beide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P(i,j).

Es genügt nun zu zeigen, dass µP = µ ist, der Faktor 1

E(Ti)

braucht nicht beachtet zu werden (da er auf

beiden Seiten auftaucht). Mit obiger Rechnung gilt für j ∈ S:

(µP) (j) = �

µ(k) · P(k,j)

=

k∈S

∞� �

P (Xn = k,Ti > n) P(k,j)

n=0 k∈S

∞� �

P (Xn+1 = j,Xn = k,Ti > n)

n=0 k∈S

∞�

P (Xn+1 = j,Ti > n) .

n=0

Jetzt unterscheiden wir: Für j �= i erhält man damit

(µP) (j) =

=

∞�

P (Xn+1 = j,Ti > n)

n=0

∞�

P (Xn+1 = j,Ti > n + 1)

n=0

= µ(j) − P (X0 = j,Ti > 0)

= µ(j),

11 Markov-Ketten mit endlichem Zustandsraum 149

und für i = j erhält man

Beachte nun noch, dass

(µP) (j) =

=

∞�

P (Xn+1 = j,Ti > n)

n=0

∞�

P (Ti = n + 1)

n=0

Satz 11.46

= 1.

∞�

µ(i) = P (Xn = i,Ti > n) = P (Xn = i,Ti > n) +P (X0 = i,Ti > 0) = 1.

� ��

n=0

n=1

=0

=1

1

Das zeigt, dass E(Ti) ·µ eine invariante Verteilung für P ist. Gemäß Satz 11.41 ist die invariante Verteilung

eindeutig, d.h. wir haben

1

· µ(i) = π(i).

E (Ti)

Wegen µ(i) = 1 wie oben berechnet folgt daraus die Behauptung.

11.50 Satz (Starkes Gesetz - ohne Beweis):

Sei P irreduzible Übergangsmatrix und sei f : S

dann mit Wahrscheinlichkeit 1: 4

��

R eine Funktion. Für jede Startverteilung π0 gilt

Ist x0,x1,x2,... ein zufälliger Pfad der Markov-Kette X0,X1,... zu P und π0 (d.h. eine ” Realisierung“

dieser Markov-Kette), so konvergiert das Zeitmittel von f gegen das Raummittel Eπ(f):

n−1

1 �

f(xk)

n

k=0

Dabei bezeichnet π die invariante Verteilung zu P.

Insbesondere gilt für A ⊆ S und f := 1A, dass

1

n # {0 ≤ k ≤ n − 1 | xk ∈ A}

��

∞ �

��

f(j)π(j).

n

j∈S

��

∞ �

��

π(j) = π(A).

D.h. die Anzahl der Besuche“ in A konvergiert mit Wahrscheinlichkeit 1 für n

”

scheinlichkeit von A unter der invarianten Verteilung π.

Speziell für A = {i} gilt also

1

n # {0 ≤ k ≤ n − 1 | xk = i}

4 Eine Konvergenz dieser Art nennt man fast sichere Konvergenz.

n

j∈A

��

∞ ��

π(i).

��

∞ gegen die Wahr

150 11 Markov-Ketten mit endlichem Zustandsraum

11.5 Beispiele

11.5.1 Irrfahrt auf ungerichtetem Graphen

In diesem Abschnitt bezeichnen wir Elemente aus S wieder mit i usw. um Zahlen von Ecken zu unterscheiden.

Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S.

11.51 Definition:

Für jede Ecke i ∈ S sei

Beispiel 11.52:

Sei G gegeben als

d(i) := # {j ∈ S | es gibt eine Kante zwischen i und j} .

1 2

��

3

4

� � � � � � � � � �

Dann ist d 2 ) = # 1 , 2 , 3 = 3, d 1 = 2, d 3 = 3, d 4 = 1.

Wir wandern nun rein zufällig auf diesem Graphen, in dem wir jeweils gleichverteilt die nächste Ecke

unter den mit i verbunden Ecken wählen. D.h.

11.53 Definition:

Sei P die N × N-Matrix mit

P(i,j) =

Offenbar ist P tatsächlich eine stochastische Matrix:

11.54 Definition:

Wir setzen

11.55 Satz:

Damit ist

�

P(i,j) =

j∈S

eine invariante Verteilung von P.

� 0 falls keine Kante zwischen i und j existiert,

1

d(i) falls eine Kante zwischen i und j existiert.

�

j∈{k | es gibt eine Kante zwischen i und k}

D := �

d(i).

i∈S

π(i) := d(i)

, i ∈ S

D

1 d(i)

= = 1 ∀ i ∈ S.

d(i) d(i)

11 Markov-Ketten mit endlichem Zustandsraum 151

Beweis:

Man berechnet

für j ∈ S.

Bemerkung 11.56:

(πP) (j) = �

π(i)P(i,j)

=

i∈S

�

i∈{k | es gibt eine Kante zwischen i und j}

d(i)

D

· 1

d(i)

= 1

· # {k | es gibt eine Kante zwischen i und j}

D

= d(j)

D

= π(j)

Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher π nicht zwingend eindeutig

bestimmt ist.

Beispiel 11.57:

Wir wollen einen Springer auf einem 4 × 4-Schachbrett betrachten. Sei dazu S = {(i,j) | 1 ≤ i,j ≤ 4}.

Der zugehörige Graph stellt sich wie folgt dar:

(1,4) (2,4) (3,4) (4,4)

� ��

��

� ��

�

��

�

��

�

��

�

��

�

��

�

��

�

� ��

�

��

�

� ��

�

��

�

��

� ��

�

��

�

��

�

��

�

��

�

(1,3) �

�

(2,3)

�

(1,3)

�

(2,3) (3,3) (4,3)

� �

�

� (3,3)

�

��

�

� �

�

� (4,3)

��

��

�

��

�

��

�

��

� �

�

� ��

�

��

�

� ��

�

��

�

��

�

� �

�

��

�

��

�

� �

�

��

�

��

�

��

�

��

�

��

�

� ��

�

��

�

��

�

��

�

(1,2)

�

(2,2) � (3,2)

�

(3,2)

�

� (4,2)

��

�

� �

��

� ��

�

� �

��

�

��

� ��

�

��

�

��

�

��

�

��

�

��

�

��

�

��

�

��

�

� ��

�

��

�

� ��

�

� ��

�

� ��

�

� ��

�

� ��

�

��

�

(1,1) (2,1) (3,1) (4,1)

� �

Aus diesem Graphen lesen wir nun die Gradzahlen d

� �

(i,j) ab. Der Eintrag in der Zelle (i,j) der

folgenden Tabelle bezeichnet d (i,j) :

2 3 3 2

3 4 4 3

2 3 3 2

152 11 Markov-Ketten mit endlichem Zustandsraum

Damit berechnet man leicht D = 4 · (2 + 3 + 3 + 4) = 48 und hat so gemäß dem Satz die invariante

Verteilung π: 5

Daraus erhalten wir nun:

1

24

1

16

1

16

1

24

1

16

1

12

1

12

1

16

1

16

1

12

1

12

1

16

(1) Nach dem Rückkehrzeitensatz ist dann zum Beispiel

1

24

1

16

1

16

1

24

E � � 1

T (1,1) = = 24.

π((1,1))

(2) Das starke Gesetz sagt etwa, dass für einen Springerpfad die relative Häufigkeit der Besuche in den

mittleren Feldern fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen

konvergiert.

π ({(i,j) | 2 ≤ i,j ≤ 3}) = 4 · 1 1

=

12 3

(3) Sei P die zugehörige Übergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist.

Allerdings kann P nicht aperiodisch sein, da der Springer bei jedem Zug ein Feld anderer Farbe

(Schwarz / Weiß) erreicht. P hat daher mindestens Periode 2, und da hin- und wieder zurückziehen

möglich ist, genau Periode d = 2.

(4) Mit Bemerkung 11.42 ist für großes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegeben

als

1

12 0 1

8 0

0 1

6 0 1

8

1

8 0 1

6 0

0 1

8 0 1

12

Dabei gibt der Eintrag in Position (i,j) die approximative Wahrscheinlichkeit an, dass der Springer

sich zur Zeit n in der Position (i,j) aufhält.

11.5.2 Ehrenfeld-Diffusion

Wir nehmen an, in einem Hörsaal befinden sich N Gasmoleküle. Wir zerteilen den Hörsaal in die rechte

Hälfte H1 und die linke Hälfte H2. Als Modell nehmen wir an, dass jeweils ein Molekül zufällig ausgewählt

wird und dieses dann in die andere Hörsaalhälfte wechselt.

Sei dazu

S = {0,...,N} ,

was der Anzahl der Gasmoleküle in H1 entsprechen soll. Offenbar muss dann für die Übergangsmatrix P

gelten. Alle übrigen Einträge der Matrix sind 0.

P(i,i + 1) =

N − i

,

N

i < N

P(i,i − 1) = i

,

N

i > 1

Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung π zu P gegeben ist durch

D.h. wir haben π ∼ B � N, 1

�

2 .

π(i) =

� N

i

Nach dem Rückkehrzeitensatz ist dann zum Beispiel

�

2 −N , i ∈ S.

E (T0) = 1

π(0) = 2N .

5 Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da der Springer jedes Feld erreichen kann - die

Matrix ist also irreduzibel!

11 Markov-Ketten mit endlichem Zustandsraum 153

D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmoleküle sind, so ist zu erwarten, dass

dieser Zustand erst zur Zeit 2 N wieder eintritt. Das ist für eine Anzahl N von Molekülen reichlich groß!

Außerdem bemerkt man, dass der aktuelle Zustand oft nahe am Gleichgewicht ist:

Sei N = 10.000. Wegen π ∼ B � 10.000, 1

�

2 liefert die Chernov-Ungleichung

π ({4801,...,5199}) ≥ 0.9993.

Das starke Gesetz sagt uns also, dass in 99.93% der Zeit in H1 zwischen 4801 und 5199 Gasmoleküle sind.

154 12 Schätzer und statistische Tests

12 Schätzer und statistische Tests

Wir beginnen mit einen motivierenden Beispiel.

Beispiel 12.1:

Wir wollen eine Lebensmittelkontrolle durchführen. Dazu messen wir die Füllungen von 1-Liter-Flaschen

nach. In Millilitern erhalten wir bei sechs Messungen die Messwerte

999, 990, 995, 1003, 1001, 991.

Diese Messwerte wollen wir im folgenden mit x1,...,x6 bezeichnen. Wir können uns nun die folgenden

Fragen stellen:

(1) Wenn man annimmt, dass die Füllmenge eine N � µ,σ 2� -verteilte Zufallsvariable ist, wie schätzt

man dann mittels dieser Messungen den Erwartungswert? Wie schätzt man die Varianz?

Um solche Fragen zu beantworten wollen wir hier kurz ML-Schätzer und erwartungstreue Schätzer

behandeln.

(2) Soll die Kontrolle wegen zu geringer Befüllung nach dieser Messung einschreiten?

Um diese Frage zu beantworten werden wir kurz statistische Tests betrachten.

12.1 Punktschätzer

Sei X eine Zufallsvariable (oder ein Zufallsvektor)

X : Ω

��

X.

Im Zusammenhang dieses Kapitels nennen wir X auch den Stichprobenraum.

Wir nehmen natürlicher Weise an, dass wir die Verteilung P von X auf X nicht kennen. Beachte, dass

wir hier P anstelle von P X schreiben.

Stattdessen nehmen wir an, dass P in einer Familie

P = {Pθ | θ ∈ Θ}

von Verteilungen Pθ auf X liegt. Diese Familie bezeichnen wir auch als statistisches Modell für die

möglichen Verteilungen von X.

Beispiel 12.2:

Sei X die Anzahl der Erfolge in einem n-fach wiederholten Bernoulli-Experiment mit unbekannter Erfolgswahrscheinlichkeit.

Dann ist X = {0,...,n} und das statistische Modell ist gegeben als

P = � �

B(n,θ) | θ ∈ [0,1] .

� ��

=Θ

Zu jeder der Verteilungen Pθ gehört in diesem Fall eine Wahrscheinlichkeitsfunktion

� �

n

pθ (x) = θ

x

x (1 − θ) n−x , x = 0,...,n.

=Pθ

Wir wollen nun aufgrund einer Stichprobe x ∈ X (d.h. einer Realisation von X) den Parameter θ oder

allgemeiner eine Funktion g in Abhängigkeit von θ geschätzt werden.

12.3 Definition:

Ein Schätzer für θ ∈ Θ ist eine Abbildung

t : X

��

Θ.

Für ein konkretes x ∈ X heißt t(x) dann eine Schätzung für θ.

Die Zufallsvariable T := t (X) wird ebenfalls Schätzer für θ genannt.

Beispiel 12.4:

Betrachte wieder das Setting aus Beispiel 12.2. Ist x ∈ {0,...,n} die Stichprobe, so ist

t(x) := x

12 Schätzer und statistische Tests 155

ein Schätzer für die Erfolgswahrscheinlichkeit θ des Bernoulli-Experiments. Nun sollte man sich fragen,

ob dieser Schätzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen.

Ebenso ist dann

T = 1

n X

ein Schätzer für θ und konkret für n = 20 und x = 14 ist

eine Schätzung von θ.

12.5 Definition:

Sei g eine beliebige Funktion auf Θ. Jede Abbildung

heißt Schätzer für g(θ).

Beispiel 12.6:

t(14) = 7

= 0.7

10

t : X

��

g (Θ)

Wieder im Setting von Beispiel 12.2 können wir versuchen, die Varianz von B(nθ) zu schätzen, d.h.

g(θ) = n · θ · (1 − θ).

Ein möglicher Schätzer wäre

t(x) := n · x

�

1 −

n

x

� �

= x · 1 −

n

x

�

.

n

Weiter unten werden wir uns mit der Frage beschäftigen, ob dieser Schätzer sinnvoll bzw. gut ist.

Man sollte beachten, dass es im Allgemeinen nicht ” den Besten“ Schätzer gibt. Es gibt verschiedene

Verfahren zur Herleitung und verschiedene Güte-Kriterien für Schätzer. Wir besprechen hier die ML-

Schätzer und die erwartungstreuen Schätzer, es gibt außerdem noch Risiko-Schätzer, Konsistenz-Schätzer

und viele mehr.

12.1.1 ML-Schätzer

12.7 Definition:

Wir sagen, ein Schätzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt:

Für jedes x ∈ X ist t(x) = θML ∈ Θ mit

pθML (x) ≥ pθ(x) ∀ θ ∈ Θ.

Falls wir mit einer diskreten Verteilung Pθ arbeiten, so ist das zugehörige pθ die entsprechende Wahrscheinlichkeitsfunktion,

ist Pθ eine stetige Verteilung, so ist pθ die entsprechende Dichte.

D.h. für festes x ∈ X maximiert t(x) = θML die sogenannte Likelihood-Funktion

über θ ∈ Θ.

Beispiel 12.8:

Lx (θ) = pθ(x)

Betrachte wieder das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als

� �

n

Lx (θ) = θ

x

x (1 − θ) n−x .

Um einen ML-Schätzer für θ zu bestimmen ist diese Funktion jetzt für gegebenes x ∈ {0,...,n} über

θ ∈ [0,1] zu minimieren.

Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfachung

kann man die log-Likelihood-Funktion log Lx betrachten. Da der Logarithmus log streng monoton

steigend ist 6 , nehmen Lx und log Lx im selben θ ihr Maximum.

6 Wir betrachten hier stets nur den natürlichen Logarithmus ln = log.

156 12 Schätzer und statistische Tests

Beispiel 12.9:

Im obigen Beispiel 12.2 ist dann

log Lx (θ) = log

� �

n

+ xlog θ + (n − x)log (1 − θ) .

x

Um das Maximum dieser Funktion zu bestimmen, differenzieren wir nach θ und erhalten so

womit θ = x

n folgt.

Also ist unser Schätzer

0 ! = 0 + x n − x

−

θ 1 − θ ,

t(x) = n

x

von oben sogar ein ML-Schätzer für die Erfolgswahrscheinlichkeit θ.

12.1.2 Erwartungstreue Schätzer

12.10 Definition:

Ein Schätzer t für θ ist erwartungstreu, wenn

Eθ (t(X)) = θ

für alle θ ∈ Θ gilt, d.h.: Ist θ der wahre Parameter, so ist die (zufällige) Schätzung t(x) zumindest im

Erwartungswert gleich θ.

Ganz analog definiert man für Schätzer von Funktionen:

12.11 Definition:

Ein Schätzer t für eine Funktion g in Abhängigkeit von θ ist erwartungstreu, wenn

für alle θ ∈ Θ gilt.

Beispiel 12.12:

Eθ (t(X)) = g (θ)

Betrachte wieder Beispiel 12.2. Wir behaupten, dass unser Schätzer

von dort erwartungstreu ist.

Beweis:

Mit der Linearität des Erwartungswertes gilt

� �

X

E (t (X)) = E

n

Es folgt die Behauptung.

Beispiel 12.13:

t(x) = x

n

Im selben Beispiel 12.2 sei nun n ≥ 2. Dann ist

�

t(x) = x 1 − x

�

n

= 1 1

E (X) = θn = θ.

n n

ein ML-Schätzer für die Varianz, denn schließlich haben wir dort einfach den ML-Schätzer für θ in die

12 Schätzer und statistische Tests 157

Varianz-Formel θ ↦→ nθ (1 − θ) eingesetzt. Allerdings ist er nicht erwartungstreu:

Eθ (t(X)) =

� �

Eθ X 1 − X

��

n

= Eθ (X) − 1

n Eθ

� X 2 �

= nθ − 1

�

Vθ(X) + (Eθ(X))

n

2�

= nθ − 1 � 2 2

nθ (1 − θ) + n θ

n

�

= (n − 1) θ (1 − θ)

= n − 1

� ��

n

�

�=1

Allerdings sehen wir an dieser Berechnung schon, dass

nθ (1 − θ)

� ��

=g(θ)=Vθ(X)

n n

t(x) =

n − 1 n − 1 x

ein erwartungstreuer Schätzer für die Varianz ist.

�

.

1 − x

�

n

Z.B. für n = 2 ist die Abweichung zwischen diesen beiden Schätzern deutlich: Ist der wahre Parameter

θ = 1

2 , so ist

n − 1

Eθ (t(X)) = (1 − θ) =

θ

1

4 ,

obwohl die tatsächliche Varianz 1

2 beträgt.

Wir wollen nun eine allgemeinere Situation betrachten:

Seien X1,...,Xn unabhängige, identisch verteilte Zufallsvariablen. Sei X1 der Wertebereich dieser Variablen.

Definiere als Stichprobenraum

Betrachte dazu das statistische Modell

X =

n

× ν=1

X1 = X1 ×... × X1

P = � ˜ Pθ × ... × ˜ Pθ

� ��

=:Pθ

� ��

n−mal

.

| θ ∈ Θ � ,

wobei jedes ˜ Pθ eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist.

Beispiel 12.14:

Sei etwa

oder

Wir wollen im zweiten Fall θ := � µ,σ 2� setzen.

˜Pθ ∈ {B(1,θ) | 0 ≤ θ ≤ 1}

˜Pθ ∈ � N � µ,σ 2� | µ ∈ R,σ 2 > 0 � .

(1) Wir wollen zuerst einen Schätzer für den Erwartungswert Eθ (X1) von ˜ Pθ herleiten.

12.15 Lemma:

Der Schätzer

ist erwartungstreu für Eθ (X1).

t (x1,...,xn) := 1

n

n�

xi = ¯x

i=1

158 12 Schätzer und statistische Tests

Beweis:

Man berechnet

Das zeigt die Behauptung.

Beispiel 12.16:

In Beispiel 12.1 wäre also

eine erwartungstreue Schätzung für µ.

Eθ (t (X1,...,Xn)) = Eθ

1

6

= 1

n

�

1

n

n�

i=1

Xi

n�

Eθ (Xi)

i=1

= Eθ (X1) .

6�

xi = 996.5

(2) Jetzt wollen wir einen Schätzer für die Varianz Vθ (X1) von ˜ Pθ herleiten. Sei dazu wieder

Berechne nun

und

� 2

Eθ ¯x �

Jetzt können wir zeigen:

12.17 Lemma:

Der Schätzer

n�

(xi − ¯x) 2 =

i=1

=

Unabhängigkeit

=

1

n

i=1

¯x := 1

n

1

n 2

2 Eθ

n�

i=1

n�

i=1

n�

i=1

n�

i=1

⎛

⎝

n�

xi.

i=1

x 2 i − 2

n�

xi¯x +

i=1

x 2 i − 2n¯x 2 + n¯x 2

x 2 i − n(¯x) 2

n�

i,j=1

Xi · Xj

⎞

⎠

Eθ (Xi · Xi) + 1

n 2

1 � � 2 1

nEθ X

n2 1 +

n2 �

n�

¯x 2

i=1

n�

Eθ (Xi · Xj)

i,j=1

i�=j

n�

Eθ (Xi) · Eθ (Xj)

i,j=1

i�=j

(12.1)

1

n Eθ

� � 2 n − 1

X1 +

n (Eθ (X1)) 2 . (12.2)

S 2 (x1,...,xn) = 1

n − 1

n�

(xi − ¯x) 2

ist ein erwartungstreuer Schätzer für die Varianz. Er wird auch Stichprobenvarianz genannt.

i=1

12 Schätzer und statistische Tests 159

Beweis:

Es gilt

Eθ

� n�

i=1

(Xi − ¯x) 2

Das zeigt die Behauptung.

�

n�

(12.1)

= Eθ

i=1

(12.2) � � 2

= nEθ X1 −

�

= (n − 1)

X 2 i − n¯x 2

Eθ

�

Eθ

= (n − 1) Vθ (X1) .

Beachte den Unterschied zur empirischen Varianz

ˆσ 2 (x1,...,xn) = 1

n

�

� � 2

X1 + (n − 1) (Eθ (X1)) 2�

� � 2

X1 − (Eθ (X1)) 2�

n�

(xi − ¯x) 2 .

Sie ist nicht erwartungstreu, aber der Unterschied verschwindet mit n

In der Praxis wird S 2 als Schätzer für die Varianz und √ S 2 als Schätzer für die Standardabweichung

verwendet.

Beispiel 12.18:

In Beispiel 12.1 wäre also

S 2 (x1,...,x6) = 1

5

6�

i=1

(xi − ¯x) 2 = 1

5

��

∞.

6�

(xi − 996.5) 2 = 28.7

eine erwartungstreue Schätzung für σ 2 . Entsprechend schätzen wir σ als √ 28.7 ≈ 5.357.

Die Schätzung der Parameter � µ,σ 2� von N � µ,σ 2� würde in unserem Fall also

liefern.

12.2 Statistische Tests

i=1

µ = 996.5 und σ 2 = 28.7

Wir wollen uns nun mit der Frage aus Beispiel 12.1 beschäftigen, ob aufgrund dieser Stichproben die

Kontrolle eingeschaltet werden sollte. Dazu beschäftigen wir uns allgemein mit statistischen Tests:

Sei X ein Stichprobenraum und

P = {Pθ | θ ∈ Θ}

ein statistisches Modell für die möglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors X

mit Werten in X. Seien nun

Θ0 ⊂ Θ und Θ1 ⊂ Θ

zwei disjunkte Teilmengen.

12.19 Definition:

Die Aussage

nennen wir Hypothese und die Aussage

nennen wir Alternative.

Beispiel 12.20:

In Beispiel 12.1 wäre

P = � N � µ,σ 2�

� ��

=θ

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1

| µ ≥ 0, σ 2 > 0 �

160 12 Schätzer und statistische Tests

das statistische Modell für die möglichen Verteilungen der Befüllung. Die Aussage ” kein Betrug“ entspräche

dann der Hypothese

H0 : θ ∈ Θ0 := �� µ,σ 2� | µ = 1000, σ 2 > 0 �

und die Aussage ” Betrug“ entspräche der Alternative

12.21 Definition:

Das Entscheidungsproblem

heißt Testproblem.

12.22 Definition:

Ein Test ist eine Abbildung

H1 : θ ∈ Θ1 := �� µ,σ 2� | µ < 1000, σ 2 > 0 � .

H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1

ϕ : X

��

{0,1} ,

wobei ϕ(x) = 1 bedeutet, dass die Hypothese verworfen wird und ϕ(x) = 0 bedeutet, dass die Hypothese

nicht verworfen wird.

Die Menge

heißt Verwerfungsbereich.

Bemerkung 12.23:

{x ∈ X | ϕ(x) = 1}

Als Hypothese sollte man stets die Annahme wählen, deren Verwerfung die größeren Konsequenzen hat

- wie vor Gericht die Unschuldsvermutung. Der Grund dafür ist, dass durch (statistische) Tests stets nur

der Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird.

Beim Test eines neuen Prototypen würde man als Hypothese also ” das bisherige Produkt ist besser“

verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss.

12.24 Definition:

Sei ϕ ein Test. Wir definieren die Gütefunktion βϕ : Θ

βϕ (θ) := Pθ (ϕ(x) = 1),

d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen.

��

[0,1] von ϕ durch

Für θ ∈ Θ0 ist βϕ(θ) dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung

12.23).

Das primäre Ziel bei statistischen Tests ist es nun, den Fehler erster Art für alle θ ∈ Θ0 zu kontrollieren!

12.25 Definition:

Sei ϕ ein Test. Wir nennen ϕ einen Test zum Niveau α ∈ [0,1], wenn

sup βϕ(θ) ≤ α

θ∈Θ0

ist, d.h. wenn für alle θ ∈ Θ0 die Wahrscheinlichkeit eines Fehlers erster Art durch α beschränkt ist.

12.26 Definition:

Ist ϕ ein Test zum Niveau α = 1

20 = 0.05 und x ∈ X eine Stichprobe mit ϕ(x) = 1 (d.h. wenn wir aufgrund

dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signifikanten Ergebnis.

Bei α = 1

100 = 0.01 sprechen wir von einem hoch-signifikanten Ergebnis.

Wir wollen im folgenden zwei Arten von Tests für Normalverteilungen besprechen.

12 Schätzer und statistische Tests 161

12.2.1 Der einseitige Gaußtest

Dieser Test wird durchgeführt, wenn die Varianz bekannt ist.

Beispiel 12.27:

Wissen wir also etwa in Beispiel 12.1, dass die Füllmaschine eine Standard-Abweichung von σ0 = 5 hat,

so können wir den nun folgenden Gaußtest verwenden. Beachte, dass dann Θ = {(µ,25) | µ ≥ 0} ist und

unsere Hypothese ( ” kein Betrug“) genau µ = µ0 = 1000 entspricht. Die Alternative ( ” Betrug“) ist dann

µ < µ0 = 1000.

Wir wollen nun in Abhängigkeit von

¯x = 1

n

entscheiden. Als Verwerfungsbereich wollen wir beim Gaußtest ein Intervall

n�

i=1

(−∞,z)

mit einem noch zu bestimmenden z wählen, d.h. es soll ϕ(x) = 1 sein genau dann, wenn ¯x < z gilt.

Wir werden hier jetzt beispielhaft an unserem Füllmengenbeispiel z so bestimmen, dass der zugehörige

Test das Niveau 0.05 hat.

Seien X1,...,Xn die zufälligen Meßwerte und sei wie immer

¯X = 1

n

xi

n�

Xi.

Es ist z so zu bestimmen, dass unter der Hypothese µ = µ0 gilt:

� �

¯X < z ≤ 0.05.

Pµ0

Unter der Hypothese µ = µ0 gilt Xi ∼ N � µ0,σ 2 �

0 , d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass

Damit haben wir

Pµ0

Wir müssen also ein y finden, s.d.

i=1

¯X − µ0

∼ N (0,1) .

σ0

√ n

� ¯X < z � = Pµ0

� ¯X − µ0

< σ0 √

n

� ��

∼N(0,1)

z − µ0

Φ(y) = 0.05

σ0

√ n

� ��

=:y

� !

≤ 0.05.

für die Verteilungsfunktion Φ der Standardnormalverteilung N (0,1) ist. Das ist genau dann der Fall,

wenn Φ(−y) = 0.95 gilt. Unter Verwendung der Tabelle (Anhang A) interpolieren wir so

womit

ist.

Beispiel 12.28:

In Beispiel 12.1 wäre dementsprechend

−y = 1.645,

z = µ0 + σ0

√n · (−1.645)

z = µ0 + σ0

√n · (−1.645) = 1000 − 1.645 5

√ 6 ≈ 996.64.

Wegen ¯x = 996.5 würden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnung

machen!

162 12 Schätzer und statistische Tests

12.2.2 Der t-Test

Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen.

In unserem Beispiel 12.1 wollen wir hier also

gegen

testen.

Als ” Testgröße“ kann man jetzt nicht

H0 : θ ∈ Θ0 = �� µ,σ 2� | µ = µ0 = 1000, σ 2 > 0 �

H1 : θ ∈ Θ1 = �� µ,σ 2� | µ < µ0 = 1000, σ 2 > 0 �

¯X − µ0

σ0

√ n

nutzen, da man σ0 nicht kennt. Die Lösung für dieses Problem ist denkbar einfach: Man schätzt σ0 über

S = √ S2 �

�

= � 1

n� �

Xi −

n − 1

¯ X �2 ,

wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S 2 wie dort gezeigt ein erwartungstreuer

Schätzer für σ0 ist!

Nach dieser Schätzung nutzt man dann

P � �

� ¯X

X ¯

− µ0

< z = P < z − µ0

i=1

S√ n

� ��

=Y

S√ n

und man kann zeigen, dass Y ∼ tn−1 gilt. Die Verteilung tn−1 ist dabei unabhängig von σ2 , d.h. von der

wahren Varianz. Die Dichte zu tn−1 sieht der Dichte von N (0,1) sehr ähnlich und in gewissem Sinne gilt

n ��

∞ ��

N (0,1). Die Verteilungsfunktion Ftn−1 der Verteilung tn−1 ist ebenso wie Φ tabelliert.

tn−1

Jetzt kann man genauso wie beim Gaußtest vorgehen und entsprechend ein y mit Ftn−1 (−y) = 0.95

suchen.

Beispiel 12.29:

In Beispiel 12.1 betrachten wir n = 6, also t5. Es folgt aus der Tabelle y = −2.015 und damit

z = µ0 + S √ n · (−2.015) = 1000 − 2.015 · 5.3572

√ 6 ≈ 995.593.

In diesem Fall würden wir die Hypothese also nicht verwerfen, um ein Niveau von 0.05 zu halten!

�

A Tabelle der Standardnormalverteilung 163

A Tabelle der Standardnormalverteilung

Wir wollen hier eine Tabelle zum Nachschlagen der Verteilungsfunktion

Φ(x) =

der Standard-Normalverteilung geben. Da

sind nur positive Werte angegeben:

�x

−∞

�

1

√ exp −

2π t2

�

dt

2

Φ(−x) = 1 − Φ(x) , x ≥ 0,

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.00 0.500000 0.503989 0.507978 0.511967 0.515953 0.519939 0.523922 0.527903 0.531881 0.535856

0.10 0.539828 0.543795 0.547758 0.551717 0.555670 0.559618 0.563559 0.567495 0.571424 0.575345

0.20 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092

0.30 0.617911 0.621719 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732

0.40 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933

0.50 0.691462 0.694974 0.698468 0.701944 0.705402 0.708840 0.712260 0.715661 0.719043 0.722405

0.60 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.754903

0.70 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.785236

0.80 0.788145 0.791030 0.793892 0.796731 0.799546 0.802338 0.805106 0.807850 0.810570 0.813267

0.90 0.815940 0.818589 0.821214 0.823814 0.826391 0.828944 0.831472 0.833977 0.836457 0.838913

1.00 0.841345 0.844752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.862143

1.10 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.878999 0.881000 0.882977

1.20 0.884930 0.886860 0.888767 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.901475

1.30 0.903199 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914656 0.916207 0.917736

1.40 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888

1.50 0.933193 0.934478 0.935744 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083

1.60 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486

1.70 0.955435 0.956367 0.957284 0.958185 0.959071 0.959941 0.960796 0.961636 0.962463 0.963273

1.80 0.964070 0.964852 0.965621 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621

1.90 0.971284 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705

2.00 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691

2.10 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.985738

2.20 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.988989

2.30 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.991567

2.40 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.993613

2.50 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.995201

2.60 0.995339 0.995473 0.995603 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.996427

2.70 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.997365

2.80 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.998074

2.90 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605

3.00 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999

3.10 0.999032 0.999064 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289

3.20 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499

3.30 0.999517 0.999533 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999650

3.40 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758

3.50 0.999767 0.999776 0.999784 0.999792 0.999800 0.999807 0.999815 0.999821 0.999828 0.999835

3.60 0.999841 0.999847 0.999853 0.999858 0.999864 0.999869 0.999874 0.999879 0.999883 0.999888

3.70 0.999802 0.999896 0.999900 0.999904 0.999908 0.999912 0.999915 0.999918 0.999922 0.999925

3.80 0.999928 0.999930 0.999933 0.999936 0.999938 0.999941 0.999943 0.999946 0.999948 0.999950

3.90 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967

Dabei ist der Eintrag in der Zelle (i,j) genau Φ(i + j). Hier nochmal der Graph:

0.8

0.6

0.4

0.2

−4.0−3.6

−3.2−2.8

−2.4−2.0

−1.6−1.2

−0.8−0.4

0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0

Abbildung 24: Die Verteilungsfunktion Φ der Standardnormalverteilung.

B Kenngrößen der wichtigsten Verteilungen

B.1 Diskrete Verteilungen

Verteilung Parameter Bezeichnung X (Ω) P(X = k) für k ∈ X (Ω) Erwartungswert Varianz

Laplace N ∈ N {1,...,N} 1

N

Benoulli p ∈ [0,1] B(1,p) {0,1} p k (1 − p) 1−k

Binomial p ∈ [0,1], n ∈ N B(n,p) {1,...,n}

Hypergeometrisch N,R ∈ N, N ≥ R, n ∈ N {0,...,n}

� � n k n−k

k p (1 − p)

( R

k)( N−R

n−k)

N+1

2

N 2 −1

12

p p(1 − p)

n · p n · p · (1 − p)

( N

Poisson λ > 0 Poi (λ) N0

n)

exp(−λ) λk

k! λ λ

Geometrisch p ∈ [0,1] Geo(p) N p · (1 − p) k−1 1

p

Negativ-Binomial p ∈ [0,1], r ∈ N N0

� � r+k−1 r k

k p (1 − p)

n R

N

r · 1−p

p

n R

N

(N−R) N−n

N N−1

1−p

p 2

r 1−p

p 2

164 B Kenngrößen der wichtigsten Verteilungen

B.2 Stetige Verteilungen

Verteilung Parameter Bezeichnung Wahrscheinlichkeitsdichte Erwartungswert Varianz

Gleichverteilung a

Normalverteilung µ ∈ R, σ > 0 N � µ,σ 2�

f(t) = 1

√ 2πσ 2 exp

b−a 1 [a,b](t)

�

− (t−µ)2

2σ 2

Exponentialverteilung λ > 0 Exp (λ) f(t) = λ exp (−λt)1 (0,∞)(t) 1

λ

Gammaverteilung r,λ ∈ (0, ∞) Gamma (r,λ) f(t) = λr

Γ(r) tr−1 exp (−λt) 1 (0,∞)(t)

Chi-Quadrat-Verteilung n ∈ N χ 2 n = Gamma � n

2

�

b+a

2

(b−a) 2

12

µ σ

�

1 , 2 f(t) = 2− n 2

Γ( n

n

t 2

2 ) −1 exp � − t

�

2

1(0,∞)(t) n 2n

α

Paretoverteilung α ∈ (0, ∞) Pareto(α) f(t) =

(t+1) α+1 � �

∞ falls α ≤ 1 α α2

1 α−2 −

(α−1)

(0,∞)(t)

2 falls α > 2

∞ falls α ≤ 2

r

λ

1

α−1 falls α > 1

Cauchyverteilung f(t) := 1

π(1+t 2 ) existiert nicht existiert nicht

1

λ 2

r

λ 2

B Kenngrößen der wichtigsten Verteilungen 165

166 Stichwortverzeichnis

Stichwortverzeichnis

σ-Algebra, 100, 102, 114

Borel’sche, 102, 114

triviale, 100

3-Türen-Problem, 52

Abbildung

meßbare, 101

Bayes

Formel von, 36

bedingte Erwartung, 82

Bernoulli

-Experiment, 45

Bernstein

Ungleichung, 74

Binomialkoeffizient, 24

Binomialverteilung, siehe Verteilung

Blockungslemma, 54, 119

Borel’sche σ-Algebra, 102, 114

Cauchyverteilung, siehe Verteilung

Chernov

Ungleichung, 76

Chi-Quadrat-Verteilung, siehe Verteilung

de Moivre-Laplace

Grenzwertsatz von, 96

de Morgan’sche Regeln, 9

Dichte, 104, 115

der Standardnormalverteilung, 96

gemeinsame, 115

Produktdichte, 115

Transformationsformel, 109

Ereignis, 7

bedingte Wahrscheinlichkeit, 33

sicheres, 7

Unabhängigkeit, 31, 32

unmögliches, 7

Verknüpfungen, 7

Ergebnis, 7

Erwartungswert, 60

bedingter, 82

eines Zufallsvektors, 122

Jensen’sche Ungleichung, 126

Linearität, 63, 117

Produktformel, 64

Trafoformel, siehe Transformationsformel

Experiment

n-stufiges, 39

Exponentialverteilung, siehe Verteilung

Fächermodell, 22

Faltung, 120

Formel

Mulitplikationsformel, 34

von Bayes, 36

von der totalen Wahrscheinlichkeit, 36

Funktion

erzeugende, 87

Gamma-, 108

rechtstetig, 102

Galton-Watson-Prozess, 92

Gammaverteilung, siehe Verteilung

Gaußsche Glockenkurve, 96

geometrische Verteilung, siehe Verteilung

Gleichverteilung, siehe Verteilung

diskrete, 11

Graph

Pfad, 134

Gewicht, 135

Länge, 135

Weg, 134

Grundraum

diskreter, 7

Hoeffding

Ungleichung, 76

Indikatorvariable, 50

Korellationskoeffizient, 85

Korrelation

negative, 86

positive, 86

Kovarianz

eines Zufallsvektors, 123

Laplace-Raum, 11

Laplace-Verteilung, 11

Markov-Kette, 139

Übergangsgraph, 134

irreduzibel, 135

Übergangsmatrix, 133

aperiodisch, 137

irreduzibel, 135

Periode, 137

in i gestartete, 146

Konvergenzssatz, 141

Markov-Eigenschaft, 139

Rückkehrzeit, 146

Rückkehrzeitensatz, 147

Satz von der invarianten Verteilung, 145

Satz von der positiven Rekurrenz, 147

starkes Gesetz, 149

Startverteilung, 139

stochastische Matrix, 133

Verteilung

invariante, 141

Zustand

Periode, 136

Zustandsmenge, 133

Markov-Ungleichung, 72

Menge

Komplement, 9

Multinomialkoeffizient, 25

Multinomialverteilung, siehe Verteilung

negative Binomialverteilung, siehe Verteilung

Stichwortverzeichnis 167

Normalapproximation, 98

Normalverteilung, siehe Verteilung

Paretoverteilung, siehe Verteilung

Polya’sches Urnenmodell, 39

relative Häufigkeit, 8

Satz

Abel’scher Grenzwertsatz, 88

Binomischer Lehrsatz, 24

Grenzwertsatz von de Moivre-Laplace, 96

Konvergenzsatz für Markov-Ketten, 141

Poisson-Grenzwert, 59

Rückkehrzeitensatz, 147

von der invarianten Verteilung, 145

von der iterierten Erwartung, 82

von der positiven Rekurrenz, 147

Zentraler Grenzwertsatz, 127

Fehlerabschätzung nach Berry-Esseen, 131

Schätzer, 154

erwartungstreuer, 156

ML-, 155

Schätzung, 154

Schwaches Gesetz großer Zahlen, 73

Siebformel, 15

Bonferroni-Ungleichungen, 19

von Poincare-Sylvester, 15

Simpson-Paradoxon, 37

Spiegelungsprinzip, 29

Stichprobe

Stichprobenvarianz, 158

Stichprobenraum, 154

Stimmzettelproblem, 28

System

dynamisches, 93

Grenzwert, 93

Test, 160

t-, 162

Alternative, 159

Fehler erster Art, 160

Gütefunktion, 160

Gauß-, 161

hoch-signifikantes Ergebnis, 160

Hypothese, 159

signifikantes Ergebnis, 160

Testproblem, 160

Verwerfungsbereich, 160

zum Niveau α, 160

Transformationsformel, 62, 112, 116

Tschebyschow-Ungleichung, 72

Ungleichung

Bernstein-, 74

Bonferroni, 19

Boole’sche, 10, 20

Chernov-, 76

Hoeffding-, 76

Markov, 72

SGGZ, siehe Schwaches Gesetz großer Zahlen

Tschebyschow, 72

Urnenmodell, 22

Varianz, 65, 113

empirische, 159

Rechenregeln, 66

Stichprobenvarianz, 158

Verteilung, 100

k-dimensionale Randverteilung, 51

n-dimensionale Normalverteilung, 122

n-dimensionale Std.-Normalverteilung, 122

a-posteriori, 42

a-priori, 42

austauschbare, 40

bedingte, 80

Binomialverteilung, 27

Cauchy-, 108

Chi-Quadrat, 108

einer Zufallsvariable, 48

Exponential-, 106

Gedächtnislosigkeit, 107

Faltung, 77

Gamma-, 108

gemeinsame, 50

geometrische, 46

Gleichverteilung, 105

hypergeometrische, 27

Marginalverteilung, 51

Multinomialverteilung, 45

negative Binomialverteilung, 47

Normalverteilung, 106

ausgeartete, 124

nicht ausgeartete, 124

Pareto-, 107

Produktverteilung, 115

Standard-Normalverteilung, 96, 106

stetige, 104

Verteilungsfunktion, 102

Standardnormalverteilung, 96

Verzweigungsprozess, 92

Aussterbewahrscheinlichkeit, 92

Vitali-Menge, 101

Vorhersager

linearer, 86

Wahrscheinlichkeit

bedingte, 33

Multiplikationsformel, 34

Wahrscheinlichkeitsfunktion, 13

bedingte, 80

Wahrscheinlichkeitsraum, 100

diskreter, 8

Laplace-Raum, 11

Produkt, 43

Wahrscheinlichkeitsverteilung, 100

Wald’sche Identität, 83, 91

Ziegenproblem, 52

zufällige Summe

erzeugende Funktion, 90

Zufallsexperiment, 6

Zufallsvariabel

standardisierte, 95

Zufallsvariable, 48, 101

j-tes faktorielles Moment, 88

168 Stichwortverzeichnis

k-tes Moment, 113

k-tes zentrales Moment, 66

bedingte Erwartung, siehe bedingte Erwartung

Bernoulli-verteilte, 56

Binomial-verteilte, 56

Poisson-Approximation, 59

drittes zentrales Moment, 127

Erwartungswert, siehe Erwartungswert

Funktion von Zufallsvariablen, 53

gemeinsame Dichte, 115

geometrisch verteilte, 57

Gedächtnislosigkeit, 57

gleichverteilte, 56

Kovarianz, 66

Laplace-verteilte, 56

Poisson-verteilte, 58

reelle, 102

Standardabweichung, 65

stetig verteilte, 105

Erwartungswert, 111

Unabhängigkeit, 51, 83, 117

unkorreliert, 69, 119

Varianz, siehe Varianz

Verteilung, 48, 101

bedingte, 80

Faltung, 77

Wahrscheinlichkeitsfunktion

bedingte, 80

Grundlagen der Stochastik - Georg-August-Universität Göttingen

Grundlagen der Stochastik - Georg-August-Universität Göttingen ... Mehr anzeigen Grundlagen der Stochastik - Georg-August-Universität Göttingen

Template löschen?

Als Template speichern ?

Grundlagen der Stochastik - Georg-August-Universität Göttingen Grundlagen der Stochastik - Georg-August-Universität Göttingen