Grundlagen der Stochastik - Georg-August-Universität Göttingen
Grundlagen der Stochastik - Georg-August-Universität Göttingen Grundlagen der Stochastik - Georg-August-Universität Göttingen
Grundlagen der Stochastik In Anlehnung an die Vorlesung ’Grundlagen der Stochastik’ an der Georg-August-Universität Göttingen von PD Dr. Fiebig im Wintersemester 2007/2008 Kirsten Bolze Göttingen, bolze@math.uni-goettingen.de Frank Werner Göttingen, fwerner@math.uni-goettingen.de
- Seite 2 und 3: 2 Inhaltsverzeichnis Inhaltsverzeic
- Seite 4 und 5: 4 Literatur Literatur [Dehling/Haup
- Seite 6 und 7: 6 1 Grundbegriffe Motivation Zur Mo
- Seite 8 und 9: 8 1 Grundbegriffe 1.1.2 Relative H
- Seite 10 und 11: 10 1 Grundbegriffe 1.16 Lemma (weit
- Seite 12 und 13: 12 1 Grundbegriffe Modell 2: Wir se
- Seite 14 und 15: 14 1 Grundbegriffe Beweis: Wir müs
- Seite 16 und 17: 16 1 Grundbegriffe Beweis: Wir zeig
- Seite 18 und 19: 18 1 Grundbegriffe Damit folgt dann
- Seite 20 und 21: 20 1 Grundbegriffe Beweis: Nach Def
- Seite 22 und 23: 22 2 Kombinatorik 2 Kombinatorik Hi
- Seite 24 und 25: 24 2 Kombinatorik Diese Abbildung i
- Seite 26 und 27: 26 2 Kombinatorik Beweis: Für A1 g
- Seite 28 und 29: 28 2 Kombinatorik 2.2 Das Stimmzett
- Seite 30 und 31: 30 2 Kombinatorik Beispiel 2.19: Wi
- Seite 32 und 33: 32 3 Unabhängigkeit, bedingte Wahr
- Seite 34 und 35: 34 3 Unabhängigkeit, bedingte Wahr
- Seite 36 und 37: 36 3 Unabhängigkeit, bedingte Wahr
- Seite 38 und 39: 38 3 Unabhängigkeit, bedingte Wahr
- Seite 40 und 41: 40 3 Unabhängigkeit, bedingte Wahr
- Seite 42 und 43: 42 3 Unabhängigkeit, bedingte Wahr
- Seite 44 und 45: 44 3 Unabhängigkeit, bedingte Wahr
- Seite 46 und 47: 46 3 Unabhängigkeit, bedingte Wahr
- Seite 48 und 49: 48 4 Zufallsvariablen, Verteilungen
- Seite 50 und 51: 50 4 Zufallsvariablen, Verteilungen
<strong>Grundlagen</strong> <strong>der</strong> <strong>Stochastik</strong><br />
In Anlehnung an die Vorlesung ’<strong>Grundlagen</strong> <strong>der</strong> <strong>Stochastik</strong>’ an <strong>der</strong> <strong>Georg</strong>-<strong>August</strong>-<strong>Universität</strong> <strong>Göttingen</strong><br />
von PD Dr. Fiebig im Wintersemester 2007/2008<br />
Kirsten Bolze<br />
<strong>Göttingen</strong>, bolze@math.uni-goettingen.de<br />
Frank Werner<br />
<strong>Göttingen</strong>, fwerner@math.uni-goettingen.de
2 Inhaltsverzeichnis<br />
Inhaltsverzeichnis<br />
Inhaltsverzeichnis 2<br />
Literatur 4<br />
Vorwort 5<br />
1 Grundbegriffe 6<br />
1.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />
1.1.1 Mengentheoretische Verknüpfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />
1.1.2 Relative Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
1.1.3 Axiomatik nach Kolmogoroff (1939) . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
1.2 Laplace Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />
1.3 Allgemeine diskrete Wahrscheinlichkeitsräume und -funktionen . . . . . . . . . . . . . . . 13<br />
1.4 Siebformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
1.4.1 Allgemeine Siebformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
1.4.2 Die Bonferroni-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
1.4.3 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
2 Kombinatorik 22<br />
2.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
2.1.1 Ziehen mit Zurücklegen (Binomialverteilung) . . . . . . . . . . . . . . . . . . . . . 26<br />
2.1.2 Ziehen ohne Zurücklegen (Hypergeometrische Verteilung) . . . . . . . . . . . . . . 27<br />
2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 31<br />
3.1 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />
3.3 Mehrstufige Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />
3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen . . . . . 40<br />
3.4 Produkt-Experimente und spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 43<br />
3.4.1 Mit Produktexperimenten zusammenhängende Verteilungen . . . . . . . . . . . . . 45<br />
4 Zufallsvariablen, Verteilungen 48<br />
4.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />
4.1.1 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
4.2 Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />
4.2.1 Eigenschaften <strong>der</strong> Possionverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />
5 Kenngrößen von Verteilungen 60<br />
5.1 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />
5.1.1 Erwartungswerte einiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />
5.1.2 Eigenschaften des Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
5.1.3 Produktformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />
5.2 Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />
5.2.1 Varianzen einiger diskreter Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 69<br />
6 Wahrscheinlichkeitsungleichungen und das SGGZ 72<br />
6.1 Das schwache Gesetz großer Zahlen (SGGZ) . . . . . . . . . . . . . . . . . . . . . . . . . . 72<br />
6.1.1 Spezialfall - Das SGGZ von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />
6.2 Exponential-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />
7 Faltung, bedingte Verteilungen und Korrelation 77<br />
7.1 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77<br />
7.1.1 Spezialfall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />
7.1.2 Faltungen einiger wichtiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 78<br />
7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />
7.2.1 Der bedingte Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82<br />
7.2.2 Die bedingte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82<br />
7.2.3 Anwendung <strong>der</strong> iterierten Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />
7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23) . . . . . . . . . . . . . . . . . . . 84<br />
7.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Inhaltsverzeichnis 3<br />
8 Erzeugende Funktion und Verzweigungsprozesse 87<br />
8.1 Verzweigungsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92<br />
8.1.1 Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92<br />
8.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92<br />
8.1.3 Aussterbewahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92<br />
9 Grenzwertsatz von de Moivre-Laplace 95<br />
9.1 Normalapproximation <strong>der</strong> Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />
9.2 Anwendung I: Normalapproximation <strong>der</strong> Binomialverteilung . . . . . . . . . . . . . . . . . 98<br />
9.3 Anwendung II: Bestimmung eines Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . 99<br />
10 Allgemeine Modelle und stetige Verteilungen 100<br />
10.1 Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen . . . . . . . . . . . . . . . . . . 100<br />
10.2 Wahrscheinlichkeitsverteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen . . . 102<br />
10.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />
10.4 Zufallsvariablen mit stetiger Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />
10.4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />
10.4.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
10.4.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
10.4.4 Die Pareto-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />
10.4.5 Die Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />
10.4.6 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />
10.5 Berechnung und Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />
10.6 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />
10.7 Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />
10.8 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117<br />
10.9 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122<br />
10.9.1 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125<br />
10.10Wahrscheinlichkeitsverteilungen und <strong>der</strong> zentrale Grenzwertsatz . . . . . . . . . . . . . . . 125<br />
10.10.1Die Jensen’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126<br />
10.10.2Der zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . . . . . 127<br />
11 Markov-Ketten mit endlichem Zustandsraum 133<br />
11.1 Steuerung <strong>der</strong> Sprünge: Übergangsmatrizen und -graphen . . . . . . . . . . . . . . . . . . 133<br />
11.1.1 Potenzen <strong>der</strong> Matrix P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />
11.1.2 Die Periode einer Übergangsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />
11.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139<br />
11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten . . . . . . . . . . . . . . 140<br />
11.3 Invariante Maße und Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141<br />
11.4 Rückkehrzeiten und starkes Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146<br />
11.4.1 Der Rückkehrzeitensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />
11.5 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150<br />
11.5.1 Irrfahrt auf ungerichtetem Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . 150<br />
11.5.2 Ehrenfeld-Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152<br />
12 Schätzer und statistische Tests 154<br />
12.1 Punktschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154<br />
12.1.1 ML-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155<br />
12.1.2 Erwartungstreue Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156<br />
12.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159<br />
12.2.1 Der einseitige Gaußtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161<br />
12.2.2 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />
A Tabelle <strong>der</strong> Standardnormalverteilung 163<br />
B Kenngrößen <strong>der</strong> wichtigsten Verteilungen 164<br />
B.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164<br />
B.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165<br />
Stichwortverzeichnis 166
4 Literatur<br />
Literatur<br />
[Dehling/Haupt] Herold Dehling, Beate Haupt : Einführung in die Wahrscheinlichkeitstheorie und<br />
Statistik<br />
Springerverlag Berlin, 1. Auflage 2007, 306 Seiten, ISBN: 3-540-20380-X<br />
[Krengel] Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik<br />
Viewegverlag, 8. Auflage 2005, 257 Seiten, ISBN: 3-834-80063-5
Vorwort 5<br />
Vorwort<br />
Dieses Skript ist unter einigem Arbeitsaufwand während <strong>der</strong> Vorlesung ” <strong>Grundlagen</strong> <strong>der</strong> <strong>Stochastik</strong>“ von<br />
PD Dr. Fiebig im Wintersemester 2007/2008 an <strong>der</strong> <strong>Georg</strong>-<strong>August</strong>-<strong>Universität</strong> <strong>Göttingen</strong> entstanden.<br />
Der Begriff <strong>der</strong> <strong>Stochastik</strong> umfasst heutzutage die Unterbegriffe <strong>der</strong> Wahrscheinlichkeitstheorie und <strong>der</strong><br />
Statistik. Die Wahrscheinlichkeitstheorie umfasst dabei die Wahrscheinlichkeitsgesetze und das Studium<br />
wahrscheinlichkeitstheoretischer Modelle mit mathematischen Methoden, während die Statistik sich mit<br />
<strong>der</strong> Analyse und Modellierung von Datenstrukturen befasst. Die Ursprünge <strong>der</strong> <strong>Stochastik</strong> als Wissenschaft<br />
gehen auf das Glücksspiel (Würfeln, Kartenspiel etc.) zurück und liegen etwa um 1630. Als erste<br />
stellten Menschen wie Pascal o<strong>der</strong> Fermat Fragen wie ” Was ist wahrscheinlicher? Bei vier Würfen mit<br />
einem Würfel eine 6 o<strong>der</strong> bei 24 Würfen mit zwei Würfeln eine Doppel-6 zu haben?“<br />
Der Begriff <strong>der</strong> Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) geprägt.<br />
Die axiomatische Einführung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogoroff.<br />
Heutzutage findet die <strong>Stochastik</strong> in vielen Gebieten Anwendung. Zum Beispiel in <strong>der</strong> Informatik bei Datenkompression,<br />
Spracherkennung, maschinellem Lernen o<strong>der</strong> Netzwerken, in <strong>der</strong> Technik bei <strong>der</strong> Qualitätskontrolle<br />
o<strong>der</strong> <strong>der</strong> Signalerkennung, in <strong>der</strong> Finanzmathematik bei <strong>der</strong> Berechnung von Prämien o<strong>der</strong><br />
in <strong>der</strong> Biologie und Medizin bei <strong>der</strong> Bil<strong>der</strong>kennung o<strong>der</strong> <strong>der</strong> DNA-Analyse.<br />
In sich ist die <strong>Stochastik</strong> ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen aus<br />
Prognosen für die Daten getätigt werden und gleichzeitig mittels Daten bereits bestehende Modelle geprüft<br />
und neue Modelle geschaffen werden.<br />
Es handelt sich hierbei ausdrücklich nur um eine studentische Mitschrift, nicht um ein offiziell vom Dozenten<br />
herausgegebenes Skript. Trotz großer Anstrengungen sind sicherlich einige Fehler mathematischer<br />
wie auch sprachlicher Natur im Skript verblieben, was hoffentlich nicht allzu große Schwierigkeiten für<br />
das Verständnis aufwerfen wird.<br />
<strong>Göttingen</strong>, 23. Januar 2009<br />
Kirsten Bolze, Frank Werner
6 1 Grundbegriffe<br />
Motivation<br />
Zur Motivation wollen wir zwei Beispiele für stochastische Modelle angeben.<br />
• Europäische Call-Option<br />
Dieses Beispiel kommt aus <strong>der</strong> Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeitpunkt<br />
t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufen<br />
zu können. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht?<br />
Eine mögliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung eines<br />
stochastischen Modells zur Entwicklung <strong>der</strong> Preisentwicklung gegeben:<br />
C = S(0) · Φ(ω) − k · exp (−r) · Φ � ω − σ √ �<br />
t1<br />
Dabei ist S(0) <strong>der</strong> heutige Preis <strong>der</strong> Aktie, r ein festgesetzter Zinssatz und σ die Voluntarität<br />
(Schwankung) des Marktes. ω ist gegeben als<br />
ω =<br />
2 t1<br />
rt1 + σ 2 − log<br />
σ √ t1<br />
� �<br />
k<br />
S(0)<br />
und Φ ist die Verteilungsfunktion <strong>der</strong> Standard-Normalverteilung, d.h.<br />
Φ(ω) =<br />
�ω<br />
−∞<br />
�<br />
1<br />
√ exp −<br />
2π x2<br />
�<br />
dx<br />
2<br />
Für dieses Modell wurde 1997 <strong>der</strong> Nobelpreis für Ökonomie verliehen.<br />
• Spracherkennung<br />
Sei A die Mikrofonaufnahme eines gesprochenen Wortes. Für jedes Wort wi in <strong>der</strong> deutschen Sprache<br />
sei Wi das Ereignis<br />
” wi wurde gesprochen“<br />
Gesucht ist nun das Wort wi, das <strong>der</strong> Sprecher tatsächlich gesagt hat, d.h. mit unserem Modell das<br />
Wort wi, für welches<br />
P (wi | A)<br />
am größten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1,...,100.000 o.Ä. durchlaufen,<br />
um alle Wörter <strong>der</strong> deutschen Sprache abzudecken.<br />
Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet für jedes (!) i mit Hilfe stochastischer<br />
Aussprachemodelle die Wahrscheinlichkeit P (A | wi). Aus Tabellen entnimmt sie zusätzlich<br />
die relative Häufigkeit P (Wi) mit <strong>der</strong> das Wort wi in <strong>der</strong> deutschen Sprache auftritt. Dann nutzen<br />
wir die Bayes-Formel<br />
P (A | wi) · P (Wi)<br />
P (wi | A) =<br />
100.000 �<br />
P (A | wk) · P (Wk)<br />
k=1<br />
Der Nenner dieses Ausdrucks hängt nicht von i ab, daher ist P (wi | A) maximal genau dann, wenn<br />
P (A | wi) · P (Wi) maximal ist.<br />
1 Grundbegriffe<br />
1.1 Definition:<br />
Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Versuchsbedingungen<br />
bestimmt ist.<br />
Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren.
1 Grundbegriffe 7<br />
1.1 Einführung<br />
1.2 Definition:<br />
Ein diskreter Grundraum Ω = {ω1,ω2,...} ist eine nicht leere, abzählbare (o<strong>der</strong> endliche) Menge.<br />
Ein Element ω ∈ Ω nennen wir Ergebnis, eine Teilmenge A ⊆ Ω ein Ereignis.<br />
Beispiel 1.3:<br />
Für einen Würfelwurf mit einem Würfel wäre Ω = {1,2,3,4,5,6}. 5 ∈ Ω entspricht dann dem Ergebnis<br />
” 5 wurde geworfen“ und {2,4,6} dem Ereignis eine gerade Zahl wurde gewürfelt“.<br />
”<br />
1.4 Definition:<br />
Sei Ω ein diskreter Grundraum. Wir nennen<br />
• Ω ⊆ Ω das sichere Ereignis und<br />
• ∅ ⊆ Ω das unmögliche Ereignis.<br />
1.1.1 Mengentheoretische Verknüpfungen<br />
Beispiel 1.5:<br />
Wir betrachten einen zweifachen Würfelwurf. Ein geeigneter Grundraum hier ist<br />
Ω = {1,2,3,4,5,6) × {1,2,3,4,5,6) = {1,2,3,4,5,6} 2 = {(i,j) | i,j ∈ N, 1 ≤ i,j ≤ 6}<br />
Wir betrachten die Ereignisse<br />
Diese Ereignisse entsprechen dann den Teilmengen<br />
und<br />
A = ” Beim ersten Wurf wird eine 6 gewürfelt“<br />
A = ” Beim zweiten Wurf wird eine 3 gewürfelt“<br />
A = {(6,i) | i ∈ N, 1 ≤ i ≤ 6} ⊂ Ω<br />
B = {(j,3) | j ∈ N, 1 ≤ j ≤ 6}<br />
Dann ist A ∩B = {(6,3)} und das entspricht dem Ereignis, dass sowohl A als auch B eintreten, d.h. dass<br />
im ersten Wurf eine 6 und im zweiten Wurf eine 3 kommt.<br />
1.6 Definition:<br />
Sei Ω ein diskreter Grundraum und seien Ai, i ∈ N sowie A,B Ereignisse. Dann entsprechen<br />
• ” A und B treten ein“ dem Ereignis A ∩ B<br />
• ” A o<strong>der</strong> B treten ein“ dem Ereignis A ∪ B<br />
• ” Jedes <strong>der</strong> Ai, i ∈ N ist eingetreten“ dem Ereignis �<br />
Ai<br />
i∈N<br />
• ” Mindestens eins <strong>der</strong> Ai, i ∈ N ist eingetreten“ dem Ereignis �<br />
• ” A ist nicht eingetreten“ dem Ereignis A c := Ω \ A.<br />
Ai<br />
i∈N<br />
Man kann sich mittels Venn-Diagrammen gut Verknüpfungen von Ereignissen verdeutlichen.<br />
1.7 Definition:<br />
Sei Ω ein diskreter Grundraum und seien Ai ⊆ Ω, i ∈ N paarweise disjunkte Ereignisse, d.h.<br />
i �= j ⇒ Ai ∩ Aj = ∅<br />
Dann schreiben wir auch �<br />
Ai =: �<br />
i∈N<br />
i∈N<br />
Ai
8 1 Grundbegriffe<br />
1.1.2 Relative Häufigkeiten<br />
Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation dafür sind sogenannte<br />
relative Häufigkeiten:<br />
1.8 Definition:<br />
Sei Ω0 ein diskreter Grundraum. Die relative Häufigkeit eines Ereignisses A ⊆ Ω0 in einer Folge von<br />
Relationen ω1,ω2,...,ωn aus gleichwertigen Experimenten ist definiert als<br />
Beispiel 1.9:<br />
rn (A) := 1<br />
n # {j = 1,...,n | ωj ∈ A}<br />
Bei 300 Würfen einer Reißzwecke landet 124 mal die Spitze oben, sonst landet <strong>der</strong> Kopf oben. Sei ” 1“<br />
das Ergebnis ” Spitze nach oben“ und ” 0“ das Ergebnis ” Kopf nach oben“. Dann ist<br />
Ω := {0,1} 300 = {(ω1,...,ω300) | ωi ∈ {0,1} ∀ 1 ≤ i ≤ 300}<br />
ein geeigneter Grundraum für dieses Experiment. Außerdem setzt man Ω0 := {0,1} als den Grundraum<br />
für einen einfachen Wurf <strong>der</strong> Reißzwecke fest. Entsprechend ist für n = 300 also<br />
und es gilt rn ({1}) = 1<br />
300 · 124.<br />
Ω = Ω n 0<br />
Wir wollen nun einige offensichtliche Eigenschaften relativer Häufigkeiten in einem Lemma festhalten:<br />
1.10 Lemma:<br />
Es gelten die folgenden Relationen:<br />
• 0 ≤ rn (A) ≤ 1 ∀ A ⊆ Ω0.<br />
• rn (Ω0) = 1.<br />
• rn (A + B) = rn (A) + rn (B) für A,B ⊆ Ω mit A ∩ B = ∅.<br />
Die Idee ist nun, dass die relativen Häufigkeiten rn (A) für n ��<br />
∞ gegen die Wahrscheinlichkeit P (A)<br />
eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich die<br />
relativen Häufigkeiten für immer größer werdendes n stabilsieren. Um diese Aussage auch beweisen zu<br />
können, brauchen wir nun eine geeignete Axiomatik.<br />
1.1.3 Axiomatik nach Kolmogoroff (1939)<br />
1.11 Definition:<br />
Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω,P), wobei Ω ein diskreter Grundraum und<br />
P eine auf den Teilmengen P (Ω) definierte reellwertige Funktion ist, welche die folgenden Axiome erfüllt:<br />
(A1) Positivität<br />
Es gilt P (A) ≥ 0 für alle A ⊆ Ω.<br />
(A2) Normiertheit<br />
Es gilt P (Ω) = 1.<br />
(A3) σ-Additivität<br />
Für jede Folge paarweise disjunkter Teilmengen A1,A2,... ⊆ Ω gilt<br />
�<br />
∞�<br />
�<br />
∞�<br />
P = P (Ai)<br />
i=1<br />
Ai<br />
P heißt Wahrscheinlichkeitsmaß o<strong>der</strong> auch (Wahrscheinlichkeits-)Verteilung auf Ω. P(A) ist die<br />
Wahrscheinlichkeit des Ereignisses A ⊂ Ω.<br />
i=1
1 Grundbegriffe 9<br />
Folgerung 1.12 (Rechenregeln):<br />
(R1) Es ist P(∅) = 0.<br />
(R2) Es gilt Additivität, d.h.<br />
Beweis:<br />
P<br />
� n�<br />
i=1<br />
Ai<br />
�<br />
=<br />
n�<br />
P(Ai)<br />
i=1<br />
für endlich viele paarweise disjunkte Mengen A1,...,An.<br />
(R1) Setze Ai = ∅ für i = 1,2,3,.... Dann gilt<br />
�<br />
∞�<br />
R ∋ P(∅) = P<br />
i=1<br />
Aus <strong>der</strong> Konvergenz <strong>der</strong> Summe folgt P(∅) = 0.<br />
(R2) Setze in (A3) Ai = ∅ für i > n und benutze (R1).<br />
Ai<br />
�<br />
(A3)<br />
=<br />
∞�<br />
∞�<br />
P(Ai) = P(∅)<br />
In <strong>der</strong> <strong>Stochastik</strong> sollten die Ergebnisse, die man aus <strong>der</strong> Modellierung erhält, empirisch verifiziert werden.<br />
Beim Wurf <strong>der</strong> Reißzwecke setzt man z.B. Ω = {0,1}, P(1) = 0.4 und P(0) = 0.6 (wobei 1 ” Spitze oben“<br />
bedeutet) und bestätigt sich dies so in unserem Versuch mit 300 Würfen, denn<br />
1.13 Definition:<br />
i=1<br />
i=1<br />
r300(1) = 124<br />
300 ≈ 0.4 und r300(0) = 176<br />
≈ 0.6<br />
300<br />
Sei Ω eine Menge und A ⊆ Ω eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit<br />
Wir erinnern uns an die de Morgan’schen Regeln:<br />
1.14 Hilfssatz:<br />
Für zwei Mengen M und N gelten:<br />
Beweis:<br />
A c := Ω \ A<br />
M c ∪ N c = (M ∩ N) c<br />
M c ∩ N c = (M ∪ N) c<br />
Sei x ∈ M c ∪ N c . Dann gilt sicherlich entwe<strong>der</strong> x ∈ M c o<strong>der</strong> x ∈ N c (o<strong>der</strong> beides), d.h. x /∈ M o<strong>der</strong><br />
x /∈ N (o<strong>der</strong> beides). Daher ist x /∈ M ∩ N und daher<br />
x ∈ (M ∩ N) c<br />
Ist an<strong>der</strong>sherum x ∈ (M ∩ N) c , so ist x /∈ M ∩ N und daher entwe<strong>der</strong> x /∈ N o<strong>der</strong> x /∈ M (o<strong>der</strong> beides).<br />
Entsprechend gilt sicherlich x ∈ M c o<strong>der</strong> x ∈ N c was (1.1) zeigt.<br />
Sei x ∈ M c ∩ N c . Dann ist x ∈ M c und x ∈ N c , d.h. x /∈ M und x /∈ N. Daher gilt auch x /∈ M ∪ N und<br />
entsprechend<br />
x ∈ (M ∪ N) c<br />
Ist an<strong>der</strong>sherum x ∈ (M ∪ N) c , so ist x /∈ M ∪ N, also x /∈ M und x /∈ N. Das hat aber x ∈ M c und<br />
x ∈ N c zur Folge und daher gilt<br />
x ∈ M c ∩ N c<br />
Das zeigt (1.2).<br />
Bemerkung 1.15:<br />
Natürlich verallgemeinern die de Morgan’schen Regeln sich direkt auf unendliche Vereinigungen und<br />
Schnitte. Sind Ai, i ∈ N Mengen, so gilt:<br />
∞�<br />
A c �<br />
∞�<br />
�c i =<br />
(1.3)<br />
i=1<br />
∞�<br />
i=1<br />
A c i =<br />
Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14.<br />
i=1<br />
� ∞�<br />
i=1<br />
Ai<br />
Ai<br />
� c<br />
(1.1)<br />
(1.2)<br />
(1.4)
10 1 Grundbegriffe<br />
1.16 Lemma (weitere Rechenregeln):<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum. A,B und Ai seien Ereignisse für i ∈ N. Dann gilt:<br />
(R3) P(A) = 1 − P(A c )<br />
(R4) P(A) ≤ 1 für alle A ⊂ Ω<br />
(R5) P(A \ B) = P(A) − P(B) falls B ⊂ A<br />
(R6) P(B) ≤ P(A), wenn B ⊂ A (Monotonie)<br />
(R7) Für beliebige endliche o<strong>der</strong> unendliche Folgen A1,A2,A3,... gilt (Boole’sche Ungleichung)<br />
�<br />
�<br />
P<br />
�<br />
≤ �<br />
P(Ai)<br />
i<br />
Ai<br />
(R8) Falls A1 ⊂ A2 ⊂ A3 ⊂ ..., so gilt (Stetigkeit von unten)<br />
�<br />
∞�<br />
�<br />
P Ai = lim P(Ai)<br />
i→∞<br />
i=1<br />
(R9) Falls A1 ⊃ A2 ⊃ A3 ⊃ ..., so gilt (Stetigkeit von oben)<br />
�<br />
∞�<br />
�<br />
P Ai = lim P(Ai)<br />
i→∞<br />
Beweis:<br />
i=1<br />
Zum Beweis werden nur die Kolmogoroff-Axiome sowie die Folgerungen (R1) und (R2) benutzt:<br />
(R3) Es gilt Ω = A ∪ Ac mit A,Ac disjunkt und damit 1 (A2)<br />
= P(Ω) = P(A ∪ Ac ) (R2)<br />
Durch Umstellen erhält man P(A) = 1 − P(A c ).<br />
(R4) Da P(A c ) (A1)<br />
≥ 0 folgt mit (R3) P(A) = 1 − P(A c ) ≤ 1.<br />
i<br />
= P(A) + P(A c ).<br />
(R5) Da A = (A \ B) ∪ B eine disjunkte Vereinigung ist, gilt laut (R2) P(A) = P(A \ B) + P(B).<br />
(R6) Nach Rechenregel (R3) ist P(B) = P(A) −P(A \B). Außerdem ist P(A \B) (A1)<br />
≥ 0 und es folgt die<br />
Behauptung.<br />
(R7) Setze B1 := A1,B2 := A2 \ A1,B3 := A3 \ (A1 ∪ A2),... d.h.<br />
Bn := An \ (A1 ∪ A2 ∪ ... ∪ An−1) für n ∈ N<br />
Die Bi sind paarweise disjunkt und Bi ⊂ Ai für alle i ∈ N. Es gilt also<br />
�<br />
Bi = �<br />
und damit<br />
P<br />
� �<br />
i∈N<br />
Ai<br />
�<br />
= P<br />
(R8) Setze die Bi wie eben. Dann gilt:<br />
�<br />
∞�<br />
P<br />
i=1<br />
� �<br />
Ai<br />
i∈N<br />
�<br />
i∈N<br />
Bi<br />
�<br />
(A3)<br />
= P<br />
(A3)<br />
=<br />
i∈N<br />
Ai<br />
�<br />
= P(Bi) (R4)<br />
≤ �<br />
P(Ai)<br />
i∈N<br />
� ∞�<br />
i=1<br />
Bi<br />
∞�<br />
P(Bi)<br />
i=1<br />
= lim<br />
n→∞<br />
i=1<br />
(R2)<br />
= lim<br />
n→∞ P<br />
�<br />
n�<br />
P(Bi)<br />
� n�<br />
i=1<br />
= lim<br />
n→∞ P(An)<br />
Bi<br />
�<br />
i∈N
1 Grundbegriffe 11<br />
(R9) Gilt A1 ⊃ A2 ⊃ ..., so ist offenbar<br />
Wir berechnen daher<br />
was die Behauptung zeigt.<br />
1.2 Laplace Experimente<br />
1.17 Definition:<br />
P<br />
� ∞�<br />
i=1<br />
Ai<br />
Ein Paar (Ω,P) heißt Laplace-Raum, wenn<br />
gilt.<br />
• Ω = {ω1,...,ωn} endlich ist und<br />
• für alle A ⊆ Ω<br />
�<br />
A c 1 ⊂ A c 2 ⊂ ...<br />
��<br />
∞�<br />
(1.4)<br />
= P<br />
(R3)<br />
= 1 − P<br />
i=1<br />
A c i<br />
� ∞�<br />
i=1<br />
� c�<br />
A c i<br />
�<br />
(R8)<br />
= 1 − lim<br />
i→∞ P (A c i)<br />
(R3)<br />
= 1 −<br />
= lim<br />
i→∞ P (Ai)<br />
�<br />
1 − lim<br />
i→∞ P (A1)<br />
P(A) = #A<br />
#Ω = # günstige Fälle“<br />
”<br />
# mögliche Fälle“<br />
”<br />
P heißt Laplace-Verteilung o<strong>der</strong> diskrete Gleichverteilung auf Ω = {ω1,...,ωn}.<br />
Bemerkung 1.18:<br />
Sei (Ω,P) ein Laplace-Raum. Dann ist<br />
Beispiel 1.19:<br />
P({ω}) = 1 1<br />
=<br />
#Ω n<br />
∀ ω ∈ Ω<br />
(1) Gegeben sei ein Würfel. Wir setzen als Grundraum Ω = {1,2,...,6} mit P als <strong>der</strong> Laplace-Verteilung.<br />
Uns interessiert das Ereignis A =“gerade Zahl“ = {2,4,6}. Dann gilt:<br />
P(A) = #A #{2,4,6}<br />
= =<br />
#Ω 6<br />
1<br />
2<br />
(2) Beim Wurf <strong>der</strong> Reißzwecke liegt kein Laplace-Raum vor, da<br />
P(1) = 0.4 �= 0.6 = P(0)<br />
(3) Man muss darauf achten den ” richtigen“ Laplace-Raum zu wählen. Beim (gleichzeitigen) Wurf<br />
zweier fairer Münzen ist die Wahrscheinlichkeit des Ereignisses<br />
gesucht.<br />
B = “einmal Kopf und einmal Zahl wird geworfen“<br />
Modell 1: Wir setzen Ω := {KK,KZ,ZK,ZZ} als Laplace-Raum. Das liefert<br />
P(B) = P ({KZ,ZK}) = #{ZK,KZ}<br />
#Ω<br />
�<br />
= 2 1<br />
=<br />
4 2
12 1 Grundbegriffe<br />
Modell 2: Wir setzen Ω := {KK,KZ,ZZ} ohne Beachtung <strong>der</strong> Ordnung - das liefert<br />
P({KZ}) = 1<br />
3<br />
Dieses Ergebnis ist empirisch wie<strong>der</strong>legbar.<br />
(4) Summe von Augenzahlen<br />
Es werde zwei Mal gewürfelt. Sei Am =“Die Augensumme ist m“ für m = 2,3,...,12.<br />
Unser Modell ist Ω = {1,2,...,6} 2 = {(i,j) | 1 ≤ i,j ≤ 6} als Laplace-Raum, d.h.<br />
Offenbar ist #Ω = 36. Nun ergibt sich<br />
P(Am) = #Am<br />
#Ω<br />
#A2 = #{(1,1)} = 1 P(A2) = 1<br />
36<br />
#A3 = #{(1,2),(2,1)} = 2 P(A3) = 2<br />
36<br />
#A4 = #{(1,3),(2,2),(3,1)} = 3 P(A4) = 3<br />
36<br />
#A5 = #{(1,4),(2,3),(3,2),(4,1)} = 4 P(A5) = 4<br />
36<br />
#A6 = #{(1,5),(2,4),(3,3),(4,2),(5,1)} = 5 P(A6) = 5<br />
36<br />
#A7 = #{(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)} = 6 P(A7) = 6<br />
36<br />
#A8 = #{(2,6),(3,5),(4,4),(5,3),(6,2)} = 5 P(A8) = 5<br />
36<br />
.<br />
#A12 = #{(6,6)} = 1 P(A12) = 1<br />
36<br />
(5) Teilungsproblem des Luca Paccioli (1494)<br />
Zwei Spieler A und B wie<strong>der</strong>holen ein faires Spiel (z.B. Münzwurf). Wer zuerst sechs Spiele gewonnen<br />
hat, bekommt den gesamten Einsatz. Das Spiel muss beim Stand 5:3 abgebrochen werden. Wie ist<br />
<strong>der</strong> Einsatz gerecht aufzuteilen?<br />
Um diese Frage zu beantworten, betrachten wir Verläufe, die zu einer Entscheidung führen. Es<br />
ergeben sich die folgenden Modelle:<br />
Modell 1: A, BA, BBA, BBB. Bei dieser Betrachtung gewinnt A in 3 von 4 Fällen. Damit gehen 3<br />
4 des<br />
an Spieler B.<br />
Einsatzes an Spieler A und 1<br />
4<br />
Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach <strong>der</strong> Definition<br />
an Spieler B.<br />
des Laplace-Raums gehen 7<br />
8<br />
des Einsatzes an Spieler A und 1<br />
8<br />
(6) Wir werfen 10 mal eine Münze. Gesucht ist die Wahrscheinlichkeit des Ereignisses<br />
C = “mindestens 1 mal tritt Kopf auf“<br />
Unser Modell ist Ω := {K,Z} 10 = {(a1,...,a10) | ai ∈ {K,Z}} als Laplace-Raum.<br />
Es folgt #Ω = 1024 und wir berechnen<br />
P(C) = #C<br />
#Ω<br />
mit Hilfe des Komplements von C, denn dieses ist einfacher zu bestimmen!<br />
P(C) = 1 − P(C c ) = 1 − #Cc<br />
#Ω = 1 − # { Es tritt kein mal Kopf auf“}<br />
” = 1 −<br />
#Ω<br />
1 1023<br />
=<br />
1024 1024<br />
(7) Maxima von Augenzahlen<br />
Es wird k mal gewürfelt. Sei m ∈ {1,2,...,6} und das Ereignis Bm =“höchste Augenzahl ist m“.<br />
Wir verwenden als Modell den Laplace-Raum<br />
Ω := {1,...,6} k = {(a1,...,ak) | ai ∈ {1,...,6}}<br />
Für 1 ≤ m ≤ 6 setze Am als das Ereignis Am =“alle Augenzahlen sind ≤ m“ fest und erhalte so<br />
P(Am) = #Am<br />
#Ω<br />
mk<br />
= .<br />
6k Dann gilt Bm = Am \ Am−1 und Am−1 ⊂ Am. Die Rechenregel (R5) liefert nun<br />
P(Bm) = P(Am) − P(Am−1) = mk (m − 1)k<br />
−<br />
6k 6k .<br />
.<br />
= mk − (m − 1) k<br />
6k .
1 Grundbegriffe 13<br />
1.3 Allgemeine diskrete Wahrscheinlichkeitsräume und -funktionen<br />
1.20 Lemma:<br />
Ist (Ω,P) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte<br />
Beweis:<br />
Sei A ⊆ Ω beliebig. Dann gilt<br />
P ({ω}) , ω ∈ Ω<br />
A = �<br />
{ω} = �<br />
{ω}<br />
ω∈A<br />
und diese Vereinigung ist abzählbar, da <strong>der</strong> Grundraum Ω selbst schon abzählbar ist. Es folgt aus (A3):<br />
� �<br />
�<br />
P (A) = P {ω} = �<br />
P ({ω}) .<br />
ω∈A<br />
ω∈A<br />
ω∈Ω<br />
Daher ist P durch die Werte in <strong>der</strong> Voraussetzung bereits festgelegt.<br />
Bemerkung 1.21:<br />
Wegen (A1) und (R4) ist bereits klar, dass<br />
0 ≤ P ({ω}) ≤ 1<br />
für alle ω ∈ Ω gilt. Genauso muss nach (A2) und (A3) auch<br />
�<br />
P ({ω}) (A3)<br />
� �<br />
�<br />
= P {ω}<br />
gelten.<br />
ω∈Ω<br />
Das veranlasst uns zu folgen<strong>der</strong><br />
ω∈Ω<br />
= P (Ω) (A2)<br />
= 1<br />
1.22 Definition:<br />
Sei ٠ein diskreter Grundraum. Eine Abbildung p : ٠��<br />
[0,1] mit <strong>der</strong> Eigenschaft<br />
�<br />
p(ω) = 1<br />
heißt Wahrscheinlichkeitsfunktion auf Ω.<br />
Bemerkung 1.23:<br />
ω∈Ω<br />
Ist P eine Wahrscheinlichkeitsverteilung auf Ω, so ist<br />
wie oben gesehen eine Wahrscheinlichkeitsfunktion.<br />
Beispiel 1.24:<br />
p(ω) := P ({ω})<br />
Wir betrachten den zu einmaligem Würfeln gehörigen Laplace-Raum. Dann ist die entsprechende Wahrscheinlichkeitsfunktion<br />
p gegeben durch<br />
Beispiel 1.25:<br />
p(1) = p(2) = ... = p(6) = 1<br />
6 .<br />
Wir betrachten wie<strong>der</strong> unser Beispiel <strong>der</strong> Reißzwecke. Die hier entstehende Wahrscheinlichkeitsfunktion<br />
p ist gegeben durch<br />
p(1) = 0.4, p(0) = 0.6.<br />
1.26 Satz:<br />
Sei Ω ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf Ω. Dann definieren wir durch<br />
P (A) := �<br />
p(ω) , A ⊆ Ω<br />
eine Wahrscheinlichkeitsverteilung P auf Ω.<br />
ω∈A
14 1 Grundbegriffe<br />
Beweis:<br />
Wir müssen lediglich die Axiome (A1), (A2) und (A3) prüfen.<br />
(A1) Sei A ⊆ Ω beliebig. Da p ≥ 0 gilt, folgt sofort<br />
(A2) Offenbar ist<br />
(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann ist<br />
P<br />
P (A) = �<br />
p(ω) ≥ 0.<br />
����<br />
ω∈A<br />
≥0<br />
P (Ω) = �<br />
p(ω) = 1.<br />
� ∞�<br />
i=1<br />
Ai<br />
�<br />
ω∈Ω<br />
= �<br />
ω∈ ∞�<br />
Ai<br />
i=1<br />
p(ω) .<br />
Per Definition ist p ≥ 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen <strong>der</strong><br />
Disjunktheit <strong>der</strong> Ai: �<br />
∞�<br />
P<br />
�<br />
∞� �<br />
∞�<br />
= p(ω) = P (Ai) .<br />
Das zeigt die Behauptung.<br />
Bemerkung 1.27:<br />
i=1<br />
Ai<br />
i=1 ω∈Ai<br />
Für diskrete Grundräume Ω haben wir also folgendes:<br />
Die Menge M aller Wahrscheinlichkeitsverteilungen P auf Ω und die Menge aller Wahrscheinlichkeitsfunktionen<br />
p auf Ω lassen sich bijektiv durch<br />
ineinan<strong>der</strong> abbilden.<br />
i=1<br />
P ↦→ p, p(ω) := P ({ω}) , ω ∈ Ω<br />
Die Frage, die man sich also stellt ist, warum man nicht gleich nur mit Wahrscheinlichkeitsfunktionen<br />
arbeitet.<br />
Eine Antwort darauf ist leicht zu geben, denn im Fall eines nicht-diskreten Grundraumes wie Ω = [0,1]<br />
o<strong>der</strong> Ω = R macht eine Frage nach P ({a}), a ∈ Ω - also nach <strong>der</strong> Wahrscheinlichkeit eines einzelnen<br />
Ergebnisses - keinen Sinn! Diese Wahrscheinlichkeit wäre stets 0.<br />
Man stelle sich Beispielsweise einen Zufallsgenerator vor, <strong>der</strong> ” gleichverteilt“ Zahlen aus [0,1] zieht. Die<br />
Wahrscheinlichkeit, dass eine 0 gezogen wird, müsste dann 0 sein, aber die Summe über alle Zahlen <strong>der</strong><br />
Wahrscheinlichkeiten wäre weiterhin 1. Das macht schlicht und ergreifend keinen Sinn!<br />
Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abzählbare) Grundräume Ω<br />
verallgemeinern und liefern so eine einheitliche Theorie für alle Wahrscheinlichkeitsräume.<br />
Beispiel 1.28:<br />
Wir können einen gefälschten Würfel modellieren durch<br />
p(1) := 0.1, p(2) = ... = p(5) = 0.175, p(6) = 0.2.<br />
Das definiert eine Wahrscheinlichkeitsfunktion auf Ω = {1,2,...,6}. Die zugehörige Wahrscheinlichkeitsverteilung<br />
nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung.<br />
Beispiel 1.29:<br />
Auf Ω = {2,3,...,12} definiere die Wahrscheinlichkeitsfunktion p durch den Vektor<br />
� �<br />
1 2 5 6 5 1<br />
, ,..., , , ,..., .<br />
36 36 36 36 36 36<br />
Damit ist natürlich gemeint, dass p(2) = 1 2<br />
36 , p(3) = 36 etc. ist. Diese Wahrscheinlichkeitsfunktion definiert<br />
als Wahrscheinlichkeitsverteilugn genau die Verteilung <strong>der</strong> Augensumme bei zweimaligem Würfeln.
1 Grundbegriffe 15<br />
1.4 Siebformeln<br />
In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen o<strong>der</strong> abschätzen, wenn<br />
wir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (Ω,P) ein Wahrscheinlichkeitsraum.<br />
1.30 Lemma:<br />
Sind A1,A2 ⊆ Ω Ereignisse, so gilt<br />
Beweis:<br />
P (A1 ∪ A2) = P (A1) + P (A2) − P (A1 ∩ A2) .<br />
Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 ∩ A2). Dann ist A1 ∪ A2 = B1 ∪ B2 und B1 ∩ B2 = ∅.<br />
Daher gilt:<br />
Das zeigt die Behauptung.<br />
Beispiel 1.31:<br />
Wir definieren das Ereignis A als<br />
P (A1 ∪ A2) = P (B1 ∪ B2)<br />
(R2)<br />
= P (B1) + P (B2)<br />
= P (A1) + P (A1 \ (A1 ∩ A2))<br />
(R5)<br />
= P (A1) + P (A2) − P (A1 ∩ A2) .<br />
A:= ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 o<strong>der</strong> durch 5 teilbar“<br />
Um P (A) zu berechnen definieren wir<br />
A2:= ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 teilbar“<br />
A5:= ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 5 teilbar“<br />
Dann gilt A = A2 ∪ A5, offenbar ist P (A2) = 50 1<br />
100 = 2 , P (A5) = 20 1<br />
100 = 5 und<br />
P (A2 ∩ A5) = P ( ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 und durch 5 teilbar“)<br />
Nach Lemma 1.30 ist also<br />
= P ( Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 10 teilbar“) =<br />
” 10 1<br />
=<br />
100 10 .<br />
P (A) = P (A2) + P (A5) − P (A2 ∩ A5) = 1 1 1 3<br />
+ − =<br />
2 5 10 5 .<br />
Sind A1,A2,A3 ⊆ Ω nun drei Ereignisse, so ergibt sich als Siebregel<br />
P (A1 ∪ A2 ∪ A3)<br />
= P (A1) + P (A2) + P (A3) − P (A1 ∩ A2) − P (A1 ∩ A3) − P (A2 ∩ A3) + P (A1 ∩ A2 ∩ A3) ,<br />
wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch aus<br />
den folgenden allgemeinen Siebformeln.<br />
1.4.1 Allgemeine Siebformeln<br />
Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A1,...,An ⊂ Ω Ereignisse, n ≥ 2. Setze<br />
�<br />
Sk :=<br />
P (Ai1 ∩ ... ∩ Aik )<br />
für 1 ≤ k ≤ n.<br />
1≤i1
16 1 Grundbegriffe<br />
Beweis:<br />
Wir zeigen die Aussage durch Induktion über n.<br />
• Induktionsanfang (I.A.):<br />
Lemma 1.30 liefert<br />
• Induktionsvoraussetzung (I.V.):<br />
Gelte<br />
P (A1 ∪ A2) = P (A1) +P (A2) − P (A1 ∩ A2) =<br />
� �� � � �� �<br />
für alle Ereignisse A1,...,Am ⊆ Ω.<br />
• Induktionsschritt (n ��<br />
n + 1):<br />
Wir setzen<br />
Dann gilt:<br />
�<br />
n+1 �<br />
P<br />
i=1<br />
Ai<br />
�<br />
=S1<br />
P<br />
= P (B ∪ An+1)<br />
I.A.<br />
� n�<br />
i=1<br />
Ai<br />
�<br />
=<br />
=S2<br />
n�<br />
k=1<br />
B := A1 ∪ ... ∪ An<br />
(−1) k−1 Sk<br />
= P (B) + P (An+1) − P (B ∩ An+1)<br />
�<br />
n�<br />
�<br />
��<br />
n�<br />
= P + P (An+1) − P<br />
I.V.<br />
=<br />
I.V.<br />
=<br />
=<br />
=<br />
=<br />
n�<br />
k=1<br />
i=1<br />
Ai<br />
(−1) k−1 Sk + P (An+1) − P<br />
n�<br />
(−1) k−1<br />
k=1<br />
−<br />
n�<br />
(−1) k−1<br />
k=1<br />
n�<br />
(−1) k−1<br />
k=1<br />
−<br />
n�<br />
(−1) k−1<br />
k=1<br />
�<br />
1≤i≤n<br />
−<br />
P (Ai) +<br />
n�<br />
(−1) k−1<br />
k=1<br />
�<br />
1≤i≤n+1<br />
−<br />
�<br />
1≤i1
1 Grundbegriffe 17<br />
=<br />
=<br />
=<br />
=<br />
n+1 � n−1 �<br />
P (Ai) − (−1) k−1<br />
i=1<br />
+<br />
i=1<br />
�<br />
k=1<br />
1≤i1
18 1 Grundbegriffe<br />
Damit folgt dann:<br />
P<br />
was die Behauptung zeigt.<br />
Mit den Bezeichnungen<br />
� n�<br />
i=1<br />
Ai<br />
�<br />
Sk :=<br />
für 1 ≤ k ≤ n kann man jetzt folgern:<br />
Folgerung 1.34:<br />
= P<br />
=<br />
=<br />
=<br />
� n�<br />
i=1<br />
Bi<br />
n�<br />
P (Bi)<br />
i=1<br />
�<br />
⎛ ⎛ ⎞⎞<br />
n�<br />
i−1 �<br />
⎝P (Ai) − P ⎝ (Aj ∩ Ai) ⎠⎠<br />
i=1<br />
n�<br />
P (Ai) −<br />
i=1<br />
�<br />
1≤i1
1 Grundbegriffe 19<br />
=<br />
=<br />
i1−1 �<br />
j=1<br />
P (Ai1 ∩ ... ∩ Aim ∩ Aj)<br />
i1−1 �<br />
− P<br />
i1−1 �<br />
j=1<br />
j=1<br />
� j−1<br />
�<br />
k=1<br />
(Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ai1 ∩ ... ∩ Aim ∩ Ak)<br />
P (Ai1 ∩ ... ∩ Aim ∩ Aj)<br />
i1−1 �<br />
− P<br />
j=1<br />
� j−1<br />
�<br />
k=1<br />
(Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ak)<br />
Setzen wir das nun in die Induktionsvoraussetzung ein, so erhalten wir<br />
�<br />
n�<br />
�<br />
I.V.<br />
=<br />
=<br />
=<br />
=<br />
=<br />
P<br />
m�<br />
i=1<br />
m�<br />
i=1<br />
i=1<br />
Ai<br />
(−1) i−1 Si + (−1) m<br />
(−1) i−1 Si + (−1) m<br />
i1−1 �<br />
− P<br />
m�<br />
i=1<br />
j=1<br />
� j−1<br />
�<br />
k=1<br />
(−1) i−1 Si + (−1) m<br />
+(−1) m+1<br />
m�<br />
i=1<br />
�<br />
1≤i1
20 1 Grundbegriffe<br />
Beweis:<br />
Nach Definition eines Wahrscheinlichkeitsraums ist für jede Auswahl 1 ≤ i1 < ... < im ≤ n<br />
⎛<br />
⎞<br />
i1−1 �<br />
P ⎝ (Ai1 ∩ ... ∩ Aim ∩ Aj) ⎠ ≥ 0<br />
Ist nun m ∈ {1,...,n} ungerade, so folgt<br />
P<br />
� n�<br />
i=1<br />
Ai<br />
�<br />
(1.6)<br />
=<br />
=<br />
≤<br />
m�<br />
i=1<br />
j=1<br />
(−1) i−1 Si + (−1) m<br />
m�<br />
(−1) i−1 Si −<br />
i=1<br />
m�<br />
i=1<br />
(−1) i−1 Si<br />
�<br />
1≤i1
1 Grundbegriffe 21<br />
Beweis:<br />
Es gilt<br />
Das zeigt die Behauptung.<br />
P<br />
� n�<br />
i=1<br />
Ai<br />
�<br />
��<br />
n�<br />
(R3)<br />
= 1 − P<br />
(1.3)<br />
= 1 − P<br />
(1.7)<br />
≥ 1 −<br />
(R3)<br />
= 1 −<br />
≥ 1 −<br />
� n�<br />
i=1<br />
i=1<br />
A c i<br />
Ai<br />
n�<br />
P (A c i)<br />
i=1<br />
�<br />
� c�<br />
n�<br />
(1 − P (Ai))<br />
i=1<br />
n�<br />
(1 − 1 − εi) = 1 −<br />
i=1<br />
In <strong>der</strong> Anwendung sieht das so aus: Man betrachtet etwa ein System mit n Komponenten, welches nur<br />
funktioniert, wenn alle Komponenten funktionieren. Dann ist<br />
und<br />
Ai = ” Die i-te Komponente ist intakt“<br />
n�<br />
Ai = Das System ist intakt“<br />
”<br />
i=1<br />
Man erhält so eine Abschätzung für die Sicherheit des Systems, wenn man Abschätzungen für die Sicherheit<br />
<strong>der</strong> Komponenten hat.<br />
Beispiel 1.38:<br />
Ist etwa P (Ai) ≥ 0.99 für alle i = 1,...,n, also εi = 0.01 für alle i = 1,...,n, so ist das System immerhin<br />
noch mit Wahrscheinlichkeit �<br />
n�<br />
�<br />
P Ai ≥ 1 − n<br />
100<br />
intakt.<br />
i=1<br />
n�<br />
i=1<br />
εi
22 2 Kombinatorik<br />
2 Kombinatorik<br />
Hier wollen wir das sogenannte Urnen- und Fächermodell einführen. Dazu betrachten wir vier verschiedene<br />
Grundräume ΩI,ΩII,ΩIII,ΩIV die aus Urnen- bzw. Fächermodellen entstehen und bestimmen ihre<br />
Kardinalitäten. In <strong>der</strong> Praxis werden ΩI,ΩII und ΩIII oft als Grundräume für Laplace-Räume benutzt,<br />
ΩIV ist spezieller.<br />
Beispiel 2.1:<br />
Wir wollen Würfeln als Urnenmodell realisieren. Dabei entspricht dann <strong>der</strong> erste Wurf dem Ziehen einer<br />
Kugel aus einer Urne mit sechs Kugeln, welche mit den Zahlen 1,2,3,4,5,6 beschriftet sind, und dem<br />
Zurücklegen <strong>der</strong> Kugel nach dem Ziehen. Der zweite Wurf ist dann wie<strong>der</strong> das Ziehen einer Kugel aus<br />
<strong>der</strong> selben Urne mit zurücklegen etc..<br />
Das realisiert genau Würfeln als Laplace-Raum wie bereits bekannt.<br />
Urnenmodell I:<br />
k-faches Ziehen mit Zurücklegen unter Berücksichtigung <strong>der</strong> Reihenfolge aus einer Urne mit n Kugeln,<br />
welche die Nummern 1 bis n tragen.<br />
Der Grundraum ist hier<br />
ΩI = {(a1,...,ak) | 1 ≤ ai ≤ n, i = 1,...,n}<br />
wobei ai <strong>der</strong> Nummer <strong>der</strong> im i−ten Experiment gezogenen Kugel entspricht. Es ist<br />
#ΩI = n k<br />
Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1,...,k nummeriert<br />
werden und verteilt diese Kugeln in n Fächer. Dabei sind mehrere Kugeln pro Fach erlaubt. Notiert wird<br />
als ai die Nummer des Fachs, in welchem die Kugel mit <strong>der</strong> Aufschrift ” i“ gelandet ist. Der Grundraum<br />
<strong>der</strong> Ergebnisse ist dann genau wie oben schon eingeführt<br />
Beispiel 2.2:<br />
ΩI = {(a1,...,ak) | 1 ≤ ai ≤ n, i = 1,...,n}<br />
Das Fächermodell findet etwa dann Verwendung, wenn sich k Kunden an n verfügbaren Schaltern anstellen<br />
o<strong>der</strong> in <strong>der</strong> Informatik k Jobs auf n Prozessoren verteilt werden.<br />
Urnenmodell II:<br />
k-faches Ziehen ohne Zurücklegen unter Berücksichtigung <strong>der</strong> Reihenfolge aus einer Urne mit n Kugeln,<br />
welche die Nummern 1 bis n tragen. Das ist offenbar nur für k ≤ n möglich.<br />
Der Grundraum ist hier<br />
ΩII = {(a1,...,ak) | ai �= aj für i �= j und ai ∈ {1,...,n} für i = 1,...,k}<br />
wobei ai <strong>der</strong> Nummer <strong>der</strong> im i−ten Experiment gezogenen Kugel entspricht. Die Kardinalität von ΩII<br />
berechnet sich wie folgt:<br />
Beim Ziehen <strong>der</strong> ersten Kugel gibt es n Möglichkeiten, beim Ziehen <strong>der</strong> zweiten Kugel n−1 Möglichkeiten<br />
usw, daher ist<br />
n!<br />
#ΩII = n · (n − 1) · ... · (n − k + 1) =<br />
(n − k)! =: (n) k<br />
Wir sprechen diese Zahl als ” n unten k“.<br />
Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1,...,k nummeriert<br />
werden und verteilt diese Kugeln in n Fächer. Diesmal ist aber jeweils maximal eine Kugel pro Fach<br />
erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit <strong>der</strong> Aufschrift ” i“ gelandet<br />
ist.
2 Kombinatorik 23<br />
Bemerkung 2.3 (Spezialfall):<br />
Wir betrachten nun den Fall n = k, d.h. alle Kugeln werden gezogen. Dann erhalten wir hier als ΩII<br />
genau die Menge aller Permutationen <strong>der</strong> Zahlen {1,...,n}, da in den Tupeln (a1,...,an) jede Zahl aus<br />
{1,...,n} genau einmal auftaucht. Man sieht mit obiger Formel sofort<br />
Beispiel 2.4:<br />
#ΩII = (n) n = n!<br />
(1) Wir wollen die Wahrscheinlichkeit für Fixpunkte von Permutationen berechnen.<br />
Dazu sei k = n und ΩII mit <strong>der</strong> Laplace-Verteilung versehen. Entsprechend gilt dann für jede<br />
Permutation (a1,...,an) ∈ ΩII <strong>der</strong> Menge {1,...,n}, dass<br />
P ({(a1,...,an)}) = 1<br />
#ΩII<br />
= 1<br />
n!<br />
Sei nun Ai := {(a1,...,an) ∈ ΩII | ai = i} das Ereignis Die Permutation hat an <strong>der</strong> Stelle i einen<br />
”<br />
Fixpunkt“. Dann gilt<br />
P (Ai) = #Ai<br />
=<br />
#ΩII<br />
(n − 1)!<br />
=<br />
n!<br />
1<br />
∀ i = 1,...,n<br />
n<br />
da Ai genau die Menge aller Permutationen von {1,...,n} ist, welche i festhält, also nur n−1-Zahlen<br />
aus {1,...,n} \ {i} permutiert. Das entspricht genau einer Permutation <strong>der</strong> Zahlen<br />
{1,...,n} \ {i} ∼ = {1,...,n − 1}<br />
und <strong>der</strong>en Anzahl ist wie oben gesehen genau (n − 1)!.<br />
(2) Eine Person probiert ihre n Schlüssel zufällig an einem Schloss durch. Nur einer <strong>der</strong> Schlüssel passt.<br />
Sei Bi das Ereignis ” <strong>der</strong> i-te Schlüssel passt“. Wir bezeichnen die Schlüssel mit 1,...,n und nehmen<br />
durch Umnummerieren stets an, dass 1 <strong>der</strong> passende Schlüssel ist. Als Modell verwenden wir wie<strong>der</strong><br />
ΩII als Laplace-Raum. Dann ist<br />
und entsprechend<br />
wie oben.<br />
Bi {(a1,...,an) ∈ ΩII | ai = 1}<br />
P (Bi) = #Bi<br />
=<br />
#ΩII<br />
1<br />
n<br />
Urnenmodell III:<br />
k-faches Ziehen ohne Zurücklegen ohne Berücksichtigung <strong>der</strong> Reihenfolge aus einer Urne mit n Kugeln,<br />
welche die Nummern 1 bis n tragen. Das ist offenbar wie<strong>der</strong> nur für k ≤ n möglich.<br />
Der Grundraum ist hier<br />
ΩIII = {T ⊂ {1,...,n} | #T = k}<br />
Einer Teilmenge T ∈ ΩIII entspricht dann das Experiment, dass genau die Kugeln mit den Zahlen<br />
i ∈ T gezogen wurden (Reihenfolge egal!). Die Kardinalität von ΩII berechnet sich mit dem Prinzip des<br />
Schäfers: 1<br />
Will man #ΩIII durch abzählen berechnen, so erscheint dies sehr schwer. Man definiert also<br />
1 Prinzip des Schäfers:<br />
f : ΩII<br />
��<br />
ΩIII durch f ((a1,...,ak)) := {a1,...,ak}<br />
Will man wissen, wie viele Schafe auf <strong>der</strong> Wiese stehen, so muss man nicht zwingend die Schafe selbst zählen. Man kann<br />
auch die Anzahl <strong>der</strong> Beine auf <strong>der</strong> Wiese zählen und durch die Anzahl <strong>der</strong> Beine pro Schaf teilen, das liefert das selbe<br />
Ergebnis:<br />
# Beine<br />
= # Schafe<br />
4<br />
Dieses Prinzip klingt zunächst sehr abstrus, aber oben wird die enorme Mächtigkeit des Prinzips klar.
24 2 Kombinatorik<br />
Diese Abbildung ist wohldefiniert, da wir für jedes (a1,...,ak) ∈ ΩII gefor<strong>der</strong>t hatten, dass die ai paarweise<br />
verschieden sind. Man erhält als Bild unter f also tatsächlich eine k-elementige Teilmenge von {1,...,n}.<br />
Ganz offenbar ist f surjektiv und jede Menge {a1,...,ak} ∈ ΩIII (∼Schaf) hat genau k! Urbil<strong>der</strong> (∼Beine)<br />
unter f, da es wie oben gesehen k! Permutationen einer k-elementigen Menge gibt. Daher gilt:<br />
#ΩIII = #ΩII · 1<br />
k! = (n) k<br />
k! =<br />
n!<br />
k!(n − k)! =:<br />
Die Zahl � � n<br />
k wird auch Binomialkoeffizient“ o<strong>der</strong> n über k“ genannt.<br />
” ”<br />
Bemerkung 2.5 (Eigenschaften <strong>der</strong> Binomialkoeffizenten):<br />
(1) Es gilt � � � �<br />
n n<br />
=<br />
k n − k<br />
(2) Der Binomische Lehrsatz besagt<br />
(3) Die Anzahl <strong>der</strong> möglichen Auswahlen<br />
(x + y) n =<br />
n�<br />
k=0<br />
� �<br />
n<br />
x<br />
k<br />
k y n−k<br />
� n<br />
k<br />
1 ≤ i1 < ... < ik ≤ n (2.1)<br />
- wie sie etwa in Abschnitt 1.4.1 vorkommen - entspricht genau <strong>der</strong> Anzahl <strong>der</strong> k-elementigen<br />
Teilmengen von {1,...,n} (einfach die Ordnung vergessen). Daher gibt es genau<br />
� �<br />
n<br />
k<br />
Möglichkeiten, Zahlen i1,...,ik wie in (2.1) auszuwählen.<br />
Beispiel 2.6:<br />
Ein klassisches Beispiel für das Urnenmodell III ist das gewöhnliche Lotto. Hier werden 6 Kugeln aus<br />
49 möglichen Kugel ohne Zurücklegen und ohne Berücksichtigung <strong>der</strong> Reihenfolge gezogen, d.h. es ist<br />
n = 49 und k = 6. Man sieht an diesem Beispiel sehr deutlich, dass auch wirklich nur die Teilmenge T<br />
<strong>der</strong> gezogenen Kugeln entscheidend ist.<br />
Um die Wahrscheinlichkeit für 6 Richtige zu berechnen, betrachten wir ΩIII als Laplace-Raum und erhalten<br />
so für einen beliebigen festen Tip T = {a1,...,a6} ⊂ {1,...,49} die Wahrscheinlichkeit<br />
P (T) = #T<br />
#ΩIII<br />
= 1 1<br />
� =<br />
13.983.816<br />
6 Richtige im Lotto erscheinen also als sehr unwahrscheinlich!<br />
Jetzt wollen wir noch das zugehörige Fächermodell entwickeln.<br />
Man betrachtet dazu die verschiedenen Möglichkeiten k nicht zu unterscheidende Kugeln auf n Fächer<br />
zu verteilen. Dabei ist jeweils wie<strong>der</strong> maximal eine Kugel pro Fach erlaubt. Notiert wird als Ergebnis nur<br />
die Teilmenge <strong>der</strong> besetzten Fächer.<br />
� 49<br />
6<br />
Urnenmodell IV:<br />
k-faches Ziehen mit Zurücklegen ohne Berücksichtigung <strong>der</strong> Reihenfolge aus einer Urne mit n Kugeln,<br />
welche die Nummern 1 bis n tragen.<br />
Als Ergebnis notieren wir nur das Tupel (k1,...,kn), wobei die Zahl ki angibt, wie oft die Kugel mit <strong>der</strong><br />
Nummer i gezogen wurde. Zwangsläufig gilt dann<br />
n�<br />
ki = k<br />
i=1<br />
�
2 Kombinatorik 25<br />
Der Grundraum ist also<br />
Beispiel 2.7:<br />
ΩIV :=<br />
�<br />
(k1,...,kn)<br />
�<br />
�<br />
� 0 ≤ ki ≤ k ∀ i = 1,...n und<br />
n�<br />
�<br />
ki = k<br />
Wir haben n = 6 Kugeln und ziehen k = 10 mal. Dann ist das Ergebnis ein Vektor<br />
(3,0,2,4,0,1)<br />
welcher symbolisiert, dass 3 mal Kugel Nummer 1 gezogen wurde, 0 mal Kugel Nummer 2, 2 mal Kugel<br />
Nummer 3 usw..<br />
Bevor wir die Kardinalität von ΩIV bestimmen wollen wir kurz das zugehörige Fächermodell vorstellen.<br />
Man betrachte k Kugeln, die auf n Fächer verteilt werden - mit erlaubter Mehrfachbesetzung <strong>der</strong> Fächer<br />
- und zähle als Ergebnis nur, wie viele Kugeln im i-ten Fach sind für i = 1,...,n.<br />
Beispiel 2.8:<br />
In <strong>der</strong> Praxis findet dieses Modell etwa Verwendung, wenn k Kunden sich an n Schaltern anstellen und<br />
man nachher die Auslastung <strong>der</strong> einzelnen Schalter betrachten will.<br />
Jetzt wollen wir #ΩIV bestimmen. Auch dazu konstruieren wir wie<strong>der</strong> eine geeignete Abbildung in einen<br />
Raum, dessen Kardinalität wir bereits kennen.<br />
Wir betrachten die Menge aller Folgen <strong>der</strong> Zahlen 0 und 1 <strong>der</strong> Länge n + k − 1. Wir betrachten jetzt 0<br />
als eine Kugel und 1 als die Markierung für ” nächstes Fach“. Unter dieser Identifikation wird etwa das<br />
Ergebnis (3,0,2,4,0,1) aus Beispiel 2.7 zur Folge<br />
000110010000110<br />
Wollen wir eine Bijektion zwischen ΩIV und einer Teilmenge von {(ai,...,an) | ai ∈ {0,1} für i = 1,...,n}<br />
erhalten, so muss jede <strong>der</strong> Folgen genau n − 1 1en und k 0en enthalten. Unter dieser Bedingung erhalten<br />
wir offenbar eine Bijektion!<br />
Eine Folge <strong>der</strong> Länge n+k −1 mit genau n−1 1en und k 0en ist aber bereits eindeutig durch die Auswahl<br />
<strong>der</strong> Positionen <strong>der</strong> k 0en (also Kugeln) eindeutig bestimmt - die an<strong>der</strong>en Positionen müssen 1en sein.<br />
Daher ist<br />
� �<br />
n + k − 1<br />
#ΩIV = # {T ⊂ {1,...,n + k − 1} | #T = k} =<br />
k<br />
wie oben berechnet.<br />
In Beispiel 2.7 ergibt sich also<br />
#ΩIV =<br />
i=1<br />
� �<br />
10 + 6 − 1 15!<br />
= = 3003<br />
10 10!(15 − 10)!<br />
Wenn wir die Laplace-Verteilung annehmen, dann hat entsprechend jede Konfiguration die Wahrscheinlichkeit<br />
P(k1,k2,...,kn) = 1<br />
≈ 0,00033<br />
2.9 Definition:<br />
Wir definieren den Multinomialkoeffizient als<br />
Bemerkung 2.10:<br />
⎧<br />
� �<br />
k<br />
⎨<br />
:=<br />
k1,k2,...,kn ⎩<br />
#ΩIV<br />
k!<br />
k1!·k2!·...·kn! falls ki ≥ 0 ∀ 1 ≤ i ≤ n, n�<br />
0 sonst<br />
i=1<br />
ki = k<br />
Für den Fall k = 2 kennen wir dies bereits als den Binomialkoeffizienten. Sei k = k1 + k2, dann gilt:<br />
� �<br />
k k!<br />
=<br />
k1,k2 k1! · k2! =<br />
k!<br />
k1!(k − k1)!<br />
2.11 Lemma:<br />
Die Anzahl <strong>der</strong> Möglichkeiten eine Menge A <strong>der</strong> Kardinalität k in n Teilmengen A1,...,An mit #Ai = ki<br />
und n�<br />
ki = k zu zerlegen ist gegeben durch<br />
i=1<br />
� �<br />
k<br />
k!<br />
=<br />
k1,k2,...,kn k1! · k2! · ... · kn!
26 2 Kombinatorik<br />
Beweis:<br />
Für A1 gibt es � � k<br />
Möglichkeiten, Elemente auszuwählen. Dann ist #(A \ A1) = k − k1 und es gibt für<br />
k1<br />
A2 nur noch � � k−k1 Möglichkeiten, Elemente auszuwählen. Für A3 bleiben k2<br />
� � k−k1−k2 Möglichkeiten usw..<br />
k3<br />
Die Gesamtzahl <strong>der</strong> Möglichkeiten A in Teilmengen <strong>der</strong> Größe k1,...,kn zu zerlegen beträgt also<br />
� � � � � � � �<br />
k k − k1 k − k1 − k2 k − k1 − k2 − ... − kn−1<br />
· ·<br />
· ... ·<br />
=<br />
=<br />
Das zeigt die Behauptung.<br />
k1<br />
k2<br />
k!<br />
k1!(k − k1)! ·<br />
k!<br />
k1! · k2! · ... · kn!<br />
k3<br />
(k − k1)!<br />
k2!((k − k1 − k2)! ·<br />
Beispiel 2.12 (zum Vergleich zu Beispiel 2.7):<br />
Wir wollen nun das obige Beispiel noch einmal bzgl. des Grundraums<br />
kn<br />
(k − k1 − k2)!<br />
· ... ·<br />
k3!(k − k1 − k2 − k3)!<br />
ΩI = {(a1,...,ak) | ai ∈ 1,...,n für 1 ≤ i ≤ k}<br />
und <strong>der</strong> Laplace-Verteilung betrachten. Es werden 10 von 1 bis 10 nummerierte Kugeln auf 6 Fächer<br />
verteilt. ai ist das Fach <strong>der</strong> i-ten Kugel. Sei<br />
Ak1,k2,...,k6 = {(a1,...,a6) | genau k1 <strong>der</strong> ai’s sind 1, k2 <strong>der</strong> ai’s sind 2, ..., kn <strong>der</strong> ai’s sind 6}<br />
Laut Lemma 2.11 ist<br />
und daher gilt<br />
Einsetzen in (2.2) liefert nun<br />
#Ak1,...,k6 =<br />
P(Ak1,k2,...,kn<br />
�<br />
k<br />
k1,...,k6<br />
�<br />
1 k!<br />
) = ·<br />
nk k1! · ... · kn!<br />
P(A3,0,2,4,0,1) =<br />
1<br />
610 ·<br />
10!<br />
≈ 0,0002<br />
4! · 0! · 2! · 3! · 0! · 1!<br />
P(A10,0,0,0,0,0) = 1 10!<br />
· ≈ 0,000000017<br />
610 10!<br />
P(A2,2,2,2,1,1) = 1 10!<br />
·<br />
≈ 0,0037<br />
610 2! · 2! · 2! · 2! · 1! · 1!<br />
Trotzdem: Gewisse Elementarteilchen (Bosonen) verteilen sich auf verschiedene Energiezustände gemäß<br />
<strong>der</strong> Laplace-Verteilung auf ΩIV.<br />
2.1 Binomial- und Hypergeometrische Verteilung<br />
Wir betrachten eine Urne mit N Kugeln, wobei R rote Kugeln und N − R weiße Kugeln enthalten sind.<br />
Daraus wird eine Stichprobe im Umfang von n Kugeln auf 2 Arten (mit und ohne Zurücklegen) gezogen.<br />
Gesucht ist die Wahrscheinlichkeit genau r rote Kugeln zu ziehen.<br />
2.1.1 Ziehen mit Zurücklegen (Binomialverteilung)<br />
Gegeben sei<br />
ΩI = {(a1,a2,...,an) | 1 ≤ ai ≤ N}<br />
mit <strong>der</strong> Laplace-Verteilung. Es seien die Kugeln 1,2,...,R die roten Kugeln. Gesucht ist P(Er), wobei<br />
Er = {(a1,a2,...an) | #{i | ai ∈ {1,2,...,R}} = r}<br />
Er entspricht den r roten Kugeln, an<strong>der</strong>s gesagt den r ” Erfolgen“.<br />
Wir wollen nun #Er bestimmen:<br />
Sie I ⊂ {1,2,...,n} die Indexmenge <strong>der</strong> Ziehungen, bei denen eine rote Kugel gezogen wurde. Dann ist<br />
Er die disjunkte Vereinigung aller Ereignisse<br />
EI = {(a1,a2,...,an) | ai ∈ {1,2,...,R} ⇔ i ∈ I}<br />
� kn<br />
kn<br />
�<br />
(2.2)
2 Kombinatorik 27<br />
über alle r-elementigen Teilmengen I ⊂ {1,2,...,n}. Für festes I ist<br />
#EI = R r · (N − R) n−r<br />
und es gibt � � n<br />
r Teilmengen I ⊂ {1,2,...,n} mit #I = r. Damit ist<br />
P(Er) = #Er<br />
#ΩI<br />
= 1<br />
·<br />
Nn 2.13 Definition (Binomialverteilung):<br />
Für p ∈ [0,1] und n ∈ N heißt<br />
binn,p(j) = b(n,p,j) =<br />
� �<br />
n<br />
· R<br />
r<br />
r · (N − R) n−r =<br />
� �<br />
n<br />
·<br />
r<br />
� � �<br />
R<br />
· 1 −<br />
N<br />
R<br />
�n−r N<br />
� �<br />
n<br />
p<br />
j<br />
j (1 − p) n−j , 0 ≤ j ≤ n<br />
die Binomialverteilung mit Erfolgswahrscheinlichkeit p und Stichprobenumfang n.<br />
Beispiel 2.14 (Münzwurf):<br />
n-maliges Werfen einer Münze ist wie Ziehen mit Zurücklegen aus einer Urne mit 2 Kugeln. Wir modellieren<br />
mit Hilfe <strong>der</strong> Binomialverteilung:<br />
P( ” k mal Kopf“) =<br />
� �<br />
n<br />
·<br />
k<br />
� �k 1<br />
·<br />
2<br />
� �n−k 1<br />
=<br />
2<br />
2.1.2 Ziehen ohne Zurücklegen (Hypergeometrische Verteilung)<br />
� n<br />
k<br />
�� 1<br />
2<br />
Man zieht eine Teilmenge T von n ≤ N Kugeln. Wir betrachten den Grundraum<br />
ΩIII = {T ⊂ {1,2,...,N} | #T = n}<br />
und damit ist #ΩIII = � � N<br />
n . Die Kugeln 1,2,...,R seien rot. Hier ist<br />
Er = {T ⊂ {1,2,...,N} | #(T ∩ {1,...,R}) = r, #T = n}<br />
= {T ⊂ {1,2,...,N} | #(T ∩ {1,2,...,R}) = r,#(T ∩ {R + 1,...,N}) = n − r}<br />
Dabei gibt es genau � � � � R<br />
N−R<br />
r Teilmengen von {1,2,...,R} <strong>der</strong> Kardinalität r und n−r Teilmengen <strong>der</strong> Kardinalität<br />
n − r von {R + 1,...,N}. Damit folgt<br />
� � � �<br />
R N − R<br />
#Er = ·<br />
r n − r<br />
2.15 Definition:<br />
Wir nennen<br />
hyp(r,n,R,N) := P(Er) = #Er<br />
#ΩIII<br />
die hypergeometrische Verteilung zu den Parametern n, N und R.<br />
Beispiel 2.16 (Skat):<br />
=<br />
� R<br />
r<br />
� � � N−R<br />
· n−r<br />
�<br />
Beim Skatspiel gibt es 32 Karten, darunter 4 Asse. 3 Spieler bekommen je 10 Karten. Es ist die Wahrscheinlichkeit<br />
für das Ereignis ” Spieler 1 bekommt 3 Asse“ gesucht.<br />
Modell: 32 Kugeln, davon R=4 rote Kugeln und n= 10 Ziehungen.<br />
Gesucht: P(3 Erfolge) = P(E3)<br />
Wir oben gesehen berechnet man mit <strong>der</strong> hypergeometrischen Verteilung:<br />
� � � � 4 28<br />
3 · 7<br />
P(E3) = hyp(3,10,4,32) � = 66<br />
≈ 0,073<br />
899<br />
� 32<br />
10<br />
� N<br />
n<br />
� n
28 2 Kombinatorik<br />
2.2 Das Stimmzettelproblem<br />
Die Auszählung <strong>der</strong> Stimmen einer Wahl hat ergeben: Kandidat A gewinnt mit a Stimmen gegenüber<br />
Kandidat B mit b Stimmen, a > b. Gesucht ist die Wahrscheinlichkeit des Ereignisses<br />
2.17 Satz:<br />
Wenn a > b, so ist<br />
E:= ” A liegt während <strong>der</strong> gesamten Auszählung in Führung“.<br />
und hängt damit nur vom Quotienten b<br />
a ab.<br />
Beweis:<br />
P(E) =<br />
1 − b<br />
a<br />
1 + b<br />
a<br />
Wir stellen die Auszählung <strong>der</strong> Stimmzettel als Pfad da. Der Pfad<br />
entspräche dann also <strong>der</strong> Auszählung<br />
“B,B,A,A,A,B,A,A,B“<br />
” erste Stimme für B, zweite Stimme für B, dritte Stimme für A usw. “<br />
Graphisch kann man sich diesen beispielhaften Pfad wie folgt verdeutlichen:<br />
Stimmen für A<br />
Wir betrachten dazu also<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
0 1 2 3 4 5<br />
Stimmen für B<br />
Abbildung 1: Der Auszählungspfad ” B,B,A,A,A,B,A,A,B“<br />
Ω = {Pfade von (0,0) nach (b,a)}<br />
als Laplace-Raum. Ein Pfad aus Ω wird offenbar schon durch die Zeitpunkte <strong>der</strong> A-Stimmen eindeutig<br />
festgelegt und hat logischerweise Länge a + b, daher gilt<br />
� �<br />
a + b<br />
#Ω =<br />
b<br />
Wir wollen Ω jetzt disjunkt zerlegen. Sei dazu<br />
E1 = {Pfade oberhalb <strong>der</strong> Diagonalen}<br />
E2 = {Pfade durch (0,1) , die nicht oberhalb <strong>der</strong> Diagonalen liegen}<br />
E3 = {Pfade, die durch (1,0) verlaufen}<br />
Da je<strong>der</strong> Pfad, welcher oberhalb <strong>der</strong> Diagonalen verläuft, automatisch durch (0,1) verlaufen muss, gilt<br />
dann<br />
3�<br />
Ω =<br />
i=1<br />
Ei
2 Kombinatorik 29<br />
A<br />
2<br />
1<br />
0<br />
0 1 2 B<br />
A<br />
2<br />
1<br />
0<br />
0 1 2 B<br />
A<br />
2<br />
1<br />
0<br />
0 1 2 B<br />
Abbildung 2: Von links nach rechts: Beispiel eines Pfades aus E1, aus E2 und aus E3<br />
Gesucht ist in diesem Zusammenhang natürlich<br />
P (E) = P (E1) = #E1<br />
#Ω<br />
und wir können #E1 über #E1 = #Ω−#E2 −#E3 berechnen. Die Kardinalität #E3 von E3 ist offenbar<br />
� �<br />
a + b − 1<br />
#E3 = = Anzahl <strong>der</strong> Pfade <strong>der</strong> Länge a + b − 1 von (1,0) nach (b,a)<br />
a<br />
da je<strong>der</strong> Pfad aus E1 genau eins kürzer ist als ein Pfad aus Ω. Jetzt verwenden wir folgendes<br />
2.18 Lemma (Spiegelungsprinzip):<br />
Falls a > b, so gilt<br />
Beweis:<br />
#E2 = #E3<br />
Da a > b ist, muss je<strong>der</strong> Pfad aus E3 mindestens einmal die Diagonale schneiden (er beginnt ja schließlich<br />
bei (1,0)!). Sei (c,d) <strong>der</strong> erste Schnittpunkt des Pfades mit <strong>der</strong> Diagonalen. Jetzt spiegeln wir den Teilpfad<br />
von (0,0) nach (c,d) an <strong>der</strong> Diagonalen und erhalten insgesamt einen Pfad aus E2.<br />
A<br />
2<br />
1<br />
0<br />
0 1 2 B<br />
Diese Abbildung ist offenbar bijektiv.<br />
Damit folgt dann sofort<br />
Daraus folgt<br />
und das zeigt die Behauptung.<br />
=⇒<br />
A<br />
2<br />
1<br />
0<br />
0 1 2 B<br />
Abbildung 3: Verdeutlichung des Spiegelungsprinzips<br />
� � � �<br />
a + b a + b − 1<br />
#E1 = #Ω − 2#E3 = − 2<br />
b a<br />
P (E) = #E<br />
#Ω = 1 − 2� � a+b−1<br />
a<br />
� � a+b<br />
a<br />
(a + b − 1)!a!b!<br />
= 1 − 2<br />
a!(b − 1)!(a + b)!<br />
= 1 − 2 b<br />
a + b<br />
= a + b − 2b<br />
= a − b<br />
a + b<br />
a + b<br />
= 1 − b<br />
a<br />
1 + b<br />
a
30 2 Kombinatorik<br />
Beispiel 2.19:<br />
Wir betrachten die Wahlergebnisse<br />
a = 100 und b = 50 (2.3)<br />
a = 200 und b = 100. (2.4)<br />
In beiden Fällen ist<br />
b 1<br />
=<br />
a 2<br />
und damit sagt uns obiger Satz, dass die Wahrscheinlichkeit, dass <strong>der</strong> siegende Kandidat A während <strong>der</strong><br />
gesamten Auszählung in Führung lag, in beiden Fällen (2.3) und (2.4) bei<br />
liegt.<br />
P(E) =<br />
1 − 1<br />
2<br />
1 + 1<br />
2<br />
= 1<br />
3
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 31<br />
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und<br />
mehrstufige Experimente<br />
3.1 Unabhängigkeit<br />
Wir beginnen mit einem motivierenden Beispiel.<br />
Beispiel 3.1:<br />
Man betrachtet das Werfen zweier Würfel und die Ereignisse<br />
A = ” Augensumme ist gerade“<br />
B = ” Mindestens eine 6“<br />
Wir fragen uns hier, ob das Eintreten von B die Wahrscheinlichkeit des Eintretens von A beeinflusst. Dazu<br />
simulieren wir n = 10.000 Würfe mit zwei Würfeln und erhalten in unserer Simulation, dass das Ereignis<br />
A hA = 5069 mal, das Ereignis B hb = 3061 mal und das Ereignis A ∩ B (also A und B gleichzeitig)<br />
genau hA∩B = 1386 mal eintritt.<br />
Wenn B ” keinen Einfluss“ auf das Eintreten von A hat, so sollte<br />
hA<br />
n<br />
≈ hA∩B<br />
hB<br />
gelten. Wir können diese Aussage auf relative Häufigkeiten umformen:<br />
hA∩B<br />
n<br />
≈ hA<br />
n<br />
· hB<br />
n .<br />
Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert nun die folgende<br />
3.2 Definition:<br />
Sei (Ω,P) eine Wahrscheinlichkeitsraum. Zwei Ereignisse A,B ⊂ Ω heißen unabhängig, falls<br />
gilt.<br />
Beispiel 3.3:<br />
P (A ∩ B) = P (A) · P (B)<br />
Im Beispiel 3.1 oben vermutet man dann nach <strong>der</strong> Simulation, dass A und B nicht unabhängig sind, denn<br />
hA∩B<br />
n<br />
= 0.1386 �= 0.155 ≈ hA<br />
n<br />
· hB<br />
n .<br />
Um diese Aussage anhand <strong>der</strong> Definition nachzuprüfen betrachtet man Ω = {1,2,3,4,5,6} 2 als Laplace-<br />
Raum und hat damit<br />
Also gilt #A = 18 und #B = 11. Das liefert<br />
Jetzt berechnet man noch<br />
A = {(1,1) ,(1,3) ,(1,5) ,(2,2) ,...,(6,6)} ,<br />
B = {(1,6) ,...,(6,6) ,(6,1) ,...,(6,5)} .<br />
P (A) = 1<br />
2<br />
und P (B) = 11<br />
36 .<br />
A ∩ B = {(2,6) ,(4,6) ,(6,6) ,(6,2) ,(6,4)}<br />
und hat damit<br />
#A ∩ B 5 11 1 11<br />
P (A ∩ B) = = �= = · = P (A) · P (B).<br />
#Ω 36 78 2 36<br />
Die angegebenen Ereignisse A und B sind also in <strong>der</strong> Tat abhängig.<br />
Beispiel 3.4:<br />
Betrachte wie<strong>der</strong> das Setting aus Beispiel 3.1 und das zusätzliche Ereignis<br />
C = ” Der erste Wurf ist eine 6“<br />
Wir wollen zeigen, dass A und C unabhängig sind. Dazu berechnen wir<br />
was diese Aussage zeigt.<br />
P (A ∩ C) = P ({(6,2),(6,4),(6,6)}) = 3 1 1 1<br />
= = · = P (A) · P (C) ,<br />
36 12 2 6
32 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />
Beispiel 3.5:<br />
Wir betrachten eine Urne mit drei von 1 bis 3 nummerierten Kugeln, davon seien die Kugeln 1 und 2 rot<br />
und Kugel 3 weiß. Wir wollen zwei Ziehungen durchführen und betrachten die Ereignisse<br />
A = ” erster Zug rot“<br />
B = ” zweiter Zug weiß“<br />
Ziehen wir mit Zurücklegen, so ist offenbar Ω = {(i,j) | 1 ≤ i,j ≤ 3} und daher #Ω = 9. Das liefert<br />
P (A) = 2 1<br />
2 2<br />
, P (B) = , P (A ∩ B) = P ({(1,3) ,(2,3)}) = = = P (A) · P (B).<br />
3 3 #Ω 9<br />
Mit Zurücklegen sind A und B also unabhängig.<br />
Ziehen wir ohne Zurücklegen, so ist offenbar Ω = {(i,j) | 1 ≤ i,j ≤ 3,i �= j} und daher #Ω = 6. Das<br />
liefert<br />
P (A) = 2<br />
3 ,<br />
P (B) = P ({(1,3) ,(2,3)}) = 2 1<br />
=<br />
#Ω 3 ,<br />
P (A ∩ B) = P ({(1,3) ,(2,3)}) = 2 2<br />
= �= P (A) · P (B).<br />
#Ω 6<br />
Ohne Zurücklegen sind A und B also abhängig!<br />
Bemerkung 3.6:<br />
Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A,B ⊂ Ω zwei Ereignisse mit A ∩B = ∅. Dann können<br />
A und B offenbar nur dann unabhängig sein, wenn<br />
d.h. wenn entwe<strong>der</strong> P (A) = 0 o<strong>der</strong> P (B) = 0 gilt.<br />
0 = P (A ∩ B) = P (A) · P (B),<br />
Jetzt wollen wir unsere Definition auf n Ereignisse A1,...,An ⊂ Ω des Wahrscheinlichkeitsraumes (Ω,P)<br />
verallgemeinern. Wir definieren dazu wie folgt:<br />
3.7 Definition:<br />
Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A1,...,An ⊂ Ω Ereignisse.<br />
Wir nennen A1,...,An unabhängig, falls für jede Auswahl von k Indizes i ≤ i1 < ... < ik ≤ n, 1 ≤ k ≤ n<br />
beliebig, die Gleichung<br />
⎛ ⎞<br />
k�<br />
P ⎝<br />
k�<br />
⎠ = P � �<br />
Aij<br />
gilt.<br />
j=1<br />
Diese Definition mag zunächst etwas unintuitiv erscheinen, sie ermöglicht aber folgendes<br />
3.8 Lemma:<br />
Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A1,...,An ⊂ Ω unabhängige Ereignisse.<br />
Aij<br />
(1) Für jede Auswahl 1 ≤ k ≤ n und 1 ≤ i1 < ... < ik ≤ n beliebig ist dann auch die entstehende<br />
Teilfamilie Ai1 ,...,Aik unabhängig.<br />
(2) Sei Bi = Ai o<strong>der</strong> Bi = A c i für jedes 1 ≤ i ≤ n. Dann sind auch die Ereignisse B1,...,Bn unabhängig.<br />
Beweis:<br />
(1) Diese Aussage ist mit <strong>der</strong> Definition sofort klar.<br />
(2) Offenbar genügt es zu zeigen, dass die Ereignisse A c 1,A2,...,An ebenfalls unabhängig sind. Den<br />
allgemeinen Fall erhalten wir daraus durch iteriertes Anwenden und Umbennenen (das genaue<br />
Vorgehen dafür kann man etwa bei [Dehling/Haupt] nachlesen.).<br />
Wir wollen die offenbar gültige Gleichung<br />
j=1<br />
P (A c ∩ B) = P (B) − P (A ∩ B) (3.1)
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 33<br />
nutzen. Seien nun 1 ≤ i1 < ... < ik ≤ n vorgegeben. Ist i1 > 1, so ist in unserem Setting nichts zu<br />
zeigen. Ist i1 = 1, so gilt<br />
P (A c 1 ∩ ... ∩ Aik )<br />
was die Behauptung zeigt.<br />
(3.1)<br />
= P (Ai2 ∩ ... ∩ Aik ) − P (A1 ∩ Ai2 ∩ ... ∩ Aik )<br />
Unabhängigkeit von A1,Ai 2 ,...,Ai k<br />
= P (Ai2 ) · ... · P (Aik ) − P (A1) · ... · P (Aik )<br />
= (1 − P (A1))<br />
= P (A c 1) ·<br />
k�<br />
P � �<br />
Aij<br />
j=2<br />
k�<br />
P � �<br />
Aij<br />
Im Beweis des Lemmas haben wir schon gesehen, wieso wir in unserer Definition nicht nur die Unabhängigkeit<br />
aller Teilfamilien gefor<strong>der</strong>t haben. Folgendes Beispiel zeigt, wie gravierend <strong>der</strong> Unterschied<br />
ist:<br />
Beispiel 3.9 (Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit):<br />
Wir betrachten de dreifachen Münzwurf, also Ω = {K,Z} 3 mit <strong>der</strong> Laplace-Verteilung. Wir betrachten<br />
die Ereignisse<br />
Scheinbar ist dann<br />
P (A1) =<br />
j=2<br />
A1 = ” erster Wurf = zweiter Wurf“<br />
A2 = ” zweiter Wurf = dritter Wurf“<br />
A3 = ” erster Wurf = dritter Wurf“<br />
# {KKK,KKZ,ZZZ,ZZK}<br />
#Ω<br />
= 4 1<br />
=<br />
8 2<br />
und ganz analog P (A2) = P (A3) = 1<br />
2 . Jetzt berechnen wir die Wahrscheinlichkeiten <strong>der</strong> Schnitte:<br />
P (A1 ∩ A2) =<br />
# {KKK,ZZZ}<br />
#Ω<br />
= 1<br />
4 = P (A1 ∩ A3) = P (A2 ∩ A3) .<br />
Wegen 1 1 1<br />
2 · 2 = 4 sind also A1,A2 und A3 paarweise unabhängig. Da aber<br />
P (A1 ∩ A2 ∩ A3) = P ({KKK,ZZZ}) = P (A1 ∩ A2) = P (A1 ∩ A3) = P (A2 ∩ A3) = 1 1 1 1<br />
�= · ·<br />
4 2 2 2<br />
sind die Ereignisse A1,A2 und A3 insgesamt nicht unabhängig.<br />
Das ergibt anschaulich auch Sinn, schließlich erzwingt das Eintreten von A1 und A2 bereits das Eintreten<br />
von A3 und umgekehrt.<br />
3.2 Bedingte Wahrscheinlichkeiten<br />
Bei n Versuchen trete das Ereignis A ∩B mit Häufigkeit hA∩B und das Ereignis B mit Häufigkeit hB �= 0<br />
auf. Anschaulich ist dann<br />
gegeben als<br />
in relativen Häufigkeiten.<br />
die relative Häufigkeit des Auftretens von A, gegeben ” B tritt auf“<br />
hA∩B<br />
Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert uns jetzt folgende<br />
3.10 Definition:<br />
hB<br />
Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A,B ⊂ Ω Ereignisse. Ist P (B) > 0, so ist<br />
=<br />
P (A | B) :=<br />
hA∩B<br />
n<br />
hB<br />
n<br />
P (A ∩ B)<br />
P (B)<br />
die bedingte Wahrscheinlichkeit des Auftretens von A gegeben B.
34 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />
Beispiel 3.11:<br />
Wir Würfeln einfach mit einem fairen Würfel. Dazu verwenden wir Ω = {1,2,3,4,5,6} mit <strong>der</strong> Laplace-<br />
Verteilung. Sei A = {4,5,6} und B = {2,4,6}. Dann ist<br />
und<br />
Das liefert P (A | B) = 2<br />
3<br />
mit <strong>der</strong> Definition.<br />
P (A) = P (B) = 1<br />
2<br />
P (A ∩ B) = P ({4,6}) = 1<br />
3 .<br />
Anschaulich ergibt diese Aussage auch Sinn: Wenn man schon weiß, dass eine gerade Zahl gewürfelt<br />
wurde, so ist die Wahrscheinlichkeit, dass <strong>der</strong> Wurf ≥ 4 ist, genau 2<br />
3 .<br />
Beispiel 3.12:<br />
Wir betrachten eine Familie mit zwei Kin<strong>der</strong>n. Als Grundraum verwenden wir Ω = {JJ,JM,MJ,MM}<br />
mit <strong>der</strong> Laplace-Verteilung. Wir wollen nun die Wahrscheinlichkeit dafür ausrechnen, dass die Familie<br />
zwei Jungen hat, wenn schon gegeben ist, dass sie mindestens einen Jungen hat. Seien also<br />
Dann ist A ∩ B = {JJ} und daher gilt<br />
3.13 Satz (Multiplikationsformel):<br />
A := {JJ}<br />
B := {JJ,JM,MJ} .<br />
P ( ” 2 Jungen“ | ” mindestens 1 Junge“) = P (A | B) =<br />
Sei (Ω,P) ein Wahrscheinlichkeitsraum.<br />
(1) Sind zwei Ereignisse A,B ⊂ Ω gegeben, so gilt<br />
(2) Sind n Ereignisse A1,...,An ⊂ Ω gegeben, so gilt<br />
Beweis:<br />
P (A ∩ B) = P (A | B) · P (B) .<br />
P (A ∩ B)<br />
P (B)<br />
P (A1 ∩ ... ∩ An) = P (A1) · P (A2 | A1) · P (A3 | A1 ∩ A2) · ... · P<br />
(1) Es gilt per Definition<br />
(2) Einsetzen <strong>der</strong> Definition liefert<br />
P (A | B) · P (B) =<br />
P (A ∩ B)<br />
P (B)<br />
�<br />
· P (B) = P (A ∩ B).<br />
P (A1) · P (A2 | A1) · P (A3 | A1 ∩ A2) · ... · P<br />
= P (A1) ·<br />
= P (A1) ·<br />
= P (A1) ·<br />
⎛<br />
n� �<br />
P ⎝Ak<br />
�<br />
�<br />
k=2<br />
n�<br />
P<br />
k=2<br />
P<br />
� k�<br />
Aj<br />
j=1<br />
�<br />
k−1 �<br />
Aj<br />
j=1<br />
⎛<br />
n� k�<br />
P ⎝<br />
k=2<br />
j=1<br />
Aj<br />
k−1 �<br />
j=1<br />
�<br />
�<br />
⎞<br />
⎠ ·<br />
Aj<br />
⎞<br />
⎠<br />
n� 1<br />
�<br />
k−1 �<br />
P<br />
k=2<br />
Aj<br />
j=1<br />
�<br />
�<br />
An<br />
An<br />
= 1<br />
3 .<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
n−1 �<br />
i=1<br />
n−1 �<br />
i=1<br />
Ai<br />
Ai<br />
�<br />
�<br />
.
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 35<br />
Das zeigt die Behauptung.<br />
Beispiel 3.14:<br />
= P (A1) ·<br />
⎛<br />
n� k�<br />
P ⎝<br />
k=2<br />
⎛<br />
n�<br />
= P (A1) · P ⎝<br />
⎛<br />
n�<br />
= P ⎝<br />
j=1<br />
Aj<br />
⎞<br />
⎠ .<br />
j=1<br />
j=1<br />
Aj<br />
⎞<br />
Aj<br />
⎠ ·<br />
⎞<br />
⎠ ·<br />
n−1 �<br />
k=1<br />
1<br />
P (A1)<br />
P<br />
1<br />
�<br />
k�<br />
Aj<br />
j=1<br />
Wir wollen die Wahrscheinlichkeit berechnen, dass bei Skat je<strong>der</strong> <strong>der</strong> drei Spieler genau ein Ass erhält.<br />
Sei dazu<br />
Ai := ” <strong>der</strong> i-te Spieler hat genau ein Ass“ für i = 1,2,3<br />
Mit <strong>der</strong> hypergeometrischen Verteilung sieht man schnell<br />
�<br />
�<br />
3.15 Satz:<br />
P (A1) =<br />
� �� 4 28<br />
1 9 �32 10<br />
� , P (A2 | A1) =<br />
� �� 3 19<br />
1 9 �22 10<br />
� , P (A3 | A1 ∩ A2) =<br />
Mittels <strong>der</strong> Multiplikationsformel erhalten wir so die gesuchte Wahrscheinlichkeit:<br />
�<br />
� �� 2 10<br />
1 9 �12 10<br />
P (A1 ∩ A2 ∩ A3) = P (A1) · P (A2 | A1) · P (A3 | A1 ∩ A2) = 385 3 10 50<br />
· · =<br />
899 7 33 899 .<br />
Sei (Ω,P) ein Wahrscheinlichkeitsraum und P (B) > 0. Dann definieren wir durch<br />
eine Wahrscheinlichkeitsverteilung auf Ω.<br />
Beweis:<br />
Wir müssen die Axiome (A1) bis (A3) nachprüfen:<br />
PB (A) := P (A | B), A ⊂ Ω<br />
(A1) Sei A ⊆ Ω beliebig. Da P eine Wahrscheinlichkeitsverteilung auf Ω ist, gilt<br />
(A2) Offenbar ist<br />
PB (A) = P (A | B) =<br />
PB (Ω) = P (Ω | B) =<br />
(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann gilt<br />
PB<br />
� ∞�<br />
i=1<br />
Ai<br />
�<br />
= P<br />
=<br />
=<br />
(A3) für P<br />
=<br />
P (A ∩ B)<br />
P (B)<br />
P (Ω ∩ B)<br />
P (B)<br />
� ∞�<br />
i=1<br />
��<br />
∞�<br />
P<br />
Ai | B<br />
Ai<br />
i=1<br />
≥ 0.<br />
P (B)<br />
= = 1.<br />
P (B)<br />
�<br />
� �<br />
∩ B<br />
P (B)<br />
�<br />
∞�<br />
�<br />
P (Ai ∩ B)<br />
i=1<br />
P (B)<br />
∞� P (Ai ∩ B)<br />
P (B) =<br />
i=1<br />
∞�<br />
PB (Ai) .<br />
i=1<br />
�<br />
� .
36 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />
Das zeigt die Behauptung.<br />
Bemerkung 3.16:<br />
Damit gelten die Rechenregeln (R1) bis (R9) auch für PB, d.h. zum Beispiel<br />
für zwei Ereignisse A,B ⊂ Ω,P (B) > 0 usw..<br />
Bemerkung 3.17:<br />
P (A c | B) = PB (A c ) = 1 − PB (A) = 1 − P (A | B)<br />
Die Wahrscheinlichkeitsfunktion pB zu PB ist offenbar gegeben als<br />
Beispiel 3.18:<br />
pB (ω) = PB ({ω}) =<br />
P ({ω} ∩ B)<br />
P (B)<br />
=<br />
� P({ω})<br />
P(B)<br />
falls ω ∈ B<br />
0 falls ω /∈ B<br />
, ω ∈ A.<br />
Wir würfeln zweifach mit einem fairen Würfel. Dazu nutzen wir wie<strong>der</strong> Ω = {1,2,3,4,5,6} 2 als Grundraum<br />
mit <strong>der</strong> Laplace-Verteilung. Betrachte das Ereignis<br />
Dann ist P (B) = 6<br />
36<br />
durch den Vektor<br />
gegeben.<br />
3.19 Satz:<br />
Sei (Ω,P) ein Wahrscheinlichkeitsraum.<br />
B = ” Augensumme ist ≥ 10 ”<br />
= 1<br />
36 und die Wahrscheinlichkeitsfunktion pB auf <strong>der</strong> Menge <strong>der</strong> Augensummen ist<br />
�<br />
(pB (2) ,pB (3),...,pB (12)) = 0,0,0,0,0,0,0,0, 3<br />
�<br />
2 1<br />
, ,<br />
6 6 6<br />
(1) (Formel von <strong>der</strong> totalen Wahrscheinlichkeit)<br />
Sei Bi,i ∈ I eine abzählbar unendliche o<strong>der</strong> endliche disjunkte Zerlegung von Ω. Dann gilt für alle<br />
A ⊂ Ω die Formel<br />
P (A) = �<br />
P (Bi) · P (A | Bi) (3.2)<br />
i∈I<br />
(2) (Formel von Bayes)<br />
Beweis:<br />
Seien die Voraussetzungen wie in (1). Ist P (A) > 0, so gilt für jedes k ∈ I:<br />
(1) Mit <strong>der</strong> Mulitplikationsformel gilt<br />
was die Aussage zeigt.<br />
P (A)<br />
P (Bk | A) = P (A | Bk) · P (Bk)<br />
�<br />
P (A | Bi) · P (Bi)<br />
i∈I<br />
�<br />
Bi=Ω<br />
i∈I<br />
= P<br />
�<br />
A ∩<br />
� �<br />
i∈I<br />
Bi<br />
��<br />
�<br />
�<br />
�<br />
= P (A ∩ Bi)<br />
Bi∩Bj=∅ für i�=j<br />
=<br />
Multiplikationsformel<br />
=<br />
i∈I<br />
�<br />
P (A ∩ Bi)<br />
i∈I<br />
�<br />
P (A | Bi) · P (Bi)<br />
i∈I<br />
(3.3)
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 37<br />
(2) Hier folgt unter Benutzung von (1):<br />
P (Bk | A) =<br />
Das zeigt ebenfalls die Behauptung.<br />
Beispiel 3.20:<br />
=<br />
Multiplikationsformel<br />
=<br />
(3.2)<br />
=<br />
P (Bk ∩ A)<br />
P (A)<br />
P (A ∩ Bk)<br />
P (A)<br />
P (A | Bk) · P (Bk)<br />
P (A)<br />
P (A | Bk) · P (Bk)<br />
�<br />
P (A | Bi) · P (Bi) .<br />
Eine Krankheit tritt bei 0.5% <strong>der</strong> Bevölkerung auf. Ein Test ist bei 99% <strong>der</strong> Kranken positiv, aber auch<br />
bei 2% <strong>der</strong> Gesunden. Gesucht ist die Wahrscheinlichkeit bei positivem Testergebnis die Krankheit zu<br />
haben.<br />
Betrachte nun folgendes Modell: Sei Ω die Bevölkerung und P die Laplace-Verteilung. Sei weiterhin B1<br />
die Menge <strong>der</strong> gesunden Menschen, B2 die <strong>der</strong> kranken Menschen und A die Menge <strong>der</strong> Menschen mit<br />
positivem Testergebnis . Dann ist Ω = B1 ∪ B2 mit B1 ∩ B2 = ∅.<br />
P(B1) = 0.995 P(B2) = 0.005<br />
P(A|B1) = 0.02 P(A|B2) = 0.99<br />
Mit <strong>der</strong> Formel von Bayes berechnet man<br />
P(B2|A) =<br />
=<br />
P(A|B2) · P(B2)<br />
2�<br />
P(A|Bi) · P(Bi)<br />
i=1<br />
i∈I<br />
P(A|B2) · P(B2)<br />
P(A|B1) · P(B1) + P(A|B2) · P(B2)<br />
0.99 · 0.005<br />
=<br />
0.02 · 0.995 + 0.99 · 0.005<br />
≈ 0.2<br />
Das bedeutet, im Fall eines postitiven Test ist man nur mit einer Wahrscheinlichkeit von 20% wirklich<br />
erkrankt.<br />
Beispiel 3.21 (Simpson-Paradoxon):<br />
Im Folgenden werden wir ein Beispiel aus dem Bereich ” How to lie with statistics“ geben, d.h. es wird eine<br />
Aussage mit Daten belegt (wir werden hier vereinfachte Werte verwenden) die offensichtlich zu stimmen<br />
scheint. Bei genauerer Betrachtung und unter Berücksichtigung aller Werte im Detail ergibt sich jedoch<br />
genau die gegenteilige Aussage:<br />
University of Berkeley:<br />
In einem Jahr haben sich 1200 Männer und 900 Frauen um einen Studienplatz beworben. Zugelassen<br />
wurden 55% <strong>der</strong> Männer und nur 48,9% <strong>der</strong> Frauen. Offensichtlich wurden die Männer bevorzugt, o<strong>der</strong><br />
nicht?<br />
Eine genauere Betrachtung <strong>der</strong> Daten zeigt, dass es Bewerbungen in zwei Fächern A und B gab.<br />
Männer Frauen<br />
beworben zugelassen beworben zugelassen<br />
Fach A 900 540=60% 100 80=80%<br />
Fach B 300 120=40% 800 360=45%<br />
Summe 1200 660=55% 900 440=48,8%<br />
Die Frauen wurden also in jedem Fach bevorzugt!<br />
Dies können wir auch mit bedingten Wahrscheinlichkeiten nachrechnen:<br />
Seien Zm =“zugelassene Männer“, Am =“Bewerber Fach A“ und Bm =“Bewerber Fach B“. Dann gilt
38 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />
nach dem Satz <strong>der</strong> totalen Wahrscheinlichkeit:<br />
P(Zm) = P(Zm|Am) · P(Am) + P(Zm|Bm) · P(Bm)<br />
= 0.6 · 0.75 + 0.4 · 0.25<br />
= 0.55<br />
Seien nun entsprechend Zf =“zugelassene Frauen“, Af =“Bewerberinnen Fach A“ und Bf =“Bewerberinnen<br />
Fach B“.<br />
P(Zf) = P(Zf |Af) · P(Af) + P(Zf |Bf) · P(Bf)<br />
= 0.8 · 1<br />
9<br />
= 0.488<br />
+ 0.45 · 8<br />
9<br />
Das Ergebnis kommt zustande, da sich anteilig viel mehr Männer als Frauen in Fach A beworben haben,<br />
wobei dort die Zulassung einfacher zu erringen war. An<strong>der</strong>erseits haben sich wesentlich mehr Frauen für<br />
Fach B entschieden, wo die Zulassung nur schwer zu erringen ist.<br />
3.3 Mehrstufige Experimente<br />
Wir betrachten aufeinan<strong>der</strong>folgende Experimente, bei denen die Ergebnisse <strong>der</strong> ausgeführten Experimente<br />
die Wahrscheinlichkeiten für den Ausgang des nächsten Experiments bestimmen.<br />
Sei p1 <strong>der</strong> Wahrscheinlichkeitsvektor für die Ausgänge des ersten Experiments. Beim Ausgang a1 ∈ Ω1<br />
ist jeweils p2( · |a1) ein Wahrscheinlichkeitsvektor für die Ausgänge des zweiten Experiments.<br />
Beispiel 3.22 (zweistufiges Zufallsexperiment):<br />
In einer Urne befinden sich 3 Kugeln, davon sind zwei rot und eine ist weiß. Wir ziehen zwei Mal ohne<br />
Zurücklegen.<br />
In <strong>der</strong> ersten Ziehung erhält man mit einer Wahrscheinlichkeit von 2<br />
3 eine rote Kugel und mit einer<br />
eine weiße Kugel, d.h.<br />
Wahrscheinlichkeit von 1<br />
3<br />
p1(R) = 2<br />
3 , p1(W) = 1<br />
3 .<br />
In <strong>der</strong> zweiten Ziehung kann, wenn zuerst rot gezogen wurde, entwe<strong>der</strong> rot o<strong>der</strong> weiß jeweils mit <strong>der</strong><br />
Wahrscheinlichkeit 1<br />
2 gezogen werden o<strong>der</strong> wenn zu Beginn die weiße Kugel gezogen wurde, mit Sicherheit<br />
nun eine rote Kugel gezogen werden. Das heißt<br />
bzw.<br />
Der Grundraum des 2-stufigen Modells ist<br />
mit <strong>der</strong> Wahrscheinlichkeitsfunktion<br />
p2(R,R) = 1<br />
2 , p2(R,W) = 1<br />
2<br />
p2(R,W) = 1, p2(W,W) = 0.<br />
Ω = Ω1 × Ω2 = {(a1,a2) | ai ∈ Ωi}<br />
p(a1,a2) := p(a1) · p2(a2|a1).<br />
Das heißt p(a1,a2) ist das Produkt <strong>der</strong> Wahrscheinlichkeiten im Baumdiagramm entlang des Pfades:<br />
START → a1 → a2.<br />
Im Bsp.:<br />
Bemerkung 3.23:<br />
p(R|W) = p1(R) · p2(W |R) = 2 1 1<br />
· =<br />
3 2 3 .<br />
Für Teilmengen A ⊆ Ω, welche einer Menge von Pfaden entspricht, ist<br />
P(A) = �<br />
p1(a1) · p2(a2|a1)<br />
die Summe aller Pfadwahrscheinlichkeiten.<br />
(a1,a2)∈A
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 39<br />
Beispiel 3.24:<br />
Es stehe Xi für das Ergebnis des i-ten Teilexperiments, i = 1,2, dann gilt:<br />
P(X2 = R) = P( zweite Kugel ist rot“) = P(R,R) + P(W,R) =<br />
” 2 1 1 2<br />
· + · 1 =<br />
3 2 3 3<br />
3.25 Definition (n-stufiges Experiment):<br />
Seien Ω1,Ω2,...,Ωn diskrete Grundräume. Sei p1 eine Wahrscheinlichkeitsfunktion auf Ω1 (Startwahrscheinlichkeit).<br />
Für jedes a1 ∈ Ω1 sei eine Wahrscheinlichkeitsfunktion p2(a2|a1) auf den Ausgang des<br />
zweiten Teilexperiments gegeben.<br />
Allgemein: Für jede Folge von Ausgängen a1,a2,...,aj−1 mit ai ∈ Ωi, 1 ≤ i ≤ j − 1 <strong>der</strong> ersten j-1<br />
Teilexperimente ist eine Wahrscheinlichkeitsfunktion<br />
pj(aj|a1,...aj−1)<br />
auf den Ausgängen aj ∈ Ωj gegeben. Für einen Pfad (a1,...,an) ∈ Ω1 × ... × Ωn setzt man<br />
p(a1,...,an) = p1(a1) · p2(a2|a1) · ... · pn(an|a1,...,an−1).<br />
Dann ist p eine Wahrscheinlichkeitsfunktion auf Ω = Ω1 × ... × Ωn und definiert eine Wahrscheinlichkeitsverteilung<br />
P über<br />
P(A) := �<br />
p(a1,...,an), A ⊆ Ω.<br />
(a1,...,an)∈A<br />
P ist dann die Verteilung des mehrstufigen Experiments.<br />
Beispiel 3.26 (Polya’sches Urnenmodell):<br />
In diesem Modell, das ursprünglich dazu gedacht war, die Ausbreitung von Krankheiten zu simulieren,<br />
enthält eine Urne r rote und s schwarze Kugeln. Eine Kugel wird gezogen, dann wird zurückgelegt mit<br />
c ∈ Z zusätzlichen Kugeln <strong>der</strong> gleichen Farbe.<br />
Das heißt für c = −1 entspricht dies dem Ziehen ohne Zurücklegen und für c = 0 dem Ziehen mit<br />
Zurücklegen.<br />
Ein graphisches Beispiel:<br />
⑥ ⑥ ⑥<br />
✑<br />
✑<br />
✑<br />
✑<br />
✑<br />
✑<br />
✑✰<br />
✑<br />
◗<br />
◗◗◗◗◗◗◗� 1<br />
3<br />
⑥ ⑥ ⑥ ⑥ ⑥ ⑥<br />
⑥<br />
⑥2<br />
3<br />
⑥<br />
⑥<br />
✁<br />
⑥3<br />
4 ✁<br />
✁<br />
❆ 1<br />
❆ 4<br />
❆<br />
✁<br />
✁<br />
✁<br />
❆<br />
❆<br />
❆<br />
✁ ❆<br />
✁ ❆<br />
✁☛<br />
❆❯<br />
✁☛<br />
❆❯<br />
⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥<br />
⑥ ⑥1<br />
2<br />
1<br />
2 ⑥<br />
⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥<br />
Abbildung 4: Polya’sches Urnenmodell mit c = 1, r = 2, s = 1.<br />
Dann ist<br />
P(X2 = R) = 2 3 1 1 2<br />
· + · =<br />
3 4 3 2 3 = P(X1 = R)<br />
Wir wollen nun zeigen, dass unabhängig vom gewählten c immer gilt: Die Wahrscheinlichkeit für 2.Kugel<br />
”<br />
ist rot“ ist immer gleich <strong>der</strong> Wahrscheinlichkeit für 1.Kugel ist rot“:<br />
”<br />
Beweis:<br />
Es sind<br />
p1(R) = r<br />
r + s , p1(S) = s<br />
r + s<br />
r + c<br />
p2(R|R) =<br />
r + s + c , p2(S|R)<br />
s<br />
=<br />
r + s + c
40 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />
Damit ist<br />
Man berechnet<br />
Bemerkung 3.27:<br />
Man beobachtet also:<br />
P(X2 = R) = P(R,R) + P(S,R)<br />
=<br />
=<br />
=<br />
r<br />
r + s ·<br />
r<br />
r + s ·<br />
r<br />
r + s<br />
= P(X1 = R).<br />
r + c s<br />
+<br />
r + s + c r + s ·<br />
r<br />
r + s + c<br />
�<br />
r + c<br />
r + s + c +<br />
�<br />
s<br />
r + s + c<br />
p(R,S,R,R) = p1(R) · p2(S|R) · p3(R|RS) · p4(R|RSR)<br />
=<br />
r<br />
r + s ·<br />
s<br />
r + s + c ·<br />
r + c<br />
r + s + 2c ·<br />
r + 2c<br />
r + s + 3c<br />
Ist (a1,...,an) eine Ergebnis-Folge mit k roten Ziehungen (# {i | ai = R} = k) so ist<br />
p(a1,...,an) =<br />
n−1 �<br />
i=0<br />
�<br />
1<br />
r + s + ic<br />
� k−1 �<br />
·<br />
i=0<br />
n−k−1 �<br />
(k + ic) ·<br />
i=0<br />
(s + ic) .<br />
Das heißt die Wahrscheinlichkeit von (a1,...,an) hängt nur von <strong>der</strong> Anzahl gezogener Kugeln ab, nicht<br />
von <strong>der</strong> Reihenfolge. Daher gilt<br />
p(a τ(1),...,a τ(n)) = p(a1,...,an)<br />
für jede Permutation τ von {1,...,n}. Solche Verteilungen nennt man auch austauschbar.<br />
Aufgabe 3.28:<br />
Zeige damit<br />
P(Xj = R) = r<br />
für alle j = 1,2,...<br />
r + s<br />
3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen<br />
(1) Ist Ω1 × ... × Ωn ein mehrstufiges Modell mit Übergangswahrscheinlichkeiten<br />
so setzen wir<br />
pj (aj | a1,...,aj−1) , 1 ≤ j ≤ n<br />
(b1,...,bk) := {(a1,...,an) | ai = bi für 1 ≤ i ≤ k}<br />
als die Menge aller Pfade, die mit b1,...,bk beginnen fest. Dann gilt:<br />
Beweis:<br />
P (b1,...,bk) = p1 (b1) · p2 (b2 | b1) · ... · pk (bk | b1,...,bk)<br />
Wir zeigen nur den Fall n = 2, k = 1, die an<strong>der</strong>en Fälle überlegt man sich analog (wobei <strong>der</strong> Beweis<br />
dann sehr Index-lastig wird). Es gilt<br />
P (b1) = P ({b1} × Ω)<br />
= �<br />
p(b1,a2)<br />
a2∈Ω2<br />
= �<br />
a2∈Ω2<br />
= p1 (b1) · �<br />
p1 (b1) · p2 (a2 | b1)<br />
a2∈Ω2<br />
p2 (a2 | b1)<br />
� �� �<br />
=1<br />
da p2 eine Wahrscheinlichkeitsfunktion ist. Das zeigt schon die Behauptung.
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 41<br />
(2) Ganz analog gilt<br />
P (bk+1,...,bn | b1,...,bk) = pk+1 (bk+1 | b1,...,bk) ·pk+2 (bk+2 | b1,...,bk+1) ·... ·pn (bn | b1,...,bn−1)<br />
Beweis:<br />
Wir zeigen wie<strong>der</strong> nur den Fall n = 2, k = 1. Dort gilt<br />
Das zeigt die Behauptung.<br />
P (b2 | b1) =<br />
Beispiel 3.29 (Ziehen aus zufälliger Urne):<br />
Teil (1)<br />
=<br />
p(b1,b2)<br />
p(b1)<br />
p1 (b1) p2 (b2 | b1)<br />
p1 (b1)<br />
= p2 (b2 | b1) .<br />
Wir betrachten vier Urnen U1,U2,U3,U4. Jede <strong>der</strong> Urnen enthalte drei Kugeln, wobei Ui genau i −1 rote<br />
und 3 − (i − 1) schwarze Kugeln enthalte. Unser mehrstufiges Experiment sieht jetzt wie folgt aus:<br />
Schritt 1 Wähle rein zufällig eine Urne.<br />
Schritt 2 Ziehe eine Kugel und notiere die Farbe.<br />
Dieses Experiment gestaltet sich etwa so:<br />
❆<br />
❆ ✁ ✁ ⑥ ⑥ ⑥<br />
U1 - Urne 1<br />
✁ ❆<br />
❆<br />
❆<br />
START<br />
✏✏<br />
�<br />
✏✏<br />
✡ ❏ �������������<br />
1<br />
1<br />
4 ✏✏<br />
✏✏<br />
✡ ❏ 4<br />
1 1<br />
✏✏<br />
4✡<br />
❏4<br />
✏✏<br />
✏✮<br />
✡ ❏<br />
✡ ❏<br />
✡✢<br />
❏❫<br />
✁ ✁ ❆<br />
❆ ✁ ✁<br />
⑥ ⑥ ⑥ ⑥ ⑥ ⑥<br />
U2 - Urne 2 U3 - Urne 3<br />
✁ ❆<br />
0<br />
✁ ❆<br />
1 ✁ ❆<br />
✁ ❆<br />
1 ✁ ❆ 2 2 ✁ ❆ 1<br />
✁ ❆ 3✁<br />
❆3<br />
3✁<br />
❆3<br />
✁ ❆<br />
✁☛ ❆❯ ✁ ❆ ✁ ❆<br />
⑥ ⑥ ✁ ❆ ✁ ❆<br />
✁☛ ❆❯ ✁☛ ❆❯<br />
⑥ ⑥ ⑥ ⑥<br />
Abbildung 5: ” Ziehen aus zufälliger Urne“<br />
❆<br />
❆ ✁ ✁ ⑥ ⑥ ⑥<br />
U4 - Urne 4<br />
✁ ❆<br />
✁<br />
1<br />
✁<br />
❆<br />
❆<br />
0<br />
✁ ❆<br />
✁<br />
✁☛<br />
⑥<br />
❆<br />
❆❯<br />
⑥<br />
Es ist also Ω1 = {1,2,3,4}, wobei die Zahl i ∈ Ω1 dann einfach <strong>der</strong> Nummer <strong>der</strong> Urne im ersten Schritt<br />
entspricht. Wir sehen sofort, dass<br />
p1 (1) = ... = p1 (4) = 1<br />
4 .<br />
Weiter verwenden wir Ω2 = {R,S} was <strong>der</strong> Farbe <strong>der</strong> im zweiten Schritt gezogenen Kugel entsprechen<br />
soll. Da die Urne U1 keine roten Kugeln enthält, ist also<br />
p2 (R | 1) = 0 und p2 (S | 1) = 1.<br />
Ganz analog enthält die Urne U2 eine rote und zwei schwarze Kugeln, es ist also<br />
p2 (R | 2) = 1<br />
3 und p2 (S | 2) = 2<br />
3 .<br />
Ganz analog berechnet man die an<strong>der</strong>en Werte für p2.<br />
Wir wollen nun folgende Frage beantworten:<br />
Was kann man über die im ersten Schritt gewählte Urne aussagen, gegeben es wurde im zweiten Schritt<br />
eine rote Kugel gezogen?
42 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />
Zur Beantwortung setzen wir<br />
Wie oben sieht man sofort, dass<br />
Bi := ” Urne i im ersten Schritt gewählt“, i = 1,2,3,4,<br />
A := ” rote Kugel im zweiten Schritt gezogen“.<br />
P (A | B1) = 0, P (A | B2) = 1<br />
3 , P (A | B2) = 2<br />
3 , P (A | B3) = 1.<br />
Mit <strong>der</strong> Formel von <strong>der</strong> totalen Wahrscheinlichkeit (3.2) folgt<br />
P (A) =<br />
4�<br />
P (A | Bi) · P (Bi) =<br />
i=1<br />
4�<br />
i=1<br />
p2 (R | i) · p1 (i) = 1<br />
2 .<br />
Mit <strong>der</strong> Formel von Bayes (3.3) ergibt sich nun für die gesuchte Wahrscheinlichkeit<br />
Als Vektor gilt also<br />
Das ist die sogenannte<br />
P (Bk | A)<br />
(3.3)<br />
= P (Bk | A)<br />
=<br />
P (A | Bk) · P (Bk)<br />
4�<br />
P (A | Bi) · P (Bi)<br />
i=1<br />
� �� �<br />
=P(A)<br />
= 2P (A | Bk) · P (Bk)<br />
� �� �<br />
= 1<br />
4<br />
=<br />
1<br />
2 P (A | Bk) , k = 1,2,3,4.<br />
�<br />
(P (Bk | A)) k=1,2,3,4 = 0, 1<br />
�<br />
2 3<br />
, ,<br />
6 6 6<br />
a-posteriori-Verteilung auf den Urnennummern 1,2,3,4 zur a-priori-Verteilung 1<br />
4<br />
, 1<br />
4<br />
1 1 , 4 , 4 .<br />
Der MAP-Schätzer (MAP steht für ” maximum a-posteriori“) <strong>der</strong> Urnennummer k wählt das k mit maximalem<br />
P (Bk | A) aus - hier also k = 4. Das ” beantwortet“ die obige Frage.<br />
Beispiel 3.30:<br />
Wir betrachten eine leicht geän<strong>der</strong>te Variante von Beispiel 3.29: Die Urne im ersten Schritt wird nicht<br />
ein zufällig gewählt, son<strong>der</strong>n per Münzwurf bestimmt. Wir werfen dazu drei faire Münzen und wähle die<br />
Urne, die so viele rote Kugeln enthält, wie oft ” Kopf“ geworfen wurde. Wegen<br />
P ({ZZZ}) = 1<br />
3<br />
, P ({KZZ,ZKZ,ZZK}) =<br />
8 8<br />
usw. erhalten wir also die a-priori-Verteilung 1 3 3<br />
8 , 8 , 8<br />
Beispiel 3.29 oben und stellen uns die selbe Frage. Offenbar ist hier<br />
P (A) = 0 · 1 1 3 2 3 1 1<br />
+ · + · + 1 · =<br />
8 3 8 3 8 8 2<br />
und wie oben gilt<br />
� �<br />
P (A | Bk) · P (Bk)<br />
(P (Bk | A)) k=1,2,3,4 =<br />
1<br />
2<br />
, 1<br />
8 . Wir definieren A und Bi, i = 1,2,3,4 wie im<br />
k=1,2,3,4<br />
�<br />
= 0, 1<br />
�<br />
1 1<br />
, ,<br />
4 2 4<br />
Hier würde <strong>der</strong> MAP-Schätzer also die Urne mit <strong>der</strong> Nummer k = 3 auswählen.
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 43<br />
3.4 Produkt-Experimente und spezielle Verteilungen<br />
Für i = 1,...,n seien (Ωi,Pi) diskrete Wahrscheinlichkeitsräume. Die stochastisch unabhängige Ausführung<br />
mehrerer Experimente aus (Ωi,Pi), i = 1,...,n, wird modelliert durch<br />
Ω := Ω1 × ... × Ωn =<br />
n�<br />
Ωi, P :=<br />
wobei die Produktverteilung P durch die Wahrscheinlichkeitsfunktion<br />
gegeben ist.<br />
3.31 Definition:<br />
p(a1,...,an) =<br />
i=1<br />
n<br />
⊗Pi, (3.4)<br />
i=1<br />
n�<br />
Pi ({ai}) , (a1,...,an) ∈ Ω = {(b1,...,bn) | bi ∈ Ωi, i = 1,...,n} (3.5)<br />
i=1<br />
Der Raum (Ω,P) wie in (3.4) definiert heißt Produkt <strong>der</strong> Wahrscheinlichkeitsräume (Ωi,Pi) , i =<br />
1,...,n.<br />
Bemerkung 3.32:<br />
(Ω,P) ist selbst wie<strong>der</strong> ein Wahrscheinlichkeitsraum.<br />
Beweis:<br />
Es genügt zu zeigen, dass p wie in (3.5) eine Wahrscheinlichkeitsfunktion ist, denn offenbar ist Ω als<br />
endliches Produkt abzählbarer Mengen selbst wie<strong>der</strong> abzählbar.<br />
Das p positiv und σ-additiv ist, also die Axiome (A1) und (A3) erfüllt, ist klar, denn jedes <strong>der</strong> Pi erfüllt<br />
diese Axiome. Außerdem gilt<br />
P (Ω) = �<br />
p(a1,...,an) = �<br />
n�<br />
� �<br />
�<br />
P1 ({a1}) · ... · Pn ({an}) = Pk ({ak}) = 1<br />
(a1,...,an)∈Ω<br />
und das zeigt die Behauptung.<br />
Beispiel 3.33:<br />
(a1,...,an)∈Ω<br />
k=1<br />
ak∈Ωk<br />
� �� �<br />
(A3) für P k<br />
= 1<br />
Wir wollen das Produkt <strong>der</strong> Experimente ” Würfeln“ und ” Münzwurf“ bilden. Sei dazu Ω1 := {K,Z}<br />
ebenso mit <strong>der</strong> Laplace-Verteilung versehen wie Ω2 := {1,2,3,4,5,6}. Dann ist<br />
und es gilt<br />
für alle Tupel (a1,a2) ∈ Ω.<br />
Ω = Ω1 × Ω2 = {(a1,a2) | a1 ∈ {K,Z} ,a2 ∈ {1,2,3,4,5,6}}<br />
p(a1,a2) = P1 ({a1})<br />
� �� �<br />
= 1<br />
2<br />
·P2 ({a2})<br />
� �� �<br />
= 1<br />
=<br />
6<br />
1<br />
12<br />
Dieses Ergebnis ist natürlich ziemlich eintönig, würde man etwa eine gefälschte Münze verwenden, so<br />
wäre das Ergebnis interessanter.<br />
Bemerkung 3.34:<br />
Man kann den Produktraum (Ω,P) auch als mehrstufiges Modell mit den Übergangswahrscheinlichkeiten<br />
pi (ai | a1,...,ai−1) = Pi ({ai}) , 1 ≤ i ≤ n, ak ∈ Ωk<br />
auffassen. Man beachte, dass diese Übergangswahrscheinlichkeiten nicht von den vorangehenden Stufen<br />
abhängen.<br />
3.35 Definition:<br />
Für Ereignisse Ai ⊆ Ωi, 1 ≤ i ≤ n definieren wir das Produktereignis in (Ω,P) als<br />
A := A1 × A2 × ... × An = {(a1,...,an) | ai ∈ Ai, 1 ≤ i ≤ n}
44 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />
Bemerkung 3.36:<br />
Dann gilt<br />
Beweis:<br />
Es ist<br />
3.37 Satz:<br />
was die Behauptung zeigt.<br />
P (A) =<br />
n�<br />
Pk (Ak)<br />
k=1<br />
P (A) = P (A1 × ... × An)<br />
�<br />
Definition<br />
=<br />
p(a1,...,an)<br />
=<br />
=<br />
=<br />
(a1,...,an)∈A<br />
�<br />
(a1,...,an)∈A k=1<br />
n�<br />
�<br />
�<br />
k=1<br />
ak∈Ak<br />
n�<br />
Pk (Ak) ,<br />
k=1<br />
n�<br />
Pk ({ak})<br />
Pk ({ak})<br />
Seien Ai ⊆ Ωi Ereignisse. Setze A ∗ k := {(a1,...,an) ∈ Ω | ak ∈ Ak} für 1 ≤ k ≤ n. Für das Produktexperiment<br />
(Ω,P) wie in (3.4) gelten:<br />
(1) P (A ∗ k ) = Pk (Ak) für jedes 1 ≤ k ≤ n.<br />
(2) Die Ereignisse A ∗ 1,...,A ∗ n sind in jedem Fall unabhängig.<br />
Beweis:<br />
(1) Es ist<br />
P (A ∗ i ) = P (Ω1 × ... × Ωi−1 × Ai × Ωi+1 × ... × Ωn)<br />
was die Behauptung zeigt.<br />
(2) Für jede Teilfamilie<br />
gilt<br />
Bemerkung 3.36<br />
= P1 (Ω1) · ... · Pi−1 (Ωi−1) · Pi (Ai) · Pi+1 (Ωi+1) · ... · Pn (Ωn)<br />
= Pi (Ai) ,<br />
�<br />
A ∗ i1 ,...,A∗ ik mit 1 ≤ ii < ... < ik ≤ n<br />
⎛<br />
k�<br />
P ⎝ A ∗ ⎞<br />
⎠<br />
ij = P (Ω1 × ... × Ωi1−1 × Ai1 × Ωi1+1 × ...)<br />
j=1<br />
Bemerkung 3.36<br />
Das zeigt auch hier die Behauptung.<br />
Bemerkung 3.38:<br />
= Pi1 (Ai1 ) · ... · Pik (Aik ) · P1 (Ω1) ·...<br />
� �� �<br />
=1<br />
(1) � � � � ∗ ∗<br />
= P Ai1 · ... · P Aik .<br />
Mit Hilfe dieses Satzes können wir sehr leicht einen Wahrscheinlichkeitsraum (Ω,P) konstruieren, <strong>der</strong> n<br />
unabhängige Ereignisse enthält, die vorgegebene Wahrscheinlichkeiten p1,...,pn haben:<br />
Setze Ω1 = ... = Ωn = {0,1}, A1 = ... = An = {1} und definieren für jedes i = 1,...,n<br />
Pi ({0}) := 1 − pi, Pi ({1}) := pi<br />
� �� �<br />
Pi(Ai)<br />
Nach dem Satz sind dann A ∗ 1,...,A ∗ n unabhängige Experimente mit den vorgegebenen Wahrscheinlichkeiten.
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 45<br />
3.4.1 Mit Produktexperimenten zusammenhängende Verteilungen<br />
(1) Binomialverteilung ( ” Zählen von Erfolgen“)<br />
Ein Bernoulli-Experiment ist ein Experiment mit Ω = {0,1} und Erfolgswahrscheinlichkeit<br />
p(1) = p ∈ [0,1], p(0) = 1 − p.<br />
Setze p1 := p und p0 := 1 − p. Das Produkt von n Bernoulli-Experimenten mit gleicher Erfolgswahrscheinlichkeit<br />
ist dann<br />
Sei jetzt<br />
Ω = {0,1} n , p(a1,...,an) = pa1 · ... · pan für (a1,...,an) ∈ Ω<br />
⎧<br />
⎨<br />
Ak :=<br />
⎩ (a1,...,an)<br />
�<br />
�<br />
�<br />
⎫<br />
n� ⎬<br />
aj = k<br />
⎭<br />
das Ereignis k Erfolge“ für 0 ≤ k ≤ n. Dann ist #Ak =<br />
” � � n<br />
k , für jedes (a1,...,an) ∈ Ak gilt<br />
und daher folgt<br />
j=1<br />
P ({(a1,...,an)}) = p k (1 − p) n−k<br />
P (Ak) =<br />
Wir erhalten also genau die Binomialverteilung.<br />
(2) Multinomialverteilung ( ” Zählen von Ausgängen“)<br />
� �<br />
n<br />
p<br />
k<br />
k (1 − p) n−k , 0 ≤ k ≤ n.<br />
Man führt n identische, stochastisch unabhängige Experimente durch. Jedes Experiment hat r<br />
Ausgänge 1,...,r, die mit Wahrscheinlichkeiten p1,...,pr auftreten.<br />
Modell: Seien Ωi = {1,...,r} und die Wahrscheinlichkeitsverteilungen Pi durch den Wahrscheinlichkeitsvektor<br />
(p1,...,pr) gegeben (1 ≤ i ≤ n).<br />
Im Produktexperiment ist<br />
und somit<br />
Ω = Ω1 × ... × Ωn = {1,...,r} n<br />
und P =<br />
p(a1,..,an) = pa1 · ... · pan .<br />
n<br />
⊗Pi i=1<br />
Sei Ak1,...,kr das Ereignis in n Versuchen k1 mal den Ausgang 1“, ..., kr mal den Ausgang r“ zu<br />
” ”<br />
erhalten (dabei muss natürlich n�<br />
ki = n und 0 ≤ ki für i ≤ i ≤ n gelten). Dann ist<br />
i=1<br />
die auf �<br />
P(Ak1,...,kr ) =<br />
�<br />
(k1,...,kr) � �<br />
n<br />
k1,...,kr<br />
�<br />
· p k1<br />
1 · ... · pkr r<br />
n�<br />
�<br />
ki = n,0 ≤ ki<br />
gegebene Multinomialverteilung mit Parametern n und p1,..,pr. Dabei muss natürlich<br />
gelten.<br />
Beispiel 3.39:<br />
i=1<br />
r�<br />
pi = 1<br />
i=1<br />
Auf einem Glücksrad sind 3 Bereiche markiert. Beim zufälligen Drehen stoppt das Rad mit Wahr-<br />
scheinlichkeit p1 = 1<br />
2 im Bereich ” 1“, mit p2 = 3<br />
8 im Bereich ” 2“ und mit p3 = 1<br />
8 im Bereich ” 3“.<br />
Dann ist<br />
P(5 mal ” 1“, 3 mal ” 2“, 2 mal ” 3“) = P(A5,3,2) =<br />
� �<br />
10<br />
·<br />
5,3,2<br />
� �5 1<br />
·<br />
2<br />
� �3 3<br />
·<br />
8<br />
� �2 1<br />
.<br />
8
46 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />
(3) Geometrische Verteilung ( ” Warten auf den ersten Erfolg“)<br />
Gegeben sei ein n-faches Bernoulli-Experiment Ω = {0,1} n mit Erfolgswahrscheinlichkeit p ∈ [0,1].<br />
Sei für 1 ≤ k ≤ n Ak das Ereignis ” erster Erfolg im k-ten Versuch ” (1 ≤ k ≤ n). Dann ist<br />
Beweis:<br />
P(Ak) = (1 − p) k−1 · p<br />
Im Produktexperiment ist natürlich Pi = P für jedes 1 ≤ i ≤ n, wobei P ({0}) = 1−p, P ({1}) = p.<br />
Offenbar entspricht für 1 ≤ k ≤ n das Ereignis Ak genau <strong>der</strong> Menge<br />
{0} × ... × {0} × {1} ,<br />
� �� �<br />
(k−1)-mal<br />
da ja vor dem Erfolg im k-ten Versuch nur Misserfolge auftreten dürfen. Gemäß Bemerkung 3.36<br />
gilt dann<br />
P (Ak) = P ({0} × ... × {0} × {1}) =<br />
was die Behauptung zeigt.<br />
Intuitiv richtig erscheint die Aussage auch für n<br />
k−1 �<br />
i=1<br />
Pi ({0}) · Pk ({1}) = (1 − p) k−1 · p,<br />
��<br />
∞, also<br />
pk := Pk(Ak) = (1 − p) k−1 · p, k = 1,2,....<br />
Für den formalen Beweis benötigt man Maßtheorie. Diese Gleichung definiert die geometrische Verteilung<br />
auf N mit P(1) = p,P(2) = (1 − p) · p,....<br />
Dies ist tatsächlich eine Wahrscheinlichkeitsverteilung auf N, da es sich um eine Wahrscheinlichkeitsfunktion<br />
handelt:<br />
∞�<br />
∞�<br />
pk = p · (1 − p) k−1<br />
k=1<br />
= p ·<br />
geometrische Reihe<br />
= p ·<br />
=<br />
p<br />
p<br />
= 1.<br />
k=1<br />
∞�<br />
(1 − p) k<br />
k=0<br />
�<br />
�<br />
1<br />
1 − (1 − p)<br />
(4) Negative Binomialverteilung ( ” k Misserfolge vor dem r-ten Erfolg“)<br />
Wir betrachten ein n-faches Bernoulli-Experiment, n ∈ N, mit Erfolgswahrscheinlichkeit p ∈ [0,1].<br />
Seien r,k ∈ N mit k + r ≤ n. Setze<br />
3.40 Lemma:<br />
Es gilt<br />
Beweis:<br />
A := ” genau k Misserfolge vor dem r-ten Erfolg“.<br />
�<br />
k + r − 1<br />
P(A) =<br />
k<br />
�<br />
p r (1 − p) k<br />
Sei Ω = {0,1} k+r <strong>der</strong> Produktraum mit <strong>der</strong> Verteilung, welche durch pi(1) = p, pi(0) = 1 − p,<br />
1 ≤ i ≤ k + r gegeben ist. Natürlich soll dabei 1“ für Erfolg“ und 0“ für Misserfolg“ stehen.<br />
” ” ” ”<br />
Nach <strong>der</strong> Binomialverteilung ist die Wahrscheinlichkeit, genau r − 1 Erfolge und k Misserfolge vor<br />
dem r-ten Erfolg zu erhalten genau<br />
� k + r − 1<br />
r − 1<br />
�<br />
p r−1 (1 − p) k+r−1−(r−1)
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 47<br />
und daher folgt<br />
was die Behauptung zeigt.<br />
P (A) =<br />
=<br />
=<br />
� k + r − 1<br />
r − 1<br />
�<br />
p r−1 (1 − p) k · p<br />
����<br />
r−ter Erfolg<br />
�<br />
k + r − 1<br />
�<br />
k + r − 1 − (r − 1)<br />
�<br />
k + r − 1<br />
k<br />
�<br />
p r (1 − p) k ,<br />
p r (1 − p) k<br />
Diese Verteilung nennt man auch die negative Binomialverteilung.
48 4 Zufallsvariablen, Verteilungen<br />
4 Zufallsvariablen, Verteilungen<br />
4.1 Zufallsvariablen<br />
Das Ziel <strong>der</strong> Einführung von Zufallsvariablen ist eine unkomplizierte Beschreibung von Ereignissen. Sie<br />
bilden ein wichtiges Handwerkszeug zur Formulierung und Lösung von stochastischen Problemen.<br />
4.1 Definition:<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und Ω ′ �= ∅ eine beliebige Menge. Eine Abbildung<br />
X : Ω<br />
��<br />
Ω ′<br />
heißt Zufallsvariable (abgekürzt auch ZV) mit Werten in Ω ′ .<br />
Falls Ω ′ ⊂ R d so heißt X ein d-dimensionaler Zufallsvektor, falls d = 1 ist, so nennen wir X<br />
reellwertige Zufallsvariable.<br />
Beispiel 4.2:<br />
Beim zweimaligen Würfeln ist Ω = {1,...,6} 2 und ω = (a1,a2) ∈ Ω mit 1 ≤ ai ≤ 6.<br />
Wir betrachten die Summe <strong>der</strong> Augenzahlen<br />
das Maximum <strong>der</strong> Würfelergebnisse<br />
o<strong>der</strong> das Produkt <strong>der</strong> Augenzahlen<br />
X(ω) := a1 + a2,<br />
X(ω) := max {a1,a2} ,<br />
X(ω) := a1 · a2.<br />
Dann ist etwa X(ω) = a1 + a2 ist reellwertige Zufallsvariable mit Werten in Ω ′ = {2,...,12}.<br />
Bemerkung 4.3:<br />
X muss nicht injektiv und auch nicht surjektiv sein.<br />
X ” transportiert“ Wahrscheinlichkeitsmasse, z.B. wenn X(ω) = a1 + a2 ist<br />
P(X = 4) = P({(a1,a2) | a1 + a2 = 4})<br />
= P({(1,3),(2,2),(3,1)})<br />
= P({(1,3)}) + P({(2,2)}) + P({(3,1)})<br />
= 1 1 1 1<br />
+ + =<br />
36 36 36 12<br />
Das heißt, man bestimmt die Verteilung von X auf Ω ′ über Mengen wie X −1 ({4}).<br />
X −1 ist eine Abbildung von Mengen, d.h<br />
X : P(Ω ′ ) → P(Ω) A ′ ↦−→ X −1 (A ′ ) = {ω ∈ Ω | X(ω) ∈ A ′ }.<br />
Die allgemeinen Regeln für Urbil<strong>der</strong> gelten natürlich auch für Zufallsvariablen, wir wollen sie ohne Beweis<br />
in folgendem Lemma festhalten:<br />
4.4 Lemma (Eigenschaften):<br />
Es gilt:<br />
(U1) X−1 (X(Ω)) = Ω und X−1 (∅) = ∅<br />
(U2) X−1 � �<br />
�<br />
= �<br />
(U3) X−1 �<br />
�<br />
A<br />
i∈I<br />
′ i<br />
A<br />
i∈I<br />
′ i<br />
�<br />
= �<br />
X<br />
i∈I<br />
−1 (A ′ i )<br />
X<br />
i∈I<br />
−1 (A ′ i )<br />
(U4) X −1 (Ω ′ \ A ′ ) = Ω \ X −1 (A ′ )<br />
4.5 Definition:<br />
Sei ohne Einschränkung Ω ′ = X(Ω). Für einen diskreten Wahrscheinlichkeitsraum (Ω,P) wird durch<br />
P X : P (Ω ′ )<br />
��<br />
′ X ′ −1 ′<br />
R, A ↦→ P (A ) := P(X (A ))<br />
eine Wahrscheinlichkeitsverteilung P X auf <strong>der</strong> diskreten Menge Ω ′ definiert.<br />
P X heißt Verteilung von X auf Ω ′ (unter P).
4 Zufallsvariablen, Verteilungen 49<br />
Beweis:<br />
Wir müssen die Axiome (A1), (A2) und (A3) eines Wahrscheinlichkeitsraumes nachweisen:<br />
(A1) P X (A ′ ) ≥ 0 gilt.<br />
(A2) P X (Ω ′ ) Definition<br />
= P � X −1 (Ω ′ ) � = P(Ω) = 1<br />
(A3) Seien A ′ 1,A ′ 2,... disjunkte Teilmengen von Ω ′ . Dann gilt<br />
P X<br />
� ∞�<br />
i=1<br />
A ′ i<br />
�<br />
Definition<br />
= P<br />
= P<br />
�<br />
�<br />
X −1<br />
X −1<br />
� ∞�<br />
i=1<br />
� ∞�<br />
i=1<br />
�<br />
∞�<br />
(U3)<br />
= P (A ′ �<br />
i)<br />
σ-Additivität<br />
=<br />
Definition<br />
=<br />
∞�<br />
i=1<br />
i=1<br />
A ′ i<br />
A ′ i<br />
P(X −1 (A ′ i))<br />
∞�<br />
P X (A ′ i).<br />
Das zeigt, dass P X in <strong>der</strong> Tat ein Wahrscheinlichkeitsmaß auf Ω ′ ist.<br />
Bemerkung 4.6:<br />
Mittels ” Transport von P durch X“ entsteht also ein neuer Wahrscheinlichkeitsraum (Ω ′ ,P X ).<br />
Notation 1:<br />
Sei (Ω,P) diskreter Wahrscheinlichkeitsraum, X : Ω → Ω ′ eine Zufallsvariable.<br />
Man schreibt/meint<br />
und<br />
i=1<br />
(X = x) := {ω ∈ Ω | X(ω) = x} , x ∈ Ω ′<br />
��<br />
��<br />
(X ∈ A) := {X ∈ A} = {ω ∈ Ω | X(ω) ∈ A} ,A ⊂ Ω ′ .<br />
Damit schreibt man P X (A) = P(X ∈ A) sowie P X ({x}) = P (X = x).<br />
Falls X reellwertig ist (d.h. Ω ′ ⊂ R) so benutzt man auch (X ≤ x) = {X ≤ x} = {ω ∈ Ω | X(ω) ≤ x}.<br />
Beispiel 4.7:<br />
Sei Ω = {1,...,6} 2 ,P(a1,a2) = 1<br />
36 ∀ (a1,a2) ∈ Ω.<br />
• X(a1,a2) = a1 + a2 mit Ω ′ = {2,3,...,12}.<br />
Für x ∈ Ω ′ gilt:<br />
P X = P � X −1 ({x}) � =<br />
• X(a1,a2) = max {a1,a2} mit Ω ′ = {1,...,6}<br />
Für x ∈ Ω ′ gilt:<br />
� x−1<br />
36<br />
13−x<br />
36<br />
falls x = 2,...,7,<br />
falls x = 8,...,12 .<br />
P X (x) = P(X = x) = P ({a1,a2) | max {a1,a2} = x}) =<br />
Dadurch ist eine Wahrscheinlichkeitsmaß auf Ω ′ gegeben.<br />
2x − 1<br />
.<br />
36<br />
Man spricht oft einfach von einer Ω ′ -wertigen Zufallsvariablen X, mit Verteilung P X und erwähnt we<strong>der</strong><br />
(Ω,P) noch die spezielle Abbildung X.
50 4 Zufallsvariablen, Verteilungen<br />
4.8 Definition (Indikatorvariable):<br />
Für A ⊂ Ω definieren wir durch<br />
die Indikatorvariable zu A.<br />
1A : Ω<br />
Die Verteilung von X = 1A sieht wie folgt aus:<br />
�<br />
1 falls ω ∈ A<br />
��<br />
{0,1}, 1A(ω) =<br />
0 falls w /∈ A<br />
• P X ({1}) = P � X −1 ({1}) � = P({ω ∈ Ω | X(ω) = 1}) = P(A)<br />
• P X ({0}) = P � X −1 ({1}) � = P({ω ∈ Ω | X(ω) = 0}) = P(A C )<br />
Beispiel 4.9:<br />
Sei Ω = {1,...,6} und A = {2,4,6}. Dann ordnet 1A wie folgt zu:<br />
Bemerkung 4.10:<br />
2,4,6 ↦→ 1,<br />
1,3,5 ↦→ 0.<br />
Falls Ω ′ ⊂ R d ,d ≥ 2 und damit X(ω) = (X1(ω),...,Xd(ω)) so ist für A = A1 × ... × Ad:<br />
⎛ ⎞<br />
d�<br />
P(X ∈ A) = P ⎝ {Xj ∈ Aj} ⎠ .<br />
Insbeson<strong>der</strong>e gilt also<br />
⎛<br />
d�<br />
P(X = x) = P(X1 = x1,...,Xd = xd) = P ⎝ X −1<br />
⎞<br />
i ({xi}) ⎠ .<br />
4.11 Definition (Gemeinsame Verteilung):<br />
Sei (Ω,P) gegeben, Xj : Ω ��<br />
′ Ω j , j = 1,...,n seien Zufallsvariablen. Wir definieren<br />
X : Ω<br />
j=1<br />
j=1<br />
��<br />
Ω ′ 1 × ... × Ω ′ n durch ω ↦→ (X1(ω),...,Xn(ω)).<br />
Dann heißt P X = P (X1,...Xn) die gemeinsame Verteilung von X1,...Xn. Die zugehörige Wahrscheinlichkeitsfunktion<br />
ist<br />
Beispiel 4.12:<br />
p(x1,...xn) = P(X1 = x1,...Xn = xn) für alle Tupel (x1,...,xn) ∈ Ω ′ .<br />
Wir wollen wie<strong>der</strong> zweifach mit einem fairen Würfel werfen. Betrachte also Ω = {1,2,3,4,5,6} mit <strong>der</strong><br />
Lapace-Verteilung P. Definiere für (a1,a2) = ω ∈ Ω die Zufallsvariablen X1,X2 : Ω ��Ω<br />
(also Ω ′ = Ω),<br />
X1 (ω) := min {a1,a2} ,<br />
X2 (ω) := max {a1,a2} .<br />
Die gemeinsame Verteilung von X1 und X2 können wir dann als Matrix schreiben. Setze dazu c := 1<br />
36<br />
und erhalte<br />
x1 / x2 1 2 3 4 5 6 P (X1) ({x1})<br />
1 c 2c 2c 2c 2c 2c 11c<br />
2 0 c 2c 2c 2c 2c 9c<br />
3 0 0 c 2c 2c 2c 7c<br />
4 0 0 0 c 2c 2c 5c<br />
5 0 0 0 0 c 2c 3c<br />
6 0 0 0 0 0 c c<br />
P (X2) ({x2}) c 3c 5c 7c 9c 11c
4 Zufallsvariablen, Verteilungen 51<br />
Dabei steht in <strong>der</strong> Zelle (i,j) natürlich P (X1,X2) ({i} × {j}) = P (X1 = i,X2 = j) und wir haben in <strong>der</strong><br />
letzten Zeile / Spalte gleich noch die Werte <strong>der</strong> Einzel-Verteilungen P X1 und P X2 eingetragen, da diese<br />
sich einfach als Summe <strong>der</strong> Zeilen- / Spalteneinträge berechnen.<br />
4.13 Definition:<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien Xj : Ω<br />
Für eine Indexauswahl<br />
1 ≤ i1 < ... < ik ≤ n<br />
��<br />
′ Ω j für 1 ≤ j ≤ n Zufallsvariablen.<br />
nennen wir die gemeinsame Verteilung von Xi1 ,...,Xik eine k-dimensionale Randverteilung o<strong>der</strong><br />
auch Marginalverteilung.<br />
Beispiel 4.14:<br />
Sei X = (X1,X2). Dann sind P Xi für i = 1,2 1-dimensionale Randverteilungen und es gilt zum Beispiel<br />
P X1 (x1) = P (X1 = x1) = �<br />
P (X1 = x1,X2 = x2) , x1 ∈ Ω ′ 1.<br />
x2∈X2(Ω)<br />
4.1.1 Unabhängigkeit von Zufallsvariablen<br />
Die Idee ist, dass zwei Zufallsvariablen X1,X2 unabhängig sind, wenn<br />
gilt.<br />
Beispiel 4.15:<br />
P (X1 = x1,X2 = x2) = P (X1 = x1) · P (X2 = x2) ∀ (x1,x2) ∈ Ω ′ 1 × Ω ′ 2<br />
In obigem Beispiel 4.12 kann man aus <strong>der</strong> Tabelle leicht ablesen, dass<br />
gilt, aber<br />
P (X1 = 1,X2 = 1) = 1<br />
36<br />
P (X1 = 1) · P (X2 = 1) = 11 1<br />
·<br />
36 36<br />
�= 1<br />
36<br />
ist. Daher sollten X1 und X2 wie dort definiert nicht unabhängig sein.<br />
4.16 Definition:<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω<br />
Wir nennen X1,...,Xn unabhängig, wenn<br />
P (X1,...,Xn) =<br />
n<br />
⊗P i=1<br />
Xi<br />
gilt. Dabei meint n<br />
⊗ P<br />
i=1<br />
Xi einfach das Produkt <strong>der</strong> Verteilungen, also<br />
Beispiel 4.17:<br />
Sei n = 2 und seien X1,X2 : Ω<br />
n<br />
⊗P i=1<br />
Xi (A1 × ... × An) =<br />
n�<br />
P Xi (Ai) , Ai ∈ Ω ′ i für i = 1,...n.<br />
Einzelverteilungen P X1 und P X2 wie im obigen Beispiel eintragen:<br />
Man stellt fest, dass<br />
i=1<br />
��<br />
′ Ω i für 1 ≤ i ≤ n Zufallsvariablen.<br />
��<br />
{0,1} durch folgende Tabelle gegeben, in welche wir auch gleich die<br />
x1/x2 0 1 P X1 ({x1})<br />
0 0.12 0.28 0.4<br />
1 0.18 0.42 0.6<br />
P X2 ({x2}) 0.3 0.7<br />
2<br />
⊗P i=1<br />
Xi (x1,x2) Definition<br />
= P X1 (x1) · P X2 (x2) = P (X1 = x1) · P (X2 = x2)
52 4 Zufallsvariablen, Verteilungen<br />
4.18 Satz:<br />
gilt. In je<strong>der</strong> Zelle gilt<br />
und daher sind X1 und X2 hier unabhängig.<br />
P (X1 = x1) · P (X2 = x2) = P (X1 = x1,X2 = x2)<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω<br />
Dann sind die folgenden Aussagen äquivalent:<br />
(1) X1,...,Xn sind unabhängig.<br />
(2) Für alle Ai ⊆ Ω ′ i , 1 ≤ i ≤ n gilt<br />
(3) Für alle xi ∈ Ω ′ i , 1 ≤ i �= n gilt<br />
Beweis:<br />
” (1)⇒(2)“ Für beliebige Ai ⊆ Ω ′ i , 1 ≤ i ≤ n, gilt<br />
P (X1 ∈ A1,...,Xn ∈ An) =<br />
P (X1 = x1,...,Xn = xn) =<br />
n�<br />
P (Xi ∈ Ai) .<br />
i=1<br />
n�<br />
P (Xi = xi) .<br />
i=1<br />
��<br />
′ Ω i für 1 ≤ i ≤ n Zufallsvariablen.<br />
P (X1 ∈ A1,...,Xn ∈ An) = P ((X1,...,Xn) ∈ A1 × ... × An)<br />
= P (X1,...,Xn) (A1 × ... × An)<br />
�<br />
X1,...,Xn unabhängig<br />
=<br />
” (2)⇒(3)“ Für gegebene xi ∈ Ω ′ i , 1 ≤ i ≤ n setze Ai := {xi}.<br />
” (3)⇒(1)“ Hier gilt für alle xi ∈ Ω ′ i , 1 ≤ i ≤ n:<br />
P (X1,...,Xn) (x1,...,xn)<br />
=<br />
=<br />
(3)<br />
=<br />
Definition<br />
=<br />
�<br />
n<br />
⊗ P<br />
i=1<br />
Xi<br />
n�<br />
P Xi (Ai)<br />
i=1<br />
n�<br />
P (Xi ∈ Ai)<br />
i=1<br />
n�<br />
P (Xi = xi)<br />
i=1<br />
�<br />
n<br />
⊗P i=1<br />
Xi<br />
�<br />
(A1 × ... × An)<br />
(x1,...,xn)<br />
Daher stimmen die zu den Verteilungen P (X1,...,Xn) und n<br />
⊗ P<br />
i=1<br />
Xi gehörigen Wahrscheinlichkeitsfunktionen<br />
auf allen Tupeln (x1,...,xn) ∈ Ω1 × ... × Ωn überein und aus diesem Grund müssen die<br />
beiden Verteilungen gleich sein.<br />
Unabhängige Zufallsvariablen verwendet man üblicherweise zur Modellierung von Ausgängen von Experimenten,<br />
die völlig getrennt ablaufen. Betrachte etwa das folgende Problem, welches allgemein als<br />
Ziegenproblem o<strong>der</strong> auch 3-Türen-Problem bekannt ist:<br />
Beispiel 4.19:<br />
Wir betrachten drei Türen mit den Nummern 1 bis 3, wobei hinter einer rein zufälligen Tür ein Gewinn<br />
(etwa ein Auto) und hinter den an<strong>der</strong>en beiden Türen je eine Ziege ist. Die Türen sind natürlich<br />
verschlossen. Das Spiel läuft nun wie folgt ab:<br />
(1) Der Kandidat wählt eine Tür.
4 Zufallsvariablen, Verteilungen 53<br />
(2) Der Mo<strong>der</strong>ator öffnet eine <strong>der</strong> beiden an<strong>der</strong>en Türen, aber nicht die, hinter welcher sich <strong>der</strong> Gewinn<br />
befindet.<br />
(3) Der Kandidat darf wechseln.<br />
Die Frage ist nun, ob es sich für den Kandidaten lohnt, zu wechseln.<br />
Wir modellieren das Problem durch folgende Zufallsvariablen:<br />
• X1:= Nummer <strong>der</strong> Tür, hinter welcher sich <strong>der</strong> Gewinn befindet (∈ {1,2,3}).<br />
• X2:= Nummer <strong>der</strong> Tür, die <strong>der</strong> Kandidat in Schritt (1) auswählt (∈ {1,2,3}).<br />
Nach unseren Annahmen ist dann<br />
P (X1 = 1) = P (X1 = 2) = P (X1 = 3) = 1<br />
3<br />
(<strong>der</strong> Gewinn ist rein zufällig verteilt) und die Zufallsvariablen X1 und X2 sind unabhängig (<strong>der</strong> Kandidat<br />
hat keine Informationen über die Gewinntür.<br />
Verfolgt <strong>der</strong> Kandidat die Strategie ” nicht wechseln“, so gewinnt er genau dann, wenn X1 = X2 gilt. Also<br />
P ( ” Gewinn“) = P (X1 = X2)<br />
=<br />
X1,X2 unabhängig<br />
=<br />
=<br />
=<br />
3�<br />
P (X1 = i,X2 = i)<br />
i=1<br />
3�<br />
P (X1 = i) ·P (X2 = i)<br />
i=1<br />
1<br />
3<br />
1<br />
3 .<br />
� �� �<br />
= 1<br />
3<br />
3�<br />
P (X2 = i)<br />
i=1<br />
� �� �<br />
=1<br />
Man beachte, dass es für dieses Ergebnis völlig egal ist, wie X2 verteilt ist, d.h. z.B. davon, ob <strong>der</strong><br />
Kandidat mit Vorliebe eine <strong>der</strong> Türen auswählt.<br />
Verfolgt <strong>der</strong> Kandidat dagegen die Strategie ” wechseln“, so gewinnt er genau dann, wenn X1 �= X2 gilt<br />
(weil <strong>der</strong> Mo<strong>der</strong>ator dann nur genau eine Tür öffnen kann, hinter <strong>der</strong> natürlich eine Ziege steht, und <strong>der</strong><br />
Kandidat in Schritt (3) dann zwangsläufig auf die Gewinn-Tür wechselt). Es folgt also<br />
P ( Gewinn“) = P (X1 �= X2) = 1 − P (X1 = X2) = 1 −<br />
” 1 2<br />
=<br />
3 3 .<br />
Die Strategie ” wechseln“ ist also deutlich besser!<br />
4.20 Definition (Funktionen von Zufallsvariablen):<br />
Sei Ω ein diskreter Grundraum und seien Ω ′ ,Ω ′′ beliebige Mengen. Sei X : Ω<br />
und g : Ω ′ ��<br />
′′ Ω eine beliebige Abbildung. Dann wird durch<br />
g(X) := g ◦ X : Ω<br />
��<br />
′′<br />
Ω<br />
eine Ω ′′ -wertige Zufallsvariable g ◦ X durch ω ↦→ g(X(ω)) auf Ω definiert.<br />
Beispiel 4.21:<br />
Sei g : Rn ��<br />
R gegeben durch x = (x1,...,xn) ↦→ n�<br />
xi. Ist<br />
X : Ω<br />
eine Zufallsvariable, so ist g(X) gegeben durch<br />
ω ↦→<br />
i=1<br />
��<br />
n<br />
R , ω ↦→ (X1(ω),...,Xn(ω))<br />
n�<br />
Xi(ω), ω ∈ Ω.<br />
i=1<br />
��<br />
Ω ′ eine Zufallsvariable
54 4 Zufallsvariablen, Verteilungen<br />
Beispiel 4.22:<br />
Sei X : Ω<br />
��<br />
R eine Zufallsvariable und g : R<br />
��<br />
R gegeben durch<br />
x ↦→ x k<br />
für ein k ∈ N. Dann ist (g(X)) (ω) = (X(ω)) k , ω ∈ Ω und wir schreiben auch<br />
X k := g(X)<br />
4.23 Lemma:<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω ��<br />
Ωi, 1 ≤ i ≤ n unabhängige Zufallsvariablen.<br />
Sei 1 ≤ i1 < ... < ik ≤ n eine Indexauswahl. Dann sind auch die Zufallsvariablen<br />
unabhängig.<br />
Beweis:<br />
Xi1 ,...,Xik<br />
Laut Satz 4.18 genügt es zu zeigen, dass für alle Aij ⊂ Ω′ , 1 ≤ j ≤ k, gilt:<br />
ij<br />
Es gilt<br />
P (Xi 1 ,...,Xi k) (Ai1<br />
× ... × Aik ) =<br />
P (Xi 1 ,...,Xi k) (Ai1<br />
k�<br />
P � Xij<br />
j=1<br />
× ... × Aik )<br />
= P (Xi1 ∈ Ai1 ,...,Xik ∈ Aik )<br />
= P � X1 ∈ Ω ′ 1<br />
� �� �<br />
trivial!<br />
∈ Aij<br />
,...,Xi1−1 ∈ Ω ′ i1−1,Xi1<br />
∈ Ai1 ,Xi1+1 ∈ Ω ′ i1+1<br />
� �� �<br />
trivial!<br />
� .<br />
� �� �<br />
trivial!<br />
...,Xik−1 ∈ Ω ′ ik−1,Xik<br />
∈ Aik ,Xik+1 ∈ Ω ′ ik+1,...,Xn<br />
∈ Ω ′ n<br />
� �� �<br />
trivial!<br />
� ��<br />
trivial!<br />
�<br />
�<br />
· P (Xi1<br />
X1,...,Xn unabh.<br />
= P (X1 ∈ Ω ′ 1) · ... · P � Xi1−1 ∈ Ω ′ i1−1<br />
· P � Xi1+1 ∈ Ω ′ � �<br />
i1+1 · ... · P Xik−1 ∈ Ω ′ ik−1<br />
=<br />
=<br />
Damit ist die Behauptung gezeigt.<br />
· P � Xik+1 ∈ Ω ′ ik+1<br />
n�<br />
i=1<br />
i�=i j ∀j∈{1,...,k}<br />
k�<br />
P � Xij<br />
j=1<br />
� · ... · P (Xn ∈ Ω ′ n)<br />
P (Xi ∈ Ω ′ � ��<br />
i) ·<br />
�<br />
=1<br />
∈ Aij<br />
� .<br />
k�<br />
P � Xij<br />
j=1<br />
∈ Aij<br />
� �� �<br />
trivial!<br />
,...<br />
�<br />
∈ Ai1 ) ·<br />
�<br />
· P (Xik ∈ Aik ) ·<br />
4.24 Satz (Blockungslemma):<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω ��<br />
Ωi, 1 ≤ i ≤ n unabhängige Zufallsvariablen.<br />
Sei I1,...,Ik eine disjunkte Zerlegung <strong>der</strong> Menge {1,...,n} und setze cj := #Ij. Seien zuletzt<br />
beliebige Abbildungen. Ist Ij =<br />
unabhängig.<br />
gj : × i∈Ij<br />
Ω ′ i<br />
��<br />
′′<br />
Ω j , j = 1,...,k<br />
�<br />
i j<br />
1 ,...,ij �<br />
cj , so sind auch die Zufallsvariablen<br />
Yj := gj<br />
�<br />
X i j<br />
1<br />
,...,X i j cj<br />
�<br />
, j = 1,...,k<br />
�
4 Zufallsvariablen, Verteilungen 55<br />
Beweis:<br />
Es genügt offenbar zu zeigen, dass für eine Abbildung<br />
g : Ω ′ 1 × ... × Ω ′ m<br />
und X := g (X1,...,Xm) die Zufallsvariablen<br />
X,Xm+1,...,Xn<br />
��<br />
Ω ′′ , 1 ≤ m < n,<br />
ebenfalls unabhängig sind. Laut Satz 4.18 haben wir also ∀ xi ∈ Ω ′ i , m + 1 ≤ i ≤ n, ∀ y ∈ Ω′′ zu zeigen:<br />
n�<br />
i=m+1<br />
P (Xi = xi) · P (X = y) = P (X = y,Xm+1 = xm+1,...,Xn = xn) (4.1)<br />
Für y ∈ Ω ′′ berechnen wir dazu zunächst<br />
P (X = y) = P � X −1 ({y}) �<br />
Damit folgt<br />
=<br />
= P �� a ∈ Ω | X1(a) ∈ g −1 ({y}) ,...,Xm(a) ∈ g −1 ({y}) ��<br />
= P (X1,...,Xm) � g −1 ({y}) �<br />
=<br />
�<br />
p (X1,...,Xm) (a)<br />
=<br />
Unabhängigkeit, Lemma 4.23<br />
=<br />
a∈g −1 ({y})<br />
�<br />
a∈g −1 ({y})<br />
P (X1 = a,...,Xm = a)<br />
P (X = y) · P (Xm+1 = xm+1,...,Xn = xn)<br />
�<br />
P (X1 = a,...,Xn = a) · P (Xm+1 = xm+1,...,Xn = xn)<br />
a∈g −1 ({y})<br />
�<br />
a∈g −1 ({y})<br />
P (X1 = a,...,Xm = a,Xm+1 = xm+1,...,Xn = xn)<br />
= P � X1 ∈ g −1 ({y}) ,...,Xm ∈ g −1 ({y}) ,Xm+1 = xm+1,...,Xn = xn<br />
= P (X = y,Xm+1 = xm+1,...,Xn = xn)<br />
Damit ist 4.1 und daher die Behauptung gezeigt.<br />
Beispiel 4.25:<br />
Sind X1,...,Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit Werten<br />
in R, so sind auch die Zufallsvariablen<br />
X 2 1,...,X 2 n<br />
unabhängig. Um das zu zeigen, wende einfach das Blockungslemma mit Ii = {i} , 1 ≤ i ≤ n und<br />
g1(x) = g2(x) = ... = gn(x) = x 2 an.<br />
Genauso folgt dann die Unabhängigkeit von<br />
o<strong>der</strong><br />
usw..<br />
Beispiel 4.26:<br />
|X1|,..., |Xn|<br />
X 2 1, |X2|, |X3| 5 ,...<br />
Seien X1,...,X5 unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit<br />
Werten in R. Dann sind auch die Zufallsvariablen<br />
X1 sin(X4),X2 · exp(X3 · X5)<br />
unabhängig. Um das zu sehen wende das Blockungslemma auf I1 = {1,4} und I2 = {2,3,5} mit g1 (x,y) =<br />
x · sin(y), g2 (x,y,z) = x · exp (y · z) an.<br />
�
56 4 Zufallsvariablen, Verteilungen<br />
4.2 Verteilungen<br />
Sei stets (Ω,P) ein diskreter Wahrscheinlichkeitsraum und X : Ω<br />
4.27 Definition:<br />
��<br />
′ Ω eine Zufallsvariable.<br />
Ist Ω ′ = {x1,...,xn}, so nennen wir X Laplace-verteilt (o<strong>der</strong> auch gleichverteilt), falls<br />
4.28 Definition:<br />
P (x = xk) = 1<br />
n<br />
∀ k = 1,...,n.<br />
Ist Ω ′ = {0,1}, so nennen wir X Bernoulli-verteilt mit Parameter p ∈ [0,1], falls<br />
Wir schreiben dann auch X ∼ B(1,p).<br />
4.29 Definition:<br />
P (X = 1) = p, P (x = 0) = 1 − p.<br />
Ist Ω ′ = {1,...,n}, so nennen wir X Binomial-verteilt mit Parametern p ∈ [0,1] , n ∈ N, falls<br />
� �<br />
n<br />
P (X = k) = p<br />
k<br />
k (1 − p) n−k , k = 0,...,n.<br />
4.30 Satz:<br />
Wir schreiben dann auch X ∼ B(n,p).<br />
Abbildung 6: Binomialverteilungen B(n,p) mit p = 0.1,0.2,0.5,0.8<br />
Seien X1,...,Xn unabhängige Zufallsvariablen auf (Ω,P) und es gelte Xi ∼ B(1,p) für jedes i ∈ {1,...,n}<br />
mit festem p ∈ [0,1]. Dann gilt<br />
X1 + ... + Xn ∼ B(n,p).<br />
Beweis:<br />
Es ist<br />
P (X1 + ... + Xn = k) =<br />
Für jedes (a1,...,an) ∈ {0,1} n mit n�<br />
ai = k gilt<br />
P (X1 = a1,...,Xn = an)<br />
Außerdem ist<br />
�<br />
#<br />
(a1,...,an) ∈ {0,1} n |<br />
i=1<br />
�<br />
(a1 ,...,an)∈{0,1} n<br />
n�<br />
ai =k<br />
i=1<br />
P (X1 = a1,...,Xn = an)<br />
X1,...,Xn unabhängig<br />
= P (X1 = a1) · ... · P (Xn = an) = p k (1 − p) n−k<br />
n�<br />
�<br />
ai = k<br />
i=1<br />
Damit folgt schon die Behauptung.<br />
= #k − elementige Teilmengen einer n − elementigen Menge<br />
=<br />
� �<br />
n<br />
.<br />
k
4 Zufallsvariablen, Verteilungen 57<br />
4.31 Definition:<br />
Ist Ω ′ = N, so nennen wir X geometrisch verteilt mit Parameter p ∈ [0,1], falls<br />
Wir schreiben dann auch X ∼ Geo(p).<br />
4.32 Lemma:<br />
Ist X ∼ Geo(p), so gilt<br />
für jedes k ∈ N.<br />
Beweis:<br />
Es ist<br />
P (X = k) = p · (1 − p) k−1 , k ∈ N.<br />
Abbildung 7: Geometrische Verteilungen Geo(p) mit p = 0.5,0.25,0.1<br />
P (X ≥ k) =<br />
für jedes k ∈ N. Das zeigt die Behauptung.<br />
Bemerkung 4.33:<br />
P (X ≥ k) = (1 − p) k−1<br />
=<br />
∞�<br />
P (X = j)<br />
j=k<br />
∞�<br />
(1 − p) j−1 p<br />
j=k<br />
= p · (1 − p) k−1<br />
= (1 − p) k−1<br />
∞�<br />
(1 − p) j<br />
j=0<br />
� �� �<br />
= 1<br />
p<br />
In diesem Zusammenhang spricht man bei <strong>der</strong> geometrisch verteilten Zufallsvariablen auch von <strong>der</strong><br />
” Überlebenswahrscheinlichkeit“.<br />
Will man etwa modellieren, wie groß die Wahrscheinlichkeit ist, dass ein bestimmtes Bauteil mehr als k<br />
Arbeitsgänge hält, so verwendet man X ∼ Geo(p) mit <strong>der</strong> Wahrscheinlichkeit p, dass das Bauteil einen<br />
festen Arbeitsgang überlebt.<br />
4.34 Lemma:<br />
Ist X ∼ Geo(p) eine Zufallsvariable, so gilt die Gedächtnislosigkeit, nämlich<br />
P (X ≥ k + j | X > j) = P (x ≥ k) ∀ j,k ∈ N.
58 4 Zufallsvariablen, Verteilungen<br />
Beweis:<br />
Seien k,j ∈ N. Da k ≥ 1 ist stets<br />
{X ≥ k + j} ∩ {X > j} = {ω ∈ Ω | X(ω) ≥ k + j} ∩ {ω ∈ Ω | X(ω) ≥ j + 1} = {X ≥ k + j} (4.2)<br />
Damit folgt<br />
Damit ist die Behauptung gezeigt.<br />
Bemerkung 4.35:<br />
P (X ≥ k + j | X > j)<br />
(4.2)<br />
=<br />
Lemma 4.32<br />
=<br />
P (X ≥ k + j)<br />
P (X ≥ j + 1)<br />
(1 − p) k+j−1<br />
(1 − p) j<br />
= (1 − p) k−1<br />
Lemma 4.32<br />
= P (X ≥ k) .<br />
Die Umkehrung dieser Aussage gilt ebenfalls. Vergleiche dazu Übungsblatt 5.<br />
Bemerkung 4.36:<br />
Betrachtet man X ∼ Geo(p) als ” Überlebenswahrscheinlichkeit“, so sagt die Gedächtnislosigkeit genau,<br />
dass gebrauchte Bauteile ebenso gut wie neue Bauteile sind.<br />
4.37 Definition:<br />
Ist Ω ′ = N0, so nennen wir X Poisson-verteilt mit Parameter λ ∈ (0, ∞), falls<br />
Wir schreiben dann auch X ∼ Poi(λ).<br />
Bemerkung 4.38:<br />
P (X = k) = exp (−λ) · λk<br />
,k ∈ N0.<br />
k!<br />
� �� �<br />
=poi λ (k)<br />
Abbildung 8: Poisson-Verteilungen Poi(λ) mit λ = 2,4,10,16<br />
Poisson-verteilte Zufallsvariablen werden empirisch beobachtet bei z.B.<br />
• Anrufen pro Minute in einem Call-Center,<br />
• <strong>der</strong> Anzahl radioaktiver Zerfälle pro Zeitintervall und<br />
• <strong>der</strong> Anzahl von Meteoriteneinschlägen in einem Gebiet pro Zeitintervall.<br />
Allgemein tritt die Poisson-Verteilung dann auf, wenn Realisationen vieler möglicher, aber nur mit kleiner<br />
Wahrscheinlichkeit eintreten<strong>der</strong> Ereignisse gewählt werden.
4 Zufallsvariablen, Verteilungen 59<br />
4.2.1 Eigenschaften <strong>der</strong> Possionverteilung<br />
4.39 Satz (Poisson-Grenzwertsatz):<br />
Ist (Xn)n≥1 eine Folge von B(n,pn) verteilten Zufallsvariablen mit n · pn<br />
Beweis:<br />
Zunächst gilt<br />
P(Xn = k) =<br />
= n · (n − 1) · ... · (n − k + 1)<br />
lim<br />
n→∞ P(Xn = k) = poiλ(k) für k = 0,1,...<br />
� �<br />
n<br />
· p<br />
k<br />
k n · (1 − p) n−k<br />
k!<br />
· 1<br />
nk · (n · pn) k �<br />
·<br />
= n n − 1 n − k + 1<br />
· · ... · ·<br />
n n n<br />
(n · pn) k<br />
·<br />
k!<br />
Berechnen wir nun die Grenzwerte einzeln, so haben wir<br />
n n − 1 n − k + 1<br />
· · ... ·<br />
n n n<br />
�<br />
1 −<br />
n<br />
�<br />
1 −<br />
��<br />
∞ ��<br />
1,<br />
(n · pn) k ��<br />
��<br />
k!<br />
n ∞<br />
n ·<br />
�<br />
pn<br />
n<br />
n<br />
n<br />
(1 − pn) −k ��<br />
��<br />
n ∞<br />
1.<br />
n<br />
��<br />
∞ ��<br />
λ ∈ (0, ∞), so gilt<br />
1 − npn<br />
�n · (1 − pn)<br />
n<br />
−k<br />
n ·<br />
�<br />
pn<br />
n<br />
· (1 − pn)<br />
n<br />
−k<br />
λ k<br />
k! ,<br />
��<br />
∞ ��<br />
exp(−λ),<br />
Das liefert<br />
P(Xn = k) n ��<br />
��<br />
∞ λ<br />
exp(−λ) · k<br />
k!<br />
mit <strong>der</strong> obigen Darstellung und zeigt die Behauptung.<br />
Die folgende Fehlerabschätzung wollen wir nur ohne Beweis angeben:<br />
4.40 Satz (Fehlerabschätzung für die Poisson-Approximation <strong>der</strong> Binomialverteilung):<br />
Sei X ∼ B(n,p) und λ := n · p. Dann gilt für jede Teilmenge A ⊂ {0,1,2,...}:<br />
�<br />
�<br />
�<br />
�<br />
� �<br />
�<br />
�P(x<br />
∈ A) − poi<br />
�<br />
λ(k) �<br />
�<br />
≤ (1 − exp(−np)) · p<br />
Insbeson<strong>der</strong>e ist<br />
Beispiel 4.41:<br />
k∈A<br />
≤ p.<br />
�<br />
�<br />
�<br />
λk �<br />
�<br />
�P(X = k) − exp(−λ) · �<br />
k! � ≤ (1 − exp(−np)) · p ∀k = 0,1,2,...<br />
Sei n = 1000 und p = 10−3 . Dann ist <strong>der</strong> Fehler <strong>der</strong> Approximation:<br />
�<br />
�<br />
�<br />
� � �<br />
�<br />
�P(x<br />
∈ A) − poi<br />
�<br />
λ(k) �<br />
k∈A<br />
� ≤ (1 − exp(1)) · 10−3 ≈ 0.64 · 10 −3 = 0.00064
60 5 Kenngrößen von Verteilungen<br />
5 Kenngrößen von Verteilungen<br />
5.1 Der Erwartungswert<br />
5.1 Lemma:<br />
Sei X : Ω → Ω ′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf<br />
Ω. Dann gilt �<br />
|X(ω)| · P(ω) < ∞ ⇔ �<br />
|x| · P X (x) < ∞<br />
ω∈Ω<br />
x∈Ω ′<br />
und in diesem Falle �<br />
X(ω) · P(ω) = �<br />
x · P(X = x).<br />
Beweis:<br />
Wir berechnen<br />
ω∈Ω<br />
x∈Ω ′<br />
�<br />
X(ω) · P(ω) = �<br />
ω∈Ω<br />
x∈Ω ′<br />
= �<br />
x∈Ω ′<br />
�<br />
ω∈Ω<br />
X(ω)=x<br />
�<br />
ω∈Ω<br />
X(ω)=x<br />
= �<br />
x · �<br />
x∈Ω ′<br />
ω∈Ω<br />
X(ω)=x<br />
X(ω) · P(ω)<br />
x · P(ω)<br />
P(ω)<br />
= �<br />
x · P(X = x).<br />
Die gleiche Rechnung mit |X(ω)| bzw. |x| zeigt, dass die ” < ∞“-Bedingungen äquivalent sind.<br />
5.2 Definition:<br />
x∈Ω ′<br />
Sei X : Ω → Ω ′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf<br />
Ω. Wir definieren den Erwartungswert E(X) von X durch<br />
E(X) := �<br />
X(ω) · P(ω), falls �<br />
|X(ω)| · P(ω) < ∞ (5.1)<br />
Bemerkung 5.3:<br />
ω∈Ω<br />
ω∈Ω<br />
= �<br />
x · P(X = x), falls �<br />
|x| · P X (x) < ∞. (5.2)<br />
x∈Ω ′<br />
(5.2) zeigt, dass E(X) nur von <strong>der</strong> Verteilung P X von X abhängt. E(X) ist in diesem Sinne also eine<br />
” Kenngröße“ <strong>der</strong> Verteilung von X.<br />
Bemerkung 5.4:<br />
x∈Ω ′<br />
Die gefor<strong>der</strong>te (absolute) Konvergenz stellt sicher, dass E(X) wohldefiniert ist.<br />
Bemerkung 5.5:<br />
Ist X ≥ 0 (d.h. X nimmt nur nicht-negative Werte an), dann kann man in (5.1) und (5.2) auf die<br />
” < ∞“-For<strong>der</strong>ung verzichten und lässt auch E(X) = ∞ zu.<br />
5.1.1 Erwartungswerte einiger Verteilungen<br />
Beispiel 5.6:<br />
Sei X Laplace-verteilt auf Ω ′ = {x1,...,xN } ⊂ R. Dann gilt<br />
E(X) =<br />
N�<br />
i=1<br />
xi · P(X = xi) = 1<br />
N ·<br />
Ein Spezialfall ist {x1,...,xN } = {1,...,N}. Dann ist<br />
E(X) = 1<br />
N<br />
N�<br />
i=1<br />
i = 1<br />
N<br />
N�<br />
i=1<br />
xi, da P(X = xi) = 1<br />
N .<br />
· N(N + 1)<br />
2<br />
Bei einem herkömmlichen Würfel ist demnach E(X) = 3.5.<br />
= N + 1<br />
.<br />
2
5 Kenngrößen von Verteilungen 61<br />
Beispiel 5.7:<br />
Sei X ∼ B(1,p) eine Bernoulli-verteilte Zufallsvariable mit Ω ′ = {0,1} und P(X = 1) = p. Dann ist<br />
E(X) = 0 · (1 − p) + p = p.<br />
Insbeson<strong>der</strong>e liefert das für die Indikatorvariable X = 1A einer Teilmenge A ⊂ Ω und eine Wahrscheinlichkeitsverteilung<br />
P auf Ω, dass X ∼ B(1,p) mit p = P(A), also E(X) = P(A).<br />
Damit ist für das Würfeln einer geraden Zahl (also A = {2,4,6} ⊂ {1,...,6}) <strong>der</strong> Erwartungswert<br />
was <strong>der</strong> Intuition entspricht.<br />
Beispiel 5.8:<br />
E(1A) = P(A) = 1<br />
2 ,<br />
Sei X ∼ B(n,p) eine Binomial-verteilte Zufallsvariable. Dann bereitet uns die Berechnung von<br />
E(X) =<br />
n�<br />
k=0<br />
�<br />
k ·<br />
� �<br />
n<br />
· p<br />
k<br />
k · (1 − p) n−k<br />
�<br />
einige Schwierigkeiten. Wir werden weiter unten im Beispiel 5.15 eine bessere Methode kennenlernen.<br />
Beispiel 5.9:<br />
Sei X ∼ Poi(λ) eine Poisson-verteilte Zufallsvariable. Dann ist<br />
5.10 Hilfssatz:<br />
E(X) =<br />
∞�<br />
k=0<br />
k · exp(−λ) · λk<br />
k!<br />
= exp(−λ) · λ ·<br />
= exp(−λ) · λ ·<br />
∞�<br />
k=1<br />
∞�<br />
k=0<br />
λ k−1<br />
(k − 1)!<br />
λ k<br />
k!<br />
= exp(−λ) · λ · exp(λ)<br />
= λ.<br />
Sei X eine diskrete Zufallsvariable auf (Ω,P) mit Werten in N0. Dann gilt<br />
Beweis:<br />
Nach 5.1 gilt<br />
E (X) =<br />
n=0<br />
∞�<br />
P (X ≥ n) . (5.3)<br />
n=1<br />
∞�<br />
∞�<br />
E (X) = n · P (X = n) = n · P (X = n) ,<br />
und diese Summe konvergiert absolut. Daher können wir Umordnen und erhalten so<br />
was die Behauptung zeigt.<br />
Beispiel 5.11:<br />
E (X) =<br />
n=1 k=n<br />
n=1<br />
∞� ∞�<br />
∞�<br />
P (X = k) = P (X ≥ n) ,<br />
Sei X ∼ Geo(p) eine geometrisch verteilte Zufallsvariable. Dann ist E(X) = 1<br />
p .<br />
n=1
62 5 Kenngrößen von Verteilungen<br />
Beweis:<br />
Anwenden von Hilfssatz 5.10 liefert<br />
E (X)<br />
womit die Behauptung schon gezeigt ist.<br />
(5.3)<br />
=<br />
Lemma 4.32<br />
=<br />
=<br />
=<br />
=<br />
∞�<br />
P (X ≥ n)<br />
n=1<br />
∞�<br />
(1 − p) n−1<br />
n=1<br />
∞�<br />
(1 − p) n<br />
n=0<br />
1<br />
1 − (1 − p)<br />
1<br />
p ,<br />
Das heißt beim Würfeln mit X =“Warten auf die erste 6“:<br />
E(X) = 1<br />
1<br />
6<br />
5.1.2 Eigenschaften des Erwartungswertes<br />
5.12 Satz (Transformationsformel):<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum, X eine diskrete Zufallsvariable mit Werten in Ω ′ und<br />
g := Ω ′ → R eine Abbildung mit �<br />
|g(x)| · P(X = x) < ∞.<br />
Dann ist<br />
Beweis:<br />
Für die Verteilung von Y = g ◦ X gilt:<br />
Damit erhalten wir<br />
x∈Ω ′<br />
= 6.<br />
E(g(X)) = �<br />
g(x) · P(X = x).<br />
x∈Ω ′<br />
P(Y = y) = P(g ◦ X = y)<br />
= P ({ω | g ◦ X(ω) = y})<br />
⎛<br />
⎞<br />
=<br />
⎜<br />
�<br />
⎟<br />
P ⎝ {ω | X(ω) = x} ⎠<br />
= �<br />
E(g(X)) = E(Y )<br />
= �<br />
x∈Ω<br />
g(x)=y<br />
y∈Y (Ω)<br />
= �<br />
y∈Y (Ω)<br />
= �<br />
x∈Ω<br />
g(x)=y<br />
P(X = x)<br />
y · P(Y = y)<br />
y ·<br />
�<br />
x∈g −1 ({y})<br />
�<br />
y∈Y (Ω) x∈g−1 ({y})<br />
= �<br />
�<br />
y∈Y (Ω) x∈g−1 ({y})<br />
= �<br />
g(x) · P(X = x)<br />
x∈Ω ′<br />
P(X = x)<br />
y · P(X = x)<br />
g(x) · P(X = x)<br />
Die selbe Rechnung mit Beträgen zeigt, dass <strong>der</strong> Erwartungswert E (g(X)) im definierten Sinne existiert.
5 Kenngrößen von Verteilungen 63<br />
Beispiel 5.13:<br />
Sei g(x) = x k . Dann heißt<br />
E(X k ) = �<br />
x k P(X = x) k = 1,2,...<br />
x∈Ω ′<br />
das k-te Moment von X, sofern dieser Ausdruck existiert. Insbeson<strong>der</strong>e ist das ” 1.Moment von X“<br />
gleich dem Erwartungswert von X.<br />
5.14 Satz (Linearität und Monotonie des Erwartungswertes):<br />
Seinen X,Y Zufallsvariablen auf (Ω,P), s.d. E(X) und E(Y ) existieren. Sei außerdem a ∈ R. Dann<br />
gelten die folgenden Rechenregeln:<br />
(1) E(X + Y ) = E(X) + E(Y )<br />
(2) E(aX) = a · E(X)<br />
(3) X ≥ Y ⇒ E(X) ≥ E(Y ) (d.h.X(ω) ≥ Y (ω)∀ω)<br />
Beweis:<br />
(1) Per Definition gilt<br />
E(X + Y ) = �<br />
(X + Y )(ω) · P(ω)<br />
ω∈Ω<br />
= �<br />
(X(ω) + Y (ω)) · P(ω)<br />
ω∈Ω<br />
= �<br />
X(ω) · P(ω) + �<br />
Y (ω) · P(ω)<br />
ω∈Ω<br />
= E(X) + E(Y ).<br />
ω∈Ω<br />
Die gleiche Rechnung mit Beträgen zeigt, dass E(X + Y ) existiert.<br />
(2) Hier ist<br />
(3) Zuletzt berechnet man<br />
Damit ist <strong>der</strong> Satz bewiesen.<br />
Beispiel 5.15:<br />
E(aX) = �<br />
a · X(ω) · P(ω) = a · �<br />
X(ω) · P(ω) = a · E(X).<br />
ω∈Ω<br />
ω∈Ω<br />
E(X) = �<br />
X(ω) · P(ω) ≥ �<br />
Y (ω) · P(ω) = E(Y ).<br />
ω∈Ω<br />
Sei X ∼ B(n,p) eine Binomial-verteilte Zufallsvariable und seien X1,X2,...,Xn unabhängig nach B(1,p)<br />
verteilt. Nach Satz 4.30 ist dann X1 +X2 +...+Xn ∼ B(n,p), das heißt X und X1 +X2 +...+Xn haben<br />
die gleiche Verteilung. Folglich gilt<br />
E(X) = E(X1 + X2 + ... + Xn) Linearität<br />
= E(X1) + E(X2) + ... + E(Xn) = n · p,<br />
ω∈Ω<br />
da E(X1) = ... = E(Xn) = p für Bernoulli-verteilte X1,...,Xn.<br />
Beispiel 5.16:<br />
Sei X(a1,a2,...,an) gleich <strong>der</strong> Anzahl <strong>der</strong> Fixpunkte <strong>der</strong> Permutation a1,a2,...,an von 1,2,...,n.<br />
Für n = 4 gilt dann z.B. X(1,4,3,2) = 2.<br />
Allgemein schreiben wir:<br />
X(a1,a2,...,an) = #{i | ai = i}<br />
Sei P die Laplace-Verteilung auf dem Raum aller Permutationen. Für Ai = {(a1,...,an) | ai = i} gilt<br />
dann<br />
n�<br />
X = 1Ai .<br />
Mit Hilfe <strong>der</strong> Linearität können wir zeigen:<br />
�<br />
n�<br />
�<br />
E(X) = E =<br />
i=1<br />
1Ai<br />
n�<br />
i=1<br />
i=1<br />
E(1Ai ) =<br />
n�<br />
P(Ai) =<br />
i=1<br />
n�<br />
i=1<br />
1<br />
= 1.<br />
n
64 5 Kenngrößen von Verteilungen<br />
Beispiel 5.17 (Sammlerproblem):<br />
Wir ziehen aus einer Urne mit n Kugeln, welche mit 1,...,n nummeriert sind, mit Zurücklegen bis jede<br />
Kugel mindestens einmal gezogen wurde. Wir wollen nun die benötigte Anzahl X von Ziehungen modellieren<br />
und den Erwartungswert E(X) bestimmen.<br />
Sei X = X0 + X1 + X2 + ... + Xn−1 wobei Xi ∼ Geo( n−i<br />
n ) und E(Xi) = n<br />
n−i nach Beispiel 5.11.<br />
(Dabei beschreibt Xi das Warten auf den Erfolg eine neue Kugel wird gezogen“ nachdem bereits i ver-<br />
”<br />
schiedene Kugeln gezogen wurden, insbeson<strong>der</strong>e X0 ≡ 1)<br />
Wird z.B. Die Folge 2,2,3,2,3,4,2,1 aus einer Urne mit 4 Kugeln gezogen, so ist X = 8 und X0 = 1,X1 =<br />
2,X2 = 3,X4 = 2.<br />
Man berechnet<br />
E(X) = E(X0) + E(X1) + ... + E(Xn − 1)<br />
= n n<br />
+<br />
n n − 1<br />
= n ·<br />
n�<br />
i=1<br />
1<br />
i<br />
≈ n · ln(n).<br />
n n<br />
+ + ... +<br />
n − 2 1<br />
Damit können wir den Erwartungswert für n = 3,10,100 und 10000 berechnen:<br />
5.1.3 Produktformel<br />
n E(X)<br />
3 5.5<br />
10 29.3<br />
100 518.7<br />
10000 97876.1<br />
Seien X und Y zwei reelle, diskrete Zufallsvariablen. Man kann sich fragen, ob stets<br />
gilt.<br />
Beispiel 5.18:<br />
Sei X ∼ B(1,p) und Y = X. Dann haben wir<br />
E (X · Y ) = E (X) · E (Y ) (5.4)<br />
E (X · Y ) = E � X 2� = E (X) = p,<br />
da X 2 = X, denn schließlich nimmt X nur Werte in {0,1} an. An<strong>der</strong>erseits ist aber<br />
E (X) · E (Y ) = (E (X)) 2 = p 2 .<br />
Für p ∈ (0,1) gilt aber p 2 �= p, womit (5.4) im Allgemeinen also falsch ist.<br />
5.19 Satz (Produktformel für unabhängige Zufallsvariablen):<br />
Seien X,Y unabhängige Zufallsvariablen auf (Ω,P) mit existenten Erwartungswerten E(X), E(Y ). Dann<br />
gilt<br />
E (X · Y ) = E(X) · E(Y ).
5 Kenngrößen von Verteilungen 65<br />
Beweis:<br />
Mittels <strong>der</strong> ersten Definition des Erwartungswerts (5.1) berechnet man<br />
�<br />
E (X · Y ) = (X · Y ) (ω)P ({ω})<br />
=<br />
=<br />
=<br />
=<br />
X,Y unabhängig<br />
=<br />
=<br />
ω∈Ω<br />
�<br />
X(ω) · Y (ω) · P ({ω})<br />
ω∈Ω<br />
�<br />
�<br />
�<br />
x∈X(Ω) y∈Y (Ω) ω∈Ω<br />
X(ω)=x,Y (ω)=y<br />
�<br />
�<br />
x∈X(Ω) y∈Y (Ω)<br />
�<br />
�<br />
x∈X(Ω) y∈Y (Ω)<br />
�<br />
�<br />
x∈X(Ω) y∈Y (Ω)<br />
⎛<br />
⎝ �<br />
x∈X(Ω)<br />
x · y<br />
X (ω) · Y (ω) ·P ({ω})<br />
� �� �<br />
=x·y<br />
�<br />
P ({ω})<br />
ω∈Ω<br />
X(ω)=x,Y (ω)=y<br />
P(X = x,Y = y)<br />
P(X = x) · P(Y = y)<br />
⎞ ⎛<br />
xP(X = x) ⎠ · ⎝ �<br />
y∈Y (Ω)<br />
⎞<br />
yP (Y = y) ⎠ ,<br />
was nach <strong>der</strong> zweiten Definition (5.2) des Erwartungswertes genau E(X) · E(Y ) entspricht.<br />
Um die Existenz des Erwartungswertes E(X · Y ) zu zeigen, führt man zunächst die selbe Rechnung mit<br />
Beträgen durch.<br />
Beispiel 5.20:<br />
Wir betrachten zwei faire Würfel und die Zufallsvariablen X1 :=“erster Wurf“, X2 :=“zweiter Wurf“.<br />
Mit obigem Satz gilt dann<br />
5.2 Varianzen<br />
5.21 Definition:<br />
E (X · Y ) = E (X) · E (Y ) =<br />
� �2 7<br />
.<br />
2<br />
Sei X eine reelle Zufallsvariable mit E � X 2� < ∞. Dann wird die Varianz von X definiert durch<br />
�<br />
V (X) := E (X − E (X)) 2�<br />
.<br />
Ebenso definiert man die Standardabweichung σX von X als<br />
Bemerkung 5.22:<br />
σX := � V (X).<br />
(1) Da E � X 2� < ∞ ist und für jede reelle Zahl x ∈ R auch |x| ≤ 1 + x 2 gilt, ist auch E (|X|) < ∞<br />
und daher existiert E (X) unter <strong>der</strong> Voraussetzung E � X 2� < ∞. Insbeson<strong>der</strong>e ist V (X) also<br />
wohldefiniert.<br />
(2) Da (X − E(X)) 2 ≥ gilt, muss auch V (X) ≥ 0 sein und σX ist wohldefiniert.<br />
(3) X − E(X) geht aus X durch ” Zentrieren“ hervor, d.h.<br />
E (X − E(X)) = E(X) − E(E(X)) = E(X) − E(X) = 0,<br />
da <strong>der</strong> Erwartungswert E(E(X)) <strong>der</strong> festen Zahl E(X) (d.h. <strong>der</strong> konstanten Zufallsvariable ω ↦→<br />
E(X)) natürlich wie<strong>der</strong> E(X) selbst ist.<br />
Bemerkung 5.23:<br />
Die Varianz ist die mittlere quadratische Abweichung von X zu E(X).
66 5 Kenngrößen von Verteilungen<br />
Bemerkung 5.24:<br />
Nach <strong>der</strong> Transformationsformel für den Erwartungswert (Satz 5.12) gilt mit <strong>der</strong> Funktion g(x) :=<br />
(x − E(X)) 2 , x ∈ R:<br />
V (X) = E(g(X)) Transformationsformel �<br />
=<br />
(x − E(X)) 2 · P (X = x). (5.5)<br />
Beispiel 5.25:<br />
x∈X(Ω)<br />
Wir betrachten das einmalige Würfeln mit einem fairen Würfen und definieren die Zufallsvariable X als<br />
die Augenzahl. Dann haben wir schon berechnet, dass E(X) = 7<br />
2 , und daher ist die Varianz von X nach<br />
obiger Bemerkung gegeben als<br />
6�<br />
�<br />
V (X) = x − 7<br />
�2 1 35<br />
=<br />
2 6 12 .<br />
5.26 Definition:<br />
x=1<br />
Sei k ∈ N und X eine reelle Zufallsvariable auf (Ω,P). Falls<br />
�<br />
E (X − E(X)) k�<br />
existiert, so nennen wir diese Zahl das k-te zentrale Moment von X.<br />
Bemerkung 5.27:<br />
Die Darstellung <strong>der</strong> Varianz mittels <strong>der</strong> Transformationsformel (5.5) zeigt, dass V (X) allein durch die<br />
Verteilung von X festgelegt ist. Es handelt sich also wie beim Erwartungswert auch um eine ” Kenngröße“<br />
<strong>der</strong> Verteilung.<br />
5.28 Definition:<br />
Seien X,Y reelle Zufallsvariablen mit E � X 2� < ∞, E � Y 2� < ∞. Dann wird die Kovarianz von X und<br />
Y definiert durch<br />
CoV (X,Y ) = E ((X − E(X)) · (Y − E(Y ))).<br />
Bemerkung 5.29:<br />
Für eine reelle Zufallsvariable gilt dann<br />
CoV(X,X) = V (X).<br />
5.30 Satz (Rechenregeln für die Varianz):<br />
Seien X,Y und Xi für 1 ≤ i ≤ n reelle Zufallsvariablen mit E � X2� < ∞, E � Y 2� < ∞ und E � X2 �<br />
i < ∞,<br />
1 ≤ i ≤ n. Seien außerdem a,b ∈ R. Dann gelten die folgenden Rechenregeln<br />
(V1) V (X) = E � X 2� − (E (X)) 2 , insbeson<strong>der</strong>e ist V (X) < ∞.<br />
(V2) V (aX + b) = a 2 · V (X).<br />
(V3) CoV (X,Y ) = E (X · Y ) − E (X) · E (Y ).<br />
(V4) Für Summen gilt<br />
V<br />
� n�<br />
i=1<br />
Xi<br />
�<br />
=<br />
n�<br />
V (Xi) −<br />
i=1<br />
(V5) Sind X1,...,Xn unabhängig, so gilt sogar<br />
�<br />
n�<br />
V<br />
Beweis:<br />
i=1<br />
Xi<br />
�<br />
=<br />
n�<br />
CoV (Xi,Xj) .<br />
i,j=1<br />
i�=j<br />
n�<br />
V (Xi) .<br />
(V1) Mittels <strong>der</strong> Linearität des Erwartungswerts hat man<br />
�<br />
V (X) = E (X − E (X)) 2�<br />
�<br />
= E X 2 − 2E (X) · X + (E (X)) 2�<br />
= E � X 2� �<br />
− 2E (X) · E (E (X)) + E (E (X)) 2�<br />
i=1<br />
= E � X 2� − 2(E (X)) 2 + (E (X)) 2<br />
= E � X 2� − (E (X)) 2 .
5 Kenngrößen von Verteilungen 67<br />
Dabei haben wir wie<strong>der</strong> benutzt, dass <strong>der</strong> Erwartungswert einer konstanten Zufallsvariablen natürlich<br />
<strong>der</strong> Wert <strong>der</strong> Zufallsvariablen selbst ist.<br />
(V2) Es ist<br />
(V3) Man berechnet<br />
V (aX + b) =<br />
�<br />
E ((aX + b) − E (aX + b)) 2�<br />
=<br />
�<br />
E (aX + b − aE (X) − E (b)) 2�<br />
=<br />
�<br />
E a 2 (X − E(X)) 2�<br />
= a 2 �<br />
E (X − E(X)) 2�<br />
= a 2 V (X).<br />
CoV (X,Y ) = E ((X − E(X)) · (Y − E(Y )))<br />
= E (X · Y − X · E(Y ) − Y · E(X) + E (X) · E (Y ))<br />
= E (X · Y ) − E (X) · E(E(Y )) − E(Y ) · E(E(X)) + E(E(X)) · E(E(Y ))<br />
= E (X · Y ) − E (X) · E (Y ) − E (Y ) · E (X) + E (X) · E (Y )<br />
= E (X · Y ) − E (X) · E (Y ) .<br />
Auch hier haben wir wie<strong>der</strong> benutzt, dass <strong>der</strong> Erwartungswert einer konstanten Zufallsvariablen<br />
natürlich <strong>der</strong> Wert <strong>der</strong> Zufallsvariablen selbst ist.<br />
(V4) Wir setzen Zi := Xi − E (Xi) für 1 ≤ i ≤ n. Dann ist<br />
n�<br />
�<br />
n�<br />
�<br />
n�<br />
Xi − E = (Xi − E (Xi)) =<br />
womit<br />
folgt.<br />
V<br />
i=1<br />
� n�<br />
i=1<br />
Xi<br />
�<br />
i=1<br />
Xi<br />
i=1<br />
n�<br />
Zi, (5.6)<br />
i=1<br />
⎛�<br />
n�<br />
�<br />
n�<br />
= E ⎝ Xi − E<br />
(5.6)<br />
i=1<br />
⎛�<br />
n�<br />
= E ⎝<br />
i=1<br />
⎛�<br />
n�<br />
= E ⎝<br />
= E ⎝<br />
=<br />
=<br />
Zi=Xi−E(Xi)<br />
=<br />
⎛<br />
i=1<br />
n�<br />
i,j=1<br />
Zi<br />
Zi<br />
� 2 ⎞<br />
⎠<br />
i=1<br />
� ⎛<br />
n�<br />
· ⎝<br />
Zi · Zj<br />
n�<br />
E (Zi · Zj)<br />
i,j=1<br />
n�<br />
i=1<br />
E � Z 2� i +<br />
n�<br />
V (Xi) +<br />
i=1<br />
⎞<br />
⎠<br />
j=1<br />
Zj<br />
Xi<br />
�� 2 ⎞<br />
⎞⎞<br />
⎠⎠<br />
n�<br />
E (Zi · Zj)<br />
i,j=1<br />
i�=j<br />
⎠<br />
n�<br />
CoV (Xi,Xj)<br />
(V5) Nach Satz 5.19 gilt wegen <strong>der</strong> Unabhängigkeit von X1,...,Xn für alle Paare 1 ≤ i,j ≤ n, i �= j:<br />
i,j=1<br />
i�=j<br />
E (Xi · Xj) = E (Xi) · E (Xj) .<br />
Mit Regel (V3) ist also CoV (Xi,Xj) = 0 falls i �= j. Damit folgt (V5) aus (V4).
68 5 Kenngrößen von Verteilungen<br />
Bemerkung 5.31:<br />
Im Beweis von (V5) haben wir gezeigt, dass für unabhängige, reelle Zufallsvariablen X,Y stets<br />
CoV (X,Y ) = 0<br />
gilt. Die Umkehrung dagegen ist im allgemeinen falsch, wie das folgende Beispiel zeigt:<br />
Beispiel 5.32:<br />
Betrachte eine Zufallsvariable X mit Werten in {−N,...,N} auf einem diskreten Wahrscheinlichkeitsraum<br />
(Ω,P). Wir nehmen an, dass<br />
und 0 < P (X = 0) < 1 gilt.<br />
P (X = n) = P (X = −n) ∀ n ∈ {−N,...,N}<br />
Dann gilt CoV � X,X 2� = 0, aber X und X 2 sind nicht unabhängig.<br />
Beweis:<br />
Zunächst ist<br />
E (X)<br />
(5.1)<br />
=<br />
N�<br />
k=−N<br />
k · P (X = k)<br />
N�<br />
N�<br />
= 0 · P (X = 0) + k · P (X = k) − k · P (X = −k)<br />
=<br />
N�<br />
k=1<br />
k=1<br />
k · (P(X = k) − P(X = −k))<br />
� �� �<br />
=0 nach Voraussetzung<br />
= 0. (5.7)<br />
Genauso folgt mit <strong>der</strong> Transformationsformel (Satz 5.12) für g(x) = x 3 , dass<br />
E � X 3� (5.1)<br />
=<br />
N�<br />
k=−N<br />
k 3 · P (X = k)<br />
k=1<br />
k=1<br />
= 0 3 N�<br />
· P (X = 0) + k 3 N�<br />
· P (X = k) − k 3 · P (X = −k)<br />
=<br />
N�<br />
k=1<br />
Damit folgt nach Definition <strong>der</strong> Kovarianz<br />
CoV � X,X 2�<br />
k 3 · (P(X = k) − P(X = −k))<br />
� �� �<br />
=0 nach Voraussetzung<br />
= 0. (5.8)<br />
= E<br />
k=1<br />
��X − E(X)<br />
� �� �<br />
=0 nach (5.7)<br />
�� � � ��<br />
2 2<br />
X − E X<br />
= E � X 3 − X · E � X 2��<br />
= E � X 3� − E (X) · E � X 2�<br />
(5.7) & (5.8)<br />
= 0.<br />
Bleibt zu zeigen, dass X und X 2 nicht unabhängig sind. Dazu nehmen wir an, X und X 2 wären unabhängig.<br />
Dann gilt insbeson<strong>der</strong>e<br />
P (X,X2 ) (0,0) = P X (0) · P X 2<br />
(0)
5 Kenngrößen von Verteilungen 69<br />
Beachten wir nun, dass X 2 = 0 ⇔ X = 0, so folgt<br />
P (X = 0) = P (X = 0,X = 0)<br />
= P � X = 0,X 2 = 0 �<br />
= P (X,X2 ) (0,0)<br />
= P X (0) · P X2<br />
(0)<br />
= P (X = 0) · P � X 2 = 0 �<br />
= (P (X = 0)) 2 ,<br />
was ein Wi<strong>der</strong>spruch zu P (X = 0) ∈ (0,1) ist. Es folgt die Behauptung.<br />
5.33 Definition:<br />
Seien X,Y reelle Zufallsvariablen. Wir nennen X und Y unkorreliert, falls<br />
gilt.<br />
Es gilt also:<br />
CoV (X,Y ) = 0<br />
unabhängig ⇒<br />
�⇐ unkorreliert<br />
5.2.1 Varianzen einiger diskreter Verteilungen<br />
Beispiel 5.34:<br />
Sei X ∼ B(1,p) für p ∈ [0,1] eine reelle Zufallsvariable. Dann ist E(X) = p wie schon berechnet und<br />
daher gilt wegen X 2 = X (X hat wie<strong>der</strong> nur Werte in {0,1}):<br />
V (X)<br />
V (X) = E � X 2� − (E (X)) 2<br />
= E (X) − (E (X)) 2<br />
= p − p 2<br />
= p · (1 − p) .<br />
0 1<br />
Abbildung 9: Die Varianz einer Bernoulli-verteilten Zufallsvariablen X ∼ B(1,p) in Abhängigkeit von<br />
p ∈ [0,1]<br />
Beispiel 5.35:<br />
Sei X ∼ B(n,p) mit n ∈ N und p ∈ [0,1]. Seien außerdem X1,...,Xn ∼ B(1,p) unabhängig. Nach Satz<br />
4.30 gilt dann<br />
X1 + ... + Xn ∼ B(n,p) ,<br />
weshalb X und X1 + ... + Xn die gleiche Verteilung besitzen. Da die Varianz nur von <strong>der</strong> Verteilung<br />
abhängt, gilt also<br />
�<br />
n�<br />
�<br />
V (X) = V<br />
(V5)<br />
i=1<br />
Xi<br />
n�<br />
V (Xi)<br />
i=1<br />
Beispiel 5.34<br />
= np (1 − p)<br />
p
70 5 Kenngrößen von Verteilungen<br />
Beispiel 5.36:<br />
Sei X ∼ Poi (λ) für ein 0 < λ < ∞. Dann ist<br />
P (X = k) = exp (−λ) · λk<br />
k!<br />
für k ∈ N<br />
und es gilt E (X) = λ wie schon berechnet. Um die Varianz von X zu bestimmen nutzen wir (V1) und<br />
haben so<br />
V (X) = E � X 2� − (E(X)) 2 = E � X 2� − λ 2 .<br />
Zur Berechnung von E � X 2� nutzen wir den folgenden Trick:<br />
E � X 2� = E � X 2 − X � + E (X) .<br />
Dann wende die Transformationsformel (Satz 5.12) mit g(k) := k2 −k auf E(X2 −X) = E(g(X)) an und<br />
erhalte so<br />
E � X 2 − X �<br />
= E (g(X))<br />
Das ergibt zusammen<br />
Beispiel 5.37:<br />
Transformationsformel<br />
=<br />
=<br />
=<br />
∞� � � 2<br />
k − k P (X = k)<br />
k=0<br />
∞�<br />
k=0<br />
∞�<br />
k=2<br />
= exp (−λ)<br />
k (k − 1) exp (−λ) λk<br />
k!<br />
k (k − 1) exp (−λ) λk<br />
k!<br />
∞�<br />
k=2<br />
= λ 2 exp (−λ)<br />
λ k<br />
(k − 2)!<br />
∞�<br />
k=0<br />
λ k<br />
k!<br />
= λ 2 exp (−λ) exp(λ)<br />
= λ 2 .<br />
V (X) = E � X 2 − X � + E (X) − (E (X)) 2 = λ 2 + λ − λ 2 = λ<br />
Sei X ∼ Geo(p) für ein p ∈ [0,1]. Wir haben schon gesehen, dass dann E(X) = 1<br />
p gilt. Um die Varianz<br />
zu berechnen, nutzen wir das folgende<br />
5.38 Lemma:<br />
Ist X eine Zufallsvariable mit Werten in N, so gilt<br />
Beweis:<br />
E � X 2� =<br />
∞�<br />
(2n − 1) P (X ≥ n) .<br />
Mit <strong>der</strong> Transformationsformel (Satz 5.12) für g(k) := k 2 folgt direkt<br />
n=0<br />
n=1<br />
∞�<br />
E (X) = n 2 ∞�<br />
P (X = n) = n 2 P (X = n) .<br />
n=1
5 Kenngrößen von Verteilungen 71<br />
Diese Reihe ist absolut konvergent, daher kann sie in <strong>der</strong> folgenden Form umgeordnet werden:<br />
∞�<br />
n 2 P (X = n) = 1 · P (X = 1) + 4 · P (X = 2) + 9 · P (X = 3) + 16 · P (X = 4) + ...<br />
n=1<br />
= (P (X = 1) + P (X = 2) + ...) + 3P (X = 2) + 8P (X = 3) + 15P (X = 4) + ...<br />
= (P (X = 1) + P (X = 2) + ...) + 3(P (X = 2) + P (X = 3) + P (X = 4) + ...)<br />
+5P (X = 3) + 12P (X = 4) + ...<br />
= (P (X = 1) + P (X = 2) + ...) + 3(P (X = 2) + P (X = 3) + P (X = 4) + ...)<br />
=<br />
Es folgt die Behauptung.<br />
+5(P (X = 3) + P (X = 4) + ...) + 7P (X = 4) + ...<br />
∞�<br />
(2n − 1) · P (X ≥ n) .<br />
n=1<br />
Außerdem gilt laut Lemma 4.32 P (X ≥ k) = (1 − p) k−1 , womit dann<br />
E � X 2� = 1<br />
p<br />
= 1<br />
p<br />
∞�<br />
p(2n − 1) (1 − p) n−1<br />
n=1<br />
∞�<br />
(2n − 1) P (X = n)<br />
n=1<br />
gilt. Jetzt wenden wir die Transformationsformel (Satz 5.12) mit g(k) = 2k −1 rückwärts an und erhalten<br />
so<br />
Für die Varianz gilt damit<br />
E � X 2� = 1<br />
E ((2X − 1))<br />
p<br />
= 1 1<br />
2E(X) −<br />
p p<br />
= 2 1<br />
−<br />
p2 p<br />
= 2 − p<br />
p 2 .<br />
V (X) (V1)<br />
= E � X 2� − (E (X)) 2 =<br />
2 − p<br />
p<br />
1 1 − p<br />
− = 2 p2 p2 .
72 6 Wahrscheinlichkeitsungleichungen und das SGGZ<br />
6 Wahrscheinlichkeitsungleichungen und das SGGZ<br />
6.1 Das schwache Gesetz großer Zahlen (SGGZ)<br />
6.1 Satz (Markov-Ungleichung):<br />
Sei X ≥ 0 eine diskrete Zufallsvariable (d.h. X nimmt nur nicht-negative reelle Werte an) auf (Ω,P).<br />
Dann gilt für jedes reelle a > 0:<br />
Beweis:<br />
Es gilt<br />
was die Behauptung zeigt.<br />
6.2 Satz (Tschebyschow-Ungleichung):<br />
P (X ≥ a) ≤ E(X)<br />
a<br />
P (X ≥ a) = �<br />
≤<br />
≤<br />
x∈X(Ω),x≥a<br />
�<br />
x∈X(Ω),x≥a<br />
�<br />
x∈X(Ω)<br />
= 1<br />
a E(X),<br />
P (X = x)<br />
x<br />
P (X = x)<br />
a<br />
x<br />
P (X = x)<br />
a<br />
Sei X eine reelle, diskrete Zufallsvariable mit E � X 2� < ∞. Dann gilt für jedes reelle a > 0:<br />
Beweis:<br />
P (|X − E(X)| ≥ a) ≤<br />
Da sowohl |X − E(X)| als auch a positive Zahlen sind, ist<br />
Damit gilt<br />
womit die Behauptung gezeigt ist.<br />
Folgerung 6.3:<br />
V (X)<br />
a 2<br />
(6.1)<br />
(6.2)<br />
|X − E(X)| ≥ a ⇔ (X − E(X)) ≥ a 2 . (6.3)<br />
P (|X − E(X)| ≥ a)<br />
�<br />
(6.3)<br />
= P (X − E(X)) 2 ≥ a 2�<br />
(6.1)<br />
≤<br />
=<br />
E<br />
�<br />
(X − E(X)) 2�<br />
V (X)<br />
a 2 ,<br />
Sei X eine reelle, diskrete Zufallsvariable mit E � X 2� < ∞. Dann gilt für jedes reelle c > 0:<br />
Beweis:<br />
P (|X − E(X)| ≥ cσX) ≤ 1<br />
c 2<br />
Wende (6.2) mit a = cσX an und nutze σX = � V (X).<br />
Bemerkung 6.4:<br />
Für jede reelle, diskrete Zufallsvariable X mit E � X 2� < ∞ gilt also<br />
usw.<br />
a 2<br />
P (|X − E(X)| ≥ 2σX) ≤ 1<br />
4<br />
P (|X − E(X)| ≥ 3σX) ≤ 1<br />
9<br />
(6.4)
6 Wahrscheinlichkeitsungleichungen und das SGGZ 73<br />
Beispiel 6.5:<br />
Wir betrachten 100 faire Münzwürfe und definieren die Zufallsvariable X als die Anzahl <strong>der</strong> Kopf“-<br />
”<br />
Ergebnisse. Dann ist X ∼ B � 100, 1<br />
�<br />
1<br />
2 , E(X) = 50 und nach Beispiel 5.35 gilt V (X) = 100 · 4 = 25. Also<br />
ist σX = 5 und daher haben wir nach (6.4):<br />
Bemerkung 6.6:<br />
P (|X − 50| ≥ 10) ≤ 1<br />
4<br />
P (|X − 50| ≥ 15) ≤ 1<br />
9<br />
Die Abschätzungen, die man mit <strong>der</strong> Tschebyschow-Ungleichung erreichen kann, können oft verbessert<br />
werden. Siehe dazu etwa später die Exponentialungleichungen o<strong>der</strong> den zentralen Grenzwertsatz.<br />
6.7 Satz (Schwaches Gesetz großer Zahlen (SGGZ)):<br />
Seien X1,...,Xn unabhängige diskrete Zufallsvariablen mit gleicher Verteilung auf (Ω,P) und es gelte<br />
E � X2 �<br />
i < ∞ für jedes 1 ≤ i ≤ n. Dann gilt für jedes ε > 0:<br />
Beweis:<br />
P<br />
�� ����<br />
1<br />
n<br />
Zunächst halten wir fest, dass<br />
n�<br />
� �<br />
�<br />
�<br />
Xi − E (X1) � ≥ ε ≤<br />
�<br />
i=1<br />
E (X1) = E<br />
�<br />
1<br />
n<br />
V (X1)<br />
nε 2<br />
n<br />
n�<br />
�<br />
E (Xi) .<br />
i=1<br />
��<br />
∞ ��<br />
0. (6.5)<br />
Außerdem gilt E (X1) = E (Xi) für jedes 1 ≤ i ≤ n, da alle Zufallsvariablen nach Voraussetzung die<br />
gleiche Verteilung besitzen.<br />
Daher folgt mit <strong>der</strong> Tschebyschow-Ungleichung:<br />
P<br />
�� ����<br />
1<br />
n<br />
Das zeigt die Behauptung.<br />
Bemerkung 6.8:<br />
n�<br />
� �<br />
�<br />
�<br />
Xi − E (Xi) � ≥ ε<br />
�<br />
i=1<br />
Damit liegt für große n <strong>der</strong> empirische Mittelwert<br />
(6.2)<br />
≤<br />
(V2)<br />
=<br />
X1,...,Xn unabhängig<br />
=<br />
mit hoher Wahrscheinlichkeit in <strong>der</strong> ε-Nähe des Erwartungswertes E(X1).<br />
6.1.1 Spezialfall - Das SGGZ von Bernoulli<br />
6.9 Satz:<br />
1<br />
n<br />
n�<br />
i=1<br />
Xi<br />
=<br />
V<br />
�<br />
1<br />
n<br />
n�<br />
Xi<br />
i=1<br />
ε 2<br />
�<br />
n�<br />
V<br />
Xi<br />
i=1<br />
n2ε2 n�<br />
V (Xi)<br />
i=1<br />
n2ε2 V (X1)<br />
nε 2 .<br />
Seien Xi ∼ B(1,p) für ein p ∈ [0,1] und 1 ≤ i ≤ n, außerdem seien X1,...,Xn unabhängig. Dann gilt<br />
�� �<br />
���� n�<br />
�<br />
1<br />
�<br />
�<br />
P Xi − p�<br />
≥ ε ≤<br />
n � 1<br />
. (6.6)<br />
4nε2 i=1<br />
�<br />
�
74 6 Wahrscheinlichkeitsungleichungen und das SGGZ<br />
Beweis:<br />
Wir wissen schon, dass E (X1) = p und V (X1) = p · (1 − p) gilt. Nach dem SGGZ gilt also<br />
�� �<br />
���� n�<br />
�<br />
1<br />
�<br />
� p · (1 − p)<br />
P Xi − p�<br />
≥ ε ≤<br />
n � nε2 .<br />
Offenbar ist aber p · (1 − p) ≤ 1<br />
4<br />
Beispiel 6.10:<br />
i=1<br />
∀ p ∈ R, womit die Behauptung folgt.<br />
Wir betrachten 1000 faire Münzwürfe und setzen<br />
�<br />
1 Kopf im i-ten Wurf<br />
Xi :=<br />
0 Zahl im i-ten Wurf<br />
Dann gilt Xi ∼ B � 1, 1<br />
�<br />
2 für alle 1 ≤ i ≤ 1000 und die Zufallsvariablen X1,...,X1000 sind unabhängig.<br />
Nun setzen wir<br />
1000 �<br />
X := Xi,<br />
was <strong>der</strong> Anzahl an Kopf-Würfen in 1000 Würfen entspricht. Es ist<br />
i=1<br />
1000 �<br />
E (X) = E (Xi) =<br />
i=1<br />
1000 �<br />
und entsprechend berechnet man mit dem SGGZ von Bernoulli:<br />
Damit ist auch<br />
i=1<br />
.<br />
1<br />
= 500<br />
2<br />
P (X ≤ 400 o<strong>der</strong> X ≥ 600) = P (|X − 500| ≥ 100)<br />
��<br />
���� 1000<br />
1 �<br />
= P Xi −<br />
1000<br />
1<br />
�<br />
�<br />
�<br />
�<br />
2�<br />
(6.6)<br />
≤<br />
=<br />
i=1<br />
1<br />
4 · 1000 · 1<br />
100<br />
1<br />
= 0.025.<br />
40<br />
�<br />
1<br />
≥<br />
10<br />
P (400 < X < 600) = 1 − P (X ≤ 400 o<strong>der</strong> X ≥ 600) ≥ 1 − 0.025 = 0.975.<br />
6.2 Exponential-Ungleichungen<br />
Notation 2:<br />
Sind X1,...,Xn unabhängige und gleichverteilte diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum<br />
(Ω,P) gegeben, so schreiben wir auch<br />
falls die Verteilung die Bernoulli-Verteilung ist usw..<br />
Xi<br />
i.i.d.<br />
∼ B(1,p) ,<br />
i.i.d. steht dabei für ” independent identically distributed“.<br />
6.11 Satz (Bernstein-Ungleichung):<br />
Seien Xi<br />
i.i.d.<br />
∼ B(1,p) für ein p ∈ [0,1]. Dann gilt für alle ε > 0:<br />
�<br />
n�<br />
�<br />
1<br />
P Xi − p ≥ ε<br />
n<br />
i=1<br />
≤<br />
�<br />
exp − 1<br />
4 nε2<br />
�<br />
n�<br />
�<br />
1<br />
P Xi − p ≤ −ε<br />
n<br />
i=1<br />
≤<br />
�<br />
,<br />
�<br />
exp − 1<br />
4 nε2<br />
�� �<br />
���� n�<br />
�<br />
1<br />
�<br />
�<br />
P Xi − p�<br />
≥ ε<br />
n �<br />
≤<br />
�<br />
,<br />
�<br />
2exp − 1<br />
4 nε2<br />
�<br />
. (6.7)<br />
i=1
6 Wahrscheinlichkeitsungleichungen und das SGGZ 75<br />
Beweis:<br />
Offenbar folgt die dritte Ungleichung mittels <strong>der</strong> Boole’schen Ungleichung (1.7) bereits aus den ersten<br />
beiden Ungleichungen:<br />
�� �<br />
���� n�<br />
� �<br />
1<br />
� (1.7) n�<br />
� �<br />
n�<br />
�<br />
�<br />
1<br />
1<br />
P Xi − p�<br />
≥ ε ≤ P Xi − p ≥ ε + P Xi − p ≤ −ε .<br />
n � n<br />
n<br />
i=1<br />
i=1<br />
Wir zeigen nur die erste Ungleichung, die zweite lässt sich absolut analog beweisen.<br />
�<br />
n�<br />
�<br />
1<br />
P Xi − p ≥ ε<br />
n<br />
i=1<br />
=<br />
=<br />
�<br />
n�<br />
�<br />
1<br />
P Xi ≥ p + ε<br />
n<br />
i=1<br />
�<br />
n�<br />
�<br />
P Xi ≥ np + nε . (6.8)<br />
Nach Satz 4.30 ist n�<br />
Xi ∼ B(n,p), daher folgt also für m := ⌈n(p + ε)⌉:<br />
P<br />
�<br />
1<br />
n<br />
i=1<br />
n�<br />
�<br />
Xi − p ≥ ε<br />
i=1<br />
(6.8)<br />
=<br />
λ>0 beliebig<br />
≤<br />
n�<br />
k=m<br />
i=1<br />
� �<br />
n n−k<br />
k<br />
p (1 − p)<br />
k � �� �<br />
=:q<br />
n�<br />
exp (λ (k − n(p + ε)))<br />
k=m<br />
= exp(−λnε)<br />
= exp(−λnε)<br />
n�<br />
k=m<br />
n�<br />
k=m<br />
i=1<br />
� �<br />
n<br />
p<br />
k<br />
k q n−k<br />
� �<br />
n<br />
exp(λk − λnp) p<br />
k<br />
k q n−k<br />
� �<br />
n<br />
(pexp (λq))<br />
k<br />
k (q exp (−λp)) n−k<br />
= exp(−λnε) (pexp (λq) + q exp(−λp)) n . (6.9)<br />
Allgemein ist exp (x) ≤ x + exp � x2� für x ∈ R2 , daher folgt<br />
�<br />
n�<br />
�<br />
1<br />
P Xi − p ≥ ε<br />
n<br />
(6.9)<br />
≤ exp (−λnε) (pexp (λq) + q exp (−λp)) n<br />
i=1<br />
= exp (−λnε) � p � λq + exp � λ 2 q 2�� + q � −λp + exp � λ 2 p 2��� n<br />
= exp (−λnε) � pexp � λ 2 q 2� + q exp � λ 2 p 2�� n<br />
≤ exp (−λnε) � pexp � λ 2� + q exp � λ 2�� n<br />
= exp (−λnε) exp � nλ 2�<br />
= exp � n � λ 2 − λε ��<br />
(6.10)<br />
für jedes λ > 0. Nun wählen wir λ = ε<br />
2 , was genau dem Minimum von λ ↦→ λ2 − λε entspricht. Es folgt<br />
damit<br />
P<br />
�<br />
1<br />
n<br />
n�<br />
Xi − p ≥ ε<br />
i=1<br />
was die Behauptung zeigt.<br />
Beispiel 6.12:<br />
� (6.10)<br />
��ε �2 ≤ exp n −<br />
2<br />
ε<br />
2 εn<br />
�<br />
�<br />
= exp − 1<br />
4 ε2 �<br />
n ,<br />
Wir betrachten wie<strong>der</strong> die Münzwürfe aus Beispiel 6.10. Die Bernstein-Ungleichung liefert<br />
��<br />
���� 1000<br />
1 �<br />
P Xi −<br />
1000<br />
1<br />
� �<br />
�<br />
�<br />
(6.7) �<br />
� ≥ 0.1 ≤ 2exp −<br />
2�<br />
1<br />
� �<br />
1<br />
1000 · = 2exp −<br />
4 100<br />
10<br />
�<br />
≈ 0.164,<br />
4<br />
i=1<br />
was offenbar deutlich schlechter ist, als das Ergebnis mit dem SGGZ! Der Grund dafür ist, dass n = 1000<br />
einfach noch zu klein ist!<br />
Wir werden aber gleich sehen, dass man mit noch besseren Exponential-Ungleichungen noch deutlich<br />
bessere Ergebnisse erzielen kann.<br />
2 Für x < 0 ist diese Ungleichung offensichtlich. Für x = 0 gilt Gleichheit und für x≥1ist x 2 ≥ x, womit die Ungleichung<br />
aus <strong>der</strong> strengen Monotonie <strong>der</strong> exp-Funktion folgt. 0 < x < 1?
76 6 Wahrscheinlichkeitsungleichungen und das SGGZ<br />
Die folgende Exponential-Ungleichung wollen wir nur angeben, nicht beweisen:<br />
6.13 Satz (Chernov-Ungleichung):<br />
Seien Xi<br />
i.i.d.<br />
∼ B(1,p) für ein p ∈ [0,1]. Dann gilt für alle ε > 0:<br />
�<br />
n�<br />
�<br />
1<br />
P Xi − p ≥ ε<br />
n<br />
i=1<br />
≤ exp � −2nε 2� �<br />
n�<br />
�<br />
1<br />
P Xi − p ≤ −ε<br />
n<br />
i=1<br />
≤<br />
,<br />
exp � −2nε 2� �� �<br />
���� n�<br />
�<br />
1<br />
�<br />
�<br />
P Xi − p�<br />
≥ ε<br />
n �<br />
≤<br />
,<br />
2exp � −2nε 2� . (6.11)<br />
i=1<br />
Noch allgemeiner sogar ist die folgende Ungleichung, die wir ebenfalls nicht beweisen wollen:<br />
6.14 Satz (Hoeffding-Ungleichung):<br />
Seien X1,...,Xn i.i.d. Zufallsvariablen. Es gebe reelle Zahlen a < b s.d. a ≤ Xi ≤ b für alle 1 ≤ i ≤ n.<br />
Mit c := b − a gilt dann für alle ε > 0:<br />
�� �<br />
���� n�<br />
�<br />
1<br />
� �<br />
�<br />
2 n<br />
P Xi − E (X1) � ≥ ε ≤ 2exp −2ε<br />
n<br />
� c2 �<br />
.<br />
Bemerkung 6.15:<br />
i=1<br />
Offenbar folgt die Chernov-Ungleichung aus <strong>der</strong> Hoeffding-Ungleichung mit a = 0 und b = 1.<br />
Beispiel 6.16:<br />
Wir betrachten wie<strong>der</strong> die Münzwürfe aus Beispiel 6.10. Die Chernov-Ungleichung liefert hier<br />
��<br />
���� 1000<br />
1 �<br />
P Xi −<br />
1000<br />
1<br />
� �<br />
�<br />
�<br />
(6.11) �<br />
� ≥ 0.1 ≤ 2exp −2 · 1000 ·<br />
2�<br />
1<br />
�<br />
= 2exp (−20) ≈ 0.00000000412<br />
100<br />
i=1<br />
- besser gehts nicht!
7 Faltung, bedingte Verteilungen und Korrelation 77<br />
7 Faltung, bedingte Verteilungen und Korrelation<br />
7.1 Die Faltung<br />
Wir betrachten oft Summen unabhängiger Zufallsvariablen. Was kann man über die Verteilung dieser<br />
Summe aussagen?<br />
7.1 Satz:<br />
Es seien X1,...,Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P).<br />
(1) Dann ist die Verteilung P X1+...+Xn <strong>der</strong> Summe X1 + ... + Xn durch die Verteilungen P X1 ,...,P Xn<br />
<strong>der</strong> Zufallsvariablen X1,...,Xn festgelegt.<br />
(2) Für x ∈ (X1 + ... + Xn) (Ω) (also x im Wertebereich <strong>der</strong> Summe) gilt<br />
�<br />
P (X1 + ... + Xn = x) =<br />
P (X1 = x1) · ... · P (Xn = xn) . (7.1)<br />
Beweis:<br />
x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)<br />
x 1 +...+xn=x<br />
Offenbar folgt (2) aus (1). Für (1) sehen wir zunächst, dass<br />
�<br />
{X1 + ... + Xn = x} =<br />
Damit folgt<br />
P (X1 + ... + Xn = x) =<br />
und die Behauptung ist gezeigt.<br />
7.2 Definition:<br />
X1,...,Xn unabhängig<br />
=<br />
x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)<br />
x 1 +...+xn=x<br />
�<br />
x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)<br />
x 1 +...+xn=x<br />
�<br />
x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)<br />
x 1 +...+xn=x<br />
{X1 = x1,...,Xn = xn} .<br />
P (X1 = x1,...,Xn = xn)<br />
P (X1 = x1) · ... · P (Xn = xn)<br />
Seien X1,...,Xn unabhängige Zufallsvariablen. Wir definieren die Faltung von P X1 ,...,P Xn als<br />
P X1 ⋆ ...⋆P Xn := P X1+...+Xn .<br />
Obiger Satz, Teil (2), rechtfertigt diese Bezeichnung.<br />
7.3 Definition:<br />
Für Wahrscheinlichkeitsverteilungen P1,...,Pn auf Ω definiert man allgemeiner die Faltung P1 ⋆ ...⋆Pn<br />
als die Verteilung von X1 + ... + Xn, wobei Xi, 1 ≤ i ≤ n, unabhängige Zufallsvariablen mit P Xi = Pi<br />
sind.<br />
Bemerkung 7.4:<br />
Im Allgemeinen (d.h. ohne Unabhängigkeit), ist die Verteilung <strong>der</strong> Summe X +Y zweier Zufallsvariablen<br />
X und Y nicht durch die Verteilungen von X und Y festgelegt.<br />
Beispiel 7.5:<br />
Seien X,Y i.i.d.<br />
∼ B(1,p). In Satz 4.30 haben wir gesehen, dass dann X + Y ∼ B(2,p) gilt, d.h. die<br />
Verteilung von X + Y entspricht dem Wahrscheinlichkeitsvektor<br />
� 1<br />
4<br />
1 1<br />
, ,<br />
2 4<br />
In diesem Sinne ist die Bernoulli-Verteilung eine ” schöne“ Verteilung, ihre Faltung gibt wie<strong>der</strong> eine uns<br />
bekannte und leicht zu berechnende Verteilung - die Binomialverteilung!<br />
Beispiel 7.6:<br />
Sei X ∼ B � 1, 1<br />
�<br />
2 und Y = X. Insbeson<strong>der</strong>e sind X und Y dann nicht unabhängig und es gilt auch<br />
Y ∼ B � 1, 1<br />
�<br />
2 . Damit gilt<br />
⎧<br />
1<br />
⎪⎨ 2 falls x = 0<br />
P (X + Y = x) = P (2X = x) = 0 falls x = 1 .<br />
⎪⎩<br />
�<br />
.<br />
1<br />
2 falls x = 2
78 7 Faltung, bedingte Verteilungen und Korrelation<br />
7.1.1 Spezialfall<br />
Seien X,Y unabhängige, diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit<br />
X (Ω) ⊂ N0, Y (Ω) ⊂ N0. Dann ist (X + Y ) (Ω) ⊂ N0 und es gilt für k ∈ N0:<br />
Beispiel 7.7:<br />
P (X + Y = k)<br />
(7.1)<br />
=<br />
=<br />
=<br />
�<br />
x,y∈N 0<br />
x+y=k<br />
P (X = x) · P (Y = y)<br />
k�<br />
P (X = x) P (Y = k − x)<br />
x=0<br />
k�<br />
pX (x) · pY (k − x) (7.2)<br />
x=0<br />
Wir betrachten die Augensumme beim zweifachen Würfeln. Setze dazu X1 := erster Wurf und X2 :=<br />
zweiter Wurf. Wir haben in einem früheren Beispiel schon gesehen, dass die Verteilung <strong>der</strong> Summe<br />
P (X + Y = k) für k = 2,...,12 den Wahrscheinlichkeitsvektor<br />
� 1<br />
2 3 4 5 6 5 4 3 2 1<br />
, , , , , , , , , ,<br />
36 36 36 36 36 36 36 36 36 36 36<br />
liefert. Das kann man mit <strong>der</strong> obigen Darstellung leicht nachrechnen.<br />
7.1.2 Faltungen einiger wichtiger Verteilungen<br />
7.8 Satz:<br />
Seien X,Y zwei unabhängige, diskrete Zufallsvariablen mit X ∼ Poi (λ) , Y ∼ Poi (µ) für zwei Parameter<br />
0 < λ,µ < ∞. Dann gilt<br />
X + Y ∼ Poi (λ + µ) .<br />
Beweis:<br />
Da die Poisson-Verteilung für Zufallsvariablen mit Werten in N0 definiert ist, können wir obigen Spezialfall<br />
anwenden:<br />
Das zeigt die Behauptung.<br />
P (X + Y = k)<br />
(7.2)<br />
=<br />
=<br />
=<br />
�<br />
k�<br />
P (X = x) · P (Y = k − x)<br />
x=0<br />
k�<br />
x=0<br />
1<br />
k!<br />
exp (−λ) λx µk−x<br />
exp (−µ)<br />
x! (k − x)!<br />
exp (−(λ + µ))<br />
k�<br />
x=0<br />
1<br />
= exp (−(λ + µ)) (λ + µ)k<br />
k!<br />
= poiλ+µ (k) .<br />
k!<br />
x!(k − x)! λx µ k−x<br />
Damit ist also die Faltung zweier Poisson-Verteilungen einfach die Poisson-Verteilung zur Summe <strong>der</strong><br />
Parameter.<br />
Praktisch braucht man dieses Ergebnis etwa bei den Anrufen pro Minute in einem Call-Center, die aus<br />
zwei Zentralen zusammenlaufen. Die Anzahl <strong>der</strong> Anrufe pro Minute ist bei <strong>der</strong> ersten Zentrale dabei<br />
Poi (λ) verteilt, bei <strong>der</strong> zweiten Zentrale Poi (µ) verteilt.<br />
Der Satz oben sagt uns nun, dass die Gesamtzahl <strong>der</strong> Anrufe pro Minute im Call-Center dann Poi (λ + µ)<br />
verteilt ist.<br />
7.9 Hilfssatz:<br />
Es gilt<br />
k�<br />
x=0<br />
� �� �<br />
n m<br />
=<br />
x k − x<br />
� n + m<br />
k<br />
�<br />
.
7 Faltung, bedingte Verteilungen und Korrelation 79<br />
Beweis:<br />
Wir wir im Kapitel über Kombinatorik gesehen haben, ist � � a<br />
b genau die Anzahl <strong>der</strong> Möglichkeiten, b<br />
Elemente aus einer a-elementigen Menge auszuwählen. Also ist � � n+m<br />
k genau die Anzahl <strong>der</strong> Möglichkeiten,<br />
aus <strong>der</strong> Menge {1,...,n + m} genau k Elemente auszuwählen.<br />
Eine solche Auswahl kann zerlegt werden in die Elemente, die aus {1,...,n} ausgewählt werden, und<br />
die Elemente, die aus {n + 1,...,n + m} ausgewählt werden. Die Summe dieser beiden Auswahlen muss<br />
entsprechend k ergeben. Jetzt klassifizieren wir dies �nach <strong>der</strong> Kardinalität x <strong>der</strong> ersten Auswahl, die<br />
genau die Summe all dieser Klassifikationen, d.h.<br />
7.10 Satz:<br />
zwischen 0 und k liegen muss. Offenbar ist dann � n+m<br />
k<br />
was die Behauptung zeigt.<br />
� �<br />
n + m<br />
=<br />
k<br />
k�<br />
x=0<br />
� �� �<br />
n m<br />
,<br />
x k − x<br />
Seien X ∼ B(n,p) und Y ∼ B(m,p) unabhängige Zufallsvariablen mit Parametern p ∈ [0,1] und<br />
n,m ∈ N. Dann gilt<br />
X + Y ∼ B(m + n,p) .<br />
Beweis:<br />
Für 0 ≤ k ≤ m + n gilt<br />
P X+Y (k) = P (X + Y = k)<br />
(7.2)<br />
=<br />
=<br />
=<br />
k�<br />
P (X = x) P (Y = k − x)<br />
x=0<br />
k�<br />
x=0<br />
k�<br />
x=0<br />
= p k (1 − p) n+m−k<br />
Hilfssatz 7.9<br />
=<br />
� �<br />
n<br />
p<br />
x<br />
x (1 − p) n−x<br />
� �<br />
m<br />
p<br />
k − x<br />
k−x (1 − p) m−(k−x)<br />
� �� �<br />
n m<br />
p<br />
x k − x<br />
k (1 − p) n−x+m−k+x<br />
� n + m<br />
k<br />
k�<br />
x=0<br />
�<br />
p k (1 − p) n+m−k .<br />
� �� �<br />
n m<br />
x k − x<br />
Das das Ende dieser Gleichung <strong>der</strong> Binomialverteilung mit Parametern n + m und p ist, folgt die Behauptung.
80 7 Faltung, bedingte Verteilungen und Korrelation<br />
7.2 Bedingte Verteilungen<br />
7.11 Definition:<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω ��<br />
′ Ω , Y : Ω<br />
Zufallsvariablen auf diesem Raum. Sei weiter x ∈ X (Ω) mit P (X = x) > 0.<br />
Die bedingte Verteilung von Y gegeben X = x ist<br />
P (Y ∈ A | X = x) für A ⊂ Ω ′′ .<br />
Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist<br />
p Y |X (y|x) := P (Y = y | X = x) =<br />
P (Y = y,X = x)<br />
P (X = x)<br />
��<br />
′′ Ω diskrete<br />
= p (X,Y )(x,y)<br />
, (x,y) ∈ Ω<br />
pX(x)<br />
′ ,Ω ′′ .<br />
D.h. für jedes x wie in <strong>der</strong> Annahme ist p Y |X (·|x) eine Wahrscheinlichkeitsfunktion auf Ω ′′ bzw. Y (Ω).<br />
Beispiel 7.12:<br />
Wir würfeln zweimal mit einem fairen Würfel und definieren unsere Zufallsvariablen X1,X2 als die Ergebnisse<br />
des i-ten Wurfes, i = 1,2 entsprechend. Natürlich sind X1 und X2 unabhängig. Setze nun<br />
Dann ist Y die Augensumme des Experiments.<br />
Zunächst berechnen wir formal<br />
Y := X1 + X2, X := X1.<br />
P (Y = y | X = x) = P (X1 + X2 = y | X1 = x)<br />
=<br />
P (X1 + X2 = y,X1 = x)<br />
P (X1 = x)<br />
P (X2 = y − x,X1 = x)<br />
=<br />
P (X1 = x)<br />
�<br />
1<br />
X1,X2 unabhängig<br />
6 falls 1 ≤ y − x ≤ 6<br />
= P (X2 = y − x) =<br />
.<br />
0 sonst<br />
Zur Verdeutlichung wollen wir noch die Tabelle <strong>der</strong> bedingten Wahrscheinlichkeitsfunktion p Y |X(y|x)<br />
angeben. In <strong>der</strong> x-ten Zeile steht dabei p Y |X(·|x):<br />
Beispiel 7.13:<br />
x/y 2 3 4 5 6 7 8 9 10 11 12<br />
1<br />
1<br />
6<br />
1<br />
6<br />
2 0 1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
3 0 0 1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
4 0 0 0 1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
5 0 0 0 0 1<br />
6<br />
1<br />
6 0 0 0 0 0<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
6 0 0 0 0 0 1<br />
6<br />
1<br />
6 0 0 0 0<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6 0 0 0<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6 0 0<br />
Seien X ∼ B(n,p) und Y ∼ B(m,p) unabhängige Zufallsvariablen. Die bedingte Verteilung von X<br />
gegeben X + Y = k entspricht dann (nach Satz 7.10 ist X + Y ∼ B(n + m,r)) <strong>der</strong> Frage<br />
” Wie viele Erfolge treten in den ersten n Experimenten auf, wenn k Erfolge in n + m Experimenten<br />
auftreten?“<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
1<br />
6<br />
0<br />
1<br />
6
7 Faltung, bedingte Verteilungen und Korrelation 81<br />
Man berechnet<br />
p X|X+Y (j|k) = P (X = j | X + Y = k)<br />
=<br />
X,Y unabhängig<br />
=<br />
=<br />
=<br />
P (X = j,Y = k − j)<br />
P (X + Y = k)<br />
P (X = j) P (Y = k − j)<br />
P (X + Y = k)<br />
� � n j n−j<br />
j p (1 − p) � � m k−j m−(k−j)<br />
k−j p (1 − p)<br />
� � n+m<br />
k pk m+n−k<br />
(1 − p)<br />
� �� � n m<br />
j k−j<br />
� ,<br />
� n+m<br />
k<br />
und sieht so, dass die bedingte Verteilung genau <strong>der</strong> hypergeometrischen Verteilung für das Experiment<br />
” n + m Kugeln gegeben, davon n rote.<br />
Ziehe k Kugeln und bestimme die Wahrscheinlichkeit, dass genau j rote Kugeln darunter sind!“<br />
entspricht.<br />
Beispiel 7.14:<br />
Seien X ∼ Poi (λ), Y ∼ Poi (µ) unabhängige Zufallsvariablen. Wir modellieren damit etwa Anfragen an<br />
einen Server, die über zwei Zwischenstellen eingehen. Dabei wird die Anzahl <strong>der</strong> Anfragen pro Minute an<br />
<strong>der</strong> ersten Zwischenstelle mittels X1 und die Anzahl <strong>der</strong> Anfragen pro Minute an <strong>der</strong> zweiten Zwischenstelle<br />
mittels X2 simuliert. Die bedingte Verteilung von X gegeben X+Y = k ist dann die Frage, wie viele<br />
<strong>der</strong> Anfragen am Server von <strong>der</strong> ersten Zwischenstelle kommen. Nach Satz 7.8 ist X + Y ∼ Poi (λ + µ)<br />
und damit berechnet man<br />
p X|X+Y (j|k) = P (X = j | X + Y = k)<br />
=<br />
X,Y unabhängig<br />
=<br />
=<br />
=<br />
=<br />
P (X = j,Y = k − j)<br />
P (X + Y = k)<br />
P (X = j) P (Y = k − j)<br />
P (X + Y = k)<br />
exp (−λ) λj<br />
µk−j<br />
j! exp(−µ) (k−j)!<br />
exp (−λ − µ) (λ+µ)k<br />
k!<br />
� �<br />
k<br />
λ<br />
j<br />
j µ k−j 1<br />
� � � �j � �<br />
k λ µ<br />
·<br />
j λ + µ λ + µ<br />
(λ + µ) j (λ + µ) k−j<br />
Damit ist die bedingte Verteilung von X gegeben X + Y = k genau durch B<br />
Nach obigen Beispielen kann man schon vermuten:<br />
Bemerkung 7.15:<br />
k−j<br />
� �� �<br />
=1− λ<br />
λ+µ<br />
�<br />
k, λ<br />
λ+µ<br />
.<br />
�<br />
gegeben.<br />
Die Zufallsvariablen X und Y sind genau dann unabhängig, wenn p Y |X (y|x) = pY (y) ∀ (x,y) ∈ Ω ′ × Ω ′′<br />
gilt.<br />
Beweis:<br />
Nach Definition <strong>der</strong> bedingten Wahrscheinlichkeit ist<br />
Wir sehen also<br />
p Y |X(y,x) = pY (y) ⇔ p (X,Y )(x,y)<br />
pX(x)<br />
= pY (y)<br />
⇔ P (X,Y ) (x,y) = P Y (y) · P X (x).<br />
p Y |X (y|x) = pY (y) ∀ (x,y) ∈ Ω ′ × Ω ′′ ⇔ P (X,Y ) = P X ⊗ P Y .<br />
Nach Satz 4.18 ist die hintere Bedingung aber äquivalent zur Unabhängigkeit von X und Y .
82 7 Faltung, bedingte Verteilungen und Korrelation<br />
7.2.1 Der bedingte Erwartungswert<br />
7.16 Definition:<br />
Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω<br />
��<br />
Ω ′ , Y : Ω<br />
��<br />
Ω ′′ diskrete<br />
Zufallsvariablen auf diesem Raum. Für x ∈ Ω ′ mit P (X = x) > 0 ist <strong>der</strong> bedingte Erwartungswert<br />
von Y gegeben X = x definiert durch<br />
Beispiel 7.17:<br />
E (Y | X = x) = �<br />
y∈Y (Ω)<br />
y · p Y |X (y|x) .<br />
Wir betrachten zweifaches Würfeln wie oben mit den Zufallsvariablen Y =Augensumme und X =erster<br />
Wurf. Dann schließen wir aus obiger Tabelle, dass<br />
Beispiel 7.18:<br />
�12<br />
E (Y | X = x) = y · pY |X(y|x) =<br />
y=2<br />
x+6 �<br />
y=x+1<br />
y<br />
= x + 3.5.<br />
6<br />
Seien X ∼ Poi (λ) und Y� ∼ Poi (µ) unabhängig. Dann ist die bedingte Verteilung von X gegeben<br />
X+Y = x genau durch B x, λ<br />
�<br />
λ+µ gegeben, womit nach dem Erwartungswert für Binomial-Experimente<br />
sofort<br />
E � X � �<br />
�<br />
λ<br />
X + Y = x = x ·<br />
λ + µ<br />
folgt.<br />
7.2.2 Die bedingte Erwartung<br />
Der eben definierte bedingte Erwartungswert E (Y | X = x) ist eine Funktion von x. Setze daher<br />
7.19 Definition:<br />
Die Abbildung g (X) : Ω<br />
g (x) := E (Y | X = x) , x ∈ X (Ω) .<br />
��<br />
R, also<br />
X<br />
٠��<br />
X(Ω) ��<br />
R<br />
ist eine Zufallsvariable auf Ω und heißt die bedingte Erwartung von Y gegeben X. Wir schreiben auch<br />
Beispiel 7.20:<br />
E (Y | X) := g (X) .<br />
Wir würfeln wie<strong>der</strong> wie in Beispiel 7.17. Dort haben wir schon berechnet, dass E (Y | X = x) = x + 3.5<br />
gilt. Daher ist die bedingte Erwartung hier die Zufallsvariable<br />
Beispiel 7.21:<br />
E (Y | X) = X + 3.5.<br />
Wir betrachten wie<strong>der</strong> Poisson-verteilte Zufallsvariablen X und Y wie in Beispiel 7.18. Mit <strong>der</strong> Rechnung<br />
aus diesem Beispiel folgt<br />
λ<br />
E (X | X + Y ) = (Y + X)<br />
λ + µ .<br />
Wir wollen nun zeigen, dass man manchmal den Erwartungswert E (Y ) sehr gut mit Hilfe <strong>der</strong> bedingten<br />
Erwartung berechnen kann. Dazu nutzen wir den folgenden Satz:<br />
7.22 Satz (iterierte Erwartung):<br />
Es gilt<br />
Beweis:<br />
Wende Satz 7.23 mit f ≡ 1 an.<br />
g<br />
E (Y ) = E (E (Y | X)). (7.3)
7 Faltung, bedingte Verteilungen und Korrelation 83<br />
7.23 Satz:<br />
Der folgende Satz ist allgemeiner und beinhaltet den Satz über die iterierte Erwartung bereits:<br />
Für eine beliebige Abbildung f : X (Ω)<br />
Beweis:<br />
Betrachte<br />
��<br />
R gilt<br />
E (f(X) · Y ) = E (f(X) · E (Y | X)).<br />
(X,Y )<br />
٠��<br />
X(Ω) × Y (Ω)<br />
�� �� �� ��<br />
⊂R2 ⊂R2 h ��<br />
für h (x,y) := f(x) · y. Dann folgt mit doppelter Anwendung <strong>der</strong> Transformationsformel (Satz 5.12)<br />
was die Behauptung zeigt.<br />
Beispiel 7.24:<br />
E (f(X) · Y ) = E (h(X,Y ))<br />
= �<br />
h(x,y)P (X = x,Y = y)<br />
x∈X(Ω)<br />
y∈Y (Ω)<br />
= �<br />
�<br />
x∈X(Ω) y∈Y (Ω)<br />
= �<br />
x∈X(Ω)<br />
= �<br />
x∈X(Ω)<br />
= �<br />
x∈X(Ω)<br />
R<br />
f(x) · yp Y |X (y|x) · pX (x)<br />
f(x) · pX (x) �<br />
yp Y |X (y|x)<br />
y∈Y (Ω)<br />
� �� �<br />
=E(Y | X=x)<br />
f(x) · pX (x) E (Y | X = x)<br />
� �� �<br />
=g(x)<br />
f(x)g(x) · pX (x)<br />
= E (f(X) · g(X))<br />
= E (f(X) · E (Y | X)),<br />
Wie<strong>der</strong> zweifaches Würfeln wie in Beispiel 7.17 (also Y =Augensumme, X =erster Wurf). Wir haben<br />
oben schon gesehen, dass E (Y | X) = X + 3.5 gilt. Damit folgt aus dem Satz oben:<br />
E (Y ) (7.3)<br />
= E (E (Y | X)) = E (X + 3.5) = E (X) + 3.5 = 7.<br />
7.2.3 Anwendung <strong>der</strong> iterierten Erwartung<br />
7.25 Definition:<br />
Sei I eine beliebige Indexmenge und seien Xi, i ∈ I Zufallsvariablen. Wir nennen Xi,i ∈ I unabhängig,<br />
falls jede endliche Teilfamilie Xij , j ∈ J, #J < ∞, unabhängig ist.<br />
Der folgende Satz behandelt den Erwartungswert zufälliger Summen:<br />
7.26 Satz (Wald’sche Identität):<br />
Sei N eine Zufallsvariable mit Werten in N0. Seien X1,X2,... Zufallsvariablen mit gleichem Erwartungswert<br />
und N,X1,X2,... im obigen Sinne unabhängig. Setze<br />
Dann gilt<br />
SN (ω) :=<br />
N(ω) �<br />
i=1<br />
Xi (ω) .<br />
E (SN) = E (N) · E (X1) .
84 7 Faltung, bedingte Verteilungen und Korrelation<br />
Beweis:<br />
Es gilt<br />
p SN |N (j|n) = P (SN = j,N = n)<br />
P (N = n)<br />
=<br />
�<br />
n�<br />
�<br />
P Xi = j,N = n<br />
i=1<br />
P (N = n)<br />
.<br />
Nach Dem Blockungslemma (Satz 4.24) sind auch n�<br />
Xi und N unabhängig, das liefert<br />
Damit ist aber per Definition<br />
p SN |N (j|n) = P<br />
E (SN | N = n) =<br />
i=1<br />
� n�<br />
i=1<br />
Xi = j<br />
�<br />
∞�<br />
�<br />
n�<br />
�<br />
j · P Xi = j<br />
j=0<br />
= E<br />
� n�<br />
i=1<br />
Xi<br />
= n · E (X1) ,<br />
da nach Voraussetzung alle Xi’s den gleichen Erwartungswert haben. Das zeigt<br />
i=1<br />
�<br />
E (SN | N) = N · E (X1)<br />
und mit dem Satz über die iterierte Erwartung folgt<br />
Das zeigt die Behauptung.<br />
Beispiel 7.27:<br />
E (SN) (7.3)<br />
= E (E (SN | N)) = E (N · E (X1)) = E (N) · E (X1) .<br />
Wir betrachten N als die Anzahl Schadensfälle in einem Jahr bei einer Versicherung und X1,X2,...<br />
als die entsprechenden Schadenshöhen. Dann liefert uns die Wald’sche Identität eine Formel für die zu<br />
erwartenden Leistungen, die die Versicherung zu zahlen hat.<br />
Beispiel 7.28:<br />
Wir betrachten N als Anzahl von Münzwürfen, bis das Ergebnis ” Kopf“ zum ersten Mal auftritt und Xi<br />
als die Augenzahl eines Würfelwurfs. Dann entspricht die Summe<br />
SN (ω) :=<br />
N(ω) �<br />
i=1<br />
Xi (ω)<br />
genau <strong>der</strong> Summe <strong>der</strong> Augenzahlen <strong>der</strong> Würfelwürfe, bis bei parallelen Münzwürfen erstmalig Kopf“<br />
”<br />
kommt. Da N ∼ Geo � �<br />
1<br />
2 gilt, liefert die Wald’sche Identität<br />
E (SN) = E (N) · E (X1) = 2 · 3.5 = 7.<br />
7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23)<br />
Wir wollen hier E (Y | X) als ” bester Vorhersager von Y gegeben die Information X“ betrachten<br />
(bezüglich des erwarteten quadratischen Fehlers). Wir beobachten zunächst:<br />
Bemerkung 7.29:<br />
Sei Y eine reelle Zufallsvariable. Die reelle Zahl a = a ∗ ∈ R, so dass <strong>der</strong> erwartete quadratische Fehler<br />
(E(Y − a) 2 ) minimal wird, ist a ∗ = E(Y ).<br />
Beweis:<br />
Per Definition ist für unser a ∗ genau<br />
E � (Y − a ∗ ) 2� = V (Y ).<br />
.
7 Faltung, bedingte Verteilungen und Korrelation 85<br />
Kleiner kann dieser Wert nicht werden, denn V (Y ) ist minimal, denn setzt man<br />
so ist<br />
f(a) = E � (Y − a) 2� = E(Y 2 ) − 2aE(Y ) + a 2 ,<br />
f ′ (a) = −2E(Y ) + 2a = 0 ⇔ a = E(Y ).<br />
Da es sich bei f um eine nach oben geöffnete Parabel handelt, ist a ∗ = E (Y ) somit das eindeutige globale<br />
Minimum.<br />
7.30 Satz:<br />
Seien X und Y reelle Zufallsvariablen. Für jede Funktion ϕ : X(Ω) ��<br />
R ist<br />
�<br />
E (Y − ϕ(X)) 2�<br />
≥ E � (Y − E(Y | X)) 2�<br />
und Gleichheit gilt genau für ϕ(x) = E(Y | X).<br />
Beweis:<br />
Sei ϕ : X(Ω)<br />
Nach Satz 7.23 sind<br />
Daher folgt<br />
��<br />
R eine beliebige Funktion. Dann gilt<br />
�<br />
E (Y − E(Y | X)) 2�<br />
�<br />
+ E (ϕ(X) − E( Y | X)) 2�<br />
= E � Y 2� �<br />
− 2E (Y · E (Y | X)) + E (E (Y | X)) 2�<br />
+E<br />
�<br />
(ϕ(X)) 2�<br />
− 2E (ϕ(X) · E(Y |X)) + E<br />
(7.4)<br />
�<br />
(E(Y |X)) 2�<br />
. (7.5)<br />
E (ϕ(X) · E (Y | X)) = E (ϕ(X) · Y ) (7.6)<br />
E(Y · E(Y | X) )<br />
� �� �<br />
=:f(X)<br />
= E (E(Y | X) · E(Y | X)) = E � (E(Y |X)) 2� . (7.7)<br />
−2E (Y · E(Y | X)) + E � (E(Y | X)) 2� − 2E (ϕ(X) · E(Y | X)) + E � (E(Y | X)) 2�<br />
(7.6) &(7.7)<br />
= −2E � (E(Y |X)) 2� + 2E � (E(Y |X)) 2� − 2E (ϕ(X) · Y )<br />
= −2E(ϕ(X) · Y )<br />
und damit haben wir<br />
(7.5)<br />
�<br />
E (Y − E(Y |X)) 2�<br />
�<br />
+ E (ϕ(X) − E(Y |X)) 2�<br />
� 2 2<br />
= E(Y ) − 2E(ϕ(X) · Y ) + E (ϕ(X)) �<br />
�<br />
= E (Y − ϕ(X)) 2�<br />
Da (ϕ(X) − E(Y |X)) 2 �<br />
≥ 0 ist auch E (ϕ(X) − E(Y |X)) 2�<br />
≥ 0 und es folgt die Behauptung.<br />
Bemerkung 7.31:<br />
In diesem Sinn ist E(Y | X) <strong>der</strong> beste Vorhersager von Y gegeben X, denn er minimiert den erwarteten<br />
quadratischen Fehler.<br />
7.3 Korrelation<br />
Wir wollen nun den besten Vorhersager <strong>der</strong> Form aX + b (a,b ∈ R) finden. Das heißt, wir betrachten im<br />
Folgenden nur lineare ϕ.<br />
7.32 Definition:<br />
Seien X,Y reelle Zufallsvariablen mit V (X) > 0,V (Y ) > 0. Ihr Korrelationskoeffizient ist<br />
ρX,Y :=<br />
CoV(X,Y )<br />
� V (X) · � V (Y ) =<br />
CoV(X,Y )<br />
.<br />
σX · σY
86 7 Faltung, bedingte Verteilungen und Korrelation<br />
Bemerkung 7.33:<br />
X und Y sind unkorreliert genau dann, wenn ρX,Y = 0 ist.<br />
7.34 Satz (Bester linearer Vorhersager):<br />
Die Zahl E � (Y − aX − b) 2� wird minimal für a ∗ = σY<br />
σX · ρX,Y und b ∗ = E(Y ) − σY<br />
σX · ρX,Y · E(X). Für<br />
den minimalen Wert gilt:<br />
�<br />
E (Y − a ∗ X − b ∗ ) 2�<br />
= � 1 − ρ 2 �<br />
X,Y · V (Y ),<br />
wobei (1 − ρ2 X,Y ) die Verbesserung gegenüber dem konstanten Vorhersager V (Y ) ist.<br />
Beweis:<br />
Für festes a wird laut Bemerkung 7.29 E � (Y − aX − b) 2� minimiert (wobei wir Y −aX als Zufallsvariable<br />
Z betrachten und b finden wollen, s.d. <strong>der</strong> Ausdruck minimiert wird) durch b ∗ = E(Y − aX) = E(Y ) −<br />
aE(X) und es ist<br />
�<br />
E (Y − aX − b ∗ ) 2�<br />
= V (Y − aX).<br />
Nun müssen wir ein a finden, sodass V (Y − aX) minimal wird.<br />
Wenn wir<br />
f(a) := V (Y −aX) = V (Y )+CoV(Y, −aX)+CoV(−aX,Y )+V (−aX) = V (Y )−2aCoV(X,Y )+a 2 V (X)<br />
setzen, so ist<br />
genau dann, wenn<br />
f ′ (a) = −2CoV(X,Y ) + 2aV (X) = 0<br />
a = a ∗ =<br />
CoV(X,Y )<br />
V (X)<br />
ist und es folgt durch Einsetzen in die Gleichung oben<br />
= σY<br />
· ρX,Y<br />
σX<br />
V (Y − a ∗ CoV(X,Y )<br />
X) = V (Y ) − 2 · CoV(X,Y ) +<br />
V (X)<br />
Das zeigt die Behauptung.<br />
Bemerkung 7.35:<br />
Mit a = 0 und b = E(Y ) folgt:<br />
und damit<br />
7.36 Definition:<br />
CoV(X,Y )2<br />
= V (Y ) − 2 +<br />
V (X)<br />
CoV(X,Y )2<br />
V (X)<br />
�<br />
�<br />
CoV(X,Y )2<br />
= V (Y ) · 1 −<br />
V (X)<br />
= V (Y ) · � 1 − ρ 2 �<br />
X,Y<br />
�<br />
(Y − a ∗ X − b ∗ ) 2�<br />
0 ≤ E<br />
� �� �<br />
=(1−ρ 2 X,Y )·V (Y )<br />
� CoV(X,Y )<br />
V (X)<br />
�<br />
≤ E (Y − 0X − E(Y )) 2�<br />
= V (Y )<br />
0 ≤ ρ 2 X,Y ≤ 1 bzw. − 1 ≤ ρX,Y ≤ 1.<br />
Ist ρX,Y > 0, so nennen wir X und Y positiv korreliert.<br />
� 2<br />
· V (X)<br />
Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten auch größere Y -Werte<br />
voraussagen.<br />
7.37 Definition:<br />
Ist ρX,Y < 0, so nennen wir X und Y negativ korreliert.<br />
Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten kleinere Y -Werte<br />
voraussagen.
8 Erzeugende Funktion und Verzweigungsprozesse 87<br />
8 Erzeugende Funktion und Verzweigungsprozesse<br />
In diesem Abschnitt werden wir sehen, dass man Wahrscheinlichkeitsverteilungen Funktionen 3 zuordnen<br />
kann, sodass kompliziertes Rechnen mit Wahrscheinlichkeitsverteilungen (z.B. Faltungen) zum einfachen<br />
Rechnen mit den zugehörigen Funktionen wird (z.B. Produkt <strong>der</strong> Funktionen).<br />
In <strong>der</strong> Wahrscheinlichkeits- und Maßtheorie wird dies bei Momenterzeugenden Funktionen und bei<br />
Fourier-Transformationen genutzt.<br />
Wir betrachten hier nun als einfacheres Beispiel für analytische Methoden:<br />
8.1 Definition (Erzeugende Funktion):<br />
Sei X eine diskrete Zufallsvariable auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit Werten in N0.<br />
Sei pk = P(X = k) für k ∈ N0. Die erzeugende Funktion (<strong>der</strong> Verteilung) von X ist die Funktion<br />
Bemerkung 8.2:<br />
Wegen gX(1) = ∞�<br />
k=0<br />
Insbeson<strong>der</strong>e gilt gX(1) = 1.<br />
gX(t) :=<br />
∞�<br />
k=0<br />
pk · t k .<br />
pk = 1 und pk ≥ 0 folgt, dass gX(t) für alle t ∈ [−1,1] konvergiert (sogar absolut).<br />
Folglich können wir den Differenzierbarkeitssatz für Potenzreihen anwenden, das liefert das folgende<br />
8.3 Lemma:<br />
Für t ∈ (−1,1) ist die j-te Ableitung gegeben durch<br />
8.4 Satz:<br />
g (j)<br />
X (t) =<br />
∞�<br />
k · (k − 1) · ... · (k − j + 1) · pk · t (k−j) .<br />
k=j<br />
Die Verteilung von X ist durch gX festgelegt.<br />
Beweis:<br />
Es gilt P(X = 0) = p0 = gx(0) und mit obigem Lemma g (j)<br />
x (0) = j! · pj, das heißt<br />
Es folgt die Behauptung.<br />
Beispiel 8.5:<br />
Sei X ∼ Poi(λ). Dann gilt<br />
k=0<br />
pk<br />
P(X = j) = 1<br />
· g(j)<br />
X j! (0).<br />
∞�<br />
gX(t) = exp(−λ) · λk<br />
·t<br />
� ��<br />
k!<br />
�<br />
k ∞� (λt)<br />
= exp(−λ)<br />
k<br />
= exp(−λ) · exp(λ · t)<br />
k!<br />
Diese Funktion sieht für λ = 2 wie folgt aus:<br />
3 Das meint entwe<strong>der</strong> R<br />
2<br />
1<br />
k=0<br />
−1 0 1 t<br />
Abbildung 10: Die erzeugende Funktion gX für X ∼ Poi (2).<br />
��<br />
R o<strong>der</strong> C<br />
��<br />
C!
88 8 Erzeugende Funktion und Verzweigungsprozesse<br />
Beispiel 8.6:<br />
Sei X ∼ B(n,p). Dann gilt<br />
gX(t) =<br />
Diese Funktion sieht für n = 2 und p = 1<br />
2<br />
8.7 Satz (Eigenschaften):<br />
Sei g = gX eine erzeugende Funktion.<br />
n�<br />
k=0<br />
� �<br />
n<br />
p<br />
k<br />
k · (1 − p) n−k · t k<br />
= (p · t + (1 − p)) n<br />
wie folgt aus:<br />
2<br />
1<br />
−1 0 1 t<br />
Abbildung 11: Die erzeugende Funktion gX für X ∼ B � 2, 1<br />
�<br />
2 .<br />
• Für 0 ≤ t ≤ 1 ist g stetig, monoton wachsend und konvex.<br />
• Es gilt<br />
Beweis:<br />
und allgemeiner<br />
lim<br />
tր1 g(1) (t) = E(X)<br />
lim<br />
tր1 g(j) (t) = E (X · (X − 1) · (X − 2) · ... · (X − j + 1)) .<br />
Man nennt dies j-tes faktorielles Moment von X.<br />
• Als absolut konvergente Potenzreihe ist g in [−1,1] stetig. Da mit dem Lemma<br />
g ′ (t) =<br />
∞�<br />
k · pkt k−1<br />
gilt und k · pk ≥ 0 ist, ist g ′ ≥ 0 in [0,1] und daher g monoton wachsend in [0,1].<br />
k=1<br />
g ist konvex, da es eine positive (pk ≥ 0!) Linearkombination <strong>der</strong> konvexen Funktion t ↦→ t k mit<br />
k ≥ 0 ist.<br />
• Der Abel’sche Grenzwertsatz besagt: Wenn ak ≥ 0 und ak ∈ R so gilt<br />
∞�<br />
lim akt k ∞�<br />
=<br />
tր1<br />
k=0<br />
wobei beide Seiten ∞ sein können. Mit <strong>der</strong> Transformationsformel für den Erwartungswert (Satz<br />
5.12) gilt für die Funktion h(k) := k · (k − 1) · ... · (k − j + 1)<br />
lim<br />
tր1 g(j) (t) =<br />
k=0<br />
ak<br />
∞�<br />
k · (k − 1) · ... · (k − j + 1) · pk<br />
k=j<br />
Transformationsformel<br />
= E(h(X))<br />
= E(X(X − 1)(X − 2) · ... · (X − j + 1)).
8 Erzeugende Funktion und Verzweigungsprozesse 89<br />
Beispiel 8.8:<br />
Sei X ∼ Poi(λ). Wir wollen nun E(X) und V (X) analytisch bestimmen (obwohl wir das Ergebnis ja<br />
schon kennen).<br />
Die erzeugende Funktion ist nach Beispiel 8.5<br />
Man berechnet die Ableitungen<br />
Mit dem Satz ist<br />
und<br />
Wir erhalten durch Umstellen<br />
8.9 Satz:<br />
gX(t) = exp(−λ) · exp(λt).<br />
g (1)<br />
X (t) = exp(−λ) · λ · exp(λt)<br />
g (2)<br />
X (t) = exp(−λ) · λ2 · exp(λt).<br />
E(X) = lim g<br />
tր1 (1)<br />
X = exp(−λ) · exp(λ) · λ = λ<br />
E(X(X − 1)) = E � X 2� − E(X) = lim<br />
tր1 g (2)<br />
X (t) = λ2 .<br />
V (X) = E � X 2� − (E(X)) 2 = � λ 2 + λ � − λ 2 = λ.<br />
Seien X,Y unabhängige Zufallsvariablen mit Werten in N0. Dann gilt<br />
Beweis:<br />
gX+Y (t) = gX(t) · gY (t), t ∈ [−1,1] .<br />
Sei t ∈ [−1,1] fest. Wir sehen mit <strong>der</strong> Transformationsformel (Satz 5.12) für die Funktion h(x) := tx ,<br />
x ≥ 0:<br />
E � t X� ∞�<br />
= E (h(X)) = t k · P(X = k) = gX (t) .<br />
k=0<br />
Nach dem Blockungslemma sind auch die Zufallsvariablen t X und t Y unabhängig und mit <strong>der</strong> Produktformel<br />
für den Erwartungswert unabhängiger Zufallsvariablen (Satz 5.19) folgt<br />
Das zeigt schon die Behauptung.<br />
Beispiel 8.10:<br />
gX+Y (t) = E � t X+Y � = E � t X · t Y � = E(t X ) · E(t Y ) = gX(t) · gY (t).<br />
Wir wollen nun mit dieser Formel zeigen, dass<br />
gilt.<br />
Beweis:<br />
Poi(λ)⋆Poi(µ) = Poi(λ + µ)<br />
Seien X ∼ Poi(λ) und Y ∼ Poi(µ) unabhängig. Dann gilt<br />
gX+Y (t)<br />
Satz 8.9<br />
= gX(t) · gY (t)<br />
= exp(λ)exp(λt)exp(−µ)exp(µt)<br />
= exp(−(λ + µ))exp((λ + µ)t)<br />
und da nach Satz 8.4 die Verteilung von X +Y bereits durch gX+Y festgelegt ist folgt die Behauptung.<br />
Wir wollen an dieser Stelle noch einen zweiten, elementaren Beweis ohne Benutzung des Erwartungswertes<br />
bzw. des Blockungslemmas für die oben schon gezeigte Formel<br />
gX+Y (t) = gX(t) · gY (t), t ∈ [−1,1] (8.1)<br />
für unabhängige Zufallsvariablen X,Y mit Werten N0 geben:
90 8 Erzeugende Funktion und Verzweigungsprozesse<br />
Beweis:<br />
Per Definition ist<br />
gX+Y (t) =<br />
was die Behauptung schon zeigt.<br />
Folgerung 8.11:<br />
(7.2)<br />
=<br />
Cauchy-Reihenprodukt<br />
=<br />
∞�<br />
P (X + Y = k) t k<br />
k=0<br />
⎛<br />
⎞<br />
∞� k�<br />
⎝ P (X = j) · P (Y = k − j) ⎠ t k<br />
k=0<br />
j=0<br />
����<br />
=t j ·t k−j<br />
⎛<br />
∞�<br />
⎝ P (X = j) t j<br />
⎞ �<br />
∞�<br />
⎠ · P (Y = k) t k<br />
�<br />
j=0<br />
= gX(t) · gY (t),<br />
Für endlich viele unabhängige, N0-wertige Zufallsvariablen X1,...,Xn gilt<br />
als Funktion.<br />
Beweis:<br />
Einfach induktiv (8.1) anwenden.<br />
gX1+...+Xn<br />
8.12 Satz (Erzeugende Funktion für zufällige Summe):<br />
= gX1 · ... · gXn<br />
Seien N,X1,X2,... unabhängige, N0-wertige diskrete Zufallsvariablen auf (Ω,P), s.d. die Zufallsvariablen<br />
X1,X2,... alle die gleiche Verteilung haben. Setze<br />
Dann ist<br />
SN (ω) :=<br />
Beweis:<br />
Da nach dem Blockungslemma auch N und n�<br />
fest, dass<br />
N(ω) �<br />
j=1<br />
Xi (ω) , ω ∈ Ω.<br />
k=0<br />
gSN (t) = (gN ◦ gX1 ) (t) = gN (gX1 (t)) ∀ t ∈ [−1,1] .<br />
i=1<br />
P (Sn = k) =<br />
=<br />
Xi für jedes n ∈ N0 unabhängig sind, stellen wir zunächst<br />
∞�<br />
P (N = n,Sn = k)<br />
n=0<br />
∞�<br />
P (N = n) · (Sn = k) (8.2)<br />
Damit folgt direkt aus <strong>der</strong> Definition <strong>der</strong> erzeugenden Funktion für t ∈ [−1,1], dass<br />
(t) =<br />
∞�<br />
P (SN = k) · t k<br />
gSN<br />
(8.2)<br />
=<br />
absolute Konvergenz<br />
=<br />
=<br />
X1,X2,... gleich verteilt<br />
=<br />
k=0<br />
∞�<br />
n=0<br />
k=0 n=0<br />
∞�<br />
P (N = n) · P (Sn = k) · t k<br />
∞�<br />
P (N = n)<br />
n=0<br />
∞�<br />
n=0<br />
∞�<br />
P (Sn = k) · t k<br />
k=0<br />
� �� �<br />
Folgerung 8.11<br />
=gSn (t) = gX (t)·...·gXn 1 (t)<br />
P (N = n) gX1 (t) · ... · gXn (t)<br />
∞�<br />
P (N = n) (gX1 (t))n<br />
n=0<br />
= gN (gX1 (t)).
8 Erzeugende Funktion und Verzweigungsprozesse 91<br />
Das zeigt die Behauptung.<br />
Als Korollar erhalten wir hier einen Spezialfall (N0-wertige Zufallsvariablen) <strong>der</strong> Wald’schen Identität:<br />
Korollar 8.13:<br />
Unter den Voraussetzungen von Satz 8.12 gilt<br />
Beweis:<br />
E (SN) = E (N) · E (X1) .<br />
Für jede Zufallsvariable X ist nach Satz 8.7 E (X) = lim g<br />
tր1 ′ X (t). Daher folgt:<br />
E (SN) = lim<br />
tր1 g ′ SN (t)<br />
Satz 8.12<br />
= lim<br />
tր1 (gN ◦ gX1 )′ (t)<br />
= lim<br />
tր1 g (X1) (t) · g ′ N (gX1 (t))<br />
= lim<br />
tր1 g (X1) (t) · lim<br />
tր1 g ′ N (gX1 (t))<br />
Da nach Bemerkung 8.2 gX1 (1) = 1 gilt und gX1 nach Satz 8.7 monoton wachsend ist, gilt<br />
Da lim g<br />
tր1 ′ N (t) = E(N) existiert, folgt<br />
was die Behauptung zeigt.<br />
gX1<br />
(t) ր 1 für t ր 1.<br />
E (SN) = lim<br />
tր1 g (X1) (t) · lim<br />
tր1 g ′ N (gX1 (t))<br />
= lim<br />
tր1 g (X1) (t) · lim<br />
tր1 g ′ N (t)<br />
= E(X1) · E(N),
92 8 Erzeugende Funktion und Verzweigungsprozesse<br />
8.1 Verzweigungsprozesse<br />
Wir nehmen an, dass es in <strong>der</strong> 0-ten Generation Z0 = 1 Teilchen gibt. Dieses erzeugt eine zufällige Anzahl<br />
k ∈ N0 von Nachkommen gemäß einer Wahrscheinlichkeitsfunktion, die durch p0,p1,p2,... gegeben ist.<br />
Dabei bezeichnet pi die Wahrscheinlichkeit, dass i Nachkommen erzeugt werden etc..<br />
Diese Nachkommen bilden die erste Generation.<br />
Die Teilchen <strong>der</strong> ersten Generation erzeugen dann unabhängig voneinan<strong>der</strong> wie<strong>der</strong> Nachkommen nach<br />
dem gleichen Zufallsgesetz p0,p1,p2,.... Diese Nachkommen bilden dann die zweite Generation usw..<br />
8.1.1 Modellbildung<br />
Diesen Prozess wollen wir nun modellieren:<br />
Sei (pk) k∈N0 die vorgegebene Wahrscheinlichkeitsfunktion. Seien außerdem Xn,j für n,j ∈ N unabhängige<br />
Zufallsvariablen mit Werten in N0 und P (Xn,j = k) = pk für alle n,j ∈ N und k ∈ N0. Sei zuletzt Z0 = 1.<br />
Die Anzahl <strong>der</strong> Teilchen in <strong>der</strong> ersten Generation sei durch Z1 := X1,1 gegeben. Wir definieren nun<br />
induktiv die Anzahl <strong>der</strong> Teilchen in <strong>der</strong> n-ten Generation:<br />
Ist Zn−1 (also die Anzahl Teilchen in <strong>der</strong> n-ten Generation) schon definiert, so setze<br />
Zn :=<br />
Zn−1 �<br />
j=1<br />
Die Xn,j entspricht also <strong>der</strong> Anzahl an Nachkommen, die das j-te Element aus <strong>der</strong> n − 1-ten Generation<br />
zur n-ten Generation beisteuert.<br />
Xn,j.<br />
Die Folge von Zufallsvariablen (Zn) n∈N heißt dann Galton-Watson-Prozess.<br />
8.1.2 Motivation<br />
Verzweigungsprozesse werden aus den verschiedensten Motivationen heraus betrachtet: So interessierten<br />
sich um 1870 einige Forscher für die Wahrscheinlichkeit des Aussterbens von Familiennamen, welche<br />
mittels eines Verzweigungprozesses wie oben berechnet werden kann.<br />
Heutzutage werden Verzweigungsprozesse vor allem in <strong>der</strong> Kernphysik und beim Studium von Netzwerken<br />
gebraucht.<br />
8.1.3 Aussterbewahrscheinlichkeit<br />
Sei qn := P (Zn = 0) die Wahrscheinlichkeit, dass die n-te Generation leer ist (d.h. zur Generation n<br />
o<strong>der</strong> früher ” ausgestorben“), n ∈ N. Dann ist q1 die Wahrscheinlichkeit, dass <strong>der</strong> Prozess in <strong>der</strong> ersten<br />
Generation ausstirbt usw..<br />
Offenbar ist das Ereignis, dass <strong>der</strong> ganze Prozess irgendwann ausstirbt, gegeben als<br />
J :=<br />
∞�<br />
{Zn = 0} .<br />
n=1<br />
Auch klar ist, dass {Zn = 0} ⊂ {Zn+1 = 0} für alle n ∈ N gilt, da <strong>der</strong> Prozess natürlich ausgestorben<br />
bleibt, wenn er einmal ausgestorben ist. Mit (R9) aus §1 folgt<br />
q = P (J ) = lim<br />
n→∞ P (Zn = 0) = lim<br />
n→∞ qn.<br />
Wir nennen q auch die Aussterbewahrscheinlichkeit des Prozesses.<br />
Zur Bestimmung von q können wir also die Zahlen qn berechnen. Dazu wollen wir die erzeugenden<br />
Funktionen gZn (0) = P (Zn = 0) = qn nutzen.<br />
Da nach Konstruktion alle Zufallsvariablen Xn,j die gleiche Verteilung, ergo auch die gleiche erzeugende<br />
Funktion<br />
∞�<br />
g (t) := gXn,j (t) = pkt k<br />
mit den am Anfang vorgegebenen Zahlen pk haben, gilt<br />
gZ1<br />
k=0<br />
Z1=X1,1<br />
= gX1,1 = g.
8 Erzeugende Funktion und Verzweigungsprozesse 93<br />
Genauso folgt<br />
und induktiv<br />
Daher ist<br />
8.14 Lemma:<br />
Die Zahl<br />
Z1 �<br />
Z2 =<br />
j=1<br />
Z2 �<br />
Z3 =<br />
j=1<br />
X2,j<br />
X3,j<br />
(8.12)<br />
⇒ gZ2 = gZ1 ◦ gX1,1 = g ◦ g<br />
(8.12)<br />
⇒ gZ3 = gZ2 ◦ gX2,1 = g ◦ g ◦ g<br />
gZn<br />
= g ◦ ... ◦ g .<br />
� �� �<br />
n−mal<br />
q = lim<br />
n→∞ qn = lim gZn (0) = lim<br />
n→∞ n→∞<br />
q = lim<br />
n→∞<br />
g ◦ ... ◦ g(0)<br />
� �� �<br />
n−mal<br />
ist die kleinste Lösung <strong>der</strong> Gleichung g(t) = t im Intervall [0,1].<br />
Beweis:<br />
g ◦ ... ◦ g(0).<br />
� �� �<br />
n−mal<br />
Da g monoton steigend ist und g(1) = 1 gilt, ist g eine Selbstabbildung auf [0,1]. Daher ist g(0) ≥ 0 und<br />
entsprechend g(g(0)) ≥ g(0) mit <strong>der</strong> Monotonie. Induktiv folgt, dass die Folge qn = g ◦ ... ◦ g(0) monoton<br />
wachsend und durch 1 beschränkt ist. Daher existiert die Zahl q.<br />
Jetzt zeigen wir zunächst, dass q eine Lösung von g(t) = t ist:<br />
�<br />
g(q) = g<br />
lim<br />
n→∞<br />
g ◦ ... ◦ g(0)<br />
� �� �<br />
n−mal<br />
� g stetig<br />
= lim g ◦ ... ◦ g (0) = q.<br />
n→∞ � �� �<br />
(n+1)−mal<br />
Bleibt zu zeigen, dass q die kleinste Zahl aus [0,1] mit dieser Eigenschaft ist.<br />
Sei x ∈ [0,1] mit g(x) = x. Insbeson<strong>der</strong>e gilt dann auch für alle n ∈ N<br />
Aus <strong>der</strong> Monotonie von g folgt<br />
g ◦ ... ◦ g(x)<br />
= x.<br />
� �� �<br />
n−mal<br />
0 ≤ x ⇒ g(0) ≤ g(x) = x ⇒ g(g(0)) ≤ g(g(x)) = x ⇒ g ◦ ... ◦ g(0)<br />
≤ x ∀ n ∈ N.<br />
� �� �<br />
n−mal<br />
Durch Bilden des Grenzwertes n<br />
8.15 Definition:<br />
Wir nennen g : [0,1]<br />
mischen Systems.<br />
��<br />
∞ erhält man die Behauptung.<br />
��<br />
[0,1] ein dynamisches System und die Zahl q heißt Grenzwert des dyna
94 8 Erzeugende Funktion und Verzweigungsprozesse<br />
Beispiel 8.16:<br />
Sei pk := exp(−λ) λk<br />
k!<br />
1 mit λ = 2 , so kann man am Graphen <strong>der</strong> erzeugenden Funktion<br />
g(t) = exp (−λ) exp (λt)<br />
leicht sehen, dass t = 1 die kleinste Lösung <strong>der</strong> Gleichung g(t) = t ist:<br />
g(t)<br />
Abbildung 12: Die Funktion g(t) = exp � −1 � �<br />
1<br />
2 exp 2t� .<br />
Daher ist hier q = 1, was bedeutet, dass <strong>der</strong> Prozess mit Sicherheit ausstirbt!<br />
Verwendet man dagegen λ = 2, so kann man am Graphen von g(t) = exp (−λ)exp (λt) leicht sehen, das<br />
<strong>der</strong> kleinste Wert t mit g(t) = t kleiner als 1 (nämlich t ≈ 0.2032) ist:<br />
g(t)<br />
�<br />
Abbildung 13: Die Funktion g(t) = exp(−2) exp (2t).<br />
Wir wollen nun noch einige Aussagen über q allein mittels <strong>der</strong> Zahlen p0 = P (Xn,j = 0) und E (Xn,j)<br />
ohne Beweis angeben. Den Beweis lassen wir allein deshalb weg, weil er elementare Analysis ist und sonst<br />
nichts mit <strong>Stochastik</strong> zu tun hat.<br />
8.17 Satz (ohne Beweis):<br />
(1) Ist p0 = 0, so gilt q = 0.<br />
(2) Ist p0 > 0 und E (Xn,j) > 1, so ist q ∈ ]0,1[.<br />
(3) Ist p0 > 0 und E (Xn,j) = 1, so gilt trotzdem q = 1.<br />
Auf den Übungsblättern wird für die Zahlen pk := p · (1 − p) k explizit gezeigt, dass<br />
q < 1 ⇔ E (Xn,j) > 1.<br />
t<br />
t<br />
�<br />
�
9 Grenzwertsatz von de Moivre-Laplace 95<br />
9 Grenzwertsatz von de Moivre-Laplace<br />
9.1 Normalapproximation <strong>der</strong> Binomialverteilung<br />
Diese Approximation liefert ein Ergebnis für Summen unabhängiger Bernoulli-Variablen. Später wird sie<br />
als Spezialfall eines allgemeinen ” zentralen Grenzwertsatzes“ bewiesen.<br />
Seien X1,X2,...Xn unabhängig und nach B(1,p) verteilt. Sei Sn = X1 + X2 + ... + Xn. Man stellt sich<br />
0 < p < 1 fest vor und n als variabel.<br />
Sei p = 1<br />
2 . Betrachte zum Beispiel Stabdiagramme für<br />
• n = 1 und S1 = X1,<br />
• n = 2 und S2 = X1 + X2 ∼ B � 2, 1<br />
�<br />
2 ,<br />
• n = 50 und Sn = 50�<br />
i=1<br />
Xi ∼ B � 50, 1<br />
�<br />
2 .<br />
Lässt man nun n gegen unendlich laufen, so ist Sn ∼ B(n,p), d.h. <strong>der</strong> Erwartungswert E(Sn) = n · p<br />
sowie die Varianz V (Sn) = n·p·(1−p) gehen gegen unendlich - die Verteilung streut immer mehr. Genau<br />
das sehen wir auch bei Betrachtung <strong>der</strong> Stabdiagramme.<br />
Beide Effekte kann man ” stabilisieren“ indem man zu standardisierten Zufallsvariablen übergeht:<br />
Setze<br />
Dann gilt für alle n ∈ N:<br />
E (S ∗ n) = E<br />
=<br />
S ∗ n = Sn − E(Sn)<br />
� .<br />
V (Sn)<br />
= 0,<br />
V (S ∗ n) = V<br />
=<br />
= V (Sn)<br />
= 1.<br />
�<br />
�<br />
Sn − E(Sn)<br />
�<br />
V (Sn)<br />
1<br />
� V (Sn) · E (Sn − E(Sn))<br />
�<br />
�<br />
Sn − E(Sn)<br />
�<br />
V (Sn)<br />
1<br />
V (Sn) · V (Sn − E(Sn))<br />
V (Sn)<br />
Die Werte, die die Zufallsvariable S ∗ n annimmt, sind<br />
Beispiel 9.1:<br />
x0,x1,...xn ∈ R wobei xk =<br />
k − np<br />
√ npq , 0 ≤ k ≤ n,q = 1 − p.<br />
• Für n = 100, p = 1<br />
2 ist zum Beispiel xk = k−50 k<br />
5 = 5 − 10, 0 ≤ k ≤ 100.<br />
Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 5 Werte an.<br />
• Für n = 10.000, p = 1<br />
2 ist zum Beispiel xk = k−5000 k<br />
50 = 50 − 100, 0 ≤ k ≤ 100.<br />
Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 50 Werte an.<br />
Wir möchten nun die Wahrscheinlichkeit bestimmen, dass S ∗ n in einem Intervall [a,b] liegt. Dazu formulieren<br />
wir den folgenden Satz.
96 9 Grenzwertsatz von de Moivre-Laplace<br />
9.2 Satz (Grenzwertsatz von de Moivre-Laplace):<br />
Sei<br />
Sei 0 < p < 1 fest und seien für jedes n X1,...Xn<br />
Dann gilt für jedes Paar a < b mit a,b ∈ R:<br />
Mit <strong>der</strong> Stammfunktion<br />
kann man schreiben:<br />
lim<br />
n→∞ P (a ≤ S∗ n ≤ b) =<br />
ϕ(x) := 1<br />
�<br />
√ exp −<br />
2π x2<br />
�<br />
, x ∈ R.<br />
2<br />
�b<br />
a<br />
i.i.d<br />
∼ B(1,p).<br />
ϕ(x)dx bzw. einseitig lim<br />
n→∞ P (S∗ n ≤ b) =<br />
Φ(t) :=<br />
�t<br />
−∞<br />
ϕ(τ)dτ, t ∈ R<br />
lim<br />
n→∞ P (a ≤ S∗ n ≤ b) = Φ(b) − Φ(a).<br />
Der Beweis folgt später aus dem zentralen Grenzwertsatz (Satz 10.100).<br />
Bemerkung 9.3:<br />
Die Aussagen gelten auch für ”
9 Grenzwertsatz von de Moivre-Laplace 97<br />
O<strong>der</strong> direkt als Funktion:<br />
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />
−4.0−3.6<br />
−3.2−2.8<br />
−2.4−2.0<br />
−1.6−1.2<br />
−0.8−0.4<br />
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � ��<br />
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />
0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0<br />
Abbildung 16: Die Verteilungsfunktion Φ <strong>der</strong> Standardnormalverteilung.<br />
Für Φ(t) gibt es keinen geschlossenen Ausdruck, daher ist es für Werte t ≥ 0 tabelliert:<br />
Beispiel 9.8:<br />
• Φ(1) ≈ 0.8413,<br />
• Φ(1.645) ≈ 0.95,<br />
• Φ(1.96) ≈ 0.975,<br />
d.h. zum Beispiel<br />
Für weitere Werte siehe Anhang A.<br />
Bemerkung 9.9:<br />
lim<br />
n→∞ P (S∗ n ≤ 1)<br />
n<br />
��<br />
∞ ��<br />
Φ(1) = 0.8413.<br />
Um Φ an negativen Stellen auszuwerten, betrachtet man für t > 0:<br />
Beispiel 9.10:<br />
Seien X1,...,Xn<br />
Dann bestimmt man<br />
i.i.d<br />
∼ B(1,p),<br />
Φ(−t) =<br />
Symmetrie von ϕ<br />
=<br />
Sn :=<br />
=<br />
�−t<br />
−∞<br />
�<br />
t<br />
∞<br />
�∞<br />
−∞<br />
ϕ(τ)dτ<br />
ϕ(τ)dτ<br />
= 1 − Φ(t)<br />
n�<br />
i=1<br />
ϕ(τ)dτ −<br />
�t<br />
−∞<br />
Xi und S ∗ n := Sn − np<br />
√ npq .<br />
lim<br />
n→∞ P(−1 ≤ S∗ n ≤ 1) = Φ(1) − Φ(−1)<br />
ϕ(τ)dτ<br />
= Φ(1) − (1 − Φ(1))<br />
= 2Φ(1) − 1<br />
Tabelle<br />
= 2 · 0.8413 − 1 ≈ 0.68
98 9 Grenzwertsatz von de Moivre-Laplace<br />
9.2 Anwendung I: Normalapproximation <strong>der</strong> Binomialverteilung<br />
Wir erinnern uns: Die Poissonapproximation mit λ = n ·p für B(n,p) ist eine gute Approximation, wenn<br />
p sehr klein ist.<br />
Die Normalapproximation die wir nun vorstellen wollen ist gut, wenn p nicht zu nahe bei 0 o<strong>der</strong> 1 ist.<br />
Als Faustregel für ” gut“ gilt hier: npq ≥ 9.<br />
Für Sn ∼ B(n,p) und ganzzahlige Werte 0 ≤ i ≤ j ≤ n gilt<br />
Bemerkung 9.11:<br />
P(i ≤ Sn ≤ j) =<br />
�<br />
i − np<br />
P √<br />
npq<br />
� �� �<br />
=:a<br />
de Moivre<br />
≈ Φ<br />
� j − np<br />
√ npq<br />
≤ Sn − np<br />
√<br />
npq<br />
� �� �<br />
=S∗ ≤<br />
n<br />
�<br />
− Φ<br />
sup | P (a ≤ S<br />
a
9 Grenzwertsatz von de Moivre-Laplace 99<br />
Bei <strong>der</strong> Rechnung mit Korrekturtermen ergibt sich:<br />
� 1 � � 1<br />
10 + 2 −10 − 2<br />
P (90 ≤ Sn ≤ 110) ≈ Φ − Φ<br />
9.13 9.13<br />
� �<br />
10.5<br />
= 2 · Φ − 1<br />
9.13<br />
≈ 2 · Φ(1.15) − 1<br />
≈ 2 · 0.8749 − 1<br />
= 0.7498.<br />
Der wahre Wert liegt bei P (90 ≤ Sn ≤ 110) = 0.7501 - für n = 600 kann man diesen rechnergestützt<br />
noch leicht exakt berechnen.<br />
Mit Tschebyschow erhält man:<br />
- keine große Erkenntnis!<br />
P (90 ≤ Sn ≤ 110) = 1 − P (|Sn − 100| ≥ 11)<br />
� �� �<br />
≤<br />
V (Sn) 83.3<br />
112 = 121 ≈0.69<br />
≥ 0.31<br />
9.3 Anwendung II: Bestimmung eines Stichprobenumfangs<br />
Konkret wollen wir dies für Wahlvorhersagen durchführen. Die Aufgabe ist, den Anteil an einer Partei A<br />
aus einer Umfrage von n zufällig ausgewählten Befragten heraus zu schätzen.<br />
Wähler von A<br />
Seien X1,...Xn ∼ B(1,p) unabhängig und p = alle Wahlberechtigten , womit p unbekannt ist!<br />
Aufgabe: Schätze p durch ˆp = 1<br />
n Sn. Wie groß ist n zu wählen, damit für jedes p ∈ [0,1] mit Wahrscheinlichkeit<br />
≥ 0.95 <strong>der</strong> wahre Wert p im (zufälligen) Intervall [ˆp − ε, ˆp + ε] liegt?<br />
Sei ε = 0.01, das heißt 1% Abweichung ist erlaubt. Dann ist<br />
Es folgt<br />
Pp (p ∈ [ˆp − ε, ˆp + ε]) = Pp(−0.01 ≤ ˆp − p ≤ 0.01)<br />
Aus <strong>der</strong> Tabelle entnimmt man<br />
und somit folgt<br />
Φ<br />
= Pp<br />
de Moivre<br />
≈ Φ<br />
�<br />
�<br />
−0.01 · n nˆp − np<br />
√ ≤ √ ≤<br />
npq npq<br />
� �<br />
0.01 · n<br />
√ − Φ<br />
npq<br />
� �<br />
0.01 · n<br />
= 2 · Φ √ − 1<br />
npq<br />
� �� �<br />
!<br />
≥0.95<br />
� �<br />
0.01 · n !<br />
√ ≥<br />
npq<br />
1.95<br />
= 0.975.<br />
2<br />
Φ(t) ≥ 0.975 für t ≥ 1.96<br />
0.01·n<br />
√ npq ≥ 1.96<br />
⇔ √ n ≥ 196 √ pq<br />
⇔ n ≥ (196) 2 · pq<br />
����<br />
≤ 1<br />
4<br />
⇐ n ≥ 9604.<br />
Ist die Vorinformation p ≤ 0.1 gegeben, dann genügt es<br />
Menschen zu befragen.<br />
� �<br />
−0.01 · n<br />
√<br />
npq<br />
n ≥ (196) 2 · max<br />
p∈[0,0.1] p(1 − p) = (196)2 · 0.1 · 0.9 = 3458<br />
�<br />
0.01 · n<br />
√<br />
npq
100 10 Allgemeine Modelle und stetige Verteilungen<br />
10 Allgemeine Modelle und stetige Verteilungen<br />
Von diesem Abschnitt an wollen wir uns nicht mehr länger auf diskrete Wahrscheinlichkeitsräume beschränken.<br />
Motiviert durch den Grenzwertsatz von de Moivre (Satz 9.2) kann man sich vorstellen, eine<br />
” Zufallsgröße X“ zu betrachten, die jede reelle Zahl als Wert annehmen kann, s.d.<br />
�b<br />
P (a ≤ X ≤ b) = ϕ(t)dt = Φ(b) − Φ(a) (10.1)<br />
für a < b und die oben schon betrachtete Funktion<br />
ϕ(t) = 1<br />
�<br />
√ exp −<br />
2π t2<br />
�<br />
.<br />
2<br />
a<br />
In diesem Fall würde man sagen, dass X Standard-Normalverteilt ist und X ∼ N(0,1) schreiben.<br />
Außerdem definiert (10.1) eine Funktion, die jedem reellen Intervall [a,b] eine ” Wahrscheinlichkeit“ zuordnet.<br />
Für Anwendungen, wie wir sie ab Abschnitt 10.3 behandeln wollen, genügt diese Vorstellung voll und<br />
ganz. Wir wollen hier aber vorher etwas Hintergrund behandeln, <strong>der</strong> vorwiegend aus Maßtheorie besteht.<br />
10.1 Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen<br />
10.1 Definition:<br />
Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, A,P), s.d. Ω eine beliebige Menge und A eine<br />
σ-Algebra auf Ω ist, d.h. ein System von Teilmengen von Ω mit den folgenden Eigenschaften:<br />
(σ1) Ω ∈ A<br />
(σ2) A ∈ A ⇒ A c ∈ A<br />
(σ3) A1,A2,... ∈ A ⇒ ∞�<br />
Ai ∈ A<br />
i=1<br />
Außerdem ist P eine auf A definierte reelle Funktion mit<br />
(A1) P (A) ≥ 0 ∀ A ∈ A<br />
(A2) P (Ω) = 1<br />
(A3) Sind A1,A2,... ∈ A paarweise disjunkt, so gilt<br />
�<br />
∞�<br />
�<br />
∞�<br />
P = P (Ai) .<br />
P heißt dann (Wahrscheinlichkeits-)Verteilung auf (Ω, A).<br />
Bemerkung 10.2:<br />
i=1<br />
Das Axiom (σ3) sorgt dafür, dass Axiom (A3) Sinn macht.<br />
Beispiel 10.3:<br />
Ai<br />
Ist Ω eine diskrete (d.h. abzählbare) Menge, so kann man A = P (Ω) (d.h. die Potenzmenge von Ω)<br />
verwenden und erhält so genau die diskreten Wahrscheinlichkeitsräume, wie wir sie bisher betrachtet<br />
haben.<br />
Beispiel 10.4:<br />
Für jede Menge Ω kann man A = {∅,Ω} betrachten. Dieser Fall ist aber nicht sehr interessant, man<br />
spricht dann auch von <strong>der</strong> trivialen σ-Algebra.<br />
Bemerkung 10.5:<br />
Aus den Axiomen (σ1) bis (σ3) folgt, dass eine σ-Algebra A gegen abzählbare mengentheoretische Operationen<br />
wie Schnitte, Komplementbildung, Differenz, Vereinigung etc. abgeschlossen ist. So gilt zum<br />
Beispiel<br />
∞�<br />
��<br />
∞�<br />
�c�c �<br />
∞�<br />
�c (1.3)<br />
A1,A2,... ∈ A ⇒ Ai =<br />
= ,<br />
und die rechte Menge ist wegen (σ2) und (σ3) wie<strong>der</strong> in A.<br />
i=1<br />
i=1<br />
i=1<br />
Ai<br />
i=1<br />
A c i
10 Allgemeine Modelle und stetige Verteilungen 101<br />
Bemerkung 10.6:<br />
Für eine Wahrscheinlichkeitsverteilung P wie in <strong>der</strong> Definition oben gelten ebenfalls alle Rechenregeln,<br />
die wir am Anfang für den diskreten Fall hergeleitet haben (d.h. Siebformel, (R1) bis (R9) usw.), da diese<br />
ja nur aus den Axiomen (A1) bis (A3) gefolgert wurden.<br />
10.7 Definition:<br />
Sei (Ω, A,P) ein Wahrscheinlichkeitsraum und � Ω ′ , A ′� eine beliebige Menge Ω ′ mit σ-Algebra A ′ auf Ω ′ .<br />
Eine Zufallsvariable X auf (Ω, A,P) ist eine Abbildung X : Ω ��<br />
′ Ω s.d.<br />
gilt.<br />
Bemerkung 10.8:<br />
Allgemeine Abbildungen X : (Ω, A)<br />
10.9 Definition:<br />
X −1 (A) = {x ∈ Ω | X(x) ∈ A ′ } ∈ A ∀ A ′ ∈ A ′<br />
(10.2)<br />
��<br />
� Ω ′ , A ′� mit <strong>der</strong> Eigenschaft (10.2) nennt man auch meßbar.<br />
Sei (Ω, A,P) ein Wahrscheinlichkeitsraum und � Ω ′ , A ′� eine beliebige Menge Ω ′ mit σ-Algebra A ′ auf Ω ′ .<br />
Eine Zufallsvariable X auf (Ω, A,P) definiert durch<br />
P X (A ′ ) := P � X −1 (A ′ ) � , A ′ ∈ A ′<br />
eine Wahrscheinlichkeitsverteilung P X auf � Ω ′ , A ′� , d.h. wir erhalten einen weiteren Wahrscheinlichkeitsraum<br />
� Ω ′ , A ′ ,P X� . Wir nennen P X auch Verteilung von X.<br />
Formal müssten wir hier jetzt die Axiome (A1) bis (A3) für P X nachrechen. Das gleicht aber wörtlich<br />
dem diskreten Fall, <strong>der</strong> nach Definition 4.5 gezeigt wurde.<br />
Bemerkung 10.10:<br />
Wie im diskreten Fall auch schreibt man auch<br />
P (X ∈ A ′ ) := P � X −1 (A ′ ) � , A ′ ∈ A ′ .<br />
Man kann sich nun fragen, wozu das Mengensystem A eigentlich notwendig ist. Warum kann man nicht<br />
immer einfach mit A = P (Ω) - also <strong>der</strong> Potenzmenge - wie im diskreten Fall arbeiten? Das folgende<br />
Beispiel liefert eine Begründung:<br />
Beispiel 10.11:<br />
Es gibt keine Wahrscheinlichkeitsverteilung auf allen Teilmengen von Ω = [0,1[ mit folgen<strong>der</strong> Eigenschaft:<br />
Ist A ⊂ [0,1[ und x ∈ [0,1[ so, dass A + x := {a + x | a ∈ A} ⊂ [0,1[ ist,<br />
so gilt stets P (A) = P (A + x).<br />
Wir wollen also zeigen, dass es keine verschiebungsinvariante Wahrscheinlichkeitsverteilung auf P ([0,1[)<br />
geben kann, wie es z.B. von einer Normalverteilung“ zu erwarten wäre.<br />
”<br />
Dazu betrachten wir eine spezielle Menge A0 ⊂ � 0, 1<br />
�<br />
2 (auch Vitali-Menge genannt), die wir wie folgt<br />
konstruieren: Betrachte die Äquivalenzrelaztion<br />
auf [0,1[. Diese zerlegt [0,1[ in Äquivalenzklassen<br />
x ∼ y :⇔ |x − y| ∈ Q<br />
[x] := {y | |x − y| ∈ Q} , x ∈ [0,1[ .<br />
Gemäß dem Auswahlaxiom wähle aus je<strong>der</strong> Klasse [x] einen Vertreter z [x] ∈ � 0, 1<br />
�<br />
2 und definiere A0 als<br />
die Vereinigung all dieser Punkte. Man kann nun zeigen, dass eine Verteilung P auf P ([0,1[) sowohl<br />
als auch<br />
erfüllen müsste - ein Wi<strong>der</strong>spruch!<br />
P (A0) = 0<br />
P (A0) > 0<br />
Der einzige Ausweg ist also, P nur für bestimmte Teilmengen zu definieren, was uns zum obigen Begriff<br />
<strong>der</strong> σ-Algebra führt.<br />
Ohne Beweis wollen wir folgendes Resultat angeben:<br />
Bemerkung 10.12 (Satz von Banach-Kuratowski):<br />
Auf (R, P (R)) gibt es nur diskrete Wahrscheinlichkeitsverteilungen.
102 10 Allgemeine Modelle und stetige Verteilungen<br />
10.2 W-Verteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen<br />
Um Wahrscheinlichkeitsverteilungen ” auf R“ zu betrachten, benötigen wir zunächst eine σ-Algebra. Wir<br />
betrachten die folgende<br />
10.13 Definition:<br />
Die Borel’sche σ-Algebra B auf R ist die kleinste σ-Algebra, die alle offenen Mengen enthält.<br />
Man beachte folgenden Satz aus <strong>der</strong> Maßtheorie:<br />
10.14 Satz (ohne Beweis):<br />
Die folgenden For<strong>der</strong>ungen an eine σ-Algebra auf R sind äquivalent:<br />
(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält.<br />
(2) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle <strong>der</strong> Form [a,b] mit a < b enthält.<br />
(3) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle <strong>der</strong> Form [a,b[ mit a < b enthält.<br />
(4) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle <strong>der</strong> Form (−∞,b] mit b ∈ R enthält.<br />
Bemerkung 10.15:<br />
Die Borel’sche σ-Algebra B enthält im Wesentlichen alle Teilmengen von R, die einem in <strong>der</strong> Praxis<br />
begegnen. Allerdings enthält sie nicht alle Teilmengen von R, die Vitali-Menge A0 von oben ist nicht in<br />
B enthalten.<br />
10.16 Definition:<br />
Sei (Ω, A,P) ein Wahrscheinlichkeitsraum. Eine reelle Zufallsvariable X auf (Ω, A,P) ist eine meßbare<br />
Abbildung<br />
(Ω, A,P) X ��<br />
(R, B) .<br />
Beispiel 10.17:<br />
Ein bekannter Satz aus <strong>der</strong> Maßtheorie sagt zum Beispiel, dass jede stetige Abbildung X : R<br />
eine reelle Zufallsvariable<br />
X : (R, B,P) ��<br />
(R, B)<br />
ist.<br />
��<br />
R auch<br />
Wie oben schon gesehen, liefert X als reelle Zufallsvariable dann eine Wahrscheinlichkeitsverteilung auf R.<br />
Das meint hier dann natürlich auf (R, B). Solche Verteilungen kann man mittels Funktionen beschreiben:<br />
10.18 Definition:<br />
Eine Funktion F : R<br />
��<br />
[0,1] heißt Verteilungsfunktion, wenn<br />
(1) F monoton wachsend ist (nicht notwendiger Weise streng monoton wachsend),<br />
(2) es gilt<br />
(3) F ist rechtsstetig, d.h. für alle x ∈ R gilt<br />
Beispiel 10.19:<br />
Der folgende Graph definiert eine Verteilungsfunktion:<br />
lim F(x) = 0 und lim F(x) = 1 und<br />
x→−∞ x→∞<br />
−1<br />
F(x) = lim<br />
yցx F(y).<br />
1<br />
0 1<br />
Abbildung 17: Beispiel einer Verteilungsfunktion.<br />
t
10.20 Satz:<br />
10 Allgemeine Modelle und stetige Verteilungen 103<br />
Sei P eine Verteilung auf R. Dann ist<br />
eine Verteilungsfunktion.<br />
Beweis:<br />
Nutze aus §1 die Rechenregeln (R8) und (R9):<br />
A1 ⊃ A2 ⊃ ... ⇒ P<br />
A1 ⊂ A2 ⊂ ... ⇒ P<br />
F(x) := P ((−∞,x])<br />
� ∞�<br />
i=1<br />
� ∞�<br />
i=1<br />
Ai<br />
Ai<br />
�<br />
�<br />
= lim<br />
i→∞ P (Ai) (10.3)<br />
= lim<br />
i→∞ P (Ai) (10.4)<br />
Da P als Wahrscheinlichkeitsverteilung monoton ist (A ⊂ B ⇒ P (A) ≤ P (B)), ist auch F monoton<br />
wachsend. Außerdem folgt für An := (−∞,n]<br />
und genauso<br />
�<br />
−∞�<br />
�<br />
(10.3)<br />
lim F (x) = lim F(n) = lim P (An) = P An = P (∅) = 0<br />
x→−∞ n→−∞ n→−∞<br />
n=−1<br />
�<br />
∞�<br />
�<br />
(10.4)<br />
lim F(x) = P (−∞,n] = P (R) = 1.<br />
x→∞<br />
n=1<br />
Bleibt die Rechtsstetigkeit von F zu zeigen. Sei dazu (xn) n∈N eine Folge aus R, die gegen x ∈ R konvergiert<br />
und xn ≥ x ∀ n ∈ N erfüllt. Ohne Einschränkung können wir xn+1 ≤ xn für alle n ∈ N annehmen, denn<br />
an<strong>der</strong>nfalls wählen wir eine Teilfolge mit dieser Eigenschaft aus. Dann gilt<br />
und daher folgt<br />
Das zeigt die Behauptung.<br />
Bemerkung 10.21:<br />
∞�<br />
(−∞,xn] = (−∞,x]<br />
n=1<br />
lim<br />
n→∞ F (xn)<br />
(10.3)<br />
= lim P ((−∞,xn]) = P ((−∞,x]) = F(x).<br />
n→∞<br />
Insbeson<strong>der</strong>e gilt also: Ist X eine reelle Zufallsvariable, so ist<br />
die Verteilungsfunktion <strong>der</strong> Verteilung von X.<br />
FX(x) := P (X ≤ x) = P X ((−∞,x])<br />
Für diskrete Zufallsvariablen, die nur die Werte x1,x2,... annehmen, ist<br />
FX(x) =<br />
∞�<br />
P (X = xi) = P (X ≤ x) .<br />
i=1<br />
x i ≤x<br />
Im Folgenden sehen wir etwa den Graphen von FX für eine Zufallsvariable X ∼ B � 2, 1<br />
�<br />
, denn es gilt<br />
P (X = 0) = 1<br />
4<br />
, P (X = 1) = 1<br />
2<br />
, P (X = 2) = 1<br />
4 :<br />
1<br />
�<br />
�<br />
0 1 2 3<br />
Abbildung 18: Der Graph <strong>der</strong> Verteilungsfunktion FX für X ∼ B � 2, 1<br />
�<br />
2 .<br />
Wir zitieren nun folgenden Satz aus <strong>der</strong> Maßtheorie:<br />
�<br />
2
104 10 Allgemeine Modelle und stetige Verteilungen<br />
10.22 Satz (Umkehrung):<br />
Ist F eine Verteilungsfunktion, so gibt es genau eine Verteilung P auf R (d.h. auf (R, B)), s.d.<br />
gilt. Damit gilt dann auch<br />
für alle a < b ∈ R.<br />
Bemerkung 10.23:<br />
P ((−∞,x]) = F(x) ∀ x ∈ R<br />
P ((−∞,b]) − P ((−∞,a]) = ((a,b]) = F (b) − F (a)<br />
Die Sätze 10.20 und 10.22 zeigen, dass es eine Bijektion zwischen <strong>der</strong> Menge aller Verteilungsfunktionen<br />
und <strong>der</strong> Menge aller Verteilungen auf R gibt. Die Abbildung F ↦→ P wird dabei durch Satz 10.22 geliefert.<br />
Sie ist nach Satz 10.20 surjektiv, und wie wir nun sehen werden auch injektiv:<br />
Sind F1,F2 zwei Verteilungsfunktionen mit F1 �= F2, so gibt es ein x ∈ R mit F1(x) �= F2(x). Entsprechend<br />
erfüllen dann die zugehörigen Verteilungen P1 und P2<br />
womit die Verteilungen nicht gleich sein können.<br />
10.3 Stetige Verteilungen<br />
10.24 Definition:<br />
10.25 Satz:<br />
Eine Dichte ist eine integrierbare Funktion f : R<br />
dass<br />
P1 ((−∞,x]) = F1(x) �= F2(x) = P2 ((−∞,x]),<br />
�∞<br />
−∞<br />
Beachte, das ” integrierbar“ hier ” Riemann-integrierbar“ heißt.<br />
��R<br />
mit f(t) ≥ 0 für alle t ∈ R und <strong>der</strong> Eigenschaft,<br />
f(t)dt = 1. (10.5)<br />
Wir wollen in dieser Vorlesung nur Dichten betrachten, die stetig bis auf<br />
höchstens endlich viele Sprungstellen sind!!<br />
Zu je<strong>der</strong> Dichte f gibt es genau eine Verteilung P auf R mit<br />
für a < b ∈ R.<br />
Beweis:<br />
Setze<br />
P (]a,b]) =<br />
F(x) :=<br />
�x<br />
−∞<br />
�b<br />
a<br />
f(t)dt<br />
f(t)dt.<br />
Da f nur endlich viele Sprungstellen hat, wissen wir bereits aus <strong>der</strong> Analysis I, dass F stetig ist. Außerdem<br />
folgt wegen <strong>der</strong> Positivität von f, dass F monoton wachsend ist. Wegen (10.5) ist lim F(x) = 1. Das<br />
x→∞<br />
lim F(x) = 0 gilt ist klar.<br />
x→−∞<br />
Nach Satz 10.22 gibt es genau eine Verteilung P auf R (das meint natürlich wie<strong>der</strong> auf (R, B)) mit <strong>der</strong><br />
Eigenschaft wie in <strong>der</strong> Behauptung.<br />
10.26 Definition:<br />
Wahrscheinlichkeitsverteilungen auf R, für die es eine Dichte f mit<br />
P (]a,b]) =<br />
für alle a < b gibt, nennt man stetige Verteilungen.<br />
�b<br />
a<br />
f(t)dt
10 Allgemeine Modelle und stetige Verteilungen 105<br />
10.27 Definition:<br />
Eine reelle Zufallsvariable X heißt stetig verteilt, wenn die Verteilung P X von X eine Dichte hat, d.h.<br />
wenn<br />
�b<br />
P (a ≤ X ≤ b) = f(t)dt<br />
für eine geeignete Dichte f gilt.<br />
Bemerkung 10.28:<br />
Ist P eine stetige Verteilung, so gilt<br />
für alle x ∈ R.<br />
Beweis:<br />
Es gilt<br />
a<br />
P ({x}) = 0<br />
P ({x}) (10.3)<br />
= lim<br />
n→∞ P<br />
��<br />
x − 1<br />
n ,x<br />
��<br />
= lim<br />
n→∞<br />
�x<br />
x− 1<br />
n<br />
f(t)dt = 0<br />
nach unserer Annahme, dass f stetig bis auf höchstens endlich viele Sprungstellen ist.<br />
Folgerung 10.29:<br />
Insbeson<strong>der</strong>e gilt für stetige Verteilungen also<br />
usw..<br />
P ([a,b]) = P (]a,b])<br />
Ab jetzt betrachten wir nur noch Zufallsvariablen mit stetigen Verteilungen, d.h. solche, für die es eine<br />
Dichte f mit<br />
�b<br />
P (a ≤ X ≤ b) = f(t)dt<br />
gibt.<br />
10.4 Zufallsvariablen mit stetiger Verteilung<br />
In diesem Abschnitt wollen wir einige stetige Verteilungen vorstellen und einen Überblick <strong>der</strong> Eigenschaften<br />
geben:<br />
10.4.1 Die Gleichverteilung<br />
Die Dichte <strong>der</strong> Gleichverteilung auf dem Einheitsintervall [0,1] ist gegeben durch<br />
�<br />
1<br />
f (t) = 1 [0,1](t) =<br />
0<br />
falls t ∈ [0,1]<br />
falls t /∈ [0,1]<br />
, t ∈ R.<br />
Ist eine Zufallsvariable X gleichverteilt auf [0,1], so schreiben wir auch<br />
a<br />
X ∼ U (0,1) .<br />
Die zugehörige Verteilungsfunktion ist<br />
⎧<br />
⎪⎨ 0 falls x ≤ 0<br />
F (x) = P (X ≤ x) = x falls 0 ≤ x ≤ 1<br />
⎪⎩<br />
1 falls x ≥ 1<br />
Den Graph dieser Funktion haben wir schon als Abbildung 17 gesehen.<br />
Allgemeiner:<br />
Die Gleichverteilung auf einem reellen Intervall [r,s] ist gegeben durch die Dichte<br />
f(t) = 1<br />
s − r 1 [r,s](t).<br />
Ist X eine gleichverteilte Zufallsvariable auf [r,s], so schreiben wir auch<br />
X ∼ U (r,s) .<br />
.
106 10 Allgemeine Modelle und stetige Verteilungen<br />
10.4.2 Die Normalverteilung<br />
Die Dichte <strong>der</strong> Normalverteilung N � µ,σ 2� mit µ ∈ R, σ 2 ∈ (0, ∞) ist gegeben als<br />
ϕ µ,σ 2(t) = f(t) :=<br />
1<br />
√<br />
2πσ2 exp<br />
�<br />
(x − µ)2<br />
−<br />
2σ2 �<br />
.<br />
Wir kennen schon den Spezialfall µ = 0,σ 2 = 1 <strong>der</strong> Standard-Normalverteilung. Wir werden später noch<br />
sehen, dass für eine Zufallsvariable X ∼ N � µ,σ 2� die Zahl µ <strong>der</strong> Erwartungswert und σ 2 die Varianz ist.<br />
Solche Zufallsvariablen X ∼ N � µ,σ 2� verwendet man etwa dann, wenn X eine ungenaue Messung mit<br />
Erwartungswert (bekannt z.B. aus <strong>der</strong> Theorie) µ ist. Insbeson<strong>der</strong>e simuliert man damit eine Verteilung<br />
natürlicher Messgrößen.<br />
Die Verteilungsfunktion<br />
Φ(x) =<br />
�x<br />
−∞<br />
ϕ0,1(t)dt<br />
<strong>der</strong> Standard-Normalverteilung ist tabelliert. Mit Hilfe dieser Tabelle kann man aber auch<br />
�x<br />
−∞<br />
ϕ µ,σ 2 (t) dt,<br />
also die Verteilungsfunktion einer beliebigen Normalverteilung, berechnen, wie wir in Bemerkung 10.36<br />
sehen werden.<br />
Außerdem zeigen wir in Beispiel 10.35, dass<br />
gilt.<br />
10.4.3 Die Exponentialverteilung<br />
X ∼ N (0,1) ,µ ∈ R,σ ∈ (0, ∞) ⇒ Y = σX + µ ∼ N (µ,σ)<br />
Setze für einen reellen Parameter λ > 0 die Dichte <strong>der</strong> Exponentialverteilung als<br />
f(t) :=<br />
fest. Diese Funktion sieht für λ = 2 wie folgt aus:<br />
� λ exp (−λt) falls t ≥ 0<br />
−1<br />
0 falls t < 0<br />
1<br />
0 1<br />
Abbildung 19: Die Funktion f(t) für λ = 2.<br />
Wir nennen f die Dichte <strong>der</strong> Exponentialverteilung Exp(λ) auf R. Die zugehörige Verteilungsfunktion<br />
ist<br />
�<br />
1 − exp(−λx)<br />
F(x) =<br />
0<br />
falls x > 0<br />
falls x ≤ 0 .<br />
Insbeson<strong>der</strong>e gilt für eine Zufallsvariable X ∼ Exp(λ) und 0 ≤ a < b:<br />
P (a ≤ X ≤ b) = F (b) − F (a) = (1 − exp (−λb)) − (1 − exp (−λa)) = exp (−λb) − exp (−λa) .<br />
Man verwendet Zufallsvariablen X ∼ Exp(λ) z.B.<br />
• zur Simulation <strong>der</strong> Lebensdauer von Geräten / technischen Bauteilen, falls sie ” gebraucht wie neu“<br />
sind (wir sehen gleich, welche Bedeutung das hat).<br />
• zur Simulation von Längen von Zeitintervallen bei Serveranfragen, Anrufen in einem Call-Center<br />
o<strong>der</strong> radiaoktiven Zerfallsprozessen.<br />
t
10 Allgemeine Modelle und stetige Verteilungen 107<br />
• zur Simulation von Bedienzeiten an Schaltern.<br />
Für X ∼ Exp (λ) ist ein Leichtes, mit Hilfe <strong>der</strong> Verteilungsfunktion die ” Überlebensdauer“ zu berechnen:<br />
P (X > x) = 1 − P (X ≤ x) = 1 − F(x) = exp (−λx) .<br />
Wir sehen sofort, dass die Überlebensdauer also exponentiell schnell fällt!<br />
Jetzt wollen wir uns dem Ausspruch ” gebraucht wie neu“ bzw. <strong>der</strong> Gedächtnislosigkeit dieser Verteilung<br />
widmen. Für x,t ≥ 0 gilt<br />
P (X > t + x | X > t) =<br />
= P (X > t + x)<br />
= exp (−λ (t + x))<br />
P (X > t + x und X > t)<br />
P (X > t)<br />
P (X > t)<br />
exp (−λt)<br />
= exp(−λx)<br />
= P (X > x).<br />
Simuliert man also die Lebensdauer eines Geräts mit <strong>der</strong> Exponentialverteilung, so hat ein gebraucht<br />
gekauftes Gerät die selbe Qualität wie ein Neues!<br />
10.4.4 Die Pareto-Verteilung<br />
Man betrachtet für einen Parameter α > 0 die Dichte<br />
�<br />
α<br />
f(t) = (t+1) α+1 falls t ≥ 0<br />
0 falls t < 0 .<br />
Der Graph von f stellt sich wie folgt dar:<br />
−1<br />
3<br />
2<br />
1<br />
0 1<br />
Abbildung 20: Die Funktion f(t) für α = 4.<br />
Zunächst ähnelt diese Funktion <strong>der</strong> Dichte <strong>der</strong> Exponentialverteilung, aber wir sehen im Gegensatz, dass<br />
hier nur polynomielles Abfallverhalten vorliegt!<br />
Diese Dichte f definiert uns die Pareto-Verteilung. Für eine paretoverteilte Zufallsvariable X mit<br />
Parameter α > 0 schreiben wir auch X ∼ Pareto(α).<br />
Man modelliert mit <strong>der</strong> Pareto-Verteilung etwa Dateigrößen in Byte in Datenbanken o<strong>der</strong> auf Servern.<br />
Allgemeiner modelliert man mit Ihr Verteilungen, bei denen große Werte selten, aber nicht so selten wie<br />
bei Exp (λ) sind.<br />
Heutzutage wird die Pareto-Verteilung auch oft verwendet, wo früher die Exponentialverteilung verwendet<br />
wurde.<br />
t
108 10 Allgemeine Modelle und stetige Verteilungen<br />
10.4.5 Die Cauchy-Verteilung<br />
Betrachte die Dichte<br />
Diese hat den Graphen<br />
−2<br />
f(t) :=<br />
−1<br />
1<br />
π (1 + t 2 ) .<br />
0 1<br />
Abbildung 21: Die Funktion f(t) für λ = 2.<br />
und definiert uns die Cauchy-Verteilung. Wir werden in Beispiel 10.41 noch sehen, dass diese Verteilung<br />
keinen Erwartungswert besitzt.<br />
10.4.6 Die Gamma-Verteilung<br />
Zunächst benötigen wir die<br />
10.30 Definition (Gamma-Funktion):<br />
10.31 Satz:<br />
Sei x ∈ (0, ∞). Dann definiert man die Gamma-Funktion Γ durch<br />
�∞<br />
Γ(x) = t x−1 exp(−t) dt.<br />
0<br />
Wir wissen bereits aus <strong>der</strong> Analysis I, dass dieses Integal konvergiert und eine beliebig oft differenzierbare<br />
Funktion definiert. Außerdem erfüllt sie bekanntlich die Funktionalgleichung<br />
Γ(x + 1) = xΓ(x) ∀ x ∈ (0, ∞) ,<br />
was auch Γ(n) = (n − 1)! mit n ∈ N zeigt. Zuletzt sollte noch erwähnt werden, dass<br />
Γ<br />
� �<br />
1<br />
=<br />
2<br />
1<br />
2<br />
�<br />
0<br />
∞<br />
exp � x 2� dx = √ π.<br />
Nun definieren wir die Gamma-Verteilung Gamma (r,λ) für reelle Parameter r,λ > 0 durch die Dichte<br />
� r<br />
λ<br />
Γ(r) f(t) =<br />
tr−1 exp (−λt) falls t > 0<br />
0 falls t ≤ 0 .<br />
Zunächst betrachten wir einige Spezialfälle:<br />
(1) (a) Sei r = 1. Dann erhalten wir offenbar genau die Exponentialverteilung mit Parameter λ, da<br />
die Dichten übereinstimmen.<br />
(b) Sei r ∈ N. Man kann zeigen, dass dann Gamma (r,λ) genau die Verteilung von X1 + ... + Xr<br />
i.i.d.<br />
für Zufallsvariablen X1,...,Xr ∼ Exp (λ) ist (vergleiche eines <strong>der</strong> Übungsblätter).<br />
(2) (a) Gamma � �<br />
1 1<br />
2<br />
2 , 2 ist genau die Verteilung von X für X ∼ N (0,1), wie wir in Beispiel 10.32<br />
sehen werden.<br />
(b) Gamma � �<br />
n 1<br />
2<br />
2 , 2 für n ∈ N ist genau die Verteilung von X1+...+X 2 i.i.d.<br />
n, falls X1,...,Xn ∼ N (0,1)<br />
gilt.<br />
Diese Verteilung ist in <strong>der</strong> Statistik wichtig, sie wird auch Chi-Quadrat-Verteilung mit n<br />
Freiheitsgraden genannt und als χ 2 n bezeichnet.<br />
10.5 Berechnung und Transformation von Dichten<br />
Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte c1,...,ck stetig differenzierbar ist.<br />
Sei C = {c1,...,ck}. Dann definiert<br />
�<br />
′ F (t) falls t ∈ C<br />
f (t) :=<br />
0 falls t /∈ C<br />
eine Dichte für die durch F definierte Verteilung auf R.<br />
t
10 Allgemeine Modelle und stetige Verteilungen 109<br />
Beweis:<br />
Mit Satz 10.25 genügt es offenbar zu zeigen, dass f eine Dichte ist (denn das f dann die Verteilungsfunktion<br />
F erzeugt, ist mit etwas Analysis I und <strong>der</strong> Stetigkeit von F klar).<br />
Da F eine Verteilungsfunktion ist, ist F monoton wachsend und daher F ′ ≥ 0, wo F ′ existiert. Daher ist<br />
auch f ≥ 0.<br />
Setze nun c0 := −∞ und ck+1 := +∞. Nach Umnummerierung nehmen wir ohne Einschränkung<br />
c0 < c1 < ... < ck < ck+1<br />
an. Dann gilt (mit F(−∞) = 0 und F(∞) = 1) für i = 0,...,k die Relation<br />
�<br />
ci+1<br />
ci<br />
�b<br />
f(t)dt = lim<br />
aցci,bրci+1<br />
da F stetig ist. Das zeigt<br />
�∞<br />
−∞<br />
f(t)dt =<br />
k�<br />
�<br />
ci+1<br />
i=0<br />
ci<br />
a<br />
f(t)dt = lim (F(b) − F(a)) = F(ci+1) − F(ci), (10.6)<br />
aցci,bրci+1<br />
f(t)dt (10.6)<br />
=<br />
k�<br />
(F(ci+1) − F(ci)) = F (∞) − F (−∞) = 1.<br />
i=0<br />
Also ist f eine Dichte und es folgt die Behauptung.<br />
Beispiel 10.32 (Anwendung):<br />
Sei X ∼ N (0,1) und Y := X2 . Dann ist Y ∼ χ2 1 = Gamma � �<br />
1 1<br />
2 , 2 .<br />
Beweis:<br />
Sei FY die Verteilungsfunktion <strong>der</strong> Verteilung von Y . Da Y ≥ 0 ist, muss auch FY (x) = P (Y ≤ x) = 0<br />
für x < 0 gelten. Falls x ≥ 0, so haben wir<br />
FY (x) = P (Y ≤ x)<br />
= P � 0 ≤ X 2 ≤ x �<br />
= P � − √ x ≤ X ≤ √ x �<br />
= Φ �√ x � − Φ � − √ x �<br />
= 2Φ �√ x � − 1,<br />
wobei Φ die Verteilungsfunktion <strong>der</strong> Standard-Normalverteilung ist.<br />
Wegen (Φ( √ x)) ′ = ϕ( √ x) 1<br />
2 √ x ist FY an allen Punkten x �= 0 stetig differenzierbar und mit Satz 10.31<br />
folgt, dass die Dichte von Y gegeben ist durch<br />
�<br />
′ F Y (x)<br />
fY (x) =<br />
0<br />
falls x > 0<br />
falls x ≤ 0 =<br />
�<br />
2(Φ( √ x)) ′<br />
0<br />
falls x > 0<br />
falls x ≤ 0 =<br />
Wegen Γ � �<br />
1 √<br />
2 = π ist <strong>der</strong> Faktor<br />
und es folgt die Behauptung.<br />
1<br />
√ 2π =<br />
� � 1<br />
1 2<br />
2<br />
Γ � 1<br />
2<br />
Für die folgende Transformation brauchen wir erst folgende<br />
10.33 Definition:<br />
Seien I,J ⊂ R zwei Intervalle. Ein Diffeomorphismus u : I<br />
und u−1 stetig differenzierbar sind.<br />
Dann gilt <strong>der</strong> folgende<br />
10.34 Satz (Transformationsformel für Dichten):<br />
�<br />
� 1<br />
√2πx exp � − x<br />
�<br />
2 falls x �= 0<br />
0 falls x = 0 .<br />
��<br />
J ist eine bijektive Abbildung, s.d. u<br />
Sei X eine stetig verteilte Zufallsvariable mit Dichte fX und Werten in einem offenen Intervall I ⊂ R.<br />
Sei außerdem u : I ��<br />
J ein Diffeomorphismus. Dann hat Y := u (X) auf J die Dichte<br />
� � �<br />
−1 �<br />
u (y) · � � u −1� �<br />
′ �<br />
(y) � .<br />
fY (y) = fX
110 10 Allgemeine Modelle und stetige Verteilungen<br />
Beweis:<br />
Zunächst können wir ohne Einschränkung annehmen, dass u streng monoton steigend ist (da u ein Diffeomorphismus<br />
ist, muss u streng monoton sein). Dann wollen wir die Substitutionsregel<br />
�b<br />
a<br />
f(x)dx =<br />
�<br />
g −1 (b)<br />
g −1 (a)<br />
(f ◦ g)(y) · g ′ (y) dy<br />
für den Diffeomorphismus g = u −1 anwenden. Damit folgt<br />
P (a ≤ Y ≤ b) = P � u −1 (a) ≤ X ≤ u −1 (b) �<br />
da u nach Annahme streng monoton steigend ist.<br />
Beispiel 10.35 (Anwendung):<br />
=<br />
=<br />
u −1 � (b)<br />
u −1 (a)<br />
�b<br />
a<br />
fX<br />
fX (x) dx<br />
� � � −1 −1<br />
u (y) u � ′<br />
(y)<br />
� �� �<br />
=|(u−1 ) ′ dy<br />
(y)|<br />
Sei X ∼ N (0,1) und Y := σX + µ mit µ,σ ∈ R und σ > 0. Dann ist Y ∼ N � µ,σ 2� .<br />
Beweis:<br />
Wir setzen<br />
u (x) := σx + µ.<br />
Bei dieser Abbildung handelt es sich offenbar um einen Diffeomorphismus mit<br />
u −1 (y) =<br />
y − µ<br />
σ<br />
und � u −1� ′ (y) = 1<br />
σ .<br />
Mit Satz 10.34 folgt für die Dichte fY von Y und fX von X, dass<br />
� �<br />
y − µ<br />
fY (y) = fX ·<br />
σ<br />
1<br />
�<br />
1 (y − µ)2<br />
= √ exp −<br />
σ 2π 2σ2 �<br />
· 1<br />
σ =<br />
1<br />
√<br />
2πσ2 exp<br />
�<br />
(y − µ)2<br />
−<br />
2σ2 �<br />
,<br />
was genau <strong>der</strong> Dichte zu N � µ,σ 2� entspricht.<br />
Alternativ kann man diese Aussage auch mit Hilfe von Satz 10.31 beweisen:<br />
Beweis (alternativ):<br />
Es ist<br />
FY (y) = P (Y ≤ y) = P (σX + µ ≤ y) = P<br />
�<br />
X ≤<br />
�<br />
y − µ<br />
= Φ<br />
σ<br />
� �<br />
y − µ<br />
für die Verteilungsfunktion Φ <strong>der</strong> Standard-Normalverteilung. Mit Satz 10.31 ist dann<br />
� � �� ′<br />
y − µ<br />
fY (y) = Φ =<br />
σ<br />
1<br />
σ Φ′<br />
� �<br />
y − µ<br />
=<br />
σ<br />
1<br />
σ ϕ<br />
� �<br />
y − µ<br />
σ<br />
für die Dichte ϕ <strong>der</strong> Standard-Normalverteilung - und das ist genau die Dichte zu N � µ,σ 2� .<br />
Bemerkung 10.36:<br />
Ganz analog können wir nun zeigen, wie man die Verteilungsfunktion zu N � µ,σ 2� aus den Tabellen für<br />
Φ (<strong>der</strong> Verteilungsfunktion von N (0,1)) berechnet:<br />
Ist Y ∼ N � µ,σ 2� für µ,σ ∈ R, σ > 0, so folgt wie in Beispiel 10.35, dass<br />
gilt. Damit ist dann aber<br />
- und das ist tabelliert!<br />
X := 1<br />
(Y − µ) ∼ N (0,1)<br />
σ<br />
P (Y ≤ y) = P (σX + µ ≤ y) = P<br />
�<br />
X ≤<br />
�<br />
y − µ<br />
= Φ<br />
σ<br />
σ<br />
� �<br />
y − µ<br />
σ
10 Allgemeine Modelle und stetige Verteilungen 111<br />
10.6 Erwartungswert und Varianz<br />
10.37 Definition:<br />
Sei X eine stetig verteilte Zufallsvariable mit Dichte f. Der Erwartungswert von X existiert, falls<br />
In diesem Fall definiert man<br />
�∞<br />
−∞<br />
E (X) :=<br />
|x|f(x)dx < ∞.<br />
�∞<br />
−∞<br />
xf(x)dx.<br />
Wir sehen hier schon die Analogie zum diskreten Fall: Die Summe in (5.2) wird durch ein Integral ersetzt,<br />
und die Einzelwahrscheinlichkeiten P werden durch die Dichte f ersetzt.<br />
Bemerkung 10.38:<br />
Ist X wie in <strong>der</strong> Definition und X ≥ 0, so kann man stets<br />
E (X) :=<br />
�∞<br />
−∞<br />
setzen und entsprechend einfach ∞ als Wert zulassen.<br />
Beispiel 10.39:<br />
Sei X ∼ U (r,s). Dann ist<br />
Beispiel 10.40:<br />
Sei X ∼ N (0,1). Dann ist<br />
E (X) =<br />
Beispiel 10.41:<br />
�∞<br />
−∞<br />
E (X) =<br />
�s<br />
r<br />
xϕ(x)dx = 1<br />
√ 2π<br />
xf(x)dx<br />
x 1 1 1<br />
dx =<br />
s − r s − r 2 x2�� s<br />
r<br />
�∞<br />
−∞<br />
1 s<br />
=<br />
2<br />
2 − r2 s + r<br />
=<br />
s − r 2 .<br />
�<br />
xexp − x2<br />
�<br />
dx =<br />
2<br />
1<br />
�<br />
√ exp −<br />
2π x2<br />
�<br />
�� ∞<br />
= 0.<br />
2 −∞<br />
Sei X eine Cauchy-verteilte Zufallsvariable. Für die zugehörige Dichte f ist dann<br />
�∞<br />
−∞<br />
|x|f(x)dx =<br />
�∞<br />
−∞<br />
Daher hat X keinen Erwartungswert!<br />
|x|<br />
π (1 + x2 1<br />
dx =<br />
) π<br />
�∞<br />
0<br />
2x 1<br />
dx =<br />
1 + x2 π lim<br />
R→∞<br />
�<br />
ln � 1 + x 2� � � R<br />
0<br />
�<br />
= ∞.
112 10 Allgemeine Modelle und stetige Verteilungen<br />
Beispiel 10.42:<br />
Sei X ∼ Exp (λ). Dann ist<br />
Beispiel 10.43:<br />
E (X) =<br />
�<br />
0<br />
∞<br />
0<br />
tλ exp (−λt) dt<br />
�∞<br />
= λ t exp (−λt) dt<br />
partielle Integration<br />
= λ<br />
=<br />
�<br />
0<br />
∞<br />
⎛<br />
⎝ t<br />
−λ exp(−λt)� �∞ 1<br />
−<br />
0 −λ<br />
exp (−λt) dt<br />
= − 1<br />
λ exp (−λt)�� ∞<br />
0<br />
=<br />
1<br />
λ .<br />
�<br />
0<br />
∞<br />
⎞<br />
exp (−λt) dt⎠<br />
Sei X ∼ Pareto (α). Zunächst untersuchen wir, für welche α > 0 <strong>der</strong> Erwartungswert existiert. Bekanntlich<br />
existiert das Integral<br />
�∞<br />
1<br />
dt<br />
tβ c<br />
mit beliebigem c > 0 genau dann, wenn β > 1. Daher ist <strong>der</strong> Erwartungswert für α ≤ 1 zwangsläufig<br />
nicht existent. Für α > 1 gilt:<br />
�∞<br />
0<br />
αt<br />
α+1 dt =<br />
(t + 1)<br />
=<br />
=<br />
�∞<br />
�∞<br />
t + 1<br />
α<br />
α α+1 dt − α+1 dt<br />
(t + 1) (t + 1)<br />
0<br />
�∞<br />
α<br />
(t + 1) α dt − 1<br />
0<br />
α<br />
1 − α (t + 1)1−α�� ∞<br />
− 1<br />
0<br />
= − α<br />
− 1<br />
1 − α<br />
α α − 1<br />
= −<br />
α − 1 α − 1<br />
1<br />
=<br />
α − 1 .<br />
Da X ∼ Pareto(α) nach Definition <strong>der</strong> Dichte als nicht-negativ angenommen werden kann, haben wir<br />
also<br />
�<br />
∞<br />
E (X) =<br />
falls α ≤ 1<br />
1<br />
α−1 falls α > 1 .<br />
Aus <strong>der</strong> Maßtheorie zitieren wir ohne Beweis den folgenden<br />
10.44 Satz (Transformationsformel für den Erwartungswert - ohne Beweis):<br />
Sei X eine reelle Zufallsvariable mit Dichte f und g : R ��<br />
R eine meßbare Funktion (also z.B. stetig).<br />
Dann gilt<br />
E (g(X)) =<br />
�∞<br />
−∞<br />
0<br />
g(x) · f(x)dx, (10.7)
10 Allgemeine Modelle und stetige Verteilungen 113<br />
falls<br />
ist.<br />
Bemerkung 10.45:<br />
�∞<br />
−∞<br />
|g(x)|f(x)dx < ∞<br />
Damit folgt im Falle <strong>der</strong> Existenz zum Beispiel mit g(x) := ax + b:<br />
Beispiel 10.46:<br />
E (aX + b)<br />
(10.7)<br />
=<br />
�∞<br />
−∞<br />
= a<br />
�∞<br />
−∞<br />
= aE (X) + b<br />
(ax + b) f(x)dx<br />
xf(x)dx + b<br />
Sei X ∼ N (0,1). In Beispiel 10.35 haben wir schon gezeigt, dass dann<br />
σX + µ ∼ N � µ,σ 2�<br />
�∞<br />
−∞<br />
f(x)dx<br />
� �� �<br />
=1<br />
gilt. Ebenso haben wir in Beispiel 10.40 schon gesehen, dass E (X) = 0 gilt. Nach obiger Rechnung folgt<br />
E (σX + µ) = σE(X) + µ = µ.<br />
Daher ist µ wie schon weiter oben bemerkt <strong>der</strong> Erwartungswert einer N � µ,σ 2� -verteilten Zufallsvariablen.<br />
10.47 Definition:<br />
Sei X eine stetig verteilte reelle Zufallsvariable. Falls E<br />
�<br />
|X| k�<br />
< ∞ gilt (in dem Sinne, dass <strong>der</strong> Erwar-<br />
tungswert für nicht-negative Zufallsvariablen in [0, ∞] stets existiert), so nennen wir<br />
das k-te Moment von X.<br />
10.48 Definition:<br />
E � X k�<br />
Sei X eine stetig verteilte reelle Zufallsvariable, s.d. E (X) existiert. Dann definieren wir die Varianz<br />
von X durch<br />
�<br />
V (X) := E (X − E(X)) 2�<br />
= E � X 2� − (E (X)) 2 .<br />
Bemerkung 10.49:<br />
Sei X eine reelle Zufallsvariable mit Dichte f. Mit <strong>der</strong> Transformationsformel (Satz 10.44) ist<br />
falls existent.<br />
Beispiel 10.50:<br />
V (X) =<br />
�∞<br />
−∞<br />
⎛<br />
x 2 f(x)dx − ⎝<br />
�∞<br />
−∞<br />
⎞<br />
xf(x)dx⎠<br />
Sei X ∼ U (0,1). Wir haben in Beispiel 10.39 schon gesehen, dass dann E (X) = 1<br />
2 gilt. Nach Bemerkung<br />
10.49 haben wir also<br />
V (X) =<br />
�1<br />
0<br />
x 2 dx − 1 1 1 1<br />
= − =<br />
4 3 4 12 .<br />
2
114 10 Allgemeine Modelle und stetige Verteilungen<br />
Allgemein folgt ganz genauso<br />
Bemerkung 10.51:<br />
X ∼ U (r,s) ⇒ V (X) =<br />
Man zeigt ganz genau wie im diskreten Fall, dass<br />
gilt.<br />
Beispiel 10.52:<br />
�s<br />
1<br />
s − r<br />
r<br />
x 2 �<br />
s + r<br />
dx −<br />
2<br />
= s3 − r3 (s + r)2<br />
−<br />
3(s − r) 4<br />
= 4s2 + 4rs + 4r 2<br />
12<br />
= s2 − 2rs + r 2<br />
12<br />
= (s − r)2<br />
.<br />
12<br />
V (aX + b) = a 2 V (X)<br />
� 2<br />
− 3s2 + 6rs + 3r 2<br />
12<br />
Sei X ∼ N (0,1). In Beispiel 10.40 haben wir gesehen, dass E(X) = 0 gilt. Bemerkung 10.49 liefert also<br />
V (X) =<br />
=<br />
partielle Integration<br />
=<br />
=<br />
�∞<br />
−∞<br />
= 1<br />
1<br />
√ 2π<br />
1<br />
√ 2π<br />
1<br />
√ 2π<br />
Mit <strong>der</strong> Regel aus Bemerkung 10.51 zeigt das<br />
�<br />
2 1<br />
x √ exp −<br />
2π x2<br />
�<br />
dx<br />
2<br />
�∞<br />
−∞<br />
� �<br />
x · xexp − x2<br />
��<br />
2<br />
� �� �<br />
⎛<br />
�<br />
⎝ −xexp<br />
�∞<br />
−∞<br />
� �<br />
= exp − x2<br />
�� ′<br />
2<br />
dx<br />
�<br />
− x2<br />
��<br />
�� ∞<br />
2 −∞ +<br />
�<br />
exp − x2<br />
�<br />
dx<br />
2<br />
Y ∼ N � µ,σ 2� ⇒ V (Y ) = σ 2 ,<br />
da für X ∼ N (0,1) mit Beispiel 10.35 σX + µ ∼ N � µ,σ 2� gilt.<br />
10.7 Mehrdimensionale stetige Verteilungen<br />
�∞<br />
−∞<br />
�<br />
exp − x2<br />
�<br />
2<br />
⎞<br />
dx⎠<br />
Zunächst müssen wir festlegen, welche Teilmengen des R n eine Wahrscheinlichkeit erhalten können und<br />
welche nicht. Dazu gehen wir genau wie auf R vor und wählen eine geeignete σ-Algebra.<br />
10.53 Definition:<br />
Die Borel’sche σ-Algebra Bn des R n ist die kleinste σ-Algebra auf dem R n , die alle offenen Mengen<br />
enthält.<br />
Auch im R n behält Satz 10.14 seine Gültigkeit! Allerdings än<strong>der</strong>t sich hier die Formulierung etwas:<br />
10.54 Satz (ohne Beweis):<br />
Die folgenden For<strong>der</strong>ungen an eine σ-Algebra auf R n sind äquivalent:<br />
(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält.
10 Allgemeine Modelle und stetige Verteilungen 115<br />
(2) Es handelt sich um die kleinste σ-Algebra, die alle Rechtecke<br />
mit a = (a1,...,an) , b = (b1,...,bn) ∈ R n enthält.<br />
(a,b] := (a1,b1] × ... × (an,bn]<br />
10.55 Definition:<br />
Eine Dichte auf Rn ist eine integrierbare Funktion f : Rn ��<br />
R mit f ≥ 0 und<br />
�<br />
f(x)dx = 1.<br />
Ebenso zitieren wir den folgenden Satz aus <strong>der</strong> Maßtheorie:<br />
R n<br />
10.56 Satz (ohne Beweis):<br />
Ist f : Rn ��<br />
n R eine Dichte auf dem R , so gibt es zu f genau eine Wahrscheinlichkeitsverteilung P<br />
auf (Rn , Bn) mit <strong>der</strong> Eigenschaft, dass<br />
für alle Rechtecke (a,b].<br />
10.57 Definition:<br />
�b1<br />
�bn<br />
�<br />
P ((a,b]) = ... f (x1,...,xn) dxn...dx1 =:<br />
a1<br />
an<br />
(a,b]<br />
f(x)dx<br />
Die reellen Zufallsvariablen X1,...,Xn haben die gemeinsame Dichte f, wenn f eine Dichte auf dem<br />
Rn ist und für alle a,b ∈ Rn gilt:<br />
�<br />
P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) = f(x)dx.<br />
Beispiel 10.58:<br />
Für n = 2 ist f := 1 [0,1] 2 die Dichte <strong>der</strong> Gleichverteilung auf [0,1] 2 .<br />
Beispiel 10.59:<br />
Durch<br />
f := 1<br />
π 1 {(x,y)∈R 2 | x 2 +y 2 ≤1}<br />
definieren wir die Dichte <strong>der</strong> Gleichverteilung auf dem Einheitskreis im R 2 .<br />
Bemerkung 10.60:<br />
Diese Beispiele lassen sich durchaus verallgemeinern:<br />
Ist A ⊂ R 2 ein glattes Gebiet (d.h., dass <strong>der</strong> topologische Rand von A in jedem Punkt lokal Graph einer<br />
beliebig oft differenzierbaren Funktion ist), so ist 1A Riemann-Integrierbar und die Funktion<br />
ist die Dichte <strong>der</strong> Gleichverteilung auf A.<br />
10.61 Definition (Produktdichten):<br />
Sind f1,...,fn Dichten auf R, so ist<br />
f :=<br />
1<br />
Vol(A) 1A<br />
(a,b]<br />
f (x1,...,xn) := f1 (x1) · ... · fn (xn)<br />
eine Dichte auf dem R n . f heißt Produktdichte <strong>der</strong> Dichten f1,...,fn. Die gemäß Satz 10.56 zu f<br />
gehörende Wahrscheinlichkeitsverteilung P auf (R n , Bn) heißt Produktverteilung <strong>der</strong> zu f1,...,fn<br />
gehörenden Verteilungen P1,...,Pn auf R gemäß Satz 10.25. Maßtheoretisch schreibt man auch<br />
Beispiel 10.62:<br />
P = P1 × ... × Pn.<br />
Die Funktion 1 [0,1] 2 ist die Dichte zu P1 × P2, wenn P1,P2 Gleichverteilungen auf [0,1] sind.
116 10 Allgemeine Modelle und stetige Verteilungen<br />
Beispiel 10.63:<br />
Sei n ∈ N≥2 und sei fi(xi) := 1<br />
√ 2π exp<br />
gegeben durch<br />
beziehungsweise<br />
f(x1,...,xn) = f1(x1) · ... · fn(xn) =<br />
�<br />
− x2<br />
�<br />
i für i = 1,...,n. Dann ist die zugehörige Produktdichte<br />
2<br />
� �n �<br />
1<br />
√2π exp − 1 � 2<br />
x1 + ... + x<br />
2<br />
2� n<br />
�<br />
�<br />
n − 2 f(x) = (2π) exp − �x�2 �<br />
2<br />
, x ∈ R<br />
2<br />
n<br />
für die gewöhnliche euklidische Norm auf dem R n . Für n = 3 sieht die Produktdichte wie folgt aus:<br />
x<br />
z<br />
Abbildung 22: Die Produktdichte <strong>der</strong> Standard-Normalverteilung im R 3 .<br />
An dieser Stelle zitieren wir folgende Sätze aus <strong>der</strong> Maßtheorie:<br />
10.64 Satz (ohne Beweis):<br />
Sind X,Y zwei reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem R2 , so gilt für jedes glatte<br />
Gebiet A ⊂ R2 , dass<br />
�<br />
P ((X,Y ) ∈ A) = f(x,y)d(x,y).<br />
Außerdem benötigen wir die Transformationsformel für den Erwartungswert von Funktionen von Zufallsvektoren:<br />
10.65 Satz (ohne Beweis):<br />
Sind X1,...,Xn reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem Rn und ist g : Rn ��<br />
meßbar (z.B. stetig), so gilt<br />
�<br />
R<br />
E (g (X1,...,Xn)) = g(x)f(x)dx (10.8)<br />
falls �<br />
ist.<br />
10.66 Hilfssatz:<br />
R n<br />
A<br />
R n<br />
|g(x)|f(x)dx < ∞<br />
Sind X1,X2 zwei reelle Zufallsvariablen mit gemeinsamer Dichte f, so ist<br />
die Dichte zu X1 und<br />
die Dichte zu X2.<br />
f1 (x1) :=<br />
f2 (x2) :=<br />
�∞<br />
−∞<br />
�∞<br />
−∞<br />
f(x1,x2)dx2<br />
f(x1,x2)dx1<br />
y
10 Allgemeine Modelle und stetige Verteilungen 117<br />
Beweis:<br />
Es gilt<br />
P (a1 ≤ X1 ≤ b1) = P (a1 ≤ X1 ≤ b1, −∞ < X2 < ∞)<br />
Satz 10.64<br />
=<br />
�b1<br />
�∞<br />
a1 −∞<br />
f(x1,x2)dx2 dx1.<br />
� �� �<br />
=f1(x1)<br />
Ganz analog kann man für f2 vorgehen. Das zeigt schon die Behauptung.<br />
Bemerkung 10.67:<br />
Jetzt können wir endlich zeigen, dass <strong>der</strong> Erwartungswert linear ist:<br />
Beweis:<br />
E (X1 + X2) = E (X1) + E (X2) .<br />
Wir wenden den Satz 10.65 im Fall n = 2 auf die Funktion g(x1,x2) = x1 + x2 an. Das liefert<br />
�<br />
E (X1 + X2) = (x1 + x2) f(x1,x2) d(x1,x2)<br />
=<br />
=<br />
Damit ist die Behauptung gezeigt.<br />
10.8 Unabhängigkeit<br />
10.68 Definition:<br />
R 2<br />
�<br />
R 2<br />
�<br />
R<br />
�<br />
x1f(x1,x2)d(x1,x2) +<br />
x1<br />
Hilfssatz 10.66<br />
= E (X1) + E (X2)<br />
R<br />
R 2<br />
⎛<br />
�<br />
⎞<br />
�<br />
⎝ f(x1,x2)dx2 ⎠ dx1 +<br />
Reelle Zufallsvariablen X1,...,Xn heißen unabhängig, wenn<br />
P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) =<br />
für alle a = (a1,...,an) , b = (b1,...,bn) ∈ R n gilt.<br />
10.69 Satz (Unabhängigkeit bei stetigen Verteilungen):<br />
x2f(x1,x2)d(x1,x2)<br />
R<br />
x2<br />
⎛<br />
⎞<br />
�<br />
⎝ f(x1,x2)dx1 ⎠ dx2<br />
R<br />
n�<br />
P (ai ≤ Xi ≤ bi)<br />
(1) Sind X1,...,Xn unabhängige Zufallsvariablen mit Dichten f1,...,fn entsprechend, so ist die gemeinsame<br />
Dichte f durch die Produktdichte<br />
gegeben.<br />
i=1<br />
f (x1,...,xn) := f1 (x1) · ... · fn (xn) (10.9)<br />
(2) Sind X1,...,Xn reelle Zufallsvariablen und hat die gemeinsame Dichte die Gestalt (10.9), so sind<br />
X1,...,Xn unabhängig und fi ist die Dichte zu Xi, i = 1,...,n.<br />
Beweis:<br />
(1) Wegen <strong>der</strong> Unabhängigkeit und <strong>der</strong> Definition <strong>der</strong> Dichten fi gilt<br />
n�<br />
P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) = P (ai ≤ Xi ≤ bi)<br />
=<br />
=<br />
i=1<br />
bi n�<br />
�<br />
fi(xi)dxi<br />
i=1<br />
ai<br />
�<br />
(a,b]<br />
f(x)dx
118 10 Allgemeine Modelle und stetige Verteilungen<br />
für alle Rechtecke (a,b], weshalb f aus (10.9) die gemeinsame Dichte zu X1,...,Xn ist.<br />
(2) Da X1,...,Xn eine gemeinsame Dichte <strong>der</strong> Form (10.9) haben, ist<br />
P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) =<br />
=<br />
�b1<br />
�bn<br />
... f1(x1) · ... · fn(xn)dxn...dx1<br />
a1<br />
i=1<br />
ai<br />
an<br />
bi n�<br />
�<br />
fi(xi)dxi<br />
(10.10)<br />
��<br />
��<br />
für jedes Rechteck (a,b].<br />
Für festes i ∈ {1,...,n} lassen wir jetzt in dieser Gleichung aj − ∞,bj ∞ für alle j �= i<br />
gehen. Dann geht die linke Seite gegen P (ai ≤ Xi ≤ bi) und die rechte Seite gegen<br />
da jedes fj eine Dichte ist und somit<br />
ist, also<br />
Damit ist aber wegen (10.10)<br />
∞�<br />
−∞<br />
�bi<br />
ai<br />
fi (xi) dxi,<br />
fj(xj)dxj = 1 erfüllt. Das zeigt, dass fi die Dichte zu Xi<br />
P (ai ≤ Xi ≤ bi) =<br />
�bi<br />
P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) =<br />
womit X1,...,Xn per Definition unabhängig sind.<br />
Beispiel 10.70:<br />
ai<br />
fi(xi)dxi.<br />
n�<br />
P (ai ≤ Xi ≤ bi) ,<br />
Wir betrachten einen Schalter mit Bedienzeiten, die nach Exp (λ) verteilt sind. Nehmen wir an, wir stehen<br />
an zweiter Stelle, d.h. noch eine Kunde ist vor uns. Wir wollen die Wahrscheinlichkeit bestimmen, dass<br />
wir mindestens doppelt so lange zur Abfertigung brauchen, wir die Person vor uns. Dazu modellieren wir<br />
den Kunden vor uns als Zufallsvariable X ∼ Exp (λ) sowie uns als Y ∼ Exp (λ) und nehmen an, dass X<br />
und Y unabhängig sind. Gefragt ist dann nach<br />
i=1<br />
P (Y ≥ 2X) . (10.11)<br />
Mit obigem Satz 10.69 folgt, dass X und Y eine gemeinsame Dichte f in Produktform haben, d.h.<br />
Um (10.11) zu bestimmen betrachten wir<br />
f (x,y) = (λ exp (−λx)) (λ exp (−λy)) 1 [0,∞) 2.<br />
A = {(x,y) | x,y ≥ 0,y ≥ 2x} .
10 Allgemeine Modelle und stetige Verteilungen 119<br />
Mit Satz 10.64 folgt<br />
P (A) =<br />
�<br />
A<br />
f(x,y)dxdy<br />
= λ 2<br />
�∞�<br />
∞<br />
exp(−λ(x + y)) dy dx<br />
0<br />
0<br />
2x<br />
= λ 2<br />
�∞�<br />
∞<br />
exp(−λ(x + y)) dy dx<br />
=<br />
=<br />
0<br />
2x<br />
�∞<br />
⎛<br />
�∞<br />
⎞<br />
λ exp (−λx) ⎝ exp (−λy) dy⎠<br />
dx<br />
�<br />
0<br />
∞<br />
= 1<br />
3<br />
2x<br />
λ exp (−λx)exp (−2λx) dx<br />
�<br />
0<br />
∞<br />
3λ exp (−3λx) dx<br />
= 1<br />
3 (−exp (−3λx)) � �∞ 0<br />
= 1<br />
3 .<br />
Zuletzt sei noch <strong>der</strong> folgende Satz aus <strong>der</strong> Maßtheorie erwähnt:<br />
10.71 Satz (ohne Beweis):<br />
10.72 Satz:<br />
Das Blockungslemma gilt in <strong>der</strong> selben Form wie in Satz 4.24 auch für Zufallsvariablen mit stetigen<br />
Verteilungen.<br />
Wir zeigen nun, dass <strong>der</strong> Produktsatz für unabhängige Zufallsvariablen auch im stetigen Fall gilt:<br />
Sind X und Y unabhängige Zufallsvariablen mit Dichten fX und fY , so gilt<br />
E(X · Y ) = E(X) · E(Y ).<br />
Beweis:<br />
Setze g(x,y) = x · y, g : R2 ��<br />
R. Die Dichte zu (X,Y ) hat gemäß Satz 10.69 Produktform f(x,y) =<br />
fX(x) · fY (y), da X und Y unabhängig sind.<br />
Damit gilt<br />
Das zeigt die Behauptung.<br />
Korollar 10.73:<br />
E(X · Y ) = E(g(X,Y ))<br />
Transformationsformel<br />
=<br />
=<br />
=<br />
�∞<br />
�∞<br />
−∞ −∞<br />
�∞<br />
�∞<br />
−∞ −∞<br />
�∞<br />
−∞<br />
Sind X und Y stetige unabhängige Zufallsvariablen, so gilt<br />
das heißt, X und Y sind unkorreliert.<br />
g(x,y) · f(x,y)dxdy<br />
x · y · fX(x) · fY (y)dxdy<br />
x · fX(x)dx ·<br />
�∞<br />
−∞<br />
CoV(X,Y ) = E(X · Y ) − E(X)E(Y ) = 0,<br />
y · fY (y)dy.
120 10 Allgemeine Modelle und stetige Verteilungen<br />
10.74 Definition (Faltung):<br />
Seien f1 und f2 Dichten auf R. Die Dichte<br />
f1 ⋆ f2(z) =<br />
nennen wir Faltung f1 ⋆ f2 von f1 und f2.<br />
�∞<br />
−∞<br />
f1(x)f2(z − x)dx<br />
10.75 Satz (Dichten für Summen von unabhängigen Zufallsvariablen mit Dichten):<br />
Seien X und Y unabhängige Zufallsvariablen mit Dichten fX und fY . Dann hat X+Y die Dichte fX ⋆ fY .<br />
Beweis:<br />
X und Y haben die gemeinsame Dichte f(x,y) = fX(x) · fY (y), da X und Y unabhängig sind. Sei A die<br />
Menge<br />
A := {(x,y) | x + y ≤ b} .<br />
Dann gilt<br />
Damit ist die Behauptung gezeigt.<br />
P(X + Y ≤ b) =<br />
Beispiel 10.76 (Gleichverteilung U(0,1)):<br />
=<br />
=<br />
=<br />
=<br />
�<br />
A<br />
�∞<br />
−∞<br />
�∞<br />
f(x,y)dxdy<br />
−∞ −∞<br />
�b<br />
−∞<br />
�b<br />
−∞<br />
⎛<br />
⎞<br />
�b−x<br />
⎝ fX(x)fY (y)dy⎠<br />
dx<br />
�b<br />
−∞<br />
⎛<br />
�<br />
⎝<br />
fX(x)fY (z − x)dz dx<br />
∞<br />
−∞<br />
⎞<br />
fx(x)fy(z − x)dx⎠<br />
dz<br />
fX ⋆ fY (z)dz.<br />
Seien X und Y unabhängig und gleichverteilt auf [0,1]. Dann ist die Dichte von X + Y gegeben als<br />
⎧<br />
⎪⎨ t falls 0 ≤ t ≤ 1<br />
fX+Y (t) = 2 − t<br />
⎪⎩<br />
0<br />
falls 1 ≤ t ≤ 2<br />
sonst<br />
.<br />
−2<br />
−1<br />
1<br />
0 1 2 3<br />
Abbildung 23: Die Dichte von X + Y für X,Y i.i.d.<br />
∼ U (0,1).
10 Allgemeine Modelle und stetige Verteilungen 121<br />
Beweis:<br />
10.77 Satz:<br />
Offenbar ist fX(t) = 1 [0,1](t) = fY (t). Mit obigem Satz ist die Dichte fX+Y von X + Y gegeben als<br />
(fX ⋆ fY ) (z) =<br />
=<br />
�∞<br />
−∞<br />
�1<br />
0<br />
�<br />
= −<br />
Nun unterscheiden wir vier Fälle:<br />
z�<br />
• Ist z < 0, so ist offenbar 1 [0,1] (y) dy = 0.<br />
• Ist z > 2, so ist offenbar<br />
z−1<br />
z�<br />
z−1<br />
• Ist 0 ≤ z ≤ 1, so berechnet man<br />
• Ist 1 ≤ z ≤ 2, so berechnet man<br />
Das zeigt die Behauptung.<br />
=<br />
�z<br />
z−1<br />
1 [0,1] (y) dy = 0.<br />
�z<br />
z−1<br />
�z<br />
z−1<br />
fX(x) · fY (z − x) dx<br />
1 [0,1] (z − x) dx<br />
z−1<br />
z<br />
1 [0,1] (y) dy =<br />
1 [0,1] (y) dy =<br />
1 [0,1] (y) dy<br />
1 [0,1] (y) dy.<br />
�1<br />
z−1<br />
�z<br />
0<br />
1dy = z.<br />
1dy = 2 − z.<br />
Seien Xi ∼ N(µi,σ 2 i ), für i = 1,2 unabhängig. Dann ist X1 +X2 normalverteilt mit Parametern µ1 +µ2<br />
und σ2 1 + σ2 2, d.h.<br />
X1 + X2 ∼ N � µ1 + µ2,σ 2 1 + σ 2� 2 .<br />
Beweis:<br />
Es genügt zu zeigen, dass<br />
(X1 − µ1) + (X2 − µ2) ∼ N � 0,σ 2 1 + σ 2� 2<br />
gilt, wobei (X1 − µ1) ∼ N � 0,σ2 �<br />
1 und (X2 − µ2) ∼ N � 0,σ2 �<br />
2 verteilt sind. Nach Definition <strong>der</strong> Faltung<br />
zweier Dichten ergibt sich für festes z ∈ R:<br />
Wir setzen nun<br />
� �<br />
f0,σ2 ⋆ f<br />
1 0,σ2 2<br />
(z) =<br />
σ :=<br />
=<br />
�∞<br />
−∞<br />
�<br />
1<br />
√ exp −<br />
2πσ1<br />
1 x<br />
2<br />
2<br />
σ2 � �<br />
1 (z − x)2<br />
· √ exp −<br />
1 2πσ2 2σ2 �<br />
dx<br />
2<br />
⎛<br />
⎞<br />
1<br />
2πσ1σ2<br />
�∞<br />
−∞<br />
⎜<br />
exp ⎜<br />
⎝ −1<br />
� 2 x<br />
2 σ2 +<br />
1<br />
(z − x)2<br />
σ2 � ⎟ dx. (10.12)<br />
2 ⎠<br />
� �� �<br />
=:(∗)<br />
�<br />
σ2 1 + σ2 σ<br />
2 und w = w(x) = · x −<br />
σ1σ2<br />
σ1<br />
z.<br />
σσ2
122 10 Allgemeine Modelle und stetige Verteilungen<br />
Dann ist<br />
w 2 + z2<br />
σ2 = σ2 1 + σ2 2<br />
σ2 1σ2 2<br />
x 2 − 2xz<br />
σ 2 2<br />
= x2<br />
σ2 +<br />
1<br />
x2<br />
σ2 −<br />
2<br />
2xz<br />
σ2 +<br />
2<br />
z2<br />
σ2 2<br />
= x2<br />
σ2 +<br />
1<br />
(z − x)2<br />
σ2 2<br />
= (∗).<br />
+ σ2 1<br />
σ2σ2 2<br />
z 2 + z2<br />
σ 2<br />
� �� �<br />
Da dw = σ<br />
σ1σ2<br />
dx ist, folgt dx = σ1σ2 σ dw. Wir substituieren also in (10.12) und erhalten so<br />
� �<br />
f0,σ2 ⋆ f<br />
1 0,σ2 2<br />
(z) =<br />
Damit ist <strong>der</strong> Satz bewiesen.<br />
=<br />
1<br />
2πσ1σ2<br />
�∞<br />
−∞<br />
1<br />
2πσ exp<br />
�<br />
− z2<br />
2σ2 �<br />
−<br />
= f 0,σ 2(z)<br />
= f 0,σ 2 1 +σ 2 2 (z).<br />
10.9 Die mehrdimensionale Normalverteilung<br />
10.78 Definition:<br />
= z2<br />
σ 2 2<br />
�<br />
exp − 1<br />
�<br />
w<br />
2<br />
2 + z2<br />
σ2 ��<br />
σ1σ2<br />
σ dw<br />
�∞<br />
�<br />
1<br />
√ exp −<br />
2π 1<br />
2 w2<br />
�<br />
dw<br />
� �� �<br />
=1 (Std.normalverteilung)<br />
Wir haben in Beispiel 10.63 schon gesehen, dass für unabhängige Zufallsvariablen Z1,...,Zn ∼ N (0,1)<br />
die Zufallsgröße Z = (Z1,...,Zn) T die Dichte<br />
f (z1,...,zn) = 1<br />
�<br />
√ n exp −<br />
2π 1<br />
n�<br />
z<br />
2<br />
2 �<br />
i<br />
besitzt. Diese Verteilung wollen wir von nun an die n-dimensionale Standard-Normalverteilung<br />
nennen. Wir schreiben dann auch<br />
(Z1,...,Zn) T ∼ N (0,In) ,<br />
wobei wir mit<br />
die n × n-Einheitsmatrix bezeichnen.<br />
10.79 Definition:<br />
In =<br />
⎛<br />
⎜<br />
⎝<br />
1 0<br />
. ..<br />
0 1<br />
Sei Z = (Z1,...,Zn) T ∼ N (0,In), A eine reelle n×n-Matrix und µ ∈ R. Dann nennen wir die Verteilung<br />
von<br />
A · Z + µ<br />
eine n-dimensionale Normalverteilung zu A und µ.<br />
10.80 Definition:<br />
Sei Z = (Z1,...,Zn) T ein Zufallsvektor. Der Erwartungswert von Z ist <strong>der</strong> Vektor<br />
Beispiel 10.81:<br />
−∞<br />
⎞<br />
⎟<br />
⎠<br />
ν=1<br />
E (Z) = (E (Z1) ,...,E (Zn)) T .<br />
Sei Z ∼ N (0,In). Dann ist offenbar E (Z) = 0 ∈ R n . Außerdem folgt für jede n × n-Matrix A und jedes<br />
µ ∈ R n , dass<br />
E (AZ + µ) = AE (Z) + µ = µ.
10 Allgemeine Modelle und stetige Verteilungen 123<br />
10.82 Definition:<br />
Sei Z = (Z1,...,Zn) T ein allgemeiner Zufallsvektor. Die Kovarianzmatrix von Z ist<br />
Beispiel 10.83:<br />
Sei Z = (Z1,...,Zn) T ∼ N (0,In). Wegen<br />
ist ΣZ = In.<br />
10.84 Lemma:<br />
ΣZ := (CoV (Zi,Zj)) 1≤i,j≤n .<br />
CoV (Zi,Zj) =<br />
� 0 falls i �= j<br />
1 falls i = j<br />
Sei Z ein beliebiger Zufallsvektor, A = (ai,j) 1≤i,j≤n eine beliebige reelle n × n-Matrix und µ ∈ R n . Dann<br />
gilt für X := A · Z + µ, dass<br />
ΣX = A · ΣZ · A T .<br />
Beweis:<br />
Es ist<br />
CoV (Xi,Xj) = E ((Xi − E (Xi)) (Xj − E (Xj)))<br />
���<br />
n�<br />
� �<br />
n�<br />
= E<br />
− E<br />
� A · Σz · A T�<br />
i,j<br />
Das zeigt die Behauptung.<br />
Beispiel 10.85:<br />
= E<br />
=<br />
=<br />
�� n�<br />
k=1<br />
�� n�<br />
n�<br />
k,l=1<br />
n�<br />
k,l=1<br />
k=1<br />
k=1<br />
ai,kZk + µi<br />
aj,kZk + µj<br />
�<br />
E<br />
� n�<br />
k=1<br />
ai,k (Zk − E (Zk))<br />
ai,k CoV (Zk,Zl)aj,l<br />
ai,k CoV (Zk,Zl)a T l,j<br />
�<br />
k=1<br />
aj,kZk + µj<br />
·<br />
� n�<br />
l=1<br />
ai,kZk + µi<br />
���<br />
��<br />
aj,l (Zl − E (Zl))<br />
Sei Z ∼ N (0,In) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ Rn . Nach<br />
Lemma 10.84 gilt dann<br />
ΣX = A · ΣZ<br />
����<br />
·A T = A · A T .<br />
=In<br />
Damit sind Erwartungswert und Kovarianzmatrix <strong>der</strong> n-dimensionalen Normalverteilung zu A und µ<br />
gegeben durch µ und ΣX = A · AT .<br />
Bemerkung 10.86:<br />
Sei Z ∼ N (0,In) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ R n . Dann ist<br />
die Matrix ΣX = A · A T stets symmetrisch und positiv semi-definit, d.h. für jedes x ∈ R n gilt<br />
x T ΣXx ≥ 0.<br />
Die Umkehrung ist ebenfalls richtig: Jede Matrix Σ, die symmetrisch und positiv semi-definit ist, ist<br />
Kovarianzmatrix einer n-dimensionalen Normalverteilung. Das folgt einfach aus <strong>der</strong> Hauptachsentransformation,<br />
denn demnach ist Σ = V · D · V T für eine orthogonale Matrix V und eine Diagonalmatrix<br />
⎛ ⎞<br />
D =<br />
⎜<br />
⎝<br />
d1<br />
. ..<br />
0<br />
0 dn<br />
⎟<br />
⎠ .<br />
·<br />
��
124 10 Allgemeine Modelle und stetige Verteilungen<br />
Da Σ positiv semi-definit ist, sind alle Zahlen di ≥ 0. Wir setzen<br />
⎛ √<br />
d1<br />
⎜<br />
A := V · ⎜<br />
⎝<br />
0<br />
�<br />
. ..<br />
��<br />
⎞<br />
0<br />
⎟<br />
⎠ ·V<br />
√<br />
dn<br />
�<br />
T ,<br />
und haben dann<br />
10.87 Definition:<br />
=: √ D<br />
A · A T = V · √ D · V T · V · √ D · V T = V · D · V T = Σ.<br />
� �� �<br />
=In<br />
Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) = 0, so sprechen wir<br />
von einer ausgearteten Normalverteilung.<br />
10.88 Definition:<br />
10.89 Satz:<br />
Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) �= 0, so sprechen wir<br />
von einer nicht ausgearteten Normalverteilung.<br />
Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung mit Erwartungswert µ ∈ Rn und<br />
det(Σ) �= 0. Dann ist die zugehörige Dichte gegeben als<br />
Beweis:<br />
f (x) =<br />
1<br />
�√ 2π �n � det(Σ) exp<br />
�<br />
− 1<br />
�<br />
(x − µ)<br />
2<br />
T · Σ −1 �<br />
· (x − µ)<br />
�<br />
, x ∈ R n . (10.13)<br />
Wir wollen den Transformationssatz für Dichten im Rn benutzen: Hat Z = (Z1,...,Zn) T auf offenem<br />
M ⊂ Rn die Dichte fZ und ist u : M ��<br />
n N für N ⊂ R ebenfalls offen ein Diffeomorphismus, so hat<br />
X := u (Z) die Dichte<br />
� � � � ��<br />
−1<br />
u (x) · �det −1<br />
D(u )(x) � . (10.14)<br />
fX (x) = fZ<br />
Dabei bezeichnet D(u −1 ) das totale Differential von u −1 .<br />
Dieser Satz folgt direkt aus <strong>der</strong> Transformationsformel im R n , <strong>der</strong> explizite Beweis findet sich bei<br />
[Dehling/Haupt], Seite 181.<br />
Hier ist Z ∼ N (0,In), M = N = R n und u (x) = Ax + µ mit A wie in Bemerkung 10.86 zu Σ definitiert.<br />
Da det (Σ) �= 0 ist, ist auch det (A) �= 0, d.h.<br />
existiert. Damit ist dann<br />
u −1 (x) = A −1 (y − µ)<br />
�<br />
�det D � u −1� (x) � � = � �det(A −1 ) � � =<br />
1<br />
|det (A)| =<br />
1<br />
� det(Σ) .<br />
Beachte dabei, dass det(Σ) > 0 wegen <strong>der</strong> positiven Semi-Definitheit von Σ.<br />
Da n�<br />
z2 i = (z1,...,zn) · (z1,...,zn) T ist, gilt<br />
i=1<br />
fZ(z) =<br />
�<br />
1<br />
�√ �n exp −<br />
2π 1<br />
2 zT �<br />
· z .<br />
Mit <strong>der</strong> angegebenen Transformationsformel für Dichten (10.14) folgt<br />
fX (x) =<br />
=<br />
und somit die Behauptung.<br />
1<br />
�√ 2π �n exp<br />
1<br />
�√ 2π �n · � det(Σ) exp<br />
�<br />
− 1<br />
��A � −1 T � � −1<br />
(x − µ) A (x − µ)<br />
2<br />
��<br />
·<br />
�<br />
− 1<br />
�<br />
(x − µ)<br />
2<br />
T Σ −1 �<br />
(x − µ)<br />
�<br />
1<br />
� det(Σ)
10.93 Satz:<br />
10 Allgemeine Modelle und stetige Verteilungen 125<br />
Bemerkung 10.90:<br />
Ist det (Σ) = 0, so gibt es keine Dichte auf dem R n für die zugehörige Verteilung.<br />
Bemerkung 10.91:<br />
Man beachte, dass die n-dimensionale Normalverteilung bereits durch Σ und µ festgelegt ist!<br />
Bemerkung 10.92:<br />
Der Fall det (Σ) �= 0 entspricht genau dem Fall, dass Σ symmetrisch und strikt positiv definit ist, d.h.<br />
x T Σx > 0 ∀ x ∈ R n \ {0} .<br />
Für jede solche Matrix existiert also eine n-dimensionale Normalverteilung mit Dichte wie im Satz. Die<br />
Matrix A dieser Verteilung ist dann wie in Bemerkung 10.86 gegeben.<br />
10.9.1 Folgerungen<br />
Sei X = (X1,...,Xn) T nach N (µ,Σ) verteilt, d.h. es ist µ = E (X) und Σ = CoV (X). Sei außerdem<br />
det (Σ) �= 0. Dann gilt<br />
Xi ∼ N (µi,Σi,i) .<br />
Allgemeiner: Ist c ∈ Rn \ {0}, so ist<br />
n�<br />
�<br />
n� n�<br />
ciXi ∼ N ciµi,<br />
Sind die Xi’s paarweise unkorreliert, so sind sie unabhängig.<br />
Beweis:<br />
i=1<br />
i=1<br />
i=1<br />
c 2 iΣi,i<br />
Da alles nur von <strong>der</strong> Verteilung abhängt, können wir wie folgt vorgehen: Finde eine n × n-Matrix A, s.d.<br />
A · A T = Σ gilt. Dann ist X = A · Z + µ für Z ∼ N (0,In). Damit folgt aber<br />
Xi =<br />
n�<br />
Ai,kZk + µi,<br />
womit mehrfaches anwenden des Faltungssatzes für die Normalverteilung (Satz 10.77) sofort<br />
�<br />
n�<br />
Xi ∼ N µi,<br />
� �<br />
n�<br />
= N µi,<br />
�<br />
= N (µi,Σi,i)<br />
k=1<br />
A 2 i,k<br />
k=1<br />
k=1<br />
liefert. Ganz analog geht man für beliebiges c ∈ R n \ {0} vor.<br />
Ai,kA T k,i<br />
Kommen wir zur Unabhängigkeit. Sind die Xi’s unkorreliert, so ist CoV(X) = Σ eine Diagonalmatrix.<br />
Die Dichte fX von X ist gemäß 10.13 gegeben, und da Σ −1 ebenso wie Σ Diagonalform hat, ist sie in<br />
Produktform. Satz 10.69 liefert, dass die Xi’s unabhängig sind.<br />
10.10 Wahrscheinlichkeitsverteilungen und <strong>der</strong> zentrale Grenzwertsatz<br />
Bemerkung 10.94:<br />
Wir haben schon gesehen, dass für stetige Zufallsvariablen X und Y ebenso wie für diskrete die Linearität<br />
des Erwartungswertes gilt:<br />
Außerdem ist <strong>der</strong> Erwartungswert monoton, d.h.<br />
E (aX + Y ) = aE (X) + E (Y ) , a ∈ R. (10.15)<br />
X ≤ Y ⇒ E (X) ≤ E (Y ) .<br />
Man kann ebenso (maßtheoretisch) zeigen, dass alle Rechenregeln, die im diskreten Fall für die Varianz<br />
gelten, sich auf den stetigen Fall übertragen, also<br />
für a,b ∈ R und X stetig verteilte Zufallsvariable usw..<br />
�<br />
.<br />
V (aX + b) = a 2 V (X) (10.16)<br />
Ebenso gelten die Markov-, Tschebyschow- und Hoeffding Ungleichung sowie das SGGZ genau wie im<br />
stetigen Fall.<br />
Wir werden die Regeln (10.15) und (10.16) nun einfach mitbenutzen.
126 10 Allgemeine Modelle und stetige Verteilungen<br />
10.10.1 Die Jensen’sche Ungleichung<br />
Bevor wir zum zentralen Grenzwertsatz schreiten brauchen wir noch folgendes<br />
10.95 Lemma (Jensen’sche Ungleichung):<br />
Ist X eine reelle Zufallsvariable (diskret o<strong>der</strong> stetig, das Lemma gilt in beiden Fällen) und g : R<br />
eine konvexe Funktion, so gilt im Falle <strong>der</strong> Existenz von E (X) und E (g(X)) die Ungleichung<br />
Beweis:<br />
g (E (X)) ≤ E (g (X)).<br />
Für eine konvexe Funktion g können wir an den Punkt (E (X),g (E (X))) eine (ohne weitere Voraussetzungen<br />
nicht zwingend eindeutige) lineare Approximation an g legen. Diese hat die Form<br />
L(x) = c · (x − E (X)) + g (E (X)),<br />
wobei c = g ′ (E (X)), falls g an E (X) ∈ I differenzierbar ist. Insbeson<strong>der</strong>e gilt dann<br />
E (L(X)) = E (c · (X − E (X)) + g (E (X)))<br />
= c · (E (X) − E (X)) + g (E (X))<br />
= g (E (X))<br />
Da g konvex und L linear ist, gilt L ≤ g und mit <strong>der</strong> Monotonie des Erwartungswerts folgt so<br />
was die Behauptung zeigt.<br />
Beispiel 10.96:<br />
g (E (X)) = E (L(X)) ≤ E (g (X)),<br />
Sei X eine reelle Zufallsvariable. Ist etwa g(x) = x 2 , so folgt<br />
(E (X)) 2 ≤ E � X 2� .<br />
Dieses Ergebnis folgt auch schon daraus, dass 0 ≤ V (X) = E � X 2� − (E (X)) 2 ist.<br />
Bemerkung 10.97:<br />
Sei X eine reelle Zufallsvariable. Insbeson<strong>der</strong>e kann man das Lemma auch für Intervalle I ⊂ R, etwa<br />
I = [0, ∞) anwenden, wenn X Werte in I hat.<br />
��<br />
R
10 Allgemeine Modelle und stetige Verteilungen 127<br />
10.10.2 Der zentrale Grenzwertsatz (ZGWS)<br />
10.98 Definition (drittes zentrales Moment):<br />
Sei X eine reelle Zufallsvariable. Wir definieren<br />
als das dritte zentrale Moment von X.<br />
Bemerkung 10.99:<br />
γ (X) := E<br />
�<br />
|X − E (X)| 3�<br />
Sei X eine reelle Zufallsvariable. Offenbar hängt γ (X) nur von <strong>der</strong> Verteilung von X ab.<br />
10.100 Satz (Zentraler Grenzwertsatz):<br />
Sei P X eine feste Verteilung einer reellen Zufallsvariablen X s.d. E (X), V (X) und γ := γ(X) existieren<br />
und V (X) > 0 ist (das ist zum Beispiel für B(n,p) ,Geo(p),Exp (λ),N � µ,σ 2� usw. <strong>der</strong> Fall).<br />
Für jedes n ∈ N seien X1,...,Xn unabhängige reelle Zufallsvariablen, die alle nach P X verteilt sind. Sei<br />
nun<br />
n�<br />
Sn :=<br />
und Φ die Verteilungsfunktion von N (0,1). Dann gilt<br />
�<br />
�<br />
�<br />
sup�<br />
x∈R � P<br />
�<br />
� �<br />
Sn − E (Sn)<br />
�<br />
�<br />
� ≤ x − Φ(x) �<br />
V (Sn) �<br />
Wir beweisen diese Version des zentralen Grenzwertsatzes ein wenig weiter unten.<br />
Bemerkung 10.101:<br />
i=1<br />
Xi<br />
n<br />
��<br />
∞ ��<br />
0. (10.17)<br />
Natürlich gilt unter den gemachten Voraussetzungen die Formel (10.17) genauso mit < anstelle von ≤.<br />
Bemerkung 10.102:<br />
Natürlich folgt mit dem zentralen Grenzwertsatz auch<br />
�<br />
�<br />
�<br />
sup�<br />
a≤b � P<br />
�<br />
a ≤ Sn<br />
�<br />
�<br />
− E (Sn)<br />
�<br />
�<br />
� ≤ b − (Φ(b) − Φ(a)) �<br />
V (Sn) �<br />
10.103 Satz (Zentraler Grenzwertsatz - alternative Formulierung):<br />
n<br />
��<br />
∞ ��<br />
0.<br />
Sei X1,X2,... eine Folge unabhängiger reeller Zufallsvariablen mit gleicher Verteilung, s.d. E (X1), V (X1)<br />
und γ (X1) existieren und V (X1) > 0 gilt. Sei außerdem Φ die Verteilungsfunktion zu N (0,1).<br />
Dann gilt<br />
� ⎛<br />
�<br />
� n�<br />
�<br />
n�<br />
�<br />
⎞ �<br />
�<br />
�<br />
� ⎜ Xi − E Xi ⎟ �<br />
� ⎜<br />
⎟ �<br />
sup�<br />
�P<br />
⎜ i=1 i=1<br />
⎜ � �<br />
x∈R � ⎝ n�<br />
� ≤ x ⎟ − Φ(x) �<br />
�<br />
⎠ �<br />
�<br />
�<br />
V<br />
�<br />
�<br />
Xi<br />
i=1<br />
Folgerung 10.104 (Grenzwertsatz von de Moivre-Laplace):<br />
n<br />
��<br />
∞ ��<br />
0.<br />
Satz 9.2 folgt sofort durch Anwenden des zentralen Grenzwertsatzes (alternative Formulierung) mit<br />
0 < p < 1 fest und X1,X2,... ∼ B(1,p) unabhängig verteilt.<br />
Nun zeigen wir zunächst folgenden<br />
10.105 Hilfssatz:<br />
Sei Y ∼ N � 0,σ 2� verteilt. Dann gilt<br />
Beweis:<br />
�<br />
E |Y | 3�<br />
�<br />
8<br />
=<br />
π σ3 .<br />
Gemäß <strong>der</strong> Transformationsformel für den Erwartungswert (Satz 10.44) ist<br />
�<br />
E |Y | 3�<br />
=<br />
=<br />
�∞<br />
−∞<br />
|t| 3 1<br />
√<br />
2πσ2 exp<br />
�<br />
− 1<br />
�<br />
t2<br />
2σ2 0<br />
dt<br />
2<br />
√<br />
2πσ2 ·<br />
�∞<br />
t 3 �<br />
exp − 1<br />
�<br />
t2 dt.<br />
2σ2
128 10 Allgemeine Modelle und stetige Verteilungen<br />
Nun substituiert man t = σ √ 2x, womit dt = σ<br />
√ 2x dx ist und<br />
�<br />
E |Y | 3�<br />
Das zeigt die Behauptung.<br />
=<br />
=<br />
2<br />
√<br />
2πσ2 ·<br />
�<br />
0<br />
∞<br />
2σ4 √<br />
2πσ2 ·<br />
�<br />
0<br />
0<br />
∞<br />
σ 3√ 2x 3<br />
�<br />
exp − 1<br />
2σ2 σ2 �<br />
σ<br />
2x √2x dx<br />
√ 2x 2<br />
exp(−x) dx<br />
= 4σ3<br />
�∞<br />
√ · xexp (−x) dx<br />
2π<br />
= 4σ3<br />
√ 2π · Γ(2)<br />
= 4σ3<br />
√ 2π · (2 − 1)!<br />
=<br />
=<br />
�<br />
16<br />
2π σ3<br />
�<br />
8<br />
π σ3 .<br />
Bevor wir nun zum Beweis des zentralen Grenzwertsatzes schreiten stellen wir noch fest:<br />
Bemerkung 10.106:<br />
Sind die Zufallsvariablen Xi unabhängig, so gilt<br />
�<br />
n�<br />
�<br />
V =<br />
i=1<br />
was wir im diskreten Fall auch bewiesen haben.<br />
Beweis (von Satz 10.100):<br />
Setze<br />
Fn (x) := P<br />
Xi<br />
n�<br />
V (Xi) ,<br />
i=1<br />
�<br />
�<br />
Sn − E (Sn)<br />
� ≤ x<br />
V (Sn)<br />
für x ∈ R und σ := � V (x1). Wir müssen also zeigen, dass<br />
sup |Fn(x) − Φ(x)|<br />
x∈R<br />
Für (10.18) genügt es zu zeigen, dass es für jedes ε > 0 ein δ > 0 gibt, s.d.<br />
γ<br />
√ nσ 3<br />
n<br />
≤ δ ⇒ sup |Fn(x) − Φ(x)| ≤ ε,<br />
x∈R<br />
denn falls dieses gilt, finden wir immer ein hinreichend großes n ∈ N s.d.<br />
ist.<br />
sup |Fn(x) − Φ(x)| ≤ ε<br />
x∈R<br />
Wir beginnen dazu mit einigen Vorbereitungen. Setze<br />
Zi := Xi − E (Xi)<br />
�<br />
nV (Xi)<br />
für i = 1,...,n. Dann ist nach <strong>der</strong> Bemerkung 10.106<br />
Sn − E (Sn)<br />
� V (Sn) =<br />
n�<br />
i=1<br />
��<br />
∞ ��<br />
. (10.18)<br />
Zi<br />
γ<br />
√ nσ 3 ≤ δ und somit
10 Allgemeine Modelle und stetige Verteilungen 129<br />
und entsprechend auch<br />
Fn (x) = P<br />
� n�<br />
i=1<br />
Zi ≤ x<br />
�<br />
, x ∈ R.<br />
Offenbar ist E (Zi) = 0 für i = 1,...,n und man berechnet mit den Regeln für die Varianz<br />
für jedes i = 1,...,n. Zuletzt ist<br />
E � Z 2� i = V (Zi) + (E (Zi)) 2 1<br />
=<br />
� �� � nV (Xi)<br />
=0<br />
· V (Xi − E (Xi)) = 1<br />
n<br />
�<br />
E |Zi| 3�<br />
= E<br />
�<br />
|Xi − E (Xi)| 3<br />
�<br />
nV (Xi) 3<br />
�<br />
=<br />
γ<br />
( √ n) 3 .<br />
σ3 Seien ferner Y1,...,Yn unabhängig (auch von den Zi’s) mit Yi ∼ N � 0, 1<br />
�<br />
n . Nach dem Faltungssatz für die<br />
Normalverteilung (Satz 10.77) ist dann<br />
n�<br />
Yi ∼ N (0,1)<br />
i=1<br />
verteilt. Außerdem ist E (Yi) = 0, E � Y 2<br />
�<br />
i = V (Yi) = 1<br />
n<br />
E � |Yi| 3� =<br />
� 8<br />
π<br />
und mit Hilfssatz 10.105 auch<br />
1<br />
√ n 3 .<br />
Wähle zu beliebigem ε > 0 eine mindestens dreifach stetig differenzierbare Funktion f mit 0 ≤ f ≤ 1 und<br />
�<br />
1 falls t ≤ 0<br />
f(t) =<br />
0 falls t ≥ ε .<br />
Setze dann zu x ∈ R fx(t) := f(t − x), t ∈ R und M := sup |f<br />
t∈R<br />
′′′ (t)|. Nach dem Satz von Taylor gilt dann<br />
für alle t,h ∈ R<br />
fx(t + h) = fx(t) + f ′ x(t) · h + f ′′<br />
x(t) · h2<br />
2<br />
Jetzt definieren wir<br />
und wählen n ∈ N so groß, dass<br />
Wir zeigen nun, dass<br />
�<br />
�<br />
�<br />
�<br />
� E<br />
� �<br />
n�<br />
fx<br />
für alle x ∈ R gilt.<br />
Setze S Z j<br />
:= j�<br />
i=1<br />
Zi<br />
��<br />
− E<br />
+ v(t,h) mit |v(t,h)| ≤ sup |f<br />
t∈R<br />
′′′<br />
x (t)| · |h|3<br />
6<br />
δ := δ(ε) =<br />
M<br />
γ<br />
√ nσ 3 ≤ δ gilt.<br />
�<br />
fx<br />
� n�<br />
i=1<br />
Yi<br />
3.6 · ε<br />
�<br />
1 +<br />
Schritt I<br />
� 8<br />
π<br />
i=1<br />
�<br />
���<br />
����<br />
≤ M<br />
�<br />
n� � �<br />
E |Zi|<br />
6<br />
3�<br />
�<br />
+ E |Yi| 3���<br />
|h|3<br />
≤ M · . (10.19)<br />
6<br />
(10.20)<br />
Zi für j = 1,...,n. Betrachte nun t = S<br />
i=1<br />
Z n−1 und h = Zn in <strong>der</strong> Taylorentwicklung (10.19):<br />
fx<br />
� Z<br />
Sn−1 + Zn<br />
� �� �<br />
=SZ � � � � Z ′ Z<br />
= fx Sn−1 + f x Sn−1 n<br />
Nach dem Blockungslemma sind f ′ �<br />
Z<br />
x Sn−1 unseren Vorüberlegungen<br />
E � � �� � � �� � � Z Z ′ Z<br />
fx Sn = E fx Sn−1 + E f x Sn−1 � · Zn + f ′′<br />
x<br />
�<br />
und Zn sowie f ′′<br />
�<br />
Z<br />
x Sn−1 �� · E (Zn)<br />
� �� �<br />
=0<br />
� � Z Z<br />
Sn−1 · 2 n<br />
2 + v � S Z �<br />
n−1,Zn .<br />
� und Z 2<br />
n<br />
2<br />
+E � f ′′ � �� Z<br />
x Sn−1 · E<br />
unabhängig, d.h. es folgt mit<br />
� � 2 Zn 2<br />
� �� �<br />
= 1<br />
2n<br />
+E � v � S Z ��<br />
n−1,Zn .
130 10 Allgemeine Modelle und stetige Verteilungen<br />
Genauso folgt mit h = Yn, dass<br />
E � � �� � � Z Z<br />
fx Sn−1 + Yn = E fx Sn−1 Subtrahieren <strong>der</strong> Gleichungen liefert<br />
� �<br />
�E fx<br />
�� � � ���<br />
Z<br />
− E fx Sn−1 + Yn<br />
� =<br />
� S Z n<br />
�<br />
�<br />
Da wir ja eigentlich eine Abschätzung für �<br />
�E � fx<br />
�<br />
�� � � �� 2<br />
′′ Z Yn + E f x Sn−1 · E<br />
≤<br />
�<br />
2<br />
�<br />
� �� �<br />
= 1<br />
2n<br />
� E � v � S Z n−1,Zn<br />
�<br />
� E � v � S Z n−1,Zn<br />
+E � v � S Z ��<br />
n−1,Yn .<br />
�� � � ���<br />
Z<br />
− E v S �<br />
n−1,Yn<br />
��� � � � ���<br />
� + �E Z<br />
v S �<br />
n−1,Yn<br />
Jensen’sche Ungleichung<br />
≤ E �� �v � S Z ��� ��<br />
n ,Zn � + E �v � S Z ��� �<br />
n−1,Yn<br />
(10.19), Monotonie<br />
≤<br />
�<br />
� ��<br />
Z Sn − E fx<br />
nun die Taylor-Entwicklung (10.19) mit t = � S Z n−2 + Yn<br />
M<br />
� �<br />
E |Zn|<br />
6<br />
3�<br />
�<br />
+ E |Yn| 3��<br />
.<br />
�<br />
n�<br />
���<br />
���<br />
haben wollen, betrachten wir<br />
Yi<br />
i=1<br />
wir ganz analog zur obigen Rechnung durch Subtrahieren die Abschätzung<br />
� � � �� � � ���<br />
� Z Z<br />
E fx Sn−1 + Yn − E fx Sn−2 + Yn−1 + Yn<br />
�<br />
M<br />
≤<br />
6<br />
Nutze dann die Taylor-Entwicklung (10.19) mit t = � S Z n−3 + Yn−1Yn<br />
Das liefert dann allgemein<br />
� und h = Zn−1 bzw. h = Yn−1. Dort erhalten<br />
�<br />
E<br />
�<br />
�E � � �� � � ���<br />
Z Z<br />
fx Sk + Yk+1 + ... + Yn − E fx Sk−1 + Yk + ... + Yn � ≤ M<br />
6<br />
�<br />
|Zn−1| 3�<br />
+ E<br />
�<br />
|Yn−1| 3��<br />
.<br />
� und h = Zn−2 bzw. h = Yn−2 usw..<br />
� �<br />
E |Zk| 3�<br />
�<br />
+ E |Yk| 3��<br />
für alle k ∈ {1,...,n}. Mit <strong>der</strong> Dreiecksungleichung folgt so die behauptete Gleichung (10.20).<br />
Schritt II<br />
Wir wollen nun zeigen, dass die rechte Seite aus Schritt I (10.20) ≤ 0.6ε ist. Nach unseren Vorüberlegungen<br />
ist die rechte Seite<br />
�<br />
n�<br />
M<br />
� �<br />
E |Zi|<br />
6<br />
3�<br />
�<br />
+ E |Yi| 3���<br />
= M<br />
�<br />
γ<br />
√<br />
6 nσ3 +<br />
� �<br />
8 1<br />
√ . (10.21)<br />
π n<br />
σ 3 =<br />
i=1<br />
Da g (x) := x 3<br />
2 konvex ist, folgt mit <strong>der</strong> Jensen’schen Ungleichung 10.95, dass<br />
�� �3 V (X) = � E � 3 �<br />
|X − E (X) |<br />
2�� �|X � 3 �<br />
2 2 2<br />
≤ E − E(X)| = E � |X − E(X)| 3� = γ<br />
ist. Daher ist<br />
und es folgt, dass die rechte Seite 10.21<br />
γ<br />
≥ 1<br />
σ3 �<br />
M γ<br />
√<br />
6 nσ3 +<br />
� �<br />
8 1<br />
√<br />
π n<br />
≤ M<br />
�<br />
γ γ<br />
√ +<br />
6 nσ3 σ3 � �<br />
8 1<br />
√<br />
π n<br />
= M<br />
� � �<br />
γ 8<br />
√ 1 +<br />
6 nσ3 π<br />
� �� �<br />
≤δ<br />
≤ M<br />
6 δ<br />
� � �<br />
8<br />
1 +<br />
π<br />
= M 3.6ε<br />
�<br />
6<br />
M 1 +<br />
� � �<br />
8<br />
� 1 +<br />
π<br />
erfüllt - also genau die Behauptung.<br />
= 3.6<br />
6 ε<br />
= 0.6ε<br />
� 8<br />
π
10 Allgemeine Modelle und stetige Verteilungen 131<br />
Schritt III<br />
Nach Definition <strong>der</strong> Zi haben wir nun für alle x ∈ R<br />
�<br />
n�<br />
�<br />
Fn(x) = P Zi ≤ x<br />
da 1 (−∞,x]<br />
� n�<br />
Zi<br />
i=1<br />
�<br />
� �<br />
n�<br />
∼ B 1,P<br />
Zi ≤ x<br />
i=1<br />
mit <strong>der</strong> Monotonie des Erwartungswerts<br />
was mit Schritt I und II wie<strong>der</strong>um<br />
= E<br />
�<br />
i=1<br />
1 (−∞,x]<br />
� n�<br />
i=1<br />
Zi<br />
��<br />
,<br />
��<br />
gilt. Nach Wahl von f ist 1 (−∞,x] ≤ fx und daher folgt<br />
Fn (x) ≤ E<br />
Fn (x) ≤ E<br />
�<br />
�<br />
fx<br />
fx<br />
� n�<br />
� n�<br />
i=1<br />
i=1<br />
Yi<br />
Zi<br />
��<br />
��<br />
,<br />
+ 0.6ε<br />
zeigt. Nun ist 1 (−∞,x+ε] ≥ fx nach Wahl von f und daher folgt wie<strong>der</strong> mit <strong>der</strong> Monotonie<br />
Fn (x) ≤ E<br />
�<br />
1 (−∞,x+ε]<br />
� n�<br />
i=1<br />
Yi<br />
��<br />
+ 0.6ε = P<br />
� n�<br />
i=1<br />
Yi ≤ x + ε<br />
Da wie schon bemerkt laut Faltungssatz (Satz 10.77) n�<br />
Yi ∼ N (0,1) gilt, ist<br />
d.h. wir haben<br />
P<br />
� n�<br />
i=1<br />
Yi ≤ x + ε<br />
i=1<br />
�<br />
= Φ(x + ε) ,<br />
Fn (x) ≤ Φ(x + ε) + 0.6ε.<br />
�<br />
+ 0.6ε.<br />
Der Mittelwertsatz <strong>der</strong> Differentialrechnung liefert Φ(x + ε) ≤ Φ(x) + εΦ ′ (ξ) für ein ξ ∈ R. Wegen<br />
Φ ′ (ξ) = ϕ(ξ) ≤ 1<br />
√ 2π ≤ 0.4 für die Dichte ϕ <strong>der</strong> Standard-Normalverteilung folgt somit<br />
Ganz analog erhält man<br />
und mit dem Mittelwertsatz zusätzlich<br />
Zusammen zeigt das<br />
Fn(x) ≤ Φ(x) + 0.4ε + 0.6ε = Φ(x) + ε.<br />
Φ(x − ε) ≤ Fn(x) + 0.6ε<br />
Φ(x) ≤ Φ(x − ε) + 0.4ε.<br />
|Fn(x) − Φ(x)| ≤ ε<br />
für alle x ∈ R und daher über (10.18) die Behauptung.<br />
10.107 Satz (Fehlerabschätzung nach Berry-Esseen):<br />
Im obigen zentralen Grenzwertsatz (Satz 10.100) gilt für jedes n ∈ N<br />
�<br />
�<br />
�<br />
�<br />
� P<br />
�<br />
� �<br />
Sn − E (Sn)<br />
�<br />
� 0.8γ<br />
� ≤ x − Φ(x) � ≤ √<br />
V (Sn) � nσ3 für jedes x ∈ R. Diese Relation gilt auch mit einem < anstelle von ≤. Außerdem gilt damit<br />
�<br />
�<br />
�<br />
�<br />
� P<br />
�<br />
a ≤ Sn<br />
�<br />
�<br />
− E (Sn)<br />
�<br />
� 1.6γ<br />
� ≤ b − (Φ(b) − Φ(a)) � ≤ √<br />
V (Sn) � nσ3 .
132 10 Allgemeine Modelle und stetige Verteilungen<br />
Beweis:<br />
Diese Abschätzungen folgen schon aus unserem Beweis des zentralen Grenzwertsatzes. Es ist nur etwas<br />
Arbeitsaufwand, sie herauszulesen.<br />
Beispiel 10.108:<br />
Wir wollen Fehlerabschätzungen für den Grenzwertsatz von de Moivre-Laplace (Satz 9.2) im Fall p = 1<br />
2<br />
herleiten. Seien also X1,X2,... ∼ B � 1, 1<br />
�<br />
2 unabhängige Zufallsvariablen. Dann ist V (Xi) = 1<br />
4 , d.h. mit<br />
den Bezeichnungen des zentralen Grenzversatzes ist<br />
Außerdem ist |Xi − E(Xi)| = 1<br />
2 , da E (Xi) = 1<br />
2<br />
σ 3 = V (X) 3<br />
2 = 1<br />
8 .<br />
ist, d.h.<br />
�<br />
γ = E |X1 − E(X1)| 3�<br />
= 1<br />
8 .<br />
Daher ist γ<br />
σ 3 = 1 und die Fehlerabschätzungen werden zu<br />
0.8<br />
√ n bzw. 1.6<br />
√ n .
11 Markov-Ketten mit endlichem Zustandsraum 133<br />
11 Markov-Ketten mit endlichem Zustandsraum<br />
Die Idee<br />
Wir wollen ein stochastisches Modell für die Bewegung eines Teilchens auf endlich vielen Zuständen<br />
geben, wobei die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen Zustand und nicht von<br />
<strong>der</strong> weiteren Vergangenheit abhängt. Diese Eigenschaft wird auch ” Markov-Eigenschaft“ genannt und ist<br />
oftmals nur eine Approximation <strong>der</strong> Wirklichkeit. Die Lösung für ein solches Modell sind Markov-Ketten,<br />
die wir in Abschnitt 11.2 kennen lernen werden.<br />
Beispiel 11.1:<br />
Wir betrachten einen Springer, <strong>der</strong> sich allein auf dem Schachbrett bewegt. Er wählt aus allen ihm<br />
erlaubten Zügen jeweils rein zufällig (also gleichverteilt) den nächsten Raus. In diesem Beispiel entsprechen<br />
die Zustände den 64 Fel<strong>der</strong>n des Schachbretts und das Teilchen dem Springer.<br />
Man kann sich jetzt etwa Fragen, wie lang die erwartete Zeit ist, bis <strong>der</strong> Springer wie<strong>der</strong> in seiner<br />
Startposition ankommt.<br />
Beispiel 11.2:<br />
Ein weiteres Beispiel ist ein sogenannter ” Netbot“, <strong>der</strong> zufällig gemäß Ausgangslinks von Seite zu Seite<br />
wan<strong>der</strong>t.<br />
Beispiel 11.3 (Markov):<br />
Markov betrachtete ursprünglich folgendes Problem: Wenn die Folge von Vokalen / Konsonanten in<br />
Puschkin’s Roman ” Eugene Onegin“ die Markov-Eigenschaft hätte, dann wäre die ” Übergangsmatrix“<br />
(definieren wir weiter unten) gegeben durch<br />
0.128<br />
��<br />
0.872<br />
��<br />
V ��<br />
K<br />
��<br />
0.663<br />
Heutzutage werden Markov-Ketten vor allem als Modell für DNA-Folgen genutzt, wobei das Alphabet<br />
dann {A,C,G,T} ist.<br />
Eine an<strong>der</strong>e Interpretation von Markov-Ketten ist, dass ein System (�= Teilchen) sich in einem von endlich<br />
vielen Zuständen befindet. Zu bestimmten Event-Zeitpunkten springt es dann in einen neuen Zustand.<br />
Diese Interpretation wird heutzutage etwas bei <strong>der</strong> Pufferauslastung von Servern verwendet.<br />
11.1 Steuerung <strong>der</strong> Sprünge: Übergangsmatrizen und -graphen<br />
11.4 Definition:<br />
Eine Zustandsmenge S ist eine endliche Menge.<br />
Sei von jetzt an stets S eine Zustandsmenge. Oftmals ist S = {1,...,N}, allerdings verwenden wir oft das<br />
Symbol 1 für den Zustand ” 1“, um nicht durcheinan<strong>der</strong> zu kommen.<br />
11.5 Definition:<br />
0.337<br />
Sei #S = N ∈ N. Eine N × N-Matrix P = (pi,j) i,j∈S mit den Eigenschaften<br />
• pi,j ≥ 0 ∀ i,j ∈ S<br />
• �<br />
pi,j = 1 ∀ i ∈ S<br />
j∈S<br />
heißt stochastische Matrix o<strong>der</strong> Übergangsmatrix auf S.<br />
In diesem Fall sind alle Zeilen von P stochastische Vektoren.<br />
Notation 3:<br />
Sei P eine Übergangsmatrix auf S. Für den Eintrag von P in <strong>der</strong> i-ten Zeile und j-ten Spalte schreiben<br />
wir<br />
P(i,j) = pi,j<br />
bei i,j ∈ S.<br />
.
134 11 Markov-Ketten mit endlichem Zustandsraum<br />
Beispiel 11.6:<br />
Wir wollen die tägliche Wetterentwicklung modellieren. Dazu sei<br />
S := {Regen, Sonne, bewölkt} .<br />
Wir nummerieren die Zustände in dieser Reihe durch (also Regen �= 1, Sonne �= 2, bewölkt �= 3).<br />
Als Übergangsmatrix definieren wir<br />
Das soll etwa bedeuten, dass<br />
11.7 Definition:<br />
P :=<br />
⎛<br />
⎜<br />
⎝<br />
0 1 0<br />
1<br />
3 0 2<br />
3<br />
1 1 1<br />
3 3 3<br />
⎞<br />
⎟<br />
⎠ .<br />
P (morgen bewölkt | heute Sonne) = p2,3 = 2<br />
3 .<br />
Zu einer Übergangsmatrix P auf S gehört stets ein Übergangsgraph GP, welcher wie folgt zu konstruieren<br />
ist:<br />
Die Menge E <strong>der</strong> Ecken von GP ist S. Eine Kante von i ∈ S nach j ∈ S mit Gewicht pi,j wird gehört<br />
genau dann zur Kantenmenge V von GP, wenn pi,j > 0 gilt.<br />
Beispiel 11.8:<br />
In unserem Wettermodell aus Beispiel 11.6 wäre <strong>der</strong> zugehörige Graph<br />
1<br />
1<br />
3<br />
��<br />
2<br />
��<br />
��<br />
1 ������<br />
1<br />
3<br />
3 1<br />
��<br />
Beispiel 11.9 (Lieblingsbeispiel des Dozenten):<br />
Betrachte die Übergangsmatrix<br />
P =<br />
3<br />
� 0 1<br />
Dann ist <strong>der</strong> zugehörige Übergangsgraph GP gegeben als<br />
11.10 Definition:<br />
1<br />
1<br />
2<br />
1<br />
2<br />
1<br />
3<br />
�<br />
��<br />
1 ��<br />
2<br />
��<br />
1<br />
2<br />
Sei G = (V,E) ein Graph und i,j ∈ V . Ein Pfad o<strong>der</strong> Weg von i nach j in G ist eine Folge von Ecken<br />
.<br />
2<br />
3<br />
vi,i1 ,vi1,i2 ,...,vin−1,in ,vin,j<br />
zwischen den Punkten i und i1, i1 und i2,... entsprechend mit i1,...,in ∈ V .<br />
Im allgemeinen existiert kein Pfad zwischen beliebigen i,j ∈ V . Für einen Pfad w gegeben durch i =<br />
i0,i1,...,in = j von i nach j sei |w| = n seine Länge. Wir schreiben für w auch<br />
i w ��<br />
j.<br />
Man kann Wege auch verknüpfen: Ist i w1 �<br />
� j und j w2 �<br />
� k, so ist i w1w2 �<br />
� k ebenfalls ein Weg mit<br />
|w1w2| = |w1| + |w2|.<br />
1<br />
2<br />
.<br />
1<br />
3
11 Markov-Ketten mit endlichem Zustandsraum 135<br />
11.11 Definition:<br />
11.14 Satz:<br />
Sei P eine Übergangsmatrix auf S. P beziehungsweise <strong>der</strong> zugehörige Übergangsgraph GP heißen<br />
irreduzibel, wenn es für jedes Paar i,j ∈ S ein Pfad von i nach j von GP gibt.<br />
Beispiel 11.12:<br />
Die Übergangsmatrize bzw.- graphen aus obigen Beispielen 11.6 und 11.9 sind beide irreduzibel. Betrachtet<br />
man dagegen die Übergangsmatrix �<br />
1<br />
P =<br />
�<br />
0<br />
,<br />
so sieht man am zugehörigen Graphen<br />
1<br />
��<br />
1<br />
2<br />
1<br />
2<br />
1<br />
��<br />
2<br />
��<br />
leicht, dass dieses Beispiel nicht irreduzibel ist - es gibt keinen Pfad von 1 nach 2 !<br />
Bemerkung 11.13:<br />
1<br />
2<br />
Man beobachtet nun Folgendes: Ist P eine Übergangsmatrix auf S, so beschreibt eine Folge von Zuständen<br />
aus S genau dann einen Pfad von i nach j, wenn<br />
ist, d.h. falls die Zahl<br />
strikt positiv ist.<br />
pi0,i1<br />
i = i0, i1, ...,in−1, in = j<br />
> 0 und pi1,i2 > 0 und ... und pin−1,in > 0<br />
n−1 �<br />
ν=0<br />
piν,iν+1<br />
Wir definieren diese Zahl als das Gewicht des Pfades und die Zahl n als seine Länge.<br />
11.1.1 Potenzen <strong>der</strong> Matrix P<br />
Im Weiteren benötigen wir ständig n-te Potenzen <strong>der</strong> Matrix P. Sei n ∈ N und N = #S. Man beachte:<br />
• Die N × N-Matrix P2 = P · P ist gegeben durch<br />
P 2 (i,j) = �<br />
pi,k · pk,j = �<br />
P(i,k) · P(k,j) , i,j ∈ S.<br />
k∈S<br />
k∈S<br />
• Allgemein folgt induktiv für P n = P · P n−1 , dass<br />
P n (i,j) = �<br />
i1,...,in−1∈S<br />
1<br />
2<br />
pi,i1 · ... · pin−1,j, i,j ∈ S, (11.1)<br />
d.h. dass die Zahl P n (i,j) genau die Summe aller Gewichte von Pfaden <strong>der</strong> Länge n von i nach j<br />
ist.<br />
Damit haben wir sofort folgenden<br />
Sei P eine Übergangsmatrix auf S. Dann gilt:<br />
P ist genau dann irreduzibel, wenn es für jedes Paar i,j ∈ S ein n = n(i,j) ∈ N mit<br />
gibt.<br />
P n (i,j) > 0
136 11 Markov-Ketten mit endlichem Zustandsraum<br />
Beweis:<br />
Ist P irreduzibel, so gibt es zu i,j ∈ S ein n = n(i,j) und einen Pfad <strong>der</strong> Länge n von i nach j mit<br />
Gewicht λ ∈ (0,1]. Wie wir oben schon beobachtet haben, ist P n (i,j) die Summe aller Gewichte von<br />
Pfaden <strong>der</strong> Länge n von i nach j, und da Gwichte von Pfaden stets positiv sind folgt<br />
P n (i,j) ≥ λ > 0.<br />
Gibt es zu i,j ∈ S ein n = n(i,j) mit P n (i,j) > 0, so bedeutet das aus dem gleichen Grund, dass ein<br />
Pfad von i nach j in GP <strong>der</strong> Länge n existiert.<br />
Beispiel 11.15:<br />
Sei<br />
Dann ist � 1 0<br />
0 1<br />
�<br />
P =<br />
= P 2 = P 4 = ... und<br />
� 0 1<br />
1 0<br />
�<br />
.<br />
� 0 1<br />
1 0<br />
�<br />
= P = P 3 = P 5 = ....<br />
Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugehörigen<br />
Graphen GP leicht erkennen:<br />
Beispiel 11.16:<br />
Wir betrachten wie<strong>der</strong> die Übergangsmatrix<br />
aus Beispiel 11.9. Dann ist<br />
1<br />
��<br />
1 ��<br />
2 .<br />
P =<br />
P 2 =<br />
1<br />
� 0 1<br />
1<br />
2<br />
�<br />
1<br />
2<br />
1<br />
4<br />
� �<br />
womit offenbar n = 2 für jedes Paar i,j ∈ S =<br />
zu zeigen.<br />
1 , 2 ausreicht, um die Irreduzibilität mit dem Satz<br />
Wir werden meist nur irreduzible Übergangsmatrizen P<br />
betrachten!<br />
11.1.2 Die Periode einer Übergangsmatrix<br />
11.17 Definition:<br />
Sei P eine irreduzible Übergangsmatrix auf S. Die Periode eines Zustands i ∈ S ist <strong>der</strong> größte gemeinsame<br />
Teiler <strong>der</strong> Menge<br />
Beispiel 11.18:<br />
{n ∈ N | es gibt einen Pfad <strong>der</strong> Länge n von i nach i} = {n ∈ N | P n (i,i) > 0} .<br />
Wir betrachten wie<strong>der</strong> die Übergangsmatrix<br />
P =<br />
1<br />
2<br />
1<br />
2<br />
3<br />
4<br />
� 0 1<br />
1 0<br />
aus Beispiel 11.15.<br />
� �<br />
Für den Zustand i = 1 existieren offenbar Pfade mit Längen 2,4,6,8,... von i nach<br />
i, daher ist d 1 = 2. Das kann man mit <strong>der</strong> zweiten Charakterisierung <strong>der</strong> Menge aus <strong>der</strong> Definition<br />
auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen.<br />
� �<br />
Genauso ist d 2 = 2.<br />
�<br />
�<br />
�<br />
,
11.20 Satz:<br />
11 Markov-Ketten mit endlichem Zustandsraum 137<br />
Beispiel 11.19:<br />
Wir kommen wie<strong>der</strong> zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist<br />
� �<br />
0 1<br />
P = .<br />
1<br />
2<br />
• Für i = 1 finden wir offenbar Pfade von i nach i mit den Längen 2,3,4,5,6 usw., schließlich können<br />
wir im Zustand<br />
� �<br />
2 “ immer rotieren. Das größte gemeinsame Teiler dieser Menge ist 1, d.h. wir<br />
”<br />
haben d 1 = 1.<br />
• Für i = 2 gibt es sogar<br />
�<br />
einen<br />
�<br />
Pfad von i nach i mit Länge 1, weshalb es keinen größeren Teiler als<br />
1 geben kann. Es folgt d 2 = 1.<br />
Nach diesen beiden Beispielen kann man schon vermuten: Für jedes i ∈ S ist d(i) gleich. In <strong>der</strong> Tat ist<br />
diese Aussage stets richtig:<br />
Sei P eine irreduzible Übergangsmatrix auf S. Dann ist die Periode d(i) für jedes i ∈ S gleich.<br />
Beweis:<br />
Seien i,j ∈ S. Es genügt zu zeigen, dass d(i) die Zahl d(j) teilt, also d(i) � � d(j).<br />
Da P irreduzibel ist finden wir einen Weg i w1 ��<br />
j mit |w1| = r und j w2 ��<br />
i mit |w2| = r. Insbeson<strong>der</strong>e<br />
ist dann<br />
mit |w1w2| = r + s. Das zeigt zunächst<br />
1<br />
2<br />
i w1w2 ��<br />
i<br />
d(i) � �r + s. (11.2)<br />
Ist nun j w �<br />
��<br />
j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i) �n. Da dann<br />
ein Pfad mit |w1ww2| = r + s + n ist, folgt daraus<br />
i w1ww2 ��<br />
i<br />
Mit (11.2) und (11.3) folgt aber d(i) � � n, was zu zeigen war.<br />
Bemerkung 11.21:<br />
d(i) � �r + s + n. (11.3)<br />
Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zuständen<br />
auch für nicht irreduzible Übergangsmatrizen P definieren, allerdings kann dann d(i) �= d(j) für i �= j,<br />
i,j ∈ S gelten.<br />
11.22 Definition:<br />
Sei P eine irreduzible Übergangsmatrix auf S. Wir nennen die Zahl<br />
d := d(i), i ∈ S beliebig<br />
die Periode von P. Nach obigem Satz ist d wohldefiniert.<br />
11.23 Definition:<br />
Sei P eine irreduzible Übergangsmatrix auf S. Ist d = 1, so nennen wir P aperiodisch.<br />
Bemerkung 11.24:<br />
Zur Bestimmung <strong>der</strong> Periode d kann man sich also ein i ∈ S aussuchen. Gibt es im Übergangsgraphen<br />
GP zum Beispiel eine Schleife <strong>der</strong> Form<br />
p1<br />
... ��<br />
��<br />
i ��<br />
so wählt man als Zustand i und hat sofort d = 1.<br />
p2<br />
p3>0<br />
,
11.27 Satz:<br />
138 11 Markov-Ketten mit endlichem Zustandsraum<br />
Beispiel 11.25:<br />
Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen<br />
1<br />
2<br />
��<br />
��<br />
��<br />
1 ��<br />
2 ��<br />
3 ��<br />
4<br />
1<br />
2<br />
1<br />
2<br />
1<br />
2<br />
� �<br />
gegeben ist. Da es offenbar nur Wege gera<strong>der</strong> Längen von i nach i für jedes i ∈ S = 1 , 2 , 3 , 4<br />
geben kann, ist d = 2.<br />
Beispiel 11.26:<br />
Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen<br />
1<br />
2<br />
1<br />
2<br />
��<br />
1<br />
��<br />
1<br />
2<br />
��<br />
����<br />
2<br />
��<br />
3<br />
3<br />
1<br />
2<br />
� �<br />
gegeben ist. Dann finden wir für jedes i ∈ S =<br />
folgt.<br />
1 , 2 , 3 Wege <strong>der</strong> Länge 2 und 3, weshalb d = 1<br />
Seine Übergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n ∈ N mit<br />
gibt.<br />
Beweis:<br />
1<br />
2<br />
P n (i,j) > 0 ∀ i,j ∈ S<br />
Wir wollen die folgende zahlentheoretische Tatsache verwenden:<br />
Ist <strong>der</strong> größte gemeinsame Teiler ggT (n1,n2,...) unendlich vieler natürlicher Zahlen = 1, so gibt es ein<br />
k ∈ N mit ggT (n1,...,nk) = 1. Dann existiert ein M ∈ N s.d. jedes m ≥ M geschrieben werden kann als<br />
m = a1 · n1 + ... + aknk<br />
mit Koeffizienten ai ∈ N, i = 1,..,k. Dies sieht man leicht über die Theorie <strong>der</strong> Hauptideale ein.<br />
” ⇒“ Sei 1 ∈ S. Da P aperiodisch ist, ist d<br />
� �<br />
1 = 1 und es gibt nach unserer zahlentheoretischen<br />
Tatsache ein M ∈ N, s.d. für alle m ≥ M ein Weg<br />
existiert.<br />
1<br />
w ��<br />
1 , |w| = m<br />
Für #S = N setze nun n := M + 2N. Da P irreduzibel ist, finden wir zu i,j ∈ S beliebig einen<br />
Weg<br />
i w1 ��<br />
j<br />
mit |w1| ≤ N, indem wir keine Zustände unnötigerweise doppelt besuchen. Genauso existiert auch<br />
ein Weg<br />
w2<br />
1 ��<br />
j<br />
mit |w2| ≤ N. Gemäß <strong>der</strong> Wahl von M finden wir einen Pfad<br />
1<br />
w ��<br />
1<br />
1<br />
2<br />
1<br />
2<br />
1<br />
2
11 Markov-Ketten mit endlichem Zustandsraum 139<br />
mit |w| = 2N − |w1| − |w2| + M ≥ M. Damit ist<br />
mit |w1ww2| = 2N + M, also P n (i,j) > 0.<br />
i w1ww2 ��<br />
j<br />
” ⇐“ Ist Pn (i,j) > 0 für alle i,j ∈ S, so folgt aus <strong>der</strong> Darstellungsformel<br />
P n+1 (i,j) = �<br />
P(i,k) · P n (k,j)<br />
k∈S<br />
und <strong>der</strong> Tatsache, dass jede Zeile von P ein stochastischer Vektor <strong>der</strong> Länge N ist , auch sofort<br />
P n+1 (i,j) > 0 ∀ i,j ∈ S. Daher gibt es Wege <strong>der</strong> Länge n und n + 1 von 1 nach 1 . Es folgt<br />
d(1) � � (n + 1) − n = 1 und somit d(1) = 1. Daher ist P aperiodisch.<br />
Die Irreduzibilität von P folgt bereits aus Satz 11.14.<br />
11.2 Markov-Ketten<br />
Von jetzt an werden wir stets ohne Einschränkung S = {1,...,N} annehmen. Bisher haben wir in diesem<br />
Zusammenhang unsere Zustände stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen.<br />
Es ist aus dem Kontext klar, ob ein Zustand o<strong>der</strong> eine Zahl gemeint ist.<br />
11.28 Definition:<br />
Eine Startverteilung auf S = {1,...,N} ist eine Wahrscheinlichkeitsverteilung<br />
11.29 Definition:<br />
π0 := (π0 (1) ,...,π0 (N)).<br />
Sei P eine Übergangsmatrix und π0 eine Startverteilung auf S.<br />
Eine Markov-Kette zu P mit Startverteilung π0 ist eine Folge<br />
X0,X1,X2,X3,...<br />
von (diskreten) Zufallsvariablen mit Werten in S, s.d.<br />
(1) P (X0 = i) = π0 (i) (Startverteilung)<br />
(2) (Markov-Eigenschaft)<br />
Für alle Wahlen n ≥ 0, 0 ≤ k ≤ n, in+1,...,in−k ∈ S mit P (Xn = in,...,Xn−k = in−k) �= 0 gilt<br />
P (Xn+1 = in+1 | Xn = in,...,Xn−k = in−k) = P (Xn+1 = in+1 | Xn = in) = P(in,in+1) .<br />
Bemerkung 11.30:<br />
(1) Xn gibt in diesem Modell den zufälligen Zustand zur Zeit n ∈ N an.<br />
(2) Die Markov-Eigenschaft (o<strong>der</strong> auch kurz ME) modelliert die Eigenschaft des stochastischen<br />
Prozesses X0,X1,X2,..., dass ” die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen<br />
Zustand und nicht von <strong>der</strong> weiteren Vergangenheit abhängt“, wie wir es in <strong>der</strong> Idee zu Beginn<br />
gefor<strong>der</strong>t haben.<br />
Die For<strong>der</strong>ung P (Xn = in,...,Xn−k = in−k) �= 0 ist mathematisch unerlässlich, wir werden sie aber<br />
stets stillschweigend annehmen.<br />
Man kann sich nun Fragen, ob es überhaupt Markov-Ketten gibt (d.h. ob für jede Übergangsmatrix und<br />
jede Startbedingung Zufallsvariablen X0,X1,... mit obigen Eigenschaften existieren). Die Maßtheorie<br />
beantwortet diese Frage mit ja.<br />
Man kann nun einige Eigenschaften von X0,X1,X2 berechnen und zeigen, dass es sich um das ” richtige“<br />
Modell für das zufällige, durch P gesteuerte Wan<strong>der</strong>n auf GP bei zufälligem, durch π0 gesteuertem Start<br />
handelt.
140 11 Markov-Ketten mit endlichem Zustandsraum<br />
11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten<br />
Wir betrachten hier stets einen Markov-Prozess aus Definition 11.29.<br />
Bemerkung 11.31 (Pfadwahrscheinlichkeiten):<br />
Für m ∈ N und i0,i1,...,im ∈ S haben wir<br />
P � �<br />
Xn+m = im,Xn+m−1 = im−1,...,Xn = i0<br />
� �� �<br />
=:B<br />
Daher folgt induktiv<br />
P (Xn+m = im,Xn+m−1 = im−1,...,Xn = i0) =<br />
= P (Xn+m = im | B)<br />
Markov-Eigenschaft<br />
= P(im−1,im) · P (B).<br />
m�<br />
P(iν−1,iν) · P (Xn = i0) .<br />
Die Wahrscheinlichkeit P (Xn = i0) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist<br />
P (X0 = ii) = π0 (i0)<br />
durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit also<br />
genau unseren Wünschen!<br />
Bemerkung 11.32 (m-Schritt Übergangswahrscheinlichkeiten):<br />
Sind i,j ∈ S, so erhält man durch disjunkte Zerlegung von S in seine Elemente sofort<br />
=<br />
ν=1<br />
P (Xn+m = j,Xn = i)<br />
�<br />
P (Xn+m = j,Xn+m−1 = im−1,...,Xn+1 = i1,Xn = i)<br />
im−1,...,i1∈S<br />
Bemerkung 11.31<br />
= P (Xn = i) · �<br />
im−1,...,i1∈S<br />
(11.1)<br />
= P (Xn = i) · P(i,j) .<br />
Insbeson<strong>der</strong>e folgt durch Division des Terms P (Xn = i), dass<br />
Beispiel 11.33:<br />
Ist<br />
P (Xn+m = j | Xn = i) = P m (i,j) .<br />
P =<br />
� 0 1<br />
die Übergangsmatrix aus Beispiel 11.9, so berechnet man<br />
�<br />
�<br />
P 2 =<br />
�<br />
1<br />
2<br />
1<br />
4<br />
1<br />
2<br />
3<br />
4<br />
, P 4 =<br />
�<br />
3<br />
8<br />
5<br />
16<br />
5<br />
8<br />
11<br />
16<br />
1<br />
2<br />
1<br />
2<br />
P(i,i1) · P(i1,i2) · ... · P(im−1,j)<br />
�<br />
, P 10 ≈<br />
� 0.33398 0.66602<br />
Daher ist zum Beispiel P (Xn+4 = 1 | Xn = 2) = P4 (2,1) = 5<br />
16 = 0.3125.<br />
Bemerkung 11.34 (Verteilung zur Zeit n):<br />
Sei<br />
πn (j) := P (Xn = j) , j ∈ S<br />
0.33301 0.66699<br />
die Verteilung von Xn. Dann ist πn ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit <strong>der</strong><br />
Formel von <strong>der</strong> totalen Wahrscheinlichkeit für jedes j ∈ S<br />
πn (j) = P (Xn = j)<br />
(3.2)<br />
=<br />
�<br />
P (Xn = j | X0 = i) · P (X0 = i)<br />
Bemerkung 11.32<br />
=<br />
i∈S<br />
�<br />
P n (i,j) · π0 (i)<br />
i∈S<br />
= (π0P n ) (j) ,<br />
�<br />
.
11 Markov-Ketten mit endlichem Zustandsraum 141<br />
wobei π0P n das Matrix-Produkt aus dem Zeilenvektor (also <strong>der</strong> 1 ×N-Matrix) π0 und <strong>der</strong> N ×N-Matrix<br />
P n bezeichnet. Das liefert die Formel<br />
Beispiel 11.35:<br />
πn = π0P n . (11.4)<br />
Wir betrachten wie<strong>der</strong> das Setting aus Beispiel 11.33. Ist etwa π0 = (0,1), d.h. starten wir mit Sicherheit<br />
im Zustand 2, so ist<br />
π4 = π0P 4 = zweite Zeile von P 4 � �<br />
5 11<br />
= , .<br />
16 16<br />
Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet.<br />
Ist dagegen π0 = � �<br />
1 1<br />
2 , 2 , was etwa einem Münzwurf für den Startzustand entspricht, so ist<br />
π4 = π0P 4 = 1<br />
2 · erste Zeile von P4 + 1<br />
2 · zweite Zeile von P4 � �<br />
11 21<br />
= , .<br />
32 32<br />
Wir werden im nächsten Abschnitt allgemein sehen, dass<br />
für jede beliebige Startverteilung π0 gilt!<br />
πn<br />
n<br />
��<br />
∞ ��<br />
�<br />
1 2<br />
,<br />
3 3<br />
11.3 Invariante Maße und Konvergenzsätze<br />
11.36 Definition:<br />
Ist P eine Übergangsmatrix und π eine Wahrscheinlichkeitsverteilung auf S mit <strong>der</strong> Eigenschaft, dass<br />
ist, so nennt man π eine invariante Verteilung.<br />
Bemerkung 11.37:<br />
πP = π<br />
Der Begriff ” invariant“ macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt<br />
πP n = πP � P n−1� = πP n−1 = ... = π.<br />
D.h. wenn X0,X1,X2,... eine Markov-Kette zu P mit <strong>der</strong> speziellen Startverteilung π0 = π ist, so gilt<br />
nach (11.4).<br />
11.38 Satz (Konvergenzsatz):<br />
πn = π ∀ n ∈ N<br />
Sei P eine irreduzible und aperiodische Übergangsmatrix.<br />
(1) Dann gibt es genau eine invariante Verteilung π zu P. Außerdem konvergieren alle Zeilen von P n<br />
(exponentiell schnell) gegen π, d.h.<br />
P n (i,j)<br />
n<br />
�<br />
��<br />
∞ ��<br />
π (j) ∀ i ∈ S.<br />
(2) Ist X0,X1,X2,... eine Markov-Kette zu P und einer beliebigen Startverteilung π0, so gilt<br />
d.h. P (Xn = j)<br />
n<br />
πn<br />
��<br />
∞ ��<br />
π (j) für alle j ∈ S.<br />
n<br />
��<br />
∞ ��<br />
π,
142 11 Markov-Ketten mit endlichem Zustandsraum<br />
Beweis:<br />
(1) Wir unterteilen den Beweis in zwei Schritte:<br />
Sei j ∈ S beliebig aber fest. Wir setzen<br />
Wegen<br />
und<br />
ist die Folge m (n)<br />
j<br />
fallend in n.<br />
Schritt I<br />
m (n)<br />
j := min<br />
i∈S Pn (i,j) �= Minimum <strong>der</strong> Werte <strong>der</strong> j − en Spalte von P n ,<br />
M (n)<br />
j := max<br />
i∈S Pn (i,j) �= Maximum <strong>der</strong> Werte <strong>der</strong> j − en Spalte von P n .<br />
Unser Ziel ist es nun zu zeigen, dass<br />
gilt.<br />
m (n+1)<br />
j = min<br />
i∈S Pn+1 (i,j)<br />
= min<br />
i∈S<br />
≥ min<br />
i∈S<br />
= m (n)<br />
j<br />
�<br />
P(i,k) P n (k,j)<br />
k∈S<br />
�<br />
k∈S<br />
P(i,k) m (n)<br />
j<br />
M (n+1)<br />
j = max<br />
i∈S Pn+1 (i,j)<br />
= max<br />
i∈S<br />
≤ min<br />
i∈S<br />
= M (n)<br />
j<br />
�<br />
P(i,k) P n (k,j)<br />
k∈S<br />
�<br />
k∈S<br />
P(i,k) M (n)<br />
j<br />
monoton wachsend in n (nicht zwingend streng) und die Folge M(n)<br />
j monoton<br />
M (n)<br />
j<br />
− m(n)<br />
j<br />
n<br />
��<br />
∞ ��<br />
0 (11.5)<br />
Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L ∈ N und ein δ > 0 gibt,<br />
s.d.<br />
P L (i,j) ≥ δ ∀ i,j ∈ S<br />
ist. Sei n ∈ N zunächst fest. Wähle<br />
• ein i0 ∈ S mit<br />
und<br />
• ein i1 ∈ S mit<br />
Sei nun<br />
und I− := S \ I+. Mit dieser Einteilung folgt<br />
�<br />
k∈I+<br />
P n+L (i0,j) = m (n+L)<br />
j<br />
P n+L (i1,j) = M (n+L)<br />
j .<br />
I+ := � k ∈ S | P L (i1,k) ≥ P L (i0,k) �<br />
� L<br />
P (i1,k) − P L (i0,k) � + � � L<br />
P (i1,k) − P L (i0,k) � = �<br />
k∈I−<br />
k∈S<br />
P L (i1,k) − �<br />
P L (i0,k)<br />
k∈S<br />
= 1 − 1 = 0. (11.6)
11 Markov-Ketten mit endlichem Zustandsraum 143<br />
Damit gilt dann<br />
M (n+L)<br />
j<br />
− m (n+L)<br />
j = P n+L (i1,j) − P n+L (i0,j)<br />
= �<br />
P n (i1,k) P L (k,j) − �<br />
k∈S<br />
k∈S<br />
� L<br />
P (i1,k) − P L (i0,k) �<br />
= �<br />
P<br />
� �� �<br />
n (k,j)<br />
k∈S<br />
=:dk<br />
= �<br />
dkP n (k,j) + �<br />
dkP n (k,j) ,<br />
k∈I+<br />
k∈I−<br />
P n (i0,k) P L (k,j)<br />
und da für k ∈ I+ offenbar dk ≥ 0 und für k ∈ I− offenbar dk < 0 gilt folgt so<br />
M (n+L)<br />
j − m (n+L)<br />
j ≤ � �<br />
+<br />
(11.6)<br />
=<br />
Induktiv folgt also für jedes m ∈ N, dass<br />
�<br />
M (m·L)<br />
j<br />
Da wir schon wissen, dass m (n)<br />
j<br />
Aussage (11.5).<br />
Setze nun<br />
≤<br />
k∈I+<br />
�<br />
k∈I+<br />
dkM (n)<br />
j<br />
dk<br />
�<br />
M (n)<br />
j<br />
�<br />
M (n)<br />
j<br />
− m(n)<br />
j<br />
�<br />
≤ (1 − δ) · M (n)<br />
j<br />
− m (m·L)<br />
� �<br />
m<br />
j ≤ (1 − δ)<br />
M (0)<br />
j<br />
k∈I−<br />
− m(n)<br />
j<br />
�<br />
· �<br />
− m(0) j<br />
k∈I+<br />
dkm (n)<br />
j<br />
�<br />
− m(n)<br />
j<br />
�<br />
� �� �<br />
≤1<br />
monoton wächst und M(n)<br />
j<br />
Schritt II<br />
π (j) := lim<br />
n→∞ m(n) j = lim<br />
n→∞ M(n) j .<br />
� P L (i1,k) − δ �<br />
�<br />
.<br />
m<br />
��<br />
∞ ��<br />
0.<br />
monoton fällt folgt so die behauptete<br />
Da die Folgen m (n)<br />
j und M (n)<br />
j beschränkt (durch [0,1]) und monoton sind, existieren diese Grenzwerte.<br />
Wegen<br />
m (n)<br />
j ≤ Pn (i,j) ≤ M (n)<br />
j ∀ i ∈ S<br />
folgt sofort<br />
P n (i,j)<br />
n<br />
��<br />
∞ ��<br />
π (j)<br />
für alle j ∈ S. Nun weisen wir die noch fehlenden Eigenschaften nach:<br />
• Wir müssen zeigen, dass π ein Wahrscheinlichkeitsvektor ist. Da aber<br />
(P n (1,j)) j∈S<br />
für jedes n ∈ N ein Wahrscheinlichkeitsvektor ist und diese Folge für n<br />
vergiert, ist diese Aussage klar.<br />
• Wir müssen zeigen, dass π eine invariante Verteilung für P ist. Das folgt aus<br />
πP(j) = �<br />
π(k)P(k,j) ←− n<br />
k∈S<br />
für jedes j ∈ S.<br />
��<br />
�<br />
∞<br />
k∈S<br />
P n (i,k) π(k)P(k,j) = P n+1 (i,j)<br />
��<br />
∞ gegen π kon-<br />
n<br />
��<br />
∞ ��<br />
π(j)
144 11 Markov-Ketten mit endlichem Zustandsraum<br />
• Wir müssen zeigen, dass π eindeutig bestimmt ist. Sei dazu π ′ eine Wahrscheinlichkeitsverteilung<br />
mit π ′ = π ′ P. Insbeson<strong>der</strong>e ist dann π ′ = π ′ P n für alle n ∈ N und daher gilt für alle<br />
j ∈ S<br />
Im Grenzübergang n<br />
π ′ (j) = �<br />
��<br />
∞ ist Pn (k,j)<br />
k∈S<br />
π ′ (k)P n (k,j) .<br />
��<br />
π (j), d.h. es folgt<br />
π ′ (j) = �<br />
π ′ (k) π(j) = π(j)<br />
k∈S<br />
� �� �<br />
=1<br />
für alle j ∈ S, was gleichbedeutend mit π = π ′ ist.<br />
(2) Mit Teil (1) folgt leicht für jede beliebige Startverteilung π0 und jedes j ∈ S<br />
Das zeigt πn<br />
Beispiel 11.39:<br />
n<br />
P (Xn = j) = πn (j)<br />
��<br />
∞ ��<br />
π.<br />
Bemerkung 11.34<br />
n<br />
= (π0P n ) (j)<br />
�<br />
= π0(k) P<br />
k∈S<br />
n (k,j)<br />
� �� �<br />
n ��<br />
∞ �<br />
��<br />
∞ ��<br />
π (j) �<br />
π0(k)<br />
= π(j).<br />
Wir haben schon gesehen, dass die Übergangsmatrix<br />
� �<br />
0 1<br />
P =<br />
1<br />
2<br />
1<br />
2<br />
k∈S<br />
� �� �<br />
=1<br />
aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zunächst eine invariante Verteilung π,<br />
d.h. ein π = (π(1),π(2)) mit πP = π. Das liefert das Gleichungssystem<br />
1<br />
π(2)<br />
2<br />
= π(1)<br />
π(1) + 1<br />
π(2)<br />
2<br />
= π(2),<br />
woraus nur π = (a,2a) mit einem beliebigen a ∈ R folgt. Da allerdings π ein Wahrscheinlichkeitsvektor<br />
. Es folgt, dass<br />
sein soll, muss a + 2a = 1 gelten, d.h. a = 1<br />
3<br />
π =<br />
� �<br />
1 2<br />
,<br />
3 3<br />
die einzige invariante Verteilung zu P ist, was eine Probe leicht bestätigt:<br />
� �<br />
1 2<br />
πP = ,<br />
3 3<br />
� � � �<br />
0 1 1 2<br />
= , = π.<br />
3 3<br />
Mit Satz 11.38 folgt also<br />
und P (Xn = 1)<br />
n<br />
��<br />
∞ ��<br />
1<br />
3 , P (Xn = 2)<br />
1<br />
2<br />
1<br />
2<br />
P n �<br />
n ��<br />
1<br />
∞ ��<br />
3<br />
n<br />
1<br />
3<br />
��<br />
∞ ��<br />
2<br />
3<br />
2<br />
3<br />
2<br />
3<br />
�<br />
� π(j)<br />
für jede beliebige Startverteilung π0.
11 Markov-Ketten mit endlichem Zustandsraum 145<br />
11.40 Hilfssatz:<br />
Sei P eine irreduzible Übergangsmatrix auf S = {1,...,N}. Dann ist die Matrix<br />
�<br />
Pk := 1 − 1<br />
�<br />
P +<br />
k<br />
1<br />
k IN<br />
für die N × N-Einheitsmatrix IN für jedes k ∈ N≥2 aperiodisch und irreduzibel.<br />
Beweis:<br />
Laut Satz 11.27 müssen wir zeigen, dass es ein M ∈ N gibt, s.d. P M k<br />
(i,j) > 0 ∀ i,j ∈ S.<br />
Da P irreduzibel ist, gibt es gemäß Satz 11.14 zu jedem Paar i,j ∈ S ein n(i,j) mit Pn(i,j) (i,j) > 0.<br />
Setze nun<br />
M := max n(i,j) .<br />
i,j∈S<br />
Sei nun i,j ∈ S beliebig. Mit dem binomischen Lehrsatz gilt offenbar<br />
P M k =<br />
M�<br />
ν=0<br />
da I j<br />
N = IN und P · IN = IN · P = P. Also ist<br />
P M k (i,j) =<br />
M�<br />
� � �<br />
M<br />
1 −<br />
ν<br />
ν=0<br />
1<br />
�ν 1<br />
k kM−ν P<br />
� �� �<br />
>0<br />
ν (i,j)<br />
� �� �<br />
≥0<br />
Das zeigt die Behauptung.<br />
11.41 Satz (Invariante Verteilung):<br />
� ��<br />
M<br />
1 −<br />
ν<br />
1<br />
�ν 1<br />
k kM−ν Pν ,<br />
≥<br />
� � �<br />
M<br />
1 −<br />
n(i,j)<br />
1<br />
�n(i,j) 1<br />
k kM−n(i,j) Pn(i,j) (i,j) > 0.<br />
Ist P eine irreduzible Übergangsmatrix, so gibt es genau eine invariante Verteilung π zu P.<br />
Beweis:<br />
Sei wie<strong>der</strong> ohne Einschränkung S = {1,...,N}.<br />
• Existenz:<br />
Sei IN die N × N-Einheitsmatrix. Für k ∈ N≥2 setze<br />
�<br />
Pk := 1 − 1<br />
�<br />
P +<br />
k<br />
1<br />
k IN. (11.7)<br />
Diese Matrix ist gemäß Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zu<br />
jedem k ∈ N≥2 genau eine invariante Verteilung π (k) zu Pk.<br />
Da π (k) Koordinatenweise durch [0,1] beschränkt ist, existiert eine Teilfolge ki s.d.<br />
π ki<br />
i<br />
��<br />
∞ ��<br />
π<br />
für eine Wahrscheinlichkeitsverteilung π gilt. Diese erfüllt dann<br />
Mit i<br />
• Eindeutigkeit:<br />
��<br />
∞ in dieser Gleichung folgt<br />
π ki = π ki · Pki .<br />
π = π · P.<br />
Ist π = πP und π ′ = π ′ P für zwei Wahrscheinlichkeitsverteilungen π,π ′ , so folgt insbeson<strong>der</strong>e nach<br />
(11.7), dass<br />
was nach Satz 11.38 π = π ′ zur Folge hat.<br />
π = πP2<br />
π ′ = π ′ P2,<br />
Der Konvergenzsatz lässt sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen dieses<br />
Ergebnis allerdings nur ohne Beweis angeben:
146 11 Markov-Ketten mit endlichem Zustandsraum<br />
Bemerkung 11.42 (Konvergenzsatz für periodische Matrizen):<br />
Sei d > 1 die Periode <strong>der</strong> irreduziblen Übergangsmatrix P. Setze<br />
Si(n) := {j ∈ S | es gibt einen Pfad <strong>der</strong> Länge n von i nach j in S}.<br />
Für j /∈ Si(n) ist dann P (Xn = j) = 0 und es gilt<br />
exponentiell schnell.<br />
max<br />
j∈Si(n) |P (Xn = j) − d · π(j)|<br />
11.4 Rückkehrzeiten und starkes Gesetz<br />
11.43 Definition:<br />
n<br />
��<br />
∞ ��<br />
0<br />
Sei P eine irreduzible Übergangsmatrix auf S = {1,...,N} und i ∈ S. Sei Ti die zufällige Zeit (∈ N), die<br />
vergeht, bis die ” in i gestartete“ Markov-Kette X0,X1,X2,... zu P wie<strong>der</strong> in i ankommt. Dabei bedeutet<br />
in i gestartet, dass π0 = ei für den i-ten karthesischen Einheitsvektor ei gilt. Dann ist<br />
und wir nennen Ti die Rückkehrzeit von i.<br />
Bemerkung 11.44:<br />
Beachte, dass<br />
Beispiel 11.45:<br />
Ti = inf {n ≥ 1 | Xn = i}<br />
{Ti = n} = {Xn = i,.Xn−1 �= i,...,X1 �= i,X0 = i} .<br />
Betrachte wie<strong>der</strong> die Übergangsmatrix P zum Übergangsgraphen GP aus Beispiel 11.9:<br />
1<br />
��<br />
1 ��<br />
2<br />
��<br />
1<br />
2<br />
Identifiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert <strong>der</strong> zufälligen Größe T1 bestimmen.<br />
Offenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) = � �<br />
1 n<br />
2 für n ≥ 1. Damit folgt<br />
∞�<br />
E (T1) = n · P (T1 = n)<br />
=<br />
=<br />
=<br />
n=0<br />
∞�<br />
� �n−1 1<br />
n<br />
2<br />
n=2<br />
∞�<br />
� �n 1<br />
(n + 1)<br />
2<br />
n=1<br />
1<br />
2<br />
∞�<br />
� �n ∞�<br />
� �n 1 1<br />
n + .<br />
2 2<br />
n=1<br />
n=1<br />
� �� �<br />
=1<br />
Da die erste Summe dem Erwartungswert einer Zufallsvariablen X ∼ Geo � �<br />
1<br />
2 entspricht ist ihr Wert = 2,<br />
d.h. wir haben<br />
E (T1) = 3.<br />
Für Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) = 1<br />
2 ist<br />
E (T2) = 1 · 1 1 3<br />
+ 2 · =<br />
2 2 2 .<br />
Insbeson<strong>der</strong>e sehen wir in diesem Beispiel schon, dass<br />
für die zu P invariante Verteilung π = � �<br />
1 2<br />
3 , 3 gilt.<br />
E (Ti) = 1<br />
π(i)<br />
.
11 Markov-Ketten mit endlichem Zustandsraum 147<br />
11.46 Satz (Positive Rekurrenz - ohne Beweis):<br />
Sei P eine irreduzible Übergangsmatrix und X0,X1,... die zugehörige in i ∈ S gestartete Markov-Kette.<br />
Dann gilt:<br />
(1) Man kehrt sicher zu i zurück, d.h.<br />
(2) Es ist<br />
∞�<br />
P (Ti = n) = 1.<br />
n=1<br />
E (Ti) =<br />
∞�<br />
P (Ti = n) < ∞.<br />
n=1<br />
Ein Teil des Beweises ist Aufgabe 5 des Übungsblatts 12.<br />
Bemerkung 11.47:<br />
Ist #S = ∞, so ist <strong>der</strong> Satz von <strong>der</strong> positiven Rekurrenz im allgemeinen falsch.<br />
11.4.1 Der Rückkehrzeitensatz<br />
11.48 Lemma:<br />
Sei X0,X1,X2,... eine Markov-Kette und E ⊂ Sn . Dann gilt für jedes in+1,in ∈ S<br />
P � �<br />
Xn+1 = in+1 | Xn = in,(X0,...,Xn−1)<br />
∈ E = P (Xn+1 = in+1 | Xn = in) .<br />
� �� � � �� � � �� �<br />
(11.8)<br />
=:A =:B =:C<br />
Beweis:<br />
Wir zerlegen das Ereignis C disjunkt als<br />
C = �<br />
k∈I<br />
mit Ck’s von <strong>der</strong> Form {X0 = i0,...,Xn−1 = in−1} für ein Tupel (i0,...,in−1) ∈ E. Nach <strong>der</strong> Markov-<br />
Eigenschaft gilt<br />
P (A | B ∩ Ck) = P (A | B) ∀ k ∈ I,<br />
d.h. es folgt<br />
Ck<br />
P (A ∩ B ∩ Ck) = P (A | B) · P (B ∩ Ck) ∀ k ∈ I<br />
nach Definition <strong>der</strong> bedingten Wahrscheinlichkeit. Bilden <strong>der</strong> Summe über k ∈ I liefert<br />
was per Definition gleichbedeutend mit<br />
ist - das ist genau die Behauptung.<br />
11.49 Satz (Rückkehrzeitensatz):<br />
P (A ∩ B ∩ C) = P (A | B) · P (B ∩ C) ,<br />
P (A | B ∩ C) = P (A | B)<br />
Sei P eine irreduzible Übergangsmatrix und π die zugehörige invariante Verteilung. Dann gilt<br />
für jedes i ∈ S.<br />
Beweis:<br />
E (Ti) = 1<br />
π(i)<br />
Wir betrachten bei Start im Zustand i ∈ S die Hilfsfunktion<br />
µ(k) :=<br />
∞�<br />
P (Xn = k,Ti > n) , k ∈ S.<br />
n=0<br />
Dabei ist X0,X1,X2,... die in i gestartete Markov-Kette mit Übergangsmatrix P und die Zahlen<br />
P (Xn = k,Ti > n) entsprechen <strong>der</strong> Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aber<br />
bis zur Zeit n noch nicht wie<strong>der</strong> in i war.
148 11 Markov-Ketten mit endlichem Zustandsraum<br />
Ohne Einschränkung nehmen wir wie<strong>der</strong> S = {1,...,N} an. Setze dann<br />
Dann gilt<br />
N�<br />
µ(k) =<br />
k=1<br />
µ := (µ(1),...,µ(N)).<br />
=<br />
=<br />
∞�<br />
n=0 k=1<br />
N�<br />
P (Xn = k,Ti > n)<br />
∞�<br />
P (Ti > n)<br />
n=0<br />
∞�<br />
P (Ti ≥ n)<br />
n=1<br />
(5.3)<br />
= E (Ti)<br />
und diese Zahl ist nach dem Satz über die positive Rekurrenz oben < ∞. Daher ist<br />
� �<br />
1 µ(1) µ(N)<br />
· µ = ,...,<br />
E (Ti) E (Ti) E (Ti)<br />
ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Verteilung<br />
von P handelt.<br />
Zur Vorbereitung berechnen wir für k ∈ S, k �= i und j ∈ S, dass<br />
P (Xn+1 = j,Xn = k,Ti > n) = P (Xn+1 = j | Xn = k,Ti > n) · P (Xn = k,Ti > n) .<br />
Verwenden wir nun das Lemma oben für E = {(i,j1,...,jn−1) ∈ S n | j1,...,jn−1 �= i}, so folgt wegen<br />
dass<br />
{Ti > n} = {Xn−1 �= i,...,X1 �= i,X0 = i} ˆ=(X0,...,Xn−1) ∈ E,<br />
P (Xn+1 = j,Xn = k,Ti > n)<br />
(11.8)<br />
= P (Xn+1 = j | Xn = k) · P (Xn = k,Ti > n)<br />
= P(k,j) · P (Xn = k,Ti > n) .<br />
Man beobachtet schnell, dass diese Gleichung auch für k = i richtig bleibt:Ist n > 0, so sind zwingend<br />
beide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P(i,j).<br />
Es genügt nun zu zeigen, dass µP = µ ist, <strong>der</strong> Faktor 1<br />
E(Ti)<br />
braucht nicht beachtet zu werden (da er auf<br />
beiden Seiten auftaucht). Mit obiger Rechnung gilt für j ∈ S:<br />
(µP) (j) = �<br />
µ(k) · P(k,j)<br />
=<br />
=<br />
=<br />
k∈S<br />
∞� �<br />
P (Xn = k,Ti > n) P(k,j)<br />
n=0 k∈S<br />
∞� �<br />
P (Xn+1 = j,Xn = k,Ti > n)<br />
n=0 k∈S<br />
∞�<br />
P (Xn+1 = j,Ti > n) .<br />
n=0<br />
Jetzt unterscheiden wir: Für j �= i erhält man damit<br />
(µP) (j) =<br />
=<br />
∞�<br />
P (Xn+1 = j,Ti > n)<br />
n=0<br />
∞�<br />
P (Xn+1 = j,Ti > n + 1)<br />
n=0<br />
= µ(j) − P (X0 = j,Ti > 0)<br />
= µ(j),
11 Markov-Ketten mit endlichem Zustandsraum 149<br />
und für i = j erhält man<br />
Beachte nun noch, dass<br />
(µP) (j) =<br />
=<br />
∞�<br />
P (Xn+1 = j,Ti > n)<br />
n=0<br />
∞�<br />
P (Ti = n + 1)<br />
n=0<br />
Satz 11.46<br />
= 1.<br />
∞�<br />
∞�<br />
µ(i) = P (Xn = i,Ti > n) = P (Xn = i,Ti > n) +P (X0 = i,Ti > 0) = 1.<br />
� �� � � �� �<br />
n=0<br />
n=1<br />
=0<br />
=1<br />
1<br />
Das zeigt, dass E(Ti) ·µ eine invariante Verteilung für P ist. Gemäß Satz 11.41 ist die invariante Verteilung<br />
eindeutig, d.h. wir haben<br />
1<br />
· µ(i) = π(i).<br />
E (Ti)<br />
Wegen µ(i) = 1 wie oben berechnet folgt daraus die Behauptung.<br />
11.50 Satz (Starkes Gesetz - ohne Beweis):<br />
Sei P irreduzible Übergangsmatrix und sei f : S<br />
dann mit Wahrscheinlichkeit 1: 4<br />
��<br />
R eine Funktion. Für jede Startverteilung π0 gilt<br />
Ist x0,x1,x2,... ein zufälliger Pfad <strong>der</strong> Markov-Kette X0,X1,... zu P und π0 (d.h. eine ” Realisierung“<br />
dieser Markov-Kette), so konvergiert das Zeitmittel von f gegen das Raummittel Eπ(f):<br />
n−1<br />
1 �<br />
f(xk)<br />
n<br />
n<br />
k=0<br />
Dabei bezeichnet π die invariante Verteilung zu P.<br />
Insbeson<strong>der</strong>e gilt für A ⊆ S und f := 1A, dass<br />
1<br />
n # {0 ≤ k ≤ n − 1 | xk ∈ A}<br />
��<br />
∞ �<br />
��<br />
f(j)π(j).<br />
n<br />
j∈S<br />
��<br />
∞ �<br />
��<br />
π(j) = π(A).<br />
D.h. die Anzahl <strong>der</strong> Besuche“ in A konvergiert mit Wahrscheinlichkeit 1 für n<br />
”<br />
scheinlichkeit von A unter <strong>der</strong> invarianten Verteilung π.<br />
Speziell für A = {i} gilt also<br />
1<br />
n # {0 ≤ k ≤ n − 1 | xk = i}<br />
4 Eine Konvergenz dieser Art nennt man fast sichere Konvergenz.<br />
n<br />
j∈A<br />
��<br />
∞ ��<br />
π(i).<br />
��<br />
∞ gegen die Wahr
150 11 Markov-Ketten mit endlichem Zustandsraum<br />
11.5 Beispiele<br />
11.5.1 Irrfahrt auf ungerichtetem Graphen<br />
In diesem Abschnitt bezeichnen wir Elemente aus S wie<strong>der</strong> mit i usw. um Zahlen von Ecken zu unterscheiden.<br />
Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S.<br />
11.51 Definition:<br />
Für jede Ecke i ∈ S sei<br />
Beispiel 11.52:<br />
Sei G gegeben als<br />
d(i) := # {j ∈ S | es gibt eine Kante zwischen i und j} .<br />
1 2<br />
��<br />
��<br />
��<br />
��<br />
��<br />
��<br />
��<br />
��<br />
��<br />
��<br />
��<br />
��<br />
3<br />
4<br />
� � � � � � � � � �<br />
Dann ist d 2 ) = # 1 , 2 , 3 = 3, d 1 = 2, d 3 = 3, d 4 = 1.<br />
Wir wan<strong>der</strong>n nun rein zufällig auf diesem Graphen, in dem wir jeweils gleichverteilt die nächste Ecke<br />
unter den mit i verbunden Ecken wählen. D.h.<br />
11.53 Definition:<br />
Sei P die N × N-Matrix mit<br />
P(i,j) =<br />
Offenbar ist P tatsächlich eine stochastische Matrix:<br />
11.54 Definition:<br />
Wir setzen<br />
11.55 Satz:<br />
Damit ist<br />
�<br />
P(i,j) =<br />
j∈S<br />
eine invariante Verteilung von P.<br />
� 0 falls keine Kante zwischen i und j existiert,<br />
1<br />
d(i) falls eine Kante zwischen i und j existiert.<br />
�<br />
j∈{k | es gibt eine Kante zwischen i und k}<br />
D := �<br />
d(i).<br />
i∈S<br />
π(i) := d(i)<br />
, i ∈ S<br />
D<br />
1 d(i)<br />
= = 1 ∀ i ∈ S.<br />
d(i) d(i)
11 Markov-Ketten mit endlichem Zustandsraum 151<br />
Beweis:<br />
Man berechnet<br />
für j ∈ S.<br />
Bemerkung 11.56:<br />
(πP) (j) = �<br />
π(i)P(i,j)<br />
=<br />
i∈S<br />
�<br />
i∈{k | es gibt eine Kante zwischen i und j}<br />
d(i)<br />
D<br />
· 1<br />
d(i)<br />
= 1<br />
· # {k | es gibt eine Kante zwischen i und j}<br />
D<br />
= d(j)<br />
D<br />
= π(j)<br />
Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher π nicht zwingend eindeutig<br />
bestimmt ist.<br />
Beispiel 11.57:<br />
Wir wollen einen Springer auf einem 4 × 4-Schachbrett betrachten. Sei dazu S = {(i,j) | 1 ≤ i,j ≤ 4}.<br />
Der zugehörige Graph stellt sich wie folgt dar:<br />
(1,4) (2,4) (3,4) (4,4)<br />
� ������������������������������������<br />
�������������������������������������� �<br />
� ������������������������������������<br />
�<br />
�������������������������������������� ��<br />
�<br />
�<br />
���<br />
�<br />
�<br />
�������������������������������������� ���<br />
�<br />
�<br />
���<br />
�<br />
���<br />
�<br />
�<br />
�<br />
�<br />
���<br />
���<br />
�<br />
�<br />
�<br />
� ���<br />
� ���<br />
�<br />
�<br />
�<br />
�<br />
���<br />
���<br />
�<br />
�<br />
�<br />
� ���<br />
� ���<br />
�<br />
�<br />
�<br />
�<br />
���<br />
���<br />
�<br />
�<br />
�<br />
�<br />
���<br />
� ���<br />
�<br />
�<br />
�<br />
�<br />
���<br />
���<br />
�<br />
�<br />
�<br />
���<br />
���<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
���<br />
���<br />
�<br />
�<br />
���<br />
�<br />
�<br />
(1,3) �<br />
�<br />
(2,3)<br />
�<br />
�<br />
�<br />
�<br />
(1,3)<br />
�<br />
(2,3) (3,3) (4,3)<br />
� �<br />
�<br />
� (3,3)<br />
�<br />
��������������������������������������<br />
�<br />
�<br />
�<br />
� �<br />
�<br />
� (4,3)<br />
������������������������������������<br />
������������������������������������<br />
�������������������������������������� ���<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
��������������������������������������<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
���<br />
��<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
��<br />
� �<br />
�<br />
� ���<br />
�<br />
�<br />
���<br />
���<br />
�<br />
� ��<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
���<br />
�<br />
�<br />
���<br />
��<br />
�<br />
�<br />
� �<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
���<br />
�<br />
�<br />
���<br />
�<br />
�<br />
�<br />
�<br />
� �<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
���<br />
�<br />
�<br />
���<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
���<br />
�<br />
�<br />
���<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
���<br />
�<br />
� ���<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
��<br />
�<br />
���<br />
�<br />
�<br />
�<br />
���<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
(1,2)<br />
�<br />
(2,2) � (3,2)<br />
�<br />
�<br />
�<br />
�<br />
�<br />
(3,2)<br />
�<br />
� (4,2)<br />
������������������������������������<br />
������������������������������������<br />
���<br />
�<br />
�<br />
�<br />
�<br />
� �<br />
���<br />
� ��<br />
�<br />
�<br />
� �<br />
���<br />
�<br />
�<br />
�<br />
���<br />
��<br />
� ���<br />
�<br />
�<br />
���<br />
�<br />
���<br />
�<br />
�<br />
���<br />
�<br />
�<br />
����<br />
�<br />
�<br />
�<br />
���<br />
�<br />
��<br />
�<br />
�<br />
�<br />
���<br />
�<br />
�<br />
���<br />
�<br />
�<br />
�<br />
� ���<br />
�<br />
��<br />
�<br />
�<br />
� ���<br />
�<br />
� ���<br />
�<br />
�<br />
�<br />
� ���<br />
� ��<br />
�<br />
� ���<br />
�<br />
� ���<br />
�<br />
�<br />
���<br />
�<br />
�<br />
�<br />
(1,1) (2,1) (3,1) (4,1)<br />
� �<br />
Aus diesem Graphen lesen wir nun die Gradzahlen d<br />
� �<br />
(i,j) ab. Der Eintrag in <strong>der</strong> Zelle (i,j) <strong>der</strong><br />
folgenden Tabelle bezeichnet d (i,j) :<br />
2 3 3 2<br />
3 4 4 3<br />
3 4 4 3<br />
2 3 3 2
152 11 Markov-Ketten mit endlichem Zustandsraum<br />
Damit berechnet man leicht D = 4 · (2 + 3 + 3 + 4) = 48 und hat so gemäß dem Satz die invariante<br />
Verteilung π: 5<br />
Daraus erhalten wir nun:<br />
1<br />
24<br />
1<br />
16<br />
1<br />
16<br />
1<br />
24<br />
1<br />
16<br />
1<br />
12<br />
1<br />
12<br />
1<br />
16<br />
1<br />
16<br />
1<br />
12<br />
1<br />
12<br />
1<br />
16<br />
(1) Nach dem Rückkehrzeitensatz ist dann zum Beispiel<br />
1<br />
24<br />
1<br />
16<br />
1<br />
16<br />
1<br />
24<br />
E � � 1<br />
T (1,1) = = 24.<br />
π((1,1))<br />
(2) Das starke Gesetz sagt etwa, dass für einen Springerpfad die relative Häufigkeit <strong>der</strong> Besuche in den<br />
mittleren Fel<strong>der</strong>n fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen<br />
konvergiert.<br />
π ({(i,j) | 2 ≤ i,j ≤ 3}) = 4 · 1 1<br />
=<br />
12 3<br />
(3) Sei P die zugehörige Übergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist.<br />
Allerdings kann P nicht aperiodisch sein, da <strong>der</strong> Springer bei jedem Zug ein Feld an<strong>der</strong>er Farbe<br />
(Schwarz / Weiß) erreicht. P hat daher mindestens Periode 2, und da hin- und wie<strong>der</strong> zurückziehen<br />
möglich ist, genau Periode d = 2.<br />
(4) Mit Bemerkung 11.42 ist für großes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegeben<br />
als<br />
1<br />
12 0 1<br />
8 0<br />
0 1<br />
6 0 1<br />
8<br />
1<br />
8 0 1<br />
6 0<br />
0 1<br />
8 0 1<br />
12<br />
Dabei gibt <strong>der</strong> Eintrag in Position (i,j) die approximative Wahrscheinlichkeit an, dass <strong>der</strong> Springer<br />
sich zur Zeit n in <strong>der</strong> Position (i,j) aufhält.<br />
11.5.2 Ehrenfeld-Diffusion<br />
Wir nehmen an, in einem Hörsaal befinden sich N Gasmoleküle. Wir zerteilen den Hörsaal in die rechte<br />
Hälfte H1 und die linke Hälfte H2. Als Modell nehmen wir an, dass jeweils ein Molekül zufällig ausgewählt<br />
wird und dieses dann in die an<strong>der</strong>e Hörsaalhälfte wechselt.<br />
Sei dazu<br />
S = {0,...,N} ,<br />
was <strong>der</strong> Anzahl <strong>der</strong> Gasmoleküle in H1 entsprechen soll. Offenbar muss dann für die Übergangsmatrix P<br />
gelten. Alle übrigen Einträge <strong>der</strong> Matrix sind 0.<br />
P(i,i + 1) =<br />
N − i<br />
,<br />
N<br />
i < N<br />
P(i,i − 1) = i<br />
,<br />
N<br />
i > 1<br />
Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung π zu P gegeben ist durch<br />
D.h. wir haben π ∼ B � N, 1<br />
�<br />
2 .<br />
π(i) =<br />
� N<br />
i<br />
Nach dem Rückkehrzeitensatz ist dann zum Beispiel<br />
�<br />
2 −N , i ∈ S.<br />
E (T0) = 1<br />
π(0) = 2N .<br />
5 Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da <strong>der</strong> Springer jedes Feld erreichen kann - die<br />
Matrix ist also irreduzibel!
11 Markov-Ketten mit endlichem Zustandsraum 153<br />
D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmoleküle sind, so ist zu erwarten, dass<br />
dieser Zustand erst zur Zeit 2 N wie<strong>der</strong> eintritt. Das ist für eine Anzahl N von Molekülen reichlich groß!<br />
Außerdem bemerkt man, dass <strong>der</strong> aktuelle Zustand oft nahe am Gleichgewicht ist:<br />
Sei N = 10.000. Wegen π ∼ B � 10.000, 1<br />
�<br />
2 liefert die Chernov-Ungleichung<br />
π ({4801,...,5199}) ≥ 0.9993.<br />
Das starke Gesetz sagt uns also, dass in 99.93% <strong>der</strong> Zeit in H1 zwischen 4801 und 5199 Gasmoleküle sind.
154 12 Schätzer und statistische Tests<br />
12 Schätzer und statistische Tests<br />
Wir beginnen mit einen motivierenden Beispiel.<br />
Beispiel 12.1:<br />
Wir wollen eine Lebensmittelkontrolle durchführen. Dazu messen wir die Füllungen von 1-Liter-Flaschen<br />
nach. In Millilitern erhalten wir bei sechs Messungen die Messwerte<br />
999, 990, 995, 1003, 1001, 991.<br />
Diese Messwerte wollen wir im folgenden mit x1,...,x6 bezeichnen. Wir können uns nun die folgenden<br />
Fragen stellen:<br />
(1) Wenn man annimmt, dass die Füllmenge eine N � µ,σ 2� -verteilte Zufallsvariable ist, wie schätzt<br />
man dann mittels dieser Messungen den Erwartungswert? Wie schätzt man die Varianz?<br />
Um solche Fragen zu beantworten wollen wir hier kurz ML-Schätzer und erwartungstreue Schätzer<br />
behandeln.<br />
(2) Soll die Kontrolle wegen zu geringer Befüllung nach dieser Messung einschreiten?<br />
Um diese Frage zu beantworten werden wir kurz statistische Tests betrachten.<br />
12.1 Punktschätzer<br />
Sei X eine Zufallsvariable (o<strong>der</strong> ein Zufallsvektor)<br />
X : Ω<br />
��<br />
X.<br />
Im Zusammenhang dieses Kapitels nennen wir X auch den Stichprobenraum.<br />
Wir nehmen natürlicher Weise an, dass wir die Verteilung P von X auf X nicht kennen. Beachte, dass<br />
wir hier P anstelle von P X schreiben.<br />
Stattdessen nehmen wir an, dass P in einer Familie<br />
P = {Pθ | θ ∈ Θ}<br />
von Verteilungen Pθ auf X liegt. Diese Familie bezeichnen wir auch als statistisches Modell für die<br />
möglichen Verteilungen von X.<br />
Beispiel 12.2:<br />
Sei X die Anzahl <strong>der</strong> Erfolge in einem n-fach wie<strong>der</strong>holten Bernoulli-Experiment mit unbekannter Erfolgswahrscheinlichkeit.<br />
Dann ist X = {0,...,n} und das statistische Modell ist gegeben als<br />
P = � �<br />
B(n,θ) | θ ∈ [0,1] .<br />
� �� � ����<br />
=Θ<br />
Zu je<strong>der</strong> <strong>der</strong> Verteilungen Pθ gehört in diesem Fall eine Wahrscheinlichkeitsfunktion<br />
� �<br />
n<br />
pθ (x) = θ<br />
x<br />
x (1 − θ) n−x , x = 0,...,n.<br />
=Pθ<br />
Wir wollen nun aufgrund einer Stichprobe x ∈ X (d.h. einer Realisation von X) den Parameter θ o<strong>der</strong><br />
allgemeiner eine Funktion g in Abhängigkeit von θ geschätzt werden.<br />
12.3 Definition:<br />
Ein Schätzer für θ ∈ Θ ist eine Abbildung<br />
t : X<br />
��<br />
Θ.<br />
Für ein konkretes x ∈ X heißt t(x) dann eine Schätzung für θ.<br />
Die Zufallsvariable T := t (X) wird ebenfalls Schätzer für θ genannt.<br />
Beispiel 12.4:<br />
Betrachte wie<strong>der</strong> das Setting aus Beispiel 12.2. Ist x ∈ {0,...,n} die Stichprobe, so ist<br />
t(x) := x<br />
n
12 Schätzer und statistische Tests 155<br />
ein Schätzer für die Erfolgswahrscheinlichkeit θ des Bernoulli-Experiments. Nun sollte man sich fragen,<br />
ob dieser Schätzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen.<br />
Ebenso ist dann<br />
T = 1<br />
n X<br />
ein Schätzer für θ und konkret für n = 20 und x = 14 ist<br />
eine Schätzung von θ.<br />
12.5 Definition:<br />
Sei g eine beliebige Funktion auf Θ. Jede Abbildung<br />
heißt Schätzer für g(θ).<br />
Beispiel 12.6:<br />
t(14) = 7<br />
= 0.7<br />
10<br />
t : X<br />
��<br />
g (Θ)<br />
Wie<strong>der</strong> im Setting von Beispiel 12.2 können wir versuchen, die Varianz von B(nθ) zu schätzen, d.h.<br />
g(θ) = n · θ · (1 − θ).<br />
Ein möglicher Schätzer wäre<br />
t(x) := n · x<br />
�<br />
1 −<br />
n<br />
x<br />
� �<br />
= x · 1 −<br />
n<br />
x<br />
�<br />
.<br />
n<br />
Weiter unten werden wir uns mit <strong>der</strong> Frage beschäftigen, ob dieser Schätzer sinnvoll bzw. gut ist.<br />
Man sollte beachten, dass es im Allgemeinen nicht ” den Besten“ Schätzer gibt. Es gibt verschiedene<br />
Verfahren zur Herleitung und verschiedene Güte-Kriterien für Schätzer. Wir besprechen hier die ML-<br />
Schätzer und die erwartungstreuen Schätzer, es gibt außerdem noch Risiko-Schätzer, Konsistenz-Schätzer<br />
und viele mehr.<br />
12.1.1 ML-Schätzer<br />
12.7 Definition:<br />
Wir sagen, ein Schätzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt:<br />
Für jedes x ∈ X ist t(x) = θML ∈ Θ mit<br />
pθML (x) ≥ pθ(x) ∀ θ ∈ Θ.<br />
Falls wir mit einer diskreten Verteilung Pθ arbeiten, so ist das zugehörige pθ die entsprechende Wahrscheinlichkeitsfunktion,<br />
ist Pθ eine stetige Verteilung, so ist pθ die entsprechende Dichte.<br />
D.h. für festes x ∈ X maximiert t(x) = θML die sogenannte Likelihood-Funktion<br />
über θ ∈ Θ.<br />
Beispiel 12.8:<br />
Lx (θ) = pθ(x)<br />
Betrachte wie<strong>der</strong> das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als<br />
� �<br />
n<br />
Lx (θ) = θ<br />
x<br />
x (1 − θ) n−x .<br />
Um einen ML-Schätzer für θ zu bestimmen ist diese Funktion jetzt für gegebenes x ∈ {0,...,n} über<br />
θ ∈ [0,1] zu minimieren.<br />
Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfachung<br />
kann man die log-Likelihood-Funktion log Lx betrachten. Da <strong>der</strong> Logarithmus log streng monoton<br />
steigend ist 6 , nehmen Lx und log Lx im selben θ ihr Maximum.<br />
6 Wir betrachten hier stets nur den natürlichen Logarithmus ln = log.
156 12 Schätzer und statistische Tests<br />
Beispiel 12.9:<br />
Im obigen Beispiel 12.2 ist dann<br />
log Lx (θ) = log<br />
� �<br />
n<br />
+ xlog θ + (n − x)log (1 − θ) .<br />
x<br />
Um das Maximum dieser Funktion zu bestimmen, differenzieren wir nach θ und erhalten so<br />
womit θ = x<br />
n folgt.<br />
Also ist unser Schätzer<br />
0 ! = 0 + x n − x<br />
−<br />
θ 1 − θ ,<br />
t(x) = n<br />
x<br />
von oben sogar ein ML-Schätzer für die Erfolgswahrscheinlichkeit θ.<br />
12.1.2 Erwartungstreue Schätzer<br />
12.10 Definition:<br />
Ein Schätzer t für θ ist erwartungstreu, wenn<br />
Eθ (t(X)) = θ<br />
für alle θ ∈ Θ gilt, d.h.: Ist θ <strong>der</strong> wahre Parameter, so ist die (zufällige) Schätzung t(x) zumindest im<br />
Erwartungswert gleich θ.<br />
Ganz analog definiert man für Schätzer von Funktionen:<br />
12.11 Definition:<br />
Ein Schätzer t für eine Funktion g in Abhängigkeit von θ ist erwartungstreu, wenn<br />
für alle θ ∈ Θ gilt.<br />
Beispiel 12.12:<br />
Eθ (t(X)) = g (θ)<br />
Betrachte wie<strong>der</strong> Beispiel 12.2. Wir behaupten, dass unser Schätzer<br />
von dort erwartungstreu ist.<br />
Beweis:<br />
Mit <strong>der</strong> Linearität des Erwartungswertes gilt<br />
� �<br />
X<br />
E (t (X)) = E<br />
n<br />
Es folgt die Behauptung.<br />
Beispiel 12.13:<br />
t(x) = x<br />
n<br />
Im selben Beispiel 12.2 sei nun n ≥ 2. Dann ist<br />
�<br />
t(x) = x 1 − x<br />
�<br />
n<br />
= 1 1<br />
E (X) = θn = θ.<br />
n n<br />
ein ML-Schätzer für die Varianz, denn schließlich haben wir dort einfach den ML-Schätzer für θ in die
12 Schätzer und statistische Tests 157<br />
Varianz-Formel θ ↦→ nθ (1 − θ) eingesetzt. Allerdings ist er nicht erwartungstreu:<br />
Eθ (t(X)) =<br />
� �<br />
Eθ X 1 − X<br />
��<br />
n<br />
= Eθ (X) − 1<br />
n Eθ<br />
� X 2 �<br />
= nθ − 1<br />
�<br />
Vθ(X) + (Eθ(X))<br />
n<br />
2�<br />
= nθ − 1 � 2 2<br />
nθ (1 − θ) + n θ<br />
n<br />
�<br />
= (n − 1) θ (1 − θ)<br />
= n − 1<br />
� ��<br />
n<br />
�<br />
�=1<br />
Allerdings sehen wir an dieser Berechnung schon, dass<br />
nθ (1 − θ)<br />
� �� �<br />
=g(θ)=Vθ(X)<br />
n n<br />
t(x) =<br />
n − 1 n − 1 x<br />
ein erwartungstreuer Schätzer für die Varianz ist.<br />
�<br />
.<br />
1 − x<br />
�<br />
n<br />
Z.B. für n = 2 ist die Abweichung zwischen diesen beiden Schätzern deutlich: Ist <strong>der</strong> wahre Parameter<br />
θ = 1<br />
2 , so ist<br />
n − 1<br />
Eθ (t(X)) = (1 − θ) =<br />
θ<br />
1<br />
4 ,<br />
obwohl die tatsächliche Varianz 1<br />
2 beträgt.<br />
Wir wollen nun eine allgemeinere Situation betrachten:<br />
Seien X1,...,Xn unabhängige, identisch verteilte Zufallsvariablen. Sei X1 <strong>der</strong> Wertebereich dieser Variablen.<br />
Definiere als Stichprobenraum<br />
Betrachte dazu das statistische Modell<br />
X =<br />
n<br />
× ν=1<br />
X1 = X1 ×... × X1<br />
P = � ˜ Pθ × ... × ˜ Pθ<br />
� �� �<br />
=:Pθ<br />
� �� �<br />
n−mal<br />
.<br />
| θ ∈ Θ � ,<br />
wobei jedes ˜ Pθ eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist.<br />
Beispiel 12.14:<br />
Sei etwa<br />
o<strong>der</strong><br />
Wir wollen im zweiten Fall θ := � µ,σ 2� setzen.<br />
˜Pθ ∈ {B(1,θ) | 0 ≤ θ ≤ 1}<br />
˜Pθ ∈ � N � µ,σ 2� | µ ∈ R,σ 2 > 0 � .<br />
(1) Wir wollen zuerst einen Schätzer für den Erwartungswert Eθ (X1) von ˜ Pθ herleiten.<br />
12.15 Lemma:<br />
Der Schätzer<br />
ist erwartungstreu für Eθ (X1).<br />
t (x1,...,xn) := 1<br />
n<br />
n�<br />
xi = ¯x<br />
i=1
158 12 Schätzer und statistische Tests<br />
Beweis:<br />
Man berechnet<br />
Das zeigt die Behauptung.<br />
Beispiel 12.16:<br />
In Beispiel 12.1 wäre also<br />
eine erwartungstreue Schätzung für µ.<br />
Eθ (t (X1,...,Xn)) = Eθ<br />
1<br />
6<br />
= 1<br />
n<br />
�<br />
1<br />
n<br />
n�<br />
i=1<br />
Xi<br />
n�<br />
Eθ (Xi)<br />
i=1<br />
= Eθ (X1) .<br />
6�<br />
xi = 996.5<br />
(2) Jetzt wollen wir einen Schätzer für die Varianz Vθ (X1) von ˜ Pθ herleiten. Sei dazu wie<strong>der</strong><br />
Berechne nun<br />
und<br />
� 2<br />
Eθ ¯x �<br />
Jetzt können wir zeigen:<br />
12.17 Lemma:<br />
Der Schätzer<br />
n�<br />
(xi − ¯x) 2 =<br />
i=1<br />
=<br />
=<br />
Unabhängigkeit<br />
=<br />
=<br />
=<br />
=<br />
1<br />
n<br />
i=1<br />
¯x := 1<br />
n<br />
1<br />
n 2<br />
2 Eθ<br />
n�<br />
i=1<br />
n�<br />
i=1<br />
n�<br />
i=1<br />
n�<br />
i=1<br />
⎛<br />
⎝<br />
n�<br />
xi.<br />
i=1<br />
x 2 i − 2<br />
n�<br />
xi¯x +<br />
i=1<br />
x 2 i − 2n¯x 2 + n¯x 2<br />
x 2 i − n(¯x) 2<br />
n�<br />
i,j=1<br />
Xi · Xj<br />
⎞<br />
⎠<br />
Eθ (Xi · Xi) + 1<br />
n 2<br />
1 � � 2 1<br />
nEθ X<br />
n2 1 +<br />
n2 �<br />
n�<br />
¯x 2<br />
i=1<br />
n�<br />
Eθ (Xi · Xj)<br />
i,j=1<br />
i�=j<br />
n�<br />
Eθ (Xi) · Eθ (Xj)<br />
i,j=1<br />
i�=j<br />
(12.1)<br />
1<br />
n Eθ<br />
� � 2 n − 1<br />
X1 +<br />
n (Eθ (X1)) 2 . (12.2)<br />
S 2 (x1,...,xn) = 1<br />
n − 1<br />
n�<br />
(xi − ¯x) 2<br />
ist ein erwartungstreuer Schätzer für die Varianz. Er wird auch Stichprobenvarianz genannt.<br />
i=1
12 Schätzer und statistische Tests 159<br />
Beweis:<br />
Es gilt<br />
Eθ<br />
� n�<br />
i=1<br />
(Xi − ¯x) 2<br />
Das zeigt die Behauptung.<br />
�<br />
�<br />
n�<br />
(12.1)<br />
= Eθ<br />
i=1<br />
(12.2) � � 2<br />
= nEθ X1 −<br />
�<br />
= (n − 1)<br />
X 2 i − n¯x 2<br />
Eθ<br />
�<br />
Eθ<br />
= (n − 1) Vθ (X1) .<br />
Beachte den Unterschied zur empirischen Varianz<br />
ˆσ 2 (x1,...,xn) = 1<br />
n<br />
�<br />
� � 2<br />
X1 + (n − 1) (Eθ (X1)) 2�<br />
� � 2<br />
X1 − (Eθ (X1)) 2�<br />
n�<br />
(xi − ¯x) 2 .<br />
Sie ist nicht erwartungstreu, aber <strong>der</strong> Unterschied verschwindet mit n<br />
In <strong>der</strong> Praxis wird S 2 als Schätzer für die Varianz und √ S 2 als Schätzer für die Standardabweichung<br />
verwendet.<br />
Beispiel 12.18:<br />
In Beispiel 12.1 wäre also<br />
S 2 (x1,...,x6) = 1<br />
5<br />
6�<br />
i=1<br />
i=1<br />
(xi − ¯x) 2 = 1<br />
5<br />
��<br />
∞.<br />
6�<br />
(xi − 996.5) 2 = 28.7<br />
eine erwartungstreue Schätzung für σ 2 . Entsprechend schätzen wir σ als √ 28.7 ≈ 5.357.<br />
Die Schätzung <strong>der</strong> Parameter � µ,σ 2� von N � µ,σ 2� würde in unserem Fall also<br />
liefern.<br />
12.2 Statistische Tests<br />
i=1<br />
µ = 996.5 und σ 2 = 28.7<br />
Wir wollen uns nun mit <strong>der</strong> Frage aus Beispiel 12.1 beschäftigen, ob aufgrund dieser Stichproben die<br />
Kontrolle eingeschaltet werden sollte. Dazu beschäftigen wir uns allgemein mit statistischen Tests:<br />
Sei X ein Stichprobenraum und<br />
P = {Pθ | θ ∈ Θ}<br />
ein statistisches Modell für die möglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors X<br />
mit Werten in X. Seien nun<br />
Θ0 ⊂ Θ und Θ1 ⊂ Θ<br />
zwei disjunkte Teilmengen.<br />
12.19 Definition:<br />
Die Aussage<br />
nennen wir Hypothese und die Aussage<br />
nennen wir Alternative.<br />
Beispiel 12.20:<br />
In Beispiel 12.1 wäre<br />
P = � N � µ,σ 2�<br />
� �� �<br />
=θ<br />
H0 : θ ∈ Θ0<br />
H1 : θ ∈ Θ1<br />
| µ ≥ 0, σ 2 > 0 �
160 12 Schätzer und statistische Tests<br />
das statistische Modell für die möglichen Verteilungen <strong>der</strong> Befüllung. Die Aussage ” kein Betrug“ entspräche<br />
dann <strong>der</strong> Hypothese<br />
H0 : θ ∈ Θ0 := �� µ,σ 2� | µ = 1000, σ 2 > 0 �<br />
und die Aussage ” Betrug“ entspräche <strong>der</strong> Alternative<br />
12.21 Definition:<br />
Das Entscheidungsproblem<br />
heißt Testproblem.<br />
12.22 Definition:<br />
Ein Test ist eine Abbildung<br />
H1 : θ ∈ Θ1 := �� µ,σ 2� | µ < 1000, σ 2 > 0 � .<br />
H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1<br />
ϕ : X<br />
��<br />
{0,1} ,<br />
wobei ϕ(x) = 1 bedeutet, dass die Hypothese verworfen wird und ϕ(x) = 0 bedeutet, dass die Hypothese<br />
nicht verworfen wird.<br />
Die Menge<br />
heißt Verwerfungsbereich.<br />
Bemerkung 12.23:<br />
{x ∈ X | ϕ(x) = 1}<br />
Als Hypothese sollte man stets die Annahme wählen, <strong>der</strong>en Verwerfung die größeren Konsequenzen hat<br />
- wie vor Gericht die Unschuldsvermutung. Der Grund dafür ist, dass durch (statistische) Tests stets nur<br />
<strong>der</strong> Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird.<br />
Beim Test eines neuen Prototypen würde man als Hypothese also ” das bisherige Produkt ist besser“<br />
verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss.<br />
12.24 Definition:<br />
Sei ϕ ein Test. Wir definieren die Gütefunktion βϕ : Θ<br />
βϕ (θ) := Pθ (ϕ(x) = 1),<br />
d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen.<br />
��<br />
[0,1] von ϕ durch<br />
Für θ ∈ Θ0 ist βϕ(θ) dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung<br />
12.23).<br />
Das primäre Ziel bei statistischen Tests ist es nun, den Fehler erster Art für alle θ ∈ Θ0 zu kontrollieren!<br />
12.25 Definition:<br />
Sei ϕ ein Test. Wir nennen ϕ einen Test zum Niveau α ∈ [0,1], wenn<br />
sup βϕ(θ) ≤ α<br />
θ∈Θ0<br />
ist, d.h. wenn für alle θ ∈ Θ0 die Wahrscheinlichkeit eines Fehlers erster Art durch α beschränkt ist.<br />
12.26 Definition:<br />
Ist ϕ ein Test zum Niveau α = 1<br />
20 = 0.05 und x ∈ X eine Stichprobe mit ϕ(x) = 1 (d.h. wenn wir aufgrund<br />
dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signifikanten Ergebnis.<br />
Bei α = 1<br />
100 = 0.01 sprechen wir von einem hoch-signifikanten Ergebnis.<br />
Wir wollen im folgenden zwei Arten von Tests für Normalverteilungen besprechen.
12 Schätzer und statistische Tests 161<br />
12.2.1 Der einseitige Gaußtest<br />
Dieser Test wird durchgeführt, wenn die Varianz bekannt ist.<br />
Beispiel 12.27:<br />
Wissen wir also etwa in Beispiel 12.1, dass die Füllmaschine eine Standard-Abweichung von σ0 = 5 hat,<br />
so können wir den nun folgenden Gaußtest verwenden. Beachte, dass dann Θ = {(µ,25) | µ ≥ 0} ist und<br />
unsere Hypothese ( ” kein Betrug“) genau µ = µ0 = 1000 entspricht. Die Alternative ( ” Betrug“) ist dann<br />
µ < µ0 = 1000.<br />
Wir wollen nun in Abhängigkeit von<br />
¯x = 1<br />
n<br />
entscheiden. Als Verwerfungsbereich wollen wir beim Gaußtest ein Intervall<br />
n�<br />
i=1<br />
(−∞,z)<br />
mit einem noch zu bestimmenden z wählen, d.h. es soll ϕ(x) = 1 sein genau dann, wenn ¯x < z gilt.<br />
Wir werden hier jetzt beispielhaft an unserem Füllmengenbeispiel z so bestimmen, dass <strong>der</strong> zugehörige<br />
Test das Niveau 0.05 hat.<br />
Seien X1,...,Xn die zufälligen Meßwerte und sei wie immer<br />
¯X = 1<br />
n<br />
xi<br />
n�<br />
Xi.<br />
Es ist z so zu bestimmen, dass unter <strong>der</strong> Hypothese µ = µ0 gilt:<br />
� �<br />
¯X < z ≤ 0.05.<br />
Pµ0<br />
Unter <strong>der</strong> Hypothese µ = µ0 gilt Xi ∼ N � µ0,σ 2 �<br />
0 , d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass<br />
Damit haben wir<br />
Pµ0<br />
Wir müssen also ein y finden, s.d.<br />
i=1<br />
¯X − µ0<br />
∼ N (0,1) .<br />
σ0<br />
√ n<br />
� ¯X < z � = Pµ0<br />
� ¯X − µ0<br />
< σ0 √<br />
n<br />
� �� �<br />
∼N(0,1)<br />
z − µ0<br />
Φ(y) = 0.05<br />
σ0<br />
√ n<br />
� �� �<br />
=:y<br />
� !<br />
≤ 0.05.<br />
für die Verteilungsfunktion Φ <strong>der</strong> Standardnormalverteilung N (0,1) ist. Das ist genau dann <strong>der</strong> Fall,<br />
wenn Φ(−y) = 0.95 gilt. Unter Verwendung <strong>der</strong> Tabelle (Anhang A) interpolieren wir so<br />
womit<br />
ist.<br />
Beispiel 12.28:<br />
In Beispiel 12.1 wäre dementsprechend<br />
−y = 1.645,<br />
z = µ0 + σ0<br />
√n · (−1.645)<br />
z = µ0 + σ0<br />
√n · (−1.645) = 1000 − 1.645 5<br />
√ 6 ≈ 996.64.<br />
Wegen ¯x = 996.5 würden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnung<br />
machen!
162 12 Schätzer und statistische Tests<br />
12.2.2 Der t-Test<br />
Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen.<br />
In unserem Beispiel 12.1 wollen wir hier also<br />
gegen<br />
testen.<br />
Als ” Testgröße“ kann man jetzt nicht<br />
H0 : θ ∈ Θ0 = �� µ,σ 2� | µ = µ0 = 1000, σ 2 > 0 �<br />
H1 : θ ∈ Θ1 = �� µ,σ 2� | µ < µ0 = 1000, σ 2 > 0 �<br />
¯X − µ0<br />
σ0<br />
√ n<br />
nutzen, da man σ0 nicht kennt. Die Lösung für dieses Problem ist denkbar einfach: Man schätzt σ0 über<br />
S = √ S2 �<br />
�<br />
�<br />
= � 1<br />
n� �<br />
Xi −<br />
n − 1<br />
¯ X �2 ,<br />
wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S 2 wie dort gezeigt ein erwartungstreuer<br />
Schätzer für σ0 ist!<br />
Nach dieser Schätzung nutzt man dann<br />
P � �<br />
� ¯X<br />
X ¯<br />
− µ0<br />
< z = P < z − µ0<br />
i=1<br />
S√ n<br />
� �� �<br />
=Y<br />
S√ n<br />
und man kann zeigen, dass Y ∼ tn−1 gilt. Die Verteilung tn−1 ist dabei unabhängig von σ2 , d.h. von <strong>der</strong><br />
wahren Varianz. Die Dichte zu tn−1 sieht <strong>der</strong> Dichte von N (0,1) sehr ähnlich und in gewissem Sinne gilt<br />
n ��<br />
∞ ��<br />
N (0,1). Die Verteilungsfunktion Ftn−1 <strong>der</strong> Verteilung tn−1 ist ebenso wie Φ tabelliert.<br />
tn−1<br />
Jetzt kann man genauso wie beim Gaußtest vorgehen und entsprechend ein y mit Ftn−1 (−y) = 0.95<br />
suchen.<br />
Beispiel 12.29:<br />
In Beispiel 12.1 betrachten wir n = 6, also t5. Es folgt aus <strong>der</strong> Tabelle y = −2.015 und damit<br />
z = µ0 + S √ n · (−2.015) = 1000 − 2.015 · 5.3572<br />
√ 6 ≈ 995.593.<br />
In diesem Fall würden wir die Hypothese also nicht verwerfen, um ein Niveau von 0.05 zu halten!<br />
�<br />
,
A Tabelle <strong>der</strong> Standardnormalverteilung 163<br />
A Tabelle <strong>der</strong> Standardnormalverteilung<br />
Wir wollen hier eine Tabelle zum Nachschlagen <strong>der</strong> Verteilungsfunktion<br />
Φ(x) =<br />
<strong>der</strong> Standard-Normalverteilung geben. Da<br />
sind nur positive Werte angegeben:<br />
�x<br />
−∞<br />
�<br />
1<br />
√ exp −<br />
2π t2<br />
�<br />
dt<br />
2<br />
Φ(−x) = 1 − Φ(x) , x ≥ 0,<br />
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09<br />
0.00 0.500000 0.503989 0.507978 0.511967 0.515953 0.519939 0.523922 0.527903 0.531881 0.535856<br />
0.10 0.539828 0.543795 0.547758 0.551717 0.555670 0.559618 0.563559 0.567495 0.571424 0.575345<br />
0.20 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092<br />
0.30 0.617911 0.621719 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732<br />
0.40 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933<br />
0.50 0.691462 0.694974 0.698468 0.701944 0.705402 0.708840 0.712260 0.715661 0.719043 0.722405<br />
0.60 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.754903<br />
0.70 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.785236<br />
0.80 0.788145 0.791030 0.793892 0.796731 0.799546 0.802338 0.805106 0.807850 0.810570 0.813267<br />
0.90 0.815940 0.818589 0.821214 0.823814 0.826391 0.828944 0.831472 0.833977 0.836457 0.838913<br />
1.00 0.841345 0.844752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.862143<br />
1.10 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.878999 0.881000 0.882977<br />
1.20 0.884930 0.886860 0.888767 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.901475<br />
1.30 0.903199 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914656 0.916207 0.917736<br />
1.40 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888<br />
1.50 0.933193 0.934478 0.935744 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083<br />
1.60 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486<br />
1.70 0.955435 0.956367 0.957284 0.958185 0.959071 0.959941 0.960796 0.961636 0.962463 0.963273<br />
1.80 0.964070 0.964852 0.965621 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621<br />
1.90 0.971284 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705<br />
2.00 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691<br />
2.10 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.985738<br />
2.20 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.988989<br />
2.30 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.991567<br />
2.40 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.993613<br />
2.50 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.995201<br />
2.60 0.995339 0.995473 0.995603 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.996427<br />
2.70 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.997365<br />
2.80 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.998074<br />
2.90 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605<br />
3.00 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999<br />
3.10 0.999032 0.999064 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289<br />
3.20 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499<br />
3.30 0.999517 0.999533 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999650<br />
3.40 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758<br />
3.50 0.999767 0.999776 0.999784 0.999792 0.999800 0.999807 0.999815 0.999821 0.999828 0.999835<br />
3.60 0.999841 0.999847 0.999853 0.999858 0.999864 0.999869 0.999874 0.999879 0.999883 0.999888<br />
3.70 0.999802 0.999896 0.999900 0.999904 0.999908 0.999912 0.999915 0.999918 0.999922 0.999925<br />
3.80 0.999928 0.999930 0.999933 0.999936 0.999938 0.999941 0.999943 0.999946 0.999948 0.999950<br />
3.90 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967<br />
Dabei ist <strong>der</strong> Eintrag in <strong>der</strong> Zelle (i,j) genau Φ(i + j). Hier nochmal <strong>der</strong> Graph:<br />
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />
−4.0−3.6<br />
−3.2−2.8<br />
−2.4−2.0<br />
−1.6−1.2<br />
−0.8−0.4<br />
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � ��<br />
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />
0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0<br />
Abbildung 24: Die Verteilungsfunktion Φ <strong>der</strong> Standardnormalverteilung.
B Kenngrößen <strong>der</strong> wichtigsten Verteilungen<br />
B.1 Diskrete Verteilungen<br />
Verteilung Parameter Bezeichnung X (Ω) P(X = k) für k ∈ X (Ω) Erwartungswert Varianz<br />
Laplace N ∈ N {1,...,N} 1<br />
N<br />
Benoulli p ∈ [0,1] B(1,p) {0,1} p k (1 − p) 1−k<br />
Binomial p ∈ [0,1], n ∈ N B(n,p) {1,...,n}<br />
Hypergeometrisch N,R ∈ N, N ≥ R, n ∈ N {0,...,n}<br />
� � n k n−k<br />
k p (1 − p)<br />
( R<br />
k)( N−R<br />
n−k)<br />
N+1<br />
2<br />
N 2 −1<br />
12<br />
p p(1 − p)<br />
n · p n · p · (1 − p)<br />
( N<br />
Poisson λ > 0 Poi (λ) N0<br />
n)<br />
exp(−λ) λk<br />
k! λ λ<br />
Geometrisch p ∈ [0,1] Geo(p) N p · (1 − p) k−1 1<br />
p<br />
Negativ-Binomial p ∈ [0,1], r ∈ N N0<br />
� � r+k−1 r k<br />
k p (1 − p)<br />
n R<br />
N<br />
r · 1−p<br />
p<br />
n R<br />
N<br />
(N−R) N−n<br />
N N−1<br />
1−p<br />
p 2<br />
r 1−p<br />
p 2<br />
164 B Kenngrößen <strong>der</strong> wichtigsten Verteilungen
B.2 Stetige Verteilungen<br />
Verteilung Parameter Bezeichnung Wahrscheinlichkeitsdichte Erwartungswert Varianz<br />
Gleichverteilung a < b U (a,b) f(t) = 1<br />
Normalverteilung µ ∈ R, σ > 0 N � µ,σ 2�<br />
f(t) = 1<br />
√ 2πσ 2 exp<br />
b−a 1 [a,b](t)<br />
�<br />
− (t−µ)2<br />
2σ 2<br />
Exponentialverteilung λ > 0 Exp (λ) f(t) = λ exp (−λt)1 (0,∞)(t) 1<br />
λ<br />
Gammaverteilung r,λ ∈ (0, ∞) Gamma (r,λ) f(t) = λr<br />
Γ(r) tr−1 exp (−λt) 1 (0,∞)(t)<br />
Chi-Quadrat-Verteilung n ∈ N χ 2 n = Gamma � n<br />
2<br />
�<br />
b+a<br />
2<br />
(b−a) 2<br />
12<br />
µ σ<br />
�<br />
1 , 2 f(t) = 2− n 2<br />
Γ( n<br />
n<br />
t 2<br />
2 ) −1 exp � − t<br />
�<br />
2<br />
1(0,∞)(t) n 2n<br />
α<br />
Paretoverteilung α ∈ (0, ∞) Pareto(α) f(t) =<br />
(t+1) α+1 � �<br />
∞ falls α ≤ 1 α α2<br />
1 α−2 −<br />
(α−1)<br />
(0,∞)(t)<br />
2 falls α > 2<br />
∞ falls α ≤ 2<br />
r<br />
λ<br />
1<br />
α−1 falls α > 1<br />
Cauchyverteilung f(t) := 1<br />
π(1+t 2 ) existiert nicht existiert nicht<br />
1<br />
λ 2<br />
r<br />
λ 2<br />
B Kenngrößen <strong>der</strong> wichtigsten Verteilungen 165
166 Stichwortverzeichnis<br />
Stichwortverzeichnis<br />
σ-Algebra, 100, 102, 114<br />
Borel’sche, 102, 114<br />
triviale, 100<br />
3-Türen-Problem, 52<br />
Abbildung<br />
meßbare, 101<br />
Bayes<br />
Formel von, 36<br />
bedingte Erwartung, 82<br />
Bernoulli<br />
-Experiment, 45<br />
Bernstein<br />
Ungleichung, 74<br />
Binomialkoeffizient, 24<br />
Binomialverteilung, siehe Verteilung<br />
Blockungslemma, 54, 119<br />
Borel’sche σ-Algebra, 102, 114<br />
Cauchyverteilung, siehe Verteilung<br />
Chernov<br />
Ungleichung, 76<br />
Chi-Quadrat-Verteilung, siehe Verteilung<br />
de Moivre-Laplace<br />
Grenzwertsatz von, 96<br />
de Morgan’sche Regeln, 9<br />
Dichte, 104, 115<br />
<strong>der</strong> Standardnormalverteilung, 96<br />
gemeinsame, 115<br />
Produktdichte, 115<br />
Transformationsformel, 109<br />
Ereignis, 7<br />
bedingte Wahrscheinlichkeit, 33<br />
sicheres, 7<br />
Unabhängigkeit, 31, 32<br />
unmögliches, 7<br />
Verknüpfungen, 7<br />
Ergebnis, 7<br />
Erwartungswert, 60<br />
bedingter, 82<br />
eines Zufallsvektors, 122<br />
Jensen’sche Ungleichung, 126<br />
Linearität, 63, 117<br />
Produktformel, 64<br />
Trafoformel, siehe Transformationsformel<br />
Experiment<br />
n-stufiges, 39<br />
Exponentialverteilung, siehe Verteilung<br />
Fächermodell, 22<br />
Faltung, 120<br />
Formel<br />
Mulitplikationsformel, 34<br />
von Bayes, 36<br />
von <strong>der</strong> totalen Wahrscheinlichkeit, 36<br />
Funktion<br />
erzeugende, 87<br />
Gamma-, 108<br />
rechtstetig, 102<br />
Galton-Watson-Prozess, 92<br />
Gammaverteilung, siehe Verteilung<br />
Gaußsche Glockenkurve, 96<br />
geometrische Verteilung, siehe Verteilung<br />
Gleichverteilung, siehe Verteilung<br />
diskrete, 11<br />
Graph<br />
Pfad, 134<br />
Gewicht, 135<br />
Länge, 135<br />
Weg, 134<br />
Grundraum<br />
diskreter, 7<br />
Hoeffding<br />
Ungleichung, 76<br />
Indikatorvariable, 50<br />
Korellationskoeffizient, 85<br />
Korrelation<br />
negative, 86<br />
positive, 86<br />
Kovarianz<br />
eines Zufallsvektors, 123<br />
Laplace-Raum, 11<br />
Laplace-Verteilung, 11<br />
Markov-Kette, 139<br />
Übergangsgraph, 134<br />
irreduzibel, 135<br />
Übergangsmatrix, 133<br />
aperiodisch, 137<br />
irreduzibel, 135<br />
Periode, 137<br />
in i gestartete, 146<br />
Konvergenzssatz, 141<br />
Markov-Eigenschaft, 139<br />
Rückkehrzeit, 146<br />
Rückkehrzeitensatz, 147<br />
Satz von <strong>der</strong> invarianten Verteilung, 145<br />
Satz von <strong>der</strong> positiven Rekurrenz, 147<br />
starkes Gesetz, 149<br />
Startverteilung, 139<br />
stochastische Matrix, 133<br />
Verteilung<br />
invariante, 141<br />
Zustand<br />
Periode, 136<br />
Zustandsmenge, 133<br />
Markov-Ungleichung, 72<br />
Menge<br />
Komplement, 9<br />
Multinomialkoeffizient, 25<br />
Multinomialverteilung, siehe Verteilung<br />
negative Binomialverteilung, siehe Verteilung
Stichwortverzeichnis 167<br />
Normalapproximation, 98<br />
Normalverteilung, siehe Verteilung<br />
Paretoverteilung, siehe Verteilung<br />
Polya’sches Urnenmodell, 39<br />
relative Häufigkeit, 8<br />
Satz<br />
Abel’scher Grenzwertsatz, 88<br />
Binomischer Lehrsatz, 24<br />
Grenzwertsatz von de Moivre-Laplace, 96<br />
Konvergenzsatz für Markov-Ketten, 141<br />
Poisson-Grenzwert, 59<br />
Rückkehrzeitensatz, 147<br />
von <strong>der</strong> invarianten Verteilung, 145<br />
von <strong>der</strong> iterierten Erwartung, 82<br />
von <strong>der</strong> positiven Rekurrenz, 147<br />
Zentraler Grenzwertsatz, 127<br />
Fehlerabschätzung nach Berry-Esseen, 131<br />
Schätzer, 154<br />
erwartungstreuer, 156<br />
ML-, 155<br />
Schätzung, 154<br />
Schwaches Gesetz großer Zahlen, 73<br />
Siebformel, 15<br />
Bonferroni-Ungleichungen, 19<br />
von Poincare-Sylvester, 15<br />
Simpson-Paradoxon, 37<br />
Spiegelungsprinzip, 29<br />
Stichprobe<br />
Stichprobenvarianz, 158<br />
Stichprobenraum, 154<br />
Stimmzettelproblem, 28<br />
System<br />
dynamisches, 93<br />
Grenzwert, 93<br />
Test, 160<br />
t-, 162<br />
Alternative, 159<br />
Fehler erster Art, 160<br />
Gütefunktion, 160<br />
Gauß-, 161<br />
hoch-signifikantes Ergebnis, 160<br />
Hypothese, 159<br />
signifikantes Ergebnis, 160<br />
Testproblem, 160<br />
Verwerfungsbereich, 160<br />
zum Niveau α, 160<br />
Transformationsformel, 62, 112, 116<br />
Tschebyschow-Ungleichung, 72<br />
Ungleichung<br />
Bernstein-, 74<br />
Bonferroni, 19<br />
Boole’sche, 10, 20<br />
Chernov-, 76<br />
Hoeffding-, 76<br />
Markov, 72<br />
SGGZ, siehe Schwaches Gesetz großer Zahlen<br />
Tschebyschow, 72<br />
Urnenmodell, 22<br />
Varianz, 65, 113<br />
empirische, 159<br />
Rechenregeln, 66<br />
Stichprobenvarianz, 158<br />
Verteilung, 100<br />
k-dimensionale Randverteilung, 51<br />
n-dimensionale Normalverteilung, 122<br />
n-dimensionale Std.-Normalverteilung, 122<br />
a-posteriori, 42<br />
a-priori, 42<br />
austauschbare, 40<br />
bedingte, 80<br />
Binomialverteilung, 27<br />
Cauchy-, 108<br />
Chi-Quadrat, 108<br />
einer Zufallsvariable, 48<br />
Exponential-, 106<br />
Gedächtnislosigkeit, 107<br />
Faltung, 77<br />
Gamma-, 108<br />
gemeinsame, 50<br />
geometrische, 46<br />
Gleichverteilung, 105<br />
hypergeometrische, 27<br />
Marginalverteilung, 51<br />
Multinomialverteilung, 45<br />
negative Binomialverteilung, 47<br />
Normalverteilung, 106<br />
ausgeartete, 124<br />
nicht ausgeartete, 124<br />
Pareto-, 107<br />
Produktverteilung, 115<br />
Standard-Normalverteilung, 96, 106<br />
stetige, 104<br />
Verteilungsfunktion, 102<br />
Standardnormalverteilung, 96<br />
Verzweigungsprozess, 92<br />
Aussterbewahrscheinlichkeit, 92<br />
Vitali-Menge, 101<br />
Vorhersager<br />
linearer, 86<br />
Wahrscheinlichkeit<br />
bedingte, 33<br />
Multiplikationsformel, 34<br />
Wahrscheinlichkeitsfunktion, 13<br />
bedingte, 80<br />
Wahrscheinlichkeitsraum, 100<br />
diskreter, 8<br />
Laplace-Raum, 11<br />
Produkt, 43<br />
Wahrscheinlichkeitsverteilung, 100<br />
Wald’sche Identität, 83, 91<br />
Ziegenproblem, 52<br />
zufällige Summe<br />
erzeugende Funktion, 90<br />
Zufallsexperiment, 6<br />
Zufallsvariabel<br />
standardisierte, 95<br />
Zufallsvariable, 48, 101<br />
j-tes faktorielles Moment, 88
168 Stichwortverzeichnis<br />
k-tes Moment, 113<br />
k-tes zentrales Moment, 66<br />
bedingte Erwartung, siehe bedingte Erwartung<br />
Bernoulli-verteilte, 56<br />
Binomial-verteilte, 56<br />
Poisson-Approximation, 59<br />
drittes zentrales Moment, 127<br />
Erwartungswert, siehe Erwartungswert<br />
Funktion von Zufallsvariablen, 53<br />
gemeinsame Dichte, 115<br />
geometrisch verteilte, 57<br />
Gedächtnislosigkeit, 57<br />
gleichverteilte, 56<br />
Kovarianz, 66<br />
Laplace-verteilte, 56<br />
Poisson-verteilte, 58<br />
reelle, 102<br />
Standardabweichung, 65<br />
stetig verteilte, 105<br />
Erwartungswert, 111<br />
Unabhängigkeit, 51, 83, 117<br />
unkorreliert, 69, 119<br />
Varianz, siehe Varianz<br />
Verteilung, 48, 101<br />
bedingte, 80<br />
Faltung, 77<br />
Wahrscheinlichkeitsfunktion<br />
bedingte, 80