10.07.2015 Aufrufe

Diskrete Wahrscheinlichkeitstheorie - Lehrstuhl für Effiziente ...

Diskrete Wahrscheinlichkeitstheorie - Lehrstuhl für Effiziente ...

Diskrete Wahrscheinlichkeitstheorie - Lehrstuhl für Effiziente ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Kapitel 0 OrganisatorischesVorlesungen:Di 14:00–15:30 (PH HS1), Do 14:15–15:45 (PH HS1)Abweichende Termine: 19.5, 9.6, 30.6, 14.7.: ZÜ statt VL (PH HS1)Pflichtvorlesung Grundstudium(Diplom, Bachelor IN, Bioinformatik)Modulnr.: IN0018Übung:2SWS Tutorübung: siehe Webseite zur Übung2SWS (freiwillige) Zentralübung: Fr 16:00–17:30 (MI HS1) (aber: siehe oben)Übungsleitung: Dr. W. MeixnerUmfang:3V+2TÜ+2ZÜ, 6 ECTS-PunkteSprechstunde:nach VereinbarungDWT 2/476c○Ernst W. Mayr


Vorkenntnisse:Einführung in die Informatik I/II<strong>Diskrete</strong> StrukturenWeiterführende Vorlesungen:<strong>Effiziente</strong> Algorithmen und DatenstrukturenRandomisierte AlgorithmenKomplexitätstheorieInternetalgorithmik. . .Webseite:http://wwwmayr.in.tum.de/lehre/2011SS/dwt/DWT 3/476c○Ernst W. Mayr


1. VorlesungsinhaltEndliche WahrscheinlichkeitsräumeWahrscheinlichkeitsraum, Ereignis, Zufallsvariablespezielle VerteilungenUngleichungen von Markov und ChebyshevUnendliche WahrscheinlichkeitsräumeNormalverteilung, ExponentialverteilungZentraler GrenzwertsatzStochastische ProzesseMarkovkettenWarteschlangenStatistikSchätzvariablenKonfidenzintervalleTesten von HypothesenDWT 1 Vorlesungsinhalt 6/476c○Ernst W. Mayr


2. LiteraturT. Schickinger, A. Steger:<strong>Diskrete</strong> Strukturen - Band 2,Springer Verlag, 2001M. Greiner, G. Tinhofer:Stochastik für Informatiker,Carl Hanser Verlag, 1996H. Gordon:Discrete Probability,Springer-Verlag, 1997R. Motwani, P. Raghavan:Randomized Algorithms,Cambridge University Press, 1995DWT 7/476c○Ernst W. Mayr


M. Hofri:Probabilistic Analysis of Algorithms,Springer Verlag, 1987L. Fahrmeir, R. Künstler, I. Pigeot, G. Tutz:Statistik - Der Weg zur Datenanalyse,Springer-Verlag, 1997DWT 2 Literatur 8/476c○Ernst W. Mayr


3. EinleitungWas bedeutet Zufall?Große Menge von ”gleichen“ Ereignissen, wobei sich bestimmteEigenschaften/Messgrößen jeweils ändern könnenUnkenntnis über den Ausgang eines durchgeführten ExperimentsEin komplexes Experiment wird theoretisch vielfach mit eventuell sich änderndemErgebnis ausgeführtphysikalischer Zufall (Rauschen, Kernzerfall)DWT 3 Einleitung 9/476c○Ernst W. Mayr


Zufall in der diskreten InformatikDie Eingabe für einen bestimmten Algorithmus wird aus einer großen Mengemöglicher Eingaben zufällig gewählt:average caseDie Laufzeit einzelner Schritte eines Algorithmus hängt in ”unbekannter“ Weisevon der Eingabe ab:amortisierte KostenanalyseDer Algorithmus verwendet Zufallsbits, um mit großer Wahrscheinlichkeit gewisseProblemsituationen zu vermeiden:RandomisierungDWT 3 Einleitung 10/476c○Ernst W. Mayr


Kapitel I <strong>Diskrete</strong> Wahrscheinlichkeitsräume1. GrundlagenDefinition 11 Ein diskreter Wahrscheinlichkeitsraum ist durch eine ErgebnismengeΩ = {ω 1 , ω 2 , . . .} von Elementarereignissen gegeben.2 Jedem Elementarereignis ω i ist eine (Elementar-)Wahrscheinlichkeit Pr[ω i ]zugeordnet, wobei wir fordern, dass 0 ≤ Pr[ω i ] ≤ 1 und∑Pr[ω] = 1.ω∈ΩDWT 1 Grundlagen 11/476c○Ernst W. Mayr


3 Eine Menge E ⊆ Ω heißt Ereignis. Die Wahrscheinlichkeit Pr[E] eines Ereignissesist durchPr[E] := ∑ Pr[ω]ω∈Edefiniert.DWT 1 Grundlagen 12/476c○Ernst W. Mayr


Beispiel 2Zwei faire Würfel (einer weiß, einer schwarz) werden geworfen. Wir sind an derGesamtzahl der angezeigten Augen interessiert:Ω = { (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6),(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6),(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6),(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6),(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6),(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6) }DWT 1 Grundlagen 13/476c○Ernst W. Mayr


1 Die Wahrscheinlichkeit Pr((i, j)) eines jeden Elementarereignisses (i, j) ist 136 .2 Die Wahrscheinlichkeit Pr(E) des Ereignissesist 112 .E = {Die Gesamtzahl der Augen ist 10}DWT 1 Grundlagen 14/476c○Ernst W. Mayr


Wir hätten aber auch sagen können:Ω = {2, 3, 4, . . . , 10, 11, 12}Die Wahrscheinlichkeit der Elementarereignisse ist dann aber nicht mehr ganzelementar. Es ist z.B.1 Pr(2) = 136 ;2 Pr(4) = 112 ;3 Pr(7) = 1 6 .DWT 1 Grundlagen 15/476c○Ernst W. Mayr


Beispiel 3Eine faire Münze wird so lange geworfen, bis die gleiche Seite zweimal hintereinanderfällt. Dann istΩ = {hh, tt, htt, thh, thtt, hthh, hthtt, ththh, . . .}Frage: Was sind die Wahrscheinlichkeiten der einzelnen Elementarereignisse?DWT 1 Grundlagen 16/476c○Ernst W. Mayr


Ē heißt komplementäres Ereignis zu E.Allgemein verwenden wir bei der Definition von Ereignissen alle bekannten Operatorenaus der Mengenlehre. Wenn also A und B Ereignisse sind, dann sind auch A ∪ B,A ∩ B, A \ B etc. Ereignisse.Zwei Ereignisse A und B heißen disjunkt oder auch unvereinbar, wenn A ∩ B = ∅ gilt.DWT 1 Grundlagen 17/476c○Ernst W. Mayr


Definition 4relative Häufigkeit von E :==absolute Häufigkeit von EAnzahl aller BeobachtungenAnzahl Eintreten von EAnzahl aller Beobachtungen .DWT 1 Grundlagen 18/476c○Ernst W. Mayr


Definition 5Ein Wahrscheinlichkeitsraum mit Ω = {ω 1 , . . . , ω n } heißt endlicherWahrscheinlichkeitsraum.Bei unendlichen Wahrscheinlichkeitsräumen werden wir gewöhnlich nur den FallΩ = N 0 betrachten. Dies stellt keine große Einschränkung dar, da wir statt einerErgebnismenge Ω = {ω 1 , ω 2 , . . .} auch N 0 als Ergebnismenge verwenden können,indem wir ω i mit i − 1 identifizieren. Wir sagen, dass durch die Angabe derElementarwahrscheinlichkeiten ein Wahrscheinlichkeitsraum auf Ω definiert ist.DWT 1 Grundlagen 19/476c○Ernst W. Mayr


Beispiel 6Wir beobachten die an einer Straße vorbeifahrenden Autos. Dabei gelte:1 Es fahren doppelt so viele Autos von links nach rechts wie von rechts nach links.2 Von zehn Autos sind acht silbergrau und zwei beige.Das Ereignis “Wir beobachten ein von links nach rechts fahrendes Auto” hat dieWahrscheinlichkeit 2 3 .Das Ereignis “Das nächste Auto ist ein Taxi von rechts” passiert mitWahrscheinlichkeit13 · 15 .DWT 1 Grundlagen 20/476c○Ernst W. Mayr


Beispiel 7 (Unendlicher Wahrscheinlichkeitsraum)Wir betrachten eine Münze, die mit Wahrscheinlichkeit p Kopf zeigt und mitWahrscheinlichkeit q := 1 − p Zahl.Wir führen Versuche aus, indem wir die Münze wiederholt solange werfen, bis Zahl fällt.Das Ergebnis eines solchen Versuchs ist die Anzahl der durchgeführten Münzwürfe.Damit ergibt sich hier als ErgebnismengeΩ = N = {1, 2, 3, . . .} .DWT 1 Grundlagen 21/476c○Ernst W. Mayr


Beispiel 7 (Forts.)Sei, für i ∈ N, ω i das Elementarereignisω i ̂= Die Münze wird i-mal geworfen .Dann gilt:und(wie es sein soll!)∑Pr[ω] =ω∈Ωi=1Pr[ω i ] = p i−1 q ,∞∑∞∑p i−1 q = q · p i =i=0q1 − p = 1 .DWT 1 Grundlagen 22/476c○Ernst W. Mayr


Lemma 8Für Ereignisse A, B, A 1 , A 2 , . . . gilt:1 Pr[∅] = 0, Pr[Ω] = 1.2 0 ≤ Pr[A] ≤ 1.3Pr[Ā] = 1 − Pr[A].4 Wenn A ⊆ B, so folgt Pr[A] ≤ Pr[B].DWT 1 Grundlagen 23/476c○Ernst W. Mayr


Lemma 8 (Forts.)5 (Additionssatz) Wenn die Ereignisse A 1 , . . . , A n paarweise disjunkt sind (also wenn füralle Paare i ≠ j gilt, dass A i ∩ A j = ∅), so folgt[ n]⋃n∑Pr A i = Pr[A i ].i=1i=1Für disjunkte Ereignisse A, B erhalten wir insbesonderePr[A ∪ B] = Pr[A] + Pr[B] .Für eine unendliche Menge von disjunkten Ereignissen A 1 , A 2 , . . . gilt analog[ ∞]⋃ ∞∑Pr A i = Pr[A i ] .i=1i=1DWT 1 Grundlagen 24/476c○Ernst W. Mayr


Beweis:Die Aussagen folgen unmittelbar aus Definition 1, den Eigenschaften der Addition undder Definition der Summe.DWT 1 Grundlagen 25/476c○Ernst W. Mayr


Eigenschaft 5 in Lemma 8 gilt nur für disjunkte Ereignisse. Für den allgemeinen Fallerhalten wir folgendenSatz 9 (Siebformel, Prinzip der Inklusion/Exklusion)Für Ereignisse A 1 , . . . , A n (n ≥ 2) gilt:[ n]⋃n∑Pr A i = Pr[A i ] −i=1i=1+ (−1) l−1 ∑∑1≤i 1


Satz 9 (Forts.)Insbesondere gilt für zwei Ereignisse A und BPr[A ∪ B] = Pr[A] + Pr[B] − Pr[A ∩ B] .Für drei Ereignisse A 1 , A 2 und A 3 erhalten wirPr[A 1 ∪ A 2 ∪ A 3 ] = Pr[A 1 ] + Pr[A 2 ] + Pr[A 3 ]−Pr[A 1 ∩ A 2 ] − Pr[A 1 ∩ A 3 ]−Pr[A 2 ∩ A 3 ]+Pr[A 1 ∩ A 2 ∩ A 3 ] .DWT 1 Grundlagen 27/476c○Ernst W. Mayr


Beweis:Wir betrachten zunächst den Fall n = 2. Dazu setzen wir C := A \ B = A \ (A ∩ B).Gemäß dieser Definition gilt, dass C und A ∩ B sowie C und B disjunkt sind. Deshalbkönnen wir Eigenschaft 5 von Lemma 8 anwenden:Wegen A ∪ B = C ∪ B folgt darausPr[A] = Pr[C ∪ (A ∩ B)] = Pr[C] + Pr[A ∩ B] .Pr[A ∪ B] = Pr[C ∪ B] = Pr[C] + Pr[B] =Pr[A] − Pr[A ∩ B] + Pr[B]und wir haben die Behauptung für n = 2 gezeigt.DWT 1 Grundlagen 28/476c○Ernst W. Mayr


Beweis (Forts.):Der Fall n = 3:A 1 A 2A 3ΩMan beachte, dass durch die im Satz angegebene Summe jedes Flächenstückinsgesamt genau einmal gezählt wird.DWT 1 Grundlagen 29/476c○Ernst W. Mayr


Beweis (Forts.):Der allgemeine Fall kann nun durch Induktion über n gezeigt werden (was wir aber hiernicht ausführen!).Satz 9 findet man manchmal auch unter der Bezeichung Satz von Poincaré-Sylvester,nach dem Franzosenund dem Engländerbenannt.Jules Henri Poincaré (1854–1912)James Joseph Sylvester (1814–1897)DWT 1 Grundlagen 30/476c○Ernst W. Mayr


Boolesche Ungleichung:Die folgende Abschätzung ist nach George Boole (1815–1864) benannt:Korollar 10Für Ereignisse A 1 , . . . , A n gilt[ n]⋃Pr A i ≤i=1n∑Pr[A i ] .i=1Analog gilt für eine unendliche Folge von Ereignissen A 1 , A 2 , . . ., dass[ ∞]⋃Pr A i ≤i=1∞∑Pr[A i ] .i=1DWT 1 Grundlagen 31/476c○Ernst W. Mayr


Beweis:Zunächst betrachten wir die linke Seite der Ungleichung für den endlichen Fall underhalten[ n]⋃Pr A i = ∑Pr[ω] .Für die rechte Seite gilti=1n∑Pr[A i ] =i=1ω∈ ⋃ ni=1 A in∑ ∑i=1ω∈A iPr[ω] .Jedes Elementarereignis kommt links also genau einmal und rechts mindestens einmalvor.DWT 1 Grundlagen 32/476c○Ernst W. Mayr


1.1 Wahl der WahrscheinlichkeitenFrage: Wie können Wahrscheinlichkeiten sinnvoll festgelegt werden?Prinzip von Laplace (Pierre Simon Laplace (1749–1827)): Wenn nichts dagegenspricht, gehen wir davon aus, dass alle Elementarereignisse gleich wahrscheinlich sind.Also:Pr[E] = |E||Ω|DWT 1.1 Wahl der Wahrscheinlichkeiten 33/476c○Ernst W. Mayr


1.2 Historische Anfänge der <strong>Wahrscheinlichkeitstheorie</strong>Die ersten Hinweise auf mathematische Untersuchungen zu Problemen der<strong>Wahrscheinlichkeitstheorie</strong> finden sich in einem Briefwechsel zwischen denfranzösischen MathematikernundPierre Fermat (1601–1665)Blaise Pascal (1623–1662).Pascal beschäftigte sich neben der Mathematik auch mit Fragestellungen aus demBereich der Physik und auch aus der Informatik! Sein Vater hatte als Steuerinspektorin Rouen umfangreiche Rechnungen durchzuführen und so wurde Pascal zum Bau einermechanischen Rechenmaschine, der so genannten Pascaline, motiviert.DWT 1.2 Historische Anfänge der <strong>Wahrscheinlichkeitstheorie</strong> 34/476c○Ernst W. Mayr


In dem Briefwechsel taucht bereits der Ansatz Pr[E] = |E|/|Ω| zur Berechnung derWahrscheinlichkeit von E auf. Auch den Begriff des Erwartungswerts kann man dortschon finden. Weder Fermat noch Pascal publizierten ihre Überlegungen zur<strong>Wahrscheinlichkeitstheorie</strong>. Der NiederländerChristiaan Huygens (1629–1695)entwickelte ebenfalls Methoden zum Arbeiten mit Wahrscheinlichkeiten aus. Erpublizierte im Jahre 1657 auch eine kleine Arbeit mit dem Titel ”De ratiociniis in ludoaleae“ (Über die Gesetzmäßigkeiten beim Würfelspiel).DWT 1.2 Historische Anfänge der <strong>Wahrscheinlichkeitstheorie</strong> 35/476c○Ernst W. Mayr


2. Bedingte WahrscheinlichkeitenBeispiel 11A und B spielen Poker (52 Karten, 5 Karten pro Spieler, keine getauschten Karten).A hält vier Asse und eine Herz Zwei in der Hand. B kann dieses Blatt nur überbieten,wenn er einen Straight Flush (fünf Karten einer Farbe in aufsteigender Reihenfolge hat.Die Wahrscheinlichkeit für das Ereignis F := ”B hat einen Straight Flush“ beträgtPr[F ] = |F ||Ω| = 3 ( · 8 + 752−5) =5311533939 = 2,02.. · 10−5 .DWT 2 Bedingte Wahrscheinlichkeiten 36/476c○Ernst W. Mayr


Beispiel 11 (Forts.)A hat die Karten allerdings gezinkt und weiß, dass B nur Kreuz in der Hand hält.Bezeichne nun Ω ′ den Wahrscheinlichkeitsraum aller Möglichkeiten für B und F ′ dasEreignis, dass B einen Straight Flush der Farbe Kreuz hat:( 125Pr[F ′ ] = |F ′ ||Ω ′ | = 8 ) = 8 ≈ 0,01 !!792DWT 2 Bedingte Wahrscheinlichkeiten 37/476c○Ernst W. Mayr


Für Pr[A|B] erforderliche Eigenschaften:1 Pr[B|B] = 1;2 Pr[A|Ω] = Pr[A];3 für festes B ist Pr[A|B] proportional zu Pr[A ∩ B].Definition 12A und B seien Ereignisse mit Pr[B] > 0. Die bedingte Wahrscheinlichkeit Pr[A|B]von A gegeben B ist definiert alsPr[A|B] :=Pr[A ∩ B]Pr[B].DWT 2 Bedingte Wahrscheinlichkeiten 38/476c○Ernst W. Mayr


Die bedingten Wahrscheinlichkeiten Pr[·|B] bilden für ein beliebiges Ereignis B ⊆ Ωmit Pr[B] > 0 einen neuen Wahrscheinlichkeitsraum über Ω.Es ist leicht nachzurechnen, dass dadurch die Definition eines diskretenWahrscheinlichkeitsraums erfüllt ist:∑ω∈ΩPr[ω|B] = ∑ ω∈ΩPr[ω ∩ B]Pr[B]= ∑ ω∈BPr[ω]Pr[B] = Pr[B]Pr[B] = 1.Damit gelten alle Rechenregeln für Wahrscheinlichkeiten auch für bedingteWahrscheinlichkeiten. Beispielsweise:Pr[∅|B] = 0 sowie Pr[Ā|B] = 1 − Pr[A|B] .DWT 2 Bedingte Wahrscheinlichkeiten 39/476c○Ernst W. Mayr


ÈÖÜ℄Beispiel 13 (Reskalierung bei bedingten Wahrscheinlichkeiten)Betrachte folgenden gezinkten Würfel:0,70,60,50,40,30,20,10,00 1 2 3 4 5 6 7DWT 2 Bedingte Wahrscheinlichkeiten 40/476c○Ernst W. Mayr


Beispiel 13 (Forts.)Wir betrachten nun den durch BÈÖÜ℄:= {3, 4, 5} gegebenen bedingtenWahrscheinlichkeitsraum:0,70,70,60,6ÈÖÜ℄0,50,40,30,20,10,00 1 2 3 4 5 6 70,50,40,30,20,10,00 1 2 3 4 5 6 7DWT 2 Bedingte Wahrscheinlichkeiten 41/476c○Ernst W. Mayr


Was genau war die Bedingung?Beispiel 14 (Zweikinderproblem)Wir nehmen an, dass bei der Geburt eines Kindes beide Geschlechter gleichwahrscheinlich sind. Wir wissen, dass eine bestimmte Familie zwei Kinder hat und einesdavon ein Mädchen ist. Wie groß ist die Wahrscheinlichkeit, dass beide Kinder derFamilie Mädchen sind?Natürlich 1 2 .Wirklich?DWT 2 Bedingte Wahrscheinlichkeiten 42/476c○Ernst W. Mayr


Beispiel 14 (Forts.)Eigentlich gilt:undΩ := {mm, mj, jm, jj}M := {mm, mj, jm} .Wir bedingen auf M, und damit gilt für A := {mm}:Pr[A|M] =Pr[A ∩ M]Pr[M]= 1/43/4 = 1 3 .DWT 2 Bedingte Wahrscheinlichkeiten 43/476c○Ernst W. Mayr


Beispiel 15 (Ziegenproblem)Sie nehmen an einer Spielshow im Fernsehen teil, bei der Sie eine von dreiverschlossenen Türen auswählen sollen. Hinter einer Tür wartet der Preis, ein Auto,hinter den beiden anderen stehen Ziegen. Sie zeigen auf eine Tür, sagen wir Nummereins. Sie bleibt vorerst geschlossen. Der Moderator weiß, hinter welcher Tür sich dasAuto befindet; mit den Worten “Ich gebe Ihnen mal einen kleinen Hinweis” öffnet ereine andere Tür, zum Beispiel Nummer drei, und eine Ziege schaut heraus undmeckert. Er fragt: “Bleiben Sie bei Nummer eins, oder wählen sie Nummer zwei? ”Frage: Welche Strategie ist günstiger:S1 Der Spieler bleibt immer bei seiner ursprünglichen Wahl.S2 Der Spieler wechselt stets die ausgewählte Tür.DWT 2 Bedingte Wahrscheinlichkeiten 44/476c○Ernst W. Mayr


Beispiel (Forts.)Wir betrachten hier eine Diskussion des Ziegenproblems mit Hilfe von bedingtenWahrscheinlichkeiten. Wir betrachten bei jeder Variante den Fall, dass der Spielera) die “richtige”,b) eine falsche Tür gewählt hat.Ersteres geschieht mit Wahrscheinlichkeit 1 3 , Letzteres mit Wahrscheinlichkeit 2 3 .Wenn wir nun auf den Fall a) bzw. b) bedingen, ergeben sich für die beiden Strategiendie folgenden bedingten Gewinnwahrscheinlichkeiten:S1S2a) 1 0b) 0 1DWT 2 Bedingte Wahrscheinlichkeiten 45/476c○Ernst W. Mayr


Häufig verwendet man die Definition der bedingten Wahrscheinlichkeit in der FormDamit:Pr[A ∩ B] = Pr[B|A] · Pr[A] = Pr[A|B] · Pr[B] . (1)Satz 16 (Multiplikationssatz)Seien die Ereignisse A 1 , . . . , A n gegeben. Falls Pr[A 1 ∩ . . . ∩ A n ] > 0 ist, giltPr[A 1 ∩ . . . ∩ A n ] =Pr[A 1 ] · Pr[A 2 |A 1 ] · Pr[A 3 |A 1 ∩ A 2 ] · . . .. . . · Pr[A n |A 1 ∩ . . . ∩ A n−1 ] .DWT 2 Bedingte Wahrscheinlichkeiten 46/476c○Ernst W. Mayr


Beweis:Zunächst halten wir fest, dass alle bedingten Wahrscheinlichkeiten wohldefiniert sind,da Pr[A 1 ] ≥ Pr[A 1 ∩ A 2 ] ≥ . . . ≥ Pr[A 1 ∩ . . . ∩ A n ] > 0.Die rechte Seite der Aussage im Satz können wir umschreiben zuPr[A 1 ]1· Pr[A 1 ∩ A 2 ]Pr[A 1 ]· Pr[A 1 ∩ A 2 ∩ A 3 ]Pr[A 1 ∩ A 2 ]· . . . ·Offensichtlich kürzen sich alle Terme bis auf Pr[A 1 ∩ . . . ∩ A n ].Pr[A 1 ∩ . . . ∩ A n ]Pr[A 1 ∩ . . . ∩ A n−1 ] .DWT 2 Bedingte Wahrscheinlichkeiten 47/476c○Ernst W. Mayr


Beispiel 17 (Geburtstagsproblem)Wie groß ist die Wahrscheinlichkeit, dass in einer m-köpfigen Gruppe zwei Personenam selben Tag Geburtstag haben?Umformulierung:Man werfe m Bälle zufällig und gleich wahrscheinlich in n Körbe. Wie groß ist dieWahrscheinlichkeit, dass nach dem Experiment jeder Ball allein in seinem Korb liegt?Für das Geburtstagsproblem: n = 365DWT 2 Bedingte Wahrscheinlichkeiten 48/476c○Ernst W. Mayr


Offensichtlich muss m ≤ n sein, damit überhaupt jeder Ball allein in einem Korb liegenkann.Wir nehmen an, dass die Bälle nacheinander geworfen werden. A i bezeichne dasEreignis ”Ball i landet in einem noch leeren Korb“. Das gesuchte Ereignis ”Alle Bälleliegen allein in einem Korb“ bezeichnen wir mit A. Nach Satz 16 können wir Pr[A]berechnen durchPr[A] = Pr [∩ m i=1A i ]= Pr[A 1 ] · Pr[A 2 |A 1 ] · . . . · Pr[A m | ∩ m−1i=1 A i].Unter der Bedingung, dass die ersten j − 1 Bälle jeweils in einem leeren Korb gelandetsind, bedeutet A j , dass der j-te Ball in eine der n − (j − 1) leeren Körbe fallen muss,die aus Symmetriegründen jeweils mit derselben Wahrscheinlichkeit gewählt werden.DWT 2 Bedingte Wahrscheinlichkeiten 49/476c○Ernst W. Mayr


Daraus folgtPr[A j | ∩ j−1i=1 A n − (j − 1)i] = = 1 − j − 1nn .Mit der Abschätzung 1 − x ≤ e −x und wegen Pr[A 1 ] = 1 erhalten wirPr[A] =≤m∏j=1m∏j=2(1 − j − 1 )ne −(j−1)/n = e −(1/n)·∑m−1j=1 j= e −m(m−1)/(2n) =: f(m) .DWT 2 Bedingte Wahrscheinlichkeiten 50/476c○Ernst W. Mayr


1,0´Ñµ0,80,60,40,20,00 50 100 150 200 250 300 350Verlauf von f(m) für n = 365DWT 2 Bedingte Wahrscheinlichkeiten 51/476c○Ernst W. Mayr


Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigenwir:Satz 18 (Satz von der totalen Wahrscheinlichkeit)Die Ereignisse A 1 , . . . , A n seien paarweise disjunkt und es gelte B ⊆ A 1 ∪ . . . ∪ A n .Dann folgtn∑Pr[B] = Pr[B|A i ] · Pr[A i ] .i=1Analog gilt für paarweise disjunkte Ereignisse A 1 , A 2 , . . . mit B ⊆ ⋃ ∞i=1 A i, dassPr[B] =∞∑Pr[B|A i ] · Pr[A i ] .i=1DWT 2 Bedingte Wahrscheinlichkeiten 52/476c○Ernst W. Mayr


Beweis:Wir zeigen zunächst den endlichen Fall. Wir halten fest, dassB = (B ∩ A 1 ) ∪ . . . ∪ (B ∩ A n ) .Da für beliebige i, j mit i ≠ j gilt, dass A i ∩ A j = ∅, sind auch die Ereignisse B ∩ A iund B ∩ A j disjunkt. Wegen (1) folgt Pr[B ∩ A i ] = Pr[B|A i ] · Pr[A i ] (auch für denFall, dass Pr[A i ] = 0!). Wir wenden nun den Additionssatz (Lemma 5) anPr[B] = Pr[B ∩ A 1 ] + . . . + Pr[B ∩ A n ] =Pr[B|A 1 ] · Pr[A 1 ] + . . . + Pr[B|A n ] · Pr[A n ]und haben damit die Behauptung gezeigt. Da der Additionssatz auch für unendlichviele Ereignisse A 1 , A 2 , . . . gilt, kann dieser Beweis direkt auf den unendlichen Fallübertragen werden.DWT 2 Bedingte Wahrscheinlichkeiten 53/476c○Ernst W. Mayr


Mit Hilfe von Satz 18 erhalten wir leicht einen weiteren nützlichen Satz:Satz 19 (Satz von Bayes)Die Ereignisse A 1 , . . . , A n seien paarweis disjunkt, mit Pr[A j ] > 0 für alle j. Ferner seiB ⊆ A 1 ∪ . . . ∪ A n ein Ereignis mit Pr[B] > 0. Dann gilt für ein beliebiges i = 1, . . . , nPr[A i |B] = Pr[A i ∩ B]Pr[B]=Pr[B|A i ] · Pr[A i ]∑ nj=1 Pr[B|A j] · Pr[A j ] .Analog gilt für paarweis disjunkte Ereignisse A 1 , A 2 , . . . mit B ⊆ ⋃ ∞i=1 A i, dassPr[A i |B] = Pr[A i ∩ B]Pr[B]=Pr[B|A i ] · Pr[A i ]∑ ∞j=1 Pr[B|A j] · Pr[A j ] .DWT 2 Bedingte Wahrscheinlichkeiten 54/476c○Ernst W. Mayr


Mit dem Satz von Bayes dreht man gewissermaßen die Reihenfolge der Bedingung um.Gegeben die Wahrscheinlichkeit von B unter den Bedingungen A i (sowie dieWahrscheinlichkeiten der A i selbst), berechnet man die Wahrscheinlichkeit von A ibedingt auf das Ereignis B.Thomas Bayes (1702–1761) war ein bekannter Theologe und Mitglied der RoyalSociety. Als sein bedeutendstes Werk gilt sein Beitrag zur <strong>Wahrscheinlichkeitstheorie</strong>Essay Towards Solving a Problem in the Doctrine of Chances“. Diese Arbeit wurde”erst 1763 publiziert.DWT 2 Bedingte Wahrscheinlichkeiten 55/476c○Ernst W. Mayr


3. UnabhängigkeitBei einer bedingten Wahrscheinlichkeit Pr[A|B] kann der Fall auftreten, dass dieBedingung auf B, also das Vorwissen, dass B eintritt, keinen Einfluss auf dieWahrscheinlichkeit hat, mit der wir das Eintreten von A erwarten. Es gilt alsoPr[A|B] = Pr[A], und wir nennen dann die Ereignisse A und B unabhängig.DWT 3 Unabhängigkeit 56/476c○Ernst W. Mayr


Beispiel 20 (Zweimaliges Würfeln)Ω := {(i, j) | 1 ≤ i, j ≤ 6} .Alle Elementarereignisse erhalten nach dem Prinzip von Laplace dieWahrscheinlichkeit 136 .Wir definieren die EreignisseA := Augenzahl im ersten Wurf ist gerade,B := Augenzahl im zweiten Wurf ist gerade,C := Summe der Augenzahlen beider Würfe beträgt 7.Es gilt Pr[A] = Pr[B] = 1 2 und Pr[C] = 1 6. Wie groß ist Pr[B|A]?DWT 3 Unabhängigkeit 57/476c○Ernst W. Mayr


Beispiel 20 (Forts.)Nach unserer Intuition beeinflusst der Ausgang des ersten Wurfs den zweiten Wurfnicht. Daher gewinnen wir durch das Eintreten von A keine Information in Bezug aufdas Ereignis B hinzu:Daraus folgtB ∩ A = {(2, 2), (2, 4), (2, 6), (4, 2), (4, 4), (4, 6), (6, 2), (6, 4), (6, 6)}.Pr[B|A] =Pr[B ∩ A]Pr[A]=93612= 1 2 = Pr[B] .Das Eintreffen des Ereignisses B hat mit dem Ereignis A ”nichts zu tun“.DWT 3 Unabhängigkeit 58/476c○Ernst W. Mayr


Definition 21Die Ereignisse A und B heißen unabhängig, wenn giltPr[A ∩ B] = Pr[A] · Pr[B] .Falls Pr[B] ≠ 0, so können wir diese Definition zuPr[A] =Pr[A ∩ B]Pr[B]= Pr[A|B]umschreiben.DWT 3 Unabhängigkeit 59/476c○Ernst W. Mayr


Beispiel 20 (Zweimaliges Würfeln, Forts.)Zur Erinnerung:A := Augenzahl im ersten Wurf ist gerade,B := Augenzahl im zweiten Wurf ist gerade,C := Summe der Augenzahlen beider Würfe beträgt 7.Bei den Ereignissen A und B ist die Unabhängigkeit klar, da offensichtlich keinkausaler Zusammenhang zwischen den Ereignissen besteht. Wie steht es mit A und C?und damitA ∩ C = {(2, 5), (4, 3), (6, 1)}Pr[A ∩ C] = 3 36 = 1 2 · 1 = Pr[A] · Pr[C] bzw. Pr[C|A] = Pr[C] .6DWT 3 Unabhängigkeit 60/476c○Ernst W. Mayr


Beispiel 20 (Forts.)Also sind auch A und C (und analog B und C) unabhängig.Bemerkung: Im Beispiel ist A ∩ C ≠ ∅.Es gilt sogar allgemein für zwei unabhängige Ereignisse A und B mit Pr[A], Pr[B] > 0,dass sie gar nicht disjunkt sein können, da ansonsten0 = Pr[∅] = Pr[A ∩ B] ≠ Pr[A] · Pr[B] .DWT 3 Unabhängigkeit 61/476c○Ernst W. Mayr


Beispiel 20 (Zweimaliges Würfeln (Forts.))Zur Erinnerung:A := Augenzahl im ersten Wurf ist gerade,B := Augenzahl im zweiten Wurf ist gerade,C := Summe der Augenzahlen beider Würfe beträgt 7.Wir betrachten das Ereignis A ∩ B ∩ C. Wenn A ∩ B eintritt, so sind beidegewürfelten Augenzahlen gerade und somit ergibt auch die Summe davon eine geradeZahl. Daraus folgt Pr[A ∩ B ∩ C] = 0 bzw. Pr[C|A ∩ B] = 0 ≠ Pr[C]. Das EreignisA ∩ B liefert uns also Information über das Ereignis C.DWT 3 Unabhängigkeit 62/476c○Ernst W. Mayr


Definition 22Die paarweise verschiedenen Ereignisse A 1 , . . . , A n heißen unabhängig, wenn für alleTeilmengen I = {i 1 , . . . , i k } ⊆ {1, . . . , n} mit i 1 < i 2 < . . . < i k gilt, dassPr[A i1 ∩ . . . ∩ A ik ] = Pr[A i1 ] · . . . · Pr[A ik ]. (2)Eine unendliche Familie von paarweise verschiedenen Ereignissen A i mit i ∈ N heißtunabhängig, wenn (2) für jede endliche Teilmenge I ⊆ N erfüllt ist.DWT 3 Unabhängigkeit 63/476c○Ernst W. Mayr


Lemma 23Die (paarweise verschiedenen) Ereignisse A 1 , . . . , A n sind genau dann unabhängig,wenn für alle (s 1 , . . . , s n ) ∈ {0, 1} n gilt, dasswobei A 0 i = Āi und A 1 i = A i.Pr[A s 11 ∩ . . . ∩ Asn n ] = Pr[A s 11 ] · . . . · Pr[Asn n ], (3)DWT 3 Unabhängigkeit 64/476c○Ernst W. Mayr


Beweis:Zunächst zeigen wir, dass aus (2) die Bedingung (3) folgt. Wir beweisen dies durchInduktion über die Anzahl der Nullen in s 1 , . . . , s n . Wenn s 1 = . . . = s n = 1 gilt, so istnichts zu zeigen. Andernfalls gelte ohne Einschränkung s 1 = 0. Aus dem Additionssatzfolgt dannPr[Ā1 ∩ A s 22 ∩ . . . ∩ Asn n ] = Pr[A s 22 ∩ . . . ∩ Asn n ]−Pr[A 1 ∩ A s 22 ∩ . . . ∩ Asn n ].Darauf können wir die Induktionsannahme anwenden und erhaltenPr[Ā1 ∩ A s 22 ∩ . . . ∩ Asn n ]= Pr[A s 22 ] · . . . · Pr[Asn n ] − Pr[A 1 ] · Pr[A s 22 ] · . . . · Pr[Asn n ]= (1 − Pr[A 1 ]) · Pr[A s 22 ] · . . . · Pr[Asn n ],woraus die Behauptung wegen 1 − Pr[A 1 ] = Pr[Ā1] folgt.DWT 3 Unabhängigkeit 65/476c○Ernst W. Mayr


Beweis (Forts.):Für die Gegenrichtung zeigen wir nur, dass aus (3) Pr[A 1 ∩ A 2 ] = Pr[A 1 ] · Pr[A 2 ]folgt. Es gilt wegen des Satzes von der totalen Wahrscheinlichkeit, dass∑Pr[A 1 ∩ A 2 ] =Pr[A 1 ∩ A 2 ∩ A s 33 ∩ . . . ∩ Asn n ]=und es folgt die Behauptung.s 3 ,...,s n∈{0,1}∑s 3 ,...,s n∈{0,1}= Pr[A 1 ] · Pr[A 2 ] ·= Pr[A 1 ] · Pr[A 2 ],Pr[A 1 ] · Pr[A 2 ] · Pr[A s 33 ] · . . . · Pr[Asn n ]∑s 3 =0,1Pr[A s 33 ] · . . . · ∑s n=0,1Pr[A snn ]DWT 3 Unabhängigkeit 66/476c○Ernst W. Mayr


Aus der Darstellung in Lemma 23 folgt die wichtige Beobachtung, dass für zweiunabhängige Ereignisse A und B auch die Ereignisse Ā und B (und analog auch Aund ¯B bzw. Ā und ¯B) unabhängig sind!Ebenso folgt:DWT 3 Unabhängigkeit 67/476c○Ernst W. Mayr


Lemma 24Seien A, B und C unabhängige Ereignisse. Dann sind auch A ∩ B und C bzw. A ∪ Bund C unabhängig.Beweis:Zur Unabhängigkeit von A ∩ B und C siehe das vorangehende Beispiel.AusPr[(A ∪ B) ∩ C] = Pr[(A ∩ C) ∪ (B ∩ C)]= Pr[A ∩ C] + Pr[B ∩ C] − Pr[A ∩ B ∩ C]= Pr[C] · (Pr[A] + Pr[B] − Pr[A ∩ B])= Pr[A ∪ B] · Pr[C]folgt die Unabhängigkeit von A ∪ B und C.DWT 3 Unabhängigkeit 68/476c○Ernst W. Mayr


4. Zufallsvariablen4.1 GrundlagenAnstatt der Ereignisse selbst sind wir oft an ”Auswirkungen“ oder ”Merkmalen“ der(Elementar)Ereignisse interessiert.Definition 25Sei ein Wahrscheinlichkeitsraum auf der Ergebnismenge Ω gegeben. Eine AbbildungX : Ω → Rheißt (numerische) Zufallsvariable.Eine Zufallsvariable X über einer endlichen oder abzählbar unendlichenErgebnismenge Ω heißt diskret.DWT 4.1 Grundlagen 69/476c○Ernst W. Mayr


Bei diskreten Zufallsvariablen ist der WertebereichW X := X(Ω) = {x ∈ R; ∃ ω ∈ Ω mit X(ω) = x}ebenfalls wieder endlich (bzw. abzählbar unendlich).DWT 4.1 Grundlagen 70/476c○Ernst W. Mayr


Beispiel 26Wir werfen eine ideale Münze drei Mal. Als Ergebnismenge erhalten wir Ω := {H, T } 3 .Die Zufallsvariable Y bezeichne die Gesamtanzahl der Würfe mit Ergebnis ”Head“.Beispielsweise gilt also Y (HT H) = 2 und Y (HHH) = 3. Y hat den WertebereichW Y = {0, 1, 2, 3}.DWT 4.1 Grundlagen 71/476c○Ernst W. Mayr


Für W X = {x 1 , . . . , x n } bzw. W X = {x 1 , x 2 , . . .} betrachten wir (für ein beliebiges1 ≤ i ≤ n bzw. x i ∈ N) das EreignisA i := {ω ∈ Ω; X(ω) = x i } = X −1 (x i ).Bemerkung: Anstelle von Pr[X −1 (x i )] verwendet man häufig auch die SchreibweisePr[ ”X = x i “]. Analog setzt man∑Pr[ X ≤ x ” i “] =Pr[ X = x“] ”x∈W X : x≤x i= Pr[{ω ∈ Ω; X(ω) ≤ x i }] .Oft lässt man auch die Anführungszeichen weg.DWT 4.1 Grundlagen 72/476c○Ernst W. Mayr


Definition 27Die Funktionf X : R ∋ x ↦→ Pr[X = x] ∈ [0, 1] (4)nennt man (diskrete) Dichte(funktion) der Zufallsvariablen X.Die Funktion∑F X : R ∋ x ↦→ Pr[X ≤ x] =Pr[X = x ′ ] ∈ [0, 1] (5)x ′ ∈W X : x ′ ≤xheißt Verteilung(sfunktion) der Zufallsvariablen X.DWT 4.1 Grundlagen 73/476c○Ernst W. Mayr


Beispiel 28Für die Zufallsvariable Y erhalten wirPr[Y = 0] = Pr[T T T ] = 1 8 ,Pr[Y = 1] = Pr[HT T ] + Pr[T HT ] + Pr[T T H] = 3 8 ,Pr[Y = 2] = Pr[HHT ] + Pr[HT H] + Pr[T HH] = 3 8 ,Pr[Y = 3] = Pr[HHH] = 1 8 .DWT 4.1 Grundlagen 74/476c○Ernst W. Mayr


1,01,00,80,80,60,60,40,40,20,20,00 1 2 30,00 1 2 3Dichte und Verteilung von YBemerkung: Man kann statt Ω auch den zugrunde liegenden Wahrscheinlichkeitsraumüber W X betrachten.DWT 4.1 Grundlagen 75/476c○Ernst W. Mayr


4.2 Erwartungswert und VarianzDefinition 29Zu einer Zufallsvariablen X definieren wir den Erwartungswert E[X] durchE[X] := ∑x∈W Xx · Pr[X = x] = ∑sofern ∑ x∈W X|x| · Pr[X = x] konvergiert.x∈W Xx · f X (x) ,Beispiel 30E[Y ] =3∑i · Pr[Y = i]i=0= 1 · Pr[Y = 1] + 2 · Pr[Y = 2] + 3 · Pr[Y = 3]= 1 · 38 + 2 · 38 + 3 · 18 = 3 2 .DWT 4.2 Erwartungswert und Varianz 76/476c○Ernst W. Mayr


Beispiel 31Eine Münze wird so lange geworfen, bis sie zum ersten Mal Head“ zeigt. Sei k die”Anzahl der durchgeführten Würfe. Wenn k ungerade ist, zahlt der Spieler an dieBank k Euro. Andernfalls (k gerade) zahlt die Bank k Euro an den Spieler.{k falls k ungerade,G :=−k falls k gerade.Wie schon gesehen, gilt dannPr[ ”Anzahl Würfe = k“] = (1/2) k .Damit erhalten wir∞∑( ) 1 kE[G] = (−1) k−1 · k · .2k=1DWT 4.2 Erwartungswert und Varianz 77/476c○Ernst W. Mayr


Da∞∑k=1( ) 1 k|(−1) k−1 · k| · ≤2∞∑k=1( ) 1 kk · ,2existiert der Erwartungswert E[G].Es gilt[∞∑( ) 1 2j−1 ( ]12jE[G] = (2j − 1) · − 2j ·22)=j=1∞∑( ) 1 2j−1· [(2j − 1) − j]2j=1= 1 2 ·∞∑( ) 1 j−1(j − 1) · = 1 4 2 ·j=114(1 −14) 2= 2 9 .DWT 4.2 Erwartungswert und Varianz 78/476c○Ernst W. Mayr


Wird jedoch, um das Risiko zu steigern, der zu zahlende Betrag von k Euro jeweils auf2 k Euro erhöht, also{G ′ 2 k falls k ungerade,:=−2 k falls k gerade ,dann existiert E[G ′ ] nicht, daE[G ′ ] ==∞∑( 1 k(−1) k−1 · 2 k ·2)k=1∞∑(−1) k−1 = +1 − 1 + 1 − 1 + − . . . .k=1DWT 4.2 Erwartungswert und Varianz 79/476c○Ernst W. Mayr


Berechnung des Erwartungswerts:E[X] = ∑x · Pr[X = x] = ∑x · f X (x)x∈W X x∈W X= ∑ ∑Pr[ω]x∈W Xxω∈Ω:X(ω)=x= ∑ ω∈ΩX(ω) · Pr[ω] .Bei unendlichen Wahrscheinlichkeitsräumen ist dabei analog zur Definition desErwartungswerts erforderlich, dass ∑ ω∈Ω|X(ω)| · Pr[ω] konvergiert (absoluteKonvergenz).DWT 4.2 Erwartungswert und Varianz 80/476c○Ernst W. Mayr


Satz 32 (Monotonie des Erwartungswerts)Seien X und Y Zufallsvariablen über dem Wahrscheinlichkeitsraum Ω mitX(ω) ≤ Y (ω) für alle ω ∈ Ω. Dann gilt E[X] ≤ E[Y ].Beweis:E[X] = ∑ ω∈ΩX(ω) · Pr[ω] ≤ ∑ ω∈ΩY (ω) · Pr[ω] = E[Y ] .DWT 4.2 Erwartungswert und Varianz 81/476c○Ernst W. Mayr


Aus Satz 32 folgt insbesondere, dass a ≤ E[X] ≤ b gilt, wenn für die Zufallsvariable Xdie Eigenschaft a ≤ X(ω) ≤ b für alle ω ∈ Ω erfüllt ist.DWT 4.2 Erwartungswert und Varianz 82/476c○Ernst W. Mayr


4.2.1 Rechenregeln für den ErwartungswertOft betrachtet man eine Zufallsvariable X nicht direkt, sondern wendet noch eineFunktion darauf an:Y := f(X) = f ◦ X ,wobei f : D → R eine beliebige Funktion sei mit W X ⊆ D ⊆ R.Beobachtung: f(X) ist wieder eine Zufallsvariable.DWT 4.2 Erwartungswert und Varianz 83/476c○Ernst W. Mayr


AusfolgtPr[Y = y] = Pr[{ω | f(X(ω)) = y}] = ∑Pr[X = x]E[f(X)] = E[Y ] = ∑x : f(x)=yy · Pr[Y = y]y∈W Y= ∑ ∑y · Pr[X = x] = ∑f(x) · Pr[X = x]y∈W Y x∈W Xx : f(x)=y= ∑ ω∈Ωf(X(ω)) · Pr[ω] .DWT 4.2 Erwartungswert und Varianz 84/476c○Ernst W. Mayr


Satz 33 (Linearität des Erwartungswerts, einfache Version)Für eine beliebige Zufallsvariable X und a, b ∈ R giltE[a · X + b] = a · E[X] + b .Beweis:E[a · X + b] = ∑(a · x + b) · Pr[X = x]x∈W X∑∑= a · x · Pr[X = x] + b · Pr[X = x]x∈W X x∈W X= a · E[X] + b .DWT 4.2 Erwartungswert und Varianz 85/476c○Ernst W. Mayr


Satz 34Sei X eine Zufallsvariable mit W X ⊆ N 0 . Dann giltE[X] =∞∑Pr[X ≥ i] .i=1Beweis:E[X] ==∞∑∞∑ i∑i · Pr[X = i] = Pr[X = i]i=0∞∑∞∑Pr[X = i] =i=0 j=1j=1 i=jj=1∞∑Pr[X ≥ j] .DWT 4.2 Erwartungswert und Varianz 86/476c○Ernst W. Mayr


Definition 35Sei X eine Zufallsvariable und A ein Ereignis mit Pr[A] > 0. Die bedingteZufallsvariable X|A besitzt die Dichtef X|A (x) := Pr[X = x | A] = Pr[ X = x“ ∩ A]” .Pr[A]Die Definition von f X|A ist zulässig, da∑f X|A (x) = ∑ Pr[ X = x“ ∩ A]”Pr[A]x∈W X x∈W X= Pr[A]Pr[A] = 1 .Der Erwartungswert E[X|A] der Zufallsvariablen X|A berechnet sich entsprechend:E[X|A] = ∑x∈W Xx · f X|A (x) .DWT 4.2 Erwartungswert und Varianz 87/476c○Ernst W. Mayr


Satz 36Sei X eine Zufallsvariable. Für paarweise disjunkte Ereignisse A 1 , . . . , A n mit A 1 ∪ . . .∪A n = Ω und Pr[A 1 ], . . . , Pr[A n ] > 0 giltE[X] =n∑E[X|A i ] · Pr[A i ] .i=1Für paarweise disjunkte Ereignisse A 1 , A 2 , . . . mit ⋃ ∞i=1 A k = Ω und Pr[A 1 ],Pr[A 2 ], . . . > 0 gilt analogE[X] =∞∑E[X|A i ] · Pr[A i ],i=1sofern die Erwartungswerte auf der rechten Seite alle existieren und die Summe∑ ∞i=1 |E[X|A i]| · Pr[A i ] konvergiert.DWT 4.2 Erwartungswert und Varianz 88/476c○Ernst W. Mayr


Beweis:E[X] = ∑x · Pr[X = x] = ∑ n∑x · Pr[X = x|A i ] · Pr[A i ]x∈W X x∈W X i=1n∑ ∑n∑= Pr[A i ] x · Pr[X = x|A i ] = Pr[A i ] · E[X|A i ].i=1 x∈W X i=1Der Beweis für den unendlichen Fall verläuft analog.DWT 4.2 Erwartungswert und Varianz 89/476c○Ernst W. Mayr


Beispiel 37Wir werfen eine Münze so lange, bis zum ersten Mal ”Kopf“ erscheint. Dies geschehein jedem Wurf unabhängig mit Wahrscheinlichkeit p. Wir definieren dazu dieZufallsvariable X := ”Anzahl der Würfe“. Wir haben bereits gesehen, dassPr[X = k] = p(1 − p) k−1und damitE[X] =∞∑k · p(1 − p) k−1 1= p ·(1 − (1 − p)) 2 = 1 p .k=1DWT 90/476c○Ernst W. Mayr


Beispiel 37Andere Berechnungsmethode: (gestützt auf Satz 36)Definiere das EreignisK 1 := ”Im ersten Wurf fällt Kopf“ .Offensichtlich gilt E[X|K 1 ] = 1.Nehmen wir nun an, dass im ersten Wurf nicht ”Kopf“ gefallen ist. Wir starten dasExperiment neu.DWT 90/476c○Ernst W. Mayr


Beispiel 37Sei X ′ die Anzahl der Würfe bis zum ersten Auftreten von ”Kopf“ im neu gestartetenExperiment. Wegen der Gleichheit der Experimente gilt E[X ′ ] = E[X]. Damit schließenwirE[X| ¯K 1 ] = 1 + E[X ′ ] = 1 + E[X]und erhalten mit Satz 18:E[X] = E[X|K 1 ] · Pr[K 1 ] + E[X| ¯K 1 ] · Pr[ ¯K 1 ]= 1 · p + (1 + E[X]) · (1 − p) .Daraus ergibt sich wiederum E[X] = 1/p.DWT 4.2 Erwartungswert und Varianz 90/476c○Ernst W. Mayr


4.2.2 VarianzWir betrachten die beiden folgenden Zufallsexperimente:1 Wir würfeln (mit einem fairen Würfel), bei gerader Augenzahl erhalten wir 1 Euro,bei ungerader Augenzahl müssen wir 1 Euro bezahlen.2 Wir würfeln (mit einem fairen Würfel), bei 6 Augen erhalten wir 5 Euro,ansonsten müssen wir 1 Euro bezahlen.Beobachtung:In beiden Fällen ist der erwartete Gewinn = 0.Dennoch sind die ”Schwankungen“ im ersten Fall geringer als im zweiten.DWT 4.2 Erwartungswert und Varianz 91/476c○Ernst W. Mayr


Eine nahe liegende Lösung wäre,E[|X − µ|]zu berechnen, wobei µ = E[X] sei. Dies scheitert jedoch meist an der ”unhandlichen“Betragsfunktion. Aus diesem Grund betrachtet man stattdessen E[(X − µ) 2 ], also diequadratische Abweichung vom Erwartungswert.Definition 38Für eine Zufallsvariable X mit µ = E[X] definieren wir die Varianz Var[X] durchVar[X] := E[(X − µ) 2 ] = ∑x∈W X(x − µ) 2 · Pr[X = x] .Die Größe σ := √ Var[X] heißt Standardabweichung von X.DWT 4.2 Erwartungswert und Varianz 92/476c○Ernst W. Mayr


Satz 39Für eine beliebige Zufallsvariable X giltVar[X] = E[X 2 ] − E[X] 2 .Beweis:Sei µ := E[X]. Nach Definition giltVar[X] = E[(X − µ) 2 ] = E[X 2 − 2µ · X + µ 2 ]= E[X 2 ] − 2µ · E[X] + µ 2= E[X 2 ] − E[X] 2 .DWT 4.2 Erwartungswert und Varianz 93/476c○Ernst W. Mayr


Beispiel 401 Wir würfeln (mit einem fairen Würfel), bei gerader Augenzahl erhalten wir 1 Euro,bei ungerader Augenzahl müssen wir 1 Euro bezahlen. Es istµ = 0 und Var[X] = 1 2 · 12 + 1 2 · (−1)2 = 1 .2 Wir würfeln (mit einem fairen Würfel), bei 6 Augen erhalten wir 5 Euro,ansonsten müssen wir 1 Euro bezahlen.Es istµ = 0 und Var[X] = 1 6 · 52 + 5 6 · (−1)2 = 5 .DWT 4.2 Erwartungswert und Varianz 94/476c○Ernst W. Mayr


Satz 41Für eine beliebige Zufallsvariable X und a, b ∈ R giltVar[a · X + b] = a 2 · Var[X] .DWT 4.2 Erwartungswert und Varianz 95/476c○Ernst W. Mayr


Beweis:Aus der in Satz 33 gezeigten Linearität des Erwartungswerts folgt E[X + b] = E[X] + b.Zusammen mit der Definition der Varianz ergibt sich damit sofortVar[X + b] = E[(X + b − E[X + b]) 2 ] = E[(X − E[X]) 2 ] = Var[X] .Weiter folgt mit Satz 39:Var[a · X] = E[(aX) 2 ] − E[aX] 2 = a 2 E[X 2 ] − (aE[X]) 2 = a 2 · Var[X] ,und daraus zusammen die Behauptung.DWT 4.2 Erwartungswert und Varianz 96/476c○Ernst W. Mayr


Der Erwartungswert und die Varianz gehören zu den so genannten Momenten einerZufallsvariablen:Definition 42Für eine Zufallsvariable X nennen wir E[X k ] das k-te Moment und E[(X − E[X]) k ]das k-te zentrale Moment.Der Erwartungswert ist also identisch zum ersten Moment, während die Varianz demzweiten zentralen Moment entspricht.DWT 4.2 Erwartungswert und Varianz 97/476c○Ernst W. Mayr


4.3 Mehrere ZufallsvariablenBeispiel 43Aus einem Skatblatt mit 32 Karten ziehen wir zufällig eine Hand von zehn Kartensowie einen Skat von zwei Karten. Unter den Karten gibt es vier Buben. DieZufallsvariable X zählt die Anzahl der Buben in der Hand, während Y die Anzahl derBuben im Skat angibt. Die Werte von X und Y hängen offensichtlich starkvoneinander ab. Beispielsweise muss Y = 0 sein, wenn X = 4 gilt.Wie kann man mit mehreren Zufallsvariablen über demselben Wahrscheinlichkeitsraumrechnen, auch wenn sie, wie im obigen Beispiel, sehr voneinander abhängig sind?Wir untersuchen Wahrscheinlichkeiten der ArtPr[X = x, Y = y] = Pr[{ω; X(ω) = x, Y (ω) = y}] .DWT 4.3 Mehrere Zufallsvariablen 98/476c○Ernst W. Mayr


Beispiel 44Wenn wir nur die Zufallsvariable X betrachten, so gilt für 0 ≤ x ≤ 4( 4 28)Pr[X = x] =x)(10−x) .( 3210Allgemein nennt man Zufallsvariablen mit der Dichte( b a)Pr[X = x] =x)(r−x)hypergeometrisch verteilt. Durch diese Dichte wird ein Experiment modelliert, bei demr Elemente ohne Zurücklegen aus einer Grundmenge der Mächtigkeit a + b mit bbesonders ausgezeichneten Elementen gezogen werden.( a+brDWT 4.3 Mehrere Zufallsvariablen 99/476c○Ernst W. Mayr


Beispiel 44 (Forts.)Die Zufallsvariable Y ist für sich gesehen ebenfalls hypergeometrisch verteilt mit b = 4,a = 28 und r = 2.Für X und Y zusammen gilt jedoch z.B.Pr[X = 4, Y = 1] = 0,und allgemeinPr[X = x, Y = y] =( 4x)( 2810−x)( 4−x)( 28−(10−x)y 2−y( 3210)( 222)) .Bemerkung: Die Schreibweise Pr[X = x, Y = y] stellt eine Abkürzung vonPr[ ”X = x ∧ Y = y“] dar. Ein anderes Beispiel istPr[X ≤ x, Y ≤ y 1 , √ Y = y 2 ] .DWT 4.3 Mehrere Zufallsvariablen 100/476c○Ernst W. Mayr


Die Funktionf X,Y (x, y) := Pr[X = x, Y = y]heißt gemeinsame Dichte der Zufallsvariablen X und Y .Aus der gemeinsamen Dichte f X,Y kann man ableitenf X (x) = ∑f X,Y (x, y) bzw. f Y (y) = ∑y∈W Yx∈W Xf X,Y (x, y) .Die Funktionen f X und f Ynennt man Randdichten.DWT 4.3 Mehrere Zufallsvariablen 101/476c○Ernst W. Mayr


Die Ereignisse ”Y = y“ bilden eine Partitionierung des Wahrscheinlichkeitsraumes, undes gilt daherPr[X = x] = ∑y∈W YPr[X = x, Y = y] = f X (x) .Die Dichten der einzelnen Zufallsvariablen entsprechen also genau den Randdichten.Für zwei Zufallsvariablen definiert man die gemeinsame VerteilungF X,Y (x, y) = Pr[X ≤ x, Y ≤ y] = Pr[{ω; X(ω) ≤ x, Y (ω) ≤ y}]= ∑ ∑f X,Y (x ′ , y ′ ) .x ′ ≤x y ′ ≤yDWT 4.3 Mehrere Zufallsvariablen 102/476c○Ernst W. Mayr


Die Randverteilung ergibt sich gemäßF X (x) = ∑ f X (x ′ ) = ∑ ∑f X,Y (x ′ , y)x ′ ≤xx ′ ≤x y∈W YsowieF Y (y) = ∑ f Y (y ′ ) = ∑ ∑f X,Y (x, y ′ ) .y ′ ≤yy ′ ≤y x∈W XDWT 4.3 Mehrere Zufallsvariablen 103/476c○Ernst W. Mayr


4.3.1 Unabhängigkeit von ZufallsvariablenDefinition 45Die Zufallsvariablen X 1 , . . . , X n heißen unabhängig, wenn für alle(x 1 , . . . , x n ) ∈ W X1 × . . . × W Xn giltPr[X 1 = x 1 , . . . , X n = x n ] = Pr[X 1 = x 1 ] · . . . · Pr[X n = x n ] .Alternativ:f X1 ,...,X n(x 1 , . . . , x n ) = f X1 (x 1 ) · . . . · f Xn (x n ) .Bei unabhängigen Zufallsvariablen ist also die gemeinsame Dichte gleich dem Produktder Randdichten. Ebenso giltF X1 ,...,X n(x 1 , . . . , x n ) = F X1 (x 1 ) · . . . · F Xn (x n ) .DWT 4.3 Mehrere Zufallsvariablen 104/476c○Ernst W. Mayr


Satz 46Seien X 1 , . . . , X n unabhängige Zufallsvariablen und S 1 , . . . , S n beliebige Mengen mitS i ⊆ W Xi . Dann sind die Ereignisse ”X 1 ∈ S 1 “, . . . , ”X n ∈ S n “ unabhängig.Beweis:Pr[X 1 ∈ S 1 , . . . , X n ∈ S n ]= ∑ ∑. . . Pr[X 1 = x 1 , . . . , X n = x n ]x 1 ∈S 1 x n∈S nUnabh.= ∑ ∑. . . Pr[X 1 = x 1 ] · . . . · Pr[X n = x n ]x 1 ∈S 1 x n∈S n⎛⎞= ⎝ ∑( )∑Pr[X 1 = x 1 ] ⎠ · . . . · Pr[X n = x n ]x 1 ∈S 1 x n∈S n= Pr[X 1 ∈ S 1 ] · . . . · Pr[X n ∈ S n ] .DWT 4.3 Mehrere Zufallsvariablen 105/476c○Ernst W. Mayr


Satz 47f 1 , . . . , f n seien reellwertige Funktionen (f i : R → R für i = 1, . . . , n). Wenn dieZufallsvariablen X 1 , . . . , X n unabhängig sind, dann gilt dies auch fürf 1 (X 1 ), . . . , f n (X n ).Beweis:Sei z i ∈ W f(Xi ) für i = 1, . . . , n und S i = {x; f(x) = z i }.Pr[f 1 (X 1 ) = z 1 , . . . , f n (X n ) = z n ]= Pr[X 1 ∈ S 1 , . . . , X n ∈ S n ]Unabh.= Pr[X 1 ∈ S 1 ] · . . . · Pr[X n ∈ S n ]= Pr[f 1 (X 1 ) = z 1 ] · . . . · Pr[f n (X n ) = z n ] .DWT 4.3 Mehrere Zufallsvariablen 106/476c○Ernst W. Mayr


4.3.2 Zusammengesetzte ZufallsvariablenBeispiel 48Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im erstenbzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.Für Z gilt z.B.:Pr[Z = 1] = Pr[∅] = 0, Pr[Z = 4] = Pr[{(1, 3), (2, 2), (3, 1)}] = 336 .DWT 4.3 Mehrere Zufallsvariablen 107/476c○Ernst W. Mayr


Für die Verteilung der Summe zweier unabhängiger Zufallsvariablen gilt der folgendeSatz:Satz 49Für zwei unabhängige Zufallsvariablen X und Y sei Z := X + Y . Es giltf Z (z) = ∑x∈W Xf X (x) · f Y (z − x) .DWT 4.3 Mehrere Zufallsvariablen 108/476c○Ernst W. Mayr


Beweis:Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dassf Z (z) = Pr[Z = z] = ∑x∈W XPr[X + Y = z | X = x] · Pr[X = x]= ∑x∈W XPr[Y = z − x] · Pr[X = x]= ∑x∈W Xf X (x) · f Y (z − x) .Den Ausdruck ∑ x∈W Xf X (x) · f Y (z − x) aus Satz 49 nennt man in Analogie zu denentsprechenden Begriffen bei Potenzreihen auch Faltung oder Konvolution der Dichtenf X und f Y .DWT 4.3 Mehrere Zufallsvariablen 109/476c○Ernst W. Mayr


Beispiel (Forts.)Berechne die Dichte von Z = X + Y :Pr[Z = z] = ∑Pr[X = x] · Pr[Y = z − x]x∈W Xmin{6,z−1}6∑ 1=6 · Pr[Y = z − x] = ∑x=1x=max{1,z−6}136 .Für 2 ≤ z ≤ 7 erhalten wirUnd für 7 < z ≤ 12:Pr[Z = z] =∑z−1i=1136 = z − 136 .Pr[Z = z] = 13 − z36.DWT 4.3 Mehrere Zufallsvariablen 110/476c○Ernst W. Mayr


4.3.3 Momente zusammengesetzter ZufallsvariablenSatz 50 (Linearität des Erwartungswerts)Für Zufallsvariablen X 1 , . . . , X n und X := a 1 X 1 + · · · + a n X n mit a 1 , . . . , a n ∈ R giltE[X] = a 1 E[X 1 ] + · · · + a n E[X n ] .Beweis:E[X] = ∑ ω∈Ω(a 1 · X 1 (ω) + . . . + a n · X n (ω)) · Pr[ω]( ∑ω∈Ω))( ∑ω∈Ω= a 1 ·X 1 (ω) · Pr[ω]+ · · · + a n ·X n (ω) · Pr[ω]= a 1 · E[X 1 ] + . . . + a n · E[X n ] .DWT 4.3 Mehrere Zufallsvariablen 111/476c○Ernst W. Mayr


Beispiel 51n betrunkene Seeleute torkeln nach dem Landgang in ihre Kojen. Sie haben völlig dieOrientierung verloren, weshalb wir annehmen, dass jede Zuordnung der Seeleute zu denn Betten gleich wahrscheinlich ist (genau ein Seemann pro Bett). Wie viele Seeleuteliegen im Mittel im richtigen Bett?Die Anzahl der Seeleute im richtigen Bett zählen wir mit der Zufallsvariablen X, dieals Summe der Zufallsvariablen X 1 , . . . , X n dargestellt wird, wobei{1 falls Seemann i in seinem Bett liegt,X i :=0 sonst.Offenbar gilt X := X 1 + · · · + X n .DWT 112/476c○Ernst W. Mayr


Beispiel 51Für die Variablen X i erhalten wir Pr[X i = 1] = 1 n, da jedes Bett von Seemann i mitgleicher Wahrscheinlichkeit aufgesucht wird.Daraus folgtund somitE[X i ] = 0 · Pr[X i = 0] + 1 · Pr[X i = 1] = 1 n ,E[X] =n∑E[X i ] =i=1n∑i=11n = 1 .Im Mittel hat also nur ein Seemann sein eigenes Bett aufgesucht.DWT 4.3 Mehrere Zufallsvariablen 112/476c○Ernst W. Mayr


Satz 52 (Multiplikativität des Erwartungswerts)Für unabhängige Zufallsvariablen X 1 , . . . , X n giltE[X 1 · · · · · X n ] = E[X 1 ] · · · · · E[X n ] .Beweis:Wir beweisen den Fall n = 2. Der allgemeine Fall ist analog.E[X · Y ] = ∑ ∑xy · Pr[X = x, Y = y]y∈W Yx∈W XUnabh.=∑∑xy · Pr[X = x] · Pr[Y = y]x∈W X y∈W Y= ∑∑x · Pr[X = x] y · Pr[Y = y]x∈W X y∈W Y= E[X] · E[Y ] .DWT 4.3 Mehrere Zufallsvariablen 113/476c○Ernst W. Mayr


Dass für die Gültigkeit von Satz 52 die Unabhängigkeit der Zufallsvariablen wirklichnotwendig ist, sieht man beispielsweise am Fall Y = −X für eine Zufallsvariable miteiner von Null verschiedenen Varianz. Dann giltE[X · Y ] = −E[X 2 ] ≠ −(E[X]) 2 = E[X] · E[Y ] .DWT 4.3 Mehrere Zufallsvariablen 114/476c○Ernst W. Mayr


Definition 53Zu einem Ereignis A heißt die Zufallsvariable{1 falls A eintritt,I A :=0 sonstIndikatorvariable des Ereignisses A.Beobachtung:Für die Indikatorvariable I A gilt nach DefinitionEbenso giltE[I A ] = 1 · Pr[A] + 0 · Pr[Ā] = Pr[A] .E[I A1 · . . . · I An ] = Pr[A 1 ∩ . . . ∩ A n ],da das Produkt von Indikatorvariablen genau dann gleich 1 ist, wenn alleentsprechenden Ereignisse eintreten.DWT 4.3 Mehrere Zufallsvariablen 115/476c○Ernst W. Mayr


Beispiel (Forts.)Wir betrachten wieder das Beispiel der total betrunkenen Matrosen.Sei A i das Ereignis, dass der i-te Seemann im richtigen Bett liegt. Mit der Notationder Indikatorvariablen sei X i = I Ai . Dann gilt für beliebige i, j ∈ {1, . . . , n}, i ≠ j:E[X i X j ] = E[I Ai I Aj ] = Pr[A i ∩ A j ] =1n(n − 1) ,sowieE[X 2 i ] = 0 2 · Pr[Āi] + 1 2 · Pr[A i ] = Pr[A i ] = 1/n.DWT 4.3 Mehrere Zufallsvariablen 116/476c○Ernst W. Mayr


Beispiel (Forts.)Daraus folgt wegen der Linearität des Erwartungswerts für X = X 1 + · · · + X n :⎡⎤n∑ n∑ ∑E[X 2 ] = E ⎣ Xi 2 + X i X j⎦i=1Für die Varianz erhalten wir somit den Werti=1 j≠i= n · 1n + n(n − 1) · 1n(n − 1) = 2 .Var[X] = E[X 2 ] − E[X] 2 = 2 − 1 = 1.DWT 4.3 Mehrere Zufallsvariablen 117/476c○Ernst W. Mayr


Einfacher Beweis für Satz 9 mit Hilfe von Indikatorvariablen:Zur Erinnerung:Satz 9 (Siebformel, Prinzip der Inklusion/Exklusion)Für Ereignisse A 1 , . . . , A n (n ≥ 2) gilt:[ n]⋃n∑Pr A i = Pr[A i ] −∑Pr[A i1 ∩ A i2 ] + − . . .i=1i=1+ (−1) l−1 ∑1≤i 1


Beweis:Zur Erinnerung: Zu Ereignissen A 1 , . . . , A n wollen wir die Wahrscheinlichkeit Pr[B]des Ereignisses B := A 1 ∪ . . . ∪ A n ermitteln.Wir betrachten die Indikatorvariablen I i := I Ai der Ereignisse A 1 , . . . , A n und dieIndikatorvariable I ¯B des Ereignisses ¯B.Das Produkt ∏ ni=1 (1 − I i) ist genau dann gleich 1, wenn I 1 = . . . = I n = 0, d.h.wenn B nicht eintritt. Somit gilt I ¯B = ∏ ni=1 (1 − I i) und wir erhalten:I ¯B = 1 − ∑I i +∑I i1 I i2 − + . . . + (−1) n I 1 · . . . · I n ,also1≤i≤n1≤i 1


Beweis:Wegen der Eigenschaften von Indikatorvariablen giltPr[B] = 1 − Pr[ ¯B] = 1 − E[I ¯B].Mit Hilfe von Satz 50 ”verteilen“ wir den Erwartungswert auf die einzelnen Produktevon Indikatorvariablen. Wenn wir nun E[I i ] durch Pr[A i ] und allgemein E[I i1 · . . . · I ik ]durch Pr[A i1 ∩ . . . ∩ A ik ] ersetzen, haben wir Satz 9 (dieses Mal vollständig) bewiesen.DWT 4.3 Mehrere Zufallsvariablen 119/476c○Ernst W. Mayr


Satz 54Für unabhängige Zufallsvariablen X 1 , . . . , X n und X := X 1 + . . . + X n giltVar[X] = Var[X 1 ] + . . . + Var[X n ] .Beweis:Wir betrachten nur den Fall n = 2 mit den Zufallsvariablen X und Y .E[(X + Y ) 2 ] = E[X 2 + 2XY + Y 2 ] = E[X 2 ] + 2E[X]E[Y ] + E[Y 2 ]E[X + Y ] 2 = (E[X] + E[Y ]) 2 = E[X] 2 + 2E[X]E[Y ] + E[Y ] 2Wir ziehen die zweite Gleichung von der ersten ab und erhaltenE[(X + Y ) 2 ] − E[X + Y ] 2 = E[X 2 ] − E[X] 2 + E[Y 2 ] − E[Y ] 2 .Mit Hilfe von Satz 39 folgt die Behauptung.DWT 4.3 Mehrere Zufallsvariablen 120/476c○Ernst W. Mayr


Für abhängige Zufallsvariablen X 1 , . . . , X n gilt Satz 54 im Allgemeinen nicht. AlsBeispiel funktioniert wiederum der Fall X = −Y :Var[X + Y ] = 0 ≠ 2 · Var[X] = Var[X] + Var[Y ] .DWT 4.3 Mehrere Zufallsvariablen 121/476c○Ernst W. Mayr


5. Wichtige diskrete VerteilungenWir diskutieren nun einige wichtige diskrete Verteilungen. Bei diesen Verteilungenhandelt es sich um Funktionen, die von gewissen Parametern abhängen. Eigentlichbetrachten wir also immer eine ganze Familie von ähnlichen Verteilungen.DWT 5.0 Mehrere Zufallsvariablen 122/476c○Ernst W. Mayr


5.1 Bernoulli-VerteilungEine Zufallsvariable X mit W X = {0, 1} und der Dichte{p für x = 1,f X (x) =1 − p für x = 0.heißt Bernoulli-verteilt. Den Parameter p nennen wir Erfolgswahrscheinlichkeit.Eine solche Verteilung erhält man z.B. bei einer einzelnen Indikatorvariablen. Es giltmit q := 1 − pE[X] = p und Var[X] = pq,wegen E[X 2 ] = p und Var[X] = E[X 2 ] − E[X] 2 = p − p 2 .DWT 5.1 Bernoulli-Verteilung 123/476c○Ernst W. Mayr


Der Name der Bernoulli-Verteilung geht zurück auf den Schweizer Mathematiker JakobBernoulli (1654–1705). Wie viele andere Mathematiker seiner Zeit hätte auch Bernoullinach dem Wunsch seines Vaters ursprünglich Theologe werden sollen. Sein Werk arsconjectandi stellt eine der ersten Arbeiten dar, die sich mit dem Teil der Mathematikbeschäftigen, den wir heute als <strong>Wahrscheinlichkeitstheorie</strong> bezeichnen.DWT 5.1 Bernoulli-Verteilung 124/476c○Ernst W. Mayr


5.2 BinomialverteilungEine Bernoulli-verteilte Zufallsvariable entspricht der Verteilung einerIndikatorvariablen. Häufig betrachtet man jedoch Summen von Indikatorvariablen.Definition 55Sei X := X 1 + . . . + X n als Summe von n unabhängigen, Bernoulli-verteiltenZufallsvariablen mit gleicher Erfolgswahrscheinlichkeit p definiert. Dann heißt Xbinomialverteilt mit den Parametern n und p. In Zeichen schreiben wirX ∼ Bin(n, p) .DWT 5.2 Binomialverteilung 125/476c○Ernst W. Mayr


Es gilt W X = {0, . . . , n}. Die Binomialverteilung besitzt die Dichte( nf X (x) := b(x; n, p) = px)x q n−xmit q := 1 − p. Da die Binomialverteilung eine sehr wichtige Rolle spielt, führen wir fürdie Dichtefunktion die Abkürzung b(x; n, p) ein.Mit den Sätzen über Erwartungswert und Varianz von Summen unabhängigerZufallsvariablen erhalten wir sofortE[X] = np und Var[X] = npq .DWT 5.2 Binomialverteilung 126/476c○Ernst W. Mayr


0,4´Ü½¼¼½µ0,4´Ü½¼¼µ0,30,30,20,20,10,10,00,4´Ü½¼¼µ0 1 2 3 4 5 6 7 8 9 100,00,4´Ü½¼¼µ0 1 2 3 4 5 6 7 8 9 100,30,30,20,20,10,10,00 1 2 3 4 5 6 7 8 9 100,00 1 2 3 4 5 6 7 8 9 10Dichte der BinomialverteilungDWT 5.2 Binomialverteilung 127/476c○Ernst W. Mayr


Satz 56Wenn X ∼ Bin(n x , p) und Y ∼ Bin(n y , p) unabhängig sind, dann gilt fürZ := X + Y , dass Z ∼ Bin(n x + n y , p).Beweis:Die Aussage folgt sofort, wenn man gemäß der Definition der Binomialverteilung Xund Y als Summen von Indikatorvariablen darstellt. Z ist dann offensichtlich wiedereine Summe von unabhängigen Indikatorvariablen.DWT 5.2 Binomialverteilung 128/476c○Ernst W. Mayr


5.3 Geometrische VerteilungDefinition 57Die Dichte der geometrischen Verteilung mit Parameter/Erfolgswahrscheinlichkeitp ∈ [0, 1] und q := 1 − p ist gegeben durchf X (i) = pq i−1 für i ∈ N .Für Erwartungswert und Varianz geometrisch verteilter Zufallsvariablen giltE[X] = 1 pund Var[X] = q p 2 ,denn es gilt:E[X] =∞∑∞∑i · pq i−1 = p · i · q i−1 1= p ·(1 − q) 2 = 1 p .i=1i=1DWT 5.3 Geometrische Verteilung 129/476c○Ernst W. Mayr


E[X 2 ] ergibt sich gemäß der Formel (siehe DS I)∑( ) c + n − 1z n 1= = (1 − z)−cn (1 − z) czun≥0E[X 2 ] =∞∑i 2 · pq i−1i=1()∞∑∞∑= p · q (i + 2)(i + 1) · q i + (i + 1) · q i= q · 2p 2i=0+ 1 p = 2 − pp 2 ,und damit Var[X] = q p 2 .i=0DWT 5.3 Geometrische Verteilung 130/476c○Ernst W. Mayr


0,8Ô¼0,8Ô¼0,60,60,40,40,20,20,0Ô¼1 2 3 4 5 6 7 8 9 100,0Ô¼¾1 2 3 4 5 6 7 8 9 100,80,80,60,60,40,40,20,20,00,01 2 3 4 5 6 7 8 9 101 2 3 4 5 6 7 8 9 10Dichte der geometrischen VerteilungDWT 5.3 Geometrische Verteilung 131/476c○Ernst W. Mayr


Sei X geometrisch verteilt mit Erfolgswahrscheinlichkeit p. Dann ist Pr[X = k] dieWahrscheinlichkeit, dass wir bei einem binären Experiment mitErfolgswahrscheinlichkeit p genau in der k-ten unabhängigen Wiederholung das ersteMal erfolgreich sind.Wie groß ist die Wahrscheinlichkeit Pr[X > y + x | X > x]?Da bei den ersten x Versuchen kein Erfolg eintrat, stellen wir uns vor, dass daseigentliche“ Experiment erst ab dem (x + 1)-ten Versuch beginnt. Die Zeit bis zum”ersten Erfolg bei diesem neuen Experiment nennen wir X ′ . Damit X > y + x gilt,muss X ′ > y gelten. Es ist intuitiv, dass X ′ wieder geometrisch verteilt ist mitErfolgswahrscheinlichkeit p, dass also für x, y ∈ N gilt:Pr[X > y + x | X > x] = Pr[X ′ > y]. (6)DWT 5.3 Geometrische Verteilung 132/476c○Ernst W. Mayr


Formal giltPr[X > x] =∞∑i=x+1= (1 − p) x p ·(1 − p) i−1 p = (1 − p) x p ·∞∑(1 − p) ii=011 − (1 − p) = (1 − p)x ,sowiePr[X > y + x, X > x]Pr[X > y + x | X > x] =Pr[X > x]Pr[X > y + x]=Pr[X > x]= (1 − p) y+x · (1 − p) −x = (1 − p) y= Pr[X > y] .DWT 5.3 Geometrische Verteilung 133/476c○Ernst W. Mayr


Diese Eigenschaft nennt man Gedächtnislosigkeit, da eine geometrisch verteilteZufallsvariable gewissermaßen vergisst, dass sie schon x Misserfolge hinter sich hat undsich deshalb zum Zeitpunkt y + x genauso verhält wie ursprünglich zur Zeit y.DWT 5.3 Geometrische Verteilung 134/476c○Ernst W. Mayr


Warten auf den n-ten Erfolg.Wir betrachten n unabhängige Zufallsvariablen X 1 , . . . , X n , die jeweils geometrischverteilt sind mit Parameter p, und bestimmen die Dichte der ZufallsvariablenZ := X 1 + · · · + X n . Damit bezeichnet Z also die Anzahl der Versuche bis zum n-tenerfolgreichen Experiment (einschließlich).Falls Z = z ist, so werden also genau n erfolgreiche und z − n nicht erfolgreicheExperimente durchgeführt. Dafür gibt es genau ( z−1n−1)Möglichkeiten, von denen jedemit Wahrscheinlichkeit p n (1 − p) z−n eintritt. Es gilt also( ) z − 1f Z (z) = · p n (1 − p) z−n .n − 1Die Zufallsvariable Z nennt man negativ binomialverteilt mit Ordnung n.DWT 5.3 Geometrische Verteilung 135/476c○Ernst W. Mayr


Das Coupon-Collector-ProblemIn manchen Branchen legen Firmen den Verpackungen ihrer Produkte oft kleine Bilderoder andere Gegenstände bei, um den Käufer zum Sammeln anzuregen. Wenn esinsgesamt n verschiedene solche Beilagen gibt, wie viele Packungen muss man imMittel erwerben, bis man eine vollständige Sammlung besitzt? Hierbei nehmen wir an,dass bei jedem Kauf jede Beilage mit gleicher Wahrscheinlichkeit auftritt.SeiX die Anzahl der zu tätigenden Käufe, undbezeichne Phase i die Schritte vom Erwerb der (i − 1)-ten Beilage (ausschließlich)bis zum Erwerb der i-ten Beilage (einschließlich).DWT 5.3 Geometrische Verteilung 136/476c○Ernst W. Mayr


Sei etwa n = 4, und seien die Beilagen mit den Zahlen 1, 2, 3, 4 identifiziert. EinExperiment ist z.B.:}{{} 2 , 2, 1 , 2, 2, 3, 1, 3, 2, 3, 1, 4 .}{{} } {{ } } {{ }1 2 34Beobachtung:Phase i endet genau dann, wenn wir eine der n − i + 1 Beilagen erhalten, die wir nochnicht besitzen.Somit ist X i geometrisch verteilt mit Parameter p = n−i+1nund es gilt E[X i ] = nn−i+1 .DWT 5.3 Geometrische Verteilung 137/476c○Ernst W. Mayr


Damit folgt aber sofortE[X] =n∑E[X i ]i=1n∑ n=n − i + 1i=1n∑ 1= n ·i = n · H n,i=1wobei H n := ∑ ni=1 1 i die n-te harmonische Zahl bezeichnet. Da H n = ln n + O(1),folgt E[X] = n ln n + O(n).DWT 5.3 Geometrische Verteilung 138/476c○Ernst W. Mayr


5.4 Poisson-VerteilungDie Poisson-Verteilung mit dem Parameter λ ≥ 0 hat den Wertebereich W X = N 0 undbesitzt die Dichtef X (i) = e−λ λ ifür i ∈ N 0 .i!f X ist eine zulässige Dichte, da∞∑f X (i) =i=0∞∑ e −λ λ ii=0i!= e −λ · e λ = 1 .DWT 5.4 Poisson-Verteilung 139/476c○Ernst W. Mayr


Für den Erwartungswert erhalten wirE[X] =∞∑i=0i · e−λ λ ii!= λe −λ ∞ ∑i=1= λe −λ ∞ ∑i=0λ i−1(i − 1)!λ ii!= λe −λ e λ = λ .DWT 5.4 Poisson-Verteilung 140/476c○Ernst W. Mayr


DaE[X(X − 1)] =∞∑i(i − 1) · e−λ λ ii!i=0= λ 2 e −λ ∞ ∑i=2= λ 2 e −λ ∞ ∑i=0λ i−2(i − 2)!λ ii!= λ 2 e −λ e λ = λ 2undE[X(X − 1)] + E[X] − E[X] 2= E[X 2 ] − E[X] + E[X] − E[X] 2 = Var[X] ,DWT 5.4 Poisson-Verteilung 141/476c○Ernst W. Mayr


folgtVar[X] = E[X(X − 1)] + E[X] − E[X] 2 = λ 2 + λ − λ 2 = λ. (7)Dafür, dass eine Zufallsvariable X Poisson-verteilt mit Parameter λ ist, schreiben wirauchX ∼ Po(λ).DWT 5.4 Poisson-Verteilung 142/476c○Ernst W. Mayr


0,6Po´¼µ0,6Po´½µ0,50,50,40,40,30,30,20,20,10,10,0Po´¾µ0 1 2 3 4 5 6 7 8 9 100,0Po´µ0 1 2 3 4 5 6 7 8 9 100,60,60,50,50,40,40,30,30,20,20,10,10,00 2 4 6 8 100,00 1 2 3 4 5 6 7 8 9 10Dichte der Poisson-VerteilungDWT 5.4 Poisson-Verteilung 143/476c○Ernst W. Mayr


5.4.1 Poisson-Verteilung als Grenzwert der BinomialverteilungWir betrachten eine Folge von binomialverteilten Zufallsvariablen X n mitX n ∼ Bin(n, p n ), wobei p n = λ/n. Für ein beliebiges k mit 0 ≤ k ≤ n ist dieWahrscheinlichkeit, dass X n den Wert k annimmt, gleich( nb(k; n, p n ) = · pk)k n · (1 − p n ) n−k= (n · p n) kk!= λkk! · nkn k ·· nkn k · (1 − p n) −k · (1 − p n ) n(1 −n) λ −k (· 1 −n) λ n.DWT 5.4 Poisson-Verteilung 144/476c○Ernst W. Mayr


Wir betrachten nun n → ∞ und erinnern uns, dassn klimn→∞ n k = 1,lim (1 − λn→∞ n )−k = 1, undlim (1 − λn→∞ n )n = e −λ .Damit folgt( ) nlim b(k; n, p n) = lim · p kn→∞ n→∞n · (1 − p n ) n−k = e −λ · λkkk! .DWT 5.4 Poisson-Verteilung 145/476c○Ernst W. Mayr


Die Wahrscheinlichkeit b(k; n, p n ) konvergiert also für n → ∞ gegen dieWahrscheinlichkeit, dass eine Poisson-verteilte Zufallsvariable mit Parameter λ denWert k annimmt. Insgesamt folgt somit, dass die Verteilung einer ZufallsvariablenX ∼ Bin(n, λ/n) sich für n → ∞ der Poisson-Verteilung Po(λ) annähert.DWT 5.4 Poisson-Verteilung 146/476c○Ernst W. Mayr


Vergleich von Binomial- und Poisson-VerteilungDWT 5.4 Poisson-Verteilung 147/476c○Ernst W. Mayr


Ist also n im Vergleich zu λ hinreichend groß, so kann man die Poisson-Verteilung alsApproximation der Binomialverteilung verwenden.Diese Tatsache wird manchmal auch als Gesetz seltener Ereignisse bezeichnet, da dieWahrscheinlichkeit eines einzelnen Treffers p n = λ/n relativ klein sein muss, wenn dieApproximation gute Ergebnisse liefern soll.DWT 5.4 Poisson-Verteilung 148/476c○Ernst W. Mayr


Die folgenden Voraussetzungen müssen erfüllt sein, damit die Annahme derPoisson-Verteilung gerechtfertigt ist:Die Ereignisse treten nie zur gleichen Zeit auf.Die Wahrscheinlichkeit, dass ein Ereignis in einem (kleinen) Zeitintervall δtauftritt, ist proportional zur Länge von δt.Die Anzahl der Ereignisse in einem festen Zeitintervall hängt nur von dessenLänge ab, nicht aber von der Lage auf der Zeitachse.Wenn man zwei disjunkte Zeitintervalle betrachtet, so sind die Anzahlen derEreignisse in diesen Zeiträumen voneinander unabhängig.DWT 5.4 Poisson-Verteilung 149/476c○Ernst W. Mayr


Beispiel 58Wir wollen wissen, wie oft eine bestimmte Gegend im Durchschnitt von einerNaturkatastrophe (z.B. Vulkanausbruch) getroffen wird. Aus Statistiken entnehmenwir, dass so ein Ereignis im Mittel 10 −4 -mal pro Jahr auftritt. Wir interessieren unsnun für die Wahrscheinlichkeit, dass die Region in einem Jahr mehr als einmal voneinem solchen Unglück heimgesucht wird.Die Voraussetzungen scheinen erfüllt zu sein, die Anzahl X der Katastrophen durcheine Poisson-Verteilung mit Parameter λ = 10 −4 zu modellieren.Damit giltPr[X ≥ 2] = 1 − Pr[X = 0] − Pr[X = 1] = 1 − e −λ − λe −λ≈ 1 − 0,999900005 − 0,000099990 = 5 · 10 −9 .DWT 5.4 Poisson-Verteilung 150/476c○Ernst W. Mayr


Summe von Poisson-verteilten ZufallsvariablenSatz 59Sind X und Y unabhängige Zufallsvariablen mit X ∼ Po(λ) und Y ∼ Po(µ), dann giltZ := X + Y ∼ Po(λ + µ) .DWT 5.4 Poisson-Verteilung 151/476c○Ernst W. Mayr


Beweis:f Z (z) =λλ+µ .∞∑f X (x) · f Y (z − x) =x=0wobei p :=Da die Summe gleich 1 ist, folgtx=0= e −(λ+µ) (λ + µ)zz∑ z!· ·z! x!(z − x)!x=0= e −(λ+µ) · (λ + µ) z 1 z∑z! ·x=0z∑ e −λ λ x· e−µ µ z−xx! (z − x)!( λλ + µ( zx)p x (1 − p) z−x ,f Z (z) = e −(λ+µ) · (λ + µ) z 1 z! .) x ( µλ + µ) z−xDWT 5.4 Poisson-Verteilung 152/476c○Ernst W. Mayr


Erläuterungen und Beispiele zur Poisson-VerteilungIn der Wikipedia finden sich ein paar weitere Details und Beispiele hier.Eine Anwendung der Poisson-Verteilung auf die Fußball-Bundesliga (erschienen imJuni-Heft 2010 von Spektrum der Wissenschaft) ist hier.DWT 5.4 Poisson-Verteilung 153/476c○Ernst W. Mayr


6. Abschätzen von Wahrscheinlichkeiten6.1 Die Ungleichungen von Markov und ChebyshevSatz 60 (Markov-Ungleichung)Sei X eine Zufallsvariable, die nur nicht-negative Werte annimmt. Dann gilt für allet ∈ R mit t > 0, dassPr[X ≥ t] ≤ E[X] .tÄquivalent dazu:Pr[X ≥ t · E[X]] ≤ 1/t .DWT 6.1 Die Ungleichungen von Markov und Chebyshev 154/476c○Ernst W. Mayr


Beweis:∑t · Pr[X ≥ t] = t · Pr[X = x]≤x∈W X , x≥t∑x∈W X , x≥t≤ ∑x · Pr[X = x]x · Pr[X = x]x∈W X= E[X] .DWT 6.1 Die Ungleichungen von Markov und Chebyshev 155/476c○Ernst W. Mayr


Alternativer Beweis:Es giltE[X] = E[X|X < t]P r[X < t] + E[X|X ≥ t]P r[X ≥ t] .Wegen E[X|X < t]P r[X < t] ≥ 0 und E[X|X ≥ t] ≥ t folgt sofortE[X] ≥ t ∗ P r[X ≥ t] .DWT 6.1 Die Ungleichungen von Markov und Chebyshev 156/476c○Ernst W. Mayr


Die Markov-Ungleichung ist nach Andrey Andreyevich Markov (1856–1922) benannt,der an der Universität von St. Petersburg bei Chebyshev studierte und später dortarbeitete. Neben seiner mathematischen Tätigkeit fiel Markov durch heftige Protestegegen das Zaren-Regime auf, und nur sein Status als vermeintlich harmloserAkademiker schützte ihn vor Repressalien durch die Behörden. Im Jahr 1913organisierte er parallel zum dreihundertjährigen Geburtstag der Zarenfamilie Romanoveine Feier zum zweihundertjährigen Geburtstag des Gesetzes der großen Zahlen (s.u.).DWT 6.1 Die Ungleichungen von Markov und Chebyshev 157/476c○Ernst W. Mayr


Die folgende Abschätzung ist nach Pavnuty Lvovich Chebyshev (1821–1894) benannt,der ebenfalls an der Staatl. Universität in St. Petersburg wirkte.Satz 61 (Chebyshev-Ungleichung)Sei X eine Zufallsvariable, und sei t ∈ R mit t > 0. Dann giltPr[|X − E[X]| ≥ t] ≤ Var[X]t 2 .Äquivalent dazu:Pr[|X − E[X]| ≥ t √ Var[X]] ≤ 1/t 2 .DWT 6.1 Die Ungleichungen von Markov und Chebyshev 158/476c○Ernst W. Mayr


Beweis:Wir stellen fest, dassSetzePr[|X − E[X]| ≥ t] = Pr[(X − E[X]) 2 ≥ t 2 ] .Y := (X − E[X]) 2 .Dann gilt E[Y ] = Var[X], und damit mit der Markov-Ungleichung:Pr[|X − E[X]| ≥ t] = Pr[Y ≥ t 2 ] ≤ E[Y ]t 2= Var[X]t 2 .DWT 6.1 Die Ungleichungen von Markov und Chebyshev 159/476c○Ernst W. Mayr


Beispiel 62Wir werfen 1000-mal eine ideale Münze und ermitteln die Anzahl X der Würfe, indenen ”Kopf“ fällt.X ist binomialverteilt mit X ∼ Bin(1000, p = 1 2),also giltE[X] = 1 2 n = 500 und Var[X] = 1 4 n = 250.Wie groß ist die Wahrscheinlichkeit, dass mehr als 550-mal ”Kopf“ fällt?DWT 160/476c○Ernst W. Mayr


Beispiel 62Chebyshev-Ungleichung:Pr[X ≥ 550] ≤ Pr[|X − 500| ≥ 50] ≤ 25050 2 = 0,1 .Setze nun n = 10000 und betrachte wieder eine maximal 10%-ige Abweichung vomErwartungswert:E[X] = 5000 und Var[X] = 2500, und damitPr[X ≥ 5500] ≤ Pr[|X − 5000| ≥ 500] ≤ 2500500 2 = 0,01 .DWT 6.1 Die Ungleichungen von Markov und Chebyshev 160/476c○Ernst W. Mayr


6.2 Gesetz der großen ZahlenWir haben diskutiert, wie Wahrscheinlichkeiten als Grenzwerte von relativenHäufigkeiten aufgefasst werden können.Satz 63 (Gesetz der großen Zahlen)Gegeben sei eine Zufallsvariable X. Ferner seien ε, δ > 0 beliebig aber fest. Dann giltfür alle n ≥ Var[X] :εδ 2Sind X 1 , . . . , X n unabhängige Zufallsvariablen mit derselben Verteilung wie X undsetzt manZ := X 1 + . . . + X n,nso giltPr[|Z − E[X]| ≥ δ] ≤ ε.DWT 6.2 Gesetz der großen Zahlen 161/476c○Ernst W. Mayr


Beweis:Für Z giltE[Z] = 1 n · (E[X 1] + . . . + E[X n ]) = 1 · n · E[X] = E[X],nsowieVar[Z] = 1 n 2 · (Var[X 1] + . . . + Var[X n ]) = 1 Var[X]· n · Var[X] = .n2 nMit der Chebyshev-Ungleichung erhalten wirnach Wahl von n.Pr[|Z − E[X]| ≥ δ] = Pr[|Z − E[Z]| ≥ δ] ≤ Var[Z]δ 2= Var[X]nδ 2 ≤ ε,DWT 6.2 Gesetz der großen Zahlen 162/476c○Ernst W. Mayr


Wahrscheinlichkeit und relative Häufigkeit.Sei X eine Indikatorvariable für ein Ereignis A, Pr[A] = p. Somit ist XBernoulli-verteilt mit E[X] = p.Z = 1 n (X 1 + . . . + X n ) gibt die relative Häufigkeit an, mit der A bei nWiederholungen des Versuchs eintritt, dennZ =Anzahl der Versuche, bei denen A eingetreten ist.Anzahl aller VersucheMit Hilfe des obigen Gesetzes der großen Zahlen folgtPr[|Z − p| ≥ δ] ≤ ε,für genügend großes n. Also nähert sich die relative Häufigkeit von A bei hinreichendvielen Wiederholungen des Experiments mit beliebiger Sicherheit beliebig nahe an diewahre“ Wahrscheinlichkeit p an.”DWT 6.2 Gesetz der großen Zahlen 163/476c○Ernst W. Mayr


Die obige Variante eines Gesetzes der großen Zahlen geht auf Jakob Bernoulli zurück,der den Satz in seinem Werk ars conjectandi zeigte.Es soll betont werden, dass das Gesetz der großen Zahlen dierelative Abweichung | 1 ∑n i X i − p|und nicht dieabschätzt!absolute Abweichung | ∑ i X i − np|DWT 6.2 Gesetz der großen Zahlen 164/476c○Ernst W. Mayr


6.3 Chernoff-Schranken6.3.1 Chernoff-Schranken für Summen von 0–1–ZufallsvariablenDie hier betrachtete Art von Schranken ist nach Herman Chernoff ( ∗ 1923) benannt.Sie finden in der komplexitätstheoretischen Analyse von Algorithmen eine sehr häufigeVerwendung.Satz 64Seien X 1 , . . . , X n unabhängige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p iund Pr[X i = 0] = 1 − p i . Dann gilt für X := ∑ ni=1 X i und µ := E[X] = ∑ ni=1 p i,sowie jedes δ > 0, dass(e δ ) µPr[X ≥ (1 + δ)µ] ≤(1 + δ) 1+δ .DWT 6.3 Chernoff-Schranken 165/476c○Ernst W. Mayr


Beweis:Für t > 0 giltMit der Markov-Ungleichung folgtPr[X ≥ (1 + δ)µ] = Pr[e tX ≥ e t(1+δ)µ ] .Pr[X ≥ (1 + δ)µ] = Pr[e tX ≥ e t(1+δ)µ ] ≤ E[etX ]e t(1+δ)µ .Wegen der Unabhängigkeit der Zufallsvariablen X 1 , . . . , X n gilt[ ( n∑)] [ n]∏n∏E[e tX ] = E exp tX i = E e tX i= E[e tX i].i=1i=1i=1Weiter ist für i ∈ {1, . . . , n}:E[e tX i] = e t·1 p i + e t·0 (1 − p i ) = e t p i + 1 − p i = 1 + p i (e t − 1) ,DWT 166/476c○Ernst W. Mayr


Beweis (Forts.):und damit∏ ni=1Pr[X ≥ (1 + δ)µ] ≤(1 + p i(e t − 1))∏e t(1+δ)µni=1≤exp(p i(e t − 1))e t(1+δ)µ= exp(∑ ni=1 p i(e t − 1))e t(1+δ)µWir wählen nun t so, dass f(t) minimiert wird, nämlicht = ln(1 + δ) .= e(et −1)µ=: f(t) .et(1+δ)µ Damit wirdf(t) = e(et −1)µe t(1+δ)µ = e δµ(1 + δ) (1+δ)µ .DWT 6.3 Chernoff-Schranken 166/476c○Ernst W. Mayr


Beispiel 65Wir betrachten wieder das Beispiel, dass wir eine faire Münze n-mal werfen undabschätzen wollen, mit welcher Wahrscheinlichkeit ”Kopf“oder öfter fällt.n(1 + 10%)2n Chebyshev Chernoff1000 0,1 0,088910000 0,01 0,308 · 10 −10n14 n(0,1· 1( )e 0,112 n2 n)2 (1+0,1) 1+0,1DWT 6.3 Chernoff-Schranken 167/476c○Ernst W. Mayr


Satz 66Seien X 1 , . . . , X n unabhängige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p iund Pr[X i = 0] = 1 − p i . Dann gilt für X := ∑ ni=1 X i und µ := E[X] = ∑ ni=1 p i,sowie jedes 0 < δ < 1, dass(e −δ ) µPr[X ≤ (1 − δ)µ] ≤(1 − δ) 1−δ .Beweis:Analog zum Beweis von Satz 64.Bemerkung: Abschätzungen, wie sie in Satz 64 und Satz 66 angegeben sind, nenntman auch tail bounds, da sie Schranken für die tails, also die vom Erwartungswert weitentfernten Bereiche angeben. Man spricht hierbei vom upper tail (vergleiche Satz 64)und vom lower tail (vergleiche Satz 66).Die Chernoff-Schranken hängen exponentiell von µ ab!DWT 6.3 Chernoff-Schranken 168/476c○Ernst W. Mayr


Lemma 67Für 0 ≤ δ < 1 gilt(1 − δ) 1−δ ≥ e −δ+δ2 /2und (1 + δ) 1+δ ≥ e δ+δ2 /3 .Beweis:Wir betrachtenEs gilt für 0 ≤ x < 1:sowief(x) = (1 − x) ln(1 − x) und g(x) = −x + 1 2 x2 .g ′ (x) = x − 1 ≤ − ln(1 − x) − 1 = f ′ (x)f(0) = 0 = g(0) ,also im angegebenen Intervall f(x) ≥ g(x).Die Ableitung der zweiten Ungleichung erfolgt analog.DWT 6.3 Chernoff-Schranken 169/476c○Ernst W. Mayr


Korollar 68Seien X 1 , . . . , X n unabhängige Bernoulli-verteilte Zufallsvariablen mit Pr[X i = 1] = p iund Pr[X i = 0] = 1 − p i . Dann gelten folgende Ungleichungen für X := ∑ ni=1 X i undµ := E[X] = ∑ ni=1 p i:1 Pr[X ≥ (1 + δ)µ] ≤ e −µδ2 /3für alle 0 < δ ≤ 1, 81,2 Pr[X ≤ (1 − δ)µ] ≤ e −µδ2 /2für alle 0 < δ ≤ 1,3 Pr[|X − µ| ≥ δµ] ≤ 2e −µδ2 /3für alle 0 < δ ≤ 1,4 Pr[X ≥ (1 + δ)µ] ≤(e1+δ) (1+δ)µund5 Pr[X ≥ t] ≤ 2 −t für t ≥ 2eµ.DWT 6.3 Chernoff-Schranken 170/476c○Ernst W. Mayr


Beweis:1 und 2 folgen direkt aus Satz 64 bzw. 66 und Lemma 67.Aus 1 und 2 zusammen folgt 3.Die Abschätzung 4 erhalten wir direkt aus Satz 64, da für den Zähler gilte δ ≤ e (1+δ) .5 folgt aus 4, indem man t = (1 + δ)µ setzt, t ≥ 2eµ:( ) e (1+δ)µ ( ) e t ( ) 1 t≤ ≤ .1 + δt/µ 2DWT 6.3 Chernoff-Schranken 171/476c○Ernst W. Mayr


Beispiel 69Wir betrachten wieder balls into bins und werfen n Bälle unabhängig und gleichverteiltin n Körbe. SeiX i := Anzahl der Bälle im i-ten Korbfür i = 1, . . . , n, sowie X := max 1≤i≤n X i .Für die Analyse von X i (i ∈ {1, . . . , n} beliebig) verwenden wir Aussage 5 vonKorollar 68, mit p 1 = . . . = p n = 1 n, µ = 1 und t = 2 log n. Es folgtPr[X i ≥ 2 log n] ≤ 1/n 2 .Daraus ergibt sichPr[X ≥ 2 log n] = Pr[X 1 ≥ 2 log n ∨ . . . ∨ X n ≥ 2 log n] ≤ n ·Es gilt also mit Wahrscheinlichkeit ≥ 1 − 1/n, dass X < 2 log n ist.1n 2 = 1 n .DWT 6.3 Chernoff-Schranken 172/476c○Ernst W. Mayr


Literatur:Torben Hagerup, Christine Rüb:A guided tour of Chernoff boundsInf. Process. Lett. 33, pp. 305–308 (1990)DWT 6.3 Chernoff-Schranken 173/476c○Ernst W. Mayr


7. Erzeugende Funktionen7.1 EinführungDefinition 70Für eine Zufallsvariable X mit W X ⊆ N 0 ist die (wahrscheinlichkeits-)erzeugendeFunktion definiert durchG X (s) :=∞∑Pr[X = k] · s k = E[s X ] .k=0Eine wahrscheinlichkeitserzeugende Funktion ist also die (gewöhnliche) erzeugendeFunktion der Folge (f i ) i∈N0 mit f i := Pr[X = i].DWT 7.1 Einführung 174/476c○Ernst W. Mayr


Bei wahrscheinlichkeitserzeugenden Funktionen haben wir kein Problem mit derKonvergenz, da für |s| < 1 gilt∣ ∞∑∣∣∣∣|G X (s)| =Pr[X = k] · s k∣≤k=0∞∑Pr[X = k] · |s k | ≤k=0k=0∞∑Pr[X = k] = 1 .DWT 7.1 Einführung 175/476c○Ernst W. Mayr


Beobachtung:Sei Y := X + t mit t ∈ N 0 . Dann giltG Y (s) = E[s Y ] = E[s X+t ] = E[s t · s X ] = s t · E[s X ] = s t · G X (s) .Ebenso lässt sich leicht nachrechnen, dassG ′ X(s) =∞∑k · Pr[X = k] · s k−1 , alsok=1G ′ X(0) = Pr[X = 1], sowieG (i)X(0) = Pr[X = i] · i!, alsoG (i)X(0)/i! = Pr[X = i] .DWT 7.1 Einführung 176/476c○Ernst W. Mayr


Satz 71 (Eindeutigkeit der w.e. Funktion)Die Dichte und die Verteilung einer Zufallsvariablen X mit W X ⊆ N sind durch ihrewahrscheinlichkeitserzeugende Funktion eindeutig bestimmt.Beweis:Folgt aus der Eindeutigkeit der Potenzreihendarstellung.DWT 7.1 Einführung 177/476c○Ernst W. Mayr


Bernoulli-VerteilungSei X eine Bernoulli-verteilte Zufallsvariable mit Pr[X = 0] = 1 − p undPr[X = 1] = p. Dann giltG X (s) = E[s X ] = (1 − p) · s 0 + p · s 1 = 1 − p + ps .Gleichverteilung auf {0, . . . , n}Sei X auf {0, . . . , n} gleichverteilt, d.h. für 0 ≤ k ≤ n ist Pr[X = k] = 1/(n + 1).Dann giltG X (s) = E[s X ] =n∑k=01n + 1 · sk =s n+1 − 1(n + 1)(s − 1) .DWT 7.1 Einführung 178/476c○Ernst W. Mayr


BinomialverteilungFür X ∼ Bin(n, p) gilt nach der binomischen FormelG X (s) = E[s X ] =n∑k=0( nk)p k (1 − p) n−k · s k = (1 − p + ps) n .Geometrische VerteilungSei X eine geometrisch verteilte Zufallsvariable mit Erfolgswahrscheinlichkeit p. DanngiltG X (s) = E[s X ] =∞∑p(1 − p) k−1 · s kk=1= ps ·∞∑((1 − p)s) k−1 =k=1ps1 − (1 − p)s .DWT 7.1 Einführung 179/476c○Ernst W. Mayr


Poisson-VerteilungFür X ∼ Po(λ) giltG X (s) = E[s X ] =∞∑k=0−λ λkek! · sk = e −λ+λs = e λ(s−1) .DWT 7.1 Einführung 180/476c○Ernst W. Mayr


Beispiel 72Sei X binomialverteilt mit X ∼ Bin(n, λ/n), Für n → ∞ folgtG X (s) =(1 − λ n + λs ) n (= 1 +n)λ(s − 1) n→ e λ(s−1) .nMan kann beweisen, dass aus der Konvergenz der wahrscheinlichkeitserzeugendenFunktion die Konvergenz der Verteilung folgt.DWT 7.1 Einführung 181/476c○Ernst W. Mayr


7.1.1 Zusammenhang zwischen der w.e. Funktion und den MomentenDaG X (s) :=giltG ′ X(1) =∞∑Pr[X = k] · s k = E[s X ] ,k=0∞∑k · Pr[X = k] = E[X] .k=1DWT 7.1 Einführung 182/476c○Ernst W. Mayr


Beispiel 73Sei X binomialverteilt mit X ∼ Bin(n, p), alsoDann giltund somitG X (s) = (1 − p + ps) n .G ′ X(s) = n · (1 − p + ps) n−1 · pE[X] = G ′ X(1) = np .DWT 183/476c○Ernst W. Mayr


Beispiel 73Ebenso ergibt sichE[X(X − 1) . . . (X − k + 1)] = G (k)X (1) ,also etwaVar[X] = E[X(X − 1)] + E[X] − E[X] 2= G ′′ X(1) + G ′ X(1) − (G ′ X(1)) 2 .Andere Momente von X kann man auf ähnliche Art und Weise berechnen.DWT 7.1 Einführung 183/476c○Ernst W. Mayr


Momenterzeugende FunktionenDefinition 74Zu einer Zufallsvariablen X ist die momenterzeugende Funktion gemäßM X (s) := E[e Xs ]definiert.Es giltund[ ∞]∑M X (s) = E[e Xs (Xs) i] = E=i!i=0∞∑i=0E[X i ]i!M X (s) = E[e Xs ] = E[(e s ) X ] = G X (e s ) .· s iDWT 7.1 Einführung 184/476c○Ernst W. Mayr


7.2 Summen von ZufallsvariablenSatz 75 (Erzeugende Funktion einer Summe)Für unabhängige Zufallsvariablen X 1 , . . . , X n und die ZufallsvariableZ := X 1 + . . . + X n giltG Z (s) = G X1 (s) · . . . · G Xn (s) .Ebenso giltM Z (s) = M X1 (s) · . . . · M Xn (s) .Beweis:Wegen der Unabhängigkeit von X 1 , . . . , X n giltG Z (s) = E[s X 1+...+X n] = E[s X 1] · . . . · E[s Xn ] = G X1 (s) · . . . · G Xn (s).DWT 7.2 Summen von Zufallsvariablen 185/476c○Ernst W. Mayr


Beispiel 76Seien X 1 , . . . X k mit X i ∼ Bin(n i , p) unabhängige Zufallsvariable undZ := X 1 + . . . + X k . Dann giltk∏G Z (s) = (1 − p + ps) n i= (1 − p + ps) ∑ ki=1 n iund somiti=1Z ∼ Bin(k∑n i , p)(vgl. Satz 56).Seien X 1 , . . . , X k ∼ Po(λ) unabhängige Zufallsvariablen. Dann folgt fürZ := X 1 + . . . + X kk∏G Z (s) = e λ(s−1) = e kλ(s−1)und somit Z ∼ Po(kλ) (vgl. Satz 59).i=1i=1DWT 7.2 Summen von Zufallsvariablen 186/476c○Ernst W. Mayr


7.2.1 Zufällige SummenWir betrachten die Situation, dass Z := X 1 + . . . + X N , wobei N ebenfalls eineZufallsvariable ist.Satz 77Seien X 1 , X 2 , . . . unabhängige und identisch verteilte Zufallsvariablen mit derwahrscheinlichkeitserzeugenden Funktion G X (s). N sei ebenfalls eine unabhängigeZufallsvariable mit der wahrscheinlichkeitserzeugenden Funktion G N (s). Dann besitztdie Zufallsvariable Z := X 1 + . . . + X N die wahrscheinlichkeitserzeugendeFunktion G Z (s) = G N (G X (s)).DWT 7.2 Summen von Zufallsvariablen 187/476c○Ernst W. Mayr


Beweis:Nach Voraussetzung ist W N ⊆ N 0 . Deshalb folgt mit Satz 36G Z (s) ====∞∑E[s Z | N = n] · Pr[N = n]n=0∞∑E[s X 1+...+X n] · Pr[N = n]n=0∞∑E[s X 1] · . . . · E[s Xn ] · Pr[N = n]n=0∞∑(G X (s)) n · Pr[N = n]n=0= E[(G X (s)) N ]= G N (G X (s)) .DWT 7.2 Summen von Zufallsvariablen 188/476c○Ernst W. Mayr


7.3 Rekurrente EreignisseBeispiel 78 (Random Walk im d-dimensionalen Gitter Z d )Wir betrachten ein Partikel, das sich zufällig auf den Punkten aus Z bewegt. Es starte¿ ¾im Punkt 0 und bewege sich in jedem Zeitschritt jeweils mit Wahrscheinlichkeit 1/2vom Punkt i zum Punkt i + 1 ( nach rechts“) bzw. i − 1 ( nach links“). Man nennt”½ ¼ ½ ¾”¿dieses Experiment auch Random Walk auf den ganzen Zahlen. Abbildung 1veranschaulicht diesen Prozess.Abbildung: Random Walk auf den ganzen ZahlenDWT 7.3 Rekurrente Ereignisse 189/476c○Ernst W. Mayr


Für k ∈ N bezeichne H k das Ereignis H k := ”Partikel befindet sich im k-ten Schritt imPunkt 0“. Die Anzahl der Schritte nach rechts bzw. nach links bis zum k-ten Schrittist binomialverteilt mit den Parametern n = k und p = 1/2.Für die Wahrscheinlichkeit h k := Pr[H k ] erhalten wir deshalb( ) kh k = 2 −k ,k/2falls k gerade ist und h k = 0 sonst.Verallgemeinerung auf Z d , d ∈ N:h k =(( ) ) k d2 −k für k gerade.k/2DWT 7.3 Rekurrente Ereignisse 190/476c○Ernst W. Mayr


Sei h ′ kdie Wahrscheinlichkeit, dass das Partikel im k-ten Schritt zum ersten Mal zumPunkt 0 d zurückkehrt, und sei r := ∑ ∞k=1 h′ kdie Wahrscheinlichkeit, dass das Partikelirgendwann zum Startpunkt zurückkehrt.Wie hängt r von d ab?DWT 7.3 Rekurrente Ereignisse 191/476c○Ernst W. Mayr


Der gerade beschriebene Prozess hat die Eigenschaft, dass sich das Experiment nachjedem Besuch im Zustand 0 wieder genauso verhält wie beim Start des Prozesses imZustand 0. Mit solchen Ereignissen beschäftigt sich die Erneuerungstheorie (engl.renewal theory).Definition 79Die Ereignisse H 1 , H 2 , . . . heißen rekurrent, wenn für i, j ∈ N mit i > j gilt, dassPr[H i | ¯H 1 ∩ . . . ∩ ¯H j−1 ∩ H j ] = Pr[H i−j ] .Die Zufallsvariable Z mit W Z = N ∪ {∞} messe die Wartezeit bis zum Auftreten desersten Ereignisses H k . Die Dichte von Z ist definiert durchPr[Z = k] = Pr[ ¯H 1 ∩ . . . ∩ ¯H k−1 ∩ H k ],für k ∈ N und Pr[Z = ∞] = 1 − ∑ ∞k=0Pr[Z = k].DWT 7.3 Rekurrente Ereignisse 192/476c○Ernst W. Mayr


Definition 80Für i ∈ N bezeichne h i := Pr[H i ] die Auftrittswahrscheinlichkeit im i-ten Zeitschritt.Wir setzen h 0 := 1 und erhalten die erzeugende Funktion derAuftrittswahrscheinlichkeiten gemäßH(s) :=∞∑h k s k .k=0Ferner sei die erzeugende Funktion der Wartezeit Z gegeben durchT (s) :=∞∑Pr[Z = k] · s k .k=0DWT 7.3 Rekurrente Ereignisse 193/476c○Ernst W. Mayr


Bemerkung:H(s) ist keine wahrscheinlichkeitserzeugende Funktion im Sinne der Definition. So gilti.a. nicht H(1) = 1. Auch T (s) stellt keine ”echte“ wahrscheinlichkeitserzeugendeFunktion dar, daPr[Z = ∞] = 1 − ∑k∈N 0Pr[Z = k] = 1 − T (1)fehlt!DWT 7.3 Rekurrente Ereignisse 194/476c○Ernst W. Mayr


Satz 81Für rekurrente Ereignisse giltH(s) =11 − T (s) .Beweis:[Skizze]Nach dem Satz von der totalen Wahrscheinlichkeit gilt für dieAuftrittswahrscheinlichkeit h n (n ∈ N)h n = Pr[H n ] =∞∑Pr[H n | Z = k] · Pr[Z = k] .k=1Gemäß der Definition eines rekurrenten Ereignisses gilt für k < nPr[H n | Z = k] = Pr[H n | ¯H 1 ∩ . . . ∩ ¯H k−1 ∩ H k ] = Pr[H n−k ]DWT 7.3 Rekurrente Ereignisse 195/476c○Ernst W. Mayr


Beweis (Forts.):sowiePr[H n | Z = n] = 1Pr[H n | Z = k] = 0 für k > n .Damit folgt für n ∈ Nh n =n∑h n−k · Pr[Z = k] =k=1n∑h n−k · Pr[Z = k] .Für n = 0 ergibt die rechte Seite dieser Gleichung 0. Damit entsteht durch Faltung derbeiden Folgen (h 0 , h 1 , . . .) und (Pr[Z = 0], Pr[Z = 1], . . .) die Folge (0, h 1 , h 2 , . . .).Für die erzeugenden Funktionen gilt deshalb H(s) − 1 = H(s)T (s).k=0DWT 7.3 Rekurrente Ereignisse 196/476c○Ernst W. Mayr


Beispiel 82In dem einfachen Fall, dass die Ereignisse H 1 , H 2 , . . . unabhängig mitWahrscheinlichkeit p eintreten, ist die Wartezeit geometrisch verteilt.Daraus folgtH(s) = 1 +∞∑ps k = 1 +sp1 − s = sp + 1 − s .1 − sk=1T (s) = 1 − 1H(s) = 1 −1 − ssp + 1 − s =sp1 − (1 − p)s .T (s) ist also die w.e. Funktion der geometrischen Verteilung mitErfolgswahrscheinlichkeit p.DWT 7.3 Rekurrente Ereignisse 197/476c○Ernst W. Mayr


Korollar 83Für rekurrente Ereignisse gilt Pr[Z < ∞] = 1 genau dann, wenn H(1) = ∞ ist, wennalso die Summe ∑ ∞k=1 h k der Auftrittswahrscheinlichkeiten divergiert.Beweis:Nach Satz 81 gilt T (s) = (H(s) − 1)/H(s). Daraus folgtPr[Z < ∞] = T (1) = 1 − 1/H(1) .DWT 7.3 Rekurrente Ereignisse 198/476c○Ernst W. Mayr


Beispiel 84Wir wenden Korollar 83 auf den Random Walk im Z d an.Aus der Stirlingformel folgtn! = Θ( √ n(n/e) n )und damit für d = 1( 2nn)= (2n)!(n!) 2 = Θ (√2n(2n)2n( ) 22n= Θ √ . n( ) )en 2e 2n · √ nn nDWT 7.3 Rekurrente Ereignisse 199/476c○Ernst W. Mayr


Beispiel (Forts.)AlsoH(1) =∞∑h k =k=0∞∑k=0( 2kk)2 −2k =∞∑Θ(k −1/2 ) = ∞,da die Summe ∑ ∞k=0 1/kα für α ≤ 1 divergiert. Nach Korollar 83 kehrt das Partikelalso mit Wahrscheinlichkeit 1 immer wieder zum Ausgangspunkt zurück.k=0DWT 7.3 Rekurrente Ereignisse 200/476c○Ernst W. Mayr


Beispiel (Forts.)Für d ∈ N gilt allgemeinH(1) =∞∑h k =k=0∞∑Θ(k −(1/2)d ).Für d = 1 und d = 2 divergiert diese Summe, während sie für d ≥ 3 konvergiert. DasPartikel kehrt also im ein- und im zweidimensionalen Raum mit Wahrscheinlichkeit 1zum Ausgangspunkt zurück, im drei- oder höherdimensionalen Raum jedoch nichtmehr. Im dreidimensionalen Fall giltPr[ Partikel kehrt nie zum Ausgangspunkt zurück“]”∞∑( ) 2k= Pr[Z = ∞] = 1/H(1) = 1/ ( 2 −2k ) 3k≈ 0,7178 .k=0k=0DWT 7.3 Rekurrente Ereignisse 201/476c○Ernst W. Mayr


Beispiel (Forts.)1,00,90,80,70,60,53 4 5 6 7WS( ”Keine Rückkehr zum Anfang“) für den Random Walk in Z dDWT 7.3 Rekurrente Ereignisse 202/476c○Ernst W. Mayr


8. Formelsammlung8.1 Gesetze zum Rechnen mit EreignissenIm Folgenden seien A und B, sowie A 1 , . . . , A n Ereignisse. Die Notation A ⊎ B stehtfür A ∪ B und zugleich A ∩ B = ∅ (disjunkte Vereinigung). A 1 ⊎ . . . ⊎ A n = Ω bedeutetalso, dass die Ereignisse A 1 , . . . , A n eine Partition der Ergebnismenge Ω bilden.Pr[∅] = 00 ≤ Pr[A] ≤ 1Pr[Ā] = 1 − Pr[A]A ⊆ B =⇒ Pr[A] ≤ Pr[B]DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/476c○Ernst W. Mayr


∀i ≠ j : A i ∩ A j = ∅ =⇒Pr [ ⋃ ni=1 A i] = ∑ ni=1 Pr[A i]Pr[A ∪ B] = Pr[A] + Pr[B] − Pr[A ∩ B]allgemeine Form: siehe Satz 9Pr [ ⋃ ni=1 A i] ≤ ∑ ni=1 Pr[A i]AdditionssatzInklusion/Exklusion,SiebformelBoolescheUngleichungPr[A|B] = Pr[A∩B]Pr[B]für Pr[B] > 0 Def. bedingte Ws.DWT 8.1 Gesetze zum Rechnen mit Ereignissen 204/476c○Ernst W. Mayr


B ⊆ A 1 ⊎ . . . ⊎ A n =⇒Pr[B] = ∑ ni=1 Pr[B|A i] · Pr[A i ]Pr[B] > 0, B ⊆ A 1 ⊎ . . . ⊎ A n =⇒Pr[A i |B] = Pr[B|A i]·Pr[A i ]∑ ni=1 Pr[B|A i]·Pr[A i ]Satz von der totalenWahrscheinlichkeitSatz von BayesPr[A 1 ∩ . . . ∩ A n ] = Pr[A 1 ] · Pr[A 2 |A 1 ] ·. . . · Pr[A n |A 1 ∩ . . . ∩ A n−1 ]A und B unabhängig ⇐⇒Pr[A ∩ B] = Pr[A] · Pr[B]MultiplikationssatzDefinitionUnabhängigkeitDWT 8.1 Gesetze zum Rechnen mit Ereignissen 205/476c○Ernst W. Mayr


8.2 Erwartungswert und Varianz diskreter ZufallsvariablenSei X eine diskrete Zufallsvariable. Für Erwartungswert und Varianz gelten die folgendenFormeln (sofern E[X] und Var[X] existieren).E[X] = ∑(x∈W Xx · Pr[X = x]= ∑ ω∈ΩX(ω) · Pr[ω]=∞∑)Pr[X ≥ i], falls W X ⊆ N 0i=1ErwartungswertVar[X] = E[(X − E[X]) 2 ]= ∑ x∈W XPr[X = x] · (x − E[X]) 2 VarianzDWT 8.2 Erwartungswert und Varianz diskreter Zufallsvariablen 206/476c○Ernst W. Mayr


8.3 Gesetze zum Rechnen mit ZufallsvariablenSeien a, b, a 1 , . . . , a n ∈ R, f 1 , . . . , f n : R → R.X 1 , . . . , X n unabhängig ⇐⇒ für alle (a 1 , . . . , a n ):Pr[X 1 = a 1 , . . . , X n = a n ]= Pr[X 1 = a 1 ] · . . . · Pr[X n = a n ]X 1 , . . . , X n unabhängig =⇒ f 1 (X 1 ), . . . , f n (X n ) unabhängigE[a · X + b] = a · E[X] + bDWT 8.3 Gesetze zum Rechnen mit Zufallsvariablen 207/476c○Ernst W. Mayr


X(ω) ≤ Y (ω) für alle ω ∈ Ω =⇒E[X] ≤ E[Y ]Monotonie desErwartungswertsE[X] = ∑ ni=1 E[X|A i] · Pr[A i ]Var[X] = E[X 2 ] − E[X] 2Var[a · X + b] = a 2 · Var[X]DWT 8.3 Gesetze zum Rechnen mit Zufallsvariablen 208/476c○Ernst W. Mayr


E[a 1 X 1 + . . . + a n X n ]= a 1 E[X 1 ] + . . . + a n E[X n ]X 1 , . . . , X n unabhängig =⇒E[X 1 · . . . · X n ] = E[X 1 ] · . . . · E[X n ]X 1 , . . . , X n unabhängig =⇒Var[X 1 + . . . + X n ] = Var[X 1 ] + . . . +Var[X n ]Linearität desErwartungswertsMultiplikativität desErwartungswertsVarianzeiner SummeDWT 8.3 Gesetze zum Rechnen mit Zufallsvariablen 209/476c○Ernst W. Mayr


X ≥ 0 =⇒Pr[X ≥ t] ≤ E[X]/t für t > 0Pr[|X − E[X]| ≥ t]≤ Var[X]/t 2 für t > 0siehe Satz 63MarkovChebyshevGesetz dergroßen ZahlenDWT 8.3 Gesetze zum Rechnen mit Zufallsvariablen 210/476c○Ernst W. Mayr


Kapitel II Kontinuierliche Wahrscheinlichkeitsräume1. Einführung1.1 MotivationInterpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung.DWT 1.1 Motivation 211/476c○Ernst W. Mayr


Beispiel 85Wir betrachten das Szenario: Bei einem Druckerserver kommen Aufträge in einerWarteschlange an, die alle 1/n Zeiteinheiten vom Server abgefragt wird. Der Servernimmt also zu den diskreten Zeitpunkte 1/n, 2/n, 3/n, . . . neue Aufträge entgegen.Durch den Grenzwert n → ∞ ”verschmelzen“ diese diskreten Zeitpunkte zu einerkontinuierlichen Zeitachse, und für die Zufallsvariable T , welche die Zeitspanne biszum Eintreffen des nächsten Auftrags misst, reicht eine diskrete Wertemenge W T nichtmehr aus.DWT 1.1 Motivation 212/476c○Ernst W. Mayr


1.2 Kontinuierliche ZufallsvariablenDefinition 86Eine kontinuierliche oder auch stetige Zufallsvariable X und ihr zugrunde liegenderkontinuierlicher (reeller) Wahrscheinlichkeitsraum sind definiert durch eine integrierbareDichte(-funktion) f X : R → R + 0 mit der Eigenschaft∫ +∞−∞f X (x) d x = 1.Eine Menge A ⊆ R, die durch Vereinigung A = ⋃ k I k abzählbar vieler paarweisedisjunkter Intervalle beliebiger Art (offen, geschlossen, halboffen, einseitig unendlich)gebildet werden kann, heißt Ereignis. Ein Ereignis A tritt ein, wenn X einen Wertaus A annimmt. Die Wahrscheinlichkeit von A ist bestimmt durch∫Pr[A] = f X (x) d x = ∑ ∫f X (x) d x.AkI kDWT 1.2 Kontinuierliche Zufallsvariablen 213/476c○Ernst W. Mayr


Beispiel 87 (Gleichverteilung)Eine besonders einfache kontinuierliche Dichte stellt die Gleichverteilung auf demIntervall [a, b] dar. Sie ist definiert durchf(x) ={1b−a0 sonst.für x ∈ [a, b],Analog zum diskreten Fall ordnen wir jeder Dichte f X eine Verteilung oderVerteilungsfunktion F X zu:F X (x) := Pr[X ≤ x] = Pr[{t ∈ R | t ≤ x}] =∫ x−∞f X (t) d t.DWT 1.2 Kontinuierliche Zufallsvariablen 214/476c○Ernst W. Mayr


Beispiel 88Die Verteilungsfunktion der Gleichverteilung:⎧∫ x⎪⎨ 0 für x < a,F (x) = f(t) d t =x−ab−afür a ≤ x ≤ b,−∞ ⎪⎩1 für x > b.DWT 1.2 Kontinuierliche Zufallsvariablen 215/476c○Ernst W. Mayr


´Üµ1,41,4 ´Üµ1,21,21,01,00,80,80,60,60,40,40,20,20,00,0-0,2-0,5 0,0 0,5 1,0 1,5-0,2-0,5 0,0 0,5 1,0 1,5Gleichverteilung über dem Intervall [0, 1]DWT 1.2 Kontinuierliche Zufallsvariablen 216/476c○Ernst W. Mayr


Beobachtungen:(Eigenschaften der Verteilungsfunktion)Es giltF X ist monoton steigend.F X ist stetig. Man spricht daher auch von einer ”stetigen Zufallsvariablen“.Es gilt: lim x→−∞ F X (x) = 0 und lim x→∞ F X (x) = 1.Jeder (außer an endlich vielen Punkten) differenzierbaren Funktion F , welche diezuvor genannten Eigenschaften erfüllt, können wir eine Dichte f durchf(x) = F ′ (x) zuordnen.Pr[a < X ≤ b] = F X (b) − F X (a) .DWT 1.2 Kontinuierliche Zufallsvariablen 217/476c○Ernst W. Mayr


Bei den von uns betrachteten Dichten besteht zwischen den Ereignissen a < X ≤ b“,”” a ≤ X ≤ b“, ” a ≤ X < b“ und a < X < b“ kein wesentlicher Unterschied, da”∫∫∫∫f(t) d t = f(t) d t = f(t) d t = f(t) d t.[a,b]]a,b][a,b[]a,b[DWT 1.2 Kontinuierliche Zufallsvariablen 218/476c○Ernst W. Mayr


1.3 Kolmogorov-Axiome und σ-Algebren1.3.1 σ-AlgebrenDefinition 89Sei Ω eine Menge. Eine Menge A ⊆ P(Ω) heißt σ-Algebra über Ω, wenn folgendeEigenschaften erfüllt sind:(E1) Ω ∈ A.(E2) Wenn A ∈ A, dann folgt Ā ∈ A.(E3) Für n ∈ N sei A n ∈ A. Dann gilt auch ⋃ ∞n=1 A n ∈ A.DWT 1.3 Kolmogorov-Axiome und σ-Algebren 219/476c○Ernst W. Mayr


Für jede (endliche) Menge Ω stellt die Menge P(Ω) eine σ-Algebra dar.Für Ω = R ist die Klasse der Borel’schen Mengen, die aus allen Mengen A ⊆ Rbesteht, welche sich durch (abzählbare) Vereinigungen und Schnitte von Intervallen(offen, halboffen oder geschlossen) darstellen lassen, eine σ-Algebra.DWT 1.3 Kolmogorov-Axiome und σ-Algebren 220/476c○Ernst W. Mayr


1.3.2 Kolmogorov-AxiomeDefinition 90 (Wahrscheinlichkeitsraum, Kolmogorov-Axiome)Sei Ω eine beliebige Menge und A eine σ-Algebra über Ω. Eine AbbildungPr[.] : A → [0, 1]heißt Wahrscheinlichkeitsmaß auf A, wenn sie folgende Eigenschaften besitzt:1 (W1) Pr[Ω] = 1.2 (W2) A 1 , A 2 , . . . seien paarweise [ disjunkte Ereignisse. Dann gilt∞]⋃ ∞∑Pr A i = Pr[A i ].Für ein Ereignis A ∈ A heißt Pr[A] Wahrscheinlichkeit von A. EinWahrscheinlichkeitsraum ist definiert durch das Tupel (Ω, A, Pr).i=1i=1DWT 1.3 Kolmogorov-Axiome und σ-Algebren 221/476c○Ernst W. Mayr


Die in obiger Definition aufgelisteten Eigenschaften eines Wahrscheinlichkeitsmaßeswurden von dem russischen Mathematiker Andrei Nikolaevich Kolmogorov(1903–1987) formuliert. Kolmogorov gilt als einer der Pioniere der modernen<strong>Wahrscheinlichkeitstheorie</strong>, leistete jedoch auch bedeutende Beiträge zu zahlreichenanderen Teilgebieten der Mathematik. Informatikern begegnet sein Name auch imZusammenhang mit der so genannten Kolmogorov-Komplexität, einem relativ jungenZweig der Komplexitätstheorie.Die Eigenschaften in obiger Definition nennt man auch Kolmogorov-Axiome.DWT 1.3 Kolmogorov-Axiome und σ-Algebren 222/476c○Ernst W. Mayr


Lemma 91Sei (Ω, A, Pr) ein Wahrscheinlichkeitsraum. Für Ereignisse A, B, A 1 , A 2 , . . . gilt1 Pr[∅] = 0, Pr[Ω] = 1.2 0 ≤ Pr[A] ≤ 1.3Pr[Ā] = 1 − Pr[A].4 Wenn A ⊆ B, so folgt Pr[A] ≤ Pr[B].DWT 223/476c○Ernst W. Mayr


Lemma 915 (Additionssatz) Wenn die Ereignisse A 1 , . . . , A n paarweise disjunkt sind, so folgt[ n]⋃Pr A i =i=1n∑Pr[A i ].i=1Für disjunkte Ereignisse A, B erhalten wir insbesonderePr[A ∪ B] = Pr[A] + Pr[B].Für eine unendliche Menge von paarweise disjunkten Ereignissen A 1 , A 2 , . . . giltanalog Pr [ ⋃ ∞i=1 A i] = ∑ ∞i=1 Pr[A i].DWT 1.3 Kolmogorov-Axiome und σ-Algebren 223/476c○Ernst W. Mayr


Beweis:Wenn wir in Eigenschaft (W2) A 1 = Ω und A 2 , A 3 , . . . = ∅ setzen, so ergibt dieEigenschaft, dass Pr[Ω] + ∑ ∞i=2Pr[∅] = Pr[Ω]. Daraus folgt Pr[∅] = 0.Regel 2 und Regel 5 gelten direkt nach Definition der Kolmogorov-Axiome und Regel 1.Regel 3 erhalten wir mit Regel 5 wegen 1 = Pr[Ω] = Pr[A] + Pr[Ā].Für Regel 4 betrachten wir die disjunkten Ereignisse A und C := B \ A, für die gilt,dass A ∪ B = A ∪ C. Mit Regel 5 folgt die Behauptung.DWT 1.3 Kolmogorov-Axiome und σ-Algebren 224/476c○Ernst W. Mayr


1.3.3 Lebesgue-IntegraleEine Funktion f : R → R heißt messbar, falls das Urbild jeder Borel’schen Mengeebenfalls eine Borel’sche Menge ist.Z.B. ist für jede Borel’sche Menge A die Indikatorfunktion{1 falls x ∈ A,I A : x ↦→0 sonstmessbar. Jede stetige Funktion ist messbar. Auch Summen und Produkte vonmessbaren Funktionen sind wiederum messbar.Jeder messbaren Funktion kann man ein Integral, das so genannte Lebesgue-Integral,geschrieben ∫ f d λ, zuordnen.DWT 1.3 Kolmogorov-Axiome und σ-Algebren 225/476c○Ernst W. Mayr


Ist f : R → R + 0eine messbare Funktion, so definiertPr : A ↦→ ∫ f · I A d λeine Abbildung auf den Borel’schen Mengen, die die Eigenschaft (W2) derKolmogorov-Axiome erfüllt. Gilt daher zusätzlich noch Pr[R] = 1, so definiert f aufnatürliche Weise einen Wahrscheinlichkeitsraum (Ω, A, Pr), wobei Ω = R und A dieMenge der Borel’schen Mengen ist.DWT 1.3 Kolmogorov-Axiome und σ-Algebren 226/476c○Ernst W. Mayr


1.4 Rechnen mit kontinuierlichen Zufallsvariablen1.4.1 Funktionen kontinuierlicher ZufallsvariablenSei Y := g(X) mit einer Funktion g : R → R.Die Verteilung von Y erhalten wir durch∫F Y (y) = Pr[Y ≤ y] = Pr[g(X) ≤ y] =Cf X (t) d t.Hierbei bezeichnet C := {t ∈ R | g(t) ≤ y} alle reellen Zahlen t ∈ R, für welche dieBedingung Y ≤ y“ zutrifft. Das Integral über C ist nur dann sinnvoll definiert,”wenn C ein zulässiges Ereignis darstellt. Aus der Verteilung F Y können wir durchDifferenzieren die Dichte f Y ermitteln.DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 227/476c○Ernst W. Mayr


Beispiel 92Sei X gleichverteilt auf dem Intervall ]0, 1[. Für eine Konstante λ > 0 definieren wirdie Zufallsvariable Y := −(1/λ) ln X.F Y (y) = Pr[−(1/λ) ln X ≤ y] = Pr[ln X ≥ −λy]= Pr[X ≥ e −λy ]= 1 − F X (e −λy ){1 − e −λy für y ≥ 0,=0 sonst.DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 228/476c○Ernst W. Mayr


Beispiel (Forts.)Damit folgt mit f Y (y) = FY ′ (y) sofort{λe −λy für y ≥ 0,f Y (y) =0 sonst.Eine Zufallsvariable mit einer solchen Dichte f Ynennt man exponentialverteilt.DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 229/476c○Ernst W. Mayr


Beispiel 93Sei X eine beliebige Zufallsvariable. Für a, b ∈ R mit a > 0 definieren wir dieZufallsvariable Y := a · X + b.Es gilt[F Y (y) = Pr[aX + b ≤ y] = Pr X ≤ y − b ] ( ) y − b= F X ,aaund somitf Y (y) = d F Y (y)d y= d F X((y − b)/a)d y( ) y − b= f X · 1a a .DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 230/476c○Ernst W. Mayr


Simulation von ZufallsvariablenUnter der Simulation einer Zufallsvariablen X mit Dichte f X versteht man diealgorithmische Erzeugung von Zufallswerten, deren Verteilung der Verteilung von Xentspricht.Dazu nehmen wir an, dass die zu simulierende Zufallsvariable X eine stetige, imBildbereich ]0, 1[ streng monoton wachsende Verteilungsfunktion F X besitzt. Weiternehmen wir an, dass U eine auf ]0, 1[ gleichverteilte Zufallsvariable ist, die wirsimulieren können.Aus unserer Annahme über F X folgt, dass es zu F X eine (eindeutige) inverse FunktionF −1Xgibt mit F X(F −1X(x)) = x für alle x ∈]0, 1[.DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 231/476c○Ernst W. Mayr


Sei nundann gilt˜X := F −1X (U) ,Pr[ ˜X ≤ t] = Pr[F −1X(U) ≤ t]= Pr[U ≤ F X (t)]= F U (F X (t))= F X (t) .DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 232/476c○Ernst W. Mayr


Beispiel 94Im obigen Beispiel der Exponentialverteilung gilt F X (t) = 1 − e −t für t ≥ 0, und wirerhalten auf ]0, 1[ die Umkehrfunktion F −1X(t) = − ln(1 − t). Also gilt˜X = F −1X(U) = − ln(1 − U).Statt ˜X haben wir im Beispiel die Zufallsvariable − ln U betrachtet, die aberoffensichtlich dieselbe Verteilung besitzt.DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 233/476c○Ernst W. Mayr


1.4.2 Kontinuierliche Zufallsvariablen als Grenzwerte diskreter ZufallsvariablenSei X eine kontinuierliche Zufallsvariable. Wir können aus X leicht eine diskreteZufallsvariable konstruieren, indem wir für ein festes δ > 0 definierenX δ = nδ ⇐⇒ X ∈ [nδ, (n + 1)δ[ für n ∈ Z.Für X δ giltPr[X δ = nδ] = F X ((n + 1)δ) − F X (nδ) .DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/476c○Ernst W. Mayr


1,00,8´Üµ ƴܵ0,60,40,20,0-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0Für δ → 0 nähert sich die Verteilung von X δ der Verteilung von X immer mehr an.DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 235/476c○Ernst W. Mayr


1.4.3 Erwartungswert und VarianzDefinition 95Für eine kontinuierliche Zufallsvariable X ist der Erwartungswert definiert durchE[X] =∫ ∞−∞sofern das Integral ∫ ∞−∞ |t| · f X(t) d t endlich ist.Für die Varianz gilt entsprechendVar[X] = E[(X − E[X]) 2 ] =wenn E[(X − E[X]) 2 ] existiert.t · f X (t) d t,∫ ∞−∞(t − E[X]) 2 · f X (t) d t,DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 236/476c○Ernst W. Mayr


Lemma 96Sei X eine kontinuierliche Zufallsvariable, und seiY := g(X) .Dann giltE[Y ] =∫ ∞−∞g(t) · f X (t) d t .DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 237/476c○Ernst W. Mayr


Beweis:Wir zeigen die Behauptung nur für den einfachen Fall, dass g eine lineare Funktion ist,also Y := a · X + b für a, b ∈ R und a > 0.Es gilt (siehe obiges Beispiel)E[a · X + b] =∫ ∞−∞t · f Y (t) d t =∫ ∞−∞( ) t − bt · f X · 1a a d t.Durch die Substitution u := (t − b)/a mit d u = (1/a) d t erhalten wirE[a · X + b] =∫ ∞−∞(au + b)f X (u) d u.DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 238/476c○Ernst W. Mayr


Beispiel 97Für Erwartungswert und Varianz der Gleichverteilung ergibt sichE[X] ==∫ b1t ·a b − a d t = 1b − a ·12(b − a) · [t2 ] b a= b2 − a 22(b − a) = a + b2 ,E[X 2 ] = 1b − a ·∫ ba∫ bat · d tt 2 · d t = b2 + ba + a 2,3(a − b)2.12Var[X] = E[X 2 ] − E[X] 2 = . . . =DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 239/476c○Ernst W. Mayr


1.4.4 Laplace-Prinzip in kontinuierlichen WahrscheinlichkeitsräumenDas folgende Beispiel zeigt, dass im kontinuierlichen Fall die Bedeutung vongleichwahrscheinlich“ nicht immer ganz klar sein muss.”Bertrand’sches ParadoxonWir betrachten einen Kreis mit einem eingeschriebenen gleichseitigen Dreieck. Was istdie Wahrscheinlichkeit, mit der die Länge einer zufällig gewählten Sehne dieSeitenlänge dieses Dreiecks übersteigt (Ereignis A)?DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 240/476c○Ernst W. Mayr


Ö¾½¾¼Æ Å Ë ËÅ ³DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 241/476c○Ernst W. Mayr


Beobachtungen:Die Seiten des Dreiecks haben Abstand r 2vom Mittelpunkt M.Die Lage jeder Sehne ist (bis auf Rotation um M) durch einen der folgendenParameter festgelegt:Abstand d zum Kreismittelpunkt,Winkel ϕ mit dem Kreismittelpunkt.Wir nehmen für jeden dieser Parameter Gleichverteilung an und ermitteln Pr[A].1 Sei d ∈ [0, r] gleichverteilt. A tritt ein, wenn d < r 2 , und es folgt Pr[A] = 1 2 .2 Sei ϕ ∈ [0 ◦ , 180 ◦ ] gleichverteilt. Für A muss gelten ϕ ∈]120 ◦ , 180 ◦ ], und es folgtsomit Pr[A] = 1 3 .Siehe auch diese graphischen Darstellungen!DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 242/476c○Ernst W. Mayr


2. Wichtige stetige Verteilungen2.1 Gleichverteilungf(x) =F (x) ={1b−a∫ x−∞für x ∈ [a, b],0 sonst.⎧⎪⎨ 0 für x < a,f(t) d t =x−ab−afür a ≤ x ≤ b,⎪⎩1 für x > b.E[X] = a + b2und Var[X] =(a − b)212.DWT 2.1 Gleichverteilung 243/476c○Ernst W. Mayr


2.2 NormalverteilungDie Normalverteilung nimmt unter den stetigen Verteilungen eine besondersprominente Position ein.Definition 98Eine Zufallsvariable X mit Wertebereich W X = R heißt normalverteilt mit denParametern µ ∈ R und σ ∈ R + , wenn sie die Dichtef(x) = √ 1)(x − µ)2· exp(− 2πσ 2σ 2 =: ϕ(x; µ, σ)besitzt.In Zeichen schreiben wir X ∼ N (µ, σ 2 ).N (0, 1) heißt Standardnormalverteilung. Die zugehörige Dichte ϕ(x; 0, 1) kürzen wirdurch ϕ(x) ab.DWT 2.2 Normalverteilung 244/476c○Ernst W. Mayr


Die Verteilungsfunktion zu N (µ, σ 2 ) istF (x) = √ 1 ∫ x)(t − µ)2· exp(− 2πσ −∞ 2σ 2 d t =: Φ(x; µ, σ) .Diese Funktion heißt Gauß’sche Φ-Funktion (ϕ ist nicht geschlossen integrierbar).DWT 2.2 Normalverteilung 245/476c○Ernst W. Mayr


Lemma 99I :=Beweis:Wir berechnen zunächst I 2 :(∫ ∞I 2 ==∫ ∞−∞−∞∫ ∞ ∫ ∞−∞e −x2 /2 d x = √ 2π.) (∫ ∞e −x2 /2 d x−∞e −y2 /2 d y−∞e −(x2 +y 2 )/2 d x d y .Wir gehen nun zu Polarkoordinaten über und setzen x := r cos φ und y := r sin φ.Dann ist ∣ ∣∣∣∣ ∂x ∂y∣ ∂r ∂r∣∣∣ ∣ = cos φ sin φ−r sin φ r cos φ ∣ = r(cos2 φ + sin 2 φ) = r∂x∂φ∂y∂φ)DWT 2.2 Normalverteilung 246/476c○Ernst W. Mayr


Beweis (Forts.):und wir erhaltenI 2 ==∫ 2π ∫ ∞0∫ 2π00e −r2 /2 r d r d φ =1 d φ = 2π.∫ 2π0[−e −r2 /2 ] ∞0 d φDWT 2.2 Normalverteilung 247/476c○Ernst W. Mayr


1,0¼ ½ ¾1,0¼ ½ ¾0,80,80,60,60,40,40,20,20,00,0-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0Dichte und Verteilung von N (0, σ 2 )DWT 2.2 Normalverteilung 248/476c○Ernst W. Mayr


Satz 100 (Lineare Transformation der Normalverteilung)Sei X eine normalverteilte Zufallsvariable mit X ∼ N (µ, σ 2 ). Dann gilt für beliebigesa ∈ R \ {0} und b ∈ R, dass Y = aX + b normalverteilt ist mit Y ∼ N (aµ + b, a 2 σ 2 ).Beweis:Wir betrachten zunächst den Fall ”a > 0“:Pr[Y ≤ y] = Pr[aX + b ≤ y] = Pr= 1 √2πσ ·∫ (y−b)/a−∞[X ≤ y − b ]a)(u − µ)2exp(−2σ 2 d u.Nach der Substitution u = (v − b)/a und d u = (1/a) · d v erhalten wirDWT 2.2 Normalverteilung 249/476c○Ernst W. Mayr


Beweis (Forts.):Pr[Y ≤ y] =∫1 y)(v − aµ − b)2√ · exp(− 2πaσ −∞2a 2 σ 2 d v .Also Y ∼ N (aµ + b, a 2 σ 2 ). Für a < 0 verläuft der Beweis analog.DWT 2.2 Normalverteilung 250/476c○Ernst W. Mayr


Sei also X eine beliebige N (µ, σ 2 )-verteilte Zufallsvariable X und Y := X−µσ .Dann ist nach Satz 100 Y N (0, 1)-verteilt. Y heißt auch normiert.Ferner gilt[ a − µPr[a < X ≤ b] = Pr < Y ≤ b − µ ]σσ( ) ( )b − µ a − µ= Φ − Φσσ.DWT 2.2 Normalverteilung 251/476c○Ernst W. Mayr


Satz 101X sei N (0, 1)-verteilt. Dann giltE[X] = 0 und Var[X] = 1.Beweis:E[X] = 1 √2π∫ ∞−∞x · exp) (− x2d x.2Da der Integrand punktsymmetrisch zu (0, 0) ist, folgt E[X] = 0.DWT 2.2 Normalverteilung 252/476c○Ernst W. Mayr


Beweis (Forts.):Mittels Lemma 99 und durch partielle Integration erhalten wir√∫ ∞)2π = exp(− x2d x−∞ 2) ∣= x exp(− x2 ∣∣∣∞ ∫ ∞)+ x 2 · exp(− x2d x2−∞ −∞2} {{ }= 0Daraus folgt, dass E[X 2 ] = 1 ist und somit Var[X] = E[X 2 ] − E[X] 2 = 1.DWT 2.2 Normalverteilung 253/476c○Ernst W. Mayr


Satz 102X sei N (µ, σ 2 )-verteilt. Dann giltE[X] = µ und Var[X] = σ 2 .Beweis:Y := X−µσist standardnormalverteilt. Ferner gilt gemäß der Rechenregeln fürErwartungswert und VarianzE[X] = E[σY + µ] = σ · E[Y ] + µ = µundVar[X] = Var[σY + µ] = σ 2 · Var[Y ] = σ 2 .DWT 2.2 Normalverteilung 254/476c○Ernst W. Mayr


2.3 ExponentialverteilungDie Exponentialverteilung ist in gewisser Weise das kontinuierliche Analogon zurgeometrischen Verteilung. Wie die geometrische Verteilung ist sie ”gedächtnislos“. Siespielt daher vor allem bei der Modellierung von Wartezeiten eine große Rolle.DWT 2.3 Exponentialverteilung 255/476c○Ernst W. Mayr


Definition 103Eine Zufallsvariable X heißt exponentialverteilt mit dem Parameter λ, λ > 0, wenn siedie Dichte{λ · e −λx falls x ≥ 0,f(x) =0 sonstbesitzt.Für die entsprechende Verteilungsfunktion gilt (für x ≥ 0)F (x) =∫ x0λ · e −λt d t =Für x < 0 gilt selbstverständlich F (x) = 0.[−e −λt] x0 = 1 − e−λx .DWT 2.3 Exponentialverteilung 256/476c○Ernst W. Mayr


E[X] =∫ ∞0t · λ · e −λt d t[ ] ∫ ∞ ∞= t · (−e −λt ) + e −λt d t0 0[= 0 + − 1 ] ∞λ · e−λt = 10λ .DWT 2.3 Exponentialverteilung 257/476c○Ernst W. Mayr


Analog erhalten wirE[X 2 ] ==∫ ∞0t 2 · λ · e −λt d t[ ] ∫ ∞ ∞t 2 · (−e −λt ) + 0= 0 + 2 λ · E[X] = 2 λ 202t · e −λt d tund somitVar[X] = E[X 2 ] − E[X] 2 = 1 λ 2 .DWT 2.3 Exponentialverteilung 258/476c○Ernst W. Mayr


2,01,6¼ ½ ¾1,00,81,20,6¼ ½ ¾0,80,40,40,20,00,00,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0Dichte und Verteilung der ExponentialverteilungDWT 2.3 Exponentialverteilung 259/476c○Ernst W. Mayr


2.3.1 Eigenschaften der ExponentialverteilungSatz 104 (Skalierung exponentialverteilter Variablen)Sei X eine exponentialverteilte Zufallsvariable mit dem Parameter λ. Für a > 0 ist dieZufallsvariable Y := aX wieder exponentialverteilt mit dem Parameter λ/a.Beweis:F Y (x) = Pr[Y ≤ x] = Pr[aX ≤ x][= Pr X ≤ x ] ( x)= F Xa a= 1 − e − λxa .DWT 2.3 Exponentialverteilung 260/476c○Ernst W. Mayr


GedächtnislosigkeitSatz 105 (Gedächtnislosigkeit)Eine (positive) kontinuierliche Zufallsvariable X mit Wertebereich R + ist genau dannexponentialverteilt, wenn für alle x, y > 0 gilt, dassPr[X > x + y | X > y] = Pr[X > x] . (*)Beweis:Sei X exponentialverteilt mit Parameter λ. Dann giltPr[X > x + y, X > y]Pr[X > x + y | X > y] =Pr[X > y]Pr[X > x + y]=Pr[X > y]= e−λ(x+y)e −λy = e −λx = Pr[X > x] .DWT 2.3 Exponentialverteilung 261/476c○Ernst W. Mayr


Beweis (Forts.):Sei umgekehrt X eine kontinuierliche Zufallsvariable, die die Gleichung (∗) erfüllt. Wirdefinieren g(x) := Pr[X > x]. Für x, y > 0 giltg(x + y) = Pr[X > x + y]Daraus folgt durch wiederholte Anwendung= Pr[X > x + y | X > y] · Pr[X > y]= Pr[X > x] · Pr[X > y] = g(x)g(y) .( 1g(1) = gn + · · · + 1 )=} {{ n}n-malund somit insbesondere auch g(1/n) = (g(1)) 1/n .( ( 1gn) ) nfür alle n ∈ NDWT 2.3 Exponentialverteilung 262/476c○Ernst W. Mayr


Beweis (Forts.):Da X nur positive Werte annimmt, muss es ein n ∈ N geben mit g(1/n) > 0. Wegen0 < g(1) ≤ 1 muss es daher auch ein λ ≥ 0 geben mit g(1) = e −λ .Nun gilt für beliebige p, q ∈ Nund somit g(r) = e −λr für alle r ∈ Q + .Aufgrund der Stetigkeit folgt darausg(p/q) = g(1/q) p = g(1) p/q ,g(x) = e −λx .DWT 2.3 Exponentialverteilung 263/476c○Ernst W. Mayr


Beispiel 106Über das Cäsium-Isotop 13455Cs ist bekannt, dass es eine mittlere Lebensdauer vonungefähr 3,03 Jahren oder 1,55 · 10 6 Minuten besitzt. Die Zufallsvariable X messe dieLebenszeit eines bestimmten 13455Cs-Atoms. X ist exponentialverteilt mit dem Parameterλ = 1E[X] = 11,55 · 10 6 ≈ 0,645 · 10−6 [ 1minDa λ den Kehrwert einer Zeit als Einheit besitzt, spricht man von der Zerfallsrate.Auch bei anderen Anwendungen ist es üblich, λ als Rate einzuführen.]DWT 2.3 Exponentialverteilung 264/476c○Ernst W. Mayr


2.3.2 Exponentialverteilung als Grenzwert der geometrischen VerteilungErinnerung: Die Poisson-Verteilung lässt sich als Grenzwert der Binomialverteilungdarstellen.Wir betrachten eine Folge geometrisch verteilter Zufallsvariablen X n mit Parameterp n = λ/n. Für ein beliebiges k ∈ N ist die Wahrscheinlichkeit, dass X n ≤ k · n, gleichPr[X n ≤ kn] =kn∑i=1(1 − p n ) i−1 · p n = p n ·= p n · 1 − (1 − p n) knp n= 1 −∑(1 − p n ) ikn−1i=0(1 − λ n) kn.DWT 2.3 Exponentialverteilung 265/476c○Ernst W. Mayr


Wegen lim n→∞ (1 − λ n )n = e −λ gilt daher für die Zufallsvariablen Y n := 1 n X n, dasslim Pr[Y n ≤ t] = lim Pr[X n ≤ t · n]n→∞ n→∞= limn→∞[1 −= 1 − e −λt .(1 − λ n) tn]Die Folge Y n der (skalierten) geometrisch verteilten Zufallsvariablen geht also fürn → ∞ in eine exponentialverteilte Zufallsvariable mit Parameter λ über.DWT 2.3 Exponentialverteilung 266/476c○Ernst W. Mayr


3. Mehrere kontinuierliche Zufallsvariablen3.1 Mehrdimensionale DichtenBeobachtungZu zwei kontinuierlichen Zufallsvariablen X, Y wird der zugrunde liegende gemeinsameWahrscheinlichkeitsraum über R 2 durch eine integrierbare (gemeinsame)Dichtefunktion f X,Y : R 2 → R + 0 mit∫ ∞ ∫ ∞−∞−∞f X,Y (x, y) d x d y = 1beschrieben. Für ein Ereignis A ⊆ R 2 (das aus abzählbar vielen geschlossenen oderoffenen Bereichen gebildet sein muss) gilt∫Pr[A] = f X,Y (x, y) d x d y.ADWT 3.1 Mehrdimensionale Dichten 267/476c○Ernst W. Mayr


Unter einem Bereich B verstehen wir dabei Mengen der ArtB = {(x, y) ∈ R 2 | a ≤ x ≤ b, c ≤ y ≤ d} mit a, b, c, d ∈ R.Dabei können die einzelnen Intervallgrenzen auch ”offen“ bzw. ±∞ sein.DWT 3.1 Mehrdimensionale Dichten 268/476c○Ernst W. Mayr


Analog zum eindimensionalen Fall ordnen wir der Dichte f X,YVerteilung F X,Y : R 2 → [0, 1] zu:eine (gemeinsame)F X,Y (x, y) = Pr[X ≤ x, Y ≤ y] =∫ y ∫ x−∞−∞f X,Y (u, v) d u d v.DWT 3.1 Mehrdimensionale Dichten 269/476c○Ernst W. Mayr


3.2 Randverteilungen und UnabhängigkeitDefinition 107Sei f X,Y die gemeinsame Dichte der Zufallsvariablen X und Y . Die Randverteilung derVariablen X ist gegeben durch∫ x[∫ ∞]F X (x) = Pr[X ≤ x] =f X,Y (u, v) d v d u.−∞ −∞Analog nennen wirf X (x) =∫ ∞−∞f X,Y (x, v) d vdie Randdichte von X. Entsprechende Definitionen gelten symmetrisch für Y .DWT 3.2 Randverteilungen und Unabhängigkeit 270/476c○Ernst W. Mayr


Definition 108Zwei kontinuierliche Zufallsvariablen X und Y heißen unabhängig, wennfür alle x, y ∈ R gilt.Dies ist gleichbedeutend mitPr[X ≤ x, Y ≤ y] = Pr[X ≤ x] · Pr[Y ≤ y]F X,Y (x, y) = F X (x) · F Y (y) .Differentiation ergibtf X,Y (x, y) = f X (x) · f Y (y) .DWT 3.2 Randverteilungen und Unabhängigkeit 271/476c○Ernst W. Mayr


Für mehrere Zufallsvariablen X 1 , . . . , X n gilt analog: X 1 , . . . , X n sind genau dannunabhängig, wennbzw.für alle x 1 , . . . , x n ∈ R.F X1 ,...,X n(x 1 , . . . , x n ) = F X1 (x 1 ) · . . . · F Xn (x n )f X1 ,...,X n(x 1 , . . . , x n ) = f X1 (x 1 ) · . . . · f Xn (x n )DWT 3.2 Randverteilungen und Unabhängigkeit 272/476c○Ernst W. Mayr


3.3 Warteprobleme mit der ExponentialverteilungWarten auf mehrere EreignisseSatz 109Die Zufallsvariablen X 1 , . . . , X n seien unabhängig und exponentialverteilt mit denParametern λ 1 , . . . , λ n . Dann ist auch X := min{X 1 , . . . , X n } exponentialverteilt mitdem Parameter λ 1 + . . . + λ n .Beweis:Der allgemeine Fall folgt mittels Induktion aus dem für n = 2. Für dieVerteilungsfunktion F X gilt:1 − F X (t) = Pr[X > t] = Pr[min{X 1 , X 2 } > t]= Pr[X 1 > t, X 2 > t]= Pr[X 1 > t] · Pr[X 2 > t]= e −λ 1t · e −λ 2t = e −(λ 1+λ 2 )t .DWT 3.3 Warteprobleme mit der Exponentialverteilung 273/476c○Ernst W. Mayr


Anschaulich besagt Satz 109, dass sich die Raten addieren, wenn man auf das ersteEintreten eines Ereignisses aus mehreren unabhängigen Ereignissen wartet. Wennbeispielsweise ein Atom die Zerfallsrate λ besitzt, so erhalten wir bei n Atomen dieZerfallsrate nλ (wie uns auch die Intuition sagt).DWT 3.3 Warteprobleme mit der Exponentialverteilung 274/476c○Ernst W. Mayr


Poisson-ProzessWir hatten bei der Diskussion der geometrischen und der Poisson-Verteilungfestgestellt:Wenn der zeitliche Abstand der Treffer geometrisch verteilt ist, so ist ihre Anzahl ineiner festen Zeitspanne binomialverteilt.Im Grenzwert n → ∞, wobei wir die Trefferwahrscheinlichkeit mit p n = λ/n ansetzen,konvergiert die geometrische Verteilung gegen die Exponentialverteilung und dieBinomialverteilung gegen die Poisson-Verteilung. Im Grenzwert n → ∞ erwarten wirdeshalb die folgende Aussage:Wenn man Ereignisse zählt, deren zeitlicher Abstand exponentialverteilt ist, so ist dieAnzahl dieser Ereignisse in einer festen Zeitspanne Poisson-verteilt.DWT 3.3 Warteprobleme mit der Exponentialverteilung 275/476c○Ernst W. Mayr


Seien T 1 , T 2 . . . unabhängige exponentialverteilte Zufallsvariablen mit Parameter λ. DieZufallsvariable T i modelliert die Zeit, die zwischen Treffer i − 1 und i vergeht.Für den Zeitpunkt t > 0 definieren wirX(t) := max{n ∈ N | T 1 + . . . + T n ≤ t}.X(t) gibt also an, wie viele Treffer sich bis zur Zeit t (von Zeit Null ab) ereignethaben. Es gilt:DWT 3.3 Warteprobleme mit der Exponentialverteilung 276/476c○Ernst W. Mayr


Fakt 110Seien T 1 , T 2 , . . . unabhängige Zufallsvariablen und sei X(t) für t > 0 wie obendefiniert. Dann gilt: X(t) ist genau dann Poisson-verteilt mit Parameter tλ, wenn essich bei T 1 , T 2 , . . . um exponentialverteilte Zufallsvariablen mit Parameter λ handelt.Zum Zufallsexperiment, das durch T 1 , T 2 , . . . definiert ist, erhalten wir für jeden Wertt > 0 eine Zufallsvariable X(t). Hierbei können wir t als Zeit interpretieren und X(t)als Verhalten des Experiments zur Zeit t. Eine solche Familie (X(t)) t>0 vonZufallsvariablen nennt man allgemein einen stochastischen Prozess. Der hierbetrachtete Prozess, bei dem T 1 , T 2 , . . . unabhängige, exponentialverteilteZufallsvariablen sind, heißt Poisson-Prozess und stellt ein fundamentales und zugleichpraktisch sehr bedeutsames Beispiel für einen stochastischen Prozess dar.DWT 3.3 Warteprobleme mit der Exponentialverteilung 277/476c○Ernst W. Mayr


Beispiel 111Wir betrachten eine Menge von Jobs, die auf einem Prozessor sequentiell abgearbeitetwerden. Die Laufzeiten der Jobs seien unabhängig und exponentialverteilt mitParameter λ = 1/30[1/s]. Jeder Job benötigt also im Mittel 30s.Gemäß Fakt 110 ist die Anzahl von Jobs, die in einer Minute vollständig ausgeführtwerden, Poisson-verteilt mit Parameter tλ = 60 · (1/30) = 2.Die Wahrscheinlichkeit, dass in einer Minute höchstens ein Job abgearbeitet wird,beträgt in diesem Fall (tλ = 2)e −tλ + tλe −tλ ≈ 0,406 .DWT 3.3 Warteprobleme mit der Exponentialverteilung 278/476c○Ernst W. Mayr


3.4 Summen von ZufallsvariablenSatz 112Seien X und Y unabhängige kontinuierliche Zufallsvariablen. Für die Dichte vonZ := X + Y giltf Z (z) =∫ ∞−∞f X (x) · f Y (z − x) d x .Beweis:Nach Definition der Verteilungsfunktion gilt∫F Z (t) = Pr[Z ≤ t] = Pr[X + Y ≤ t] =wobei A(t) = {(x, y) ∈ R 2 | x + y ≤ t}.A(t)f X,Y (x, y) d xd yDWT 3.4 Summen von Zufallsvariablen 279/476c○Ernst W. Mayr


Beweis (Forts.):Aus der Unabhängigkeit von X und Y folgt∫F Z (t) = f X (x) · f Y (y) d xd y=A(t)∫ ∞−∞(∫ t−x)f X (x) · f Y (y) d y d x.−∞Mittels der Substitution z := x + y, d z = d y ergibt sich∫ t−x−∞f Y (y) d y =∫ t−∞f Y (z − x) d zund somitF Z (t) =∫ t−∞(∫ ∞)f X (x)f Y (z − x) d x d z .−∞DWT 3.4 Summen von Zufallsvariablen 280/476c○Ernst W. Mayr


Satz 113 (Additivität der Normalverteilung)Die Zufallsvariablen X 1 , . . . , X n seien unabhängig und normalverteilt mit denParametern µ i , σ i (1 ≤ i ≤ n). Es gilt: Die ZufallsvariableZ := a 1 X 1 + . . . + a n X nist normalverteilt mit Erwartungswert µ = a 1 µ 1 + . . . + a n µ n und Varianzσ 2 = a 2 1 σ2 1 + . . . + a2 nσ 2 n.Beweis:Wir beweisen zunächst den Fall n = 2 und a 1 = a 2 = 1. Nach Satz 112 gilt fürZ := X 1 + X 2 , dassf Z (z) ==∫ ∞−∞f X1 (z − y) · f X2 (y) d y∫1 ∞2πσ 1 σ 2−∞(exp − 1 ( (z − y − µ1 ) 22σ12 + (y − µ 2) 2 )σ22 } {{ }=:v)d y.DWT 3.4 Summen von Zufallsvariablen 281/476c○Ernst W. Mayr


Beweis (Forts.):Wir setzenDamit ergibt sich unmittelbarworaus wirermitteln.v 2 2 = (z − y − µ 1) 2σ 2 1µ := µ 1 + µ 2σ 2 := σ 2 1 + σ 2 2v 1 := (z − µ)/σv 2 2 := v − v 2 1+ (y − µ 2) 2σ 2 2− (z − µ 1 − µ 2 ) 2σ 2 1 + σ2 2v 2 = yσ2 1 − µ 2σ 2 1 + yσ2 2 − zσ2 2 + µ 1σ 2 2σ 1 σ 2 σ,DWT 3.4 Summen von Zufallsvariablen 282/476c○Ernst W. Mayr


Beweis (Forts.):Damit folgt für die gesuchte Dichte( ) ∫1∞( )f Z (z) =· exp − v2 1· exp − v2 2d y.2π · σ 1 · σ 2 2 −∞ 2Wir substituieren nochund erhaltent := v 2 und d t =σσ 1 σ 2d yf Z (z) = 1 ( ) ∫2π · σ · exp (z − ∞( )µ)2−2σ 2 · exp − t2 d t.−∞ 2Mit Lemma 99 folgt, dass f Z (z) = ϕ(z; µ, σ) ist.DWT 3.4 Summen von Zufallsvariablen 283/476c○Ernst W. Mayr


Beweis (Forts.):Daraus erhalten wir die Behauptung für n = 2, denn den Fall Z := a 1 X 1 + a 2 X 2 fürbeliebige Werte a 1 , a 2 ∈ R können wir leicht mit Hilfe von Satz 100 auf den soebenbewiesenen Fall reduzieren. Durch Induktion kann die Aussage auf beliebige Werten ∈ N verallgemeinert werden.DWT 3.4 Summen von Zufallsvariablen 284/476c○Ernst W. Mayr


3.5 Momenterzeugende Funktionen für kontinuierliche ZufallsvariablenFür diskrete Zufallsvariablen X haben wir die momenterzeugende FunktionM X (s) = E[e Xs ]eingeführt. Diese Definition kann man unmittelbar auf kontinuierliche Zufallsvariablenübertragen. Die für M X (s) gezeigten Eigenschaften bleiben dabei erhalten.DWT 3.5 Momenterzeugende Funktionen für kontinuierliche Zufallsvariablen 285/476c○Ernst W. Mayr


Beispiel 114Für eine auf [a, b] gleichverteilte Zufallsvariable U giltM U (t) = E[e tX ] =∫ ba[e tx b=t(b − a)]a= etb − e tat(b − a) .e tx ·1b − a d xDWT 3.5 Momenterzeugende Funktionen für kontinuierliche Zufallsvariablen 286/476c○Ernst W. Mayr


Beispiel (Forts.)Für eine standardnormalverteilte Zufallsvariable N ∼ N (0, 1) giltM N (t) = √ 1 ∫ +∞e tξ e −ξ2 /2 d ξ2π−∞∫= e t2 /2 1 +∞· √ e −(t−ξ)2 /2 d ξ2π= e t2 /2 .−∞DWT 3.5 Momenterzeugende Funktionen für kontinuierliche Zufallsvariablen 287/476c○Ernst W. Mayr


Beispiel (Forts.)Daraus ergibt sich für Y ∼ N (µ, σ 2 ) wegen Y −µσ∼ N (0, 1)M Y (t) = E[e tY ]= e tµ Y −µ(tσ)· · E[e σ ]= e tµ · M N (tσ)= e tµ+(tσ)2 /2 .DWT 3.5 Momenterzeugende Funktionen für kontinuierliche Zufallsvariablen 288/476c○Ernst W. Mayr


Weiterer Beweis von Satz 113:Beweis:Gemäß dem vorhergehenden Beispiel giltM Xi (t) = e tµ i+(tσ i ) 2 /2 .Wegen der Unabhängigkeit der X i folgtn∏M Z (t) = E[e t(a 1X 1 +···+a nX n) ] = E[e (a it)X i]==n∏M Xi (a i t)i=1n∏i=1e a itµ i +(a i tσ i ) 2 /2i=1= e tµ+(tσ)2 /2 ,mit µ = a 1 µ 1 + · · · + a n µ n und σ 2 = a 2 1 σ2 1 + · · · + a2 nσ 2 n.DWT 3.5 Momenterzeugende Funktionen für kontinuierliche Zufallsvariablen 289/476c○Ernst W. Mayr


4. Zentraler GrenzwertsatzSatz 115 (Zentraler Grenzwertsatz)Die Zufallsvariablen X 1 , . . . , X n besitzen jeweils dieselbe Verteilung und seienunabhängig. Erwartungswert und Varianz von X i existieren für i = 1, . . . , n und seienmit µ bzw. σ 2 bezeichnet (σ 2 > 0).Die Zufallsvariablen Y n seien definiert durch Y n := X 1 + . . . + X n für n ≥ 1. Dannfolgt, dass die ZufallsvariablenZ n := Y n − nµσ √ nasymptotisch standardnormalverteilt sind, also Z n ∼ N (0, 1) für n → ∞.DWT 4 Zentraler Grenzwertsatz 290/476c○Ernst W. Mayr


Etwas formaler ausgedrückt gilt: Die Folge der zu Z n gehörendenVerteilungsfunktionen F n hat die Eigenschaftlim F n(x) = Φ(x) für alle x ∈ R.n→∞Wir sagen dazu auch: Die Verteilung von Z n konvergiert gegen dieStandardnormalverteilung für n → ∞.DWT 4 Zentraler Grenzwertsatz 291/476c○Ernst W. Mayr


Dieser Satz ist von großer Bedeutung für die Anwendung der Normalverteilung in derStatistik. Der Satz besagt, dass sich die Verteilung einer Summe beliebigerunabhängiger Zufallsvariablen (mit endlichem Erwartungswert und Varianz) derNormalverteilung umso mehr annähert, je mehr Zufallsvariablen an der Summebeteiligt sind.DWT 4 Zentraler Grenzwertsatz 292/476c○Ernst W. Mayr


Beweis:Wir betrachten X ∗ i := (X i − µ)/σ für i = 1, . . . , n mit E[X ∗ i ] = 0 und Var[X∗ i ] = 1.Damit gilt (gemäß vorhergehendem Beispiel)M Z (t) = E[e tZ ] = E[e t(X∗ 1 +...+X∗ n )/√n ]= M X ∗1(t/ √ n) · . . . · M X ∗ n(t/ √ n) .Für beliebiges i betrachten wir die Taylorentwicklung von M X ∗i(t) =: h(t) an der Stellet = 0h(t) = h(0) + h ′ (0) · t + h′′ (0)· t 2 + O(t 3 ).2Aus der Linearität des Erwartungswerts folgth ′ (t) = E[e tX∗ i · X∗i ] und h ′′ (t) = E[e tX∗ i · (X∗i ) 2 ].DWT 4 Zentraler Grenzwertsatz 293/476c○Ernst W. Mayr


Beweis (Forts.):Damit gilth ′ (0) = E[X ∗ i ] = 0 und h ′′ (0) = E[(X ∗ i ) 2 ] = Var[X] = 1.Durch Einsetzen in die Taylorreihe folgt h(t) = 1 + t 2 /2 + O(t 3 ), und wir könnenM Z (t) umschreiben zuM Z (t) =(1 + t22n + O ( t3n 3/2 )) n→ e t2 /2 für n → ∞.Aus der Konvergenz der momenterzeugenden Funktion folgt auch die Konvergenz derVerteilung. Damit ist Z asymptotisch normalverteilt.DWT 4 Zentraler Grenzwertsatz 294/476c○Ernst W. Mayr


Beweis (Forts.):Die momenterzeugende Funktion existiert leider nicht bei allen Zufallsvariablen undunser Beweis ist deshalb unvollständig. Man umgeht dieses Problem, indem man stattder momenterzeugenden Funktion die so genannte charakteristische Funktion˜M X (t) = E[e itX ] betrachtet. Für Details verweisen wir auf die einschlägigeLiteratur.DWT 4 Zentraler Grenzwertsatz 295/476c○Ernst W. Mayr


Der Zentrale Grenzwertsatz hat die folgende intuitive Konsequenz:Wenn eine Zufallsgröße durch lineare Kombination vieler unabhängiger,identisch verteilter Zufallsgrößen entsteht, so erhält man näherungsweise eineNormalverteilung.DWT 4 Zentraler Grenzwertsatz 296/476c○Ernst W. Mayr


Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass dieauftretenden Zufallsgrößen Bernoulli-verteilt sind.Korollar 116 (Grenzwertsatz von de Moivre)X 1 , . . . , X n seien unabhängige Bernoulli-verteilte Zufallsvariablen mit gleicherErfolgswahrscheinlichkeit p. Dann gilt für die Zufallsvariable H n mitH n := X 1 + . . . + X nfür n ≥ 1, dass die Verteilung der ZufallsvariablenH ∗ n :=H n − np√np(1 − p)für n → ∞ gegen die Standardnormalverteilung konvergiert.DWT 4 Zentraler Grenzwertsatz 297/476c○Ernst W. Mayr


Beweis:Die Behauptung folgt unmittelbar aus dem Zentralen Grenzwertsatz, daµ = 1 n E[H n] = p und σ 2 = 1 n Var[H n] = p(1 − p).BemerkungWenn man X 1 , . . . , X n als Indikatorvariablen für das Eintreten eines Ereignisses A bein unabhängigen Wiederholungen eines Experimentes interpretiert, dann gibt H n dieabsolute Häufigkeit von A an.DWT 4 Zentraler Grenzwertsatz 298/476c○Ernst W. Mayr


4.1 Normalverteilung als Grenzwert der BinomialverteilungKorollar 116 ermöglicht, die Normalverteilung als Grenzwert der Binomialverteilungaufzufassen. Die folgende Aussage ist eine Konsequenz von Korollar 116:Korollar 117Sei H n ∼ Bin(n, p) eine binomialverteilte Zufallsvariable. Die Verteilung von H n /nkonvergiert gegen N (p, p(1 − p)/n) für n → ∞.DWT 4.1 Normalverteilung als Grenzwert der Binomialverteilung 299/476c○Ernst W. Mayr


0.4Bin(10, 0.3)ϕ(x)0.4Bin(20, 0.3)ϕ(x)0.30.30.20.20.10.10.0-4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.00.40.3Bin(50, 0.3)ϕ(x)0.0-4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.00.40.3Bin(100, 0.3)ϕ(x)0.20.20.10.10.00.0-4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0-4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0Vergleich von Binomial- und NormalverteilungBin(n, 0.3) bei 0.3n zentriert, mit √ 0.3 · 0.7n horizontal gestaucht und vertikal gestrecktDWT 4.1 Normalverteilung als Grenzwert der Binomialverteilung 300/476c○Ernst W. Mayr


Historisch gesehen entstand Korollar 116 vor Satz 115.Für den Fall p = 1/2 wurde Korollar 116 bereits von Abraham de Moivre (1667–1754)bewiesen. De Moivre war gebürtiger Franzose, musste jedoch aufgrund seinesprotestantischen Glaubens nach England fliehen. Dort wurde er unter anderem Mitgliedder Royal Society, erhielt jedoch niemals eine eigene Professur.Die allgemeine Formulierung von Korollar 116 geht auf Pierre Simon Laplace(1749–1827) zurück. Allerdings vermutet man, dass die Lösung des allgemeinen Fallsp ≠ 1/2 bereits de Moivre bekannt war.DWT 4.1 Normalverteilung als Grenzwert der Binomialverteilung 301/476c○Ernst W. Mayr


4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre für p = 1/2Wir betrachten die Wahrscheinlichkeit Pr[a ≤ H2n ∗ ≤ b] für p = 1/2 und a, b ∈ R mita ≤ b. Wenn die Verteilung von H2n ∗ , wie in Korollar 116 angegeben, gegen N (0, 1)konvergiert, so sollte Pr[a ≤ H2n ∗ ≤ b] ≈ ∫ baϕ(t) d t für genügend große n gelten.Wir schreiben f(n) ∼ ∞ g(n) für lim n→∞ f(n)/g(n) = 1, wollen also zeigen:∫ bPr[a ≤ H2n ∗ ≤ b] ∼ ∞ ϕ(t) d t.Da für H 2n ∼ Bin(2n, 1/2) gilt, dass E[H 2n ] = n und Var[H 2n ] = n/2 ist, erhalten wiraH ∗ 2n = H 2n − n√n/2,DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre für p = 1/2 302/476c○Ernst W. Mayr


und es folgtPr[a ≤ H ∗ 2n ≤ b] = Pr[n + a √ n/2 ≤ H 2n ≤ n + b √ n/2]= ∑ i∈I nPr[H 2n = n + i]für I n := {z ∈ Z | a √ n/2 ≤ z ≤ b √ n/2}. Damit istPr[a ≤ H2n ∗ ≤ b] = ∑ ( ) ( 2n 1 2n·n + i 2)i∈I n } {{ }=:p n,i.DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre für p = 1/2 303/476c○Ernst W. Mayr


Es gilt( ) ( ) 2n 1 2nmax p n,i ≤ p ∗ n := · = (2n)! ( ) 1 2nin 2 (n!) 2 · ,2und mit der Stirling’schen Approximation für n!p ∗ (2n) 2n · e −2n · √2π ( )· 2n 1 2nn ∼ ∞(n n · e −n · √2πn) · = √ 1 .2 2 πnErsetzen wir nun die p n,i durch p ∗ n, so entsteht dabei ein Fehler, den wir mitq n,i := p n,ip bezeichnen.∗ nDWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre für p = 1/2 304/476c○Ernst W. Mayr


Für i > 0 giltq n,i ==( 2n) 2n(n+i)·12) (·1 2n=2)( 2nn∏ i−1j=0(n − j)i∏∏ i=j=1(n + j)(2n)! · n! · n!(n + i)! · (n − i)! · (2n)!j=1n − j + 1n + j=i∏j=1(1 − 2j − 1 ).n + jWegen der Symmetrie der Binomialkoeffizienten gilt q n,−i = q n,i , womit auch der Falli < 0 abgehandelt ist.DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre für p = 1/2 305/476c○Ernst W. Mayr


Man macht sich leicht klar, dass 1 − 1/x ≤ ln x ≤ x − 1 für x > 0 gilt. Damitschließen wir, dass⎛i∏(ln ⎝ 1 − 2j − 1 ) ⎞ i∑(⎠ = ln 1 − 2j − 1 )n + jn + jj=1j=1≤ −i∑j=12j − 1n + ji(i + 1) − i= −n + i≤ −= − i2 n + O ( 1 √n),i∑j=12j − 1n + i= − i2 n + i 3n(n + i)da i = O( √ n) für i ∈ I n .DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre für p = 1/2 306/476c○Ernst W. Mayr


Ebenso erhalten wir⎛i∏ln ⎝j=1Zusammen haben wir(1 − 2j − 1 ) ⎞ ⎠ ≥n + j=(i∑1 −j=1i∑j=1(1 − 2j − 1 ) ) −1n + j−2j + 1n − j + 1 ≥ −i∑j=12j − 1n − i( )= − i21n − i = −i2 n − O √n .( ) ( )e − i2n−i = e − i2 n −O √n 1≤ q n,i ≤ e − i2 n +O √n 1Wegen e ±O(1/√ n) = 1 ± o(1) folgt daraus q n,i ∼ ∞ e −i2 /n .DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre für p = 1/2 307/476c○Ernst W. Mayr


Damit schätzen wir nun Pr[a ≤ H2n ∗ ≤ b] weiter ab:Pr[a ≤ H2n ∗ ≤ b] = ∑ p ∗ 1n · q n,i ∼ ∞ √ · ∑e −i2 /n.πni∈I n i∈I} {{n}=:S nMit δ := √ 2/n können wir die Summe S n umschreiben zuS n = √ 1 · ∑2 .2πi∈I nδe −(iδ)2· 1Diese Summe entspricht einer Näherung für ∫ ba ϕ(t) d t = 1 √2π∫ ba e−t2 /2 d t durchAufteilung der integrierten Fläche in Balken der Breite δ. Für n → ∞ konvergiert dieFläche der Balken gegen das Integral, d. h. S n ∼ ∞∫ ba ϕ(t) d t. q. e. d.DWT 4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre für p = 1/2 308/476c○Ernst W. Mayr


4.3 Verschiedene Approximationen der BinomialverteilungSei H n ∼ Bin(n, p) eine binomialverteilte Zufallsvariable mit der VerteilungsfunktionF n . Für n → ∞ giltF n (t) = Pr[H n /n ≤ t/n]() ()t/n − pt − np→ Φ √ = Φ √ .p(1 − p)/n p(1 − p)nWir können F n somit für große n durch Φ approximieren. Diese Approximation ist inder Praxis deshalb von Bedeutung, da die Auswertung der Verteilungsfunktion derBinomialverteilung für große n sehr aufwändig ist, während für die Berechnung derNormalverteilung effiziente numerische Methoden vorliegen.DWT 4.3 Verschiedene Approximationen der Binomialverteilung 309/476c○Ernst W. Mayr


Beispiel 118Wenn man die Wahrscheinlichkeit berechnen möchte, mit der bei 10 6 Würfen miteinem idealen Würfel mehr als 500500-mal eine gerade Augenzahl fällt, so muss maneigentlich folgenden Term auswerten:T :=10 6∑( 106ii=5,005·10 5Dies ist numerisch kaum effizient möglich.) ( 12) 10 6Die numerische Integration der Dichte ϕ der Normalverteilung ist hingegen relativeinfach. Auch andere Approximationen der Verteilung Φ, beispielsweise durchPolynome, sind bekannt. Entsprechende Funktionen werden in zahlreichenSoftwarebibliotheken als ”black box“ angeboten..DWT 4.3 Verschiedene Approximationen der Binomialverteilung 310/476c○Ernst W. Mayr


BeispielMit der Approximation durch die Normalverteilung erhalten wirT ≈ 1 − Φ(( ) 5 · 102= 1 − Φ5 · 10 2)5,005 · 10 5 − 5 · 10 5√2,5 · 10 5= 1 − Φ(1) ≈ 0,1573 .DWT 4.3 Verschiedene Approximationen der Binomialverteilung 311/476c○Ernst W. Mayr


Bei der Approximation der Binomialverteilung mit Hilfe von Korollar 116 führt man oftnoch eine so genannte Stetigkeitskorrektur durch. Zur Berechnung von Pr[X ≤ x] fürX ∼ Bin(n, p) setzt man()x + 0,5 − npPr[X ≤ x] ≈ Φ √np(1 − p)statt()x − npPr[X ≤ x] ≈ Φ √np(1 − p)an.DWT 4.3 Verschiedene Approximationen der Binomialverteilung 312/476c○Ernst W. Mayr


Der Korrekturterm läßt sich in der Histogramm-Darstellung der Binomialverteilungveranschaulichen. Die Binomialverteilung wird dort durch Balken angegeben, derenFläche in etwa der Fläche unterhalb der Dichte ϕ von N (0, 1) entspricht. Wenn mandie Fläche der Balken mit ”X ≤ x“ durch das Integral von ϕ approximieren möchte, sosollte man bis zum Ende des Balkens für ”X = x“ integrieren und nicht nur bis zurMitte. Dafür sorgt der Korrekturterm 0,5.DWT 4.3 Verschiedene Approximationen der Binomialverteilung 313/476c○Ernst W. Mayr


Approximationen für die BinomialverteilungApproximation durch die Poisson-Verteilung: Bin(n, p) wird approximiert durchPo(np). Diese Approximation funktioniert sehr gut für seltene Ereignisse, d. h.wenn np sehr klein gegenüber n ist. Als Faustregel fordert man n ≥ 30 undp ≤ 0,05.Approximation durch die Chernoff-Schranken: Bei der Berechnung der tails derBinomialverteilung liefern diese Ungleichungen meist sehr gute Ergebnisse. IhreStärke liegt darin, dass es sich bei den Schranken nicht um Approximationen,sondern um echte Abschätzungen handelt. Dies ist vor allem dann wichtig, wennman nicht nur numerische Näherungen erhalten möchte, sondern allgemeineAussagen über die Wahrscheinlichkeit von Ereignissen beweisen möchte.DWT 4.3 Verschiedene Approximationen der Binomialverteilung 314/476c○Ernst W. Mayr


Approximation durch die Normalverteilung: Als Faustregel sagt man, dass dieVerteilungsfunktion F n (t) von Bin(n, p) durchF n (t) ≈ Φ((t − np)/ √ p(1 − p)n)approximiert werden kann, wenn np ≥ 5 und n(1 − p) ≥ 5 gilt.DWT 4.3 Verschiedene Approximationen der Binomialverteilung 315/476c○Ernst W. Mayr


Kapitel III Induktive Statistik1. EinführungDas Ziel der induktiven Statistik besteht darin, aus gemessenen Zufallsgrößen auf diezugrunde liegenden Gesetzmäßigkeiten zu schließen. Im Gegensatz dazu spricht manvon deskriptiver Statistik, wenn man sich damit beschäftigt, große Datenmengenverständlich aufzubereiten, beispielsweise durch Berechnung des Mittelwertes oderanderer abgeleiteter Größen.DWT 1 Einführung 316/476c○Ernst W. Mayr


2. SchätzvariablenWir betrachten die Anzahl X von Lesezugriffen auf eine Festplatte bis zum erstenLesefehler und nehmen an, dass Pr[X = i] = (1 − p) i−1 p, setzen also für X einegeometrische Verteilung an. Dahinter verbirgt sich die Annahme, dass bei jedemZugriff unabhängig und mit jeweils derselben Wahrscheinlichkeit p ein Lesefehlerauftreten kann.Unter diesen Annahmen ist die Verteilung der Zufallsvariablen X eindeutig festgelegt.Allerdings entzieht sich der numerische Wert des Parameters p noch unserer Kenntnis.Dieser soll daher nun empirisch geschätzt werden. Statt p können wir ebensogut E[X]bestimmen, da wir daraus nach den Eigenschaften der geometrischen Verteilung pmittels p = 1E[X]berechnen können.DWT 2 Schätzvariablen 317/476c○Ernst W. Mayr


Dazu betrachten wir n baugleiche Platten und die zugehörigen Zufallsvariablen X i (für1 ≤ i ≤ n), d. h. wir zählen für jede Platte die Anzahl von Zugriffen bis zum erstenLesefehler. Die Zufallsvariablen X i sind dann unabhängig und besitzen jeweils dieselbeVerteilung wie X. Wir führen also viele Kopien eines bestimmten Zufallsexperimentsaus, um Schlüsse auf die Gesetzmäßigkeiten des einzelnen Experiments ziehen zukönnen. Dies ist das Grundprinzip der induktiven Statistik. Die n Messungen heißenStichproben, und die Variablen X i nennt man Stichprobenvariablen.DWT 2 Schätzvariablen 318/476c○Ernst W. Mayr


Grundprinzip statistischer VerfahrenWir erinnern an das Gesetz der großen Zahlen (Satz 63) bzw. den ZentralenGrenzwertsatz (Satz 115). Wenn man ein Experiment genügend oft wiederholt, sonähert sich der Durchschnitt der Versuchsergebnisse immer mehr dem Verhalten an,das man ”im Mittel“ erwarten würde. Je mehr Experimente wir also durchführen, umsogenauere und zuverlässigere Aussagen können wir über den zugrunde liegendenWahrscheinlichkeitsraum ableiten. Auf diesem Grundprinzip beruhen alle statistischenVerfahren.DWT 2 Schätzvariablen 319/476c○Ernst W. Mayr


Um E[X] empirisch zu ermitteln, bietet es sich an, aus den Zufallsvariablen X i dasarithmetische Mittel X zu bilden, das definiert ist durchX := 1 nn∑X i .i=1Es giltE[X] = 1 nn∑E[X i ] = 1 ni=1n∑E[X] = E[X].X liefert uns also im Mittel den gesuchten Wert E[X]. Da wir X zur Bestimmung vonE[X] verwenden, nennen wir X einen Schätzer für den Erwartungswert E[X]. Wegender obigen Eigenschaft ist X sogar ein so genannter erwartungstreuer Schätzer.i=1DWT 2 Schätzvariablen 320/476c○Ernst W. Mayr


Definition 119Gegeben sei eine Zufallsvariable X mit der Dichte f(x; θ). Eine Schätzvariable oderkurz Schätzer für den Parameter θ der Dichte von X ist eine Zufallsvariable, die ausmehreren (meist unabhängigen und identisch verteilten) Stichprobenvariablenzusammengesetzt ist. Ein Schätzer U heißt erwartungstreu, wenn giltE[U] = θ.Bemerkung:Die Größe E[U − θ] nennt man Bias der Schätzvariablen U. Bei erwartungstreuenSchätzvariablen ist der Bias gleich Null.DWT 2 Schätzvariablen 321/476c○Ernst W. Mayr


Der Schätzer X ist also ein erwartungstreuer Schätzer für den Erwartungswert von X.Ein wichtiges Maß für die Güte eines Schätzers ist die mittlere quadratischeAbweichung, kurz MSE für mean squared error genannt. Diese berechnet sich durchMSE := E[(U − θ) 2 ]. Wenn U erwartungstreu ist, so folgtMSE = E[(U − E[U]) 2 ] = Var[U].Definition 120Wenn die Schätzvariable A eine kleinere mittlere quadratische Abweichung besitzt alsdie Schätzvariable B, so sagt man, dass A effizienter ist als B.Eine Schätzvariable heißt konsistent im quadratischen Mittel, wenn MSE → 0 fürn → ∞ gilt. Hierbei bezeichne n den Umfang der Stichprobe.DWT 2 Schätzvariablen 322/476c○Ernst W. Mayr


Für X erhalten wir wegen der Unabhängigkeit von X 1 , . . . , X n[ ]1n∑MSE = Var[X] = Var X ini=1= 1 n∑n 2 Var[X i ] = 1 n Var[X].i=1DWT 2 Schätzvariablen 323/476c○Ernst W. Mayr


Bei jeder Verteilung mit endlicher Varianz folgt MSE = O(1/n) und somit MSE → 0für n → ∞. Der Schätzer X ist also konsistent.Aus der Konsistenz von X im quadratischen Mittel können wir mit Hilfe des Satzesvon Chebyshev (siehe Satz 61) folgende Konsequenz ableiten. Sei ε > 0 beliebig, aberfest. Dann giltPr[|X − θ| ≥ ε] = Pr[|X − E[X]| ≥ ε] ≤ Var[X]ε 2 → 0für n → ∞. Für genügend große n liegen also die Werte von X beliebig nahe amgesuchten Wert θ = E[X]. Diese Eigenschaft nennt man auch schwache Konsistenz, dasie aus der Konsistenz im quadratischen Mittel folgt.DWT 2 Schätzvariablen 324/476c○Ernst W. Mayr


Als nächstes betrachten wir eine weitere von X abgeleitete Schätzvariable:S := √ 1 n∑(X i − X)n − 12 .Wir zeigen, dass S 2 ein erwartungstreuer Schätzer für die Varianz von X ist. Seiµ := E[X] = E[X i ] = E[X].(X i − X) 2 = (X i − µ + µ − X) 2i=1= (X i − µ) 2 + (µ − X) 2 + 2(X i − µ)(µ − X)= (X i − µ) 2 + (µ − X) 2 − 2 n∑(X i − µ)(X j − µ)nj=1= n − 2n(X i − µ) 2 + (µ − X) 2 − 2 n∑(X i − µ)(X j − µ).j≠iDWT 2 Schätzvariablen 325/476c○Ernst W. Mayr


Für je zwei unabhängige Zufallsvariablen X i , X j mit i ≠ j giltDaraus folgtE[(X i − µ)(X j − µ)] = E[X i − µ] · E[X j − µ]= (E[X i ] − µ) · (E[X j ] − µ) = 0 · 0 = 0.E[(X i − X) 2 ] = n − 2n · E[(X i − µ) 2 ] + E[(µ − X) 2 ]= n − 2n · Var[X i] + Var[X].DWT 2 Schätzvariablen 326/476c○Ernst W. Mayr


Wegen Var[X i ] = Var[X] und Var[X] = 1 nVar[X] folgt nunE[(X i − X) 2 ] = n − 1n· Var[X],und somit gilt für S 2 E[S 2 ] = 1n − 1n∑E[(X i − X) 2 ]i=1= 1n − 1 · n · n − 1 · Var[X] = Var[X].nS 2 ist also eine erwartungstreue Schätzvariable für die Varianz von X.DWT 2 Schätzvariablen 327/476c○Ernst W. Mayr


Die vorangegangene Rechnung erklärt, warum man als Schätzer nicht1nn∑(X i − X) 2 ≠ !S 2i=1verwendet, wie man vielleicht intuitiv erwarten würde.DWT 2 Schätzvariablen 328/476c○Ernst W. Mayr


Definition 121Die ZufallsvariablenX := 1 nn∑i=1X i und S 2 := 1n − 1n∑(X i − X) 2i=1heißen Stichprobenmittel bzw. Stichprobenvarianz der Stichprobe X 1 , . . . , X n . X undS 2 sind erwartungstreue Schätzer für den Erwartungswert bzw. die Varianz.DWT 2 Schätzvariablen 329/476c○Ernst W. Mayr


2.1 Maximum-Likelihood-Prinzip zur Konstruktion von SchätzvariablenWir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parametervon Verteilungen. Sei⃗X = (X 1 , . . . , X n ).Bei X 1 , . . . , X n handelt es sich um unabhängige Kopien der Zufallsvariablen X mit derDichte f(x; θ). Hierbei sei θ der gesuchte Parameter der Verteilung. Wir setzenf(x; θ) = Pr[X = x],wobei θ ein Parameter der Verteilung ist.Wenn wir den Parameter explizit angeben wollen, so schreiben wir dafür auchf(x; θ) = Pr θ [X = x]. Eine Stichprobe liefert für jede Variable X i einen Wert x i .Diese Werte fassen wir ebenfalls zu einem Vektor ⃗x = (x 1 , . . . , x n ) zusammen.DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/476c○Ernst W. Mayr


Der AusdruckL(⃗x; θ) :=n∏f(x i ; θ) =i=1n∏Pr θ [X i = x i ]i=1unabh.= Pr θ [X 1 = x 1 , . . . , X n = x n ]entspricht der Wahrscheinlichkeit, dass wir die Stichprobe ⃗x erhalten, wenn wir denParameter mit dem Wert θ belegen.Wir betrachten nun eine feste Stichprobe ⃗x und fassen L(⃗x; θ) somit als Funktion vonθ auf. In diesem Fall nennen wir L die Likelihood-Funktion der Stichprobe.DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 331/476c○Ernst W. Mayr


Es erscheint sinnvoll, zu einer gegebenen Stichprobe ⃗x den Parameter θ so zu wählen,dass L(x; θ) maximal wird.Definition 122Ein Schätzwert ̂θ für den Parameter einer Verteilung f(x; θ) heißtMaximum-Likelihood-Schätzwert (ML-Schätzwert) für eine Stichprobe ⃗x, wenn giltL(⃗x; θ) ≤ L(⃗x; ̂θ) für alle θ.DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 332/476c○Ernst W. Mayr


Beispiel 123Wir konstruieren mit der ML-Methode einen Schätzer für den Parameter p derBernoulli-Verteilung. Es gilt Pr p [X i = 1] = p und Pr p [X i = 0] = 1 − p. Darausschließen wir, dass Pr p [X i = x i ] = p x i(1 − p) 1−x i, und stellen die Likelihood-Funktionn∏L(⃗x; p) = p xi · (1 − p) 1−x iauf.i=1Wir suchen als Schätzer für p den Wert, an dem die Funktion L maximal wird. Wirerhaltenn∑ln L(⃗x; p) = (x i · ln p + (1 − x i ) · ln(1 − p))= n¯x · ln p + (n − n¯x) · ln(1 − p).Hierbei bezeichnet ¯x das arithmetische Mittel1n∑ ni=1 x i.i=1DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 333/476c○Ernst W. Mayr


Beispiel (Forts.)Wir finden das Maximum durch Nullsetzen der Ableitung:d ln L(⃗x; p)d p= n¯xp − n − n¯x1 − p = 0.Diese Gleichung hat die Lösung p = ¯x.DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 334/476c○Ernst W. Mayr


Beispiel 124Die Zufallsvariable X sei N (µ, σ 2 )-verteilt, und wir suchen Schätzvariablen für dieParameter µ und σ. Nach Definition der Likelihood-Funktion giltL(⃗x; µ, σ 2 ) =Durch Logarithmieren erhalten wir( 1√2πσ) n·n∏i=1ln L(⃗x; µ, σ 2 ) = −n(ln √ 2π + ln σ) +exp(− (x i − µ) 2 )2σ 2 .n∑(− (x i − µ) 2 )2σ 2 .i=1DWT 335/476c○Ernst W. Mayr


Beispiel 124Für die Nullstellen der Ableitungen ergibt sichalso∂ ln L∂µ = n∑∂ ln L∂σi=1= −n σ + n∑x i − µσ 2 != 0,i=1µ = ¯x und σ 2 = 1 n(x i − µ) 2σ 3 != 0,n∑(x i − µ) 2 .Wir haben also durch die ML-Methode fast“ das Stichprobenmittel und die”Stichprobenvarianz erhalten. Allerdings besitzt der Schätzer für die Varianz hier denVorfaktor 1 n statt 1n−1. Die ML-Schätzvariable für die Varianz ist somit nichterwartungstreu.i=1DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 335/476c○Ernst W. Mayr


3. KonfidenzintervalleBei der Verwendung von Schätzvariablen geht man davon aus, dass der erhalteneSchätzwert nahe“ beim gesuchten Parameter θ liegt. Die Schätzungen werden”besser“, je größer die betrachtete Stichprobe ist. Diese Angaben sind aus”quantitativer Sicht natürlich unbefriedigend, da nicht erkennbar ist, wie gut man sichauf den Schätzwert verlassen kann.Die Lösung dieses Problems besteht darin, statt einer Schätzvariablen U zwei SchätzerU 1 und U 2 zu betrachten. U 1 und U 2 werden so gewählt, dassPr[U 1 ≤ θ ≤ U 2 ] ≥ 1 − α.Die Wahrscheinlichkeit 1 − α heißt Konfidenzniveau und kann demSicherheitsbedürfnis“ angepasst werden.”DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 336/476c○Ernst W. Mayr


Wenn wir für eine konkrete Stichprobe die Schätzer U 1 und U 2 berechnen und davonausgehen, dass θ ∈ [U 1 , U 2 ] ist, so ziehen wir höchstens mit Wahrscheinlichkeit α einenfalschen Schluss. [U 1 , U 2 ] heißt Konfidenzintervall.In vielen Fällen verwendet man nur eine Schätzvariable U und konstruiert mittelsU 1 := U − δ und U 2 := U + δ ein symmetrisches Konfidenzintervall [U − δ, U + δ].DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 337/476c○Ernst W. Mayr


Sei X eine N (µ, σ 2 )-verteilte Zufallsvariable, und seien X 1 , . . . , X n n zugehörigeStichprobenvariablen. Gemäß der Additivität der Normalverteilung (siehe Satz 113) istdas Stichprobenmittel X ebenfalls normalverteilt mit X ∼ N (µ, σ2n). Wir suchen für Xein symmetrisches Konfidenzintervall.Nach Satz 100 iststandardnormalverteilt.Z := √ n · X − µσDWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 338/476c○Ernst W. Mayr


Für Z betrachten wir das Konfidenzintervall [−c, c] für ein geeignetes c > 0 und setzenAuflösen nach µ ergibtPrPr[−c ≤ Z ≤ c]Das gesuchte Konfidenzintervall lautet also!= 1 − α.[X − √ cσ ≤ µ ≤ X + cσ ]!√ = 1 − α .n nK = [X − cσ √ n, X + cσ √ n] .DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 339/476c○Ernst W. Mayr


Den Parameter c wählen wir wie folgt:Pr[−c ≤ Z ≤ c] = Φ(c) − Φ(−c) = ! 1 − α.Wegen der Symmetrie von Φ gilt Φ(−x) = 1 − Φ(x) und wir erhaltenΦ(c) − Φ(−c) = 2 · Φ(c) − 1 = ! 1 − α ⇐⇒ Φ(c) = 1 − α 2 ,alsoc = Φ −1 ( 1 − α 2).DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 340/476c○Ernst W. Mayr


Definition 125X sei eine stetige Zufallsvariable mit Verteilung F X . Eine Zahl x γ mitF X (x γ ) = γheißt γ-Quantil von X bzw. der Verteilung F X .Definition 126Für die Standardnormalverteilung bezeichnet z γ das γ-Quantil.DWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 341/476c○Ernst W. Mayr


Damit können wir das gesuchte Konfidenzintervall angeben durch[K = X − z (1− α 2 ) σ√ , X + z ](1− α 2 ) σ√ .nnDWT 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 342/476c○Ernst W. Mayr


4. Testen von Hypothesen4.1 EinführungBislang haben wir versucht, Parameter von Verteilungen zu schätzen. In der Praxis istman jedoch oft an der eigentlichen Kenntnis dieser Parameter gar nicht interessiert,sondern man möchte gewisse, damit zusammenhängende Behauptungen überprüfen.Im Folgenden stellen wir die Bestandteile eines statistischen Tests anhand einesabstrakten Beispiels vor. Wir betrachten dazu eine Zufallsvariable X mitPr[X = 1] = p und Pr[X = 0] = 1 − p. Durch einen Test soll überprüft werden, obp < 1/3 oder p ≥ 1/3 gilt.DWT 4.1 Einführung 343/476c○Ernst W. Mayr


Definition eines TestsWir betrachten eine Stichprobe von n unabhängigen Stichprobenvariablen X 1 , . . . , X n ,die dieselbe Verteilung wie die Zufallsvariable X besitzen. Zu einem zugehörigenStichprobenvektor ⃗x müssen wir nun die Frage beantworten, ob wir für diesenVersuchsausgang die Hypothese ”p ≥ 1/3“ annehmen oder ablehnen.SeiK := {⃗x ∈ R n ; ⃗x führt zur Ablehnung der Hypothese}.K nennen wir den Ablehnungsbereich oder den kritischen Bereich des Tests.DWT 4.1 Einführung 344/476c○Ernst W. Mayr


Gewöhnlich wird K konstruiert, indem man die Zufallsvariablen X 1 , . . . , X n zu einerneuen Variablen T , der so genannten Testgröße, zusammenfasst. Dann unterteilt manden Wertebereich R von T in mehrere Bereiche, die entweder zur Ablehnung derHypothese führen sollen oder nicht. Dabei betrachtet man meist ein einzelneshalboffenes oder abgeschlossenes Intervall und spricht dann von einem einseitigen bzw.von einem zweiseitigen Test.Die Menge ˜K ⊆ R enthalte die Werte von T , die zur Ablehnung der Hypothese führensollen. Da wir Tests immer über eine Testgröße definieren, werden wir der Einfachheithalber auch ˜K als Ablehnungsbereich bezeichnen. ˜K ⊆ R entspricht direkt demAblehnungbereich K = T −1 ( ˜K) ⊆ R n , wie wir ihn oben festgelegt haben.DWT 4.1 Einführung 345/476c○Ernst W. Mayr


Die zu überprüfende Hypothese bezeichnen wir mit H 0 und sprechen deshalb auch vonder Nullhypothese. Bei manchen Tests formuliert man noch eine zweite Hypothese H 1 ,die so genannte Alternative. Im Beispiel können wirsetzen.H 0 : p ≥ 1/3 und H 1 : p < 1/3Manchmal verzichtet man darauf, H 1 anzugeben. Dann besteht die Alternative wieoben einfach darin, dass H 0 nicht gilt. In diesem Fall nennen wir H 1 triviale Alternative.DWT 4.1 Einführung 346/476c○Ernst W. Mayr


Ein echter, also nicht-trivialer Alternativtest läge beispielsweise vor, wenn wir ansetzenH ′ 0 : p ≥ 1/3 und H ′ 1 : p ≤ 1/6.Beispiel 127Wir untersuchen eine Festplatte, von der bekannt ist, dass sie zu einer von zweiBaureihen gehört. Die mittleren Zugriffszeiten dieser Baureihen betragen 9msbzw. 12ms. Wir möchten nun herausfinden, zu welchem Typ die betrachtete Festplattegehört, indem wir die Zugriffszeit bei n Zugriffen bestimmen. Hier würde man dannansetzen: H 0 : µ ≤ 9 und H 1 := µ ≥ 12, wobei µ die mittlere Zugriffszeit bezeichnet.DWT 4.1 Einführung 347/476c○Ernst W. Mayr


Fehler bei statistischen TestsBei jedem statistischen Test können mit einer gewissen Wahrscheinlichkeit falscheSchlüsse gezogen werden. Dieser Fall tritt beispielsweise ein, wenn H 0 gilt, aber dasErgebnis ⃗x der Stichprobe im Ablehnungsbereich K liegt.Dann spricht man von einem Fehler 1. Art.Analog erhalten wir einen Fehler 2. Art, wenn H 0 nicht gilt und ⃗x nicht imAblehnungsbereich liegt.Fehler 1. Art : H 0 gilt, wird aber abgelehnt.Fehler 2. Art : H 0 gilt nicht, wird aber angenommen.DWT 4.1 Einführung 348/476c○Ernst W. Mayr


Für die Beurteilung eines Tests ist es wesentlich, mit welcher Wahrscheinlichkeit diesebeiden Fehler eintreten können. Ziel ist es natürlich, diese Wahrscheinlichkeitenmöglichst klein zu halten. Allerdings sind die Minimierung des Fehlers 1. Art und desFehlers 2. Art gegenläufige Ziele, so dass ein vernünftiger Ausgleich zwischen beidenFehlern gefunden werden muss. Wenn man beispielsweise K = ∅ setzt, so erhält manWahrscheinlichkeit Null für den Fehler 1. Art, da H 0 immer angenommen wird.Allerdings tritt der Fehler 2. Art dann mit Wahrscheinlichkeit Eins ein, wenn H 0 nichtgilt.DWT 4.1 Einführung 349/476c○Ernst W. Mayr


Die Wahrscheinlichkeit für den Fehler 1. Art wird mit α bezeichnet, und man sprichtdeshalb gelegentlich vom α-Fehler. α heißt auch Signifikanzniveau des Tests.In der Praxis ist es üblich, sich ein Signifikanzniveau α vorzugeben (übliche Wertehierfür sind 0,05, 0,01 oder 0,001) und dann den Test so auszulegen (also denAblehnungsbereich K so zu bestimmen), dass die Wahrscheinlichkeit für den Fehler1. Art den Wert α besitzt.DWT 4.1 Einführung 350/476c○Ernst W. Mayr


Konstruktion eines einfachen TestsWir konstruieren einen Test für den Parameter p einer Bernoulli-verteiltenZufallsvariablen X. Wir setzenAls Testgröße verwenden wirH 0 : p ≥ p 0 , H 1 : p < p 0 .T := X 1 + . . . + X n .Für größere Wahrscheinlichkeiten p erwarten wir auch größere Werte für T . Deshalb istes sinnvoll, einen Ablehnungsbereich der Art K := [0, k] für T zu wählen, wobei k ∈ Rgeeignet festzulegen ist. Wir konstruieren hier also einen einseitigen Test, während füreine Nullhypothese H 0 : p = p 0 sowohl zu kleine als auch zu große Werte von T zurAblehnung von H 0 führen sollten und somit ein zweiseitiger Test vorzuziehen wäre.DWT 4.1 Einführung 351/476c○Ernst W. Mayr


T ist binomialverteilt. Da wir von einem großen Stichprobenumfang n ausgehen, bietetes sich an, die Verteilung von T nach dem Grenzwertsatz von de Moivre (sieheKorollar 116) durch die Normalverteilung zu approximieren.Sei˜T :=T − np √np(1 − p).˜T ist annähernd standardnormalverteilt.DWT 4.1 Einführung 352/476c○Ernst W. Mayr


Wir berechnen für jeden Wert von k das zugehörige Signifikanzniveau α des Tests.Fehlerwahrscheinlichkeit 1. Art = maxp∈H 0Pr p [T ∈ K]= maxp∈H 0Pr p [T ≤ k]Fehlerwahrscheinlichkeit 2. Art = supp∈H 1Pr p [T ∉ K]= supp∈H 1Pr p [T > k]DWT 4.1 Einführung 353/476c○Ernst W. Mayr


Für den Fehler 1. Art α erhalten wirα = max Pr p [T ≤ k] = Pr p=p0 [T ≤ k]p≥p 0[]= Pr p=p0˜T ≤ √ k − npnp(1 − p)= Pr[˜T ≤k − np 0√np0 (1 − p 0 )]()k − np 0≈ Φ √ .np0 (1 − p 0 )DWT 4.1 Einführung 354/476c○Ernst W. Mayr


Unter Verwendung der Quantile der Standardnormalverteilung ergibt sich damit:Ist k so gewählt, dass (k − np 0 )/ √ np 0 (1 − p 0 ) = z α , so ist das Signifikanzniveaugleich α.Ist das gewünschte Signifikanzniveau α des Tests vorgegeben, so erhält man denWert k = k(n) in Abhängigkeit vom Umfang n der Stichprobe durchk = z α · √np0 (1 − p 0 ) + np 0 . (8)Kleinere Werte für k verkleinern zwar den Fehler 1. Art, vergrößern jedoch denAnnahmebereich und damit die Wahrscheinlichkeit für einen Fehler 2. Art.DWT 4.1 Einführung 355/476c○Ernst W. Mayr


Verhalten der TestfehlerWie verhalten sich die möglichen Testfehler des konstruierten Verfahrens? Wasgeschieht beispielsweise, wenn p nur geringfügig kleiner als p 0 ist?In diesem Fall betrachten wir beim Fehler 2. Art die WahrscheinlichkeitPr p=p0 −ε[T ≥ k] ≈ Pr p=p0 [T ≥ k] ≈ 1 − α .Wenn sich also die ”wahren“ Verhältnisse nur minimal von unserer Nullhypotheseunterscheiden, so werden wir diese ”im Zweifelsfall“ annehmen.DWT 4.1 Einführung 356/476c○Ernst W. Mayr


Bei echten Alternativtests werden für hinreichend große Stichproben und einengeeignet eingestellten Ablehnungsbereich beide Testfehler klein.Beispiel 128Die Abbruchrate p der Transaktionen in einem Online-Datenbanksystem wurde bereitsfrüher einmal ermittelt. Allerdings sind die entsprechenden Daten verloren gegangenund die Entwickler erinnern sich nur noch, dass das Ergebnis entweder p = 1/3 oderp = 1/6 lautete. Unter dieser Annahme würde man den Test wie folgt ansetzen:H 0 : p ≥ 1/3, H ′ 1 : p ≤ 1/6.DWT 4.1 Einführung 357/476c○Ernst W. Mayr


Beispiel (Forts.)Für den Fehler 2. Art erhält man nun:Fehlerwahrsch. 2. Art = max Pr p[T > k]p≤1/6()k − (1/6) · n≈ 1 − Φ √ .(1/6) · (5/6)nMit den obigen Werten k = 25 und n = 100 ergibt sich mit( ) 150 − 100Φ √ = Φ( √ 5) ≈ 0,98715 · 10ein Fehler 2. Art der Größe 0,0129, während sich für die triviale AlternativeH 1 : p < 1/3 ein Wert von etwa 0,95 ergibt.DWT 4.1 Einführung 358/476c○Ernst W. Mayr


Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der einTest die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt()k − npg(n, p) = Pr p [T ∈ K] = Pr p [T ≤ k] ≈ Φ √ .np(1 − p)DWT 4.1 Einführung 359/476c○Ernst W. Mayr


1,00,8Ò½¼¼ Ò¾¼¼ Ò¼0,60,40,20,00,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0Gütefunktion g(n, p) für verschiedene Werte von nDWT 4.1 Einführung 360/476c○Ernst W. Mayr


Man erkennt deutlich, dass für alle n der Wert von k = k(n) genau so gewählt wurde,dass g(n, 1/3) = 0,05 gilt. Dies wird durch den in Gleichung 8 angegebenen Ausdruckerreicht.Für Werte von p größer als 1/3 wird H 0 : p ≥ 1/3 mit hoher Wahrscheinlichkeitangenommen, während für Werte deutlich unter 1/3 die Hypothese H 0 ziemlich sicherabgelehnt wird.Ferner ist auffällig, dass g für größere Werte von n schneller von Eins auf Null fällt.Daran erkennt man, dass durch den Test die Fälle ”H 0 gilt“ und ”H 0 gilt nicht“ umsobesser unterschieden werden können, je mehr Stichproben durchgeführt werden. FürWerte von p, bei denen g(n, p) weder nahe bei Eins noch nahe bei Null liegt, kann derTest nicht sicher entscheiden, ob die Nullhypothese abzulehnen ist.DWT 4.1 Einführung 361/476c○Ernst W. Mayr


4.2 Praktische Anwendung statistischer TestsDas im vorhergehenden Abschnitt konstruierte Testverfahren taucht in der Literaturunter dem Namen approximativer Binomialtest auf.Die folgende Tabelle 1 gibt einen Überblick über die Eckdaten dieses Tests.DWT 4.2 Praktische Anwendung statistischer Tests 362/476c○Ernst W. Mayr


Tabelle: Approximativer BinomialtestAnnahmen:X 1 , . . . , X n seien unabhängig und identisch verteilt mit Pr[X i = 1] = p und Pr[X i = 0] = 1−p, wobei p unbekanntsei. n sei hinreichend groß, so dass die Approximation aus Korollar 116 brauchbare Ergebnisse liefert.Hypothesen:a) H 0 : p = p 0 gegen H 1 : p ≠ p 0 ,b) H 0 : p ≥ p 0 gegen H 1 : p < p 0 ,c) H 0 : p ≤ p 0 gegen H 1 : p > p 0 .Testgröße:Z :=h − np 0√np0 (1 − p 0 ) ,wobei h := X 1 + . . . + X n die Häufigkeit bezeichnet, mit der die Ereignisse X i = 1 aufgetreten sind.Ablehnungskriterium für H 0 bei Signifikanzniveau α:a) |Z| > z 1−α/2 ,b) Z < z α ,c) Z > z 1−α .DWT 4.2 Praktische Anwendung statistischer Tests 363/476c○Ernst W. Mayr


4.3 Allgemeines Vorgehen bei statistischen Tests1. Schritt: Formulierung von Annahmen. Ganz ohne Annahmen kommt man meist nichtaus. Übliche Annahmen betreffen meist die Verteilung der Stichprobenvariablenund deren Unabhängigkeit.2. Schritt: Formulierung der Nullhypothese.3. Schritt: Auswahl des Testverfahrens.4. Schritt: Durchführung des Tests und Entscheidung.DWT 4.3 Allgemeines Vorgehen bei statistischen Tests 364/476c○Ernst W. Mayr


4.4 Ausgewählte statistische Tests4.4.1 Wie findet man das richtige Testverfahren?Statistische Tests kann man nach mehreren Kriterien in Klassen einteilen.Anzahl der beteiligten ZufallsgrößenSollen zwei Zufallsgrößen mit potentiell unterschiedlichen Verteilungen verglichenwerden, für die jeweils eine Stichprobe erzeugt wird (Zwei-Stichproben-Test), oderwird nur eine einzelne Zufallsgröße untersucht (Ein-Stichproben-Test)?DWT 4.4 Ausgewählte statistische Tests 365/476c○Ernst W. Mayr


Bei der FragestellungBeträgt die mittlere Zugriffszeit auf einen Datenbankserver im Mittelhöchstens 10ms?hat man es mit einem Ein-Stichproben-Test zu tun, während die Untersuchung derFrageHat Datenbankserver A eine kürzere mittlere Zugriffszeit alsDatenbankserver B?auf einen Zwei-Stichproben-Test führt.DWT 4.4 Ausgewählte statistische Tests 366/476c○Ernst W. Mayr


Bei mehreren beteiligten Zufallsgrößen wird zusätzlich unterschieden, ob ausvoneinander unabhängigen Grundmengen Stichproben erhoben werden oder nicht.Beim vorigen Beispiel werden unabhängige Messungen vorgenommen, sofern dieServer A und B getrennt voneinander arbeiten. Wenn man jedoch die FrageLäuft ein Datenbankserver auf einer Menge festgelegter Testanfragen mitQuery-Optimierung schneller als ohne?untersucht, so spricht man von verbundenen Messungen.DWT 4.4 Ausgewählte statistische Tests 367/476c○Ernst W. Mayr


Gelegentlich betrachtet man auch den Zusammenhang zwischen mehrerenZufallsgrößen. Beispielsweise könnte man sich für die Frage interessieren:Wie stark wächst der Zeitbedarf für eine Datenbankanfrage im Mittel mit der(syntaktischen) Länge der Anfrage, d. h. führen kompliziertereFormulierungen zu proportional längeren Laufzeiten?Mit solchen Fragenstellungen, bei denen ein funktionaler Zusammenhang zwischenZufallsgrößen ermittelt werden soll, beschäftigt sich die Regressionsanalyse. Wennüberhaupt erst zu klären ist, ob ein solcher Zusammenhang besteht oder ob dieZufallsgrößen vielmehr unabhängig voneinander sind, so spricht man vonZusammenhangsanalyse.DWT 4.4 Ausgewählte statistische Tests 368/476c○Ernst W. Mayr


Formulierung der NullhypotheseWelche Größe dient zur Definition der Nullhypothese? Hierbei werden in ersterLinie Tests unterschieden, die Aussagen über verschiedene so genannteLageparameter treffen, wie z.B. den Erwartungswert oder die Varianz derzugrunde liegenden Verteilungen.Im Zwei-Stichproben-Fall könnte man beispielsweise untersuchen, ob derErwartungswert der Zufallsgröße A größer oder kleiner als bei Zufallsgröße B ist.Gelegentlich wird zur Formulierung der Nullhypothese auch der so genannteMedian betrachtet: Der Median einer Verteilung entspricht dem (kleinsten)Wert x mit F (x) = 1/2.Neben solchen Tests auf Lageparameter gibt es z.B. auch Tests, die auf einevorgegebene Verteilung oder auf ein Maß für die Abhängigkeit verschiedenerZufallsgrößen testen.DWT 4.4 Ausgewählte statistische Tests 369/476c○Ernst W. Mayr


Annahmen über die ZufallsgrößenWas ist über die Verteilung der untersuchten Größe(n) bekannt? Beientsprechenden Annahmen könnte es sich z.B. um die Art der Verteilung, denErwartungswert oder die Varianz handeln.DWT 4.4 Ausgewählte statistische Tests 370/476c○Ernst W. Mayr


4.4.2 Ein-Stichproben-Tests für LageparameterBeim approximativen Binomialtest wird ausgenutzt, dass die Binomialverteilung fürgroße n nach dem Grenzwertsatz von de Moivre (Korollar 116) gegen dieNormalverteilung konvergiert. Aus diesem Grund kann man diesen Test auch alsSpezialfall eines allgemeineren Testverfahrens ansehen, nämlich des Gaußtest, der nundargestellt wird.DWT 4.4 Ausgewählte statistische Tests 371/476c○Ernst W. Mayr


Annahmen:Tabelle: GaußtestX 1 , . . . , X n seien unabhängig und identisch verteilt mit X i ∼ N (µ, σ 2 ), wobei σ 2 bekannt ist.Alternativ gelte E[X i ] = µ und Var[X i ] = σ 2 , und n sei groß genug.Hypothesen:Testgröße:Ablehnungskriterium für H 0 bei Signifikanzniveau α:a) H 0 : µ = µ 0 gegen H 1 : µ ≠ µ 0 ,b) H 0 : µ ≥ µ 0 gegen H 1 : µ < µ 0 ,c) H 0 : µ ≤ µ 0 gegen H 1 : µ > µ 0 .Z := X − µ 0 √ n .σa) |Z| > z 1−α/2 ,b) Z < z α ,c) Z > z 1−α .DWT 4.4 Ausgewählte statistische Tests 372/476c○Ernst W. Mayr


Der Gaußtest hat den Nachteil, dass man die Varianz σ 2 der beteiligten Zufallsgrößenkennen muss.Wenn diese unbekannt ist, so liegt es nahe, die Varianz durch dieStichprobenvarianz S 2 (siehe Definition 121) anzunähern. Dies führt auf den sogenannten t-Test, der in der folgenden Übersicht dargestellt ist.DWT 4.4 Ausgewählte statistische Tests 373/476c○Ernst W. Mayr


Annahmen:Tabelle: t-TestX 1 , . . . , X n seien unabhängig und identisch verteilt mit X i ∼ N (µ, σ 2 ).Alternativ gelte E[X i ] = µ und Var[X i ] = σ 2 , und n sei groß genug.Hypothesen:Testgröße:Ablehnungskriterium für H 0 bei Signifikanzniveau α:a) H 0 : µ = µ 0 gegen H 1 : µ ≠ µ 0 ,b) H 0 : µ ≥ µ 0 gegen H 1 : µ < µ 0 ,c) H 0 : µ ≤ µ 0 gegen H 1 : µ > µ 0 .T := X − µ 0 √ n.Sa) |T | > t n−1,1−α/2 ,b) T < t n−1,α ,c) T > t n−1,1−α .DWT 4.4 Ausgewählte statistische Tests 374/476c○Ernst W. Mayr


Hierbei gibt t n−1,1−α das (1 − α)-Quantil der t-Verteilung mit n − 1 Freiheitsgradenan. Die t-Verteilung taucht manchmal auch unter dem Namen Student-Verteilung auf,da sie ursprünglich unter dem Pseudonym ”Student“ publiziert wurde.Wir gehen an dieser Stelle nicht darauf ein, wieso die Testgröße die t-Verteilung besitzt,sondern weisen nur darauf hin, dass die Dichte dieser Verteilung (eigentlich handelt essich um eine ganze Familie von Verteilungen, da die Anzahl der Freiheitsgrade jeweilsnoch gewählt werden kann) der Dichte der Normalverteilung ähnelt. Für große n(Faustregel: n ≥ 30) liegen die beiden Dichten so genau übereinander, dass man in derPraxis die t-Verteilung durch die Normalverteilung annähert.DWT 4.4 Ausgewählte statistische Tests 375/476c○Ernst W. Mayr


0,40,3Ò½ Ò¾¼ Ò½ Ò0,20,10,0-4,0 -2,0 0,0 2,0 4,0Dichte der t-Verteilung mit n FreiheitsgradenDWT 4.4 Ausgewählte statistische Tests 376/476c○Ernst W. Mayr


Als weitere Beispiele für gängige Ein-Stichproben-Tests zu Lageparametern seien derWilcoxon-Test und der χ 2 -Varianztest genannt. Ersterer dient zum Testen vonHypothesen zum Median, während der zweite Test Hypothesen zur Varianz beinhaltet.DWT 4.4 Ausgewählte statistische Tests 377/476c○Ernst W. Mayr


4.4.3 Zwei-Stichproben-Tests für LageparameterBei Zwei-Stichproben-Tests wollen wir das Verhältnis von Lageparameternuntersuchen. Besonders wichtig sind hierbei Tests zum Erwartungswert. Für zweiZufallsgrößen X und Y könnten wir beispielsweise die Frage untersuchen, ob für dieErwartungswerte µ X und µ Y gilt, dass µ X = µ Y ist.DWT 4.4 Ausgewählte statistische Tests 378/476c○Ernst W. Mayr


Annahmen:Tabelle: Zwei-Stichproben-t-TestX 1 , . . . , X m und Y 1 , . . . , Y n seien unabhängig und jeweils identisch verteilt, wobei X i ∼ N (µ X , σ 2 X ) undY i ∼ N (µ Y , σ 2 Y ) gelte. Die Varianzen seien identisch, also σ2 X = σ2 Y .Hypothesen:Testgröße:a) H 0 : µ X = µ Y gegen H 1 : µ X ≠ µ Y ,b) H 0 : µ X ≥ µ Y gegen H 1 : µ X < µ Y ,c) H 0 : µ X ≤ µ Y gegen H 1 : µ X > µ Y .√n + m − 2X − YT :=1m + 1 · √.n (m − 1) · SX 2 + (n − 1) · S2 YAblehnungskriterium für H 0 bei Signifikanzniveau α:a) |T | > t m+n−2,1−α/2 ,b) T < t m+n−2,α ,c) T > t m+n−2,1−α .DWT 4.4 Ausgewählte statistische Tests 379/476c○Ernst W. Mayr


Vom Zwei-Stichproben-t-Test findet man in der Literatur noch zusätzliche Varianten,die auch dann einsetzbar sind, wenn die beteiligten Zufallsgrößen nicht dieselbe Varianzbesitzen. Der beim Ein-Stichproben-Fall erwähnte Wilcoxon-Test kann ebenfalls aufden Zwei-Stichproben-Fall übertragen werden.DWT 4.4 Ausgewählte statistische Tests 380/476c○Ernst W. Mayr


4.4.4 Nicht an Lageparametern orientierte TestsWir betrachten in diesem Abschnitt exemplarisch den χ 2 -Anpassungstest. Bei einemAnpassungstest wird nicht nur der Lageparameter einer Verteilung getestet, sondern eswird die Verteilung als Ganzes untersucht.Beim approximativen Binomialtest (siehe Tabelle 1) haben wir streng genommenbereits einen Anpassungstest durchgeführt. Bei der Nullhypothese H 0 : p = p 0 wirduntersucht, ob es sich bei der betrachteten Zufallsgröße um eine Bernoulli-verteilteZufallsvariable mit Parameter p 0 handelt. Beim χ 2 -Test gehen wir nun einen Schrittweiter: Wir nehmen an, dass die Zufallsgröße X genau k verschiedene Werte annimmt.Ohne Beschränkung der Allgemeinheit sei W X = {1, . . . , k}. Die Nullhypothese lautetnunH 0 : Pr[X = i] = p i für i = 1, . . . , k.DWT 4.4 Ausgewählte statistische Tests 381/476c○Ernst W. Mayr


Tabelle: χ 2 -AnpassungstestAnnahmen:X 1 , . . . , X n seien unabhängig und identisch verteilt mit W Xi = {1, . . . , k}.Hypothesen:H 0 : Pr[X = i] = p i für i = 1, . . . , k,H 1 : Pr[X = i] ≠ p i für mindestens ein i ∈ {1, . . . , k},Testgröße:T =k∑i=1(h i − np i ) 2np i,wobei h i die Häufigkeit angibt, mit der X 1 , . . . , X n den Wert i angenommen haben.Ablehnungskriterium für H 0 bei Signifikanzniveau α:T > χ 2 k−1,1−α ;dabei sollte gelten, dass np i ≥ 1 für alle i und np i ≥ 5 für mindestens 80% der Werte i = 1, . . . , k.DWT 4.4 Ausgewählte statistische Tests 382/476c○Ernst W. Mayr


Für die Testgröße T wird näherungsweise eine χ 2 -Verteilung mit k − 1 Freiheitsgradenangenommen. Die Werte dieser Verteilung finden sich in entsprechenden Tabellen inder Literatur. Damit diese Approximation gerechtfertigt ist, sollte gelten, dass np i ≥ 1für alle i und np i ≥ 5 für mindestens 80% der Werte i = 1, . . . , k. Das γ-Quantil einerχ 2 -Verteilung mit k Freiheitsgraden bezeichnen wir mit χ 2 k,γ .DWT 4.4 Ausgewählte statistische Tests 383/476c○Ernst W. Mayr


1,00,8Ò½ Ò¾ Ò¿ Ò0,60,40,20,00,0 1,0 2,0 3,0 4,0 5,0Dichte der χ 2 -Verteilung mit n FreiheitsgradenDWT 4.4 Ausgewählte statistische Tests 384/476c○Ernst W. Mayr


Beispiel 129Als Anwendung für den χ 2 -Test wollen wir überprüfen, ob der Zufallszahlengeneratorvon Maple eine gute Approximation der Gleichverteilung liefert. Dazu lassen wir Maplen = 100000 Zufallszahlen aus der Menge {1, . . . , 10} generieren. Wir erwarten, dassjede dieser Zahlen mit gleicher Wahrscheinlichkeit p 1 = . . . = p 10 = 1/10 auftritt. Diessei unsere Nullhypothese, die wir mit einem Signifikanzniveau von α = 0,05 testenwollen.Beispiel:i 1 2 3 4 5 6 7 8 9 10h i 10102 10070 9972 9803 10002 10065 10133 9943 10009 9901Für den Wert der Testgröße gilt T = 8,9946. Ferner erhalten wir χ 2 9,0,95 ≈ 16,919. DerTest liefert also keinen Grund, die Nullhypothese abzulehnen.DWT 4.4 Ausgewählte statistische Tests 385/476c○Ernst W. Mayr


Das Prinzip des χ 2 -Anpassungstests kann in leicht abgewandelter Form auch noch zumTesten einiger anderer Hypothesen verwendet werden: Beim χ 2 -Homogenitätstest wirdüberprüft, ob zwei oder mehrere Verteilungen identisch sind, während beimχ 2 -Unabhängigkeitstest zwei Zufallsgrößen auf Unabhängigkeit untersucht werden.Beschreibungen dieser Tests findet man in der Literatur.DWT 4.4 Ausgewählte statistische Tests 386/476c○Ernst W. Mayr


Kapitel IV Stochastische Prozesse1. EinführungWir betrachten zeitliche Folgen von Zufallsexperimenten. Mathematisch beschreibtman diese durch einen so genannten stochastischen Prozess. Darunter versteht maneine Folge von Zufallsvariablen (X t ) t∈T , die das Verhalten des Systems zuverschiedenen Zeitpunkten t angeben.DWT 1 Einführung 387/476c○Ernst W. Mayr


Wenn wir T = N 0 annehmen, sprechen wir von einem stochastischen Prozess mitdiskreter Zeit. Lässt man andererseits T = R + 0 zu, so spricht man von stochastischenProzessen mit kontinuierlicher Zeit.Eine besonders einfache Art von stochastischen Prozessen sind so genannteMarkov-Ketten. Diese haben die Eigenschaft, dass der nächste Zustand des Prozesseszwar vom aktuellen Zustand abhängen darf, nicht aber von der Historie, d.h. davon,wie der aktuelle Zustand erreicht wurde.DWT 1 Einführung 388/476c○Ernst W. Mayr


2. Prozesse mit diskreter Zeit2.1 EinführungDefinition 130Eine (endliche) Markov-Kette (mit diskreter Zeit) über der ZustandsmengeS = {0, . . . , n − 1} besteht aus einer unendlichen Folge von Zufallsvariablen (X t ) t∈N0mit Wertemenge S sowie einer Startverteilung q 0 mit q T 0 ∈ Rn . Die Komponenten vonq 0 sind hierbei ≥ 0 und addieren sich zu 1. Für jede Indexmenge I ⊆ {0, . . . , t − 1}und beliebige Zustände i, j, s k (k ∈ I) giltPr[X t+1 = j | X t = i, ∀k ∈ I : X k = s k ] =Pr[X t+1 = j | X t = i] . (9)DWT 2.1 Einführung 389/476c○Ernst W. Mayr


Sind die Wertep ij := Pr[X t+1 = j | X t = i]von t unabhängig, so nennt man die Markov-Kette (zeit)homogen. In diesem Falldefiniert man die Übergangsmatrix durch P = (p ij ) 0≤i,j


Bedingung (9) heißt Markov-Bedingung und besagt:Wenn wir den Zustand i zum Zeitpunkt t kennen, so hängt dieÜbergangswahrscheinlichkeit zum Folgezustand j nur von i und j ab. DieVergangenheit (Zustände zu Zeitpunkten < t) der Markov-Kette spielt keine Rolle. DasGedächtnis“ der Markov-Kette besteht also nur aus ihrem aktuellen Zustand und sie”weiß“ nicht, wie sie dorthin gekommen ist.”Bei einer zeithomogenen Markov-Kette hat die (absolute) Zeit t keinen Einfluss auf dieÜbergangswahrscheinlichkeiten p ij , d.h. das Systemverhalten wird nur durch denaktuellen Zustand bestimmt und nicht durch eine absolute Uhr.DWT 2.1 Einführung 391/476c○Ernst W. Mayr


Wahrscheinlichkeitsraum einer Markov-KetteNehmen wir an, dass wir die Kette von der Zeit 0 bis zur Zeit t 0 beobachten wollen.Wir bezeichnen die Folge von Zuständen, die von der Kette in dieser Zeit durchlaufenwurde, mit ⃗x = (x 0 , x 1 , . . . , x t0 ). Ω ⊆ S t 0+1 sei die Menge möglicher Zustandsfolgen.Einer beliebigen Folge ω := (x 0 , x 1 , . . . , x t0 ) ∈ Ω ordnen wir die WahrscheinlichkeitPr[ω] = (q 0 ) x0 ·t 0 ∏i=1Pr[X i = x i | X i−1 = x i−1 ]zu. Dadurch erhalten wir einen diskreten Wahrscheinlichkeitsraum im Sinne derDefinition.DWT 2.1 Einführung 392/476c○Ernst W. Mayr


Beispiel 131¼ ¼¾Pr[X t+1 = 1 | X t = 1] = 0,9, Pr[X t+1 = 1 | X t = 0] = 0,2Pr[X t+1 = 0 | X t¼½= 1] = 0,1, Pr[X t+1 = 0 | X t¼= 0] = 0,80 1DWT 2.1 Einführung 393/476c○Ernst W. Mayr


Einen bestimmten Ablauf des Systems kann man sich als so genannten Random Walkvorstellen.Wenn wir uns beispielsweise zum Zeitpunkt t = 0 im Knoten 1 (also X 0 = 1) befinden,dann führen von dort zwei Kanten weiter, nämlich zu den Knoten 0 und 1. DieseKanten sind mit Wahrscheinlichkeiten beschriftet, die sich zu Eins addieren. Gemäßdieser Wahrscheinlichkeiten entscheiden wir zufällig, wohin wir uns im nächsten Schrittbegeben.DWT 2.1 Einführung 394/476c○Ernst W. Mayr


Wir können auch die Frage beantworten, mit welcher Wahrscheinlichkeit wir uns zumZeitpunkt t = 2 im Knoten 1 befinden. Da wir vereinbarungsgemäß beim Knoten 1starten, gibt es zwei mögliche Wege der Länge zwei durch den Graphen mitEndknoten 1, nämlich ”111“ und ”101“. Die Wahrscheinlichkeiten für diese Wegelauten 0,9 · 0,9 = 0,9 2 bzw. 0,1 · 0,2. Insgesamt erhalten wir also eineWahrscheinlichkeit von 0,81 + 0,02 = 0,83.Auch eine Aussage über die erwartete Anzahl Schritte, die wir im Knoten 1 bis zumersten Übergang zu Knoten 0 verbleiben, ist schnell getroffen. Die Wahrscheinlichkeit,dass man genau k Schritte verbleibt, ist (0,9) k · 0,1. Die Anzahl Schritte ist alsogeometrisch verteilt mit Erfolgswahrscheinlichkeit 0,1. Der Erwartungswert ist daher1/0,1 = 10.DWT 2.1 Einführung 395/476c○Ernst W. Mayr


2.2 Berechnung von ÜbergangswahrscheinlichkeitenWir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wirals Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet dabei dieWahrscheinlichkeit, mit der sich die Kette nach t Schritten im Zustand i aufhält.Es giltn−1∑Pr[X t+1 = k] = Pr[X t+1 = k | X t = i] · Pr[X t = i],alsobzw. in Matrixschreibweisei=0n−1∑(q t+1 ) k = p ik · (q t ) i ,i=0q t+1 = q t · P.DWT 2.2 Berechnung von Übergangswahrscheinlichkeiten 396/476c○Ernst W. Mayr


Mit der Matrixschreibweise können wir q t einfach durch die Startverteilung q 0ausdrücken:q t = q 0 · P t .Ebenso gilt wegen der Zeithomogenität allgemein für alle t, k ∈ N:q t+k = q t · P k .Die Einträge von P k geben an, mit welcher Wahrscheinlichkeit ein Übergang vomZustand i zum Zustand j in genau k Schritten erfolgt.p (k)ij:= Pr[X t+k = j | X t = i] = (P k ) ij .DWT 2.2 Berechnung von Übergangswahrscheinlichkeiten 397/476c○Ernst W. Mayr


Exponentiation von MatrizenWenn P diagonalisierbar ist, so existiert eine Diagonalmatrix D und eine invertierbareMatrix B, so dass P = B · D · B −1 gilt. Diese erhalten wir durch Berechnung derEigenwerte und Eigenvektoren von P und durch Transformation von P in den Raumder Eigenvektoren.Dann giltP k = B · D k · B −1 .DWT 2.2 Berechnung von Übergangswahrscheinlichkeiten 398/476c○Ernst W. Mayr


Beispiel 132P =( 0,8) 0,20,1 0,9Durch Bestimmung der Nullstellen des charakteristischen Polynoms der Matrix(P − λ · I) erhalten wir die Eigenwerte 0,7 und 1, sowie die zugehörigen (rechten)Eigenvektorenν 1 =( ) −21und ν 2 =( 11).DWT 399/476c○Ernst W. Mayr


Beispiel 132DamitundD =Damit ergibt sich beispielsweiseP 3 =( ) 0,7 00 1( −2) ( 1 0,7301 1und B =( −B −1 1=313) ( −10 1 3 31313231323( ) −2 11 1).)≈( 0,562) 0,4380,219 0,781DWT 2.2 Berechnung von Übergangswahrscheinlichkeiten 399/476c○Ernst W. Mayr


2.3 Ankunftswahrscheinlichkeiten und ÜbergangszeitenBei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich aufzwei bestimmte Zustände i und j beziehen:Wie wahrscheinlich ist es, von i irgendwann nach j zu kommen?Wie viele Schritte benötigt die Kette im Mittel, um von i nach j zu gelangen?DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/476c○Ernst W. Mayr


Definition 133Die ZufallsvariableT ij := min{n ≥ 0 | X n = j, wenn X 0 = i}zählt die Anzahl der Schritte, die von der Markov-Kette für den Weg von i nach jbenötigt werden. T ij nennen wir die Übergangszeit (engl. hitting time) vom Zustand izum Zustand j. Wenn j nie erreicht wird, setzen wir T ij = ∞.Ferner definieren wir h ij := E[T ij ].Die Wahrscheinlichkeit, vom Zustand i nach beliebig vielen Schritten in den Zustand jzu gelangen, nennen wir Ankunftswahrscheinlichkeit f ij . Formal definieren wirf ij := Pr[T ij < ∞].DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 401/476c○Ernst W. Mayr


Im Fall i = j gilt T ii = 0 und somit auch h ii = 0, sowie f ii = 1. Anschaulich ist diesklar: Wenn Anfangs- und Zielzustand identisch sind, so ist die Übergangszeit gleichNull. Für viele Zwecke ist es andererseits auch interessant zu messen, wie lange esdauert, bis Zustand i zu einem späteren Zeitpunkt wieder besucht wird. Wir ergänzenDefinition 133 für diesen Fall.Definition 134Die ZufallsvariableT i := min{n ≥ 1 | X n = i, wenn X 0 = i}zählt die Anzahl Schritte, die von der Markov-Kette benötigt werden, um von i nach izurückzukehren (Rückkehrzeit, engl. recurrence time). Der Erwartungswert seih i := E[T i ]. Die Wahrscheinlichkeit, mit der T i einen endlichen Wert annimmt, nenntman Rückkehrwahrscheinlichkeit:f i := Pr[T i < ∞].DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 402/476c○Ernst W. Mayr


Beispiel 1351,01,00,5 0,50 1 2 30,5Beispiel zur Berechnung von f ij und h ij0,5Wir betrachten die obige Markov-Kette. Einige Besonderheiten fallen sofort auf:Beginnt man im Zustand 0, so kann man niemals einen der übrigen Zuständeerreichen. Die Übergangszeiten T 01 , T 02 und T 03 sind daher ∞.DWT 403/476c○Ernst W. Mayr


Beispiel 1351,01,00,5 0,50 1 2 30,5Beginnt man im Zustand 1, so entscheidet sich im ersten Schritt, ob die Kettesich zukünftig im linken Teil“ (Zustand 0) oder im rechten Teil“ (Zustand 2” ”und 3) aufhält. Für die Übergangszeit T 10 gilt daher{1 falls X 1 = 0,T 10 =∞ falls X 1 = 2.0,5Wegen Pr[X 1 = 0 | X 0 = 1] = 0,5 folgt f 10 = 0,5 und E[T 10 ] = ∞.DWT 403/476c○Ernst W. Mayr


Beispiel 1351,01,00,5 0,50 1 2 30,5Beginnt man im Zustand 2 oder 3, so wird die Kette auch weiterhin zwischen denZuständen 2 und 3 ”hin und her pendeln“. Genauer:Die Anzahl der Schritte, in denen die Kette im Zustand 3 bleibt, ist geometrischverteilt mit Parameter 0,5. Der Zustand 3 wird daher im Mittel nach 1/0,5 = 2Schritten verlassen. Da Zustand 2 der einzige Nachbar von 3 ist, folgt h 32 = 2und somit insbesondere auch f 32 = 1.0,5DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 403/476c○Ernst W. Mayr


Lemma 136Für die erwarteten Übergangs-/Rückkehrzeiten gilth ij = 1 + ∑ k≠jp ik h kj für alle i, j ∈ S, i ≠ j,h j = 1 + ∑ k≠jp jk h kj ,sofern die Erwartungswerte h ij und h kj existieren.Für die Ankunfts-/Rückkehrwahrscheinlichkeiten gilt analogf ij = p ij + ∑ k≠jp ik f kj für alle i, j ∈ S, i ≠ j;f j = p jj + ∑ k≠jp jk f kj .DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 404/476c○Ernst W. Mayr


Beweis:Sei i ≠ j. Wir bedingen auf das Ergebnis des ersten Schritts der Markov-Kette underhalten aufgrund der Gedächtnislosigkeit Pr[T ij < ∞ | X 1 = k] = Pr[T kj < ∞] fürk ≠ j sowie Pr[T ij < ∞ | X 1 = j] = 1.f ij = Pr[T ij < ∞] = ∑ k∈SPr[T kj < ∞ | X 1 = k] · p ik= p ij + ∑ k≠jPr[T kj < ∞] · p ik = p ij + ∑ k≠jp ik f kj .Die Ableitung für f j (also i = j) ist analog.DWT 405/476c○Ernst W. Mayr


Beweis:Sei wiederum i ≠ j. Wegen der Gedächtnislosigkeit folgt E[T ij | X 1 = k] = 1 + E[T kj ]für k ≠ j. Ferner gilt E[T ij | X 1 = j] = 1.Bedingen wir wieder auf das Ergebnis des ersten Schritts, so folgt (siehe Satz 36):h ij = E[T ij ] = ∑ k∈SE[T ij | X 1 = k] · p ik= p ij + ∑ k≠j(1 + E[T kj ]) · p ik = 1 + ∑ k≠jh kj · p ik .Wiederum ist die Herleitung für h j analog.DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 405/476c○Ernst W. Mayr


Beispiel 1371,01,00,5 0,50 1 2 30,50,5Für die Berechnung der Übergangszeiten für die Zustände 2 und 3 erhalten wir dieGleichungenh 2 = 1 + h 32 , h 3 = 1 + 1 2 · h 23undh 23 = 1, h 32 = 1 + 1 2 h 32 = 2 .Durch Lösen dieses Gleichungssystems erhalten wir die Werte h 2 = 3, h 3 = 1,5,h 23 = 1 und h 32 = 2, die man leicht verifiziert. Die Ankunftswahrscheinlichkeitenlassen sich analog herleiten. Man erhält f 2 = f 3 = f 23 = f 32 = 1.DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 406/476c○Ernst W. Mayr


2.4 Das Gambler’s Ruin ProblemAnna und Bodo spielen Poker, bis einer von ihnen bankrott ist. A verfügt überKapital a, und B setzt eine Geldmenge in Höhe von m − a aufs Spiel. Insgesamt sindalso m Geldeinheiten am Spiel beteiligt. In jeder Pokerrunde setzen A und B jeweilseine Geldeinheit. A gewinnt jedes Spiel mit Wahrscheinlichkeit p. B trägt folglich mitWahrscheinlichkeit q := 1 − p den Sieg davon. Wir nehmen an, dass dieseWahrscheinlichkeiten vom bisherigen Spielverlauf und insbesondere vom Kapitalstandder Spieler unabhängig sind.DWT 2.4 Das Gambler’s Ruin Problem 407/476c○Ernst W. Mayr


0½ Õ ÔWir modellieren das Spiel durchÕ Ô Ñ½ Ñ ½die Markov-KetteÕ Ô Õ Ô12 ¡¡¡A interessiert sich für die Wahrscheinlichkeit, mit der sie B in den Ruin treibt, also fürdie Wahrscheinlichkeit f a,m (wir schreiben hier der Deutlichkeit halber f i,j statt f ij ).Wir erhalten:f i,m = p · f i+1,m + q · f i−1,m für 1 ≤ i < m − 1, (10)f m−1,m = p + q · f m−2,m ,f 0,m = 0.DWT 2.4 Das Gambler’s Ruin Problem 408/476c○Ernst W. Mayr


Wir wollen nun f i,m allgemein als Funktion von m berechnen. Dazu beobachten wirzunächst, dass wir (10) wegen f m,m = 1 umschreiben können zuf i+1,m = (1/p) · f i,m − (q/p) · f i−1,m für 1 ≤ i < m. (11)Wir ergänzen (11) um die Anfangswertef 0,m = 0 und f 1,m = ξ.(Für den Moment fassen wir ξ als Variable auf. Nach Lösung der Rekursion werden wirξ so wählen, dass die Bedingung f m,m = 1 erfüllt ist.)DWT 2.4 Das Gambler’s Ruin Problem 409/476c○Ernst W. Mayr


Als Lösung dieser linearen homogenen Rekursionsgleichung 2. Ordnung (11) ergibt sichfür p ≠ 1/2:(f i,m =p · ξ ( ) )1 − pi2p − 1 · 1 −.pSetzen wir nun i = m, so folgt aus f m,m = 1, dassξ =(p · 1 −2p − 1(1−pp) m )gelten muss.DWT 2.4 Das Gambler’s Ruin Problem 410/476c○Ernst W. Mayr


Insgesamt erhalten wir somit das Ergebnis:f j,m =1 −1 −( ) j 1−pp(1−pp) m .Für p = 1/2 verläuft die Rechnung ähnlich.DWT 2.4 Das Gambler’s Ruin Problem 411/476c○Ernst W. Mayr


Beispiel 138Wir wollen berechnen, wie lange A und B im Mittel spielen können, bis einer vonihnen bankrott geht.h a,m eignet sich dazu i.a. nicht (warum?).Wir betrachten stattdessen:und setzenT ′i := ”Anzahl der Schritte von Zustand i nachZustand 0 oder m“d i := E[T ′i ].Offensichtlich gilt d 0 = d m = 0 und für 1 ≤ i < md i = qd i−1 + pd i+1 + 1 .DWT 2.4 Das Gambler’s Ruin Problem 412/476c○Ernst W. Mayr


Beispiel (Forts.)Wir betrachten nun nur den Fall p = q = 1/2 und erhaltend i = i · (m − i) für alle i = 0, . . . , m.Wegen d i ≤ mi ≤ m 2 folgt also, dass das Spiel unabhängig vom Startzustand imMittel nach höchstens m 2 Schritten beendet ist.DWT 2.4 Das Gambler’s Ruin Problem 413/476c○Ernst W. Mayr


2.5 Stationäre VerteilungReale dynamische Systeme laufen oft über eine lange Zeit. Für solche Systeme ist essinnvoll, das Verhalten für t → ∞ zu berechnen.Wir betrachten wieder die Markov-Kette aus unserem Beispiel. Wir hatten gezeigt,dass für die Übergangsmatrix P gilt:P = B · D · B −1 =( ) ( −2 1 7· 1001 1 0 1)( −1·3131323).DWT 2.5 Stationäre Verteilung 414/476c○Ernst W. Mayr


Daraus folgtP t = B · D t · B −1 =( ) (( −2 1 7 t )· 10)01 1 0 1 t ·( −13131323),und für t → ∞ erhalten wirlim P t =t→∞( −2 11 1)·( ) 0 0·0 1( −13131323) ( 1=3132323).DWT 2.5 Stationäre Verteilung 415/476c○Ernst W. Mayr


Für eine beliebige Startverteilung q 0 = (a, 1 − a) folgt( 1lim q t = lim q 0 · P t 2)= (a, 1 − a) ·3 3t→∞ t→∞1 23 3( 1=3 a + 1 3 (1 − a), 2 3 a + 2 )3 (1 − a) = ( 1 3 , 2 3 ).DWT 2.5 Stationäre Verteilung 416/476c○Ernst W. Mayr


Das System konvergiert also unabhängig vom Startzustand in eine feste Verteilung.Der zugehörige Zustandsvektor π = ( 1 3 , 2 3) hat eine interessante Eigenschaft:π · P = ( 1 3 , 2 ( ) 0,8 0,23 ) · = ( 1 0,1 0,9 3 , 2 3 ) = π.π ist also ein Eigenvektor der Matrix P zum Eigenwert 1 bezüglich Multiplikation vonlinks. Dies bedeutet: Wenn die Kette einmal den Zustandsvektor π angenommen hat,so bleibt dieser bei allen weiteren Übergängen erhalten.DWT 2.5 Stationäre Verteilung 417/476c○Ernst W. Mayr


Definition 139P sei die Übergangsmatrix einer Markov-Kette. Einen Zustandsvektor π mit π = π · Pnennen wir stationäre Verteilung der Markov-Kette.Besitzen alle Markov-Ketten die Eigenschaft, dass sie unabhängig vom Startzustand ineine bestimmte stationäre Verteilung konvergieren?Nein!DWT 2.5 Stationäre Verteilung 418/476c○Ernst W. Mayr


½ Õ Ô ½0 1 2Eine Markov-Kette mit absorbierenden ZuständenDie Abbildung zeigt die Kette aus dem ”gamblers ruin problem“ für m = 2. Man siehtsofort, dass hier sowohl π 1 = (1, 0, 0) als auch π 2 = (0, 0, 1) stationäre Verteilungensind. Die beiden Zustände 0 und 2 haben jeweils keine ausgehenden Kanten. SolcheZustände heißen absorbierend.DWT 2.5 Stationäre Verteilung 419/476c○Ernst W. Mayr


Definition 140Wir bezeichnen einen Zustand i als absorbierend, wenn aus ihm keine Übergängeherausführen, d.h. p ij = 0 für alle j ≠ i und folglich p ii = 1.Ein Zustand i heißt transient, wenn f i < 1, d.h. mit positiver Wahrscheinlichkeit1 − f i > 0 kehrt der Prozess nach einem Besuch von i nie mehr dorthin zurück.Ein Zustand i mit f i = 1 heißt rekurrent.DWT 2.5 Stationäre Verteilung 420/476c○Ernst W. Mayr


Definition 141Eine Markov-Kette heißt irreduzibel, wenn es für alle Zustandspaare i, j ∈ S eine Zahln ∈ N gibt, so dass p (n)ij> 0.Die Definition besagt anschaulich, dass jeder Zustand von jedem anderen Zustand ausmit positiver Wahrscheinlichkeit erreicht werden kann, wenn man nur genügend vieleSchritte durchführt. Dies ist bei endlichen Markov-Ketten genau dann der Fall, wennder gerichtete Graph des Übergangsdiagramms stark zusammenhängend ist.DWT 2.5 Stationäre Verteilung 421/476c○Ernst W. Mayr


Lemma 142Für irreduzible endliche Markov-Ketten gilt: f ij = Pr[T ij < ∞] = 1 für alle Zuständei, j ∈ S. Zusätzlich gilt auch, dass die Erwartungswerte h ij = E[T ij ] alle existieren.DWT 2.5 Stationäre Verteilung 422/476c○Ernst W. Mayr


Beweis:Wir betrachten zunächst den Beweis für die Existenz von h ij .Für jeden Zustand k gibt es nach Definition der Irreduzibilität ein n k , so dassp (n k)kj> 0. Wir halten n k fest und setzen n := max k n k und p := min k p (n k)kj.Von einem beliebigen Zustand aus gelangen wir nach höchstens n Schritten mitWahrscheinlichkeit mindestens p nach j. Wir unterteilen die Zeit in Phasen zun Schritten und nennen eine Phase erfolgreich, wenn während dieser Phase ein Besuchbei j stattgefunden hat. Die Anzahl von Phasen bis zur ersten erfolgreichen Phasekönnen wir durch eine geometrische Verteilung mit Parameter p abschätzen. Dieerwartete Anzahl von Phasen ist somit höchstens 1/p, und wir schließen h ij ≤ (1/p)n.Daraus folgt sofort, dass auch f ij = Pr[T ij < ∞] = 1.DWT 2.5 Stationäre Verteilung 423/476c○Ernst W. Mayr


Satz 143Eine irreduzible endliche Markov-Kette besitzt eine eindeutige stationäre Verteilung π,und es gilt π j = 1/h jj für alle j ∈ S.Beweis:Wir zeigen zunächst, dass es einen Vektor π ≠ 0 mit π = πP gibt. Sei e := (1, . . . , 1) Tder All-1-Vektor und I die Einheitsmatrix. Für jede Übergangsmatrix P gilt P · e = e,da sich die Einträge der Zeilen von P zu Eins addieren. Daraus folgt0 = P e − e = (P − I)e, und die Matrix P − I ist somit singulär. Damit ist auch dietransponierte Matrix (P − I) T = P T − I singulär. Es gibt also einen (Spalten-)Vektorπ ≠ 0 mit (P T − I) · π = 0 bzw. π T P = π T . Wir betrachten zunächst den Fall, dass∑∑ i π i ≠ 0. Dann können wir o.B.d.A. annehmen, dass π normiert ist, also dassi π i = 1 gilt.DWT 2.5 Stationäre Verteilung 424/476c○Ernst W. Mayr


Beweis (Forts.):Wegen Lemma 142 existieren die Erwartungswerte h ij . Für jeden Zustand j ∈ S geltensomit nach Lemma 136 die Gleichungen( ∑ )π i h ij = π i 1 + p ik h kj für i ∈ S, i ≠ j.k≠jWir addieren diese Gleichungen und erhalten wegen ∑ i π i = 1π j h j + ∑ π i h ij = 1 + ∑ ∑π i p ik h kji≠ji∈S k≠j= 1 + ∑ ∑h kj π i p ik = 1 + ∑ π k h kj .k≠j i∈S k≠jWegen h j > 0 ist auch π j = 1/h j positiv, und π stellt somit einen zulässigenZustandsvektor dar.Für den Fall ∑ i π i = 0 zeigt die entsprechende Rechnung wie zuvor, dass π j = 0 füralle j ∈ S gilt. Dies steht im Widerspruch zu π ≠ 0.DWT 2.5 Stationäre Verteilung 425/476c○Ernst W. Mayr


½½Auch wenn eine Markov-Kette irreduzibel ist und somit eine eindeutige stationäreVerteilung besitzt, so muss sie nicht zwangsläufig in diese Verteilung konvergieren.0 1Eine Markov-Kette mit periodischen ZuständenAls Startverteilung nehmen wir q 0{= (1, 0) an. Es gilt:(1, 0) falls t gerade,q t =(0, 1) sonst.Die Kette pendelt also zwischen den beiden Zustandsvektoren (1, 0) und (0, 1) hin undher.DWT 2.5 Stationäre Verteilung 426/476c○Ernst W. Mayr


Definition 144Die Periode eines Zustands j ist definiert als die größte Zahl ξ ∈ N, so dass gilt:{n ∈ N 0 | p (n)jj> 0} ⊆ {i · ξ | i ∈ N 0 }Ein Zustand mit Periode ξ = 1 heißt aperiodisch. Wir nennen eine Markov-Ketteaperiodisch, wenn alle Zustände aperiodisch sind.DWT 2.5 Stationäre Verteilung 427/476c○Ernst W. Mayr


Für ein n ∈ N gilt p (n)ii> 0 genau dann, wenn es im Übergangsdiagramm einengeschlossenen Weg von i nach i der Länge n gibt.Damit folgt insbesondere:Ein Zustand i ∈ S einer endlichen Markov-Kette ist sicherlich dann aperiodisch, wenner im Übergangsdiagrammeine Schleife besitzt (also p ii > 0) oderauf mindestens zwei geschlossenen Wegen W 1 und W 2 liegt, deren Längen l 1 undl 2 teilerfremd sind (für die also ggT(l 1 , l 2 ) = 1 gilt).DWT 2.5 Stationäre Verteilung 428/476c○Ernst W. Mayr


Lemma 145Ein Zustand i ∈ S ist genau dann aperiodisch, falls gilt: Es gibt ein n 0 ∈ N, so dassp (n)ii> 0 für alle n ∈ N, n ≥ n 0 .Beweis:Da je zwei aufeinanderfolgende natürliche Zahlen teilerfremd sind, folgt aus derExistenz eines n 0 mit der im Lemma angegebenen Eigenschaft sofort die Aperiodizitätdes Zustands. Nehmen wir daher umgekehrt an, dass der Zustand i aperiodisch ist. MitHilfe des erweiterten euklidischen Algorithmus kann man die folgende Aussage zeigen.Für je zwei natürliche Zahlen a, b ∈ N gibt es ein n 0 ∈ N, so dass gilt: Bezeichnetd := ggT(a, b) den größten gemeinsamen Teiler von a und b, so gibt es für allen ∈ N, n ≥ n 0 nichtnegative Zahlen x, y ∈ N 0 mit nd = xa + yb.DWT 2.5 Stationäre Verteilung 429/476c○Ernst W. Mayr


Beweis (Forts.):Wegen p (xa+yb)iisowohl p (a)ii≥ (p (a)ii) x · (p (b)als auch p (b)iiii )y folgt daraus unmittelbar: Gilt für a, b ∈ N, dasspositiv sind, so gilt auch p (nd)ii> 0 für alle n ∈ N, n ≥ n 0 .Aus der Aperiodizität des Zustand i folgt andererseits, dass es Werte a 0 , . . . , a k gebenmuss mit p (a i)ii> 0 und der Eigenschaft, dass für d 1 = ggT(a 0 , a 1 ) undd i := ggT(d i−1 , a i ) für i = 2, . . . , k gilt: d 1 > d 2 > · · · > d k = 1.Aus beiden Beobachtungen zusammen folgt die Behauptung.DWT 2.5 Stationäre Verteilung 430/476c○Ernst W. Mayr


Korollar 146Für irreduzible, aperiodische endliche Markov-Ketten gilt: Es gibt ein t ∈ N, so dassunabhängig vom Startzustand (q t ) i > 0 für alle i ∈ S.Beweis:Aus der Irreduzibilität folgt, dass die Markov-Kette jeden Zustand i ∈ S irgendwannbesuchen wird. Wegen Lemma 145 wissen wir ferner, dass die Kette hinreichend vieleSchritte nach dem ersten Besuch in i in jedem folgenden Zeitschritt mit positiverWahrscheinlichkeit zu i zurückkehren wird. Da die Kette endlich ist, gibt es daher einn 0 , so dass die Kette sich unabhängig vom Startzustand für alle n ≥ n 0 in jedemZustand i ∈ S mit positiver Wahrscheinlichkeit aufhält.DWT 2.5 Stationäre Verteilung 431/476c○Ernst W. Mayr


½¼Die Aperiodizität einer irreduziblen Markov-Kette kann auf einfache Weisesichergestellt werden. Man fügt an alle Zustände so genannte Schleifen an. Diese¼¿ ¼ ½¼ ¼ ¼ ¼¼½ ¼¿ ¼ ¼versieht man mit der Übergangswahrscheinlichkeit p = 1/2 und halbiert dieWahrscheinlichkeiten an allen übrigen Kanten.0 1 20 1 2Einführung von SchleifenBei irreduziblen Ketten genügt es, eine einzige Schleife einzuführen, um dieAperiodizität der Kette sicherzustellen.Definition 147Irreduzible, aperiodische Markov-Ketten nennt man ergodisch.DWT 2.5 Stationäre Verteilung 432/476c○Ernst W. Mayr


Satz 148 (Fundamentalsatz für ergodische Markov-Ketten)Für jede ergodische endliche Markov-Kette (X t ) t∈N0 gilt unabhängig vom Startzustandlim q n = π,n→∞wobei π die eindeutige stationäre Verteilung der Kette bezeichnet.Beweis:Gemäß Satz 143 existiert eine stationäre Verteilung π. Wir zeigen, dass für beliebigeZustände i und k giltp (n)ik → π k für n → ∞.Daraus folgt die Behauptung, da(q n ) k = ∑ i∈S(q 0 ) i · p (n)ik→ π k · ∑(q 0 ) i = π k .i∈SDWT 2.5 Stationäre Verteilung 433/476c○Ernst W. Mayr


Beweis (Forts.):(Y t ) t∈N0 sei eine unabhängige Kopie der Kette (X t ) t∈N0 . Für den ProzessZ t := (X t , Y t ) (t ∈ N 0 ), bei dem die Ketten X t und Y t gewissermaßen ”parallel“betrieben werden, gilt alsoPr[(X t+1 , Y t+1 ) = (j x , j y ) | (X t , Y t ) = (i x , i y )]= Pr[X t+1 = j x | X t = i x ] · Pr[Y t+1 = j y | Y t = i y ]= p ixj x· p iyj y.(Z t ) t∈N0 ist daher ebenfalls eine Markov-Kette. Für die Wahrscheinlichkeit, in nSchritten von (i x , i y ) nach (j x , j y ) zu gelangen, erhält man analog p (n)i xj xp (n)i yj y, was fürgenügend großes n gemäß Lemma 145 positiv ist. (Z t ) t0 ∈N ist daher ebenfallsergodisch.DWT 2.5 Stationäre Verteilung 434/476c○Ernst W. Mayr


Beweis (Forts.):Wir starten nun Z t so, dass die Ketten X t und Y t in verschiedenen Zuständen i x bzw.i y beginnen, und interessieren uns für den Zeitpunkt H, bei dem sich X t und Y t zumersten Mal im gleichen Zustand befinden.Die Menge der Zustände von Z t ist gegeben durch S × S. Wir definieren die MengeM := {(x, y) ∈ S × S | x = y}.von Zuständen der Kette Z t , an denen sich X t und Y t treffen“. Definieren wir nun die”Treffzeit H durchH := max{T (ix,iy),(j x,j y) | (i x , i y ) ∈ S × S, (j x , j y ) ∈ M},so folgt aus Lemma 142 und der Endlichkeit der Markov-Kette sofort, dassPr[H < ∞] = 1 und E[H] < ∞.DWT 2.5 Stationäre Verteilung 435/476c○Ernst W. Mayr


Beweis (Forts.):Da die weitere Entwicklung der Ketten X t und Y t ab dem Zeitpunkt H nur vomZustand X H = Y H und der Übergangsmatrix abhängt, wird jeder Zustand s ∈ S Z zuden Zeiten t ≥ H von X t und Y t mit derselben Wahrscheinlichkeit angenommen. Esgilt also Pr[X t = s | t ≥ H] = Pr[Y t = s | t ≥ H] und somit auchPr[X t = s, t ≥ H] = Pr[Y t = s, t ≥ H]. (12)Als Startzustand wählen wir für die Kette X t den Zustand i, während Y t in derstationären Verteilung π beginnt (und natürlich auch bleibt). Damit erhalten wir füreinen beliebigen Zustand k ∈ S und n ≥ 1|p (n)ik − π k| = |Pr[X n = k] − Pr[Y n = k]|= |Pr[X n = k, n ≥ H] + Pr[X n = k, n < H]−Pr[Y n = k, n ≥ H] − Pr[Y n = k, n < H]|.DWT 2.5 Stationäre Verteilung 436/476c○Ernst W. Mayr


Beweis (Forts.):Nun können wir (12) anwenden und schließen, dass|p (n)ik− π k| = |Pr[X n = k, n < H] − Pr[Y n = k, n < H]|.Zur Abschätzung dieses Ausdrucks benutzen wir die Abschätzung|Pr[A ∩ B] − Pr[A ∩ C]| ≤ Pr[A].für beliebige Ereignisse A, B und C (die offensichtlich ist).Wir erhalten|p (n)ik− π k| ≤ Pr[n < H].Da Pr[H < ∞] = 1, gilt Pr[n < H] → 0 für n → ∞, d.h. die Wahrscheinlichkeitenp (n)ik konvergieren für n → ∞ gegen π k.DWT 2.5 Stationäre Verteilung 437/476c○Ernst W. Mayr


2.6 Doppeltstochastische MatrizenWie berechnet man die nach Satz 148 (eindeutig bestimmte) stationäre Verteilung,gegen die ergodische endliche Markov-Ketten für jede Startverteilung konvergieren?Eine Möglichkeit besteht darin, das lineare Gleichungssystem π · P = π aufzustellenund zu lösen. Für größere Matrizen ist dieses Verfahren allerdings im Allgemeinen sehraufwändig.Wir stellen hier einen anderen Ansatz vor.DWT 2.6 Doppeltstochastische Matrizen 438/476c○Ernst W. Mayr


Definition 149Eine n × n Matrix P = (p ij ) 0≤i,j


Lemma 150Ist P eine doppeltstochastische n × n Matrix, so ist π = ( 1 n , . . . , 1 n) ein Eigenvektorzum Eigenwert 1 bezüglich Multiplikation von links:π = π · P.Beweis:Für alle 0 ≤ k < n gilt:n−1∑(π · P ) k = π i · p ik = 1 n−1∑p ik = 1 n n = π k.i=0i=0} {{ }= 1DWT 2.6 Doppeltstochastische Matrizen 440/476c○Ernst W. Mayr


Zusammen mit Satz 148 erhalten wir damit sofort:Satz 151Für jede ergodische endliche Markov-Kette (X t ) t∈N0Übergangsmatrix gilt unabhängig vom Startzustandmit doppeltstochastischerlim q t = ( 1t→∞ n , . . . , 1 n ),wobei n die Kardinalität der Zustandsmenge bezeichne.Beweis:Klar!DWT 2.6 Doppeltstochastische Matrizen 441/476c○Ernst W. Mayr


Beispiel 152Anna und Bodo verabreden sich wieder einmal zu einer Partie Poker. Misstrauischgeworden durch ihre Verluste beim letzten Rendezvous verdächtigt Anna mittlerweileihren Spielpartner, beim Mischen zu mogeln. Um ganz sicher zu gehen, dass die Kartenzukünftig auch wirklich gut gemischt werden, schlägt sie folgendes Verfahren vor: DerStapel mit Karten wird verdeckt hingelegt; dann werden m-mal jeweils zwei Kartendaraus zufällig ausgewählt und vertauscht. Soll Bodo dieser Prozedur zustimmen?DWT 442/476c○Ernst W. Mayr


Beispiel 152Wir modellieren den oben skizzierten Mischvorgang durch eine Markov-Kette. AlsZustandsmenge S wählen wir alle möglichen Anordnungen der Karten. Identifizierenwir die Karten mit den Zahlen [n] = {1, . . . , n}, so besteht S aus der Menge allerPermutationen der Menge [n].Betrachten wir nun zwei verschiedene Permutationen σ, ρ ∈ S. Nach Definition derMarkov-Kette ist die Übergangswahrscheinlichkeit p σ,ρ genau dann positiv, wenn esi, j ∈ [n], i ≠ j, gibt, so dass⎧⎪⎨ σ(j) falls k = i,ρ(k) = σ(i) falls k = j,⎪⎩σ(k) sonst.DWT 442/476c○Ernst W. Mayr


Beispiel 152Da nach Voraussetzung i und j zufällig gewählt werden (und es genau ( n2)solcherPaare i, j gibt), gilt in diesem Fall p σ,ρ = 1/ ( n2).Da man jede Vertauschung zweier Karten durch nochmaliges Vertauschen wiederrückgängig machen kann, sieht man auch sofort ein, dass p σ,ρ = p ρ,σ gilt. DieÜbergangsmatrix P ist also symmetrisch und damit insbesondere auchdoppeltstochastisch. Aus Satz 151 folgt somit, dass die Markov-Kette unabhängig vonder Startverteilung zur Gleichverteilung konvergiert.Der von Anna vorgeschlagene Mischvorgang ist also in der Tat sinnvoll: Für m → ∞konvergiert die Wahrscheinlichkeitsverteilung für die sich ergebende Kartenreihenfolgegegen die Gleichverteilung, die Karten sind also bestens gemischt!DWT 442/476c○Ernst W. Mayr


Beispiel 152Anmerkung: Man kann zeigen, dass für n Karten bereits m = O(n log n)Vertauschungen genügen, um einen gut durchmischten Kartenstapel zu erhalten.DWT 2.6 Doppeltstochastische Matrizen 442/476c○Ernst W. Mayr


3. Prozesse mit kontinuierlicher Zeit3.1 EinführungWir betrachten nun Markov-Ketten (X(t)) t∈R+ .0Wie beim Übergang von der geometrischen zur Exponentialverteilung können wir unsauch hier einen Grenzprozess vorstellen.Wie dort folgt, dass die Aufenthaltsdauer im Zustand 0 gemessen in Schritten derdiskreten Markov-Kette geometrisch verteilt ist und im Grenzwert n → ∞ in einekontinuierliche Zufallsvariable übergeht, die exponentialverteilt mit Parameter λ ist.Den Parameter λ bezeichnen wir auch als Übergangsrate.DWT 3.1 Einführung 443/476c○Ernst W. Mayr


0 1Abbildung: Markov-Kette mit kontinuierlicher ZeitDWT 3.1 Einführung 444/476c○Ernst W. Mayr


Definition 153Eine unendliche “Folge” von Zufallsvariablen X(t) (t ∈ R + 0 ) mit Wertemenge Snennen wir (diskrete) Markov-Kette mit kontinuierlicher Zeit, wenn gilt:S ist diskret, d.h. wir können ohne Einschränkung annehmen, dass S ⊆ N 0 .Die Zufallsvariablen erfüllen die Markovbedingung:Für alle n ∈ N 0 und beliebige Zeitpunkte 0 ≤ t 0 < t 1 < . . . < t n < t undZustände s, s 0 , . . . , s n ∈ S giltPr[X(t) = s | X(t n ) = s n , . . . , X(t 0 ) = s 0 ] =Pr[X(t) = s | X(t n ) = s n ]. (13)Eine Markov-Kette heißt zeithomogen, wenn für alle Zustände i, j ∈ S und für alleu, t ∈ R + 0 gilt: Pr[X(t + u) = j | X(t) = i] = Pr[X(u) = j | X(0) = i]DWT 3.1 Einführung 445/476c○Ernst W. Mayr


Die Markov-Bedingung (13) besagt anschaulich Folgendes: Wenn wir den Zustand desSystems zu einer Reihe von Zeitpunkten t 0 < t 1 < . . . < t n kennen, so ist für dasVerhalten nach dem Zeitpunkt t n nur der Zustand zur Zeit t n maßgebend. Andersformuliert heißt dies: Wenn wir den Zustand des Systems zur Zeit t n kennen, sobesitzen wir bereits die gesamte relevante Information, um Wahrscheinlichkeiten fürdas zukünftige Verhalten zu berechnen. Die ”Geschichte“ des Systems, d.h. der” Weg“, auf dem der Zustand zur Zeit t n erreicht wurde, spielt dabei keine Rolle. EineMarkov-Kette mit kontinuierlicher Zeit ist also ebenso wie eine Markov-Kette mitdiskreter Zeit gedächtnislos.Wie schon bei diskreten Markov-Ketten werden wir uns auch bei Markov-Ketten mitkontinuierlicher Zeit auf zeithomogene Markov-Ketten beschränken und dieseEigenschaft im Folgenden stillschweigend voraussetzen.DWT 3.1 Einführung 446/476c○Ernst W. Mayr


Gedächtnislosigkeit der AufenthaltsdauerSei Y die Aufenthaltsdauer in einem bestimmten Zustand, in dem sich dieMarkov-Kette zur Zeit t = 0 befindet. Es gilt:Pr[Y ≥ t] = Pr[X(t ′ ) = 0 für alle 0 < t ′ < t | X(0) = 0]= Pr[X(t ′ + u) = 0 für alle 0 < t ′ < t | X(u) = 0]= Pr[X(t ′ + u) = 0 für alle 0 < t ′ < t | X(t ′′ ) = 0 f. a. 0 ≤ t ′′ ≤ u]= Pr[X(t ′ ) = 0 für alle 0 < t ′ < t + u | X(t ′′ ) = 0 f. a. 0 ≤ t ′′ ≤ u]= Pr[Y ≥ t + u | Y ≥ u].Die Aufenthaltsdauer Y erfüllt also die Bedingung der Gedächtnislosigkeit und mussdaher nach Satz 105 exponentialverteilt sein.DWT 3.1 Einführung 447/476c○Ernst W. Mayr


Bestimmung der AufenthaltswahrscheinlichkeitenWie zuvor bei Markov-Ketten mit diskreter Zeit interessieren wir uns auch beikontinuierlichen Markov-Ketten für die Wahrscheinlichkeit, mit der sich das System zurZeit t in einem bestimmten Zustand befindet. Dazu gehen wir von einer Startverteilungq(0) mit q i (0) := Pr[X(0) = i] für alle i ∈ S aus und definieren dieAufenthaltswahrscheinlichkeit q i (t) im Zustand i zum Zeitpunkt t durchq i (t) := Pr[X(t) = i].Zur Bestimmung dieser Wahrscheinlichkeiten verwenden wir zum einen die soebengezeigte Tatsache, dass die Aufenthaltsdauer in jedem Zustand i exponentialverteiltsein muss.Weiter bezeichnen wir mit ν ij die Übergangsrate vom Zustand i in den Zustand j,sowie ν i := ∑ j∈S ν ij.DWT 3.1 Einführung 448/476c○Ernst W. Mayr


Wir betrachten nun ein kleines Zeitintervall d t. Dann ergibt sich die Änderung derAufenthaltswahrscheinlichkeit in diesem Zeitintervall als Summe aller ”zufließenden“abzüglich aller ”abfließenden“ Wahrscheinlichkeiten. Für alle Zustände i ∈ S giltd q i (t)} {{ }Änderung= ( ∑ jq j (t) · ν ji − q i (t)ν i ) · d t. (14)} {{ }Zufluss} {{ }AbflussDWT 3.1 Einführung 449/476c○Ernst W. Mayr


Das Lösen des Differentialgleichungssystems (14) ist meist sehr aufwändig. Wir werdenes im Folgenden durch Betrachtung des Grenzwertes für t → ∞ zu gewöhnlichenlinearen Gleichungen vereinfachen.Definition 154Zustand j ist von i aus erreichbar, wenn es ein t ≥ 0 gibt mitPr[X(t) = j | X(0) = i] > 0 .Eine Markov-Kette, in der je zwei Zustände i und j untereinander erreichbar sind, heißtirreduzibel.DWT 3.1 Einführung 450/476c○Ernst W. Mayr


Satz 155Für irreduzible kontinuierliche Markov-Ketten existieren die Grenzwerteπ i = limt→∞q i (t)für alle i ∈ S, und ihre Werte sind unabhängig vom Startzustand.Ohne Beweis.DWT 3.1 Einführung 451/476c○Ernst W. Mayr


Wenn für t → ∞ Konvergenz erfolgt, so giltd q i (t)lim = 0,t→∞ d tda sich q i (t) für genügend große t ”so gut wie nicht mehr“ ändert. Diese Gleichungsetzen wir in die Differentialgleichungen (14) ein und erhalten0 = ∑ jπ j ν ji − π i ν ifür alle i ∈ S.DWT 3.1 Einführung 452/476c○Ernst W. Mayr


Dieses Gleichungssystem hat immer die triviale Lösung π i = 0 für alle i ∈ S. Wirsuchen jedoch eine Wahrscheinlichkeitsverteilung, und π muss deshalb zusätzlich dieNormierungsbedingung ∑ i∈S π i = 1 erfüllen. Bei Markov-Ketten mit endlicherZustandsmenge S führt dieses Verfahren immer zum Ziel. Wenn S jedoch unendlichist, gibt es Fälle, in denen π 1 = π 2 = . . . = 0 die einzige Lösung darstellt und wir somitkeine gültige Wahrscheinlichkeitsverteilung erhalten.DWT 3.1 Einführung 453/476c○Ernst W. Mayr


3.2 WarteschlangenFür ein System mit m Servern und einer gemeinsamen Warteschlange hat sich dieBezeichnung X/Y/m–Warteschlange eingebürgert. Dabei ersetzt man X und Y durchBuchstaben, die jeweils für eine bestimmte Verteilung stehen. Beispielsweise bezeichnet” D“ eine feste Dauer (von engl. deterministic), M“ die Exponentialverteilung (das M”kommt von memoryless, dem englischen Wort für gedächtnislos) und G“ eine ”beliebige Verteilung (von engl. general). X gibt die Verteilung der Zeit zwischen zweiankommenden Jobs an, während Y für die Verteilung der eigentlichen Bearbeitungszeiteines Jobs auf dem Server steht (ohne Wartezeit).DWT 3.2 Warteschlangen 454/476c○Ernst W. Mayr


3.2.1 M/M/1–Warteschlangen Abbildung: Modellierung einer M/M/1–Warteschlange0 1 2 3 ¡¡¡DWT 3.2 Warteschlangen 455/476c○Ernst W. Mayr


Diese Markov-Kette ist irreduzibel, und im Gleichgewichtszustand gelten dieGleichungen0 = λπ k−1 + µπ k+1 − (λ + µ)π k für alle k ≥ 10 = µπ 1 − λπ 0 .Wir definieren die Verkehrsdichte ρ := λ µund erhalten:π k = ρπ k−1 = . . . = ρ k π 0 .Damit:1 =∞∑∞∑π i = π 0 · ρ i 1= π 0 ·1 − ρi=0i=0⇒ π 0 = 1 − ρ.DWT 3.2 Warteschlangen 456/476c○Ernst W. Mayr


Dabei haben wir angenommen, dass ρ < 1 ist. Für ρ ≥ 1 konvergiert das System nicht.Da in diesem Fall λ ≥ µ gilt, kommen die Jobs schneller an, als sie abgearbeitetwerden können. Intuitiv folgt daraus, dass die Warteschlange immer größer wird.Für ρ < 1 erhalten wir als Endergebnisπ k = (1 − ρ)ρ k für alle k ∈ N 0 .DWT 3.2 Warteschlangen 457/476c○Ernst W. Mayr


Aus diesem Resultat können wir einige interessante Schlussfolgerungen ziehen.Zunächst betrachten wir die ZufallsvariableN := Anzahl der Jobs im System (wartend + in Bearbeitung).Für N gilt (die Berechnung von E[N] und Var[N] erfolgt mit den schon bei dergeometrischen Verteilung in Abschnitt 3 verwendeten Summenformeln)E[N] = ∑ k≥0k · π k =ρ1 − ρund Var[N] =ρ(1 − ρ) 2 . (15)DWT 3.2 Warteschlangen 458/476c○Ernst W. Mayr


Abbildung 4 zeigt E[N] als Funktion von ρ. Man erkennt, wie das System für ρ → 1divergiert.Æ℄60,050,040,0Æ℄30,020,010,00,00,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0Abbildung: Mittlere Anzahl der Jobs in einer M/M/1–WarteschlangeDWT 3.2 Warteschlangen 459/476c○Ernst W. Mayr


Für eine weitergehende Analyse der Leistung des Systems definieren wir für den i-tenJob (bezüglich der Reihenfolge, mit der die Jobs im System ankommen):R i := Antwortzeit (Gesamtverweildauer im System).Der Wert von R i hängt natürlich vom Zustand des Systems zur Ankunftszeit des Jobsab. Betrachten wir das System jedoch im Gleichgewichtszustand, so können wir denIndex i auch weglassen und einfach von der Antwortzeit R sprechen.Bei der Berechnung von R hilft uns der folgende Satz.Theorem 156(Formel von Little) Für Warteschlangen-Systeme mit mittlerer Ankunftsrate λ, beidenen die Erwartungswerte E[N] und E[R] existieren, giltE[N] = λ · E[R].Hierbei werden keine weiteren Annahmen über die Verteilung der Ankunfts- undBearbeitungszeiten getroffen.DWT 3.2 Warteschlangen 460/476c○Ernst W. Mayr


Beweis:[(Skizze)]Wir beobachten das System über einen (langen) Zeitraum (sieheAbbildung 5). In einer Zeitspanne der Länge t 0 seien n(t 0 ) Anforderungen eingetroffen.N(t) gibt die Anzahl der Jobs an, die sich zum Zeitpunkt t im System befinden. Nunbetrachten wir die beiden Größenn(t 0 )∑i=1R iund∫ t00N(t) d t.Beide Größen messen ”ungefähr“ die in Abbildung 5 grau gefärbte Fläche.DWT 3.2 Warteschlangen 461/476c○Ernst W. Mayr


N(t)Job 1Job N−2Job 2Job N−1Job 3Job NJob 432100 11 00 11t0000000000111111111100 1100 11t0...Abbildung: Graphik zum Beweis des Satzes von LittleDWT 3.2 Warteschlangen 462/476c○Ernst W. Mayr


Beweis (Forts.):Die rechte Größe misst sogar genau diese Fläche, bei der Summe wird hingegen beiden Jobs, die zur Zeit t 0 noch im System sind, die gesamte Aufenthaltsdauer gezählt,statt nur der Anteil bis zum Zeitpunkt t 0 . Für große t 0 ist der Unterschied dieserbeiden Größen aber vernachlässigbar. Führt man daher den Grenzübergang t 0 → ∞durch und normiert beide Größen mit 1/n(t 0 ), erhält manlimt 0 →∞n(t 0 )1 ∑n(t 0 )i=1R i = limt 0 →∞∫1 t0N(t) d tn(t 0 ) 0t 0= limt 0 →∞ n(t 0 ) · 1 ∫ t0N(t) d t.t 00DWT 3.2 Warteschlangen 463/476c○Ernst W. Mayr


Beweis (Forts.):Mitund λ(t 0 ) := n(t 0)t 0sofort die Behauptung.R(t 0 ) := 1n(t 0 )∑R i ,n(t 0 )i=1erhalten wir daraus wegenλ = lim λ(t n(t 0 )0) = lim ,t 0 →∞ t 0 →∞ t 0E[R] = lim R(t 10) = limt 0 →∞ t 0 →∞ n(t 0 )N(t 0 ) := 1 ∫ t0N(t) d tt 00n∑i=1R i∫E[N] = lim N(t 1 t00) = lim N(t) d tt 0 →∞ t 0 →∞ t 0 0undDWT 3.2 Warteschlangen 464/476c○Ernst W. Mayr


Bei der Berechnung von E[R] haben wir verwendet, dass sich für langeBeobachtungszeiträume die relative Häufigkeit immer mehr dem Erwartungswertannähert. Man vergleiche dies mit dem Gesetz der großen Zahlen, Satz 63. Bei denZufallsvariablen R i ist allerdings die Unabhängigkeit nicht gesichert und ein formalkorrekter Beweis von E[R] = lim t0 →∞ R(t 0 ) würde deshalb aufwändiger.E[N] = lim t0 →∞ N(t 0 ) gilt aufgrund ähnlicher Überlegungen.Die obige Argumentation ist zweifellos ein wenig informell, sie sollte jedoch ausreichen,um die Hintergründe des Satzes zu verdeutlichen.DWT 3.2 Warteschlangen 465/476c○Ernst W. Mayr


Mit Satz 156 ist die Berechnung von E[R] für die Markov-Kette aus Abbildung 3 keinProblem mehr. Aus (15) folgtE[R] = E[N]λ = ρλ(1 − ρ) . (16)Manchmal sieht man statt R auch die leicht abgewandelte GrößeW := (reine) Wartezeit.Wegen der Linearität des Erwartungswerts ist die Berechnung von E[W ] fürM/M/1–Warteschlangen kein Problem:E[W ] = E[R] − 1 µ =ρµ(1 − ρ) . (17)DWT 3.2 Warteschlangen 466/476c○Ernst W. Mayr


3.3 Birth-and-Death ProzesseM/M/1-Warteschlangen stellen einen Spezialfall so genannter Birth-and-DeathProzesse dar. Darunter versteht man kontinuierliche Markov-Ketten mit einemÜbergangsdiagramm der in Abbildung 6 angegebenen Form.DWT 3.3 Birth-and-Death Prozesse 467/476c○Ernst W. Mayr


¼½ ¼½¾ ½¾ ¿ ¾¿ ¿ ¡¡¡Abbildung: Ein Birth-and-Death ProzessDWT 3.3 Birth-and-Death Prozesse 468/476c○Ernst W. Mayr


Bei solchen Prozessen erhalten wir das folgende Gleichungssystem für denGleichgewichtszustand:0 = λ k−1 π k−1 + µ k+1 π k+1 − (λ k + µ k )π k für alle k ≥ 1,0 = µ 1 π 1 − λ 0 π 0 .Dieses System können wir mit derselben Technik wie bei den M/M/1-Warteschlangenauflösen und erhaltenk−1∏ λ iπ k = π 0 · für alle k ≥ 1. (18)µ i+1i=0DWT 3.3 Birth-and-Death Prozesse 469/476c○Ernst W. Mayr


Die Normierungsbedingung ∑ k≥0 π k = 1 liefertπ 0 =1 + ∑ k≥11∏ k−1i=0, (19)λ iµ i+1sofern ∑ ∏ k−1 λ ik≥1 i=0 µ i+1nicht divergiert. Ansonsten hat das Gleichungssystemwiederum nur die triviale Lösung π 0 = π 1 = . . . = 0.DWT 3.3 Birth-and-Death Prozesse 470/476c○Ernst W. Mayr


Viele interessante Probleme lassen sich einfach als Birth-and-Death Prozessmodellieren. Wir betrachten zwei Beispiele.Beispiel 157Abbildung 7 zeigt eine M/M/1-Warteschlange mit beschränktem Warteraum. Dieserliegt das Modell zu Grunde, dass ankommende Jobs nur dann ins System aufgenommenwerden, wenn im aktuellen Zustand weniger als N Jobs auf ihre Bearbeitung warten.Neben den klassischen Beispielen einer Arztpraxis oder Ähnlichem ist dieses Modellauch für viele Probleme in der Informatik zutreffend, da hier für die Verwaltung der aufBearbeitung wartenden Jobs oft fest dimensionierte Arrays vorgesehen werden.DWT 3.3 Birth-and-Death Prozesse 471/476c○Ernst W. Mayr


Beispiel¼ ½ ¾ ¿ ¡¡¡ ÆAbbildung: M/M/1-Warteschlange mit beschränktem WarteraumDWT 3.3 Birth-and-Death Prozesse 472/476c○Ernst W. Mayr


BeispielDie Verteilung im Gleichgewichtszustand erhalten wir sofort, in dem wir in (18) und(19) die entsprechenden Werte für λ i und µ i einsetzen:π k = ρ k · π 0für alle 1 ≤ k ≤ N mit ρ = λ/µundπ 0 =11 + ∑ Ni=1 ρi = 1{ 1∑ = N+1für ρ = 1,Ni=0 ρi sonst.1−ρ1−ρ N+1In diesem Fall konvergiert das System für alle Werte von ρ in einen stationärenZustand. Auch für ρ ≥ 1 kann die Warteschlange nicht beliebig lang werden, da imZustand N keine weiteren Jobs mehr entgegengenommen werden. Für ρ < 1 undN → ∞ konvergiert das System gegen eine ”normale“ M/M/1-Warteschlange.DWT 3.3 Birth-and-Death Prozesse 473/476c○Ernst W. Mayr


Beispiel 158Wir modellieren ein Anfragesystem mit einem einzelnen Server, an den M Terminalsangeschlossen sind. An den Terminals treffen Anfragen mit der Rate λ ein und werdenan den Server weitergeleitet. Wenn ein Terminal eine Anfrage abgeschickt hat, dienoch nicht bearbeitet wurde, so bleibt es blockiert, bis es eine Antwort vom Servererhalten hat.Wir stellen dieses System durch eine kontinuierliche Markov-Kette dar, deren ZuständeS = {0, . . . , M} der Anzahl von Anfragen entsprechen, die gerade beim Server inBearbeitung sind (die Bearbeitungsrate bezeichnen wir wieder wie gewohnt mit µ).Im Zustand 0 treffen beim Server Anfragen mit der Rate Mλ ein, da sich die Anfragenaller M Terminals addieren. Im Zustand i warten i Terminals auf Antwort vom Serverund sind deshalb blockiert. Somit muss der Server nur noch eine Anfragerate von(M − i)λ entgegennehmen. Abbildung 8 zeigt das resultierende System.DWT 3.3 Birth-and-Death Prozesse 474/476c○Ernst W. Mayr


BeispielÅ ´Å ½µ´Å ¾µ´Å ¿µ ¡¡¡ Å0 1 2 3Abbildung: Markov-Kette zu einem Server mit M TerminalsDWT 3.3 Birth-and-Death Prozesse 475/476c○Ernst W. Mayr


BeispielAuch hier finden wir die stationäre Verteilung durch Einsetzen der entsprechendenWerte für λ i und µ i in (18) und (19):k−1∏π k = π 0 ·i=0λ(M − i)µ( ) λ k= π 0 · · M k für alle k ≥ 1µundπ 0 =∑ Mk=01(λµ) k.· M kHierbei bezeichnet M k := M(M − 1) . . . (M − k + 1) die k-te fallende Faktoriellevon M (siehe Vorlesung DS).DWT 3.3 Birth-and-Death Prozesse 476/476c○Ernst W. Mayr

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!