06.10.2013 Aufrufe

Schließende Statistik - Fachrichtung Mathematik

Schließende Statistik - Fachrichtung Mathematik

Schließende Statistik - Fachrichtung Mathematik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Schließende</strong> <strong>Statistik</strong><br />

[statistical inference]<br />

Sollen auf der Basis von empirischen Untersuchungen (Daten)<br />

Erkenntnisse gewonnen und Entscheidungen gefällt werden,<br />

sind die Methoden der <strong>Statistik</strong> einzusetzen.<br />

<strong>Statistik</strong><br />

✄ Beschreibende <strong>Statistik</strong><br />

✄ Beschreibung von Daten (Deskription)<br />

✄ Generierung von Hypothesen (Exploration)<br />

✄ <strong>Schließende</strong> <strong>Statistik</strong>: Schluss von den Daten einer<br />

Stichprobe auf die Grundgesamtheit<br />

1


Grundlage der schließenden <strong>Statistik</strong> ist ein stochastisches<br />

Modell für die Verhältnisse in der Grundgesamtheit.<br />

Aufgaben der schließenden <strong>Statistik</strong>:<br />

– möglichst gute Anpassung eines Modells an die<br />

beobachteten Daten (die Realität); Schätzung des Modells.<br />

– Überprüfung von Modellannahmen (Hypothesen) über die<br />

Grundgesamtheit; z.B. über die Verteilungen der<br />

Merkmalsausprägungen interessierender Merkmale in der<br />

Grundgesamtheit. Zur Anwendung kommen<br />

Entscheidungsregeln (z.B. Signifikanztests), die auf der<br />

Basis der vorliegenden Stichprobendaten zu<br />

Entscheidungen über diese Annahmen führen.<br />

2


<strong>Schließende</strong> <strong>Statistik</strong> (Inferenzstatistik,<br />

konfirmatorische Verfahren)<br />

Hauptrichtungen:<br />

– Schätzen [estimation of parameters] unbekannter<br />

Parameter im Modell, z.B. Wahrscheinlichkeiten (Anteile<br />

in der Grundgesamtheit), Erwartungswerte<br />

(Durchschnittswerte in der Grundgesamtheit) oder<br />

allgemein von Verteilungen interessierender Merkmale in<br />

der Grundgesamtheit.<br />

– Testen [testing of hypotheses] von Hypothesen über<br />

diese Parameter bzw. Verteilungen, d.h. über die<br />

Angepasstheit eines Modells und damit schließlich über die<br />

interessierenden Verhältnisse in der Grundgesamtheit.<br />

3


Jeder Schluss von einer Teilerhebung (Stichprobe) auf die<br />

Grundgesamtheit ist mit Unsicherheiten verbunden. Die<br />

wahrscheinlichkeitstheoretischen Modelle ermöglichen es,<br />

diese Unsicherheiten zu quantifizieren.<br />

Beispiel: GSTAT (Fred Böker: <strong>Statistik</strong> lernen am PC<br />

Vandenhoeck & Ruprecht 1989) enthält (u.a.) für das Jahr<br />

1974 die Altersverteilung aller Personen, die in diesem Jahr<br />

in der BRD gemeldet waren, sowie die Möglichkeit, das<br />

Ziehen einer Stichprobe zu simulieren und deren Verteilung<br />

mit der tatsächlichen (über Histogramme und Mittelwerte)<br />

zu vergleichen.<br />

4


Statistische Grundbegriffe<br />

Die Grundgesamtheit (Population) ist die Gesamtmenge<br />

von Merkmalsträgern (Objekten) über die Aussagen<br />

gemacht werden sollen.<br />

Beispiele: Gesamtbevölkerung in Deutschland,<br />

Wahlberechtigte in Deutschland, WählerInnen einer Partei,<br />

StudentInnen einer <strong>Fachrichtung</strong><br />

Es interessieren gewisse Merkmale, die die Merkmalsträger<br />

aufweisen.<br />

Beispiele: Geschlecht, Höhe des Einkommens, Zufriedenheit<br />

mit der <strong>Statistik</strong>ausbildung<br />

5


Kann die Grundgesamtheit nicht vollständig – durch<br />

Einbeziehung aller Merkmalsträger (Totalerhebung) –<br />

hinsichtlich der interessierenden Merkmale untersucht<br />

werden, so versucht man eine möglichst repräsentative<br />

Teilerhebung zu verwenden.<br />

Liegen keine gesicherten Kenntnisse über die Struktur der<br />

Grundgesamtheit hinsichtlich der interessierenden Merkmale<br />

vor, so sichert nur das Zufallsprinzip repräsentative<br />

Teilerhebungen. Die einbezogenen n Merkmalsträger werden<br />

rein zufällig und unabhängig voneinander ausgewählt<br />

(gezogen). Dabei hat jeder Merkmalsträger bei jeder Ziehung<br />

die gleiche Chance ausgewählt zu werden (”rein zufälliges”<br />

Ziehen mit Zurücklegen). Die Ziehungsergebnisse beinflussen<br />

sich dabei auch nicht gegenseitig (Unabhängigkeit).<br />

6


Betrachtet man für ein interessierendes Merkmal die<br />

Zufallsvariable X, die die Merkmalsausprägungen – kodiert<br />

durch Zahlen – bei einer rein zufälligen Auswahl eines<br />

Merkmalsträgers aus der Grundgesamtheit beschreibt, so<br />

besitzt sie die im allg. unbekannte Verteilungsfunktion FX<br />

der Merkmalsausprägungen dieses Merkmals in der<br />

Grundgesamtheit (entsprechende Verteilung eines ” zufälligen<br />

Bürgers“).<br />

7


Das stochastische Modell für das Ziehen einer reinen<br />

Zufallsstichprobe ist die mathematische Stichpobe<br />

[random sample]<br />

vom Stichprobenumfang n.<br />

(X1, X2, ..., Xn)<br />

Xi beschreibt dabei die zufällige Merkmalsausprägung des<br />

i–ten ausgewählten Merkmalträgers. Der Zufall steckt dabei<br />

in der Auswahl des Merkmalsträgers! Nach der<br />

Ziehungsvorschrift besitzen alle Xi die gleiche Verteilung FX<br />

des interessierenden Merkmals X in der Grundgesamtheit.<br />

Diese Modellvorstellung wird dann zur Berechnung<br />

der Unsicherheiten beim Schluss von der Stichprobe<br />

auf die Grundgesamtheit verwendet.<br />

8


Das Resultat einer Datenerhebung ist die konkrete<br />

Stichprobe (x1, x2, ..., xn). xi steht dabei für die registrierte<br />

Merkmalsausprägung des i–ten ausgewählten<br />

Merkmalträgers. Gemäß der Modellvorstellung sind die Daten<br />

eine Realisierung einer mathematischen Stichprobe.<br />

Beschreibt man also den Ziehungs-Prozess einer<br />

mathematischen Stichprobe, so verwendet man<br />

Zufallsvariablen (z.B. Xi), und beschreibt man die<br />

Realisierung (das Resultat) einer konkreten Ziehung, so<br />

verwendet man reelle Zahlen (z.B. xi).<br />

Übliche Sprechweise für diese Modellannahmen: ” Die<br />

Stichprobe (x1, . . . , xn) entstamme einer nach FX verteilten<br />

Grundgesamtheit.“<br />

9


Praktisch hat man es stets mit der konkreten Stichprobe<br />

(x1, . . . , xn) zu tun, mit deren Hilfe man Informationen über<br />

die Population gewinnen will. Die mathematische Stichprobe<br />

dient zur wahrscheinlichkeitstheoretischen Begründung der<br />

Schlussweisen und zur Quantifizierung von Unsicherheiten.<br />

Werden mehrere Merkmale registriert oder besteht das<br />

Anliegen im Vergleich verschiedener Merkmale oder<br />

verschiedener Populationen, werden bei der Modellbildung<br />

verschiedene Zufallsvariablen (z.B. X, Y, . . .) eingeführt und<br />

multivariat (z.B. bivariat (X, Y )) gemeinsam betrachtet.<br />

10


Stichprobenfunktion<br />

Sei g : R n → R eine Funktion.<br />

(X1, X2, . . . , Xn) ↦→ T = g(X1, X2, . . . , Xn)<br />

math. Stichprobe Stichprobenfunktion<br />

Zufallsvariablen Zufallsvariable<br />

(x1, x2, . . . , xn) ↦→ t = g(x1, x2, . . . , xn)<br />

konkrete Stichprobe Stichprobenfunktion<br />

reelle Zahlen (n-Tupel) reelle Zahl<br />

Stichprobenfunktionen werden für den Schluss von der<br />

Stichprobe auf die Grundgesamtheit verwendet.<br />

11


Bemerkungen:<br />

– T und t sind allgemein übliche Bezeichnungen, für<br />

spezielle Stichprobenfunktionen sind aber auch andere<br />

Bezeichnungen üblich; zum Beispiel<br />

¯X = 1<br />

n<br />

n<br />

i=1<br />

Xi und ¯x = 1<br />

n<br />

n<br />

i=1<br />

– Stichprobenfunktionen begegnen uns also als Formeln:<br />

Setzen wir die Werte der konkreten Stichprobe ein, kommt<br />

eine Zahl t heraus. Setzen wir die Zufallsvariablen der<br />

mathematischen Stichprobe ein, kommt eine<br />

Zufallsvariable T heraus.<br />

– t kann als Realisierung der Zufallsvariablen T verstanden<br />

werden.<br />

12<br />

xi


Schätzungen<br />

Wir betrachten dazu zwei Beispiele.<br />

Beispiel (Körpergrößen): Schätzen der<br />

Durchschnittsgröße µ der Kinder in der Grundgesamtheit.<br />

– Gegeben: Konkrete Stichprobe (x1, . . . , xn)<br />

– Plausibel (Warum eigentlich?):<br />

¯x = 1<br />

n<br />

n<br />

i=1<br />

als Schätzung für den Durchschnitt µ in der<br />

Grundgesamtheit<br />

– Frage: Wie gut ist diese Schätzung? –<br />

Antwort mit Hilfe eines stochastischen Modells.<br />

13<br />

xi


– Die Zufallsvariable X beschreibe die Körpergröße eines<br />

rein zufällig aus der Grundgesamtheit ausgewählten<br />

Kindes. Sie besitzt die unbekannte Verteilung FX mit<br />

Erwartungswert µ (unbekannter Durchschnittswert).<br />

– Sei (X1, . . . , Xn) eine mathematische Stichprobe vom<br />

Umfang n. Dabei seien alle Xi wie X verteilt.<br />

– Dann ist<br />

¯X = 1<br />

n<br />

n<br />

i=1<br />

eine Punktschätzung [point estimation] für µ, ihre<br />

Realisierung<br />

¯x = 1<br />

n<br />

n<br />

i=1<br />

Xi<br />

xi<br />

ist eine konkrete Punktschätzung.<br />

14


– Nach dem Zentrale Grenzwertsatz ist ¯ X für große n<br />

näherungsweise normalverteilt. Damit ist eine weiter<br />

gehende Untersuchung der Genauigkeit der Schätzung<br />

möglich. Beispielsweise kann die Wahrscheinlichkeit von<br />

Abweichungen der Schätzung vom zu schätzenden<br />

Durchschnittswert berechnet werden.<br />

– Es gilt<br />

E( ¯ X) = E<br />

1<br />

n<br />

n<br />

i=1<br />

Xi<br />

<br />

= 1<br />

n<br />

n<br />

i=1<br />

E(Xi) = 1<br />

n<br />

n<br />

µ = µ<br />

i=1<br />

Daher wird der Schätzer ¯ X für den (unbekannten)<br />

Erwartungswert µ erwartungstreu genannt.<br />

15


Allgemein gilt: Sei γ der interessierende - zu schätzende -<br />

Parameter. Für eine Stichprobenfunktion g : R n → R heißt<br />

die reelle Zahl<br />

t = g(x1, . . . , xn)<br />

konkrete Punktschätzung und die Zufallsvariable<br />

T = g(X1, . . . , Xn)<br />

Punktschätzung für den Parameter γ.<br />

Sowohl T als auch t werden oftmals mit ˆγ bezeichnet.<br />

Die Punktschätzung heißt erwartungstreu, wenn E(T ) = γ<br />

gilt.<br />

Weitere Punktschätzungen, ihre Eigenschaften und Methoden<br />

zu ihrer Konstruktion −→ Literatur.<br />

16


Ein aus einer konkreten Stichprobe berechneter Mittelwert ¯x<br />

trifft den zu schätzenden Durchschnittswert µ in der<br />

Grundgesamtheit nur sehr selten oder fast nie genau (im allg.<br />

ist also ¯x = µ).<br />

Ausweg: Man betrachtet neben Punktschätzungen auch<br />

Intervallschätzungen (Konfidenzschätzungen,<br />

Konfidenzintervalle [confidence interval]).<br />

Dabei verwendet man das folgende Konstruktionsprinzip:<br />

Auf der Basis einer mathematischen Stichprobe ist ein<br />

zufälliges Intervall anzugeben, dass den zu schätzenden<br />

Parameter – hier den Durchschnittswert µ – mit einer<br />

vorgegeben Wahrscheinlichkeit, dem Konfidenzniveau<br />

[level of confidence] (1 − α), enthält (überdeckt).<br />

17


Ist die Verteilung der verwendeten Stichprobenfunktion – hier<br />

des arithmetischen Mittels – bekannt, so lassen sich aus dieser<br />

Forderung die Grenzen eines Konfidenzintervalles berechnen.<br />

Aus der t–Verteilung der (standardisierten) Zufallsvariable<br />

¯X − µ √<br />

n<br />

S<br />

erhalten wir in unserem Beispiel zum Konfidenzniveau 1 − α<br />

(α ist also die Wahrscheinlichkeit für die Nichtüberdeckung)<br />

folgende Vorschrift zur Berechnung eines konkreten<br />

Konfidenzintervalles für den unbekannten Durchschnittswert<br />

µ der Körpergröße in der Grundgesamtheit:<br />

<br />

¯x − t n−1,1− α<br />

2<br />

· s<br />

√ n , ¯x + t n−1,1− α<br />

2<br />

18<br />

· s<br />

√ n


In der Formel<br />

<br />

¯x − t n−1,1− α<br />

2<br />

bezeichnet t n−1,1− α<br />

2<br />

· s<br />

√ n , ¯x + t n−1,1− α<br />

2<br />

· s<br />

√ n<br />

das Quantil der t–Verteilung mit n − 1<br />

Freiheitsgraden und Quantilsanteil (1 − α/2). Für ein<br />

Konfidenzniveau von 95% und einen Stichprobenumfang<br />

n = 200 ergibt sich t199,0.975 = 1.96. Mit ¯x = 143.7 und<br />

s = 7.223 erhalten wir als konkretes Konfidenzintervall<br />

<br />

143.7 − 1.96 · 7.223<br />

√ , 143.7 + 1.96 ·<br />

200 7.223<br />

<br />

√ = [142.7, 144.7]<br />

200<br />

19


Für die Interpretation von Konfidenzintervallen gilt:<br />

Ein konkretes Konfidenzintervall enthält den zu schätzenden<br />

Parameter, oder es enthält ihn nicht. Die Konstruktion des<br />

Konfidenzintervalles sichert aber, dass bei häufiger<br />

Wiederholung des Ziehungsvorganges für die Stichprobe die<br />

berechneten Konfidenzintervalle den zu schätzenden<br />

Parameter in ca. (1 − α)% der Fälle enthalten.<br />

20


Beispiel (Verkehrsmittel):<br />

Schätzen des Anteils ϑ der PKW–BenutzerInnen in der<br />

Grundgesamtheit.<br />

– Gegeben: Konkrete Stichprobe (x1, . . . , xn)<br />

– Plausibel (Warum eigentlich?): Die relative Häufigkeit für<br />

das interessierende Ereignis (hier PKW-Nutzung)<br />

f = h<br />

n<br />

als Schätzung für den Anteil (die Wahrscheinlichkeit) ϑ in<br />

der Grundgesamtheit<br />

– Frage: Wie gut ist diese Schätzung? –<br />

Antwort mit Hilfe eines stochastischen Modells.<br />

21


– Die Zufallsvariable X habe den Wert 1, falls von einer<br />

zufällig ausgewählten Person aus der Grundgesamtheit<br />

PKW genutzt wird und ist sonst 0. Ihre Verteilung ist<br />

P (X = 1) = ϑ und P (X = 0) = 1 − ϑ<br />

mit der unbekannten Wahrscheinlichkeit (Parameter) ϑ.<br />

– Sei (X1, . . . , Xn) eine mathematische Stichprobe vom<br />

Umfang n. Dabei seien also alle Xi wie X verteilt.<br />

– Dann ist<br />

1<br />

n<br />

n<br />

i=1<br />

eine Punktschätzung für ϑ und h/n = ( n i=1 xi)/n eine<br />

konkrete Punktschätzung.<br />

22<br />

Xi


– Für eine mathematische Stichprobe ist die Zufallsvariable<br />

H = n i=1 Xi binomialverteilt und nach dem Zentralen<br />

Grenzwertsatz für große n näherungsweise normalverteilt.<br />

Damit ist eine weiter gehende Untersuchung der<br />

Genauigkeit der Schätzung möglich. Beispielsweise kann<br />

die Wahrscheinlichkeit von Abweichungen der Schätzung<br />

vom zu schätzenden Anteilswertwert berechnet werden.<br />

– Ein aus einer konkreten Stichprobe berechneter<br />

Anteilswert h/n trifft den zu schätzenden Anteilswert ϑ in<br />

der Grundgesamtheit nur sehr selten oder fast nie genau<br />

(im allg. ist also h/n = ϑ).<br />

– Ausweg: Intervallschätzungen<br />

23


– Auf der Basis einer mathematischen Stichprobe ist ein<br />

zufälliges Intervall anzugeben, dass den zu schätzenden<br />

Parameter – hier den Anteilswert ϑ – mit einer vorgegeben<br />

Wahrscheinlichkeit, dem Konfidenzniveau (1 − α),<br />

enthält (überdeckt).<br />

Ist die Verteilung der verwendeten Stichprobenfunktion –<br />

hier der absoluten Häufigkeit – bekannt, so lassen sich die<br />

Grenzen von Konfidenzintervallen berechnen.<br />

24


Für größere Stichproben (n > 30) erhält man für ein<br />

Konfidenzniveau 1 − α unter Verwendung der<br />

Normalverteilung folgende Vorschrift zur Berechnung eines<br />

konkreten Konfidenzintervalles für den unbekannten<br />

Anteilswert ϑ der PKW–Benutzer in der Grundgesamtheit:<br />

⎡<br />

⎣ h<br />

n − z1− α<br />

2 ·<br />

<br />

h h<br />

n (1 − n )<br />

,<br />

n<br />

h<br />

n + z1− α<br />

2 ·<br />

<br />

h h<br />

n (1 − n )<br />

⎤<br />

⎦<br />

n<br />

Dabei bezeichnet z 1− α<br />

2<br />

das Quantil der standardisierten<br />

Normalverteilung mit Quantilsanteil 1 − α/2.<br />

25


Für ein Konfidenzniveau von 95% ergibt sich z0.975 = 1.96.<br />

Für den Stichprobenumfang n = 100 und<br />

h/n = 53/100 = 0.53 erhalten wir das konkrete<br />

Konfidenzintervall<br />

⎡<br />

<br />

⎣0.53<br />

0.53(1 − 0.53)<br />

− 1.96 ·<br />

, 0.53 + 1.96 ·<br />

100<br />

= [43.2%, 62.8%]<br />

26<br />

<br />

0.53(1 − 0.53)<br />

100<br />

⎤<br />

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!