Klumpenstichproben - Neue Statistik
Klumpenstichproben - Neue Statistik
Klumpenstichproben - Neue Statistik
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
<strong>Klumpenstichproben</strong><br />
Worum geht es in diesem Modul?<br />
Definition der Klumpenstichprobe<br />
Varianten der Klumpenstichprobe<br />
Zur Definition von Klumpen<br />
Auswahlwahrscheinlichkeit der Einzelelemente<br />
Ziehung der Klumpenstichprobe<br />
Vorteile der Klumpenstichprobe<br />
Nachteil der Klumpenauswahl: Der Designeffekt<br />
Ursache für den Klumpeneffekt<br />
Einflussfaktoren auf den Designeffekt<br />
Vergleich Klumpenstichprobe und geschichtete Stichprobe: Unterschiede<br />
Vergleich Klumpenstichprobe und geschichtete Stichprobe: Vor- und Nachteile<br />
Resümee<br />
Worum geht es in diesem Modul?<br />
Im Modul "<strong>Klumpenstichproben</strong>" werden zunächst die Rahmenbedingungen dargestellt,<br />
die die Anwendung von <strong>Klumpenstichproben</strong> erforderlich machen. Anschließend wird<br />
die praktische Durchführung einer Klumpenstichprobe dargestellt. Die Vor- und<br />
Nachteile, die durch die Anwendung einer Klumpenstichprobe entstehen, werden<br />
gegeneinaner abgewogen. Hierbei wird dem "Klumpeneffekt" eine zentrale Rolle zu<br />
kommen, daher werden Enstehung und Konsequenzen von Klumpeneffekten diskutiert.<br />
Abschließend wird die Bedeutung des Intraklassenkorrelationskoeffizienten (ICC)<br />
erläutert.<br />
Beispiel: Problemstellung für eine Klumpenstichprobe<br />
Will man die Ausbreitung der sogenannten Traberkrankheit (englisch: "scrapie") bei<br />
Schafen innerhalb Schottlands untersuchen, entsteht das Problem, dass es keine<br />
vollständige Liste aller einzelnen Schafe gibt. Man zieht daher aus einer Liste von<br />
Farmen in Schottland mit einer Zufallsstichprobe zunächst einzelne Farmen, und<br />
innerhalb jeder so ausgewählten Farm zufällig einzelne Herden. Diese Stichprobe<br />
besteht also aus Schafen innerhalb "natürlicher" Klumpen, in diesem Fall also den<br />
Herden. In diesem Beispiel sind die Herden wiederum Bestandteil "natürlicher"<br />
Klumpen, nämlich der Farmen. Schauen Sie sich dazu die<br />
: Flashanimation ' Animation Klumpenstichprobe ' siehe Online-Version<br />
Page 1
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
an.<br />
Definition der Klumpenstichprobe<br />
Anschauliche Definition der Klumpenauswahl<br />
Bei einer Klumpenauswahl werden Gruppen von Elementen der Grundgesamtheit durch<br />
eine einfache Zufallsstichprobe ausgewählt. Die Auswahlregeln der Zufallsstichproben<br />
werden also nicht auf die Elemente der Grundgesamtheit selbst angewandt, sondern auf<br />
Gruppen. Im einfachsten Fall gelangen in die Stichprobe alle Elemente der<br />
ausgewählten Gruppen.<br />
Formale Definition der Klumpenstichprobe<br />
Zerlegt man eine Grundgesamtheit in disjunkte Teilgesamtheiten vom Umfang<br />
, mit und wählt aus diesen Mengen zufällig aus,<br />
so heißen die Teilgesamtheiten Klumpen und das Auswahlverfahren Klumpenauswahl.<br />
bedeutet hier also die Anzahl der Klumpen in der Grundgesamtheit, die Anzahl<br />
der Klumpen in der Stichprobe, die Anzahl von Einheiten innerhalb eines<br />
Klumpens und die Anzahl von Einheiten innerhalb sämtlicher Klumpen.<br />
Vorsichtshalber sei darauf hingewiesen, dass die Notation für die Zahl der Klumpen und<br />
die Zahl der Elemente innerhalb der Klumpen in der statistischen Literatur nicht<br />
einheitlich ist.<br />
Varianten der Klumpenstichprobe<br />
Flächenstichproben<br />
Eine bedeutende Variante der Klumpenstichprobe ist die Flächenstichprobe. Bei<br />
Flächenstichproben wird eine Fläche in Teilflächen zerlegt, die dann als Klumpen<br />
aufgefasst werden. Beispiele für solche Flächenstichproben sind Einteilungen nach<br />
administrativen Einheiten, wie z.B. Regierungsbezirken. Innerhalb solch kleinerer<br />
administrativer Einheiten liegen in der Regel eher Listen der Einzelelemente vor. Ein<br />
anderes Beispiel für eine Flächenstichprobe ist eine Einteilung einer Insel in annähernd<br />
gleich große Teilgebiete, bei denen dann in zufällig ausgewählten Teilgebieten alle<br />
Brutstätten von Vögeln untersucht werden. Flächenstichproben spielen eine besondere<br />
Rolle bei Bevölkerungsbefragungen, da angenommen wird, dass sich jeder Einwohner<br />
eines Landes eindeutig einer Fläche (seinem Wohnort) zuordnen lässt. Viele<br />
Bevölkerungsstichproben basieren daher auf <strong>Klumpenstichproben</strong> mit Wohnorten als<br />
Klumpen.<br />
Mehrstufige <strong>Klumpenstichproben</strong><br />
Wie die Animation Klumpenstichprobe zeigt, können auch innerhalb der ausgewählten<br />
Klumpen wiederum Stichproben gezogen werden.<br />
Im Beispiel wurde eine Klumpenstichprobe (Herden) innerhalb einer<br />
Klumpenstichprobe (Farmen) gezogen. Bei Flächenstichproben der allgemeinen<br />
Page 2
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
Bevölkerung werden in der Regel auch nicht alle Einwohner einer Gemeinde befragt,<br />
sondern lediglich eine Zufallsstichprobe der Gemeindemitglieder. In diesem Fall<br />
handelt es sich dann um eine mehrstufige Klumpenstichprobe mit Gemeinden als<br />
Klumpen der ersten Stufe und einer einfachen Zufallsstichprobe der Einwohner der<br />
ausgewählten Gemeinden auf der zweiten Stufe.<br />
Wir beschränken uns in diesem Modul auf den Fall, dass alle Elemente in jedem<br />
ausgewählten Klumpen in die Untersuchung eingehen. Dieser einfachste Fall wird als<br />
"one stage cluster sampling" bezeichnet.<br />
Beispiel: Einfache Anwendungen der Klumpenstichprobe<br />
- Für eine Befragung sollen einzelne Einwohner einer Stadt ausgewählt werden. Ein<br />
mögliches Verfahren besteht darin, aus den Gebäuden der Stadt eine Zufallsauswahl zu<br />
ziehen und innerhalb der Gebäude alle Bewohner zu befragen. Obwohl die Einwohner<br />
der Stadt die Grundgesamtheit bilden, werden in diesem Beispiel die Auswahlregeln auf<br />
Klumpen - die Gebäude - angewendet.<br />
- Möchte man eine Untersuchung der Wahlberechtigten der Stadt Leipzig durchführen,<br />
so könnte man aus den 329 Stimmbezirken der Stadt Leipzig eine Zufallsstichprobe von<br />
z.B. 10 Stimmbezirken ziehen. In jedem Stimmbezirk könnte man nun alle<br />
Wahlberechtigten befragen.<br />
- Vollständige Listen von Schulklassen existieren selbst innerhalb eines Bundeslandes<br />
nicht. Eine Möglichkeit trotzdem Zufallsstichproben von Schulklassen zu ziehen besteht<br />
darin, aus der verfügbaren Liste der Schulen zufällig einige Schulen auszuwählen und<br />
innerhalb jeder Schule jede Schulklasse in die Stichprobe aufzunehmen.<br />
Zur Definition von Klumpen<br />
Als Klumpen werden fast immer "natürliche" Gruppierungen der Elemente einer<br />
Grundgesamtheit verwendet. Die notwendige Bedingung für die Einteilung in Klumpen<br />
ist lediglich, dass die Einteilung jedes Element der Grundgesamtheit genau einer Klasse<br />
zu ordnet (also disjunkt und exhaustiv ist). Wünschenswert ist darüber hinaus, dass<br />
entweder Listen der Klumpen bereits existieren oder problemlos erstellt werden können.<br />
Typische Beispiele für "natürliche" Klumpen sind:<br />
Klumpen Elemente der Grundgesamtheit<br />
Unternehmen Arbeitnehmer<br />
Schulklassen Schüler<br />
Wahlbezirke Wähler<br />
Regierungsbezirke Kommunen<br />
Haushalte Personen<br />
Beispiel: Wie Hacker ihre Opfer finden...<br />
Häufig versuchen Hacker Zugang zu fremden Rechnern über das Internet zu erlangen.<br />
Page 3
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
Da es keine vollständige Liste von an das Internet angeschlossenen Rechnern gibt und<br />
eine vollständige Aufzählung aller möglichen Rechneradressen zu langwierig ist,<br />
verwenden Hacker - ohne dies zu wissen - eine Klumpenstichprobe zur Lösung ihres<br />
Problems. Rechneradressen sind im Internet über sogenannte IP-Adressen erreichbar.<br />
IP-Adressen bestehen aus mehreren Teilen, so lautet z.B. die IP-Adresse des<br />
Netzwerkes des Rechenzentrums der Universität Rostock 139.30.0.0. Die letzte Gruppe<br />
in der Zahlenfolge entspricht einem einzelnen Rechner, die vorletzte Gruppe einem<br />
Subnetz des Rechenzentrums. Ein Hacker würde nun zunächst eine Stichprobe der<br />
Subnetze ziehen (ein Beispiel für ein solches Element wäre das Netz 139.30.214.0).<br />
Innerhalb dieses Subnetzes würde er jede möglich Rechneradresse mit 0 beginnend<br />
ausprobieren und versuchen einen funktionierenden Rechner zu finden. Entsprechende<br />
Programme heißen "Port Scanner". Letztlich führen "Port Scanner" damit<br />
<strong>Klumpenstichproben</strong> durch. Entsprechend könnte man die Struktur der IP-Adressen<br />
nutzen um eine weltweite Stichprobe einzelner Rechner zu ziehen.<br />
Beispiel: Eine Klumpenstichprobe zur Untersuchung karzinogener Stoffe<br />
In der Medizin werden polychlorierte Biphenyle (PCBs) als potentiell krebserregende<br />
Stoffe betrachtet. PCBs werden aufgrund ihrer physikalischen Eigenschaften u.a. als<br />
Isolier- und Kühlungsflüssigkeit in Transformatoren und als Hydrauliköl verwendet.<br />
Möchte man eine Untersuchung des möglichen krebserregenden Effekts der PCBs<br />
durchführen, wäre es wünschenswert, eine Stichprobe von Personen zu untersuchen, die<br />
diesen Stoffen in besonderem Maße ausgesetzt sind. Eine solche Liste wird aber nicht<br />
zur Verfügung stehen. Man könnte aber z.B. argumentieren, dass sich Transformatoren<br />
vor allem in Elektrizitäts- und Umspannungswerken finden und Hydrauliköle vor allem<br />
bei Straßenbaumaschinen und in der Bergwerkstechnik. Daher würde man z.B. Listen<br />
von Elektrizitäts- und Umspannungswerken einerseits und Straßenbauunternehmen und<br />
Bergwerken andererseits zusammenstellen. Aus diesen Listen könnte man eine<br />
Klumpenstichprobe mit Unternehmen als Elementen durch eine einfache<br />
Zufallsstichprobe ziehen. Innerhalb der Unternehmen würde man dann die<br />
Wartungstechniker der entsprechenden Maschinen medizinisch untersuchen.<br />
Auswahlwahrscheinlichkeit der Einzelelemente<br />
In diesem Modul wird nur die einfachste Form einer Klumpenstichprobe betrachtet, bei<br />
der alle Elemente eines ausgewählten Klumpens Bestandteil der Stichprobe werden<br />
("one stage cluster sampling"). Dies ist eine Variante der einfachen Zufallsstichprobe,<br />
bei der die Elemente der Zufallsstichprobe Klumpen sind.<br />
In diesem Fall hat jedes Element die gleiche Wahrscheinlichkeit in die Stichprobe zu<br />
gelangen wie der Klumpen, in dem sich das Element befindet. Die<br />
Auswahlwahrscheinlichkeit der Einzelelemente entspricht also der<br />
Auswahlwahrscheinlichkeit des Klumpens.<br />
Bezeichnet die Anzahl der Klumpen in der Stichprobe und die Zahl aller in der<br />
Population vorkommenden Klumpen, dann beträgt die Auswahlwahrscheinlichkeit für<br />
jeden Klumpen . Da die Auswahlwahrscheinlichkeit jedes Elements innerhalb<br />
eines Klumpens gleich 1 ist, ist die Auswahlwahrscheinlichkeit für ein Einzelelement<br />
( ) *1, also gleich .<br />
Page 4
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
Ziehung der Klumpenstichprobe<br />
Bei der Klumpenstichprobe werden zufällig Klumpen einer Grundgesamtheit<br />
entnommen.<br />
Vorteile der Klumpenstichprobe<br />
<strong>Klumpenstichproben</strong> besitzen gegenüber einfachen Zufallsstichproben zwei Vorteile:<br />
Erstens bnötigen <strong>Klumpenstichproben</strong> keine Liste der Elemente der Grundgesamtheit<br />
und zweitens verursachen <strong>Klumpenstichproben</strong> häufig geringere Kosten als einfache<br />
Zufallsstichproben.<br />
Für <strong>Klumpenstichproben</strong> benötigt man nur eine Liste der Klumpen der<br />
Grundgesamtheit als Auswahlgrundlage, nicht hingegen eine Liste der Elemente der<br />
Grundgesamtheit. In vielen Anwendungsfällen ist eine Liste der Elemente der<br />
Grundgesamtheit aus praktischen, juristischen oder finanziellen Gründen nicht<br />
verfügbar. Sehr häufig kann dann trotzdem eine Klumpenstichprobe gezogen werden.<br />
Die häufig geringeren Kosten von <strong>Klumpenstichproben</strong> beruhen zum Teil auf dem<br />
Verzicht auf die Zusammenstellung der Liste der Elemente der Grundgesamtheit. Die<br />
wichtigste Ursache für die Kostenersparnis liegt aber in den Erhebungsbedingungen. In<br />
vielen Fällen ist die Untersuchung räumlich benachbarter Elemente finanziell deutlich<br />
günstiger als die Untersuchung zufällig verstreuter Elemente, da z. B. bei mündlichen<br />
Befragungen ein Großteil der Kosten auf die Fahrtkosten der Interviewer entfällt.<br />
Ähnlich erspart eine Befragung innerhalb einer Schulklasse oder während einer<br />
Vorlesung u.a. die Portokosten für den Versand der Fragebögen.<br />
Beispiel: Vorteile der Klumpenauswahl<br />
- Es soll eine Stichprobe aus den in Bayern zu Nutzzwecken gehaltenen Forellen<br />
gezogen werden. Eine Liste aller Forellen zu erstellen ist praktisch nicht möglich.<br />
Wesentlich einfacher wäre es, eine Liste aller ca. 3200 Forellenteiche in Bayern zu<br />
erstellen.<br />
- Die Deutsche Bahn möchte wissen, wie viel Gepäckstücke ihre Kunden mit sich<br />
führen. Eine Liste aller Reisenden ist nicht verfügbar, wohl aber eine Liste der Züge, die<br />
als Klumpen dienen könnten.<br />
- Für einen Gesundheitssurvey soll eine Zufallsstichprobe von Krankenhauspatienten<br />
gezogen werden. Bei einer einfachen Zufallsstichprobe wären die Stichprobenmitglieder<br />
über viele verschiedene Krankenhäuser im ganzen Land verstreut. Nimmt man eine<br />
Page 5
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
Klumpenauswahl vor, könnte man die Befragung auf wenige Krankenhäuser<br />
beschränken. Dies führt zu Einsparungen von Kosten.<br />
Nachteil der Klumpenauswahl: Der Designeffekt<br />
Der Nachteil der Klumpenauswahl besteht darin, dass Schätzungen der<br />
Populationsparameter höhere Standardfehler aufweisen als Schätzungen auf der Basis<br />
einer einfachen Zufallsstichprobe gleichen Umfangs. Man nennt dies allgemein den<br />
"Designeffekt" (abgekürzt: "deft").<br />
Der Designeffekt ist definiert als das Verhältnis des Standardfehlers (SE) einer<br />
Stichprobenkenngröße eines gegebenen Stichprobenplans zum Standardfehler einer<br />
Stichprobenkenngröße einer einfachen Zufallsstichprobe. Am Beispiel des Mittelwerts<br />
lässt sich "deft" definieren als<br />
Die Folge eines Designeffekts größer als 1.0 ist eine Vergrößerung der<br />
Konfidenzintervalle um diesen Faktor. Will man z.B. das 95%-Konfidenzintervall eines<br />
Mittelwerts berechnen, so ergibt sich dies für eine einfache Zufallsstichprobe durch<br />
Bei einem Designeffekt ungleich 1.0 ergibt sich das 95%-Konfidenzintervall<br />
Bei <strong>Klumpenstichproben</strong> ist "deft" immer größer als 1.0, entsprechend sind die<br />
Konfidenzintervalle auf der Basis von <strong>Klumpenstichproben</strong> größer als die<br />
Konfidenzintervalle einfacher Zufallsstichproben gleichen Umfangs. In Hinsicht auf<br />
<strong>Klumpenstichproben</strong> wird der Designeffekt auch als "Klumpeneffekt" bezeichnet.<br />
Ursache für den Klumpeneffekt<br />
Der Klumpeneffekt rührt daher, dass die Verteilung der Elemente der Grundgesamtheit<br />
auf die Klumpen meist nicht unabhängig von den Eigenschaften der Elemente ist. Als<br />
Folge sind sich die Mitglieder eines Klumpens in vielen Merkmalen ähnlicher als die<br />
Mitglieder verschiedener Klumpen.<br />
So sind z.B. Haushalte innerhalb eines Straßenabschnitts in Hinsicht auf eine Vielzahl<br />
von Merkmalen (Einkommen, Bildung, Zahl der Personen im Haushalt etc.) einander<br />
ähnlicher als zufällig ausgewählte Haushalte. Entsprechend ähneln sich Mehrlinge (ob<br />
eineiig oder nicht) untereinander mehr als zufällig ausgewählte Neugeborene.<br />
Da bei <strong>Klumpenstichproben</strong> entweder der ganze Klumpen ausgewählt wird oder kein<br />
Page 6
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
Element aus dem Klumpen, werden ganze Gruppen von Elementen mit ähnlichen<br />
Ausprägungen des Merkmals ein- oder ausgeschlossen. Aus diesem Grund variieren die<br />
Schätzungen zwischen verschiedenen Klumpen stark.<br />
Beispiel: Auftreten des Klumpeneffekts<br />
Man möchte aus einer Stichprobe der bayerischen Zuchtforellen deren Belastung mit<br />
Antibiotikarückständen schätzen. Dazu wird eine große Anzahl an Teichen als Klumpen<br />
mit Hilfe einer Zufallsstichprobe aus den ca. 3200 Teichen in Bayern ausgewählt. Die<br />
Fische aus denselben Teichen werden ähnliche Belastungen mit Antibiotika aufweisen,<br />
da sie denselben Umwelteinflüssen und Aufzuchtbedingungen ausgesetzt sind. Da in<br />
den verschiedenen Forellenteichen Bayerns unterschiedliche Mengen an<br />
Antibiotikarückständen existieren, werden sich Fische aus demselben Teich bezüglich<br />
der Antibiotikabelastung ähnlicher sein als Fische aus verschiedenen Teichen.<br />
Einflussfaktoren auf den Designeffekt<br />
Die Größe des Standardfehlers bei Schätzungen aufgrund von <strong>Klumpenstichproben</strong> und<br />
damit die Größe des Designeffekts hängt von der Homogenität der Klumpen und der<br />
Anzahl der Elemente pro Klumpen ab: Je homogener die Klumpen und je mehr<br />
Elemente pro Klumpen, desto größer wird der Standardfehler und damit der<br />
Designeffekt.<br />
Die Homogenität der Klumpen wird mit dem sogenannten<br />
"Intraklassenkorrelationskoeffizienten" wiedergegeben. Um das lange Wort<br />
"Intraklassenkorrelationskoeffizienten" zu vermeiden, wird in der Regel entweder die<br />
Abkürzung ICC ("intraclass correlation coefficient") oder der griechische Buchstaben<br />
(sprich: "rho") verwendet.<br />
Sind jeweils alle Elemente innerhalb der Klumpen in Hinsicht auf ein Merkmal gleich,<br />
so sind die Klumpen vollständig homogen. In Hinsicht auf dieses Merkmal gibt es dann<br />
keine Varianz innerhalb der Klumpen. In diesem Fall erreicht sein Maximum von<br />
1.0.<br />
Entspricht jeder Klumpen einer einfachen Zufallsstichprobe aus der Grundgesamtheit,<br />
dann erreicht den Wert 0.<br />
Für große Stichproben lässt sich der Designeffekt einer Klumpenstichprobe für die<br />
Schätzung des Mittelwert mit<br />
annähern, wobei M die Anzahl der Elemente im Klumpen ist.<br />
Aus der Formel sieht man leicht, dass eine Klumpenstichprobe mit nur einem Element<br />
pro Cluster eine einfache Zufallsstichprobe ist: der zweite Summand wird dann 0 und<br />
"deft" damit 1.<br />
Aus der Formel sieht man ebenso, dass der Designeffekt auch dann gleich 1 ist, wenn<br />
Page 7
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
ist. Sind sich die Elemente der Klumpen untereinander genauso ähnlich wie<br />
durch eine einfache Zufallsstichprobe ausgewählte Elemente, ist der zweite Summand<br />
ebenfalls gleich 0, da dann ist.<br />
Je ähnlicher sich die Elemente der Klumpen untereinander sind, desto näher liegt<br />
bei 1. Mit wachsendem steigt also der Designeffekt.<br />
Da mit multipliziert wird, führt eine Vergrößerung der Klumpen unter<br />
sonst gleichen Umständen zu größeren Designeffekten.<br />
Der Designeffekt ist also umso kleiner, je heterogener die Klumpen und je kleiner die<br />
Anzahl der Elemente pro Klumpen ist. Diese Zusammenhänge verdeutlicht das<br />
Applet Klumpenstichprobe (b6b.jar)<br />
.<br />
Der Intraklassenkorrelationskoeffizient ist ein Maß der Homogenität innerhalb der<br />
Klumpen bezüglich eines betrachteten Merkmals. lässt sich auf mehrere Arten<br />
definieren.<br />
Üblich ist die Definition von als die Pearson-Korrelation der<br />
Paare mit und , wobei N die Anzahl der Klumpen und<br />
M die Zahl der Elemente innerhalb der Klumpen bezeichnet. Die resultierende Formel<br />
ist ein wenig unhandlich:<br />
Etwas anschaulicher ist die vollkommen äquivalente Definition von als Anteil der<br />
Quadratsummen innerhalb der Klumpen zur Gesamtsumme der Quadratsummen:<br />
wobei die Summe der Quadrate innerhalb der Klumpen ("sum of squares<br />
within") und die Summe aller Quadrate ("sum of squares total") bedeutet.<br />
ist die Anzahl der Elemente im Klumpen. Entsprechend gilt<br />
Page 8
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
Bei praktischen Anwendungen von <strong>Klumpenstichproben</strong> liegt immer über 0.<br />
Vergleich Klumpenstichprobe und geschichtete Stichprobe: Unterschiede<br />
Klumpenstichprobe und geschichtete Stichprobe werden gelegentlich verwechselt, da<br />
bei beiden Verfahren Gruppierungen vorgenommen werden. Es sollen daher die<br />
Unterschiede beider Verfahren hervorgehoben werden.<br />
Klumpenstichprobe<br />
("cluster sampling")<br />
geschichtete Zufallsstichprobe<br />
("stratified sampling")<br />
Jedes Element der Grundgesamtheit gehört zu genau Jedes Element der Grundgesamtheit gehört zu genau<br />
einem Klumpen.<br />
einer Schicht.<br />
In der Regel entsprechen die Klumpen "natürlichen"<br />
Gruppierungen.<br />
Es wird eine einfache Zufallsstichprobe aus der<br />
Menge der Klumpen gezogen.<br />
Innerhalb eines ausgewählten Klumpens gelangen<br />
alle Elemente in die Stichprobe.<br />
Der Standardfehler ist um so kleiner,<br />
je inhomogener die Klumpen und<br />
je kleiner die Unterschiede zwischen den Klumpen<br />
sind.<br />
Beispiel: Klumpenstichprobe<br />
In der Regel entsprechen die Schichten willkürlich<br />
gewählten Merkmalen.<br />
Alle Schichten werden berücksichtigt.<br />
Aus jeder Schicht wird jeweils eine<br />
Zufallsstichprobe gezogen.<br />
Der Standardfehler ist um so kleiner,<br />
je homogener die Schichten und<br />
je größer die Unterschiede zwischen den Schichten<br />
sind.<br />
Population von N Klumpen; jedes Element der Population ist in genau einem Klumpen<br />
Ziehung einer einfachen Zufallsstichprobe von Klumpen; alle Elemente innerhalb der<br />
Klumpen sind in der Stichprobe<br />
Vergleich Klumpenstichprobe und geschichtete Stichprobe: Vor- und Nachteile<br />
Die Unterschiede zwischen einer Klumpenstichprobe und einer geschichteten<br />
Stichprobe macht folgende Tabelle deutlich:<br />
Page 9
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
Klumpenstichprobe<br />
("cluster sampling")<br />
Falls keine Listen der Elemente der Grundgesamheit<br />
existieren, sind <strong>Klumpenstichproben</strong> meist die<br />
einzige Möglichkeit Stichproben zu realisieren.<br />
Die Kosten der Datenerhebung sind häufig geringer<br />
als bei einfachen Zufallsstichproben.<br />
Es ergeben sich größere Standardfehler als bei der<br />
einfachen Zufallsstichprobe.<br />
Resümee<br />
geschichtete Zufallsstichprobe<br />
("stratified sampling")<br />
Die Kosten der Datenerhebung können geringer sein<br />
als bei einfachen Zufallsstichproben.<br />
Es ergeben sich kleinere Standardfehler als bei der<br />
einfachen Zufallsstichprobe.<br />
Bei <strong>Klumpenstichproben</strong> wird eine einfache Zufallsstichprobe aus "natürlichen"<br />
Gruppen von Elementen, den Klumpen, gezogen. Im einfachsten Fall werden alle<br />
Elemente aus einem ausgewählten Klumpen gezogen ("one stage cluster sampling").<br />
<strong>Klumpenstichproben</strong> besitzen gegenüber einfachen Zufallsstichproben zwei Vorteile:<br />
- <strong>Klumpenstichproben</strong> benötigen keine Liste der Elemente der Grundgesamtheit.<br />
- <strong>Klumpenstichproben</strong> verursachen häufig geringere Erhebungskosten als einfache<br />
Zufallsstichproben.<br />
Der Nachteil der Klumpenauswahl besteht darin, dass Schätzungen der<br />
Populationsparameter höhere Standardfehler aufweisen als Schätzungen auf der Basis<br />
einer einfachen Zufallsstichprobe gleichen Umfangs. Man nennt dies allgemein den<br />
"Designeffekt" (abgekürzt: "deft").<br />
Die Größe des Designeffekts der <strong>Klumpenstichproben</strong> hängt vom Maß der Homogenität<br />
innerhalb der Klumpen und der Zahl der Klumpen ab.<br />
Dieses Modul beschränkte sich auf <strong>Klumpenstichproben</strong> mit Klumpen gleicher Größe.<br />
Bei praktischen Anwendungen finden sich eher Klumpen unterschiedlicher Größe; dies<br />
erfordert lediglich etwas kompliziertere Formeln als sie hier verwendet wurden.<br />
Schließlich finden sich in der Forschungspraxis häufig Kombinationen verschiedener<br />
Stichprobenverfahren (sogenannte "mehrstufige Auswahlverfahren").<br />
<strong>Klumpenstichproben</strong> sind hierbei fast immer Bestandteil solcher mehrstufiger<br />
Verfahren.<br />
Die Deutsche Bahn AG führt regelmäßig Fahrgastbefragungen durch. Da es keine<br />
vollständige Liste von Fahrgästen gibt, liegt eine Klumpenstichprobe nahe. Welche der<br />
folgenden Klumpen erscheint Ihnen geeignet? Bitte formulieren Sie eine statistische<br />
Begründung für Ihre Entscheidung?<br />
a) Bahnhöfe<br />
b) Schaffner<br />
c) Wagennummern innerhalb von Zügen<br />
Page 10
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
d) Züge<br />
e) Bahnverbindungen zwischen ausgewählten Orten<br />
Lösung<br />
c)<br />
Lösung d) würde größere Klumpen bedingen. E) würde zu noch stärkeren<br />
Klumpeneffekten führen. Ebenso würde b) gegenüber c) durch die hohe Fallzahl pro<br />
Schaffner zu deutlich größeren Klumpeneffekten führen. Für eine einstufige Stichprobe<br />
scheidet a) aus.<br />
Warum sind die Standardfehler bei <strong>Klumpenstichproben</strong> größer und bei geschichteten<br />
Stichproben kleiner als bei einfachen Zufallsstichproben?<br />
Lösung<br />
Bei <strong>Klumpenstichproben</strong> wird die Varianz in der Stichprobe unterschätzt, da die<br />
Elemente des Klumpens untereinander ähnlich sind. Die Standardfehler scheinen<br />
kleiner zu sein, als sie es tatsächlich sind. Bei geschichteten Stichproben werden a priori<br />
als heterogen betrachtete Gruppen als unabhängige Stichproben betrachtet. Deren<br />
gemeinsame Verteilung von Stichprobenkennwerten besitzt fast immer tatsächlich eine<br />
kleinere Varianz als die entsprechende Verteilung einfacher Zufallsstichproben.<br />
Wünscht man sich eine größere oder eine kleinere Varianz einer Stichprobenverteilung<br />
eines Kennwerts? Begründen Sie Ihre Antwort.<br />
Lösung<br />
Eine kleinere Varianz ist wünschenswert. Je kleiner die Varianz, desto kleiner die<br />
Konfidenzintervalle. Damit sind die Schätzungen der Grundgesamtheitsparameter umso<br />
präziser, je kleiner die Varianz der Stichprobenverteilung eines Kennwerts.<br />
Bitte schreiben Sie die Definitionsformel für den Designeffekt am Beispiel des<br />
Mittelwerts.<br />
Lösung<br />
Welches der folgenden Auswahlverfahren wird bei gleicher Stichprobengröße<br />
vermutlich den größten Standardfehler besitzen?<br />
a) einfache Zufallsstichprobe<br />
b) Klumpenstichprobe<br />
c) geschichtete Stichprobe<br />
Lösungen<br />
b)<br />
a) Können Sie sich eine Ursache für einen möglichen Klumpeneffekt in der<br />
Augenheilkunde vorstellen?<br />
Page 11
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
b) Bei medizinischen Untersuchungen gelten Studien, die an mehreren Krankenhäusern<br />
durchgeführt wurden ("multicenter studies") als besonders wünschenswert. Bitte<br />
formulieren Sie eine statistische Begründung.<br />
Lösung<br />
a) Menschen verfügen in der Regel über zwei Augen, die nicht unabhängig von<br />
einander sind, da sie über das gleiche physiologische System versorgt werden.<br />
b) Bei <strong>Klumpenstichproben</strong> wie z.B. Krankenhäusern, führt eine Vergrößerung der Zahl<br />
der Klumpen zur Verringerung von Klumpeneffekten. In diesem Fall handelt es sich bei<br />
den Klumpeneffekten um nicht kontrollierte Drittvariablen. Dazu könnten<br />
Infrastrukturmerkmale der Krankenhäuser oder selektives Patientengut gehören.<br />
Bei einer Klumpenauswahl werden<br />
a) einfache Zufallsstichproben aus Gruppen von Elementen der Grundgesamtheit<br />
gezogen<br />
b) Gruppen von Elementen der Grundgesamtheit durch eine einfache Zufallsstichprobe<br />
ausgewählt<br />
c) Grundgesamtheiten in Gruppen zerlegt, aus denen dann einfache Zufallsstichproben<br />
gezogen werden<br />
d) werden aus einfachen Zufallstichproben gezogene Elemente zu Gruppen<br />
zusammengefasst<br />
Lösung<br />
b)<br />
Was sind Vorteile der Klumpenauswahl?<br />
a) <strong>Klumpenstichproben</strong> führen zu genaueren Schätzungen<br />
b) <strong>Klumpenstichproben</strong> benötigen keine Liste der Elemente der Grundgesamtheit.<br />
c) <strong>Klumpenstichproben</strong> sind von Vorteil, da die Gruppierung in Klumpen so gut ist wie<br />
eine Zerlegung in Schichten<br />
d) <strong>Klumpenstichproben</strong> verursachen häufig geringere Kosten als einfache<br />
Zufallsstichproben<br />
Lösung<br />
b) und d)<br />
Insbesondere für dieses Kapitel empfehlen wir das auch in anderen Modulen<br />
hervorgehobene Lehrbuch von Sharon Lohr. Eine klarere und präzisere Darstellung ist<br />
derzeit nicht verfügbar.<br />
Lohr, S.L. (1999): Sampling: Design and Analysis. Pacific Grove: Duxbury Press.<br />
Intraklassenkorrelationskoeffizient<br />
ErklärungKlumpen vorgruppierte Teilmengen oder "natürliche" Gruppen (z.B.<br />
Schulklassen, Arbeitsgruppen)<br />
Page 12
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />
ExplanationKlumpeneffektDa die Elemente innerhalb eines Klumpens<br />
untereinander fast immer ähnlicher sind als zufällig aus der Grundgesamtheit<br />
ausgewählte Elemente ist der Standardfehler einer Klumpenstichprobe fast<br />
immer größer als der Standardfehler einer gleich großen einfachen<br />
Zufallsstichprobe. Diese Eigenschaft einer Klumpenstichprobe bezeichnet man<br />
auch als "Klumpeneffekt".<br />
ErklärungKlumpenstichprobeBei einer Klumpenauswahl werden Gruppen von<br />
Elementen der Grundgesamtheit durch eine einfache Zufallsstichprobe<br />
ausgewählt. Die Auswahlregeln der Zufallsstichproben werden also nicht auf die<br />
Elemente der Grundgesamtheit selbst angewandt, sondern auf Gruppen. Im<br />
einfachsten Fall gelangen in die Stichprobe alle Elemente der ausgewählten<br />
Gruppen.<br />
Erklärung"litter effect”<br />
Erklärung<br />
(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003, Freie Universität Berlin, Center für Digitale Systeme<br />
Kontakt: http://www.neuestatistik.de<br />
Page 13