11.04.2013 Aufrufe

Klumpenstichproben - Neue Statistik

Klumpenstichproben - Neue Statistik

Klumpenstichproben - Neue Statistik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

<strong>Klumpenstichproben</strong><br />

Worum geht es in diesem Modul?<br />

Definition der Klumpenstichprobe<br />

Varianten der Klumpenstichprobe<br />

Zur Definition von Klumpen<br />

Auswahlwahrscheinlichkeit der Einzelelemente<br />

Ziehung der Klumpenstichprobe<br />

Vorteile der Klumpenstichprobe<br />

Nachteil der Klumpenauswahl: Der Designeffekt<br />

Ursache für den Klumpeneffekt<br />

Einflussfaktoren auf den Designeffekt<br />

Vergleich Klumpenstichprobe und geschichtete Stichprobe: Unterschiede<br />

Vergleich Klumpenstichprobe und geschichtete Stichprobe: Vor- und Nachteile<br />

Resümee<br />

Worum geht es in diesem Modul?<br />

Im Modul "<strong>Klumpenstichproben</strong>" werden zunächst die Rahmenbedingungen dargestellt,<br />

die die Anwendung von <strong>Klumpenstichproben</strong> erforderlich machen. Anschließend wird<br />

die praktische Durchführung einer Klumpenstichprobe dargestellt. Die Vor- und<br />

Nachteile, die durch die Anwendung einer Klumpenstichprobe entstehen, werden<br />

gegeneinaner abgewogen. Hierbei wird dem "Klumpeneffekt" eine zentrale Rolle zu<br />

kommen, daher werden Enstehung und Konsequenzen von Klumpeneffekten diskutiert.<br />

Abschließend wird die Bedeutung des Intraklassenkorrelationskoeffizienten (ICC)<br />

erläutert.<br />

Beispiel: Problemstellung für eine Klumpenstichprobe<br />

Will man die Ausbreitung der sogenannten Traberkrankheit (englisch: "scrapie") bei<br />

Schafen innerhalb Schottlands untersuchen, entsteht das Problem, dass es keine<br />

vollständige Liste aller einzelnen Schafe gibt. Man zieht daher aus einer Liste von<br />

Farmen in Schottland mit einer Zufallsstichprobe zunächst einzelne Farmen, und<br />

innerhalb jeder so ausgewählten Farm zufällig einzelne Herden. Diese Stichprobe<br />

besteht also aus Schafen innerhalb "natürlicher" Klumpen, in diesem Fall also den<br />

Herden. In diesem Beispiel sind die Herden wiederum Bestandteil "natürlicher"<br />

Klumpen, nämlich der Farmen. Schauen Sie sich dazu die<br />

: Flashanimation ' Animation Klumpenstichprobe ' siehe Online-Version<br />

Page 1


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

an.<br />

Definition der Klumpenstichprobe<br />

Anschauliche Definition der Klumpenauswahl<br />

Bei einer Klumpenauswahl werden Gruppen von Elementen der Grundgesamtheit durch<br />

eine einfache Zufallsstichprobe ausgewählt. Die Auswahlregeln der Zufallsstichproben<br />

werden also nicht auf die Elemente der Grundgesamtheit selbst angewandt, sondern auf<br />

Gruppen. Im einfachsten Fall gelangen in die Stichprobe alle Elemente der<br />

ausgewählten Gruppen.<br />

Formale Definition der Klumpenstichprobe<br />

Zerlegt man eine Grundgesamtheit in disjunkte Teilgesamtheiten vom Umfang<br />

, mit und wählt aus diesen Mengen zufällig aus,<br />

so heißen die Teilgesamtheiten Klumpen und das Auswahlverfahren Klumpenauswahl.<br />

bedeutet hier also die Anzahl der Klumpen in der Grundgesamtheit, die Anzahl<br />

der Klumpen in der Stichprobe, die Anzahl von Einheiten innerhalb eines<br />

Klumpens und die Anzahl von Einheiten innerhalb sämtlicher Klumpen.<br />

Vorsichtshalber sei darauf hingewiesen, dass die Notation für die Zahl der Klumpen und<br />

die Zahl der Elemente innerhalb der Klumpen in der statistischen Literatur nicht<br />

einheitlich ist.<br />

Varianten der Klumpenstichprobe<br />

Flächenstichproben<br />

Eine bedeutende Variante der Klumpenstichprobe ist die Flächenstichprobe. Bei<br />

Flächenstichproben wird eine Fläche in Teilflächen zerlegt, die dann als Klumpen<br />

aufgefasst werden. Beispiele für solche Flächenstichproben sind Einteilungen nach<br />

administrativen Einheiten, wie z.B. Regierungsbezirken. Innerhalb solch kleinerer<br />

administrativer Einheiten liegen in der Regel eher Listen der Einzelelemente vor. Ein<br />

anderes Beispiel für eine Flächenstichprobe ist eine Einteilung einer Insel in annähernd<br />

gleich große Teilgebiete, bei denen dann in zufällig ausgewählten Teilgebieten alle<br />

Brutstätten von Vögeln untersucht werden. Flächenstichproben spielen eine besondere<br />

Rolle bei Bevölkerungsbefragungen, da angenommen wird, dass sich jeder Einwohner<br />

eines Landes eindeutig einer Fläche (seinem Wohnort) zuordnen lässt. Viele<br />

Bevölkerungsstichproben basieren daher auf <strong>Klumpenstichproben</strong> mit Wohnorten als<br />

Klumpen.<br />

Mehrstufige <strong>Klumpenstichproben</strong><br />

Wie die Animation Klumpenstichprobe zeigt, können auch innerhalb der ausgewählten<br />

Klumpen wiederum Stichproben gezogen werden.<br />

Im Beispiel wurde eine Klumpenstichprobe (Herden) innerhalb einer<br />

Klumpenstichprobe (Farmen) gezogen. Bei Flächenstichproben der allgemeinen<br />

Page 2


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

Bevölkerung werden in der Regel auch nicht alle Einwohner einer Gemeinde befragt,<br />

sondern lediglich eine Zufallsstichprobe der Gemeindemitglieder. In diesem Fall<br />

handelt es sich dann um eine mehrstufige Klumpenstichprobe mit Gemeinden als<br />

Klumpen der ersten Stufe und einer einfachen Zufallsstichprobe der Einwohner der<br />

ausgewählten Gemeinden auf der zweiten Stufe.<br />

Wir beschränken uns in diesem Modul auf den Fall, dass alle Elemente in jedem<br />

ausgewählten Klumpen in die Untersuchung eingehen. Dieser einfachste Fall wird als<br />

"one stage cluster sampling" bezeichnet.<br />

Beispiel: Einfache Anwendungen der Klumpenstichprobe<br />

- Für eine Befragung sollen einzelne Einwohner einer Stadt ausgewählt werden. Ein<br />

mögliches Verfahren besteht darin, aus den Gebäuden der Stadt eine Zufallsauswahl zu<br />

ziehen und innerhalb der Gebäude alle Bewohner zu befragen. Obwohl die Einwohner<br />

der Stadt die Grundgesamtheit bilden, werden in diesem Beispiel die Auswahlregeln auf<br />

Klumpen - die Gebäude - angewendet.<br />

- Möchte man eine Untersuchung der Wahlberechtigten der Stadt Leipzig durchführen,<br />

so könnte man aus den 329 Stimmbezirken der Stadt Leipzig eine Zufallsstichprobe von<br />

z.B. 10 Stimmbezirken ziehen. In jedem Stimmbezirk könnte man nun alle<br />

Wahlberechtigten befragen.<br />

- Vollständige Listen von Schulklassen existieren selbst innerhalb eines Bundeslandes<br />

nicht. Eine Möglichkeit trotzdem Zufallsstichproben von Schulklassen zu ziehen besteht<br />

darin, aus der verfügbaren Liste der Schulen zufällig einige Schulen auszuwählen und<br />

innerhalb jeder Schule jede Schulklasse in die Stichprobe aufzunehmen.<br />

Zur Definition von Klumpen<br />

Als Klumpen werden fast immer "natürliche" Gruppierungen der Elemente einer<br />

Grundgesamtheit verwendet. Die notwendige Bedingung für die Einteilung in Klumpen<br />

ist lediglich, dass die Einteilung jedes Element der Grundgesamtheit genau einer Klasse<br />

zu ordnet (also disjunkt und exhaustiv ist). Wünschenswert ist darüber hinaus, dass<br />

entweder Listen der Klumpen bereits existieren oder problemlos erstellt werden können.<br />

Typische Beispiele für "natürliche" Klumpen sind:<br />

Klumpen Elemente der Grundgesamtheit<br />

Unternehmen Arbeitnehmer<br />

Schulklassen Schüler<br />

Wahlbezirke Wähler<br />

Regierungsbezirke Kommunen<br />

Haushalte Personen<br />

Beispiel: Wie Hacker ihre Opfer finden...<br />

Häufig versuchen Hacker Zugang zu fremden Rechnern über das Internet zu erlangen.<br />

Page 3


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

Da es keine vollständige Liste von an das Internet angeschlossenen Rechnern gibt und<br />

eine vollständige Aufzählung aller möglichen Rechneradressen zu langwierig ist,<br />

verwenden Hacker - ohne dies zu wissen - eine Klumpenstichprobe zur Lösung ihres<br />

Problems. Rechneradressen sind im Internet über sogenannte IP-Adressen erreichbar.<br />

IP-Adressen bestehen aus mehreren Teilen, so lautet z.B. die IP-Adresse des<br />

Netzwerkes des Rechenzentrums der Universität Rostock 139.30.0.0. Die letzte Gruppe<br />

in der Zahlenfolge entspricht einem einzelnen Rechner, die vorletzte Gruppe einem<br />

Subnetz des Rechenzentrums. Ein Hacker würde nun zunächst eine Stichprobe der<br />

Subnetze ziehen (ein Beispiel für ein solches Element wäre das Netz 139.30.214.0).<br />

Innerhalb dieses Subnetzes würde er jede möglich Rechneradresse mit 0 beginnend<br />

ausprobieren und versuchen einen funktionierenden Rechner zu finden. Entsprechende<br />

Programme heißen "Port Scanner". Letztlich führen "Port Scanner" damit<br />

<strong>Klumpenstichproben</strong> durch. Entsprechend könnte man die Struktur der IP-Adressen<br />

nutzen um eine weltweite Stichprobe einzelner Rechner zu ziehen.<br />

Beispiel: Eine Klumpenstichprobe zur Untersuchung karzinogener Stoffe<br />

In der Medizin werden polychlorierte Biphenyle (PCBs) als potentiell krebserregende<br />

Stoffe betrachtet. PCBs werden aufgrund ihrer physikalischen Eigenschaften u.a. als<br />

Isolier- und Kühlungsflüssigkeit in Transformatoren und als Hydrauliköl verwendet.<br />

Möchte man eine Untersuchung des möglichen krebserregenden Effekts der PCBs<br />

durchführen, wäre es wünschenswert, eine Stichprobe von Personen zu untersuchen, die<br />

diesen Stoffen in besonderem Maße ausgesetzt sind. Eine solche Liste wird aber nicht<br />

zur Verfügung stehen. Man könnte aber z.B. argumentieren, dass sich Transformatoren<br />

vor allem in Elektrizitäts- und Umspannungswerken finden und Hydrauliköle vor allem<br />

bei Straßenbaumaschinen und in der Bergwerkstechnik. Daher würde man z.B. Listen<br />

von Elektrizitäts- und Umspannungswerken einerseits und Straßenbauunternehmen und<br />

Bergwerken andererseits zusammenstellen. Aus diesen Listen könnte man eine<br />

Klumpenstichprobe mit Unternehmen als Elementen durch eine einfache<br />

Zufallsstichprobe ziehen. Innerhalb der Unternehmen würde man dann die<br />

Wartungstechniker der entsprechenden Maschinen medizinisch untersuchen.<br />

Auswahlwahrscheinlichkeit der Einzelelemente<br />

In diesem Modul wird nur die einfachste Form einer Klumpenstichprobe betrachtet, bei<br />

der alle Elemente eines ausgewählten Klumpens Bestandteil der Stichprobe werden<br />

("one stage cluster sampling"). Dies ist eine Variante der einfachen Zufallsstichprobe,<br />

bei der die Elemente der Zufallsstichprobe Klumpen sind.<br />

In diesem Fall hat jedes Element die gleiche Wahrscheinlichkeit in die Stichprobe zu<br />

gelangen wie der Klumpen, in dem sich das Element befindet. Die<br />

Auswahlwahrscheinlichkeit der Einzelelemente entspricht also der<br />

Auswahlwahrscheinlichkeit des Klumpens.<br />

Bezeichnet die Anzahl der Klumpen in der Stichprobe und die Zahl aller in der<br />

Population vorkommenden Klumpen, dann beträgt die Auswahlwahrscheinlichkeit für<br />

jeden Klumpen . Da die Auswahlwahrscheinlichkeit jedes Elements innerhalb<br />

eines Klumpens gleich 1 ist, ist die Auswahlwahrscheinlichkeit für ein Einzelelement<br />

( ) *1, also gleich .<br />

Page 4


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

Ziehung der Klumpenstichprobe<br />

Bei der Klumpenstichprobe werden zufällig Klumpen einer Grundgesamtheit<br />

entnommen.<br />

Vorteile der Klumpenstichprobe<br />

<strong>Klumpenstichproben</strong> besitzen gegenüber einfachen Zufallsstichproben zwei Vorteile:<br />

Erstens bnötigen <strong>Klumpenstichproben</strong> keine Liste der Elemente der Grundgesamtheit<br />

und zweitens verursachen <strong>Klumpenstichproben</strong> häufig geringere Kosten als einfache<br />

Zufallsstichproben.<br />

Für <strong>Klumpenstichproben</strong> benötigt man nur eine Liste der Klumpen der<br />

Grundgesamtheit als Auswahlgrundlage, nicht hingegen eine Liste der Elemente der<br />

Grundgesamtheit. In vielen Anwendungsfällen ist eine Liste der Elemente der<br />

Grundgesamtheit aus praktischen, juristischen oder finanziellen Gründen nicht<br />

verfügbar. Sehr häufig kann dann trotzdem eine Klumpenstichprobe gezogen werden.<br />

Die häufig geringeren Kosten von <strong>Klumpenstichproben</strong> beruhen zum Teil auf dem<br />

Verzicht auf die Zusammenstellung der Liste der Elemente der Grundgesamtheit. Die<br />

wichtigste Ursache für die Kostenersparnis liegt aber in den Erhebungsbedingungen. In<br />

vielen Fällen ist die Untersuchung räumlich benachbarter Elemente finanziell deutlich<br />

günstiger als die Untersuchung zufällig verstreuter Elemente, da z. B. bei mündlichen<br />

Befragungen ein Großteil der Kosten auf die Fahrtkosten der Interviewer entfällt.<br />

Ähnlich erspart eine Befragung innerhalb einer Schulklasse oder während einer<br />

Vorlesung u.a. die Portokosten für den Versand der Fragebögen.<br />

Beispiel: Vorteile der Klumpenauswahl<br />

- Es soll eine Stichprobe aus den in Bayern zu Nutzzwecken gehaltenen Forellen<br />

gezogen werden. Eine Liste aller Forellen zu erstellen ist praktisch nicht möglich.<br />

Wesentlich einfacher wäre es, eine Liste aller ca. 3200 Forellenteiche in Bayern zu<br />

erstellen.<br />

- Die Deutsche Bahn möchte wissen, wie viel Gepäckstücke ihre Kunden mit sich<br />

führen. Eine Liste aller Reisenden ist nicht verfügbar, wohl aber eine Liste der Züge, die<br />

als Klumpen dienen könnten.<br />

- Für einen Gesundheitssurvey soll eine Zufallsstichprobe von Krankenhauspatienten<br />

gezogen werden. Bei einer einfachen Zufallsstichprobe wären die Stichprobenmitglieder<br />

über viele verschiedene Krankenhäuser im ganzen Land verstreut. Nimmt man eine<br />

Page 5


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

Klumpenauswahl vor, könnte man die Befragung auf wenige Krankenhäuser<br />

beschränken. Dies führt zu Einsparungen von Kosten.<br />

Nachteil der Klumpenauswahl: Der Designeffekt<br />

Der Nachteil der Klumpenauswahl besteht darin, dass Schätzungen der<br />

Populationsparameter höhere Standardfehler aufweisen als Schätzungen auf der Basis<br />

einer einfachen Zufallsstichprobe gleichen Umfangs. Man nennt dies allgemein den<br />

"Designeffekt" (abgekürzt: "deft").<br />

Der Designeffekt ist definiert als das Verhältnis des Standardfehlers (SE) einer<br />

Stichprobenkenngröße eines gegebenen Stichprobenplans zum Standardfehler einer<br />

Stichprobenkenngröße einer einfachen Zufallsstichprobe. Am Beispiel des Mittelwerts<br />

lässt sich "deft" definieren als<br />

Die Folge eines Designeffekts größer als 1.0 ist eine Vergrößerung der<br />

Konfidenzintervalle um diesen Faktor. Will man z.B. das 95%-Konfidenzintervall eines<br />

Mittelwerts berechnen, so ergibt sich dies für eine einfache Zufallsstichprobe durch<br />

Bei einem Designeffekt ungleich 1.0 ergibt sich das 95%-Konfidenzintervall<br />

Bei <strong>Klumpenstichproben</strong> ist "deft" immer größer als 1.0, entsprechend sind die<br />

Konfidenzintervalle auf der Basis von <strong>Klumpenstichproben</strong> größer als die<br />

Konfidenzintervalle einfacher Zufallsstichproben gleichen Umfangs. In Hinsicht auf<br />

<strong>Klumpenstichproben</strong> wird der Designeffekt auch als "Klumpeneffekt" bezeichnet.<br />

Ursache für den Klumpeneffekt<br />

Der Klumpeneffekt rührt daher, dass die Verteilung der Elemente der Grundgesamtheit<br />

auf die Klumpen meist nicht unabhängig von den Eigenschaften der Elemente ist. Als<br />

Folge sind sich die Mitglieder eines Klumpens in vielen Merkmalen ähnlicher als die<br />

Mitglieder verschiedener Klumpen.<br />

So sind z.B. Haushalte innerhalb eines Straßenabschnitts in Hinsicht auf eine Vielzahl<br />

von Merkmalen (Einkommen, Bildung, Zahl der Personen im Haushalt etc.) einander<br />

ähnlicher als zufällig ausgewählte Haushalte. Entsprechend ähneln sich Mehrlinge (ob<br />

eineiig oder nicht) untereinander mehr als zufällig ausgewählte Neugeborene.<br />

Da bei <strong>Klumpenstichproben</strong> entweder der ganze Klumpen ausgewählt wird oder kein<br />

Page 6


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

Element aus dem Klumpen, werden ganze Gruppen von Elementen mit ähnlichen<br />

Ausprägungen des Merkmals ein- oder ausgeschlossen. Aus diesem Grund variieren die<br />

Schätzungen zwischen verschiedenen Klumpen stark.<br />

Beispiel: Auftreten des Klumpeneffekts<br />

Man möchte aus einer Stichprobe der bayerischen Zuchtforellen deren Belastung mit<br />

Antibiotikarückständen schätzen. Dazu wird eine große Anzahl an Teichen als Klumpen<br />

mit Hilfe einer Zufallsstichprobe aus den ca. 3200 Teichen in Bayern ausgewählt. Die<br />

Fische aus denselben Teichen werden ähnliche Belastungen mit Antibiotika aufweisen,<br />

da sie denselben Umwelteinflüssen und Aufzuchtbedingungen ausgesetzt sind. Da in<br />

den verschiedenen Forellenteichen Bayerns unterschiedliche Mengen an<br />

Antibiotikarückständen existieren, werden sich Fische aus demselben Teich bezüglich<br />

der Antibiotikabelastung ähnlicher sein als Fische aus verschiedenen Teichen.<br />

Einflussfaktoren auf den Designeffekt<br />

Die Größe des Standardfehlers bei Schätzungen aufgrund von <strong>Klumpenstichproben</strong> und<br />

damit die Größe des Designeffekts hängt von der Homogenität der Klumpen und der<br />

Anzahl der Elemente pro Klumpen ab: Je homogener die Klumpen und je mehr<br />

Elemente pro Klumpen, desto größer wird der Standardfehler und damit der<br />

Designeffekt.<br />

Die Homogenität der Klumpen wird mit dem sogenannten<br />

"Intraklassenkorrelationskoeffizienten" wiedergegeben. Um das lange Wort<br />

"Intraklassenkorrelationskoeffizienten" zu vermeiden, wird in der Regel entweder die<br />

Abkürzung ICC ("intraclass correlation coefficient") oder der griechische Buchstaben<br />

(sprich: "rho") verwendet.<br />

Sind jeweils alle Elemente innerhalb der Klumpen in Hinsicht auf ein Merkmal gleich,<br />

so sind die Klumpen vollständig homogen. In Hinsicht auf dieses Merkmal gibt es dann<br />

keine Varianz innerhalb der Klumpen. In diesem Fall erreicht sein Maximum von<br />

1.0.<br />

Entspricht jeder Klumpen einer einfachen Zufallsstichprobe aus der Grundgesamtheit,<br />

dann erreicht den Wert 0.<br />

Für große Stichproben lässt sich der Designeffekt einer Klumpenstichprobe für die<br />

Schätzung des Mittelwert mit<br />

annähern, wobei M die Anzahl der Elemente im Klumpen ist.<br />

Aus der Formel sieht man leicht, dass eine Klumpenstichprobe mit nur einem Element<br />

pro Cluster eine einfache Zufallsstichprobe ist: der zweite Summand wird dann 0 und<br />

"deft" damit 1.<br />

Aus der Formel sieht man ebenso, dass der Designeffekt auch dann gleich 1 ist, wenn<br />

Page 7


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

ist. Sind sich die Elemente der Klumpen untereinander genauso ähnlich wie<br />

durch eine einfache Zufallsstichprobe ausgewählte Elemente, ist der zweite Summand<br />

ebenfalls gleich 0, da dann ist.<br />

Je ähnlicher sich die Elemente der Klumpen untereinander sind, desto näher liegt<br />

bei 1. Mit wachsendem steigt also der Designeffekt.<br />

Da mit multipliziert wird, führt eine Vergrößerung der Klumpen unter<br />

sonst gleichen Umständen zu größeren Designeffekten.<br />

Der Designeffekt ist also umso kleiner, je heterogener die Klumpen und je kleiner die<br />

Anzahl der Elemente pro Klumpen ist. Diese Zusammenhänge verdeutlicht das<br />

Applet Klumpenstichprobe (b6b.jar)<br />

.<br />

Der Intraklassenkorrelationskoeffizient ist ein Maß der Homogenität innerhalb der<br />

Klumpen bezüglich eines betrachteten Merkmals. lässt sich auf mehrere Arten<br />

definieren.<br />

Üblich ist die Definition von als die Pearson-Korrelation der<br />

Paare mit und , wobei N die Anzahl der Klumpen und<br />

M die Zahl der Elemente innerhalb der Klumpen bezeichnet. Die resultierende Formel<br />

ist ein wenig unhandlich:<br />

Etwas anschaulicher ist die vollkommen äquivalente Definition von als Anteil der<br />

Quadratsummen innerhalb der Klumpen zur Gesamtsumme der Quadratsummen:<br />

wobei die Summe der Quadrate innerhalb der Klumpen ("sum of squares<br />

within") und die Summe aller Quadrate ("sum of squares total") bedeutet.<br />

ist die Anzahl der Elemente im Klumpen. Entsprechend gilt<br />

Page 8


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

Bei praktischen Anwendungen von <strong>Klumpenstichproben</strong> liegt immer über 0.<br />

Vergleich Klumpenstichprobe und geschichtete Stichprobe: Unterschiede<br />

Klumpenstichprobe und geschichtete Stichprobe werden gelegentlich verwechselt, da<br />

bei beiden Verfahren Gruppierungen vorgenommen werden. Es sollen daher die<br />

Unterschiede beider Verfahren hervorgehoben werden.<br />

Klumpenstichprobe<br />

("cluster sampling")<br />

geschichtete Zufallsstichprobe<br />

("stratified sampling")<br />

Jedes Element der Grundgesamtheit gehört zu genau Jedes Element der Grundgesamtheit gehört zu genau<br />

einem Klumpen.<br />

einer Schicht.<br />

In der Regel entsprechen die Klumpen "natürlichen"<br />

Gruppierungen.<br />

Es wird eine einfache Zufallsstichprobe aus der<br />

Menge der Klumpen gezogen.<br />

Innerhalb eines ausgewählten Klumpens gelangen<br />

alle Elemente in die Stichprobe.<br />

Der Standardfehler ist um so kleiner,<br />

je inhomogener die Klumpen und<br />

je kleiner die Unterschiede zwischen den Klumpen<br />

sind.<br />

Beispiel: Klumpenstichprobe<br />

In der Regel entsprechen die Schichten willkürlich<br />

gewählten Merkmalen.<br />

Alle Schichten werden berücksichtigt.<br />

Aus jeder Schicht wird jeweils eine<br />

Zufallsstichprobe gezogen.<br />

Der Standardfehler ist um so kleiner,<br />

je homogener die Schichten und<br />

je größer die Unterschiede zwischen den Schichten<br />

sind.<br />

Population von N Klumpen; jedes Element der Population ist in genau einem Klumpen<br />

Ziehung einer einfachen Zufallsstichprobe von Klumpen; alle Elemente innerhalb der<br />

Klumpen sind in der Stichprobe<br />

Vergleich Klumpenstichprobe und geschichtete Stichprobe: Vor- und Nachteile<br />

Die Unterschiede zwischen einer Klumpenstichprobe und einer geschichteten<br />

Stichprobe macht folgende Tabelle deutlich:<br />

Page 9


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

Klumpenstichprobe<br />

("cluster sampling")<br />

Falls keine Listen der Elemente der Grundgesamheit<br />

existieren, sind <strong>Klumpenstichproben</strong> meist die<br />

einzige Möglichkeit Stichproben zu realisieren.<br />

Die Kosten der Datenerhebung sind häufig geringer<br />

als bei einfachen Zufallsstichproben.<br />

Es ergeben sich größere Standardfehler als bei der<br />

einfachen Zufallsstichprobe.<br />

Resümee<br />

geschichtete Zufallsstichprobe<br />

("stratified sampling")<br />

Die Kosten der Datenerhebung können geringer sein<br />

als bei einfachen Zufallsstichproben.<br />

Es ergeben sich kleinere Standardfehler als bei der<br />

einfachen Zufallsstichprobe.<br />

Bei <strong>Klumpenstichproben</strong> wird eine einfache Zufallsstichprobe aus "natürlichen"<br />

Gruppen von Elementen, den Klumpen, gezogen. Im einfachsten Fall werden alle<br />

Elemente aus einem ausgewählten Klumpen gezogen ("one stage cluster sampling").<br />

<strong>Klumpenstichproben</strong> besitzen gegenüber einfachen Zufallsstichproben zwei Vorteile:<br />

- <strong>Klumpenstichproben</strong> benötigen keine Liste der Elemente der Grundgesamtheit.<br />

- <strong>Klumpenstichproben</strong> verursachen häufig geringere Erhebungskosten als einfache<br />

Zufallsstichproben.<br />

Der Nachteil der Klumpenauswahl besteht darin, dass Schätzungen der<br />

Populationsparameter höhere Standardfehler aufweisen als Schätzungen auf der Basis<br />

einer einfachen Zufallsstichprobe gleichen Umfangs. Man nennt dies allgemein den<br />

"Designeffekt" (abgekürzt: "deft").<br />

Die Größe des Designeffekts der <strong>Klumpenstichproben</strong> hängt vom Maß der Homogenität<br />

innerhalb der Klumpen und der Zahl der Klumpen ab.<br />

Dieses Modul beschränkte sich auf <strong>Klumpenstichproben</strong> mit Klumpen gleicher Größe.<br />

Bei praktischen Anwendungen finden sich eher Klumpen unterschiedlicher Größe; dies<br />

erfordert lediglich etwas kompliziertere Formeln als sie hier verwendet wurden.<br />

Schließlich finden sich in der Forschungspraxis häufig Kombinationen verschiedener<br />

Stichprobenverfahren (sogenannte "mehrstufige Auswahlverfahren").<br />

<strong>Klumpenstichproben</strong> sind hierbei fast immer Bestandteil solcher mehrstufiger<br />

Verfahren.<br />

Die Deutsche Bahn AG führt regelmäßig Fahrgastbefragungen durch. Da es keine<br />

vollständige Liste von Fahrgästen gibt, liegt eine Klumpenstichprobe nahe. Welche der<br />

folgenden Klumpen erscheint Ihnen geeignet? Bitte formulieren Sie eine statistische<br />

Begründung für Ihre Entscheidung?<br />

a) Bahnhöfe<br />

b) Schaffner<br />

c) Wagennummern innerhalb von Zügen<br />

Page 10


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

d) Züge<br />

e) Bahnverbindungen zwischen ausgewählten Orten<br />

Lösung<br />

c)<br />

Lösung d) würde größere Klumpen bedingen. E) würde zu noch stärkeren<br />

Klumpeneffekten führen. Ebenso würde b) gegenüber c) durch die hohe Fallzahl pro<br />

Schaffner zu deutlich größeren Klumpeneffekten führen. Für eine einstufige Stichprobe<br />

scheidet a) aus.<br />

Warum sind die Standardfehler bei <strong>Klumpenstichproben</strong> größer und bei geschichteten<br />

Stichproben kleiner als bei einfachen Zufallsstichproben?<br />

Lösung<br />

Bei <strong>Klumpenstichproben</strong> wird die Varianz in der Stichprobe unterschätzt, da die<br />

Elemente des Klumpens untereinander ähnlich sind. Die Standardfehler scheinen<br />

kleiner zu sein, als sie es tatsächlich sind. Bei geschichteten Stichproben werden a priori<br />

als heterogen betrachtete Gruppen als unabhängige Stichproben betrachtet. Deren<br />

gemeinsame Verteilung von Stichprobenkennwerten besitzt fast immer tatsächlich eine<br />

kleinere Varianz als die entsprechende Verteilung einfacher Zufallsstichproben.<br />

Wünscht man sich eine größere oder eine kleinere Varianz einer Stichprobenverteilung<br />

eines Kennwerts? Begründen Sie Ihre Antwort.<br />

Lösung<br />

Eine kleinere Varianz ist wünschenswert. Je kleiner die Varianz, desto kleiner die<br />

Konfidenzintervalle. Damit sind die Schätzungen der Grundgesamtheitsparameter umso<br />

präziser, je kleiner die Varianz der Stichprobenverteilung eines Kennwerts.<br />

Bitte schreiben Sie die Definitionsformel für den Designeffekt am Beispiel des<br />

Mittelwerts.<br />

Lösung<br />

Welches der folgenden Auswahlverfahren wird bei gleicher Stichprobengröße<br />

vermutlich den größten Standardfehler besitzen?<br />

a) einfache Zufallsstichprobe<br />

b) Klumpenstichprobe<br />

c) geschichtete Stichprobe<br />

Lösungen<br />

b)<br />

a) Können Sie sich eine Ursache für einen möglichen Klumpeneffekt in der<br />

Augenheilkunde vorstellen?<br />

Page 11


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

b) Bei medizinischen Untersuchungen gelten Studien, die an mehreren Krankenhäusern<br />

durchgeführt wurden ("multicenter studies") als besonders wünschenswert. Bitte<br />

formulieren Sie eine statistische Begründung.<br />

Lösung<br />

a) Menschen verfügen in der Regel über zwei Augen, die nicht unabhängig von<br />

einander sind, da sie über das gleiche physiologische System versorgt werden.<br />

b) Bei <strong>Klumpenstichproben</strong> wie z.B. Krankenhäusern, führt eine Vergrößerung der Zahl<br />

der Klumpen zur Verringerung von Klumpeneffekten. In diesem Fall handelt es sich bei<br />

den Klumpeneffekten um nicht kontrollierte Drittvariablen. Dazu könnten<br />

Infrastrukturmerkmale der Krankenhäuser oder selektives Patientengut gehören.<br />

Bei einer Klumpenauswahl werden<br />

a) einfache Zufallsstichproben aus Gruppen von Elementen der Grundgesamtheit<br />

gezogen<br />

b) Gruppen von Elementen der Grundgesamtheit durch eine einfache Zufallsstichprobe<br />

ausgewählt<br />

c) Grundgesamtheiten in Gruppen zerlegt, aus denen dann einfache Zufallsstichproben<br />

gezogen werden<br />

d) werden aus einfachen Zufallstichproben gezogene Elemente zu Gruppen<br />

zusammengefasst<br />

Lösung<br />

b)<br />

Was sind Vorteile der Klumpenauswahl?<br />

a) <strong>Klumpenstichproben</strong> führen zu genaueren Schätzungen<br />

b) <strong>Klumpenstichproben</strong> benötigen keine Liste der Elemente der Grundgesamtheit.<br />

c) <strong>Klumpenstichproben</strong> sind von Vorteil, da die Gruppierung in Klumpen so gut ist wie<br />

eine Zerlegung in Schichten<br />

d) <strong>Klumpenstichproben</strong> verursachen häufig geringere Kosten als einfache<br />

Zufallsstichproben<br />

Lösung<br />

b) und d)<br />

Insbesondere für dieses Kapitel empfehlen wir das auch in anderen Modulen<br />

hervorgehobene Lehrbuch von Sharon Lohr. Eine klarere und präzisere Darstellung ist<br />

derzeit nicht verfügbar.<br />

Lohr, S.L. (1999): Sampling: Design and Analysis. Pacific Grove: Duxbury Press.<br />

Intraklassenkorrelationskoeffizient<br />

ErklärungKlumpen vorgruppierte Teilmengen oder "natürliche" Gruppen (z.B.<br />

Schulklassen, Arbeitsgruppen)<br />

Page 12


(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003 - Lernmodul: <strong>Klumpenstichproben</strong><br />

ExplanationKlumpeneffektDa die Elemente innerhalb eines Klumpens<br />

untereinander fast immer ähnlicher sind als zufällig aus der Grundgesamtheit<br />

ausgewählte Elemente ist der Standardfehler einer Klumpenstichprobe fast<br />

immer größer als der Standardfehler einer gleich großen einfachen<br />

Zufallsstichprobe. Diese Eigenschaft einer Klumpenstichprobe bezeichnet man<br />

auch als "Klumpeneffekt".<br />

ErklärungKlumpenstichprobeBei einer Klumpenauswahl werden Gruppen von<br />

Elementen der Grundgesamtheit durch eine einfache Zufallsstichprobe<br />

ausgewählt. Die Auswahlregeln der Zufallsstichproben werden also nicht auf die<br />

Elemente der Grundgesamtheit selbst angewandt, sondern auf Gruppen. Im<br />

einfachsten Fall gelangen in die Stichprobe alle Elemente der ausgewählten<br />

Gruppen.<br />

Erklärung"litter effect”<br />

Erklärung<br />

(c) Projekt <strong>Neue</strong> <strong>Statistik</strong> 2003, Freie Universität Berlin, Center für Digitale Systeme<br />

Kontakt: http://www.neuestatistik.de<br />

Page 13

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!