Fehlende Werte - Institut für Statistik - Ludwig-Maximilians ...
Fehlende Werte - Institut für Statistik - Ludwig-Maximilians ...
Fehlende Werte - Institut für Statistik - Ludwig-Maximilians ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
LMU LUDWIG-<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Vorstellung der Seminararbeit zum Zusatzkurs<br />
Amtliche <strong>Statistik</strong><br />
15. Juni 2009<br />
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
Betreuung durch: Prof. Dr. Augustin<br />
Referent: Matthias Speidel<br />
LMU München <strong>Institut</strong> <strong>für</strong> <strong>Statistik</strong>
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Gliederung<br />
Einleitung<br />
Die Fehlerarten<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Gliederung<br />
Die Fehlerarten Einschub<br />
<strong>Fehlende</strong> <strong>Werte</strong> Problematik<br />
Ergebnis<br />
2
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Einschub<br />
Unterschied „<strong>Fehlende</strong> <strong>Werte</strong>“<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Gliederung<br />
Die Fehlerarten Einschub<br />
<strong>Fehlende</strong> <strong>Werte</strong> Problematik<br />
Ergebnis<br />
und „falsche <strong>Werte</strong>“<br />
3
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Problematik<br />
statistische Ergebnisse haben weitreichende Folgen<br />
Differenzen zur Realität sind Differenzen zur<br />
„optimalen Lösung“<br />
Fall aus der Realität: Nutzen von Elterngeld<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Gliederung<br />
Die Fehlerarten Einschub<br />
<strong>Fehlende</strong> <strong>Werte</strong> Problematik<br />
Ergebnis<br />
4
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Die Fehlerarten<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Vorstellung der Arten<br />
Die Fehlerarten Entstehung und Vermeidung<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
5
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
1. Adäquationsproblem<br />
Problem:<br />
Ein theoretisches Konstrukt muss auf die empirische<br />
Ebene gebracht werden<br />
Lösungsansätze:<br />
sichere Kenntnisse (Substanzwissenschaftler)<br />
valide und reliable Messinstrumente<br />
Pre-Test und Vergleich mit anderen Instrumenten<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Vorstellung der Arten<br />
Die Fehlerarten Entstehung und Vermeidung<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
6
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
2. Fehler durch die Erfassungsgrundlage<br />
Entstehung:<br />
Die Erfassungsgrundlage weißt eine Differenz zur<br />
eigentlichen Grundgesamtheit auf<br />
Vermeidung:<br />
Genaue Bestimmung der Grundgesamtheit und ausloten<br />
der „Under-“ und „Overcaverage“<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Vorstellung der Arten<br />
Die Fehlerarten Entstehung und Vermeidung<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
7
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Übersicht Vorstellung der Arten<br />
Die Fehlerarten Entstehung und Vermeidung<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
3. Stichprobenbedingte Fehler<br />
Entstehung:<br />
Stichprobe nicht repräsentativ bezüglich des<br />
interessierenden Merkmals<br />
Vermeidung:<br />
Systematische Verzerrungen vermeiden<br />
Auswahlverfahren darf mit dem<br />
Untersuchungsmerkmal nicht im Zusammenhang stehen<br />
ausreichender Stichprobenumfang<br />
wirklicher Zufallsmechanismus<br />
ausreichender Stichprobenumfang<br />
Seminararbeit | Matthias Speidel<br />
8
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
4. Fehler durch Antwortausfälle<br />
Entstehung:<br />
Eine Einheit macht zu einer oder<br />
mehreren Merkmalsausprägungen keine Angaben<br />
oder: Informationsverlust<br />
Vermeidung:<br />
Vertrauen durch Anonymität und Seriosität<br />
verständliche, relevante (Ausnahme: zu Beginn der<br />
Befragung) und nicht zu viele Fragen<br />
indirekte Fragen<br />
sichere / verlässliche Kommunikationswege wählen<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Vorstellung der Arten<br />
Die Fehlerarten Entstehung und Vermeidung<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
9
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
5. Fehler durch Falschantwort<br />
Entstehung:<br />
Es werden bewusst oder unbewusst falsche<br />
Angaben gemacht<br />
Vermeidung:<br />
Anonymität<br />
soziale Erwünschtheit eliminieren / abschwächen<br />
(schriftliche Befragung, indirekte Fragen,<br />
randomisierte Antwort)<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Vorstellung der Arten<br />
Die Fehlerarten Entstehung und Vermeidung<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
10
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
6. Messfehler<br />
Entstehung:<br />
Falsche Handhabung des Instrumentes<br />
Zufällige, unkontrollierte Einflüsse<br />
Vermeidung:<br />
Vermitteln der exakten Handhabung<br />
Kontrollierte Bedingungen (geringe externe Einflüsse)<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Vorstellung der Arten<br />
Die Fehlerarten Entstehung und Vermeidung<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
11
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
7. Aufbereitungsfehler<br />
Entstehung:<br />
Bei der Aufbereitung der Messergebnisse <strong>für</strong> die<br />
Analyse<br />
Vermeidung:<br />
Geschultes Personal einsetzen<br />
Konzentriertes Vorgehen<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Vorstellung der Arten<br />
Die Fehlerarten Entstehung und Vermeidung<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
12
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
8. Interpretationsdiskrepanz<br />
Problem:<br />
Von empirischen Resultaten muss auf die<br />
komplexe Realität zurück geschlossen werden<br />
Lösungsansätze:<br />
Kommunikation der Ergebnisse an den<br />
Substanzwissenschaftler<br />
Als <strong>Statistik</strong>er: Vermeiden von eigener Inhaltlicher<br />
Interpretation und Vermeiden von externer<br />
methodischer Fehlinterpretation<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Vorstellung der Arten<br />
Die Fehlerarten Entstehung und Vermeidung<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Ergebnis<br />
13
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
<strong>Fehlende</strong> <strong>Werte</strong><br />
Zufällig Fehlend<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Zufällig Fehlend<br />
Die Fehlerarten Abhängig Fehlend<br />
<strong>Fehlende</strong> <strong>Werte</strong> Nicht Zufällig Fehlend<br />
Ergebnis Bestimmung der Arten<br />
Abhängig Fehlend<br />
Nicht Zufällig Fehlend<br />
14
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Zufällig Fehlend<br />
Missing Completely At Random<br />
Der Antwortausfall ist rein zufällig Natur und steht<br />
weder mit der Ausprägung des Merkmals,<br />
noch mit einer anderen Variablen in Verbindung<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Zufällig Fehlend<br />
Die Fehlerarten Abhängig Fehlend<br />
<strong>Fehlende</strong> <strong>Werte</strong> Nicht Zufällig Fehlend<br />
Ergebnis Bestimmung der Arten<br />
15
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Abhängig Fehlend<br />
Missing At Random<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Zufällig Fehlend<br />
Die Fehlerarten Abhängig Fehlend<br />
<strong>Fehlende</strong> <strong>Werte</strong> Nicht Zufällig Fehlend<br />
Ergebnis Bestimmung der Arten<br />
Der Antwortausfall ist unabhängig<br />
von der Ausprägung des Merkmals,<br />
steht allerdings mit einer anderen Variablen in Verbindung<br />
16
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Zufällig Fehlend<br />
Die Fehlerarten Abhängig Fehlend<br />
<strong>Fehlende</strong> <strong>Werte</strong> Nicht Zufällig Fehlend<br />
Ergebnis Bestimmung der Arten<br />
Nicht Zufällig Fehlend<br />
Missing Not At Random<br />
Der Antwortausfall ist abhängig<br />
von der Ausprägung des Merkmals, steht aber nicht (primär)<br />
mit einer anderen Variablen in Verbindung<br />
17
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Bestimmung der Arten<br />
Abhängig Fehlend<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Zufällig Fehlend<br />
Die Fehlerarten Abhängig Fehlend<br />
<strong>Fehlende</strong> <strong>Werte</strong> Nicht Zufällig Fehlend<br />
Ergebnis Bestimmung der Arten<br />
Aufsplitten der vollständigen und<br />
unvollständigen Daten<br />
Bestimmung der Verteilung<br />
Differenzbildung zwischen den Verteilungen<br />
Bei großen Differenzen scheint die Variable<br />
einen Einfluss auf das Fehlen zu haben<br />
18
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Bestimmung der Arten<br />
Zufällig Fehlend<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Zufällig Fehlend<br />
Die Fehlerarten Abhängig Fehlend<br />
<strong>Fehlende</strong> <strong>Werte</strong> Nicht Zufällig Fehlend<br />
Ergebnis Bestimmung der Arten<br />
nicht Abhängig Fehlend und keine auffallend<br />
hohe <strong>Fehlende</strong> <strong>Werte</strong> Rate (im Vergleich zu<br />
anderen Variablen)<br />
19
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Bestimmung der Arten<br />
Nicht Zufällig Fehlend<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Zufällig Fehlend<br />
Die Fehlerarten Abhängig Fehlend<br />
<strong>Fehlende</strong> <strong>Werte</strong> Nicht Zufällig Fehlend<br />
Ergebnis Bestimmung der Arten<br />
nicht Abhängig Fehlend und auffallend<br />
hohe <strong>Fehlende</strong> <strong>Werte</strong> Rate (im Vergleich zu<br />
anderen Variablen)<br />
20
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Complete & Avaiable Case Analysis<br />
Complete Case Analysis<br />
Es werden nur die Einheiten untersucht, <strong>für</strong> die<br />
zu jeder Variablen die Ausprägung vorhanden ist<br />
Avaiable Case Analysis<br />
Es werden nur die Einheiten untersucht, <strong>für</strong> die zu<br />
jeder aktuell interessierenden Variable die<br />
Ausprägung vorhanden ist<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Complete – und Avaiable Case Analysis<br />
Die Fehlerarten Einfache – und Multiple Imputation<br />
<strong>Fehlende</strong> <strong>Werte</strong> Bewertung der Möglichkeiten<br />
Ergebnis Zusammenfassung<br />
21
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Imputation<br />
Einfache Imputation<br />
<strong>Fehlende</strong> <strong>Werte</strong> sollen durch die „richtigen“<br />
<strong>Werte</strong> ersetzt werden<br />
Suche nach adäquater Variable (Matching)<br />
Einsetzen eines plausiblen <strong>Werte</strong>s<br />
Multiple Imputation<br />
mehrmaliges Einsetzen eines <strong>Werte</strong>s<br />
(<strong>Werte</strong>vektor) und anschließende Analyse<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Complete und Avaiable Case Analysis<br />
Die Fehlerarten Einfache – und Multiple Imputation<br />
<strong>Fehlende</strong> <strong>Werte</strong> Bewertung der Möglichkeiten<br />
Ergebnis Zusammenfassung<br />
22
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Bewertung der Möglichkeiten<br />
Complete Case Analysis<br />
Einfach handhabbar<br />
Vernachlässigt den Fehlendmechanismus<br />
Bei vielen Variablen wird die Fallzahl gering<br />
Avaiable Case Analysis<br />
Nutzt mehr Information<br />
Vernachlässigt den Fehlendmechanismus<br />
Vergleich von Teilergebnissen wird erschwert<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Complete und Avaiable Case Analysis<br />
Die Fehlerarten Einfache – und Multiple Imputation<br />
<strong>Fehlende</strong> <strong>Werte</strong> Bewertung der Möglichkeiten<br />
Ergebnis Zusammenfassung<br />
23
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Bewertung der Möglichkeiten<br />
Einfache Imputation<br />
Informationserhalt<br />
Unterschätzung der Unsicherheit<br />
Multiple Imputation<br />
Belastbarer Informationserhalt<br />
Technisch aufwendiger<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Complete und Avaiable Case Analysis<br />
Die Fehlerarten Einfache – und Multiple Imputation<br />
<strong>Fehlende</strong> <strong>Werte</strong> Bewertung der Möglichkeiten<br />
Ergebnis Zusammenfassung<br />
24
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Zusammenfassung<br />
Allgemein Wissen um die Fehler<br />
Im Studienverlauf Zusammenarbeit mit<br />
Substanzwissenschaftlern<br />
In einer Befragung Zusichern und Gewährleisten von<br />
Anonymität<br />
bei <strong>Fehlende</strong>n <strong>Werte</strong>n Zufällig Fehlend ist unproblematisch<br />
Abhängig Fehlend in Bezug auf die<br />
verursachende Variable kritisch<br />
Nicht Zufällig Fehlend großes<br />
Fehlerpotential in der Analyse<br />
Imputation Solides Verfahren allerdings kein echter<br />
Informationsgewinn<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Complete und Avaiable Case Analysis<br />
Die Fehlerarten Einfache – und Multiple Imputation<br />
<strong>Fehlende</strong> <strong>Werte</strong> Bewertung der Möglichkeiten<br />
Ergebnis Zusammenfassung<br />
25
Quellen<br />
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Literaturangaben<br />
Übersicht Complete und Avaiable Case Analysis<br />
Die Fehlerarten Imputation<br />
<strong>Fehlende</strong> <strong>Werte</strong> Bewertung der Möglichkeiten<br />
Ergebnis Zusammenfassung<br />
Fahrmeir, L. et al. (2007): <strong>Statistik</strong><br />
Göthlich, S. (2005): Zum Umgang mit fehlenden Daten in<br />
großzahligen empirischen Erhebungen<br />
Groves, R. (1989): Survey Errors and Survey Costs<br />
Küchenhoff, H. und Kauermann, G. (2008): Erkenntnisse aus<br />
Stichproben<br />
Radermacher, W. und Körner, T. (2006): <strong>Fehlende</strong> oder<br />
fehlerhafte Daten in der amtlichen<br />
<strong>Statistik</strong>. Neue Herausforderungen und Lösungsansätze<br />
Schnell, R. (1991): Wer ist das Volk?<br />
Seminararbeit | Matthias Speidel<br />
26
Quellen<br />
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Internetquellen<br />
http://www.welt.de/diewelt/<br />
article1456180/Experte_sieht_Elterngeld_als_Ursache_fuer_stei<br />
gende_Geburtenrate.html<br />
http://www.zeit.de/online/2008/34/geburten-anstieg-analyse<br />
http://www.statistik-berlin.de/wir/amtliche-statistik/wir1.htm<br />
http://www.nzzfolio.ch/www/21b625ad-36bc-48ea-b615-<br />
1c30cd0b472d/showarticle/fffc70d1-99f5-<br />
4326-912f-dfc7f23cbc48.aspx<br />
http://www.jstor.org/pss/2283137<br />
http://www.stat.psu.edu/~jls/mifaq.html<br />
Seminararbeit | Matthias Speidel<br />
Übersicht Complete und Avaiable Case Analysis<br />
Die Fehlerarten Imputation<br />
<strong>Fehlende</strong> <strong>Werte</strong> Bewertung der Möglichkeiten<br />
Ergebnis Zusammenfassung<br />
27
MAXIMILIANS-<br />
UNIVERSITÄT<br />
MÜNCHEN<br />
LMU LUDWIG-<br />
Vielen Dank <strong>für</strong> Ihre Aufmerksamkeit!<br />
Seminararbeit | Matthias Speidel<br />
28