Download PDF 2000kb - Psychologie-studium.info
Download PDF 2000kb - Psychologie-studium.info
Download PDF 2000kb - Psychologie-studium.info
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Skript: Benutzung von SPSS<br />
Die Benutzung des Programmpaketes<br />
SPSS 11.0 unter Microsoft Windows<br />
Dr. H. Fillbrandt<br />
Frank Weiss-Motz<br />
Oliver Sündermann<br />
Seite - 1 -
Skript: Benutzung von SPSS<br />
1. VORWORT...........................................................................................................................5<br />
2. DATENEINGABE................................................................................................................6<br />
2.1. SPEICHERN DER EINGEGEBENEN DATEN ...........................................................................7<br />
2.2. ÖFFNEN EINES DATENSATZES...........................................................................................8<br />
2.3. VERÄNDERN VON VARIABLENEIGENSCHAFTEN................................................................8<br />
2.3.1. Wertelabels festlegen..............................................................................................10<br />
2.3.2. Fehlende Werte definieren .....................................................................................10<br />
3. EINFACHE DESKRIPTIVE STATISTIKEN ................................................................12<br />
3.1. EINDIMENSIONALE HÄUFIGKEITSAUSZÄHLUNGEN UND KENNWERTE NOMINAL- ODER<br />
ORDINAL-SKALIERTER VARIABLEN .......................................................................................12<br />
3.2. MEHRDIMENSIONALE HÄUFIGKEITSAUSZÄHLUNGEN .....................................................14<br />
3.3. DESKRIPTIVE STATISTIKEN FÜR INTERVALLSKALIERTE VARIABLEN ..............................16<br />
4. ERSTELLUNG EINFACHER DIAGRAMME..............................................................17<br />
4.1. EINFACHE HÄUFIGKEITSDIAGRAMME FÜR NOMINAL- UND ORDINALSKALIERT E<br />
VARIABLEN ...........................................................................................................................17<br />
4.2. ERSTELLUNG EINES „HISTOGRAMMS“ FÜR INTERVALLSKALIERTE VARIABLEN..............20<br />
5. UMWANDLUNG VON VARIABLEN UND ERZEUGUNG NEUER VARIABLEN 23<br />
5.1. REKODIEREN VON DATEN...............................................................................................23<br />
5.2. BEDINGTE UMKODIERUNG..............................................................................................24<br />
5.3. VERRECHNUNG EINER ODER MEHRERER VARIABLEN ZU EINER NEUEN ...........................26<br />
5.4. AUSZÄHLUNGEN VON WERTEN ÜBER MEHRERE VARIABLEN..........................................27<br />
5.5. BILDUNG VON RANGWERTEN .........................................................................................28<br />
6. BILDUNG VON UNTERGRUPPEN / UNTERSTICHPROBEN .................................29<br />
6.1. AUSWAHL VON FÄLLEN ..................................................................................................29<br />
6.2. DATEI AUFTEILEN ...........................................................................................................30<br />
7. ZUSAMMENFÜGEN VON DATEIEN ...........................................................................32<br />
7.1. FÄLLE HINZUFÜGEN ........................................................................................................32<br />
7.2. VARIABLEN HINZUFÜGEN ...............................................................................................32<br />
8. EXPLORATIVE DATENANALYSE...............................................................................34<br />
8.1 FRAGESTELLUNG.............................................................................................................34<br />
8.2 METHODEN DER EXPLORATIVEN DATENANALYSE...........................................................35<br />
8.2.1 Häufigkeitsauszählung ............................................................................................35<br />
8.2.2 Stem-and-Leaf-Diagramm (Stengel-Blatt-Diagramm)............................................36<br />
8.2.3 Boxplots...................................................................................................................37<br />
8.2.4 Normalverteilungsdiagramm...................................................................................38<br />
8.2.5 Deskriptive Statistiken.............................................................................................40<br />
9. BALKEN-, LINIEN-, FLÄCHEN- UND KREISDIAGRAMME..................................44<br />
9.1 ALLGEMEINES..................................................................................................................44<br />
9.2 STRUKTUR DER DARZUSTELLENDEN DATEN ....................................................................44<br />
9.2.1 Zahl der darzustellenden Datenreihen ....................................................................44<br />
9.2.2 Art der darzustellenden Werte.................................................................................44<br />
9.3 DARSTELLUNG EINER EINZELNEN DATENREIHE...............................................................45<br />
9.3.1 Einfaches Balkendiagramm.....................................................................................45<br />
Seite - 2 -
Skript: Benutzung von SPSS<br />
9.3.1.1 Aufrufmöglichkeiten .............................................................................................45<br />
9.3.1.2 Diagramm interpretieren......................................................................................45<br />
9.3.1.3 Direkte Umwandlung in alternative Grafiktypen.................................................46<br />
9.3.2 Einfaches Liniendiagramm......................................................................................46<br />
9.3.3 Einfaches Flächendiagramm...................................................................................47<br />
9.3.4 Kreisdiagramm........................................................................................................48<br />
9.4 DARSTELLUNG MEHRERER DATENREIHEN .......................................................................48<br />
9.4.1 Gruppiertes und gestapeltes Balkendiagramm .......................................................48<br />
9.4.2 Mehrfachliniendiagramm........................................................................................49<br />
9.4.3 Gestapeltes Flächendiagramm................................................................................49<br />
10. STREUDIAGRAMME....................................................................................................50<br />
10.1 DIAGRAMMTYPEN..........................................................................................................50<br />
10.2 EINFACHES STREUDIAGRAMM.......................................................................................51<br />
10.3 EINFACHES STREUDIAGRAMM IN SONNENBLUMEN-DARSTELLUNG...............................52<br />
10.4 EINFACHES STREUDIAGRAMM MIT REGRESSIONSKURVE...............................................53<br />
11 HINWEIS ZUM BEGRIFF „NICHTPARAMETRISCHE TESTS“...........................54<br />
12 INFERENZSTATISTIK HÄUFIGKEITSTESTS .........................................................56<br />
12.1 BINOMIALTEST, EXAKT UND ASYMPTOTISCH .................................................................56<br />
12.1.1 Einseitiger Test......................................................................................................58<br />
12.1.2 Zweiseitiger Test....................................................................................................59<br />
12.2 EINDIMENSIONALER Χ 2 -TEST ........................................................................................61<br />
12.3 DER Χ 2 -TEST IN ZWEIDIMENSIONALEN KREUZTABELLEN..............................................63<br />
12.4 DER SPEZIELLE FALL VON 2*2-KREUZTABELLEN ..........................................................65<br />
12.5 ANALYSE VON DREI- ODER HÖHERDIMENSIONALEN KREUZTABELLEN ..........................65<br />
13 BERECHNUNG UND ANALYSE VON KORRELATIONEN...................................66<br />
13.1 PRODUKT-MOMENT-KORRELATION .............................................................................66<br />
13.2 PARTIAL-KORRELATION................................................................................................68<br />
13.3 MULTIPLE KORRELATION UND REGRESSION .................................................................70<br />
13.3.1 Schätzung einer einfachen Regressionsgleichung.................................................70<br />
13.3.3 Zeichnung der Regressionsgeraden .....................................................................75<br />
13.4 MULTIPLE REGRESSION .................................................................................................77<br />
13.4.1 Erweiterung der einfachen Regression zur Multiplen Regression........................77<br />
13.4.5 Diagramme (Plots): Prüfung der Residuen...........................................................81<br />
14 SYNTAX.............................................................................................................................83<br />
14.1 ZWEI MÖGLICHKEITEN, SPSS ANWEISUNGEN ZU GEBEN ..............................................83<br />
14.2 SYNTAX-FENSTER .........................................................................................................84<br />
14.3 DIE JOURNAL-DATEI .....................................................................................................85<br />
14.4 SYNTAX-BEFEHLE IN DER AUSGABEDATEI ....................................................................85<br />
14.5 SYNTAX VON SPSS-KOMMANDOS.................................................................................85<br />
14.5.1 Syntaxdiagramme..................................................................................................85<br />
14.5.2 Syntaxregeln ..........................................................................................................86<br />
14.5.4 Bedeutung der Symbole und Schreibweisen in Syntaxdiagrammen......................88<br />
14.5.5 Beispiel: Umsetzung eines Syntaxprogramms in einen Befehl..............................88<br />
14.5.6 Einbindung der Syntax in den dialoggesteuerten Ablauf ......................................90<br />
15 INFERENZSTATISTIK...................................................................................................92<br />
15.1 T-TESTE ........................................................................................................................92<br />
Seite - 3 -
Skript: Benutzung von SPSS<br />
15.1.1 Allgemeines...........................................................................................................92<br />
15.1.2 t-Test bei unabhängigen Stichproben...................................................................92<br />
15.1.3 T-Test bei abhängigen (gepaarten) Stichproben...................................................96<br />
15.1.4 t-Test bei einer Stichprobe....................................................................................98<br />
15.2 EINFACHE VARIANZANALYSE......................................................................................100<br />
15.2.1 „A-PRIORI“-KONTRASTE.................................................................................104<br />
15.2.2 Rechenbeispiel.....................................................................................................105<br />
15.2.3 SCHEFFÉ-TEST..................................................................................................107<br />
15. 3 ZWEI- UND HÖHERFAKTORIELLE VARIANZANALYSEN ...............................................109<br />
15.3.1 Paarweise Vergleiche zwischen Zeilen- und Spalten-Mittelwerten ....................112<br />
15.3.2 Interaktionsdiagramm .........................................................................................113<br />
15.3.3 Analyse der einfachen Haupteffekte (Bedingte Haupteffekttests) .......................115<br />
Seite - 4 -
Skript: Benutzung von SPSS<br />
1. Vorwort<br />
Dieses Skript soll dem Leser die grundlegenden Fertigkeiten vermitteln, um die<br />
Anforderungen des Kurses „Einführung in die EDV“ am Institut für <strong>Psychologie</strong> der<br />
Universität Kiel zu erfüllen. Die Programmbeschreibung bezieht sich auf die SPSS-<br />
Version 11.0. für Windows. Sie ist mit geringen Einschränkungen auch auf andere<br />
Versionen von SPSS sowohl für Unix als auch für Macintosh übertragbar.<br />
Unterschiede bestehen vor allem in der Form und dem Aussehen des Outputs.<br />
Seite - 5 -
Skript: Benutzung von SPSS<br />
2. Dateneingabe<br />
Nach dem Start des Programmpaketes SPSS erscheint das Datenfenster wie in Abb.<br />
1 zu sehen auf dem Windows-Desktop<br />
Das Datenfenster, welches wir auch zur Dateneingabe benutzen, unterteilt sich von<br />
oben nach unten:<br />
• in die Menu-Leiste (1)<br />
• die Knopfleiste (in dieser sind wichtige Funktionen schnell zugänglich) (2)<br />
• die Eingabezeile (hier werden die Daten einer Zelle eingegeben) (3)<br />
• die Datenmatrix (4)<br />
• die Umschaltkarteireiter zwischen Daten und Variablensicht (5)<br />
• und die Statuszeile (6)<br />
Abb. 1: Das Datenfenster<br />
In den Spalten der Datenmatrix stehen die Variablen, in den Zeilen die Fälle (im<br />
Normalfall die verschiedenen Versuchspersonen). Nach dem Start ist diese<br />
Datenmatrix natürlich noch leer. Durch Eingabe eines Wertes in eine Zelle dieser<br />
Matrix wird automatisch eine neue Variable angelegt. Diese wird standardmäßig mit<br />
„var00001“ bis „var99999“ bezeichnet. Die Namen der Variablen kann man ändern,<br />
dazu aber später mehr.<br />
Seite - 6 -
Skript: Benutzung von SPSS<br />
Um einen Wert in eine Zelle einzutragen, ist zuerst die Zelle zu markieren. Dies<br />
geschieht durch einfachen Klick mit der Maus auf die entsprechende Zelle. Jetzt gibt<br />
man mittels Tastatur den Wert in die Eingabezeile ein. Bestätigt man mit „Return“, so<br />
springt SPSS anschließend automatisch in die Zelle der nächsten Versuchsperson<br />
(spaltenweise Eingabe), bestätigt man mit der „Tabulator“-Taste, so geht SPSS zur<br />
nächsten Variablen des aktuellen Falls (zeilenweise Eingabe). Alternativ können für<br />
beide Eingabeformen auch die Richtungstasten des Keyboards benutzt werden.<br />
2.1. Speichern der eingegebenen Daten<br />
Sind die Daten noch nie gespeichert worden, so muss dies beim ersten Mal über das<br />
Menu erfolgen. Hierzu dient der Menupunkt<br />
Datei -> Speichern unter<br />
Die Menupunkte werden durch einfachen Klick angewählt. Es öffnet sich dann ein<br />
Fenster wie in Abb. 2 zu sehen.<br />
Abb. 2: Das Datei speichern Fenster<br />
Hierbei handelt es sich um ein Standard-Windows-Dateiauswahlfenster. Unter<br />
Dateiname ist der Name anzugeben, unter dem die Datei gespeichert werden soll.<br />
Unter Dateityp kann die gewünschte Art der Datendatei ausgewählt werden.<br />
Standardmäßig ist hier der Dateityp SPSS (*.sav) ausgewählt. Es handelt sich dabei<br />
um das SPSS-eigene Dateiformat. Dies sollte in 95% der Fälle das gewünschte<br />
Format sein. Alternativ kann man an dieser Stelle auch z.B. das Speichern im Excel-<br />
Format veranlassen. Im Oberen Teil hinter dem Wort Speichern hat man die<br />
Möglichkeit den Ordner auszuwählen, in dem die Datei gespeichert werden soll. Hier<br />
kann man z.B. das Diskettenlaufwerk A und damit die dort eingelegte Diskette oder<br />
die Festplatte, die mit C bezeichnet wird auswählen. Klickt man auf C, so erscheinen<br />
alle auf C angelegten Ordner. Hier kann man auswählen in welchen die SPSS-Daten<br />
geschrieben werden. Als Teilnehmer des SPSS-Tutoriums hat man nur<br />
eingeschränkten Zugriff auf die Festplatte. Es steht nur der Ordner „Eigene Dateien“,<br />
welcher ebenfalls wie die Diskette oder Festplatte im obigen Menu zu finden ist, zur<br />
Seite - 7 -
Skript: Benutzung von SPSS<br />
Verfügung. Hier sollten keine privaten Daten abgelegt werden. Eine Diskette ist zu<br />
bevorzugen. Mit einem Klick auf Speichern wird die Datei dann auf das<br />
Speichermedium geschrieben.<br />
Wurde die Datei bereits einmal gespeichert, so kann man das Speichern<br />
vereinfachen, indem man in der Knopfleiste auf das Diskettensymbol klickt.<br />
Damit wird die Datei unter dem aktuellen Dateinamen gespeichert. Achtung, ältere<br />
Versionen der Datei werden dadurch aber überschrieben.<br />
2.2. Öffnen eines Datensatzes<br />
Abb. 3: Der Datei-Öffnen-Dialog<br />
Um einen bereits gespeicherten Datensatz zu öffnen, verwendet man entweder den<br />
Menupunkt<br />
Datei -> Öffnen -> Daten<br />
oder man benutzt in der Knopfleiste das Heftersymbol .<br />
Beide öffnen ein neues Fenster wie in Abb. 3 zu sehen.<br />
Dieser Dialog wird analog zum Speichern-Dialog verwendet. Im oberen Bereich wählt<br />
man den Ordner aus in dem sich die Datei befindet (z.B. das Diskettenlaufwerk), im<br />
mittleren Fenster sind dann die verfügbaren Dateien verzeichnet. Wählt man dort<br />
eine Datei an und klickt auf Öffnen so wird diese Datei in das Datenfenster geladen.<br />
Ist die Datei in einem anderen Format als dem SPSS-Standardformat geschrieben<br />
worden, so ist vorher noch unter Dateityp das korrekte Format auszuwählen.<br />
2.3. Verändern von Variableneigenschaften<br />
Wie oben schon erwähnt weist SPSS den Variablen automatisch die Namen<br />
„varxxxxx“ zu. Dieser Name sowie weitere Eigenschaften einer Variablen lassen sich<br />
ändern. Um die Eigenschaften einer Variablen zu ändern, ist zuerst mittel des<br />
Seite - 8 -
Skript: Benutzung von SPSS<br />
Karteireiters Nr. 5<br />
Abb. 4 zeigt diese Variablenansicht.<br />
in die Variablenansicht zu wechseln.<br />
Abb. 4: Die Variablenansicht<br />
In der Variablenansicht sind alle Eigenschaften einer Variablen in tabellarischer Form<br />
aufgeführt. Hier können sie auch verändert werden. Von links nach rechts sind das<br />
folgende Eigenschaften:<br />
Name<br />
Ein kurzer Name für die Variable ist maximal 8 Zeichen lang. Leer- und<br />
Sonderzeichen sind nicht erlaubt.<br />
Typ<br />
Variablentyp. Für das Tutorium benötigen wir ausschließlich den Typ „numerisch“.<br />
Alternativ können hier auch Text- oder Datumsformate ausgewählt werden.<br />
Spaltenformat<br />
gibt die Breite der Spalte in der Datenansicht an<br />
Dezimalstellen<br />
Gibt die Anzahl der ausgegebenen Nachkommastellen an (intern rechnet SPSS<br />
immer mit 16 Nachkommastellen, es entstehen hier also keine Rundungsfehler).<br />
Variablenlabel<br />
Eine lange „Benennung“ der Variablen. Bei der Benennung gibt es keine<br />
Einschränkungen in Länge und verfügbaren Sonderzeichen. Diese „Benennung“<br />
taucht dann auch später in den Ausgaben von SPSS auf.<br />
Wertelabel und Fehlende Werte<br />
Auf diese Punkte wird im nächsten Abschnitt genauer eingegangen.<br />
Die weiteren Punkte sind für unser Tutorium nicht mehr von Bedeutung.<br />
Seite - 9 -
Skript: Benutzung von SPSS<br />
2.3.1. Wertelabels festlegen<br />
Den einzelnen Werten einer Variablen können Namen zugewiesen werden. Dies ist<br />
immer dann sinnvoll, wenn nominale Daten bei der Dateneingabe durch Zahlen<br />
kodiert werden. So könnte zum Beispiel das Geschlecht einer Person so kodiert<br />
werden:<br />
1 = männlich<br />
2 = weiblich<br />
Damit in der Ausgabe der Rechnungen dann auch die Bezeichnungen männlich und<br />
weiblich auftauchen, werden diese unter Wertelabels benannt. Klickt man im Feld<br />
Wertelabels auf das Symbol so öffnet sich das Fenster in Abb. 5.<br />
Abb. 5: Das Wertelabel-Fenster<br />
Hier sind nacheinander allen möglichen Werten die Namen zuzuweisen. In unserem<br />
Beispiel würden wir mit männlich beginnen und in das Feld „Wert“ die 1 eintragen. Im<br />
Feld „Wertelabel“ muss dann die Bezeichnung „männlich“ eingetragen werden.<br />
Werden den Werten keine Labels zugewiesen, so erscheinen in der Ausgabe nur die<br />
Zahlencodes. Abschließen tut man diese Eingabe mit der Schaltfläche „Hinzufügen“.<br />
Diesen Vorgang wiederholt man für alle vorkommenden Werte. Den Dialog schließt<br />
man mit der Schaltfläche „OK“.<br />
2.3.2. Fehlende Werte definieren<br />
Führt man eine Untersuchung durch, so kommt es oft vor, dass unvollständige Werte<br />
vorliegen. In der Datenmatrix fehlen also einzelne Zellen. Damit diese von SPSS<br />
berücksichtigt werden können, müssen diese definiert werden. In der Praxis gibt man<br />
den fehlenden Werten eine Zahl, die nicht als Datenzahl vorkommen kann. Erfasst<br />
man zum Beispiel das Alter einer Versuchsperson, so weist man einer fehlenden<br />
Altersangabe z.B. den Wert „999“ zu, da es keine Person geben wird, die 999 Jahre<br />
alt ist. Nun gilt es SPSS mitzuteilen, welchen Wert wir als fehlend definiert haben.<br />
Unter „Fehlende Werte“ klickt man dazu wieder auf das Symbol . Es öffnet sich ein<br />
neues Fenster wie in Abb. 6 zu sehen.<br />
Hier kann man entweder feste einzelne Werte oder einen Wertebereich als „Missing<br />
Values“ definieren. Auch eine Kombination ist möglich. In der Praxis sind einzelne<br />
Werte das gebräuchlichste. Hierzu ist anzuwählen „Einzelne fehlende Werte“ und in<br />
Seite - 10 -
Skript: Benutzung von SPSS<br />
die darunter liegenden Felder einer oder mehrere Werte einzutragen, welche für<br />
„fehlend“ verwendet werden sollen. Auch diesen Dialog beendet man mit „OK“.<br />
Abb. 6: Der Variable Missing Values Dialog<br />
Um die Variablenansicht wieder zu verlassen, benutzt man erneut den Dateireiter Nr.<br />
5 und wechselt zur Datenansicht.<br />
Tipp:<br />
Man kann die Eigenschaften einer Variablen mittels Copy und Paste (Kopieren und<br />
Einfügen) im Menu „Bearbeiten“ oder mittels der Tastenkombinationen Strg+C und<br />
Strg+V leicht auf eine andere Variable übertragen. Dies erleichtert einem die<br />
Definition von mehreren Variablen die identische Eigenschaften haben.<br />
Seite - 11 -
Skript: Benutzung von SPSS<br />
3. Einfache deskriptive Statistiken<br />
Sämtliche statistischen Rechnungen von SPSS verbergen sich hinter dem Menu-<br />
Punkt „Analysieren“. Hier verbergen sich einfache deskriptive Verfahren wie<br />
Mittelwertsberechnungen bis hin zu komplizierten inferenzstatistischen Methoden wie<br />
der Diskriminanzanalyse.<br />
3.1. Eindimensionale Häufigkeitsauszählungen und Kennwerte<br />
nominal- oder ordinal-skalierter Variablen<br />
Diese Funktion wird mit dem Menu-Punkt<br />
Analysieren → Deskriptive Statistiken → Häufigkeiten<br />
aufgerufen. Es öffnet sich der in Abb. 8 dargestellte Dialog.<br />
Abb. 8: Der Häufigkeiten-Dialog<br />
Im linken Teil des Dialoges ist eine Liste aller verfügbaren Variablen zu finden. In der<br />
rechten Liste werden die Variablen eingefügt, die für die jeweilige Rechnung<br />
ausgewählt werden sollen. Um eine Variable aus der linken Liste in die rechte zu<br />
übernehmen, ist diese mit einem Klick auszuwählen und mit dem Pfeil in der<br />
Dialogmitte nach rechts zu schieben. Diese Art der Auswahl ist typisch für SPSS.<br />
Hat man alle Variablen ausgewählt, deren Häufigkeiten man berechnen möchte, so<br />
kann man die Berechnung mit „OK“ starten oder mit „Statistik“ statistische Kennwerte<br />
auswählen, die zusätzlich berechnet werden sollen. Hierzu öffnet sich der Dialog, der<br />
in Abb. 9 zu sehen ist.<br />
Seite - 12 -
Skript: Benutzung von SPSS<br />
Abb. 9: Das Statistik-Fenster<br />
Hier werden per Klick zusätzliche Kennwerte ausgewählt.<br />
Startet man nun im Hauptdialog durch „OK“ die Rechnung, so erscheint nach einem<br />
kurzen Moment das Ergebnis im Ausgabe-Fenster, wie es in Abb. 10 zu sehen ist.<br />
In unserem Beispiel sind die Häufigkeiten für eine Variable „Geschlecht“ berechnet<br />
worden. Es werden die absoluten und relativen Häufigkeiten für die verschiedenen<br />
Geschlechter ausgegeben. Zusätzlich werden die kumulierten Häufigkeiten und die<br />
„validen Häufigkeiten“ ausgegeben. Aus den „validen Häufigkeiten“ wurden die<br />
fehlenden Werte heraus gerechnet.<br />
Im Ausgabe-Fenster werden alle Ergebnisse sämtlicher Rechungen, die während<br />
einer Sitzung mit SPSS durchgeführt wurden, nacheinander aufgezeichnet. Um<br />
weitere Rechnungen durchführen zu können, müssen wir zum Datenfenster<br />
zurückkehren.<br />
Seite - 13 -
Skript: Benutzung von SPSS<br />
Abb. 10: Das Ausgabe Fenster nach Berechnung der Häufigkeiten<br />
3.2. Mehrdimensionale Häufigkeitsauszählungen<br />
Zur Auszählung mehrdimensionaler Häufigkeiten wird der Menupunkt<br />
Analysieren → Deskriptive Statistiken → Kreuztabellen<br />
verwendet. Dieser öffnet einen Dialog wie in Abb. 11 zu sehen.<br />
Wie auch schon bei Häufigkeiten haben wir hier die Aufteilung in eine Variablenliste<br />
und, wie in diesem Fall, in zwei Auswahllisten. In die beiden Auswahllisten werden<br />
die Variablen eingetragen, welche in der Kreuztabelle in den Zeilen bzw. in den<br />
Spalten stehen sollen. Hat man diese Auswahl getroffen, so kann man die Rechnung<br />
mit „OK“ beginnen oder wieder mit „Statistik“ weitere Rechnungen auswählen, die<br />
zusätzlich erfolgen sollen. Der „Statistik-Dialog“ ist in Abb. 12 zu sehen.<br />
Seite - 14 -
Skript: Benutzung von SPSS<br />
Abb. 11: Der Kreuztabellen-Dialog<br />
Hier können Statistiken wie der Chi²-Test, Phi oder Cramers V ausgewählt werden.<br />
Hat man dies getan, verlässt man diesen Dialog mit „Weiter“. Anschließend können<br />
die Rechungen mit „OK“ gestartet werden. In der Ausgabe dieser Funktion finden wir<br />
nacheinander die Kreuztabelle und die evtl. ausgewählten Statistiken.<br />
Will man zusätzlich zu den absoluten Häufigkeiten auch relative Häufigkeiten<br />
ausgeben, so kann man dies über die Schaltfläche „Zellen“ tun. In dem sich<br />
öffnenden Fenster kann man wählen, welche Daten in den Zellen der Kreuztabelle<br />
erscheinen sollen. So kann man die prozentualen Häufigkeiten auf das N der<br />
Gesamttabelle, der Tabellenspalte oder der Tabellenzeile beziehen. Auch die<br />
erwarteten absoluten Häufigkeiten können berechnet werden. Diesen Dialog schließt<br />
man mit „Weiter“<br />
Abb. 12: Der Crosstabs-Statistics-Dialog<br />
Seite - 15 -
Skript: Benutzung von SPSS<br />
3.3. Deskriptive Statistiken für intervallskalierte Variablen<br />
Um einfache statistische Kennwerte für intervallskalierte Variablen auszugeben,<br />
benutzen wir den Menupunkt<br />
Analysieren → Deskriptive Statistiken → Deskriptive Statistiken<br />
Hier öffnet sich ein Dialogfenster wie in Abb. 13 zu sehen. Die Auswahl der zu<br />
verrechnenden Variablen erfolgt auf übliche Weise. Mit der Schaltfläche „OK“ startet<br />
man ebenfalls wie üblich die Rechnungen.<br />
Abb. 13: Der Deskriptive-Statistiken-Dialog<br />
Über die Schaltfläche „Optionen“ kommt man zu dem in Abb. 14 dargestellten Dialog,<br />
in welchem die zu berechnenden Kennwerte ausgewählt werden können.<br />
Hier stehen unter anderem der Mittelwert, Varianz und Standardabweichung sowie<br />
Summe und Schiefe zur Verfügung. Der Auswahldialog wird mit „Weiter“ beendet.<br />
Nach dem Start der Rechnung mit „OK“ werden im Output-Fenster die ausgewählten<br />
Kennwerte ausgegeben.<br />
Abb. 14: Der Descriptives-Options-Dialog<br />
Seite - 16 -
Skript: Benutzung von SPSS<br />
4. Erstellung einfacher Diagramme<br />
4.1. Einfache Häufigkeitsdiagramme für nominal- und<br />
ordinalskalierte Variablen<br />
Die Befehle zum Erstellen von Diagrammen befinden sich im Menu „Grafiken“. Hier<br />
stehen z.B. Balken, Linien und Tortendiagramme zur Verfügung. Zur Darstellung<br />
einer Häufigkeitsverteilung bietet sich ein Balkendiagramm an. Zur Erstellung eines<br />
Balkendiagramms benutzen wir den Menupunkt:<br />
Grafiken → Balken<br />
Es öffnet sich ein Dialog wie in Abb. 15 zu sehen.<br />
Abb. 15: Der Balken-Diagramm-Dialog<br />
Hier ist zuerst auszuwählen, ob man eine Grafik für nur eine Variable erstellen will<br />
(Einfach), oder ob die Kombinationen mehrerer Variablen gruppiert dargestellt<br />
werden sollen (Gruppiert). Im unteren Teil des Dialoges ist eine weitere Auswahl zu<br />
treffen. „Auswertung über Kategorien einer Variablen“ wird verwendet, um Statistiken<br />
für verschiedene Ausprägungen einer Variablen darzustellen. Dies ist der<br />
gebräuchlichste Fall. Mit dem zweiten Punkt können die Mittelwerte verschiedener<br />
Variablen miteinander verglichen werden, und der letzte Punkt erlaubt die Werte<br />
einzelner Fälle (Personen) darzustellen.<br />
Wählt man „Einfach“ und „Auswertung über Kategorien einer Variablen“ und betätigt<br />
die Schaltfläche „Definieren“ so erscheint ein neuer Dialog, wie in Abb. 16 zu sehen.<br />
Zuerst ist in diesem Dialog die Variable festzulegen, von deren Kategorien Statistiken<br />
dargestellt werden sollen. Hat man im vorherigen Menu „Gruppiert“ ausgewählt, so<br />
ist hier zusätzlich die Variable anzugeben, deren Kategorien die „Gruppen“ in der<br />
Ausgabe bilden sollen. In Abb. 16 ist die Variable „geschl“ als Kategorie-Achse<br />
ausgewählt. Im oberen Bereich des Dialoges müssen jetzt die Statistiken gewählt<br />
Seite - 17 -
Skript: Benutzung von SPSS<br />
werden, die im Diagramm dargestellt werden sollen. Grundeinstellung ist hier „Anzahl<br />
der Fälle“, was für die absoluten Häufigkeiten steht.<br />
Abb. 16: Dialog zur Definition des Bar-Charts<br />
Weiterhin können die relativen Häufigkeiten sowie die kumulierten absoluten und<br />
relativen Häufigkeiten dargestellt werden. Über „Andere Auswertungsfunktion“<br />
besteht die Möglichkeit, für jede Kategorie eine Statistik einer anderen Variablen<br />
ausgeben zu lassen. So kann man sich z.B. den Mittelwert des Alters für die beiden<br />
Geschlechter darstellen lassen. Hierzu ist dann in das Feld „Variable“ noch die<br />
Variable einzutragen, deren Statistiken für die verschiedenen Gruppen ausgegeben<br />
werden sollen.<br />
Über die Schaltfläche „Titel“ besteht die Möglichkeit, die Beschriftung des<br />
Diagrammes zu beeinflussen. Hierfür sind Texte für den Titel, den Untertitel und für<br />
eine eventuelle Fußnote anzugeben. Dieser Dialog ist mit „Weiter“ wieder zu<br />
verlassen.<br />
Hat man alle Einstellungen vorgenommen, so startet man das Zeichnen des<br />
Diagramms mit „OK“. Das Diagramm wird anschließend im Output dargestellt. Klickt<br />
man im Output doppelt auf ein Diagramm, so öffnet sich ein neues Fenster, in<br />
welchem man die Möglichkeit hat, viele Eigenschaften des Diagramms zu ändern, so<br />
z.B. die Farbgebung oder die Linienstärke. Auf diese Punkte wird später noch<br />
genauer eingegangen.<br />
Abb. 17 zeigt das Diagramm, welches aus den Einstellungen in Abb. 16 hervorgeht.<br />
In Abb. 18 ist ein Beispiel für ein „clustered“ Balken-Diagramm zu sehen. In diesem<br />
Fall wurden die absoluten Häufigkeiten aller Merkmalskombinationen der beiden<br />
Variablen „Geschlecht“ und „Schulabschluss“ dargestellt.<br />
Seite - 18 -
Skript: Benutzung von SPSS<br />
19<br />
18<br />
17<br />
16<br />
15<br />
14<br />
Absolute Werte<br />
13<br />
12<br />
11<br />
Frauen<br />
Männer<br />
Geschlecht der VP<br />
Abb. 17: Das Balkendiagramm<br />
8<br />
7<br />
6<br />
5<br />
Absolute Werte<br />
4<br />
3<br />
2<br />
Frauen<br />
Männer<br />
Schulabschluss<br />
Hauptschule<br />
Realschule<br />
Abitur<br />
Geschlecht der VP<br />
Abb. 18: Das gruppierte Balkendiagramm<br />
Seite - 19 -
Skript: Benutzung von SPSS<br />
4.2. Erstellung eines „Histogramms“ für intervallskalierte Variablen.<br />
Um ein Histogramm zu erstellen rufen wir den Menupunkt<br />
Grafiken → Histogramm<br />
auf. Es öffnet sich ein Dialog wie in Abb. 19 dargestellt.<br />
Abb. 19: Der Histogramm-Dialog<br />
Unter „Variable“ ist hier zuerst die Variable einzutragen, von welcher ein Histogramm<br />
erstellt werden soll. Im unteren Teil des Dialoges, besteht die Möglichkeit, eine<br />
Normalverteilungskurve in das Histogramm zu legen. Diese ermöglicht einem eine<br />
optische Kontrolle über die Verteilung der Daten. Über die Schaltfläche „Titel“ kann<br />
auch hier wieder die Beschriftung des Histogramms verändert werden. Mit der<br />
Schaltfläche „OK“ wird wie gehabt das Zeichnen gestartet. Es erscheint ein<br />
Diagramm wie in Abb. 20 zu sehen.<br />
10<br />
8<br />
6<br />
4<br />
2<br />
Std.abw. = 5,44<br />
Mittel = 47,6<br />
0<br />
N = 30,00<br />
40,0<br />
42,5<br />
45,0<br />
47,5<br />
50,0<br />
52,5<br />
55,0<br />
57,5<br />
Alter der Versuchsperson<br />
Abb. 20: Ein Histogramm für die Variable „Alter“<br />
Das Histogramm aus Abb. 20 ist ein Histogramm für die Variable „Alter“. Das Alter<br />
wurde automatisch in acht Gruppen aufgeteilt, und die absoluten Häufigkeiten für<br />
Seite - 20 -
Skript: Benutzung von SPSS<br />
jede Gruppe dargestellt. Möchte man diese Einteilung in acht Gruppen verändern, so<br />
muss man mittels Doppelklick in das Bearbeitungsfenster wechseln, welches in Abb.<br />
21 dargestellt ist.<br />
Abb. 21: Das Bearbeitungsfenster des Histogramms<br />
In unserem Beispiel wollen wir nun die Einteilung der horizontalen Achse ändern.<br />
Dies tun wir durch einen Doppelklick auf diese Achse. Es öffnet sich ein neuer Dialog<br />
der in Abb. 22 zu sehen ist.<br />
Abb. 22: Der Dialog zur Definition der Achseneinteilung<br />
Hier kann man zum einen die Beschriftung der Achse im Feld „Achsentitel“ ändern.<br />
Für uns interessant ist der Punkt „Intervalle“. Hier ist „Automatisch“ eingestellt, was<br />
bedeutet, dass SPSS selbst eine Aufteilung in Intervalle (Gruppen) vornimmt. Durch<br />
Umstellung auf „Anpassen“ können wir selbst Einfluss auf diese Einteilung nehmen.<br />
Über die Schaltfläche „Definieren“ gelangen wir zu einem weiteren Dialog der in Abb.<br />
23 dargestellt ist.<br />
Seite - 21 -
Skript: Benutzung von SPSS<br />
Abb. 23: Definition der Intervalleinteilung<br />
Hier hat man die Möglichkeit entweder eine Anzahl von Intervallen festzulegen oder<br />
eine Intervallbreite anzugeben. Unter Bereich lässt sich zusätzlich der dargestellte<br />
Wertebereich verändern, indem man Minimum und Maximum angibt. Geben wir für<br />
die Anzahl der Intervalle 10 ein und beenden alle Dialoge mit „Weiter“ bzw. „OK“, so<br />
wird das Histogramm wie in Abb. 24 dargestellt verändert.<br />
8<br />
6<br />
4<br />
2<br />
0<br />
Std.abw. = 5,44<br />
Mittel = 47,6<br />
N = 30,00<br />
39,8 43,8 47,8 51,8 55,8<br />
41,8 45,8 49,8 53,8 57,8<br />
Alter der Versuchsperson<br />
Abb. 24: Das neue Histogramm mit 10 Intervallen<br />
Seite - 22 -
Skript: Benutzung von SPSS<br />
5. Umwandlung von Variablen und Erzeugung<br />
neuer Variablen<br />
SPSS ist in erster Linie ein Statistik-Paket, es bietet aber auch vielfältige<br />
Möglichkeiten zur Datenmodifikation.<br />
5.1. Rekodieren von Daten<br />
Oft kommt es in der Praxis vor, dass eine Einteilung einer nominalen oder ordinalen<br />
Variable im Nachhinein verändert werden muss, um bestimmte Rechnungen<br />
durchzuführen. Haben wir z.B. eine Variable Studienfach mit den Ausprägungen<br />
1=<strong>Psychologie</strong>, 2=Soziologie, 3=Maschinenbau und 4=Medizintechnik und wollen<br />
diese jetzt nur noch nach sozialen und technischen Berufen unterscheiden, so<br />
müssen die Gruppen 1 und 2 sowie 3 und 4 zusammengefasst werden. Hierbei hilft<br />
einem SPSS mit der Funktion<br />
Transformieren → Umkodieren → in dieselbe / in andere Variable<br />
Bei dieser Funktion ist zu beachten, dass hier zu wählen ist, ob bei der Rekodierung<br />
die alte Variable überschrieben werden soll (in dieselbe Variable) oder ob eine neue<br />
Variable angelegt werden soll, in welche die Rekodierung geschrieben werden soll<br />
(in andere Variable). Hier wählt man in der Regel das letztere, da auf diese Weise die<br />
Originaldaten erhalten bleiben.<br />
Es öffnet sich anschließend ein Dialog wie in Abb. 25 zu sehen.<br />
Abb. 25: Der Umkodieren Dialog<br />
Hier ist zuerst anzugeben, welche Variable rekodiert werden soll. Anschließend ist<br />
der Name der Variablen anzugeben, in die das Ergebnis der Rekodierung<br />
geschrieben werden soll.<br />
Hat man die beiden Variablen definiert, so gelangt man über die Schaltfläche „Alte<br />
und neue Werte“ in einen neuen Dialog wie in Abb. 26 dargestellt.<br />
Seite - 23 -
Skript: Benutzung von SPSS<br />
Abb. 26: Eingabe der alten und neuen Werte<br />
Hier ist festzulegen, welchen alten Werten (linke Hälfte) welcher neue Wert (rechte<br />
Hälfte) zugewiesen werden soll. Alte Werte können einzelne Werte oder Bereiche<br />
von Zahlen sein. Unter „Wert“ ist ein einzelner Wert, unter „Bereich“ ist ein Bereich<br />
einzutragen. Auf der rechten Seite ist der zugeordnete neue Wert unter „Wert“<br />
einzutragen. Hat man beides getan, so ist die Kombination mit alten und neuen<br />
Werten mit „Hinzufügen“ in die Liste der Umkodierungen zu übernehmen. Die<br />
Einstellungen in Abb. 26 entsprechen dem oben genannten Beispiel. Die alten Werte<br />
1 und 2 werden zum neuen Wert 1, die Werte 3 und 4 zum Wert 2. Hat man alle<br />
Eingaben vorgenommen, so beendet man mit „Weiter“ den Dialog. Im<br />
vorhergehenden Dialog noch die Schaltfläche „OK“ betätigen und SPSS führt die<br />
eingestellte Rekodierung durch.<br />
5.2. Bedingte Umkodierung<br />
Hängt die Rekodierung von mehr als einer Ausgangsvariablen ab, so ist der Vorgang<br />
etwas komplizierter. Angenommen wir wollen allen Frauen (Variable Geschlecht)<br />
über 22 Jahren (Variable Alter) den Wert 1 zuweisen, Frauen unter 22 Jahren den<br />
Wert 2 usw. Hierfür benötigen wir die Funktion<br />
Transformieren → Berechnen<br />
Es öffnet sich ein Dialog wie in Abb. 27 zu sehen. Unter „Zielvariable“ ist zuerst der<br />
Name einer Variablen anzugeben, in welche das Ergebnis der Rekodierung<br />
geschrieben werden soll. Dies kann eine neue oder eine bereits bestehende Variable<br />
sein. Im großen Feld „Numerischer Ausdruck“ tragen wir den ersten Wert ein, der in<br />
dieser Variablen definiert werden soll. In unserem Falle wollen wir Frauen über 22<br />
den Wert 1 zuordnen, wir tragen also eine „1“ in dieses Feld ein. Über die<br />
Schaltfläche „Falls“ gelangen wir jetzt in einen Dialog, in welchem wir definieren,<br />
wann der Variablen der Wert „1“ zugeordnet werden soll. Dieser Dialog ist in Abb. 28<br />
zu sehen.<br />
Seite - 24 -
Skript: Benutzung von SPSS<br />
Abb. 27: Der Berechnen-Dialog<br />
Hier ist zuerst der Schalter „Fall einschließen, wenn Bedingung erfüllt ist“<br />
anzuwählen. Dadurch wird nur den Fällen, die unsere Bedingung erfüllen, der Wert<br />
„1“ zugeordnet. Jetzt müssen wir im darunterliegenden Feld unsere Bedingung<br />
eingeben. Die Person soll weiblich sein, also geschl=1 UND (&) das Alter soll größer<br />
als 22 sein, also alter>22. In der Abbildung ist genau dies eingetragen: alter > 22 &<br />
geschl = 1. Dies ist noch eine relativ einfache Verknüpfung zweier Variablen, aber<br />
SPSS versteht auch deutlich kompliziertere Verknüpfungen.<br />
Abb. 28: Der „Falls“-Dialog<br />
Zu beachten sind hierbei auch Ungenauigkeiten der deutschen Sprache. Wollen wir<br />
z.B. allen Frauen und allen Student(inn)en der <strong>Psychologie</strong> den Wert „1“ zuweisen,<br />
so ist hier keine „und“-Verknüpfung zu wählen, wie es die Aussprache nahe legt,<br />
sondern eine „oder“-Verknüpfung. Der korrekte Ausdruck wäre: geschl = 1 | studfach<br />
= 1. Das Zeichen „|“ steht dabei für das logische „oder“. Würden wir an dieser Stelle<br />
eine „und“-Verknüpfung wählen, so würden wir nur die Frauen auswählen, die<br />
<strong>Psychologie</strong> studieren, wir würden aber nicht die Frauen anderer Studienfächer und<br />
die Männer, welche <strong>Psychologie</strong> studieren, berücksichtigen.<br />
Mit „Weiter“ ist dieser Dialog zu beenden. Der vorhergehende Dialog ist mit „OK“ zu<br />
beenden.<br />
Jetzt haben wir den Wert „1“ definiert. Um weitere Werte zu definieren, müssen wir<br />
den Vorgang von vorne beginnen und nacheinander alle Werte auf diese Weise<br />
Seite - 25 -
Skript: Benutzung von SPSS<br />
definieren. Im ersten Dialog würden wir statt der „1“ eine „2“ eintragen und als<br />
Bedingung dann entsprechend unserem Beispiel: geschl = 1 & alter < 22. Dies ist bis<br />
zum letzten Wert fortzusetzen.<br />
5.3. Verrechnung einer oder mehrerer Variablen zu einer neuen<br />
In der Praxis ist es häufig der Fall, dass mehrere Variablen zu einer<br />
zusammengefasst werden, z. B. wenn ein Konzept durch mehrere Items gemessen<br />
wurde und der Wert des Konzeptes durch den Mittelwert der Items ausgedrückt<br />
werden soll. Wir wollen als Beispiel annehmen, wir hätten vergessen zu erheben, in<br />
welchem Alter unsere Versuchsperson ihr aktuelles Studium begonnen hat. Wir<br />
haben aber aktuelles Alter und Semesterzahl erhoben. Das Startalter ergibt sich<br />
dann aus der Formel: aktuelles Alter – (Semesterzahl / 2). Auch solche<br />
Berechnungen nimmt einem SPSS ab. Hierzu dient wieder die Funktion<br />
Transformieren → Berechnen<br />
Es öffnet sich das bereits bekannte Fenster, welches wir jetzt aber anders<br />
verwenden werden. Zuerst ist sicherzustellen, dass alle früheren Eingaben in diesem<br />
Fenster gelöscht werden, dazu betätigt man die Schaltfläche „Zurücksetzen“. In Abb.<br />
29 ist das „Berechnen“-Fenster noch einmal zu sehen. Auch hier müssen wir unter<br />
„Target Variable“ zuerst angeben, in welche Variable das Ergebnis unser<br />
Berechnung geschrieben werden soll. In das Feld „Numerischer Ausdruck“ ist jetzt<br />
die Berechnungsformel für die neue Variable einzutragen. In unserem Beispiel ist<br />
diese alter-(semester/2). Die Namen der Variablen können aus der Variablenliste<br />
links übernommen werden. SPSS erlaubt alle üblichen mathematischen Formeln.<br />
Z.B. können hier auch Mittelwertsformeln eingegeben werden. Eine Sammlung<br />
vorgefertigter Funktionen steht einem im Dialog unter „Funktionen“ zur Verfügung,<br />
darunter „Mean“ für Mittelwert oder „Sum“ für Summe. Hat man die Eingabe der<br />
Formel beendet, so startet man die Berechnung mit „OK“. Es wird eine neue Variable<br />
angelegt, in welcher das Ergebnis der Rechnung steht. Natürlich kann man auch nur<br />
eine einzelne Variable zu einer neuen verrechnen, z.B. um eine neue Skala zu<br />
berechnen.<br />
Abb. 29: Das Berechnen Fenster zur Verrechnung von Variablen<br />
Seite - 26 -
Skript: Benutzung von SPSS<br />
5.4. Auszählungen von Werten über mehrere Variablen<br />
Oft ist man daran interessiert, wie häufig ein bestimmter Wert oder ein bestimmter<br />
Wertebereich in mehreren Variablen vorkommt. Man stelle sich als Beispiel vor, man<br />
habe bei Versuchspersonen in regelmäßigen Abständen den Blutdruck gemessen.<br />
Auf die Weise hat man 10 Messwerte des Blutdrucks für jede Person gewonnen.<br />
Man möchte nun herausfinden, in wie vielen der 10 Messungen jede Person einen zu<br />
hohen Blutdruck hatte, da dies als Hinweis für eine physiologische Störung<br />
angenommen wird. Solche Auszählungen über mehrere Variablen erledigt SPSS<br />
über den Menupunkt:<br />
Transformieren à Zählen<br />
Es öffnet sich der Dialog wie in Abb. 30 zu sehen. Hier ist unter „Zielvariable“ zuerst<br />
ein Name für die neue Variable anzugeben, in welche das Ergebnis der Auszählung<br />
geschrieben werden soll. Über „Label“ kann die Variable auch gleich mit einem<br />
„Wertelabel“ versehen werden. In die Liste, die mit „Variablen“ überschrieben ist,<br />
müssen jetzt alle Variablen eingetragen werden, über die die Auszählung erfolgen<br />
soll. In unserem Beispiel sind dies die zehn Messpunkte des Blutdrucks.<br />
Abb. 30: Der Dialog zur Auszählung über mehrere Variablen<br />
Über die Schaltfläche „Werte definieren“ öffnet man den Dialog wie in Abb. 31 zu<br />
sehen.<br />
Abb. 31: Die Auswahl der zu zählenden Werte<br />
Hier sind ähnlich wie beim Umkodieren der Variablen die Werte und Bereiche<br />
auszuwählen, welche gezählt werden sollen. Unserem Beispiel entsprechend wurde<br />
hier der Bereich 100 oder höher ausgewählt. Es wird jetzt also gezählt, wie oft der<br />
Blutdruck den Wert 100 erreicht oder überstiegen hat. Mit der Schaltfläche „Weiter“<br />
Seite - 27 -
Skript: Benutzung von SPSS<br />
und anschließend „OK“ wird die Auszählung gestartet. Anschließend enthält der<br />
Datensatz die neu angelegte Variable, in welcher das Ergebnis der Auszählung<br />
steht.<br />
5.5. Bildung von Rangwerten<br />
Viele fortgeschrittene Statistiken in der <strong>Psychologie</strong> erfordern die Erstellung von<br />
Rangwerten. SPSS kann auch diese Aufgabe übernehmen. Über den Menupunkt<br />
Transformieren à Rangfolge bilden<br />
öffnet sich der Dialog wie in Abb. 32 zu sehen.<br />
Abb. 32: Der Dialog zur Erstellung von Rangwerten<br />
Unter „Variablen“ sind die Variablen einzutragen, welche in Rangwerte umgewandelt<br />
werden sollen. In der Abb. 32 ist dies die Variable „Alter“. Über „Rang 1 zuweisen“ ist<br />
außerdem festzulegen, ob der Wert 1 dem kleinsten oder größten Wert entspricht.<br />
Der Normalfall ist hier der kleinste Wert. Über „Rangtypen“ können verschiedene<br />
Arten von Rangbildungen ausgewählt werden, die in der Praxis aber seltener von<br />
Bedeutung sind. Über „Rangindungen“ wird festgelegt, wie SPSS verfahren soll,<br />
wenn mehreren Werten der selbe Rang zugewiesen werden muss. Über die Liste<br />
„Nach“ kann die Rangkodierung auch nach einer oder mehreren anderen Variablen<br />
aufgeteilt werden. Mit der Schaltfläche „OK“ startet man die Rangkodierung und es<br />
erscheint eine neue Variable mit dem Namen rXXXXX wobei XXXXX dem alten<br />
Variablennamen entspricht. In dieser neuen Variablen stehen die Rangwerte der<br />
alten Variablen.<br />
Seite - 28 -
Skript: Benutzung von SPSS<br />
6. Bildung von Untergruppen /<br />
Unterstichproben<br />
6.1. Auswahl von Fällen<br />
Oft kommt in der Praxis vor, dass nicht der gesamte Datensatz verrechnet werden<br />
soll, sondern nur Fälle mit bestimmten Eigenschaften in die Rechung mit eingehen<br />
sollen. So könnten wir z.B. Rechungen nur für die Frauen in unserer Stichprobe<br />
durchführen wollen, also für weitere Rechnungen eine Unterstichprobe bilden wollen.<br />
Hierzu dient die Funktion<br />
Daten → Fälle auswählen<br />
Es erscheint ein Dialog wie in Abb. 33 zu sehen. Hier ist auf der rechten Seite<br />
zunächst auszuwählen, nach welcher Methode Daten ausgewählt werden sollen.<br />
Hier können z.B. alle Fälle, die Fälle, die eine bestimmte Bedingung erfüllen, eine<br />
Zufallsstichprobe oder ein bestimmter Bereich von Fällen ausgewählt werden. Es<br />
besteht auch die Möglichkeit, die Fälle anhand einer Filter-Variablen auszuwählen.<br />
Verwendet man eine Filtervariable, so werden in dieser die zu verwendenden Fälle<br />
mit 1 und die auszuschließenden Fälle mit 0 gekennzeichnet. Filtervariablen eignen<br />
sich besonders, um eine Auswahl zu treffen, die nicht oder nur schwer durch eine der<br />
anderen Möglichkeiten beschrieben werden kann. Unter „Nicht ausgewählte Fälle“ ist<br />
auszuwählen, ob die ausgeschlossenen Fälle nur ausgeblendet oder ganz gelöscht<br />
werden sollen. Mit letzterer Option ist vorsichtig umzugehen, da gelöschte Fälle nicht<br />
wiederhergestellt werden können. In unserem Beispiel wollen wir alle Fälle<br />
auswählen, die die Bedingung erfüllen „Geschlecht=weiblich“, wir wählen also „Falls<br />
Bedingung zutrifft“.<br />
Abb. 33: Der Fälle auswählen Dialog<br />
Über die Schaltfläche „Falls“ gelangen wir in einen weiteren Dialog, in welchem die<br />
Bedingung zu definieren ist, nach der die Fälle ausgewählt werden sollen. Dieser<br />
Dialog ist in Abb. 34 dargestellt.<br />
Seite - 29 -
Skript: Benutzung von SPSS<br />
Hier ist nun wie schon von einer früheren Funktion bekannt eine mathematischlogische<br />
Definition der Bedingung anzugeben. In unserem Beispiel wäre dies<br />
„geschl=1“, da der Wert „1“ als „weiblich“ definiert ist. Ist die Definition eingegeben,<br />
so kann man beide Dialoge mit „Weiter“ bzw. „OK“ beenden.<br />
Abb. 34: Definition der Bedingung für Select cases<br />
Wie links zu sehen ist, werden anschließend im Datenfenster die Fälle<br />
durchgestrichen, welche bis auf weiteres nicht in die Rechung einbezogen<br />
werden. Diese Auswahl ist gültig, bis sie explizit wieder rückgängig<br />
gemacht wird. Um die Auswahl der Fälle rückgängig zu machen, ist im<br />
oben beschriebenen Dialog wieder „Alle Fälle“ auszuwählen.<br />
Erstellt man nach der ersten Datenauswahl erneut eine Auswahl, so wird<br />
die ursprüngliche Auswahl aufgehoben. Sollen beide Selektionen<br />
beibehalten werden, so ist die alte Auswahl in die neue Auswahl zu integrieren.<br />
Eine praktische Eigenschaft von SPSS ist es, dass es automatisch zu jeder<br />
Datenselektion, die nach dem oben beschriebenen Vorgang angelegt wurde, eine<br />
Filtervariable erstellt. Dies ermöglicht es später ohne größeren Aufwand die gleiche<br />
Datenauswahl erneut zu tätigen. Filtervariablen werden mit „filter_$“ bezeichnet.<br />
SPSS fügt diese als normale Variablen dem Datensatz hinzu. Speichert man den<br />
Datensatz, so werden auch diese Filtervariablen mit dem Datensatz gespeichert.<br />
Filtervariablen können auch im Nachhinein, wie andere Variablen, benannt und mit<br />
Labeln versehen werden.<br />
6.2. Datei aufteilen<br />
Eine gebräuchliche Anwendung, die Datenselektion erforderlich macht, ist die<br />
getrennte Verrechnung verschiedener Stichproben. Möchte man beispielsweise alle<br />
Rechungen getrennt sowohl für die Frauen als auch für die Männer durchführen, so<br />
könnte man dies zum einen über die oben erwähnte „Fälle auswählen“ - Funktion<br />
erledigen, indem man nacheinander zuerst nur die Frauen auswählt und<br />
anschließend nur die Männer. SPSS bietet für diesen Spezialfall aber eine<br />
einfachere Funktion die über<br />
Daten → Datei aufteilen<br />
aufgerufen wird. Es erscheint ein Dialog wie in Abb. 35 zu sehen.<br />
Seite - 30 -
Skript: Benutzung von SPSS<br />
Abb. 35: Der Datei aufteilen-Dialog<br />
Hier ist zuerst wieder auszuwählen, ob alle Fälle ausgewählt werden sollen (Alle<br />
Fälle analysieren) oder ob die Rechungen getrennt für die Gruppen einer Variablen<br />
durchgeführt werden sollen (Ausgabe nach Gruppen aufteilen). In „Gruppen basieren<br />
auf” sind die Variablen einzutragen, nach denen Gruppen gebildet werden sollen. In<br />
unserem Beispiel also Geschlecht. Beendet man den Dialog mit „OK“, so erscheint<br />
im Datenfenster in der unteren Statuszeile die Meldung: . Bis auf weiteres<br />
werden jetzt alle Rechungen getrennt für die beiden Geschlechter vorgenommen.<br />
Durch „Alle Fälle analysieren“ in oben stehendem Dialog kann dies wieder<br />
rückgängig gemacht werden.<br />
Seite - 31 -
Skript: Benutzung von SPSS<br />
7. Zusammenfügen von Dateien<br />
Teilen sich mehrere Personen die Arbeit der Dateneingabe, so liegen anschließend<br />
mehrere Dateien mit eingegebenen Daten vor. Diese müssen zur Datenauswertung<br />
zusammengefügt werden. SPSS hilft hier mit zwei Funktionen weiter.<br />
7.1. Fälle hinzufügen<br />
Die erste Funktion erlaubt es, zu einem bestehenden Datensatz Fälle aus einer<br />
anderen Datei hinzuzufügen. Dies ist dann nötig, wenn jeder Dateneingeber einen<br />
Teil der Versuchspersonen eingegeben hat, jedoch bei jeder Person immer die<br />
gleichen Variablen. Diese Funktion wird über den Menupunkt<br />
Daten à Dateien zusammenfügen à Fälle hinzufügen<br />
ausgewählt. Zuerst fragt SPSS in einem Standard-Datei-Dialog nach dem Namen der<br />
zweiten Datendatei. Anschließend öffnet sich der Dialog wie in Abb. 36 zu sehen.<br />
Abb. 36: Der Fälle hinzufügen Dialog<br />
Hat man im Idealfall die richtige Vorarbeit geleistet und sind in beiden Dateien die<br />
Variablennamen identisch, so sollte die linke Liste leer sein, und der Dialog kann<br />
sofort mit „OK“ beendet werden. Anderenfalls erscheinen in der linken Liste die<br />
Variablen, die noch nicht einander zugeordnet wurden. Es müssen dann jeweils die<br />
zwei zusammengehörigen Variablen in beiden Dateien ausgewählt und über die<br />
Schaltfläche „Paar“ in die rechte Liste übernommen werden. Ist die linke Liste leer,<br />
so kann der Dialog mit „OK“ beendet werden. (Ist die linke Liste nicht leer, wenn man<br />
„OK“ betätigt, so gehen in einer oder beiden Dateien Variablen verloren.)<br />
Anschließend ist der ursprüngliche Datensatz um die Fälle aus der zweiten Datei<br />
erweitert. Gibt es mehr als zwei Dateien, so ist dieser Vorgang zu wiederholen, bis<br />
alle Dateien zusammengefügt wurden.<br />
7.2. Variablen hinzufügen<br />
Die zweite Funktion ist dazu gedacht, Variablen aus einer zweiten Datei zur ersten<br />
hinzuzufügen. Dies ist z.B. der Fall, wenn ein Fragebogen aus mehreren Seiten<br />
bestanden hat, und jede Person bei der Dateneingabe nur eine Seite, aber alle<br />
Seite - 32 -
Skript: Benutzung von SPSS<br />
Versuchspersonen dieses Fragebogens bearbeitet hat. Von dieser Variante ist<br />
grundsätzlich abzuraten, weil hier peinlichst genau auf die richtige Reihenfolge der<br />
Eingabe der Versuchspersonen geachtet werden muss. Schleichen sich hier Fehler<br />
ein, so können diese gravierende Auswirkungen auf die Datenauswertung haben.<br />
Wählt man die Funktion über den Menupunkt<br />
Daten à Dateien zusammenfügen à Variablen hinzufügen<br />
aus, so wird wieder zuerst nach dem Dateinamen der zweiten Datendatei gefragt.<br />
Hat man diese ausgewählt, so erscheint das Dialogfeld wie in Abb. 37 zu sehen.<br />
Abb. 37: Der Variablen hinzufügen Dialog<br />
Gibt es im Idealfall in beiden Dateien keine identischen Variablennamen, so ist die<br />
linke Liste leer und der Dialog kann sofort mit „OK“ beendet werden. Gibt es doppelte<br />
Variablennamen, so werden diese Variablen entweder gelöscht, indem man gleich<br />
auf „OK“ klickt, oder man benennt die doppelten Variablen einzeln um und fügt sie<br />
zur rechen Liste hinzu. Beendet man den Dialog mit „OK“ so werden die neuen<br />
Variablen aus dem zweiten Datensatz zur ersten Datei hinzugefügt. Auch hier ist<br />
dieser Vorgang zu wiederholen, bis alle Datensätze zusammengefügt wurden.<br />
Seite - 33 -
Skript: Benutzung von SPSS<br />
8. Explorative Datenanalyse<br />
8.1 Fragestellung<br />
Rechnen mit fehlerhaft erhobenen oder eingegebenen Daten bedeutet die<br />
Berechnung von „Ergebnissen“, die kein wahres (Ab-)Bild der untersuchten Realität<br />
wiedergeben. Da Erhebungs- oder Eingabefehler sehr häufig vorkommen, sollte man<br />
vor dem Beginn der Datenanalyse zunächst die Daten auf solche Fehler hin<br />
überprüfen, d.h. diese einer Plausibiltätsprüfung unterziehen. Dadurch lassen sich<br />
häufig bereits im Vorfeld mögliche Auffälligkeiten in der Datenstruktur sowie<br />
Datenfehler erkennen. Zu einer solchen explorativen Datenanalyse gehört im<br />
allgemeinen,<br />
a) sich zunächst die Rohdatenmatrix in ihrer Gesamtheit anzusehen und notfalls mit<br />
Hilfe der Originalbelege zu überprüfen. Oft genügt schon ein kurzer Blick, um zu<br />
erkennen, dass etwas nicht stimmt; z.B. dass viel zu große oder viel zu kleine<br />
Werte in einer Variablen/Spalte stehen, Werte, die „nicht angehen“ können. Das<br />
kann z.B. dadurch passieren, dass Fehler bei der Übertragung der Daten vom<br />
Original in den PC aufgetreten sind, oder dass die Daten nicht spaltengerecht<br />
eingegeben worden sind, also bei einzelnen Personen/Fällen oder auch bei<br />
mehreren „Datenverschiebungen“ stattgefunden haben. Oft passiert es<br />
Anfängern, dass sie statt einer 0 (Ziffer) ein O (Buchstabe) eingeben; oder sie<br />
geben fehlende Werte falsch ein. Solche und andere Fehler können sich bei<br />
Rechnungen in fataler Weise auswirken.<br />
b) die Lage und die Verteilung der Werte darzustellen und nach extrem großen oder<br />
kleinen Werten, sog. Ausreißern, Ausschau zu halten. Ausreißer entstehen nicht<br />
selten durch Fehler bei der Datenerhebung und Dateneingabe. SPSS besitzt<br />
Programme, um nach Ausreißern zu suchen. Findet es damit welche, so gilt es zu<br />
überprüfen, ob diese außergewöhnlich großen oder kleinen Werte tatsächlich auf<br />
Fehler bei der Datenerhebung oder Dateneingabe zurückzuführen sind oder ob<br />
es sich um wirkliche Messwerte handelt. Falsche Werte können die Ergebnisse<br />
von Rechnungen verfälschen. Aber auch wenn sie wahre Messwerte darstellen,<br />
ist doch zu prüfen,<br />
• ob sie nicht unter extremen bzw. nicht vom Versuchsplan vorgesehenen<br />
Umständen entstanden sind. Dann sollten sie von der weiteren Analyse<br />
ausgeschlossen werden, denn sie würden die Überprüfung der hinter dem<br />
Versuchsplan stehenden Hypothesen erschweren oder gar unmöglich<br />
machen.<br />
• ob sie wirklich in die Analyse eingehen sollten, denn sie könnten auch als<br />
wahre Werte Ergebnisse verfälschen. Wenn z.B. 101 Studierende nach<br />
ihrem Einkommen befragt werden und 100 davon 1000 DM angeben, 1<br />
aber 100000 DM, dann würde das durchschnittliche Einkommen ca. 1980<br />
DM betragen. Ein solcher Mittelwert würde zwar der „Wahrheit“<br />
entsprechen, aber das Einkommen von 99 % der Studierenden völlig<br />
falsch wiedergeben. Es kommt also ganz darauf an, „was“ mit dem<br />
berechneten Wert ausgesagt werden soll, was also das Ziel der<br />
Berechnung sein soll, wozu das berechnete Ergebnis gut sein soll, welche<br />
Funktion, Rolle, Aufgabe, Wert, Bedeutung, Sinn es in welchem<br />
(Interpretations-)Kontext erhalten soll, kurz welche Fragen/Hypothesen es<br />
eigentlich beantworten soll.<br />
Seite - 34 -
Skript: Benutzung von SPSS<br />
Wie man allgemein sieht, kann es sehr gefährlich sein, einmal<br />
berechneten „Ergebnissen“, von denen man nicht mehr weiß, wozu sie<br />
berechnet wurden, oder die ziellos (funktionslos, fragestellunglos)<br />
berechnet wurden, erst nachträglich einen Sinn zu unterlegen, oder sogar<br />
verschiedene Bedeutungen, je nach nachträglich aufgesetzten<br />
(Interpretations-)Kontexten/Perspektiven. Wer so vorgeht, kann in der Tat<br />
„mit Statistik alles beweisen“. Datenzusammenfassungen (oder<br />
Datenaufteilungen) geschehen grundsätzlich unter<br />
Fragestellungen/Perspektiven. Es gibt keine Datenverarbeitungen „an<br />
sich“. Und im Grunde gibt es auch keine Daten an sich. Auch<br />
Daten/Beobachtungen sind bereits unter bestimmten Fragestellungen<br />
erhoben worden. Aus ihnen nachträglich etwas herausrechnen<br />
(„beweisen“) zu wollen, kann zu eklatanten Fehlinterpretationen der<br />
„Wirklichkeit“ führen.<br />
c) dass die Daten auch daraufhin überprüft werden, ob sie die Voraussetzungen<br />
erfüllen, die von den auf die Daten anzuwendenden statistischen Verfahren an<br />
die Daten gestellt werden, z.B. ob die Daten normalverteilt sind oder ob die<br />
Varianzen verschiedener Stichproben homogen sind.<br />
8.2 Methoden der explorativen Datenanalyse<br />
8.2.1 Häufigkeitsauszählung<br />
Bei kleinen Datentabellen genügt oft die Inspektion mit dem bloßen Auge, um erste<br />
Fehler zu erkennen. Große Datentabellen, insbesondere solche mit vielen Fällen<br />
erscheinen jedoch als eine unübersichtliche Liste von Werten. Um zunächst<br />
festzustellen, welche Werte in einer Variablen überhaupt vorkommen, kann es<br />
günstig sein, zunächst eine eindimensionale Häufigkeitsauszählung durchzuführen<br />
(vgl. Kapitel 3.1 diese Skripts). Dies ist vor allem angebracht, wenn es sich um eine<br />
diskrete (gestufte) Variable handelt, man also weiß, welche Werte bei ihr nur<br />
vorkommen dürfen. Treten dann doch noch andere auf, so können diese nicht<br />
stimmen. Man wird dann nochmals im Original nachsehen müssen. Natürlich erhält<br />
man bei dieser Gelegenheit auch gleich die Information, wie viele fehlende Werte die<br />
Variable aufweist. Bei vielen fehlenden Werten ist zu fragen, woran das gelegen hat,<br />
und für den Fall, das diese vielen Werte rechtens sind, ist zu fragen, ob sich die<br />
Auswertung dieser Variablen überhaupt noch lohnt. Beide Fragen sind dabei in<br />
Bezug auf die Fragestellung zu beantworten, die hinter dieser Variablen steht. Es<br />
geht um die Frage, warum sie überhaupt erhoben wurde, wozu sie gut sein sollte.<br />
Bei stetigen Variablen, die eine Vielzahl unterschiedlicher Werte enthalten, kann ein<br />
Histogramm für die Darstellung der Häufigkeitsverteilung verwendet werden. Ein<br />
solches betrachtet nicht mehr Einzelwerte, sondern Wertebereiche gleicher Breite,<br />
deren Häufigkeiten in grafischer Form wiedergegeben werden. Obwohl die Werte der<br />
Variablen jetzt zu Wertebereichen (Intervallen) zusammenfasst wurden, kann man<br />
auch jetzt oft noch fragen, ob bestimmte Werte, vor allem Extremwerte, noch<br />
„angehen“ können.<br />
Seite - 35 -
Skript: Benutzung von SPSS<br />
8.2.2 Stem-and-Leaf-Diagramm (Stengel-Blatt-Diagramm)<br />
Eine Mischung aus einer Häufigkeitstabelle und einem Histogramm stellt das Stemand-Leaf-Diagramm<br />
dar. In einer solchen Grafik werden ebenfalls die Häufigkeiten<br />
von Wertebereichen durch Balken abgebildet, diese setzen sich jedoch aus<br />
Textzeichen zusammen, die die in dem jeweiligen Wertebereich enthaltenen<br />
Einzelwerte angeben.<br />
Analysieren fi Deskriptive Statistik fi Explorative Datenanalyse<br />
Abb. 38: Dialogfeld Explorative Datenanalyse<br />
Hier geben wir als abhängige Variable(n) jene ein, von der (denen) wir ein Stengel-<br />
Blatt-Diagramm erstellen möchten. In die Faktorenliste müssen nur dann Faktoren<br />
(unabhängige Variablen) eingegeben werden, wenn man die Fälle der Datendatei in<br />
Untergruppen aufteilen möchte, z.B. durch Eingabe der UV „Geschlecht“ in die<br />
beiden Untergruppen „Frauen“ und „Männer“. Jede Untergruppe wird dann getrennt<br />
untersucht. Wenn man mehrere unabhängige Variablen eingibt, werden die Fälle bei<br />
jede Variablen neu unterteilt. Die Fallgruppen werden also nicht durch eine<br />
Kombination der Werte aus den verschiedenen unabhängigen Variablen definiert.<br />
„Fallbeschriftung“: Einige Ergebnisse der explorativen Datenanalyse beziehen sich<br />
auf einzelne Fälle der Datendatei, z.B. welche Fälle vermutlich Ausreißer darstellen.<br />
Diese Fälle werden durch Voreinstellung durch ihre Fallnummer aus der Datendatei<br />
gekennzeichnet. Wenn man aber eine Variable in das Feld „Fallbeschriftung“ eingibt,<br />
werden deren Werte zur Kennzeichnung verwendet.<br />
Diagramme fi Stengel-Blatt<br />
Es erscheint folgender Dialog:<br />
Abb. 39: Dialogfeld der Schaltfläche Diagramme<br />
Seite - 36 -
Skript: Benutzung von SPSS<br />
Wenn wir nun die Taste „Weiter“ betätigen, wird ein Stengel-Blatt-Diagramm gemäß<br />
den Einstellungen des vorhergehenden Dialogfeldes „Explorative Datenanalyse“<br />
erstellt:<br />
Belastungspuls der VP Stem-and-Leaf Plot for<br />
GESCHL= Frauen<br />
Frequency Stem & Leaf<br />
2,00 6 . 67<br />
3,00 7 . 668<br />
6,00 8 . 258999<br />
,00 9 .<br />
1,00 10 . 3<br />
Stem width: 10,00<br />
Each leaf: 1 case(s)<br />
Abb. 40: Stengel-Blatt-Diagramm<br />
Dieses Diagramm ist wie folgt zu interpretieren:<br />
Die Werte der abhängigen Variable sind in Wertebereiche eingeteilt. Jede Zeile<br />
beschreibt einen dieser Wertebereiche. In der Spalte Frequency wird die Häufigkeit<br />
angegeben, mit der Werte vorkommen, die in diesen Wertebereich fallen. Die zweite<br />
Spalte gibt den „Stamm“ an, die dritte Spalte die „Blätter“, wobei jede einzelne Ziffer<br />
ein Blatt darstellt. Durch diese beiden Spalten lässt sich ablesen, um welche Werte<br />
des Wertebereichs es sich handelt. Dazu wird der einzelne ganzzahlige Wert als<br />
Dezimalzahl dargestellt. Der Stamm gibt den ganzzahligen Teil wieder, das Blatt den<br />
Dezimalteil. Um auf den tatsächlichen ganzzahligen Wert zu kommen, ist die<br />
Dezimalzahl mit der unten angegebenen Stammweite (stem width) zu multiplizieren,<br />
so dass letztlich jedes einzelne Blatt (Ziffer) einen Wert des Wertebereichs darstellt.<br />
Dass mit einer Ziffer nur ein Wert dargestellt wird, gilt jedoch nur dann, wenn each<br />
leaf 1 case darstellt, sonst eben Werte der angegebenen Anzahl. Sollte diese größer<br />
als 1 sein, kann es vorkommen, dass die tatsächlich ausgezählte Zahl auch mal<br />
kleiner als diese Zahl ist. Dann wird das Blatt durch das Zeichen & dargestellt. & stellt<br />
dann „Teilblätter“ dar, „fractional leaves“, was dann auch unten im Diagramm<br />
vermerkt wird. Insgesamt stellt ein solches Stengel-Blatt-Diagramm also eine Pflanze<br />
dar, deren Stamm/Stengel sich in einzelne Äste aufteilt, an denen wiederum Blätter<br />
sitzen. Insgesamt ist die Mischung aus Häufigkeitstabelle und Histogramm deutlich<br />
erkennbar, indem die Häufigkeiten durch Balken abgebildet werden, die sich jedoch<br />
aus Ziffern zusammensetzen, die die im jeweiligen Wertebereich enthaltenen<br />
Einzelwerte nennen.<br />
8.2.3 Boxplots<br />
Diagramme fi Boxplots fi Faktorstufen zusammen<br />
Mit dieser Einstellung wird das Boxplot-Diagramm aufgerufen. „Faktorstufen<br />
zusammen“ meint dabei, dass die Boxplots der verschiedenen Gruppen eines im<br />
Dialogfeld zuvor deklarierten Faktors direkt nebeneinander gestellt werden, z.B. die<br />
Boxplots für die Untergruppen der Frauen und der Männer. „Abhängige Variablen<br />
zusammen“ stellt die Boxen verschiedener abhängiger Variablen, die sich auf<br />
dieselbe Fallgruppe beziehen, nebeneinander. Wenn kein Boxplot erstellt werden<br />
soll, ist die Option „Keiner“ zu wählen.<br />
Seite - 37 -
Skript: Benutzung von SPSS<br />
130<br />
120<br />
110<br />
100<br />
Belastungspuls der VP<br />
90<br />
80<br />
70<br />
60<br />
N =<br />
12<br />
Frauen<br />
18<br />
Männer<br />
Geschlecht der VP<br />
Abb. 41: Berechnetes Boxplot gemäß den in den obigen Dialogfeldern konkret eingegebenen<br />
Variablen<br />
In einem Boxplot kann man sich die Lage und Verteilung der Werte einer Variablen,<br />
gegebenenfalls getrennt nach Fallgruppen, grafisch darstellen lassen. Boxplots sind<br />
insbesondere dazu geeignet, Lage und Verteilung für verschiedene Variablen bzw.<br />
für unterschiedliche Fallgruppen derselben Variablen miteinander zu vergleichen.<br />
Letzteres ist in der Abb. 41 oben geschehen. Die beiden dargestellten Boxen<br />
beziehen sich auf die unterhalb der Abszisse inhaltlich benannten Stufen der<br />
unabhängigen Variablen. Die schwarze horizontale Linie innerhalb einer Box<br />
kennzeichnet die Lage des Medians (50%-Perzen-til). Die untere Grenze einer Box<br />
signalisiert das 25%-Perzentil und die obere Grenze das 75%-Perzentil der<br />
jeweiligen Fallgruppe (Unterstichprobe). Innerhalb einer Box liegen somit die<br />
mittleren 50% der Werte. Die dünnen Striche unterhalb und oberhalb der Box geben<br />
den kleinsten bzw. größten Wert dar, der noch keinen Ausreißer oder Extremwert<br />
darstellt. Als Ausreißer und Extremwerte werden von SPSS bei Boxplots solche<br />
Werte angesehen, die um mehr als das 1,5fache der Höhe der Box unter oder über<br />
der Box liegen. Genauer beträgt die Entfernung von Ausreißern zur Box zwischen<br />
dem 1,5fachen und dem 3fachen der Boxhöhe, Extremwerte dagegen mehr als das<br />
3fache der Boxhöhe unter dem 25%-Perzentil bzw. über dem 75%-Perzentil. In der<br />
Grafik werden Ausreißer dabei durch Kreise gekennzeichnet, Extremwerte durch<br />
Sternchen. Wie man insgesamt sieht, sind Boxplots gut geeignet, die Verteilung der<br />
Werte mehrerer Gruppen miteinander zu vergleichen.<br />
8.2.4 Normalverteilungsdiagramm<br />
Diagramme fi Normalverteilungsdiagramm (mit Tests)<br />
Mit dieser Option werden zwei Normalverteilungsdiagramme (und ein Signifikanztest<br />
auf Normalverteilung der Daten) ausgegeben.<br />
Zahlreiche statistische Verfahren setzen voraus, dass die zu untersuchenden Daten<br />
in der Grundgesamtheit normalverteilt sind. Bevor man derartige Verfahren<br />
anwendet, ist also zu prüfen, ob dies zumindest annähernd der Fall ist. Hierzu stellt<br />
die explorative Datenanalyse von SPSS grafische Verfahren (Normalverteilungsplots)<br />
Seite - 38 -
Skript: Benutzung von SPSS<br />
und Signifikanztests zur Verfügung. In den Plots werden die empirisch beobachteten<br />
Werte mit den theoretischen Werte verglichen, die sich unter der Annahme einer<br />
Normalverteilung (NV) ergäben. Abweichungen zwischen der theoretischen NV und<br />
der empirischen Verteilung werden durch entsprechende Abweichungen der Werte<br />
von einer Geraden deutlich.<br />
2,0<br />
Q-Q-Diagramm von Belastungspuls der VP<br />
Von GESCHL= Männer<br />
1,5<br />
1,0<br />
,5<br />
Erwarteter Normalwert<br />
0,0<br />
-,5<br />
-1,0<br />
-1,5<br />
-2,0<br />
70<br />
80<br />
90<br />
100<br />
110<br />
120<br />
Beobachteter Wert<br />
Abb. 42: Normalverteilungsdiagramm (Q-Q-Diagramm) der Variablen Belastungspuls<br />
In Abb. 42 werden die beobachteten Werte, die auf der Abszisse eingetragen<br />
werden, in standardisierte Werte, also z-Werte umgewandelt und gegen die<br />
„zugehörigen“ z-Werte abgetragen, die zu erwarten sind, wenn sich die Werte (bei<br />
gleichem Mittelwert und gleicher Standardabweichung) normal verteilen würden. Die<br />
theoretische NV wird dabei durch eine Gerade dargestellt. Wenn die empirischen<br />
Werte ebenfalls normalverteilt sind, müssen ihre Punkte in etwa den unter der<br />
Hypothese der NV zu erwartenden Werten folgen, also etwa dem Verlauf der<br />
Geraden. Ist das nicht der Fall, unterscheidet man zwischen der Stärke und der Form<br />
der Abweichung. Oft nämlich streuen die Werte der empirischen Verteilung nicht<br />
zufällig um die Gerade, sondern weisen klare Muster auf. Muster deuten auf<br />
systematische Abweichungen von der NV hin.<br />
,6<br />
Trendbereinigtes Q-Q-Diagramm von Belastungspuls der VP<br />
Von GESCHL= Männer<br />
,4<br />
,2<br />
Abweichung von Normal<br />
0,0<br />
-,2<br />
-,4<br />
70<br />
80<br />
90<br />
100<br />
110<br />
120<br />
Beobachteter Wert<br />
Abb. 43: Trendbereinigtes Q-Q-Diagramm der Variablen Belastungspuls<br />
Seite - 39 -
Skript: Benutzung von SPSS<br />
Abb. Xx stellt den gleichen Sachverhalt noch einmal aus anderer Perspektive dar,<br />
wobei auf der Ordinate jetzt die Abweichungen von der NV aufgetragen werden. Die<br />
Darstellung soll vor allem einen Trend in den Abweichungen zwischen den<br />
empirischen und den theoretischen Werten erkennen lassen. Die Darstellung ergibt<br />
sich, indem man das NV-Diagramm der Abbildung zuvor so weit kippt, bis die NV-<br />
Linie horizontal verläuft.<br />
Neben diesen beiden sog. Q-Q-Diagrammen kann man zur weiteren grafischen<br />
Prüfung auf NV auch noch P-P-Diagramme berechnen, jedoch nicht unter der<br />
explorativen Datenanalyse, sondern unter dem Befehl „Grafiken“.<br />
Neben den beiden Grafiken werden durch die aufgerufene Prozedur auch noch die<br />
Ergebnisse eines Signifikanztests ausgegeben. Diesen wollen wir jedoch nicht<br />
betrachten, da er zur Inferenzstatistik gehört.<br />
8.2.5 Deskriptive Statistiken<br />
Analysieren → Deskriptive Statistik → Explorative Datenanalyse → Statistik<br />
Mit dem Befehl wird ein Dialogfeld eröffnet, das die Berechnung einer Reihe<br />
deskriptiver Maßzahlen der Variablen der (Unter-)Stichprobe erlaubt, und zwar die<br />
folgenden:<br />
• Mittelwert mit Konfidenzintervall des Mittelwerts. Für das Konfidenzintervall<br />
können Prozentwerte zwischen 1 und 99 eingegeben werden. Das<br />
Konfidenzintervall ist der Wertebereich, in dem der Mittelwert der<br />
Grundgesamtheit mit der eingegebenen Wahrscheinlichkeit (Prozentwert)<br />
liegt. Per Voreinstellung wird für das Intervall ein Niveau von 95% berechnet,<br />
so dass der Bereich ausgegeben wird, in dem der Mittelwert in der<br />
Grundgesamtheit mit einer Wahrscheinlichkeit von 95% liegt.<br />
• Um 5% getrimmter Mittelwert (dabei werden die extremen Werte<br />
ausgeschlossen)<br />
• Standardfehler des Mittelwerts<br />
• Median<br />
• Spannweite (range), Differenz zwischen dem kleinsten und den größten Wert<br />
• Kleinster und größter Wert<br />
• Varianz und Standardabweichung<br />
• Schiefe (Skewness) mit Konfidenzintervall. Durch die Schiefe wird angezeigt,<br />
inwieweit die Verteilung von einer symmetrischen Verteilung abweicht. Ist der<br />
Wert für die Schiefe einer Verteilung kleiner 0, so liegt eine rechtssteile Kurve<br />
vor, also eine Kurve, die langsam von links nach rechts ansteigt und dann vom<br />
Gipfel steil(er) abfällt. Umgekehrtes gilt, wenn der Wert größer 0 ist. Ist er<br />
gleich 0, so liegt Symmetrie vor. Bei negativer oder positiver Schiefe liegen<br />
der Mittelwert und der Median auseinander, bei negativer Schiefe z.B. liegt der<br />
Mittelwert (Schwerpunkt der Verteilung) links vom Median.<br />
• Exzeß (Kurtosis) mit Konfidenzintervall. Ist eine Verteilung genauso gewölbt<br />
wie eine NV, so ist die Maßzahl für den Exzeß oder die Wölbung gleich 0. Bei<br />
einem positiven Wert ist die Verteilung zentrierter (spitzgipfliger) als eine NV<br />
mit diesbezüglich gleichem Mittelwert und gleicher Varianz. Bei einem<br />
negativen Wert verläuft die Verteilung vergleichsweise flacher.<br />
Abweichungen von der NV wären nur dann zu akzeptieren, wenn die<br />
Grundgesamtheit tatsächlich nicht normalverteilt ist. Unter der Annahme der<br />
Seite - 40 -
Skript: Benutzung von SPSS<br />
NV aber können Abweichungen in Bezug auf Schiefe und Exzeß z.B.<br />
Auswahlfehler oder Testfehler signalisieren.<br />
Neben diesen deskriptiven Statistiken, die ausgegeben werden, wenn man im obigen<br />
Dialogfeld die Option „Deskriptive Statistik“ aktiviert, können noch folgende<br />
Statistiken ausgegeben werden:<br />
• M-Schätzer: Es werden vier Maximum-Likelihood-Schätzer nach den<br />
Methoden Huber, Tukey, Hampel und Andrews berechnet.<br />
Das arithmetische Mittel ist mit Abstand das gebräuchlichste Lagemaß. Es<br />
wird berechnet, indem die Summe aller Werte durch deren Anzahl dividiert<br />
wird. Damit gehen alle Werte mit gleichem Gewicht in die Berechnung des<br />
Mittelwertes ein. Einhält nun eine Variable einzelne Ausreißer, so können<br />
diese einen erheblichen Einfluß auf den Mittelwert haben (vgl. das Beispiel mit<br />
dem studentischen Einkommen zu Beginn dieses Kapitels „Explorative<br />
Datenanalyse“). Um den Einfluß extremer Werte bei der Kennzeichnung der<br />
Lage durch ein Lagemaß zu verringern, werden sog. M-Schätzer (Maximum-<br />
Likelihood-Schätzer) berechnet. Die Berechnungen hat Ähnlichkeit mit der<br />
Berechnung des Mittelwertes, es werden jedoch die einzelnen Werte bei der<br />
Berechnung des M-Schätzers unterschiedlich gewichtet. Je stärker dabei ein<br />
Wert von den übrigen Werten nach unten oder nach oben abweicht, desto<br />
geringer ist sein Gewicht. Die vier M-Schätzer, die nach vier verschiedenen<br />
Methoden berechnet werden, können mit dem üblicherweise berechneten<br />
Mittelwert verglichen werden. Sollten sich Abweichungen ergeben, so deutet<br />
dies auf extreme Werte hin, die ein geringeres Gewicht erhielten.<br />
• Ausreißer: Mit dieser Option wird eine Liste der jeweils fünf größten und<br />
kleinsten Werte der Variablen angefordert. Die Fälle, in denen die Ausreißer<br />
enthalten sind, werden durch die Fallnummern aus der Datendatei<br />
gekennzeichnet. Nur wenn man eine Fallbeschriftung eingegeben hat, werden<br />
zusätzlich deren Werte zur Kennzeichnung verwendet.<br />
Ausreißer sind Werte, die im Verhältnis zu den meisten übrigen Werten der<br />
Verteilung deutlich nach unten oder nach oben abweichen, die also sehr klein<br />
oder sehr groß sind. Wann genau ein Wert als Ausreißer bezeichnet wird,<br />
hängt sowohl von seiner Lage als auch von der Verteilung der Werte ab. Eine<br />
allgemeine Definition eines Ausreißers gibt es nicht. Auch innerhalb von SPSS<br />
kommen unterschiedliche Definitionen zur Anwendung. So werden Ausreißer<br />
in einem Boxplot in Abhängigkeit von ihrer relativen Entfernung zu dem<br />
Bereich der 50% mittleren Werte bestimmt. Werte, deren Entfernung von<br />
diesem Bereich mindestens 1,5mal so groß ist wie die Breite des Bereichs<br />
selbst, werden dort als Ausreißer bezeichnet. Im vorliegenden Fall dagegen<br />
werden einfach die fünf kleinsten und die fünf größten Werte ausgegeben.<br />
• Perzentile: Berechnet werden die 5%-, 10%-, 25%-, 50%-, 75%-, 90%- und<br />
95%-Per-zentile. Ein Perzentil gibt jeweils den Wert an, unterhalb oder auf<br />
dem ein bestimmter Anteil der Werte liegen.<br />
Im Folgenden soll am Beispiel des Outputs die Interpretation verdeutlicht werden.<br />
Der erste Teil des Outputs sind die univariaten Statistiken welche mit dem Schalter<br />
„deskriptive Statistiken“ ausgewählt wurden. Hier sind die oben benannten<br />
Kennwerte der Variablen bzw. der Unterstichproben für eine Variable zu finden. In<br />
diesem Beispiel wurde die Verteilung des Alters getrennt für die beiden Geschlechter<br />
betrachtet. Von Oben nach unten findet man hier den Mittelwert, danach die<br />
Intervallgrenzen zwischen denen mit einer Wahrscheinlichkeit von 95% der Mittelwert<br />
Seite - 41 -
Skript: Benutzung von SPSS<br />
der Grundgesamtheit liegt. Es folgen das getrimmte Mittel und all die anderen<br />
Kennwerte die bereits oben besprochen wurden. In unserem Beispiel ist vor allem<br />
auf die Schiefe und die Kurtosis zu achten. Beide sind positiv und weisen somit auf<br />
eine Abweichung von der Standard-Normalverteilung hin. Besonders hoch ist die<br />
Kurtosis bei den Frauen, was auf eine stark spitzgipflige Verteilung des Alters bei den<br />
Frauen der Stichprobe hinweißt.<br />
Univariate Statistiken<br />
Alter der Versuchsperson<br />
Geschlecht<br />
weiblich<br />
Mittelwert<br />
95% Konfidenzintervall<br />
des Mittelwerts<br />
Untergrenze<br />
Obergrenze<br />
Standardf<br />
Statistik ehler<br />
20,5317 ,18120<br />
20,1753<br />
20,8882<br />
männlich<br />
5% getrimmtes Mittel<br />
Median<br />
Varianz<br />
Standardabweichung<br />
Minimum<br />
Maximum<br />
Spannweite<br />
Interquartilbereich<br />
Schiefe<br />
Kurtosis<br />
Mittelwert<br />
95% Konfidenzintervall<br />
des Mittelwerts<br />
Untergrenze<br />
Obergrenze<br />
20,1370<br />
20,0000<br />
10,868<br />
3,29665<br />
15,00<br />
40,00<br />
25,00<br />
2,0000<br />
2,721 ,134<br />
10,666 ,267<br />
24,2628 ,46901<br />
23,3353<br />
25,1903<br />
5% getrimmtes Mittel<br />
Median<br />
Varianz<br />
Standardabweichung<br />
Minimum<br />
Maximum<br />
Spannweite<br />
Interquartilbereich<br />
Schiefe<br />
Kurtosis<br />
23,8370<br />
23,0000<br />
30,136<br />
5,48966<br />
13,00<br />
45,00<br />
32,00<br />
5,0000<br />
1,382 ,207<br />
2,095 ,411<br />
Der nächste Teil des Outputs sind die M-Schätzer, die wie schon oben erklärt, um<br />
Extremwerte bereinigte Schätzer für den Mittelwert darstellen. Vergleicht man diese<br />
Werte mit dem Standard-Mittelwert, so fallen deutliche Abweichungen zwischen<br />
beiden sowohl bei den Frauen als auch bei den Männern auf. Dies lässt auf eine<br />
größere Zahl von „Ausreißern“ schließen.<br />
Alter der Versuchsperson<br />
Geschlecht<br />
weiblich<br />
männlich<br />
a. Die Gewichtungskonstante ist 1,339.<br />
b. Die Gewichtungskonstante ist 4,685.<br />
M-Schätzer<br />
c. Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500<br />
d. Die Gewichtungskonstante ist 1,340*pi.<br />
M-Schätzer Tukey-Bi M-Schätzer Andrewsnach<br />
Huber a weight b nach Hampel c Welle d<br />
19,9507 19,7201 19,7924 19,7126<br />
22,9551 22,2584 22,7251 22,2523<br />
Nächster Teil des Outputs sind die gebräuchlichsten Perzentile der Verteilung. Darin<br />
enthalten sind die Quartile und zusätzlich die 5%, 10%, 90% und 95%-Perzentile. Die<br />
Tukey-Angelpunkte welche ebenfalls in dieser Ausgabe enthalten sind, brauchen uns<br />
vorerst noch nicht zu interessieren.<br />
Gewichtetes Mittel<br />
(Definition 1)<br />
Tukey-Angelpunkte<br />
Alter der Versuchsperson<br />
Alter der Versuchsperson<br />
Geschlecht<br />
weiblich<br />
männlich<br />
weiblich<br />
männlich<br />
Perzentile<br />
Perzentile<br />
5 10 25 50 75 90 95<br />
17,0000 18,0000 19,0000 20,0000 21,0000 24,0000 27,0000<br />
18,0000 19,0000 21,0000 23,0000 26,0000 33,2000 36,0000<br />
19,0000 20,0000 21,0000<br />
21,0000 23,0000 26,0000<br />
Letzter Teil des Outputs, wenn nicht zusätzlich Diagramme berechnet wurden, sind<br />
die Extremwerte. Hier wurden die 5 größten und kleinsten Werte für jede Stichprobe<br />
eingetragen. Um diese Werte auch in der Datentabelle identifizieren zu können, wird<br />
Seite - 42 -
Skript: Benutzung von SPSS<br />
zusätzlich die Fallnummer angegeben, nach welcher man dann in der Tabelle<br />
suchen kann. Wurde eine Variable für die Fallbeschriftung angegeben, so wird statt<br />
der Fallnummer die Beschriftung aus dieser Variablen angezeigt. Die wäre<br />
praktikabel, wenn man in einer Variable z.B. den Namen der Versuchsperson stehen<br />
hat und diese als Variable zur Fallbeschriftung wählt. In der Tabelle könnte man<br />
dann lesen: Herr Schmidt hat einen extremen Wert und Frau Meier auch.<br />
Normalerweise verbietet sich solch ein Vorgehen aber durch die nötige<br />
Anonymisierung der Daten nach einem Versuch.<br />
Geschlecht<br />
Alter der Versuchsperson weiblich<br />
männlich<br />
Extremwerte<br />
Größte Werte<br />
Kleinste Werte<br />
Größte Werte<br />
Kleinste Werte<br />
1<br />
2<br />
3<br />
4<br />
5<br />
1<br />
2<br />
3<br />
4<br />
5<br />
1<br />
2<br />
3<br />
4<br />
5<br />
1<br />
2<br />
3<br />
4<br />
5<br />
Fallnummer<br />
Wert<br />
222 40,00<br />
159 38,00<br />
152 38,00<br />
228 37,00<br />
223 , a<br />
108 15,00<br />
57 16,00<br />
124 16,00<br />
121 16,00<br />
113 , b<br />
307 45,00<br />
296 42,00<br />
276 42,00<br />
274 37,00<br />
270 37,00<br />
314 13,00<br />
462 16,00<br />
239 17,00<br />
434 18,00<br />
250 , c<br />
a. Nur eine partielle Liste von Fällen mit dem Wert 33 wird in der Tabelle der oberen<br />
Extremwerte angezeigt.<br />
b. Nur eine partielle Liste von Fällen mit dem Wert 16 wird in der Tabelle der unteren<br />
Extremwerte angezeigt.<br />
c. Nur eine partielle Liste von Fällen mit dem Wert 18 wird in der Tabelle der unteren<br />
Extremwerte angezeigt.<br />
Seite - 43 -
Skript: Benutzung von SPSS<br />
9. Balken-, Linien-, Flächen- und Kreisdiagramme<br />
9.1 Allgemeines<br />
Balken-, Linien-, Flächen- und Kreisdiagramme können häufig alternativ verwendet<br />
werden. Sie sind also geeignet, die gleichen Sachverhalte darzustellen und<br />
unterscheiden sich erst in der Form und weniger im Inhalt.<br />
9.2 Struktur der darzustellenden Daten<br />
9.2.1 Zahl der darzustellenden Datenreihen<br />
Zunächst ist zu unterscheiden, ob in der Grafik eine oder mehrere Datenreihen<br />
dargestellt werden sollen.<br />
Eine Datenreihe: Eine einfache Folge von Werten lässt sich mit einem einfachen<br />
Balken-, Linien-, Flächen- oder Kreisdiagramm veranschaulichen. Oft besteht die<br />
Datenreihe aus Häufigkeiten, entweder aus den absoluten oder aus den relativen<br />
(prozentualen) Häufigkeiten.<br />
Mehrere Datenreihen: Wenn man gleichzeitig mehrere Datenreihen visuell<br />
vergleichen möchte, können auch diese gemeinsam in einem Diagramm dargestellt<br />
werden. In einem Balkendiagramm z.B. können die sich entsprechenden Werte der<br />
verschiedenen Datenreihen jeweils in Gruppen nebeneinander gestellt werden<br />
(gruppiertes Balkendiagramm) oder auch übereinander (gestapeltes<br />
Balkendiagramm). Auch in einem Flächendiagramm können die Werte gestapelt<br />
dargestellt werden. In einem Liniendiagramm wird für jede der Datenreihen eine Linie<br />
erzeugt. Ein verbundenes Liniendiagramm bietet zudem die Möglichkeit, die sich<br />
jeweils entsprechenden Werte der einzelnen Reihen miteinander durch senkrechte<br />
Striche zu verbinden.<br />
9.2.2 Art der darzustellenden Werte<br />
Entscheidend für die Wahl des Diagrammtyps ist die Art der darzustellenden Werte:<br />
• Werte einzelner Fälle: Der einfachste Fall liegt vor, wenn die Werte bereits in<br />
der Datendatei in der Form vorliegen, in der sie dargestellt werden sollen, z.B.<br />
wenn Parteien die Fälle darstellen und eine der Variablen die absolute<br />
Stimmenzahl angibt, mit der die einzelne Partei gewählt wurde. In einem<br />
solchen Fall können die Werte der Variablen direkt in das Diagramm<br />
übernommen werden, also ohne vorhergehende Berechnungen oder<br />
Transformationen. Dieser Fall der direkten Übernahme kommt jedoch relativ<br />
selten vor.<br />
• Kategorien einer Variablen: In der Praxis erheblich häufiger liegen die Werte<br />
der Datenmatrix in noch nicht zusammengefasster Form vor. Z.B. ist meistens<br />
erst noch über alle Fälle (Versuchspersonen) auszuzählen, wie häufig die<br />
Kategorien einer Variablen vorkommen, z.B. angekreuzt wurden.<br />
• Zusammengefasste Werte verschiedener Variablen: Eine dritte Möglichkeit<br />
besteht darin, dass nicht die verschiedenen Kategorien einer Variablen,<br />
Seite - 44 -
Skript: Benutzung von SPSS<br />
sondern die zusammengefassten Werte verschiedener Variablen miteinander<br />
verglichen werden.<br />
9.3 Darstellung einer einzelnen Datenreihe<br />
9.3.1 Einfaches Balkendiagramm<br />
9.3.1.1 Aufrufmöglichkeiten<br />
Diese Möglichkeit haben wir bereits in diesem Skript unter Punkt 4.1 (S. 16)<br />
kennengelernt. Dort wurden zum einen die absoluten Häufigkeiten für die zwei<br />
Kategorien der Variablen Geschlecht ausgezählt und als Balkendiagramm dargestellt<br />
und zum anderen bereits ein gruppiertes Balkendiagramm, in dem die Variable<br />
Geschlecht mit der Variable Schulabschluss gekreuzt wurde und die kombinierten<br />
absoluten Häufigkeiten ausgezählt und als Balkendiagramm dargestellt wurden.<br />
Wir betrachten hier zunächst nur den ersten Fall, das sog. „einfache<br />
Balkendiagramm“. Wie es aufgerufen wird, ist also bereits bekannt.<br />
9.3.1.2 Diagramm interpretieren<br />
300<br />
200<br />
Absolute Werte<br />
100<br />
0<br />
Fehlend<br />
Fachhochschulreife<br />
Hochschule<br />
Gymnasium<br />
Realschule<br />
Hauptschule<br />
Gesamtschule<br />
Letzter Bildungsabschluss<br />
Abb. 44: Beispiel für ein Balkendiagramm der Variablen Schulabschluss<br />
Ein Balkendiagramm repräsentiert die Werte einzelner Kategorien. Jede Kategorie<br />
steht für sich, was durch die Räume zwischen den einzelnen Kategorien verdeutlicht<br />
wird. Ein Balkendiagramm ist also nicht mit einem Histogramm zu verwechseln, in<br />
welchem diese Zwischenräume nicht vorhanden sind, weil die einzelnen Säulen nicht<br />
Kategorien, sondern Intervalle auf einer kontinuierlichen Variablen darstellen.<br />
Ein Balkendiagramm wird von SPSS automatisch erstellt. Um es darstellen zu<br />
können, beginnt die Skala auf der Ordinate oft nicht mit dem Wert Null, sondern erst<br />
bei einem höheren Wert. Ferner kann die von SPSS gewählte Skaleneinheit<br />
bewirken, dass Unterschiede zwischen den Werten der einzelnen Kategorien überoder<br />
unterzeichnet werden. Der optische Eindruck kann also täuschen. In manchen<br />
Fällen kann es daher sinnvoll sein, den dargestellten Bereich der Skala zu<br />
Seite - 45 -
Skript: Benutzung von SPSS<br />
verkleinern oder zu vergrößern, um Unterschiede zu nivellieren oder aber zu<br />
betonen. Dabei sollte man sich jedoch stets bewusst sein, dass der optische<br />
Eindruck dadurch in gewisser Weise verzerrt wird.<br />
Um eine Änderung an der Skala vorzunehmen, geht man folgendermaßen vor:<br />
• Man doppelklickt auf das Diagramm, um den Grafikeditor zu öffnen.<br />
• Man doppelklickt auf die Ordinate. Damit öffnet sich das Dialogfeld<br />
Skalenachse.<br />
• Man ändert sodann in der Gruppe Bereich wunschgemäß die Werte und<br />
schließt danach das Dialogfeld mit OK und den Grafikeditor z.B. mit dem<br />
Befehl Datei schließen.<br />
9.3.1.3 Direkte Umwandlung in alternative Grafiktypen<br />
Es wurde bereits erwähnt, dass Balken-, Linien-, Flächen- und Kreisdiagramme in<br />
vielen Fällen alternativ verwendet werden können. Deshalb besteht bei SPSS die<br />
Möglichkeit, nachträglich einen anderen dieser vier Diagrammtypen zu erzeugen,<br />
also quasi ein bereits erzeugtes Diagramm in ein anderes umzuwandeln. Hierzu muß<br />
das Diagramm zunächst im Grafikeditor geöffnet werden. Anschließend kann im<br />
Menü Galerie eine andere Diagrammdarstellung gewählt werden.<br />
300<br />
300<br />
300<br />
200<br />
200<br />
200<br />
Gesamtschule<br />
Fachhochschulreife<br />
Fehlend<br />
Hauptschule<br />
Hochschule<br />
Absolute Werte<br />
100<br />
0<br />
Gesamtschule<br />
Fachhochschulreife<br />
Hochschule<br />
Gymnasium<br />
Realschule<br />
Hauptschule<br />
Fehlend<br />
Absolute Werte<br />
100<br />
0<br />
Fehlend Realschule Hochschule Gesamtschule<br />
Hauptschule Gymnasium Fachhochschulreife<br />
Absolute Werte<br />
100<br />
0<br />
Fehlend Realschule Hochschule Gesamtschule<br />
Hauptschule Gymnasium Fachhochschulreife<br />
Gymnasium<br />
Realschule<br />
Letzter Bildungsabschluss<br />
Letzter Bildungsabschluss<br />
Letzter Bildungsabschluss<br />
Abb. 45: Das obige Diagramm in den 4 Varianten die in der Galerie verfügbar sind von links nach<br />
rechts: Balken-, Linien-, Flächen- und Kreisdiagramm<br />
9.3.2 Einfaches Liniendiagramm<br />
Der Aufruf ist analog zum Aufruf des Balkendiagramms und braucht nicht wiederholt<br />
zu werden.<br />
Ein erzeugtes Liniendiagramm bildet die Werte der einzelnen Kategorien durch<br />
Punkte ab, wobei die Größe des Wertes einer Kategorie jetzt nicht durch die Höhe<br />
eines Balkens, sondern durch die Höhe des Punktes dargestellt wird. Die einzelnen<br />
Punkte sind in der Grafik jedoch nicht zu erkennen, da sie durch eine Linie<br />
miteinander verbunden wurden und damit in der Linie aufgehen. Im Grafikeditor hat<br />
man jedoch die Möglichkeit, die Punkte durch eine andere Farbe oder Form<br />
darstellen zu lassen, so dass sie trotz der Verbindungslinie sichtbar werden.<br />
Die einzelnen Punkte werden in dem Diagramm durch Geraden miteinander<br />
verbunden. Diese Form der Verbindungslinie kann man ändern, wenn man das<br />
Diagramm im Grafikeditor öffnet. Man hat dort z.B. die Möglichkeit, über den Befehl<br />
Format fi Interpolation<br />
Seite - 46 -
Skript: Benutzung von SPSS<br />
die Verbindungslinie vollständig auszublenden oder durch eine geschwungene oder<br />
stufenförmige Linie zu ersetzen.<br />
300<br />
300<br />
300<br />
300<br />
200<br />
200<br />
200<br />
200<br />
100<br />
100<br />
100<br />
100<br />
Absolute Werte<br />
0<br />
Absolute Werte<br />
0<br />
Absolute Werte<br />
0<br />
Absolute Werte<br />
0<br />
Fehlend<br />
Realschule<br />
Hochschule<br />
Gesamtschule<br />
Fehlend<br />
Realschule<br />
Hochschule<br />
Gesamtschule<br />
Fehlend<br />
Realschule<br />
Hochschule<br />
Gesamtschule<br />
Fehlend<br />
Realschule<br />
Hochschule<br />
Gesamtschule<br />
Hauptschule<br />
Gymnasium Fachhochschulreife<br />
Hauptschule<br />
Gymnasium Fachhochschulreife<br />
Hauptschule<br />
Gymnasium Fachhochschulreife<br />
Hauptschule<br />
Gymnasium Fachhochschulreife<br />
Letzter Bildungsabschluss<br />
Letzter Bildungsabschluss<br />
Letzter Bildungsabschluss<br />
Letzter Bildungsabschluss<br />
Abb. 46: Die verschiedenen Varianten eines Liniendiagramms von links nach rechts: mit Geraden<br />
verbunden, ohne Verbindung, mit Kurve verbunden, mit Stufen verbunden.<br />
9.3.3 Einfaches Flächendiagramm<br />
Der Aufruf ist wieder als bereits bekannt anzunehmen. Das Linien- und das<br />
Flächendiagramm haben große Ähnlichkeit. Der Unterschied besteht im einfachen<br />
Fall lediglich darin, dass beim Flächendiagramm die Fläche unterhalb der Linie<br />
ausgefüllt ist.<br />
Flächendiagramme eignen sich besonders dann, wenn kumulierte Werte darzustellen<br />
sind, z.B. kumulierte Häufigkeitswerte, so dass durch den Anstieg der Fläche von<br />
links nach rechts die Kumulation signalisiert wird.<br />
500<br />
400<br />
300<br />
Kumulative Häufigkeit<br />
200<br />
100<br />
0<br />
13,00 18,00 22,00 26,00 30,00 34,00 38,00<br />
16,00 20,00 24,00 28,00 32,00 36,00 42,00<br />
Alter der Versuchsperson<br />
Abb. 47: Flächendiagramm der kumulierten Verteilung des Alters<br />
Zu beachten sind bei Flächendiagrammen die Abstände der Werte auf den Achsen.<br />
Insbesondere können die Abstände auf der Abszisse ungleich groß sein, so dass die<br />
Verteilung der Werte verzerrt sein kann. Dennoch können sich sinnvolle Aussagen<br />
machen lassen.<br />
Seite - 47 -
Skript: Benutzung von SPSS<br />
9.3.4 Kreisdiagramm<br />
Kreisdiagramme können vor allem dann sinnvoll eingesetzt werden, wenn die<br />
Häufigkeiten einiger weniger Kategorien miteinander verglichen werden sollen,<br />
insbesondere wenn die Anteile der einzelnen Werte an der Gesamtverteilung<br />
veranschaulicht werden sollen.<br />
Auch Kreisdiagramme können durch den Grafikeditor in vielfältiger Weise verändert<br />
werden.<br />
9.4 Darstellung mehrerer Datenreihen<br />
Wie oben erwähnt können mehrere Datenreihen miteinander verglichen werden,<br />
indem sie gemeinsam in einem Diagramm dargestellt werden. Von den<br />
außerordentlich vielen Möglichkeiten, die SPSS bietet, wollen wir uns nur noch einige<br />
näher ansehen.<br />
9.4.1 Gruppiertes und gestapeltes Balkendiagramm<br />
Im Abschnitt 4.1 haben wir bereits ein gruppiertes Balkendiagramm erzeugt. Dort<br />
wurden für die beiden Kategorien der Variablen „Geschlecht“ die absoluten<br />
Häufigkeiten der drei Arten von Schulabschlüssen dargestellt, also wie häufig Frauen<br />
und Männer mit der Hauptschule, Realschule und mit dem Abitur abschließen. Die<br />
Häufigkeiten der Schulabschlüsse wurden also nach den beiden<br />
Geschlechtskategorien gruppiert.<br />
Anstatt solche Häufigkeiten gruppiert nebeneinander zu stellen können sie auch<br />
gestapelt, also übereinander gestellt werden. Dann wird pro Kategorie nur noch ein<br />
Balken dargestellt, der jedoch in so viele Bereiche unterteilt ist wie die zweite<br />
Variable Kategorien hat.<br />
Die gestapelte Darstellung hat den Vorteil, dass die Gesamthöhe eines Balkens den<br />
Gesamtanteil der Kategorie zu veranschaulichen vermag. Z.B. wird bei einem<br />
Vergleich der Bildungsausgaben der einzelnen Bundesländer relativ zum<br />
Landeshaushalt veranschaulicht, welches Bundesland prozentual gesehen wieviel<br />
Geld in die Bildung steckt, unabhängig davon, in welche einzelnen Bereiche dieses<br />
Geld fließt, wobei diese Bereiche die unterschiedlichen Abschnitte auf den Balken<br />
bedeuten würden.<br />
Seite - 48 -
Skript: Benutzung von SPSS<br />
400<br />
300<br />
Letzter Bildungsabsc<br />
Gesamtschule<br />
200<br />
Fachhochschulreife<br />
Hochschule<br />
Gymnasium<br />
Absolute Werte<br />
100<br />
0<br />
weiblich<br />
männlich<br />
Realschule<br />
Hauptschule<br />
Fehlend<br />
Geschlecht<br />
Abb. 48: Beispiel für ein gestapeltes Balkendiagramm<br />
9.4.2 Mehrfachliniendiagramm<br />
Es werden die Höhen der einzelnen Kategorien der zweiten Variablen als (nicht<br />
sichtbare) Punkte eingetragen und pro Kategorie die Punkte miteinander verbunden.<br />
Dadurch ergibt sich pro Kategorie ein Linienzug und die Linienverläufe können direkt<br />
miteinander verglichen werden.<br />
200<br />
100<br />
Absolute Werte<br />
0<br />
Geschlecht<br />
weiblich<br />
männlich<br />
Fehlend<br />
Gesamtschule<br />
Fachhochschulreife<br />
Hochschule<br />
Gymnasium<br />
Realschule<br />
Hauptschule<br />
Letzter Bildungsabschluss<br />
Abb. 49: Beispiel für ein Mehrfachliniendiagramm<br />
9.4.3 Gestapeltes Flächendiagramm<br />
Im einfachen Flächendiagramm stellten wir kumulierte relative Häufigkeiten der<br />
Kategorien einer Variablen dar. Man kann nun auch ähnlich wie beim gestapelten<br />
Balkendiagramm die Häufigkeiten der einzelnen Kategorien einer zweiten Variablen<br />
übereinander legen. Zu beachten ist dabei, dass jede Fläche für sich zu 100%<br />
kumuliert und die Summe beider Flächen somit einem Wert von 200% erreicht.<br />
Seite - 49 -
Skript: Benutzung von SPSS<br />
500<br />
400<br />
300<br />
Kumulative Häufigkeit<br />
200<br />
100<br />
0<br />
Geschlecht<br />
männlich<br />
weiblich<br />
Fehlend<br />
Fachhochschulreife<br />
Hauptschule<br />
Hochschule<br />
Gymnasium<br />
Realschule<br />
Gesamtschule<br />
Letzter Bildungsabschluss<br />
Abb. 50: Beispiel für ein gestapeltes Flächendiagramm<br />
10. Streudiagramme<br />
10.1 Diagrammtypen<br />
Streudiagramme stellen die gemeinsame Verteilung der Werte zweier Variablen dar.<br />
Aus der Lage und Verteilung der Wertepaare können Rückschlüsse auf einen<br />
möglichen Zusammenhang zwischen den Variablen gezogen werden. Treten z.B.<br />
große Werte der einen Variablen häufig mit kleinen Werten der anderen variablen<br />
auf, scheint ein negativer Zusammenhang zwischen den Variablen zu bestehen. In<br />
einem Streudiagramm kommt dies dadurch zum Ausdruck, dass die Wertepaare in<br />
der Tendenz eine diagonale Linie mit negativer Steigung bilden. Um einen solchen<br />
Zusammenhang zu verdeutlichen, kann in das Streudiagramm eine<br />
Regressionsgerade eingefügt werden. 3D-Streudiagramme ermöglichen es sogar,<br />
die gemeinsame Verteilung dreier Variablen zu betrachten. Insgesamt stellt SPSS<br />
vier Arten von Streudiagrammen zur Verfügung:<br />
• Einfaches Streudiagramm: Dargestellt wird die gemeinsame Verteilung zweier<br />
Variablen.<br />
• 3D-Streudiagramm: Hier wird auf drei Achsen jeweils eine Variable<br />
eingetragen, so dass die Punkte im Raum Wertetripel darstellen. Somit wird<br />
die gemeinsame Verteilung dreier Variablen veranschaulicht.<br />
• Überlagertes Streudiagramm: In einem solchen Diagramm können die<br />
gemeinsamen Verteilungen mehrerer Variablenpaare in einer einzigen Grafik<br />
dargestellt werden. Durch diese Überlagerung mehrerer einfacher<br />
Streudiagramme lässt sich der Verlauf dieser Verteilungen gut miteinander<br />
vergleichen.<br />
• Einfache Streudiagramme in Matrix-Darstellung: Wenn man für mehrere<br />
Variablen jeweils die paarweise gemeinsame Verteilung darstellen möchte,<br />
kann man die einzelnen Streudiagramme in Matrixform so anordnen, dass alle<br />
paarweisen Verteilungen zusammen betrachtet werden können. Dies kann für<br />
einen ersten Überblick über die Verteilungen hilfreich sein.<br />
Seite - 50 -
Skript: Benutzung von SPSS<br />
Außer bei den überlagerten Diagrammen kann man in den Diagrammen eine<br />
Kontrollvariable verwenden, durch deren Werte die Fälle der Datendatei in<br />
verschiedene Fallgruppen (Kategorien) unterteilt werden können. Die Wertepaare der<br />
verschiedenen Fallgruppen werden dann in der Grafik durch verschiedene<br />
Markierungen oder in verschiedenen Farben dargestellt, so dass ein möglicher<br />
Einfluß der Kontrollvariablen auf die gemeinsame Verteilung der beiden Variablen<br />
erkennbar wird.<br />
Im Folgenden geben wir zur Veranschaulichung nur eine kleine Auswahl möglicher<br />
Streudiagrammdarstellungen.<br />
10.2 Einfaches Streudiagramm<br />
Grafiken fi Streudiagramm fi Einfach<br />
Es erscheint das folgende Dialogfeld:<br />
Abb. 51: Dialogfeld zur Erstellung eines einfachen Streudiagramms<br />
Um ein Streudiagramm zu definieren, ist die Angabe je einer Variable für die x- und<br />
für die y-Achse notwendig. Im Feld Markierungen festlegen durch kann eine<br />
Kontrollvariable angegeben werden, durch die die Fälle der Datendatei in einzelnen<br />
Gruppen unterteilt werden würden. Drückt man die Taste OK, so erscheint ein<br />
Streudiagramm der nachfolgend abgebildeten Art.<br />
6<br />
5<br />
4<br />
Zufriedenheit mit Berufswahl<br />
3<br />
2<br />
1<br />
0<br />
0<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
Wie hoch ist das Interesse am Beruf?<br />
Abb. 52: Einfaches Streudiagramm<br />
Jeder Punkt im Diagramm repräsentiert ein Wertepaar der beiden Variablen. Im<br />
Beispiel aus Abb. 52 fällt auf den ersten Blick auf, dass sich die Punke über alle<br />
Seite - 51 -
Skript: Benutzung von SPSS<br />
möglichen Kombinationen fast gleich verteilen, es scheint also keinerlei Abhängigkeit<br />
zwischen den beiden Variablen vorzuliegen. Diese einfache Form der Darstellung<br />
kann jedoch täuschen, da Punkte die übereinander liegen nur als ein einzelner Punkt<br />
dargestellt werden. In Wirklichkeit repräsentieren alle Punkte des Diagramms aber<br />
eine unterschiedliche Anzahl von Fällen. Um dies zu kompensieren gibt es die<br />
„Sonnenblumendarstellung“.<br />
10.3 Einfaches Streudiagramm in Sonnenblumen-Darstellung<br />
In Streudiagrammen kann es zu Überlagerungen einzelner Punkte kommen, so dass<br />
die Anzahl der Punkte nicht mehr genau zu erkennen ist. Wenn man dann bereit ist,<br />
auf die exakte Darstellung der Werte zu verzichten, können die Wertepaare in<br />
Abhängigkeit von ihrer Lage auch zu Gruppen zusammengefasst werden. Man lässt<br />
dann nicht mehr die Lage einzelner Wertepaare darstellen, sondern die Lage und<br />
zugleich die Häufigkeiten der gebildeten Gruppen. Dadurch werden die<br />
Überlagerungen der einzelnen Punkte vermieden und das Streudiagramm wird<br />
übersichtlicher. Eine solche gruppierte Darstellung der Wertepaare wird als<br />
„Sonnenblumen-Darstellung“ bezeichnet, da die Häufigkeiten durch Symbole<br />
gekennzeichnet sind, die an Sonnenblumen erinnern.<br />
Diese gruppierte Darstellung wird erzeugt, indem man ein schon bestehendes<br />
Streudiagramm im Grafikeditor bearbeitet. Man doppelklickt in das Diagramm, worauf<br />
sich es sich im Editor öffnet. Sodann wählt man im Grafikeditor den Befehl<br />
Diagramme fi Optionen fi Sonnenblumen<br />
6<br />
5<br />
4<br />
Zufriedenheit mit Berufswahl<br />
3<br />
2<br />
1<br />
0<br />
0<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
Wie hoch ist das Interesse am Beruf?<br />
Abb. 53: Das obige einfache Streudiagramm in der Sonnenblumen-Darstellung.<br />
Das Diagramm stellt nun nicht mehr für jedes Wertepaar einen Punkt dar, sondern es<br />
fasst auch nahe beieinander liegende Punkte zu einer Gruppe zusammen. Für jede<br />
solche Gruppe wurde in dem Diagramm ein Kreis gezeichnet. Die Häufigkeit, mit der<br />
die Gruppe vorkommt, wird durch die Zahl der Striche dargestellt, die um den Kreis<br />
einer Gruppe angeordnet sind. Gruppen, die nur einmal vorkommen, werden durch<br />
einen Kreis ohne Strich gekennzeichnet. Wie in Abbildung 53 zu ersehen liegt in dem<br />
Diagramm aus Abbildung 52 keinesfalls eine Gleichverteilung vor, sondern einige<br />
Kategorien sind nur sehr gering besetzt.<br />
Seite - 52 -
Skript: Benutzung von SPSS<br />
10.4 Einfaches Streudiagramm mit Regressionskurve<br />
Aus der Anordnung und der Häufung der Wertepaare im Diagramm lassen sich oft<br />
Hinweise auf einen möglichen Zusammenhang zwischen den beiden betrachteten<br />
Variablen gewinnen. Ein solcher Zusammenhang lässt sich oft noch präzisieren,<br />
wenn in die Grafik eine Regressionskurve eingezeichnet wird. Für die Annäherung<br />
der Kurve an die Wertepaare kann je nach Eindruck ein linearer, quadratischer oder<br />
kubischer Zusammenhang angenommen werden. Auch besteht die Möglichkeit, eine<br />
Kurve mit Hilfe eines iterativen gewichteten Regressionsverfahrens, das ebenfalls auf<br />
der Methode der kleinsten Quadrate basiert, jeweils an eine Gruppe von<br />
Wertepaaren anzupassen. Damit erhält die Gesamtkurve zwar keinen einheitlichen<br />
Verlauf, sie folgt jedoch im allgemeinen der Form der Punktwolke recht gut.<br />
Ebenso wie die Sonnenblumen-Darstellung kann eine Regressionskurve nicht schon<br />
beim Anfordern des Streudiagramms mit angefordert werden, sondern nachträglich<br />
wieder mit Hilfe des Grafikeditors. Dazu wählt man im Editor den Befehl<br />
Diagramme fi Optionen<br />
und kreuzt in dem sich öffnenden Dialogfeld die Option Gesamt aus der Gruppe<br />
Anpassungslinie an. Anschließend klickt man auf die Schaltfläche Anpassungs-<br />
Optionen, die ein weiteres Dialogfeld öffnet. Dort wird in der Gruppe<br />
Anpassungsmethode die Option Lineare Regression beibehalten, wenn man der<br />
Punktwolke eine Regressionsgerade unterlegen möchte. Ferner wählt man in der<br />
Gruppe Optionen für Regression die beiden Optionen Konstante in Gleichung<br />
einschließen und R-Quadrat in Legende zeigen. Anschließend können die beiden<br />
Dialogfelder mit Weiter und OK geschlossen werden. Es ergibt sich ein<br />
Streudiagramm mit Regressionsgleichung wie in der nachfolgenden Abbildung<br />
dargestellt.<br />
120<br />
110<br />
100<br />
90<br />
Belastungspuls der VP<br />
80<br />
70<br />
60 R-Qu. = 0.5781<br />
40<br />
50<br />
60<br />
Alter der Versuchsperson<br />
Abb. 54: Einfaches Streudiagramm mit linearer Anpassungslinie<br />
R 2 stellt das Bestimmtheitsmaß dar, ein Maß für die Güte der Anpassung als das<br />
Verhältnis der Quadratsumme der erklärten Streuung und der Quadratsumme der<br />
gesamten Streuung. Die Werte liegen zwischen 0 und 1. Hat es den Wert 1, so<br />
liegen alle Beobachtungen auf einer Geraden und der Zusammenhang zwischen den<br />
beiden Variablen ist perfekt. Je kleiner R 2 ist, desto streuen die Punkte zufällig und<br />
desto schlechter ist die Anpassung der Geraden an die beobachteten Wertepaare.<br />
Die Quadratwurzel aus R 2 gibt die Korrelation zwischen beiden Variablen an.<br />
Seite - 53 -
Skript: Benutzung von SPSS<br />
11 Hinweis zum Begriff „Nichtparametrische Tests“<br />
Bei der Anwendung von SPSS zwecks Durchführung inferenzstatistischer Tests tritt<br />
der Begriff „nichtparametrische Tests“ auf.<br />
In der Literatur wird meistens nicht streng zwischen den Begriffen „Nichtparametrische<br />
Methoden“ und „Verteilungsfreie Methoden“ unterschieden:<br />
Ein „verteilungsfreies“ Verfahren basiert auf einer Statistik, deren Verteilung nicht von<br />
der Verteilung(sfunktion) der Grundgesamtheit abhängt, aus der die Stichprobe<br />
gezogen wurde, insbesondere auch von der Normalverteilung. Die Form der<br />
Verteilung in der Grundgesamtheit braucht bei solchen Methoden also nicht bekannt<br />
zu sein bzw. angenommen zu werden. In der Tat ist sie so gut wie nie bekannt.<br />
Der Begriff „nichtparametrisch“ bzw. „parameterfrei“ bezieht sich auf Verfahren, die<br />
keine Aussagen über einzelne Parameter der Grundgesamtheitsverteilung machen.<br />
Auch dieser Begriff bringt zum Ausdruck, daß die Kenntnis der diese Verteilung<br />
beschreibenden Maßzahlen nicht für die Anwendung der Methoden erforderlich ist.<br />
Zu vielen parametrischen Tests sind nichtparametrische Pendants entwickelt worden,<br />
z.B. zum t-Test der U-Test (Rangsummentest). Viele von Ihnen gehen dabei nur von<br />
Rang<strong>info</strong>rmationen in den Daten aus. Gegenüber den parametrischen Tests haben<br />
sie verschiedene Vor- und Nachteile. Ein Nachteil ist z.B. die meist geringere<br />
Teststärke. Ein großer Vorteil liegt jedoch darin, dass sie auch noch bei sehr kleinem<br />
N von Beobachtungsfällen anwendbar sind, da sie auch exakt prüfen können. Ihr<br />
Nachteil, dann sehr rechenaufwendig zu sein, trifft angesichts immer schneller<br />
rechnender Computer immer weniger zu. Die im Empiriepraktikum II oder in<br />
Diplomarbeiten erhobenen Stichproben sind meistens recht klein.<br />
Allerdings prüfen die in SPSS verfügbaren Prozeduren für nicht-parametrische Tests<br />
die Nullhypothese in der Grundversion von SPSS („Base-Modul“) in der Regel nicht<br />
exakt, sondern über approximative Verfahren, indem sie theoretische Verteilungen<br />
wie die Standardnormal- oder die X 2 -Verteilung anwenden, d.h. asymptotisch. Das<br />
bedeutet, dass die von SPSS ausgegebene „asymptotische Signifikanz“, die<br />
Überschreitungswahrscheinlichkeit p (auch Zufallswahrscheinlichkeit genannt,<br />
Irrtumswahrscheinlichkeit, Risiko I, Fehler I), auf der Basis der Annahme geschätzt<br />
werden, dass die Daten unter H 0 eine solche Verteilung bilden würden, wenn der<br />
Datensatz nur genügend groß sein würde. Nur in wenigen Fällen wird bei<br />
Verwendung des Basismoduls H 0 auch exakt getestet.<br />
Wenn kleine Stichprobenumfänge vorliegen, kann dieses Vorgehen bzw. diese<br />
Annahme jedoch recht problematisch sein, weil die angenommenen theoretischen<br />
Verteilungen dann nicht unerheblich von der exakten Stichprobenverteilung der<br />
Prüfgröße abweichen können. In der Tat kann dann die asymptotisch geschätzte<br />
Überschreitungswahrscheinlichkeit p eine ganz andere sein als die exakt berechnete.<br />
Bei kleinem N sollten daher nicht nur nichtparametrische Verfahren verwendet<br />
werden, sondern zusätzlich auch noch in ihrer exakten Form. Das ist mit dem SPSS-<br />
Zusatzmodul „Exakte Tests“ möglich. Ist dieses verfügbar, erscheint im Dialog die<br />
zusätzliche Wahlmöglichkeit (Button, Taste) „Exakte Tests“.<br />
Obwohl exakte p´s immer verläßlich sind, d.h. natürlich auch bei großen Stichproben<br />
gelten, kann es vorkommen, dass Datensätze zu groß sind, d.h. die Berechnung des<br />
exakten p´s an der verfügbaren Zeit oder an der Größe des Datenspeichers scheitert.<br />
Seite - 54 -
Skript: Benutzung von SPSS<br />
In dieser Situation kann das SPSS-Zusatzmodul auch die Monte-Carlo-Methode<br />
anwenden, die eine unvoreingenommene (unbiased) Schätzung des exakten p-<br />
Wertes darstellt. In der Praxis kommt diese Schätzung dem exakten p meistens recht<br />
nahe. Die Methode meint eine wiederholte Ziehung von Zufallsstichproben. Z.B. gibt<br />
es für eine beobachtete zweidimensionale Häufigkeitstabelle (Kreuztabelle) viele<br />
Tabellen, die die gleichen Randhäufigkeiten (geschätzte Randwahrscheinlichkeiten)<br />
aufweisen. Während im exakten Fall die Punktwahrscheinlichkeiten aller dieser<br />
Tabellen berechnet werden, was sehr aufwendig sein kann, und bestimmte dieser<br />
Punkt-p´s davon zur Überschreitungswahrscheinlichkeit p aufsummiert werden, zieht<br />
die Monte-Carlo-Methode nur Stichproben einer vorgegebenen Anzahl aus den<br />
insgesamt möglichen Tabellen.<br />
Möchte man eine Überschreitungswahrscheinlichkeit p exakt bestimmen und drückt<br />
man deshalb den Knopf „exakt“, so kann man danach wählen, ob sie nur exakt<br />
berechnet werden soll oder zusätzlich auch nach dem Monte-Carlo-Verfahren. Im<br />
Fall der exakten Berechnung ist ein Zeitbegrenzung anzugeben. Sollte diese erreicht<br />
werden, bricht SPSS ohne Ergebnis ab und geht zum nächsten Test über, falls noch<br />
einer weiterer berechnet werden soll. Im Monte-Carlo-Fall ist die Zahl der zu<br />
ziehenden Stichproben anzugeben. Statt der Voreinstellung von 10.000 kann hier<br />
meistens getrost auch 1.000.000 eingegeben werden. Des weiteren ist auch ein<br />
confidence-level zwischen 0,01 und 99,9 vorzugeben. Voreingestellt ist 99. SPSS<br />
wird dann zusätzlich zur Monte-Carlo-Schätzung der<br />
Überschreitungswahrscheinlichkeit p ausgeben, in welchem p-Bereich das wahre p<br />
gemäß der vorgegebenen Konfidenz liegen dürfte.<br />
Sollte zusätzlich zur von SPSS berechneten sog. „asymptotischen Signifikanz“, auch<br />
die „exakte Signifikanz“, d.h. die exakte Überschreitungswahrscheinlichkeit p<br />
berechnet werden, ist letztere natürlich immer als die verläßlichere zu wählen, d.h.<br />
mit der vorgegebenen Signifikanzgrenze, dem ? -Niveau, zu vergleichen zwecks<br />
Entscheidung, H 0 beizubehalten ( p > z.B. ????oder abzulehnen (p
Skript: Benutzung von SPSS<br />
Bortz, J., Lienert, G.A. & Boehnke, K. (1990). Verteilungsfreie Methoden in der<br />
Biostatistik. Berlin: Springer.<br />
Büning, H. & Trenkler, G. (1994 4 ). Nichtparametrische statistische Methoden. Berlin:<br />
De Gruyter.<br />
Bradley, J.V. (1968). Distribution-free statistical tests. Englewood Cliffs, New Jersey:<br />
Prentice-Hall, Inc.<br />
Siegel, S. (1997 4 ). Nichtparametrische statistische Methoden. Eschborn b.<br />
Frankfurt/M.: Klotz.<br />
12 Inferenzstatistik Häufigkeitstests<br />
12.1 Binomialtest, exakt und asymptotisch<br />
Es wird eine beobachtete mit einer erwarteten Verteilung von Alternativdaten<br />
verglichen. Genauer wird geprüft (H 0 ), ob eine Stichprobe von Alternativdaten, die x<br />
Fälle mit der einen Ausprägung und n-x Fälle mit der anderen Ausprägung enthält,<br />
einer Population angehört, von der die entsprechenden Prozentanteile π und 1-π<br />
bekannt sind, z.B. 0,3 und 0,7 (Ein-Stichproben-Test).<br />
Z.B. kann man sich fragen, ob in einer Bevölkerung, die in der Nähe eines<br />
Kernkraftwerkes wohnt, mit x in einem bestimmten Zeitraum beobachteten<br />
Leukämiefällen mehr Fälle auftreten als zur gleichen Zeit in der übrigen Bevölkerung<br />
(H 1 , einseitige Fragestellung). Um die Populationsverhältnisse zu kennen, müßte<br />
allerdings ein Krebsregister angelegt worden sein (In Deutschland wird erst ein<br />
solches angelegt. Ersatzweise behilft man sich z.Zt. mit dem z.B. von Dänemark.)<br />
Um die Fragestellung zu testen, bedient man sich der Summenfunktion der<br />
Binomialverteilung. Im vorliegenden Beispiel würde man fragen, wie wahrscheinlich<br />
es ist, daß x Fälle oder die noch extremeren Häufigkeiten x+1, x+2, ..., n zufällig<br />
auftreten (H 0 ), und alle diese Wahrscheinlichkeiten zur Irrtumswahrscheinlichkeit p<br />
addieren (exakter Test).<br />
H 0 : π 1 = π<br />
d. h. die Wahrscheinlichkeit π 1 für einen Leukämiefall in der Nähe des Kernkraftwerks<br />
ist gleich der Wahrscheinlichkeit in der übrigen Bevölkerung.<br />
H1: π 1 > π<br />
d.h. die Wahrscheinlichkeit π 1 ist größer als π, einseitige Fragestellung.<br />
Ehe wir die Nullhypothese testen, legen wir das Risiko I fest, das wir bei Annahme<br />
der Alternativhypothese eingehen wollen. (Im Kernkraftbeispiel ist H 1 eine<br />
schwerwiegende Aussage, so daß wir α niedrig ansetzen werden, z.B. α = 0,001.)<br />
Seite - 56 -
Skript: Benutzung von SPSS<br />
Analysieren fi Nichtparametrische Tests fi Binomial<br />
Es erscheint das folgende Dialogfeld:<br />
Abb. 55: Binomialtest<br />
Zunächst sind die Testvariablen einzugeben, für die jeweils ein Binomialtest<br />
durchgeführt werden soll. Besitzen diese Variablen mehr als zwei unterschiedliche<br />
Werte, so ist der Wert, an dem die Variablenwerte zu dichotomisieren sind, als<br />
"Trennwert" festzulegen. Alle Werte, die kleiner oder gleich diesem Trennwert sind,<br />
bilden die erste Gruppe, Werte darüber die zweite Gruppe. Bei a priori dichotomen<br />
Variablen ("aus den Daten") bildet der Wert die erste Gruppe, der in der Variablen als<br />
erstes eingegeben wurde, also der Wert des ersten Falls.<br />
In der Box "Testanteil" ist die Wahrscheinlichkeit p einzugeben, mit der der Wert, der<br />
die erste Gruppe bezeichnet, in der Grundgesamtheit auftritt. Es ist also entweder µ<br />
oder 1-µ einzugeben, je nachdem, welche Gruppe die erste ist. Die Voreinstellung ist<br />
p = 0.5, d.h. die Hypothese gleicher Prozentanteile beider Alternativen µ und 1-µ in<br />
der Grundgesamtheit. Es können Werte zwischen 0.001 und 0.999 eingegeben<br />
werden.<br />
Bis zu einem Stichprobenumfang von 25 (gültigen) Werten wird im Base-Modul ein<br />
exakter Binomialtest durchgeführt, danach erfolgt die Prüfung der Nullhypothese<br />
approximativ über die Standardnormalverteilung (z-Approximation). Liegt auch das<br />
Zusatzmodul „Exakte Tests“ vor, erkennbar an der Taste "exakt", ist aber auch bei<br />
noch viel größeren Stichprobenumfängen eine exakte Prüfung über die<br />
Binomialverteilung möglich. Dies sollte bis zu einem N von mindestens 50 immer<br />
geschehen, ebenfalls bei kleinerer Wahrscheinlichkeit der betrachteten Alternativen<br />
(π < = 0,1 bzw. π >= 0,9). Wenn neben der „Asymptotischen Signifikanz“ auch die<br />
„exakte Signifikanz“ berechnet wird, zeigen eventuelle Abweichungen der beiden<br />
Werte voneinander, dass die Annahme des Übergangs der Binomialverteilung zur<br />
Normalverteilung im aktuellen Fall noch nicht statthaft ist. Bei Abweichungen ist<br />
immer die exakt berechnete Signifikanz zu bevorzugen.<br />
Im Fall von p = 0,5 ist der Hypothesentest ungerichtet, bei p ≠ 0,5 werden einseitige<br />
Irrtumswahrscheinlichkeiten ausgegeben. Achtung: Im gerichteten (einseitigen) Fall<br />
Seite - 57 -
Skript: Benutzung von SPSS<br />
müssen (aufgrund des SPSS-Programms) Null- und Alternativhypothese im Hinblick<br />
auf die Kategorie formuliert werden, die in der Variable als erste auftritt, da es deren<br />
beobachteter Anteil ist, der mit dem in der Nullhypothese behaupteten verglichen<br />
wird.<br />
12.1.1 Einseitiger Test<br />
Sind z.B. in einem bestimmten Beobachtungszeitraum im näheren Areal eines<br />
Kernkraftwerkes von 7 Todesfällen 5 durch Krebs vorgekommen und nur 2 durch<br />
sonstige Todesursachen, so sind wir an der Beantwortung der Frage interessiert, "ob<br />
so viele Krebsfälle noch Zufall sind", genauer wie wahrscheinlich es ist, dass 5 oder<br />
6 oder 7 Fälle von Krebs zufällig vorkommen, wenn in ganz Deutschland Krebs mit<br />
einer Wahrscheinlichkeit von µ = 0,25 als Todesursache auftritt.<br />
Wir geben also unsere 7 Fälle als Datensatz ein, eine Variable/Spalte mit 7 Fällen.<br />
Dabei können wir "Krebstod" mit z.B. 1 kodieren und "Nichtkrebstod" mit 0, oder auch<br />
umgekehrt. Gleichgültig wie wir kodieren, unbedingt zu beachten ist, dass die<br />
Kodierung des ersten eingegebenen Falls die erste Gruppe bezeichnet, für die wir<br />
den „Testanteil“ eingegeben haben, also den entsprechenden Anteil in der<br />
Population. Wenn wir also als ersten Fall (in Zeile 1 der Datenmatrix) "Krebstod"<br />
kodiert eingegeben haben, müssen wir unter „Testanteil“ p = 0,25 eingeben, wenn in<br />
ganz Deutschland Krebs zu 25% die Todesursache ist. Wenn wir dagegen<br />
"Nichtkrebstod" als ersten Fall eingegeben haben, dann müssen wir 1 - 0,25 = 0,75<br />
eingeben.<br />
Gleichgültig welche diese beiden Möglichkeiten wir eingeben, wir erhalten immer das<br />
gleiche Ergebnis, nämlich die Überschreitungswahrscheinlichkeit P = 0,013 (bitte<br />
nachprüfen). Im ersten Fall addiert SPSS die Punktwahrscheinlichkeiten für 5, 6 und<br />
7 Fälle auf, es fragt also in die von uns gemeinte oder-noch-mehr-Richtung. Im<br />
zweiten Fall fragt es alternativ, wie zufallswahrscheinlich es ist, dass 7-5 =2 oder 1<br />
oder 0 Nichtkrebstode vorkommen, also in die oder-noch-weniger-Richtung. In<br />
beiden Fällen wird aber P = 0.012 + 0,001 + 0,000 gerechnet, also die<br />
entsprechenden Punktwahrscheinlichkeiten des rechten Astes der Binomialverteilung<br />
addiert:<br />
linker Ast<br />
rechter Ast<br />
Punktwahrscheinlichk.<br />
p<br />
0,13<br />
4<br />
0,31<br />
1<br />
0,31<br />
1<br />
0,17<br />
3<br />
0,05<br />
8<br />
0,01<br />
2<br />
0,00<br />
1<br />
0,00<br />
0<br />
N der Krebstode 0 1 2 3 4 5 6 7<br />
N der Nichtkrebstode 7 6 5 4 3 2 1 0<br />
Abb56.: Binomialverteilung des Zahlenbeispiels<br />
Zur Auffrischung des Verständnisses mit der Tabelle der Binomialverteilung in<br />
einem Statistikbuch vergleichen<br />
Zu beachten ist ferner, dass SPSS immer nur in Richtung eines Astes rechnet:<br />
SPSS addiert/fragt immer dann, wenn der beobachtete Anteil der ersten Gruppe<br />
größer als der vorgegebene Anteil ist, in die noch-mehr-Richtung, sonst in die nochweniger-Richtung.<br />
Es entscheidet also anhand dieses Kriteriums selbst, in welche<br />
Ast-Richtung es fragt. Die Überschreitungswahrscheinlichkeiten werden so meistens<br />
unter 0.5 bleiben, im konkreten Fall auch mal übersteigen. Wenn wir selbst dennoch<br />
anders fragen als SPSS, also inhaltlich bestimmt z.B. in die noch-mehr-Richtung<br />
fragen, obwohl der beobachtete Anteil kleiner als der vorgegebene Populationsanteil<br />
ist, bzw., wenn wir die Alternativ-Hypothese formuliert haben, in die noch-weniger-<br />
Richtung fragen, obwohl der beobachtete Anteil größer als der vorgegebene ist, dann<br />
Seite - 58 -
Skript: Benutzung von SPSS<br />
brauchen wir SPSS erst gar nicht rechnen zu lassen, denn das Ergebnis wird nicht<br />
signifikant werden.<br />
In unserem Beispiel addiert SPSS auch noch bei x = 2 Krebstodfällen in Richtung<br />
des rechten Astes auf (P = 0.555), weil der beobachtete Anteil noch größer als der<br />
vorgegebene ist. Bei x = 1 dagegen addiert es die Punktwahrscheinlichkeiten für die<br />
1 und 0 Krebstode auf (P = 0.445). Es fragt jetzt in die Gegenrichtung, nämlich wie<br />
wahrscheinlich es ist, das 1 Krebstod oder kein Krebstod auftritt, bzw. alternativ, wie<br />
wahrscheinlich es ist, dass 6 oder 7 Nichtkrebstodfälle vorkommen. War unsere<br />
Frage dennoch, wie wahrscheinlich es ist, dass 1 oder noch mehr Krebstode<br />
auftreten, dann können wir das mit SPSS jetzt nicht mehr direkt berechnen. Es wird<br />
aber eine Überschreitungswahrscheinlichkeit von P ≥ 0.5 sein. Wir können das<br />
anhand des SPSS-Ausdrucks sogar genau berechnen, weil nicht nur die<br />
Überschreitungswahrscheinlichkeit P = 0.445 jetzt zur nicht gewünschten Seite<br />
ausgegeben wird, sondern auch die Punktwahrscheinlichkeit p = 0,311 der<br />
beobachteten Zahl x = 1 Krebstode:<br />
P anderer Ast = 1 - P ausg. Ast + p ausg.<br />
da die Summe aller Punktwahrscheinlichkeiten gleich 1 ist. In unserem Beispiel mit x<br />
= 1 Krebstoden wäre also die Wahrscheinlichkeit von 1 oder noch mehr Krebstoden<br />
P = 1 - 0,445 + 0,311 = 0,886.<br />
Wichtig: Wie schon bei der Benutzung einer Binomialverteilungstabelle sollten wir<br />
uns vor der Anwendung eines Binomialtests mit der Formulierung von Hypothese<br />
und Alternativ-Hypothese ganz klar machen, in welche immer selbe Richtung unsere<br />
einseitige Fragestellung geht, gleichgültig ob wir die Hypothese so oder so<br />
formulieren, also hier nach der Zufallswahrscheinlichkeit der Krebstode oder<br />
alternativ der Nichtkrebstode fragen. (Bitte aber niemals die inhaltliche Alternativ-<br />
Hypothese mit der statistischen Gegenrichtung verwechseln.) Wenn es die Richtung<br />
ist, in die SPSS aufaddiert gemäß seines Vergleichs von beobachtetem und Testanteil,<br />
wird das von uns gewünschte Ergebnis berechnet. Wenn das nicht der Fall ist,<br />
erhalten wir zwar auch ein Ergebnis, es ist dann aber nicht das vor uns gemeinte,<br />
sondern das der Gegenrichtung, also ein falsches, und niemand warnt uns dann!<br />
Deshalb folgende Sicherungsregel: Wenn wir also oben nach der<br />
Zufallswahrscheinlichkeit für 5 oder noch-mehr-Krebstodfälle fragen und der<br />
beobachtete Anteil größer als der vorgegebene Pop-Anteil von 25% ist, also<br />
ebenfalls in unsere mehr-Fragerichtung deutet, dann wird das ausgegebene P richtig<br />
sein. Und wenn wir stattdessen alternativ nach der Zufallswahrscheinlichkeit für 2<br />
oder noch-weniger-Nichtkrebstodfälle fragen und der beobachtete Anteil kleiner als<br />
der vorgegebene von 75% ist, also in die noch-weniger-Richtung weist, wird das<br />
Ergebnis auch richtig sein. Wenn allerdings diese Und-Bedingung nicht stimmt, dann<br />
wird das ausgegebene P nicht das der gewünschten Richtung sein.<br />
12.1.2 Zweiseitiger Test<br />
Wir erkennen, dass die obige Binomial-Verteilung nicht symmetrisch ist. Das ist sie<br />
nur dann, wenn der Testanteil 0,5 beträgt, also µ = 1 - µ = 0,5. Wenn das der Fall ist,<br />
kann die einseitige Überschreitungswahrscheinlichkeit einfach verdoppelt werden,<br />
um die zweiseitige zu erhalten. Das tut SPSS dann auch. Allerdings berechnet es<br />
auch nur dann die zweiseitige.<br />
Wenn µ ≠ 1 - µ wie im obigen Beispiel, ist die Binomialverteilung asymmetrisch. Dann<br />
muss die zweiseitige Überschreitungswahrscheinlichkeit als Summe der rechten und<br />
linken kritischen Region berechnet werden. Dazu müssen wir bei SPSS die<br />
Seite - 59 -
Skript: Benutzung von SPSS<br />
Überschreitungswahrscheinlichkeiten beider Regionen getrennt berechnen und beide<br />
dann selbst addieren:<br />
Wenn wir im Beispiel nicht nur einseitig fragen, ob der Krebstod in der Gegend des<br />
Kernkraftwerks in übernormaler Häufung auftritt, sondern auch in unternormaler<br />
Häufung, dann haben wir bei x = 5 Krebstodfällen nicht nur zu fragen, wie<br />
wahrscheinlich es ist, dass 5 oder noch mehr Fälle zufällig auftreten (x ≥ 5), also 5<br />
oder 6 oder 7, sondern zusätzlich, wie wahrscheinlich es ist, dass 7-5 oder noch<br />
weniger Fälle zufällig auftreten (x ≤ 7-5), also 2 oder 1 oder 0 (vgl. obige Verteilung).<br />
(Achtung: Es sind jetzt die Krebstodfälle gemeint, und nicht die alternativen<br />
Nichtkrebstodfälle). Diese linke Überschreitungswahrscheinlichkeit können wir von<br />
SPSS nicht direkt berechnen lassen, da der Anteil von 2 Krebstodfällen an 7 Fällen<br />
noch größer als der vorgegebene Anteil von 25 % ist, SPSS also nicht zur<br />
gewünschten Seite rechnet, sondern noch zur Mehr-Seite. Wir müssen also<br />
hilfsweise in einer zweiten Rechnung nach der Überschreitungswahrscheinlichkeit für<br />
3 oder noch mehr Krebstoten fragen (in den Daten jetzt statt 5 nur drei Krebstode)<br />
und diese dann von 1 subtrahieren, da die Summe aller Punktwahrscheinlichkeiten 1<br />
ist. Im vorliegenden Fall ergibt sich eine Ü-Wahrscheinlichkeit für die gemeinte untere<br />
Region von P u = 1 - 0,244 = 0,756, und somit<br />
P 2-seitig = P o + P u = 0,013 + 0,756 = 0,769<br />
Dasselbe Ergebnis würden wir natürlich auch erhalten, wenn wir fragen würden, ob<br />
die Nichtkrebstode in über- oder unternormaler Häufung auftritt.<br />
Die andere Seite kann aber auch direkt berechenbar sein. Wenn wir statt von 7<br />
Beobachtungsfällen von z.B. 9 ausgehen und uns bei nur 1 Krebstodfall fragen (µ<br />
weiterhin 25%), ob das über- oder unternormal ist, dann wird SPSS automatisch<br />
fragen wie wahrscheinlich 1 oder kein Krebstod-Fall ist bzw. alternativ wie<br />
wahrscheinlich 8 oder 9 Nichtkrebstodfälle (1- µ = 0,75 eingeben) sind und als<br />
Antwort P = 0,30 berechnen. Wenn wir dann zusätzlich wissen wollen, wie<br />
wahrscheinlich 8 oder 9 Krebstodfälle sind und die Daten entsprechend verändern,<br />
dann wird SPSS auch das berechnen (P = 0,000), weil (zum Glück) der beobachtete<br />
Anteil mit 0,89 größer als der vorgegebene Anteil von 0,25 ist.<br />
Zugegeben: Im Falle eines Binomialtests mag es einfacher sein, mithilfe einer<br />
tabellierten Binomialverteilung zu testen als mithilfe von SPSS, insbesondere bei<br />
zweiseitiger Fragestellung.<br />
Leider steht die zweiseitige Testung in vielen Büchern gar nicht, unzulänglich oder<br />
sogar falsch drin. Das mit dem Kauf von SPSS mitgelieferte (dürftige) SPSS-<br />
Handbuch für die exakten Tests ist z.B. der Meinung, dass bei zweiseitiger Testung<br />
die einseitige einfach zu verdoppeln ist, obwohl das Programm selbst es dann doch<br />
zum Glück nur im Falle der Symmetrie tut.<br />
Meistens wird man einseitig testen wollen, beim Krebstod auch mal in die andere<br />
Richtung: So scheint es bestimmte kleinere Areale zu geben, wo er erheblich<br />
weniger auftritt als im ganzen Land. Auch dann ist, nachdem durch einen<br />
statistischen Test die Unwahrscheinlichkeit einer Zufallsschwankung festgestellt<br />
worden ist, die Forschung nach der Ursache hoch interessant, wie schon beim<br />
Kernkraftwerk.<br />
Nach diesem Einschub in das bisherige Papier jetzt seine Fortsetzung:<br />
Die unter Optionen anforderbaren Statistiken sind unsinnig. Man ...<br />
Zu guter Letzt:<br />
Es ist zum näheren Verständnis sinnvoll, Verteilungen von<br />
Punktwahrscheinlichkeiten auch im Falle des exakten Testens von 4-Felder-<br />
Häufigkeiten anzulegen (Tee-Beispiel), für alle überhaupt möglichen Verteilungen bei<br />
Seite - 60 -
Skript: Benutzung von SPSS<br />
festen Randsummen. Man kann dabei ebenfalls einen unteren Ast und einen oberen<br />
Ast der Verteilung erzeugen, so dass klar wird, die Punktwahrscheinlichkeiten<br />
welcher Tafeln in Richtung der gemeinten H 1 -Hypothese zur Ü-Wahrscheinlichkeit P<br />
aufzuaddieren sind; und auch, wie zweiseitig zu testen ist. Das ist alles ganz analog,<br />
und man sollte es übungshalber wirklich mal machen. SPSS berechnet ja die<br />
Punktwahrscheinlichkeit für jede konkret eingegebene Häufigkeitsmatrix, so dass die<br />
ganze Verteilung der Punktwahrscheinlichkeiten aufgestellt werden kann und sodann<br />
verschiedenste Überschreitungswahrscheinlichkeiten überprüft werden können.<br />
Die unter OPTIONEN anforderbaren Statistiken sind unsinnig. Man erhält hier u.a.<br />
Mittelwert und Standardabweichungen der Merkmalskodierungen (!). Die<br />
unterschiedlichen Möglichkeiten zur Behandlung fehlender Werte (missing data)<br />
können relevant werden, wenn mehr als eine Testvariable eingegeben wurde und<br />
fallweiser Ausschluß gewählt wird, so daß bei allen Binomialtests nur solche<br />
Personen berücksichtigt werden, die in keiner dieser Testvariablen einen fehlenden<br />
Wert aufweisen.<br />
12.2 Eindimensionaler C 2 -Test<br />
Mit diesem Test kann überprüft werden, ob die Häufigkeiten der Werte (Kategorien)<br />
einer Variablen vorgegebenen theoretisch erwarteten Häufigkeiten (der<br />
Grundgesamtheit) entsprechen.<br />
Es wird daran erinnert, daß die zur jeder Kategorie erwartete Häufigkeit<br />
mindestens 5 betragen sollte.<br />
Analysieren fi Nichtparametrische Tests fi Chi-Quadrat<br />
Es öffnet sich das folgende Dialogfeld:<br />
Abb. 57: Chi-Quadrat-Test<br />
Seite - 61 -
Skript: Benutzung von SPSS<br />
Testvariablen<br />
In dieses Feld können mehrere Variablen hinüber geschoben werden. Das ist jedoch<br />
nur dann sinnvoll, wenn allen diesen Variablen gleiche Erwartungshäufigkeiten<br />
zugewiesen werden sollen. Ist das nicht der Fall, müssen die Variablen durch<br />
wiederholtes Aufrufen der Prozedur einzeln untersucht werden.<br />
Erwarteter Bereich<br />
Aus den Daten: Damit werden die Häufigkeiten aller (gültigen) Werte der<br />
Testvariablen ausgezählt und mit den pro Kategorie eingegebenen Häufigkeiten<br />
verglichen. Dabei werden auch Dezimalzahlen ausgezählt, wenn die Variable solche<br />
aufweist. Zwischen Werten wie z.B. 6,92 und 6,93 wird also unterschieden.<br />
Angegebenen Bereich verwenden: Sollen für die ausgewählte Testvariable nicht<br />
alle Werte, sondern nur ein ausgewählter Wertebereich zugrunde gelegt werden, so<br />
ist der untere und obere Grenzwert (Minimum und Maximum) als ganzzahliger Wert<br />
einzutragen. Diese beiden Werte gehören zum Bereich. Diese Einstellung bewirkt,<br />
daß die Werte innerhalb des Bereichs zu ganzzahligen Werten zusammengefaßt<br />
werden, indem nur der ganzzahlige Teil einer Dezimalzahl berücksichtigt wird (keine<br />
Rundung). Die Werte 6,93 und 6,92 werden also als 6 interpretiert. Zudem werden<br />
auch solche ganzzahligen Werte berücksichtigt, die zwar im vorgegebenen<br />
Wertebereich enthalten sind, nicht aber in der Testvariablen vorkommen. Für diese<br />
Werte erhält man dann eine beobachtete Häufigkeit von 0. Wenn man also z.B. ein<br />
Minimum von –3 und ein Maximum von 2 angibt, werden die Häufigkeiten der Werte<br />
–3, -2, -1, 0, 1 und 2 betrachtet.<br />
Erwartete Werte<br />
Alle Kategorien gleich: Es wird angenommen, daß alle Werte (Kategorien) der<br />
Testvariablen in der Grundgesamtheit mit der gleichen Häufigkeit vorkommt. SPSS<br />
errechnet in diesem Fall die pro Kategorie gleiche erwartete Häufigkeit aus, indem es<br />
die Zahl der Fälle (Personen) durch die Anzahl der Kategorien der Variablen dividiert.<br />
Werte: Wenn die für die einzelnen Kategorien erwarteten Häufigkeiten verschieden<br />
sind, müssen diese Häufigkeiten einzeln eingeben werden, und zwar zuerst für den<br />
kleinsten in der Testvariablen vorkommenden Wert (Kategorie), dann weiter in<br />
aufsteigender Folge. Statt absoluter Häufigkeiten können auch Wahrscheinlichkeiten<br />
oder Prozentwerte eingegeben werden.<br />
Sollte ein bestimmter Wertebereich der Variablen festgelegt worden sein, muß für<br />
jeden ganzzahligen Wert des Bereiches eine erwartete Häufigkeit eingegeben<br />
werden, auch wenn einzelne Werte in der Variablen nicht vorkommen sollten.<br />
Optionen: Die hier anforderbaren Statistiken sind im Zusammenhang mit der<br />
Fragestellung, unter der der X 2 -Test angefordert wird, in der Regel nicht sinnvoll.<br />
Ausgabe: Die Interpretation der Ausgabe dürfte keine Schwierigkeiten bereiten.<br />
Zusatzmodul „Exakte Tests“<br />
Dies ist insbesondere von Interesse, wenn bei kleinen Stichprobenumfängen<br />
erwartete Häufigkeiten kleiner 5 auftreten. Der Aufruf des Moduls sorgt dann dafür,<br />
dass in der Ausgabe neben der „asymptotischen Signifikanz“ (asympotisch<br />
berechnete Überschreitungswahrscheinlichkeit p) zusätzlich die „exakte Signifikanz“<br />
ausgegeben wird; ferner die „Punkt-Wahrscheinlichkeit“, d.h. die Wahrscheinlichkeit<br />
dafür, dass die Verteilung der Anzahl der beobachteten Fälle auf die k Kategorien so<br />
wie beobachtet zufällig auftritt.<br />
Das exakte p wird, in Erweiterung der Binomialverteilung, rechentechnisch aufwendig<br />
über eine Multinomial- bzw. Polynomialverteilung berechnet (z.B. Bortz, Lienert &<br />
Boehnke 1990, S. 92).<br />
Seite - 62 -
Skript: Benutzung von SPSS<br />
12.3 Der C 2 -Test in zweidimensionalen Kreuztabellen<br />
Analysieren fi Deskriptive Statistiken fi Kreuztabellen fiStatistik: Chi-Quadrat<br />
Die Prozedur KREUZTABELLE beschränkt sich nicht darauf, die gemeinsame<br />
Häufigkeitsverteilung zweier Variablen in einer Tabelle der Größe k * m (k = Anzahl<br />
Zeilen, m = Anzahl Spalten) darzustellen. Sie bietet auch den Χ 2 -Test an, mit dem<br />
untersucht werden kann, ob ein wahrscheinlich überzufälliger Zusammenhang<br />
zwischen den beiden Variablen besteht, oder ob sie stochastisch unabhängig<br />
voneinander sind (Nullhypothese). Zur Berechnung von Zusammenhängen zwischen<br />
Variablen wird KREUZTABELLE insbesondere dann verwendet, wenn die zu<br />
untersuchenden Variablen auf Nominalskalenniveau liegen. Anderenfalls stehen<br />
höherwertige Tests zur Verfügung.<br />
Neben der Zusammenhangshypothese kann der Test auch zur Prüfung von<br />
Unterschieden verwendet werden (Unterschiedshypothese). In diesem Fall stehen in<br />
der einen Dimension nicht die k Ausprägungen eines Merkmals, sondern k<br />
unabhängige Stichproben, bei denen jeweils die m Ausprägungen eines in der<br />
anderen Dimension stehenden Merkmals ausgezählt wurden. Dann lautet die<br />
Nullhypothese, dass alle Stichproben aus einer Grundgesamtheit stammen, die pro<br />
Merkmals-Ausprägung i π i –Anteile aufweisen, d.h. die Annahme der Homogenität<br />
der Merkmalsanteile bei k unabhängigen Stichproben.<br />
Beiden Nullhypothesen liegen unterschiedliche Zufallsmodelle zugrunde. Bei der<br />
Zusammenhangshypothese geht es um eine bivariate Zufallsvariable, deren<br />
Realisierung an einer Stichprobe untersucht wird, und bei der<br />
Unterschiedshypothese um eine univariate Zufallsvariable, deren Realisierung an<br />
einer k unabhängigen Stichproben untersucht wird. Obwohl es also um zwei<br />
unterschiedliche Zufallsmodelle geht, führen die statistischen Tests beider<br />
Nullhypothesen zu identischen Formeln/Ergebnissen. Forschungslogisch<br />
(Versuchsplanung) sind die unterschiedlichen Ansätze jedoch bedeutsam.<br />
Erwartete Häufigkeiten Zellen à Häufigkeiten: erwartet<br />
Wenn z.B. im Falle der Zusammenhangshypothese beide Variablen stochastisch<br />
unabhängig voneinander verteilt sind (H 0 ), dürften die Verteilungen der einen<br />
Variablen innerhalb der verschiedenen Kategorien der anderen Variablen nicht<br />
wesentlich voneinander abweichen und müßten der Gesamtverteilung der Variablen<br />
entsprechen. Wenn z.B. die Variable „Geschlecht“ und die Variable „Brillenträger“<br />
unabhängig voneinander sind, dann müßten genauso viele Frauen wie Männer<br />
Brillenträger und Nicht-Brillenträger sein, d.h. das Verhältnis der Frauen und<br />
Männern in der Gesamtstichprobe müßte bei den Brillenträgern und Nicht-<br />
Brillenträgern in gleicher Weise vorkommen. Deshalb wird die unter der Annahme<br />
der Unabhängigkeit zweier Variablen in einer Zelle erwartete Häufigkeit so<br />
berechnet, daß die jeweiligen Randhäufigkeiten der beiden an der Zelle beteiligten<br />
Kategorien multipliziert werden und das Produkt durch das Gesamt-N dividiert wird.<br />
Betrachtet man die Randhäufigkeit einer Kategorie, so wird sie dadurch in dem<br />
Verhältnis auf die Kategorien der anderen Variablen aufgeteilt wie die Häufigkeiten<br />
diese Kategorien am Gesamt-N beteiligt sind.<br />
Die Randhäufigkeiten werden im Falle des Fehlens eigentlich zu benutzender<br />
Populationswahrscheinlichkeiten zu deren Schätzung benutzt.<br />
Seite - 63 -
Skript: Benutzung von SPSS<br />
Wenn nun die tatsächlich beobachteten Häufigkeiten deutlich von den erwarteten<br />
abweichen, kann dies darauf hindeuten, daß die Variablen möglicherweise nicht<br />
unabhängig voneinander sind. Bei der Berechnung des Χ 2 -Wertes werden die<br />
quadrierten Abweichungen durch die erwarteten Häufigkeiten dividiert. Die Summe<br />
dieser Quotienten bildet den Χ 2 -Wert. Durch das Quadrieren der Differenzen gehen<br />
positive und negative Abweichungen in gleicher Weise in das Maß ein und können<br />
sich nicht gegenseitig aufheben. Die Division durch die erwarteten Häufigkeiten ist<br />
notwendig, da sich sonst bei vielen Fällen auch mehr Abweichungen ergeben<br />
würden. Bei z.B. 1000 Fällen wird die Summe der quadrierten Abweichungen unter<br />
sonst gleichen Umständen größer sein als bei z.B. 100 Fällen.<br />
Je größer also die Abweichungen über alle Zellen sind, desto größer wird auch der<br />
Χ 2 -Wert ausfallen. Die Abweichungen in der betrachteten Stichprobe könnten jedoch<br />
zufälliger Natur sein. Die Χ 2 -Verteilung für jeweils eine bestimmte Anzahl von<br />
Freiheitsgraden (df = (k-1) *(m-1)) gibt an, mit welcher Wahrscheinlichkeit sich ein<br />
bestimmter Χ 2 -Wert auch dann zufällig ergeben kann, wenn die Variablen in der<br />
Grundgesamtheit unabhängig voneinander verteilt sind. Dabei gilt, daß bei<br />
gegebenem Zusammenhang zwischen den Variablen die Möglichkeit einer guten<br />
statistischen Absicherung des Ergebnisses mit wachsender Zellenzahl und damit<br />
größeren Freiheitsgraden abnimmt. Das Zusammenfassen einzelner Kategorien<br />
kann daher auch dann sinnvoll sein, wenn die erwarteten Häufigkeiten in den Zellen<br />
größer als 5 sind. Jedoch sollte andererseits die Tabellen mehr als 5 Zellen haben.<br />
Bei der Anwendung des asymptotischen Χ 2 - Tests sollte die erwartete Häufigkeit,<br />
also in jedem Feld der Kreuztabelle, mindestens 5 sein. Anderenfalls ist das<br />
Testergebnis nicht mehr zuverlässig. Zum Teil wird diese Forderung in der Literatur<br />
abgeschwächt formuliert. Es wird dann gefordert, daß mindestens 20 % der Felder<br />
eine erwartete Häufigkeit unter 5 haben dürfen. Bei der Berechnung des Χ 2 -Wertes<br />
wird von SPSS immer auf die kleinste in der Kreuztabelle vorkommende erwartete<br />
Häufigkeit aufmerksam gemacht. Auch gibt SPSS immer die Anzahl der Felder aus,<br />
in denen die erwartete Häufigkeit kleiner als 5 ist.<br />
Der Χ 2 -Test ist besonders bei Variablen auf Nominalskalenniveau geeignet. Zwar ist<br />
er auch bei höheren Skalenniveaus anwendbar, für diese stehen jedoch<br />
leistungsfähige Tests auf stochastische Unabhängigkeit zur Verfügung.<br />
Auch im Falle zweidimensionaler Kreuztabellen kann SPSS die<br />
Überschreitungswahrscheinlichkeit exakt berechnen. Dabei können drei exakte<br />
Verfahren angewendet werden, die asymptotisch alle der Χ 2 -Verteilung mit<br />
df = (k-1) * (m-1) folgen, d.h. asympotisch alle äquivalent sind.<br />
a) Im ersten Fall geht es um die exakte Berechnung der<br />
Überschreitungswahrscheinlichkeit p der für die beobachtete Kreuztabelle<br />
berechneten Pearson-Χ 2 –Testgröße. Es sind dazu alle Kreuztabellen zu<br />
erzeugen, die ebenfalls die Randsummen dieser Kreuztabelle aufweisen und die<br />
Punktwahrscheinlichkeiten jener Tabellen, die ein gleiches oder ein größeres<br />
(extremeres) Χ 2 als das der beobachteten Tabelle aufweisen, zu der<br />
Punktwahrscheinlichkeit der beobachteten Tabelle zu addieren. (Die Zahl solcher<br />
Tabellen kann in die Millionen und Milliarden gehen.) Die<br />
Seite - 64 -
Skript: Benutzung von SPSS<br />
Punktwahrscheinlichkeiten werden dabei durch einen hypergeometischen Ansatz<br />
bestimmt.<br />
b) Likelihood-ratio-Test<br />
c) Im dritten Fall wird der Freeman-Halton-Test (vgl. Lienert II) berechnet, der eine<br />
Erweiterung des im folgenden Abschnitt angesprochenen exakten 4-Felder-Tests<br />
von R.A. Fisher auf den Fall k > 2 und/oder m >2 darstellt. In SPSS wird er<br />
weiterhin "Fisher´s exakter Test" genannt, obwohl Fisher diese Erweiterung nicht<br />
selbst vorgenommen hat.<br />
Alle drei Verfahren prüfen die Nullhypothese (Zusammenhangshypothese)<br />
H 0 : π ij = π i * π j für alle (i,j)-Paare,<br />
die exakt berechneten p´s differieren jedoch geringfügig. Argumente, die einen der<br />
Tests hier besonders empfehlen würden, scheinen nicht vorzuliegen. Da im 2*2-Fall<br />
(vgl. nachfolgenden Abschnitt) es üblich ist, den exakten Test von Fisher zu nehmen,<br />
könnte man um der Einheitlichkeit willen bei größeren Kreuztabellen auch seine<br />
Erweiterung/Verallgemeinerung benutzen.<br />
12.4 Der spezielle Fall von 2*2-Kreuztabellen<br />
Der eben diskutierte allgemeine Χ 2 –Test kann, wie das obige Beispiel mit dem<br />
Brillenträgern schon andeutet, natürlich auch im Falle von K =2 und M =2<br />
angewendet werden. Es wird dann geprüft, ob die Verteilung einer dichotomen<br />
Variablen in zwei unabhängigen Stichproben signifikant verschieden ist bzw. ob<br />
zwischen zwei dichotomen Variablen ein signifikanter Zusammenhang besteht.<br />
Jedoch können sich insbesondere bei 2*2-Tabellen mit geringer Fallzahl<br />
Einschränkungen in der Zuverlässigkeit des Tests ergeben. Unabhängig davon<br />
berechnet SPSS neuerdings immer zusätzlich den exakten Test nach Fischer, denn<br />
er ist generell der genauere Test. Insbesondere kann er auch einseitig (extremere<br />
Verteilung nur zur jeweils einen Seite) angewendet werden.<br />
Für alle 2*2-Tabellen wird zum Χ 2 -Test noch die Yates´-Korektur angegeben. Sie<br />
besteht darin, daß bei der Berechnung des Χ 2 -Wertes vor dem Quadrieren die<br />
absoluten Abweichungen der beobachteten von den erwarteten Häufigkeiten um 0,5<br />
verringert werden. Dadurch ergibt sich ein kleinerer Χ 2 -Wert und somit ein<br />
konservativerer (d.h. zugunsten von H 0 ) arbeitender Test. Die Korrektur ist<br />
umstritten.<br />
Bei zwei dichotomen Variablen kann es sinnvoll sein, zusätzlich ein Maß für die<br />
Stärke des Zusammenhangs anzufordern. Das ist hier der Phi-Koeffizient, eine<br />
spezielle Formulierung der Produkt-Moment-Korrelation. Z.B. kann der Fisher-Test<br />
eine statistisch signifikante Beziehung zwischen beiden Variablen aufzeigen, die<br />
Stärke des Zusammenhangs jedoch gering sein, d.h. praktisch-inhaltlich<br />
bedeutungslos.<br />
12.5 Analyse von drei- oder höherdimensionalen Kreuztabellen<br />
Eine Erweiterung des zweidimensionalen Χ 2 -Tests auf weitere Dimensionen ist<br />
möglich, auch mit der Berechnung exakter Tests. SPSS berechnet solche<br />
Erweiterungen jedoch nicht.<br />
Seite - 65 -
Skript: Benutzung von SPSS<br />
Die Prozedur, höherdimensionale Kreuztabellen auszuzählen, z.B. eine<br />
dreidimensionale I*J*K-Tabelle, meint die Möglichkeit, für alle k Stufen des dritten<br />
Merkmals zweidimensionale I*J-Tabellen zu erstellen, oder für alle Kombinationen<br />
eines dritten und vierten Merkmals. Man erhält so die Möglichkeit, einen<br />
Zusammenhang zwischen zwei Variablen in Bezug auf die Stufen einer dritten<br />
Variablen oder noch weiterer einzelner Variablen oder von deren<br />
Stufenkombinationen zu betrachten; z.B. ob ein Zusammenhang zwischen zwei<br />
Variablen sowohl bei Frauen als auch bei Männern (Variable Geschlecht als dritte<br />
Variable) gegeben ist; denn es könnte sein, dass ein Zusammenhang ohne eine<br />
solche differenziertere Betrachtung nur mäßig vorhanden ist, aufgeschlüsselt nach<br />
den beiden Geschlechtern jedoch in dem einen Geschlecht stark und im anderen<br />
Geschlecht gar nicht nicht vorhanden ist, was eine völlig andere Information<br />
darstellen würde.<br />
Dritte, vierte ... Variablen werden über "Schicht" eingegeben. Wird links eine dritte<br />
Variable zur Auswahl angeklickt, so leuchtet "Schicht" auf, und die Variable kann als<br />
dritte eingegeben werden:<br />
a) Danach können auch weitere in diese 1. Schicht eingegeben werden. Alle diese<br />
Variablen sind dann dritte Variablen, d.h. Variablen einer dritten Dimension. Das<br />
heißt, dass die mit der eingebenen Zeilen- und Spaltenvariablen gemeinte<br />
Kreuztabelle auf die Stufen jeder einzelnen dieser dritten Variablen<br />
aufgeschlüsselt wird. Es ergeben sich so viele dreidimensionale Kreuztabellen<br />
wie dritte Variablen eingegeben werden, und so viele zweidimensionale (inklusive<br />
X 2 -Prüfung) wie die Summe der Stufen aller dritten Variablen beträgt.<br />
b) Wenn man dagegen auf die Taste "weiter" drückt, kann man eine weitere Schicht<br />
anlegen, also eine weitere Dimension. Dort kann man eine oder wiederum<br />
mehrere Variablen eingeben. Dann wird die gemeinte zweidimensionale<br />
Kreuztabelle nicht mehr auf den Stufen einzelner Variablen aufgeschlüsselt,<br />
sondern auf die Zweier-Stufenkombinationen der Variablen der dritten und vierten<br />
Dimension.<br />
13 Berechnung und Analyse von Korrelationen<br />
13.1 Produkt-Moment-Korrelation<br />
Analysieren fi Korrelation fi Bivariat<br />
Um die Stärke des Zusammenhangs zwischen zwei Variablen X und Y zu<br />
bestimmen, kann ein Korrelationskoeffizient r xy berechnet werden. Die Korrelation<br />
nach Pearson, auch Produkt-Moment-Korrelation genannt, versucht dabei, einen<br />
linearen Zusammenhang zu bestimmen und diesen in einer zwischen –1 und +1<br />
liegenden Maßzahl auszudrücken. Da die Korrelation auf die Entdeckung eines<br />
solchen Zusammenhangs aus ist, kann es sein, dass auch bei einem Pearson-<br />
Koeffizienten von Null dennoch ein totaler, jedoch eben nicht linearer<br />
Zusammenhang zwischen den beiden Variablen vorliegt.<br />
Gibt man mit dem obigen Aufruf mehrere Variablen ein, so wird jede Variable mit<br />
jeder anderen korreliert und das Ergebnis in Matrixform ausgegeben, bei vier<br />
Variablen z.B.<br />
Seite - 66 -
Skript: Benutzung von SPSS<br />
r 11 r 12 r 13 r 14<br />
r 21 r 22 r 23 r 24<br />
r 31 r 32 r 33 r 34<br />
r 41 r 42 r 43 r 44<br />
In dieser Matrix stehen in der Hauptdiagonalen, die von links oben nach rechts unten<br />
verläuft, die Autokorrelationen, d.h. die Korrelation jeder Variablen mit sich selbst.<br />
Diese ergeben natürlich jeweils r ii = 1.00. Oberhalb der Hauptdiagonalen steht das<br />
obere Dreieck, unterhalb das untere Dreieck. Die Dreiecke sind spiegelsymmetrisch<br />
gleich, d.h. r ij = r ji .<br />
Befolgt man obige Befehlskette, so öffnet sich folgender Dialog:<br />
Abb. 58: Das Fenster zur Berechnung bivariater Korrelationen<br />
Wir erkennen, dass Pearson schon voreingestellt ist, desgleichen eine zweiseitige<br />
Prüfung auf Signifikanz des jeweils berechneten Korrelationskoeffizienten.<br />
Sinnvoll läßt sich der Pearsonsche Korrelationskoeffizient nur berechnen, wenn<br />
beide Variablen mindestens Intervallskalenniveau aufweisen. Soll zudem die<br />
Signifikanzprüfung durchgeführt werden, ist erforderlich, dass die Variablen in der<br />
Grundgesamtheit zweidimensional normalverteilt sind.<br />
Für Variablen, die diese Voraussetzungen nicht erfüllen, aber mindestens<br />
Ordinalskalenniveau besitzen, stehen die beiden Rang-Korrelationskoeffizienten<br />
Kendall´s tau und Spearman´s rho zur Verfügung. Auch die Forderung der<br />
Normalverteilung in der Grundgesamtheit entfällt bei ihrer Berechnung.<br />
Der Signifikanztest für die Pearsonsche Korrelation lautet<br />
t =<br />
r * N − 2<br />
1 − r<br />
2<br />
Der Testwert ist bei Gültigkeit der Nullhypothese t-verteilt mit N-2 Freiheitsgraden. Er<br />
prüft, ob die empirisch ermittelte Korrelation r mit der Nullhypothese<br />
H 0 : r = 0<br />
zu vereinbaren ist. Die ausgedruckte Signifikanz p gibt die Wahrscheinlichkeit an, mit<br />
der sich in einer Stichprobe des vorliegenden Umfangs per Zufall auch dann ein<br />
Korrelationskoeffizient der beobachteten Größe ergeben kann, wenn in der<br />
Grundgesamtheit kein Zusammenhang zwischen den beiden Variablen besteht.<br />
Seite - 67 -
Skript: Benutzung von SPSS<br />
Wie wir sehen, hängt der Ausgang der Prüfung außer von der Größe der Korrelation<br />
vom N und damit von der Stichprobengröße ab.<br />
Mit dem Signifikanztest wird nur untersucht, ob überhaupt ein linearer<br />
Zusammenhang zwischen den Variablen besteht. Über die Stärke des<br />
Zusammenhangs wird nichts ausgesagt.<br />
Man kann wählen, ob für den Korrelationskoeffizienten das zwei- oder das einseitige<br />
Signifikanzniveau berechnet werden soll. Zweiseitig ist dann zu testen, wenn keine<br />
inhaltlich begründbare Hypothese über die Richtung des erwarteten<br />
Zusammenhangs vorliegt, wenn also nicht angenommen werden kann, dass die<br />
Korrelation positiv oder negativ sein wird. Einseitig ist entsprechend zu testen, wenn<br />
eine Erwartung in nur einer Richtung vorliegt. Prüft man z.B. in positiver Richtung,<br />
wird die Nullhypothese getestet, der Koeffizient in der Grundgesamtheit sei Null oder<br />
negativ.<br />
Unter OPTIONEN öffnet sich der folgende Dialog:<br />
Abb. 59: Bivariate Korrelationen: Optionen<br />
Hier ist die Behandlung fehlender Werte von Bedeutung. Es gibt zwei<br />
Behandlungsmöglichkeiten:<br />
a) Paarweiser Ausschluß: Hierbei werden die beiden jeweils zu korrelierenden<br />
Variablen (Spalten der Rohdatenmatrix) betrachtet und jeder Fall (Vp) gestrichen,<br />
der in wenigstens einer der beiden Variablen einen fehlenden Datenwert aufweist.<br />
Vorteil: pro Korrelation werden nur die Fälle gestrichen, die in den beiden jeweils<br />
zu korrelierenden Variablen fehlende Werte aufweisen.<br />
Nachteil: die verschiedenen Korrelationen können auf einem unterschiedlichen N<br />
(Zahl der Fälle) basieren. Deshalb sollte dieses Verfahren nicht angewandt<br />
werden, wenn die Korrelationsmatrix weiter verrechnet werden soll, z.B. in einer<br />
Regressionsanalyse.<br />
b) Fallweiser Auschluß: Hier wird jeder Fall gestrichen, der in mindestens einer der<br />
zu korrelierenden Variablen einen fehlenden Wert aufweist.<br />
Vorteil: Alle Korrelationskoeffizienten basieren auf demselben N.<br />
Nachteil: Die Zahl der Fälle kann sich u.U. erheblich reduzieren.<br />
13.2 Partial-Korrelation<br />
Analysieren fi Korrelation fi Partiell<br />
Die Feststellung eines linearen Zusammenhangs zwischen zwei Variablen scheint<br />
einfach zu sein: Man muß nur einen Korrelationskoeffizienten berechnen. Liegt dann<br />
z.B. ein hoher Zusammenhang vor, kann seine Interpretation allerdings leicht zu<br />
Seite - 68 -
Skript: Benutzung von SPSS<br />
falschen Schlußfolgerungen führen; denn die Stärke des Zusammenhangs zwischen<br />
den beiden Variablen wird möglicherweise durch den Koeffizienten nicht richtig<br />
abgebildet, und zwar dann nicht, wenn diese Korrelation durch den Einfluß weiterer<br />
Variablen auf beide Variablen zustande gekommen ist („Scheinkorrelation“).<br />
Korreliert man z.B. die Länge des großen Zehs mit der Intelligenz während der<br />
Wachstums von Kindern, so kann man feststellen, wenn auch etwas verwundert,<br />
dass die Länge mit der Intelligenz korreliert. Berücksichtigt man dagegen das Alter<br />
als Kontrollvariable und eliminiert man den Einfluß dieser Variablen auf beide<br />
Variablen, so korreliert die Länge des großen Zehs nicht mit der Intelligenz.<br />
Soll der lineare Zusammenhang zwischen den Variablen X und Y unter<br />
Berücksichtigung der Kontrollvariablen K bestimmt werden, so schätzt man zunächst<br />
zwei lineare Regressionen, wobei die eine die Variable X und die andere die Variable<br />
Y durch die unabhängige Variable K zu erklären versucht. Danach wird der partielle<br />
Korrelationskoeffizient als Pearsonscher Korrelationskoeffizient aus den Residuen<br />
der beiden Regressionsschätzungen bestimmt. Entsprechendes geschieht bei mehr<br />
als einer Kontrollvariablen.<br />
Mit dem obigen Prozedur-Aufruf lassen sich Partial-Korrelationskoeffizienten erster,<br />
zweiter, ... n-ter Ordnung r xy.i,j,k, ... berechnen, je nach Anzahl der Kontrollvariablen.<br />
Die Ausgabe der Interkorrelationen erfolgt in Matrixform. Abb. 59 zeigt das<br />
Dialogfenster, das sich nach obiger Befehlskette öffnet.<br />
Abb. 60: Partielle Korrelationen<br />
Im oberen Teil sind aus der Liste der Variablen die auszuwählen, die miteinander<br />
korreliert werden sollen. Im unteren Teil sind die Variablen auszuwählen, deren<br />
Einfluß aus den zu korrelierenden Variablen zuvor herauspartialisiert werden soll.<br />
Der unter OPTIONEN aufrufbare Dialog ist schon bekannt. Er entspricht den<br />
OPTIONEN bei der Berechnung bivariater Korrelationen.<br />
Im Output werden zunächst auch die Korrelationen nullter Ordnung aller Variablen<br />
ausgegeben, die „einfachen“ Pearsonschen Koeffizienten, also ohne<br />
Berücksichtigung der Einflüsse der Kontrollvariablen.<br />
Bei der Berechnung von Partial-Koeffizienten sollte nicht „auf gut Glück“<br />
herumprobierend der Einfluß weiterer Variablen auf einen beobachteten Korrelationskoeffizienten<br />
untersucht werden. Vielmehr sollte vorher eine Theorie über mögliche<br />
Zusammenhänge entworfen und diese dann durch die Berechnung gezielter Partial-<br />
Korrelationen empirisch überprüft werden. Rein formal „entdeckte“ Einflüsse hätte<br />
Seite - 69 -
Skript: Benutzung von SPSS<br />
man sowieso im nachhinein inhaltlich-theoretisch zu erklären, z.B. den des Alters auf<br />
die Korrelation von großem Zeh und Intelligenz eben dadurch, dass in einem<br />
bestimmten Alter sowohl der Zeh als auch die Intelligenz noch wächst.<br />
13.3 Multiple Korrelation und Regression<br />
Analysieren fi Regression fi Linear<br />
Diese Prozedur ermöglicht die Berechnung einfacher und multipler linearer<br />
Regressionsverfahren und die Berechnung der entsprechenden multiplen<br />
Korrelationen.<br />
13.3.1 Schätzung einer einfachen Regressionsgleichung<br />
Nach obiger Befehlskette öffnet sich folgendes Dialogfenster:<br />
Abb. 61: Lineare Regression<br />
Zur Schätzung einer einfachen linearen Regression<br />
Y´ = b 1 X + b 0<br />
ist aus der Liste der Variablen zunächst die abhängige Variable (AV) auszuwählen.<br />
Diese wird auch Kriteriumsvariable genannt und wird meistens mit dem Buchstaben<br />
Y bezeichnet. Danach ist die unabhängige Variable (UV) einzugeben, auch Prädiktor<br />
genannt, und meistens mit dem Buchstaben X bezeichnet. Liegen fehlende Werte<br />
vor, so ist es bei zwei Variablen egal, ob über den Schalter OPTIONEN die<br />
Möglichkeit des paarweisen oder des fallweisen Ausschlusses gewählt wird. Bei<br />
mehr als einem Prädiktor, also bei drei oder mehr aus den Variablen der Datenmatrix<br />
ausgewählten Variablen, das ist der Fall der Multiplen Regression, sollte jedoch der<br />
fallweise Ausschluß gewählt werden, um Korrelationen zu erzeugen, die alle auf<br />
demselben N basieren.<br />
Das Ziel einer (zunächst) einfachen Regression ist es, die Gleichung Y´ = b 1 X + b 0<br />
anhand einer (Eich-)Stichprobe zu schätzen, also den Steigungskoeffizienten b 1 und<br />
der Achsenabschnitt bzw. die Konstante b 0 , um, falls sich Y aus X „gut“ vorhersaläßt,<br />
zukünftig für weitere Fälle, deren X-Meßwerte wir kennen, den zugehörigen Y´-Wert<br />
vorhersagen zu können.<br />
Seite - 70 -
Skript: Benutzung von SPSS<br />
In ein Koordinatensystem mit X auf der Abszisse und Y auf der Ordinate können wir<br />
die beobachteten Fälle eintragen und erhalten ein Streudiagramm. Gesucht ist jene<br />
Gerade Y´, die den mehr weniger erkennbaren Zusammenhang zwischen X und Y<br />
möglichst gut beschreibt. Gewählt wird als "am besten angepasste" jene, bei der die<br />
Summe der quadrierten (senkrechten) Abstände e der Punkte (Fälle) von ihr ein<br />
Minimum ergibt: Se 2 = S (Y-Y´) 2 Minimum = Regressionskriterium. Dieses Kriterium<br />
legt die Steigung der gesuchten Gerade fest. Der Steigungskoeffizient b 1<br />
(Regressionskoeffizient) wird dann durch<br />
b 1 =<br />
Ko var ianz(<br />
X , Y )<br />
Varianz(<br />
X )<br />
bestimmt.<br />
Danach wird der Achsenabschnitt b 0 festgelegt, indem in die Geradengleichung die<br />
Mittelwerte beider Variablen eingesetzt werden<br />
b 0 =<br />
Y − b*<br />
X<br />
Das bedeutet zum einen, dass e i im Durchschnitt Null sein wird, sich also die<br />
positiven und negativen Abstände der Streuungspunkte von Y´ aufheben werden,<br />
zum anderen, dass die Gerade durch den Punkt läuft, der von den Mittelwerten der<br />
Variablen X und Y gebildet wird, so dass auch, setzt man den Mittelwert X in die<br />
Gleichung ein, der Mittelwert Y vorhergesagt wird.<br />
Für die Beschreibung des Zusammenhangs bedeutsam ist aber vor allem das<br />
Steigungsmaß b 1 . Es gibt an, um wie viele Einheiten sich die AV verändert, wenn<br />
sich die UV um eine Einheit ändert.<br />
13.3.2 Erläuterung des Ergebnisteils von SPSS<br />
13.3.2.1 Multiple Korrelation R<br />
Betrachten wir die Sequenz der von SPSS ausgegebenen Ergebnisse, so interessiert<br />
noch nicht die gemäß eben erläuterter Definition geschätzte Regressionsgleichung,<br />
sondern zunächst, ob überhaupt ein Zusammenhang vorhanden ist. Dieser wird<br />
durch die „Multiple Korrelation R“ ausgedrückt. Sie gibt den Grad der linearen<br />
Korrelation (Stärke des Zusammenhangs) zwischen der abhängigen Variable Y und<br />
der vorhergesagten (aus X geschätzten) Variable Y´ an: R = r YY´ , ein Maß für die<br />
Güte der Anpassung der Regressionsgeraden Y´ an die Streuungspunkte.<br />
R 2 wird dabei häufig als Bestimmtheitsmaß oder Fit der Regressionsgleichung<br />
bezeichnet. Dabei wird davon ausgegangen, dass die gesamte Streuung von Y<br />
(Total Sum of Squares TSS), in zwei Anteile zerlegbar ist, in die durch Y´ erklärte<br />
Streuung (Explained Sum of Squares ESS) und in die nicht erklärte Reststreuung<br />
(Residual Sum of Squares RSS):<br />
TSS = ESS + RSS<br />
R 2 stellt dabei das Verhältnis von ESS und TSS dar,<br />
R 2 ESS<br />
= TSS<br />
also den Anteil der erklärten Streuung an der gesamten Streuung. Seine Werte<br />
liegen zwischen 0 und 1, weil weder ESS noch TSS (als Summe quadrierter Werte)<br />
negativ sein können, so dass R 2 immer positiv ist. Und da ESS immer nur ein Teil<br />
Seite - 71 -
Skript: Benutzung von SPSS<br />
von TSS ist, kann der Zähler nicht größer werden als der Nenner, so dass R 2 nicht<br />
größer als 1 werden kann. Sollte R 2 den Wert 1 erhalten, würde die gesamte<br />
Streuung erklärt werden und alle beobachteten Werte auf einer Geraden liegen. Je<br />
kleiner andererseits R 2 wird, desto schlechter ist die Anpassung der<br />
Regressionsgeraden Y´ an die beobachteten Werte (Streuungspunkte).<br />
13.3.2.2 Standardfehler des Schätzers<br />
Zwar werden die Schätzungen der Y-Werte durch die Y´-Werte zwar im Durchschnitt<br />
richtig sein, jedoch im konkreten Fall den Y-Werte mehr oder weniger über- oder<br />
unterschätzen. Von der Abweichung Y-Y (Streuung der Variablen Y) wird je nach<br />
Höhe von R 2 immer nur ein Anteil vorhergesagt/erklärt, nämlich der Anteil Y´-Y ,<br />
während der Anteil e = Y-Y´ unerklärt bleibt. Wenn wir Σe 2 durch N dividieren, um<br />
den Einfluß der Stichprobengröße vom gesuchten Maß für diese Fehlerstreuung<br />
auszuschalten, und uns erinnern, dass der Mittelwert aller Residuen gleich Null ist,<br />
so erhalten wir<br />
∑e 2 i<br />
=<br />
N<br />
∑<br />
∑<br />
2<br />
2<br />
( ei<br />
− e)<br />
( ei<br />
− 0)<br />
=<br />
N N<br />
und wir erkennen, dass es um die Varianz der Residuen geht.<br />
Aus verschiedenen hier nicht auszuführenden Gründen wird die Summe der<br />
quadrierten Residuen jedoch nicht durch N, sondern N-k dividiert, d.h. abzüglich der<br />
Zahl der erklärenden Variablen, wobei der Achsenabschnitt b 0 mitzählt, bei der<br />
einfachen Regression also k = 2 ist. Wenn man ferner die Wurzel zieht, ergibt sich<br />
ein Wert, der als Standardfehler der Schätzung bezeichnet wird:<br />
Standardfehler der Schätzung =<br />
∑e 2<br />
i<br />
N − k<br />
Er dient als Maß dafür, wie dicht die prognostizierten Werte an den beobachteten<br />
Werten liegen. Er hat damit eine ähnliche Bedeutung wie R 2 .<br />
13.3.2.3 ANOVA<br />
Sodann folgt im Output eine ANalysis Of VAriance, d.h. ein F-Test, der prüft, ob der<br />
durch Y´aufgeklärte Varianzanteil ESS statistisch bedeutsam vom nichterklärten<br />
Varianzanteil RSS = Σe 2 verschieden ist. Die Quadratsumme ESS wird in der Zeile<br />
"Regression" ausgegeben, die Quadratsumme RSS in der Zeile "Residuen".<br />
Dividiert man jeweils durch die zugehörigen Freiheitsgrade, so erhält die zugehörigen<br />
Varianzen bzw. "Mittel der Quadrate". Die F-Wert ergibt sich, indem man die so<br />
berechnete erklärte Varianz durch die nichterklärte oder Fehlervarianz (als die<br />
kleinere) dividiert. Den F-Wert könnte man in einer F-Wert-Verteilungstabelle mit df 1<br />
= k-1 = 2-1 und df 2 = N-k auf Signifikanz überprüfen. SPSS nimmt uns das jedoch ab,<br />
indem es bei gegebenen F-Wert und Freiheitsgeraden unter "Signifikanz" direkt die<br />
zugehörige Überschreitungs-(Irrtums-)Wahrscheinlichkeit p ausgibt, also die<br />
Wahrscheinlichkeit dafür, dass ein solcher Varianzen-Quotient oder ein noch<br />
extremerer noch zufällig vorkommen kann. Ob wir das p dann als "signifikant"<br />
akzeptieren, also H 0 nicht mehr beibehalten wollen, entscheidet erst der Vergleich<br />
mit dem zuvor festgelegten α-Niveau.<br />
Seite - 72 -
Skript: Benutzung von SPSS<br />
13.3.2.4 Koeffizienten der Regressionsgleichung<br />
Nun endlich kommen wir zur von SPSS geschätzten Regressionsgleichung, also zur<br />
Steigung b 1 und zur Konstante b 0 . Beide stehen unter B, und wir können nunmehr die<br />
Regressionsgleichung Y´ = b 1 X + b 0 aufstellen.<br />
Diese Gleichung ist die sog. "Rohwertformel". Eingesetzt werden als X-Werte die<br />
Rohwerte, geschätzt werden mit Y´ Y-Rohwerte. Stattdessen kann man auch eine<br />
standardisierte Formel aufstellen. Dazu dient der standardisierte<br />
Regressionskoeffizient „Beta“ (β 1 analog zu b 1 ), der unter der Voraussetzung<br />
errechnet wird, dass X und Y standardisiert sind. Wegen cov xy = r XY und s x = s y =1<br />
und b 0 = 0 ergibt sich dann<br />
z Y´ = b 1 * z X<br />
und es werden aus standardisierten Werten z X standardisierte Werte z Y´<br />
vorhergesagt.<br />
Beta wird auch Standardpartial-Regressionskoeffzient genannt.<br />
Zusätzlich ist noch eine Signifikanzprüfung des Regressionskoeffizienten b 1 möglich.<br />
Zu seiner Bewertung werden nämlich noch folgende Größen ausgegeben:<br />
Standardfehler von B („SE b 1 “), der für den Fall, dass der errechnete Regressionskoeffizient<br />
als Realisation einer Zufallsvariablen aufgefaßt werden kann, eine<br />
Schätzung für die Standardabweichung dieser Zufallsvariablen darstellt. Wir müssen<br />
uns nämlich vor Augen halten, dass die Schätzung nur auf einer Stichprobe beruht.<br />
Würden wir weitere Stichproben ziehen, würden sich sehr wahrscheinlich andere<br />
Regressionskoeffizienten ergeben, die alle mehr oder weniger vom "wahren"<br />
Koeffizienten abweichen würden. Die Schätzung für das Maß der Stärke dieser<br />
Streuung um diesen Populationsparameter lautet<br />
Var (b 1 ) =<br />
Var(<br />
e)<br />
Var(<br />
X )* N<br />
die Quadratwurzel daraus ist der Standardfehler des Regressionskoeffizienten<br />
SE(b 1 ) = Var b )<br />
( 1<br />
Nunmehr ist ein t-Test möglich, um einen Schluß auf die ungefähre Lage des<br />
"wahren" Koeffizienten zu ziehen:<br />
t =<br />
b1<br />
− β1<br />
SE( b 1<br />
)<br />
wobei t einer t-Verteilung mit n-k Freiheitsgraden folgt. Bei N > 30 nähert sich die t-<br />
Verteilung der Standardnormalverteilung an (t → z). (Der griechische Buchstabe b<br />
zur Kennzeichnung des gemeinten Populationsparameters sollte nicht mit dem<br />
obigen standardisierten Regressionskoeffizienten Beta verwechselt werden.)<br />
Möchte man z.B. H 0 testen, dass in der Grundgesamtheit kein linearer<br />
Zusammenhang zwischen X und Y besteht, so setzt man β 1 = 0 und rechnet<br />
t =<br />
b − 0<br />
1<br />
SE(<br />
b )<br />
1<br />
Seite - 73 -
Skript: Benutzung von SPSS<br />
Um diese Nullhypothese z.B. auf dem Niveau einer Irrtumswahrscheinlichkeit von 5%<br />
zweiseitig zu prüfen, muß man den entsprechenden kritischen t- bzw. z-Wert kennen,<br />
z.B. z = 1,96 auf dem 5%-Niveau. Ist der empirische t- bzw. z-Wert gleich oder<br />
größer als der kritische t- bzw. z-Wert, behalten wir die Nullhypothese nicht mehr bei.<br />
Es ist dieser t-Wert, der die Nullhypothese testet, der von SPSS ausgegeben wird,<br />
und zwar sowohl für b 1 als auch für die Konstante b 0 , und zwar gleich mit der<br />
zugehörigen Irrtumswahrscheinlichkeit („Signifikanz“) p, so dass dieser Wert direkt<br />
mit dem vorher definierten Alpha-Niveau (Risiko) verglichen werden kann.<br />
Obige t-Gleichung ist nicht nur zur Testung der Nullhypothese gut. Man kann sich<br />
z.B. auch fragen, ob der empirisch bestimmte b-Wert kleiner einen „wahren“<br />
vorgegebenen β-Wert ist (Nullhypothese) bzw. >= diesem Wert ist<br />
(Gegenhypothese), z.B. für β 1 = 0,4. So gefragt würden wir einseitig fragen und der<br />
entsprechende z-Wert würde im Falle von 5% bei z = 1.65 liegen. Liegt der<br />
errechnete t- bzw. z-Wert auf oder über diesem kritischen Wert, ist die<br />
Nullhypothese, β 1 sei kleiner als 0,4, mit einer Irrtumswahrscheinlichkeit von 5%<br />
zurückzuweisen.<br />
Mit dem verfolgten Ansatz kann man schließlich auch einen Wertebereich<br />
(Konfidenzintervall) definieren, in dem der wahre Koeffizient β mit einer bestimmten<br />
Wahrscheinlichkeit liegen muß:<br />
b ± t-Wert * SE (b)<br />
wobei wir als kritischen t- bzw. z-Wert den zweiseitigen eines bestimmten Niveaus<br />
nehmen, z.B. auf dem 5%-Niveau bei großen Stichproben z = 1,96, auf dem 1%-<br />
Niveau z = 2,58.<br />
Die Grenzwerte für das 95%-Konfidenzintervall kann man sich auch von SPSS<br />
ausgeben lassen. Dazu drückt man im Dialogfeld auf die Taste „Statistik“ und<br />
danach in der erscheinenden Unterdialogtafel die Taste „Konfidenzintervalle“. Ein<br />
anderes %-Intervall läßt sich (zwar) nicht anklicken. Eine Berechnung ist dennoch<br />
möglich, wenn man die noch zu erlernende „Syntax“ verwendet.<br />
13.3.2.5 Vorhersagen mithilfe der Regressionsgleichung<br />
Wie oben bereits erwähnt, besteht ein Hauptzweck der Berechnung einer<br />
Regressionsgleichung anhand einer (Eich-)Stichprobe darin, für weitere, über diese<br />
Stichprobe hinaus auftretende Fälle den Wert Y´ aus der Kenntnis des Wertes X<br />
vorherzusagen, z.B. aus einem Eingangstest zu Beginn eines Lehrgangs bereits den<br />
Meßwert des Lehrgangsergebnisses, den eine bestimmte Person wahrscheinlich<br />
erhalten wird. Das geschieht dann in der Regel nicht aus Neugierde, sondern um<br />
gleich solche Personen vom (teuren) Lehrgang auszuschließen, die gemäß der<br />
Vorhersage das Lehrgangsziel wahrscheinlich nicht erreichen werden.<br />
Das alles geht natürlich nur unter der Annahme, dass der anhand der Stichprobe<br />
errechnete Regressionszusammenhang auch für die weiteren Fälle gilt, die „Eichung“<br />
also anhand einer „repräsentativen“ Stichprobe stattgefunden hat. Dennoch werden<br />
wir grundsätzlich dem Stichprobenfehler ausgesetzt sein.<br />
Auch wissen wir, dass wir keinen deterministischen Zusammenhang zwischen dem<br />
Prädiktor X und der Kriteriumsvariablen Y berechnet haben. Die tatsächlichen Y-<br />
Werte der Stichprobe liegen mehr oder weniger verstreut über- und unterhalb der<br />
Regressionsgeraden. Ebenso werden die Werte weiterer Fälle streuen, so dass der<br />
geschätzte Wert Y´ nur ein Hinweis auf die Größe des zu erwartenden Y-Wertes<br />
Seite - 74 -
Skript: Benutzung von SPSS<br />
darstellt. Deshalb wird nicht einfach nur der prognostizierte Y´-Wert zur Entscheidung<br />
herangezogen, ob z.B. eine Person am Lehrgangs teilnehmen soll oder nicht,<br />
sondern ein Wertebereich (Intervall), indem der „wahre“ Y-Wert bei bereits<br />
gegebenem X-Wert mit einer bestimmten Wahrscheinlichkeit liegen wird. Zur<br />
Berechnung dieses Bereiches kann man im Falle der einfachen linearen Regression<br />
die folgende Formel verwenden:<br />
b 0 + b 1 * X 0 ± t-Wert * Var (e)<br />
*<br />
2<br />
1 ( X − X )<br />
1+<br />
+<br />
N Var(<br />
X) *( N −1)<br />
Einzusetzen ist der t- bzw. z-Wert des gewünschten Signifikanzniveaus, für den<br />
zweiseitigen Test.<br />
X 0 ist der Wert des Prädiktors, für den der zugehörige Wert von Y prognostiziert<br />
werden soll.<br />
Diese Formel ist nicht ohne weiteres auf die unten betrachtete Multiple Regression<br />
(mehr als einen Prädiktor) übertragbar. Dazu sind Kenntnisse der Matrizenrechnung<br />
notwendig.<br />
13.3.3 Zeichnung der Regressionsgeraden<br />
Graphiken fi Streudiagramm fi Einfach fi Definieren<br />
Folgt man diesem Pfad, so wird das Dialogfeld „Einfaches Streudiagramm“<br />
aufgerufen.<br />
Abb. 62: Einfaches Streudiagramm<br />
Hier wählen wir die UV X und die AV Y aus bei gleichnamiger Achsenbezeichnung.<br />
Nach der Betätigung des Buttons OK erscheint ein Streudiagramm, das uns den<br />
Zusammenhang zwischen X und Y zeichnerisch anhand der Fälle darstellt.<br />
Seite - 75 -
Skript: Benutzung von SPSS<br />
120<br />
110<br />
100<br />
90<br />
Belastungspuls der VP<br />
80<br />
70<br />
60<br />
60<br />
70<br />
80<br />
90<br />
Puls der VP ohne Belastung<br />
Abb. 63: Streudiagramm<br />
Wenn man ein Diagramm erstellt hat, kann man dies mithilfe des Graphik-Editors in<br />
verschiedener Weise bearbeiten. Um die Regressionsgerade in diese Punktwolke<br />
hineinzulegen, klicken wir zweimal auf die Graphik. Darauf erscheint das folgende<br />
Dialogfeld:<br />
Abb. 64: Optionen für Streudiagramme<br />
Hier klicken wir die Taste „Gesamt“ an, worauf unmittelbar darunter die Taste<br />
„Anpassungs-Optionen“ erscheint. Wenn wir sie betätigen, eröffnet sich das folgende<br />
Dialogfeld:<br />
Abb. 65: Optionen für Streudiagramm: Anpassungslinie<br />
Hier wählen wir die „Lineare Regression“ aus, evtl. greifen wir auch noch weitere<br />
Möglichkeiten auf. Drücken wir auf „Weiter“ und danach auf OK, so erscheint die<br />
folgende Graphik:<br />
Seite - 76 -
Skript: Benutzung von SPSS<br />
90<br />
80<br />
Puls der VP ohne Belastung<br />
70<br />
60<br />
60<br />
70<br />
80<br />
90<br />
100<br />
110<br />
120<br />
Belastungspuls der VP<br />
Abb. 66: Streudiagramm mit der Regressionsgeraden<br />
Die Stärke des durch das Streudiagramm gezeichneten und als linear<br />
angenommenen Zusammenhangs wird durch den Produkt-Moment-<br />
Korrelationskoeffizienten berechnet. Er beschreibt die Anpassungsgüte der durch die<br />
X-Y-Koordinaten beschriebenen Punkte an ihre zugehörige Regressionsgerade.<br />
Diese wiederum ist eindeutig bestimmt durch die Eigenschaft, dass sie unter allen<br />
möglichen Geraden diejenige ist, von der alle Punkte am wenigsten abweichen.<br />
Dazu muß die Summe der vertikalen Abstände aller Punkte von dieser Geraden<br />
gleich Null und die Summe der quadrierten vertikalen Abstände ein Minimum sein.<br />
13.4 Multiple Regression<br />
13.4.1 Erweiterung der einfachen Regression zur Multiplen Regression<br />
Bei einer Multiplen Regression haben wir wiederum eine AV, nun aber mehrere UV´s<br />
(Prädiktoren). Die Rohwerte-Regressionsformel hat jetzt folgende Gestalt<br />
Y´ = b 1 X 1 + b 2 X 2 + ... + b k X k + b 0<br />
bzw. in standardisierter Form<br />
z y´ = β 1 z x1 + β 2 z x2 + ... + β k z xk<br />
Im Falle von missing data wählen wir unter Optionen den fallweisen Ausschluß, um<br />
sicherzustellen, dass alle Korrelationen auf der Basis desselben N gerechnet<br />
werden. Fallweiser Ausschluß heißt, dass ein Fall, eine Person, nicht in die Analyse<br />
aufgenommen wird, wenn bei ihr in mindestens einer der aus der Rohdatenmatrix<br />
ausgewählten Variablen (Prädiktoren und AV) ein Wert fehlt.<br />
Die Anschaulichkeit der mithilfe des zweidimensionalen Streudiagramms erläuterten<br />
Regression mit nur einem Prädiktor geht bei mehreren Prädiktoren z.T. verloren.<br />
Dennoch sind alle Überlegungen im Prinzip auf den Fall mit mehreren Prädiktoren<br />
übertragbar. Entsprechend verändert sich der Output kaum. So finden wir die<br />
Multiple Korrelation R wieder, die wieder in der Korrelation zwischen den jetzt aus k<br />
Prädiktoren geschätzten Y´-Werten und den gemessenen Y-Werten besteht. R 2 als<br />
Seite - 77 -
Skript: Benutzung von SPSS<br />
Determinationskoeffizient gibt entsprechend den Anteil der Varianz von Y an, der<br />
durch die k Prädiktoren linear aufgeklärt wird.<br />
Im Multiplen Fall besteht leicht die Versuchung, ein möglichst hohes R 2 dadurch zu<br />
erreichen, dass man möglichst viele Prädiktoren in die Vorhersage gibt; denn R 2 kann<br />
sich nur erhöhen, wenn weitere Prädiktoren noch weitere Varianzanteile von Y<br />
aufklären. Ein gewissen Schutz davor soll das korrigierte R 2 bieten, bei dessen<br />
Berechnung zusätzlich die Anzahl der k Prädiktoren eingeht (wobei die Konstante<br />
mitzuzählen ist):<br />
korr. R 2 = 1-<br />
RSS /( N − k)<br />
TSS /( N −1)<br />
Erhöht nun ein weiterer Prädiktor ESS und verringert er damit RSS, so erhöht sich<br />
durch diese Verringerung einerseits das korrigierte R 2 , andererseits wird es aber<br />
durch die Erhöhung von k verringert.<br />
Der weitere Output bedarf keiner weiteren Erläuterung mehr.<br />
13.4.2 Vergleichbarkeit von Regressionskoeffizienten<br />
Es wird darauf aufmerksam gemacht, dass die b-Koeffizienten der Rohwertformel<br />
nicht in ihrer Höhe miteinander vergleichbar sind, also nicht gesagt werden kann,<br />
dasss der eine Prädiktor mehr zur Vorhersage des Kriteriums beiträgt als ein<br />
anderer. Die Vergleichbarkeit ist nicht gegeben, da in diesen Koeffizienten noch die<br />
zur Messung des jeweiligen Prädiktors verwendete Skala/Dimension steckt.<br />
Dagegen gestatten die β-Koeffizienten der standardisierten Prädiktoren prinzipiell<br />
einen solchen Vergleich; „prinzipiell“ deswegen, weil diese Aussage nur dann gilt,<br />
wenn die Prädiktoren nicht miteinander korrelieren, also keine „Multikollinearität“<br />
vorliegt (vgl. den nächsten Abschnitt).<br />
Die Beta-Koeffizienten lassen sich aud den b-Koeffizienten auch wie folgt berechnen:<br />
β i = b i *<br />
s<br />
X i<br />
s<br />
Y<br />
wobei s Xi und s Y die Standardabweichungen des Prädiktors X i bzw. des Kriteriums Y<br />
darstellen.<br />
13.4.3 Prüfung auf Multikollinearität<br />
(Multi-)Kollinearität liegt vor, wenn zwischen zwei oder mehrere Prädiktoren deutliche<br />
Korrelationen bestehen. Genauer läßt sich bei perfekter Kollinearität ein Prädiktor<br />
aus einem anderen Prädiktor oder aus einer Kombination mehrerer anderer<br />
Prädiktoren über eine lineare Gleichung exakt vorhersagen. In einem solchen Fall<br />
kann die gewünschte Regressionsgleichung nicht geschätzt werden. SPSS schließt<br />
dann eine der betroffenen Prädiktoren aus dem Regressionsmodell aus.<br />
Erfahrungsgemäß kommt so etwas immer wieder vor, weil der Datensatz nicht<br />
wirklich gecheckt wurde, so dass z.B. zwei Prädiktoren zu 1 miteinander korrelieren.<br />
Der Grund liegt dann nicht etwa darin, dass die beiden Variablen tatsächlich in der<br />
Wirklichkeit zu 1 korrelieren, was sehr unwahrscheinlich ist, sondern weil<br />
Fehlplanungen diese Systematik zur Folge hatten.<br />
Liegt eine hohe, jedoch keine totale Kollinearität vor, kann die Schätzung der<br />
Regressionsgleichung durchgeführt werden. Allerdings werden die b- bzw. β-<br />
Seite - 78 -
Skript: Benutzung von SPSS<br />
Koeffizienten dann nicht mehr zuverlässig geschätzt. Der Koeffizient des einen<br />
Prädiktors kann dann z.B. überschätzt, der des anderen unterschätzt werden, auch<br />
wenn der gemeinsame Einfluß der Prädiktoren auf die Kriteriumsvariable noch richtig<br />
geschätzt wird.<br />
Man kann die Variablen, die man als unabhängige in das Regressionsmodell<br />
aufnehmen möchte, bereits vor der Regressionsrechnung auf Kollinearität prüfen,<br />
indem man im Dialogfeld „Statistik“ die Option „Deskriptive Statistik“ anklickt. Es wird<br />
dann eine Korrelationsmatrix zwischen diesen Prädiktoren berechnet. Sollten zwei<br />
Variablen dann sehr hoch miteinander korrelieren, sollte überlegt werden, ob nicht<br />
eine von beiden aus der Regression herausgenommen werden sollte. Sollten sich<br />
keine hohen Korrelationen beobachten lassen, darf daraus jedoch nicht auf keine<br />
Kollinearität geschlossen werden, da auch zwischen Kombinationen mehrerer<br />
Variablen ein linearer Zusammenhang bestehen kann.<br />
Mit SPSS können mehrere spezielle Kollinearitätsmaße berechnet werden. Man<br />
wählt dazu im Dialogfeld „Statistiken“ die Option „Kollinearitätsdiagnose“. Dann<br />
kommen zu der Tabelle „Koeffizienten“ des Outputs noch zwei weitere Spalten hinzu:<br />
Die Spalte „Toleranz“ meint<br />
2<br />
Toleranz i = 1 – R i<br />
2<br />
wobei R i den Korrelationskoeffizienten bezeichnet, der sich ergibt, wenn der i-te<br />
Prädiktor durch die übrigen Prädiktoren erklärt wird. Ist er sehr hoch, wird die<br />
Toleranz sehr klein sein, was dann auf das Vorliegen von Kollinearität deutet<br />
(Toleranz etwa < 0,1).<br />
Die Spalte VIF (Variance Inflation Factor) stellt nur den Kehrwert der Toleranz dar.<br />
Des weiteren wird noch eine Tabelle ausgegeben, die mit „Kollinearitätsdiagnose“<br />
überschreiben ist. Wir erläutern sie nicht, da hierzu Kenntnisse der Matrizenrechnung<br />
notwendig sind.<br />
13.4.4 Methoden der Auswahl von Prädiktoren<br />
Der Normalfall ist, dass alle benannten Prädiktoren simultan in die<br />
Regressionsgleichung aufgenommen werden (METHODE: ENTER). Soll davon<br />
abgewichen werden, so können die Prädiktoren<br />
a) in Blöcke aufgespalten werden, die dann der Reihe nach in die<br />
Regressionsgleichung aufgenommen werden. Ein Block besteht aus einer Reihe<br />
von Prädiktoren. Hat man einen ersten Block eingegeben, so leuchtet „Block 1<br />
von 1“ und die Taste „Weiter“ auf. Betätigt man diese, kann man einen weiteren<br />
Block eingeben. Wir verfolgen diese Möglichkeit hier nicht weiter, d.h. wir gehen<br />
im Folgenden von der Eingabe nur eines Blocks aus.<br />
b) innerhalb eines Blockes schrittweise nach bestimmten Methoden in die<br />
Regressionsgleichung aufgenommen oder aus ihr entfernt werden. Die Aufnahme<br />
oder Entfernung wird dabei nach bestimmten statistischen Kriterien (F-Test)<br />
vorgenommen, die unter OPTIONEN ausgewählt werden können. Folgende<br />
Methoden stehen zur Verfügung:<br />
i. EINSCHLUß (ENTER): Alle Prädiktoren eines Blocks werden simultan<br />
aufgenommen (1 Schritt). Diese ist die voreingestellte Methode.<br />
ii. AUSSCHLUß (REMOVE): Alle Prädiktoren eines Blocks werden simultan<br />
ausgeschlossen (1 Schritt). Diese Option ist nur sinnvoll, wenn mehr als ein<br />
Block angegeben wurde.<br />
Seite - 79 -
Skript: Benutzung von SPSS<br />
iii.<br />
RÜCKWÄRTS (BACKWARD): Die Prädiktoren werden von SPSS (pro Block)<br />
darauf geprüft, ob sie in der Regressionsgleichung, die zunächst mit allen<br />
Prädiktoren berechnet worden ist, verbleiben sollen. Bei jedem Schritt wird<br />
derjenige Prädiktor ausgeschlossen,<br />
1. der den kleinsten partiellen Korrelationskoeffizienten mit der AV aufweist und<br />
2. dessen zugehöriger Regressionskoeffizient nicht signifikant ist. Das<br />
zugehörige Signifikanzniveau ist mit 0.10 voreingestellt. Es kann über<br />
OPTIONEN verändert werden.<br />
iv.<br />
VORWÄRTS (FORWARD): Hier wird pro Block, startend mit dem Prädiktor<br />
mit der höchsten partiellen Korrelation zur AV, bei jedem Schritt derjenige<br />
Prädiktor als ein weiterer in die Regression aufgenommen, der von allen noch<br />
nicht einbezogenen Prädiktoren die größte partielle Korrelation mit der AV<br />
aufweist. Die Einbeziehung findet jedoch nur dann statt, wenn<br />
• der Wert der minimalen Toleranz größer ist als der voreingestellte<br />
erlaubte Toleranzwert von 0.0001. „Minimale Toleranz“ meint dabei<br />
eine Kollinearitätsdiagnose (vgl. den vorhergehenden Abschnitt).<br />
• zusätzlich der ermittelte zugehörige Regressionskoeffizient, der sich<br />
durch die Einbeziehung in die Regression ergeben würde, signifikant<br />
von Null verschieden ist. Das für diesen Signifikanztest voreingestellte<br />
Signifikanzniveau ist 0.05. Es kann über OPTIONEN verändert werden.<br />
v. SCHRITTWEISE (STEPWISE): Bei dieser Wahlmöglichkeit wird zunächst<br />
eine erste UV nach dem oben angegebenen Forward-Kriterium in die<br />
Regression aufgenommen. Sofort danach werden aber alle bislang<br />
aufgenommenen UV`s nach dem oben angegebenen Backward-Kriterium<br />
untersucht. Die UV´s, die aufgrund dieses Kriteriums aus der Regression<br />
ausgeschlossen werden, stehen beim nachfolgenden Schritt wieder für eine<br />
Einbeziehung nach dem Forward-Kriterium zur Verfügung. Als maximale Zahl<br />
für solche Forward-Backward-Schritte ist das Doppelte der Zahl der UV´s<br />
angesetzt. Eigentlich aber sollte diese Stepwise-Regression zuvor damit<br />
enden, dass für keinen Prädiktor mehr die Notwendigkeit des Ausschlusses<br />
und für keinen Prädiktor mehr die Möglichkeit der Aufnahme existiert.<br />
Es muß davor gewarnt werden, diesen automatischen Auswahlverfahren und ihrem<br />
hauptsächlichen Kriterium, der Signifikanz des Regressionskoeffizienten, das<br />
scheinbar eine objektive Auswahl vornimmt, blind zu vertrauen. Überhaupt ist sehr oft<br />
eine fälschliche Anwendung des Regressionsmodells zu beobachten. Um dem<br />
vorzubeugen, sollte unbedingt vor der Anwendung eine inhaltliche Theorie entwickelt<br />
werden, die gezielt (geleitet aufgrund inhaltlicher Hypothesen) das Verfahren<br />
einsetzt. Man vermeidet dann blindes Herumstochern in den Daten („Snooping in the<br />
data“).<br />
Seite - 80 -
Skript: Benutzung von SPSS<br />
13.4.5 Diagramme (Plots): Prüfung der Residuen<br />
Klickt man im Dialogfeld LINEARE REGRESSION die Taste DIAGRAMME an, so<br />
öffnet sich das folgende neue Dialogfeld:<br />
Abb. 67: Lineare Regression: Diagramme<br />
Dieses Feld dient vor allem zur grafischen Überprüfung von Voraussetzungen der<br />
linearen Regression. Es bedeuten<br />
DEPENDENT<br />
Werte der abhängigen Variablen<br />
*ZPRED Standardisierte vorhergesagte Werte<br />
*ZPRESID Standardisierte Residuen<br />
*DRESID Ausgeschlossene Residuen<br />
*ADJPRED Korrigierte vorhergesagte Werte<br />
*SRESID Studentisierte Residuen<br />
*SDRESID Studentisierte ausgeschlossene Residuen<br />
a) Prüfung der Linearitätsannahme: Z.B. sollte grundsätzlich überprüft werden, ob<br />
die angenommene lineare Beziehung auch tatsächlich haltbar ist. Dazu kann ein<br />
Streudiagramm erstellt werden, in dem die Beziehung zwischen den<br />
standardisierten Vorhersagewerten (*ZPRED) und den standardisierten Residuen<br />
(*RSESID), definiert als standardisierte Differenz zwischen den tatsächlichen<br />
Werte Y und den Vorhersagewerten Y´, dargestellt wird. Testfrage: Welche<br />
Anordnung der Punkte sollte sich ergeben? Woran kann man erkennen, dass<br />
keine lineare Beziehung vorliegt?<br />
b) Prüfung der Normalverteilungsannahme: Eine zentrale Forderung des<br />
Regressionsmodells besteht darin, dass die Residuen, also die Fehler der<br />
Schätzung, nicht nur zufällig auftreten sollten, sondern zudem einer<br />
Normalverteilung (NV) folgen sollten. Mit NORMALVERTEILUNGSDIAGRAMM<br />
kann man ein Verteilungsdiagramm aufrufen, in welchem die empirisch ermittelte<br />
kumulierte Verteilung der standardisierten Residuen (*ZRESID) der zu<br />
erwartenden kumulierten Häufigkeitsverteilung unter der Annahme der NV<br />
gegenüber gestellt wird. Testfrage: Wie müssen die ausgegebenen Werte<br />
angeordnet sein, wenn die Voraussetzung der NV erfüllt sein sollte?<br />
Zur Überprüfung der NV kann auch die Ausgabe eines Histogramms der<br />
standardisierten Residuen dienen, das durch HISTOGRAMM abgerufen werden<br />
kann. In das Histogramm wird eine NV eingezeichnet.<br />
Seite - 81 -
Skript: Benutzung von SPSS<br />
Zur Erinnerung:<br />
Unter den Residuen einer Regressionsschätzung verstehen wir die Differenzen<br />
zwischen den tatsächlich beobachteten und den durch die Regressionsgleichung<br />
geschätzten Werten der AV. Das zu einem bestimmten Fall gehörende Residuum ist<br />
also Ausmaß, um den die Regressionsschätzung den tatsächlichen Wert verfehlt hat.<br />
Entsprechend wird die quadrierte Summe der Residuen zur Berechnung von R 2<br />
(Determinationskoeffizient, Bestimmtheitsmaß) verwendet, das damit einen Indikator<br />
für die Güte der Anpassung der Regressionsgleichung an die empirischen Werte<br />
darstellt. (R 2 gibt den Anteil der Gesantvariation von Y an, der durch einbezogenen<br />
Prädiktoren aufgeklärt wird.)<br />
Eine zentrale Forderung des Regressionsmodells besteht darin, dass die Residuen,<br />
also die Fehler der Schätzung, zufällig auftreten müssen, d.h. keinem<br />
systematischen Muster folgen dürfen. Sollte Letzteres der Fall sein, deutet das<br />
darauf hin, daß das geschätzte Modell falsch ist, da es nicht sämtliche Aspekte zur<br />
Erklärung der AV beinhaltet. Die „Falschheit“ kann daran liegen, dass weitere<br />
erklärende UV´s (Prädiktoren) nicht mit einbezogen wurden, aber auch an der<br />
gewählten linearen Funktion liegen (Prüfung der Linearitätsannahme siehe oben).<br />
13.4.6 Kreuzvalidierung<br />
Ein Hinweis darauf, wie stabil Regressionsvorhersagen sind, kann man mithilfe einer<br />
Kreuzvalidierung erhalten. Hierbei bestimmt man zwei Regressionsgleichungen<br />
aufgrund von zwei Teilstichproben und verwendet die Regressionsgleichung der<br />
jeweils einen zur Vorhersage der Kriteriumsvariablen der jeweils anderen. Die<br />
Korrelation der so vorhergesagten Kriteriumsvariablen mit den tatsächlich<br />
gemessenen Ausprägungen dieser Variablen <strong>info</strong>rmiert über die Stabilität der<br />
Regressionskoeffizienten (-gewichte).<br />
Um bei SPSS eine Kreuzvalidierung durchzuführen, muß mithilfe der an einer<br />
ersten Stichprobe berechnete Vorhersagegleichung eine neue Variable Y´ erzeugt<br />
werden. das geschieht mithilfe des bereits bekannten Befehls Transformieren à<br />
Berechnen. Dort wird als Zielvariable der Name der neuen Variablen eingegeben<br />
und unter „Numerischer Ausdruck“ die berechnete Rohwerte-Regressionsgleichung.<br />
Die Korrelation der neuen Variablen Y´ mit der beobachteten Variablen Y der zweiten<br />
Stichprobe gibt dann an, wie gut die an der ersten Stichprobe gewonnenen<br />
Regressionsgewichte zur Vorhersage in der zweiten Stichprobe geeignet sind.<br />
Anschließend wird das Verfahren wiederholt, indem jetzt die Regressionsgleichung<br />
anhand der zweiten Stichprobe aufgestellt wird und in der ersten Stichprobe<br />
eingesetzt wird zwecks Korrelation der nun dort mit ihr vorhergesagten Y´-Werte mit<br />
den tatsächlich beobachteten Werten.<br />
Die so erhaltenen beiden Korrelationskoeffizienten sind Multiple Korrelationen. Ihr<br />
Vergleich <strong>info</strong>rmiert über die Stichproben-Abhängigkeit dieser Koeffizienten.<br />
Seite - 82 -
Skript: Benutzung von SPSS<br />
14 Syntax<br />
14.1 Zwei Möglichkeiten, SPSS Anweisungen zu geben<br />
a) Die bislang gelernte Möglichkeit zum Aufruf eines Befehls besteht darin, diesen in einem<br />
Menü aus der Menüleiste auszuwählen und ihn anschließend in einem oder mehreren<br />
Dialogfeldern näher zu spezifizieren. Die Taste OK veranlaßt SPSS, den spezifizierten<br />
Gesamtbefehl auszuführen.<br />
b) Neben dieser Menütechnik bietet SPSS jedoch auch die Möglichkeit, Befehle mit Hilfe<br />
einer speziellen Befehlssprache aufzurufen. Hierzu müssen die Befehle in einer speziellen<br />
Steuer-Kommando-Sprache (Befehls-Satzlehre bzw. -syntax) formuliert und in dieser<br />
Form in eine Syntaxdatei geschrieben werden. Anschließend können sie aufgerufen und<br />
damit ausgeführt werden.<br />
Diese zweite Form der Befehlseingabe ist die ursprüngliche, und die bislang von uns benutzte<br />
und heute hauptsächliche Form der Befehlseingabe durch Anklicken ist ihr erst nachträglich<br />
übergestülpt worden. Immer noch ist es so, dass alle angeklickten Anweisungen in Kommandos<br />
der Befehlssyntax übersetzt und erst diese von SPSS ausgeführt werden. SPSS „versteht“<br />
nur diese in seiner Befehlssyntax geschriebene Sprache.<br />
Die Umsetzung der ursprünglichen Steuersprache in ein (Anklick-)Menüsystem hat für den<br />
Benutzer den großen Vorteil, dass der Benutzer nicht mehr diese aus einer Unzahl von<br />
Befehlen bestehende SPSS-Befehls-Sprache zu erlernen braucht. Die gewünschten Befehle<br />
werden einem über das Menü bzw. Dialogfenster quasi „im Klartext“ angeboten, so dass die<br />
Befehlseingabe ohne den Zwischenschritt einer speziell zu erlernenden Kommandosprache<br />
geschehen kann. Zudem brauchen die Befehle nicht mehr zeitraubend eingetippt zu werden,<br />
es genügt ein Anklicken.<br />
Eigentlich scheint also eine Betrachtung oder gar Verwendung der unter der Anklick-Oberfläche<br />
(immer noch) agierenden Befehlssprache nicht notwendig zu sein. Es sind jedoch hauptsächlich<br />
zwei Situationen, in denen es notwendig oder ökonomischer sein kann, Befehle in<br />
der alten Kommandosprache einzugeben:<br />
a) Bestimmte Operationen oder Optionen sind nur über die Kommandosprache möglich. Für<br />
viele Befehle können zusätzliche Parameter eingeben werden, die in den entsprechenden<br />
Dialogfeldern nicht zur Verfügung stehen.<br />
b) Es gibt Situationen, in denen das Anklicken sehr umständlich ist und dadurch auch<br />
unübersichtlich wird, so dass eine Fehlanweisung immer wahrscheinlicher wird, z.B. bei<br />
umfangreichen Anweisungen zur Generierung, Tranformierung oder Rekodierung von<br />
Variablen. Dann kann die direkte sprachliche Eingabe die einfachere Möglichkeit sein.<br />
Sollte eine dieser beiden Situationen vorkommen, so wird man doch nicht auf den großen<br />
Vorteil des Befehle-Anklickens verzichten wollen. Vielmehr wird man in der Regel eine<br />
Mischung beider Möglichkeiten der Befehlseingabe wählen. Zunächst wird man einen<br />
meistens hauptsächlichen Teil der Anweisungen über die Menü- und Dialogfenster per<br />
Anklicken vornehmen und danach über die Taste<br />
EINFÜGEN<br />
zum sog. Syntaxfenster hinüberwechseln, um die dort in der Kommandosprache ausgeschriebenen<br />
Anweisungen (Syntaxdatei) noch zu ergänzen. Einfügen meint dabei Einfügen der<br />
Folge der angeklickten Befehle in eine (neue oder schon bestehende) Syntaxdatei. Mit dem<br />
Überwechseln aktiviert man gleichzeitig den Syntax-Editor, d.h. man kann die Befehle der<br />
Syntaxdatei löschen, verändern oder neue hinzufügen. Man kann die Datei auch speichern<br />
und erst später ausführen lassen, d.h. man hat Befehlssequenzen/Protokolle der durchgeführten<br />
Rechnungen.<br />
Seite - 83 -
Skript: Benutzung von SPSS<br />
Übung: Bitte überzeugen Sie sich durch Anklicken verschiedenster Datentranformationen<br />
und Rechnungen, die Sie schon kennen, dass Befehle, die Sie anklicken, tatsächlich im<br />
Syntaxfenster in geschriebener Form stehen. Wechseln Sie dazu jeweils mit Hilfe der Taste<br />
EINFÜGEN<br />
in das Syntaxfenster über, und zwar bevor Sie die Taste OK drücken, d.h. wünschen Sie nicht<br />
(unnötig) die Ausführung der angeklickten Befehle.<br />
Studieren Sie die Syntax-Befehle. Versuchen Sie sie zu verstehen! Sie müssen sie jedoch<br />
nicht auswendig lernen. Es genügt geistiges Nachvollziehen und Erklären-können der zuvor<br />
angeklickten Befehle. Das ist in der Regel möglich.<br />
Wenn man so nacheinander verschiedene Rechnungen zusammenstellt, wird mit dem<br />
Einfügen einer ersten Rechnung ein (erstes) Syntax1-Fenster aufgemacht und es werden alle<br />
weiteren Rechnungen nacheinander in dieses hineingeschrieben. Um aus dem Syntax-Fenster<br />
jeweils in das Daten-Editor-Fenster zurückzukehren, klickt man einfach auf dieses. Beim<br />
zweiten und weiteren Einfügen erscheint das Syntax-Fenster allerdings nicht mehr von selbst.<br />
Sie können es aufrufen, indem Sie mit dem Cursor auf die Grundleiste gehen.<br />
Wenn man die so zusammengestellten verschiedenen Rechnungen ausführen möchte, kann<br />
man das tun, indem man auf<br />
AUSFÜHREN<br />
klickt. Das danach erscheinende Menu versteht sich von selbst. Auswählen kann man auch<br />
durch Markieren (Ziehen mit der linken Maustaste). Wählen Sie nur ganze Befehle.<br />
14.2 Syntax-Fenster<br />
Insgesamt kann man eine (neue oder eine weitere) Syntaxdatei auf mindestens drei Arten<br />
anlegen:<br />
a) So wie eben bereits beschrieben, also mit einem ersten Einfügen-Befehl.<br />
b) Automatisch beim Start von SPSS. Man muß dann nur für eine entsprechende Voreinstellung<br />
sorgen, in dem man BEARBEITEN fi OPTIONEN wählt.<br />
Abb. 68: Optionen<br />
und in diesem Fenster die Möglichkeit „Syntax-Fenster beim Start öffnen“ und OK<br />
betätigt, so dass zukünftig, d.h. bei jedem erneuten Start von SPSS, automatisch ein<br />
Syntax-Fenster eingerichtet wird. Bevor in dieses etwas eingefügt wird, ist es natürlich<br />
noch leer.<br />
c) Während einer bereits laufenden SPSS-Sitzung. Dann wählt man die Befehlskette<br />
DATEI fi NEU fi SYNTAX<br />
Seite - 84 -
Skript: Benutzung von SPSS<br />
Wenn man das mehrere Male macht, werden nacheinander viele Syntax-Fenster angelegt,<br />
also Syntax1, Syntax2, Syntax3, ... . Dabei wird auch weitergezählt, wenn man einige<br />
schon wieder gelöscht hat. Nur eins dieses Fenster ist dabei das jeweils aktuelle. Über die<br />
Leiste unten können Sie jeweils bestimmen, welches es sein soll. Bestimmen Sie nichts,<br />
ist es das jeweils letzte.<br />
Diese 3. Möglichkeit interssiert uns hier weniger. Sie wird vor allem gewählt, wenn man<br />
nicht mithilfe des Anklickens SPSS-Programme schreiben möchte, sondern direkt solche<br />
Programme schreiben möchte, weil man (noch) die SPSS-Programmsprache kennt.<br />
Studierende, die studierten, bevor SPSS das Anklicksystem einführte, hatten sie noch zu<br />
erlernen.<br />
Den Inhalt von Syntax-Fenstern kann man auch speichern. Das geht in der bekannten Weise,<br />
indem man in der obersten Zeile des Fensters<br />
DATEI usw. aufruft. Man kann sie dann wie jede Datei später auch wieder öffnen, indem<br />
man im Daten-Editor-Fenster die Sequenz<br />
DATEI fi ÖFFNEN fi SYNTAX<br />
eingibt. Das und Weiteres braucht hier nicht erklärt zu werden.<br />
14.3 Die Journal-Datei<br />
Wie gesagt werden standardmäßig alle Anforderungen, die während eines Dialogs mit dem<br />
SPSS-System zur Ausführung gelangen, intern in Kommandos umgeformt. Diese Kommandos<br />
werden auch dann, wenn man kein Syntax-Fenster angelegt hat, in einer Journal-Datei<br />
gespeichert, die den voreingestellten Namen „spss.jnl“ trägt und im Home-Verzeichnis<br />
eingetragen ist (bei SPSS unter Windows meistens im Unterordner C:\Windows\Temp). Bei<br />
dieser Übertragung wird jedes neue Kommando an den bisherigen Inhalt der Datei angefügt.<br />
Dies bedeutet, dass diese Datei sämtliche Befehle beinhaltet, die seit Installationsbeginn von<br />
SPSS gestellt worden sind. Dadurch kann die Datei schon sehr lang geworden sein.<br />
Soll dagegen der jeweilige Inhalt der Journal-Datei zu Beginn eines neuen Dialogs gelöscht/überschrieben<br />
werden, so ist im zuletzt aufgerufenen Dialogfenster OPTIONEN die<br />
Möglichkeit "Überschreiben" zu aktivieren und der Inhalt des Fensters durch OK zu bestätigen.<br />
Um nicht unnötig Speicherplatz auf der Festplatte zu reservieren, sollte man diese<br />
Voreinstellung wählen.<br />
14.4 Syntax-Befehle in der Ausgabedatei<br />
Mit BEARBEITEN à OPTIONEN à VIEWER können Sie SPSS veranlassen, dass beim<br />
Ausführen eines Befehls in der Ausgabedatei den eigentlichen Ergebnissen der Befehl in<br />
Syntaxform vorangestellt wird, wenn Sie<br />
"Befehle im Log anzeigen" aktivieren. Sollte das schon bei Ihnen der Fall sein und möchten<br />
Sie das nicht mehr haben, so deaktivieren Sie entsprechend.<br />
14.5 Syntax von SPSS-Kommandos<br />
14.5.1 Syntaxdiagramme<br />
Dieses Papier soll nicht zum Schreiben kompletter SPSS-Syntaxdateien befähigen. Das soll<br />
daher im EDV-Kurs auch nicht verlangt werden. Es soll aber darum gehen, angeklickte<br />
Befehle in einer benötigten Weise verändern bzw. ergänzen zu können. Die Teilnehmer<br />
des EDV-Seminars sollten wissen, dass statistische Rechnungen, die man ausgehend von<br />
einer Untersuchung und aufgestelltem Untersuchungs- und Auswertungsplan fordert,<br />
doch möglich sein können, auch wenn sie nicht anklickbar sind. Was bei einem SPSS-<br />
Seite - 85 -
Skript: Benutzung von SPSS<br />
Befehl über sein bloßes Anklicken hinaus noch möglich bzw. überhaupt möglich ist, zeigen<br />
die Syntax-Diagramme der einzelnen Befehle. Es lohnt sich, diese immer dann zu studieren,<br />
wenn mit dem bloßen Anklicken nicht die Rechnungen erreicht werden können, die man sich<br />
wünscht, oder wenn man sich fragt, "ob das nicht weniger umständlich geht". Auf keinen Fall<br />
sollte man sofort sagen, dass „SPSS das nicht kann“, nur weil etwas nicht anklickbar ist.<br />
Ein Syntaxdiagramm zeigt die formale Struktur eines jeweiligen Befehls auf, also jener Befehls,<br />
die Sie bereits angeklickt haben und zu dessen Syntax mit der EINFÜGEN-Taste<br />
hinüber gewechselt werden kann. An der formalen Struktur eines Befehls lassen sich<br />
sämtliche notwendigen sowie optionalen Unterbefehle sowie alle zulässigen Angaben zu den<br />
einzelnen Unterbefehlen ablesen. Aufrufen tut man diese formale Struktur bzw. das Syntaxdiagramm<br />
eines Befehls, indem man den Cursor in einen über das Syntaxfenster<br />
ausgegebenen Befehl stellt und anschließend die Taste „Hilfe zur Syntax" in der Knopf-<br />
Leiste darüber betätigt. (Das Bild auf der Taste deutet die Syntax-Struktur eines Befehls an.)<br />
Wenn Sie dies nun einmal probeweise bei einem von Ihnen angeklickten und im Syntax-<br />
Fenster aufgelisteten Befehl tun, dann erschrecken Sie bitte nicht gleich angesichts der (nur<br />
auf den ersten Blick verwirrend) formalen Syntax-Struktur des betreffenden Befehls. Sie wird<br />
in den nächsten Abschnitten erläutert.<br />
Vor allem aber gilt folgender Rat:<br />
Klicken Sie immer auch in dem neuen Fenster "See Also" an und die weiteren Möglichkeiten,<br />
die sich danach eröffnen. Sie erhalten dadurch eine genaue Beschreibung des Gesamtbefehls<br />
sowie aller seiner Unterbefehle und sonstigen Möglichkeiten, die er bietet. Vor allem erhalten<br />
Sie so auch recht genaue Informationen über das, was Sie schon errechnet haben bzw.<br />
errechnen werden!<br />
Zusammen mit dem anderen wichtigen Tipp, nämlich vor dem Anklicken einer Taste in<br />
einem Dialogfeld die rechte Maustaste zu drücken zwecks Info, was Sie damit eigentlich<br />
befehlen, nutzen Sie das Hilfesystem von SPSS elegant aus. Sie brauchen so nämlich kein<br />
teures Buch über SPSS. SPSS sagt Ihnen auf diese beiden Weisen eigentlich alles, oft<br />
sogar die statistischen Hintergründe, d.h. oft bereits die Antworten auf Fragen, die Ihnen<br />
bei der kleinen EDV-Prüfung gestellt werden könnten. Probieren Sie das aus! Sie werden<br />
angenehm überrascht sein!<br />
14.5.2 Syntaxregeln<br />
Die Elemente der SPSS-Programmsprache kann man in die folgenden Kategorien einteilen.<br />
• Befehl (Kommando): Eine Anweisung, die den Ablauf von SPSS steuert.<br />
• Unterbefehl: Eine Zusatzanweisung zu einem SPSS-Befehl. Ein Befehl kann mehrere<br />
Unterbefehle haben.<br />
• Spezifikationen: Angabe, die einem Befehl oder einem Unterbefehl zugefügt werden.<br />
Spezifikationen können Schlüsselwörter, Zahlen, arithmetische Operatoren, Variablennamen<br />
und spezielle Trennzeichen enthalten.<br />
• Schlüsselwörter: Ein bestimmtes Wort, das in der SPSS-Syntax vorkommt und mit einer<br />
bestimmten Bedeutung belegt ist. Es können also die Wörter für bestimmte Befehle,<br />
Unterbefehle oder auch bestimmte Spezifikationen sein. Da die Bedeutung dieser Wörter<br />
a priori von SPSS festgelegt ist, dürfen sie nicht in anderer Bedeutung verwendet werden,<br />
z.B. als Name für eine Variable. Wir werden diese Wörter, die den Sprachschatz von<br />
SPSS darstellen, im Folgenden groß schreiben. (In der SPSS-Literatur wird der Begriff<br />
„Schlüsselwort“ nicht einheitlich verwendet. Oft wird er nur im Zusammenhang mit<br />
Spezifikationen gebraucht.)<br />
Beispiel:<br />
Seite - 86 -
Skript: Benutzung von SPSS<br />
CORRELATIONS<br />
/VARIABLES=alter depression intelligenz konzentration<br />
/PRINT=TWOTAIL SIG<br />
/MISSING=LISTWISE .<br />
CORRELATIONS ist ein Befehl. VARIABLES, PRINT und MISSING sind Unterbefehle.<br />
Dem Unterbefehl VARIABLES folgen Variablennamen, die Spezifikationen des Unterbefehls<br />
darstellen, jedoch keine (a priori reservierten) Schlüsselwörter sind. Dagegen folgen den<br />
Unterbefehlen PRINT und MISSING Spezifikationen in Form von Schlüsselwörtern.<br />
Beim Editieren der Befehlssyntax sind folgende einfache Regeln zu beachten:<br />
• Jeder Befehl muß am Anfang einer neuen Zeile beginnen und mit einem Punkt enden.<br />
• Ein Befehl kann sich über beliebig viele Zeilen erstrecken.<br />
• Unterbefehle werden in der Regel mit einem Schrägstrich voneinander getrennt. Vor dem<br />
ersten Unterbefehl kann der Schrägstrich auch weggelassen werden.<br />
• In Apostrophe gesetzter Text (bei Labels) muß sich auf einer Zeile befinden.<br />
• Eine Zeile darf nicht mehr als 80 Zeichen (Anschläge) haben.<br />
• Als Dezimaltrennzeichen in Spezifikationen muß ein Punkt verwendet werden.<br />
• Groß- und Kleinbuchstaben werden nicht unterschieden (außer in in Apostrophe gesetzten<br />
Text).<br />
• Das Einfügen von Leerzeichen oder der Beginn einer neuen Zeile ist an jedem Punkt<br />
erlaubt, wo ein einzelnes Leerzeichen erlaubt ist.<br />
• Bei Programmdateien, die im "Produktionsmodus" (Begriff in diesem SPSS-Papier nicht<br />
erklärt) laufen sollen, müssen die Fortsetzungszeilen eines Befehls um mindestens ein<br />
Leerzeichen eingerückt sein.<br />
14.5.3 Interpretation eines Syntaxprogramms<br />
Z.B. gibt es einen Befehl, mit dem für eine, mehrere oder sämtliche Variablen aus der<br />
Datendatei fehlende Werte definiert werden können. Das Syntaxdiagramm dieses Befehls<br />
lautet<br />
MISSING VALUES {varlist} (value list) [ [ / ] {varlist} . . . ]<br />
{ALL } {ALL }<br />
Diesem Syntaxprogramm ist zu entnehmen:<br />
Neben dem Befehl MISSING VALUES sind die Variablen anzugeben (varlist), für die<br />
fehlende Werte definiert werden sollen. Hinter der Variablenliste muß in Klammern eine Liste<br />
der Werte gegeben werden, die als fehlende Werte zu definieren sind.<br />
Listen können auch aus einem einzigen Wert bestehen. Als Variablenliste kann ein einzelner<br />
Variablenname, eine Liste mehrerer Variablennamen oder das Schlüsselwort ALL angegeben<br />
werden. Mit ALL sind alle Variablen der Datei gemeint.<br />
Durch den Befehlsnamen und die Angabe einer Variablenliste mit einer zugehörigen Werteliste<br />
sind alle notwendigen Angaben gemacht worden. Optional können jedoch weitere<br />
Variablenlisten mit jeweils einer Werteliste angegeben werden. Jede weitere Werteliste kann<br />
von der vorhergehenden durch einen Schrägstrich getrennt werden.<br />
Beispiel:<br />
MISSING VALUES alter gewicht (0) groesse (-1, -2) wohnort („keiner“, „k.A.“)<br />
oder (z.B.)<br />
MISSING VALUES<br />
/alter gewicht (0)<br />
Seite - 87 -
Skript: Benutzung von SPSS<br />
/groesse (-1,-2)<br />
/wohnort ("keiner", "k.A.")<br />
Inhaltliche Erklärung:<br />
Es werden drei Listen von Variablen aufgeführt:<br />
Die erste Liste besteht aus den Variablen alter und gewicht. Beide haben als Zeichen für einen<br />
fehlenden Wert die Null. (Achtung: Eine 0 (Null) ist als ein solches Zeichen nur statthaft,<br />
wenn die Null nicht als eine Maßzahl auftreten kann.)<br />
Die zweite Liste besteht nur aus der Variablen groesse. Bei dieser kann entweder -1 oder -2<br />
als Zeichen für einen fehlenden Wert auftreten.<br />
Die dritte Liste besteht ebenfalls aus einer Variablen, der Variablen wohnort. Sie besteht aus<br />
alphanumerischen Angaben. Zwei Zeichen sind bei ihr als Zeichen für einen fehlenden Wert<br />
deklariert worden, das Zeichen "keiner" und das Zeichen "k.A.".<br />
14.5.4 Bedeutung der Symbole und Schreibweisen in Syntaxdiagrammen<br />
• In Großbuchstaben geschriebene Wörter stellen Schlüsselwörter wie z.B. Befehlsnamen<br />
dar.<br />
• Ausdrücke in normaler Schrift stellen Platzhalter für Angaben dar, die vom konkreten<br />
Anwendungsfall abhängen.<br />
• Angaben in eckigen Klammern sind optional. Wenn sie weggelassen werden, werden sie<br />
häufig durch Voreinstellungen ersetzt.<br />
• Angaben, die in geschwungenen Klammern untereinander stehen, sind alternativ. Genau<br />
eine Möglichkeit ist zu wählen.<br />
• Optionale Angaben in Syntaxdiagrammen sind durch zwei Sternchen gekennzeichnet.<br />
Diese Angaben entsprechen der Voreinstellung, wenn nicht explizit andere Angaben<br />
gemacht werden. Aber nicht alle Voreinstellungen werden auf diese Weise markiert.<br />
• Der Ausdruck varname steht als Platzhalter für den Namen einer Variablen, der Ausdruck<br />
varlist als Platzhalter für eine Liste von Variablennamen. Diese kann auch aus einem<br />
einzigen Namen bestehen.<br />
• Häufig werden drei Punkte als Fortsetzungszeichen verwendet. Meistens ist die Bedeutung<br />
die, dass die betreffende Komponente eines Befehls in analoger Weise mehrfach<br />
wiederholt werden kann.<br />
• Zu beachten ist nochmals, dass jeder Befehl mit einem Punkt abzuschließen ist, auch<br />
wenn dieser Punkt in Syntaxdiagrammen nicht mit angegeben wird.<br />
14.5.5 Beispiel: Umsetzung eines Syntaxprogramms in einen Befehl<br />
Mit dem Menübefehl<br />
Analysieren → Deskriptive Statistiken → Deskriptive Statistiken<br />
können für eine oder mehrere Variablen statistische Maßzahlen berechnet werden. Wenn Sie<br />
den Pfad anklicken, dann können Sie sich über die Hilfe-Taste recht genau über den<br />
Befehl <strong>info</strong>rmieren. Klicken Sie auch OPTIONEN an und klicken Sie mit der rechten<br />
Maustaste die im Einzelnen wählbaren Statistiken an.<br />
Der diesem Menu-Befehl entsprechende Syntaxbefehl heißt DESCRIPTIVES. Bitte rufen Sie<br />
ihn entsprechend der Beschreibung in 14.4.1 auf, d.h. klicken Sie anhand eines Datensatzes<br />
eine Rechnung an, drücken Sie jedoch vor OK die EINFÜGEN-Taste. Wenn Sie danach den<br />
Cursor in den Befehl stellen und die Taste "Hilfe zur Syntax" (Syntax-Diagramm-Taste)<br />
drücken. Es erscheint das folgende Diagramm, das die Struktur und alle Optionen dieses<br />
Befehls wiedergibt.<br />
Seite - 88 -
Skript: Benutzung von SPSS<br />
DESCRIPTIVES [VARIABLES=] varname[(zname)] [varname . . . ]<br />
[/MISSING= {VARIABLE**} [INCLUDE] ]<br />
{LISTWISE }<br />
[/FORMAT={LABELS** } {NOINDEX**} {LINE** } ]<br />
{NOLABELS } {INDEX } {SERIAL}<br />
[/SAVE]<br />
[/STATISTICS=[DEFAULT**] [MEAN**] [MIN** ][SKEWNESS] ]<br />
[STDDEV** ] [SEMEAN] [MAX**][KURTOSIS]<br />
[VARIANCE ] [SUM ] [RANGE][ALL]<br />
[/SORT=[ {MEAN } ] [{ (A) } ] ]<br />
{SMEAN } {(D) }<br />
{STDDEV }<br />
{VARIANCE }<br />
{KURTOSIS }<br />
{SKEWNESS }<br />
{RANGE }<br />
{MIN }<br />
{MAX }<br />
{SUM }<br />
[NAME }<br />
Diese formale Befehlssyntax zeigt, dass neben dem Befehl nur eine Variable benannt werden<br />
muß. Alle anderen Angaben sind optional. Es wäre also z.B. der Befehl<br />
DESCRIPTIVES depression .<br />
möglich, deswegen, weil mit Ausnahme des Platzhalters varname, der für den Namen einer<br />
Variablen steht, alle anderen Angaben in eckigen Klammern stehen. Da nicht angegeben wird,<br />
welche Ergebnisse ausgegeben werden sollen, würden es jene sein, die in diesem DEFAULT-<br />
Fall mit ** gekennzeichnet worden sind (DEFAULT = Unterlassung).<br />
Zu den meisten im Diagramm aufgeführten Unterbefehlen gibt es ein Gegenstück in einem<br />
der beiden Dialogfelder des Anklickbefehls. So werden z.B. mit dem Unterbefehl<br />
STATISTICS die zu berechnenden Maßzahlen angegeben. Hier bietet der Syntaxbefehl die<br />
gleichen Möglichkeiten, die auch in den Dialogfeldern zur Verfügung stehen. Anders sieht es<br />
dagegen bei dem Unterbefehl SORT aus (Reihenfolge des Anzeigens). Zwar findet er sich<br />
auch in dem Dialogfeld DESRIPTIVE STATISTIK: OPTIONEN, jedoch mit weniger<br />
Alternativen als beim Syntaxbefehl. Der Unterbefehl MISSING, der den Umgang mit<br />
fehlenden Werten in den ausgewählten Variablen regelt, ist sogar nur im Syntaxbefehl<br />
verfügbar. Das bedeutet, dass bei alleiniger Befehlsgebung über die Dialogfelder im Falle von<br />
missing data eine von SPSS vorbestimmte (unbekannte, jedoch naheliegende) Voreinstellung<br />
zum Zuge kommen muß.<br />
Möchten wir z.B. von den beiden Variablen<br />
depression<br />
lebenszufriedenheit<br />
die Kennwerte MEAN SUM STDDEV VARIANCE SEMEAN ausgeben lassen und sollen<br />
die standardisierten Werte der Variablen als neue Variablen in der Datendatei gespeichert<br />
werden (SAVE) und die Ergebnisse in der alphabetischen Reihenfolge der Variablen ausgegeben<br />
werden, so kann man sich diese Wünsche alleine durch Anklicken erfüllen lassen. Der<br />
entsprechende Syntaxbefehl würde wie folgt aussehen<br />
Seite - 89 -
Skript: Benutzung von SPSS<br />
DESCRIPTIVES<br />
VARIABLES = depression lebenszufriedenheit<br />
/SAVE<br />
/STATISTICS = MEAN SUM STDDEV VARIANCE SEMEAN<br />
/SORT = NAME (A) .<br />
Dabei müßte der Unterbefehl VARIABLES nicht explizit aufgeführt werden.<br />
Da sich übrigens alle SPSS-Schlüsselwörter auf ihre drei Anfangsbuchstaben reduzieren<br />
lassen und auch nicht jeder Unterbefehl in einer neuen Zeile stehen muß, könnte der gleiche<br />
Befehl auch wie folgt geschrieben werden:<br />
DES depression lebenszufriedenheit /SAV /STA=MEA SUM STD VAR SEM<br />
/SOR=NAM(A) .<br />
Das sieht dann schon nach einer Geheimsprache aus.<br />
14.5.6 Einbindung der Syntax in den dialoggesteuerten Ablauf<br />
Anhand einiger Beispiele soll gezeigt werden, wie die SPSS-Syntax nutzbringend in einen<br />
SPSS-Dialog eingebracht werden kann. Nach einem Dialog drücken wir also die<br />
EINFÜGEN-Taste, wodurch die angeklickten Einstellungen als Syntax in den Syntax-Editor<br />
(Syntax-Fenster) eingefügt werden. Diese Syntax können wir nun noch editieren, um Möglichkeiten<br />
auszuschöpfen, die über die Dialogboxen nicht zur Verfügung stehen.<br />
Beispiel 1: CORRELATIONS<br />
Wollen wir zwischen z.B. sechs Variablen die Produkt-Moment-Korrelationen berechnen, so<br />
können wir dies durch Anklicken bewerkstelligen. Der entsprechende Syntax-Befehl könnte<br />
z.B. wie folgt aussehen:<br />
CORRELATIONS<br />
/VARIABLES=V1 V2 V3 V4 V5 V6<br />
/PRINT=TWOTAIL SIG<br />
/MISSING=LISTWISE .<br />
Bei dieser Eingabe wird eine 6 * 6 – Korrelationsmatrix erzeugt. Wollen wir nun aber nicht<br />
die gesamte Matrix berechnen, sondern nur die Variablen V1 V2 V3 mit V4 V5 V6<br />
korrelieren, so müßte man durch Anklicken in umständlicher Weise 3 * 3 = 6 verschiedene<br />
Rechnungen starten, also V1 mit V4, V1 mit V5, . . . , V3 mit V6 korrelieren lassen. Auch<br />
würden wir dann 6 einzelne Korrelationskoeffizienten erhalten, obwohl wir ihre Zusammenstellung<br />
zu einer Matrix wünschen. Betrachten wir jedoch das Syntaxdiagramm dieses Befehls,<br />
so entdecken wir, dass man stattdessen einfach schreiben kann<br />
CORRELATIONS<br />
/VARIABLES=V1 V2 V3 WITH V4 V5 V6<br />
/PRINT=TWOTAIL SIG<br />
/MISSING=LISTWISE .<br />
Das heißt, dass wir den Unterbefehl VARIABLES nur ein wenig zu redigieren brauchen, um<br />
die gewünschte Rechnung zu erzielen.<br />
Übrigens genügt es im Fall, dass man mehrere Variablen eingeben möchte, die in der Datendatei<br />
direkt nebeneinander stehen, nur die erste und letzte zu benennen und mit dem<br />
Schlüsselwort TO zu verbinden. Deshalb könnten wir den Unterbefehl VARIABLES auch<br />
wie folgt schreiben<br />
/VARIABLES=V1 TO V3 WITH V4 TO V6<br />
Im Falle vieler Variablen ergibt sich so eine erhebliche Zeitersparnis bei der Formulierung des<br />
Befehls.<br />
Seite - 90 -
Skript: Benutzung von SPSS<br />
Beispiel 2: Datentransformationen<br />
Mit Hilfe arithmetischer Formeln kann man aus alten Variablen neue errechnen. Z.B. kann es<br />
vorkommen, dass man eine Reihe von Meßwiederholungen bzw. Variablenpaare (t 0 , t 1 ) hat.<br />
Nun möchte man zu jedem Paar eine neue Variable durch Differenzenbildung erzeugen, als<br />
eine, die das Ausmaß der Veränderung einer Person von t 0 zu t 1 anzeigt, z.B. die Abnahme<br />
von Depression aufgrund einer Therapie. Dies könnte man tun, indem man durch<br />
Transformieren fi Berechnen<br />
die entsprechenden Dialogfelder aufruft, für jedes Paar einzeln-individuell. Das ist umständlich.<br />
Zeitsparender und vor allem übersichtlicher wäre es, die verschiedenen Paare wie folgt in<br />
die zugehörige Syntax-Datei hineinzuschreiben:<br />
COMPUTE diffdepr=t1depr-t0depr<br />
COMPUTE diffkonz=t1konz-t0konz<br />
COMPUTE diffzufrie=t1zufrie-t0zufrie<br />
COMPUTE diffmuedigk=t1muedigk-t0muedigk<br />
usw. für eventuelle weitere Variablen-Paare; je mehr Paare, umso zeitsparender und vor allem<br />
auch übersichtlicher wäre dieses Vorgehen.<br />
Wenn wir nun diese Berechnungs-Befehle betrachten, so sind sie alle von gleicher Bauart.<br />
Deswegen bräuchte man sie nicht einmal hinzuschreiben, sondern man könnte sie sogar mit<br />
Hilfe der SPSS-Befehle DO REPEAT – END REPEAT systematisch erzeugen, und zwar<br />
wie folgt:<br />
DO REPEAT<br />
p=diffdpr,diffkonz,diffzufrie,diffmuedigk<br />
/q=t1depr,t1konz,t1zufrie,t1muedigk<br />
/r=t0depr,t0konz,tozufrie,t0muedigk .<br />
COMPUTE p=q-r .<br />
END REPEAT .<br />
Wie man sieht, werden mit p, q und r Platzhalter eingeführt, die es erlauben, den COMPUTE-<br />
Befehl nur einmal hinzuschreiben. Ein solches Vorgehen spart zwar im Beispiel nicht viel an<br />
Aufwand ein, jedoch nur, weil der zunächst wiederholt hingeschriebene Rechenausdruck<br />
klein ist. Anders wäre es, wenn er umfangreich gewesen wäre oder gar aus mehreren umfangreichen<br />
Ausdrücken bestanden hätte. Das Beispiel soll demonstrieren, dass es mit der Syntax<br />
allgemein möglich ist, immer dann, wenn sich (Rechen-)Befehle formal wiederholen, diese in<br />
einer „Schleife“ in abstrakter Form nur einmal hinzuschreiben und somit das Hinschreiben<br />
der u.U. sehr vielen nur konkret verschiedenen Einzelanweisungen einzusparen. Würde man<br />
alle diese Einzelanweisungen gar durch Anklicken berechnen wollen, könnte man schnell die<br />
Übersicht verlieren. Eine Erzeugungssystematik zum Zwecke der Kontrolle, ob auch alle<br />
Einzelanweisungen wirklich angewiesen worden sind, müßte man sich wohl auf jeden Fall<br />
anlegen, im Falle des Anklickens wohl auf einem Extrapapier.<br />
Seite - 91 -
Skript: Benutzung von SPSS<br />
15 Inferenzstatistik<br />
15.1 t-Teste<br />
15.1.1 Allgemeines<br />
Zwei Stichproben des Umfangs N 1 und N 2 sind aus zwei Populationen gezogen worden. Der<br />
t-Test für unabhängige Stichproben überprüft die Nullhypothese, dass die beiden Stichproben<br />
aus Populationen stammen, deren Parameter µ 1 und µ 2 identisch sind.<br />
SPSS besitzt drei t-Tests, den t-Test bei unabhängigen Stichproben, den t-Test bei abhängigen<br />
(gepaarten) Stichproben und den t-Test bei einer Stichprobe.<br />
15.1.2 t-Test bei unabhängigen Stichproben<br />
Zwei Stichproben werden unabhängig voneinander gezogen. Das ist der Fall, wenn z.B.<br />
gefragt wird, ob sich Männer und Frauen in einer bestimmten Eigenschaft voneinander<br />
unterscheiden, und die eine Stichprobe aus der Population der Frauen und die andere aus der<br />
Population der Männer gezogen wird. Dann hat die Auswahl bzw. Zusammensetzung in der<br />
einen Stichprobe keinen Einfluss auf die Auswahl bzw. Zusammensetzung der anderen<br />
Stichprobe. Die beiden Stichproben sind unabhängig voneinander gezogen worden.<br />
Ferner wird vorausgesetzt, dass Zufallsstichproben vorliegen, also in jeder Population jedes<br />
Element die gleiche Chance hatte, in die Stichprobe zu kommen.<br />
Der t-Test für unabhängige Stichproben prüft, ob die Mittelwerte µ der beiden zugehörigen<br />
Populationen gleich groß sind:<br />
H 0 : µ 1 - µ 2 = 0<br />
H 1 : µ 1 - µ 2 ≠ 0 (ungerichtet, d.h. das eine µ größer oder kleiner als das andere ist)<br />
Um die Nullhypothese prüfen zu können, ist als Prüfmaß der Wert t definiert worden:<br />
t =<br />
M<br />
1<br />
− M<br />
2<br />
2 2<br />
S1<br />
S2<br />
+<br />
N1<br />
N2<br />
M 1 und M 2 stellen die Mittelwerte der beiden Stichproben dar, S 1 und S 2 ihre Streuungen, N 1<br />
und N 2 die Stichprobenumfänge. Die Gleichung definiert eine Zufallsvariable, die für kleine<br />
Stichproben mit df = N 1 +N 2 -2 Freiheitsgraden „t-verteilt“ ist und für größere Stichproben<br />
(etwa df > 50) zunehmend normalverteilt, da die t-Verteilungen mit wachsendem N in eine<br />
Standardnormalverteilung übergehen (t → z).<br />
Die grundliegende Idee des Prüfwertes t ist die einer Verteilung der Differenzen der Stichprobenmittelwerte,<br />
die sich ergibt, wenn sehr häufig zwei voneinander unabhängige<br />
Stichproben gezogen werden. Gilt H 0 , so hat diese Verteilung einen Erwartungswert von µ 1 -<br />
µ 2 = 0. Die Schätzung der Streuung sM 1 − M<br />
dieser Verteilung, der geschätzte Standardfehler<br />
2<br />
der Differenz zweier Mittelwerte, ergibt sich aus den geschätzten Standardfehlern beider<br />
2<br />
2 2<br />
Mittelwerte, wie der Ausdruck unterhalb des Bruchstriches zeigt (genauer s<br />
M1− M<br />
= s<br />
2 M<br />
+ s<br />
1 M<br />
,<br />
2<br />
d.h. als Summe).<br />
Bei der Prüfung der Nullhypothese geht es um die Frage, mit welcher Wahrscheinlichkeit eine<br />
beobachtete Differenz M 1 –M 2 oder eine noch extremere zufällig zustande kommen kann.<br />
Diese Wahrscheinlichkeit wird durch den t-Test berechnet. Zur Entscheidung, ob H 0 , dass die<br />
Mittelwerte der Grundgesamtheiten identisch sind, beibehalten werden soll, sich also die<br />
beobachtete Mittelwertedifferenz nur zufällig ergeben hat, oder ob vielmehr eine<br />
Seite - 92 -
Skript: Benutzung von SPSS<br />
Verschiedenheit der beiden Populationsmittelwerte angenommen werden soll, ist vorher ein<br />
α-Fehler-Niveau (Signifikanzniveau) festzulegen. Häufig angewendete Niveaus sind α = 0,05<br />
und α = 0,01. Sie besagen, die Nullhypothese erst dann zu verwerfen, wenn die<br />
Irrtumswahrscheinlichkeit (auch α-Fehler-Wahrscheinlichkeit) kleiner oder gleich 5% bzw.<br />
1% ist. Beträgt also die Wahrscheinlichkeit für die beobachtete Differenz oder für eine noch<br />
extremere unter der Annahme, H 0 sei richtig, z.B. höchstens 5%, so wird dieses Ergebnis als<br />
signifikant auf dem 5%-Niveau bezeichnet, und H 0 verworfen und stattdessen H 1 akzeptiert.<br />
Dies geschieht unter dem Risiko, einen α-Fehler zu begehen, nämlich H 1 anzunehmen,<br />
obwohl H 0 gilt.<br />
Die Höhe des anzulegenden α-Niveaus sollte nicht mechanisch/unüberlegt mit 5% oder 1%<br />
übernommen werden, sondern von vor (!) der Testdurchführung vorgenommenen Risiko-<br />
Überlegungen abhängen, nämlich von den (erheblichen, z.B. teuren) Konsequenzen, die eine<br />
irrtümliche Entscheidung für H 1 haben könnte, in jenem inhaltlichen Bereich, aus dem die<br />
Fragestellung stammt.<br />
Ein signifikant ausgefallener t-Test besagt nur, dass H 1 angenommen wird, dass also µ 1 - µ 2 ≠<br />
0 ist. Über das Ausmaß der Differenz wird nichts ausgesagt. Dazu kann aber das Konfidenzintervall<br />
eine gewisse Aussage machen, nämlich dass die Differenz der Mittelwerte beider<br />
Grundgesamtheiten mit einer voreingestellten Wahrscheinlichkeit, z.B. 95%, in einem<br />
gewissen Bereich (untere Grenze/obere Grenze) liegen wird.<br />
Nunmehr sind wir in der Lage, die t-Test-Prozedur mit Verständnis aufzurufen. Mit<br />
Analysieren fi Mittelwerte vergleichen fi T-Test bei unabhängigen Stichproben<br />
erhalten wir das erste Dialogfeld des Tests:<br />
Abb. 69: t -Test bei unabhängigen Stichproben<br />
Während wir in das Feld der Testvariablen die „abhängige“ Variable eingeben, geben wir<br />
unter „Gruppenvariable“ die „unabhängige“ (oder bedingende) Variable ein, also jene, von<br />
der wir annehmen, dass von ihren Ausprägungen/Stufen/Einzelbedingungen die Messwerte<br />
der Fälle (Personen) auf der abhängigen Variablen abhängen.<br />
Der Versuchsplan im Hintergrund<br />
Mit den Begriffen „unabhängige“ Variable (UV) und „abhängige“ Variable (AV) wird<br />
signalisiert, dass im Hintergrund der t-Test-Anwendung ein Versuchsplan steht. Z.B. kann in<br />
der Depressionsforschung eine neue noch hypothetische Therapie entwickelt worden sein,<br />
deren Wirksamkeit nun empirisch untersucht werden soll. Deshalb erhält eine erste<br />
Stichprobe aus einer definierten Population von Depressiven die Therapie, während eine<br />
zweite Stichprobe aus dieser Population keine Therapie erhält (Kontrollgruppe). Die<br />
unabhängige Variable (UV) besitzt jetzt zwei Gruppen (Stichproben), die Gruppe der<br />
Therapierten und die Gruppe der Nicht-Therapierten. Die abhängige Variable (AV) wird<br />
natürlich ein Test sein, der das Ausmaß einer vorliegenden Depression misst. Während sich<br />
vor der Therapie die beiden Gruppen im Ausmaß ihrer durchschnittlichen Depression nur<br />
Seite - 93 -
Skript: Benutzung von SPSS<br />
zufällig unterscheiden können (Zufallsstichproben), wird aufgrund der Theorie, auf der die<br />
neu entwickelte Therapie fußt, angenommen, dass diese in bestimmter Weise wirken wird.<br />
Nach Beendigung der Therapie sollten sich die Depressionsmittelwerte beider Stichproben<br />
deshalb nicht mehr nur zufällig unterscheiden, sondern aufgrund des Therapie-Einflusses<br />
verschieden sein, und zwar so, dass die therapierte Stichprobe jetzt einen kleineren<br />
Depressionswert aufzeigt. Es liegt damit aufgrund des Versuchsplans eine einseitige<br />
(gerichtete) Fragestellung vor.<br />
Damit ist kurz der Zusammenhang von Theorienbildung/Forschung → Versuchsplanung →<br />
Statistik → EDV/SPSS aufgezeigt worden. Er steht bei jeder Anwendung von SPSS im<br />
Hintergrund. Man sollte sich dieses Zusammenhangs immer bewusst sein.<br />
Nachdem wir die Gruppenvariable (UV) eingegeben haben, sind die Gruppen zu definieren.<br />
Durch Anklicken des entsprechenden Taste erhalten wir das folgende Dialogfeld<br />
Abb. 70: Gruppen definieren<br />
Hier geben wir die numerischen Codes der beiden Gruppen ein, so wie sie in der Datenmatrix<br />
in der Gruppenvariablen stehen. Dadurch kann sich SPSS die Fälle heraussuchen, die zu den<br />
damit bezeichneten Gruppen gehören. Sollte eine Gruppierungsvariable mehr als zwei Werte<br />
aufweisen (in der Regel liegt dann eine kontinuierliche Variable vor), kann man den Knopf<br />
CUT POINT betätigen und einen Trennwert eingeben. Dann werden zur ersten Gruppe alle<br />
Fälle gezählt, die kleiner als dieser kritische Wert sind, und zur zweiten Gruppe alle Fälle mit<br />
Werten, die gleich dem kritischen Wert oder größer sind. (Fälle mit fehlenden Werten werden<br />
natürlich nicht berücksichtigt.) Z.B. könnte ein Trennwert der Median-Wert (50%-Punkt)<br />
sein. Dann würde die Gesamtstichprobe aller Fälle in zwei Unterstichproben aufgeteilt<br />
werden. Ob das Sinn macht, hängt aber ganz von der Fragestellung ab, die ein Versuch(splan)<br />
beantworten soll.<br />
Im Dialogfeld OPTIONEN<br />
Abb. 71: Dialogfeld OPTIONEN<br />
kann der Sicherheitsgrad des Konfidenzintervalls festgelegt werden. Voreingestellt ist 95%.<br />
Des weiteren kann die Behandlung fehlender Werte bestimmt werden. Beim analyseweisen<br />
Ausschluss werden nur solche Fälle einbezogen, die in der Gruppierungsvariable und in der<br />
Testvariable keinen fehlenden Wert aufweisen (Normalfall). Sollten allerdings mehrere<br />
Testvariablen im vorausgehenden Dialogfeld eingegeben worden sein, dann werden nur jene<br />
Fälle ausgewählt, die in allen Variablen dieser Variablenliste einen gültigen Wert aufweisen<br />
(listenweiser Fallausschluss). Für jede Testvariable würde der t-Test gerechnet werden.<br />
Die Ausgabe sieht wie folgt aus:<br />
Seite - 94 -
Skript: Benutzung von SPSS<br />
Gruppenstatistiken<br />
P6 DEPR SUMME<br />
D01 BIS D15<br />
GESCHLECHT<br />
WEIBL<br />
MAENNL<br />
N<br />
Mittelwert<br />
Standardab<br />
weichung<br />
Standardfe<br />
hler des<br />
Mittelwertes<br />
260 2.99 3.420 .212<br />
145 1.71 2.840 .236<br />
Test bei unabhängigen Stichproben<br />
P6 DEPR SUMMEVarianzen sind gleich<br />
D01 BIS D15 Varianzen sind nicht<br />
gleich<br />
Levene-Test der<br />
Varianzgleichheit<br />
F<br />
Signifikanz<br />
T df Sig. (2-seitig)<br />
T-Test für die Mittelwertgleichheit<br />
Mittlere Standardfehle<br />
95% Konfidenzintervall<br />
der Differenz<br />
Differenz r der Differenz Untere Obere<br />
8.028 .005 3.824 403 .000 1.28 .334 .621 1.935<br />
4.029 345.414 .000 1.28 .317 .654 1.902<br />
Abb. 72: Output des t-Tests für unabhängige Stichproben<br />
In diesem Output erkennen wir, dass zwei t-Tests durchgeführt wurden, einen unter der<br />
Annahme, dass die Varianzen beider Populationen gleich sind, und einen unter der Annahme,<br />
dass sie ungleich sind.<br />
Levene-Test<br />
Zuvor wurde der Levene-Test zur Prüfung der Gleichheit mit Hilfe des F-Testes durchgeführt,<br />
der auf einer weiteren Zufallsverteilung, der F-Verteilung basiert. Der Test vergleicht die<br />
beiden Stichprobenvarianzen miteinander, indem er die Nullhypothese prüft, dass die beiden<br />
Varianzen aus Grundgesamtheiten mit gleichen Varianzen stammen, d.h. mögliche<br />
Varianzunterschiede nur stichprobenbedingt zufällig sind. Zur Entscheidung, ob die<br />
Nullhypothese beizubehalten ist, ist wieder ein α-Fehler-Niveau anzulegen. Dazu sollte hier<br />
ein höheres Niveau gewählt, z.B. α = 0,20. Dies liegt daran, dass hier bei der Prüfung der<br />
Voraussetzung gleicher Varianzen für den t-Test unser Interesse darauf gerichtet ist, die H 0<br />
beizubehalten, und nicht, wie sonst üblich, sie zu verwerfen, weil wir in Wahrheit die H 1 -<br />
Hypothese meinen. Wir haben es hier also mit einer Fragestellung zu tun, bei der nicht die<br />
Wahrscheinlichkeit des α-Fehlers (Entscheidung zugunsten von H 1 , obwohl in der Population<br />
H o gilt), sondern die Wahrscheinlichkeit des β-Fehlers möglichst klein sein sollte. Der β-<br />
Fehler kennzeichnet die Wahrscheinlichkeit, die H 0 zu akzeptieren, obwohl sie falsch ist.<br />
Wenn wir uns also bei der Überprüfung der Voraussetzung gleicher Varianzen statt gegen den<br />
α-Fehler gegen den β-Fehler absichern wollen, dann bedeutet das, dass die<br />
Wahrscheinlichkeit dafür, dass wir fälschlicherweise behaupten, die Varianzen seien gleich<br />
(H 0 ), möglichst klein sein sollte. Der β-Fehler kann jedoch nur bestimmt werden, wenn eine<br />
spezifische Alternativhypothese vorliegt (Effektgröße: µ 1 ist (mindestens) um den Betrag x<br />
größer als µ 2 ). Da dies bei Überprüfung der Gleichheit der Varianzen praktisch niemals der<br />
Fall ist, müssen wir den β-Fehler indirekt klein halten, indem wir den α-Fehler vergrößern.<br />
Entscheiden wir uns bei einem α = 0,20-Fehler-Niveau für H 0 , wird diese Entscheidung mit<br />
einem kleineren β-Fehler behaftet sein, als wenn wir bei α = 0,05 die H 0 beibehalten.<br />
Nun scheint diese Diskussion ja nicht so relevant zu sein, weil doch, gleichgültig, ob die<br />
Populationsvarianzen gleich sind oder nicht, in jedem Fall ein t-Test gerechnet wird. Der<br />
Unterschied besteht im Folgenden:<br />
Obige Formel zur Berechnung der t-Wertes geht von der Annahme ungleicher Varianzen aus.<br />
Wenn jedoch unterstellt werden kann, dass die Varianzen gleich sind, wird bei der<br />
Berechnung des t-Wertes anstelle der beiden empirischen Gruppenvarianzen ein gewogenes<br />
(„gepooltes") Mittel dieser Varianzen verwendet,<br />
Seite - 95 -
Skript: Benutzung von SPSS<br />
S P<br />
( N<br />
=<br />
1<br />
2<br />
−1)<br />
⋅ S1<br />
+ ( N2<br />
− 1) ⋅S<br />
N + N − 2<br />
1<br />
2<br />
2<br />
2<br />
d.h. beide werden zu einer Varianz zusammengefasst, welche dann in der obigen t-Test-<br />
Formel an den Stellen der beiden empirischen Gruppenvarianzen eingesetzt wird.<br />
Die Ergebnisse des t-Tests auf der Basis gewogener Varianzen werden von SPSS also in der<br />
Zeile Varianzen sind gleich ausgewiesen.<br />
Im Falle gewogener Varianzen kann der t-Test dann leicht zu Fehlern führen, wenn entgegen<br />
der Annahme doch ein Unterschied zwischen den Varianzen der Grundgesamtheiten besteht.<br />
Der Fehler ist um so größer, je stärker sich die Varianzen unterscheiden. Wird umgekehrt der<br />
t-Test für ungleiche Varianzen durchgeführt, obwohl in Wahrheit gleiche Varianzen<br />
vorliegen, wird die Irrtumswahrscheinlichkeit etwas zu hoch ausgewiesen. Sollten Zweifel<br />
bezüglich der Annahme gleicher Varianzen bestehen, wird man deshalb vorsichtigerweise den<br />
Test für ungleiche Varianzen wählen. Allgemein gilt aber, dass sich bei großen Stichproben<br />
nur geringe Unterschiede zwischen den beiden Testverfahren ergeben.<br />
Signifikanzprüfung<br />
Die Sig.(2-seitig) meint die Wahrscheinlichkeit, mit der die beobachtete Mittelwertedifferenz<br />
gemäß t-Verteilung zufällig auftritt. Ist sie
Skript: Benutzung von SPSS<br />
Kontrollgruppe verzichten würden und die Patienten vor und nach der Therapie testen<br />
würden. Dann hoffen wir natürlich darauf, dass der Mittelwert der Patienten nach der<br />
Therapie geringer ausfallen wird als vorher (H 1 ). Bei einem solchen Versuchsplan sind aber<br />
die Depressionsmessungen nicht unabhängig voneinander, da beide Messungen an denselben<br />
Personen vorgenommen wurden. Statt von zwei Messungen spricht man formal auch von<br />
zwei voneinander abhängigen Stichproben. Da ihre Messwerte nicht voneinander unabhängig<br />
sind, werden es ihre Mittelwerte auch nicht sein.<br />
Ein anderer Fall der Abhängigkeit liegt vor, wenn jeweils eine Person aus einer ersten<br />
Stichprobe und eine zweite aus einer zweiten Stichprobe so ausgewählt werden, dass sie nach<br />
einem oder mehreren Merkmalen ein Paar bilden, d.h. die gleichen Merkmalsausprägungen<br />
aufweisen. Man spricht dann von parallelisierten Stichproben (matched samples). Der<br />
Vorteil dieser aufwendigen Vorgehensweise (gegenüber unabhängigen Stichproben) besteht<br />
darin, dass zufällige Unterschiede zwischen beiden Stichproben in Bezug auf ihre<br />
Zusammensetzung ausgeschlossen oder zumindest vermindert werden.<br />
Es gibt noch weitere Anwendungsfälle. Entscheidend ist, dass die einzelnen Beobachtungen<br />
der zu vergleichenden Gruppen nicht unabhängig voneinander zustande kommen, sondern<br />
jeweils paarweise ein systematischer Zusammenhang besteht. Daraus folgt auch, dass die<br />
beiden Stichproben die gleiche Anzahl von Fällen aufweisen müssen.<br />
Beim t-Test für abhängige Stichproben ist also zu berücksichtigen, dass die Varianz der einen<br />
Messwertreihe/Stichprobe von der Varianz der anderen Messwertreihe/Stichprobe beeinflusst<br />
wird. Wenn wir z.B. die Patienten therapieren, können die Unterschiede zwischen den<br />
Patienten, die vor der Therapie bestanden haben, auch noch nach ihr bestehen. Wenn wir nun<br />
den Standardfehler der Differenz so wie bei unabhängigen Stichproben schätzen würden,<br />
nämlich durch die Wurzel aus der Summe der Quadrate der geschätzten Standardfehler der<br />
beiden zu vergleichenden Mittelwerte (vgl. den Divisor in obiger t-Test-Formel), würden<br />
Unterschiede zwischen den Patienten, die vor und nach der Therapie bestünden, doppelt<br />
berücksichtigt werden, weil sie den Standardfehler des ersten und des zweiten Mittelwertes<br />
zumindest teilweise beeinflussen. Der Anteil der gemeinsamen Varianz würde dabei um so<br />
größer sein, je höher beide Stichproben korrelieren. Die Formel für die Schätzung des durch<br />
die Korrelation verringerten Standardfehlers für die Differenz zweier Mittelwerte lautet<br />
S<br />
2 2<br />
M1 − M<br />
= S 2<br />
2 M<br />
+ S<br />
1 M<br />
− r<br />
2 12<br />
⋅ SM<br />
⋅S<br />
1 M 2<br />
In der Praxis berechnet man ihn meistens anders. Die zweifache Berücksichtigung der<br />
gleichen Unterschiedlichkeit lässt sich nämlich umgehen, indem man für jedes Messwertpaar<br />
die Differenz bildet und anschließend den Mittelwert M d der Differenzen berechnet. Sodann<br />
interessiert uns die Verteilung solcher Mittelwerte. Deren geschätzte Streuung, der<br />
Standardfehler der Verteilung der Mittelwerte der Differenzen, lautet, analog zur Schätzung<br />
des Standardfehlers des arithmetischen Mittels,<br />
S<br />
M d<br />
=<br />
S<br />
d<br />
N<br />
sodass sich der t-Wert für abhängige Stichproben nach der Formel<br />
t =<br />
M<br />
S<br />
d<br />
M d<br />
berechnen lässt.<br />
M d ist auch gleich der Differenz aus den Mittelwerten beider Stichproben.<br />
Seite - 97 -
Skript: Benutzung von SPSS<br />
Nunmehr können wir den t-Test für abhängige Stichproben in SPSS aufrufen.<br />
Analysieren fi Mittelwerte vergleichen fi T-Test bei gepaarten Stichproben<br />
Abb. 73: T-Test bei gepaarten Stichproben<br />
Im Dialogfeld ist ein „Variablenpaar“ auszuwählen, d.h. dass SPSS statt von zwei<br />
Stichproben mit einer abhängigen Variablen (einer Testvariablen) formal von einer<br />
Stichprobe ( N = Anzahl der Paare) mit zwei Variablen (das sind die beiden Messungen)<br />
spricht. Die Stichprobe besteht also jetzt aus allen Fällen des Datensatzes, bzw. aus einer<br />
vorher ausgewählten Unterstichprobe.<br />
Man kann auch mehrere Variablenpaare auswählen, wobei eine Variable auch in mehreren<br />
Paaren vorkommen kann. Für jedes Paar wird anschließend ein eigener t-Test durchgeführt.<br />
Alternativ könnte man die ganze Prozedur auch wiederholt aufrufen, für jedes Paar einzeln.<br />
Dabei könnten sich allerdings evtl. Unterschiede in der Behandlung fehlender Werte ergeben:<br />
statt listenweisen Fallausschluss, Fallausschluss Test für Test, je nach Einstellung im<br />
Folgefeld OPTIONEN. Dort kann auch wieder der Sicherheitsgrad für das Konfidenzintervall<br />
eingestellt werden.<br />
Der Output bedarf wohl keiner weiteren Erläuterung. Ausgegeben wird auch die Korrelation<br />
zwischen beiden Messwertreihen/Variablen. Sie wird daraufhin überprüft, ob sie von r = 0<br />
(Nullhypothese) verschieden ist. Wie erinnerlich, ist der Korrelationskoeffizient ein Maß für<br />
die Stärke des linearen Zusammenhangs. Mit ihm wird daher ausgesagt, ob Personen, die in<br />
der einen Messwertreihe einen hohen/niedrigen Wert aufweisen, dies tendenziell auch in der<br />
anderen Messwertreihe tun. Der Koeffizient kann daher auch Hinweis dafür sein, ob das<br />
Paaren zufällige Unterschiede gegenüber der Ziehung unabhängiger Stichproben vermindern<br />
kann. Je größer der Koeffizient, desto größer ist der lineare Zusammenhang zwischen beiden<br />
Gruppen, so dass auch das Paaren eine entsprechende Auswirkung gehabt haben muss.<br />
15.1.4 t-Test bei einer Stichprobe<br />
Es wird geprüft, ob, mit welcher Wahrscheinlichkeit der Mittelwert µ der Population, aus der<br />
die Stichprobe gezogen wurde, einen vorgegebenen Wert über- oder unterschreitet. Z.B. kann<br />
geprüft werden, ob der durchschnittliche Intelligenzwert einer Stichprobe signifikant vom<br />
bekannten oder zu postulierenden Mittelwert der Population (µ = 100 als vorzugebener<br />
Testwert) abweicht. Oder es kann geprüft werden, ob der Mittelwert von dem Wert abweicht,<br />
der sich in einer anderen Studie ergeben haben möge.<br />
Die t-Verteilung ist anwendbar, da, wenn Stichproben des Umfangs N aus einer<br />
normalverteilten Grundgesamtheit gezogen werden, sich die am geschätzten Standardfehler<br />
S M relativierten Differenzen M - µ entsprechend einer t-Verteilung mit N-1 Freiheitsgraden<br />
verteilen.<br />
Seite - 98 -
Skript: Benutzung von SPSS<br />
Die Ausgabe enthält ferner ein Konfidenzintervall für den Populationsmittelwert µ. Das<br />
Intervall gibt an, dass µ mit einer Wahrscheinlichkeit von z.B. 95% im Bereich „vorgegebener<br />
Testwert + ausgegebene untere Grenze“ und „vorgegebener Wert + ausgegebene obere<br />
Grenze“ liegt.<br />
Analysieren fi Mittelwerte vergleichen fi T-Test bei einer Stichprobe<br />
Abb. 74: T-Test bei einer Stichprobe<br />
Zunächst geben wir die Testvariable ein, z.B. die Testvariable „IQ“. (Die Stichprobe besteht<br />
aus allen Fällen (Personen) des Datensatzes, bzw. aus alle Fällen, die wir vorher ausgewählt<br />
haben.) Sodann geben wir den Testwert ein, z.B. 100. Im Dialogfeld Optionen<br />
Abb. 75: T-Test bei einer Stichprobe: Optionen<br />
kann der Sicherheitsgrad des Konfidenzintervalls festgelegt werden. Voreingestellt ist 95%.<br />
Des weiteren kann die Behandlung fehlender Werte bestimmt werden, wie bereits bekannt.<br />
Die Ausgabe sieht wie folgt aus:<br />
Abb. 76: Ausgabe des Ein-Stichproben-T-Tests<br />
Der ausgegebene t-Wert oder ein noch größerer kommt bei x Freiheitsgraden (df: degrees of<br />
freedom) gemäß t-Verteilung mit der ebenfalls ausgegebenen Wahrscheinlichkeit p (Sig. (2-<br />
seitig) zufällig vor. Zur Entscheidung, ob also in jener Population, aus dem die Stichprobe<br />
stammt, µ vom vorgegebenen Testwert verschieden ist, ist wieder ein α-Fehler-Niveau<br />
(Signifikanzniveau) anzulegen. Sollte p
Skript: Benutzung von SPSS<br />
stattdessen H 1 akzeptieren, dass also ein solcher Unterschied in der Grundgesamtheit<br />
tatsächlich vorhanden ist.<br />
Ein derart signifikanter t-Test besagt nur, dass µ überhaupt vom vorgegebenen Testwert<br />
verschieden ist. Über die Größe des Abstands beider Werte wird nichts ausgesagt. Dazu kann<br />
aber das Konfidenzintervall gewisse Hinweise geben, dessen (gemäß voreingestelltem<br />
Sicherheitsgrad) untere und obere Grenzen mit ausgegeben werden. Um die tatsächlichen<br />
Grenzen zu bestimmen, in denen µ gemäß eingestelltem Sicherheitsgrad liegen wird, sind<br />
diese Grenzen je nach Vorzeichen zum vorgegebenen Testwert zu addieren/subtrahieren.<br />
(Hinweis: Das Konfidenzintervall ist also keins für das Populationsmittel µ, sondern eins für<br />
die Differenz µ - Testwert. Falls man die Grenzen für µ direkt haben möchte, müsste der<br />
Testwert 0 eingegeben werden. Die Ergebnisse des t-Tests wären dann aber nicht sinnvoll und<br />
dürften nicht beachtet werden.)<br />
15.2 Einfache Varianzanalyse<br />
Die einfache (einfaktorielle, One-Way) Varianzanalyse (VA, engl. Analysis of Variance<br />
ANOVA) stellt eine Erweiterung des t-Tests für unabhängige Stichproben von 2 auf k<br />
Stichproben dar. Geprüft wird die Nullhypothese, dass die Mittelwerte der k Populationen,<br />
aus denen die k Stichproben gezogen wurden, gleich groß sind (nur 2-seitig):<br />
µ 1 = µ 2 = ... = µ k .<br />
Eine „einfache“ VA heißt, dass nur eine Gruppierungsvariable (unabhängige Variable, UV)<br />
vorliegt. Diese wird auch als (Einfluss- oder bedingender) „Faktor“ bezeichnet.<br />
Im Falle von nur 2 Stichproben ist das Ergebnis der VA und des t-Tests identisch: t = F .<br />
Voraussetzungen zur Anwendung der VA sind, wie schon bei den t-Tests,<br />
a) dass die Stichproben aus normalverteilten Populationen stammen. Dazu gibt es inferenzstatistische<br />
Tests, aber auch graphische Tests als Normalverteilungsplots.<br />
b) dass die Varianzen der Grundgesamtheiten gleich sind. Das kann wieder mit dem Levene-<br />
Test überprüft werden.<br />
Grundsätzlich ist auf „nichtparametrische“ bzw. sog. „verteilungsfreie“ Verfahren<br />
auszuweichen, wenn die Voraussetzungen zur Anwendung eines parametrischen Tests nicht<br />
gegeben sind. Beim t-Test für unabhängige Stichproben wäre das der U-Test von Mann-<br />
Whitney, beim t-Test für abhängige Stichproben der Wilcoxon-Test. Bei der hier jetzt<br />
erörterten einfaktoriellen VA wäre es der H-Test von Kruskal und Wallis.<br />
Bei der Varianzanalyse wird die gesamte Streuung über die Fälle (Personen) aller k<br />
Stichproben hinweg in zwei voneinander unabhängige Quellen zerlegt („Varianz-Analyse“),<br />
in eine Streuung „zwischen“ den Stichproben und in eine Streuung innerhalb der Stichproben:<br />
Quadratsumme „total“ = Quadratsumme „zwischen“ + Quadratsumme „innerhalb“<br />
Auch die zugehörigen Freiheitsgrade folgen dieser Zerlegung:<br />
Freiheitsgrade „total“ = Freiheitsgrade „zwischen“ + Freiheitsgrade „innerhalb“<br />
Als Formel: N-1 = (k-1) + (N-k)<br />
wobei N die Gesamtzahl der Fälle über alle k Gruppen darstellt, also N = n*k, wenn wir mit n<br />
die bei allen Stichproben gleiche Stichprobengröße bezeichnen. (Gleiches n für alle<br />
Stichproben ist aber nicht unbedingt notwendig).<br />
Seite - 100 -
Skript: Benutzung von SPSS<br />
Die zugehörigen Varianzen erhalten wir, indem wir durch die zugehörigen Freiheitsgrade<br />
dividieren:<br />
S = QS z /(k-1)<br />
2<br />
z<br />
2<br />
i<br />
S = QS i /(N-k)<br />
Quadratsummen, die durch ihre Freiheitsgrade dividiert worden sind, werden auch als<br />
„Mittlere Quadrate“ bezeichnet. Entsprechend auch<br />
2<br />
S<br />
t<br />
= QS t /(N-1)<br />
Die Varianz „innerhalb“ gibt an, wie sehr die einzelnen Werte in den Stichproben um ihren<br />
jeweiligen Gruppenmittelwert streuen, die Varianz „zwischen“, wie sehr die Mittelwerte der<br />
Stichproben um den Mittelwert der gesamten Stichprobe streuen, die Varianz „total“, wie sehr<br />
alle Fälle um diesen Mittelwert streuen.<br />
Der inferenzstatistische Ansatz besteht nun darin, dass mit den beiden mittleren Quadraten<br />
„zwischen“ und „innerhalb“ zwei voneinander unabhängige Schätzungen der unter H 0 nur<br />
einen Populationsvarianz σ 2 vorliegen. Entsprechend prüft die Varianzanalyse mithilfe des F-<br />
Testes die Nullhypothese, ob die beiden Varianzen nur zufällig voneinander abweichen:<br />
F = geschätzte Varianz „zwischen“ / geschätzte Varianz „innerhalb“ wobei wir die Varianz<br />
„zwischen“ in den Zähler setzen, da wir an der Frage interessiert sind, ob die Varianz der k<br />
Mittelwerte noch als zufällig angesehen werden kann oder nicht.<br />
Die Varianz „innerhalb“ halten wir für die bessere, verlässlichere Schätzung, die nicht von<br />
möglichen Unterschieden „zwischen“ den Gruppen beeinflusst wird. Auch haben wir keinen<br />
sonstigen Grund anzunehmen, dass sie aus irgendeiner Ursache von der unter H 0<br />
angenommenen einen Populationsvarianz wesentlich abweichen könnte. Alle sind ja<br />
Zufallsstichproben. Sie müsste also eine echte „Fehlervarianz“ darstellen. Dagegen erwarten<br />
wir aufgrund eines Versuchsplans „zwischen“ den Gruppenmittelwerten Unterschiede, d.h.<br />
aufgrund inhaltlicher Begründungen/Hypothesen, so dass der Varianzanalyse folgende<br />
Hypothese zugrunde liegt:<br />
H 0 : µ 1 = µ 2 = µ 3 = ... = µ k<br />
H 1 : µ i ≠ µ j ,<br />
d.h. mindestens 2 Mittelwerte sind ungleich, prinzipiell zweiseitige Fragestellung<br />
(Aufgrund einer Konvention (vgl. die Definition der F-Verteilung bzw. des F-Tests) ist es<br />
üblich, die (per H 1 anzunehmende) größere Variation, hier die Varianz „zwischen“, in den<br />
Zähler des F-Bruches zu setzen. Die Durchführung eines F-Tests erübrigt sich, wenn die<br />
Varianz im Zähler kleiner als im Nenner ist. Der F-Wert beginnt erst mit Werten > 1. Der<br />
Varianzunterschied wird damit einseitig geprüft, Abschnitt nur von der rechten Seite der F-<br />
Verteilung.)<br />
Die Zufallsverteilung von F ist bekannt. Mit ihrer Hilfe kann also die Wahrscheinlichkeit<br />
ermittelt werden, mit der ein beobachteter/aufgrund der Stichproben berechneter F-Wert oder<br />
ein noch größerer sich per Zufallsschwankung auch ergeben kann, wenn die Mittelwerte der k<br />
Populationen gleich sind.<br />
Nach dieser kurzen Rekapitulation dessen, was zum Verständnis des Outputs des<br />
Rechenverfahrens mindestens notwendig ist, können wir nunmehr die Rechenprozedur<br />
starten:<br />
Seite - 101 -
Skript: Benutzung von SPSS<br />
Analysieren fi Mittelwerte vergleichen fi Einfaktorielle ANOVA<br />
Der Befehl öffnet das folgende Dialogfeld:<br />
Abb. 77: Einfaktorielle ANOVA<br />
Als abhängige Variable(n) fügen wir jene Variablen ein, deren Stichprobenmittelwerte<br />
verglichen werden sollen. Bei mehreren abhängigen Variablen wird für jede eine VA<br />
durchgeführt. (Dann allerdings werden nur solche Fälle einbezogen, die in keiner dieser<br />
Variablen fehlende Werte aufweisen.)<br />
Im Feld Faktor wird die UV eingefügt, also jene, die die Stichproben/Gruppen definiert.<br />
Nunmehr könnte die VA bereits gestartet werden. Wir wollen jedoch noch einige Angaben zu<br />
den drei Tasten machen, die man noch in diesem Dialogfeld betätigen kann.<br />
Taste OPTIONEN: Hier können mit der Option DESKRIPTIVE STATISTIK für jede Gruppe<br />
die Anzahl ihrer Fälle, ihr Mittelwert, ihre Standardabweichung, der Standardfehler des<br />
Mittelwertes und das 95%-Konfidenzintervall (untere und obere Grenze), das aufgrund des<br />
Standardfehlers und dieses Sicherheitsgrades berechnet werden kann, angefordert werden.<br />
Das Konfidenzintervall besagt, dass das µ der Population, aus der die Stichprobe gezogen<br />
wurde, mit der voreingestellten Wahrscheinlichkeit im angegebenen Bereich liegen wird.<br />
Lautet der Mittelwert einer Stichprobe z.B. M= 3,12 und sein Standardfehler S M = 0,087,<br />
dann betragen die Grenzen M+-S M *z 95% = 3,12 + -0,087*1,96, d.h. UG =2,95 und OG =<br />
3,29. Der Standardfehler wird also mit dem (zweiseitigen) t-Wert bzw. bei größeren<br />
Stichproben z-Wert (hier z = 1,96) des voreingestellten Sicherheitsgrades multipliziert und<br />
dieser Bereich sowohl zur einen als auch zur anderen Seite des empirischen Mittelwertes<br />
geschlagen, um aussagen zu können, in welchem Bereich µ mit 95%-iger Sicherheit liegen<br />
wird. Bei z = 2,58 würde der 99%-Sicherheitsbereich berechnet werden. Sollten sich die<br />
Sicherheitsbereiche der Gruppen nicht überschneiden, so würde das bereits andeuten, dass die<br />
Mittelwerte der Populationen möglicherweise verschieden sind.<br />
Option HOMOGENITÄT DER VARIANZEN: Hier wird der Levene-Test auf Gleichheit der<br />
Varianzen in den k Populationen durchgeführt. (Er gibt aufgrund einer Maßzahl mit bekannter<br />
Verteilung an, mit welcher Wahrscheinlichkeit die k Stichproben k Populationen mit gleichen<br />
Varianzen entstammen.)<br />
Wenn wir also einen Faktor (UV) und eine abhängige Variable aus unserem Datensatz<br />
eingegeben haben, hier den Faktor Einkommen und als AV das Ergebnis eines<br />
Depressionstests einer Befragung von über 69 Jahre alten Patienten von Allgemeinarztpraxen,<br />
und ferner Deskriptive Statistiken und den Levene-Test angefordert haben, sieht das Ergebnis<br />
wie z.B. folgt aus:<br />
Seite - 102 -
Skript: Benutzung von SPSS<br />
P6 DEPR SUMME D01 BIS D15<br />
BIS DM 1.199<br />
DM 1.200-1.599<br />
DM 1.600-1.999<br />
DM 2.000-2.399<br />
DM 2.400-2.799<br />
DM 2.800-3.199<br />
DM 3.200 UND MEHR<br />
Gesamt<br />
N<br />
Mittelwert<br />
ONEWAY deskriptive Statistiken<br />
Standardab<br />
weichung<br />
95%-Konfidenzintervall für<br />
Standardf den Mittelwert<br />
ehler Untergrenze Obergrenze<br />
Minimum<br />
Maximum<br />
24 3.29 4.048 .826 1.58 5.00 0 13<br />
30 4.47 3.748 .684 3.07 5.87 0 14<br />
32 3.09 3.550 .628 1.81 4.37 0 13<br />
54 2.46 3.161 .430 1.60 3.33 0 12<br />
47 2.04 2.621 .382 1.27 2.81 0 9<br />
49 2.04 3.075 .439 1.16 2.92 0 11<br />
86 1.71 2.765 .298 1.12 2.30 0 11<br />
322 2.45 3.225 .180 2.09 2.80 0 14<br />
Test der Homogenität der Varianzen<br />
P6 DEPR SUMME D01 BIS D15<br />
Levene-St<br />
atistik df1 df2 Signifikanz<br />
2.223 6 315 .041<br />
P6 DEPR SUMME D01 BIS D15<br />
Zwischen den Gruppen<br />
Innerhalb der Gruppen<br />
Gesamt<br />
Quadrats<br />
umme<br />
ONEWAY ANOVA<br />
Abb. 78: Ergebnis einer einfaktoriellen Varianzanalyse<br />
df<br />
Mittel der<br />
Quadrate F Signifikanz<br />
215.467 6 35.911 3.621 .002<br />
3124.135 315 9.918<br />
3339.602 321<br />
Der Output ist nach den obigen Ausführungen leicht zu verstehen:<br />
Wie man zunächst bei den deskriptiven Statistiken sieht, sind die Depressions-Mittelwerte der<br />
gebildeten Einkommensstufen durchaus verschieden, mitunter sogar doppelt so hoch wie<br />
andere. Auch scheinen sie mit zunehmendem Einkommen abzufallen. Jedoch überschneiden<br />
sich die Konfidenzintervalle z.T. erheblich.<br />
Der Levene-Test ist auf den 20%-Niveau nicht signifikant. Zur Erinnerung: Wir meinen hier<br />
die Nullhypothese.<br />
Im Ergebnis der VA erscheinen die Quadratsummen „zwischen“ und „innerhalb“, deren<br />
Summe die Quadratsumme „gesamt“ ergibt. Gleiches gilt für die Freiheitsgrade. Der F-Wert<br />
ergibt sich durch die Division des mittleren Quadrats „zwischen“ durch das mittlere Quadrat<br />
„innerhalb“. Bei df 1 zwischen-Zähler-Freiheitsgraden und df 2 innerhalb-Nenner-Freiheitsgraden<br />
für den F-Test ergibt sich die ausgegebene Zufallswahrscheinlichkeit („Signifikanz“), die<br />
mit dem vorher bestimmten Signifikanzniveau zu vergleichen ist, um zu einer Entscheidung<br />
zu kommen.<br />
Im Falle von nur zwei Gruppen ist, wie erwähnt, dass Ergebnis mit dem t-Test identisch. Die<br />
Quadratwurzel des F-Wertes ergibt den t-Wert. Ferner ist dann df 1 „zwischen“ = 1, und df 2<br />
„innerhalb“ entspricht der Zahl der Freiheitsgrade des t-Tests.<br />
Seite - 103 -
Skript: Benutzung von SPSS<br />
15.2.1 „A-PRIORI“-KONTRASTE<br />
Taste KONTRASTE wieder des ersten Dialogfeldes:<br />
Die VA vergleicht alle k Mittelwerte gleichzeitig und nur zweiseitig, wobei sie nur einen (!)<br />
Test durchführt. Oft besteht die Hypothese jedoch nicht darin, ob sich die Mittelwerte der k<br />
Populationen überhaupt unterscheiden, so dass man eigentlich keine VA rechnen möchte,<br />
sondern man hat aufgrund inhaltlicher Überlegungen a priori genauere Hypothesen/inhaltliche<br />
Erwartungen. Z.B. könnte man bei drei Gruppen, einer Versuchsgruppe 1, einer Versuchsgruppe<br />
2 und einer Kontrollgruppe, erwarten, dass sich die erste Gruppe von der<br />
Kontrollgruppe und die zweite Gruppe von der Kontrollgruppe unterscheiden, und zwar z.B.<br />
höhere Werte gegenüber der Kontrollgruppe in der AV aufweisen müssten. Dann sind vom<br />
Versuchsplan her zwei einseitige Vergleiche zwischen je zwei Gruppen gemeint, also<br />
gerichtete t-Tests.<br />
Kontrast-Vergleiche sind t-Test-Vergleiche zwischen einzelnen Gruppen. Dabei besteht<br />
insbesondere die Möglichkeit, die Mittelwerte mehrerer Gruppen zu mitteln und mit<br />
Einzelmittelwerten anderer Gruppen oder mit Mittelwerten der Mittelwerte anderer Gruppen<br />
zu vergleichen.<br />
(Zu beachten ist, dass ein durchschnittlicher Mittelwert nicht mit dem Mittelwert<br />
übereinstimmen muss, der sich ergäbe, wenn die Gruppen zu einer Gruppe<br />
zusammengeworfen werden und von dieser dann der Mittelwert berechnet werden würde. Nur<br />
wenn die Einzelgruppen die gleiche Anzahl von Fällen enthalten stimmt der Mittelwert der<br />
Mittelwerte mit dem Mittelwert der zusammengeworfenen neuen Gruppe überein.)<br />
Zwecks Mittelung der Mittelwerte mehrerer Gruppen gibt man unterschiedliche Gewichte<br />
vor, mit denen die einzelnen Mittelwerte in die Berechnung des Gesamtmittelwertes eingehen<br />
sollen:<br />
a) Bei der gewöhnlichen Mittelung, z.B. M neu = 1/2 (M 1 + M 2 ) , geht jeder der Mittelwerte<br />
mit gleichem Gewicht ein, nämlich mit dem Gewicht 0,5, so dass man auch M neu =<br />
0,5*M 1 + 0,5*M 2 schreiben könnte.<br />
b) Man könnte aber auch z.B. so gewichten: M neu = 0,8*M 1 + 0,2*M 2<br />
Um Kontraste zu berechnen, klickt man auf die Taste KONTRASTE und gibt in dem sich<br />
öffnenden Dialogfeld in das Eingabefeld KOEFFIZIENTEN Gewichte in der Reihenfolge der<br />
Gruppen des Faktors ein, also für die erste Gruppe ein Gewicht, für die zweite, usw.,<br />
insgesamt k Gewichte. Die Auswahl der Gewichte bestimmt, was für ein Kontrast berechnet<br />
wird, d.h. welche zwei Gruppen miteinander per t-Test verglichen werden. Der Kontrast ist<br />
dabei die Differenz der beiden zu vergleichenden Mittelwerte. Hat man z.B. drei Gruppen mit<br />
den Mittelwerten<br />
M 1 = 6,19 M 2 = 4,72 M 3 = 8,58<br />
und möchte man<br />
• z.B. einfach Gruppe 1 mit Gruppe 3 vergleichen, so gibt man nacheinander<br />
0,5 0 -0,5<br />
als Gewichte ein. Der Kontrast ergibt sich dann als<br />
Kontrast = 0,5 * 6,19 + 0 * 4,72 - 0,5 * 8,58<br />
also als Differenz der beiden zu vergleichenden Mittelwerte, im Output als "Kontrastwert"<br />
bezeichnet. Er stellt eine Linearkombination der Mittelwerte dar.<br />
• z.B. Gruppe 1 und Gruppe 2 gleichberechtigt zusammenfassen und mit Gruppe 3<br />
vergleichen, so wählt man die Koeffizienten<br />
0,5 0,5 -1<br />
so dass sich der Kontrast = 0,5 * 6,19 + 0,5 * 4,72 - 0,5 * 8,58 ergibt.<br />
Seite - 104 -
Skript: Benutzung von SPSS<br />
Natürlich wird man solche Vergleiche nicht willkürlich ansteuern, sondern<br />
hypothesengeleitet/geplant durchführen.<br />
Es muss für jede Gruppe ein Koeffizient eingegeben werden. Die Summe der Koeffizienten<br />
muss Null ergeben. Das wird bei der Eingabe im Dialogfeld kontrolliert, indem dort die<br />
Koeffizientensumme angezeigt wird.<br />
Aus der eben erklärten Koeffizienten-Eingabe folgt, dass alle Gruppen, für die man positive<br />
Koeffizienten eingegeben hat, zu einer Gruppe zusammengefasst werden, entsprechend die<br />
Gruppen mit negativen Vorzeichen zu einer zweiten Gruppe.<br />
Um einen bereits eingefügten Koeffizienten zu korrigieren, wird dieser in der Liste der<br />
Koeffizienten markiert, dann gibt man dafür den Koeffizienten im Eingabefeld ein und klickt<br />
anschließend auf die Schaltfläche ÄNDERN.<br />
Wenn man für alle Gruppen einen Koeffizienten definiert hat, ist der Kontrast vollständig<br />
definiert. Möchte man nach diesem noch weitere Kontraste testen, wird der erste im<br />
Dialogfeld unter Kontrast 1 von 1 eingegeben, die Schaltfläche WEITER gedrückt, der zweite<br />
Vergleich unter Kontrast 2 von 2 definiert, usw. Insgesamt kann man so zwar bis zu zehn<br />
Kontraste bestimmen, was jedoch kaum vorkommen dürfte. Plant man nämlich bestimmte<br />
Vergleiche a priori, so werden es in aller Regel nur wenige sein.<br />
Möchte man sicherstellen, dass bei mehreren Kontrasten die damit definierten t-Tests<br />
paarweise voneinander unabhängig (orthogonal) sind, so sollte für jedes Paar von Kontrast-<br />
Koeffizienten<br />
a 1 a 2 ... a k<br />
b 1 b 2 ... b k<br />
das Skalarprodukt<br />
a 1 * b 1 + a 2 * b 2 + ... + a k * b k = 0<br />
sein.<br />
Orthogonalität ist eine mathematische Bedingung. Es kann vorkommen, dass aufgrund<br />
inhaltlicher Hypothesen Vergleiche gewünscht sind, die nicht unabhängig voneinander sind<br />
und inhaltlich gesehen doch voneinander unabhängige Rückmeldungen geben.<br />
15.2.2 Rechenbeispiel<br />
Man nimmt an, dass Depression nicht (nur) anlagebedingt ist, sondern vor allem durch<br />
Umwelteinflüsse zustande kommt. Wenn man ferner annimmt, dass alte Menschen mit<br />
geringem Einkommen weniger Handlungsmöglichkeiten haben als solche mit hohem<br />
Einkommen, um bestimmten zu Depressionen führenden Situationen aus dem Wege zu gehen,<br />
dann ist a priori zu erwarten, dass sich die unteren Einkommensgruppen von den oberen<br />
unterscheiden müssten, und zwar die oberen einen geringeren Depressionswert ausweisen<br />
müssten. Wir wollen daher a priori die beiden unteren und die beiden oberen<br />
Einkommensgruppen zusammenfassen und miteinander per gerichtetem Kontrast-Test<br />
vergleichen.<br />
Dazu geben wir folgende k = 7 Gewichte ein<br />
-0,5 -0,5 0 0 0 0,5 0,5<br />
(Achtung, SPSS akzeptiert die Dezimalstelle nur als Punkt)<br />
und erwarten damit einen negativen Kontrastwert und t-Wert. Wollen wir ferner auf dem 5%-<br />
Niveau einseitig testen, so haben wir die zweiseitig ausgegebene Irrtumswahrscheinlichkeit p<br />
(„Signifikanz“) noch durch 2 zu dividieren und mit diesem α-Niveau zu vergleichen.<br />
Kontrast-Koeffizienten<br />
Kontrast<br />
1<br />
HAUSHALTSEINKOMMEN<br />
DM<br />
DM<br />
DM<br />
DM<br />
DM DM 3.200<br />
BIS DM 1.199 1.200-1.599 1.600-1.999 2.000-2.399 2.400-2.799 2.800-3.199 UND MEHR<br />
-.5 -.5 0 0 0 .5 .5<br />
Seite - 105 -
Skript: Benutzung von SPSS<br />
Kontrast-Tests<br />
P6 DEPR SUMME<br />
D01 BIS D15<br />
Abb. 79 Kontraste<br />
Kontrast<br />
Varianzen sind gleich 1<br />
Varianzen sind nicht 1<br />
gleich<br />
Kontrastwert<br />
Standardf<br />
ehler T df<br />
Signifikanz<br />
(2-seitig)<br />
-2.00 .515 -3.890 315 .000<br />
-2.00 .599 -3.348 71.541 .001<br />
Diese Division ist im vorliegenden Fall nicht notwendig, da bereits zweiseitig ein<br />
signifikantes Ergebnis besteht.<br />
Wichtige Aufgabe<br />
Bei einem t-Test für unabhängige Stichproben (Annahme: Varianzen sind gleich) werden die<br />
Mittelwerte zweier Gruppen/Stichproben miteinander verglichen, und der Standardfehler der<br />
Differenz wird aus den Varianzen der beiden Stichproben geschätzt. Nun liegen bei einer<br />
Varianzanalyse jedoch mehr als zwei Gruppen/Stichproben vor, so dass man den<br />
Standardfehler aus allen Stichproben schätzen könnte, nämlich mithilfe der Varianz<br />
„innerhalb“ aus der VA. Man würde dann einen t-Test mit mehr Freiheitsgraden erhalten, also<br />
mit einer höheren Teststärke. Überprüfen Sie, ob SPSS das macht, also bei den Kontrasten gar<br />
keinen „normalen“ t-Test mehr rechnet.<br />
15.2.3 MULTIPLE VERGLEICHSTESTS<br />
Taste POST HOC: Post Hoc meint a posteriori-Vergleiche. Solche kann man erwägen, wenn<br />
die VA signifikant ausgefallen ist, die Mittelwerte der entsprechenden Grundgesamtheiten<br />
also wahrscheinlich nicht alle gleich sind, der Faktor also wohl vermutlich einen Einfluss auf<br />
die AV ausübt. Dann könnte man im nachhinein darin interessiert sein, welche Mittelwerte<br />
sich unterscheiden, welche Differenzen zwischen ihnen also eigentlich für den signifikanten<br />
Ausfall der VA verantwortlich sind, und diese im nachhinein inhaltlich zu erklären versuchen.<br />
Man hatte darüber aber a priori keine inhaltlich begründbaren Hypothesen, so dass solche<br />
auch nicht gezielt mithilfe von Kontrasten getestet werden konnten. Es geht also um eine<br />
„Aufdeckung“ wesentlicher Varianzquellen im nachhinein, und streng zu beachten ist, dass<br />
solche Aufdeckungen hypothesengenerierend, aber nicht hypothesentestend sind. (Es ist nicht<br />
möglich, am selben Datensatz eine Hypothese zu erzeugen und sie aufgrund dieser Beobachtung<br />
bereits als bestätigt anzusehen.)<br />
SPSS bietet eine ganze Reihe von Post-Hoc-Tests an.<br />
(Die meisten werden z.B. bei Kirk, R.E. (1982), Experimental Design: Procedures for the behavioral sciences,<br />
beschrieben. In der UB, Zentralbibliothek, Freihandbereich mehrfach vorhanden. In der eigenen Bibliothek ist<br />
das Exemplar von 1982 dauerhaft verschwunden; es sind zwei Exemplare von 1968 da, die auch genügen; ferner<br />
ein Exemplar von 1995, das jedoch die Mitarbeiter des Instituts meistens entliehen haben; im übrigen ein gutes<br />
Buch zur Anschaffung, auch für das Haupt<strong>studium</strong>. Es wird seinen Wert nicht verlieren.)<br />
Ihr Ansatz ist u.a., trotz vieler Vergleiche a posteriori eine Vergrößerung des α-Fehlers zu<br />
vermeiden. Die Idee der VA war ja, alle Mittelwerte durch nur einen Test zu vergleichen, also<br />
nicht alle Paare von Stichproben zu bilden und dadurch zu Massen-t-Tests zu kommen. Ein<br />
solches Vorgehen ist problematisch, weil diese Tests nicht unabhängig voneinander sind. Da<br />
jede aus einem einzelnen t-Test abgeleitete Schlussfolgerung mit einer gewissen<br />
Irrtumswahrscheinlichkeit behaftet ist, können viele t-Tests schnell bewirken, dass eine<br />
signifikante Mittelwertedifferenz auch dann unterstellt wird, wenn in Wirklichkeit gar kein<br />
Unterschied vorhanden ist, d.h. Zufallssignifikanz bzw. Vergrößerung des α-Fehlers. Bei<br />
einem Signifikanzniveau von z.B. 5% werden bei 100 Tests im Durchschnitt 5%<br />
zufallssignifikant ausfallen. Das Auftreten dieser zusätzlichen Wahrscheinlichkeit, etwas für<br />
signifikant zu halten, was es in Wahrheit nicht ist, lässt sich verringern bzw. vermeiden, wenn<br />
anstelle von t-Tests multiple Vergleichstests durchgeführt werden. Dazu gibt es verschiedene<br />
Verfahren, die hier bis auf den Scheffé-Test nicht diskutiert werden sollen. Wenn irgend<br />
Seite - 106 -
Skript: Benutzung von SPSS<br />
möglich, sollten nämlich nicht a posteriori Unterschiede zwischen Mittelwerten inhaltlich<br />
erklärt werden, d.h. erst im Nachhinein Hypothesen aufgestellt werden, sondern a priori, d.h.<br />
es sollten aufgrund inhaltlich-theoretischer Überlegungen gezielt aufgestellte Hypothesen mit<br />
entsprechend erwarteten Kontrasten getestet werden.<br />
15.2.3 SCHEFFÉ-TEST<br />
Kann also die Null-Hypothese, dass der Faktor keinen Effekt auf das abhängige Merkmal<br />
ausübt, nicht aufrecht erhalten werden, so stellt sich die Frage nach denjenigen<br />
Faktorenstufen, deren zugehörige Mittelwerte sich signifikant unterscheiden. Zur Ermittlung<br />
ist der Scheffé-Test empfehlenswert, weil er robust (gegenüber Verletzungen von<br />
Voraussetzungen unempfindlich), konservativ ist (erst relativ große Mittelwertsunterschiede<br />
werden als gesichert angesehen, d.h. Fehler 1. Art werden nicht so leicht begangen, nämlich<br />
die H 0 aufzugeben), eine Kumulation des α-Fehlers vermeidet und nicht nur auf Unterschiede<br />
zwischen einzelnen Gruppen angewendet werden kann, sondern auf Linearkombinationen der<br />
Mittelwerte überhaupt, wie wir sie bereits bei den Kontrasten kenngelernt haben.<br />
Bei den Kontrasten sind wir nicht von einer Kumulation des α-Fehlers ausgegangen, auch<br />
wenn wir mehrere Kontraste rechnen sollten. Wir haben dort nämlich bereits hervorgehoben,<br />
dass es immer nur einige wenige sein werden, weil jede Hypothese für sich begründet wurde,<br />
unabhängig von den anderen, so dass jede jetzt auch mittels eines Kontrastes für sich getestet<br />
wird, so dass auch das Ergebnis eines jeden Kontrast-Tests inhaltlich ein ganz bestimmte<br />
Rückmeldung gibt, und unabhängig von den anderen Kontrast-Tests. Wenn wir jede<br />
Hypothese aber für sich überprüfen, tritt das Problem einer Kumulation des α-Fehlers nicht<br />
auf.<br />
Das ist anders, wenn die Over-all-means-ANOVA signifikant ausfällt und man sich im<br />
nachhinein die Mittelwerte und zugehörige Konfidenzintervalle ansieht und spekulativ<br />
überlegt, aufgrund welcher Mittelwertedifferenzen die Signifikanz zustande gekommen sein<br />
könnte. Man kann dann u.U. sehr viele Linearkombinationen ausprobieren, man macht quasi<br />
ein ungeleitetes „snooping in the data“. Dann testet man keine jeweils spezifischen<br />
Hypothesen für sich mehr, sondern fortgesetzt die sehr allgemeine Hypothese, die der VA<br />
unterliegt, nämlich dass es überhaupt einen Unterschied zwischen den Gruppen gibt. Führt<br />
man jetzt viele t-Tests durch auf der Suche nach signifikanten Unterschieden, so wird t-Test<br />
für t-Test diese eine Hypothese immer wieder getestet. Wenn man aber dieselbe Hypothese<br />
wiederholt testet, gerät man in die Kumulation des α-Fehlers, denn es gilt, diese Hypothese zu<br />
entscheiden.<br />
Scheffé hat nun eine allgemeine Methode entwickelt, die einen konservativen Test in der<br />
Situation darstellt, dass man nach einer signifikant ausgefallenen VA im nachhinein viele<br />
Linearkombinationen der Mittelwerte testen möchte. Sein Test garantiert, dass die<br />
Wahrscheinlichkeit eines α-Fehlers für jeden beliebigen a posteriori durchgeführten<br />
Einzelvergleichstest nicht größer ist als das Signifikanzniveau α für den Overall-Test der VA.<br />
Der Nachweis kann hier nicht geführt werden.<br />
Ein Einzelvergleich ist nach Scheffé auf dem für die VA angegebenem α-Niveau signifikant,<br />
wenn der empirische F-Wert des Einzelvergleichs größer ist als der kritische Wert<br />
F´ = (k-1) * F (df1;df2;1 -α)<br />
wobei k die Anzahl der Stufen des Faktors und F (df1;df2;1-α) der kritische F-Wert für den F-Test<br />
in der VA darstellt, auch dessen Freiheitsgrade sind gemeint.<br />
Die bei den Kontrasten gezeigten Linearkombinationen kann man allgemein wie folgt<br />
schreiben<br />
Kontrast = c 1 M 1 + c 2 M 2 + ... c k M k<br />
Seite - 107 -
Skript: Benutzung von SPSS<br />
und jede solche Linearkombination stellt einen Vergleich der Mittelwerte dar, wenn Σc i = 0<br />
ist. Der empirische F-Wert wird wie folgt berechnet<br />
2<br />
( c1M<br />
1<br />
+ C2M<br />
2<br />
+ ... + ck<br />
)<br />
F =<br />
2 2<br />
2<br />
c1<br />
c2<br />
ck<br />
MQFehler(<br />
+ + ... + )<br />
n1<br />
n2<br />
nk<br />
Wobei MQ Fehler das Mittlere Quadrat des Fehlers aus der Varianzanalyse darstellt, die<br />
Fehlervarianz „innerhalb“. Um signifikant zu werden, muss F also F´ überschreiten.<br />
Im Falle von nur zwei Gruppen (k = 2) stimmt der Scheffé-Test mit dem t-Test überein, bei k<br />
> 2 fordert er jedoch einen erheblich größeren F-Wert, um bei vorgegebenem<br />
Signifikanzniveau signifikant zu werden. Es wird also entsprechend dem Signifikanzniveau<br />
ein einzelner kritischer Wert berechnet, der überschritten werden muss, und der bei beliebig<br />
vielen Mittelwertsvergleichen/Linearkombinationen angelegt werden kann, bei gleichzeitigem<br />
Schutz, dass die Wahrscheinlichkeit, irgendein Ergebnis irrtümlich als signifikant zu<br />
deklarieren, höchstens α beträgt.<br />
Leider begnügt man sich bei der näheren a posteriori-Interpretation einer VA mithilfe des<br />
Scheffé-Tests meistens mit der Überprüfung der Differenzen für alle Mittelwertpaare. Für<br />
diesen Fall wird dann zwecks Verkürzung der Prozedur eine kritische Differenz berechnet, die<br />
von den empirischen Differenzen (Kontrasten) zu überschreiten sind, um als signifikant zu<br />
gelten.<br />
Abhängige Variable: P6 DEPR SUMME D01 BIS D15<br />
Scheffé-Prozedur<br />
(I)<br />
HAUSHALTSEINKOM<br />
MEN<br />
BIS DM 1.199<br />
DM 1.200-1.599<br />
DM 1.600-1.999<br />
DM 2.000-2.399<br />
DM 2.400-2.799<br />
DM 2.800-3.199<br />
DM 3.200 UND MEHR<br />
(J)<br />
HAUSHALTSEINKOM<br />
MEN<br />
DM 1.200-1.599<br />
DM 1.600-1.999<br />
DM 2.000-2.399<br />
DM 2.400-2.799<br />
DM 2.800-3.199<br />
DM 3.200 UND MEHR<br />
BIS DM 1.199<br />
DM 1.600-1.999<br />
DM 2.000-2.399<br />
DM 2.400-2.799<br />
DM 2.800-3.199<br />
DM 3.200 UND MEHR<br />
BIS DM 1.199<br />
DM 1.200-1.599<br />
DM 2.000-2.399<br />
DM 2.400-2.799<br />
DM 2.800-3.199<br />
DM 3.200 UND MEHR<br />
BIS DM 1.199<br />
DM 1.200-1.599<br />
DM 1.600-1.999<br />
DM 2.400-2.799<br />
DM 2.800-3.199<br />
DM 3.200 UND MEHR<br />
BIS DM 1.199<br />
DM 1.200-1.599<br />
DM 1.600-1.999<br />
DM 2.000-2.399<br />
DM 2.800-3.199<br />
DM 3.200 UND MEHR<br />
BIS DM 1.199<br />
DM 1.200-1.599<br />
DM 1.600-1.999<br />
DM 2.000-2.399<br />
DM 2.400-2.799<br />
DM 3.200 UND MEHR<br />
BIS DM 1.199<br />
DM 1.200-1.599<br />
DM 1.600-1.999<br />
DM 2.000-2.399<br />
DM 2.400-2.799<br />
DM 2.800-3.199<br />
*. Die mittlere Differenz ist auf der Stufe .05 signifikant.<br />
Mehrfachvergleiche<br />
Mittlere Standardf<br />
95%-Konfidenzintervall<br />
Differenz (I-J) ehler Signifikanz Untergrenze Obergrenze<br />
-1.18 .862 .932 -4.26 1.91<br />
.20 .850 1.000 -2.84 3.24<br />
.83 .773 .979 -1.93 3.59<br />
1.25 .790 .868 -1.57 4.07<br />
1.25 .785 .863 -1.55 4.05<br />
1.58 .727 .579 -1.02 4.18<br />
1.18 .862 .932 -1.91 4.26<br />
1.37 .800 .815 -1.49 4.23<br />
2.00 .717 .256 -.56 4.57<br />
2.42 .736 .097 -.21 5.05<br />
2.43 .730 .091 -.18 5.03<br />
2.76* .668 .010 .37 5.14<br />
-.20 .850 1.000 -3.24 2.84<br />
-1.37 .800 .815 -4.23 1.49<br />
.63 .703 .992 -1.88 3.14<br />
1.05 .722 .908 -1.53 3.63<br />
1.05 .716 .903 -1.50 3.61<br />
1.38 .652 .609 -.95 3.71<br />
-.83 .773 .979 -3.59 1.93<br />
-2.00 .717 .256 -4.57 .56<br />
-.63 .703 .992 -3.14 1.88<br />
.42 .628 .998 -1.82 2.66<br />
.42 .621 .998 -1.80 2.64<br />
.75 .547 .928 -1.20 2.71<br />
-1.25 .790 .868 -4.07 1.57<br />
-2.42 .736 .097 -5.05 .21<br />
-1.05 .722 .908 -3.63 1.53<br />
-.42 .628 .998 -2.66 1.82<br />
.00 .643 1.000 -2.30 2.30<br />
.33 .571 .999 -1.71 2.37<br />
-1.25 .785 .863 -4.05 1.55<br />
-2.43 .730 .091 -5.03 .18<br />
-1.05 .716 .903 -3.61 1.50<br />
-.42 .621 .998 -2.64 1.80<br />
.00 .643 1.000 -2.30 2.30<br />
.33 .564 .999 -1.68 2.35<br />
-1.58 .727 .579 -4.18 1.02<br />
-2.76* .668 .010 -5.14 -.37<br />
-1.38 .652 .609 -3.71 .95<br />
-.75 .547 .928 -2.71 1.20<br />
-.33 .571 .999 -2.37 1.71<br />
-.33 .564 .999 -2.35 1.68<br />
Abb. 79 Ergebnis des Scheffé - Tests<br />
Seite - 108 -
Skript: Benutzung von SPSS<br />
Wie man sieht, wird (nur) jede Stufe mit jeder anderen verglichen, also jeder Mittelwert mit<br />
⎛<br />
jedem anderen, dabei M i nicht nur mit M j , sondern auch M j mit M i , also 2*<br />
k ⎞<br />
⎜ ⎟ = 2*k*(k-1)/2<br />
⎝ 2 ⎠<br />
= k*(k-1) = 7*6 = 42 Vergleiche. Dabei werden signifikante Mittelwertsdifferenzen mit<br />
einem Stern gekennzeichnet. Im vorliegenden Fall geschieht das nur einmal.<br />
Des weiteren folgen noch „Homogene Untergruppen“. Damit ist gemeint, dass innerhalb einer<br />
Gruppe sich der größte und der kleinste Mittelwert gemäß vorgegebenem α-Niveau nicht<br />
unterscheiden.<br />
Homogene Untergruppen<br />
a,b<br />
Scheffé-Prozedur<br />
HAUSHALTSEINKOM<br />
MEN<br />
DM 3.200 UND MEHR<br />
DM 2.800-3.199<br />
DM 2.400-2.799<br />
DM 2.000-2.399<br />
DM 1.600-1.999<br />
BIS DM 1.199<br />
DM 1.200-1.599<br />
Signifikanz<br />
P6 DEPR SUMME D01 BIS D15<br />
Untergruppe für Alpha<br />
= .05.<br />
N 1 2<br />
86 1.71<br />
49 2.04 2.04<br />
47 2.04 2.04<br />
54 2.46 2.46<br />
32 3.09 3.09<br />
24 3.29 3.29<br />
30 4.47<br />
.550 .073<br />
Die Mittelwerte für die in homogenen Untergruppen<br />
befindlichen Gruppen werden angezeigt.<br />
a. Verwendet ein harmonisches Mittel für<br />
Stichprobengröße = 39.308.<br />
b. Die Gruppengrößen sind nicht identisch. Es wird das<br />
harmonische Mittel der Gruppengrößen verwendet.<br />
Fehlerniveaus des Typs I sind nicht garantiert.<br />
Abb. 80 Homogene Gruppen beim Scheffé – Test in diesem Bsp<br />
15. 3 Zwei- und höherfaktorielle Varianzanalysen<br />
Eine Warnung vorweg: Was schon bei der einfachen VA und den dortigen<br />
Mittelwertvergleichen galt, gilt erst recht jetzt und bei der zweifaktoriellen VA und noch<br />
höherfaktoriellen VA´s: Man sollte die Verfahren nicht missbrauchen, um zwischen allen<br />
möglichen Mittelwerten nach statistisch signifikanten Unterschieden herumzusuchen, also<br />
nicht auf Entdeckungsreise gehen. Das geschieht allerdings recht oft, offenbar immer<br />
dann, wenn die inhaltlichen Hypothesen sehr allgemein sind oder gar ganz fehlen („Mal<br />
sehen, ob etwas Signifikantes herauskommt“, als ob „Ergebnisse“ sich von selbst<br />
einstellen, bzw. nur entdeckt werden müssen, ohne Vorüberlegungen, sie einem wie im<br />
Schlaraffenland wie gebratene Tauben ins Maul fliegen. So kann man leider bei der<br />
zweifaktoriellen VA nicht nur die beiden Haupteffekte und die Interaktion „auf Signifikanz<br />
prüfen“, sondern bei allen drei Effekten auch die Mittelwerte in verschiedenster Weise<br />
vergleichen, alles auch ohne Hypothesen. Bei der dreifaktoriellen VA hat man dann schon<br />
drei Haupteffekte und vier Interaktionseffekte, also sieben Effekte, die kaum mehr<br />
übersehbare Zahl möglicher Mittelwertsvergleiche innerhalb der einzelnen Effekte nicht<br />
mehr gerechnet. Allgemein: Anzahl Effekte = 2 Anzahl Faktoren –1. Ohne spezifische inhaltlichtheoretische<br />
Hypothesen, die nur wenige und nur ganz bestimmte Vergleiche meinen,<br />
werden aber keine Hypothesen geprüft, sondern man probiert aufs Geradewohl herum. Die<br />
Übersetzung des griechischen Wortes „Hypothese“ lautet „Unterstellung“, also eine<br />
Annahme, das etwas „so“ ist, insbesondere die Annahme zur Erklärung bestimmter<br />
Tatsachen. Bedacht werden sollte auch, dass eine statistische Signifikanz eben nur eine<br />
Seite - 109 -
Skript: Benutzung von SPSS<br />
statistische ist, inhaltlich muss sie gar nichts bedeuten, so wie es inhaltlich hoch bedeutsam<br />
sein kann, dass zwischen bestimmten Mittelwerten keine signifikanten Differenzen zu<br />
beobachten sind.<br />
Das alles sollte umso mehr beachtet werden, als es heute schnell rechnende Computer gibt,<br />
die in Windeseile alles Mögliche zu rechnen gestatten. Das muss nicht unbedingt ein<br />
Vorteil sein.<br />
Bei der zweifaktoriellen VA liegen ein Zeilenfaktor mit k Stufen und ein Spaltenfaktor mit m<br />
Stufen vor, wobei die k*m Zellen-Zufalls-Stichproben unabhängig voneinander gezogen<br />
wurden. Irrtumswahrscheinlichkeiten werden berechnet für die beiden Haupteffekte sowie für<br />
den Interaktionseffekt, aber die Berechnung dieser Wahrscheinlichkeiten sollte nicht schon<br />
mit einer Prüfung auf Signifikanz gleichgesetzt werden. Dazu gehört noch der Vergleich mit<br />
dem α-Niveau. Wenn spezifische Hypothesen vorliegen, wird man häufig gar nicht an diesen<br />
Effekten selbst interessiert sein, sondern an ganz bestimmten Mittelwertsvergleichen, wie<br />
man sie mithilfe von a priori-Kontrasten rechnen kann.<br />
Das n der k*m Stichproben sollte möglichst gleich sein. Ist das nicht der Fall, so geht eine<br />
wichtige Eigenschaft der VA, die Unabhängigkeit bzw. Orthogonalität von Haupt- und<br />
Interaktionseffekten verloren. Man bezeichnet deshalb Varianzanalysen mit ungleich großen<br />
Stichproben auch als nichtorthogonale Analysen. Man kann in diesem Fall in verschiedener<br />
Weise vorgehen.<br />
Gleich große Stichproben werden in der Regel dann vorliegen, wenn die Daten die Ergebnisse<br />
geplanter Experimente sind, denen wohlüberlegte Hypothesen unterliegen. Bei<br />
Felduntersuchungen ist gleiches n jedoch meistens nicht der Fall. Dann wird die<br />
Varianzanalyse bei SPSS per Voreinstellung nach einem Verfahren von Yates („Method of<br />
weighted Squares of Means“ auch „Methode 1“ genannt) durchgeführt. Im Anschluss an die<br />
VA lassen sich paarweise Vergleiche der Zeilen- und Spaltenmittelwerte durchführen. Es<br />
kann auch ein Interaktionsdiagramm ausgegeben werden. Mithilfe der Syntax ist es ferner<br />
möglich, eine Prüfung der „einfachen Haupteffekte“ der Faktoren vorzunehmen.<br />
Obwohl die im Folgenden aufgerufene Prozedur viele Vergleiche ermöglicht, sind<br />
Berechnungen vom Versuchsplan her geforderter Kontraste mit ihr oft nicht möglich. Es<br />
sollte dann die Möglichkeit erwogen werden, die zwei- oder noch höherfaktorielle VA als<br />
einfaktorielle VA zu rechnen. Bei einer zweifaktoriellen VA mit k Zeilen und m Spalten z.B. ist<br />
dafür zunächst eine neue Variable mit k*M Stufen zu bilden. Diese ist dann als Faktor in die<br />
einfache VA einzugeben. Es könnten so gezielt geplante Vergleiche/Kontraste der k*m<br />
Mittelwerte möglich werden.<br />
Analysieren fi Allgemeines lineares Modell fi Univariat<br />
Abb. 81 Allgemeines Lineares Modell Univariat<br />
Seite - 110 -
Skript: Benutzung von SPSS<br />
Hier geben wir die abhängige Variable ein und unter FESTE FAKTOREN die beiden<br />
unabhängigen Variablen. Faktoren mit festen Effekten stellen den weitaus häufigsten Fall in<br />
der Forschung dar. Sie liegen dann vor, wenn die Faktorstufen gezielt bzw. systematisch<br />
ausgewählt wurden, also nicht durch eine Zufallsprozedur. Dagegen spricht man von einem<br />
Zufallsfaktor (random factor), wenn die Stufen durch eine solche Prozedur bestimmt werden,<br />
z.B., um den Einfluss eines Faktors „Persönlichkeit des Therapeuten“ zu realisieren,<br />
verschiedene Therapeuten dem Zufall nach gezogen werden. Über etwaige systematische<br />
Unterschiede zwischen den Therapeuten weiß man dann nichts. Schon gar nicht sind solche<br />
„wohl bedacht“ worden, d.h. eine theoretisch begründete Annahme unterschiedlicher<br />
Wirkungen auf die AV liegt nicht vor. Eher soll ausprobiert werden, ob das Ergebnis der<br />
Therapie vom Therapeuten abhängt.<br />
In dem über MODELL aufrufbaren Auswahlfeld sind keine Veränderungen vorzunehmen.<br />
Das voreingestellte und mit „Quadratsumme Typ III“ bezeichnete Verfahren entspricht der<br />
allgemein verwendeten „Methode 1“. Bei gleichem n pro Zelle entspricht das der üblichen<br />
VA.<br />
Die unter KONTRASTE möglichen Vergleiche zwischen den Zeilen- und Spalten-Mittelwerten<br />
dürften nur selten von Interesse sein. Wenn man sie dennoch aufrufen will, so ist als erstes<br />
der Faktor zu markieren, dessen Mittelwerte verglichen werden sollen. Voreingestellt sind<br />
„keine“ speziellen Kontraste, d.h. es werden keine durchgeführt. Sodann kann man im Dropdown-Menu<br />
auswählen, welche Mittelwerte wie verglichen werden sollen. Es bedeutet:<br />
a) Einfach: Vergleicht den Mittelwert jeder Faktorstufe mit dem Mittelwert einer<br />
angegebenen Faktorstufe. Man kann (jedoch nur) die erste oder letzte Faktorstufe<br />
auswählen. Z.B. bei 4 Stufen: 2-1, 3-1, 4-1.<br />
b) Differenz: Vergleicht den Mittelwert jeder Faktorstufe (außer der ersten) mit dem<br />
Mittelwert der vorhergehenden Faktorstufen. Z.B.: 2-1, 3-(1+2)/2, 4-(1+2+3)/3.<br />
c) Helmert: Vergleicht den Mittelwert jeder Stufe des Faktors (bis auf die letzte) mit dem<br />
Mittelwert der folgenden Stufen. Z.B.: 1-(2+3+4)/3, 2-(3+4)/2, 3-4.<br />
d) Wiederholt: Vergleicht den Mittelwert jeder Faktorstufe (außer der letzten) mit dem<br />
Mittelwert der folgenden Stufe. Z.B.: 1-2, 2-3, 3-4.<br />
e) Polynomial: Vergleicht den linearen, quadratischen, kubischen Effekt, usw. Die Kontraste<br />
können verwendet werden, um solche und weitere polynomiale Trends zu schätzen. Die<br />
weitere Eingabehilfe findet man für diesen Fall in der Syntaxstruktur.<br />
Diese Kontraste sind alle fest voreingestellt. Man kann sie auch nicht über die Syntax ändern<br />
(vgl. jedoch unten die Eingabe mithilfe des LMATRIX-Befehls).<br />
Bei den im Dialogfeld OPTIONEN<br />
Abb. 82 Optionen<br />
Seite - 111 -
Skript: Benutzung von SPSS<br />
aufrufbaren Kennwerten sollte zwischen dem Fall gleicher und ungleicher Zellengrößen<br />
unterschieden werden:<br />
a) Haben alle Zellen den gleichen Stichprobenumfang n, so gibt es nur eine Art von<br />
Zeilen- und Spalten-Mittelwerten. Zur Ausgabe aller Zellen- und Zeilen- und<br />
Spaltenkennwerte genügt es dann, die Option DESKRIPTIVE STATISTIK zu wählen.<br />
Im Feld MITTELWERTE ANZEIGEN FÜR sind dann keine Angaben zu machen.<br />
Klickt man HOMOGENITÄTSTEST an, so wird mithilfe des LEVENE-Tests geprüft,<br />
ob sich die Zellen-Varianzen signifikant voneinander unterscheiden. Eta-Quadrate zur<br />
Schätzung der Stärke der Haupt- und des Interaktionseffekts kann man über<br />
SCHÄTZER DER EFFEKTGRÖßE anfordern.<br />
b) Sind die Zellenumfänge dagegen ungleich, so sind gewichtete und ungewichtete<br />
Zeilen- und Spalten-Mittelwerte zu unterscheiden. Varianzanalysen nach Methode 1<br />
prüfen dann bei den Haupteffekten, ob signifikante Unterschiede zwischen den<br />
ungewichteten Mittelwerten bestehen. Diese werden ausgegeben, wenn der Zeilenund<br />
der Spaltenfaktor im Feld MITTELWERTE ANZEIGEN FÜR eingegeben<br />
werden. Die danach aufrufbare Option HAUPTEFFEKTE VERGLEICHEN meint<br />
(nur) den Fall paarweiser Mittelwertsvergleiche.<br />
15.3.1 Paarweise Vergleiche zwischen Zeilen- und Spalten-Mittelwerten<br />
Falls ein Faktor mit drei oder mehr Stufen einen statistisch signifikanten Einfluss auf die AV<br />
ausüben sollte (ein Haupteffekt), kann die Frage auftreten, zwischen welchen Mittelwerten<br />
der Faktorstufen sich Unterschiede absichern lassen. Zur Prüfung stellt SPSS über die Taste<br />
POST HOC wieder eine Reihe von Tests zur Verfügung, die schon bei der einfaktoriellen VA<br />
angeboten wurden. Dort hatten wir den Scheffé-Test als den konservativsten kurz erläutert.<br />
Man sollte wissen, dass alle angebotenen Post-Hoc-Verfahren ihre (nur paarweisen)<br />
Vergleiche mit den gewichteten Zeilen- bzw. Spalten-Mittelwerten durchführen:<br />
a) Das spielt im Fall gleicher Zellengrößen keine Rolle, da gewichtete und ungewichtete<br />
Mittelwerte dann übereinstimmen. Die VA der Haupteffekte und die folgenden<br />
Einzelvergleiche beziehen sich dann auf die gleichen Kennwerte.<br />
b) Bei ungleichen (disproportionalen) Zellengrößen ist das jedoch nicht so. Dann sind in den<br />
gewichteten Zeilen- und Spalten-Mittelwerten die Haupteffekte mehr oder weniger<br />
konfundiert. Die Einzelvergleiche müssten deshalb mit den ungewichteten Zeilen- und<br />
Spalten-Mittelwerten vorgenommen werden, so wie es bei der VA der Haupteffekte der<br />
Fall ist. Nur mit solchen Mittelwerten lassen vom jeweils anderen Faktor unabhängige<br />
Haupteffekte bestimmen. Bei ungleichen Zellengrößen sollten die Post-Hoc-Verfahren<br />
also nicht aufgerufen werden.<br />
(Nur paarweise) Vergleiche zwischen den ungewichteten Zeilen- und Spalten-Mittelwerten<br />
lassen sich jedoch über das Dialogfeld OPTIONEN aufrufen, indem dort unter<br />
MITTELWERTE ANZEIGEN FÜR die Faktoren eingefügt werden und anschließend<br />
HAUPTEFFEKTE VERGLEICHEN angeklickt wird. Dadurch wird das Feld ANPASSUNG<br />
DES KONFIDENZINTERVALLS aktiviert, dort sollte am besten die Bonferroni-<br />
Adjustierung gewählt werden (unter Annahme der Homogenität der Varianzen). Beließe man<br />
es bei der Voreinstellung „LSD (kein)“, würden bei den einzelnen Vergleichen nicht<br />
adjustierte p-Werte ausgegeben werden. (LSD meint Least significant difference, d.h. dass<br />
alle paarweisen Vergleiche von Mittelwerten durchgeführt werden, ohne dass eine α-<br />
Adjustierung erfolgt.) So aber werden die p-Werte wie folgt umgerechnet: p Bon = (k *(k-1)/2)<br />
* p LSD , wobei k die Anzahl der Stufen des Faktors ist und k*(k-1)/2 die Anzahl der Paare der<br />
Stufen. Die adjustierten p´s können dann direkt mit dem gewählten α-Niveau verglichen<br />
werden, der auch unter SIGNIFIKANZNIVEAU eingegeben werden sollte.<br />
Seite - 112 -
Skript: Benutzung von SPSS<br />
Ob man allerdings an nur paarweisen Vergleichen von den Hypothesen her interessiert ist, ist<br />
eine andere Frage. Nur weil SPSS sie anbietet, muss man sie noch lange nicht rechnen.<br />
15.3.2 Interaktionsdiagramm<br />
Eine graphische Darstellung der Interaktion zwischen dem Zeilen- und Spaltenfaktor kann<br />
über die Taste DIAGRAMME im ersten Dialogfeld aufgerufen werden. Unter<br />
HORIZONTALE ACHSE wird der Faktor eingegeben, dessen Stufen die horizontale Achse<br />
bilden sollen, und unter SEPARATE LINIEN entsprechend der andere Faktor. Danach ist das<br />
Faktorenpaar durch die Taste HINZUFÜGEN in das Feld DIAGRAMME einzubringen.<br />
KLICKT man sodann WEITER an, erhält man das Diagramm.<br />
In der Regel ist das Diagramm noch nachzubearbeiten. So sind sicherlich die voreingestellten<br />
Beschriftungen „Geschätztes Randmittel ...“ durch eigene Texte zu ändern, oder es soll ein<br />
Abstand zwischen den Anfangs- bzw. Endpunkten des Diagramms und den senkrechten<br />
Rändern der Einfassung eingefügt werden. Dazu ist der Diagramm-Editor durch zweimaliges<br />
Hineinklicken in das Diagramm aufzurufen. Im Diagramm-Editor sind die Punkte<br />
DIAGRAMME/OPTIONEN aufzurufen. Über die Option MARKIERUNGEN INNERHALB<br />
KATEGORIEN VERBINDEN werden die Abstände des Diagramms vom Rand eingeführt.<br />
Dabei werden leider auch senkrechte Linien zwischen den Punkten eingeführt. Man kann<br />
dieser aber verschwinden lassen, indem man eine dieser Linien anklickt und sie dann über<br />
FORMAT/FARBE mit der Farbe weiß übertüncht. Auch kann man die Beschriftungen<br />
„Geschätztes Randmittel“ beseitigen und durch neue Beschriftungen ersetzen, indem man in<br />
die jeweilige Beschriftung hineinklickt und den entsprechenden im erscheinenden Dialogfeld<br />
löscht und durch einen treffenderen ersetzt.<br />
Im Folgenden rechnen wir das Beispiel einer zweifaktoriellen VA aus Kirk, 1968, S. 175. Der<br />
2 *4-Datensatz sieht wie folgt aus:<br />
a1<br />
b1<br />
3<br />
6<br />
3<br />
3<br />
a1<br />
b2<br />
4<br />
5<br />
4<br />
3<br />
a1<br />
b3<br />
7<br />
8<br />
7<br />
6<br />
a1<br />
b4<br />
7<br />
8<br />
9<br />
8<br />
a2<br />
b1<br />
1<br />
2<br />
2<br />
2<br />
a2<br />
b2<br />
2<br />
3<br />
4<br />
3<br />
a2<br />
b3<br />
5<br />
6<br />
5<br />
6<br />
a2<br />
b4<br />
10<br />
10<br />
9<br />
11<br />
Er hat also mit n = 4 ein gleiches N pro Zelle.<br />
Um mithilfe von SPSS eine VA rechnen zu können, müssen in die Datenmatrix von SPSS<br />
drei Variablen eingegeben werden. Die erste Variable ist die Variable (der Faktor) A, die nur<br />
zwei Werte aufweist, die zweite Variable ist die Variable B, die vier Werte hat. Die dritte<br />
Variable ist die AV, d.h. die 2*4*4 Messwerte. Wir geben die Daten in lexikographischer<br />
Folge ein, also zuerst von der Faktorenkombination a1bl alle Messwerte, dann von der<br />
Kombination a1b2 alle Messwerte, usw. Die erste Vp wird also die Daten 1 1 3 erhalten, die<br />
zweite 1 1 6, die fünfte 1 2 7, die letzte 2 4 11. Insgesamt wird die Datenmatrix 32 Zeilen<br />
und drei Spalten haben.<br />
Seite - 113 -
Skript: Benutzung von SPSS<br />
Der Output sieht nun wie folgt aus (bitte nachrechnen):<br />
GET<br />
FILE='C:\Dokumente und Einstellungen\EDV-Laptop\Eigene Dateien\KIRK.sav'.<br />
UNIANOVA<br />
var00003 BY var00001 var00002<br />
/METHOD = SSTYPE(3)<br />
/INTERCEPT = INCLUDE<br />
/PLOT = PROFILE( var00002*var00001 )<br />
/PRINT = DESCRIPTIVE<br />
/CRITERIA = ALPHA(.05)<br />
/DESIGN = var00001 var00002 var00001*var00002 .<br />
Zunächst haben wir uns per Voreinstellung die Syntax der angeklickten Befehle ausgeben<br />
lassen. Wie man das macht, ist unter „Syntax“ beschrieben.<br />
Sodann folgt das Ergebnis der VA, dabei haben wir unter OPTIONEN zusätzlich<br />
DESKRIPTIVE STATISTIK angeklickt. Der Output sieht wie folgt aus:<br />
Univariate Varianzanalyse<br />
Zwischensubjektfaktoren<br />
VAR00001<br />
VAR00002<br />
1.00<br />
2.00<br />
1.00<br />
2.00<br />
3.00<br />
4.00<br />
N<br />
16<br />
16<br />
8<br />
8<br />
8<br />
8<br />
Abb. 83 Zwischensubjektfaktoren<br />
Deskriptive Statistiken<br />
Abhängige Variable: VAR00003<br />
VAR00001<br />
1.00<br />
2.00<br />
Gesamt<br />
VAR00002<br />
1.00<br />
2.00<br />
3.00<br />
4.00<br />
Gesamt<br />
1.00<br />
2.00<br />
3.00<br />
4.00<br />
Gesamt<br />
1.00<br />
2.00<br />
3.00<br />
4.00<br />
Gesamt<br />
Mittelwert<br />
Abb. 84 Deskriptive Statistiken<br />
Standardab<br />
weichung<br />
3.7500 1.50000 4<br />
4.0000 .81650 4<br />
7.0000 .81650 4<br />
8.0000 .81650 4<br />
5.6875 2.12034 16<br />
1.7500 .50000 4<br />
3.0000 .81650 4<br />
5.5000 .57735 4<br />
10.0000 .81650 4<br />
5.0625 3.31600 16<br />
2.7500 1.48805 8<br />
3.5000 .92582 8<br />
6.2500 1.03510 8<br />
9.0000 1.30931 8<br />
5.3750 2.75622 32<br />
Es folgt nun das eigentliche Ergebnis der VA, das etwas erklärungsbedürftig überschrieben<br />
worden ist.<br />
N<br />
Seite - 114 -
Skript: Benutzung von SPSS<br />
Abhängige Variable: VAR00003<br />
Quelle<br />
Korrigiertes Modell<br />
Konstanter Term<br />
VAR00001<br />
VAR00002<br />
VAR00001 * VAR00002<br />
Fehler<br />
Gesamt<br />
Korrigierte<br />
Gesamtvariation<br />
Tests der Zwischensubjekteffekte<br />
Quadratsum<br />
Mittel der<br />
me vom Typ III df Quadrate F Signifikanz<br />
217.000 a 7 31.000 40.216 .000<br />
924.500 1 924.500 1199.351 .000<br />
3.125 1 3.125 4.054 .055<br />
194.500 3 64.833 84.108 .000<br />
19.375 3 6.458 8.378 .001<br />
18.500 24 .771<br />
1160.000 32<br />
235.500 31<br />
a. R-Quadrat = .921 (korrigiertes R-Quadrat = .899)<br />
Abb. 85 Test der Zwischensubjektfaktoren<br />
Die Begriffe „Korrigiertes Modell“ und „Konstanter Term“ erläutern wir nicht. Es würde hier<br />
zu weit führen. Die übrigen Ergebnisse entsprechen den Ergebnissen von Kirk, S. 176.<br />
„Fehler“ meint hier die Variation „innerhalb“. Die Quadratsummen der Faktoren 1 und 2, der<br />
Interaktion und die Fehlerquadratsumme (hier „innerhalb“) addieren sich zu der (korrigierten)<br />
Gesamtvariation (Quadratsumme total). Gleiches gilt für die Freiheitsgrade. Die Mittel der<br />
Quadrate ergeben sich, indem man die Quadratsummen durch die zugehörigen Freiheitsgrade<br />
dividiert. Die F-Werte der drei Effekte werden berechnet, indem man die entsprechenden<br />
mittleren Quadrate durch das mittlere Quadrat „Fehler“ teilt.<br />
Er folgt noch das Diagramm der Interaktion, das wir ebenfalls angefordert haben und<br />
entsprechend der obigen Beschreibung veränderten.<br />
Profildiagramm<br />
12<br />
Interaction between A and B<br />
10<br />
Measure of Marble Dropping<br />
8<br />
6<br />
4<br />
2<br />
0<br />
1.00<br />
2.00<br />
3.00<br />
4.00<br />
VAR00001<br />
1.00<br />
2.00<br />
Level of Social Deprivation<br />
Abb. 86 Interaktionsdiagramm<br />
15.3.3 Analyse der einfachen Haupteffekte (Bedingte Haupteffekttests)<br />
Sie wird in der Literatur empfohlen, um einen a posteriori festgestellten signifikanten<br />
Interaktionseffekt näher zu explorieren. Als bedingte Haupteffekte bezeichnet man die<br />
Unterschiedlichkeit der Stufen des Faktors A unter den Stufen des Faktors B, und umgekehrt.<br />
Falls mehrere bedingte Haupteffekte a posteriori an der Fehlervarianz (innerhalb) getestet<br />
Seite - 115 -
Skript: Benutzung von SPSS<br />
werden, sollte der Satz bedingter Haupteffekthypothesen analog zum Scheffé-Test „familywise“<br />
auf einem nominellen α-Niveau abgesichert werden. Wir gehen hier nicht näher darauf<br />
ein. Gute Literatur (wie z.B. Kirk) sollte dann zu Rate gezogen werden.<br />
b 1 b 2 b 3 b 4<br />
a 1 M 1 M 2 M 3 M 4<br />
a 2 M 5 M 6 M 7 M 8<br />
a 3 M 9 M 10 M 11 M12<br />
Es wird also für jede Zeile varianzanalytisch geprüft, ob zwischen ihren Zellenmittelwerten<br />
signifikante Unterschiede bestehen. Ist das der Fall, kann anschließend mittels paarweiser<br />
Kontraste untersucht werden (bedingte Einzelvergleiche), welche der Mittelwerte sich<br />
voneinander unterscheiden.<br />
Anschließend kann Gleiches auch für jede Spalte geschehen.<br />
Möglich ist alles jedoch nur mithilfe der Syntax, mit dem dortigen LMATRIX-Befehl.<br />
Dabei weisen die zur Prüfung der einzelnen Effekte berechneten F-Brüche im Nenner das<br />
Mittlere Quadrat „innerhalb“ der Gesamtvarianzanalyse auf, weil dieses auf die Streuung<br />
„innerhalb“ aller Zellen beruht und somit eine höhere Teststärke ermöglicht. Das darf jedoch<br />
nur gemacht werden, wenn die Annahme gleicher Populationsvarianzen beibehalten werden<br />
konnte (Levene-Test).<br />
Wir rechnen im Folgenden einige der simple main effects nach, die Kirk (1968) auf der Basis<br />
seines Beispiels S. 179 bringt. Die Mittelwerte des Plans sind die folgenden:<br />
b 1 b 2 b 3 b 4<br />
a 1 3.75 4 7 8<br />
a 2 1,75 3 5,5 10<br />
Im oben bereits gerechneten Kirk-Beispiel sahen wir zunächst die Syntaxbefehle, die sich aus<br />
unseren angeklickten Befehle ergaben. Wie wir noch wissen, erhalten wir sie auch, wenn wir<br />
nach dem Anklicken dieser Befehle statt der Taste OK die Taste EINFÜGEN betätigen, und<br />
das damit der Syntax-Editor aufgerufen wird. Wir zeigen die Syntax-Befehle nochmal:<br />
GET<br />
FILE='C:\Dokumente und Einstellungen\EDV-Laptop\Eigene Dateien\KIRK.sav'.<br />
UNIANOVA<br />
var00003 BY var00001 var00002<br />
/METHOD = SSTYPE(3)<br />
/INTERCEPT = INCLUDE<br />
/PLOT = PROFILE( var00002*var00001 )<br />
/PRINT = DESCRIPTIVE<br />
/CRITERIA = ALPHA(.05)<br />
/DESIGN = var00001 var00002 var00001*var00002 .<br />
Wir erkennen, dass die Prozedur UNIANOVA aufgerufen worden ist, und wir wissen auch<br />
noch, wie wir uns über die Syntax dieses Befehls näher <strong>info</strong>rmieren können. Das soll hier<br />
daher nicht wiederholt werden.<br />
Wir können nun LMATRIX-Befehle zum Zwecke der Berechnung einfacher Haupteffekte<br />
sowie von Einzelvergleichen innerhalb bedingter Haupteffekte wie folgt einfügen:<br />
UNIANOVA<br />
var00003 BY var00001 var00002<br />
/METHOD = SSTYPE(3)<br />
/INTERCEPT = INCLUDE<br />
/LMATRIX "Einzeleffekte der VAR2 auf die 1. Stufe der VAR1"<br />
var00002 1 -1 0 0 var00001*var00002 1 -1 0 0 0 0 0 0;<br />
var00002 1 0 -1 0 var00001*var00002 1 0 -1 0 0 0 0 0;<br />
var00002 1 0 0 -1 var00001*var00002 1 0 0 -1 0 0 0 0;<br />
Seite - 116 -
Skript: Benutzung von SPSS<br />
/LMATRIX "Effekt von VAR1 auf die Stufe b1 (von VAR2)"<br />
var00001 1 -1 var00001*var00002 1 0 0 0 -1 0 0 0<br />
/LMATRIX "Effekt von VAR1 auf die Stufe b2"<br />
var00001 1 -1 var00001*var00002 0 1 0 0 0 -1 0 0<br />
/LMATRIX "Effekt von var1 auf die Stufe b3"<br />
var00001 1 -1 var00001*var00002 0 0 1 0 0 0 -1 0<br />
/LMATRIX "Effekt von var1 auf die Stufe b4"<br />
var00001 1 -1 var00001*var00002 0 0 0 1 0 0 0 -1<br />
/DESIGN = var00001 var00002 var00001*var00002 .<br />
Wir haben hier folgende Auswahl von Kontrasten angesteuert:<br />
Im ersten LMATRIX-Befehl sollen Mittelwerte der ersten Zeile verglichen werden, und zwar<br />
M 1 -M 2 , M 1 -M 3 , M 1 -M 4 . Der Vergleich mithilfe von Kontrastkoeffizienten wird quasi zweimal<br />
eingegeben, einmal für den 2. Faktor (var00002), und einmal für die Faktorenkombination,<br />
die ja aus 2*4 = 8 Mittelwerten besteht, in der Reihenfolge erste Zeile zweite Zeile.<br />
Wir haben hier aus Platzgründen auf weitere Vergleiche in der ersten Zeile verzichtet, und<br />
Vergleiche für die zweite Zeile gar nicht angefordert.<br />
Wenn wir nun Vergleiche für einzelnen Spalten aufrufen wollen, so kann, weil Faktor A nur<br />
zwei Stufen hat, für jede Spalte (Stufe von B) nur ein Vergleich aufgerufen werden. Wir<br />
haben den LMATRIX-Befehl für alle vier Stufen von B ausgeführt.<br />
Nun zu den Ergebnissen (bitte nachrechnen):<br />
Benutzerdefinierte Hypothesentests Nr. 1<br />
Kontrastergebnisse (K-Matrix) a -.250<br />
Kontrast<br />
L1<br />
Kontrastschätzer<br />
Hypothesenwert<br />
Differenz (Schätzung - Hypothesen)<br />
Abhängige<br />
Variable<br />
VAR00003<br />
0<br />
-.250<br />
L2<br />
L3<br />
Standardfehler<br />
Signifikanz<br />
95% Konfidenzintervall<br />
für die Differenz<br />
Kontrastschätzer<br />
Untergrenze<br />
Obergrenze<br />
Hypothesenwert<br />
Differenz (Schätzung - Hypothesen)<br />
Standardfehler<br />
Signifikanz<br />
95% Konfidenzintervall<br />
für die Differenz<br />
Kontrastschätzer<br />
Hypothesenwert<br />
Untergrenze<br />
Obergrenze<br />
Differenz (Schätzung - Hypothesen)<br />
Standardfehler<br />
Signifikanz<br />
95% Konfidenzintervall<br />
für die Differenz<br />
Untergrenze<br />
Obergrenze<br />
.621<br />
.691<br />
-1.531<br />
1.031<br />
-3.250<br />
0<br />
-3.250<br />
.621<br />
.000<br />
-4.531<br />
-1.969<br />
-4.250<br />
0<br />
-4.250<br />
.621<br />
.000<br />
-5.531<br />
-2.969<br />
a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />
Kontrastkoeffizienten: Einzeleffekte der VAR2 auf die 1. Stufe der<br />
VAR1<br />
Abb. 87 Kontrastergebnisse Hypothesentests Nr. 1<br />
Seite - 117 -
Skript: Benutzung von SPSS<br />
Es sind für die erste Zeile von A drei Kontraste eingegeben worden, „Kontrastschätzer“<br />
bedeutet die Differenz der beiden Mittelwerte, ebenso wie die „Differenz“ selbst.<br />
Die folgenden „Testergebnisse“ meinen die VA der ersten Zeile a 1 , bei Kirk (S. 181) „ B at<br />
a 1 “ genannt, d.h. Prüfung aller vier Mittelwerte der ersten Zeile auf Signifikanz.<br />
Abhängige Variable: VAR00003<br />
Quelle<br />
Kontrast<br />
Fehler<br />
Testergebnisse<br />
Quadrats<br />
Mittel der<br />
umme df Quadrate F Signifikanz<br />
54.688 3 18.229 23.649 .000<br />
18.500 24 .771<br />
Abb. 88 Testergebnisse Hypothesentests Nr. 1<br />
Es folgen die vier Spaltenvergleiche. Dabei sind bei einem Faktor mit nur zwei Stufen die<br />
„Kontrastergebnisse“ und die „Testergebnisse“ identisch, da nur ein Kontrast pro Bedingung<br />
vorliegt. Bei einer Beurteilung der Kontraste auf Signifikanz sollte noch entschieden werden,<br />
ob gezielte a priori-Kontraste vorliegen, oder ob hier im Nachhinein Kontraste gerechnet<br />
werden, auf der (systematischen) Suche nach „signifikanten“ Unterschieden zwischen<br />
Mittelwerten. Im zweiten Fall sollte eine Kumulation des α-Fehlers vermieden werden, d.h.<br />
z.B. das α-Niveau nach Bonferroni adjustiert werden.<br />
Benutzerdefinierte Hypothesentests Nr. 2<br />
a<br />
Kontrastergebnisse (K-Matrix)<br />
Kontrast<br />
L1<br />
Kontrastschätzer<br />
Hypothesenwert<br />
Differenz (Schätzung - Hypothesen)<br />
Abhängige<br />
Variable<br />
VAR00003<br />
2.000<br />
0<br />
2.000<br />
Standardfehler<br />
Signifikanz<br />
95% Konfidenzintervall<br />
für die Differenz<br />
Untergrenze<br />
Obergrenze<br />
.621<br />
.004<br />
.719<br />
3.281<br />
a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />
Kontrastkoeffizienten: Effekt von VAR1 auf die Stufe b1 (von VAR2)<br />
Abb. 89 Kontrastergebnisse Hypothesentests Nr. 2<br />
Abhängige Variable: VAR00003<br />
Quelle<br />
Kontrast<br />
Fehler<br />
Quadrats<br />
umme<br />
Testergebnisse<br />
8.000 1 8.000 10.378 .004<br />
18.500 24 .771<br />
Abb. 90 Testergebnisse Hypothesentests Nr. 2<br />
df<br />
Mittel der<br />
Quadrate F Signifikanz<br />
Das ist z.B. der Vergleich des Mittelwerts der Zelle a 1 b 1 mit dem Mittelwert der Zelle a 2 b 1 ,<br />
bei Kirk S. 182 „A at b1“ genannt. Wie man sich überzeugen kann, stimmen alle<br />
Nachrechnungen.<br />
Entsprechend die folgenden drei Tests.<br />
Benutzerdefinierte Hypothesentests Nr. 3<br />
Seite - 118 -
Skript: Benutzung von SPSS<br />
Kontrastergebnisse (K-Matrix) a 1.000<br />
Kontrast<br />
L1<br />
Kontrastschätzer<br />
Hypothesenwert<br />
Differenz (Schätzung - Hypothesen)<br />
Abhängige<br />
Variable<br />
VAR00003<br />
0<br />
1.000<br />
Standardfehler<br />
Signifikanz<br />
95% Konfidenzintervall<br />
für die Differenz<br />
Untergrenze<br />
Obergrenze<br />
a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />
Kontrastkoeffizienten: Effekt von VAR1 auf die Stufe b2<br />
.621<br />
.120<br />
-.281<br />
2.281<br />
Abb. 91 Kontrastergebnisse Hypothesentests Nr. 3<br />
Abhängige Variable: VAR00003<br />
Quelle<br />
Kontrast<br />
Fehler<br />
Testergebnisse<br />
Quadrats<br />
Mittel der<br />
umme df Quadrate F Signifikanz<br />
2.000 1 2.000 2.595 .120<br />
18.500 24 .771<br />
Abb. 92 Testergebnisse Hypothesentests Nr. 3<br />
Benutzerdefinierte Hypothesentests Nr. 4<br />
Kontrastergebnisse (K-Matrix) a 1.500<br />
Kontrast<br />
L1<br />
Kontrastschätzer<br />
Hypothesenwert<br />
Differenz (Schätzung - Hypothesen)<br />
Abhängige<br />
Variable<br />
VAR00003<br />
0<br />
1.500<br />
Standardfehler<br />
Signifikanz<br />
95% Konfidenzintervall<br />
für die Differenz<br />
Untergrenze<br />
Obergrenze<br />
a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />
Kontrastkoeffizienten: Effekt von var1 auf die Stufe b3<br />
.621<br />
.024<br />
.219<br />
2.781<br />
Abb. 93 Kontrastergebnisse Hypothesentests Nr. 4<br />
Abhängige Variable: VAR00003<br />
Quelle<br />
Kontrast<br />
Fehler<br />
Testergebnisse<br />
Quadrats<br />
Mittel der<br />
umme df Quadrate F Signifikanz<br />
4.500 1 4.500 5.838 .024<br />
18.500 24 .771<br />
Abb. 94 Testergebnisse Hypothesentests Nr. 4<br />
Seite - 119 -
Skript: Benutzung von SPSS<br />
Benutzerdefinierte Hypothesentests Nr. 5<br />
Kontrastergebnisse (K-Matrix) a -2.000<br />
Kontrast<br />
L1<br />
Kontrastschätzer<br />
Hypothesenwert<br />
Differenz (Schätzung - Hypothesen)<br />
Abhängige<br />
Variable<br />
VAR00003<br />
0<br />
-2.000<br />
Standardfehler<br />
Signifikanz<br />
95% Konfidenzintervall<br />
für die Differenz<br />
Untergrenze<br />
Obergrenze<br />
a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />
Kontrastkoeffizienten: Effekt von var1 auf die Stufe b4<br />
.621<br />
.004<br />
-3.281<br />
-.719<br />
Abb. 95 Kontrastergebnisse Hypothesentests Nr. 5<br />
Abhängige Variable: VAR00003<br />
Quelle<br />
Kontrast<br />
Fehler<br />
Testergebnisse<br />
Quadrats<br />
Mittel der<br />
umme df Quadrate F Signifikanz<br />
8.000 1 8.000 10.378 .004<br />
18.500 24 .771<br />
Abb. 96 Testergebnisse Hypothesentests Nr. 5<br />
Seite - 120 -