03.06.2014 Aufrufe

Download PDF 2000kb - Psychologie-studium.info

Download PDF 2000kb - Psychologie-studium.info

Download PDF 2000kb - Psychologie-studium.info

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Skript: Benutzung von SPSS<br />

Die Benutzung des Programmpaketes<br />

SPSS 11.0 unter Microsoft Windows<br />

Dr. H. Fillbrandt<br />

Frank Weiss-Motz<br />

Oliver Sündermann<br />

Seite - 1 -


Skript: Benutzung von SPSS<br />

1. VORWORT...........................................................................................................................5<br />

2. DATENEINGABE................................................................................................................6<br />

2.1. SPEICHERN DER EINGEGEBENEN DATEN ...........................................................................7<br />

2.2. ÖFFNEN EINES DATENSATZES...........................................................................................8<br />

2.3. VERÄNDERN VON VARIABLENEIGENSCHAFTEN................................................................8<br />

2.3.1. Wertelabels festlegen..............................................................................................10<br />

2.3.2. Fehlende Werte definieren .....................................................................................10<br />

3. EINFACHE DESKRIPTIVE STATISTIKEN ................................................................12<br />

3.1. EINDIMENSIONALE HÄUFIGKEITSAUSZÄHLUNGEN UND KENNWERTE NOMINAL- ODER<br />

ORDINAL-SKALIERTER VARIABLEN .......................................................................................12<br />

3.2. MEHRDIMENSIONALE HÄUFIGKEITSAUSZÄHLUNGEN .....................................................14<br />

3.3. DESKRIPTIVE STATISTIKEN FÜR INTERVALLSKALIERTE VARIABLEN ..............................16<br />

4. ERSTELLUNG EINFACHER DIAGRAMME..............................................................17<br />

4.1. EINFACHE HÄUFIGKEITSDIAGRAMME FÜR NOMINAL- UND ORDINALSKALIERT E<br />

VARIABLEN ...........................................................................................................................17<br />

4.2. ERSTELLUNG EINES „HISTOGRAMMS“ FÜR INTERVALLSKALIERTE VARIABLEN..............20<br />

5. UMWANDLUNG VON VARIABLEN UND ERZEUGUNG NEUER VARIABLEN 23<br />

5.1. REKODIEREN VON DATEN...............................................................................................23<br />

5.2. BEDINGTE UMKODIERUNG..............................................................................................24<br />

5.3. VERRECHNUNG EINER ODER MEHRERER VARIABLEN ZU EINER NEUEN ...........................26<br />

5.4. AUSZÄHLUNGEN VON WERTEN ÜBER MEHRERE VARIABLEN..........................................27<br />

5.5. BILDUNG VON RANGWERTEN .........................................................................................28<br />

6. BILDUNG VON UNTERGRUPPEN / UNTERSTICHPROBEN .................................29<br />

6.1. AUSWAHL VON FÄLLEN ..................................................................................................29<br />

6.2. DATEI AUFTEILEN ...........................................................................................................30<br />

7. ZUSAMMENFÜGEN VON DATEIEN ...........................................................................32<br />

7.1. FÄLLE HINZUFÜGEN ........................................................................................................32<br />

7.2. VARIABLEN HINZUFÜGEN ...............................................................................................32<br />

8. EXPLORATIVE DATENANALYSE...............................................................................34<br />

8.1 FRAGESTELLUNG.............................................................................................................34<br />

8.2 METHODEN DER EXPLORATIVEN DATENANALYSE...........................................................35<br />

8.2.1 Häufigkeitsauszählung ............................................................................................35<br />

8.2.2 Stem-and-Leaf-Diagramm (Stengel-Blatt-Diagramm)............................................36<br />

8.2.3 Boxplots...................................................................................................................37<br />

8.2.4 Normalverteilungsdiagramm...................................................................................38<br />

8.2.5 Deskriptive Statistiken.............................................................................................40<br />

9. BALKEN-, LINIEN-, FLÄCHEN- UND KREISDIAGRAMME..................................44<br />

9.1 ALLGEMEINES..................................................................................................................44<br />

9.2 STRUKTUR DER DARZUSTELLENDEN DATEN ....................................................................44<br />

9.2.1 Zahl der darzustellenden Datenreihen ....................................................................44<br />

9.2.2 Art der darzustellenden Werte.................................................................................44<br />

9.3 DARSTELLUNG EINER EINZELNEN DATENREIHE...............................................................45<br />

9.3.1 Einfaches Balkendiagramm.....................................................................................45<br />

Seite - 2 -


Skript: Benutzung von SPSS<br />

9.3.1.1 Aufrufmöglichkeiten .............................................................................................45<br />

9.3.1.2 Diagramm interpretieren......................................................................................45<br />

9.3.1.3 Direkte Umwandlung in alternative Grafiktypen.................................................46<br />

9.3.2 Einfaches Liniendiagramm......................................................................................46<br />

9.3.3 Einfaches Flächendiagramm...................................................................................47<br />

9.3.4 Kreisdiagramm........................................................................................................48<br />

9.4 DARSTELLUNG MEHRERER DATENREIHEN .......................................................................48<br />

9.4.1 Gruppiertes und gestapeltes Balkendiagramm .......................................................48<br />

9.4.2 Mehrfachliniendiagramm........................................................................................49<br />

9.4.3 Gestapeltes Flächendiagramm................................................................................49<br />

10. STREUDIAGRAMME....................................................................................................50<br />

10.1 DIAGRAMMTYPEN..........................................................................................................50<br />

10.2 EINFACHES STREUDIAGRAMM.......................................................................................51<br />

10.3 EINFACHES STREUDIAGRAMM IN SONNENBLUMEN-DARSTELLUNG...............................52<br />

10.4 EINFACHES STREUDIAGRAMM MIT REGRESSIONSKURVE...............................................53<br />

11 HINWEIS ZUM BEGRIFF „NICHTPARAMETRISCHE TESTS“...........................54<br />

12 INFERENZSTATISTIK HÄUFIGKEITSTESTS .........................................................56<br />

12.1 BINOMIALTEST, EXAKT UND ASYMPTOTISCH .................................................................56<br />

12.1.1 Einseitiger Test......................................................................................................58<br />

12.1.2 Zweiseitiger Test....................................................................................................59<br />

12.2 EINDIMENSIONALER Χ 2 -TEST ........................................................................................61<br />

12.3 DER Χ 2 -TEST IN ZWEIDIMENSIONALEN KREUZTABELLEN..............................................63<br />

12.4 DER SPEZIELLE FALL VON 2*2-KREUZTABELLEN ..........................................................65<br />

12.5 ANALYSE VON DREI- ODER HÖHERDIMENSIONALEN KREUZTABELLEN ..........................65<br />

13 BERECHNUNG UND ANALYSE VON KORRELATIONEN...................................66<br />

13.1 PRODUKT-MOMENT-KORRELATION .............................................................................66<br />

13.2 PARTIAL-KORRELATION................................................................................................68<br />

13.3 MULTIPLE KORRELATION UND REGRESSION .................................................................70<br />

13.3.1 Schätzung einer einfachen Regressionsgleichung.................................................70<br />

13.3.3 Zeichnung der Regressionsgeraden .....................................................................75<br />

13.4 MULTIPLE REGRESSION .................................................................................................77<br />

13.4.1 Erweiterung der einfachen Regression zur Multiplen Regression........................77<br />

13.4.5 Diagramme (Plots): Prüfung der Residuen...........................................................81<br />

14 SYNTAX.............................................................................................................................83<br />

14.1 ZWEI MÖGLICHKEITEN, SPSS ANWEISUNGEN ZU GEBEN ..............................................83<br />

14.2 SYNTAX-FENSTER .........................................................................................................84<br />

14.3 DIE JOURNAL-DATEI .....................................................................................................85<br />

14.4 SYNTAX-BEFEHLE IN DER AUSGABEDATEI ....................................................................85<br />

14.5 SYNTAX VON SPSS-KOMMANDOS.................................................................................85<br />

14.5.1 Syntaxdiagramme..................................................................................................85<br />

14.5.2 Syntaxregeln ..........................................................................................................86<br />

14.5.4 Bedeutung der Symbole und Schreibweisen in Syntaxdiagrammen......................88<br />

14.5.5 Beispiel: Umsetzung eines Syntaxprogramms in einen Befehl..............................88<br />

14.5.6 Einbindung der Syntax in den dialoggesteuerten Ablauf ......................................90<br />

15 INFERENZSTATISTIK...................................................................................................92<br />

15.1 T-TESTE ........................................................................................................................92<br />

Seite - 3 -


Skript: Benutzung von SPSS<br />

15.1.1 Allgemeines...........................................................................................................92<br />

15.1.2 t-Test bei unabhängigen Stichproben...................................................................92<br />

15.1.3 T-Test bei abhängigen (gepaarten) Stichproben...................................................96<br />

15.1.4 t-Test bei einer Stichprobe....................................................................................98<br />

15.2 EINFACHE VARIANZANALYSE......................................................................................100<br />

15.2.1 „A-PRIORI“-KONTRASTE.................................................................................104<br />

15.2.2 Rechenbeispiel.....................................................................................................105<br />

15.2.3 SCHEFFÉ-TEST..................................................................................................107<br />

15. 3 ZWEI- UND HÖHERFAKTORIELLE VARIANZANALYSEN ...............................................109<br />

15.3.1 Paarweise Vergleiche zwischen Zeilen- und Spalten-Mittelwerten ....................112<br />

15.3.2 Interaktionsdiagramm .........................................................................................113<br />

15.3.3 Analyse der einfachen Haupteffekte (Bedingte Haupteffekttests) .......................115<br />

Seite - 4 -


Skript: Benutzung von SPSS<br />

1. Vorwort<br />

Dieses Skript soll dem Leser die grundlegenden Fertigkeiten vermitteln, um die<br />

Anforderungen des Kurses „Einführung in die EDV“ am Institut für <strong>Psychologie</strong> der<br />

Universität Kiel zu erfüllen. Die Programmbeschreibung bezieht sich auf die SPSS-<br />

Version 11.0. für Windows. Sie ist mit geringen Einschränkungen auch auf andere<br />

Versionen von SPSS sowohl für Unix als auch für Macintosh übertragbar.<br />

Unterschiede bestehen vor allem in der Form und dem Aussehen des Outputs.<br />

Seite - 5 -


Skript: Benutzung von SPSS<br />

2. Dateneingabe<br />

Nach dem Start des Programmpaketes SPSS erscheint das Datenfenster wie in Abb.<br />

1 zu sehen auf dem Windows-Desktop<br />

Das Datenfenster, welches wir auch zur Dateneingabe benutzen, unterteilt sich von<br />

oben nach unten:<br />

• in die Menu-Leiste (1)<br />

• die Knopfleiste (in dieser sind wichtige Funktionen schnell zugänglich) (2)<br />

• die Eingabezeile (hier werden die Daten einer Zelle eingegeben) (3)<br />

• die Datenmatrix (4)<br />

• die Umschaltkarteireiter zwischen Daten und Variablensicht (5)<br />

• und die Statuszeile (6)<br />

Abb. 1: Das Datenfenster<br />

In den Spalten der Datenmatrix stehen die Variablen, in den Zeilen die Fälle (im<br />

Normalfall die verschiedenen Versuchspersonen). Nach dem Start ist diese<br />

Datenmatrix natürlich noch leer. Durch Eingabe eines Wertes in eine Zelle dieser<br />

Matrix wird automatisch eine neue Variable angelegt. Diese wird standardmäßig mit<br />

„var00001“ bis „var99999“ bezeichnet. Die Namen der Variablen kann man ändern,<br />

dazu aber später mehr.<br />

Seite - 6 -


Skript: Benutzung von SPSS<br />

Um einen Wert in eine Zelle einzutragen, ist zuerst die Zelle zu markieren. Dies<br />

geschieht durch einfachen Klick mit der Maus auf die entsprechende Zelle. Jetzt gibt<br />

man mittels Tastatur den Wert in die Eingabezeile ein. Bestätigt man mit „Return“, so<br />

springt SPSS anschließend automatisch in die Zelle der nächsten Versuchsperson<br />

(spaltenweise Eingabe), bestätigt man mit der „Tabulator“-Taste, so geht SPSS zur<br />

nächsten Variablen des aktuellen Falls (zeilenweise Eingabe). Alternativ können für<br />

beide Eingabeformen auch die Richtungstasten des Keyboards benutzt werden.<br />

2.1. Speichern der eingegebenen Daten<br />

Sind die Daten noch nie gespeichert worden, so muss dies beim ersten Mal über das<br />

Menu erfolgen. Hierzu dient der Menupunkt<br />

Datei -> Speichern unter<br />

Die Menupunkte werden durch einfachen Klick angewählt. Es öffnet sich dann ein<br />

Fenster wie in Abb. 2 zu sehen.<br />

Abb. 2: Das Datei speichern Fenster<br />

Hierbei handelt es sich um ein Standard-Windows-Dateiauswahlfenster. Unter<br />

Dateiname ist der Name anzugeben, unter dem die Datei gespeichert werden soll.<br />

Unter Dateityp kann die gewünschte Art der Datendatei ausgewählt werden.<br />

Standardmäßig ist hier der Dateityp SPSS (*.sav) ausgewählt. Es handelt sich dabei<br />

um das SPSS-eigene Dateiformat. Dies sollte in 95% der Fälle das gewünschte<br />

Format sein. Alternativ kann man an dieser Stelle auch z.B. das Speichern im Excel-<br />

Format veranlassen. Im Oberen Teil hinter dem Wort Speichern hat man die<br />

Möglichkeit den Ordner auszuwählen, in dem die Datei gespeichert werden soll. Hier<br />

kann man z.B. das Diskettenlaufwerk A und damit die dort eingelegte Diskette oder<br />

die Festplatte, die mit C bezeichnet wird auswählen. Klickt man auf C, so erscheinen<br />

alle auf C angelegten Ordner. Hier kann man auswählen in welchen die SPSS-Daten<br />

geschrieben werden. Als Teilnehmer des SPSS-Tutoriums hat man nur<br />

eingeschränkten Zugriff auf die Festplatte. Es steht nur der Ordner „Eigene Dateien“,<br />

welcher ebenfalls wie die Diskette oder Festplatte im obigen Menu zu finden ist, zur<br />

Seite - 7 -


Skript: Benutzung von SPSS<br />

Verfügung. Hier sollten keine privaten Daten abgelegt werden. Eine Diskette ist zu<br />

bevorzugen. Mit einem Klick auf Speichern wird die Datei dann auf das<br />

Speichermedium geschrieben.<br />

Wurde die Datei bereits einmal gespeichert, so kann man das Speichern<br />

vereinfachen, indem man in der Knopfleiste auf das Diskettensymbol klickt.<br />

Damit wird die Datei unter dem aktuellen Dateinamen gespeichert. Achtung, ältere<br />

Versionen der Datei werden dadurch aber überschrieben.<br />

2.2. Öffnen eines Datensatzes<br />

Abb. 3: Der Datei-Öffnen-Dialog<br />

Um einen bereits gespeicherten Datensatz zu öffnen, verwendet man entweder den<br />

Menupunkt<br />

Datei -> Öffnen -> Daten<br />

oder man benutzt in der Knopfleiste das Heftersymbol .<br />

Beide öffnen ein neues Fenster wie in Abb. 3 zu sehen.<br />

Dieser Dialog wird analog zum Speichern-Dialog verwendet. Im oberen Bereich wählt<br />

man den Ordner aus in dem sich die Datei befindet (z.B. das Diskettenlaufwerk), im<br />

mittleren Fenster sind dann die verfügbaren Dateien verzeichnet. Wählt man dort<br />

eine Datei an und klickt auf Öffnen so wird diese Datei in das Datenfenster geladen.<br />

Ist die Datei in einem anderen Format als dem SPSS-Standardformat geschrieben<br />

worden, so ist vorher noch unter Dateityp das korrekte Format auszuwählen.<br />

2.3. Verändern von Variableneigenschaften<br />

Wie oben schon erwähnt weist SPSS den Variablen automatisch die Namen<br />

„varxxxxx“ zu. Dieser Name sowie weitere Eigenschaften einer Variablen lassen sich<br />

ändern. Um die Eigenschaften einer Variablen zu ändern, ist zuerst mittel des<br />

Seite - 8 -


Skript: Benutzung von SPSS<br />

Karteireiters Nr. 5<br />

Abb. 4 zeigt diese Variablenansicht.<br />

in die Variablenansicht zu wechseln.<br />

Abb. 4: Die Variablenansicht<br />

In der Variablenansicht sind alle Eigenschaften einer Variablen in tabellarischer Form<br />

aufgeführt. Hier können sie auch verändert werden. Von links nach rechts sind das<br />

folgende Eigenschaften:<br />

Name<br />

Ein kurzer Name für die Variable ist maximal 8 Zeichen lang. Leer- und<br />

Sonderzeichen sind nicht erlaubt.<br />

Typ<br />

Variablentyp. Für das Tutorium benötigen wir ausschließlich den Typ „numerisch“.<br />

Alternativ können hier auch Text- oder Datumsformate ausgewählt werden.<br />

Spaltenformat<br />

gibt die Breite der Spalte in der Datenansicht an<br />

Dezimalstellen<br />

Gibt die Anzahl der ausgegebenen Nachkommastellen an (intern rechnet SPSS<br />

immer mit 16 Nachkommastellen, es entstehen hier also keine Rundungsfehler).<br />

Variablenlabel<br />

Eine lange „Benennung“ der Variablen. Bei der Benennung gibt es keine<br />

Einschränkungen in Länge und verfügbaren Sonderzeichen. Diese „Benennung“<br />

taucht dann auch später in den Ausgaben von SPSS auf.<br />

Wertelabel und Fehlende Werte<br />

Auf diese Punkte wird im nächsten Abschnitt genauer eingegangen.<br />

Die weiteren Punkte sind für unser Tutorium nicht mehr von Bedeutung.<br />

Seite - 9 -


Skript: Benutzung von SPSS<br />

2.3.1. Wertelabels festlegen<br />

Den einzelnen Werten einer Variablen können Namen zugewiesen werden. Dies ist<br />

immer dann sinnvoll, wenn nominale Daten bei der Dateneingabe durch Zahlen<br />

kodiert werden. So könnte zum Beispiel das Geschlecht einer Person so kodiert<br />

werden:<br />

1 = männlich<br />

2 = weiblich<br />

Damit in der Ausgabe der Rechnungen dann auch die Bezeichnungen männlich und<br />

weiblich auftauchen, werden diese unter Wertelabels benannt. Klickt man im Feld<br />

Wertelabels auf das Symbol so öffnet sich das Fenster in Abb. 5.<br />

Abb. 5: Das Wertelabel-Fenster<br />

Hier sind nacheinander allen möglichen Werten die Namen zuzuweisen. In unserem<br />

Beispiel würden wir mit männlich beginnen und in das Feld „Wert“ die 1 eintragen. Im<br />

Feld „Wertelabel“ muss dann die Bezeichnung „männlich“ eingetragen werden.<br />

Werden den Werten keine Labels zugewiesen, so erscheinen in der Ausgabe nur die<br />

Zahlencodes. Abschließen tut man diese Eingabe mit der Schaltfläche „Hinzufügen“.<br />

Diesen Vorgang wiederholt man für alle vorkommenden Werte. Den Dialog schließt<br />

man mit der Schaltfläche „OK“.<br />

2.3.2. Fehlende Werte definieren<br />

Führt man eine Untersuchung durch, so kommt es oft vor, dass unvollständige Werte<br />

vorliegen. In der Datenmatrix fehlen also einzelne Zellen. Damit diese von SPSS<br />

berücksichtigt werden können, müssen diese definiert werden. In der Praxis gibt man<br />

den fehlenden Werten eine Zahl, die nicht als Datenzahl vorkommen kann. Erfasst<br />

man zum Beispiel das Alter einer Versuchsperson, so weist man einer fehlenden<br />

Altersangabe z.B. den Wert „999“ zu, da es keine Person geben wird, die 999 Jahre<br />

alt ist. Nun gilt es SPSS mitzuteilen, welchen Wert wir als fehlend definiert haben.<br />

Unter „Fehlende Werte“ klickt man dazu wieder auf das Symbol . Es öffnet sich ein<br />

neues Fenster wie in Abb. 6 zu sehen.<br />

Hier kann man entweder feste einzelne Werte oder einen Wertebereich als „Missing<br />

Values“ definieren. Auch eine Kombination ist möglich. In der Praxis sind einzelne<br />

Werte das gebräuchlichste. Hierzu ist anzuwählen „Einzelne fehlende Werte“ und in<br />

Seite - 10 -


Skript: Benutzung von SPSS<br />

die darunter liegenden Felder einer oder mehrere Werte einzutragen, welche für<br />

„fehlend“ verwendet werden sollen. Auch diesen Dialog beendet man mit „OK“.<br />

Abb. 6: Der Variable Missing Values Dialog<br />

Um die Variablenansicht wieder zu verlassen, benutzt man erneut den Dateireiter Nr.<br />

5 und wechselt zur Datenansicht.<br />

Tipp:<br />

Man kann die Eigenschaften einer Variablen mittels Copy und Paste (Kopieren und<br />

Einfügen) im Menu „Bearbeiten“ oder mittels der Tastenkombinationen Strg+C und<br />

Strg+V leicht auf eine andere Variable übertragen. Dies erleichtert einem die<br />

Definition von mehreren Variablen die identische Eigenschaften haben.<br />

Seite - 11 -


Skript: Benutzung von SPSS<br />

3. Einfache deskriptive Statistiken<br />

Sämtliche statistischen Rechnungen von SPSS verbergen sich hinter dem Menu-<br />

Punkt „Analysieren“. Hier verbergen sich einfache deskriptive Verfahren wie<br />

Mittelwertsberechnungen bis hin zu komplizierten inferenzstatistischen Methoden wie<br />

der Diskriminanzanalyse.<br />

3.1. Eindimensionale Häufigkeitsauszählungen und Kennwerte<br />

nominal- oder ordinal-skalierter Variablen<br />

Diese Funktion wird mit dem Menu-Punkt<br />

Analysieren → Deskriptive Statistiken → Häufigkeiten<br />

aufgerufen. Es öffnet sich der in Abb. 8 dargestellte Dialog.<br />

Abb. 8: Der Häufigkeiten-Dialog<br />

Im linken Teil des Dialoges ist eine Liste aller verfügbaren Variablen zu finden. In der<br />

rechten Liste werden die Variablen eingefügt, die für die jeweilige Rechnung<br />

ausgewählt werden sollen. Um eine Variable aus der linken Liste in die rechte zu<br />

übernehmen, ist diese mit einem Klick auszuwählen und mit dem Pfeil in der<br />

Dialogmitte nach rechts zu schieben. Diese Art der Auswahl ist typisch für SPSS.<br />

Hat man alle Variablen ausgewählt, deren Häufigkeiten man berechnen möchte, so<br />

kann man die Berechnung mit „OK“ starten oder mit „Statistik“ statistische Kennwerte<br />

auswählen, die zusätzlich berechnet werden sollen. Hierzu öffnet sich der Dialog, der<br />

in Abb. 9 zu sehen ist.<br />

Seite - 12 -


Skript: Benutzung von SPSS<br />

Abb. 9: Das Statistik-Fenster<br />

Hier werden per Klick zusätzliche Kennwerte ausgewählt.<br />

Startet man nun im Hauptdialog durch „OK“ die Rechnung, so erscheint nach einem<br />

kurzen Moment das Ergebnis im Ausgabe-Fenster, wie es in Abb. 10 zu sehen ist.<br />

In unserem Beispiel sind die Häufigkeiten für eine Variable „Geschlecht“ berechnet<br />

worden. Es werden die absoluten und relativen Häufigkeiten für die verschiedenen<br />

Geschlechter ausgegeben. Zusätzlich werden die kumulierten Häufigkeiten und die<br />

„validen Häufigkeiten“ ausgegeben. Aus den „validen Häufigkeiten“ wurden die<br />

fehlenden Werte heraus gerechnet.<br />

Im Ausgabe-Fenster werden alle Ergebnisse sämtlicher Rechungen, die während<br />

einer Sitzung mit SPSS durchgeführt wurden, nacheinander aufgezeichnet. Um<br />

weitere Rechnungen durchführen zu können, müssen wir zum Datenfenster<br />

zurückkehren.<br />

Seite - 13 -


Skript: Benutzung von SPSS<br />

Abb. 10: Das Ausgabe Fenster nach Berechnung der Häufigkeiten<br />

3.2. Mehrdimensionale Häufigkeitsauszählungen<br />

Zur Auszählung mehrdimensionaler Häufigkeiten wird der Menupunkt<br />

Analysieren → Deskriptive Statistiken → Kreuztabellen<br />

verwendet. Dieser öffnet einen Dialog wie in Abb. 11 zu sehen.<br />

Wie auch schon bei Häufigkeiten haben wir hier die Aufteilung in eine Variablenliste<br />

und, wie in diesem Fall, in zwei Auswahllisten. In die beiden Auswahllisten werden<br />

die Variablen eingetragen, welche in der Kreuztabelle in den Zeilen bzw. in den<br />

Spalten stehen sollen. Hat man diese Auswahl getroffen, so kann man die Rechnung<br />

mit „OK“ beginnen oder wieder mit „Statistik“ weitere Rechnungen auswählen, die<br />

zusätzlich erfolgen sollen. Der „Statistik-Dialog“ ist in Abb. 12 zu sehen.<br />

Seite - 14 -


Skript: Benutzung von SPSS<br />

Abb. 11: Der Kreuztabellen-Dialog<br />

Hier können Statistiken wie der Chi²-Test, Phi oder Cramers V ausgewählt werden.<br />

Hat man dies getan, verlässt man diesen Dialog mit „Weiter“. Anschließend können<br />

die Rechungen mit „OK“ gestartet werden. In der Ausgabe dieser Funktion finden wir<br />

nacheinander die Kreuztabelle und die evtl. ausgewählten Statistiken.<br />

Will man zusätzlich zu den absoluten Häufigkeiten auch relative Häufigkeiten<br />

ausgeben, so kann man dies über die Schaltfläche „Zellen“ tun. In dem sich<br />

öffnenden Fenster kann man wählen, welche Daten in den Zellen der Kreuztabelle<br />

erscheinen sollen. So kann man die prozentualen Häufigkeiten auf das N der<br />

Gesamttabelle, der Tabellenspalte oder der Tabellenzeile beziehen. Auch die<br />

erwarteten absoluten Häufigkeiten können berechnet werden. Diesen Dialog schließt<br />

man mit „Weiter“<br />

Abb. 12: Der Crosstabs-Statistics-Dialog<br />

Seite - 15 -


Skript: Benutzung von SPSS<br />

3.3. Deskriptive Statistiken für intervallskalierte Variablen<br />

Um einfache statistische Kennwerte für intervallskalierte Variablen auszugeben,<br />

benutzen wir den Menupunkt<br />

Analysieren → Deskriptive Statistiken → Deskriptive Statistiken<br />

Hier öffnet sich ein Dialogfenster wie in Abb. 13 zu sehen. Die Auswahl der zu<br />

verrechnenden Variablen erfolgt auf übliche Weise. Mit der Schaltfläche „OK“ startet<br />

man ebenfalls wie üblich die Rechnungen.<br />

Abb. 13: Der Deskriptive-Statistiken-Dialog<br />

Über die Schaltfläche „Optionen“ kommt man zu dem in Abb. 14 dargestellten Dialog,<br />

in welchem die zu berechnenden Kennwerte ausgewählt werden können.<br />

Hier stehen unter anderem der Mittelwert, Varianz und Standardabweichung sowie<br />

Summe und Schiefe zur Verfügung. Der Auswahldialog wird mit „Weiter“ beendet.<br />

Nach dem Start der Rechnung mit „OK“ werden im Output-Fenster die ausgewählten<br />

Kennwerte ausgegeben.<br />

Abb. 14: Der Descriptives-Options-Dialog<br />

Seite - 16 -


Skript: Benutzung von SPSS<br />

4. Erstellung einfacher Diagramme<br />

4.1. Einfache Häufigkeitsdiagramme für nominal- und<br />

ordinalskalierte Variablen<br />

Die Befehle zum Erstellen von Diagrammen befinden sich im Menu „Grafiken“. Hier<br />

stehen z.B. Balken, Linien und Tortendiagramme zur Verfügung. Zur Darstellung<br />

einer Häufigkeitsverteilung bietet sich ein Balkendiagramm an. Zur Erstellung eines<br />

Balkendiagramms benutzen wir den Menupunkt:<br />

Grafiken → Balken<br />

Es öffnet sich ein Dialog wie in Abb. 15 zu sehen.<br />

Abb. 15: Der Balken-Diagramm-Dialog<br />

Hier ist zuerst auszuwählen, ob man eine Grafik für nur eine Variable erstellen will<br />

(Einfach), oder ob die Kombinationen mehrerer Variablen gruppiert dargestellt<br />

werden sollen (Gruppiert). Im unteren Teil des Dialoges ist eine weitere Auswahl zu<br />

treffen. „Auswertung über Kategorien einer Variablen“ wird verwendet, um Statistiken<br />

für verschiedene Ausprägungen einer Variablen darzustellen. Dies ist der<br />

gebräuchlichste Fall. Mit dem zweiten Punkt können die Mittelwerte verschiedener<br />

Variablen miteinander verglichen werden, und der letzte Punkt erlaubt die Werte<br />

einzelner Fälle (Personen) darzustellen.<br />

Wählt man „Einfach“ und „Auswertung über Kategorien einer Variablen“ und betätigt<br />

die Schaltfläche „Definieren“ so erscheint ein neuer Dialog, wie in Abb. 16 zu sehen.<br />

Zuerst ist in diesem Dialog die Variable festzulegen, von deren Kategorien Statistiken<br />

dargestellt werden sollen. Hat man im vorherigen Menu „Gruppiert“ ausgewählt, so<br />

ist hier zusätzlich die Variable anzugeben, deren Kategorien die „Gruppen“ in der<br />

Ausgabe bilden sollen. In Abb. 16 ist die Variable „geschl“ als Kategorie-Achse<br />

ausgewählt. Im oberen Bereich des Dialoges müssen jetzt die Statistiken gewählt<br />

Seite - 17 -


Skript: Benutzung von SPSS<br />

werden, die im Diagramm dargestellt werden sollen. Grundeinstellung ist hier „Anzahl<br />

der Fälle“, was für die absoluten Häufigkeiten steht.<br />

Abb. 16: Dialog zur Definition des Bar-Charts<br />

Weiterhin können die relativen Häufigkeiten sowie die kumulierten absoluten und<br />

relativen Häufigkeiten dargestellt werden. Über „Andere Auswertungsfunktion“<br />

besteht die Möglichkeit, für jede Kategorie eine Statistik einer anderen Variablen<br />

ausgeben zu lassen. So kann man sich z.B. den Mittelwert des Alters für die beiden<br />

Geschlechter darstellen lassen. Hierzu ist dann in das Feld „Variable“ noch die<br />

Variable einzutragen, deren Statistiken für die verschiedenen Gruppen ausgegeben<br />

werden sollen.<br />

Über die Schaltfläche „Titel“ besteht die Möglichkeit, die Beschriftung des<br />

Diagrammes zu beeinflussen. Hierfür sind Texte für den Titel, den Untertitel und für<br />

eine eventuelle Fußnote anzugeben. Dieser Dialog ist mit „Weiter“ wieder zu<br />

verlassen.<br />

Hat man alle Einstellungen vorgenommen, so startet man das Zeichnen des<br />

Diagramms mit „OK“. Das Diagramm wird anschließend im Output dargestellt. Klickt<br />

man im Output doppelt auf ein Diagramm, so öffnet sich ein neues Fenster, in<br />

welchem man die Möglichkeit hat, viele Eigenschaften des Diagramms zu ändern, so<br />

z.B. die Farbgebung oder die Linienstärke. Auf diese Punkte wird später noch<br />

genauer eingegangen.<br />

Abb. 17 zeigt das Diagramm, welches aus den Einstellungen in Abb. 16 hervorgeht.<br />

In Abb. 18 ist ein Beispiel für ein „clustered“ Balken-Diagramm zu sehen. In diesem<br />

Fall wurden die absoluten Häufigkeiten aller Merkmalskombinationen der beiden<br />

Variablen „Geschlecht“ und „Schulabschluss“ dargestellt.<br />

Seite - 18 -


Skript: Benutzung von SPSS<br />

19<br />

18<br />

17<br />

16<br />

15<br />

14<br />

Absolute Werte<br />

13<br />

12<br />

11<br />

Frauen<br />

Männer<br />

Geschlecht der VP<br />

Abb. 17: Das Balkendiagramm<br />

8<br />

7<br />

6<br />

5<br />

Absolute Werte<br />

4<br />

3<br />

2<br />

Frauen<br />

Männer<br />

Schulabschluss<br />

Hauptschule<br />

Realschule<br />

Abitur<br />

Geschlecht der VP<br />

Abb. 18: Das gruppierte Balkendiagramm<br />

Seite - 19 -


Skript: Benutzung von SPSS<br />

4.2. Erstellung eines „Histogramms“ für intervallskalierte Variablen.<br />

Um ein Histogramm zu erstellen rufen wir den Menupunkt<br />

Grafiken → Histogramm<br />

auf. Es öffnet sich ein Dialog wie in Abb. 19 dargestellt.<br />

Abb. 19: Der Histogramm-Dialog<br />

Unter „Variable“ ist hier zuerst die Variable einzutragen, von welcher ein Histogramm<br />

erstellt werden soll. Im unteren Teil des Dialoges, besteht die Möglichkeit, eine<br />

Normalverteilungskurve in das Histogramm zu legen. Diese ermöglicht einem eine<br />

optische Kontrolle über die Verteilung der Daten. Über die Schaltfläche „Titel“ kann<br />

auch hier wieder die Beschriftung des Histogramms verändert werden. Mit der<br />

Schaltfläche „OK“ wird wie gehabt das Zeichnen gestartet. Es erscheint ein<br />

Diagramm wie in Abb. 20 zu sehen.<br />

10<br />

8<br />

6<br />

4<br />

2<br />

Std.abw. = 5,44<br />

Mittel = 47,6<br />

0<br />

N = 30,00<br />

40,0<br />

42,5<br />

45,0<br />

47,5<br />

50,0<br />

52,5<br />

55,0<br />

57,5<br />

Alter der Versuchsperson<br />

Abb. 20: Ein Histogramm für die Variable „Alter“<br />

Das Histogramm aus Abb. 20 ist ein Histogramm für die Variable „Alter“. Das Alter<br />

wurde automatisch in acht Gruppen aufgeteilt, und die absoluten Häufigkeiten für<br />

Seite - 20 -


Skript: Benutzung von SPSS<br />

jede Gruppe dargestellt. Möchte man diese Einteilung in acht Gruppen verändern, so<br />

muss man mittels Doppelklick in das Bearbeitungsfenster wechseln, welches in Abb.<br />

21 dargestellt ist.<br />

Abb. 21: Das Bearbeitungsfenster des Histogramms<br />

In unserem Beispiel wollen wir nun die Einteilung der horizontalen Achse ändern.<br />

Dies tun wir durch einen Doppelklick auf diese Achse. Es öffnet sich ein neuer Dialog<br />

der in Abb. 22 zu sehen ist.<br />

Abb. 22: Der Dialog zur Definition der Achseneinteilung<br />

Hier kann man zum einen die Beschriftung der Achse im Feld „Achsentitel“ ändern.<br />

Für uns interessant ist der Punkt „Intervalle“. Hier ist „Automatisch“ eingestellt, was<br />

bedeutet, dass SPSS selbst eine Aufteilung in Intervalle (Gruppen) vornimmt. Durch<br />

Umstellung auf „Anpassen“ können wir selbst Einfluss auf diese Einteilung nehmen.<br />

Über die Schaltfläche „Definieren“ gelangen wir zu einem weiteren Dialog der in Abb.<br />

23 dargestellt ist.<br />

Seite - 21 -


Skript: Benutzung von SPSS<br />

Abb. 23: Definition der Intervalleinteilung<br />

Hier hat man die Möglichkeit entweder eine Anzahl von Intervallen festzulegen oder<br />

eine Intervallbreite anzugeben. Unter Bereich lässt sich zusätzlich der dargestellte<br />

Wertebereich verändern, indem man Minimum und Maximum angibt. Geben wir für<br />

die Anzahl der Intervalle 10 ein und beenden alle Dialoge mit „Weiter“ bzw. „OK“, so<br />

wird das Histogramm wie in Abb. 24 dargestellt verändert.<br />

8<br />

6<br />

4<br />

2<br />

0<br />

Std.abw. = 5,44<br />

Mittel = 47,6<br />

N = 30,00<br />

39,8 43,8 47,8 51,8 55,8<br />

41,8 45,8 49,8 53,8 57,8<br />

Alter der Versuchsperson<br />

Abb. 24: Das neue Histogramm mit 10 Intervallen<br />

Seite - 22 -


Skript: Benutzung von SPSS<br />

5. Umwandlung von Variablen und Erzeugung<br />

neuer Variablen<br />

SPSS ist in erster Linie ein Statistik-Paket, es bietet aber auch vielfältige<br />

Möglichkeiten zur Datenmodifikation.<br />

5.1. Rekodieren von Daten<br />

Oft kommt es in der Praxis vor, dass eine Einteilung einer nominalen oder ordinalen<br />

Variable im Nachhinein verändert werden muss, um bestimmte Rechnungen<br />

durchzuführen. Haben wir z.B. eine Variable Studienfach mit den Ausprägungen<br />

1=<strong>Psychologie</strong>, 2=Soziologie, 3=Maschinenbau und 4=Medizintechnik und wollen<br />

diese jetzt nur noch nach sozialen und technischen Berufen unterscheiden, so<br />

müssen die Gruppen 1 und 2 sowie 3 und 4 zusammengefasst werden. Hierbei hilft<br />

einem SPSS mit der Funktion<br />

Transformieren → Umkodieren → in dieselbe / in andere Variable<br />

Bei dieser Funktion ist zu beachten, dass hier zu wählen ist, ob bei der Rekodierung<br />

die alte Variable überschrieben werden soll (in dieselbe Variable) oder ob eine neue<br />

Variable angelegt werden soll, in welche die Rekodierung geschrieben werden soll<br />

(in andere Variable). Hier wählt man in der Regel das letztere, da auf diese Weise die<br />

Originaldaten erhalten bleiben.<br />

Es öffnet sich anschließend ein Dialog wie in Abb. 25 zu sehen.<br />

Abb. 25: Der Umkodieren Dialog<br />

Hier ist zuerst anzugeben, welche Variable rekodiert werden soll. Anschließend ist<br />

der Name der Variablen anzugeben, in die das Ergebnis der Rekodierung<br />

geschrieben werden soll.<br />

Hat man die beiden Variablen definiert, so gelangt man über die Schaltfläche „Alte<br />

und neue Werte“ in einen neuen Dialog wie in Abb. 26 dargestellt.<br />

Seite - 23 -


Skript: Benutzung von SPSS<br />

Abb. 26: Eingabe der alten und neuen Werte<br />

Hier ist festzulegen, welchen alten Werten (linke Hälfte) welcher neue Wert (rechte<br />

Hälfte) zugewiesen werden soll. Alte Werte können einzelne Werte oder Bereiche<br />

von Zahlen sein. Unter „Wert“ ist ein einzelner Wert, unter „Bereich“ ist ein Bereich<br />

einzutragen. Auf der rechten Seite ist der zugeordnete neue Wert unter „Wert“<br />

einzutragen. Hat man beides getan, so ist die Kombination mit alten und neuen<br />

Werten mit „Hinzufügen“ in die Liste der Umkodierungen zu übernehmen. Die<br />

Einstellungen in Abb. 26 entsprechen dem oben genannten Beispiel. Die alten Werte<br />

1 und 2 werden zum neuen Wert 1, die Werte 3 und 4 zum Wert 2. Hat man alle<br />

Eingaben vorgenommen, so beendet man mit „Weiter“ den Dialog. Im<br />

vorhergehenden Dialog noch die Schaltfläche „OK“ betätigen und SPSS führt die<br />

eingestellte Rekodierung durch.<br />

5.2. Bedingte Umkodierung<br />

Hängt die Rekodierung von mehr als einer Ausgangsvariablen ab, so ist der Vorgang<br />

etwas komplizierter. Angenommen wir wollen allen Frauen (Variable Geschlecht)<br />

über 22 Jahren (Variable Alter) den Wert 1 zuweisen, Frauen unter 22 Jahren den<br />

Wert 2 usw. Hierfür benötigen wir die Funktion<br />

Transformieren → Berechnen<br />

Es öffnet sich ein Dialog wie in Abb. 27 zu sehen. Unter „Zielvariable“ ist zuerst der<br />

Name einer Variablen anzugeben, in welche das Ergebnis der Rekodierung<br />

geschrieben werden soll. Dies kann eine neue oder eine bereits bestehende Variable<br />

sein. Im großen Feld „Numerischer Ausdruck“ tragen wir den ersten Wert ein, der in<br />

dieser Variablen definiert werden soll. In unserem Falle wollen wir Frauen über 22<br />

den Wert 1 zuordnen, wir tragen also eine „1“ in dieses Feld ein. Über die<br />

Schaltfläche „Falls“ gelangen wir jetzt in einen Dialog, in welchem wir definieren,<br />

wann der Variablen der Wert „1“ zugeordnet werden soll. Dieser Dialog ist in Abb. 28<br />

zu sehen.<br />

Seite - 24 -


Skript: Benutzung von SPSS<br />

Abb. 27: Der Berechnen-Dialog<br />

Hier ist zuerst der Schalter „Fall einschließen, wenn Bedingung erfüllt ist“<br />

anzuwählen. Dadurch wird nur den Fällen, die unsere Bedingung erfüllen, der Wert<br />

„1“ zugeordnet. Jetzt müssen wir im darunterliegenden Feld unsere Bedingung<br />

eingeben. Die Person soll weiblich sein, also geschl=1 UND (&) das Alter soll größer<br />

als 22 sein, also alter>22. In der Abbildung ist genau dies eingetragen: alter > 22 &<br />

geschl = 1. Dies ist noch eine relativ einfache Verknüpfung zweier Variablen, aber<br />

SPSS versteht auch deutlich kompliziertere Verknüpfungen.<br />

Abb. 28: Der „Falls“-Dialog<br />

Zu beachten sind hierbei auch Ungenauigkeiten der deutschen Sprache. Wollen wir<br />

z.B. allen Frauen und allen Student(inn)en der <strong>Psychologie</strong> den Wert „1“ zuweisen,<br />

so ist hier keine „und“-Verknüpfung zu wählen, wie es die Aussprache nahe legt,<br />

sondern eine „oder“-Verknüpfung. Der korrekte Ausdruck wäre: geschl = 1 | studfach<br />

= 1. Das Zeichen „|“ steht dabei für das logische „oder“. Würden wir an dieser Stelle<br />

eine „und“-Verknüpfung wählen, so würden wir nur die Frauen auswählen, die<br />

<strong>Psychologie</strong> studieren, wir würden aber nicht die Frauen anderer Studienfächer und<br />

die Männer, welche <strong>Psychologie</strong> studieren, berücksichtigen.<br />

Mit „Weiter“ ist dieser Dialog zu beenden. Der vorhergehende Dialog ist mit „OK“ zu<br />

beenden.<br />

Jetzt haben wir den Wert „1“ definiert. Um weitere Werte zu definieren, müssen wir<br />

den Vorgang von vorne beginnen und nacheinander alle Werte auf diese Weise<br />

Seite - 25 -


Skript: Benutzung von SPSS<br />

definieren. Im ersten Dialog würden wir statt der „1“ eine „2“ eintragen und als<br />

Bedingung dann entsprechend unserem Beispiel: geschl = 1 & alter < 22. Dies ist bis<br />

zum letzten Wert fortzusetzen.<br />

5.3. Verrechnung einer oder mehrerer Variablen zu einer neuen<br />

In der Praxis ist es häufig der Fall, dass mehrere Variablen zu einer<br />

zusammengefasst werden, z. B. wenn ein Konzept durch mehrere Items gemessen<br />

wurde und der Wert des Konzeptes durch den Mittelwert der Items ausgedrückt<br />

werden soll. Wir wollen als Beispiel annehmen, wir hätten vergessen zu erheben, in<br />

welchem Alter unsere Versuchsperson ihr aktuelles Studium begonnen hat. Wir<br />

haben aber aktuelles Alter und Semesterzahl erhoben. Das Startalter ergibt sich<br />

dann aus der Formel: aktuelles Alter – (Semesterzahl / 2). Auch solche<br />

Berechnungen nimmt einem SPSS ab. Hierzu dient wieder die Funktion<br />

Transformieren → Berechnen<br />

Es öffnet sich das bereits bekannte Fenster, welches wir jetzt aber anders<br />

verwenden werden. Zuerst ist sicherzustellen, dass alle früheren Eingaben in diesem<br />

Fenster gelöscht werden, dazu betätigt man die Schaltfläche „Zurücksetzen“. In Abb.<br />

29 ist das „Berechnen“-Fenster noch einmal zu sehen. Auch hier müssen wir unter<br />

„Target Variable“ zuerst angeben, in welche Variable das Ergebnis unser<br />

Berechnung geschrieben werden soll. In das Feld „Numerischer Ausdruck“ ist jetzt<br />

die Berechnungsformel für die neue Variable einzutragen. In unserem Beispiel ist<br />

diese alter-(semester/2). Die Namen der Variablen können aus der Variablenliste<br />

links übernommen werden. SPSS erlaubt alle üblichen mathematischen Formeln.<br />

Z.B. können hier auch Mittelwertsformeln eingegeben werden. Eine Sammlung<br />

vorgefertigter Funktionen steht einem im Dialog unter „Funktionen“ zur Verfügung,<br />

darunter „Mean“ für Mittelwert oder „Sum“ für Summe. Hat man die Eingabe der<br />

Formel beendet, so startet man die Berechnung mit „OK“. Es wird eine neue Variable<br />

angelegt, in welcher das Ergebnis der Rechnung steht. Natürlich kann man auch nur<br />

eine einzelne Variable zu einer neuen verrechnen, z.B. um eine neue Skala zu<br />

berechnen.<br />

Abb. 29: Das Berechnen Fenster zur Verrechnung von Variablen<br />

Seite - 26 -


Skript: Benutzung von SPSS<br />

5.4. Auszählungen von Werten über mehrere Variablen<br />

Oft ist man daran interessiert, wie häufig ein bestimmter Wert oder ein bestimmter<br />

Wertebereich in mehreren Variablen vorkommt. Man stelle sich als Beispiel vor, man<br />

habe bei Versuchspersonen in regelmäßigen Abständen den Blutdruck gemessen.<br />

Auf die Weise hat man 10 Messwerte des Blutdrucks für jede Person gewonnen.<br />

Man möchte nun herausfinden, in wie vielen der 10 Messungen jede Person einen zu<br />

hohen Blutdruck hatte, da dies als Hinweis für eine physiologische Störung<br />

angenommen wird. Solche Auszählungen über mehrere Variablen erledigt SPSS<br />

über den Menupunkt:<br />

Transformieren à Zählen<br />

Es öffnet sich der Dialog wie in Abb. 30 zu sehen. Hier ist unter „Zielvariable“ zuerst<br />

ein Name für die neue Variable anzugeben, in welche das Ergebnis der Auszählung<br />

geschrieben werden soll. Über „Label“ kann die Variable auch gleich mit einem<br />

„Wertelabel“ versehen werden. In die Liste, die mit „Variablen“ überschrieben ist,<br />

müssen jetzt alle Variablen eingetragen werden, über die die Auszählung erfolgen<br />

soll. In unserem Beispiel sind dies die zehn Messpunkte des Blutdrucks.<br />

Abb. 30: Der Dialog zur Auszählung über mehrere Variablen<br />

Über die Schaltfläche „Werte definieren“ öffnet man den Dialog wie in Abb. 31 zu<br />

sehen.<br />

Abb. 31: Die Auswahl der zu zählenden Werte<br />

Hier sind ähnlich wie beim Umkodieren der Variablen die Werte und Bereiche<br />

auszuwählen, welche gezählt werden sollen. Unserem Beispiel entsprechend wurde<br />

hier der Bereich 100 oder höher ausgewählt. Es wird jetzt also gezählt, wie oft der<br />

Blutdruck den Wert 100 erreicht oder überstiegen hat. Mit der Schaltfläche „Weiter“<br />

Seite - 27 -


Skript: Benutzung von SPSS<br />

und anschließend „OK“ wird die Auszählung gestartet. Anschließend enthält der<br />

Datensatz die neu angelegte Variable, in welcher das Ergebnis der Auszählung<br />

steht.<br />

5.5. Bildung von Rangwerten<br />

Viele fortgeschrittene Statistiken in der <strong>Psychologie</strong> erfordern die Erstellung von<br />

Rangwerten. SPSS kann auch diese Aufgabe übernehmen. Über den Menupunkt<br />

Transformieren à Rangfolge bilden<br />

öffnet sich der Dialog wie in Abb. 32 zu sehen.<br />

Abb. 32: Der Dialog zur Erstellung von Rangwerten<br />

Unter „Variablen“ sind die Variablen einzutragen, welche in Rangwerte umgewandelt<br />

werden sollen. In der Abb. 32 ist dies die Variable „Alter“. Über „Rang 1 zuweisen“ ist<br />

außerdem festzulegen, ob der Wert 1 dem kleinsten oder größten Wert entspricht.<br />

Der Normalfall ist hier der kleinste Wert. Über „Rangtypen“ können verschiedene<br />

Arten von Rangbildungen ausgewählt werden, die in der Praxis aber seltener von<br />

Bedeutung sind. Über „Rangindungen“ wird festgelegt, wie SPSS verfahren soll,<br />

wenn mehreren Werten der selbe Rang zugewiesen werden muss. Über die Liste<br />

„Nach“ kann die Rangkodierung auch nach einer oder mehreren anderen Variablen<br />

aufgeteilt werden. Mit der Schaltfläche „OK“ startet man die Rangkodierung und es<br />

erscheint eine neue Variable mit dem Namen rXXXXX wobei XXXXX dem alten<br />

Variablennamen entspricht. In dieser neuen Variablen stehen die Rangwerte der<br />

alten Variablen.<br />

Seite - 28 -


Skript: Benutzung von SPSS<br />

6. Bildung von Untergruppen /<br />

Unterstichproben<br />

6.1. Auswahl von Fällen<br />

Oft kommt in der Praxis vor, dass nicht der gesamte Datensatz verrechnet werden<br />

soll, sondern nur Fälle mit bestimmten Eigenschaften in die Rechung mit eingehen<br />

sollen. So könnten wir z.B. Rechungen nur für die Frauen in unserer Stichprobe<br />

durchführen wollen, also für weitere Rechnungen eine Unterstichprobe bilden wollen.<br />

Hierzu dient die Funktion<br />

Daten → Fälle auswählen<br />

Es erscheint ein Dialog wie in Abb. 33 zu sehen. Hier ist auf der rechten Seite<br />

zunächst auszuwählen, nach welcher Methode Daten ausgewählt werden sollen.<br />

Hier können z.B. alle Fälle, die Fälle, die eine bestimmte Bedingung erfüllen, eine<br />

Zufallsstichprobe oder ein bestimmter Bereich von Fällen ausgewählt werden. Es<br />

besteht auch die Möglichkeit, die Fälle anhand einer Filter-Variablen auszuwählen.<br />

Verwendet man eine Filtervariable, so werden in dieser die zu verwendenden Fälle<br />

mit 1 und die auszuschließenden Fälle mit 0 gekennzeichnet. Filtervariablen eignen<br />

sich besonders, um eine Auswahl zu treffen, die nicht oder nur schwer durch eine der<br />

anderen Möglichkeiten beschrieben werden kann. Unter „Nicht ausgewählte Fälle“ ist<br />

auszuwählen, ob die ausgeschlossenen Fälle nur ausgeblendet oder ganz gelöscht<br />

werden sollen. Mit letzterer Option ist vorsichtig umzugehen, da gelöschte Fälle nicht<br />

wiederhergestellt werden können. In unserem Beispiel wollen wir alle Fälle<br />

auswählen, die die Bedingung erfüllen „Geschlecht=weiblich“, wir wählen also „Falls<br />

Bedingung zutrifft“.<br />

Abb. 33: Der Fälle auswählen Dialog<br />

Über die Schaltfläche „Falls“ gelangen wir in einen weiteren Dialog, in welchem die<br />

Bedingung zu definieren ist, nach der die Fälle ausgewählt werden sollen. Dieser<br />

Dialog ist in Abb. 34 dargestellt.<br />

Seite - 29 -


Skript: Benutzung von SPSS<br />

Hier ist nun wie schon von einer früheren Funktion bekannt eine mathematischlogische<br />

Definition der Bedingung anzugeben. In unserem Beispiel wäre dies<br />

„geschl=1“, da der Wert „1“ als „weiblich“ definiert ist. Ist die Definition eingegeben,<br />

so kann man beide Dialoge mit „Weiter“ bzw. „OK“ beenden.<br />

Abb. 34: Definition der Bedingung für Select cases<br />

Wie links zu sehen ist, werden anschließend im Datenfenster die Fälle<br />

durchgestrichen, welche bis auf weiteres nicht in die Rechung einbezogen<br />

werden. Diese Auswahl ist gültig, bis sie explizit wieder rückgängig<br />

gemacht wird. Um die Auswahl der Fälle rückgängig zu machen, ist im<br />

oben beschriebenen Dialog wieder „Alle Fälle“ auszuwählen.<br />

Erstellt man nach der ersten Datenauswahl erneut eine Auswahl, so wird<br />

die ursprüngliche Auswahl aufgehoben. Sollen beide Selektionen<br />

beibehalten werden, so ist die alte Auswahl in die neue Auswahl zu integrieren.<br />

Eine praktische Eigenschaft von SPSS ist es, dass es automatisch zu jeder<br />

Datenselektion, die nach dem oben beschriebenen Vorgang angelegt wurde, eine<br />

Filtervariable erstellt. Dies ermöglicht es später ohne größeren Aufwand die gleiche<br />

Datenauswahl erneut zu tätigen. Filtervariablen werden mit „filter_$“ bezeichnet.<br />

SPSS fügt diese als normale Variablen dem Datensatz hinzu. Speichert man den<br />

Datensatz, so werden auch diese Filtervariablen mit dem Datensatz gespeichert.<br />

Filtervariablen können auch im Nachhinein, wie andere Variablen, benannt und mit<br />

Labeln versehen werden.<br />

6.2. Datei aufteilen<br />

Eine gebräuchliche Anwendung, die Datenselektion erforderlich macht, ist die<br />

getrennte Verrechnung verschiedener Stichproben. Möchte man beispielsweise alle<br />

Rechungen getrennt sowohl für die Frauen als auch für die Männer durchführen, so<br />

könnte man dies zum einen über die oben erwähnte „Fälle auswählen“ - Funktion<br />

erledigen, indem man nacheinander zuerst nur die Frauen auswählt und<br />

anschließend nur die Männer. SPSS bietet für diesen Spezialfall aber eine<br />

einfachere Funktion die über<br />

Daten → Datei aufteilen<br />

aufgerufen wird. Es erscheint ein Dialog wie in Abb. 35 zu sehen.<br />

Seite - 30 -


Skript: Benutzung von SPSS<br />

Abb. 35: Der Datei aufteilen-Dialog<br />

Hier ist zuerst wieder auszuwählen, ob alle Fälle ausgewählt werden sollen (Alle<br />

Fälle analysieren) oder ob die Rechungen getrennt für die Gruppen einer Variablen<br />

durchgeführt werden sollen (Ausgabe nach Gruppen aufteilen). In „Gruppen basieren<br />

auf” sind die Variablen einzutragen, nach denen Gruppen gebildet werden sollen. In<br />

unserem Beispiel also Geschlecht. Beendet man den Dialog mit „OK“, so erscheint<br />

im Datenfenster in der unteren Statuszeile die Meldung: . Bis auf weiteres<br />

werden jetzt alle Rechungen getrennt für die beiden Geschlechter vorgenommen.<br />

Durch „Alle Fälle analysieren“ in oben stehendem Dialog kann dies wieder<br />

rückgängig gemacht werden.<br />

Seite - 31 -


Skript: Benutzung von SPSS<br />

7. Zusammenfügen von Dateien<br />

Teilen sich mehrere Personen die Arbeit der Dateneingabe, so liegen anschließend<br />

mehrere Dateien mit eingegebenen Daten vor. Diese müssen zur Datenauswertung<br />

zusammengefügt werden. SPSS hilft hier mit zwei Funktionen weiter.<br />

7.1. Fälle hinzufügen<br />

Die erste Funktion erlaubt es, zu einem bestehenden Datensatz Fälle aus einer<br />

anderen Datei hinzuzufügen. Dies ist dann nötig, wenn jeder Dateneingeber einen<br />

Teil der Versuchspersonen eingegeben hat, jedoch bei jeder Person immer die<br />

gleichen Variablen. Diese Funktion wird über den Menupunkt<br />

Daten à Dateien zusammenfügen à Fälle hinzufügen<br />

ausgewählt. Zuerst fragt SPSS in einem Standard-Datei-Dialog nach dem Namen der<br />

zweiten Datendatei. Anschließend öffnet sich der Dialog wie in Abb. 36 zu sehen.<br />

Abb. 36: Der Fälle hinzufügen Dialog<br />

Hat man im Idealfall die richtige Vorarbeit geleistet und sind in beiden Dateien die<br />

Variablennamen identisch, so sollte die linke Liste leer sein, und der Dialog kann<br />

sofort mit „OK“ beendet werden. Anderenfalls erscheinen in der linken Liste die<br />

Variablen, die noch nicht einander zugeordnet wurden. Es müssen dann jeweils die<br />

zwei zusammengehörigen Variablen in beiden Dateien ausgewählt und über die<br />

Schaltfläche „Paar“ in die rechte Liste übernommen werden. Ist die linke Liste leer,<br />

so kann der Dialog mit „OK“ beendet werden. (Ist die linke Liste nicht leer, wenn man<br />

„OK“ betätigt, so gehen in einer oder beiden Dateien Variablen verloren.)<br />

Anschließend ist der ursprüngliche Datensatz um die Fälle aus der zweiten Datei<br />

erweitert. Gibt es mehr als zwei Dateien, so ist dieser Vorgang zu wiederholen, bis<br />

alle Dateien zusammengefügt wurden.<br />

7.2. Variablen hinzufügen<br />

Die zweite Funktion ist dazu gedacht, Variablen aus einer zweiten Datei zur ersten<br />

hinzuzufügen. Dies ist z.B. der Fall, wenn ein Fragebogen aus mehreren Seiten<br />

bestanden hat, und jede Person bei der Dateneingabe nur eine Seite, aber alle<br />

Seite - 32 -


Skript: Benutzung von SPSS<br />

Versuchspersonen dieses Fragebogens bearbeitet hat. Von dieser Variante ist<br />

grundsätzlich abzuraten, weil hier peinlichst genau auf die richtige Reihenfolge der<br />

Eingabe der Versuchspersonen geachtet werden muss. Schleichen sich hier Fehler<br />

ein, so können diese gravierende Auswirkungen auf die Datenauswertung haben.<br />

Wählt man die Funktion über den Menupunkt<br />

Daten à Dateien zusammenfügen à Variablen hinzufügen<br />

aus, so wird wieder zuerst nach dem Dateinamen der zweiten Datendatei gefragt.<br />

Hat man diese ausgewählt, so erscheint das Dialogfeld wie in Abb. 37 zu sehen.<br />

Abb. 37: Der Variablen hinzufügen Dialog<br />

Gibt es im Idealfall in beiden Dateien keine identischen Variablennamen, so ist die<br />

linke Liste leer und der Dialog kann sofort mit „OK“ beendet werden. Gibt es doppelte<br />

Variablennamen, so werden diese Variablen entweder gelöscht, indem man gleich<br />

auf „OK“ klickt, oder man benennt die doppelten Variablen einzeln um und fügt sie<br />

zur rechen Liste hinzu. Beendet man den Dialog mit „OK“ so werden die neuen<br />

Variablen aus dem zweiten Datensatz zur ersten Datei hinzugefügt. Auch hier ist<br />

dieser Vorgang zu wiederholen, bis alle Datensätze zusammengefügt wurden.<br />

Seite - 33 -


Skript: Benutzung von SPSS<br />

8. Explorative Datenanalyse<br />

8.1 Fragestellung<br />

Rechnen mit fehlerhaft erhobenen oder eingegebenen Daten bedeutet die<br />

Berechnung von „Ergebnissen“, die kein wahres (Ab-)Bild der untersuchten Realität<br />

wiedergeben. Da Erhebungs- oder Eingabefehler sehr häufig vorkommen, sollte man<br />

vor dem Beginn der Datenanalyse zunächst die Daten auf solche Fehler hin<br />

überprüfen, d.h. diese einer Plausibiltätsprüfung unterziehen. Dadurch lassen sich<br />

häufig bereits im Vorfeld mögliche Auffälligkeiten in der Datenstruktur sowie<br />

Datenfehler erkennen. Zu einer solchen explorativen Datenanalyse gehört im<br />

allgemeinen,<br />

a) sich zunächst die Rohdatenmatrix in ihrer Gesamtheit anzusehen und notfalls mit<br />

Hilfe der Originalbelege zu überprüfen. Oft genügt schon ein kurzer Blick, um zu<br />

erkennen, dass etwas nicht stimmt; z.B. dass viel zu große oder viel zu kleine<br />

Werte in einer Variablen/Spalte stehen, Werte, die „nicht angehen“ können. Das<br />

kann z.B. dadurch passieren, dass Fehler bei der Übertragung der Daten vom<br />

Original in den PC aufgetreten sind, oder dass die Daten nicht spaltengerecht<br />

eingegeben worden sind, also bei einzelnen Personen/Fällen oder auch bei<br />

mehreren „Datenverschiebungen“ stattgefunden haben. Oft passiert es<br />

Anfängern, dass sie statt einer 0 (Ziffer) ein O (Buchstabe) eingeben; oder sie<br />

geben fehlende Werte falsch ein. Solche und andere Fehler können sich bei<br />

Rechnungen in fataler Weise auswirken.<br />

b) die Lage und die Verteilung der Werte darzustellen und nach extrem großen oder<br />

kleinen Werten, sog. Ausreißern, Ausschau zu halten. Ausreißer entstehen nicht<br />

selten durch Fehler bei der Datenerhebung und Dateneingabe. SPSS besitzt<br />

Programme, um nach Ausreißern zu suchen. Findet es damit welche, so gilt es zu<br />

überprüfen, ob diese außergewöhnlich großen oder kleinen Werte tatsächlich auf<br />

Fehler bei der Datenerhebung oder Dateneingabe zurückzuführen sind oder ob<br />

es sich um wirkliche Messwerte handelt. Falsche Werte können die Ergebnisse<br />

von Rechnungen verfälschen. Aber auch wenn sie wahre Messwerte darstellen,<br />

ist doch zu prüfen,<br />

• ob sie nicht unter extremen bzw. nicht vom Versuchsplan vorgesehenen<br />

Umständen entstanden sind. Dann sollten sie von der weiteren Analyse<br />

ausgeschlossen werden, denn sie würden die Überprüfung der hinter dem<br />

Versuchsplan stehenden Hypothesen erschweren oder gar unmöglich<br />

machen.<br />

• ob sie wirklich in die Analyse eingehen sollten, denn sie könnten auch als<br />

wahre Werte Ergebnisse verfälschen. Wenn z.B. 101 Studierende nach<br />

ihrem Einkommen befragt werden und 100 davon 1000 DM angeben, 1<br />

aber 100000 DM, dann würde das durchschnittliche Einkommen ca. 1980<br />

DM betragen. Ein solcher Mittelwert würde zwar der „Wahrheit“<br />

entsprechen, aber das Einkommen von 99 % der Studierenden völlig<br />

falsch wiedergeben. Es kommt also ganz darauf an, „was“ mit dem<br />

berechneten Wert ausgesagt werden soll, was also das Ziel der<br />

Berechnung sein soll, wozu das berechnete Ergebnis gut sein soll, welche<br />

Funktion, Rolle, Aufgabe, Wert, Bedeutung, Sinn es in welchem<br />

(Interpretations-)Kontext erhalten soll, kurz welche Fragen/Hypothesen es<br />

eigentlich beantworten soll.<br />

Seite - 34 -


Skript: Benutzung von SPSS<br />

Wie man allgemein sieht, kann es sehr gefährlich sein, einmal<br />

berechneten „Ergebnissen“, von denen man nicht mehr weiß, wozu sie<br />

berechnet wurden, oder die ziellos (funktionslos, fragestellunglos)<br />

berechnet wurden, erst nachträglich einen Sinn zu unterlegen, oder sogar<br />

verschiedene Bedeutungen, je nach nachträglich aufgesetzten<br />

(Interpretations-)Kontexten/Perspektiven. Wer so vorgeht, kann in der Tat<br />

„mit Statistik alles beweisen“. Datenzusammenfassungen (oder<br />

Datenaufteilungen) geschehen grundsätzlich unter<br />

Fragestellungen/Perspektiven. Es gibt keine Datenverarbeitungen „an<br />

sich“. Und im Grunde gibt es auch keine Daten an sich. Auch<br />

Daten/Beobachtungen sind bereits unter bestimmten Fragestellungen<br />

erhoben worden. Aus ihnen nachträglich etwas herausrechnen<br />

(„beweisen“) zu wollen, kann zu eklatanten Fehlinterpretationen der<br />

„Wirklichkeit“ führen.<br />

c) dass die Daten auch daraufhin überprüft werden, ob sie die Voraussetzungen<br />

erfüllen, die von den auf die Daten anzuwendenden statistischen Verfahren an<br />

die Daten gestellt werden, z.B. ob die Daten normalverteilt sind oder ob die<br />

Varianzen verschiedener Stichproben homogen sind.<br />

8.2 Methoden der explorativen Datenanalyse<br />

8.2.1 Häufigkeitsauszählung<br />

Bei kleinen Datentabellen genügt oft die Inspektion mit dem bloßen Auge, um erste<br />

Fehler zu erkennen. Große Datentabellen, insbesondere solche mit vielen Fällen<br />

erscheinen jedoch als eine unübersichtliche Liste von Werten. Um zunächst<br />

festzustellen, welche Werte in einer Variablen überhaupt vorkommen, kann es<br />

günstig sein, zunächst eine eindimensionale Häufigkeitsauszählung durchzuführen<br />

(vgl. Kapitel 3.1 diese Skripts). Dies ist vor allem angebracht, wenn es sich um eine<br />

diskrete (gestufte) Variable handelt, man also weiß, welche Werte bei ihr nur<br />

vorkommen dürfen. Treten dann doch noch andere auf, so können diese nicht<br />

stimmen. Man wird dann nochmals im Original nachsehen müssen. Natürlich erhält<br />

man bei dieser Gelegenheit auch gleich die Information, wie viele fehlende Werte die<br />

Variable aufweist. Bei vielen fehlenden Werten ist zu fragen, woran das gelegen hat,<br />

und für den Fall, das diese vielen Werte rechtens sind, ist zu fragen, ob sich die<br />

Auswertung dieser Variablen überhaupt noch lohnt. Beide Fragen sind dabei in<br />

Bezug auf die Fragestellung zu beantworten, die hinter dieser Variablen steht. Es<br />

geht um die Frage, warum sie überhaupt erhoben wurde, wozu sie gut sein sollte.<br />

Bei stetigen Variablen, die eine Vielzahl unterschiedlicher Werte enthalten, kann ein<br />

Histogramm für die Darstellung der Häufigkeitsverteilung verwendet werden. Ein<br />

solches betrachtet nicht mehr Einzelwerte, sondern Wertebereiche gleicher Breite,<br />

deren Häufigkeiten in grafischer Form wiedergegeben werden. Obwohl die Werte der<br />

Variablen jetzt zu Wertebereichen (Intervallen) zusammenfasst wurden, kann man<br />

auch jetzt oft noch fragen, ob bestimmte Werte, vor allem Extremwerte, noch<br />

„angehen“ können.<br />

Seite - 35 -


Skript: Benutzung von SPSS<br />

8.2.2 Stem-and-Leaf-Diagramm (Stengel-Blatt-Diagramm)<br />

Eine Mischung aus einer Häufigkeitstabelle und einem Histogramm stellt das Stemand-Leaf-Diagramm<br />

dar. In einer solchen Grafik werden ebenfalls die Häufigkeiten<br />

von Wertebereichen durch Balken abgebildet, diese setzen sich jedoch aus<br />

Textzeichen zusammen, die die in dem jeweiligen Wertebereich enthaltenen<br />

Einzelwerte angeben.<br />

Analysieren fi Deskriptive Statistik fi Explorative Datenanalyse<br />

Abb. 38: Dialogfeld Explorative Datenanalyse<br />

Hier geben wir als abhängige Variable(n) jene ein, von der (denen) wir ein Stengel-<br />

Blatt-Diagramm erstellen möchten. In die Faktorenliste müssen nur dann Faktoren<br />

(unabhängige Variablen) eingegeben werden, wenn man die Fälle der Datendatei in<br />

Untergruppen aufteilen möchte, z.B. durch Eingabe der UV „Geschlecht“ in die<br />

beiden Untergruppen „Frauen“ und „Männer“. Jede Untergruppe wird dann getrennt<br />

untersucht. Wenn man mehrere unabhängige Variablen eingibt, werden die Fälle bei<br />

jede Variablen neu unterteilt. Die Fallgruppen werden also nicht durch eine<br />

Kombination der Werte aus den verschiedenen unabhängigen Variablen definiert.<br />

„Fallbeschriftung“: Einige Ergebnisse der explorativen Datenanalyse beziehen sich<br />

auf einzelne Fälle der Datendatei, z.B. welche Fälle vermutlich Ausreißer darstellen.<br />

Diese Fälle werden durch Voreinstellung durch ihre Fallnummer aus der Datendatei<br />

gekennzeichnet. Wenn man aber eine Variable in das Feld „Fallbeschriftung“ eingibt,<br />

werden deren Werte zur Kennzeichnung verwendet.<br />

Diagramme fi Stengel-Blatt<br />

Es erscheint folgender Dialog:<br />

Abb. 39: Dialogfeld der Schaltfläche Diagramme<br />

Seite - 36 -


Skript: Benutzung von SPSS<br />

Wenn wir nun die Taste „Weiter“ betätigen, wird ein Stengel-Blatt-Diagramm gemäß<br />

den Einstellungen des vorhergehenden Dialogfeldes „Explorative Datenanalyse“<br />

erstellt:<br />

Belastungspuls der VP Stem-and-Leaf Plot for<br />

GESCHL= Frauen<br />

Frequency Stem & Leaf<br />

2,00 6 . 67<br />

3,00 7 . 668<br />

6,00 8 . 258999<br />

,00 9 .<br />

1,00 10 . 3<br />

Stem width: 10,00<br />

Each leaf: 1 case(s)<br />

Abb. 40: Stengel-Blatt-Diagramm<br />

Dieses Diagramm ist wie folgt zu interpretieren:<br />

Die Werte der abhängigen Variable sind in Wertebereiche eingeteilt. Jede Zeile<br />

beschreibt einen dieser Wertebereiche. In der Spalte Frequency wird die Häufigkeit<br />

angegeben, mit der Werte vorkommen, die in diesen Wertebereich fallen. Die zweite<br />

Spalte gibt den „Stamm“ an, die dritte Spalte die „Blätter“, wobei jede einzelne Ziffer<br />

ein Blatt darstellt. Durch diese beiden Spalten lässt sich ablesen, um welche Werte<br />

des Wertebereichs es sich handelt. Dazu wird der einzelne ganzzahlige Wert als<br />

Dezimalzahl dargestellt. Der Stamm gibt den ganzzahligen Teil wieder, das Blatt den<br />

Dezimalteil. Um auf den tatsächlichen ganzzahligen Wert zu kommen, ist die<br />

Dezimalzahl mit der unten angegebenen Stammweite (stem width) zu multiplizieren,<br />

so dass letztlich jedes einzelne Blatt (Ziffer) einen Wert des Wertebereichs darstellt.<br />

Dass mit einer Ziffer nur ein Wert dargestellt wird, gilt jedoch nur dann, wenn each<br />

leaf 1 case darstellt, sonst eben Werte der angegebenen Anzahl. Sollte diese größer<br />

als 1 sein, kann es vorkommen, dass die tatsächlich ausgezählte Zahl auch mal<br />

kleiner als diese Zahl ist. Dann wird das Blatt durch das Zeichen & dargestellt. & stellt<br />

dann „Teilblätter“ dar, „fractional leaves“, was dann auch unten im Diagramm<br />

vermerkt wird. Insgesamt stellt ein solches Stengel-Blatt-Diagramm also eine Pflanze<br />

dar, deren Stamm/Stengel sich in einzelne Äste aufteilt, an denen wiederum Blätter<br />

sitzen. Insgesamt ist die Mischung aus Häufigkeitstabelle und Histogramm deutlich<br />

erkennbar, indem die Häufigkeiten durch Balken abgebildet werden, die sich jedoch<br />

aus Ziffern zusammensetzen, die die im jeweiligen Wertebereich enthaltenen<br />

Einzelwerte nennen.<br />

8.2.3 Boxplots<br />

Diagramme fi Boxplots fi Faktorstufen zusammen<br />

Mit dieser Einstellung wird das Boxplot-Diagramm aufgerufen. „Faktorstufen<br />

zusammen“ meint dabei, dass die Boxplots der verschiedenen Gruppen eines im<br />

Dialogfeld zuvor deklarierten Faktors direkt nebeneinander gestellt werden, z.B. die<br />

Boxplots für die Untergruppen der Frauen und der Männer. „Abhängige Variablen<br />

zusammen“ stellt die Boxen verschiedener abhängiger Variablen, die sich auf<br />

dieselbe Fallgruppe beziehen, nebeneinander. Wenn kein Boxplot erstellt werden<br />

soll, ist die Option „Keiner“ zu wählen.<br />

Seite - 37 -


Skript: Benutzung von SPSS<br />

130<br />

120<br />

110<br />

100<br />

Belastungspuls der VP<br />

90<br />

80<br />

70<br />

60<br />

N =<br />

12<br />

Frauen<br />

18<br />

Männer<br />

Geschlecht der VP<br />

Abb. 41: Berechnetes Boxplot gemäß den in den obigen Dialogfeldern konkret eingegebenen<br />

Variablen<br />

In einem Boxplot kann man sich die Lage und Verteilung der Werte einer Variablen,<br />

gegebenenfalls getrennt nach Fallgruppen, grafisch darstellen lassen. Boxplots sind<br />

insbesondere dazu geeignet, Lage und Verteilung für verschiedene Variablen bzw.<br />

für unterschiedliche Fallgruppen derselben Variablen miteinander zu vergleichen.<br />

Letzteres ist in der Abb. 41 oben geschehen. Die beiden dargestellten Boxen<br />

beziehen sich auf die unterhalb der Abszisse inhaltlich benannten Stufen der<br />

unabhängigen Variablen. Die schwarze horizontale Linie innerhalb einer Box<br />

kennzeichnet die Lage des Medians (50%-Perzen-til). Die untere Grenze einer Box<br />

signalisiert das 25%-Perzentil und die obere Grenze das 75%-Perzentil der<br />

jeweiligen Fallgruppe (Unterstichprobe). Innerhalb einer Box liegen somit die<br />

mittleren 50% der Werte. Die dünnen Striche unterhalb und oberhalb der Box geben<br />

den kleinsten bzw. größten Wert dar, der noch keinen Ausreißer oder Extremwert<br />

darstellt. Als Ausreißer und Extremwerte werden von SPSS bei Boxplots solche<br />

Werte angesehen, die um mehr als das 1,5fache der Höhe der Box unter oder über<br />

der Box liegen. Genauer beträgt die Entfernung von Ausreißern zur Box zwischen<br />

dem 1,5fachen und dem 3fachen der Boxhöhe, Extremwerte dagegen mehr als das<br />

3fache der Boxhöhe unter dem 25%-Perzentil bzw. über dem 75%-Perzentil. In der<br />

Grafik werden Ausreißer dabei durch Kreise gekennzeichnet, Extremwerte durch<br />

Sternchen. Wie man insgesamt sieht, sind Boxplots gut geeignet, die Verteilung der<br />

Werte mehrerer Gruppen miteinander zu vergleichen.<br />

8.2.4 Normalverteilungsdiagramm<br />

Diagramme fi Normalverteilungsdiagramm (mit Tests)<br />

Mit dieser Option werden zwei Normalverteilungsdiagramme (und ein Signifikanztest<br />

auf Normalverteilung der Daten) ausgegeben.<br />

Zahlreiche statistische Verfahren setzen voraus, dass die zu untersuchenden Daten<br />

in der Grundgesamtheit normalverteilt sind. Bevor man derartige Verfahren<br />

anwendet, ist also zu prüfen, ob dies zumindest annähernd der Fall ist. Hierzu stellt<br />

die explorative Datenanalyse von SPSS grafische Verfahren (Normalverteilungsplots)<br />

Seite - 38 -


Skript: Benutzung von SPSS<br />

und Signifikanztests zur Verfügung. In den Plots werden die empirisch beobachteten<br />

Werte mit den theoretischen Werte verglichen, die sich unter der Annahme einer<br />

Normalverteilung (NV) ergäben. Abweichungen zwischen der theoretischen NV und<br />

der empirischen Verteilung werden durch entsprechende Abweichungen der Werte<br />

von einer Geraden deutlich.<br />

2,0<br />

Q-Q-Diagramm von Belastungspuls der VP<br />

Von GESCHL= Männer<br />

1,5<br />

1,0<br />

,5<br />

Erwarteter Normalwert<br />

0,0<br />

-,5<br />

-1,0<br />

-1,5<br />

-2,0<br />

70<br />

80<br />

90<br />

100<br />

110<br />

120<br />

Beobachteter Wert<br />

Abb. 42: Normalverteilungsdiagramm (Q-Q-Diagramm) der Variablen Belastungspuls<br />

In Abb. 42 werden die beobachteten Werte, die auf der Abszisse eingetragen<br />

werden, in standardisierte Werte, also z-Werte umgewandelt und gegen die<br />

„zugehörigen“ z-Werte abgetragen, die zu erwarten sind, wenn sich die Werte (bei<br />

gleichem Mittelwert und gleicher Standardabweichung) normal verteilen würden. Die<br />

theoretische NV wird dabei durch eine Gerade dargestellt. Wenn die empirischen<br />

Werte ebenfalls normalverteilt sind, müssen ihre Punkte in etwa den unter der<br />

Hypothese der NV zu erwartenden Werten folgen, also etwa dem Verlauf der<br />

Geraden. Ist das nicht der Fall, unterscheidet man zwischen der Stärke und der Form<br />

der Abweichung. Oft nämlich streuen die Werte der empirischen Verteilung nicht<br />

zufällig um die Gerade, sondern weisen klare Muster auf. Muster deuten auf<br />

systematische Abweichungen von der NV hin.<br />

,6<br />

Trendbereinigtes Q-Q-Diagramm von Belastungspuls der VP<br />

Von GESCHL= Männer<br />

,4<br />

,2<br />

Abweichung von Normal<br />

0,0<br />

-,2<br />

-,4<br />

70<br />

80<br />

90<br />

100<br />

110<br />

120<br />

Beobachteter Wert<br />

Abb. 43: Trendbereinigtes Q-Q-Diagramm der Variablen Belastungspuls<br />

Seite - 39 -


Skript: Benutzung von SPSS<br />

Abb. Xx stellt den gleichen Sachverhalt noch einmal aus anderer Perspektive dar,<br />

wobei auf der Ordinate jetzt die Abweichungen von der NV aufgetragen werden. Die<br />

Darstellung soll vor allem einen Trend in den Abweichungen zwischen den<br />

empirischen und den theoretischen Werten erkennen lassen. Die Darstellung ergibt<br />

sich, indem man das NV-Diagramm der Abbildung zuvor so weit kippt, bis die NV-<br />

Linie horizontal verläuft.<br />

Neben diesen beiden sog. Q-Q-Diagrammen kann man zur weiteren grafischen<br />

Prüfung auf NV auch noch P-P-Diagramme berechnen, jedoch nicht unter der<br />

explorativen Datenanalyse, sondern unter dem Befehl „Grafiken“.<br />

Neben den beiden Grafiken werden durch die aufgerufene Prozedur auch noch die<br />

Ergebnisse eines Signifikanztests ausgegeben. Diesen wollen wir jedoch nicht<br />

betrachten, da er zur Inferenzstatistik gehört.<br />

8.2.5 Deskriptive Statistiken<br />

Analysieren → Deskriptive Statistik → Explorative Datenanalyse → Statistik<br />

Mit dem Befehl wird ein Dialogfeld eröffnet, das die Berechnung einer Reihe<br />

deskriptiver Maßzahlen der Variablen der (Unter-)Stichprobe erlaubt, und zwar die<br />

folgenden:<br />

• Mittelwert mit Konfidenzintervall des Mittelwerts. Für das Konfidenzintervall<br />

können Prozentwerte zwischen 1 und 99 eingegeben werden. Das<br />

Konfidenzintervall ist der Wertebereich, in dem der Mittelwert der<br />

Grundgesamtheit mit der eingegebenen Wahrscheinlichkeit (Prozentwert)<br />

liegt. Per Voreinstellung wird für das Intervall ein Niveau von 95% berechnet,<br />

so dass der Bereich ausgegeben wird, in dem der Mittelwert in der<br />

Grundgesamtheit mit einer Wahrscheinlichkeit von 95% liegt.<br />

• Um 5% getrimmter Mittelwert (dabei werden die extremen Werte<br />

ausgeschlossen)<br />

• Standardfehler des Mittelwerts<br />

• Median<br />

• Spannweite (range), Differenz zwischen dem kleinsten und den größten Wert<br />

• Kleinster und größter Wert<br />

• Varianz und Standardabweichung<br />

• Schiefe (Skewness) mit Konfidenzintervall. Durch die Schiefe wird angezeigt,<br />

inwieweit die Verteilung von einer symmetrischen Verteilung abweicht. Ist der<br />

Wert für die Schiefe einer Verteilung kleiner 0, so liegt eine rechtssteile Kurve<br />

vor, also eine Kurve, die langsam von links nach rechts ansteigt und dann vom<br />

Gipfel steil(er) abfällt. Umgekehrtes gilt, wenn der Wert größer 0 ist. Ist er<br />

gleich 0, so liegt Symmetrie vor. Bei negativer oder positiver Schiefe liegen<br />

der Mittelwert und der Median auseinander, bei negativer Schiefe z.B. liegt der<br />

Mittelwert (Schwerpunkt der Verteilung) links vom Median.<br />

• Exzeß (Kurtosis) mit Konfidenzintervall. Ist eine Verteilung genauso gewölbt<br />

wie eine NV, so ist die Maßzahl für den Exzeß oder die Wölbung gleich 0. Bei<br />

einem positiven Wert ist die Verteilung zentrierter (spitzgipfliger) als eine NV<br />

mit diesbezüglich gleichem Mittelwert und gleicher Varianz. Bei einem<br />

negativen Wert verläuft die Verteilung vergleichsweise flacher.<br />

Abweichungen von der NV wären nur dann zu akzeptieren, wenn die<br />

Grundgesamtheit tatsächlich nicht normalverteilt ist. Unter der Annahme der<br />

Seite - 40 -


Skript: Benutzung von SPSS<br />

NV aber können Abweichungen in Bezug auf Schiefe und Exzeß z.B.<br />

Auswahlfehler oder Testfehler signalisieren.<br />

Neben diesen deskriptiven Statistiken, die ausgegeben werden, wenn man im obigen<br />

Dialogfeld die Option „Deskriptive Statistik“ aktiviert, können noch folgende<br />

Statistiken ausgegeben werden:<br />

• M-Schätzer: Es werden vier Maximum-Likelihood-Schätzer nach den<br />

Methoden Huber, Tukey, Hampel und Andrews berechnet.<br />

Das arithmetische Mittel ist mit Abstand das gebräuchlichste Lagemaß. Es<br />

wird berechnet, indem die Summe aller Werte durch deren Anzahl dividiert<br />

wird. Damit gehen alle Werte mit gleichem Gewicht in die Berechnung des<br />

Mittelwertes ein. Einhält nun eine Variable einzelne Ausreißer, so können<br />

diese einen erheblichen Einfluß auf den Mittelwert haben (vgl. das Beispiel mit<br />

dem studentischen Einkommen zu Beginn dieses Kapitels „Explorative<br />

Datenanalyse“). Um den Einfluß extremer Werte bei der Kennzeichnung der<br />

Lage durch ein Lagemaß zu verringern, werden sog. M-Schätzer (Maximum-<br />

Likelihood-Schätzer) berechnet. Die Berechnungen hat Ähnlichkeit mit der<br />

Berechnung des Mittelwertes, es werden jedoch die einzelnen Werte bei der<br />

Berechnung des M-Schätzers unterschiedlich gewichtet. Je stärker dabei ein<br />

Wert von den übrigen Werten nach unten oder nach oben abweicht, desto<br />

geringer ist sein Gewicht. Die vier M-Schätzer, die nach vier verschiedenen<br />

Methoden berechnet werden, können mit dem üblicherweise berechneten<br />

Mittelwert verglichen werden. Sollten sich Abweichungen ergeben, so deutet<br />

dies auf extreme Werte hin, die ein geringeres Gewicht erhielten.<br />

• Ausreißer: Mit dieser Option wird eine Liste der jeweils fünf größten und<br />

kleinsten Werte der Variablen angefordert. Die Fälle, in denen die Ausreißer<br />

enthalten sind, werden durch die Fallnummern aus der Datendatei<br />

gekennzeichnet. Nur wenn man eine Fallbeschriftung eingegeben hat, werden<br />

zusätzlich deren Werte zur Kennzeichnung verwendet.<br />

Ausreißer sind Werte, die im Verhältnis zu den meisten übrigen Werten der<br />

Verteilung deutlich nach unten oder nach oben abweichen, die also sehr klein<br />

oder sehr groß sind. Wann genau ein Wert als Ausreißer bezeichnet wird,<br />

hängt sowohl von seiner Lage als auch von der Verteilung der Werte ab. Eine<br />

allgemeine Definition eines Ausreißers gibt es nicht. Auch innerhalb von SPSS<br />

kommen unterschiedliche Definitionen zur Anwendung. So werden Ausreißer<br />

in einem Boxplot in Abhängigkeit von ihrer relativen Entfernung zu dem<br />

Bereich der 50% mittleren Werte bestimmt. Werte, deren Entfernung von<br />

diesem Bereich mindestens 1,5mal so groß ist wie die Breite des Bereichs<br />

selbst, werden dort als Ausreißer bezeichnet. Im vorliegenden Fall dagegen<br />

werden einfach die fünf kleinsten und die fünf größten Werte ausgegeben.<br />

• Perzentile: Berechnet werden die 5%-, 10%-, 25%-, 50%-, 75%-, 90%- und<br />

95%-Per-zentile. Ein Perzentil gibt jeweils den Wert an, unterhalb oder auf<br />

dem ein bestimmter Anteil der Werte liegen.<br />

Im Folgenden soll am Beispiel des Outputs die Interpretation verdeutlicht werden.<br />

Der erste Teil des Outputs sind die univariaten Statistiken welche mit dem Schalter<br />

„deskriptive Statistiken“ ausgewählt wurden. Hier sind die oben benannten<br />

Kennwerte der Variablen bzw. der Unterstichproben für eine Variable zu finden. In<br />

diesem Beispiel wurde die Verteilung des Alters getrennt für die beiden Geschlechter<br />

betrachtet. Von Oben nach unten findet man hier den Mittelwert, danach die<br />

Intervallgrenzen zwischen denen mit einer Wahrscheinlichkeit von 95% der Mittelwert<br />

Seite - 41 -


Skript: Benutzung von SPSS<br />

der Grundgesamtheit liegt. Es folgen das getrimmte Mittel und all die anderen<br />

Kennwerte die bereits oben besprochen wurden. In unserem Beispiel ist vor allem<br />

auf die Schiefe und die Kurtosis zu achten. Beide sind positiv und weisen somit auf<br />

eine Abweichung von der Standard-Normalverteilung hin. Besonders hoch ist die<br />

Kurtosis bei den Frauen, was auf eine stark spitzgipflige Verteilung des Alters bei den<br />

Frauen der Stichprobe hinweißt.<br />

Univariate Statistiken<br />

Alter der Versuchsperson<br />

Geschlecht<br />

weiblich<br />

Mittelwert<br />

95% Konfidenzintervall<br />

des Mittelwerts<br />

Untergrenze<br />

Obergrenze<br />

Standardf<br />

Statistik ehler<br />

20,5317 ,18120<br />

20,1753<br />

20,8882<br />

männlich<br />

5% getrimmtes Mittel<br />

Median<br />

Varianz<br />

Standardabweichung<br />

Minimum<br />

Maximum<br />

Spannweite<br />

Interquartilbereich<br />

Schiefe<br />

Kurtosis<br />

Mittelwert<br />

95% Konfidenzintervall<br />

des Mittelwerts<br />

Untergrenze<br />

Obergrenze<br />

20,1370<br />

20,0000<br />

10,868<br />

3,29665<br />

15,00<br />

40,00<br />

25,00<br />

2,0000<br />

2,721 ,134<br />

10,666 ,267<br />

24,2628 ,46901<br />

23,3353<br />

25,1903<br />

5% getrimmtes Mittel<br />

Median<br />

Varianz<br />

Standardabweichung<br />

Minimum<br />

Maximum<br />

Spannweite<br />

Interquartilbereich<br />

Schiefe<br />

Kurtosis<br />

23,8370<br />

23,0000<br />

30,136<br />

5,48966<br />

13,00<br />

45,00<br />

32,00<br />

5,0000<br />

1,382 ,207<br />

2,095 ,411<br />

Der nächste Teil des Outputs sind die M-Schätzer, die wie schon oben erklärt, um<br />

Extremwerte bereinigte Schätzer für den Mittelwert darstellen. Vergleicht man diese<br />

Werte mit dem Standard-Mittelwert, so fallen deutliche Abweichungen zwischen<br />

beiden sowohl bei den Frauen als auch bei den Männern auf. Dies lässt auf eine<br />

größere Zahl von „Ausreißern“ schließen.<br />

Alter der Versuchsperson<br />

Geschlecht<br />

weiblich<br />

männlich<br />

a. Die Gewichtungskonstante ist 1,339.<br />

b. Die Gewichtungskonstante ist 4,685.<br />

M-Schätzer<br />

c. Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500<br />

d. Die Gewichtungskonstante ist 1,340*pi.<br />

M-Schätzer Tukey-Bi M-Schätzer Andrewsnach<br />

Huber a weight b nach Hampel c Welle d<br />

19,9507 19,7201 19,7924 19,7126<br />

22,9551 22,2584 22,7251 22,2523<br />

Nächster Teil des Outputs sind die gebräuchlichsten Perzentile der Verteilung. Darin<br />

enthalten sind die Quartile und zusätzlich die 5%, 10%, 90% und 95%-Perzentile. Die<br />

Tukey-Angelpunkte welche ebenfalls in dieser Ausgabe enthalten sind, brauchen uns<br />

vorerst noch nicht zu interessieren.<br />

Gewichtetes Mittel<br />

(Definition 1)<br />

Tukey-Angelpunkte<br />

Alter der Versuchsperson<br />

Alter der Versuchsperson<br />

Geschlecht<br />

weiblich<br />

männlich<br />

weiblich<br />

männlich<br />

Perzentile<br />

Perzentile<br />

5 10 25 50 75 90 95<br />

17,0000 18,0000 19,0000 20,0000 21,0000 24,0000 27,0000<br />

18,0000 19,0000 21,0000 23,0000 26,0000 33,2000 36,0000<br />

19,0000 20,0000 21,0000<br />

21,0000 23,0000 26,0000<br />

Letzter Teil des Outputs, wenn nicht zusätzlich Diagramme berechnet wurden, sind<br />

die Extremwerte. Hier wurden die 5 größten und kleinsten Werte für jede Stichprobe<br />

eingetragen. Um diese Werte auch in der Datentabelle identifizieren zu können, wird<br />

Seite - 42 -


Skript: Benutzung von SPSS<br />

zusätzlich die Fallnummer angegeben, nach welcher man dann in der Tabelle<br />

suchen kann. Wurde eine Variable für die Fallbeschriftung angegeben, so wird statt<br />

der Fallnummer die Beschriftung aus dieser Variablen angezeigt. Die wäre<br />

praktikabel, wenn man in einer Variable z.B. den Namen der Versuchsperson stehen<br />

hat und diese als Variable zur Fallbeschriftung wählt. In der Tabelle könnte man<br />

dann lesen: Herr Schmidt hat einen extremen Wert und Frau Meier auch.<br />

Normalerweise verbietet sich solch ein Vorgehen aber durch die nötige<br />

Anonymisierung der Daten nach einem Versuch.<br />

Geschlecht<br />

Alter der Versuchsperson weiblich<br />

männlich<br />

Extremwerte<br />

Größte Werte<br />

Kleinste Werte<br />

Größte Werte<br />

Kleinste Werte<br />

1<br />

2<br />

3<br />

4<br />

5<br />

1<br />

2<br />

3<br />

4<br />

5<br />

1<br />

2<br />

3<br />

4<br />

5<br />

1<br />

2<br />

3<br />

4<br />

5<br />

Fallnummer<br />

Wert<br />

222 40,00<br />

159 38,00<br />

152 38,00<br />

228 37,00<br />

223 , a<br />

108 15,00<br />

57 16,00<br />

124 16,00<br />

121 16,00<br />

113 , b<br />

307 45,00<br />

296 42,00<br />

276 42,00<br />

274 37,00<br />

270 37,00<br />

314 13,00<br />

462 16,00<br />

239 17,00<br />

434 18,00<br />

250 , c<br />

a. Nur eine partielle Liste von Fällen mit dem Wert 33 wird in der Tabelle der oberen<br />

Extremwerte angezeigt.<br />

b. Nur eine partielle Liste von Fällen mit dem Wert 16 wird in der Tabelle der unteren<br />

Extremwerte angezeigt.<br />

c. Nur eine partielle Liste von Fällen mit dem Wert 18 wird in der Tabelle der unteren<br />

Extremwerte angezeigt.<br />

Seite - 43 -


Skript: Benutzung von SPSS<br />

9. Balken-, Linien-, Flächen- und Kreisdiagramme<br />

9.1 Allgemeines<br />

Balken-, Linien-, Flächen- und Kreisdiagramme können häufig alternativ verwendet<br />

werden. Sie sind also geeignet, die gleichen Sachverhalte darzustellen und<br />

unterscheiden sich erst in der Form und weniger im Inhalt.<br />

9.2 Struktur der darzustellenden Daten<br />

9.2.1 Zahl der darzustellenden Datenreihen<br />

Zunächst ist zu unterscheiden, ob in der Grafik eine oder mehrere Datenreihen<br />

dargestellt werden sollen.<br />

Eine Datenreihe: Eine einfache Folge von Werten lässt sich mit einem einfachen<br />

Balken-, Linien-, Flächen- oder Kreisdiagramm veranschaulichen. Oft besteht die<br />

Datenreihe aus Häufigkeiten, entweder aus den absoluten oder aus den relativen<br />

(prozentualen) Häufigkeiten.<br />

Mehrere Datenreihen: Wenn man gleichzeitig mehrere Datenreihen visuell<br />

vergleichen möchte, können auch diese gemeinsam in einem Diagramm dargestellt<br />

werden. In einem Balkendiagramm z.B. können die sich entsprechenden Werte der<br />

verschiedenen Datenreihen jeweils in Gruppen nebeneinander gestellt werden<br />

(gruppiertes Balkendiagramm) oder auch übereinander (gestapeltes<br />

Balkendiagramm). Auch in einem Flächendiagramm können die Werte gestapelt<br />

dargestellt werden. In einem Liniendiagramm wird für jede der Datenreihen eine Linie<br />

erzeugt. Ein verbundenes Liniendiagramm bietet zudem die Möglichkeit, die sich<br />

jeweils entsprechenden Werte der einzelnen Reihen miteinander durch senkrechte<br />

Striche zu verbinden.<br />

9.2.2 Art der darzustellenden Werte<br />

Entscheidend für die Wahl des Diagrammtyps ist die Art der darzustellenden Werte:<br />

• Werte einzelner Fälle: Der einfachste Fall liegt vor, wenn die Werte bereits in<br />

der Datendatei in der Form vorliegen, in der sie dargestellt werden sollen, z.B.<br />

wenn Parteien die Fälle darstellen und eine der Variablen die absolute<br />

Stimmenzahl angibt, mit der die einzelne Partei gewählt wurde. In einem<br />

solchen Fall können die Werte der Variablen direkt in das Diagramm<br />

übernommen werden, also ohne vorhergehende Berechnungen oder<br />

Transformationen. Dieser Fall der direkten Übernahme kommt jedoch relativ<br />

selten vor.<br />

• Kategorien einer Variablen: In der Praxis erheblich häufiger liegen die Werte<br />

der Datenmatrix in noch nicht zusammengefasster Form vor. Z.B. ist meistens<br />

erst noch über alle Fälle (Versuchspersonen) auszuzählen, wie häufig die<br />

Kategorien einer Variablen vorkommen, z.B. angekreuzt wurden.<br />

• Zusammengefasste Werte verschiedener Variablen: Eine dritte Möglichkeit<br />

besteht darin, dass nicht die verschiedenen Kategorien einer Variablen,<br />

Seite - 44 -


Skript: Benutzung von SPSS<br />

sondern die zusammengefassten Werte verschiedener Variablen miteinander<br />

verglichen werden.<br />

9.3 Darstellung einer einzelnen Datenreihe<br />

9.3.1 Einfaches Balkendiagramm<br />

9.3.1.1 Aufrufmöglichkeiten<br />

Diese Möglichkeit haben wir bereits in diesem Skript unter Punkt 4.1 (S. 16)<br />

kennengelernt. Dort wurden zum einen die absoluten Häufigkeiten für die zwei<br />

Kategorien der Variablen Geschlecht ausgezählt und als Balkendiagramm dargestellt<br />

und zum anderen bereits ein gruppiertes Balkendiagramm, in dem die Variable<br />

Geschlecht mit der Variable Schulabschluss gekreuzt wurde und die kombinierten<br />

absoluten Häufigkeiten ausgezählt und als Balkendiagramm dargestellt wurden.<br />

Wir betrachten hier zunächst nur den ersten Fall, das sog. „einfache<br />

Balkendiagramm“. Wie es aufgerufen wird, ist also bereits bekannt.<br />

9.3.1.2 Diagramm interpretieren<br />

300<br />

200<br />

Absolute Werte<br />

100<br />

0<br />

Fehlend<br />

Fachhochschulreife<br />

Hochschule<br />

Gymnasium<br />

Realschule<br />

Hauptschule<br />

Gesamtschule<br />

Letzter Bildungsabschluss<br />

Abb. 44: Beispiel für ein Balkendiagramm der Variablen Schulabschluss<br />

Ein Balkendiagramm repräsentiert die Werte einzelner Kategorien. Jede Kategorie<br />

steht für sich, was durch die Räume zwischen den einzelnen Kategorien verdeutlicht<br />

wird. Ein Balkendiagramm ist also nicht mit einem Histogramm zu verwechseln, in<br />

welchem diese Zwischenräume nicht vorhanden sind, weil die einzelnen Säulen nicht<br />

Kategorien, sondern Intervalle auf einer kontinuierlichen Variablen darstellen.<br />

Ein Balkendiagramm wird von SPSS automatisch erstellt. Um es darstellen zu<br />

können, beginnt die Skala auf der Ordinate oft nicht mit dem Wert Null, sondern erst<br />

bei einem höheren Wert. Ferner kann die von SPSS gewählte Skaleneinheit<br />

bewirken, dass Unterschiede zwischen den Werten der einzelnen Kategorien überoder<br />

unterzeichnet werden. Der optische Eindruck kann also täuschen. In manchen<br />

Fällen kann es daher sinnvoll sein, den dargestellten Bereich der Skala zu<br />

Seite - 45 -


Skript: Benutzung von SPSS<br />

verkleinern oder zu vergrößern, um Unterschiede zu nivellieren oder aber zu<br />

betonen. Dabei sollte man sich jedoch stets bewusst sein, dass der optische<br />

Eindruck dadurch in gewisser Weise verzerrt wird.<br />

Um eine Änderung an der Skala vorzunehmen, geht man folgendermaßen vor:<br />

• Man doppelklickt auf das Diagramm, um den Grafikeditor zu öffnen.<br />

• Man doppelklickt auf die Ordinate. Damit öffnet sich das Dialogfeld<br />

Skalenachse.<br />

• Man ändert sodann in der Gruppe Bereich wunschgemäß die Werte und<br />

schließt danach das Dialogfeld mit OK und den Grafikeditor z.B. mit dem<br />

Befehl Datei schließen.<br />

9.3.1.3 Direkte Umwandlung in alternative Grafiktypen<br />

Es wurde bereits erwähnt, dass Balken-, Linien-, Flächen- und Kreisdiagramme in<br />

vielen Fällen alternativ verwendet werden können. Deshalb besteht bei SPSS die<br />

Möglichkeit, nachträglich einen anderen dieser vier Diagrammtypen zu erzeugen,<br />

also quasi ein bereits erzeugtes Diagramm in ein anderes umzuwandeln. Hierzu muß<br />

das Diagramm zunächst im Grafikeditor geöffnet werden. Anschließend kann im<br />

Menü Galerie eine andere Diagrammdarstellung gewählt werden.<br />

300<br />

300<br />

300<br />

200<br />

200<br />

200<br />

Gesamtschule<br />

Fachhochschulreife<br />

Fehlend<br />

Hauptschule<br />

Hochschule<br />

Absolute Werte<br />

100<br />

0<br />

Gesamtschule<br />

Fachhochschulreife<br />

Hochschule<br />

Gymnasium<br />

Realschule<br />

Hauptschule<br />

Fehlend<br />

Absolute Werte<br />

100<br />

0<br />

Fehlend Realschule Hochschule Gesamtschule<br />

Hauptschule Gymnasium Fachhochschulreife<br />

Absolute Werte<br />

100<br />

0<br />

Fehlend Realschule Hochschule Gesamtschule<br />

Hauptschule Gymnasium Fachhochschulreife<br />

Gymnasium<br />

Realschule<br />

Letzter Bildungsabschluss<br />

Letzter Bildungsabschluss<br />

Letzter Bildungsabschluss<br />

Abb. 45: Das obige Diagramm in den 4 Varianten die in der Galerie verfügbar sind von links nach<br />

rechts: Balken-, Linien-, Flächen- und Kreisdiagramm<br />

9.3.2 Einfaches Liniendiagramm<br />

Der Aufruf ist analog zum Aufruf des Balkendiagramms und braucht nicht wiederholt<br />

zu werden.<br />

Ein erzeugtes Liniendiagramm bildet die Werte der einzelnen Kategorien durch<br />

Punkte ab, wobei die Größe des Wertes einer Kategorie jetzt nicht durch die Höhe<br />

eines Balkens, sondern durch die Höhe des Punktes dargestellt wird. Die einzelnen<br />

Punkte sind in der Grafik jedoch nicht zu erkennen, da sie durch eine Linie<br />

miteinander verbunden wurden und damit in der Linie aufgehen. Im Grafikeditor hat<br />

man jedoch die Möglichkeit, die Punkte durch eine andere Farbe oder Form<br />

darstellen zu lassen, so dass sie trotz der Verbindungslinie sichtbar werden.<br />

Die einzelnen Punkte werden in dem Diagramm durch Geraden miteinander<br />

verbunden. Diese Form der Verbindungslinie kann man ändern, wenn man das<br />

Diagramm im Grafikeditor öffnet. Man hat dort z.B. die Möglichkeit, über den Befehl<br />

Format fi Interpolation<br />

Seite - 46 -


Skript: Benutzung von SPSS<br />

die Verbindungslinie vollständig auszublenden oder durch eine geschwungene oder<br />

stufenförmige Linie zu ersetzen.<br />

300<br />

300<br />

300<br />

300<br />

200<br />

200<br />

200<br />

200<br />

100<br />

100<br />

100<br />

100<br />

Absolute Werte<br />

0<br />

Absolute Werte<br />

0<br />

Absolute Werte<br />

0<br />

Absolute Werte<br />

0<br />

Fehlend<br />

Realschule<br />

Hochschule<br />

Gesamtschule<br />

Fehlend<br />

Realschule<br />

Hochschule<br />

Gesamtschule<br />

Fehlend<br />

Realschule<br />

Hochschule<br />

Gesamtschule<br />

Fehlend<br />

Realschule<br />

Hochschule<br />

Gesamtschule<br />

Hauptschule<br />

Gymnasium Fachhochschulreife<br />

Hauptschule<br />

Gymnasium Fachhochschulreife<br />

Hauptschule<br />

Gymnasium Fachhochschulreife<br />

Hauptschule<br />

Gymnasium Fachhochschulreife<br />

Letzter Bildungsabschluss<br />

Letzter Bildungsabschluss<br />

Letzter Bildungsabschluss<br />

Letzter Bildungsabschluss<br />

Abb. 46: Die verschiedenen Varianten eines Liniendiagramms von links nach rechts: mit Geraden<br />

verbunden, ohne Verbindung, mit Kurve verbunden, mit Stufen verbunden.<br />

9.3.3 Einfaches Flächendiagramm<br />

Der Aufruf ist wieder als bereits bekannt anzunehmen. Das Linien- und das<br />

Flächendiagramm haben große Ähnlichkeit. Der Unterschied besteht im einfachen<br />

Fall lediglich darin, dass beim Flächendiagramm die Fläche unterhalb der Linie<br />

ausgefüllt ist.<br />

Flächendiagramme eignen sich besonders dann, wenn kumulierte Werte darzustellen<br />

sind, z.B. kumulierte Häufigkeitswerte, so dass durch den Anstieg der Fläche von<br />

links nach rechts die Kumulation signalisiert wird.<br />

500<br />

400<br />

300<br />

Kumulative Häufigkeit<br />

200<br />

100<br />

0<br />

13,00 18,00 22,00 26,00 30,00 34,00 38,00<br />

16,00 20,00 24,00 28,00 32,00 36,00 42,00<br />

Alter der Versuchsperson<br />

Abb. 47: Flächendiagramm der kumulierten Verteilung des Alters<br />

Zu beachten sind bei Flächendiagrammen die Abstände der Werte auf den Achsen.<br />

Insbesondere können die Abstände auf der Abszisse ungleich groß sein, so dass die<br />

Verteilung der Werte verzerrt sein kann. Dennoch können sich sinnvolle Aussagen<br />

machen lassen.<br />

Seite - 47 -


Skript: Benutzung von SPSS<br />

9.3.4 Kreisdiagramm<br />

Kreisdiagramme können vor allem dann sinnvoll eingesetzt werden, wenn die<br />

Häufigkeiten einiger weniger Kategorien miteinander verglichen werden sollen,<br />

insbesondere wenn die Anteile der einzelnen Werte an der Gesamtverteilung<br />

veranschaulicht werden sollen.<br />

Auch Kreisdiagramme können durch den Grafikeditor in vielfältiger Weise verändert<br />

werden.<br />

9.4 Darstellung mehrerer Datenreihen<br />

Wie oben erwähnt können mehrere Datenreihen miteinander verglichen werden,<br />

indem sie gemeinsam in einem Diagramm dargestellt werden. Von den<br />

außerordentlich vielen Möglichkeiten, die SPSS bietet, wollen wir uns nur noch einige<br />

näher ansehen.<br />

9.4.1 Gruppiertes und gestapeltes Balkendiagramm<br />

Im Abschnitt 4.1 haben wir bereits ein gruppiertes Balkendiagramm erzeugt. Dort<br />

wurden für die beiden Kategorien der Variablen „Geschlecht“ die absoluten<br />

Häufigkeiten der drei Arten von Schulabschlüssen dargestellt, also wie häufig Frauen<br />

und Männer mit der Hauptschule, Realschule und mit dem Abitur abschließen. Die<br />

Häufigkeiten der Schulabschlüsse wurden also nach den beiden<br />

Geschlechtskategorien gruppiert.<br />

Anstatt solche Häufigkeiten gruppiert nebeneinander zu stellen können sie auch<br />

gestapelt, also übereinander gestellt werden. Dann wird pro Kategorie nur noch ein<br />

Balken dargestellt, der jedoch in so viele Bereiche unterteilt ist wie die zweite<br />

Variable Kategorien hat.<br />

Die gestapelte Darstellung hat den Vorteil, dass die Gesamthöhe eines Balkens den<br />

Gesamtanteil der Kategorie zu veranschaulichen vermag. Z.B. wird bei einem<br />

Vergleich der Bildungsausgaben der einzelnen Bundesländer relativ zum<br />

Landeshaushalt veranschaulicht, welches Bundesland prozentual gesehen wieviel<br />

Geld in die Bildung steckt, unabhängig davon, in welche einzelnen Bereiche dieses<br />

Geld fließt, wobei diese Bereiche die unterschiedlichen Abschnitte auf den Balken<br />

bedeuten würden.<br />

Seite - 48 -


Skript: Benutzung von SPSS<br />

400<br />

300<br />

Letzter Bildungsabsc<br />

Gesamtschule<br />

200<br />

Fachhochschulreife<br />

Hochschule<br />

Gymnasium<br />

Absolute Werte<br />

100<br />

0<br />

weiblich<br />

männlich<br />

Realschule<br />

Hauptschule<br />

Fehlend<br />

Geschlecht<br />

Abb. 48: Beispiel für ein gestapeltes Balkendiagramm<br />

9.4.2 Mehrfachliniendiagramm<br />

Es werden die Höhen der einzelnen Kategorien der zweiten Variablen als (nicht<br />

sichtbare) Punkte eingetragen und pro Kategorie die Punkte miteinander verbunden.<br />

Dadurch ergibt sich pro Kategorie ein Linienzug und die Linienverläufe können direkt<br />

miteinander verglichen werden.<br />

200<br />

100<br />

Absolute Werte<br />

0<br />

Geschlecht<br />

weiblich<br />

männlich<br />

Fehlend<br />

Gesamtschule<br />

Fachhochschulreife<br />

Hochschule<br />

Gymnasium<br />

Realschule<br />

Hauptschule<br />

Letzter Bildungsabschluss<br />

Abb. 49: Beispiel für ein Mehrfachliniendiagramm<br />

9.4.3 Gestapeltes Flächendiagramm<br />

Im einfachen Flächendiagramm stellten wir kumulierte relative Häufigkeiten der<br />

Kategorien einer Variablen dar. Man kann nun auch ähnlich wie beim gestapelten<br />

Balkendiagramm die Häufigkeiten der einzelnen Kategorien einer zweiten Variablen<br />

übereinander legen. Zu beachten ist dabei, dass jede Fläche für sich zu 100%<br />

kumuliert und die Summe beider Flächen somit einem Wert von 200% erreicht.<br />

Seite - 49 -


Skript: Benutzung von SPSS<br />

500<br />

400<br />

300<br />

Kumulative Häufigkeit<br />

200<br />

100<br />

0<br />

Geschlecht<br />

männlich<br />

weiblich<br />

Fehlend<br />

Fachhochschulreife<br />

Hauptschule<br />

Hochschule<br />

Gymnasium<br />

Realschule<br />

Gesamtschule<br />

Letzter Bildungsabschluss<br />

Abb. 50: Beispiel für ein gestapeltes Flächendiagramm<br />

10. Streudiagramme<br />

10.1 Diagrammtypen<br />

Streudiagramme stellen die gemeinsame Verteilung der Werte zweier Variablen dar.<br />

Aus der Lage und Verteilung der Wertepaare können Rückschlüsse auf einen<br />

möglichen Zusammenhang zwischen den Variablen gezogen werden. Treten z.B.<br />

große Werte der einen Variablen häufig mit kleinen Werten der anderen variablen<br />

auf, scheint ein negativer Zusammenhang zwischen den Variablen zu bestehen. In<br />

einem Streudiagramm kommt dies dadurch zum Ausdruck, dass die Wertepaare in<br />

der Tendenz eine diagonale Linie mit negativer Steigung bilden. Um einen solchen<br />

Zusammenhang zu verdeutlichen, kann in das Streudiagramm eine<br />

Regressionsgerade eingefügt werden. 3D-Streudiagramme ermöglichen es sogar,<br />

die gemeinsame Verteilung dreier Variablen zu betrachten. Insgesamt stellt SPSS<br />

vier Arten von Streudiagrammen zur Verfügung:<br />

• Einfaches Streudiagramm: Dargestellt wird die gemeinsame Verteilung zweier<br />

Variablen.<br />

• 3D-Streudiagramm: Hier wird auf drei Achsen jeweils eine Variable<br />

eingetragen, so dass die Punkte im Raum Wertetripel darstellen. Somit wird<br />

die gemeinsame Verteilung dreier Variablen veranschaulicht.<br />

• Überlagertes Streudiagramm: In einem solchen Diagramm können die<br />

gemeinsamen Verteilungen mehrerer Variablenpaare in einer einzigen Grafik<br />

dargestellt werden. Durch diese Überlagerung mehrerer einfacher<br />

Streudiagramme lässt sich der Verlauf dieser Verteilungen gut miteinander<br />

vergleichen.<br />

• Einfache Streudiagramme in Matrix-Darstellung: Wenn man für mehrere<br />

Variablen jeweils die paarweise gemeinsame Verteilung darstellen möchte,<br />

kann man die einzelnen Streudiagramme in Matrixform so anordnen, dass alle<br />

paarweisen Verteilungen zusammen betrachtet werden können. Dies kann für<br />

einen ersten Überblick über die Verteilungen hilfreich sein.<br />

Seite - 50 -


Skript: Benutzung von SPSS<br />

Außer bei den überlagerten Diagrammen kann man in den Diagrammen eine<br />

Kontrollvariable verwenden, durch deren Werte die Fälle der Datendatei in<br />

verschiedene Fallgruppen (Kategorien) unterteilt werden können. Die Wertepaare der<br />

verschiedenen Fallgruppen werden dann in der Grafik durch verschiedene<br />

Markierungen oder in verschiedenen Farben dargestellt, so dass ein möglicher<br />

Einfluß der Kontrollvariablen auf die gemeinsame Verteilung der beiden Variablen<br />

erkennbar wird.<br />

Im Folgenden geben wir zur Veranschaulichung nur eine kleine Auswahl möglicher<br />

Streudiagrammdarstellungen.<br />

10.2 Einfaches Streudiagramm<br />

Grafiken fi Streudiagramm fi Einfach<br />

Es erscheint das folgende Dialogfeld:<br />

Abb. 51: Dialogfeld zur Erstellung eines einfachen Streudiagramms<br />

Um ein Streudiagramm zu definieren, ist die Angabe je einer Variable für die x- und<br />

für die y-Achse notwendig. Im Feld Markierungen festlegen durch kann eine<br />

Kontrollvariable angegeben werden, durch die die Fälle der Datendatei in einzelnen<br />

Gruppen unterteilt werden würden. Drückt man die Taste OK, so erscheint ein<br />

Streudiagramm der nachfolgend abgebildeten Art.<br />

6<br />

5<br />

4<br />

Zufriedenheit mit Berufswahl<br />

3<br />

2<br />

1<br />

0<br />

0<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

Wie hoch ist das Interesse am Beruf?<br />

Abb. 52: Einfaches Streudiagramm<br />

Jeder Punkt im Diagramm repräsentiert ein Wertepaar der beiden Variablen. Im<br />

Beispiel aus Abb. 52 fällt auf den ersten Blick auf, dass sich die Punke über alle<br />

Seite - 51 -


Skript: Benutzung von SPSS<br />

möglichen Kombinationen fast gleich verteilen, es scheint also keinerlei Abhängigkeit<br />

zwischen den beiden Variablen vorzuliegen. Diese einfache Form der Darstellung<br />

kann jedoch täuschen, da Punkte die übereinander liegen nur als ein einzelner Punkt<br />

dargestellt werden. In Wirklichkeit repräsentieren alle Punkte des Diagramms aber<br />

eine unterschiedliche Anzahl von Fällen. Um dies zu kompensieren gibt es die<br />

„Sonnenblumendarstellung“.<br />

10.3 Einfaches Streudiagramm in Sonnenblumen-Darstellung<br />

In Streudiagrammen kann es zu Überlagerungen einzelner Punkte kommen, so dass<br />

die Anzahl der Punkte nicht mehr genau zu erkennen ist. Wenn man dann bereit ist,<br />

auf die exakte Darstellung der Werte zu verzichten, können die Wertepaare in<br />

Abhängigkeit von ihrer Lage auch zu Gruppen zusammengefasst werden. Man lässt<br />

dann nicht mehr die Lage einzelner Wertepaare darstellen, sondern die Lage und<br />

zugleich die Häufigkeiten der gebildeten Gruppen. Dadurch werden die<br />

Überlagerungen der einzelnen Punkte vermieden und das Streudiagramm wird<br />

übersichtlicher. Eine solche gruppierte Darstellung der Wertepaare wird als<br />

„Sonnenblumen-Darstellung“ bezeichnet, da die Häufigkeiten durch Symbole<br />

gekennzeichnet sind, die an Sonnenblumen erinnern.<br />

Diese gruppierte Darstellung wird erzeugt, indem man ein schon bestehendes<br />

Streudiagramm im Grafikeditor bearbeitet. Man doppelklickt in das Diagramm, worauf<br />

sich es sich im Editor öffnet. Sodann wählt man im Grafikeditor den Befehl<br />

Diagramme fi Optionen fi Sonnenblumen<br />

6<br />

5<br />

4<br />

Zufriedenheit mit Berufswahl<br />

3<br />

2<br />

1<br />

0<br />

0<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

Wie hoch ist das Interesse am Beruf?<br />

Abb. 53: Das obige einfache Streudiagramm in der Sonnenblumen-Darstellung.<br />

Das Diagramm stellt nun nicht mehr für jedes Wertepaar einen Punkt dar, sondern es<br />

fasst auch nahe beieinander liegende Punkte zu einer Gruppe zusammen. Für jede<br />

solche Gruppe wurde in dem Diagramm ein Kreis gezeichnet. Die Häufigkeit, mit der<br />

die Gruppe vorkommt, wird durch die Zahl der Striche dargestellt, die um den Kreis<br />

einer Gruppe angeordnet sind. Gruppen, die nur einmal vorkommen, werden durch<br />

einen Kreis ohne Strich gekennzeichnet. Wie in Abbildung 53 zu ersehen liegt in dem<br />

Diagramm aus Abbildung 52 keinesfalls eine Gleichverteilung vor, sondern einige<br />

Kategorien sind nur sehr gering besetzt.<br />

Seite - 52 -


Skript: Benutzung von SPSS<br />

10.4 Einfaches Streudiagramm mit Regressionskurve<br />

Aus der Anordnung und der Häufung der Wertepaare im Diagramm lassen sich oft<br />

Hinweise auf einen möglichen Zusammenhang zwischen den beiden betrachteten<br />

Variablen gewinnen. Ein solcher Zusammenhang lässt sich oft noch präzisieren,<br />

wenn in die Grafik eine Regressionskurve eingezeichnet wird. Für die Annäherung<br />

der Kurve an die Wertepaare kann je nach Eindruck ein linearer, quadratischer oder<br />

kubischer Zusammenhang angenommen werden. Auch besteht die Möglichkeit, eine<br />

Kurve mit Hilfe eines iterativen gewichteten Regressionsverfahrens, das ebenfalls auf<br />

der Methode der kleinsten Quadrate basiert, jeweils an eine Gruppe von<br />

Wertepaaren anzupassen. Damit erhält die Gesamtkurve zwar keinen einheitlichen<br />

Verlauf, sie folgt jedoch im allgemeinen der Form der Punktwolke recht gut.<br />

Ebenso wie die Sonnenblumen-Darstellung kann eine Regressionskurve nicht schon<br />

beim Anfordern des Streudiagramms mit angefordert werden, sondern nachträglich<br />

wieder mit Hilfe des Grafikeditors. Dazu wählt man im Editor den Befehl<br />

Diagramme fi Optionen<br />

und kreuzt in dem sich öffnenden Dialogfeld die Option Gesamt aus der Gruppe<br />

Anpassungslinie an. Anschließend klickt man auf die Schaltfläche Anpassungs-<br />

Optionen, die ein weiteres Dialogfeld öffnet. Dort wird in der Gruppe<br />

Anpassungsmethode die Option Lineare Regression beibehalten, wenn man der<br />

Punktwolke eine Regressionsgerade unterlegen möchte. Ferner wählt man in der<br />

Gruppe Optionen für Regression die beiden Optionen Konstante in Gleichung<br />

einschließen und R-Quadrat in Legende zeigen. Anschließend können die beiden<br />

Dialogfelder mit Weiter und OK geschlossen werden. Es ergibt sich ein<br />

Streudiagramm mit Regressionsgleichung wie in der nachfolgenden Abbildung<br />

dargestellt.<br />

120<br />

110<br />

100<br />

90<br />

Belastungspuls der VP<br />

80<br />

70<br />

60 R-Qu. = 0.5781<br />

40<br />

50<br />

60<br />

Alter der Versuchsperson<br />

Abb. 54: Einfaches Streudiagramm mit linearer Anpassungslinie<br />

R 2 stellt das Bestimmtheitsmaß dar, ein Maß für die Güte der Anpassung als das<br />

Verhältnis der Quadratsumme der erklärten Streuung und der Quadratsumme der<br />

gesamten Streuung. Die Werte liegen zwischen 0 und 1. Hat es den Wert 1, so<br />

liegen alle Beobachtungen auf einer Geraden und der Zusammenhang zwischen den<br />

beiden Variablen ist perfekt. Je kleiner R 2 ist, desto streuen die Punkte zufällig und<br />

desto schlechter ist die Anpassung der Geraden an die beobachteten Wertepaare.<br />

Die Quadratwurzel aus R 2 gibt die Korrelation zwischen beiden Variablen an.<br />

Seite - 53 -


Skript: Benutzung von SPSS<br />

11 Hinweis zum Begriff „Nichtparametrische Tests“<br />

Bei der Anwendung von SPSS zwecks Durchführung inferenzstatistischer Tests tritt<br />

der Begriff „nichtparametrische Tests“ auf.<br />

In der Literatur wird meistens nicht streng zwischen den Begriffen „Nichtparametrische<br />

Methoden“ und „Verteilungsfreie Methoden“ unterschieden:<br />

Ein „verteilungsfreies“ Verfahren basiert auf einer Statistik, deren Verteilung nicht von<br />

der Verteilung(sfunktion) der Grundgesamtheit abhängt, aus der die Stichprobe<br />

gezogen wurde, insbesondere auch von der Normalverteilung. Die Form der<br />

Verteilung in der Grundgesamtheit braucht bei solchen Methoden also nicht bekannt<br />

zu sein bzw. angenommen zu werden. In der Tat ist sie so gut wie nie bekannt.<br />

Der Begriff „nichtparametrisch“ bzw. „parameterfrei“ bezieht sich auf Verfahren, die<br />

keine Aussagen über einzelne Parameter der Grundgesamtheitsverteilung machen.<br />

Auch dieser Begriff bringt zum Ausdruck, daß die Kenntnis der diese Verteilung<br />

beschreibenden Maßzahlen nicht für die Anwendung der Methoden erforderlich ist.<br />

Zu vielen parametrischen Tests sind nichtparametrische Pendants entwickelt worden,<br />

z.B. zum t-Test der U-Test (Rangsummentest). Viele von Ihnen gehen dabei nur von<br />

Rang<strong>info</strong>rmationen in den Daten aus. Gegenüber den parametrischen Tests haben<br />

sie verschiedene Vor- und Nachteile. Ein Nachteil ist z.B. die meist geringere<br />

Teststärke. Ein großer Vorteil liegt jedoch darin, dass sie auch noch bei sehr kleinem<br />

N von Beobachtungsfällen anwendbar sind, da sie auch exakt prüfen können. Ihr<br />

Nachteil, dann sehr rechenaufwendig zu sein, trifft angesichts immer schneller<br />

rechnender Computer immer weniger zu. Die im Empiriepraktikum II oder in<br />

Diplomarbeiten erhobenen Stichproben sind meistens recht klein.<br />

Allerdings prüfen die in SPSS verfügbaren Prozeduren für nicht-parametrische Tests<br />

die Nullhypothese in der Grundversion von SPSS („Base-Modul“) in der Regel nicht<br />

exakt, sondern über approximative Verfahren, indem sie theoretische Verteilungen<br />

wie die Standardnormal- oder die X 2 -Verteilung anwenden, d.h. asymptotisch. Das<br />

bedeutet, dass die von SPSS ausgegebene „asymptotische Signifikanz“, die<br />

Überschreitungswahrscheinlichkeit p (auch Zufallswahrscheinlichkeit genannt,<br />

Irrtumswahrscheinlichkeit, Risiko I, Fehler I), auf der Basis der Annahme geschätzt<br />

werden, dass die Daten unter H 0 eine solche Verteilung bilden würden, wenn der<br />

Datensatz nur genügend groß sein würde. Nur in wenigen Fällen wird bei<br />

Verwendung des Basismoduls H 0 auch exakt getestet.<br />

Wenn kleine Stichprobenumfänge vorliegen, kann dieses Vorgehen bzw. diese<br />

Annahme jedoch recht problematisch sein, weil die angenommenen theoretischen<br />

Verteilungen dann nicht unerheblich von der exakten Stichprobenverteilung der<br />

Prüfgröße abweichen können. In der Tat kann dann die asymptotisch geschätzte<br />

Überschreitungswahrscheinlichkeit p eine ganz andere sein als die exakt berechnete.<br />

Bei kleinem N sollten daher nicht nur nichtparametrische Verfahren verwendet<br />

werden, sondern zusätzlich auch noch in ihrer exakten Form. Das ist mit dem SPSS-<br />

Zusatzmodul „Exakte Tests“ möglich. Ist dieses verfügbar, erscheint im Dialog die<br />

zusätzliche Wahlmöglichkeit (Button, Taste) „Exakte Tests“.<br />

Obwohl exakte p´s immer verläßlich sind, d.h. natürlich auch bei großen Stichproben<br />

gelten, kann es vorkommen, dass Datensätze zu groß sind, d.h. die Berechnung des<br />

exakten p´s an der verfügbaren Zeit oder an der Größe des Datenspeichers scheitert.<br />

Seite - 54 -


Skript: Benutzung von SPSS<br />

In dieser Situation kann das SPSS-Zusatzmodul auch die Monte-Carlo-Methode<br />

anwenden, die eine unvoreingenommene (unbiased) Schätzung des exakten p-<br />

Wertes darstellt. In der Praxis kommt diese Schätzung dem exakten p meistens recht<br />

nahe. Die Methode meint eine wiederholte Ziehung von Zufallsstichproben. Z.B. gibt<br />

es für eine beobachtete zweidimensionale Häufigkeitstabelle (Kreuztabelle) viele<br />

Tabellen, die die gleichen Randhäufigkeiten (geschätzte Randwahrscheinlichkeiten)<br />

aufweisen. Während im exakten Fall die Punktwahrscheinlichkeiten aller dieser<br />

Tabellen berechnet werden, was sehr aufwendig sein kann, und bestimmte dieser<br />

Punkt-p´s davon zur Überschreitungswahrscheinlichkeit p aufsummiert werden, zieht<br />

die Monte-Carlo-Methode nur Stichproben einer vorgegebenen Anzahl aus den<br />

insgesamt möglichen Tabellen.<br />

Möchte man eine Überschreitungswahrscheinlichkeit p exakt bestimmen und drückt<br />

man deshalb den Knopf „exakt“, so kann man danach wählen, ob sie nur exakt<br />

berechnet werden soll oder zusätzlich auch nach dem Monte-Carlo-Verfahren. Im<br />

Fall der exakten Berechnung ist ein Zeitbegrenzung anzugeben. Sollte diese erreicht<br />

werden, bricht SPSS ohne Ergebnis ab und geht zum nächsten Test über, falls noch<br />

einer weiterer berechnet werden soll. Im Monte-Carlo-Fall ist die Zahl der zu<br />

ziehenden Stichproben anzugeben. Statt der Voreinstellung von 10.000 kann hier<br />

meistens getrost auch 1.000.000 eingegeben werden. Des weiteren ist auch ein<br />

confidence-level zwischen 0,01 und 99,9 vorzugeben. Voreingestellt ist 99. SPSS<br />

wird dann zusätzlich zur Monte-Carlo-Schätzung der<br />

Überschreitungswahrscheinlichkeit p ausgeben, in welchem p-Bereich das wahre p<br />

gemäß der vorgegebenen Konfidenz liegen dürfte.<br />

Sollte zusätzlich zur von SPSS berechneten sog. „asymptotischen Signifikanz“, auch<br />

die „exakte Signifikanz“, d.h. die exakte Überschreitungswahrscheinlichkeit p<br />

berechnet werden, ist letztere natürlich immer als die verläßlichere zu wählen, d.h.<br />

mit der vorgegebenen Signifikanzgrenze, dem ? -Niveau, zu vergleichen zwecks<br />

Entscheidung, H 0 beizubehalten ( p > z.B. ????oder abzulehnen (p


Skript: Benutzung von SPSS<br />

Bortz, J., Lienert, G.A. & Boehnke, K. (1990). Verteilungsfreie Methoden in der<br />

Biostatistik. Berlin: Springer.<br />

Büning, H. & Trenkler, G. (1994 4 ). Nichtparametrische statistische Methoden. Berlin:<br />

De Gruyter.<br />

Bradley, J.V. (1968). Distribution-free statistical tests. Englewood Cliffs, New Jersey:<br />

Prentice-Hall, Inc.<br />

Siegel, S. (1997 4 ). Nichtparametrische statistische Methoden. Eschborn b.<br />

Frankfurt/M.: Klotz.<br />

12 Inferenzstatistik Häufigkeitstests<br />

12.1 Binomialtest, exakt und asymptotisch<br />

Es wird eine beobachtete mit einer erwarteten Verteilung von Alternativdaten<br />

verglichen. Genauer wird geprüft (H 0 ), ob eine Stichprobe von Alternativdaten, die x<br />

Fälle mit der einen Ausprägung und n-x Fälle mit der anderen Ausprägung enthält,<br />

einer Population angehört, von der die entsprechenden Prozentanteile π und 1-π<br />

bekannt sind, z.B. 0,3 und 0,7 (Ein-Stichproben-Test).<br />

Z.B. kann man sich fragen, ob in einer Bevölkerung, die in der Nähe eines<br />

Kernkraftwerkes wohnt, mit x in einem bestimmten Zeitraum beobachteten<br />

Leukämiefällen mehr Fälle auftreten als zur gleichen Zeit in der übrigen Bevölkerung<br />

(H 1 , einseitige Fragestellung). Um die Populationsverhältnisse zu kennen, müßte<br />

allerdings ein Krebsregister angelegt worden sein (In Deutschland wird erst ein<br />

solches angelegt. Ersatzweise behilft man sich z.Zt. mit dem z.B. von Dänemark.)<br />

Um die Fragestellung zu testen, bedient man sich der Summenfunktion der<br />

Binomialverteilung. Im vorliegenden Beispiel würde man fragen, wie wahrscheinlich<br />

es ist, daß x Fälle oder die noch extremeren Häufigkeiten x+1, x+2, ..., n zufällig<br />

auftreten (H 0 ), und alle diese Wahrscheinlichkeiten zur Irrtumswahrscheinlichkeit p<br />

addieren (exakter Test).<br />

H 0 : π 1 = π<br />

d. h. die Wahrscheinlichkeit π 1 für einen Leukämiefall in der Nähe des Kernkraftwerks<br />

ist gleich der Wahrscheinlichkeit in der übrigen Bevölkerung.<br />

H1: π 1 > π<br />

d.h. die Wahrscheinlichkeit π 1 ist größer als π, einseitige Fragestellung.<br />

Ehe wir die Nullhypothese testen, legen wir das Risiko I fest, das wir bei Annahme<br />

der Alternativhypothese eingehen wollen. (Im Kernkraftbeispiel ist H 1 eine<br />

schwerwiegende Aussage, so daß wir α niedrig ansetzen werden, z.B. α = 0,001.)<br />

Seite - 56 -


Skript: Benutzung von SPSS<br />

Analysieren fi Nichtparametrische Tests fi Binomial<br />

Es erscheint das folgende Dialogfeld:<br />

Abb. 55: Binomialtest<br />

Zunächst sind die Testvariablen einzugeben, für die jeweils ein Binomialtest<br />

durchgeführt werden soll. Besitzen diese Variablen mehr als zwei unterschiedliche<br />

Werte, so ist der Wert, an dem die Variablenwerte zu dichotomisieren sind, als<br />

"Trennwert" festzulegen. Alle Werte, die kleiner oder gleich diesem Trennwert sind,<br />

bilden die erste Gruppe, Werte darüber die zweite Gruppe. Bei a priori dichotomen<br />

Variablen ("aus den Daten") bildet der Wert die erste Gruppe, der in der Variablen als<br />

erstes eingegeben wurde, also der Wert des ersten Falls.<br />

In der Box "Testanteil" ist die Wahrscheinlichkeit p einzugeben, mit der der Wert, der<br />

die erste Gruppe bezeichnet, in der Grundgesamtheit auftritt. Es ist also entweder µ<br />

oder 1-µ einzugeben, je nachdem, welche Gruppe die erste ist. Die Voreinstellung ist<br />

p = 0.5, d.h. die Hypothese gleicher Prozentanteile beider Alternativen µ und 1-µ in<br />

der Grundgesamtheit. Es können Werte zwischen 0.001 und 0.999 eingegeben<br />

werden.<br />

Bis zu einem Stichprobenumfang von 25 (gültigen) Werten wird im Base-Modul ein<br />

exakter Binomialtest durchgeführt, danach erfolgt die Prüfung der Nullhypothese<br />

approximativ über die Standardnormalverteilung (z-Approximation). Liegt auch das<br />

Zusatzmodul „Exakte Tests“ vor, erkennbar an der Taste "exakt", ist aber auch bei<br />

noch viel größeren Stichprobenumfängen eine exakte Prüfung über die<br />

Binomialverteilung möglich. Dies sollte bis zu einem N von mindestens 50 immer<br />

geschehen, ebenfalls bei kleinerer Wahrscheinlichkeit der betrachteten Alternativen<br />

(π < = 0,1 bzw. π >= 0,9). Wenn neben der „Asymptotischen Signifikanz“ auch die<br />

„exakte Signifikanz“ berechnet wird, zeigen eventuelle Abweichungen der beiden<br />

Werte voneinander, dass die Annahme des Übergangs der Binomialverteilung zur<br />

Normalverteilung im aktuellen Fall noch nicht statthaft ist. Bei Abweichungen ist<br />

immer die exakt berechnete Signifikanz zu bevorzugen.<br />

Im Fall von p = 0,5 ist der Hypothesentest ungerichtet, bei p ≠ 0,5 werden einseitige<br />

Irrtumswahrscheinlichkeiten ausgegeben. Achtung: Im gerichteten (einseitigen) Fall<br />

Seite - 57 -


Skript: Benutzung von SPSS<br />

müssen (aufgrund des SPSS-Programms) Null- und Alternativhypothese im Hinblick<br />

auf die Kategorie formuliert werden, die in der Variable als erste auftritt, da es deren<br />

beobachteter Anteil ist, der mit dem in der Nullhypothese behaupteten verglichen<br />

wird.<br />

12.1.1 Einseitiger Test<br />

Sind z.B. in einem bestimmten Beobachtungszeitraum im näheren Areal eines<br />

Kernkraftwerkes von 7 Todesfällen 5 durch Krebs vorgekommen und nur 2 durch<br />

sonstige Todesursachen, so sind wir an der Beantwortung der Frage interessiert, "ob<br />

so viele Krebsfälle noch Zufall sind", genauer wie wahrscheinlich es ist, dass 5 oder<br />

6 oder 7 Fälle von Krebs zufällig vorkommen, wenn in ganz Deutschland Krebs mit<br />

einer Wahrscheinlichkeit von µ = 0,25 als Todesursache auftritt.<br />

Wir geben also unsere 7 Fälle als Datensatz ein, eine Variable/Spalte mit 7 Fällen.<br />

Dabei können wir "Krebstod" mit z.B. 1 kodieren und "Nichtkrebstod" mit 0, oder auch<br />

umgekehrt. Gleichgültig wie wir kodieren, unbedingt zu beachten ist, dass die<br />

Kodierung des ersten eingegebenen Falls die erste Gruppe bezeichnet, für die wir<br />

den „Testanteil“ eingegeben haben, also den entsprechenden Anteil in der<br />

Population. Wenn wir also als ersten Fall (in Zeile 1 der Datenmatrix) "Krebstod"<br />

kodiert eingegeben haben, müssen wir unter „Testanteil“ p = 0,25 eingeben, wenn in<br />

ganz Deutschland Krebs zu 25% die Todesursache ist. Wenn wir dagegen<br />

"Nichtkrebstod" als ersten Fall eingegeben haben, dann müssen wir 1 - 0,25 = 0,75<br />

eingeben.<br />

Gleichgültig welche diese beiden Möglichkeiten wir eingeben, wir erhalten immer das<br />

gleiche Ergebnis, nämlich die Überschreitungswahrscheinlichkeit P = 0,013 (bitte<br />

nachprüfen). Im ersten Fall addiert SPSS die Punktwahrscheinlichkeiten für 5, 6 und<br />

7 Fälle auf, es fragt also in die von uns gemeinte oder-noch-mehr-Richtung. Im<br />

zweiten Fall fragt es alternativ, wie zufallswahrscheinlich es ist, dass 7-5 =2 oder 1<br />

oder 0 Nichtkrebstode vorkommen, also in die oder-noch-weniger-Richtung. In<br />

beiden Fällen wird aber P = 0.012 + 0,001 + 0,000 gerechnet, also die<br />

entsprechenden Punktwahrscheinlichkeiten des rechten Astes der Binomialverteilung<br />

addiert:<br />

linker Ast<br />

rechter Ast<br />

Punktwahrscheinlichk.<br />

p<br />

0,13<br />

4<br />

0,31<br />

1<br />

0,31<br />

1<br />

0,17<br />

3<br />

0,05<br />

8<br />

0,01<br />

2<br />

0,00<br />

1<br />

0,00<br />

0<br />

N der Krebstode 0 1 2 3 4 5 6 7<br />

N der Nichtkrebstode 7 6 5 4 3 2 1 0<br />

Abb56.: Binomialverteilung des Zahlenbeispiels<br />

Zur Auffrischung des Verständnisses mit der Tabelle der Binomialverteilung in<br />

einem Statistikbuch vergleichen<br />

Zu beachten ist ferner, dass SPSS immer nur in Richtung eines Astes rechnet:<br />

SPSS addiert/fragt immer dann, wenn der beobachtete Anteil der ersten Gruppe<br />

größer als der vorgegebene Anteil ist, in die noch-mehr-Richtung, sonst in die nochweniger-Richtung.<br />

Es entscheidet also anhand dieses Kriteriums selbst, in welche<br />

Ast-Richtung es fragt. Die Überschreitungswahrscheinlichkeiten werden so meistens<br />

unter 0.5 bleiben, im konkreten Fall auch mal übersteigen. Wenn wir selbst dennoch<br />

anders fragen als SPSS, also inhaltlich bestimmt z.B. in die noch-mehr-Richtung<br />

fragen, obwohl der beobachtete Anteil kleiner als der vorgegebene Populationsanteil<br />

ist, bzw., wenn wir die Alternativ-Hypothese formuliert haben, in die noch-weniger-<br />

Richtung fragen, obwohl der beobachtete Anteil größer als der vorgegebene ist, dann<br />

Seite - 58 -


Skript: Benutzung von SPSS<br />

brauchen wir SPSS erst gar nicht rechnen zu lassen, denn das Ergebnis wird nicht<br />

signifikant werden.<br />

In unserem Beispiel addiert SPSS auch noch bei x = 2 Krebstodfällen in Richtung<br />

des rechten Astes auf (P = 0.555), weil der beobachtete Anteil noch größer als der<br />

vorgegebene ist. Bei x = 1 dagegen addiert es die Punktwahrscheinlichkeiten für die<br />

1 und 0 Krebstode auf (P = 0.445). Es fragt jetzt in die Gegenrichtung, nämlich wie<br />

wahrscheinlich es ist, das 1 Krebstod oder kein Krebstod auftritt, bzw. alternativ, wie<br />

wahrscheinlich es ist, dass 6 oder 7 Nichtkrebstodfälle vorkommen. War unsere<br />

Frage dennoch, wie wahrscheinlich es ist, dass 1 oder noch mehr Krebstode<br />

auftreten, dann können wir das mit SPSS jetzt nicht mehr direkt berechnen. Es wird<br />

aber eine Überschreitungswahrscheinlichkeit von P ≥ 0.5 sein. Wir können das<br />

anhand des SPSS-Ausdrucks sogar genau berechnen, weil nicht nur die<br />

Überschreitungswahrscheinlichkeit P = 0.445 jetzt zur nicht gewünschten Seite<br />

ausgegeben wird, sondern auch die Punktwahrscheinlichkeit p = 0,311 der<br />

beobachteten Zahl x = 1 Krebstode:<br />

P anderer Ast = 1 - P ausg. Ast + p ausg.<br />

da die Summe aller Punktwahrscheinlichkeiten gleich 1 ist. In unserem Beispiel mit x<br />

= 1 Krebstoden wäre also die Wahrscheinlichkeit von 1 oder noch mehr Krebstoden<br />

P = 1 - 0,445 + 0,311 = 0,886.<br />

Wichtig: Wie schon bei der Benutzung einer Binomialverteilungstabelle sollten wir<br />

uns vor der Anwendung eines Binomialtests mit der Formulierung von Hypothese<br />

und Alternativ-Hypothese ganz klar machen, in welche immer selbe Richtung unsere<br />

einseitige Fragestellung geht, gleichgültig ob wir die Hypothese so oder so<br />

formulieren, also hier nach der Zufallswahrscheinlichkeit der Krebstode oder<br />

alternativ der Nichtkrebstode fragen. (Bitte aber niemals die inhaltliche Alternativ-<br />

Hypothese mit der statistischen Gegenrichtung verwechseln.) Wenn es die Richtung<br />

ist, in die SPSS aufaddiert gemäß seines Vergleichs von beobachtetem und Testanteil,<br />

wird das von uns gewünschte Ergebnis berechnet. Wenn das nicht der Fall ist,<br />

erhalten wir zwar auch ein Ergebnis, es ist dann aber nicht das vor uns gemeinte,<br />

sondern das der Gegenrichtung, also ein falsches, und niemand warnt uns dann!<br />

Deshalb folgende Sicherungsregel: Wenn wir also oben nach der<br />

Zufallswahrscheinlichkeit für 5 oder noch-mehr-Krebstodfälle fragen und der<br />

beobachtete Anteil größer als der vorgegebene Pop-Anteil von 25% ist, also<br />

ebenfalls in unsere mehr-Fragerichtung deutet, dann wird das ausgegebene P richtig<br />

sein. Und wenn wir stattdessen alternativ nach der Zufallswahrscheinlichkeit für 2<br />

oder noch-weniger-Nichtkrebstodfälle fragen und der beobachtete Anteil kleiner als<br />

der vorgegebene von 75% ist, also in die noch-weniger-Richtung weist, wird das<br />

Ergebnis auch richtig sein. Wenn allerdings diese Und-Bedingung nicht stimmt, dann<br />

wird das ausgegebene P nicht das der gewünschten Richtung sein.<br />

12.1.2 Zweiseitiger Test<br />

Wir erkennen, dass die obige Binomial-Verteilung nicht symmetrisch ist. Das ist sie<br />

nur dann, wenn der Testanteil 0,5 beträgt, also µ = 1 - µ = 0,5. Wenn das der Fall ist,<br />

kann die einseitige Überschreitungswahrscheinlichkeit einfach verdoppelt werden,<br />

um die zweiseitige zu erhalten. Das tut SPSS dann auch. Allerdings berechnet es<br />

auch nur dann die zweiseitige.<br />

Wenn µ ≠ 1 - µ wie im obigen Beispiel, ist die Binomialverteilung asymmetrisch. Dann<br />

muss die zweiseitige Überschreitungswahrscheinlichkeit als Summe der rechten und<br />

linken kritischen Region berechnet werden. Dazu müssen wir bei SPSS die<br />

Seite - 59 -


Skript: Benutzung von SPSS<br />

Überschreitungswahrscheinlichkeiten beider Regionen getrennt berechnen und beide<br />

dann selbst addieren:<br />

Wenn wir im Beispiel nicht nur einseitig fragen, ob der Krebstod in der Gegend des<br />

Kernkraftwerks in übernormaler Häufung auftritt, sondern auch in unternormaler<br />

Häufung, dann haben wir bei x = 5 Krebstodfällen nicht nur zu fragen, wie<br />

wahrscheinlich es ist, dass 5 oder noch mehr Fälle zufällig auftreten (x ≥ 5), also 5<br />

oder 6 oder 7, sondern zusätzlich, wie wahrscheinlich es ist, dass 7-5 oder noch<br />

weniger Fälle zufällig auftreten (x ≤ 7-5), also 2 oder 1 oder 0 (vgl. obige Verteilung).<br />

(Achtung: Es sind jetzt die Krebstodfälle gemeint, und nicht die alternativen<br />

Nichtkrebstodfälle). Diese linke Überschreitungswahrscheinlichkeit können wir von<br />

SPSS nicht direkt berechnen lassen, da der Anteil von 2 Krebstodfällen an 7 Fällen<br />

noch größer als der vorgegebene Anteil von 25 % ist, SPSS also nicht zur<br />

gewünschten Seite rechnet, sondern noch zur Mehr-Seite. Wir müssen also<br />

hilfsweise in einer zweiten Rechnung nach der Überschreitungswahrscheinlichkeit für<br />

3 oder noch mehr Krebstoten fragen (in den Daten jetzt statt 5 nur drei Krebstode)<br />

und diese dann von 1 subtrahieren, da die Summe aller Punktwahrscheinlichkeiten 1<br />

ist. Im vorliegenden Fall ergibt sich eine Ü-Wahrscheinlichkeit für die gemeinte untere<br />

Region von P u = 1 - 0,244 = 0,756, und somit<br />

P 2-seitig = P o + P u = 0,013 + 0,756 = 0,769<br />

Dasselbe Ergebnis würden wir natürlich auch erhalten, wenn wir fragen würden, ob<br />

die Nichtkrebstode in über- oder unternormaler Häufung auftritt.<br />

Die andere Seite kann aber auch direkt berechenbar sein. Wenn wir statt von 7<br />

Beobachtungsfällen von z.B. 9 ausgehen und uns bei nur 1 Krebstodfall fragen (µ<br />

weiterhin 25%), ob das über- oder unternormal ist, dann wird SPSS automatisch<br />

fragen wie wahrscheinlich 1 oder kein Krebstod-Fall ist bzw. alternativ wie<br />

wahrscheinlich 8 oder 9 Nichtkrebstodfälle (1- µ = 0,75 eingeben) sind und als<br />

Antwort P = 0,30 berechnen. Wenn wir dann zusätzlich wissen wollen, wie<br />

wahrscheinlich 8 oder 9 Krebstodfälle sind und die Daten entsprechend verändern,<br />

dann wird SPSS auch das berechnen (P = 0,000), weil (zum Glück) der beobachtete<br />

Anteil mit 0,89 größer als der vorgegebene Anteil von 0,25 ist.<br />

Zugegeben: Im Falle eines Binomialtests mag es einfacher sein, mithilfe einer<br />

tabellierten Binomialverteilung zu testen als mithilfe von SPSS, insbesondere bei<br />

zweiseitiger Fragestellung.<br />

Leider steht die zweiseitige Testung in vielen Büchern gar nicht, unzulänglich oder<br />

sogar falsch drin. Das mit dem Kauf von SPSS mitgelieferte (dürftige) SPSS-<br />

Handbuch für die exakten Tests ist z.B. der Meinung, dass bei zweiseitiger Testung<br />

die einseitige einfach zu verdoppeln ist, obwohl das Programm selbst es dann doch<br />

zum Glück nur im Falle der Symmetrie tut.<br />

Meistens wird man einseitig testen wollen, beim Krebstod auch mal in die andere<br />

Richtung: So scheint es bestimmte kleinere Areale zu geben, wo er erheblich<br />

weniger auftritt als im ganzen Land. Auch dann ist, nachdem durch einen<br />

statistischen Test die Unwahrscheinlichkeit einer Zufallsschwankung festgestellt<br />

worden ist, die Forschung nach der Ursache hoch interessant, wie schon beim<br />

Kernkraftwerk.<br />

Nach diesem Einschub in das bisherige Papier jetzt seine Fortsetzung:<br />

Die unter Optionen anforderbaren Statistiken sind unsinnig. Man ...<br />

Zu guter Letzt:<br />

Es ist zum näheren Verständnis sinnvoll, Verteilungen von<br />

Punktwahrscheinlichkeiten auch im Falle des exakten Testens von 4-Felder-<br />

Häufigkeiten anzulegen (Tee-Beispiel), für alle überhaupt möglichen Verteilungen bei<br />

Seite - 60 -


Skript: Benutzung von SPSS<br />

festen Randsummen. Man kann dabei ebenfalls einen unteren Ast und einen oberen<br />

Ast der Verteilung erzeugen, so dass klar wird, die Punktwahrscheinlichkeiten<br />

welcher Tafeln in Richtung der gemeinten H 1 -Hypothese zur Ü-Wahrscheinlichkeit P<br />

aufzuaddieren sind; und auch, wie zweiseitig zu testen ist. Das ist alles ganz analog,<br />

und man sollte es übungshalber wirklich mal machen. SPSS berechnet ja die<br />

Punktwahrscheinlichkeit für jede konkret eingegebene Häufigkeitsmatrix, so dass die<br />

ganze Verteilung der Punktwahrscheinlichkeiten aufgestellt werden kann und sodann<br />

verschiedenste Überschreitungswahrscheinlichkeiten überprüft werden können.<br />

Die unter OPTIONEN anforderbaren Statistiken sind unsinnig. Man erhält hier u.a.<br />

Mittelwert und Standardabweichungen der Merkmalskodierungen (!). Die<br />

unterschiedlichen Möglichkeiten zur Behandlung fehlender Werte (missing data)<br />

können relevant werden, wenn mehr als eine Testvariable eingegeben wurde und<br />

fallweiser Ausschluß gewählt wird, so daß bei allen Binomialtests nur solche<br />

Personen berücksichtigt werden, die in keiner dieser Testvariablen einen fehlenden<br />

Wert aufweisen.<br />

12.2 Eindimensionaler C 2 -Test<br />

Mit diesem Test kann überprüft werden, ob die Häufigkeiten der Werte (Kategorien)<br />

einer Variablen vorgegebenen theoretisch erwarteten Häufigkeiten (der<br />

Grundgesamtheit) entsprechen.<br />

Es wird daran erinnert, daß die zur jeder Kategorie erwartete Häufigkeit<br />

mindestens 5 betragen sollte.<br />

Analysieren fi Nichtparametrische Tests fi Chi-Quadrat<br />

Es öffnet sich das folgende Dialogfeld:<br />

Abb. 57: Chi-Quadrat-Test<br />

Seite - 61 -


Skript: Benutzung von SPSS<br />

Testvariablen<br />

In dieses Feld können mehrere Variablen hinüber geschoben werden. Das ist jedoch<br />

nur dann sinnvoll, wenn allen diesen Variablen gleiche Erwartungshäufigkeiten<br />

zugewiesen werden sollen. Ist das nicht der Fall, müssen die Variablen durch<br />

wiederholtes Aufrufen der Prozedur einzeln untersucht werden.<br />

Erwarteter Bereich<br />

Aus den Daten: Damit werden die Häufigkeiten aller (gültigen) Werte der<br />

Testvariablen ausgezählt und mit den pro Kategorie eingegebenen Häufigkeiten<br />

verglichen. Dabei werden auch Dezimalzahlen ausgezählt, wenn die Variable solche<br />

aufweist. Zwischen Werten wie z.B. 6,92 und 6,93 wird also unterschieden.<br />

Angegebenen Bereich verwenden: Sollen für die ausgewählte Testvariable nicht<br />

alle Werte, sondern nur ein ausgewählter Wertebereich zugrunde gelegt werden, so<br />

ist der untere und obere Grenzwert (Minimum und Maximum) als ganzzahliger Wert<br />

einzutragen. Diese beiden Werte gehören zum Bereich. Diese Einstellung bewirkt,<br />

daß die Werte innerhalb des Bereichs zu ganzzahligen Werten zusammengefaßt<br />

werden, indem nur der ganzzahlige Teil einer Dezimalzahl berücksichtigt wird (keine<br />

Rundung). Die Werte 6,93 und 6,92 werden also als 6 interpretiert. Zudem werden<br />

auch solche ganzzahligen Werte berücksichtigt, die zwar im vorgegebenen<br />

Wertebereich enthalten sind, nicht aber in der Testvariablen vorkommen. Für diese<br />

Werte erhält man dann eine beobachtete Häufigkeit von 0. Wenn man also z.B. ein<br />

Minimum von –3 und ein Maximum von 2 angibt, werden die Häufigkeiten der Werte<br />

–3, -2, -1, 0, 1 und 2 betrachtet.<br />

Erwartete Werte<br />

Alle Kategorien gleich: Es wird angenommen, daß alle Werte (Kategorien) der<br />

Testvariablen in der Grundgesamtheit mit der gleichen Häufigkeit vorkommt. SPSS<br />

errechnet in diesem Fall die pro Kategorie gleiche erwartete Häufigkeit aus, indem es<br />

die Zahl der Fälle (Personen) durch die Anzahl der Kategorien der Variablen dividiert.<br />

Werte: Wenn die für die einzelnen Kategorien erwarteten Häufigkeiten verschieden<br />

sind, müssen diese Häufigkeiten einzeln eingeben werden, und zwar zuerst für den<br />

kleinsten in der Testvariablen vorkommenden Wert (Kategorie), dann weiter in<br />

aufsteigender Folge. Statt absoluter Häufigkeiten können auch Wahrscheinlichkeiten<br />

oder Prozentwerte eingegeben werden.<br />

Sollte ein bestimmter Wertebereich der Variablen festgelegt worden sein, muß für<br />

jeden ganzzahligen Wert des Bereiches eine erwartete Häufigkeit eingegeben<br />

werden, auch wenn einzelne Werte in der Variablen nicht vorkommen sollten.<br />

Optionen: Die hier anforderbaren Statistiken sind im Zusammenhang mit der<br />

Fragestellung, unter der der X 2 -Test angefordert wird, in der Regel nicht sinnvoll.<br />

Ausgabe: Die Interpretation der Ausgabe dürfte keine Schwierigkeiten bereiten.<br />

Zusatzmodul „Exakte Tests“<br />

Dies ist insbesondere von Interesse, wenn bei kleinen Stichprobenumfängen<br />

erwartete Häufigkeiten kleiner 5 auftreten. Der Aufruf des Moduls sorgt dann dafür,<br />

dass in der Ausgabe neben der „asymptotischen Signifikanz“ (asympotisch<br />

berechnete Überschreitungswahrscheinlichkeit p) zusätzlich die „exakte Signifikanz“<br />

ausgegeben wird; ferner die „Punkt-Wahrscheinlichkeit“, d.h. die Wahrscheinlichkeit<br />

dafür, dass die Verteilung der Anzahl der beobachteten Fälle auf die k Kategorien so<br />

wie beobachtet zufällig auftritt.<br />

Das exakte p wird, in Erweiterung der Binomialverteilung, rechentechnisch aufwendig<br />

über eine Multinomial- bzw. Polynomialverteilung berechnet (z.B. Bortz, Lienert &<br />

Boehnke 1990, S. 92).<br />

Seite - 62 -


Skript: Benutzung von SPSS<br />

12.3 Der C 2 -Test in zweidimensionalen Kreuztabellen<br />

Analysieren fi Deskriptive Statistiken fi Kreuztabellen fiStatistik: Chi-Quadrat<br />

Die Prozedur KREUZTABELLE beschränkt sich nicht darauf, die gemeinsame<br />

Häufigkeitsverteilung zweier Variablen in einer Tabelle der Größe k * m (k = Anzahl<br />

Zeilen, m = Anzahl Spalten) darzustellen. Sie bietet auch den Χ 2 -Test an, mit dem<br />

untersucht werden kann, ob ein wahrscheinlich überzufälliger Zusammenhang<br />

zwischen den beiden Variablen besteht, oder ob sie stochastisch unabhängig<br />

voneinander sind (Nullhypothese). Zur Berechnung von Zusammenhängen zwischen<br />

Variablen wird KREUZTABELLE insbesondere dann verwendet, wenn die zu<br />

untersuchenden Variablen auf Nominalskalenniveau liegen. Anderenfalls stehen<br />

höherwertige Tests zur Verfügung.<br />

Neben der Zusammenhangshypothese kann der Test auch zur Prüfung von<br />

Unterschieden verwendet werden (Unterschiedshypothese). In diesem Fall stehen in<br />

der einen Dimension nicht die k Ausprägungen eines Merkmals, sondern k<br />

unabhängige Stichproben, bei denen jeweils die m Ausprägungen eines in der<br />

anderen Dimension stehenden Merkmals ausgezählt wurden. Dann lautet die<br />

Nullhypothese, dass alle Stichproben aus einer Grundgesamtheit stammen, die pro<br />

Merkmals-Ausprägung i π i –Anteile aufweisen, d.h. die Annahme der Homogenität<br />

der Merkmalsanteile bei k unabhängigen Stichproben.<br />

Beiden Nullhypothesen liegen unterschiedliche Zufallsmodelle zugrunde. Bei der<br />

Zusammenhangshypothese geht es um eine bivariate Zufallsvariable, deren<br />

Realisierung an einer Stichprobe untersucht wird, und bei der<br />

Unterschiedshypothese um eine univariate Zufallsvariable, deren Realisierung an<br />

einer k unabhängigen Stichproben untersucht wird. Obwohl es also um zwei<br />

unterschiedliche Zufallsmodelle geht, führen die statistischen Tests beider<br />

Nullhypothesen zu identischen Formeln/Ergebnissen. Forschungslogisch<br />

(Versuchsplanung) sind die unterschiedlichen Ansätze jedoch bedeutsam.<br />

Erwartete Häufigkeiten Zellen à Häufigkeiten: erwartet<br />

Wenn z.B. im Falle der Zusammenhangshypothese beide Variablen stochastisch<br />

unabhängig voneinander verteilt sind (H 0 ), dürften die Verteilungen der einen<br />

Variablen innerhalb der verschiedenen Kategorien der anderen Variablen nicht<br />

wesentlich voneinander abweichen und müßten der Gesamtverteilung der Variablen<br />

entsprechen. Wenn z.B. die Variable „Geschlecht“ und die Variable „Brillenträger“<br />

unabhängig voneinander sind, dann müßten genauso viele Frauen wie Männer<br />

Brillenträger und Nicht-Brillenträger sein, d.h. das Verhältnis der Frauen und<br />

Männern in der Gesamtstichprobe müßte bei den Brillenträgern und Nicht-<br />

Brillenträgern in gleicher Weise vorkommen. Deshalb wird die unter der Annahme<br />

der Unabhängigkeit zweier Variablen in einer Zelle erwartete Häufigkeit so<br />

berechnet, daß die jeweiligen Randhäufigkeiten der beiden an der Zelle beteiligten<br />

Kategorien multipliziert werden und das Produkt durch das Gesamt-N dividiert wird.<br />

Betrachtet man die Randhäufigkeit einer Kategorie, so wird sie dadurch in dem<br />

Verhältnis auf die Kategorien der anderen Variablen aufgeteilt wie die Häufigkeiten<br />

diese Kategorien am Gesamt-N beteiligt sind.<br />

Die Randhäufigkeiten werden im Falle des Fehlens eigentlich zu benutzender<br />

Populationswahrscheinlichkeiten zu deren Schätzung benutzt.<br />

Seite - 63 -


Skript: Benutzung von SPSS<br />

Wenn nun die tatsächlich beobachteten Häufigkeiten deutlich von den erwarteten<br />

abweichen, kann dies darauf hindeuten, daß die Variablen möglicherweise nicht<br />

unabhängig voneinander sind. Bei der Berechnung des Χ 2 -Wertes werden die<br />

quadrierten Abweichungen durch die erwarteten Häufigkeiten dividiert. Die Summe<br />

dieser Quotienten bildet den Χ 2 -Wert. Durch das Quadrieren der Differenzen gehen<br />

positive und negative Abweichungen in gleicher Weise in das Maß ein und können<br />

sich nicht gegenseitig aufheben. Die Division durch die erwarteten Häufigkeiten ist<br />

notwendig, da sich sonst bei vielen Fällen auch mehr Abweichungen ergeben<br />

würden. Bei z.B. 1000 Fällen wird die Summe der quadrierten Abweichungen unter<br />

sonst gleichen Umständen größer sein als bei z.B. 100 Fällen.<br />

Je größer also die Abweichungen über alle Zellen sind, desto größer wird auch der<br />

Χ 2 -Wert ausfallen. Die Abweichungen in der betrachteten Stichprobe könnten jedoch<br />

zufälliger Natur sein. Die Χ 2 -Verteilung für jeweils eine bestimmte Anzahl von<br />

Freiheitsgraden (df = (k-1) *(m-1)) gibt an, mit welcher Wahrscheinlichkeit sich ein<br />

bestimmter Χ 2 -Wert auch dann zufällig ergeben kann, wenn die Variablen in der<br />

Grundgesamtheit unabhängig voneinander verteilt sind. Dabei gilt, daß bei<br />

gegebenem Zusammenhang zwischen den Variablen die Möglichkeit einer guten<br />

statistischen Absicherung des Ergebnisses mit wachsender Zellenzahl und damit<br />

größeren Freiheitsgraden abnimmt. Das Zusammenfassen einzelner Kategorien<br />

kann daher auch dann sinnvoll sein, wenn die erwarteten Häufigkeiten in den Zellen<br />

größer als 5 sind. Jedoch sollte andererseits die Tabellen mehr als 5 Zellen haben.<br />

Bei der Anwendung des asymptotischen Χ 2 - Tests sollte die erwartete Häufigkeit,<br />

also in jedem Feld der Kreuztabelle, mindestens 5 sein. Anderenfalls ist das<br />

Testergebnis nicht mehr zuverlässig. Zum Teil wird diese Forderung in der Literatur<br />

abgeschwächt formuliert. Es wird dann gefordert, daß mindestens 20 % der Felder<br />

eine erwartete Häufigkeit unter 5 haben dürfen. Bei der Berechnung des Χ 2 -Wertes<br />

wird von SPSS immer auf die kleinste in der Kreuztabelle vorkommende erwartete<br />

Häufigkeit aufmerksam gemacht. Auch gibt SPSS immer die Anzahl der Felder aus,<br />

in denen die erwartete Häufigkeit kleiner als 5 ist.<br />

Der Χ 2 -Test ist besonders bei Variablen auf Nominalskalenniveau geeignet. Zwar ist<br />

er auch bei höheren Skalenniveaus anwendbar, für diese stehen jedoch<br />

leistungsfähige Tests auf stochastische Unabhängigkeit zur Verfügung.<br />

Auch im Falle zweidimensionaler Kreuztabellen kann SPSS die<br />

Überschreitungswahrscheinlichkeit exakt berechnen. Dabei können drei exakte<br />

Verfahren angewendet werden, die asymptotisch alle der Χ 2 -Verteilung mit<br />

df = (k-1) * (m-1) folgen, d.h. asympotisch alle äquivalent sind.<br />

a) Im ersten Fall geht es um die exakte Berechnung der<br />

Überschreitungswahrscheinlichkeit p der für die beobachtete Kreuztabelle<br />

berechneten Pearson-Χ 2 –Testgröße. Es sind dazu alle Kreuztabellen zu<br />

erzeugen, die ebenfalls die Randsummen dieser Kreuztabelle aufweisen und die<br />

Punktwahrscheinlichkeiten jener Tabellen, die ein gleiches oder ein größeres<br />

(extremeres) Χ 2 als das der beobachteten Tabelle aufweisen, zu der<br />

Punktwahrscheinlichkeit der beobachteten Tabelle zu addieren. (Die Zahl solcher<br />

Tabellen kann in die Millionen und Milliarden gehen.) Die<br />

Seite - 64 -


Skript: Benutzung von SPSS<br />

Punktwahrscheinlichkeiten werden dabei durch einen hypergeometischen Ansatz<br />

bestimmt.<br />

b) Likelihood-ratio-Test<br />

c) Im dritten Fall wird der Freeman-Halton-Test (vgl. Lienert II) berechnet, der eine<br />

Erweiterung des im folgenden Abschnitt angesprochenen exakten 4-Felder-Tests<br />

von R.A. Fisher auf den Fall k > 2 und/oder m >2 darstellt. In SPSS wird er<br />

weiterhin "Fisher´s exakter Test" genannt, obwohl Fisher diese Erweiterung nicht<br />

selbst vorgenommen hat.<br />

Alle drei Verfahren prüfen die Nullhypothese (Zusammenhangshypothese)<br />

H 0 : π ij = π i * π j für alle (i,j)-Paare,<br />

die exakt berechneten p´s differieren jedoch geringfügig. Argumente, die einen der<br />

Tests hier besonders empfehlen würden, scheinen nicht vorzuliegen. Da im 2*2-Fall<br />

(vgl. nachfolgenden Abschnitt) es üblich ist, den exakten Test von Fisher zu nehmen,<br />

könnte man um der Einheitlichkeit willen bei größeren Kreuztabellen auch seine<br />

Erweiterung/Verallgemeinerung benutzen.<br />

12.4 Der spezielle Fall von 2*2-Kreuztabellen<br />

Der eben diskutierte allgemeine Χ 2 –Test kann, wie das obige Beispiel mit dem<br />

Brillenträgern schon andeutet, natürlich auch im Falle von K =2 und M =2<br />

angewendet werden. Es wird dann geprüft, ob die Verteilung einer dichotomen<br />

Variablen in zwei unabhängigen Stichproben signifikant verschieden ist bzw. ob<br />

zwischen zwei dichotomen Variablen ein signifikanter Zusammenhang besteht.<br />

Jedoch können sich insbesondere bei 2*2-Tabellen mit geringer Fallzahl<br />

Einschränkungen in der Zuverlässigkeit des Tests ergeben. Unabhängig davon<br />

berechnet SPSS neuerdings immer zusätzlich den exakten Test nach Fischer, denn<br />

er ist generell der genauere Test. Insbesondere kann er auch einseitig (extremere<br />

Verteilung nur zur jeweils einen Seite) angewendet werden.<br />

Für alle 2*2-Tabellen wird zum Χ 2 -Test noch die Yates´-Korektur angegeben. Sie<br />

besteht darin, daß bei der Berechnung des Χ 2 -Wertes vor dem Quadrieren die<br />

absoluten Abweichungen der beobachteten von den erwarteten Häufigkeiten um 0,5<br />

verringert werden. Dadurch ergibt sich ein kleinerer Χ 2 -Wert und somit ein<br />

konservativerer (d.h. zugunsten von H 0 ) arbeitender Test. Die Korrektur ist<br />

umstritten.<br />

Bei zwei dichotomen Variablen kann es sinnvoll sein, zusätzlich ein Maß für die<br />

Stärke des Zusammenhangs anzufordern. Das ist hier der Phi-Koeffizient, eine<br />

spezielle Formulierung der Produkt-Moment-Korrelation. Z.B. kann der Fisher-Test<br />

eine statistisch signifikante Beziehung zwischen beiden Variablen aufzeigen, die<br />

Stärke des Zusammenhangs jedoch gering sein, d.h. praktisch-inhaltlich<br />

bedeutungslos.<br />

12.5 Analyse von drei- oder höherdimensionalen Kreuztabellen<br />

Eine Erweiterung des zweidimensionalen Χ 2 -Tests auf weitere Dimensionen ist<br />

möglich, auch mit der Berechnung exakter Tests. SPSS berechnet solche<br />

Erweiterungen jedoch nicht.<br />

Seite - 65 -


Skript: Benutzung von SPSS<br />

Die Prozedur, höherdimensionale Kreuztabellen auszuzählen, z.B. eine<br />

dreidimensionale I*J*K-Tabelle, meint die Möglichkeit, für alle k Stufen des dritten<br />

Merkmals zweidimensionale I*J-Tabellen zu erstellen, oder für alle Kombinationen<br />

eines dritten und vierten Merkmals. Man erhält so die Möglichkeit, einen<br />

Zusammenhang zwischen zwei Variablen in Bezug auf die Stufen einer dritten<br />

Variablen oder noch weiterer einzelner Variablen oder von deren<br />

Stufenkombinationen zu betrachten; z.B. ob ein Zusammenhang zwischen zwei<br />

Variablen sowohl bei Frauen als auch bei Männern (Variable Geschlecht als dritte<br />

Variable) gegeben ist; denn es könnte sein, dass ein Zusammenhang ohne eine<br />

solche differenziertere Betrachtung nur mäßig vorhanden ist, aufgeschlüsselt nach<br />

den beiden Geschlechtern jedoch in dem einen Geschlecht stark und im anderen<br />

Geschlecht gar nicht nicht vorhanden ist, was eine völlig andere Information<br />

darstellen würde.<br />

Dritte, vierte ... Variablen werden über "Schicht" eingegeben. Wird links eine dritte<br />

Variable zur Auswahl angeklickt, so leuchtet "Schicht" auf, und die Variable kann als<br />

dritte eingegeben werden:<br />

a) Danach können auch weitere in diese 1. Schicht eingegeben werden. Alle diese<br />

Variablen sind dann dritte Variablen, d.h. Variablen einer dritten Dimension. Das<br />

heißt, dass die mit der eingebenen Zeilen- und Spaltenvariablen gemeinte<br />

Kreuztabelle auf die Stufen jeder einzelnen dieser dritten Variablen<br />

aufgeschlüsselt wird. Es ergeben sich so viele dreidimensionale Kreuztabellen<br />

wie dritte Variablen eingegeben werden, und so viele zweidimensionale (inklusive<br />

X 2 -Prüfung) wie die Summe der Stufen aller dritten Variablen beträgt.<br />

b) Wenn man dagegen auf die Taste "weiter" drückt, kann man eine weitere Schicht<br />

anlegen, also eine weitere Dimension. Dort kann man eine oder wiederum<br />

mehrere Variablen eingeben. Dann wird die gemeinte zweidimensionale<br />

Kreuztabelle nicht mehr auf den Stufen einzelner Variablen aufgeschlüsselt,<br />

sondern auf die Zweier-Stufenkombinationen der Variablen der dritten und vierten<br />

Dimension.<br />

13 Berechnung und Analyse von Korrelationen<br />

13.1 Produkt-Moment-Korrelation<br />

Analysieren fi Korrelation fi Bivariat<br />

Um die Stärke des Zusammenhangs zwischen zwei Variablen X und Y zu<br />

bestimmen, kann ein Korrelationskoeffizient r xy berechnet werden. Die Korrelation<br />

nach Pearson, auch Produkt-Moment-Korrelation genannt, versucht dabei, einen<br />

linearen Zusammenhang zu bestimmen und diesen in einer zwischen –1 und +1<br />

liegenden Maßzahl auszudrücken. Da die Korrelation auf die Entdeckung eines<br />

solchen Zusammenhangs aus ist, kann es sein, dass auch bei einem Pearson-<br />

Koeffizienten von Null dennoch ein totaler, jedoch eben nicht linearer<br />

Zusammenhang zwischen den beiden Variablen vorliegt.<br />

Gibt man mit dem obigen Aufruf mehrere Variablen ein, so wird jede Variable mit<br />

jeder anderen korreliert und das Ergebnis in Matrixform ausgegeben, bei vier<br />

Variablen z.B.<br />

Seite - 66 -


Skript: Benutzung von SPSS<br />

r 11 r 12 r 13 r 14<br />

r 21 r 22 r 23 r 24<br />

r 31 r 32 r 33 r 34<br />

r 41 r 42 r 43 r 44<br />

In dieser Matrix stehen in der Hauptdiagonalen, die von links oben nach rechts unten<br />

verläuft, die Autokorrelationen, d.h. die Korrelation jeder Variablen mit sich selbst.<br />

Diese ergeben natürlich jeweils r ii = 1.00. Oberhalb der Hauptdiagonalen steht das<br />

obere Dreieck, unterhalb das untere Dreieck. Die Dreiecke sind spiegelsymmetrisch<br />

gleich, d.h. r ij = r ji .<br />

Befolgt man obige Befehlskette, so öffnet sich folgender Dialog:<br />

Abb. 58: Das Fenster zur Berechnung bivariater Korrelationen<br />

Wir erkennen, dass Pearson schon voreingestellt ist, desgleichen eine zweiseitige<br />

Prüfung auf Signifikanz des jeweils berechneten Korrelationskoeffizienten.<br />

Sinnvoll läßt sich der Pearsonsche Korrelationskoeffizient nur berechnen, wenn<br />

beide Variablen mindestens Intervallskalenniveau aufweisen. Soll zudem die<br />

Signifikanzprüfung durchgeführt werden, ist erforderlich, dass die Variablen in der<br />

Grundgesamtheit zweidimensional normalverteilt sind.<br />

Für Variablen, die diese Voraussetzungen nicht erfüllen, aber mindestens<br />

Ordinalskalenniveau besitzen, stehen die beiden Rang-Korrelationskoeffizienten<br />

Kendall´s tau und Spearman´s rho zur Verfügung. Auch die Forderung der<br />

Normalverteilung in der Grundgesamtheit entfällt bei ihrer Berechnung.<br />

Der Signifikanztest für die Pearsonsche Korrelation lautet<br />

t =<br />

r * N − 2<br />

1 − r<br />

2<br />

Der Testwert ist bei Gültigkeit der Nullhypothese t-verteilt mit N-2 Freiheitsgraden. Er<br />

prüft, ob die empirisch ermittelte Korrelation r mit der Nullhypothese<br />

H 0 : r = 0<br />

zu vereinbaren ist. Die ausgedruckte Signifikanz p gibt die Wahrscheinlichkeit an, mit<br />

der sich in einer Stichprobe des vorliegenden Umfangs per Zufall auch dann ein<br />

Korrelationskoeffizient der beobachteten Größe ergeben kann, wenn in der<br />

Grundgesamtheit kein Zusammenhang zwischen den beiden Variablen besteht.<br />

Seite - 67 -


Skript: Benutzung von SPSS<br />

Wie wir sehen, hängt der Ausgang der Prüfung außer von der Größe der Korrelation<br />

vom N und damit von der Stichprobengröße ab.<br />

Mit dem Signifikanztest wird nur untersucht, ob überhaupt ein linearer<br />

Zusammenhang zwischen den Variablen besteht. Über die Stärke des<br />

Zusammenhangs wird nichts ausgesagt.<br />

Man kann wählen, ob für den Korrelationskoeffizienten das zwei- oder das einseitige<br />

Signifikanzniveau berechnet werden soll. Zweiseitig ist dann zu testen, wenn keine<br />

inhaltlich begründbare Hypothese über die Richtung des erwarteten<br />

Zusammenhangs vorliegt, wenn also nicht angenommen werden kann, dass die<br />

Korrelation positiv oder negativ sein wird. Einseitig ist entsprechend zu testen, wenn<br />

eine Erwartung in nur einer Richtung vorliegt. Prüft man z.B. in positiver Richtung,<br />

wird die Nullhypothese getestet, der Koeffizient in der Grundgesamtheit sei Null oder<br />

negativ.<br />

Unter OPTIONEN öffnet sich der folgende Dialog:<br />

Abb. 59: Bivariate Korrelationen: Optionen<br />

Hier ist die Behandlung fehlender Werte von Bedeutung. Es gibt zwei<br />

Behandlungsmöglichkeiten:<br />

a) Paarweiser Ausschluß: Hierbei werden die beiden jeweils zu korrelierenden<br />

Variablen (Spalten der Rohdatenmatrix) betrachtet und jeder Fall (Vp) gestrichen,<br />

der in wenigstens einer der beiden Variablen einen fehlenden Datenwert aufweist.<br />

Vorteil: pro Korrelation werden nur die Fälle gestrichen, die in den beiden jeweils<br />

zu korrelierenden Variablen fehlende Werte aufweisen.<br />

Nachteil: die verschiedenen Korrelationen können auf einem unterschiedlichen N<br />

(Zahl der Fälle) basieren. Deshalb sollte dieses Verfahren nicht angewandt<br />

werden, wenn die Korrelationsmatrix weiter verrechnet werden soll, z.B. in einer<br />

Regressionsanalyse.<br />

b) Fallweiser Auschluß: Hier wird jeder Fall gestrichen, der in mindestens einer der<br />

zu korrelierenden Variablen einen fehlenden Wert aufweist.<br />

Vorteil: Alle Korrelationskoeffizienten basieren auf demselben N.<br />

Nachteil: Die Zahl der Fälle kann sich u.U. erheblich reduzieren.<br />

13.2 Partial-Korrelation<br />

Analysieren fi Korrelation fi Partiell<br />

Die Feststellung eines linearen Zusammenhangs zwischen zwei Variablen scheint<br />

einfach zu sein: Man muß nur einen Korrelationskoeffizienten berechnen. Liegt dann<br />

z.B. ein hoher Zusammenhang vor, kann seine Interpretation allerdings leicht zu<br />

Seite - 68 -


Skript: Benutzung von SPSS<br />

falschen Schlußfolgerungen führen; denn die Stärke des Zusammenhangs zwischen<br />

den beiden Variablen wird möglicherweise durch den Koeffizienten nicht richtig<br />

abgebildet, und zwar dann nicht, wenn diese Korrelation durch den Einfluß weiterer<br />

Variablen auf beide Variablen zustande gekommen ist („Scheinkorrelation“).<br />

Korreliert man z.B. die Länge des großen Zehs mit der Intelligenz während der<br />

Wachstums von Kindern, so kann man feststellen, wenn auch etwas verwundert,<br />

dass die Länge mit der Intelligenz korreliert. Berücksichtigt man dagegen das Alter<br />

als Kontrollvariable und eliminiert man den Einfluß dieser Variablen auf beide<br />

Variablen, so korreliert die Länge des großen Zehs nicht mit der Intelligenz.<br />

Soll der lineare Zusammenhang zwischen den Variablen X und Y unter<br />

Berücksichtigung der Kontrollvariablen K bestimmt werden, so schätzt man zunächst<br />

zwei lineare Regressionen, wobei die eine die Variable X und die andere die Variable<br />

Y durch die unabhängige Variable K zu erklären versucht. Danach wird der partielle<br />

Korrelationskoeffizient als Pearsonscher Korrelationskoeffizient aus den Residuen<br />

der beiden Regressionsschätzungen bestimmt. Entsprechendes geschieht bei mehr<br />

als einer Kontrollvariablen.<br />

Mit dem obigen Prozedur-Aufruf lassen sich Partial-Korrelationskoeffizienten erster,<br />

zweiter, ... n-ter Ordnung r xy.i,j,k, ... berechnen, je nach Anzahl der Kontrollvariablen.<br />

Die Ausgabe der Interkorrelationen erfolgt in Matrixform. Abb. 59 zeigt das<br />

Dialogfenster, das sich nach obiger Befehlskette öffnet.<br />

Abb. 60: Partielle Korrelationen<br />

Im oberen Teil sind aus der Liste der Variablen die auszuwählen, die miteinander<br />

korreliert werden sollen. Im unteren Teil sind die Variablen auszuwählen, deren<br />

Einfluß aus den zu korrelierenden Variablen zuvor herauspartialisiert werden soll.<br />

Der unter OPTIONEN aufrufbare Dialog ist schon bekannt. Er entspricht den<br />

OPTIONEN bei der Berechnung bivariater Korrelationen.<br />

Im Output werden zunächst auch die Korrelationen nullter Ordnung aller Variablen<br />

ausgegeben, die „einfachen“ Pearsonschen Koeffizienten, also ohne<br />

Berücksichtigung der Einflüsse der Kontrollvariablen.<br />

Bei der Berechnung von Partial-Koeffizienten sollte nicht „auf gut Glück“<br />

herumprobierend der Einfluß weiterer Variablen auf einen beobachteten Korrelationskoeffizienten<br />

untersucht werden. Vielmehr sollte vorher eine Theorie über mögliche<br />

Zusammenhänge entworfen und diese dann durch die Berechnung gezielter Partial-<br />

Korrelationen empirisch überprüft werden. Rein formal „entdeckte“ Einflüsse hätte<br />

Seite - 69 -


Skript: Benutzung von SPSS<br />

man sowieso im nachhinein inhaltlich-theoretisch zu erklären, z.B. den des Alters auf<br />

die Korrelation von großem Zeh und Intelligenz eben dadurch, dass in einem<br />

bestimmten Alter sowohl der Zeh als auch die Intelligenz noch wächst.<br />

13.3 Multiple Korrelation und Regression<br />

Analysieren fi Regression fi Linear<br />

Diese Prozedur ermöglicht die Berechnung einfacher und multipler linearer<br />

Regressionsverfahren und die Berechnung der entsprechenden multiplen<br />

Korrelationen.<br />

13.3.1 Schätzung einer einfachen Regressionsgleichung<br />

Nach obiger Befehlskette öffnet sich folgendes Dialogfenster:<br />

Abb. 61: Lineare Regression<br />

Zur Schätzung einer einfachen linearen Regression<br />

Y´ = b 1 X + b 0<br />

ist aus der Liste der Variablen zunächst die abhängige Variable (AV) auszuwählen.<br />

Diese wird auch Kriteriumsvariable genannt und wird meistens mit dem Buchstaben<br />

Y bezeichnet. Danach ist die unabhängige Variable (UV) einzugeben, auch Prädiktor<br />

genannt, und meistens mit dem Buchstaben X bezeichnet. Liegen fehlende Werte<br />

vor, so ist es bei zwei Variablen egal, ob über den Schalter OPTIONEN die<br />

Möglichkeit des paarweisen oder des fallweisen Ausschlusses gewählt wird. Bei<br />

mehr als einem Prädiktor, also bei drei oder mehr aus den Variablen der Datenmatrix<br />

ausgewählten Variablen, das ist der Fall der Multiplen Regression, sollte jedoch der<br />

fallweise Ausschluß gewählt werden, um Korrelationen zu erzeugen, die alle auf<br />

demselben N basieren.<br />

Das Ziel einer (zunächst) einfachen Regression ist es, die Gleichung Y´ = b 1 X + b 0<br />

anhand einer (Eich-)Stichprobe zu schätzen, also den Steigungskoeffizienten b 1 und<br />

der Achsenabschnitt bzw. die Konstante b 0 , um, falls sich Y aus X „gut“ vorhersaläßt,<br />

zukünftig für weitere Fälle, deren X-Meßwerte wir kennen, den zugehörigen Y´-Wert<br />

vorhersagen zu können.<br />

Seite - 70 -


Skript: Benutzung von SPSS<br />

In ein Koordinatensystem mit X auf der Abszisse und Y auf der Ordinate können wir<br />

die beobachteten Fälle eintragen und erhalten ein Streudiagramm. Gesucht ist jene<br />

Gerade Y´, die den mehr weniger erkennbaren Zusammenhang zwischen X und Y<br />

möglichst gut beschreibt. Gewählt wird als "am besten angepasste" jene, bei der die<br />

Summe der quadrierten (senkrechten) Abstände e der Punkte (Fälle) von ihr ein<br />

Minimum ergibt: Se 2 = S (Y-Y´) 2 Minimum = Regressionskriterium. Dieses Kriterium<br />

legt die Steigung der gesuchten Gerade fest. Der Steigungskoeffizient b 1<br />

(Regressionskoeffizient) wird dann durch<br />

b 1 =<br />

Ko var ianz(<br />

X , Y )<br />

Varianz(<br />

X )<br />

bestimmt.<br />

Danach wird der Achsenabschnitt b 0 festgelegt, indem in die Geradengleichung die<br />

Mittelwerte beider Variablen eingesetzt werden<br />

b 0 =<br />

Y − b*<br />

X<br />

Das bedeutet zum einen, dass e i im Durchschnitt Null sein wird, sich also die<br />

positiven und negativen Abstände der Streuungspunkte von Y´ aufheben werden,<br />

zum anderen, dass die Gerade durch den Punkt läuft, der von den Mittelwerten der<br />

Variablen X und Y gebildet wird, so dass auch, setzt man den Mittelwert X in die<br />

Gleichung ein, der Mittelwert Y vorhergesagt wird.<br />

Für die Beschreibung des Zusammenhangs bedeutsam ist aber vor allem das<br />

Steigungsmaß b 1 . Es gibt an, um wie viele Einheiten sich die AV verändert, wenn<br />

sich die UV um eine Einheit ändert.<br />

13.3.2 Erläuterung des Ergebnisteils von SPSS<br />

13.3.2.1 Multiple Korrelation R<br />

Betrachten wir die Sequenz der von SPSS ausgegebenen Ergebnisse, so interessiert<br />

noch nicht die gemäß eben erläuterter Definition geschätzte Regressionsgleichung,<br />

sondern zunächst, ob überhaupt ein Zusammenhang vorhanden ist. Dieser wird<br />

durch die „Multiple Korrelation R“ ausgedrückt. Sie gibt den Grad der linearen<br />

Korrelation (Stärke des Zusammenhangs) zwischen der abhängigen Variable Y und<br />

der vorhergesagten (aus X geschätzten) Variable Y´ an: R = r YY´ , ein Maß für die<br />

Güte der Anpassung der Regressionsgeraden Y´ an die Streuungspunkte.<br />

R 2 wird dabei häufig als Bestimmtheitsmaß oder Fit der Regressionsgleichung<br />

bezeichnet. Dabei wird davon ausgegangen, dass die gesamte Streuung von Y<br />

(Total Sum of Squares TSS), in zwei Anteile zerlegbar ist, in die durch Y´ erklärte<br />

Streuung (Explained Sum of Squares ESS) und in die nicht erklärte Reststreuung<br />

(Residual Sum of Squares RSS):<br />

TSS = ESS + RSS<br />

R 2 stellt dabei das Verhältnis von ESS und TSS dar,<br />

R 2 ESS<br />

= TSS<br />

also den Anteil der erklärten Streuung an der gesamten Streuung. Seine Werte<br />

liegen zwischen 0 und 1, weil weder ESS noch TSS (als Summe quadrierter Werte)<br />

negativ sein können, so dass R 2 immer positiv ist. Und da ESS immer nur ein Teil<br />

Seite - 71 -


Skript: Benutzung von SPSS<br />

von TSS ist, kann der Zähler nicht größer werden als der Nenner, so dass R 2 nicht<br />

größer als 1 werden kann. Sollte R 2 den Wert 1 erhalten, würde die gesamte<br />

Streuung erklärt werden und alle beobachteten Werte auf einer Geraden liegen. Je<br />

kleiner andererseits R 2 wird, desto schlechter ist die Anpassung der<br />

Regressionsgeraden Y´ an die beobachteten Werte (Streuungspunkte).<br />

13.3.2.2 Standardfehler des Schätzers<br />

Zwar werden die Schätzungen der Y-Werte durch die Y´-Werte zwar im Durchschnitt<br />

richtig sein, jedoch im konkreten Fall den Y-Werte mehr oder weniger über- oder<br />

unterschätzen. Von der Abweichung Y-Y (Streuung der Variablen Y) wird je nach<br />

Höhe von R 2 immer nur ein Anteil vorhergesagt/erklärt, nämlich der Anteil Y´-Y ,<br />

während der Anteil e = Y-Y´ unerklärt bleibt. Wenn wir Σe 2 durch N dividieren, um<br />

den Einfluß der Stichprobengröße vom gesuchten Maß für diese Fehlerstreuung<br />

auszuschalten, und uns erinnern, dass der Mittelwert aller Residuen gleich Null ist,<br />

so erhalten wir<br />

∑e 2 i<br />

=<br />

N<br />

∑<br />

∑<br />

2<br />

2<br />

( ei<br />

− e)<br />

( ei<br />

− 0)<br />

=<br />

N N<br />

und wir erkennen, dass es um die Varianz der Residuen geht.<br />

Aus verschiedenen hier nicht auszuführenden Gründen wird die Summe der<br />

quadrierten Residuen jedoch nicht durch N, sondern N-k dividiert, d.h. abzüglich der<br />

Zahl der erklärenden Variablen, wobei der Achsenabschnitt b 0 mitzählt, bei der<br />

einfachen Regression also k = 2 ist. Wenn man ferner die Wurzel zieht, ergibt sich<br />

ein Wert, der als Standardfehler der Schätzung bezeichnet wird:<br />

Standardfehler der Schätzung =<br />

∑e 2<br />

i<br />

N − k<br />

Er dient als Maß dafür, wie dicht die prognostizierten Werte an den beobachteten<br />

Werten liegen. Er hat damit eine ähnliche Bedeutung wie R 2 .<br />

13.3.2.3 ANOVA<br />

Sodann folgt im Output eine ANalysis Of VAriance, d.h. ein F-Test, der prüft, ob der<br />

durch Y´aufgeklärte Varianzanteil ESS statistisch bedeutsam vom nichterklärten<br />

Varianzanteil RSS = Σe 2 verschieden ist. Die Quadratsumme ESS wird in der Zeile<br />

"Regression" ausgegeben, die Quadratsumme RSS in der Zeile "Residuen".<br />

Dividiert man jeweils durch die zugehörigen Freiheitsgrade, so erhält die zugehörigen<br />

Varianzen bzw. "Mittel der Quadrate". Die F-Wert ergibt sich, indem man die so<br />

berechnete erklärte Varianz durch die nichterklärte oder Fehlervarianz (als die<br />

kleinere) dividiert. Den F-Wert könnte man in einer F-Wert-Verteilungstabelle mit df 1<br />

= k-1 = 2-1 und df 2 = N-k auf Signifikanz überprüfen. SPSS nimmt uns das jedoch ab,<br />

indem es bei gegebenen F-Wert und Freiheitsgeraden unter "Signifikanz" direkt die<br />

zugehörige Überschreitungs-(Irrtums-)Wahrscheinlichkeit p ausgibt, also die<br />

Wahrscheinlichkeit dafür, dass ein solcher Varianzen-Quotient oder ein noch<br />

extremerer noch zufällig vorkommen kann. Ob wir das p dann als "signifikant"<br />

akzeptieren, also H 0 nicht mehr beibehalten wollen, entscheidet erst der Vergleich<br />

mit dem zuvor festgelegten α-Niveau.<br />

Seite - 72 -


Skript: Benutzung von SPSS<br />

13.3.2.4 Koeffizienten der Regressionsgleichung<br />

Nun endlich kommen wir zur von SPSS geschätzten Regressionsgleichung, also zur<br />

Steigung b 1 und zur Konstante b 0 . Beide stehen unter B, und wir können nunmehr die<br />

Regressionsgleichung Y´ = b 1 X + b 0 aufstellen.<br />

Diese Gleichung ist die sog. "Rohwertformel". Eingesetzt werden als X-Werte die<br />

Rohwerte, geschätzt werden mit Y´ Y-Rohwerte. Stattdessen kann man auch eine<br />

standardisierte Formel aufstellen. Dazu dient der standardisierte<br />

Regressionskoeffizient „Beta“ (β 1 analog zu b 1 ), der unter der Voraussetzung<br />

errechnet wird, dass X und Y standardisiert sind. Wegen cov xy = r XY und s x = s y =1<br />

und b 0 = 0 ergibt sich dann<br />

z Y´ = b 1 * z X<br />

und es werden aus standardisierten Werten z X standardisierte Werte z Y´<br />

vorhergesagt.<br />

Beta wird auch Standardpartial-Regressionskoeffzient genannt.<br />

Zusätzlich ist noch eine Signifikanzprüfung des Regressionskoeffizienten b 1 möglich.<br />

Zu seiner Bewertung werden nämlich noch folgende Größen ausgegeben:<br />

Standardfehler von B („SE b 1 “), der für den Fall, dass der errechnete Regressionskoeffizient<br />

als Realisation einer Zufallsvariablen aufgefaßt werden kann, eine<br />

Schätzung für die Standardabweichung dieser Zufallsvariablen darstellt. Wir müssen<br />

uns nämlich vor Augen halten, dass die Schätzung nur auf einer Stichprobe beruht.<br />

Würden wir weitere Stichproben ziehen, würden sich sehr wahrscheinlich andere<br />

Regressionskoeffizienten ergeben, die alle mehr oder weniger vom "wahren"<br />

Koeffizienten abweichen würden. Die Schätzung für das Maß der Stärke dieser<br />

Streuung um diesen Populationsparameter lautet<br />

Var (b 1 ) =<br />

Var(<br />

e)<br />

Var(<br />

X )* N<br />

die Quadratwurzel daraus ist der Standardfehler des Regressionskoeffizienten<br />

SE(b 1 ) = Var b )<br />

( 1<br />

Nunmehr ist ein t-Test möglich, um einen Schluß auf die ungefähre Lage des<br />

"wahren" Koeffizienten zu ziehen:<br />

t =<br />

b1<br />

− β1<br />

SE( b 1<br />

)<br />

wobei t einer t-Verteilung mit n-k Freiheitsgraden folgt. Bei N > 30 nähert sich die t-<br />

Verteilung der Standardnormalverteilung an (t → z). (Der griechische Buchstabe b<br />

zur Kennzeichnung des gemeinten Populationsparameters sollte nicht mit dem<br />

obigen standardisierten Regressionskoeffizienten Beta verwechselt werden.)<br />

Möchte man z.B. H 0 testen, dass in der Grundgesamtheit kein linearer<br />

Zusammenhang zwischen X und Y besteht, so setzt man β 1 = 0 und rechnet<br />

t =<br />

b − 0<br />

1<br />

SE(<br />

b )<br />

1<br />

Seite - 73 -


Skript: Benutzung von SPSS<br />

Um diese Nullhypothese z.B. auf dem Niveau einer Irrtumswahrscheinlichkeit von 5%<br />

zweiseitig zu prüfen, muß man den entsprechenden kritischen t- bzw. z-Wert kennen,<br />

z.B. z = 1,96 auf dem 5%-Niveau. Ist der empirische t- bzw. z-Wert gleich oder<br />

größer als der kritische t- bzw. z-Wert, behalten wir die Nullhypothese nicht mehr bei.<br />

Es ist dieser t-Wert, der die Nullhypothese testet, der von SPSS ausgegeben wird,<br />

und zwar sowohl für b 1 als auch für die Konstante b 0 , und zwar gleich mit der<br />

zugehörigen Irrtumswahrscheinlichkeit („Signifikanz“) p, so dass dieser Wert direkt<br />

mit dem vorher definierten Alpha-Niveau (Risiko) verglichen werden kann.<br />

Obige t-Gleichung ist nicht nur zur Testung der Nullhypothese gut. Man kann sich<br />

z.B. auch fragen, ob der empirisch bestimmte b-Wert kleiner einen „wahren“<br />

vorgegebenen β-Wert ist (Nullhypothese) bzw. >= diesem Wert ist<br />

(Gegenhypothese), z.B. für β 1 = 0,4. So gefragt würden wir einseitig fragen und der<br />

entsprechende z-Wert würde im Falle von 5% bei z = 1.65 liegen. Liegt der<br />

errechnete t- bzw. z-Wert auf oder über diesem kritischen Wert, ist die<br />

Nullhypothese, β 1 sei kleiner als 0,4, mit einer Irrtumswahrscheinlichkeit von 5%<br />

zurückzuweisen.<br />

Mit dem verfolgten Ansatz kann man schließlich auch einen Wertebereich<br />

(Konfidenzintervall) definieren, in dem der wahre Koeffizient β mit einer bestimmten<br />

Wahrscheinlichkeit liegen muß:<br />

b ± t-Wert * SE (b)<br />

wobei wir als kritischen t- bzw. z-Wert den zweiseitigen eines bestimmten Niveaus<br />

nehmen, z.B. auf dem 5%-Niveau bei großen Stichproben z = 1,96, auf dem 1%-<br />

Niveau z = 2,58.<br />

Die Grenzwerte für das 95%-Konfidenzintervall kann man sich auch von SPSS<br />

ausgeben lassen. Dazu drückt man im Dialogfeld auf die Taste „Statistik“ und<br />

danach in der erscheinenden Unterdialogtafel die Taste „Konfidenzintervalle“. Ein<br />

anderes %-Intervall läßt sich (zwar) nicht anklicken. Eine Berechnung ist dennoch<br />

möglich, wenn man die noch zu erlernende „Syntax“ verwendet.<br />

13.3.2.5 Vorhersagen mithilfe der Regressionsgleichung<br />

Wie oben bereits erwähnt, besteht ein Hauptzweck der Berechnung einer<br />

Regressionsgleichung anhand einer (Eich-)Stichprobe darin, für weitere, über diese<br />

Stichprobe hinaus auftretende Fälle den Wert Y´ aus der Kenntnis des Wertes X<br />

vorherzusagen, z.B. aus einem Eingangstest zu Beginn eines Lehrgangs bereits den<br />

Meßwert des Lehrgangsergebnisses, den eine bestimmte Person wahrscheinlich<br />

erhalten wird. Das geschieht dann in der Regel nicht aus Neugierde, sondern um<br />

gleich solche Personen vom (teuren) Lehrgang auszuschließen, die gemäß der<br />

Vorhersage das Lehrgangsziel wahrscheinlich nicht erreichen werden.<br />

Das alles geht natürlich nur unter der Annahme, dass der anhand der Stichprobe<br />

errechnete Regressionszusammenhang auch für die weiteren Fälle gilt, die „Eichung“<br />

also anhand einer „repräsentativen“ Stichprobe stattgefunden hat. Dennoch werden<br />

wir grundsätzlich dem Stichprobenfehler ausgesetzt sein.<br />

Auch wissen wir, dass wir keinen deterministischen Zusammenhang zwischen dem<br />

Prädiktor X und der Kriteriumsvariablen Y berechnet haben. Die tatsächlichen Y-<br />

Werte der Stichprobe liegen mehr oder weniger verstreut über- und unterhalb der<br />

Regressionsgeraden. Ebenso werden die Werte weiterer Fälle streuen, so dass der<br />

geschätzte Wert Y´ nur ein Hinweis auf die Größe des zu erwartenden Y-Wertes<br />

Seite - 74 -


Skript: Benutzung von SPSS<br />

darstellt. Deshalb wird nicht einfach nur der prognostizierte Y´-Wert zur Entscheidung<br />

herangezogen, ob z.B. eine Person am Lehrgangs teilnehmen soll oder nicht,<br />

sondern ein Wertebereich (Intervall), indem der „wahre“ Y-Wert bei bereits<br />

gegebenem X-Wert mit einer bestimmten Wahrscheinlichkeit liegen wird. Zur<br />

Berechnung dieses Bereiches kann man im Falle der einfachen linearen Regression<br />

die folgende Formel verwenden:<br />

b 0 + b 1 * X 0 ± t-Wert * Var (e)<br />

*<br />

2<br />

1 ( X − X )<br />

1+<br />

+<br />

N Var(<br />

X) *( N −1)<br />

Einzusetzen ist der t- bzw. z-Wert des gewünschten Signifikanzniveaus, für den<br />

zweiseitigen Test.<br />

X 0 ist der Wert des Prädiktors, für den der zugehörige Wert von Y prognostiziert<br />

werden soll.<br />

Diese Formel ist nicht ohne weiteres auf die unten betrachtete Multiple Regression<br />

(mehr als einen Prädiktor) übertragbar. Dazu sind Kenntnisse der Matrizenrechnung<br />

notwendig.<br />

13.3.3 Zeichnung der Regressionsgeraden<br />

Graphiken fi Streudiagramm fi Einfach fi Definieren<br />

Folgt man diesem Pfad, so wird das Dialogfeld „Einfaches Streudiagramm“<br />

aufgerufen.<br />

Abb. 62: Einfaches Streudiagramm<br />

Hier wählen wir die UV X und die AV Y aus bei gleichnamiger Achsenbezeichnung.<br />

Nach der Betätigung des Buttons OK erscheint ein Streudiagramm, das uns den<br />

Zusammenhang zwischen X und Y zeichnerisch anhand der Fälle darstellt.<br />

Seite - 75 -


Skript: Benutzung von SPSS<br />

120<br />

110<br />

100<br />

90<br />

Belastungspuls der VP<br />

80<br />

70<br />

60<br />

60<br />

70<br />

80<br />

90<br />

Puls der VP ohne Belastung<br />

Abb. 63: Streudiagramm<br />

Wenn man ein Diagramm erstellt hat, kann man dies mithilfe des Graphik-Editors in<br />

verschiedener Weise bearbeiten. Um die Regressionsgerade in diese Punktwolke<br />

hineinzulegen, klicken wir zweimal auf die Graphik. Darauf erscheint das folgende<br />

Dialogfeld:<br />

Abb. 64: Optionen für Streudiagramme<br />

Hier klicken wir die Taste „Gesamt“ an, worauf unmittelbar darunter die Taste<br />

„Anpassungs-Optionen“ erscheint. Wenn wir sie betätigen, eröffnet sich das folgende<br />

Dialogfeld:<br />

Abb. 65: Optionen für Streudiagramm: Anpassungslinie<br />

Hier wählen wir die „Lineare Regression“ aus, evtl. greifen wir auch noch weitere<br />

Möglichkeiten auf. Drücken wir auf „Weiter“ und danach auf OK, so erscheint die<br />

folgende Graphik:<br />

Seite - 76 -


Skript: Benutzung von SPSS<br />

90<br />

80<br />

Puls der VP ohne Belastung<br />

70<br />

60<br />

60<br />

70<br />

80<br />

90<br />

100<br />

110<br />

120<br />

Belastungspuls der VP<br />

Abb. 66: Streudiagramm mit der Regressionsgeraden<br />

Die Stärke des durch das Streudiagramm gezeichneten und als linear<br />

angenommenen Zusammenhangs wird durch den Produkt-Moment-<br />

Korrelationskoeffizienten berechnet. Er beschreibt die Anpassungsgüte der durch die<br />

X-Y-Koordinaten beschriebenen Punkte an ihre zugehörige Regressionsgerade.<br />

Diese wiederum ist eindeutig bestimmt durch die Eigenschaft, dass sie unter allen<br />

möglichen Geraden diejenige ist, von der alle Punkte am wenigsten abweichen.<br />

Dazu muß die Summe der vertikalen Abstände aller Punkte von dieser Geraden<br />

gleich Null und die Summe der quadrierten vertikalen Abstände ein Minimum sein.<br />

13.4 Multiple Regression<br />

13.4.1 Erweiterung der einfachen Regression zur Multiplen Regression<br />

Bei einer Multiplen Regression haben wir wiederum eine AV, nun aber mehrere UV´s<br />

(Prädiktoren). Die Rohwerte-Regressionsformel hat jetzt folgende Gestalt<br />

Y´ = b 1 X 1 + b 2 X 2 + ... + b k X k + b 0<br />

bzw. in standardisierter Form<br />

z y´ = β 1 z x1 + β 2 z x2 + ... + β k z xk<br />

Im Falle von missing data wählen wir unter Optionen den fallweisen Ausschluß, um<br />

sicherzustellen, dass alle Korrelationen auf der Basis desselben N gerechnet<br />

werden. Fallweiser Ausschluß heißt, dass ein Fall, eine Person, nicht in die Analyse<br />

aufgenommen wird, wenn bei ihr in mindestens einer der aus der Rohdatenmatrix<br />

ausgewählten Variablen (Prädiktoren und AV) ein Wert fehlt.<br />

Die Anschaulichkeit der mithilfe des zweidimensionalen Streudiagramms erläuterten<br />

Regression mit nur einem Prädiktor geht bei mehreren Prädiktoren z.T. verloren.<br />

Dennoch sind alle Überlegungen im Prinzip auf den Fall mit mehreren Prädiktoren<br />

übertragbar. Entsprechend verändert sich der Output kaum. So finden wir die<br />

Multiple Korrelation R wieder, die wieder in der Korrelation zwischen den jetzt aus k<br />

Prädiktoren geschätzten Y´-Werten und den gemessenen Y-Werten besteht. R 2 als<br />

Seite - 77 -


Skript: Benutzung von SPSS<br />

Determinationskoeffizient gibt entsprechend den Anteil der Varianz von Y an, der<br />

durch die k Prädiktoren linear aufgeklärt wird.<br />

Im Multiplen Fall besteht leicht die Versuchung, ein möglichst hohes R 2 dadurch zu<br />

erreichen, dass man möglichst viele Prädiktoren in die Vorhersage gibt; denn R 2 kann<br />

sich nur erhöhen, wenn weitere Prädiktoren noch weitere Varianzanteile von Y<br />

aufklären. Ein gewissen Schutz davor soll das korrigierte R 2 bieten, bei dessen<br />

Berechnung zusätzlich die Anzahl der k Prädiktoren eingeht (wobei die Konstante<br />

mitzuzählen ist):<br />

korr. R 2 = 1-<br />

RSS /( N − k)<br />

TSS /( N −1)<br />

Erhöht nun ein weiterer Prädiktor ESS und verringert er damit RSS, so erhöht sich<br />

durch diese Verringerung einerseits das korrigierte R 2 , andererseits wird es aber<br />

durch die Erhöhung von k verringert.<br />

Der weitere Output bedarf keiner weiteren Erläuterung mehr.<br />

13.4.2 Vergleichbarkeit von Regressionskoeffizienten<br />

Es wird darauf aufmerksam gemacht, dass die b-Koeffizienten der Rohwertformel<br />

nicht in ihrer Höhe miteinander vergleichbar sind, also nicht gesagt werden kann,<br />

dasss der eine Prädiktor mehr zur Vorhersage des Kriteriums beiträgt als ein<br />

anderer. Die Vergleichbarkeit ist nicht gegeben, da in diesen Koeffizienten noch die<br />

zur Messung des jeweiligen Prädiktors verwendete Skala/Dimension steckt.<br />

Dagegen gestatten die β-Koeffizienten der standardisierten Prädiktoren prinzipiell<br />

einen solchen Vergleich; „prinzipiell“ deswegen, weil diese Aussage nur dann gilt,<br />

wenn die Prädiktoren nicht miteinander korrelieren, also keine „Multikollinearität“<br />

vorliegt (vgl. den nächsten Abschnitt).<br />

Die Beta-Koeffizienten lassen sich aud den b-Koeffizienten auch wie folgt berechnen:<br />

β i = b i *<br />

s<br />

X i<br />

s<br />

Y<br />

wobei s Xi und s Y die Standardabweichungen des Prädiktors X i bzw. des Kriteriums Y<br />

darstellen.<br />

13.4.3 Prüfung auf Multikollinearität<br />

(Multi-)Kollinearität liegt vor, wenn zwischen zwei oder mehrere Prädiktoren deutliche<br />

Korrelationen bestehen. Genauer läßt sich bei perfekter Kollinearität ein Prädiktor<br />

aus einem anderen Prädiktor oder aus einer Kombination mehrerer anderer<br />

Prädiktoren über eine lineare Gleichung exakt vorhersagen. In einem solchen Fall<br />

kann die gewünschte Regressionsgleichung nicht geschätzt werden. SPSS schließt<br />

dann eine der betroffenen Prädiktoren aus dem Regressionsmodell aus.<br />

Erfahrungsgemäß kommt so etwas immer wieder vor, weil der Datensatz nicht<br />

wirklich gecheckt wurde, so dass z.B. zwei Prädiktoren zu 1 miteinander korrelieren.<br />

Der Grund liegt dann nicht etwa darin, dass die beiden Variablen tatsächlich in der<br />

Wirklichkeit zu 1 korrelieren, was sehr unwahrscheinlich ist, sondern weil<br />

Fehlplanungen diese Systematik zur Folge hatten.<br />

Liegt eine hohe, jedoch keine totale Kollinearität vor, kann die Schätzung der<br />

Regressionsgleichung durchgeführt werden. Allerdings werden die b- bzw. β-<br />

Seite - 78 -


Skript: Benutzung von SPSS<br />

Koeffizienten dann nicht mehr zuverlässig geschätzt. Der Koeffizient des einen<br />

Prädiktors kann dann z.B. überschätzt, der des anderen unterschätzt werden, auch<br />

wenn der gemeinsame Einfluß der Prädiktoren auf die Kriteriumsvariable noch richtig<br />

geschätzt wird.<br />

Man kann die Variablen, die man als unabhängige in das Regressionsmodell<br />

aufnehmen möchte, bereits vor der Regressionsrechnung auf Kollinearität prüfen,<br />

indem man im Dialogfeld „Statistik“ die Option „Deskriptive Statistik“ anklickt. Es wird<br />

dann eine Korrelationsmatrix zwischen diesen Prädiktoren berechnet. Sollten zwei<br />

Variablen dann sehr hoch miteinander korrelieren, sollte überlegt werden, ob nicht<br />

eine von beiden aus der Regression herausgenommen werden sollte. Sollten sich<br />

keine hohen Korrelationen beobachten lassen, darf daraus jedoch nicht auf keine<br />

Kollinearität geschlossen werden, da auch zwischen Kombinationen mehrerer<br />

Variablen ein linearer Zusammenhang bestehen kann.<br />

Mit SPSS können mehrere spezielle Kollinearitätsmaße berechnet werden. Man<br />

wählt dazu im Dialogfeld „Statistiken“ die Option „Kollinearitätsdiagnose“. Dann<br />

kommen zu der Tabelle „Koeffizienten“ des Outputs noch zwei weitere Spalten hinzu:<br />

Die Spalte „Toleranz“ meint<br />

2<br />

Toleranz i = 1 – R i<br />

2<br />

wobei R i den Korrelationskoeffizienten bezeichnet, der sich ergibt, wenn der i-te<br />

Prädiktor durch die übrigen Prädiktoren erklärt wird. Ist er sehr hoch, wird die<br />

Toleranz sehr klein sein, was dann auf das Vorliegen von Kollinearität deutet<br />

(Toleranz etwa < 0,1).<br />

Die Spalte VIF (Variance Inflation Factor) stellt nur den Kehrwert der Toleranz dar.<br />

Des weiteren wird noch eine Tabelle ausgegeben, die mit „Kollinearitätsdiagnose“<br />

überschreiben ist. Wir erläutern sie nicht, da hierzu Kenntnisse der Matrizenrechnung<br />

notwendig sind.<br />

13.4.4 Methoden der Auswahl von Prädiktoren<br />

Der Normalfall ist, dass alle benannten Prädiktoren simultan in die<br />

Regressionsgleichung aufgenommen werden (METHODE: ENTER). Soll davon<br />

abgewichen werden, so können die Prädiktoren<br />

a) in Blöcke aufgespalten werden, die dann der Reihe nach in die<br />

Regressionsgleichung aufgenommen werden. Ein Block besteht aus einer Reihe<br />

von Prädiktoren. Hat man einen ersten Block eingegeben, so leuchtet „Block 1<br />

von 1“ und die Taste „Weiter“ auf. Betätigt man diese, kann man einen weiteren<br />

Block eingeben. Wir verfolgen diese Möglichkeit hier nicht weiter, d.h. wir gehen<br />

im Folgenden von der Eingabe nur eines Blocks aus.<br />

b) innerhalb eines Blockes schrittweise nach bestimmten Methoden in die<br />

Regressionsgleichung aufgenommen oder aus ihr entfernt werden. Die Aufnahme<br />

oder Entfernung wird dabei nach bestimmten statistischen Kriterien (F-Test)<br />

vorgenommen, die unter OPTIONEN ausgewählt werden können. Folgende<br />

Methoden stehen zur Verfügung:<br />

i. EINSCHLUß (ENTER): Alle Prädiktoren eines Blocks werden simultan<br />

aufgenommen (1 Schritt). Diese ist die voreingestellte Methode.<br />

ii. AUSSCHLUß (REMOVE): Alle Prädiktoren eines Blocks werden simultan<br />

ausgeschlossen (1 Schritt). Diese Option ist nur sinnvoll, wenn mehr als ein<br />

Block angegeben wurde.<br />

Seite - 79 -


Skript: Benutzung von SPSS<br />

iii.<br />

RÜCKWÄRTS (BACKWARD): Die Prädiktoren werden von SPSS (pro Block)<br />

darauf geprüft, ob sie in der Regressionsgleichung, die zunächst mit allen<br />

Prädiktoren berechnet worden ist, verbleiben sollen. Bei jedem Schritt wird<br />

derjenige Prädiktor ausgeschlossen,<br />

1. der den kleinsten partiellen Korrelationskoeffizienten mit der AV aufweist und<br />

2. dessen zugehöriger Regressionskoeffizient nicht signifikant ist. Das<br />

zugehörige Signifikanzniveau ist mit 0.10 voreingestellt. Es kann über<br />

OPTIONEN verändert werden.<br />

iv.<br />

VORWÄRTS (FORWARD): Hier wird pro Block, startend mit dem Prädiktor<br />

mit der höchsten partiellen Korrelation zur AV, bei jedem Schritt derjenige<br />

Prädiktor als ein weiterer in die Regression aufgenommen, der von allen noch<br />

nicht einbezogenen Prädiktoren die größte partielle Korrelation mit der AV<br />

aufweist. Die Einbeziehung findet jedoch nur dann statt, wenn<br />

• der Wert der minimalen Toleranz größer ist als der voreingestellte<br />

erlaubte Toleranzwert von 0.0001. „Minimale Toleranz“ meint dabei<br />

eine Kollinearitätsdiagnose (vgl. den vorhergehenden Abschnitt).<br />

• zusätzlich der ermittelte zugehörige Regressionskoeffizient, der sich<br />

durch die Einbeziehung in die Regression ergeben würde, signifikant<br />

von Null verschieden ist. Das für diesen Signifikanztest voreingestellte<br />

Signifikanzniveau ist 0.05. Es kann über OPTIONEN verändert werden.<br />

v. SCHRITTWEISE (STEPWISE): Bei dieser Wahlmöglichkeit wird zunächst<br />

eine erste UV nach dem oben angegebenen Forward-Kriterium in die<br />

Regression aufgenommen. Sofort danach werden aber alle bislang<br />

aufgenommenen UV`s nach dem oben angegebenen Backward-Kriterium<br />

untersucht. Die UV´s, die aufgrund dieses Kriteriums aus der Regression<br />

ausgeschlossen werden, stehen beim nachfolgenden Schritt wieder für eine<br />

Einbeziehung nach dem Forward-Kriterium zur Verfügung. Als maximale Zahl<br />

für solche Forward-Backward-Schritte ist das Doppelte der Zahl der UV´s<br />

angesetzt. Eigentlich aber sollte diese Stepwise-Regression zuvor damit<br />

enden, dass für keinen Prädiktor mehr die Notwendigkeit des Ausschlusses<br />

und für keinen Prädiktor mehr die Möglichkeit der Aufnahme existiert.<br />

Es muß davor gewarnt werden, diesen automatischen Auswahlverfahren und ihrem<br />

hauptsächlichen Kriterium, der Signifikanz des Regressionskoeffizienten, das<br />

scheinbar eine objektive Auswahl vornimmt, blind zu vertrauen. Überhaupt ist sehr oft<br />

eine fälschliche Anwendung des Regressionsmodells zu beobachten. Um dem<br />

vorzubeugen, sollte unbedingt vor der Anwendung eine inhaltliche Theorie entwickelt<br />

werden, die gezielt (geleitet aufgrund inhaltlicher Hypothesen) das Verfahren<br />

einsetzt. Man vermeidet dann blindes Herumstochern in den Daten („Snooping in the<br />

data“).<br />

Seite - 80 -


Skript: Benutzung von SPSS<br />

13.4.5 Diagramme (Plots): Prüfung der Residuen<br />

Klickt man im Dialogfeld LINEARE REGRESSION die Taste DIAGRAMME an, so<br />

öffnet sich das folgende neue Dialogfeld:<br />

Abb. 67: Lineare Regression: Diagramme<br />

Dieses Feld dient vor allem zur grafischen Überprüfung von Voraussetzungen der<br />

linearen Regression. Es bedeuten<br />

DEPENDENT<br />

Werte der abhängigen Variablen<br />

*ZPRED Standardisierte vorhergesagte Werte<br />

*ZPRESID Standardisierte Residuen<br />

*DRESID Ausgeschlossene Residuen<br />

*ADJPRED Korrigierte vorhergesagte Werte<br />

*SRESID Studentisierte Residuen<br />

*SDRESID Studentisierte ausgeschlossene Residuen<br />

a) Prüfung der Linearitätsannahme: Z.B. sollte grundsätzlich überprüft werden, ob<br />

die angenommene lineare Beziehung auch tatsächlich haltbar ist. Dazu kann ein<br />

Streudiagramm erstellt werden, in dem die Beziehung zwischen den<br />

standardisierten Vorhersagewerten (*ZPRED) und den standardisierten Residuen<br />

(*RSESID), definiert als standardisierte Differenz zwischen den tatsächlichen<br />

Werte Y und den Vorhersagewerten Y´, dargestellt wird. Testfrage: Welche<br />

Anordnung der Punkte sollte sich ergeben? Woran kann man erkennen, dass<br />

keine lineare Beziehung vorliegt?<br />

b) Prüfung der Normalverteilungsannahme: Eine zentrale Forderung des<br />

Regressionsmodells besteht darin, dass die Residuen, also die Fehler der<br />

Schätzung, nicht nur zufällig auftreten sollten, sondern zudem einer<br />

Normalverteilung (NV) folgen sollten. Mit NORMALVERTEILUNGSDIAGRAMM<br />

kann man ein Verteilungsdiagramm aufrufen, in welchem die empirisch ermittelte<br />

kumulierte Verteilung der standardisierten Residuen (*ZRESID) der zu<br />

erwartenden kumulierten Häufigkeitsverteilung unter der Annahme der NV<br />

gegenüber gestellt wird. Testfrage: Wie müssen die ausgegebenen Werte<br />

angeordnet sein, wenn die Voraussetzung der NV erfüllt sein sollte?<br />

Zur Überprüfung der NV kann auch die Ausgabe eines Histogramms der<br />

standardisierten Residuen dienen, das durch HISTOGRAMM abgerufen werden<br />

kann. In das Histogramm wird eine NV eingezeichnet.<br />

Seite - 81 -


Skript: Benutzung von SPSS<br />

Zur Erinnerung:<br />

Unter den Residuen einer Regressionsschätzung verstehen wir die Differenzen<br />

zwischen den tatsächlich beobachteten und den durch die Regressionsgleichung<br />

geschätzten Werten der AV. Das zu einem bestimmten Fall gehörende Residuum ist<br />

also Ausmaß, um den die Regressionsschätzung den tatsächlichen Wert verfehlt hat.<br />

Entsprechend wird die quadrierte Summe der Residuen zur Berechnung von R 2<br />

(Determinationskoeffizient, Bestimmtheitsmaß) verwendet, das damit einen Indikator<br />

für die Güte der Anpassung der Regressionsgleichung an die empirischen Werte<br />

darstellt. (R 2 gibt den Anteil der Gesantvariation von Y an, der durch einbezogenen<br />

Prädiktoren aufgeklärt wird.)<br />

Eine zentrale Forderung des Regressionsmodells besteht darin, dass die Residuen,<br />

also die Fehler der Schätzung, zufällig auftreten müssen, d.h. keinem<br />

systematischen Muster folgen dürfen. Sollte Letzteres der Fall sein, deutet das<br />

darauf hin, daß das geschätzte Modell falsch ist, da es nicht sämtliche Aspekte zur<br />

Erklärung der AV beinhaltet. Die „Falschheit“ kann daran liegen, dass weitere<br />

erklärende UV´s (Prädiktoren) nicht mit einbezogen wurden, aber auch an der<br />

gewählten linearen Funktion liegen (Prüfung der Linearitätsannahme siehe oben).<br />

13.4.6 Kreuzvalidierung<br />

Ein Hinweis darauf, wie stabil Regressionsvorhersagen sind, kann man mithilfe einer<br />

Kreuzvalidierung erhalten. Hierbei bestimmt man zwei Regressionsgleichungen<br />

aufgrund von zwei Teilstichproben und verwendet die Regressionsgleichung der<br />

jeweils einen zur Vorhersage der Kriteriumsvariablen der jeweils anderen. Die<br />

Korrelation der so vorhergesagten Kriteriumsvariablen mit den tatsächlich<br />

gemessenen Ausprägungen dieser Variablen <strong>info</strong>rmiert über die Stabilität der<br />

Regressionskoeffizienten (-gewichte).<br />

Um bei SPSS eine Kreuzvalidierung durchzuführen, muß mithilfe der an einer<br />

ersten Stichprobe berechnete Vorhersagegleichung eine neue Variable Y´ erzeugt<br />

werden. das geschieht mithilfe des bereits bekannten Befehls Transformieren à<br />

Berechnen. Dort wird als Zielvariable der Name der neuen Variablen eingegeben<br />

und unter „Numerischer Ausdruck“ die berechnete Rohwerte-Regressionsgleichung.<br />

Die Korrelation der neuen Variablen Y´ mit der beobachteten Variablen Y der zweiten<br />

Stichprobe gibt dann an, wie gut die an der ersten Stichprobe gewonnenen<br />

Regressionsgewichte zur Vorhersage in der zweiten Stichprobe geeignet sind.<br />

Anschließend wird das Verfahren wiederholt, indem jetzt die Regressionsgleichung<br />

anhand der zweiten Stichprobe aufgestellt wird und in der ersten Stichprobe<br />

eingesetzt wird zwecks Korrelation der nun dort mit ihr vorhergesagten Y´-Werte mit<br />

den tatsächlich beobachteten Werten.<br />

Die so erhaltenen beiden Korrelationskoeffizienten sind Multiple Korrelationen. Ihr<br />

Vergleich <strong>info</strong>rmiert über die Stichproben-Abhängigkeit dieser Koeffizienten.<br />

Seite - 82 -


Skript: Benutzung von SPSS<br />

14 Syntax<br />

14.1 Zwei Möglichkeiten, SPSS Anweisungen zu geben<br />

a) Die bislang gelernte Möglichkeit zum Aufruf eines Befehls besteht darin, diesen in einem<br />

Menü aus der Menüleiste auszuwählen und ihn anschließend in einem oder mehreren<br />

Dialogfeldern näher zu spezifizieren. Die Taste OK veranlaßt SPSS, den spezifizierten<br />

Gesamtbefehl auszuführen.<br />

b) Neben dieser Menütechnik bietet SPSS jedoch auch die Möglichkeit, Befehle mit Hilfe<br />

einer speziellen Befehlssprache aufzurufen. Hierzu müssen die Befehle in einer speziellen<br />

Steuer-Kommando-Sprache (Befehls-Satzlehre bzw. -syntax) formuliert und in dieser<br />

Form in eine Syntaxdatei geschrieben werden. Anschließend können sie aufgerufen und<br />

damit ausgeführt werden.<br />

Diese zweite Form der Befehlseingabe ist die ursprüngliche, und die bislang von uns benutzte<br />

und heute hauptsächliche Form der Befehlseingabe durch Anklicken ist ihr erst nachträglich<br />

übergestülpt worden. Immer noch ist es so, dass alle angeklickten Anweisungen in Kommandos<br />

der Befehlssyntax übersetzt und erst diese von SPSS ausgeführt werden. SPSS „versteht“<br />

nur diese in seiner Befehlssyntax geschriebene Sprache.<br />

Die Umsetzung der ursprünglichen Steuersprache in ein (Anklick-)Menüsystem hat für den<br />

Benutzer den großen Vorteil, dass der Benutzer nicht mehr diese aus einer Unzahl von<br />

Befehlen bestehende SPSS-Befehls-Sprache zu erlernen braucht. Die gewünschten Befehle<br />

werden einem über das Menü bzw. Dialogfenster quasi „im Klartext“ angeboten, so dass die<br />

Befehlseingabe ohne den Zwischenschritt einer speziell zu erlernenden Kommandosprache<br />

geschehen kann. Zudem brauchen die Befehle nicht mehr zeitraubend eingetippt zu werden,<br />

es genügt ein Anklicken.<br />

Eigentlich scheint also eine Betrachtung oder gar Verwendung der unter der Anklick-Oberfläche<br />

(immer noch) agierenden Befehlssprache nicht notwendig zu sein. Es sind jedoch hauptsächlich<br />

zwei Situationen, in denen es notwendig oder ökonomischer sein kann, Befehle in<br />

der alten Kommandosprache einzugeben:<br />

a) Bestimmte Operationen oder Optionen sind nur über die Kommandosprache möglich. Für<br />

viele Befehle können zusätzliche Parameter eingeben werden, die in den entsprechenden<br />

Dialogfeldern nicht zur Verfügung stehen.<br />

b) Es gibt Situationen, in denen das Anklicken sehr umständlich ist und dadurch auch<br />

unübersichtlich wird, so dass eine Fehlanweisung immer wahrscheinlicher wird, z.B. bei<br />

umfangreichen Anweisungen zur Generierung, Tranformierung oder Rekodierung von<br />

Variablen. Dann kann die direkte sprachliche Eingabe die einfachere Möglichkeit sein.<br />

Sollte eine dieser beiden Situationen vorkommen, so wird man doch nicht auf den großen<br />

Vorteil des Befehle-Anklickens verzichten wollen. Vielmehr wird man in der Regel eine<br />

Mischung beider Möglichkeiten der Befehlseingabe wählen. Zunächst wird man einen<br />

meistens hauptsächlichen Teil der Anweisungen über die Menü- und Dialogfenster per<br />

Anklicken vornehmen und danach über die Taste<br />

EINFÜGEN<br />

zum sog. Syntaxfenster hinüberwechseln, um die dort in der Kommandosprache ausgeschriebenen<br />

Anweisungen (Syntaxdatei) noch zu ergänzen. Einfügen meint dabei Einfügen der<br />

Folge der angeklickten Befehle in eine (neue oder schon bestehende) Syntaxdatei. Mit dem<br />

Überwechseln aktiviert man gleichzeitig den Syntax-Editor, d.h. man kann die Befehle der<br />

Syntaxdatei löschen, verändern oder neue hinzufügen. Man kann die Datei auch speichern<br />

und erst später ausführen lassen, d.h. man hat Befehlssequenzen/Protokolle der durchgeführten<br />

Rechnungen.<br />

Seite - 83 -


Skript: Benutzung von SPSS<br />

Übung: Bitte überzeugen Sie sich durch Anklicken verschiedenster Datentranformationen<br />

und Rechnungen, die Sie schon kennen, dass Befehle, die Sie anklicken, tatsächlich im<br />

Syntaxfenster in geschriebener Form stehen. Wechseln Sie dazu jeweils mit Hilfe der Taste<br />

EINFÜGEN<br />

in das Syntaxfenster über, und zwar bevor Sie die Taste OK drücken, d.h. wünschen Sie nicht<br />

(unnötig) die Ausführung der angeklickten Befehle.<br />

Studieren Sie die Syntax-Befehle. Versuchen Sie sie zu verstehen! Sie müssen sie jedoch<br />

nicht auswendig lernen. Es genügt geistiges Nachvollziehen und Erklären-können der zuvor<br />

angeklickten Befehle. Das ist in der Regel möglich.<br />

Wenn man so nacheinander verschiedene Rechnungen zusammenstellt, wird mit dem<br />

Einfügen einer ersten Rechnung ein (erstes) Syntax1-Fenster aufgemacht und es werden alle<br />

weiteren Rechnungen nacheinander in dieses hineingeschrieben. Um aus dem Syntax-Fenster<br />

jeweils in das Daten-Editor-Fenster zurückzukehren, klickt man einfach auf dieses. Beim<br />

zweiten und weiteren Einfügen erscheint das Syntax-Fenster allerdings nicht mehr von selbst.<br />

Sie können es aufrufen, indem Sie mit dem Cursor auf die Grundleiste gehen.<br />

Wenn man die so zusammengestellten verschiedenen Rechnungen ausführen möchte, kann<br />

man das tun, indem man auf<br />

AUSFÜHREN<br />

klickt. Das danach erscheinende Menu versteht sich von selbst. Auswählen kann man auch<br />

durch Markieren (Ziehen mit der linken Maustaste). Wählen Sie nur ganze Befehle.<br />

14.2 Syntax-Fenster<br />

Insgesamt kann man eine (neue oder eine weitere) Syntaxdatei auf mindestens drei Arten<br />

anlegen:<br />

a) So wie eben bereits beschrieben, also mit einem ersten Einfügen-Befehl.<br />

b) Automatisch beim Start von SPSS. Man muß dann nur für eine entsprechende Voreinstellung<br />

sorgen, in dem man BEARBEITEN fi OPTIONEN wählt.<br />

Abb. 68: Optionen<br />

und in diesem Fenster die Möglichkeit „Syntax-Fenster beim Start öffnen“ und OK<br />

betätigt, so dass zukünftig, d.h. bei jedem erneuten Start von SPSS, automatisch ein<br />

Syntax-Fenster eingerichtet wird. Bevor in dieses etwas eingefügt wird, ist es natürlich<br />

noch leer.<br />

c) Während einer bereits laufenden SPSS-Sitzung. Dann wählt man die Befehlskette<br />

DATEI fi NEU fi SYNTAX<br />

Seite - 84 -


Skript: Benutzung von SPSS<br />

Wenn man das mehrere Male macht, werden nacheinander viele Syntax-Fenster angelegt,<br />

also Syntax1, Syntax2, Syntax3, ... . Dabei wird auch weitergezählt, wenn man einige<br />

schon wieder gelöscht hat. Nur eins dieses Fenster ist dabei das jeweils aktuelle. Über die<br />

Leiste unten können Sie jeweils bestimmen, welches es sein soll. Bestimmen Sie nichts,<br />

ist es das jeweils letzte.<br />

Diese 3. Möglichkeit interssiert uns hier weniger. Sie wird vor allem gewählt, wenn man<br />

nicht mithilfe des Anklickens SPSS-Programme schreiben möchte, sondern direkt solche<br />

Programme schreiben möchte, weil man (noch) die SPSS-Programmsprache kennt.<br />

Studierende, die studierten, bevor SPSS das Anklicksystem einführte, hatten sie noch zu<br />

erlernen.<br />

Den Inhalt von Syntax-Fenstern kann man auch speichern. Das geht in der bekannten Weise,<br />

indem man in der obersten Zeile des Fensters<br />

DATEI usw. aufruft. Man kann sie dann wie jede Datei später auch wieder öffnen, indem<br />

man im Daten-Editor-Fenster die Sequenz<br />

DATEI fi ÖFFNEN fi SYNTAX<br />

eingibt. Das und Weiteres braucht hier nicht erklärt zu werden.<br />

14.3 Die Journal-Datei<br />

Wie gesagt werden standardmäßig alle Anforderungen, die während eines Dialogs mit dem<br />

SPSS-System zur Ausführung gelangen, intern in Kommandos umgeformt. Diese Kommandos<br />

werden auch dann, wenn man kein Syntax-Fenster angelegt hat, in einer Journal-Datei<br />

gespeichert, die den voreingestellten Namen „spss.jnl“ trägt und im Home-Verzeichnis<br />

eingetragen ist (bei SPSS unter Windows meistens im Unterordner C:\Windows\Temp). Bei<br />

dieser Übertragung wird jedes neue Kommando an den bisherigen Inhalt der Datei angefügt.<br />

Dies bedeutet, dass diese Datei sämtliche Befehle beinhaltet, die seit Installationsbeginn von<br />

SPSS gestellt worden sind. Dadurch kann die Datei schon sehr lang geworden sein.<br />

Soll dagegen der jeweilige Inhalt der Journal-Datei zu Beginn eines neuen Dialogs gelöscht/überschrieben<br />

werden, so ist im zuletzt aufgerufenen Dialogfenster OPTIONEN die<br />

Möglichkeit "Überschreiben" zu aktivieren und der Inhalt des Fensters durch OK zu bestätigen.<br />

Um nicht unnötig Speicherplatz auf der Festplatte zu reservieren, sollte man diese<br />

Voreinstellung wählen.<br />

14.4 Syntax-Befehle in der Ausgabedatei<br />

Mit BEARBEITEN à OPTIONEN à VIEWER können Sie SPSS veranlassen, dass beim<br />

Ausführen eines Befehls in der Ausgabedatei den eigentlichen Ergebnissen der Befehl in<br />

Syntaxform vorangestellt wird, wenn Sie<br />

"Befehle im Log anzeigen" aktivieren. Sollte das schon bei Ihnen der Fall sein und möchten<br />

Sie das nicht mehr haben, so deaktivieren Sie entsprechend.<br />

14.5 Syntax von SPSS-Kommandos<br />

14.5.1 Syntaxdiagramme<br />

Dieses Papier soll nicht zum Schreiben kompletter SPSS-Syntaxdateien befähigen. Das soll<br />

daher im EDV-Kurs auch nicht verlangt werden. Es soll aber darum gehen, angeklickte<br />

Befehle in einer benötigten Weise verändern bzw. ergänzen zu können. Die Teilnehmer<br />

des EDV-Seminars sollten wissen, dass statistische Rechnungen, die man ausgehend von<br />

einer Untersuchung und aufgestelltem Untersuchungs- und Auswertungsplan fordert,<br />

doch möglich sein können, auch wenn sie nicht anklickbar sind. Was bei einem SPSS-<br />

Seite - 85 -


Skript: Benutzung von SPSS<br />

Befehl über sein bloßes Anklicken hinaus noch möglich bzw. überhaupt möglich ist, zeigen<br />

die Syntax-Diagramme der einzelnen Befehle. Es lohnt sich, diese immer dann zu studieren,<br />

wenn mit dem bloßen Anklicken nicht die Rechnungen erreicht werden können, die man sich<br />

wünscht, oder wenn man sich fragt, "ob das nicht weniger umständlich geht". Auf keinen Fall<br />

sollte man sofort sagen, dass „SPSS das nicht kann“, nur weil etwas nicht anklickbar ist.<br />

Ein Syntaxdiagramm zeigt die formale Struktur eines jeweiligen Befehls auf, also jener Befehls,<br />

die Sie bereits angeklickt haben und zu dessen Syntax mit der EINFÜGEN-Taste<br />

hinüber gewechselt werden kann. An der formalen Struktur eines Befehls lassen sich<br />

sämtliche notwendigen sowie optionalen Unterbefehle sowie alle zulässigen Angaben zu den<br />

einzelnen Unterbefehlen ablesen. Aufrufen tut man diese formale Struktur bzw. das Syntaxdiagramm<br />

eines Befehls, indem man den Cursor in einen über das Syntaxfenster<br />

ausgegebenen Befehl stellt und anschließend die Taste „Hilfe zur Syntax" in der Knopf-<br />

Leiste darüber betätigt. (Das Bild auf der Taste deutet die Syntax-Struktur eines Befehls an.)<br />

Wenn Sie dies nun einmal probeweise bei einem von Ihnen angeklickten und im Syntax-<br />

Fenster aufgelisteten Befehl tun, dann erschrecken Sie bitte nicht gleich angesichts der (nur<br />

auf den ersten Blick verwirrend) formalen Syntax-Struktur des betreffenden Befehls. Sie wird<br />

in den nächsten Abschnitten erläutert.<br />

Vor allem aber gilt folgender Rat:<br />

Klicken Sie immer auch in dem neuen Fenster "See Also" an und die weiteren Möglichkeiten,<br />

die sich danach eröffnen. Sie erhalten dadurch eine genaue Beschreibung des Gesamtbefehls<br />

sowie aller seiner Unterbefehle und sonstigen Möglichkeiten, die er bietet. Vor allem erhalten<br />

Sie so auch recht genaue Informationen über das, was Sie schon errechnet haben bzw.<br />

errechnen werden!<br />

Zusammen mit dem anderen wichtigen Tipp, nämlich vor dem Anklicken einer Taste in<br />

einem Dialogfeld die rechte Maustaste zu drücken zwecks Info, was Sie damit eigentlich<br />

befehlen, nutzen Sie das Hilfesystem von SPSS elegant aus. Sie brauchen so nämlich kein<br />

teures Buch über SPSS. SPSS sagt Ihnen auf diese beiden Weisen eigentlich alles, oft<br />

sogar die statistischen Hintergründe, d.h. oft bereits die Antworten auf Fragen, die Ihnen<br />

bei der kleinen EDV-Prüfung gestellt werden könnten. Probieren Sie das aus! Sie werden<br />

angenehm überrascht sein!<br />

14.5.2 Syntaxregeln<br />

Die Elemente der SPSS-Programmsprache kann man in die folgenden Kategorien einteilen.<br />

• Befehl (Kommando): Eine Anweisung, die den Ablauf von SPSS steuert.<br />

• Unterbefehl: Eine Zusatzanweisung zu einem SPSS-Befehl. Ein Befehl kann mehrere<br />

Unterbefehle haben.<br />

• Spezifikationen: Angabe, die einem Befehl oder einem Unterbefehl zugefügt werden.<br />

Spezifikationen können Schlüsselwörter, Zahlen, arithmetische Operatoren, Variablennamen<br />

und spezielle Trennzeichen enthalten.<br />

• Schlüsselwörter: Ein bestimmtes Wort, das in der SPSS-Syntax vorkommt und mit einer<br />

bestimmten Bedeutung belegt ist. Es können also die Wörter für bestimmte Befehle,<br />

Unterbefehle oder auch bestimmte Spezifikationen sein. Da die Bedeutung dieser Wörter<br />

a priori von SPSS festgelegt ist, dürfen sie nicht in anderer Bedeutung verwendet werden,<br />

z.B. als Name für eine Variable. Wir werden diese Wörter, die den Sprachschatz von<br />

SPSS darstellen, im Folgenden groß schreiben. (In der SPSS-Literatur wird der Begriff<br />

„Schlüsselwort“ nicht einheitlich verwendet. Oft wird er nur im Zusammenhang mit<br />

Spezifikationen gebraucht.)<br />

Beispiel:<br />

Seite - 86 -


Skript: Benutzung von SPSS<br />

CORRELATIONS<br />

/VARIABLES=alter depression intelligenz konzentration<br />

/PRINT=TWOTAIL SIG<br />

/MISSING=LISTWISE .<br />

CORRELATIONS ist ein Befehl. VARIABLES, PRINT und MISSING sind Unterbefehle.<br />

Dem Unterbefehl VARIABLES folgen Variablennamen, die Spezifikationen des Unterbefehls<br />

darstellen, jedoch keine (a priori reservierten) Schlüsselwörter sind. Dagegen folgen den<br />

Unterbefehlen PRINT und MISSING Spezifikationen in Form von Schlüsselwörtern.<br />

Beim Editieren der Befehlssyntax sind folgende einfache Regeln zu beachten:<br />

• Jeder Befehl muß am Anfang einer neuen Zeile beginnen und mit einem Punkt enden.<br />

• Ein Befehl kann sich über beliebig viele Zeilen erstrecken.<br />

• Unterbefehle werden in der Regel mit einem Schrägstrich voneinander getrennt. Vor dem<br />

ersten Unterbefehl kann der Schrägstrich auch weggelassen werden.<br />

• In Apostrophe gesetzter Text (bei Labels) muß sich auf einer Zeile befinden.<br />

• Eine Zeile darf nicht mehr als 80 Zeichen (Anschläge) haben.<br />

• Als Dezimaltrennzeichen in Spezifikationen muß ein Punkt verwendet werden.<br />

• Groß- und Kleinbuchstaben werden nicht unterschieden (außer in in Apostrophe gesetzten<br />

Text).<br />

• Das Einfügen von Leerzeichen oder der Beginn einer neuen Zeile ist an jedem Punkt<br />

erlaubt, wo ein einzelnes Leerzeichen erlaubt ist.<br />

• Bei Programmdateien, die im "Produktionsmodus" (Begriff in diesem SPSS-Papier nicht<br />

erklärt) laufen sollen, müssen die Fortsetzungszeilen eines Befehls um mindestens ein<br />

Leerzeichen eingerückt sein.<br />

14.5.3 Interpretation eines Syntaxprogramms<br />

Z.B. gibt es einen Befehl, mit dem für eine, mehrere oder sämtliche Variablen aus der<br />

Datendatei fehlende Werte definiert werden können. Das Syntaxdiagramm dieses Befehls<br />

lautet<br />

MISSING VALUES {varlist} (value list) [ [ / ] {varlist} . . . ]<br />

{ALL } {ALL }<br />

Diesem Syntaxprogramm ist zu entnehmen:<br />

Neben dem Befehl MISSING VALUES sind die Variablen anzugeben (varlist), für die<br />

fehlende Werte definiert werden sollen. Hinter der Variablenliste muß in Klammern eine Liste<br />

der Werte gegeben werden, die als fehlende Werte zu definieren sind.<br />

Listen können auch aus einem einzigen Wert bestehen. Als Variablenliste kann ein einzelner<br />

Variablenname, eine Liste mehrerer Variablennamen oder das Schlüsselwort ALL angegeben<br />

werden. Mit ALL sind alle Variablen der Datei gemeint.<br />

Durch den Befehlsnamen und die Angabe einer Variablenliste mit einer zugehörigen Werteliste<br />

sind alle notwendigen Angaben gemacht worden. Optional können jedoch weitere<br />

Variablenlisten mit jeweils einer Werteliste angegeben werden. Jede weitere Werteliste kann<br />

von der vorhergehenden durch einen Schrägstrich getrennt werden.<br />

Beispiel:<br />

MISSING VALUES alter gewicht (0) groesse (-1, -2) wohnort („keiner“, „k.A.“)<br />

oder (z.B.)<br />

MISSING VALUES<br />

/alter gewicht (0)<br />

Seite - 87 -


Skript: Benutzung von SPSS<br />

/groesse (-1,-2)<br />

/wohnort ("keiner", "k.A.")<br />

Inhaltliche Erklärung:<br />

Es werden drei Listen von Variablen aufgeführt:<br />

Die erste Liste besteht aus den Variablen alter und gewicht. Beide haben als Zeichen für einen<br />

fehlenden Wert die Null. (Achtung: Eine 0 (Null) ist als ein solches Zeichen nur statthaft,<br />

wenn die Null nicht als eine Maßzahl auftreten kann.)<br />

Die zweite Liste besteht nur aus der Variablen groesse. Bei dieser kann entweder -1 oder -2<br />

als Zeichen für einen fehlenden Wert auftreten.<br />

Die dritte Liste besteht ebenfalls aus einer Variablen, der Variablen wohnort. Sie besteht aus<br />

alphanumerischen Angaben. Zwei Zeichen sind bei ihr als Zeichen für einen fehlenden Wert<br />

deklariert worden, das Zeichen "keiner" und das Zeichen "k.A.".<br />

14.5.4 Bedeutung der Symbole und Schreibweisen in Syntaxdiagrammen<br />

• In Großbuchstaben geschriebene Wörter stellen Schlüsselwörter wie z.B. Befehlsnamen<br />

dar.<br />

• Ausdrücke in normaler Schrift stellen Platzhalter für Angaben dar, die vom konkreten<br />

Anwendungsfall abhängen.<br />

• Angaben in eckigen Klammern sind optional. Wenn sie weggelassen werden, werden sie<br />

häufig durch Voreinstellungen ersetzt.<br />

• Angaben, die in geschwungenen Klammern untereinander stehen, sind alternativ. Genau<br />

eine Möglichkeit ist zu wählen.<br />

• Optionale Angaben in Syntaxdiagrammen sind durch zwei Sternchen gekennzeichnet.<br />

Diese Angaben entsprechen der Voreinstellung, wenn nicht explizit andere Angaben<br />

gemacht werden. Aber nicht alle Voreinstellungen werden auf diese Weise markiert.<br />

• Der Ausdruck varname steht als Platzhalter für den Namen einer Variablen, der Ausdruck<br />

varlist als Platzhalter für eine Liste von Variablennamen. Diese kann auch aus einem<br />

einzigen Namen bestehen.<br />

• Häufig werden drei Punkte als Fortsetzungszeichen verwendet. Meistens ist die Bedeutung<br />

die, dass die betreffende Komponente eines Befehls in analoger Weise mehrfach<br />

wiederholt werden kann.<br />

• Zu beachten ist nochmals, dass jeder Befehl mit einem Punkt abzuschließen ist, auch<br />

wenn dieser Punkt in Syntaxdiagrammen nicht mit angegeben wird.<br />

14.5.5 Beispiel: Umsetzung eines Syntaxprogramms in einen Befehl<br />

Mit dem Menübefehl<br />

Analysieren → Deskriptive Statistiken → Deskriptive Statistiken<br />

können für eine oder mehrere Variablen statistische Maßzahlen berechnet werden. Wenn Sie<br />

den Pfad anklicken, dann können Sie sich über die Hilfe-Taste recht genau über den<br />

Befehl <strong>info</strong>rmieren. Klicken Sie auch OPTIONEN an und klicken Sie mit der rechten<br />

Maustaste die im Einzelnen wählbaren Statistiken an.<br />

Der diesem Menu-Befehl entsprechende Syntaxbefehl heißt DESCRIPTIVES. Bitte rufen Sie<br />

ihn entsprechend der Beschreibung in 14.4.1 auf, d.h. klicken Sie anhand eines Datensatzes<br />

eine Rechnung an, drücken Sie jedoch vor OK die EINFÜGEN-Taste. Wenn Sie danach den<br />

Cursor in den Befehl stellen und die Taste "Hilfe zur Syntax" (Syntax-Diagramm-Taste)<br />

drücken. Es erscheint das folgende Diagramm, das die Struktur und alle Optionen dieses<br />

Befehls wiedergibt.<br />

Seite - 88 -


Skript: Benutzung von SPSS<br />

DESCRIPTIVES [VARIABLES=] varname[(zname)] [varname . . . ]<br />

[/MISSING= {VARIABLE**} [INCLUDE] ]<br />

{LISTWISE }<br />

[/FORMAT={LABELS** } {NOINDEX**} {LINE** } ]<br />

{NOLABELS } {INDEX } {SERIAL}<br />

[/SAVE]<br />

[/STATISTICS=[DEFAULT**] [MEAN**] [MIN** ][SKEWNESS] ]<br />

[STDDEV** ] [SEMEAN] [MAX**][KURTOSIS]<br />

[VARIANCE ] [SUM ] [RANGE][ALL]<br />

[/SORT=[ {MEAN } ] [{ (A) } ] ]<br />

{SMEAN } {(D) }<br />

{STDDEV }<br />

{VARIANCE }<br />

{KURTOSIS }<br />

{SKEWNESS }<br />

{RANGE }<br />

{MIN }<br />

{MAX }<br />

{SUM }<br />

[NAME }<br />

Diese formale Befehlssyntax zeigt, dass neben dem Befehl nur eine Variable benannt werden<br />

muß. Alle anderen Angaben sind optional. Es wäre also z.B. der Befehl<br />

DESCRIPTIVES depression .<br />

möglich, deswegen, weil mit Ausnahme des Platzhalters varname, der für den Namen einer<br />

Variablen steht, alle anderen Angaben in eckigen Klammern stehen. Da nicht angegeben wird,<br />

welche Ergebnisse ausgegeben werden sollen, würden es jene sein, die in diesem DEFAULT-<br />

Fall mit ** gekennzeichnet worden sind (DEFAULT = Unterlassung).<br />

Zu den meisten im Diagramm aufgeführten Unterbefehlen gibt es ein Gegenstück in einem<br />

der beiden Dialogfelder des Anklickbefehls. So werden z.B. mit dem Unterbefehl<br />

STATISTICS die zu berechnenden Maßzahlen angegeben. Hier bietet der Syntaxbefehl die<br />

gleichen Möglichkeiten, die auch in den Dialogfeldern zur Verfügung stehen. Anders sieht es<br />

dagegen bei dem Unterbefehl SORT aus (Reihenfolge des Anzeigens). Zwar findet er sich<br />

auch in dem Dialogfeld DESRIPTIVE STATISTIK: OPTIONEN, jedoch mit weniger<br />

Alternativen als beim Syntaxbefehl. Der Unterbefehl MISSING, der den Umgang mit<br />

fehlenden Werten in den ausgewählten Variablen regelt, ist sogar nur im Syntaxbefehl<br />

verfügbar. Das bedeutet, dass bei alleiniger Befehlsgebung über die Dialogfelder im Falle von<br />

missing data eine von SPSS vorbestimmte (unbekannte, jedoch naheliegende) Voreinstellung<br />

zum Zuge kommen muß.<br />

Möchten wir z.B. von den beiden Variablen<br />

depression<br />

lebenszufriedenheit<br />

die Kennwerte MEAN SUM STDDEV VARIANCE SEMEAN ausgeben lassen und sollen<br />

die standardisierten Werte der Variablen als neue Variablen in der Datendatei gespeichert<br />

werden (SAVE) und die Ergebnisse in der alphabetischen Reihenfolge der Variablen ausgegeben<br />

werden, so kann man sich diese Wünsche alleine durch Anklicken erfüllen lassen. Der<br />

entsprechende Syntaxbefehl würde wie folgt aussehen<br />

Seite - 89 -


Skript: Benutzung von SPSS<br />

DESCRIPTIVES<br />

VARIABLES = depression lebenszufriedenheit<br />

/SAVE<br />

/STATISTICS = MEAN SUM STDDEV VARIANCE SEMEAN<br />

/SORT = NAME (A) .<br />

Dabei müßte der Unterbefehl VARIABLES nicht explizit aufgeführt werden.<br />

Da sich übrigens alle SPSS-Schlüsselwörter auf ihre drei Anfangsbuchstaben reduzieren<br />

lassen und auch nicht jeder Unterbefehl in einer neuen Zeile stehen muß, könnte der gleiche<br />

Befehl auch wie folgt geschrieben werden:<br />

DES depression lebenszufriedenheit /SAV /STA=MEA SUM STD VAR SEM<br />

/SOR=NAM(A) .<br />

Das sieht dann schon nach einer Geheimsprache aus.<br />

14.5.6 Einbindung der Syntax in den dialoggesteuerten Ablauf<br />

Anhand einiger Beispiele soll gezeigt werden, wie die SPSS-Syntax nutzbringend in einen<br />

SPSS-Dialog eingebracht werden kann. Nach einem Dialog drücken wir also die<br />

EINFÜGEN-Taste, wodurch die angeklickten Einstellungen als Syntax in den Syntax-Editor<br />

(Syntax-Fenster) eingefügt werden. Diese Syntax können wir nun noch editieren, um Möglichkeiten<br />

auszuschöpfen, die über die Dialogboxen nicht zur Verfügung stehen.<br />

Beispiel 1: CORRELATIONS<br />

Wollen wir zwischen z.B. sechs Variablen die Produkt-Moment-Korrelationen berechnen, so<br />

können wir dies durch Anklicken bewerkstelligen. Der entsprechende Syntax-Befehl könnte<br />

z.B. wie folgt aussehen:<br />

CORRELATIONS<br />

/VARIABLES=V1 V2 V3 V4 V5 V6<br />

/PRINT=TWOTAIL SIG<br />

/MISSING=LISTWISE .<br />

Bei dieser Eingabe wird eine 6 * 6 – Korrelationsmatrix erzeugt. Wollen wir nun aber nicht<br />

die gesamte Matrix berechnen, sondern nur die Variablen V1 V2 V3 mit V4 V5 V6<br />

korrelieren, so müßte man durch Anklicken in umständlicher Weise 3 * 3 = 6 verschiedene<br />

Rechnungen starten, also V1 mit V4, V1 mit V5, . . . , V3 mit V6 korrelieren lassen. Auch<br />

würden wir dann 6 einzelne Korrelationskoeffizienten erhalten, obwohl wir ihre Zusammenstellung<br />

zu einer Matrix wünschen. Betrachten wir jedoch das Syntaxdiagramm dieses Befehls,<br />

so entdecken wir, dass man stattdessen einfach schreiben kann<br />

CORRELATIONS<br />

/VARIABLES=V1 V2 V3 WITH V4 V5 V6<br />

/PRINT=TWOTAIL SIG<br />

/MISSING=LISTWISE .<br />

Das heißt, dass wir den Unterbefehl VARIABLES nur ein wenig zu redigieren brauchen, um<br />

die gewünschte Rechnung zu erzielen.<br />

Übrigens genügt es im Fall, dass man mehrere Variablen eingeben möchte, die in der Datendatei<br />

direkt nebeneinander stehen, nur die erste und letzte zu benennen und mit dem<br />

Schlüsselwort TO zu verbinden. Deshalb könnten wir den Unterbefehl VARIABLES auch<br />

wie folgt schreiben<br />

/VARIABLES=V1 TO V3 WITH V4 TO V6<br />

Im Falle vieler Variablen ergibt sich so eine erhebliche Zeitersparnis bei der Formulierung des<br />

Befehls.<br />

Seite - 90 -


Skript: Benutzung von SPSS<br />

Beispiel 2: Datentransformationen<br />

Mit Hilfe arithmetischer Formeln kann man aus alten Variablen neue errechnen. Z.B. kann es<br />

vorkommen, dass man eine Reihe von Meßwiederholungen bzw. Variablenpaare (t 0 , t 1 ) hat.<br />

Nun möchte man zu jedem Paar eine neue Variable durch Differenzenbildung erzeugen, als<br />

eine, die das Ausmaß der Veränderung einer Person von t 0 zu t 1 anzeigt, z.B. die Abnahme<br />

von Depression aufgrund einer Therapie. Dies könnte man tun, indem man durch<br />

Transformieren fi Berechnen<br />

die entsprechenden Dialogfelder aufruft, für jedes Paar einzeln-individuell. Das ist umständlich.<br />

Zeitsparender und vor allem übersichtlicher wäre es, die verschiedenen Paare wie folgt in<br />

die zugehörige Syntax-Datei hineinzuschreiben:<br />

COMPUTE diffdepr=t1depr-t0depr<br />

COMPUTE diffkonz=t1konz-t0konz<br />

COMPUTE diffzufrie=t1zufrie-t0zufrie<br />

COMPUTE diffmuedigk=t1muedigk-t0muedigk<br />

usw. für eventuelle weitere Variablen-Paare; je mehr Paare, umso zeitsparender und vor allem<br />

auch übersichtlicher wäre dieses Vorgehen.<br />

Wenn wir nun diese Berechnungs-Befehle betrachten, so sind sie alle von gleicher Bauart.<br />

Deswegen bräuchte man sie nicht einmal hinzuschreiben, sondern man könnte sie sogar mit<br />

Hilfe der SPSS-Befehle DO REPEAT – END REPEAT systematisch erzeugen, und zwar<br />

wie folgt:<br />

DO REPEAT<br />

p=diffdpr,diffkonz,diffzufrie,diffmuedigk<br />

/q=t1depr,t1konz,t1zufrie,t1muedigk<br />

/r=t0depr,t0konz,tozufrie,t0muedigk .<br />

COMPUTE p=q-r .<br />

END REPEAT .<br />

Wie man sieht, werden mit p, q und r Platzhalter eingeführt, die es erlauben, den COMPUTE-<br />

Befehl nur einmal hinzuschreiben. Ein solches Vorgehen spart zwar im Beispiel nicht viel an<br />

Aufwand ein, jedoch nur, weil der zunächst wiederholt hingeschriebene Rechenausdruck<br />

klein ist. Anders wäre es, wenn er umfangreich gewesen wäre oder gar aus mehreren umfangreichen<br />

Ausdrücken bestanden hätte. Das Beispiel soll demonstrieren, dass es mit der Syntax<br />

allgemein möglich ist, immer dann, wenn sich (Rechen-)Befehle formal wiederholen, diese in<br />

einer „Schleife“ in abstrakter Form nur einmal hinzuschreiben und somit das Hinschreiben<br />

der u.U. sehr vielen nur konkret verschiedenen Einzelanweisungen einzusparen. Würde man<br />

alle diese Einzelanweisungen gar durch Anklicken berechnen wollen, könnte man schnell die<br />

Übersicht verlieren. Eine Erzeugungssystematik zum Zwecke der Kontrolle, ob auch alle<br />

Einzelanweisungen wirklich angewiesen worden sind, müßte man sich wohl auf jeden Fall<br />

anlegen, im Falle des Anklickens wohl auf einem Extrapapier.<br />

Seite - 91 -


Skript: Benutzung von SPSS<br />

15 Inferenzstatistik<br />

15.1 t-Teste<br />

15.1.1 Allgemeines<br />

Zwei Stichproben des Umfangs N 1 und N 2 sind aus zwei Populationen gezogen worden. Der<br />

t-Test für unabhängige Stichproben überprüft die Nullhypothese, dass die beiden Stichproben<br />

aus Populationen stammen, deren Parameter µ 1 und µ 2 identisch sind.<br />

SPSS besitzt drei t-Tests, den t-Test bei unabhängigen Stichproben, den t-Test bei abhängigen<br />

(gepaarten) Stichproben und den t-Test bei einer Stichprobe.<br />

15.1.2 t-Test bei unabhängigen Stichproben<br />

Zwei Stichproben werden unabhängig voneinander gezogen. Das ist der Fall, wenn z.B.<br />

gefragt wird, ob sich Männer und Frauen in einer bestimmten Eigenschaft voneinander<br />

unterscheiden, und die eine Stichprobe aus der Population der Frauen und die andere aus der<br />

Population der Männer gezogen wird. Dann hat die Auswahl bzw. Zusammensetzung in der<br />

einen Stichprobe keinen Einfluss auf die Auswahl bzw. Zusammensetzung der anderen<br />

Stichprobe. Die beiden Stichproben sind unabhängig voneinander gezogen worden.<br />

Ferner wird vorausgesetzt, dass Zufallsstichproben vorliegen, also in jeder Population jedes<br />

Element die gleiche Chance hatte, in die Stichprobe zu kommen.<br />

Der t-Test für unabhängige Stichproben prüft, ob die Mittelwerte µ der beiden zugehörigen<br />

Populationen gleich groß sind:<br />

H 0 : µ 1 - µ 2 = 0<br />

H 1 : µ 1 - µ 2 ≠ 0 (ungerichtet, d.h. das eine µ größer oder kleiner als das andere ist)<br />

Um die Nullhypothese prüfen zu können, ist als Prüfmaß der Wert t definiert worden:<br />

t =<br />

M<br />

1<br />

− M<br />

2<br />

2 2<br />

S1<br />

S2<br />

+<br />

N1<br />

N2<br />

M 1 und M 2 stellen die Mittelwerte der beiden Stichproben dar, S 1 und S 2 ihre Streuungen, N 1<br />

und N 2 die Stichprobenumfänge. Die Gleichung definiert eine Zufallsvariable, die für kleine<br />

Stichproben mit df = N 1 +N 2 -2 Freiheitsgraden „t-verteilt“ ist und für größere Stichproben<br />

(etwa df > 50) zunehmend normalverteilt, da die t-Verteilungen mit wachsendem N in eine<br />

Standardnormalverteilung übergehen (t → z).<br />

Die grundliegende Idee des Prüfwertes t ist die einer Verteilung der Differenzen der Stichprobenmittelwerte,<br />

die sich ergibt, wenn sehr häufig zwei voneinander unabhängige<br />

Stichproben gezogen werden. Gilt H 0 , so hat diese Verteilung einen Erwartungswert von µ 1 -<br />

µ 2 = 0. Die Schätzung der Streuung sM 1 − M<br />

dieser Verteilung, der geschätzte Standardfehler<br />

2<br />

der Differenz zweier Mittelwerte, ergibt sich aus den geschätzten Standardfehlern beider<br />

2<br />

2 2<br />

Mittelwerte, wie der Ausdruck unterhalb des Bruchstriches zeigt (genauer s<br />

M1− M<br />

= s<br />

2 M<br />

+ s<br />

1 M<br />

,<br />

2<br />

d.h. als Summe).<br />

Bei der Prüfung der Nullhypothese geht es um die Frage, mit welcher Wahrscheinlichkeit eine<br />

beobachtete Differenz M 1 –M 2 oder eine noch extremere zufällig zustande kommen kann.<br />

Diese Wahrscheinlichkeit wird durch den t-Test berechnet. Zur Entscheidung, ob H 0 , dass die<br />

Mittelwerte der Grundgesamtheiten identisch sind, beibehalten werden soll, sich also die<br />

beobachtete Mittelwertedifferenz nur zufällig ergeben hat, oder ob vielmehr eine<br />

Seite - 92 -


Skript: Benutzung von SPSS<br />

Verschiedenheit der beiden Populationsmittelwerte angenommen werden soll, ist vorher ein<br />

α-Fehler-Niveau (Signifikanzniveau) festzulegen. Häufig angewendete Niveaus sind α = 0,05<br />

und α = 0,01. Sie besagen, die Nullhypothese erst dann zu verwerfen, wenn die<br />

Irrtumswahrscheinlichkeit (auch α-Fehler-Wahrscheinlichkeit) kleiner oder gleich 5% bzw.<br />

1% ist. Beträgt also die Wahrscheinlichkeit für die beobachtete Differenz oder für eine noch<br />

extremere unter der Annahme, H 0 sei richtig, z.B. höchstens 5%, so wird dieses Ergebnis als<br />

signifikant auf dem 5%-Niveau bezeichnet, und H 0 verworfen und stattdessen H 1 akzeptiert.<br />

Dies geschieht unter dem Risiko, einen α-Fehler zu begehen, nämlich H 1 anzunehmen,<br />

obwohl H 0 gilt.<br />

Die Höhe des anzulegenden α-Niveaus sollte nicht mechanisch/unüberlegt mit 5% oder 1%<br />

übernommen werden, sondern von vor (!) der Testdurchführung vorgenommenen Risiko-<br />

Überlegungen abhängen, nämlich von den (erheblichen, z.B. teuren) Konsequenzen, die eine<br />

irrtümliche Entscheidung für H 1 haben könnte, in jenem inhaltlichen Bereich, aus dem die<br />

Fragestellung stammt.<br />

Ein signifikant ausgefallener t-Test besagt nur, dass H 1 angenommen wird, dass also µ 1 - µ 2 ≠<br />

0 ist. Über das Ausmaß der Differenz wird nichts ausgesagt. Dazu kann aber das Konfidenzintervall<br />

eine gewisse Aussage machen, nämlich dass die Differenz der Mittelwerte beider<br />

Grundgesamtheiten mit einer voreingestellten Wahrscheinlichkeit, z.B. 95%, in einem<br />

gewissen Bereich (untere Grenze/obere Grenze) liegen wird.<br />

Nunmehr sind wir in der Lage, die t-Test-Prozedur mit Verständnis aufzurufen. Mit<br />

Analysieren fi Mittelwerte vergleichen fi T-Test bei unabhängigen Stichproben<br />

erhalten wir das erste Dialogfeld des Tests:<br />

Abb. 69: t -Test bei unabhängigen Stichproben<br />

Während wir in das Feld der Testvariablen die „abhängige“ Variable eingeben, geben wir<br />

unter „Gruppenvariable“ die „unabhängige“ (oder bedingende) Variable ein, also jene, von<br />

der wir annehmen, dass von ihren Ausprägungen/Stufen/Einzelbedingungen die Messwerte<br />

der Fälle (Personen) auf der abhängigen Variablen abhängen.<br />

Der Versuchsplan im Hintergrund<br />

Mit den Begriffen „unabhängige“ Variable (UV) und „abhängige“ Variable (AV) wird<br />

signalisiert, dass im Hintergrund der t-Test-Anwendung ein Versuchsplan steht. Z.B. kann in<br />

der Depressionsforschung eine neue noch hypothetische Therapie entwickelt worden sein,<br />

deren Wirksamkeit nun empirisch untersucht werden soll. Deshalb erhält eine erste<br />

Stichprobe aus einer definierten Population von Depressiven die Therapie, während eine<br />

zweite Stichprobe aus dieser Population keine Therapie erhält (Kontrollgruppe). Die<br />

unabhängige Variable (UV) besitzt jetzt zwei Gruppen (Stichproben), die Gruppe der<br />

Therapierten und die Gruppe der Nicht-Therapierten. Die abhängige Variable (AV) wird<br />

natürlich ein Test sein, der das Ausmaß einer vorliegenden Depression misst. Während sich<br />

vor der Therapie die beiden Gruppen im Ausmaß ihrer durchschnittlichen Depression nur<br />

Seite - 93 -


Skript: Benutzung von SPSS<br />

zufällig unterscheiden können (Zufallsstichproben), wird aufgrund der Theorie, auf der die<br />

neu entwickelte Therapie fußt, angenommen, dass diese in bestimmter Weise wirken wird.<br />

Nach Beendigung der Therapie sollten sich die Depressionsmittelwerte beider Stichproben<br />

deshalb nicht mehr nur zufällig unterscheiden, sondern aufgrund des Therapie-Einflusses<br />

verschieden sein, und zwar so, dass die therapierte Stichprobe jetzt einen kleineren<br />

Depressionswert aufzeigt. Es liegt damit aufgrund des Versuchsplans eine einseitige<br />

(gerichtete) Fragestellung vor.<br />

Damit ist kurz der Zusammenhang von Theorienbildung/Forschung → Versuchsplanung →<br />

Statistik → EDV/SPSS aufgezeigt worden. Er steht bei jeder Anwendung von SPSS im<br />

Hintergrund. Man sollte sich dieses Zusammenhangs immer bewusst sein.<br />

Nachdem wir die Gruppenvariable (UV) eingegeben haben, sind die Gruppen zu definieren.<br />

Durch Anklicken des entsprechenden Taste erhalten wir das folgende Dialogfeld<br />

Abb. 70: Gruppen definieren<br />

Hier geben wir die numerischen Codes der beiden Gruppen ein, so wie sie in der Datenmatrix<br />

in der Gruppenvariablen stehen. Dadurch kann sich SPSS die Fälle heraussuchen, die zu den<br />

damit bezeichneten Gruppen gehören. Sollte eine Gruppierungsvariable mehr als zwei Werte<br />

aufweisen (in der Regel liegt dann eine kontinuierliche Variable vor), kann man den Knopf<br />

CUT POINT betätigen und einen Trennwert eingeben. Dann werden zur ersten Gruppe alle<br />

Fälle gezählt, die kleiner als dieser kritische Wert sind, und zur zweiten Gruppe alle Fälle mit<br />

Werten, die gleich dem kritischen Wert oder größer sind. (Fälle mit fehlenden Werten werden<br />

natürlich nicht berücksichtigt.) Z.B. könnte ein Trennwert der Median-Wert (50%-Punkt)<br />

sein. Dann würde die Gesamtstichprobe aller Fälle in zwei Unterstichproben aufgeteilt<br />

werden. Ob das Sinn macht, hängt aber ganz von der Fragestellung ab, die ein Versuch(splan)<br />

beantworten soll.<br />

Im Dialogfeld OPTIONEN<br />

Abb. 71: Dialogfeld OPTIONEN<br />

kann der Sicherheitsgrad des Konfidenzintervalls festgelegt werden. Voreingestellt ist 95%.<br />

Des weiteren kann die Behandlung fehlender Werte bestimmt werden. Beim analyseweisen<br />

Ausschluss werden nur solche Fälle einbezogen, die in der Gruppierungsvariable und in der<br />

Testvariable keinen fehlenden Wert aufweisen (Normalfall). Sollten allerdings mehrere<br />

Testvariablen im vorausgehenden Dialogfeld eingegeben worden sein, dann werden nur jene<br />

Fälle ausgewählt, die in allen Variablen dieser Variablenliste einen gültigen Wert aufweisen<br />

(listenweiser Fallausschluss). Für jede Testvariable würde der t-Test gerechnet werden.<br />

Die Ausgabe sieht wie folgt aus:<br />

Seite - 94 -


Skript: Benutzung von SPSS<br />

Gruppenstatistiken<br />

P6 DEPR SUMME<br />

D01 BIS D15<br />

GESCHLECHT<br />

WEIBL<br />

MAENNL<br />

N<br />

Mittelwert<br />

Standardab<br />

weichung<br />

Standardfe<br />

hler des<br />

Mittelwertes<br />

260 2.99 3.420 .212<br />

145 1.71 2.840 .236<br />

Test bei unabhängigen Stichproben<br />

P6 DEPR SUMMEVarianzen sind gleich<br />

D01 BIS D15 Varianzen sind nicht<br />

gleich<br />

Levene-Test der<br />

Varianzgleichheit<br />

F<br />

Signifikanz<br />

T df Sig. (2-seitig)<br />

T-Test für die Mittelwertgleichheit<br />

Mittlere Standardfehle<br />

95% Konfidenzintervall<br />

der Differenz<br />

Differenz r der Differenz Untere Obere<br />

8.028 .005 3.824 403 .000 1.28 .334 .621 1.935<br />

4.029 345.414 .000 1.28 .317 .654 1.902<br />

Abb. 72: Output des t-Tests für unabhängige Stichproben<br />

In diesem Output erkennen wir, dass zwei t-Tests durchgeführt wurden, einen unter der<br />

Annahme, dass die Varianzen beider Populationen gleich sind, und einen unter der Annahme,<br />

dass sie ungleich sind.<br />

Levene-Test<br />

Zuvor wurde der Levene-Test zur Prüfung der Gleichheit mit Hilfe des F-Testes durchgeführt,<br />

der auf einer weiteren Zufallsverteilung, der F-Verteilung basiert. Der Test vergleicht die<br />

beiden Stichprobenvarianzen miteinander, indem er die Nullhypothese prüft, dass die beiden<br />

Varianzen aus Grundgesamtheiten mit gleichen Varianzen stammen, d.h. mögliche<br />

Varianzunterschiede nur stichprobenbedingt zufällig sind. Zur Entscheidung, ob die<br />

Nullhypothese beizubehalten ist, ist wieder ein α-Fehler-Niveau anzulegen. Dazu sollte hier<br />

ein höheres Niveau gewählt, z.B. α = 0,20. Dies liegt daran, dass hier bei der Prüfung der<br />

Voraussetzung gleicher Varianzen für den t-Test unser Interesse darauf gerichtet ist, die H 0<br />

beizubehalten, und nicht, wie sonst üblich, sie zu verwerfen, weil wir in Wahrheit die H 1 -<br />

Hypothese meinen. Wir haben es hier also mit einer Fragestellung zu tun, bei der nicht die<br />

Wahrscheinlichkeit des α-Fehlers (Entscheidung zugunsten von H 1 , obwohl in der Population<br />

H o gilt), sondern die Wahrscheinlichkeit des β-Fehlers möglichst klein sein sollte. Der β-<br />

Fehler kennzeichnet die Wahrscheinlichkeit, die H 0 zu akzeptieren, obwohl sie falsch ist.<br />

Wenn wir uns also bei der Überprüfung der Voraussetzung gleicher Varianzen statt gegen den<br />

α-Fehler gegen den β-Fehler absichern wollen, dann bedeutet das, dass die<br />

Wahrscheinlichkeit dafür, dass wir fälschlicherweise behaupten, die Varianzen seien gleich<br />

(H 0 ), möglichst klein sein sollte. Der β-Fehler kann jedoch nur bestimmt werden, wenn eine<br />

spezifische Alternativhypothese vorliegt (Effektgröße: µ 1 ist (mindestens) um den Betrag x<br />

größer als µ 2 ). Da dies bei Überprüfung der Gleichheit der Varianzen praktisch niemals der<br />

Fall ist, müssen wir den β-Fehler indirekt klein halten, indem wir den α-Fehler vergrößern.<br />

Entscheiden wir uns bei einem α = 0,20-Fehler-Niveau für H 0 , wird diese Entscheidung mit<br />

einem kleineren β-Fehler behaftet sein, als wenn wir bei α = 0,05 die H 0 beibehalten.<br />

Nun scheint diese Diskussion ja nicht so relevant zu sein, weil doch, gleichgültig, ob die<br />

Populationsvarianzen gleich sind oder nicht, in jedem Fall ein t-Test gerechnet wird. Der<br />

Unterschied besteht im Folgenden:<br />

Obige Formel zur Berechnung der t-Wertes geht von der Annahme ungleicher Varianzen aus.<br />

Wenn jedoch unterstellt werden kann, dass die Varianzen gleich sind, wird bei der<br />

Berechnung des t-Wertes anstelle der beiden empirischen Gruppenvarianzen ein gewogenes<br />

(„gepooltes") Mittel dieser Varianzen verwendet,<br />

Seite - 95 -


Skript: Benutzung von SPSS<br />

S P<br />

( N<br />

=<br />

1<br />

2<br />

−1)<br />

⋅ S1<br />

+ ( N2<br />

− 1) ⋅S<br />

N + N − 2<br />

1<br />

2<br />

2<br />

2<br />

d.h. beide werden zu einer Varianz zusammengefasst, welche dann in der obigen t-Test-<br />

Formel an den Stellen der beiden empirischen Gruppenvarianzen eingesetzt wird.<br />

Die Ergebnisse des t-Tests auf der Basis gewogener Varianzen werden von SPSS also in der<br />

Zeile Varianzen sind gleich ausgewiesen.<br />

Im Falle gewogener Varianzen kann der t-Test dann leicht zu Fehlern führen, wenn entgegen<br />

der Annahme doch ein Unterschied zwischen den Varianzen der Grundgesamtheiten besteht.<br />

Der Fehler ist um so größer, je stärker sich die Varianzen unterscheiden. Wird umgekehrt der<br />

t-Test für ungleiche Varianzen durchgeführt, obwohl in Wahrheit gleiche Varianzen<br />

vorliegen, wird die Irrtumswahrscheinlichkeit etwas zu hoch ausgewiesen. Sollten Zweifel<br />

bezüglich der Annahme gleicher Varianzen bestehen, wird man deshalb vorsichtigerweise den<br />

Test für ungleiche Varianzen wählen. Allgemein gilt aber, dass sich bei großen Stichproben<br />

nur geringe Unterschiede zwischen den beiden Testverfahren ergeben.<br />

Signifikanzprüfung<br />

Die Sig.(2-seitig) meint die Wahrscheinlichkeit, mit der die beobachtete Mittelwertedifferenz<br />

gemäß t-Verteilung zufällig auftritt. Ist sie


Skript: Benutzung von SPSS<br />

Kontrollgruppe verzichten würden und die Patienten vor und nach der Therapie testen<br />

würden. Dann hoffen wir natürlich darauf, dass der Mittelwert der Patienten nach der<br />

Therapie geringer ausfallen wird als vorher (H 1 ). Bei einem solchen Versuchsplan sind aber<br />

die Depressionsmessungen nicht unabhängig voneinander, da beide Messungen an denselben<br />

Personen vorgenommen wurden. Statt von zwei Messungen spricht man formal auch von<br />

zwei voneinander abhängigen Stichproben. Da ihre Messwerte nicht voneinander unabhängig<br />

sind, werden es ihre Mittelwerte auch nicht sein.<br />

Ein anderer Fall der Abhängigkeit liegt vor, wenn jeweils eine Person aus einer ersten<br />

Stichprobe und eine zweite aus einer zweiten Stichprobe so ausgewählt werden, dass sie nach<br />

einem oder mehreren Merkmalen ein Paar bilden, d.h. die gleichen Merkmalsausprägungen<br />

aufweisen. Man spricht dann von parallelisierten Stichproben (matched samples). Der<br />

Vorteil dieser aufwendigen Vorgehensweise (gegenüber unabhängigen Stichproben) besteht<br />

darin, dass zufällige Unterschiede zwischen beiden Stichproben in Bezug auf ihre<br />

Zusammensetzung ausgeschlossen oder zumindest vermindert werden.<br />

Es gibt noch weitere Anwendungsfälle. Entscheidend ist, dass die einzelnen Beobachtungen<br />

der zu vergleichenden Gruppen nicht unabhängig voneinander zustande kommen, sondern<br />

jeweils paarweise ein systematischer Zusammenhang besteht. Daraus folgt auch, dass die<br />

beiden Stichproben die gleiche Anzahl von Fällen aufweisen müssen.<br />

Beim t-Test für abhängige Stichproben ist also zu berücksichtigen, dass die Varianz der einen<br />

Messwertreihe/Stichprobe von der Varianz der anderen Messwertreihe/Stichprobe beeinflusst<br />

wird. Wenn wir z.B. die Patienten therapieren, können die Unterschiede zwischen den<br />

Patienten, die vor der Therapie bestanden haben, auch noch nach ihr bestehen. Wenn wir nun<br />

den Standardfehler der Differenz so wie bei unabhängigen Stichproben schätzen würden,<br />

nämlich durch die Wurzel aus der Summe der Quadrate der geschätzten Standardfehler der<br />

beiden zu vergleichenden Mittelwerte (vgl. den Divisor in obiger t-Test-Formel), würden<br />

Unterschiede zwischen den Patienten, die vor und nach der Therapie bestünden, doppelt<br />

berücksichtigt werden, weil sie den Standardfehler des ersten und des zweiten Mittelwertes<br />

zumindest teilweise beeinflussen. Der Anteil der gemeinsamen Varianz würde dabei um so<br />

größer sein, je höher beide Stichproben korrelieren. Die Formel für die Schätzung des durch<br />

die Korrelation verringerten Standardfehlers für die Differenz zweier Mittelwerte lautet<br />

S<br />

2 2<br />

M1 − M<br />

= S 2<br />

2 M<br />

+ S<br />

1 M<br />

− r<br />

2 12<br />

⋅ SM<br />

⋅S<br />

1 M 2<br />

In der Praxis berechnet man ihn meistens anders. Die zweifache Berücksichtigung der<br />

gleichen Unterschiedlichkeit lässt sich nämlich umgehen, indem man für jedes Messwertpaar<br />

die Differenz bildet und anschließend den Mittelwert M d der Differenzen berechnet. Sodann<br />

interessiert uns die Verteilung solcher Mittelwerte. Deren geschätzte Streuung, der<br />

Standardfehler der Verteilung der Mittelwerte der Differenzen, lautet, analog zur Schätzung<br />

des Standardfehlers des arithmetischen Mittels,<br />

S<br />

M d<br />

=<br />

S<br />

d<br />

N<br />

sodass sich der t-Wert für abhängige Stichproben nach der Formel<br />

t =<br />

M<br />

S<br />

d<br />

M d<br />

berechnen lässt.<br />

M d ist auch gleich der Differenz aus den Mittelwerten beider Stichproben.<br />

Seite - 97 -


Skript: Benutzung von SPSS<br />

Nunmehr können wir den t-Test für abhängige Stichproben in SPSS aufrufen.<br />

Analysieren fi Mittelwerte vergleichen fi T-Test bei gepaarten Stichproben<br />

Abb. 73: T-Test bei gepaarten Stichproben<br />

Im Dialogfeld ist ein „Variablenpaar“ auszuwählen, d.h. dass SPSS statt von zwei<br />

Stichproben mit einer abhängigen Variablen (einer Testvariablen) formal von einer<br />

Stichprobe ( N = Anzahl der Paare) mit zwei Variablen (das sind die beiden Messungen)<br />

spricht. Die Stichprobe besteht also jetzt aus allen Fällen des Datensatzes, bzw. aus einer<br />

vorher ausgewählten Unterstichprobe.<br />

Man kann auch mehrere Variablenpaare auswählen, wobei eine Variable auch in mehreren<br />

Paaren vorkommen kann. Für jedes Paar wird anschließend ein eigener t-Test durchgeführt.<br />

Alternativ könnte man die ganze Prozedur auch wiederholt aufrufen, für jedes Paar einzeln.<br />

Dabei könnten sich allerdings evtl. Unterschiede in der Behandlung fehlender Werte ergeben:<br />

statt listenweisen Fallausschluss, Fallausschluss Test für Test, je nach Einstellung im<br />

Folgefeld OPTIONEN. Dort kann auch wieder der Sicherheitsgrad für das Konfidenzintervall<br />

eingestellt werden.<br />

Der Output bedarf wohl keiner weiteren Erläuterung. Ausgegeben wird auch die Korrelation<br />

zwischen beiden Messwertreihen/Variablen. Sie wird daraufhin überprüft, ob sie von r = 0<br />

(Nullhypothese) verschieden ist. Wie erinnerlich, ist der Korrelationskoeffizient ein Maß für<br />

die Stärke des linearen Zusammenhangs. Mit ihm wird daher ausgesagt, ob Personen, die in<br />

der einen Messwertreihe einen hohen/niedrigen Wert aufweisen, dies tendenziell auch in der<br />

anderen Messwertreihe tun. Der Koeffizient kann daher auch Hinweis dafür sein, ob das<br />

Paaren zufällige Unterschiede gegenüber der Ziehung unabhängiger Stichproben vermindern<br />

kann. Je größer der Koeffizient, desto größer ist der lineare Zusammenhang zwischen beiden<br />

Gruppen, so dass auch das Paaren eine entsprechende Auswirkung gehabt haben muss.<br />

15.1.4 t-Test bei einer Stichprobe<br />

Es wird geprüft, ob, mit welcher Wahrscheinlichkeit der Mittelwert µ der Population, aus der<br />

die Stichprobe gezogen wurde, einen vorgegebenen Wert über- oder unterschreitet. Z.B. kann<br />

geprüft werden, ob der durchschnittliche Intelligenzwert einer Stichprobe signifikant vom<br />

bekannten oder zu postulierenden Mittelwert der Population (µ = 100 als vorzugebener<br />

Testwert) abweicht. Oder es kann geprüft werden, ob der Mittelwert von dem Wert abweicht,<br />

der sich in einer anderen Studie ergeben haben möge.<br />

Die t-Verteilung ist anwendbar, da, wenn Stichproben des Umfangs N aus einer<br />

normalverteilten Grundgesamtheit gezogen werden, sich die am geschätzten Standardfehler<br />

S M relativierten Differenzen M - µ entsprechend einer t-Verteilung mit N-1 Freiheitsgraden<br />

verteilen.<br />

Seite - 98 -


Skript: Benutzung von SPSS<br />

Die Ausgabe enthält ferner ein Konfidenzintervall für den Populationsmittelwert µ. Das<br />

Intervall gibt an, dass µ mit einer Wahrscheinlichkeit von z.B. 95% im Bereich „vorgegebener<br />

Testwert + ausgegebene untere Grenze“ und „vorgegebener Wert + ausgegebene obere<br />

Grenze“ liegt.<br />

Analysieren fi Mittelwerte vergleichen fi T-Test bei einer Stichprobe<br />

Abb. 74: T-Test bei einer Stichprobe<br />

Zunächst geben wir die Testvariable ein, z.B. die Testvariable „IQ“. (Die Stichprobe besteht<br />

aus allen Fällen (Personen) des Datensatzes, bzw. aus alle Fällen, die wir vorher ausgewählt<br />

haben.) Sodann geben wir den Testwert ein, z.B. 100. Im Dialogfeld Optionen<br />

Abb. 75: T-Test bei einer Stichprobe: Optionen<br />

kann der Sicherheitsgrad des Konfidenzintervalls festgelegt werden. Voreingestellt ist 95%.<br />

Des weiteren kann die Behandlung fehlender Werte bestimmt werden, wie bereits bekannt.<br />

Die Ausgabe sieht wie folgt aus:<br />

Abb. 76: Ausgabe des Ein-Stichproben-T-Tests<br />

Der ausgegebene t-Wert oder ein noch größerer kommt bei x Freiheitsgraden (df: degrees of<br />

freedom) gemäß t-Verteilung mit der ebenfalls ausgegebenen Wahrscheinlichkeit p (Sig. (2-<br />

seitig) zufällig vor. Zur Entscheidung, ob also in jener Population, aus dem die Stichprobe<br />

stammt, µ vom vorgegebenen Testwert verschieden ist, ist wieder ein α-Fehler-Niveau<br />

(Signifikanzniveau) anzulegen. Sollte p


Skript: Benutzung von SPSS<br />

stattdessen H 1 akzeptieren, dass also ein solcher Unterschied in der Grundgesamtheit<br />

tatsächlich vorhanden ist.<br />

Ein derart signifikanter t-Test besagt nur, dass µ überhaupt vom vorgegebenen Testwert<br />

verschieden ist. Über die Größe des Abstands beider Werte wird nichts ausgesagt. Dazu kann<br />

aber das Konfidenzintervall gewisse Hinweise geben, dessen (gemäß voreingestelltem<br />

Sicherheitsgrad) untere und obere Grenzen mit ausgegeben werden. Um die tatsächlichen<br />

Grenzen zu bestimmen, in denen µ gemäß eingestelltem Sicherheitsgrad liegen wird, sind<br />

diese Grenzen je nach Vorzeichen zum vorgegebenen Testwert zu addieren/subtrahieren.<br />

(Hinweis: Das Konfidenzintervall ist also keins für das Populationsmittel µ, sondern eins für<br />

die Differenz µ - Testwert. Falls man die Grenzen für µ direkt haben möchte, müsste der<br />

Testwert 0 eingegeben werden. Die Ergebnisse des t-Tests wären dann aber nicht sinnvoll und<br />

dürften nicht beachtet werden.)<br />

15.2 Einfache Varianzanalyse<br />

Die einfache (einfaktorielle, One-Way) Varianzanalyse (VA, engl. Analysis of Variance<br />

ANOVA) stellt eine Erweiterung des t-Tests für unabhängige Stichproben von 2 auf k<br />

Stichproben dar. Geprüft wird die Nullhypothese, dass die Mittelwerte der k Populationen,<br />

aus denen die k Stichproben gezogen wurden, gleich groß sind (nur 2-seitig):<br />

µ 1 = µ 2 = ... = µ k .<br />

Eine „einfache“ VA heißt, dass nur eine Gruppierungsvariable (unabhängige Variable, UV)<br />

vorliegt. Diese wird auch als (Einfluss- oder bedingender) „Faktor“ bezeichnet.<br />

Im Falle von nur 2 Stichproben ist das Ergebnis der VA und des t-Tests identisch: t = F .<br />

Voraussetzungen zur Anwendung der VA sind, wie schon bei den t-Tests,<br />

a) dass die Stichproben aus normalverteilten Populationen stammen. Dazu gibt es inferenzstatistische<br />

Tests, aber auch graphische Tests als Normalverteilungsplots.<br />

b) dass die Varianzen der Grundgesamtheiten gleich sind. Das kann wieder mit dem Levene-<br />

Test überprüft werden.<br />

Grundsätzlich ist auf „nichtparametrische“ bzw. sog. „verteilungsfreie“ Verfahren<br />

auszuweichen, wenn die Voraussetzungen zur Anwendung eines parametrischen Tests nicht<br />

gegeben sind. Beim t-Test für unabhängige Stichproben wäre das der U-Test von Mann-<br />

Whitney, beim t-Test für abhängige Stichproben der Wilcoxon-Test. Bei der hier jetzt<br />

erörterten einfaktoriellen VA wäre es der H-Test von Kruskal und Wallis.<br />

Bei der Varianzanalyse wird die gesamte Streuung über die Fälle (Personen) aller k<br />

Stichproben hinweg in zwei voneinander unabhängige Quellen zerlegt („Varianz-Analyse“),<br />

in eine Streuung „zwischen“ den Stichproben und in eine Streuung innerhalb der Stichproben:<br />

Quadratsumme „total“ = Quadratsumme „zwischen“ + Quadratsumme „innerhalb“<br />

Auch die zugehörigen Freiheitsgrade folgen dieser Zerlegung:<br />

Freiheitsgrade „total“ = Freiheitsgrade „zwischen“ + Freiheitsgrade „innerhalb“<br />

Als Formel: N-1 = (k-1) + (N-k)<br />

wobei N die Gesamtzahl der Fälle über alle k Gruppen darstellt, also N = n*k, wenn wir mit n<br />

die bei allen Stichproben gleiche Stichprobengröße bezeichnen. (Gleiches n für alle<br />

Stichproben ist aber nicht unbedingt notwendig).<br />

Seite - 100 -


Skript: Benutzung von SPSS<br />

Die zugehörigen Varianzen erhalten wir, indem wir durch die zugehörigen Freiheitsgrade<br />

dividieren:<br />

S = QS z /(k-1)<br />

2<br />

z<br />

2<br />

i<br />

S = QS i /(N-k)<br />

Quadratsummen, die durch ihre Freiheitsgrade dividiert worden sind, werden auch als<br />

„Mittlere Quadrate“ bezeichnet. Entsprechend auch<br />

2<br />

S<br />

t<br />

= QS t /(N-1)<br />

Die Varianz „innerhalb“ gibt an, wie sehr die einzelnen Werte in den Stichproben um ihren<br />

jeweiligen Gruppenmittelwert streuen, die Varianz „zwischen“, wie sehr die Mittelwerte der<br />

Stichproben um den Mittelwert der gesamten Stichprobe streuen, die Varianz „total“, wie sehr<br />

alle Fälle um diesen Mittelwert streuen.<br />

Der inferenzstatistische Ansatz besteht nun darin, dass mit den beiden mittleren Quadraten<br />

„zwischen“ und „innerhalb“ zwei voneinander unabhängige Schätzungen der unter H 0 nur<br />

einen Populationsvarianz σ 2 vorliegen. Entsprechend prüft die Varianzanalyse mithilfe des F-<br />

Testes die Nullhypothese, ob die beiden Varianzen nur zufällig voneinander abweichen:<br />

F = geschätzte Varianz „zwischen“ / geschätzte Varianz „innerhalb“ wobei wir die Varianz<br />

„zwischen“ in den Zähler setzen, da wir an der Frage interessiert sind, ob die Varianz der k<br />

Mittelwerte noch als zufällig angesehen werden kann oder nicht.<br />

Die Varianz „innerhalb“ halten wir für die bessere, verlässlichere Schätzung, die nicht von<br />

möglichen Unterschieden „zwischen“ den Gruppen beeinflusst wird. Auch haben wir keinen<br />

sonstigen Grund anzunehmen, dass sie aus irgendeiner Ursache von der unter H 0<br />

angenommenen einen Populationsvarianz wesentlich abweichen könnte. Alle sind ja<br />

Zufallsstichproben. Sie müsste also eine echte „Fehlervarianz“ darstellen. Dagegen erwarten<br />

wir aufgrund eines Versuchsplans „zwischen“ den Gruppenmittelwerten Unterschiede, d.h.<br />

aufgrund inhaltlicher Begründungen/Hypothesen, so dass der Varianzanalyse folgende<br />

Hypothese zugrunde liegt:<br />

H 0 : µ 1 = µ 2 = µ 3 = ... = µ k<br />

H 1 : µ i ≠ µ j ,<br />

d.h. mindestens 2 Mittelwerte sind ungleich, prinzipiell zweiseitige Fragestellung<br />

(Aufgrund einer Konvention (vgl. die Definition der F-Verteilung bzw. des F-Tests) ist es<br />

üblich, die (per H 1 anzunehmende) größere Variation, hier die Varianz „zwischen“, in den<br />

Zähler des F-Bruches zu setzen. Die Durchführung eines F-Tests erübrigt sich, wenn die<br />

Varianz im Zähler kleiner als im Nenner ist. Der F-Wert beginnt erst mit Werten > 1. Der<br />

Varianzunterschied wird damit einseitig geprüft, Abschnitt nur von der rechten Seite der F-<br />

Verteilung.)<br />

Die Zufallsverteilung von F ist bekannt. Mit ihrer Hilfe kann also die Wahrscheinlichkeit<br />

ermittelt werden, mit der ein beobachteter/aufgrund der Stichproben berechneter F-Wert oder<br />

ein noch größerer sich per Zufallsschwankung auch ergeben kann, wenn die Mittelwerte der k<br />

Populationen gleich sind.<br />

Nach dieser kurzen Rekapitulation dessen, was zum Verständnis des Outputs des<br />

Rechenverfahrens mindestens notwendig ist, können wir nunmehr die Rechenprozedur<br />

starten:<br />

Seite - 101 -


Skript: Benutzung von SPSS<br />

Analysieren fi Mittelwerte vergleichen fi Einfaktorielle ANOVA<br />

Der Befehl öffnet das folgende Dialogfeld:<br />

Abb. 77: Einfaktorielle ANOVA<br />

Als abhängige Variable(n) fügen wir jene Variablen ein, deren Stichprobenmittelwerte<br />

verglichen werden sollen. Bei mehreren abhängigen Variablen wird für jede eine VA<br />

durchgeführt. (Dann allerdings werden nur solche Fälle einbezogen, die in keiner dieser<br />

Variablen fehlende Werte aufweisen.)<br />

Im Feld Faktor wird die UV eingefügt, also jene, die die Stichproben/Gruppen definiert.<br />

Nunmehr könnte die VA bereits gestartet werden. Wir wollen jedoch noch einige Angaben zu<br />

den drei Tasten machen, die man noch in diesem Dialogfeld betätigen kann.<br />

Taste OPTIONEN: Hier können mit der Option DESKRIPTIVE STATISTIK für jede Gruppe<br />

die Anzahl ihrer Fälle, ihr Mittelwert, ihre Standardabweichung, der Standardfehler des<br />

Mittelwertes und das 95%-Konfidenzintervall (untere und obere Grenze), das aufgrund des<br />

Standardfehlers und dieses Sicherheitsgrades berechnet werden kann, angefordert werden.<br />

Das Konfidenzintervall besagt, dass das µ der Population, aus der die Stichprobe gezogen<br />

wurde, mit der voreingestellten Wahrscheinlichkeit im angegebenen Bereich liegen wird.<br />

Lautet der Mittelwert einer Stichprobe z.B. M= 3,12 und sein Standardfehler S M = 0,087,<br />

dann betragen die Grenzen M+-S M *z 95% = 3,12 + -0,087*1,96, d.h. UG =2,95 und OG =<br />

3,29. Der Standardfehler wird also mit dem (zweiseitigen) t-Wert bzw. bei größeren<br />

Stichproben z-Wert (hier z = 1,96) des voreingestellten Sicherheitsgrades multipliziert und<br />

dieser Bereich sowohl zur einen als auch zur anderen Seite des empirischen Mittelwertes<br />

geschlagen, um aussagen zu können, in welchem Bereich µ mit 95%-iger Sicherheit liegen<br />

wird. Bei z = 2,58 würde der 99%-Sicherheitsbereich berechnet werden. Sollten sich die<br />

Sicherheitsbereiche der Gruppen nicht überschneiden, so würde das bereits andeuten, dass die<br />

Mittelwerte der Populationen möglicherweise verschieden sind.<br />

Option HOMOGENITÄT DER VARIANZEN: Hier wird der Levene-Test auf Gleichheit der<br />

Varianzen in den k Populationen durchgeführt. (Er gibt aufgrund einer Maßzahl mit bekannter<br />

Verteilung an, mit welcher Wahrscheinlichkeit die k Stichproben k Populationen mit gleichen<br />

Varianzen entstammen.)<br />

Wenn wir also einen Faktor (UV) und eine abhängige Variable aus unserem Datensatz<br />

eingegeben haben, hier den Faktor Einkommen und als AV das Ergebnis eines<br />

Depressionstests einer Befragung von über 69 Jahre alten Patienten von Allgemeinarztpraxen,<br />

und ferner Deskriptive Statistiken und den Levene-Test angefordert haben, sieht das Ergebnis<br />

wie z.B. folgt aus:<br />

Seite - 102 -


Skript: Benutzung von SPSS<br />

P6 DEPR SUMME D01 BIS D15<br />

BIS DM 1.199<br />

DM 1.200-1.599<br />

DM 1.600-1.999<br />

DM 2.000-2.399<br />

DM 2.400-2.799<br />

DM 2.800-3.199<br />

DM 3.200 UND MEHR<br />

Gesamt<br />

N<br />

Mittelwert<br />

ONEWAY deskriptive Statistiken<br />

Standardab<br />

weichung<br />

95%-Konfidenzintervall für<br />

Standardf den Mittelwert<br />

ehler Untergrenze Obergrenze<br />

Minimum<br />

Maximum<br />

24 3.29 4.048 .826 1.58 5.00 0 13<br />

30 4.47 3.748 .684 3.07 5.87 0 14<br />

32 3.09 3.550 .628 1.81 4.37 0 13<br />

54 2.46 3.161 .430 1.60 3.33 0 12<br />

47 2.04 2.621 .382 1.27 2.81 0 9<br />

49 2.04 3.075 .439 1.16 2.92 0 11<br />

86 1.71 2.765 .298 1.12 2.30 0 11<br />

322 2.45 3.225 .180 2.09 2.80 0 14<br />

Test der Homogenität der Varianzen<br />

P6 DEPR SUMME D01 BIS D15<br />

Levene-St<br />

atistik df1 df2 Signifikanz<br />

2.223 6 315 .041<br />

P6 DEPR SUMME D01 BIS D15<br />

Zwischen den Gruppen<br />

Innerhalb der Gruppen<br />

Gesamt<br />

Quadrats<br />

umme<br />

ONEWAY ANOVA<br />

Abb. 78: Ergebnis einer einfaktoriellen Varianzanalyse<br />

df<br />

Mittel der<br />

Quadrate F Signifikanz<br />

215.467 6 35.911 3.621 .002<br />

3124.135 315 9.918<br />

3339.602 321<br />

Der Output ist nach den obigen Ausführungen leicht zu verstehen:<br />

Wie man zunächst bei den deskriptiven Statistiken sieht, sind die Depressions-Mittelwerte der<br />

gebildeten Einkommensstufen durchaus verschieden, mitunter sogar doppelt so hoch wie<br />

andere. Auch scheinen sie mit zunehmendem Einkommen abzufallen. Jedoch überschneiden<br />

sich die Konfidenzintervalle z.T. erheblich.<br />

Der Levene-Test ist auf den 20%-Niveau nicht signifikant. Zur Erinnerung: Wir meinen hier<br />

die Nullhypothese.<br />

Im Ergebnis der VA erscheinen die Quadratsummen „zwischen“ und „innerhalb“, deren<br />

Summe die Quadratsumme „gesamt“ ergibt. Gleiches gilt für die Freiheitsgrade. Der F-Wert<br />

ergibt sich durch die Division des mittleren Quadrats „zwischen“ durch das mittlere Quadrat<br />

„innerhalb“. Bei df 1 zwischen-Zähler-Freiheitsgraden und df 2 innerhalb-Nenner-Freiheitsgraden<br />

für den F-Test ergibt sich die ausgegebene Zufallswahrscheinlichkeit („Signifikanz“), die<br />

mit dem vorher bestimmten Signifikanzniveau zu vergleichen ist, um zu einer Entscheidung<br />

zu kommen.<br />

Im Falle von nur zwei Gruppen ist, wie erwähnt, dass Ergebnis mit dem t-Test identisch. Die<br />

Quadratwurzel des F-Wertes ergibt den t-Wert. Ferner ist dann df 1 „zwischen“ = 1, und df 2<br />

„innerhalb“ entspricht der Zahl der Freiheitsgrade des t-Tests.<br />

Seite - 103 -


Skript: Benutzung von SPSS<br />

15.2.1 „A-PRIORI“-KONTRASTE<br />

Taste KONTRASTE wieder des ersten Dialogfeldes:<br />

Die VA vergleicht alle k Mittelwerte gleichzeitig und nur zweiseitig, wobei sie nur einen (!)<br />

Test durchführt. Oft besteht die Hypothese jedoch nicht darin, ob sich die Mittelwerte der k<br />

Populationen überhaupt unterscheiden, so dass man eigentlich keine VA rechnen möchte,<br />

sondern man hat aufgrund inhaltlicher Überlegungen a priori genauere Hypothesen/inhaltliche<br />

Erwartungen. Z.B. könnte man bei drei Gruppen, einer Versuchsgruppe 1, einer Versuchsgruppe<br />

2 und einer Kontrollgruppe, erwarten, dass sich die erste Gruppe von der<br />

Kontrollgruppe und die zweite Gruppe von der Kontrollgruppe unterscheiden, und zwar z.B.<br />

höhere Werte gegenüber der Kontrollgruppe in der AV aufweisen müssten. Dann sind vom<br />

Versuchsplan her zwei einseitige Vergleiche zwischen je zwei Gruppen gemeint, also<br />

gerichtete t-Tests.<br />

Kontrast-Vergleiche sind t-Test-Vergleiche zwischen einzelnen Gruppen. Dabei besteht<br />

insbesondere die Möglichkeit, die Mittelwerte mehrerer Gruppen zu mitteln und mit<br />

Einzelmittelwerten anderer Gruppen oder mit Mittelwerten der Mittelwerte anderer Gruppen<br />

zu vergleichen.<br />

(Zu beachten ist, dass ein durchschnittlicher Mittelwert nicht mit dem Mittelwert<br />

übereinstimmen muss, der sich ergäbe, wenn die Gruppen zu einer Gruppe<br />

zusammengeworfen werden und von dieser dann der Mittelwert berechnet werden würde. Nur<br />

wenn die Einzelgruppen die gleiche Anzahl von Fällen enthalten stimmt der Mittelwert der<br />

Mittelwerte mit dem Mittelwert der zusammengeworfenen neuen Gruppe überein.)<br />

Zwecks Mittelung der Mittelwerte mehrerer Gruppen gibt man unterschiedliche Gewichte<br />

vor, mit denen die einzelnen Mittelwerte in die Berechnung des Gesamtmittelwertes eingehen<br />

sollen:<br />

a) Bei der gewöhnlichen Mittelung, z.B. M neu = 1/2 (M 1 + M 2 ) , geht jeder der Mittelwerte<br />

mit gleichem Gewicht ein, nämlich mit dem Gewicht 0,5, so dass man auch M neu =<br />

0,5*M 1 + 0,5*M 2 schreiben könnte.<br />

b) Man könnte aber auch z.B. so gewichten: M neu = 0,8*M 1 + 0,2*M 2<br />

Um Kontraste zu berechnen, klickt man auf die Taste KONTRASTE und gibt in dem sich<br />

öffnenden Dialogfeld in das Eingabefeld KOEFFIZIENTEN Gewichte in der Reihenfolge der<br />

Gruppen des Faktors ein, also für die erste Gruppe ein Gewicht, für die zweite, usw.,<br />

insgesamt k Gewichte. Die Auswahl der Gewichte bestimmt, was für ein Kontrast berechnet<br />

wird, d.h. welche zwei Gruppen miteinander per t-Test verglichen werden. Der Kontrast ist<br />

dabei die Differenz der beiden zu vergleichenden Mittelwerte. Hat man z.B. drei Gruppen mit<br />

den Mittelwerten<br />

M 1 = 6,19 M 2 = 4,72 M 3 = 8,58<br />

und möchte man<br />

• z.B. einfach Gruppe 1 mit Gruppe 3 vergleichen, so gibt man nacheinander<br />

0,5 0 -0,5<br />

als Gewichte ein. Der Kontrast ergibt sich dann als<br />

Kontrast = 0,5 * 6,19 + 0 * 4,72 - 0,5 * 8,58<br />

also als Differenz der beiden zu vergleichenden Mittelwerte, im Output als "Kontrastwert"<br />

bezeichnet. Er stellt eine Linearkombination der Mittelwerte dar.<br />

• z.B. Gruppe 1 und Gruppe 2 gleichberechtigt zusammenfassen und mit Gruppe 3<br />

vergleichen, so wählt man die Koeffizienten<br />

0,5 0,5 -1<br />

so dass sich der Kontrast = 0,5 * 6,19 + 0,5 * 4,72 - 0,5 * 8,58 ergibt.<br />

Seite - 104 -


Skript: Benutzung von SPSS<br />

Natürlich wird man solche Vergleiche nicht willkürlich ansteuern, sondern<br />

hypothesengeleitet/geplant durchführen.<br />

Es muss für jede Gruppe ein Koeffizient eingegeben werden. Die Summe der Koeffizienten<br />

muss Null ergeben. Das wird bei der Eingabe im Dialogfeld kontrolliert, indem dort die<br />

Koeffizientensumme angezeigt wird.<br />

Aus der eben erklärten Koeffizienten-Eingabe folgt, dass alle Gruppen, für die man positive<br />

Koeffizienten eingegeben hat, zu einer Gruppe zusammengefasst werden, entsprechend die<br />

Gruppen mit negativen Vorzeichen zu einer zweiten Gruppe.<br />

Um einen bereits eingefügten Koeffizienten zu korrigieren, wird dieser in der Liste der<br />

Koeffizienten markiert, dann gibt man dafür den Koeffizienten im Eingabefeld ein und klickt<br />

anschließend auf die Schaltfläche ÄNDERN.<br />

Wenn man für alle Gruppen einen Koeffizienten definiert hat, ist der Kontrast vollständig<br />

definiert. Möchte man nach diesem noch weitere Kontraste testen, wird der erste im<br />

Dialogfeld unter Kontrast 1 von 1 eingegeben, die Schaltfläche WEITER gedrückt, der zweite<br />

Vergleich unter Kontrast 2 von 2 definiert, usw. Insgesamt kann man so zwar bis zu zehn<br />

Kontraste bestimmen, was jedoch kaum vorkommen dürfte. Plant man nämlich bestimmte<br />

Vergleiche a priori, so werden es in aller Regel nur wenige sein.<br />

Möchte man sicherstellen, dass bei mehreren Kontrasten die damit definierten t-Tests<br />

paarweise voneinander unabhängig (orthogonal) sind, so sollte für jedes Paar von Kontrast-<br />

Koeffizienten<br />

a 1 a 2 ... a k<br />

b 1 b 2 ... b k<br />

das Skalarprodukt<br />

a 1 * b 1 + a 2 * b 2 + ... + a k * b k = 0<br />

sein.<br />

Orthogonalität ist eine mathematische Bedingung. Es kann vorkommen, dass aufgrund<br />

inhaltlicher Hypothesen Vergleiche gewünscht sind, die nicht unabhängig voneinander sind<br />

und inhaltlich gesehen doch voneinander unabhängige Rückmeldungen geben.<br />

15.2.2 Rechenbeispiel<br />

Man nimmt an, dass Depression nicht (nur) anlagebedingt ist, sondern vor allem durch<br />

Umwelteinflüsse zustande kommt. Wenn man ferner annimmt, dass alte Menschen mit<br />

geringem Einkommen weniger Handlungsmöglichkeiten haben als solche mit hohem<br />

Einkommen, um bestimmten zu Depressionen führenden Situationen aus dem Wege zu gehen,<br />

dann ist a priori zu erwarten, dass sich die unteren Einkommensgruppen von den oberen<br />

unterscheiden müssten, und zwar die oberen einen geringeren Depressionswert ausweisen<br />

müssten. Wir wollen daher a priori die beiden unteren und die beiden oberen<br />

Einkommensgruppen zusammenfassen und miteinander per gerichtetem Kontrast-Test<br />

vergleichen.<br />

Dazu geben wir folgende k = 7 Gewichte ein<br />

-0,5 -0,5 0 0 0 0,5 0,5<br />

(Achtung, SPSS akzeptiert die Dezimalstelle nur als Punkt)<br />

und erwarten damit einen negativen Kontrastwert und t-Wert. Wollen wir ferner auf dem 5%-<br />

Niveau einseitig testen, so haben wir die zweiseitig ausgegebene Irrtumswahrscheinlichkeit p<br />

(„Signifikanz“) noch durch 2 zu dividieren und mit diesem α-Niveau zu vergleichen.<br />

Kontrast-Koeffizienten<br />

Kontrast<br />

1<br />

HAUSHALTSEINKOMMEN<br />

DM<br />

DM<br />

DM<br />

DM<br />

DM DM 3.200<br />

BIS DM 1.199 1.200-1.599 1.600-1.999 2.000-2.399 2.400-2.799 2.800-3.199 UND MEHR<br />

-.5 -.5 0 0 0 .5 .5<br />

Seite - 105 -


Skript: Benutzung von SPSS<br />

Kontrast-Tests<br />

P6 DEPR SUMME<br />

D01 BIS D15<br />

Abb. 79 Kontraste<br />

Kontrast<br />

Varianzen sind gleich 1<br />

Varianzen sind nicht 1<br />

gleich<br />

Kontrastwert<br />

Standardf<br />

ehler T df<br />

Signifikanz<br />

(2-seitig)<br />

-2.00 .515 -3.890 315 .000<br />

-2.00 .599 -3.348 71.541 .001<br />

Diese Division ist im vorliegenden Fall nicht notwendig, da bereits zweiseitig ein<br />

signifikantes Ergebnis besteht.<br />

Wichtige Aufgabe<br />

Bei einem t-Test für unabhängige Stichproben (Annahme: Varianzen sind gleich) werden die<br />

Mittelwerte zweier Gruppen/Stichproben miteinander verglichen, und der Standardfehler der<br />

Differenz wird aus den Varianzen der beiden Stichproben geschätzt. Nun liegen bei einer<br />

Varianzanalyse jedoch mehr als zwei Gruppen/Stichproben vor, so dass man den<br />

Standardfehler aus allen Stichproben schätzen könnte, nämlich mithilfe der Varianz<br />

„innerhalb“ aus der VA. Man würde dann einen t-Test mit mehr Freiheitsgraden erhalten, also<br />

mit einer höheren Teststärke. Überprüfen Sie, ob SPSS das macht, also bei den Kontrasten gar<br />

keinen „normalen“ t-Test mehr rechnet.<br />

15.2.3 MULTIPLE VERGLEICHSTESTS<br />

Taste POST HOC: Post Hoc meint a posteriori-Vergleiche. Solche kann man erwägen, wenn<br />

die VA signifikant ausgefallen ist, die Mittelwerte der entsprechenden Grundgesamtheiten<br />

also wahrscheinlich nicht alle gleich sind, der Faktor also wohl vermutlich einen Einfluss auf<br />

die AV ausübt. Dann könnte man im nachhinein darin interessiert sein, welche Mittelwerte<br />

sich unterscheiden, welche Differenzen zwischen ihnen also eigentlich für den signifikanten<br />

Ausfall der VA verantwortlich sind, und diese im nachhinein inhaltlich zu erklären versuchen.<br />

Man hatte darüber aber a priori keine inhaltlich begründbaren Hypothesen, so dass solche<br />

auch nicht gezielt mithilfe von Kontrasten getestet werden konnten. Es geht also um eine<br />

„Aufdeckung“ wesentlicher Varianzquellen im nachhinein, und streng zu beachten ist, dass<br />

solche Aufdeckungen hypothesengenerierend, aber nicht hypothesentestend sind. (Es ist nicht<br />

möglich, am selben Datensatz eine Hypothese zu erzeugen und sie aufgrund dieser Beobachtung<br />

bereits als bestätigt anzusehen.)<br />

SPSS bietet eine ganze Reihe von Post-Hoc-Tests an.<br />

(Die meisten werden z.B. bei Kirk, R.E. (1982), Experimental Design: Procedures for the behavioral sciences,<br />

beschrieben. In der UB, Zentralbibliothek, Freihandbereich mehrfach vorhanden. In der eigenen Bibliothek ist<br />

das Exemplar von 1982 dauerhaft verschwunden; es sind zwei Exemplare von 1968 da, die auch genügen; ferner<br />

ein Exemplar von 1995, das jedoch die Mitarbeiter des Instituts meistens entliehen haben; im übrigen ein gutes<br />

Buch zur Anschaffung, auch für das Haupt<strong>studium</strong>. Es wird seinen Wert nicht verlieren.)<br />

Ihr Ansatz ist u.a., trotz vieler Vergleiche a posteriori eine Vergrößerung des α-Fehlers zu<br />

vermeiden. Die Idee der VA war ja, alle Mittelwerte durch nur einen Test zu vergleichen, also<br />

nicht alle Paare von Stichproben zu bilden und dadurch zu Massen-t-Tests zu kommen. Ein<br />

solches Vorgehen ist problematisch, weil diese Tests nicht unabhängig voneinander sind. Da<br />

jede aus einem einzelnen t-Test abgeleitete Schlussfolgerung mit einer gewissen<br />

Irrtumswahrscheinlichkeit behaftet ist, können viele t-Tests schnell bewirken, dass eine<br />

signifikante Mittelwertedifferenz auch dann unterstellt wird, wenn in Wirklichkeit gar kein<br />

Unterschied vorhanden ist, d.h. Zufallssignifikanz bzw. Vergrößerung des α-Fehlers. Bei<br />

einem Signifikanzniveau von z.B. 5% werden bei 100 Tests im Durchschnitt 5%<br />

zufallssignifikant ausfallen. Das Auftreten dieser zusätzlichen Wahrscheinlichkeit, etwas für<br />

signifikant zu halten, was es in Wahrheit nicht ist, lässt sich verringern bzw. vermeiden, wenn<br />

anstelle von t-Tests multiple Vergleichstests durchgeführt werden. Dazu gibt es verschiedene<br />

Verfahren, die hier bis auf den Scheffé-Test nicht diskutiert werden sollen. Wenn irgend<br />

Seite - 106 -


Skript: Benutzung von SPSS<br />

möglich, sollten nämlich nicht a posteriori Unterschiede zwischen Mittelwerten inhaltlich<br />

erklärt werden, d.h. erst im Nachhinein Hypothesen aufgestellt werden, sondern a priori, d.h.<br />

es sollten aufgrund inhaltlich-theoretischer Überlegungen gezielt aufgestellte Hypothesen mit<br />

entsprechend erwarteten Kontrasten getestet werden.<br />

15.2.3 SCHEFFÉ-TEST<br />

Kann also die Null-Hypothese, dass der Faktor keinen Effekt auf das abhängige Merkmal<br />

ausübt, nicht aufrecht erhalten werden, so stellt sich die Frage nach denjenigen<br />

Faktorenstufen, deren zugehörige Mittelwerte sich signifikant unterscheiden. Zur Ermittlung<br />

ist der Scheffé-Test empfehlenswert, weil er robust (gegenüber Verletzungen von<br />

Voraussetzungen unempfindlich), konservativ ist (erst relativ große Mittelwertsunterschiede<br />

werden als gesichert angesehen, d.h. Fehler 1. Art werden nicht so leicht begangen, nämlich<br />

die H 0 aufzugeben), eine Kumulation des α-Fehlers vermeidet und nicht nur auf Unterschiede<br />

zwischen einzelnen Gruppen angewendet werden kann, sondern auf Linearkombinationen der<br />

Mittelwerte überhaupt, wie wir sie bereits bei den Kontrasten kenngelernt haben.<br />

Bei den Kontrasten sind wir nicht von einer Kumulation des α-Fehlers ausgegangen, auch<br />

wenn wir mehrere Kontraste rechnen sollten. Wir haben dort nämlich bereits hervorgehoben,<br />

dass es immer nur einige wenige sein werden, weil jede Hypothese für sich begründet wurde,<br />

unabhängig von den anderen, so dass jede jetzt auch mittels eines Kontrastes für sich getestet<br />

wird, so dass auch das Ergebnis eines jeden Kontrast-Tests inhaltlich ein ganz bestimmte<br />

Rückmeldung gibt, und unabhängig von den anderen Kontrast-Tests. Wenn wir jede<br />

Hypothese aber für sich überprüfen, tritt das Problem einer Kumulation des α-Fehlers nicht<br />

auf.<br />

Das ist anders, wenn die Over-all-means-ANOVA signifikant ausfällt und man sich im<br />

nachhinein die Mittelwerte und zugehörige Konfidenzintervalle ansieht und spekulativ<br />

überlegt, aufgrund welcher Mittelwertedifferenzen die Signifikanz zustande gekommen sein<br />

könnte. Man kann dann u.U. sehr viele Linearkombinationen ausprobieren, man macht quasi<br />

ein ungeleitetes „snooping in the data“. Dann testet man keine jeweils spezifischen<br />

Hypothesen für sich mehr, sondern fortgesetzt die sehr allgemeine Hypothese, die der VA<br />

unterliegt, nämlich dass es überhaupt einen Unterschied zwischen den Gruppen gibt. Führt<br />

man jetzt viele t-Tests durch auf der Suche nach signifikanten Unterschieden, so wird t-Test<br />

für t-Test diese eine Hypothese immer wieder getestet. Wenn man aber dieselbe Hypothese<br />

wiederholt testet, gerät man in die Kumulation des α-Fehlers, denn es gilt, diese Hypothese zu<br />

entscheiden.<br />

Scheffé hat nun eine allgemeine Methode entwickelt, die einen konservativen Test in der<br />

Situation darstellt, dass man nach einer signifikant ausgefallenen VA im nachhinein viele<br />

Linearkombinationen der Mittelwerte testen möchte. Sein Test garantiert, dass die<br />

Wahrscheinlichkeit eines α-Fehlers für jeden beliebigen a posteriori durchgeführten<br />

Einzelvergleichstest nicht größer ist als das Signifikanzniveau α für den Overall-Test der VA.<br />

Der Nachweis kann hier nicht geführt werden.<br />

Ein Einzelvergleich ist nach Scheffé auf dem für die VA angegebenem α-Niveau signifikant,<br />

wenn der empirische F-Wert des Einzelvergleichs größer ist als der kritische Wert<br />

F´ = (k-1) * F (df1;df2;1 -α)<br />

wobei k die Anzahl der Stufen des Faktors und F (df1;df2;1-α) der kritische F-Wert für den F-Test<br />

in der VA darstellt, auch dessen Freiheitsgrade sind gemeint.<br />

Die bei den Kontrasten gezeigten Linearkombinationen kann man allgemein wie folgt<br />

schreiben<br />

Kontrast = c 1 M 1 + c 2 M 2 + ... c k M k<br />

Seite - 107 -


Skript: Benutzung von SPSS<br />

und jede solche Linearkombination stellt einen Vergleich der Mittelwerte dar, wenn Σc i = 0<br />

ist. Der empirische F-Wert wird wie folgt berechnet<br />

2<br />

( c1M<br />

1<br />

+ C2M<br />

2<br />

+ ... + ck<br />

)<br />

F =<br />

2 2<br />

2<br />

c1<br />

c2<br />

ck<br />

MQFehler(<br />

+ + ... + )<br />

n1<br />

n2<br />

nk<br />

Wobei MQ Fehler das Mittlere Quadrat des Fehlers aus der Varianzanalyse darstellt, die<br />

Fehlervarianz „innerhalb“. Um signifikant zu werden, muss F also F´ überschreiten.<br />

Im Falle von nur zwei Gruppen (k = 2) stimmt der Scheffé-Test mit dem t-Test überein, bei k<br />

> 2 fordert er jedoch einen erheblich größeren F-Wert, um bei vorgegebenem<br />

Signifikanzniveau signifikant zu werden. Es wird also entsprechend dem Signifikanzniveau<br />

ein einzelner kritischer Wert berechnet, der überschritten werden muss, und der bei beliebig<br />

vielen Mittelwertsvergleichen/Linearkombinationen angelegt werden kann, bei gleichzeitigem<br />

Schutz, dass die Wahrscheinlichkeit, irgendein Ergebnis irrtümlich als signifikant zu<br />

deklarieren, höchstens α beträgt.<br />

Leider begnügt man sich bei der näheren a posteriori-Interpretation einer VA mithilfe des<br />

Scheffé-Tests meistens mit der Überprüfung der Differenzen für alle Mittelwertpaare. Für<br />

diesen Fall wird dann zwecks Verkürzung der Prozedur eine kritische Differenz berechnet, die<br />

von den empirischen Differenzen (Kontrasten) zu überschreiten sind, um als signifikant zu<br />

gelten.<br />

Abhängige Variable: P6 DEPR SUMME D01 BIS D15<br />

Scheffé-Prozedur<br />

(I)<br />

HAUSHALTSEINKOM<br />

MEN<br />

BIS DM 1.199<br />

DM 1.200-1.599<br />

DM 1.600-1.999<br />

DM 2.000-2.399<br />

DM 2.400-2.799<br />

DM 2.800-3.199<br />

DM 3.200 UND MEHR<br />

(J)<br />

HAUSHALTSEINKOM<br />

MEN<br />

DM 1.200-1.599<br />

DM 1.600-1.999<br />

DM 2.000-2.399<br />

DM 2.400-2.799<br />

DM 2.800-3.199<br />

DM 3.200 UND MEHR<br />

BIS DM 1.199<br />

DM 1.600-1.999<br />

DM 2.000-2.399<br />

DM 2.400-2.799<br />

DM 2.800-3.199<br />

DM 3.200 UND MEHR<br />

BIS DM 1.199<br />

DM 1.200-1.599<br />

DM 2.000-2.399<br />

DM 2.400-2.799<br />

DM 2.800-3.199<br />

DM 3.200 UND MEHR<br />

BIS DM 1.199<br />

DM 1.200-1.599<br />

DM 1.600-1.999<br />

DM 2.400-2.799<br />

DM 2.800-3.199<br />

DM 3.200 UND MEHR<br />

BIS DM 1.199<br />

DM 1.200-1.599<br />

DM 1.600-1.999<br />

DM 2.000-2.399<br />

DM 2.800-3.199<br />

DM 3.200 UND MEHR<br />

BIS DM 1.199<br />

DM 1.200-1.599<br />

DM 1.600-1.999<br />

DM 2.000-2.399<br />

DM 2.400-2.799<br />

DM 3.200 UND MEHR<br />

BIS DM 1.199<br />

DM 1.200-1.599<br />

DM 1.600-1.999<br />

DM 2.000-2.399<br />

DM 2.400-2.799<br />

DM 2.800-3.199<br />

*. Die mittlere Differenz ist auf der Stufe .05 signifikant.<br />

Mehrfachvergleiche<br />

Mittlere Standardf<br />

95%-Konfidenzintervall<br />

Differenz (I-J) ehler Signifikanz Untergrenze Obergrenze<br />

-1.18 .862 .932 -4.26 1.91<br />

.20 .850 1.000 -2.84 3.24<br />

.83 .773 .979 -1.93 3.59<br />

1.25 .790 .868 -1.57 4.07<br />

1.25 .785 .863 -1.55 4.05<br />

1.58 .727 .579 -1.02 4.18<br />

1.18 .862 .932 -1.91 4.26<br />

1.37 .800 .815 -1.49 4.23<br />

2.00 .717 .256 -.56 4.57<br />

2.42 .736 .097 -.21 5.05<br />

2.43 .730 .091 -.18 5.03<br />

2.76* .668 .010 .37 5.14<br />

-.20 .850 1.000 -3.24 2.84<br />

-1.37 .800 .815 -4.23 1.49<br />

.63 .703 .992 -1.88 3.14<br />

1.05 .722 .908 -1.53 3.63<br />

1.05 .716 .903 -1.50 3.61<br />

1.38 .652 .609 -.95 3.71<br />

-.83 .773 .979 -3.59 1.93<br />

-2.00 .717 .256 -4.57 .56<br />

-.63 .703 .992 -3.14 1.88<br />

.42 .628 .998 -1.82 2.66<br />

.42 .621 .998 -1.80 2.64<br />

.75 .547 .928 -1.20 2.71<br />

-1.25 .790 .868 -4.07 1.57<br />

-2.42 .736 .097 -5.05 .21<br />

-1.05 .722 .908 -3.63 1.53<br />

-.42 .628 .998 -2.66 1.82<br />

.00 .643 1.000 -2.30 2.30<br />

.33 .571 .999 -1.71 2.37<br />

-1.25 .785 .863 -4.05 1.55<br />

-2.43 .730 .091 -5.03 .18<br />

-1.05 .716 .903 -3.61 1.50<br />

-.42 .621 .998 -2.64 1.80<br />

.00 .643 1.000 -2.30 2.30<br />

.33 .564 .999 -1.68 2.35<br />

-1.58 .727 .579 -4.18 1.02<br />

-2.76* .668 .010 -5.14 -.37<br />

-1.38 .652 .609 -3.71 .95<br />

-.75 .547 .928 -2.71 1.20<br />

-.33 .571 .999 -2.37 1.71<br />

-.33 .564 .999 -2.35 1.68<br />

Abb. 79 Ergebnis des Scheffé - Tests<br />

Seite - 108 -


Skript: Benutzung von SPSS<br />

Wie man sieht, wird (nur) jede Stufe mit jeder anderen verglichen, also jeder Mittelwert mit<br />

⎛<br />

jedem anderen, dabei M i nicht nur mit M j , sondern auch M j mit M i , also 2*<br />

k ⎞<br />

⎜ ⎟ = 2*k*(k-1)/2<br />

⎝ 2 ⎠<br />

= k*(k-1) = 7*6 = 42 Vergleiche. Dabei werden signifikante Mittelwertsdifferenzen mit<br />

einem Stern gekennzeichnet. Im vorliegenden Fall geschieht das nur einmal.<br />

Des weiteren folgen noch „Homogene Untergruppen“. Damit ist gemeint, dass innerhalb einer<br />

Gruppe sich der größte und der kleinste Mittelwert gemäß vorgegebenem α-Niveau nicht<br />

unterscheiden.<br />

Homogene Untergruppen<br />

a,b<br />

Scheffé-Prozedur<br />

HAUSHALTSEINKOM<br />

MEN<br />

DM 3.200 UND MEHR<br />

DM 2.800-3.199<br />

DM 2.400-2.799<br />

DM 2.000-2.399<br />

DM 1.600-1.999<br />

BIS DM 1.199<br />

DM 1.200-1.599<br />

Signifikanz<br />

P6 DEPR SUMME D01 BIS D15<br />

Untergruppe für Alpha<br />

= .05.<br />

N 1 2<br />

86 1.71<br />

49 2.04 2.04<br />

47 2.04 2.04<br />

54 2.46 2.46<br />

32 3.09 3.09<br />

24 3.29 3.29<br />

30 4.47<br />

.550 .073<br />

Die Mittelwerte für die in homogenen Untergruppen<br />

befindlichen Gruppen werden angezeigt.<br />

a. Verwendet ein harmonisches Mittel für<br />

Stichprobengröße = 39.308.<br />

b. Die Gruppengrößen sind nicht identisch. Es wird das<br />

harmonische Mittel der Gruppengrößen verwendet.<br />

Fehlerniveaus des Typs I sind nicht garantiert.<br />

Abb. 80 Homogene Gruppen beim Scheffé – Test in diesem Bsp<br />

15. 3 Zwei- und höherfaktorielle Varianzanalysen<br />

Eine Warnung vorweg: Was schon bei der einfachen VA und den dortigen<br />

Mittelwertvergleichen galt, gilt erst recht jetzt und bei der zweifaktoriellen VA und noch<br />

höherfaktoriellen VA´s: Man sollte die Verfahren nicht missbrauchen, um zwischen allen<br />

möglichen Mittelwerten nach statistisch signifikanten Unterschieden herumzusuchen, also<br />

nicht auf Entdeckungsreise gehen. Das geschieht allerdings recht oft, offenbar immer<br />

dann, wenn die inhaltlichen Hypothesen sehr allgemein sind oder gar ganz fehlen („Mal<br />

sehen, ob etwas Signifikantes herauskommt“, als ob „Ergebnisse“ sich von selbst<br />

einstellen, bzw. nur entdeckt werden müssen, ohne Vorüberlegungen, sie einem wie im<br />

Schlaraffenland wie gebratene Tauben ins Maul fliegen. So kann man leider bei der<br />

zweifaktoriellen VA nicht nur die beiden Haupteffekte und die Interaktion „auf Signifikanz<br />

prüfen“, sondern bei allen drei Effekten auch die Mittelwerte in verschiedenster Weise<br />

vergleichen, alles auch ohne Hypothesen. Bei der dreifaktoriellen VA hat man dann schon<br />

drei Haupteffekte und vier Interaktionseffekte, also sieben Effekte, die kaum mehr<br />

übersehbare Zahl möglicher Mittelwertsvergleiche innerhalb der einzelnen Effekte nicht<br />

mehr gerechnet. Allgemein: Anzahl Effekte = 2 Anzahl Faktoren –1. Ohne spezifische inhaltlichtheoretische<br />

Hypothesen, die nur wenige und nur ganz bestimmte Vergleiche meinen,<br />

werden aber keine Hypothesen geprüft, sondern man probiert aufs Geradewohl herum. Die<br />

Übersetzung des griechischen Wortes „Hypothese“ lautet „Unterstellung“, also eine<br />

Annahme, das etwas „so“ ist, insbesondere die Annahme zur Erklärung bestimmter<br />

Tatsachen. Bedacht werden sollte auch, dass eine statistische Signifikanz eben nur eine<br />

Seite - 109 -


Skript: Benutzung von SPSS<br />

statistische ist, inhaltlich muss sie gar nichts bedeuten, so wie es inhaltlich hoch bedeutsam<br />

sein kann, dass zwischen bestimmten Mittelwerten keine signifikanten Differenzen zu<br />

beobachten sind.<br />

Das alles sollte umso mehr beachtet werden, als es heute schnell rechnende Computer gibt,<br />

die in Windeseile alles Mögliche zu rechnen gestatten. Das muss nicht unbedingt ein<br />

Vorteil sein.<br />

Bei der zweifaktoriellen VA liegen ein Zeilenfaktor mit k Stufen und ein Spaltenfaktor mit m<br />

Stufen vor, wobei die k*m Zellen-Zufalls-Stichproben unabhängig voneinander gezogen<br />

wurden. Irrtumswahrscheinlichkeiten werden berechnet für die beiden Haupteffekte sowie für<br />

den Interaktionseffekt, aber die Berechnung dieser Wahrscheinlichkeiten sollte nicht schon<br />

mit einer Prüfung auf Signifikanz gleichgesetzt werden. Dazu gehört noch der Vergleich mit<br />

dem α-Niveau. Wenn spezifische Hypothesen vorliegen, wird man häufig gar nicht an diesen<br />

Effekten selbst interessiert sein, sondern an ganz bestimmten Mittelwertsvergleichen, wie<br />

man sie mithilfe von a priori-Kontrasten rechnen kann.<br />

Das n der k*m Stichproben sollte möglichst gleich sein. Ist das nicht der Fall, so geht eine<br />

wichtige Eigenschaft der VA, die Unabhängigkeit bzw. Orthogonalität von Haupt- und<br />

Interaktionseffekten verloren. Man bezeichnet deshalb Varianzanalysen mit ungleich großen<br />

Stichproben auch als nichtorthogonale Analysen. Man kann in diesem Fall in verschiedener<br />

Weise vorgehen.<br />

Gleich große Stichproben werden in der Regel dann vorliegen, wenn die Daten die Ergebnisse<br />

geplanter Experimente sind, denen wohlüberlegte Hypothesen unterliegen. Bei<br />

Felduntersuchungen ist gleiches n jedoch meistens nicht der Fall. Dann wird die<br />

Varianzanalyse bei SPSS per Voreinstellung nach einem Verfahren von Yates („Method of<br />

weighted Squares of Means“ auch „Methode 1“ genannt) durchgeführt. Im Anschluss an die<br />

VA lassen sich paarweise Vergleiche der Zeilen- und Spaltenmittelwerte durchführen. Es<br />

kann auch ein Interaktionsdiagramm ausgegeben werden. Mithilfe der Syntax ist es ferner<br />

möglich, eine Prüfung der „einfachen Haupteffekte“ der Faktoren vorzunehmen.<br />

Obwohl die im Folgenden aufgerufene Prozedur viele Vergleiche ermöglicht, sind<br />

Berechnungen vom Versuchsplan her geforderter Kontraste mit ihr oft nicht möglich. Es<br />

sollte dann die Möglichkeit erwogen werden, die zwei- oder noch höherfaktorielle VA als<br />

einfaktorielle VA zu rechnen. Bei einer zweifaktoriellen VA mit k Zeilen und m Spalten z.B. ist<br />

dafür zunächst eine neue Variable mit k*M Stufen zu bilden. Diese ist dann als Faktor in die<br />

einfache VA einzugeben. Es könnten so gezielt geplante Vergleiche/Kontraste der k*m<br />

Mittelwerte möglich werden.<br />

Analysieren fi Allgemeines lineares Modell fi Univariat<br />

Abb. 81 Allgemeines Lineares Modell Univariat<br />

Seite - 110 -


Skript: Benutzung von SPSS<br />

Hier geben wir die abhängige Variable ein und unter FESTE FAKTOREN die beiden<br />

unabhängigen Variablen. Faktoren mit festen Effekten stellen den weitaus häufigsten Fall in<br />

der Forschung dar. Sie liegen dann vor, wenn die Faktorstufen gezielt bzw. systematisch<br />

ausgewählt wurden, also nicht durch eine Zufallsprozedur. Dagegen spricht man von einem<br />

Zufallsfaktor (random factor), wenn die Stufen durch eine solche Prozedur bestimmt werden,<br />

z.B., um den Einfluss eines Faktors „Persönlichkeit des Therapeuten“ zu realisieren,<br />

verschiedene Therapeuten dem Zufall nach gezogen werden. Über etwaige systematische<br />

Unterschiede zwischen den Therapeuten weiß man dann nichts. Schon gar nicht sind solche<br />

„wohl bedacht“ worden, d.h. eine theoretisch begründete Annahme unterschiedlicher<br />

Wirkungen auf die AV liegt nicht vor. Eher soll ausprobiert werden, ob das Ergebnis der<br />

Therapie vom Therapeuten abhängt.<br />

In dem über MODELL aufrufbaren Auswahlfeld sind keine Veränderungen vorzunehmen.<br />

Das voreingestellte und mit „Quadratsumme Typ III“ bezeichnete Verfahren entspricht der<br />

allgemein verwendeten „Methode 1“. Bei gleichem n pro Zelle entspricht das der üblichen<br />

VA.<br />

Die unter KONTRASTE möglichen Vergleiche zwischen den Zeilen- und Spalten-Mittelwerten<br />

dürften nur selten von Interesse sein. Wenn man sie dennoch aufrufen will, so ist als erstes<br />

der Faktor zu markieren, dessen Mittelwerte verglichen werden sollen. Voreingestellt sind<br />

„keine“ speziellen Kontraste, d.h. es werden keine durchgeführt. Sodann kann man im Dropdown-Menu<br />

auswählen, welche Mittelwerte wie verglichen werden sollen. Es bedeutet:<br />

a) Einfach: Vergleicht den Mittelwert jeder Faktorstufe mit dem Mittelwert einer<br />

angegebenen Faktorstufe. Man kann (jedoch nur) die erste oder letzte Faktorstufe<br />

auswählen. Z.B. bei 4 Stufen: 2-1, 3-1, 4-1.<br />

b) Differenz: Vergleicht den Mittelwert jeder Faktorstufe (außer der ersten) mit dem<br />

Mittelwert der vorhergehenden Faktorstufen. Z.B.: 2-1, 3-(1+2)/2, 4-(1+2+3)/3.<br />

c) Helmert: Vergleicht den Mittelwert jeder Stufe des Faktors (bis auf die letzte) mit dem<br />

Mittelwert der folgenden Stufen. Z.B.: 1-(2+3+4)/3, 2-(3+4)/2, 3-4.<br />

d) Wiederholt: Vergleicht den Mittelwert jeder Faktorstufe (außer der letzten) mit dem<br />

Mittelwert der folgenden Stufe. Z.B.: 1-2, 2-3, 3-4.<br />

e) Polynomial: Vergleicht den linearen, quadratischen, kubischen Effekt, usw. Die Kontraste<br />

können verwendet werden, um solche und weitere polynomiale Trends zu schätzen. Die<br />

weitere Eingabehilfe findet man für diesen Fall in der Syntaxstruktur.<br />

Diese Kontraste sind alle fest voreingestellt. Man kann sie auch nicht über die Syntax ändern<br />

(vgl. jedoch unten die Eingabe mithilfe des LMATRIX-Befehls).<br />

Bei den im Dialogfeld OPTIONEN<br />

Abb. 82 Optionen<br />

Seite - 111 -


Skript: Benutzung von SPSS<br />

aufrufbaren Kennwerten sollte zwischen dem Fall gleicher und ungleicher Zellengrößen<br />

unterschieden werden:<br />

a) Haben alle Zellen den gleichen Stichprobenumfang n, so gibt es nur eine Art von<br />

Zeilen- und Spalten-Mittelwerten. Zur Ausgabe aller Zellen- und Zeilen- und<br />

Spaltenkennwerte genügt es dann, die Option DESKRIPTIVE STATISTIK zu wählen.<br />

Im Feld MITTELWERTE ANZEIGEN FÜR sind dann keine Angaben zu machen.<br />

Klickt man HOMOGENITÄTSTEST an, so wird mithilfe des LEVENE-Tests geprüft,<br />

ob sich die Zellen-Varianzen signifikant voneinander unterscheiden. Eta-Quadrate zur<br />

Schätzung der Stärke der Haupt- und des Interaktionseffekts kann man über<br />

SCHÄTZER DER EFFEKTGRÖßE anfordern.<br />

b) Sind die Zellenumfänge dagegen ungleich, so sind gewichtete und ungewichtete<br />

Zeilen- und Spalten-Mittelwerte zu unterscheiden. Varianzanalysen nach Methode 1<br />

prüfen dann bei den Haupteffekten, ob signifikante Unterschiede zwischen den<br />

ungewichteten Mittelwerten bestehen. Diese werden ausgegeben, wenn der Zeilenund<br />

der Spaltenfaktor im Feld MITTELWERTE ANZEIGEN FÜR eingegeben<br />

werden. Die danach aufrufbare Option HAUPTEFFEKTE VERGLEICHEN meint<br />

(nur) den Fall paarweiser Mittelwertsvergleiche.<br />

15.3.1 Paarweise Vergleiche zwischen Zeilen- und Spalten-Mittelwerten<br />

Falls ein Faktor mit drei oder mehr Stufen einen statistisch signifikanten Einfluss auf die AV<br />

ausüben sollte (ein Haupteffekt), kann die Frage auftreten, zwischen welchen Mittelwerten<br />

der Faktorstufen sich Unterschiede absichern lassen. Zur Prüfung stellt SPSS über die Taste<br />

POST HOC wieder eine Reihe von Tests zur Verfügung, die schon bei der einfaktoriellen VA<br />

angeboten wurden. Dort hatten wir den Scheffé-Test als den konservativsten kurz erläutert.<br />

Man sollte wissen, dass alle angebotenen Post-Hoc-Verfahren ihre (nur paarweisen)<br />

Vergleiche mit den gewichteten Zeilen- bzw. Spalten-Mittelwerten durchführen:<br />

a) Das spielt im Fall gleicher Zellengrößen keine Rolle, da gewichtete und ungewichtete<br />

Mittelwerte dann übereinstimmen. Die VA der Haupteffekte und die folgenden<br />

Einzelvergleiche beziehen sich dann auf die gleichen Kennwerte.<br />

b) Bei ungleichen (disproportionalen) Zellengrößen ist das jedoch nicht so. Dann sind in den<br />

gewichteten Zeilen- und Spalten-Mittelwerten die Haupteffekte mehr oder weniger<br />

konfundiert. Die Einzelvergleiche müssten deshalb mit den ungewichteten Zeilen- und<br />

Spalten-Mittelwerten vorgenommen werden, so wie es bei der VA der Haupteffekte der<br />

Fall ist. Nur mit solchen Mittelwerten lassen vom jeweils anderen Faktor unabhängige<br />

Haupteffekte bestimmen. Bei ungleichen Zellengrößen sollten die Post-Hoc-Verfahren<br />

also nicht aufgerufen werden.<br />

(Nur paarweise) Vergleiche zwischen den ungewichteten Zeilen- und Spalten-Mittelwerten<br />

lassen sich jedoch über das Dialogfeld OPTIONEN aufrufen, indem dort unter<br />

MITTELWERTE ANZEIGEN FÜR die Faktoren eingefügt werden und anschließend<br />

HAUPTEFFEKTE VERGLEICHEN angeklickt wird. Dadurch wird das Feld ANPASSUNG<br />

DES KONFIDENZINTERVALLS aktiviert, dort sollte am besten die Bonferroni-<br />

Adjustierung gewählt werden (unter Annahme der Homogenität der Varianzen). Beließe man<br />

es bei der Voreinstellung „LSD (kein)“, würden bei den einzelnen Vergleichen nicht<br />

adjustierte p-Werte ausgegeben werden. (LSD meint Least significant difference, d.h. dass<br />

alle paarweisen Vergleiche von Mittelwerten durchgeführt werden, ohne dass eine α-<br />

Adjustierung erfolgt.) So aber werden die p-Werte wie folgt umgerechnet: p Bon = (k *(k-1)/2)<br />

* p LSD , wobei k die Anzahl der Stufen des Faktors ist und k*(k-1)/2 die Anzahl der Paare der<br />

Stufen. Die adjustierten p´s können dann direkt mit dem gewählten α-Niveau verglichen<br />

werden, der auch unter SIGNIFIKANZNIVEAU eingegeben werden sollte.<br />

Seite - 112 -


Skript: Benutzung von SPSS<br />

Ob man allerdings an nur paarweisen Vergleichen von den Hypothesen her interessiert ist, ist<br />

eine andere Frage. Nur weil SPSS sie anbietet, muss man sie noch lange nicht rechnen.<br />

15.3.2 Interaktionsdiagramm<br />

Eine graphische Darstellung der Interaktion zwischen dem Zeilen- und Spaltenfaktor kann<br />

über die Taste DIAGRAMME im ersten Dialogfeld aufgerufen werden. Unter<br />

HORIZONTALE ACHSE wird der Faktor eingegeben, dessen Stufen die horizontale Achse<br />

bilden sollen, und unter SEPARATE LINIEN entsprechend der andere Faktor. Danach ist das<br />

Faktorenpaar durch die Taste HINZUFÜGEN in das Feld DIAGRAMME einzubringen.<br />

KLICKT man sodann WEITER an, erhält man das Diagramm.<br />

In der Regel ist das Diagramm noch nachzubearbeiten. So sind sicherlich die voreingestellten<br />

Beschriftungen „Geschätztes Randmittel ...“ durch eigene Texte zu ändern, oder es soll ein<br />

Abstand zwischen den Anfangs- bzw. Endpunkten des Diagramms und den senkrechten<br />

Rändern der Einfassung eingefügt werden. Dazu ist der Diagramm-Editor durch zweimaliges<br />

Hineinklicken in das Diagramm aufzurufen. Im Diagramm-Editor sind die Punkte<br />

DIAGRAMME/OPTIONEN aufzurufen. Über die Option MARKIERUNGEN INNERHALB<br />

KATEGORIEN VERBINDEN werden die Abstände des Diagramms vom Rand eingeführt.<br />

Dabei werden leider auch senkrechte Linien zwischen den Punkten eingeführt. Man kann<br />

dieser aber verschwinden lassen, indem man eine dieser Linien anklickt und sie dann über<br />

FORMAT/FARBE mit der Farbe weiß übertüncht. Auch kann man die Beschriftungen<br />

„Geschätztes Randmittel“ beseitigen und durch neue Beschriftungen ersetzen, indem man in<br />

die jeweilige Beschriftung hineinklickt und den entsprechenden im erscheinenden Dialogfeld<br />

löscht und durch einen treffenderen ersetzt.<br />

Im Folgenden rechnen wir das Beispiel einer zweifaktoriellen VA aus Kirk, 1968, S. 175. Der<br />

2 *4-Datensatz sieht wie folgt aus:<br />

a1<br />

b1<br />

3<br />

6<br />

3<br />

3<br />

a1<br />

b2<br />

4<br />

5<br />

4<br />

3<br />

a1<br />

b3<br />

7<br />

8<br />

7<br />

6<br />

a1<br />

b4<br />

7<br />

8<br />

9<br />

8<br />

a2<br />

b1<br />

1<br />

2<br />

2<br />

2<br />

a2<br />

b2<br />

2<br />

3<br />

4<br />

3<br />

a2<br />

b3<br />

5<br />

6<br />

5<br />

6<br />

a2<br />

b4<br />

10<br />

10<br />

9<br />

11<br />

Er hat also mit n = 4 ein gleiches N pro Zelle.<br />

Um mithilfe von SPSS eine VA rechnen zu können, müssen in die Datenmatrix von SPSS<br />

drei Variablen eingegeben werden. Die erste Variable ist die Variable (der Faktor) A, die nur<br />

zwei Werte aufweist, die zweite Variable ist die Variable B, die vier Werte hat. Die dritte<br />

Variable ist die AV, d.h. die 2*4*4 Messwerte. Wir geben die Daten in lexikographischer<br />

Folge ein, also zuerst von der Faktorenkombination a1bl alle Messwerte, dann von der<br />

Kombination a1b2 alle Messwerte, usw. Die erste Vp wird also die Daten 1 1 3 erhalten, die<br />

zweite 1 1 6, die fünfte 1 2 7, die letzte 2 4 11. Insgesamt wird die Datenmatrix 32 Zeilen<br />

und drei Spalten haben.<br />

Seite - 113 -


Skript: Benutzung von SPSS<br />

Der Output sieht nun wie folgt aus (bitte nachrechnen):<br />

GET<br />

FILE='C:\Dokumente und Einstellungen\EDV-Laptop\Eigene Dateien\KIRK.sav'.<br />

UNIANOVA<br />

var00003 BY var00001 var00002<br />

/METHOD = SSTYPE(3)<br />

/INTERCEPT = INCLUDE<br />

/PLOT = PROFILE( var00002*var00001 )<br />

/PRINT = DESCRIPTIVE<br />

/CRITERIA = ALPHA(.05)<br />

/DESIGN = var00001 var00002 var00001*var00002 .<br />

Zunächst haben wir uns per Voreinstellung die Syntax der angeklickten Befehle ausgeben<br />

lassen. Wie man das macht, ist unter „Syntax“ beschrieben.<br />

Sodann folgt das Ergebnis der VA, dabei haben wir unter OPTIONEN zusätzlich<br />

DESKRIPTIVE STATISTIK angeklickt. Der Output sieht wie folgt aus:<br />

Univariate Varianzanalyse<br />

Zwischensubjektfaktoren<br />

VAR00001<br />

VAR00002<br />

1.00<br />

2.00<br />

1.00<br />

2.00<br />

3.00<br />

4.00<br />

N<br />

16<br />

16<br />

8<br />

8<br />

8<br />

8<br />

Abb. 83 Zwischensubjektfaktoren<br />

Deskriptive Statistiken<br />

Abhängige Variable: VAR00003<br />

VAR00001<br />

1.00<br />

2.00<br />

Gesamt<br />

VAR00002<br />

1.00<br />

2.00<br />

3.00<br />

4.00<br />

Gesamt<br />

1.00<br />

2.00<br />

3.00<br />

4.00<br />

Gesamt<br />

1.00<br />

2.00<br />

3.00<br />

4.00<br />

Gesamt<br />

Mittelwert<br />

Abb. 84 Deskriptive Statistiken<br />

Standardab<br />

weichung<br />

3.7500 1.50000 4<br />

4.0000 .81650 4<br />

7.0000 .81650 4<br />

8.0000 .81650 4<br />

5.6875 2.12034 16<br />

1.7500 .50000 4<br />

3.0000 .81650 4<br />

5.5000 .57735 4<br />

10.0000 .81650 4<br />

5.0625 3.31600 16<br />

2.7500 1.48805 8<br />

3.5000 .92582 8<br />

6.2500 1.03510 8<br />

9.0000 1.30931 8<br />

5.3750 2.75622 32<br />

Es folgt nun das eigentliche Ergebnis der VA, das etwas erklärungsbedürftig überschrieben<br />

worden ist.<br />

N<br />

Seite - 114 -


Skript: Benutzung von SPSS<br />

Abhängige Variable: VAR00003<br />

Quelle<br />

Korrigiertes Modell<br />

Konstanter Term<br />

VAR00001<br />

VAR00002<br />

VAR00001 * VAR00002<br />

Fehler<br />

Gesamt<br />

Korrigierte<br />

Gesamtvariation<br />

Tests der Zwischensubjekteffekte<br />

Quadratsum<br />

Mittel der<br />

me vom Typ III df Quadrate F Signifikanz<br />

217.000 a 7 31.000 40.216 .000<br />

924.500 1 924.500 1199.351 .000<br />

3.125 1 3.125 4.054 .055<br />

194.500 3 64.833 84.108 .000<br />

19.375 3 6.458 8.378 .001<br />

18.500 24 .771<br />

1160.000 32<br />

235.500 31<br />

a. R-Quadrat = .921 (korrigiertes R-Quadrat = .899)<br />

Abb. 85 Test der Zwischensubjektfaktoren<br />

Die Begriffe „Korrigiertes Modell“ und „Konstanter Term“ erläutern wir nicht. Es würde hier<br />

zu weit führen. Die übrigen Ergebnisse entsprechen den Ergebnissen von Kirk, S. 176.<br />

„Fehler“ meint hier die Variation „innerhalb“. Die Quadratsummen der Faktoren 1 und 2, der<br />

Interaktion und die Fehlerquadratsumme (hier „innerhalb“) addieren sich zu der (korrigierten)<br />

Gesamtvariation (Quadratsumme total). Gleiches gilt für die Freiheitsgrade. Die Mittel der<br />

Quadrate ergeben sich, indem man die Quadratsummen durch die zugehörigen Freiheitsgrade<br />

dividiert. Die F-Werte der drei Effekte werden berechnet, indem man die entsprechenden<br />

mittleren Quadrate durch das mittlere Quadrat „Fehler“ teilt.<br />

Er folgt noch das Diagramm der Interaktion, das wir ebenfalls angefordert haben und<br />

entsprechend der obigen Beschreibung veränderten.<br />

Profildiagramm<br />

12<br />

Interaction between A and B<br />

10<br />

Measure of Marble Dropping<br />

8<br />

6<br />

4<br />

2<br />

0<br />

1.00<br />

2.00<br />

3.00<br />

4.00<br />

VAR00001<br />

1.00<br />

2.00<br />

Level of Social Deprivation<br />

Abb. 86 Interaktionsdiagramm<br />

15.3.3 Analyse der einfachen Haupteffekte (Bedingte Haupteffekttests)<br />

Sie wird in der Literatur empfohlen, um einen a posteriori festgestellten signifikanten<br />

Interaktionseffekt näher zu explorieren. Als bedingte Haupteffekte bezeichnet man die<br />

Unterschiedlichkeit der Stufen des Faktors A unter den Stufen des Faktors B, und umgekehrt.<br />

Falls mehrere bedingte Haupteffekte a posteriori an der Fehlervarianz (innerhalb) getestet<br />

Seite - 115 -


Skript: Benutzung von SPSS<br />

werden, sollte der Satz bedingter Haupteffekthypothesen analog zum Scheffé-Test „familywise“<br />

auf einem nominellen α-Niveau abgesichert werden. Wir gehen hier nicht näher darauf<br />

ein. Gute Literatur (wie z.B. Kirk) sollte dann zu Rate gezogen werden.<br />

b 1 b 2 b 3 b 4<br />

a 1 M 1 M 2 M 3 M 4<br />

a 2 M 5 M 6 M 7 M 8<br />

a 3 M 9 M 10 M 11 M12<br />

Es wird also für jede Zeile varianzanalytisch geprüft, ob zwischen ihren Zellenmittelwerten<br />

signifikante Unterschiede bestehen. Ist das der Fall, kann anschließend mittels paarweiser<br />

Kontraste untersucht werden (bedingte Einzelvergleiche), welche der Mittelwerte sich<br />

voneinander unterscheiden.<br />

Anschließend kann Gleiches auch für jede Spalte geschehen.<br />

Möglich ist alles jedoch nur mithilfe der Syntax, mit dem dortigen LMATRIX-Befehl.<br />

Dabei weisen die zur Prüfung der einzelnen Effekte berechneten F-Brüche im Nenner das<br />

Mittlere Quadrat „innerhalb“ der Gesamtvarianzanalyse auf, weil dieses auf die Streuung<br />

„innerhalb“ aller Zellen beruht und somit eine höhere Teststärke ermöglicht. Das darf jedoch<br />

nur gemacht werden, wenn die Annahme gleicher Populationsvarianzen beibehalten werden<br />

konnte (Levene-Test).<br />

Wir rechnen im Folgenden einige der simple main effects nach, die Kirk (1968) auf der Basis<br />

seines Beispiels S. 179 bringt. Die Mittelwerte des Plans sind die folgenden:<br />

b 1 b 2 b 3 b 4<br />

a 1 3.75 4 7 8<br />

a 2 1,75 3 5,5 10<br />

Im oben bereits gerechneten Kirk-Beispiel sahen wir zunächst die Syntaxbefehle, die sich aus<br />

unseren angeklickten Befehle ergaben. Wie wir noch wissen, erhalten wir sie auch, wenn wir<br />

nach dem Anklicken dieser Befehle statt der Taste OK die Taste EINFÜGEN betätigen, und<br />

das damit der Syntax-Editor aufgerufen wird. Wir zeigen die Syntax-Befehle nochmal:<br />

GET<br />

FILE='C:\Dokumente und Einstellungen\EDV-Laptop\Eigene Dateien\KIRK.sav'.<br />

UNIANOVA<br />

var00003 BY var00001 var00002<br />

/METHOD = SSTYPE(3)<br />

/INTERCEPT = INCLUDE<br />

/PLOT = PROFILE( var00002*var00001 )<br />

/PRINT = DESCRIPTIVE<br />

/CRITERIA = ALPHA(.05)<br />

/DESIGN = var00001 var00002 var00001*var00002 .<br />

Wir erkennen, dass die Prozedur UNIANOVA aufgerufen worden ist, und wir wissen auch<br />

noch, wie wir uns über die Syntax dieses Befehls näher <strong>info</strong>rmieren können. Das soll hier<br />

daher nicht wiederholt werden.<br />

Wir können nun LMATRIX-Befehle zum Zwecke der Berechnung einfacher Haupteffekte<br />

sowie von Einzelvergleichen innerhalb bedingter Haupteffekte wie folgt einfügen:<br />

UNIANOVA<br />

var00003 BY var00001 var00002<br />

/METHOD = SSTYPE(3)<br />

/INTERCEPT = INCLUDE<br />

/LMATRIX "Einzeleffekte der VAR2 auf die 1. Stufe der VAR1"<br />

var00002 1 -1 0 0 var00001*var00002 1 -1 0 0 0 0 0 0;<br />

var00002 1 0 -1 0 var00001*var00002 1 0 -1 0 0 0 0 0;<br />

var00002 1 0 0 -1 var00001*var00002 1 0 0 -1 0 0 0 0;<br />

Seite - 116 -


Skript: Benutzung von SPSS<br />

/LMATRIX "Effekt von VAR1 auf die Stufe b1 (von VAR2)"<br />

var00001 1 -1 var00001*var00002 1 0 0 0 -1 0 0 0<br />

/LMATRIX "Effekt von VAR1 auf die Stufe b2"<br />

var00001 1 -1 var00001*var00002 0 1 0 0 0 -1 0 0<br />

/LMATRIX "Effekt von var1 auf die Stufe b3"<br />

var00001 1 -1 var00001*var00002 0 0 1 0 0 0 -1 0<br />

/LMATRIX "Effekt von var1 auf die Stufe b4"<br />

var00001 1 -1 var00001*var00002 0 0 0 1 0 0 0 -1<br />

/DESIGN = var00001 var00002 var00001*var00002 .<br />

Wir haben hier folgende Auswahl von Kontrasten angesteuert:<br />

Im ersten LMATRIX-Befehl sollen Mittelwerte der ersten Zeile verglichen werden, und zwar<br />

M 1 -M 2 , M 1 -M 3 , M 1 -M 4 . Der Vergleich mithilfe von Kontrastkoeffizienten wird quasi zweimal<br />

eingegeben, einmal für den 2. Faktor (var00002), und einmal für die Faktorenkombination,<br />

die ja aus 2*4 = 8 Mittelwerten besteht, in der Reihenfolge erste Zeile zweite Zeile.<br />

Wir haben hier aus Platzgründen auf weitere Vergleiche in der ersten Zeile verzichtet, und<br />

Vergleiche für die zweite Zeile gar nicht angefordert.<br />

Wenn wir nun Vergleiche für einzelnen Spalten aufrufen wollen, so kann, weil Faktor A nur<br />

zwei Stufen hat, für jede Spalte (Stufe von B) nur ein Vergleich aufgerufen werden. Wir<br />

haben den LMATRIX-Befehl für alle vier Stufen von B ausgeführt.<br />

Nun zu den Ergebnissen (bitte nachrechnen):<br />

Benutzerdefinierte Hypothesentests Nr. 1<br />

Kontrastergebnisse (K-Matrix) a -.250<br />

Kontrast<br />

L1<br />

Kontrastschätzer<br />

Hypothesenwert<br />

Differenz (Schätzung - Hypothesen)<br />

Abhängige<br />

Variable<br />

VAR00003<br />

0<br />

-.250<br />

L2<br />

L3<br />

Standardfehler<br />

Signifikanz<br />

95% Konfidenzintervall<br />

für die Differenz<br />

Kontrastschätzer<br />

Untergrenze<br />

Obergrenze<br />

Hypothesenwert<br />

Differenz (Schätzung - Hypothesen)<br />

Standardfehler<br />

Signifikanz<br />

95% Konfidenzintervall<br />

für die Differenz<br />

Kontrastschätzer<br />

Hypothesenwert<br />

Untergrenze<br />

Obergrenze<br />

Differenz (Schätzung - Hypothesen)<br />

Standardfehler<br />

Signifikanz<br />

95% Konfidenzintervall<br />

für die Differenz<br />

Untergrenze<br />

Obergrenze<br />

.621<br />

.691<br />

-1.531<br />

1.031<br />

-3.250<br />

0<br />

-3.250<br />

.621<br />

.000<br />

-4.531<br />

-1.969<br />

-4.250<br />

0<br />

-4.250<br />

.621<br />

.000<br />

-5.531<br />

-2.969<br />

a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />

Kontrastkoeffizienten: Einzeleffekte der VAR2 auf die 1. Stufe der<br />

VAR1<br />

Abb. 87 Kontrastergebnisse Hypothesentests Nr. 1<br />

Seite - 117 -


Skript: Benutzung von SPSS<br />

Es sind für die erste Zeile von A drei Kontraste eingegeben worden, „Kontrastschätzer“<br />

bedeutet die Differenz der beiden Mittelwerte, ebenso wie die „Differenz“ selbst.<br />

Die folgenden „Testergebnisse“ meinen die VA der ersten Zeile a 1 , bei Kirk (S. 181) „ B at<br />

a 1 “ genannt, d.h. Prüfung aller vier Mittelwerte der ersten Zeile auf Signifikanz.<br />

Abhängige Variable: VAR00003<br />

Quelle<br />

Kontrast<br />

Fehler<br />

Testergebnisse<br />

Quadrats<br />

Mittel der<br />

umme df Quadrate F Signifikanz<br />

54.688 3 18.229 23.649 .000<br />

18.500 24 .771<br />

Abb. 88 Testergebnisse Hypothesentests Nr. 1<br />

Es folgen die vier Spaltenvergleiche. Dabei sind bei einem Faktor mit nur zwei Stufen die<br />

„Kontrastergebnisse“ und die „Testergebnisse“ identisch, da nur ein Kontrast pro Bedingung<br />

vorliegt. Bei einer Beurteilung der Kontraste auf Signifikanz sollte noch entschieden werden,<br />

ob gezielte a priori-Kontraste vorliegen, oder ob hier im Nachhinein Kontraste gerechnet<br />

werden, auf der (systematischen) Suche nach „signifikanten“ Unterschieden zwischen<br />

Mittelwerten. Im zweiten Fall sollte eine Kumulation des α-Fehlers vermieden werden, d.h.<br />

z.B. das α-Niveau nach Bonferroni adjustiert werden.<br />

Benutzerdefinierte Hypothesentests Nr. 2<br />

a<br />

Kontrastergebnisse (K-Matrix)<br />

Kontrast<br />

L1<br />

Kontrastschätzer<br />

Hypothesenwert<br />

Differenz (Schätzung - Hypothesen)<br />

Abhängige<br />

Variable<br />

VAR00003<br />

2.000<br />

0<br />

2.000<br />

Standardfehler<br />

Signifikanz<br />

95% Konfidenzintervall<br />

für die Differenz<br />

Untergrenze<br />

Obergrenze<br />

.621<br />

.004<br />

.719<br />

3.281<br />

a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />

Kontrastkoeffizienten: Effekt von VAR1 auf die Stufe b1 (von VAR2)<br />

Abb. 89 Kontrastergebnisse Hypothesentests Nr. 2<br />

Abhängige Variable: VAR00003<br />

Quelle<br />

Kontrast<br />

Fehler<br />

Quadrats<br />

umme<br />

Testergebnisse<br />

8.000 1 8.000 10.378 .004<br />

18.500 24 .771<br />

Abb. 90 Testergebnisse Hypothesentests Nr. 2<br />

df<br />

Mittel der<br />

Quadrate F Signifikanz<br />

Das ist z.B. der Vergleich des Mittelwerts der Zelle a 1 b 1 mit dem Mittelwert der Zelle a 2 b 1 ,<br />

bei Kirk S. 182 „A at b1“ genannt. Wie man sich überzeugen kann, stimmen alle<br />

Nachrechnungen.<br />

Entsprechend die folgenden drei Tests.<br />

Benutzerdefinierte Hypothesentests Nr. 3<br />

Seite - 118 -


Skript: Benutzung von SPSS<br />

Kontrastergebnisse (K-Matrix) a 1.000<br />

Kontrast<br />

L1<br />

Kontrastschätzer<br />

Hypothesenwert<br />

Differenz (Schätzung - Hypothesen)<br />

Abhängige<br />

Variable<br />

VAR00003<br />

0<br />

1.000<br />

Standardfehler<br />

Signifikanz<br />

95% Konfidenzintervall<br />

für die Differenz<br />

Untergrenze<br />

Obergrenze<br />

a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />

Kontrastkoeffizienten: Effekt von VAR1 auf die Stufe b2<br />

.621<br />

.120<br />

-.281<br />

2.281<br />

Abb. 91 Kontrastergebnisse Hypothesentests Nr. 3<br />

Abhängige Variable: VAR00003<br />

Quelle<br />

Kontrast<br />

Fehler<br />

Testergebnisse<br />

Quadrats<br />

Mittel der<br />

umme df Quadrate F Signifikanz<br />

2.000 1 2.000 2.595 .120<br />

18.500 24 .771<br />

Abb. 92 Testergebnisse Hypothesentests Nr. 3<br />

Benutzerdefinierte Hypothesentests Nr. 4<br />

Kontrastergebnisse (K-Matrix) a 1.500<br />

Kontrast<br />

L1<br />

Kontrastschätzer<br />

Hypothesenwert<br />

Differenz (Schätzung - Hypothesen)<br />

Abhängige<br />

Variable<br />

VAR00003<br />

0<br />

1.500<br />

Standardfehler<br />

Signifikanz<br />

95% Konfidenzintervall<br />

für die Differenz<br />

Untergrenze<br />

Obergrenze<br />

a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />

Kontrastkoeffizienten: Effekt von var1 auf die Stufe b3<br />

.621<br />

.024<br />

.219<br />

2.781<br />

Abb. 93 Kontrastergebnisse Hypothesentests Nr. 4<br />

Abhängige Variable: VAR00003<br />

Quelle<br />

Kontrast<br />

Fehler<br />

Testergebnisse<br />

Quadrats<br />

Mittel der<br />

umme df Quadrate F Signifikanz<br />

4.500 1 4.500 5.838 .024<br />

18.500 24 .771<br />

Abb. 94 Testergebnisse Hypothesentests Nr. 4<br />

Seite - 119 -


Skript: Benutzung von SPSS<br />

Benutzerdefinierte Hypothesentests Nr. 5<br />

Kontrastergebnisse (K-Matrix) a -2.000<br />

Kontrast<br />

L1<br />

Kontrastschätzer<br />

Hypothesenwert<br />

Differenz (Schätzung - Hypothesen)<br />

Abhängige<br />

Variable<br />

VAR00003<br />

0<br />

-2.000<br />

Standardfehler<br />

Signifikanz<br />

95% Konfidenzintervall<br />

für die Differenz<br />

Untergrenze<br />

Obergrenze<br />

a. Basiert auf der (L')-Matrix der benutzerdefinierten<br />

Kontrastkoeffizienten: Effekt von var1 auf die Stufe b4<br />

.621<br />

.004<br />

-3.281<br />

-.719<br />

Abb. 95 Kontrastergebnisse Hypothesentests Nr. 5<br />

Abhängige Variable: VAR00003<br />

Quelle<br />

Kontrast<br />

Fehler<br />

Testergebnisse<br />

Quadrats<br />

Mittel der<br />

umme df Quadrate F Signifikanz<br />

8.000 1 8.000 10.378 .004<br />

18.500 24 .771<br />

Abb. 96 Testergebnisse Hypothesentests Nr. 5<br />

Seite - 120 -

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!