Download PDF 2000kb - Psychologie-studium.info

Skript: Benutzung von SPSS 

Die Benutzung des Programmpaketes 

SPSS 11.0 unter Microsoft Windows 

Dr. H. Fillbrandt 

Frank Weiss-Motz 

Oliver Sündermann 

Seite - 1 -


1. VORWORT...........................................................................................................................5 

2. DATENEINGABE................................................................................................................6 

2.1. SPEICHERN DER EINGEGEBENEN DATEN ...........................................................................7 

2.2. ÖFFNEN EINES DATENSATZES...........................................................................................8 

2.3. VERÄNDERN VON VARIABLENEIGENSCHAFTEN................................................................8 

2.3.1. Wertelabels festlegen..............................................................................................10 

2.3.2. Fehlende Werte definieren .....................................................................................10 

3. EINFACHE DESKRIPTIVE STATISTIKEN ................................................................12 

3.1. EINDIMENSIONALE HÄUFIGKEITSAUSZÄHLUNGEN UND KENNWERTE NOMINAL- ODER 

ORDINAL-SKALIERTER VARIABLEN .......................................................................................12 

3.2. MEHRDIMENSIONALE HÄUFIGKEITSAUSZÄHLUNGEN .....................................................14 

3.3. DESKRIPTIVE STATISTIKEN FÜR INTERVALLSKALIERTE VARIABLEN ..............................16 

4. ERSTELLUNG EINFACHER DIAGRAMME..............................................................17 

4.1. EINFACHE HÄUFIGKEITSDIAGRAMME FÜR NOMINAL- UND ORDINALSKALIERT E 

VARIABLEN ...........................................................................................................................17 

4.2. ERSTELLUNG EINES „HISTOGRAMMS“ FÜR INTERVALLSKALIERTE VARIABLEN..............20 

5. UMWANDLUNG VON VARIABLEN UND ERZEUGUNG NEUER VARIABLEN 23 

5.1. REKODIEREN VON DATEN...............................................................................................23 

5.2. BEDINGTE UMKODIERUNG..............................................................................................24 

5.3. VERRECHNUNG EINER ODER MEHRERER VARIABLEN ZU EINER NEUEN ...........................26 

5.4. AUSZÄHLUNGEN VON WERTEN ÜBER MEHRERE VARIABLEN..........................................27 

5.5. BILDUNG VON RANGWERTEN .........................................................................................28 

6. BILDUNG VON UNTERGRUPPEN / UNTERSTICHPROBEN .................................29 

6.1. AUSWAHL VON FÄLLEN ..................................................................................................29 

6.2. DATEI AUFTEILEN ...........................................................................................................30 

7. ZUSAMMENFÜGEN VON DATEIEN ...........................................................................32 

7.1. FÄLLE HINZUFÜGEN ........................................................................................................32 

7.2. VARIABLEN HINZUFÜGEN ...............................................................................................32 

8. EXPLORATIVE DATENANALYSE...............................................................................34 

8.1 FRAGESTELLUNG.............................................................................................................34 

8.2 METHODEN DER EXPLORATIVEN DATENANALYSE...........................................................35 

8.2.1 Häufigkeitsauszählung ............................................................................................35 

8.2.2 Stem-and-Leaf-Diagramm (Stengel-Blatt-Diagramm)............................................36 

8.2.3 Boxplots...................................................................................................................37 

8.2.4 Normalverteilungsdiagramm...................................................................................38 

8.2.5 Deskriptive Statistiken.............................................................................................40 

9. BALKEN-, LINIEN-, FLÄCHEN- UND KREISDIAGRAMME..................................44 

9.1 ALLGEMEINES..................................................................................................................44 

9.2 STRUKTUR DER DARZUSTELLENDEN DATEN ....................................................................44 

9.2.1 Zahl der darzustellenden Datenreihen ....................................................................44 

9.2.2 Art der darzustellenden Werte.................................................................................44 

9.3 DARSTELLUNG EINER EINZELNEN DATENREIHE...............................................................45 

9.3.1 Einfaches Balkendiagramm.....................................................................................45 

Seite - 2 -


9.3.1.1 Aufrufmöglichkeiten .............................................................................................45 

9.3.1.2 Diagramm interpretieren......................................................................................45 

9.3.1.3 Direkte Umwandlung in alternative Grafiktypen.................................................46 

9.3.2 Einfaches Liniendiagramm......................................................................................46 

9.3.3 Einfaches Flächendiagramm...................................................................................47 

9.3.4 Kreisdiagramm........................................................................................................48 

9.4 DARSTELLUNG MEHRERER DATENREIHEN .......................................................................48 

9.4.1 Gruppiertes und gestapeltes Balkendiagramm .......................................................48 

9.4.2 Mehrfachliniendiagramm........................................................................................49 

9.4.3 Gestapeltes Flächendiagramm................................................................................49 

10. STREUDIAGRAMME....................................................................................................50 

10.1 DIAGRAMMTYPEN..........................................................................................................50 

10.2 EINFACHES STREUDIAGRAMM.......................................................................................51 

10.3 EINFACHES STREUDIAGRAMM IN SONNENBLUMEN-DARSTELLUNG...............................52 

10.4 EINFACHES STREUDIAGRAMM MIT REGRESSIONSKURVE...............................................53 

11 HINWEIS ZUM BEGRIFF „NICHTPARAMETRISCHE TESTS“...........................54 

12 INFERENZSTATISTIK HÄUFIGKEITSTESTS .........................................................56 

12.1 BINOMIALTEST, EXAKT UND ASYMPTOTISCH .................................................................56 

12.1.1 Einseitiger Test......................................................................................................58 

12.1.2 Zweiseitiger Test....................................................................................................59 

12.2 EINDIMENSIONALER Χ 2 -TEST ........................................................................................61 

12.3 DER Χ 2 -TEST IN ZWEIDIMENSIONALEN KREUZTABELLEN..............................................63 

12.4 DER SPEZIELLE FALL VON 2*2-KREUZTABELLEN ..........................................................65 

12.5 ANALYSE VON DREI- ODER HÖHERDIMENSIONALEN KREUZTABELLEN ..........................65 

13 BERECHNUNG UND ANALYSE VON KORRELATIONEN...................................66 

13.1 PRODUKT-MOMENT-KORRELATION .............................................................................66 

13.2 PARTIAL-KORRELATION................................................................................................68 

13.3 MULTIPLE KORRELATION UND REGRESSION .................................................................70 

13.3.1 Schätzung einer einfachen Regressionsgleichung.................................................70 

13.3.3 Zeichnung der Regressionsgeraden .....................................................................75 

13.4 MULTIPLE REGRESSION .................................................................................................77 

13.4.1 Erweiterung der einfachen Regression zur Multiplen Regression........................77 

13.4.5 Diagramme (Plots): Prüfung der Residuen...........................................................81 

14 SYNTAX.............................................................................................................................83 

14.1 ZWEI MÖGLICHKEITEN, SPSS ANWEISUNGEN ZU GEBEN ..............................................83 

14.2 SYNTAX-FENSTER .........................................................................................................84 

14.3 DIE JOURNAL-DATEI .....................................................................................................85 

14.4 SYNTAX-BEFEHLE IN DER AUSGABEDATEI ....................................................................85 

14.5 SYNTAX VON SPSS-KOMMANDOS.................................................................................85 

14.5.1 Syntaxdiagramme..................................................................................................85 

14.5.2 Syntaxregeln ..........................................................................................................86 

14.5.4 Bedeutung der Symbole und Schreibweisen in Syntaxdiagrammen......................88 

14.5.5 Beispiel: Umsetzung eines Syntaxprogramms in einen Befehl..............................88 

14.5.6 Einbindung der Syntax in den dialoggesteuerten Ablauf ......................................90 

15 INFERENZSTATISTIK...................................................................................................92 

15.1 T-TESTE ........................................................................................................................92 

Seite - 3 -


15.1.1 Allgemeines...........................................................................................................92 

15.1.2 t-Test bei unabhängigen Stichproben...................................................................92 

15.1.3 T-Test bei abhängigen (gepaarten) Stichproben...................................................96 

15.1.4 t-Test bei einer Stichprobe....................................................................................98 

15.2 EINFACHE VARIANZANALYSE......................................................................................100 

15.2.1 „A-PRIORI“-KONTRASTE.................................................................................104 

15.2.2 Rechenbeispiel.....................................................................................................105 

15.2.3 SCHEFFÉ-TEST..................................................................................................107 

15. 3 ZWEI- UND HÖHERFAKTORIELLE VARIANZANALYSEN ...............................................109 

15.3.1 Paarweise Vergleiche zwischen Zeilen- und Spalten-Mittelwerten ....................112 

15.3.2 Interaktionsdiagramm .........................................................................................113 

15.3.3 Analyse der einfachen Haupteffekte (Bedingte Haupteffekttests) .......................115 

Seite - 4 -


1. Vorwort 

Dieses Skript soll dem Leser die grundlegenden Fertigkeiten vermitteln, um die 

Anforderungen des Kurses „Einführung in die EDV“ am Institut für Psychologie der 

Universität Kiel zu erfüllen. Die Programmbeschreibung bezieht sich auf die SPSS- 

Version 11.0. für Windows. Sie ist mit geringen Einschränkungen auch auf andere 

Versionen von SPSS sowohl für Unix als auch für Macintosh übertragbar. 

Unterschiede bestehen vor allem in der Form und dem Aussehen des Outputs. 

Seite - 5 -


2. Dateneingabe 

Nach dem Start des Programmpaketes SPSS erscheint das Datenfenster wie in Abb. 

1 zu sehen auf dem Windows-Desktop 

Das Datenfenster, welches wir auch zur Dateneingabe benutzen, unterteilt sich von 

oben nach unten: 

• in die Menu-Leiste (1) 

• die Knopfleiste (in dieser sind wichtige Funktionen schnell zugänglich) (2) 

• die Eingabezeile (hier werden die Daten einer Zelle eingegeben) (3) 

• die Datenmatrix (4) 

• die Umschaltkarteireiter zwischen Daten und Variablensicht (5) 

• und die Statuszeile (6) 

Abb. 1: Das Datenfenster 

In den Spalten der Datenmatrix stehen die Variablen, in den Zeilen die Fälle (im 

Normalfall die verschiedenen Versuchspersonen). Nach dem Start ist diese 

Datenmatrix natürlich noch leer. Durch Eingabe eines Wertes in eine Zelle dieser 

Matrix wird automatisch eine neue Variable angelegt. Diese wird standardmäßig mit 

„var00001“ bis „var99999“ bezeichnet. Die Namen der Variablen kann man ändern, 

dazu aber später mehr. 

Seite - 6 -


Um einen Wert in eine Zelle einzutragen, ist zuerst die Zelle zu markieren. Dies 

geschieht durch einfachen Klick mit der Maus auf die entsprechende Zelle. Jetzt gibt 

man mittels Tastatur den Wert in die Eingabezeile ein. Bestätigt man mit „Return“, so 

springt SPSS anschließend automatisch in die Zelle der nächsten Versuchsperson 

(spaltenweise Eingabe), bestätigt man mit der „Tabulator“-Taste, so geht SPSS zur 

nächsten Variablen des aktuellen Falls (zeilenweise Eingabe). Alternativ können für 

beide Eingabeformen auch die Richtungstasten des Keyboards benutzt werden. 

2.1. Speichern der eingegebenen Daten 

Sind die Daten noch nie gespeichert worden, so muss dies beim ersten Mal über das 

Menu erfolgen. Hierzu dient der Menupunkt 

Datei -> Speichern unter 

Die Menupunkte werden durch einfachen Klick angewählt. Es öffnet sich dann ein 

Fenster wie in Abb. 2 zu sehen. 

Abb. 2: Das Datei speichern Fenster 

Hierbei handelt es sich um ein Standard-Windows-Dateiauswahlfenster. Unter 

Dateiname ist der Name anzugeben, unter dem die Datei gespeichert werden soll. 

Unter Dateityp kann die gewünschte Art der Datendatei ausgewählt werden. 

Standardmäßig ist hier der Dateityp SPSS (*.sav) ausgewählt. Es handelt sich dabei 

um das SPSS-eigene Dateiformat. Dies sollte in 95% der Fälle das gewünschte 

Format sein. Alternativ kann man an dieser Stelle auch z.B. das Speichern im Excel- 

Format veranlassen. Im Oberen Teil hinter dem Wort Speichern hat man die 

Möglichkeit den Ordner auszuwählen, in dem die Datei gespeichert werden soll. Hier 

kann man z.B. das Diskettenlaufwerk A und damit die dort eingelegte Diskette oder 

die Festplatte, die mit C bezeichnet wird auswählen. Klickt man auf C, so erscheinen 

alle auf C angelegten Ordner. Hier kann man auswählen in welchen die SPSS-Daten 

geschrieben werden. Als Teilnehmer des SPSS-Tutoriums hat man nur 

eingeschränkten Zugriff auf die Festplatte. Es steht nur der Ordner „Eigene Dateien“, 

welcher ebenfalls wie die Diskette oder Festplatte im obigen Menu zu finden ist, zur 

Seite - 7 -


Verfügung. Hier sollten keine privaten Daten abgelegt werden. Eine Diskette ist zu 

bevorzugen. Mit einem Klick auf Speichern wird die Datei dann auf das 

Speichermedium geschrieben. 

Wurde die Datei bereits einmal gespeichert, so kann man das Speichern 

vereinfachen, indem man in der Knopfleiste auf das Diskettensymbol klickt. 

Damit wird die Datei unter dem aktuellen Dateinamen gespeichert. Achtung, ältere 

Versionen der Datei werden dadurch aber überschrieben. 

2.2. Öffnen eines Datensatzes 

Abb. 3: Der Datei-Öffnen-Dialog 

Um einen bereits gespeicherten Datensatz zu öffnen, verwendet man entweder den 

Menupunkt 

Datei -> Öffnen -> Daten 

oder man benutzt in der Knopfleiste das Heftersymbol . 

Beide öffnen ein neues Fenster wie in Abb. 3 zu sehen. 

Dieser Dialog wird analog zum Speichern-Dialog verwendet. Im oberen Bereich wählt 

man den Ordner aus in dem sich die Datei befindet (z.B. das Diskettenlaufwerk), im 

mittleren Fenster sind dann die verfügbaren Dateien verzeichnet. Wählt man dort 

eine Datei an und klickt auf Öffnen so wird diese Datei in das Datenfenster geladen. 

Ist die Datei in einem anderen Format als dem SPSS-Standardformat geschrieben 

worden, so ist vorher noch unter Dateityp das korrekte Format auszuwählen. 

2.3. Verändern von Variableneigenschaften 

Wie oben schon erwähnt weist SPSS den Variablen automatisch die Namen 

„varxxxxx“ zu. Dieser Name sowie weitere Eigenschaften einer Variablen lassen sich 

ändern. Um die Eigenschaften einer Variablen zu ändern, ist zuerst mittel des 

Seite - 8 -


Karteireiters Nr. 5 

Abb. 4 zeigt diese Variablenansicht. 

in die Variablenansicht zu wechseln. 

Abb. 4: Die Variablenansicht 

In der Variablenansicht sind alle Eigenschaften einer Variablen in tabellarischer Form 

aufgeführt. Hier können sie auch verändert werden. Von links nach rechts sind das 

folgende Eigenschaften: 

Name 

Ein kurzer Name für die Variable ist maximal 8 Zeichen lang. Leer- und 

Sonderzeichen sind nicht erlaubt. 

Typ 

Variablentyp. Für das Tutorium benötigen wir ausschließlich den Typ „numerisch“. 

Alternativ können hier auch Text- oder Datumsformate ausgewählt werden. 

Spaltenformat 

gibt die Breite der Spalte in der Datenansicht an 

Dezimalstellen 

Gibt die Anzahl der ausgegebenen Nachkommastellen an (intern rechnet SPSS 

immer mit 16 Nachkommastellen, es entstehen hier also keine Rundungsfehler). 

Variablenlabel 

Eine lange „Benennung“ der Variablen. Bei der Benennung gibt es keine 

Einschränkungen in Länge und verfügbaren Sonderzeichen. Diese „Benennung“ 

taucht dann auch später in den Ausgaben von SPSS auf. 

Wertelabel und Fehlende Werte 

Auf diese Punkte wird im nächsten Abschnitt genauer eingegangen. 

Die weiteren Punkte sind für unser Tutorium nicht mehr von Bedeutung. 

Seite - 9 -


2.3.1. Wertelabels festlegen 

Den einzelnen Werten einer Variablen können Namen zugewiesen werden. Dies ist 

immer dann sinnvoll, wenn nominale Daten bei der Dateneingabe durch Zahlen 

kodiert werden. So könnte zum Beispiel das Geschlecht einer Person so kodiert 

werden: 

1 = männlich 

2 = weiblich 

Damit in der Ausgabe der Rechnungen dann auch die Bezeichnungen männlich und 

weiblich auftauchen, werden diese unter Wertelabels benannt. Klickt man im Feld 

Wertelabels auf das Symbol so öffnet sich das Fenster in Abb. 5. 

Abb. 5: Das Wertelabel-Fenster 

Hier sind nacheinander allen möglichen Werten die Namen zuzuweisen. In unserem 

Beispiel würden wir mit männlich beginnen und in das Feld „Wert“ die 1 eintragen. Im 

Feld „Wertelabel“ muss dann die Bezeichnung „männlich“ eingetragen werden. 

Werden den Werten keine Labels zugewiesen, so erscheinen in der Ausgabe nur die 

Zahlencodes. Abschließen tut man diese Eingabe mit der Schaltfläche „Hinzufügen“. 

Diesen Vorgang wiederholt man für alle vorkommenden Werte. Den Dialog schließt 

man mit der Schaltfläche „OK“. 

2.3.2. Fehlende Werte definieren 

Führt man eine Untersuchung durch, so kommt es oft vor, dass unvollständige Werte 

vorliegen. In der Datenmatrix fehlen also einzelne Zellen. Damit diese von SPSS 

berücksichtigt werden können, müssen diese definiert werden. In der Praxis gibt man 

den fehlenden Werten eine Zahl, die nicht als Datenzahl vorkommen kann. Erfasst 

man zum Beispiel das Alter einer Versuchsperson, so weist man einer fehlenden 

Altersangabe z.B. den Wert „999“ zu, da es keine Person geben wird, die 999 Jahre 

alt ist. Nun gilt es SPSS mitzuteilen, welchen Wert wir als fehlend definiert haben. 

Unter „Fehlende Werte“ klickt man dazu wieder auf das Symbol . Es öffnet sich ein 

neues Fenster wie in Abb. 6 zu sehen. 

Hier kann man entweder feste einzelne Werte oder einen Wertebereich als „Missing 

Values“ definieren. Auch eine Kombination ist möglich. In der Praxis sind einzelne 

Werte das gebräuchlichste. Hierzu ist anzuwählen „Einzelne fehlende Werte“ und in 

Seite - 10 -


die darunter liegenden Felder einer oder mehrere Werte einzutragen, welche für 

„fehlend“ verwendet werden sollen. Auch diesen Dialog beendet man mit „OK“. 

Abb. 6: Der Variable Missing Values Dialog 

Um die Variablenansicht wieder zu verlassen, benutzt man erneut den Dateireiter Nr. 

5 und wechselt zur Datenansicht. 

Tipp: 

Man kann die Eigenschaften einer Variablen mittels Copy und Paste (Kopieren und 

Einfügen) im Menu „Bearbeiten“ oder mittels der Tastenkombinationen Strg+C und 

Strg+V leicht auf eine andere Variable übertragen. Dies erleichtert einem die 

Definition von mehreren Variablen die identische Eigenschaften haben. 

Seite - 11 -


3. Einfache deskriptive Statistiken 

Sämtliche statistischen Rechnungen von SPSS verbergen sich hinter dem Menu- 

Punkt „Analysieren“. Hier verbergen sich einfache deskriptive Verfahren wie 

Mittelwertsberechnungen bis hin zu komplizierten inferenzstatistischen Methoden wie 

der Diskriminanzanalyse. 

3.1. Eindimensionale Häufigkeitsauszählungen und Kennwerte 

nominal- oder ordinal-skalierter Variablen 

Diese Funktion wird mit dem Menu-Punkt 

Analysieren → Deskriptive Statistiken → Häufigkeiten 

aufgerufen. Es öffnet sich der in Abb. 8 dargestellte Dialog. 

Abb. 8: Der Häufigkeiten-Dialog 

Im linken Teil des Dialoges ist eine Liste aller verfügbaren Variablen zu finden. In der 

rechten Liste werden die Variablen eingefügt, die für die jeweilige Rechnung 

ausgewählt werden sollen. Um eine Variable aus der linken Liste in die rechte zu 

übernehmen, ist diese mit einem Klick auszuwählen und mit dem Pfeil in der 

Dialogmitte nach rechts zu schieben. Diese Art der Auswahl ist typisch für SPSS. 

Hat man alle Variablen ausgewählt, deren Häufigkeiten man berechnen möchte, so 

kann man die Berechnung mit „OK“ starten oder mit „Statistik“ statistische Kennwerte 

auswählen, die zusätzlich berechnet werden sollen. Hierzu öffnet sich der Dialog, der 

in Abb. 9 zu sehen ist. 

Seite - 12 -


Abb. 9: Das Statistik-Fenster 

Hier werden per Klick zusätzliche Kennwerte ausgewählt. 

Startet man nun im Hauptdialog durch „OK“ die Rechnung, so erscheint nach einem 

kurzen Moment das Ergebnis im Ausgabe-Fenster, wie es in Abb. 10 zu sehen ist. 

In unserem Beispiel sind die Häufigkeiten für eine Variable „Geschlecht“ berechnet 

worden. Es werden die absoluten und relativen Häufigkeiten für die verschiedenen 

Geschlechter ausgegeben. Zusätzlich werden die kumulierten Häufigkeiten und die 

„validen Häufigkeiten“ ausgegeben. Aus den „validen Häufigkeiten“ wurden die 

fehlenden Werte heraus gerechnet. 

Im Ausgabe-Fenster werden alle Ergebnisse sämtlicher Rechungen, die während 

einer Sitzung mit SPSS durchgeführt wurden, nacheinander aufgezeichnet. Um 

weitere Rechnungen durchführen zu können, müssen wir zum Datenfenster 

zurückkehren. 

Seite - 13 -


Abb. 10: Das Ausgabe Fenster nach Berechnung der Häufigkeiten 

3.2. Mehrdimensionale Häufigkeitsauszählungen 

Zur Auszählung mehrdimensionaler Häufigkeiten wird der Menupunkt 

Analysieren → Deskriptive Statistiken → Kreuztabellen 

verwendet. Dieser öffnet einen Dialog wie in Abb. 11 zu sehen. 

Wie auch schon bei Häufigkeiten haben wir hier die Aufteilung in eine Variablenliste 

und, wie in diesem Fall, in zwei Auswahllisten. In die beiden Auswahllisten werden 

die Variablen eingetragen, welche in der Kreuztabelle in den Zeilen bzw. in den 

Spalten stehen sollen. Hat man diese Auswahl getroffen, so kann man die Rechnung 

mit „OK“ beginnen oder wieder mit „Statistik“ weitere Rechnungen auswählen, die 

zusätzlich erfolgen sollen. Der „Statistik-Dialog“ ist in Abb. 12 zu sehen. 

Seite - 14 -


Abb. 11: Der Kreuztabellen-Dialog 

Hier können Statistiken wie der Chi²-Test, Phi oder Cramers V ausgewählt werden. 

Hat man dies getan, verlässt man diesen Dialog mit „Weiter“. Anschließend können 

die Rechungen mit „OK“ gestartet werden. In der Ausgabe dieser Funktion finden wir 

nacheinander die Kreuztabelle und die evtl. ausgewählten Statistiken. 

Will man zusätzlich zu den absoluten Häufigkeiten auch relative Häufigkeiten 

ausgeben, so kann man dies über die Schaltfläche „Zellen“ tun. In dem sich 

öffnenden Fenster kann man wählen, welche Daten in den Zellen der Kreuztabelle 

erscheinen sollen. So kann man die prozentualen Häufigkeiten auf das N der 

Gesamttabelle, der Tabellenspalte oder der Tabellenzeile beziehen. Auch die 

erwarteten absoluten Häufigkeiten können berechnet werden. Diesen Dialog schließt 

man mit „Weiter“ 

Abb. 12: Der Crosstabs-Statistics-Dialog 

Seite - 15 -


3.3. Deskriptive Statistiken für intervallskalierte Variablen 

Um einfache statistische Kennwerte für intervallskalierte Variablen auszugeben, 

benutzen wir den Menupunkt 

Analysieren → Deskriptive Statistiken → Deskriptive Statistiken 

Hier öffnet sich ein Dialogfenster wie in Abb. 13 zu sehen. Die Auswahl der zu 

verrechnenden Variablen erfolgt auf übliche Weise. Mit der Schaltfläche „OK“ startet 

man ebenfalls wie üblich die Rechnungen. 

Abb. 13: Der Deskriptive-Statistiken-Dialog 

Über die Schaltfläche „Optionen“ kommt man zu dem in Abb. 14 dargestellten Dialog, 

in welchem die zu berechnenden Kennwerte ausgewählt werden können. 

Hier stehen unter anderem der Mittelwert, Varianz und Standardabweichung sowie 

Summe und Schiefe zur Verfügung. Der Auswahldialog wird mit „Weiter“ beendet. 

Nach dem Start der Rechnung mit „OK“ werden im Output-Fenster die ausgewählten 

Kennwerte ausgegeben. 

Abb. 14: Der Descriptives-Options-Dialog 

Seite - 16 -


4. Erstellung einfacher Diagramme 

4.1. Einfache Häufigkeitsdiagramme für nominal- und 

ordinalskalierte Variablen 

Die Befehle zum Erstellen von Diagrammen befinden sich im Menu „Grafiken“. Hier 

stehen z.B. Balken, Linien und Tortendiagramme zur Verfügung. Zur Darstellung 

einer Häufigkeitsverteilung bietet sich ein Balkendiagramm an. Zur Erstellung eines 

Balkendiagramms benutzen wir den Menupunkt: 

Grafiken → Balken 

Es öffnet sich ein Dialog wie in Abb. 15 zu sehen. 

Abb. 15: Der Balken-Diagramm-Dialog 

Hier ist zuerst auszuwählen, ob man eine Grafik für nur eine Variable erstellen will 

(Einfach), oder ob die Kombinationen mehrerer Variablen gruppiert dargestellt 

werden sollen (Gruppiert). Im unteren Teil des Dialoges ist eine weitere Auswahl zu 

treffen. „Auswertung über Kategorien einer Variablen“ wird verwendet, um Statistiken 

für verschiedene Ausprägungen einer Variablen darzustellen. Dies ist der 

gebräuchlichste Fall. Mit dem zweiten Punkt können die Mittelwerte verschiedener 

Variablen miteinander verglichen werden, und der letzte Punkt erlaubt die Werte 

einzelner Fälle (Personen) darzustellen. 

Wählt man „Einfach“ und „Auswertung über Kategorien einer Variablen“ und betätigt 

die Schaltfläche „Definieren“ so erscheint ein neuer Dialog, wie in Abb. 16 zu sehen. 

Zuerst ist in diesem Dialog die Variable festzulegen, von deren Kategorien Statistiken 

dargestellt werden sollen. Hat man im vorherigen Menu „Gruppiert“ ausgewählt, so 

ist hier zusätzlich die Variable anzugeben, deren Kategorien die „Gruppen“ in der 

Ausgabe bilden sollen. In Abb. 16 ist die Variable „geschl“ als Kategorie-Achse 

ausgewählt. Im oberen Bereich des Dialoges müssen jetzt die Statistiken gewählt 

Seite - 17 -


werden, die im Diagramm dargestellt werden sollen. Grundeinstellung ist hier „Anzahl 

der Fälle“, was für die absoluten Häufigkeiten steht. 

Abb. 16: Dialog zur Definition des Bar-Charts 

Weiterhin können die relativen Häufigkeiten sowie die kumulierten absoluten und 

relativen Häufigkeiten dargestellt werden. Über „Andere Auswertungsfunktion“ 

besteht die Möglichkeit, für jede Kategorie eine Statistik einer anderen Variablen 

ausgeben zu lassen. So kann man sich z.B. den Mittelwert des Alters für die beiden 

Geschlechter darstellen lassen. Hierzu ist dann in das Feld „Variable“ noch die 

Variable einzutragen, deren Statistiken für die verschiedenen Gruppen ausgegeben 

werden sollen. 

Über die Schaltfläche „Titel“ besteht die Möglichkeit, die Beschriftung des 

Diagrammes zu beeinflussen. Hierfür sind Texte für den Titel, den Untertitel und für 

eine eventuelle Fußnote anzugeben. Dieser Dialog ist mit „Weiter“ wieder zu 

verlassen. 

Hat man alle Einstellungen vorgenommen, so startet man das Zeichnen des 

Diagramms mit „OK“. Das Diagramm wird anschließend im Output dargestellt. Klickt 

man im Output doppelt auf ein Diagramm, so öffnet sich ein neues Fenster, in 

welchem man die Möglichkeit hat, viele Eigenschaften des Diagramms zu ändern, so 

z.B. die Farbgebung oder die Linienstärke. Auf diese Punkte wird später noch 

genauer eingegangen. 

Abb. 17 zeigt das Diagramm, welches aus den Einstellungen in Abb. 16 hervorgeht. 

In Abb. 18 ist ein Beispiel für ein „clustered“ Balken-Diagramm zu sehen. In diesem 

Fall wurden die absoluten Häufigkeiten aller Merkmalskombinationen der beiden 

Variablen „Geschlecht“ und „Schulabschluss“ dargestellt. 

Seite - 18 -


19 

18 

17 

16 

15 

14 

Absolute Werte 

13 

12 

11 

Frauen 

Männer 

Geschlecht der VP 

Abb. 17: Das Balkendiagramm 

8 

7 

6 

5 


4 

3 

2 

Frauen 

Männer 

Schulabschluss 

Hauptschule 

Realschule 

Abitur 


Abb. 18: Das gruppierte Balkendiagramm 

Seite - 19 -


4.2. Erstellung eines „Histogramms“ für intervallskalierte Variablen. 

Um ein Histogramm zu erstellen rufen wir den Menupunkt 

Grafiken → Histogramm 

auf. Es öffnet sich ein Dialog wie in Abb. 19 dargestellt. 

Abb. 19: Der Histogramm-Dialog 

Unter „Variable“ ist hier zuerst die Variable einzutragen, von welcher ein Histogramm 

erstellt werden soll. Im unteren Teil des Dialoges, besteht die Möglichkeit, eine 

Normalverteilungskurve in das Histogramm zu legen. Diese ermöglicht einem eine 

optische Kontrolle über die Verteilung der Daten. Über die Schaltfläche „Titel“ kann 

auch hier wieder die Beschriftung des Histogramms verändert werden. Mit der 

Schaltfläche „OK“ wird wie gehabt das Zeichnen gestartet. Es erscheint ein 

Diagramm wie in Abb. 20 zu sehen. 

10 

8 

6 

4 

2 

Std.abw. = 5,44 

Mittel = 47,6 

0 

N = 30,00 

40,0 

42,5 

45,0 

47,5 

50,0 

52,5 

55,0 

57,5 

Alter der Versuchsperson 

Abb. 20: Ein Histogramm für die Variable „Alter“ 

Das Histogramm aus Abb. 20 ist ein Histogramm für die Variable „Alter“. Das Alter 

wurde automatisch in acht Gruppen aufgeteilt, und die absoluten Häufigkeiten für 

Seite - 20 -


jede Gruppe dargestellt. Möchte man diese Einteilung in acht Gruppen verändern, so 

muss man mittels Doppelklick in das Bearbeitungsfenster wechseln, welches in Abb. 

21 dargestellt ist. 

Abb. 21: Das Bearbeitungsfenster des Histogramms 

In unserem Beispiel wollen wir nun die Einteilung der horizontalen Achse ändern. 

Dies tun wir durch einen Doppelklick auf diese Achse. Es öffnet sich ein neuer Dialog 

der in Abb. 22 zu sehen ist. 

Abb. 22: Der Dialog zur Definition der Achseneinteilung 

Hier kann man zum einen die Beschriftung der Achse im Feld „Achsentitel“ ändern. 

Für uns interessant ist der Punkt „Intervalle“. Hier ist „Automatisch“ eingestellt, was 

bedeutet, dass SPSS selbst eine Aufteilung in Intervalle (Gruppen) vornimmt. Durch 

Umstellung auf „Anpassen“ können wir selbst Einfluss auf diese Einteilung nehmen. 

Über die Schaltfläche „Definieren“ gelangen wir zu einem weiteren Dialog der in Abb. 

23 dargestellt ist. 

Seite - 21 -


Abb. 23: Definition der Intervalleinteilung 

Hier hat man die Möglichkeit entweder eine Anzahl von Intervallen festzulegen oder 

eine Intervallbreite anzugeben. Unter Bereich lässt sich zusätzlich der dargestellte 

Wertebereich verändern, indem man Minimum und Maximum angibt. Geben wir für 

die Anzahl der Intervalle 10 ein und beenden alle Dialoge mit „Weiter“ bzw. „OK“, so 

wird das Histogramm wie in Abb. 24 dargestellt verändert. 

8 

6 

4 

2 

0 

Std.abw. = 5,44 

Mittel = 47,6 

N = 30,00 

39,8 43,8 47,8 51,8 55,8 

41,8 45,8 49,8 53,8 57,8 


Abb. 24: Das neue Histogramm mit 10 Intervallen 

Seite - 22 -


5. Umwandlung von Variablen und Erzeugung 

neuer Variablen 

SPSS ist in erster Linie ein Statistik-Paket, es bietet aber auch vielfältige 

Möglichkeiten zur Datenmodifikation. 

5.1. Rekodieren von Daten 

Oft kommt es in der Praxis vor, dass eine Einteilung einer nominalen oder ordinalen 

Variable im Nachhinein verändert werden muss, um bestimmte Rechnungen 

durchzuführen. Haben wir z.B. eine Variable Studienfach mit den Ausprägungen 

1=Psychologie, 2=Soziologie, 3=Maschinenbau und 4=Medizintechnik und wollen 

diese jetzt nur noch nach sozialen und technischen Berufen unterscheiden, so 

müssen die Gruppen 1 und 2 sowie 3 und 4 zusammengefasst werden. Hierbei hilft 

einem SPSS mit der Funktion 

Transformieren → Umkodieren → in dieselbe / in andere Variable 

Bei dieser Funktion ist zu beachten, dass hier zu wählen ist, ob bei der Rekodierung 

die alte Variable überschrieben werden soll (in dieselbe Variable) oder ob eine neue 

Variable angelegt werden soll, in welche die Rekodierung geschrieben werden soll 

(in andere Variable). Hier wählt man in der Regel das letztere, da auf diese Weise die 

Originaldaten erhalten bleiben. 

Es öffnet sich anschließend ein Dialog wie in Abb. 25 zu sehen. 

Abb. 25: Der Umkodieren Dialog 

Hier ist zuerst anzugeben, welche Variable rekodiert werden soll. Anschließend ist 

der Name der Variablen anzugeben, in die das Ergebnis der Rekodierung 

geschrieben werden soll. 

Hat man die beiden Variablen definiert, so gelangt man über die Schaltfläche „Alte 

und neue Werte“ in einen neuen Dialog wie in Abb. 26 dargestellt. 

Seite - 23 -


Abb. 26: Eingabe der alten und neuen Werte 

Hier ist festzulegen, welchen alten Werten (linke Hälfte) welcher neue Wert (rechte 

Hälfte) zugewiesen werden soll. Alte Werte können einzelne Werte oder Bereiche 

von Zahlen sein. Unter „Wert“ ist ein einzelner Wert, unter „Bereich“ ist ein Bereich 

einzutragen. Auf der rechten Seite ist der zugeordnete neue Wert unter „Wert“ 

einzutragen. Hat man beides getan, so ist die Kombination mit alten und neuen 

Werten mit „Hinzufügen“ in die Liste der Umkodierungen zu übernehmen. Die 

Einstellungen in Abb. 26 entsprechen dem oben genannten Beispiel. Die alten Werte 

1 und 2 werden zum neuen Wert 1, die Werte 3 und 4 zum Wert 2. Hat man alle 

Eingaben vorgenommen, so beendet man mit „Weiter“ den Dialog. Im 

vorhergehenden Dialog noch die Schaltfläche „OK“ betätigen und SPSS führt die 

eingestellte Rekodierung durch. 

5.2. Bedingte Umkodierung 

Hängt die Rekodierung von mehr als einer Ausgangsvariablen ab, so ist der Vorgang 

etwas komplizierter. Angenommen wir wollen allen Frauen (Variable Geschlecht) 

über 22 Jahren (Variable Alter) den Wert 1 zuweisen, Frauen unter 22 Jahren den 

Wert 2 usw. Hierfür benötigen wir die Funktion 

Transformieren → Berechnen 

Es öffnet sich ein Dialog wie in Abb. 27 zu sehen. Unter „Zielvariable“ ist zuerst der 

Name einer Variablen anzugeben, in welche das Ergebnis der Rekodierung 

geschrieben werden soll. Dies kann eine neue oder eine bereits bestehende Variable 

sein. Im großen Feld „Numerischer Ausdruck“ tragen wir den ersten Wert ein, der in 

dieser Variablen definiert werden soll. In unserem Falle wollen wir Frauen über 22 

den Wert 1 zuordnen, wir tragen also eine „1“ in dieses Feld ein. Über die 

Schaltfläche „Falls“ gelangen wir jetzt in einen Dialog, in welchem wir definieren, 

wann der Variablen der Wert „1“ zugeordnet werden soll. Dieser Dialog ist in Abb. 28 

zu sehen. 

Seite - 24 -


Abb. 27: Der Berechnen-Dialog 

Hier ist zuerst der Schalter „Fall einschließen, wenn Bedingung erfüllt ist“ 

anzuwählen. Dadurch wird nur den Fällen, die unsere Bedingung erfüllen, der Wert 

„1“ zugeordnet. Jetzt müssen wir im darunterliegenden Feld unsere Bedingung 

eingeben. Die Person soll weiblich sein, also geschl=1 UND (&) das Alter soll größer 

als 22 sein, also alter>22. In der Abbildung ist genau dies eingetragen: alter > 22 & 

geschl = 1. Dies ist noch eine relativ einfache Verknüpfung zweier Variablen, aber 

SPSS versteht auch deutlich kompliziertere Verknüpfungen. 

Abb. 28: Der „Falls“-Dialog 

Zu beachten sind hierbei auch Ungenauigkeiten der deutschen Sprache. Wollen wir 

z.B. allen Frauen und allen Student(inn)en der Psychologie den Wert „1“ zuweisen, 

so ist hier keine „und“-Verknüpfung zu wählen, wie es die Aussprache nahe legt, 

sondern eine „oder“-Verknüpfung. Der korrekte Ausdruck wäre: geschl = 1 | studfach 

= 1. Das Zeichen „|“ steht dabei für das logische „oder“. Würden wir an dieser Stelle 

eine „und“-Verknüpfung wählen, so würden wir nur die Frauen auswählen, die 

Psychologie studieren, wir würden aber nicht die Frauen anderer Studienfächer und 

die Männer, welche Psychologie studieren, berücksichtigen. 

Mit „Weiter“ ist dieser Dialog zu beenden. Der vorhergehende Dialog ist mit „OK“ zu 

beenden. 

Jetzt haben wir den Wert „1“ definiert. Um weitere Werte zu definieren, müssen wir 

den Vorgang von vorne beginnen und nacheinander alle Werte auf diese Weise 

Seite - 25 -


definieren. Im ersten Dialog würden wir statt der „1“ eine „2“ eintragen und als 

Bedingung dann entsprechend unserem Beispiel: geschl = 1 & alter < 22. Dies ist bis 

zum letzten Wert fortzusetzen. 

5.3. Verrechnung einer oder mehrerer Variablen zu einer neuen 

In der Praxis ist es häufig der Fall, dass mehrere Variablen zu einer 

zusammengefasst werden, z. B. wenn ein Konzept durch mehrere Items gemessen 

wurde und der Wert des Konzeptes durch den Mittelwert der Items ausgedrückt 

werden soll. Wir wollen als Beispiel annehmen, wir hätten vergessen zu erheben, in 

welchem Alter unsere Versuchsperson ihr aktuelles Studium begonnen hat. Wir 

haben aber aktuelles Alter und Semesterzahl erhoben. Das Startalter ergibt sich 

dann aus der Formel: aktuelles Alter – (Semesterzahl / 2). Auch solche 

Berechnungen nimmt einem SPSS ab. Hierzu dient wieder die Funktion 

Transformieren → Berechnen 

Es öffnet sich das bereits bekannte Fenster, welches wir jetzt aber anders 

verwenden werden. Zuerst ist sicherzustellen, dass alle früheren Eingaben in diesem 

Fenster gelöscht werden, dazu betätigt man die Schaltfläche „Zurücksetzen“. In Abb. 

29 ist das „Berechnen“-Fenster noch einmal zu sehen. Auch hier müssen wir unter 

„Target Variable“ zuerst angeben, in welche Variable das Ergebnis unser 

Berechnung geschrieben werden soll. In das Feld „Numerischer Ausdruck“ ist jetzt 

die Berechnungsformel für die neue Variable einzutragen. In unserem Beispiel ist 

diese alter-(semester/2). Die Namen der Variablen können aus der Variablenliste 

links übernommen werden. SPSS erlaubt alle üblichen mathematischen Formeln. 

Z.B. können hier auch Mittelwertsformeln eingegeben werden. Eine Sammlung 

vorgefertigter Funktionen steht einem im Dialog unter „Funktionen“ zur Verfügung, 

darunter „Mean“ für Mittelwert oder „Sum“ für Summe. Hat man die Eingabe der 

Formel beendet, so startet man die Berechnung mit „OK“. Es wird eine neue Variable 

angelegt, in welcher das Ergebnis der Rechnung steht. Natürlich kann man auch nur 

eine einzelne Variable zu einer neuen verrechnen, z.B. um eine neue Skala zu 

berechnen. 

Abb. 29: Das Berechnen Fenster zur Verrechnung von Variablen 

Seite - 26 -


5.4. Auszählungen von Werten über mehrere Variablen 

Oft ist man daran interessiert, wie häufig ein bestimmter Wert oder ein bestimmter 

Wertebereich in mehreren Variablen vorkommt. Man stelle sich als Beispiel vor, man 

habe bei Versuchspersonen in regelmäßigen Abständen den Blutdruck gemessen. 

Auf die Weise hat man 10 Messwerte des Blutdrucks für jede Person gewonnen. 

Man möchte nun herausfinden, in wie vielen der 10 Messungen jede Person einen zu 

hohen Blutdruck hatte, da dies als Hinweis für eine physiologische Störung 

angenommen wird. Solche Auszählungen über mehrere Variablen erledigt SPSS 

über den Menupunkt: 

Transformieren à Zählen 

Es öffnet sich der Dialog wie in Abb. 30 zu sehen. Hier ist unter „Zielvariable“ zuerst 

ein Name für die neue Variable anzugeben, in welche das Ergebnis der Auszählung 

geschrieben werden soll. Über „Label“ kann die Variable auch gleich mit einem 

„Wertelabel“ versehen werden. In die Liste, die mit „Variablen“ überschrieben ist, 

müssen jetzt alle Variablen eingetragen werden, über die die Auszählung erfolgen 

soll. In unserem Beispiel sind dies die zehn Messpunkte des Blutdrucks. 

Abb. 30: Der Dialog zur Auszählung über mehrere Variablen 

Über die Schaltfläche „Werte definieren“ öffnet man den Dialog wie in Abb. 31 zu 

sehen. 

Abb. 31: Die Auswahl der zu zählenden Werte 

Hier sind ähnlich wie beim Umkodieren der Variablen die Werte und Bereiche 

auszuwählen, welche gezählt werden sollen. Unserem Beispiel entsprechend wurde 

hier der Bereich 100 oder höher ausgewählt. Es wird jetzt also gezählt, wie oft der 

Blutdruck den Wert 100 erreicht oder überstiegen hat. Mit der Schaltfläche „Weiter“ 

Seite - 27 -


und anschließend „OK“ wird die Auszählung gestartet. Anschließend enthält der 

Datensatz die neu angelegte Variable, in welcher das Ergebnis der Auszählung 

steht. 

5.5. Bildung von Rangwerten 

Viele fortgeschrittene Statistiken in der Psychologie erfordern die Erstellung von 

Rangwerten. SPSS kann auch diese Aufgabe übernehmen. Über den Menupunkt 

Transformieren à Rangfolge bilden 

öffnet sich der Dialog wie in Abb. 32 zu sehen. 

Abb. 32: Der Dialog zur Erstellung von Rangwerten 

Unter „Variablen“ sind die Variablen einzutragen, welche in Rangwerte umgewandelt 

werden sollen. In der Abb. 32 ist dies die Variable „Alter“. Über „Rang 1 zuweisen“ ist 

außerdem festzulegen, ob der Wert 1 dem kleinsten oder größten Wert entspricht. 

Der Normalfall ist hier der kleinste Wert. Über „Rangtypen“ können verschiedene 

Arten von Rangbildungen ausgewählt werden, die in der Praxis aber seltener von 

Bedeutung sind. Über „Rangindungen“ wird festgelegt, wie SPSS verfahren soll, 

wenn mehreren Werten der selbe Rang zugewiesen werden muss. Über die Liste 

„Nach“ kann die Rangkodierung auch nach einer oder mehreren anderen Variablen 

aufgeteilt werden. Mit der Schaltfläche „OK“ startet man die Rangkodierung und es 

erscheint eine neue Variable mit dem Namen rXXXXX wobei XXXXX dem alten 

Variablennamen entspricht. In dieser neuen Variablen stehen die Rangwerte der 

alten Variablen. 

Seite - 28 -


6. Bildung von Untergruppen / 

Unterstichproben 

6.1. Auswahl von Fällen 

Oft kommt in der Praxis vor, dass nicht der gesamte Datensatz verrechnet werden 

soll, sondern nur Fälle mit bestimmten Eigenschaften in die Rechung mit eingehen 

sollen. So könnten wir z.B. Rechungen nur für die Frauen in unserer Stichprobe 

durchführen wollen, also für weitere Rechnungen eine Unterstichprobe bilden wollen. 

Hierzu dient die Funktion 

Daten → Fälle auswählen 

Es erscheint ein Dialog wie in Abb. 33 zu sehen. Hier ist auf der rechten Seite 

zunächst auszuwählen, nach welcher Methode Daten ausgewählt werden sollen. 

Hier können z.B. alle Fälle, die Fälle, die eine bestimmte Bedingung erfüllen, eine 

Zufallsstichprobe oder ein bestimmter Bereich von Fällen ausgewählt werden. Es 

besteht auch die Möglichkeit, die Fälle anhand einer Filter-Variablen auszuwählen. 

Verwendet man eine Filtervariable, so werden in dieser die zu verwendenden Fälle 

mit 1 und die auszuschließenden Fälle mit 0 gekennzeichnet. Filtervariablen eignen 

sich besonders, um eine Auswahl zu treffen, die nicht oder nur schwer durch eine der 

anderen Möglichkeiten beschrieben werden kann. Unter „Nicht ausgewählte Fälle“ ist 

auszuwählen, ob die ausgeschlossenen Fälle nur ausgeblendet oder ganz gelöscht 

werden sollen. Mit letzterer Option ist vorsichtig umzugehen, da gelöschte Fälle nicht 

wiederhergestellt werden können. In unserem Beispiel wollen wir alle Fälle 

auswählen, die die Bedingung erfüllen „Geschlecht=weiblich“, wir wählen also „Falls 

Bedingung zutrifft“. 

Abb. 33: Der Fälle auswählen Dialog 

Über die Schaltfläche „Falls“ gelangen wir in einen weiteren Dialog, in welchem die 

Bedingung zu definieren ist, nach der die Fälle ausgewählt werden sollen. Dieser 

Dialog ist in Abb. 34 dargestellt. 

Seite - 29 -


Hier ist nun wie schon von einer früheren Funktion bekannt eine mathematischlogische 

Definition der Bedingung anzugeben. In unserem Beispiel wäre dies 

„geschl=1“, da der Wert „1“ als „weiblich“ definiert ist. Ist die Definition eingegeben, 

so kann man beide Dialoge mit „Weiter“ bzw. „OK“ beenden. 

Abb. 34: Definition der Bedingung für Select cases 

Wie links zu sehen ist, werden anschließend im Datenfenster die Fälle 

durchgestrichen, welche bis auf weiteres nicht in die Rechung einbezogen 

werden. Diese Auswahl ist gültig, bis sie explizit wieder rückgängig 

gemacht wird. Um die Auswahl der Fälle rückgängig zu machen, ist im 

oben beschriebenen Dialog wieder „Alle Fälle“ auszuwählen. 

Erstellt man nach der ersten Datenauswahl erneut eine Auswahl, so wird 

die ursprüngliche Auswahl aufgehoben. Sollen beide Selektionen 

beibehalten werden, so ist die alte Auswahl in die neue Auswahl zu integrieren. 

Eine praktische Eigenschaft von SPSS ist es, dass es automatisch zu jeder 

Datenselektion, die nach dem oben beschriebenen Vorgang angelegt wurde, eine 

Filtervariable erstellt. Dies ermöglicht es später ohne größeren Aufwand die gleiche 

Datenauswahl erneut zu tätigen. Filtervariablen werden mit „filter_$“ bezeichnet. 

SPSS fügt diese als normale Variablen dem Datensatz hinzu. Speichert man den 

Datensatz, so werden auch diese Filtervariablen mit dem Datensatz gespeichert. 

Filtervariablen können auch im Nachhinein, wie andere Variablen, benannt und mit 

Labeln versehen werden. 

6.2. Datei aufteilen 

Eine gebräuchliche Anwendung, die Datenselektion erforderlich macht, ist die 

getrennte Verrechnung verschiedener Stichproben. Möchte man beispielsweise alle 

Rechungen getrennt sowohl für die Frauen als auch für die Männer durchführen, so 

könnte man dies zum einen über die oben erwähnte „Fälle auswählen“ - Funktion 

erledigen, indem man nacheinander zuerst nur die Frauen auswählt und 

anschließend nur die Männer. SPSS bietet für diesen Spezialfall aber eine 

einfachere Funktion die über 

Daten → Datei aufteilen 

aufgerufen wird. Es erscheint ein Dialog wie in Abb. 35 zu sehen. 

Seite - 30 -


Abb. 35: Der Datei aufteilen-Dialog 

Hier ist zuerst wieder auszuwählen, ob alle Fälle ausgewählt werden sollen (Alle 

Fälle analysieren) oder ob die Rechungen getrennt für die Gruppen einer Variablen 

durchgeführt werden sollen (Ausgabe nach Gruppen aufteilen). In „Gruppen basieren 

auf” sind die Variablen einzutragen, nach denen Gruppen gebildet werden sollen. In 

unserem Beispiel also Geschlecht. Beendet man den Dialog mit „OK“, so erscheint 

im Datenfenster in der unteren Statuszeile die Meldung: . Bis auf weiteres 

werden jetzt alle Rechungen getrennt für die beiden Geschlechter vorgenommen. 

Durch „Alle Fälle analysieren“ in oben stehendem Dialog kann dies wieder 

rückgängig gemacht werden. 

Seite - 31 -


7. Zusammenfügen von Dateien 

Teilen sich mehrere Personen die Arbeit der Dateneingabe, so liegen anschließend 

mehrere Dateien mit eingegebenen Daten vor. Diese müssen zur Datenauswertung 

zusammengefügt werden. SPSS hilft hier mit zwei Funktionen weiter. 

7.1. Fälle hinzufügen 

Die erste Funktion erlaubt es, zu einem bestehenden Datensatz Fälle aus einer 

anderen Datei hinzuzufügen. Dies ist dann nötig, wenn jeder Dateneingeber einen 

Teil der Versuchspersonen eingegeben hat, jedoch bei jeder Person immer die 

gleichen Variablen. Diese Funktion wird über den Menupunkt 

Daten à Dateien zusammenfügen à Fälle hinzufügen 

ausgewählt. Zuerst fragt SPSS in einem Standard-Datei-Dialog nach dem Namen der 

zweiten Datendatei. Anschließend öffnet sich der Dialog wie in Abb. 36 zu sehen. 

Abb. 36: Der Fälle hinzufügen Dialog 

Hat man im Idealfall die richtige Vorarbeit geleistet und sind in beiden Dateien die 

Variablennamen identisch, so sollte die linke Liste leer sein, und der Dialog kann 

sofort mit „OK“ beendet werden. Anderenfalls erscheinen in der linken Liste die 

Variablen, die noch nicht einander zugeordnet wurden. Es müssen dann jeweils die 

zwei zusammengehörigen Variablen in beiden Dateien ausgewählt und über die 

Schaltfläche „Paar“ in die rechte Liste übernommen werden. Ist die linke Liste leer, 

so kann der Dialog mit „OK“ beendet werden. (Ist die linke Liste nicht leer, wenn man 

„OK“ betätigt, so gehen in einer oder beiden Dateien Variablen verloren.) 

Anschließend ist der ursprüngliche Datensatz um die Fälle aus der zweiten Datei 

erweitert. Gibt es mehr als zwei Dateien, so ist dieser Vorgang zu wiederholen, bis 

alle Dateien zusammengefügt wurden. 

7.2. Variablen hinzufügen 

Die zweite Funktion ist dazu gedacht, Variablen aus einer zweiten Datei zur ersten 

hinzuzufügen. Dies ist z.B. der Fall, wenn ein Fragebogen aus mehreren Seiten 

bestanden hat, und jede Person bei der Dateneingabe nur eine Seite, aber alle 

Seite - 32 -


Versuchspersonen dieses Fragebogens bearbeitet hat. Von dieser Variante ist 

grundsätzlich abzuraten, weil hier peinlichst genau auf die richtige Reihenfolge der 

Eingabe der Versuchspersonen geachtet werden muss. Schleichen sich hier Fehler 

ein, so können diese gravierende Auswirkungen auf die Datenauswertung haben. 

Wählt man die Funktion über den Menupunkt 

Daten à Dateien zusammenfügen à Variablen hinzufügen 

aus, so wird wieder zuerst nach dem Dateinamen der zweiten Datendatei gefragt. 

Hat man diese ausgewählt, so erscheint das Dialogfeld wie in Abb. 37 zu sehen. 

Abb. 37: Der Variablen hinzufügen Dialog 

Gibt es im Idealfall in beiden Dateien keine identischen Variablennamen, so ist die 

linke Liste leer und der Dialog kann sofort mit „OK“ beendet werden. Gibt es doppelte 

Variablennamen, so werden diese Variablen entweder gelöscht, indem man gleich 

auf „OK“ klickt, oder man benennt die doppelten Variablen einzeln um und fügt sie 

zur rechen Liste hinzu. Beendet man den Dialog mit „OK“ so werden die neuen 

Variablen aus dem zweiten Datensatz zur ersten Datei hinzugefügt. Auch hier ist 

dieser Vorgang zu wiederholen, bis alle Datensätze zusammengefügt wurden. 

Seite - 33 -


8. Explorative Datenanalyse 

8.1 Fragestellung 

Rechnen mit fehlerhaft erhobenen oder eingegebenen Daten bedeutet die 

Berechnung von „Ergebnissen“, die kein wahres (Ab-)Bild der untersuchten Realität 

wiedergeben. Da Erhebungs- oder Eingabefehler sehr häufig vorkommen, sollte man 

vor dem Beginn der Datenanalyse zunächst die Daten auf solche Fehler hin 

überprüfen, d.h. diese einer Plausibiltätsprüfung unterziehen. Dadurch lassen sich 

häufig bereits im Vorfeld mögliche Auffälligkeiten in der Datenstruktur sowie 

Datenfehler erkennen. Zu einer solchen explorativen Datenanalyse gehört im 

allgemeinen, 

a) sich zunächst die Rohdatenmatrix in ihrer Gesamtheit anzusehen und notfalls mit 

Hilfe der Originalbelege zu überprüfen. Oft genügt schon ein kurzer Blick, um zu 

erkennen, dass etwas nicht stimmt; z.B. dass viel zu große oder viel zu kleine 

Werte in einer Variablen/Spalte stehen, Werte, die „nicht angehen“ können. Das 

kann z.B. dadurch passieren, dass Fehler bei der Übertragung der Daten vom 

Original in den PC aufgetreten sind, oder dass die Daten nicht spaltengerecht 

eingegeben worden sind, also bei einzelnen Personen/Fällen oder auch bei 

mehreren „Datenverschiebungen“ stattgefunden haben. Oft passiert es 

Anfängern, dass sie statt einer 0 (Ziffer) ein O (Buchstabe) eingeben; oder sie 

geben fehlende Werte falsch ein. Solche und andere Fehler können sich bei 

Rechnungen in fataler Weise auswirken. 

b) die Lage und die Verteilung der Werte darzustellen und nach extrem großen oder 

kleinen Werten, sog. Ausreißern, Ausschau zu halten. Ausreißer entstehen nicht 

selten durch Fehler bei der Datenerhebung und Dateneingabe. SPSS besitzt 

Programme, um nach Ausreißern zu suchen. Findet es damit welche, so gilt es zu 

überprüfen, ob diese außergewöhnlich großen oder kleinen Werte tatsächlich auf 

Fehler bei der Datenerhebung oder Dateneingabe zurückzuführen sind oder ob 

es sich um wirkliche Messwerte handelt. Falsche Werte können die Ergebnisse 

von Rechnungen verfälschen. Aber auch wenn sie wahre Messwerte darstellen, 

ist doch zu prüfen, 

• ob sie nicht unter extremen bzw. nicht vom Versuchsplan vorgesehenen 

Umständen entstanden sind. Dann sollten sie von der weiteren Analyse 

ausgeschlossen werden, denn sie würden die Überprüfung der hinter dem 

Versuchsplan stehenden Hypothesen erschweren oder gar unmöglich 

machen. 

• ob sie wirklich in die Analyse eingehen sollten, denn sie könnten auch als 

wahre Werte Ergebnisse verfälschen. Wenn z.B. 101 Studierende nach 

ihrem Einkommen befragt werden und 100 davon 1000 DM angeben, 1 

aber 100000 DM, dann würde das durchschnittliche Einkommen ca. 1980 

DM betragen. Ein solcher Mittelwert würde zwar der „Wahrheit“ 

entsprechen, aber das Einkommen von 99 % der Studierenden völlig 

falsch wiedergeben. Es kommt also ganz darauf an, „was“ mit dem 

berechneten Wert ausgesagt werden soll, was also das Ziel der 

Berechnung sein soll, wozu das berechnete Ergebnis gut sein soll, welche 

Funktion, Rolle, Aufgabe, Wert, Bedeutung, Sinn es in welchem 

(Interpretations-)Kontext erhalten soll, kurz welche Fragen/Hypothesen es 

eigentlich beantworten soll. 

Seite - 34 -


Wie man allgemein sieht, kann es sehr gefährlich sein, einmal 

berechneten „Ergebnissen“, von denen man nicht mehr weiß, wozu sie 

berechnet wurden, oder die ziellos (funktionslos, fragestellunglos) 

berechnet wurden, erst nachträglich einen Sinn zu unterlegen, oder sogar 

verschiedene Bedeutungen, je nach nachträglich aufgesetzten 

(Interpretations-)Kontexten/Perspektiven. Wer so vorgeht, kann in der Tat 

„mit Statistik alles beweisen“. Datenzusammenfassungen (oder 

Datenaufteilungen) geschehen grundsätzlich unter 

Fragestellungen/Perspektiven. Es gibt keine Datenverarbeitungen „an 

sich“. Und im Grunde gibt es auch keine Daten an sich. Auch 

Daten/Beobachtungen sind bereits unter bestimmten Fragestellungen 

erhoben worden. Aus ihnen nachträglich etwas herausrechnen 

(„beweisen“) zu wollen, kann zu eklatanten Fehlinterpretationen der 

„Wirklichkeit“ führen. 

c) dass die Daten auch daraufhin überprüft werden, ob sie die Voraussetzungen 

erfüllen, die von den auf die Daten anzuwendenden statistischen Verfahren an 

die Daten gestellt werden, z.B. ob die Daten normalverteilt sind oder ob die 

Varianzen verschiedener Stichproben homogen sind. 

8.2 Methoden der explorativen Datenanalyse 

8.2.1 Häufigkeitsauszählung 

Bei kleinen Datentabellen genügt oft die Inspektion mit dem bloßen Auge, um erste 

Fehler zu erkennen. Große Datentabellen, insbesondere solche mit vielen Fällen 

erscheinen jedoch als eine unübersichtliche Liste von Werten. Um zunächst 

festzustellen, welche Werte in einer Variablen überhaupt vorkommen, kann es 

günstig sein, zunächst eine eindimensionale Häufigkeitsauszählung durchzuführen 

(vgl. Kapitel 3.1 diese Skripts). Dies ist vor allem angebracht, wenn es sich um eine 

diskrete (gestufte) Variable handelt, man also weiß, welche Werte bei ihr nur 

vorkommen dürfen. Treten dann doch noch andere auf, so können diese nicht 

stimmen. Man wird dann nochmals im Original nachsehen müssen. Natürlich erhält 

man bei dieser Gelegenheit auch gleich die Information, wie viele fehlende Werte die 

Variable aufweist. Bei vielen fehlenden Werten ist zu fragen, woran das gelegen hat, 

und für den Fall, das diese vielen Werte rechtens sind, ist zu fragen, ob sich die 

Auswertung dieser Variablen überhaupt noch lohnt. Beide Fragen sind dabei in 

Bezug auf die Fragestellung zu beantworten, die hinter dieser Variablen steht. Es 

geht um die Frage, warum sie überhaupt erhoben wurde, wozu sie gut sein sollte. 

Bei stetigen Variablen, die eine Vielzahl unterschiedlicher Werte enthalten, kann ein 

Histogramm für die Darstellung der Häufigkeitsverteilung verwendet werden. Ein 

solches betrachtet nicht mehr Einzelwerte, sondern Wertebereiche gleicher Breite, 

deren Häufigkeiten in grafischer Form wiedergegeben werden. Obwohl die Werte der 

Variablen jetzt zu Wertebereichen (Intervallen) zusammenfasst wurden, kann man 

auch jetzt oft noch fragen, ob bestimmte Werte, vor allem Extremwerte, noch 

„angehen“ können. 

Seite - 35 -


8.2.2 Stem-and-Leaf-Diagramm (Stengel-Blatt-Diagramm) 

Eine Mischung aus einer Häufigkeitstabelle und einem Histogramm stellt das Stemand-Leaf-Diagramm 

dar. In einer solchen Grafik werden ebenfalls die Häufigkeiten 

von Wertebereichen durch Balken abgebildet, diese setzen sich jedoch aus 

Textzeichen zusammen, die die in dem jeweiligen Wertebereich enthaltenen 

Einzelwerte angeben. 

Analysieren fi Deskriptive Statistik fi Explorative Datenanalyse 

Abb. 38: Dialogfeld Explorative Datenanalyse 

Hier geben wir als abhängige Variable(n) jene ein, von der (denen) wir ein Stengel- 

Blatt-Diagramm erstellen möchten. In die Faktorenliste müssen nur dann Faktoren 

(unabhängige Variablen) eingegeben werden, wenn man die Fälle der Datendatei in 

Untergruppen aufteilen möchte, z.B. durch Eingabe der UV „Geschlecht“ in die 

beiden Untergruppen „Frauen“ und „Männer“. Jede Untergruppe wird dann getrennt 

untersucht. Wenn man mehrere unabhängige Variablen eingibt, werden die Fälle bei 

jede Variablen neu unterteilt. Die Fallgruppen werden also nicht durch eine 

Kombination der Werte aus den verschiedenen unabhängigen Variablen definiert. 

„Fallbeschriftung“: Einige Ergebnisse der explorativen Datenanalyse beziehen sich 

auf einzelne Fälle der Datendatei, z.B. welche Fälle vermutlich Ausreißer darstellen. 

Diese Fälle werden durch Voreinstellung durch ihre Fallnummer aus der Datendatei 

gekennzeichnet. Wenn man aber eine Variable in das Feld „Fallbeschriftung“ eingibt, 

werden deren Werte zur Kennzeichnung verwendet. 

Diagramme fi Stengel-Blatt 

Es erscheint folgender Dialog: 

Abb. 39: Dialogfeld der Schaltfläche Diagramme 

Seite - 36 -


Wenn wir nun die Taste „Weiter“ betätigen, wird ein Stengel-Blatt-Diagramm gemäß 

den Einstellungen des vorhergehenden Dialogfeldes „Explorative Datenanalyse“ 

erstellt: 

Belastungspuls der VP Stem-and-Leaf Plot for 

GESCHL= Frauen 

Frequency Stem & Leaf 

2,00 6 . 67 

3,00 7 . 668 

6,00 8 . 258999 

,00 9 . 

1,00 10 . 3 

Stem width: 10,00 

Each leaf: 1 case(s) 

Abb. 40: Stengel-Blatt-Diagramm 

Dieses Diagramm ist wie folgt zu interpretieren: 

Die Werte der abhängigen Variable sind in Wertebereiche eingeteilt. Jede Zeile 

beschreibt einen dieser Wertebereiche. In der Spalte Frequency wird die Häufigkeit 

angegeben, mit der Werte vorkommen, die in diesen Wertebereich fallen. Die zweite 

Spalte gibt den „Stamm“ an, die dritte Spalte die „Blätter“, wobei jede einzelne Ziffer 

ein Blatt darstellt. Durch diese beiden Spalten lässt sich ablesen, um welche Werte 

des Wertebereichs es sich handelt. Dazu wird der einzelne ganzzahlige Wert als 

Dezimalzahl dargestellt. Der Stamm gibt den ganzzahligen Teil wieder, das Blatt den 

Dezimalteil. Um auf den tatsächlichen ganzzahligen Wert zu kommen, ist die 

Dezimalzahl mit der unten angegebenen Stammweite (stem width) zu multiplizieren, 

so dass letztlich jedes einzelne Blatt (Ziffer) einen Wert des Wertebereichs darstellt. 

Dass mit einer Ziffer nur ein Wert dargestellt wird, gilt jedoch nur dann, wenn each 

leaf 1 case darstellt, sonst eben Werte der angegebenen Anzahl. Sollte diese größer 

als 1 sein, kann es vorkommen, dass die tatsächlich ausgezählte Zahl auch mal 

kleiner als diese Zahl ist. Dann wird das Blatt durch das Zeichen & dargestellt. & stellt 

dann „Teilblätter“ dar, „fractional leaves“, was dann auch unten im Diagramm 

vermerkt wird. Insgesamt stellt ein solches Stengel-Blatt-Diagramm also eine Pflanze 

dar, deren Stamm/Stengel sich in einzelne Äste aufteilt, an denen wiederum Blätter 

sitzen. Insgesamt ist die Mischung aus Häufigkeitstabelle und Histogramm deutlich 

erkennbar, indem die Häufigkeiten durch Balken abgebildet werden, die sich jedoch 

aus Ziffern zusammensetzen, die die im jeweiligen Wertebereich enthaltenen 

Einzelwerte nennen. 

8.2.3 Boxplots 

Diagramme fi Boxplots fi Faktorstufen zusammen 

Mit dieser Einstellung wird das Boxplot-Diagramm aufgerufen. „Faktorstufen 

zusammen“ meint dabei, dass die Boxplots der verschiedenen Gruppen eines im 

Dialogfeld zuvor deklarierten Faktors direkt nebeneinander gestellt werden, z.B. die 

Boxplots für die Untergruppen der Frauen und der Männer. „Abhängige Variablen 

zusammen“ stellt die Boxen verschiedener abhängiger Variablen, die sich auf 

dieselbe Fallgruppe beziehen, nebeneinander. Wenn kein Boxplot erstellt werden 

soll, ist die Option „Keiner“ zu wählen. 

Seite - 37 -


130 

120 

110 

100 

Belastungspuls der VP 

90 

80 

70 

60 

N = 

12 

Frauen 

18 

Männer 


Abb. 41: Berechnetes Boxplot gemäß den in den obigen Dialogfeldern konkret eingegebenen 

Variablen 

In einem Boxplot kann man sich die Lage und Verteilung der Werte einer Variablen, 

gegebenenfalls getrennt nach Fallgruppen, grafisch darstellen lassen. Boxplots sind 

insbesondere dazu geeignet, Lage und Verteilung für verschiedene Variablen bzw. 

für unterschiedliche Fallgruppen derselben Variablen miteinander zu vergleichen. 

Letzteres ist in der Abb. 41 oben geschehen. Die beiden dargestellten Boxen 

beziehen sich auf die unterhalb der Abszisse inhaltlich benannten Stufen der 

unabhängigen Variablen. Die schwarze horizontale Linie innerhalb einer Box 

kennzeichnet die Lage des Medians (50%-Perzen-til). Die untere Grenze einer Box 

signalisiert das 25%-Perzentil und die obere Grenze das 75%-Perzentil der 

jeweiligen Fallgruppe (Unterstichprobe). Innerhalb einer Box liegen somit die 

mittleren 50% der Werte. Die dünnen Striche unterhalb und oberhalb der Box geben 

den kleinsten bzw. größten Wert dar, der noch keinen Ausreißer oder Extremwert 

darstellt. Als Ausreißer und Extremwerte werden von SPSS bei Boxplots solche 

Werte angesehen, die um mehr als das 1,5fache der Höhe der Box unter oder über 

der Box liegen. Genauer beträgt die Entfernung von Ausreißern zur Box zwischen 

dem 1,5fachen und dem 3fachen der Boxhöhe, Extremwerte dagegen mehr als das 

3fache der Boxhöhe unter dem 25%-Perzentil bzw. über dem 75%-Perzentil. In der 

Grafik werden Ausreißer dabei durch Kreise gekennzeichnet, Extremwerte durch 

Sternchen. Wie man insgesamt sieht, sind Boxplots gut geeignet, die Verteilung der 

Werte mehrerer Gruppen miteinander zu vergleichen. 

8.2.4 Normalverteilungsdiagramm 

Diagramme fi Normalverteilungsdiagramm (mit Tests) 

Mit dieser Option werden zwei Normalverteilungsdiagramme (und ein Signifikanztest 

auf Normalverteilung der Daten) ausgegeben. 

Zahlreiche statistische Verfahren setzen voraus, dass die zu untersuchenden Daten 

in der Grundgesamtheit normalverteilt sind. Bevor man derartige Verfahren 

anwendet, ist also zu prüfen, ob dies zumindest annähernd der Fall ist. Hierzu stellt 

die explorative Datenanalyse von SPSS grafische Verfahren (Normalverteilungsplots) 

Seite - 38 -


und Signifikanztests zur Verfügung. In den Plots werden die empirisch beobachteten 

Werte mit den theoretischen Werte verglichen, die sich unter der Annahme einer 

Normalverteilung (NV) ergäben. Abweichungen zwischen der theoretischen NV und 

der empirischen Verteilung werden durch entsprechende Abweichungen der Werte 

von einer Geraden deutlich. 

2,0 

Q-Q-Diagramm von Belastungspuls der VP 

Von GESCHL= Männer 

1,5 

1,0 

,5 

Erwarteter Normalwert 

0,0 

-,5 

-1,0 

-1,5 

-2,0 

70 

80 

90 

100 

110 

120 

Beobachteter Wert 

Abb. 42: Normalverteilungsdiagramm (Q-Q-Diagramm) der Variablen Belastungspuls 

In Abb. 42 werden die beobachteten Werte, die auf der Abszisse eingetragen 

werden, in standardisierte Werte, also z-Werte umgewandelt und gegen die 

„zugehörigen“ z-Werte abgetragen, die zu erwarten sind, wenn sich die Werte (bei 

gleichem Mittelwert und gleicher Standardabweichung) normal verteilen würden. Die 

theoretische NV wird dabei durch eine Gerade dargestellt. Wenn die empirischen 

Werte ebenfalls normalverteilt sind, müssen ihre Punkte in etwa den unter der 

Hypothese der NV zu erwartenden Werten folgen, also etwa dem Verlauf der 

Geraden. Ist das nicht der Fall, unterscheidet man zwischen der Stärke und der Form 

der Abweichung. Oft nämlich streuen die Werte der empirischen Verteilung nicht 

zufällig um die Gerade, sondern weisen klare Muster auf. Muster deuten auf 

systematische Abweichungen von der NV hin. 

,6 

Trendbereinigtes Q-Q-Diagramm von Belastungspuls der VP 

Von GESCHL= Männer 

,4 

,2 

Abweichung von Normal 

0,0 

-,2 

-,4 

70 

80 

90 

100 

110 

120 

Beobachteter Wert 

Abb. 43: Trendbereinigtes Q-Q-Diagramm der Variablen Belastungspuls 

Seite - 39 -


Abb. Xx stellt den gleichen Sachverhalt noch einmal aus anderer Perspektive dar, 

wobei auf der Ordinate jetzt die Abweichungen von der NV aufgetragen werden. Die 

Darstellung soll vor allem einen Trend in den Abweichungen zwischen den 

empirischen und den theoretischen Werten erkennen lassen. Die Darstellung ergibt 

sich, indem man das NV-Diagramm der Abbildung zuvor so weit kippt, bis die NV- 

Linie horizontal verläuft. 

Neben diesen beiden sog. Q-Q-Diagrammen kann man zur weiteren grafischen 

Prüfung auf NV auch noch P-P-Diagramme berechnen, jedoch nicht unter der 

explorativen Datenanalyse, sondern unter dem Befehl „Grafiken“. 

Neben den beiden Grafiken werden durch die aufgerufene Prozedur auch noch die 

Ergebnisse eines Signifikanztests ausgegeben. Diesen wollen wir jedoch nicht 

betrachten, da er zur Inferenzstatistik gehört. 

8.2.5 Deskriptive Statistiken 

Analysieren → Deskriptive Statistik → Explorative Datenanalyse → Statistik 

Mit dem Befehl wird ein Dialogfeld eröffnet, das die Berechnung einer Reihe 

deskriptiver Maßzahlen der Variablen der (Unter-)Stichprobe erlaubt, und zwar die 

folgenden: 

• Mittelwert mit Konfidenzintervall des Mittelwerts. Für das Konfidenzintervall 

können Prozentwerte zwischen 1 und 99 eingegeben werden. Das 

Konfidenzintervall ist der Wertebereich, in dem der Mittelwert der 

Grundgesamtheit mit der eingegebenen Wahrscheinlichkeit (Prozentwert) 

liegt. Per Voreinstellung wird für das Intervall ein Niveau von 95% berechnet, 

so dass der Bereich ausgegeben wird, in dem der Mittelwert in der 

Grundgesamtheit mit einer Wahrscheinlichkeit von 95% liegt. 

• Um 5% getrimmter Mittelwert (dabei werden die extremen Werte 

ausgeschlossen) 

• Standardfehler des Mittelwerts 

• Median 

• Spannweite (range), Differenz zwischen dem kleinsten und den größten Wert 

• Kleinster und größter Wert 

• Varianz und Standardabweichung 

• Schiefe (Skewness) mit Konfidenzintervall. Durch die Schiefe wird angezeigt, 

inwieweit die Verteilung von einer symmetrischen Verteilung abweicht. Ist der 

Wert für die Schiefe einer Verteilung kleiner 0, so liegt eine rechtssteile Kurve 

vor, also eine Kurve, die langsam von links nach rechts ansteigt und dann vom 

Gipfel steil(er) abfällt. Umgekehrtes gilt, wenn der Wert größer 0 ist. Ist er 

gleich 0, so liegt Symmetrie vor. Bei negativer oder positiver Schiefe liegen 

der Mittelwert und der Median auseinander, bei negativer Schiefe z.B. liegt der 

Mittelwert (Schwerpunkt der Verteilung) links vom Median. 

• Exzeß (Kurtosis) mit Konfidenzintervall. Ist eine Verteilung genauso gewölbt 

wie eine NV, so ist die Maßzahl für den Exzeß oder die Wölbung gleich 0. Bei 

einem positiven Wert ist die Verteilung zentrierter (spitzgipfliger) als eine NV 

mit diesbezüglich gleichem Mittelwert und gleicher Varianz. Bei einem 

negativen Wert verläuft die Verteilung vergleichsweise flacher. 

Abweichungen von der NV wären nur dann zu akzeptieren, wenn die 

Grundgesamtheit tatsächlich nicht normalverteilt ist. Unter der Annahme der 

Seite - 40 -


NV aber können Abweichungen in Bezug auf Schiefe und Exzeß z.B. 

Auswahlfehler oder Testfehler signalisieren. 

Neben diesen deskriptiven Statistiken, die ausgegeben werden, wenn man im obigen 

Dialogfeld die Option „Deskriptive Statistik“ aktiviert, können noch folgende 

Statistiken ausgegeben werden: 

• M-Schätzer: Es werden vier Maximum-Likelihood-Schätzer nach den 

Methoden Huber, Tukey, Hampel und Andrews berechnet. 

Das arithmetische Mittel ist mit Abstand das gebräuchlichste Lagemaß. Es 

wird berechnet, indem die Summe aller Werte durch deren Anzahl dividiert 

wird. Damit gehen alle Werte mit gleichem Gewicht in die Berechnung des 

Mittelwertes ein. Einhält nun eine Variable einzelne Ausreißer, so können 

diese einen erheblichen Einfluß auf den Mittelwert haben (vgl. das Beispiel mit 

dem studentischen Einkommen zu Beginn dieses Kapitels „Explorative 

Datenanalyse“). Um den Einfluß extremer Werte bei der Kennzeichnung der 

Lage durch ein Lagemaß zu verringern, werden sog. M-Schätzer (Maximum- 

Likelihood-Schätzer) berechnet. Die Berechnungen hat Ähnlichkeit mit der 

Berechnung des Mittelwertes, es werden jedoch die einzelnen Werte bei der 

Berechnung des M-Schätzers unterschiedlich gewichtet. Je stärker dabei ein 

Wert von den übrigen Werten nach unten oder nach oben abweicht, desto 

geringer ist sein Gewicht. Die vier M-Schätzer, die nach vier verschiedenen 

Methoden berechnet werden, können mit dem üblicherweise berechneten 

Mittelwert verglichen werden. Sollten sich Abweichungen ergeben, so deutet 

dies auf extreme Werte hin, die ein geringeres Gewicht erhielten. 

• Ausreißer: Mit dieser Option wird eine Liste der jeweils fünf größten und 

kleinsten Werte der Variablen angefordert. Die Fälle, in denen die Ausreißer 

enthalten sind, werden durch die Fallnummern aus der Datendatei 

gekennzeichnet. Nur wenn man eine Fallbeschriftung eingegeben hat, werden 

zusätzlich deren Werte zur Kennzeichnung verwendet. 

Ausreißer sind Werte, die im Verhältnis zu den meisten übrigen Werten der 

Verteilung deutlich nach unten oder nach oben abweichen, die also sehr klein 

oder sehr groß sind. Wann genau ein Wert als Ausreißer bezeichnet wird, 

hängt sowohl von seiner Lage als auch von der Verteilung der Werte ab. Eine 

allgemeine Definition eines Ausreißers gibt es nicht. Auch innerhalb von SPSS 

kommen unterschiedliche Definitionen zur Anwendung. So werden Ausreißer 

in einem Boxplot in Abhängigkeit von ihrer relativen Entfernung zu dem 

Bereich der 50% mittleren Werte bestimmt. Werte, deren Entfernung von 

diesem Bereich mindestens 1,5mal so groß ist wie die Breite des Bereichs 

selbst, werden dort als Ausreißer bezeichnet. Im vorliegenden Fall dagegen 

werden einfach die fünf kleinsten und die fünf größten Werte ausgegeben. 

• Perzentile: Berechnet werden die 5%-, 10%-, 25%-, 50%-, 75%-, 90%- und 

95%-Per-zentile. Ein Perzentil gibt jeweils den Wert an, unterhalb oder auf 

dem ein bestimmter Anteil der Werte liegen. 

Im Folgenden soll am Beispiel des Outputs die Interpretation verdeutlicht werden. 

Der erste Teil des Outputs sind die univariaten Statistiken welche mit dem Schalter 

„deskriptive Statistiken“ ausgewählt wurden. Hier sind die oben benannten 

Kennwerte der Variablen bzw. der Unterstichproben für eine Variable zu finden. In 

diesem Beispiel wurde die Verteilung des Alters getrennt für die beiden Geschlechter 

betrachtet. Von Oben nach unten findet man hier den Mittelwert, danach die 

Intervallgrenzen zwischen denen mit einer Wahrscheinlichkeit von 95% der Mittelwert 

Seite - 41 -


der Grundgesamtheit liegt. Es folgen das getrimmte Mittel und all die anderen 

Kennwerte die bereits oben besprochen wurden. In unserem Beispiel ist vor allem 

auf die Schiefe und die Kurtosis zu achten. Beide sind positiv und weisen somit auf 

eine Abweichung von der Standard-Normalverteilung hin. Besonders hoch ist die 

Kurtosis bei den Frauen, was auf eine stark spitzgipflige Verteilung des Alters bei den 

Frauen der Stichprobe hinweißt. 

Univariate Statistiken 


Geschlecht 

weiblich 

Mittelwert 

95% Konfidenzintervall 

des Mittelwerts 

Untergrenze 

Obergrenze 

Standardf 

Statistik ehler 

20,5317 ,18120 

20,1753 

20,8882 

männlich 

5% getrimmtes Mittel 

Median 

Varianz 

Standardabweichung 

Minimum 

Maximum 

Spannweite 

Interquartilbereich 

Schiefe 

Kurtosis 

Mittelwert 


des Mittelwerts 

Untergrenze 

Obergrenze 

20,1370 

20,0000 

10,868 

3,29665 

15,00 

40,00 

25,00 

2,0000 

2,721 ,134 

10,666 ,267 

24,2628 ,46901 

23,3353 

25,1903 

5% getrimmtes Mittel 

Median 

Varianz 

Standardabweichung 

Minimum 

Maximum 

Spannweite 

Interquartilbereich 

Schiefe 

Kurtosis 

23,8370 

23,0000 

30,136 

5,48966 

13,00 

45,00 

32,00 

5,0000 

1,382 ,207 

2,095 ,411 

Der nächste Teil des Outputs sind die M-Schätzer, die wie schon oben erklärt, um 

Extremwerte bereinigte Schätzer für den Mittelwert darstellen. Vergleicht man diese 

Werte mit dem Standard-Mittelwert, so fallen deutliche Abweichungen zwischen 

beiden sowohl bei den Frauen als auch bei den Männern auf. Dies lässt auf eine 

größere Zahl von „Ausreißern“ schließen. 


Geschlecht 

weiblich 

männlich 

a. Die Gewichtungskonstante ist 1,339. 

b. Die Gewichtungskonstante ist 4,685. 

M-Schätzer 

c. Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500 

d. Die Gewichtungskonstante ist 1,340*pi. 

M-Schätzer Tukey-Bi M-Schätzer Andrewsnach 

Huber a weight b nach Hampel c Welle d 

19,9507 19,7201 19,7924 19,7126 

22,9551 22,2584 22,7251 22,2523 

Nächster Teil des Outputs sind die gebräuchlichsten Perzentile der Verteilung. Darin 

enthalten sind die Quartile und zusätzlich die 5%, 10%, 90% und 95%-Perzentile. Die 

Tukey-Angelpunkte welche ebenfalls in dieser Ausgabe enthalten sind, brauchen uns 

vorerst noch nicht zu interessieren. 

Gewichtetes Mittel 

(Definition 1) 

Tukey-Angelpunkte 



Geschlecht 

weiblich 

männlich 

weiblich 

männlich 

Perzentile 

Perzentile 

5 10 25 50 75 90 95 

17,0000 18,0000 19,0000 20,0000 21,0000 24,0000 27,0000 

18,0000 19,0000 21,0000 23,0000 26,0000 33,2000 36,0000 

19,0000 20,0000 21,0000 

21,0000 23,0000 26,0000 

Letzter Teil des Outputs, wenn nicht zusätzlich Diagramme berechnet wurden, sind 

die Extremwerte. Hier wurden die 5 größten und kleinsten Werte für jede Stichprobe 

eingetragen. Um diese Werte auch in der Datentabelle identifizieren zu können, wird 

Seite - 42 -


zusätzlich die Fallnummer angegeben, nach welcher man dann in der Tabelle 

suchen kann. Wurde eine Variable für die Fallbeschriftung angegeben, so wird statt 

der Fallnummer die Beschriftung aus dieser Variablen angezeigt. Die wäre 

praktikabel, wenn man in einer Variable z.B. den Namen der Versuchsperson stehen 

hat und diese als Variable zur Fallbeschriftung wählt. In der Tabelle könnte man 

dann lesen: Herr Schmidt hat einen extremen Wert und Frau Meier auch. 

Normalerweise verbietet sich solch ein Vorgehen aber durch die nötige 

Anonymisierung der Daten nach einem Versuch. 

Geschlecht 

Alter der Versuchsperson weiblich 

männlich 

Extremwerte 

Größte Werte 

Kleinste Werte 

Größte Werte 

Kleinste Werte 

1 

2 

3 

4 

5 

1 

2 

3 

4 

5 

1 

2 

3 

4 

5 

1 

2 

3 

4 

5 

Fallnummer 

Wert 

222 40,00 

159 38,00 

152 38,00 

228 37,00 

223 , a 

108 15,00 

57 16,00 

124 16,00 

121 16,00 

113 , b 

307 45,00 

296 42,00 

276 42,00 

274 37,00 

270 37,00 

314 13,00 

462 16,00 

239 17,00 

434 18,00 

250 , c 

a. Nur eine partielle Liste von Fällen mit dem Wert 33 wird in der Tabelle der oberen 

Extremwerte angezeigt. 

b. Nur eine partielle Liste von Fällen mit dem Wert 16 wird in der Tabelle der unteren 


c. Nur eine partielle Liste von Fällen mit dem Wert 18 wird in der Tabelle der unteren 


Seite - 43 -


9. Balken-, Linien-, Flächen- und Kreisdiagramme 

9.1 Allgemeines 

Balken-, Linien-, Flächen- und Kreisdiagramme können häufig alternativ verwendet 

werden. Sie sind also geeignet, die gleichen Sachverhalte darzustellen und 

unterscheiden sich erst in der Form und weniger im Inhalt. 

9.2 Struktur der darzustellenden Daten 

9.2.1 Zahl der darzustellenden Datenreihen 

Zunächst ist zu unterscheiden, ob in der Grafik eine oder mehrere Datenreihen 

dargestellt werden sollen. 

Eine Datenreihe: Eine einfache Folge von Werten lässt sich mit einem einfachen 

Balken-, Linien-, Flächen- oder Kreisdiagramm veranschaulichen. Oft besteht die 

Datenreihe aus Häufigkeiten, entweder aus den absoluten oder aus den relativen 

(prozentualen) Häufigkeiten. 

Mehrere Datenreihen: Wenn man gleichzeitig mehrere Datenreihen visuell 

vergleichen möchte, können auch diese gemeinsam in einem Diagramm dargestellt 

werden. In einem Balkendiagramm z.B. können die sich entsprechenden Werte der 

verschiedenen Datenreihen jeweils in Gruppen nebeneinander gestellt werden 

(gruppiertes Balkendiagramm) oder auch übereinander (gestapeltes 

Balkendiagramm). Auch in einem Flächendiagramm können die Werte gestapelt 

dargestellt werden. In einem Liniendiagramm wird für jede der Datenreihen eine Linie 

erzeugt. Ein verbundenes Liniendiagramm bietet zudem die Möglichkeit, die sich 

jeweils entsprechenden Werte der einzelnen Reihen miteinander durch senkrechte 

Striche zu verbinden. 

9.2.2 Art der darzustellenden Werte 

Entscheidend für die Wahl des Diagrammtyps ist die Art der darzustellenden Werte: 

• Werte einzelner Fälle: Der einfachste Fall liegt vor, wenn die Werte bereits in 

der Datendatei in der Form vorliegen, in der sie dargestellt werden sollen, z.B. 

wenn Parteien die Fälle darstellen und eine der Variablen die absolute 

Stimmenzahl angibt, mit der die einzelne Partei gewählt wurde. In einem 

solchen Fall können die Werte der Variablen direkt in das Diagramm 

übernommen werden, also ohne vorhergehende Berechnungen oder 

Transformationen. Dieser Fall der direkten Übernahme kommt jedoch relativ 

selten vor. 

• Kategorien einer Variablen: In der Praxis erheblich häufiger liegen die Werte 

der Datenmatrix in noch nicht zusammengefasster Form vor. Z.B. ist meistens 

erst noch über alle Fälle (Versuchspersonen) auszuzählen, wie häufig die 

Kategorien einer Variablen vorkommen, z.B. angekreuzt wurden. 

• Zusammengefasste Werte verschiedener Variablen: Eine dritte Möglichkeit 

besteht darin, dass nicht die verschiedenen Kategorien einer Variablen, 

Seite - 44 -


sondern die zusammengefassten Werte verschiedener Variablen miteinander 

verglichen werden. 

9.3 Darstellung einer einzelnen Datenreihe 

9.3.1 Einfaches Balkendiagramm 

9.3.1.1 Aufrufmöglichkeiten 

Diese Möglichkeit haben wir bereits in diesem Skript unter Punkt 4.1 (S. 16) 

kennengelernt. Dort wurden zum einen die absoluten Häufigkeiten für die zwei 

Kategorien der Variablen Geschlecht ausgezählt und als Balkendiagramm dargestellt 

und zum anderen bereits ein gruppiertes Balkendiagramm, in dem die Variable 

Geschlecht mit der Variable Schulabschluss gekreuzt wurde und die kombinierten 

absoluten Häufigkeiten ausgezählt und als Balkendiagramm dargestellt wurden. 

Wir betrachten hier zunächst nur den ersten Fall, das sog. „einfache 

Balkendiagramm“. Wie es aufgerufen wird, ist also bereits bekannt. 

9.3.1.2 Diagramm interpretieren 

300 

200 


100 

0 

Fehlend 

Fachhochschulreife 

Hochschule 

Gymnasium 

Realschule 

Hauptschule 

Gesamtschule 

Letzter Bildungsabschluss 

Abb. 44: Beispiel für ein Balkendiagramm der Variablen Schulabschluss 

Ein Balkendiagramm repräsentiert die Werte einzelner Kategorien. Jede Kategorie 

steht für sich, was durch die Räume zwischen den einzelnen Kategorien verdeutlicht 

wird. Ein Balkendiagramm ist also nicht mit einem Histogramm zu verwechseln, in 

welchem diese Zwischenräume nicht vorhanden sind, weil die einzelnen Säulen nicht 

Kategorien, sondern Intervalle auf einer kontinuierlichen Variablen darstellen. 

Ein Balkendiagramm wird von SPSS automatisch erstellt. Um es darstellen zu 

können, beginnt die Skala auf der Ordinate oft nicht mit dem Wert Null, sondern erst 

bei einem höheren Wert. Ferner kann die von SPSS gewählte Skaleneinheit 

bewirken, dass Unterschiede zwischen den Werten der einzelnen Kategorien überoder 

unterzeichnet werden. Der optische Eindruck kann also täuschen. In manchen 

Fällen kann es daher sinnvoll sein, den dargestellten Bereich der Skala zu 

Seite - 45 -


verkleinern oder zu vergrößern, um Unterschiede zu nivellieren oder aber zu 

betonen. Dabei sollte man sich jedoch stets bewusst sein, dass der optische 

Eindruck dadurch in gewisser Weise verzerrt wird. 

Um eine Änderung an der Skala vorzunehmen, geht man folgendermaßen vor: 

• Man doppelklickt auf das Diagramm, um den Grafikeditor zu öffnen. 

• Man doppelklickt auf die Ordinate. Damit öffnet sich das Dialogfeld 

Skalenachse. 

• Man ändert sodann in der Gruppe Bereich wunschgemäß die Werte und 

schließt danach das Dialogfeld mit OK und den Grafikeditor z.B. mit dem 

Befehl Datei schließen. 

9.3.1.3 Direkte Umwandlung in alternative Grafiktypen 

Es wurde bereits erwähnt, dass Balken-, Linien-, Flächen- und Kreisdiagramme in 

vielen Fällen alternativ verwendet werden können. Deshalb besteht bei SPSS die 

Möglichkeit, nachträglich einen anderen dieser vier Diagrammtypen zu erzeugen, 

also quasi ein bereits erzeugtes Diagramm in ein anderes umzuwandeln. Hierzu muß 

das Diagramm zunächst im Grafikeditor geöffnet werden. Anschließend kann im 

Menü Galerie eine andere Diagrammdarstellung gewählt werden. 

300 

300 

300 

200 

200 

200 

Gesamtschule 


Fehlend 

Hauptschule 

Hochschule 


100 

0 

Gesamtschule 


Hochschule 

Gymnasium 

Realschule 

Hauptschule 

Fehlend 


100 

0 

Fehlend Realschule Hochschule Gesamtschule 

Hauptschule Gymnasium Fachhochschulreife 


100 

0 

Fehlend Realschule Hochschule Gesamtschule 

Hauptschule Gymnasium Fachhochschulreife 

Gymnasium 

Realschule 




Abb. 45: Das obige Diagramm in den 4 Varianten die in der Galerie verfügbar sind von links nach 

rechts: Balken-, Linien-, Flächen- und Kreisdiagramm 

9.3.2 Einfaches Liniendiagramm 

Der Aufruf ist analog zum Aufruf des Balkendiagramms und braucht nicht wiederholt 

zu werden. 

Ein erzeugtes Liniendiagramm bildet die Werte der einzelnen Kategorien durch 

Punkte ab, wobei die Größe des Wertes einer Kategorie jetzt nicht durch die Höhe 

eines Balkens, sondern durch die Höhe des Punktes dargestellt wird. Die einzelnen 

Punkte sind in der Grafik jedoch nicht zu erkennen, da sie durch eine Linie 

miteinander verbunden wurden und damit in der Linie aufgehen. Im Grafikeditor hat 

man jedoch die Möglichkeit, die Punkte durch eine andere Farbe oder Form 

darstellen zu lassen, so dass sie trotz der Verbindungslinie sichtbar werden. 

Die einzelnen Punkte werden in dem Diagramm durch Geraden miteinander 

verbunden. Diese Form der Verbindungslinie kann man ändern, wenn man das 

Diagramm im Grafikeditor öffnet. Man hat dort z.B. die Möglichkeit, über den Befehl 

Format fi Interpolation 

Seite - 46 -


die Verbindungslinie vollständig auszublenden oder durch eine geschwungene oder 

stufenförmige Linie zu ersetzen. 

300 

300 

300 

300 

200 

200 

200 

200 

100 

100 

100 

100 


0 


0 


0 


0 

Fehlend 

Realschule 

Hochschule 

Gesamtschule 

Fehlend 

Realschule 

Hochschule 

Gesamtschule 

Fehlend 

Realschule 

Hochschule 

Gesamtschule 

Fehlend 

Realschule 

Hochschule 

Gesamtschule 

Hauptschule 

Gymnasium Fachhochschulreife 

Hauptschule 


Hauptschule 


Hauptschule 






Abb. 46: Die verschiedenen Varianten eines Liniendiagramms von links nach rechts: mit Geraden 

verbunden, ohne Verbindung, mit Kurve verbunden, mit Stufen verbunden. 

9.3.3 Einfaches Flächendiagramm 

Der Aufruf ist wieder als bereits bekannt anzunehmen. Das Linien- und das 

Flächendiagramm haben große Ähnlichkeit. Der Unterschied besteht im einfachen 

Fall lediglich darin, dass beim Flächendiagramm die Fläche unterhalb der Linie 

ausgefüllt ist. 

Flächendiagramme eignen sich besonders dann, wenn kumulierte Werte darzustellen 

sind, z.B. kumulierte Häufigkeitswerte, so dass durch den Anstieg der Fläche von 

links nach rechts die Kumulation signalisiert wird. 

500 

400 

300 

Kumulative Häufigkeit 

200 

100 

0 

13,00 18,00 22,00 26,00 30,00 34,00 38,00 

16,00 20,00 24,00 28,00 32,00 36,00 42,00 


Abb. 47: Flächendiagramm der kumulierten Verteilung des Alters 

Zu beachten sind bei Flächendiagrammen die Abstände der Werte auf den Achsen. 

Insbesondere können die Abstände auf der Abszisse ungleich groß sein, so dass die 

Verteilung der Werte verzerrt sein kann. Dennoch können sich sinnvolle Aussagen 

machen lassen. 

Seite - 47 -


9.3.4 Kreisdiagramm 

Kreisdiagramme können vor allem dann sinnvoll eingesetzt werden, wenn die 

Häufigkeiten einiger weniger Kategorien miteinander verglichen werden sollen, 

insbesondere wenn die Anteile der einzelnen Werte an der Gesamtverteilung 

veranschaulicht werden sollen. 

Auch Kreisdiagramme können durch den Grafikeditor in vielfältiger Weise verändert 

werden. 

9.4 Darstellung mehrerer Datenreihen 

Wie oben erwähnt können mehrere Datenreihen miteinander verglichen werden, 

indem sie gemeinsam in einem Diagramm dargestellt werden. Von den 

außerordentlich vielen Möglichkeiten, die SPSS bietet, wollen wir uns nur noch einige 

näher ansehen. 

9.4.1 Gruppiertes und gestapeltes Balkendiagramm 

Im Abschnitt 4.1 haben wir bereits ein gruppiertes Balkendiagramm erzeugt. Dort 

wurden für die beiden Kategorien der Variablen „Geschlecht“ die absoluten 

Häufigkeiten der drei Arten von Schulabschlüssen dargestellt, also wie häufig Frauen 

und Männer mit der Hauptschule, Realschule und mit dem Abitur abschließen. Die 

Häufigkeiten der Schulabschlüsse wurden also nach den beiden 

Geschlechtskategorien gruppiert. 

Anstatt solche Häufigkeiten gruppiert nebeneinander zu stellen können sie auch 

gestapelt, also übereinander gestellt werden. Dann wird pro Kategorie nur noch ein 

Balken dargestellt, der jedoch in so viele Bereiche unterteilt ist wie die zweite 

Variable Kategorien hat. 

Die gestapelte Darstellung hat den Vorteil, dass die Gesamthöhe eines Balkens den 

Gesamtanteil der Kategorie zu veranschaulichen vermag. Z.B. wird bei einem 

Vergleich der Bildungsausgaben der einzelnen Bundesländer relativ zum 

Landeshaushalt veranschaulicht, welches Bundesland prozentual gesehen wieviel 

Geld in die Bildung steckt, unabhängig davon, in welche einzelnen Bereiche dieses 

Geld fließt, wobei diese Bereiche die unterschiedlichen Abschnitte auf den Balken 

bedeuten würden. 

Seite - 48 -


400 

300 

Letzter Bildungsabsc 

Gesamtschule 

200 


Hochschule 

Gymnasium 


100 

0 

weiblich 

männlich 

Realschule 

Hauptschule 

Fehlend 

Geschlecht 

Abb. 48: Beispiel für ein gestapeltes Balkendiagramm 

9.4.2 Mehrfachliniendiagramm 

Es werden die Höhen der einzelnen Kategorien der zweiten Variablen als (nicht 

sichtbare) Punkte eingetragen und pro Kategorie die Punkte miteinander verbunden. 

Dadurch ergibt sich pro Kategorie ein Linienzug und die Linienverläufe können direkt 

miteinander verglichen werden. 

200 

100 


0 

Geschlecht 

weiblich 

männlich 

Fehlend 

Gesamtschule 


Hochschule 

Gymnasium 

Realschule 

Hauptschule 


Abb. 49: Beispiel für ein Mehrfachliniendiagramm 

9.4.3 Gestapeltes Flächendiagramm 

Im einfachen Flächendiagramm stellten wir kumulierte relative Häufigkeiten der 

Kategorien einer Variablen dar. Man kann nun auch ähnlich wie beim gestapelten 

Balkendiagramm die Häufigkeiten der einzelnen Kategorien einer zweiten Variablen 

übereinander legen. Zu beachten ist dabei, dass jede Fläche für sich zu 100% 

kumuliert und die Summe beider Flächen somit einem Wert von 200% erreicht. 

Seite - 49 -


500 

400 

300 

Kumulative Häufigkeit 

200 

100 

0 

Geschlecht 

männlich 

weiblich 

Fehlend 


Hauptschule 

Hochschule 

Gymnasium 

Realschule 

Gesamtschule 


Abb. 50: Beispiel für ein gestapeltes Flächendiagramm 

10. Streudiagramme 

10.1 Diagrammtypen 

Streudiagramme stellen die gemeinsame Verteilung der Werte zweier Variablen dar. 

Aus der Lage und Verteilung der Wertepaare können Rückschlüsse auf einen 

möglichen Zusammenhang zwischen den Variablen gezogen werden. Treten z.B. 

große Werte der einen Variablen häufig mit kleinen Werten der anderen variablen 

auf, scheint ein negativer Zusammenhang zwischen den Variablen zu bestehen. In 

einem Streudiagramm kommt dies dadurch zum Ausdruck, dass die Wertepaare in 

der Tendenz eine diagonale Linie mit negativer Steigung bilden. Um einen solchen 

Zusammenhang zu verdeutlichen, kann in das Streudiagramm eine 

Regressionsgerade eingefügt werden. 3D-Streudiagramme ermöglichen es sogar, 

die gemeinsame Verteilung dreier Variablen zu betrachten. Insgesamt stellt SPSS 

vier Arten von Streudiagrammen zur Verfügung: 

• Einfaches Streudiagramm: Dargestellt wird die gemeinsame Verteilung zweier 

Variablen. 

• 3D-Streudiagramm: Hier wird auf drei Achsen jeweils eine Variable 

eingetragen, so dass die Punkte im Raum Wertetripel darstellen. Somit wird 

die gemeinsame Verteilung dreier Variablen veranschaulicht. 

• Überlagertes Streudiagramm: In einem solchen Diagramm können die 

gemeinsamen Verteilungen mehrerer Variablenpaare in einer einzigen Grafik 

dargestellt werden. Durch diese Überlagerung mehrerer einfacher 

Streudiagramme lässt sich der Verlauf dieser Verteilungen gut miteinander 

vergleichen. 

• Einfache Streudiagramme in Matrix-Darstellung: Wenn man für mehrere 

Variablen jeweils die paarweise gemeinsame Verteilung darstellen möchte, 

kann man die einzelnen Streudiagramme in Matrixform so anordnen, dass alle 

paarweisen Verteilungen zusammen betrachtet werden können. Dies kann für 

einen ersten Überblick über die Verteilungen hilfreich sein. 

Seite - 50 -


Außer bei den überlagerten Diagrammen kann man in den Diagrammen eine 

Kontrollvariable verwenden, durch deren Werte die Fälle der Datendatei in 

verschiedene Fallgruppen (Kategorien) unterteilt werden können. Die Wertepaare der 

verschiedenen Fallgruppen werden dann in der Grafik durch verschiedene 

Markierungen oder in verschiedenen Farben dargestellt, so dass ein möglicher 

Einfluß der Kontrollvariablen auf die gemeinsame Verteilung der beiden Variablen 

erkennbar wird. 

Im Folgenden geben wir zur Veranschaulichung nur eine kleine Auswahl möglicher 

Streudiagrammdarstellungen. 

10.2 Einfaches Streudiagramm 

Grafiken fi Streudiagramm fi Einfach 

Es erscheint das folgende Dialogfeld: 

Abb. 51: Dialogfeld zur Erstellung eines einfachen Streudiagramms 

Um ein Streudiagramm zu definieren, ist die Angabe je einer Variable für die x- und 

für die y-Achse notwendig. Im Feld Markierungen festlegen durch kann eine 

Kontrollvariable angegeben werden, durch die die Fälle der Datendatei in einzelnen 

Gruppen unterteilt werden würden. Drückt man die Taste OK, so erscheint ein 

Streudiagramm der nachfolgend abgebildeten Art. 

6 

5 

4 

Zufriedenheit mit Berufswahl 

3 

2 

1 

0 

0 

1 

2 

3 

4 

5 

6 

Wie hoch ist das Interesse am Beruf? 

Abb. 52: Einfaches Streudiagramm 

Jeder Punkt im Diagramm repräsentiert ein Wertepaar der beiden Variablen. Im 

Beispiel aus Abb. 52 fällt auf den ersten Blick auf, dass sich die Punke über alle 

Seite - 51 -


möglichen Kombinationen fast gleich verteilen, es scheint also keinerlei Abhängigkeit 

zwischen den beiden Variablen vorzuliegen. Diese einfache Form der Darstellung 

kann jedoch täuschen, da Punkte die übereinander liegen nur als ein einzelner Punkt 

dargestellt werden. In Wirklichkeit repräsentieren alle Punkte des Diagramms aber 

eine unterschiedliche Anzahl von Fällen. Um dies zu kompensieren gibt es die 

„Sonnenblumendarstellung“. 

10.3 Einfaches Streudiagramm in Sonnenblumen-Darstellung 

In Streudiagrammen kann es zu Überlagerungen einzelner Punkte kommen, so dass 

die Anzahl der Punkte nicht mehr genau zu erkennen ist. Wenn man dann bereit ist, 

auf die exakte Darstellung der Werte zu verzichten, können die Wertepaare in 

Abhängigkeit von ihrer Lage auch zu Gruppen zusammengefasst werden. Man lässt 

dann nicht mehr die Lage einzelner Wertepaare darstellen, sondern die Lage und 

zugleich die Häufigkeiten der gebildeten Gruppen. Dadurch werden die 

Überlagerungen der einzelnen Punkte vermieden und das Streudiagramm wird 

übersichtlicher. Eine solche gruppierte Darstellung der Wertepaare wird als 

„Sonnenblumen-Darstellung“ bezeichnet, da die Häufigkeiten durch Symbole 

gekennzeichnet sind, die an Sonnenblumen erinnern. 

Diese gruppierte Darstellung wird erzeugt, indem man ein schon bestehendes 

Streudiagramm im Grafikeditor bearbeitet. Man doppelklickt in das Diagramm, worauf 

sich es sich im Editor öffnet. Sodann wählt man im Grafikeditor den Befehl 

Diagramme fi Optionen fi Sonnenblumen 

6 

5 

4 

Zufriedenheit mit Berufswahl 

3 

2 

1 

0 

0 

1 

2 

3 

4 

5 

6 

Wie hoch ist das Interesse am Beruf? 

Abb. 53: Das obige einfache Streudiagramm in der Sonnenblumen-Darstellung. 

Das Diagramm stellt nun nicht mehr für jedes Wertepaar einen Punkt dar, sondern es 

fasst auch nahe beieinander liegende Punkte zu einer Gruppe zusammen. Für jede 

solche Gruppe wurde in dem Diagramm ein Kreis gezeichnet. Die Häufigkeit, mit der 

die Gruppe vorkommt, wird durch die Zahl der Striche dargestellt, die um den Kreis 

einer Gruppe angeordnet sind. Gruppen, die nur einmal vorkommen, werden durch 

einen Kreis ohne Strich gekennzeichnet. Wie in Abbildung 53 zu ersehen liegt in dem 

Diagramm aus Abbildung 52 keinesfalls eine Gleichverteilung vor, sondern einige 

Kategorien sind nur sehr gering besetzt. 

Seite - 52 -


10.4 Einfaches Streudiagramm mit Regressionskurve 

Aus der Anordnung und der Häufung der Wertepaare im Diagramm lassen sich oft 

Hinweise auf einen möglichen Zusammenhang zwischen den beiden betrachteten 

Variablen gewinnen. Ein solcher Zusammenhang lässt sich oft noch präzisieren, 

wenn in die Grafik eine Regressionskurve eingezeichnet wird. Für die Annäherung 

der Kurve an die Wertepaare kann je nach Eindruck ein linearer, quadratischer oder 

kubischer Zusammenhang angenommen werden. Auch besteht die Möglichkeit, eine 

Kurve mit Hilfe eines iterativen gewichteten Regressionsverfahrens, das ebenfalls auf 

der Methode der kleinsten Quadrate basiert, jeweils an eine Gruppe von 

Wertepaaren anzupassen. Damit erhält die Gesamtkurve zwar keinen einheitlichen 

Verlauf, sie folgt jedoch im allgemeinen der Form der Punktwolke recht gut. 

Ebenso wie die Sonnenblumen-Darstellung kann eine Regressionskurve nicht schon 

beim Anfordern des Streudiagramms mit angefordert werden, sondern nachträglich 

wieder mit Hilfe des Grafikeditors. Dazu wählt man im Editor den Befehl 

Diagramme fi Optionen 

und kreuzt in dem sich öffnenden Dialogfeld die Option Gesamt aus der Gruppe 

Anpassungslinie an. Anschließend klickt man auf die Schaltfläche Anpassungs- 

Optionen, die ein weiteres Dialogfeld öffnet. Dort wird in der Gruppe 

Anpassungsmethode die Option Lineare Regression beibehalten, wenn man der 

Punktwolke eine Regressionsgerade unterlegen möchte. Ferner wählt man in der 

Gruppe Optionen für Regression die beiden Optionen Konstante in Gleichung 

einschließen und R-Quadrat in Legende zeigen. Anschließend können die beiden 

Dialogfelder mit Weiter und OK geschlossen werden. Es ergibt sich ein 

Streudiagramm mit Regressionsgleichung wie in der nachfolgenden Abbildung 

dargestellt. 

120 

110 

100 

90 


80 

70 

60 R-Qu. = 0.5781 

40 

50 

60 


Abb. 54: Einfaches Streudiagramm mit linearer Anpassungslinie 

R 2 stellt das Bestimmtheitsmaß dar, ein Maß für die Güte der Anpassung als das 

Verhältnis der Quadratsumme der erklärten Streuung und der Quadratsumme der 

gesamten Streuung. Die Werte liegen zwischen 0 und 1. Hat es den Wert 1, so 

liegen alle Beobachtungen auf einer Geraden und der Zusammenhang zwischen den 

beiden Variablen ist perfekt. Je kleiner R 2 ist, desto streuen die Punkte zufällig und 

desto schlechter ist die Anpassung der Geraden an die beobachteten Wertepaare. 

Die Quadratwurzel aus R 2 gibt die Korrelation zwischen beiden Variablen an. 

Seite - 53 -


11 Hinweis zum Begriff „Nichtparametrische Tests“ 

Bei der Anwendung von SPSS zwecks Durchführung inferenzstatistischer Tests tritt 

der Begriff „nichtparametrische Tests“ auf. 

In der Literatur wird meistens nicht streng zwischen den Begriffen „Nichtparametrische 

Methoden“ und „Verteilungsfreie Methoden“ unterschieden: 

Ein „verteilungsfreies“ Verfahren basiert auf einer Statistik, deren Verteilung nicht von 

der Verteilung(sfunktion) der Grundgesamtheit abhängt, aus der die Stichprobe 

gezogen wurde, insbesondere auch von der Normalverteilung. Die Form der 

Verteilung in der Grundgesamtheit braucht bei solchen Methoden also nicht bekannt 

zu sein bzw. angenommen zu werden. In der Tat ist sie so gut wie nie bekannt. 

Der Begriff „nichtparametrisch“ bzw. „parameterfrei“ bezieht sich auf Verfahren, die 

keine Aussagen über einzelne Parameter der Grundgesamtheitsverteilung machen. 

Auch dieser Begriff bringt zum Ausdruck, daß die Kenntnis der diese Verteilung 

beschreibenden Maßzahlen nicht für die Anwendung der Methoden erforderlich ist. 

Zu vielen parametrischen Tests sind nichtparametrische Pendants entwickelt worden, 

z.B. zum t-Test der U-Test (Rangsummentest). Viele von Ihnen gehen dabei nur von 

Ranginformationen in den Daten aus. Gegenüber den parametrischen Tests haben 

sie verschiedene Vor- und Nachteile. Ein Nachteil ist z.B. die meist geringere 

Teststärke. Ein großer Vorteil liegt jedoch darin, dass sie auch noch bei sehr kleinem 

N von Beobachtungsfällen anwendbar sind, da sie auch exakt prüfen können. Ihr 

Nachteil, dann sehr rechenaufwendig zu sein, trifft angesichts immer schneller 

rechnender Computer immer weniger zu. Die im Empiriepraktikum II oder in 

Diplomarbeiten erhobenen Stichproben sind meistens recht klein. 

Allerdings prüfen die in SPSS verfügbaren Prozeduren für nicht-parametrische Tests 

die Nullhypothese in der Grundversion von SPSS („Base-Modul“) in der Regel nicht 

exakt, sondern über approximative Verfahren, indem sie theoretische Verteilungen 

wie die Standardnormal- oder die X 2 -Verteilung anwenden, d.h. asymptotisch. Das 

bedeutet, dass die von SPSS ausgegebene „asymptotische Signifikanz“, die 

Überschreitungswahrscheinlichkeit p (auch Zufallswahrscheinlichkeit genannt, 

Irrtumswahrscheinlichkeit, Risiko I, Fehler I), auf der Basis der Annahme geschätzt 

werden, dass die Daten unter H 0 eine solche Verteilung bilden würden, wenn der 

Datensatz nur genügend groß sein würde. Nur in wenigen Fällen wird bei 

Verwendung des Basismoduls H 0 auch exakt getestet. 

Wenn kleine Stichprobenumfänge vorliegen, kann dieses Vorgehen bzw. diese 

Annahme jedoch recht problematisch sein, weil die angenommenen theoretischen 

Verteilungen dann nicht unerheblich von der exakten Stichprobenverteilung der 

Prüfgröße abweichen können. In der Tat kann dann die asymptotisch geschätzte 

Überschreitungswahrscheinlichkeit p eine ganz andere sein als die exakt berechnete. 

Bei kleinem N sollten daher nicht nur nichtparametrische Verfahren verwendet 

werden, sondern zusätzlich auch noch in ihrer exakten Form. Das ist mit dem SPSS- 

Zusatzmodul „Exakte Tests“ möglich. Ist dieses verfügbar, erscheint im Dialog die 

zusätzliche Wahlmöglichkeit (Button, Taste) „Exakte Tests“. 

Obwohl exakte p´s immer verläßlich sind, d.h. natürlich auch bei großen Stichproben 

gelten, kann es vorkommen, dass Datensätze zu groß sind, d.h. die Berechnung des 

exakten p´s an der verfügbaren Zeit oder an der Größe des Datenspeichers scheitert. 

Seite - 54 -


In dieser Situation kann das SPSS-Zusatzmodul auch die Monte-Carlo-Methode 

anwenden, die eine unvoreingenommene (unbiased) Schätzung des exakten p- 

Wertes darstellt. In der Praxis kommt diese Schätzung dem exakten p meistens recht 

nahe. Die Methode meint eine wiederholte Ziehung von Zufallsstichproben. Z.B. gibt 

es für eine beobachtete zweidimensionale Häufigkeitstabelle (Kreuztabelle) viele 

Tabellen, die die gleichen Randhäufigkeiten (geschätzte Randwahrscheinlichkeiten) 

aufweisen. Während im exakten Fall die Punktwahrscheinlichkeiten aller dieser 

Tabellen berechnet werden, was sehr aufwendig sein kann, und bestimmte dieser 

Punkt-p´s davon zur Überschreitungswahrscheinlichkeit p aufsummiert werden, zieht 

die Monte-Carlo-Methode nur Stichproben einer vorgegebenen Anzahl aus den 

insgesamt möglichen Tabellen. 

Möchte man eine Überschreitungswahrscheinlichkeit p exakt bestimmen und drückt 

man deshalb den Knopf „exakt“, so kann man danach wählen, ob sie nur exakt 

berechnet werden soll oder zusätzlich auch nach dem Monte-Carlo-Verfahren. Im 

Fall der exakten Berechnung ist ein Zeitbegrenzung anzugeben. Sollte diese erreicht 

werden, bricht SPSS ohne Ergebnis ab und geht zum nächsten Test über, falls noch 

einer weiterer berechnet werden soll. Im Monte-Carlo-Fall ist die Zahl der zu 

ziehenden Stichproben anzugeben. Statt der Voreinstellung von 10.000 kann hier 

meistens getrost auch 1.000.000 eingegeben werden. Des weiteren ist auch ein 

confidence-level zwischen 0,01 und 99,9 vorzugeben. Voreingestellt ist 99. SPSS 

wird dann zusätzlich zur Monte-Carlo-Schätzung der 

Überschreitungswahrscheinlichkeit p ausgeben, in welchem p-Bereich das wahre p 

gemäß der vorgegebenen Konfidenz liegen dürfte. 

Sollte zusätzlich zur von SPSS berechneten sog. „asymptotischen Signifikanz“, auch 

die „exakte Signifikanz“, d.h. die exakte Überschreitungswahrscheinlichkeit p 

berechnet werden, ist letztere natürlich immer als die verläßlichere zu wählen, d.h. 

mit der vorgegebenen Signifikanzgrenze, dem ? -Niveau, zu vergleichen zwecks 

Entscheidung, H 0 beizubehalten ( p > z.B. ????oder abzulehnen (p


Bortz, J., Lienert, G.A. & Boehnke, K. (1990). Verteilungsfreie Methoden in der 

Biostatistik. Berlin: Springer. 

Büning, H. & Trenkler, G. (1994 4 ). Nichtparametrische statistische Methoden. Berlin: 

De Gruyter. 

Bradley, J.V. (1968). Distribution-free statistical tests. Englewood Cliffs, New Jersey: 

Prentice-Hall, Inc. 

Siegel, S. (1997 4 ). Nichtparametrische statistische Methoden. Eschborn b. 

Frankfurt/M.: Klotz. 

12 Inferenzstatistik Häufigkeitstests 

12.1 Binomialtest, exakt und asymptotisch 

Es wird eine beobachtete mit einer erwarteten Verteilung von Alternativdaten 

verglichen. Genauer wird geprüft (H 0 ), ob eine Stichprobe von Alternativdaten, die x 

Fälle mit der einen Ausprägung und n-x Fälle mit der anderen Ausprägung enthält, 

einer Population angehört, von der die entsprechenden Prozentanteile π und 1-π 

bekannt sind, z.B. 0,3 und 0,7 (Ein-Stichproben-Test). 

Z.B. kann man sich fragen, ob in einer Bevölkerung, die in der Nähe eines 

Kernkraftwerkes wohnt, mit x in einem bestimmten Zeitraum beobachteten 

Leukämiefällen mehr Fälle auftreten als zur gleichen Zeit in der übrigen Bevölkerung 

(H 1 , einseitige Fragestellung). Um die Populationsverhältnisse zu kennen, müßte 

allerdings ein Krebsregister angelegt worden sein (In Deutschland wird erst ein 

solches angelegt. Ersatzweise behilft man sich z.Zt. mit dem z.B. von Dänemark.) 

Um die Fragestellung zu testen, bedient man sich der Summenfunktion der 

Binomialverteilung. Im vorliegenden Beispiel würde man fragen, wie wahrscheinlich 

es ist, daß x Fälle oder die noch extremeren Häufigkeiten x+1, x+2, ..., n zufällig 

auftreten (H 0 ), und alle diese Wahrscheinlichkeiten zur Irrtumswahrscheinlichkeit p 

addieren (exakter Test). 

H 0 : π 1 = π 

d. h. die Wahrscheinlichkeit π 1 für einen Leukämiefall in der Nähe des Kernkraftwerks 

ist gleich der Wahrscheinlichkeit in der übrigen Bevölkerung. 

H1: π 1 > π 

d.h. die Wahrscheinlichkeit π 1 ist größer als π, einseitige Fragestellung. 

Ehe wir die Nullhypothese testen, legen wir das Risiko I fest, das wir bei Annahme 

der Alternativhypothese eingehen wollen. (Im Kernkraftbeispiel ist H 1 eine 

schwerwiegende Aussage, so daß wir α niedrig ansetzen werden, z.B. α = 0,001.) 

Seite - 56 -


Analysieren fi Nichtparametrische Tests fi Binomial 

Es erscheint das folgende Dialogfeld: 

Abb. 55: Binomialtest 

Zunächst sind die Testvariablen einzugeben, für die jeweils ein Binomialtest 

durchgeführt werden soll. Besitzen diese Variablen mehr als zwei unterschiedliche 

Werte, so ist der Wert, an dem die Variablenwerte zu dichotomisieren sind, als 

"Trennwert" festzulegen. Alle Werte, die kleiner oder gleich diesem Trennwert sind, 

bilden die erste Gruppe, Werte darüber die zweite Gruppe. Bei a priori dichotomen 

Variablen ("aus den Daten") bildet der Wert die erste Gruppe, der in der Variablen als 

erstes eingegeben wurde, also der Wert des ersten Falls. 

In der Box "Testanteil" ist die Wahrscheinlichkeit p einzugeben, mit der der Wert, der 

die erste Gruppe bezeichnet, in der Grundgesamtheit auftritt. Es ist also entweder µ 

oder 1-µ einzugeben, je nachdem, welche Gruppe die erste ist. Die Voreinstellung ist 

p = 0.5, d.h. die Hypothese gleicher Prozentanteile beider Alternativen µ und 1-µ in 

der Grundgesamtheit. Es können Werte zwischen 0.001 und 0.999 eingegeben 

werden. 

Bis zu einem Stichprobenumfang von 25 (gültigen) Werten wird im Base-Modul ein 

exakter Binomialtest durchgeführt, danach erfolgt die Prüfung der Nullhypothese 

approximativ über die Standardnormalverteilung (z-Approximation). Liegt auch das 

Zusatzmodul „Exakte Tests“ vor, erkennbar an der Taste "exakt", ist aber auch bei 

noch viel größeren Stichprobenumfängen eine exakte Prüfung über die 

Binomialverteilung möglich. Dies sollte bis zu einem N von mindestens 50 immer 

geschehen, ebenfalls bei kleinerer Wahrscheinlichkeit der betrachteten Alternativen 

(π < = 0,1 bzw. π >= 0,9). Wenn neben der „Asymptotischen Signifikanz“ auch die 

„exakte Signifikanz“ berechnet wird, zeigen eventuelle Abweichungen der beiden 

Werte voneinander, dass die Annahme des Übergangs der Binomialverteilung zur 

Normalverteilung im aktuellen Fall noch nicht statthaft ist. Bei Abweichungen ist 

immer die exakt berechnete Signifikanz zu bevorzugen. 

Im Fall von p = 0,5 ist der Hypothesentest ungerichtet, bei p ≠ 0,5 werden einseitige 

Irrtumswahrscheinlichkeiten ausgegeben. Achtung: Im gerichteten (einseitigen) Fall 

Seite - 57 -


müssen (aufgrund des SPSS-Programms) Null- und Alternativhypothese im Hinblick 

auf die Kategorie formuliert werden, die in der Variable als erste auftritt, da es deren 

beobachteter Anteil ist, der mit dem in der Nullhypothese behaupteten verglichen 

wird. 

12.1.1 Einseitiger Test 

Sind z.B. in einem bestimmten Beobachtungszeitraum im näheren Areal eines 

Kernkraftwerkes von 7 Todesfällen 5 durch Krebs vorgekommen und nur 2 durch 

sonstige Todesursachen, so sind wir an der Beantwortung der Frage interessiert, "ob 

so viele Krebsfälle noch Zufall sind", genauer wie wahrscheinlich es ist, dass 5 oder 

6 oder 7 Fälle von Krebs zufällig vorkommen, wenn in ganz Deutschland Krebs mit 

einer Wahrscheinlichkeit von µ = 0,25 als Todesursache auftritt. 

Wir geben also unsere 7 Fälle als Datensatz ein, eine Variable/Spalte mit 7 Fällen. 

Dabei können wir "Krebstod" mit z.B. 1 kodieren und "Nichtkrebstod" mit 0, oder auch 

umgekehrt. Gleichgültig wie wir kodieren, unbedingt zu beachten ist, dass die 

Kodierung des ersten eingegebenen Falls die erste Gruppe bezeichnet, für die wir 

den „Testanteil“ eingegeben haben, also den entsprechenden Anteil in der 

Population. Wenn wir also als ersten Fall (in Zeile 1 der Datenmatrix) "Krebstod" 

kodiert eingegeben haben, müssen wir unter „Testanteil“ p = 0,25 eingeben, wenn in 

ganz Deutschland Krebs zu 25% die Todesursache ist. Wenn wir dagegen 

"Nichtkrebstod" als ersten Fall eingegeben haben, dann müssen wir 1 - 0,25 = 0,75 

eingeben. 

Gleichgültig welche diese beiden Möglichkeiten wir eingeben, wir erhalten immer das 

gleiche Ergebnis, nämlich die Überschreitungswahrscheinlichkeit P = 0,013 (bitte 

nachprüfen). Im ersten Fall addiert SPSS die Punktwahrscheinlichkeiten für 5, 6 und 

7 Fälle auf, es fragt also in die von uns gemeinte oder-noch-mehr-Richtung. Im 

zweiten Fall fragt es alternativ, wie zufallswahrscheinlich es ist, dass 7-5 =2 oder 1 

oder 0 Nichtkrebstode vorkommen, also in die oder-noch-weniger-Richtung. In 

beiden Fällen wird aber P = 0.012 + 0,001 + 0,000 gerechnet, also die 

entsprechenden Punktwahrscheinlichkeiten des rechten Astes der Binomialverteilung 

addiert: 

linker Ast 

rechter Ast 

Punktwahrscheinlichk. 

p 

0,13 

4 

0,31 

1 

0,31 

1 

0,17 

3 

0,05 

8 

0,01 

2 

0,00 

1 

0,00 

0 

N der Krebstode 0 1 2 3 4 5 6 7 

N der Nichtkrebstode 7 6 5 4 3 2 1 0 

Abb56.: Binomialverteilung des Zahlenbeispiels 

Zur Auffrischung des Verständnisses mit der Tabelle der Binomialverteilung in 

einem Statistikbuch vergleichen 

Zu beachten ist ferner, dass SPSS immer nur in Richtung eines Astes rechnet: 

SPSS addiert/fragt immer dann, wenn der beobachtete Anteil der ersten Gruppe 

größer als der vorgegebene Anteil ist, in die noch-mehr-Richtung, sonst in die nochweniger-Richtung. 

Es entscheidet also anhand dieses Kriteriums selbst, in welche 

Ast-Richtung es fragt. Die Überschreitungswahrscheinlichkeiten werden so meistens 

unter 0.5 bleiben, im konkreten Fall auch mal übersteigen. Wenn wir selbst dennoch 

anders fragen als SPSS, also inhaltlich bestimmt z.B. in die noch-mehr-Richtung 

fragen, obwohl der beobachtete Anteil kleiner als der vorgegebene Populationsanteil 

ist, bzw., wenn wir die Alternativ-Hypothese formuliert haben, in die noch-weniger- 

Richtung fragen, obwohl der beobachtete Anteil größer als der vorgegebene ist, dann 

Seite - 58 -


brauchen wir SPSS erst gar nicht rechnen zu lassen, denn das Ergebnis wird nicht 

signifikant werden. 

In unserem Beispiel addiert SPSS auch noch bei x = 2 Krebstodfällen in Richtung 

des rechten Astes auf (P = 0.555), weil der beobachtete Anteil noch größer als der 

vorgegebene ist. Bei x = 1 dagegen addiert es die Punktwahrscheinlichkeiten für die 

1 und 0 Krebstode auf (P = 0.445). Es fragt jetzt in die Gegenrichtung, nämlich wie 

wahrscheinlich es ist, das 1 Krebstod oder kein Krebstod auftritt, bzw. alternativ, wie 

wahrscheinlich es ist, dass 6 oder 7 Nichtkrebstodfälle vorkommen. War unsere 

Frage dennoch, wie wahrscheinlich es ist, dass 1 oder noch mehr Krebstode 

auftreten, dann können wir das mit SPSS jetzt nicht mehr direkt berechnen. Es wird 

aber eine Überschreitungswahrscheinlichkeit von P ≥ 0.5 sein. Wir können das 

anhand des SPSS-Ausdrucks sogar genau berechnen, weil nicht nur die 

Überschreitungswahrscheinlichkeit P = 0.445 jetzt zur nicht gewünschten Seite 

ausgegeben wird, sondern auch die Punktwahrscheinlichkeit p = 0,311 der 

beobachteten Zahl x = 1 Krebstode: 

P anderer Ast = 1 - P ausg. Ast + p ausg. 

da die Summe aller Punktwahrscheinlichkeiten gleich 1 ist. In unserem Beispiel mit x 

= 1 Krebstoden wäre also die Wahrscheinlichkeit von 1 oder noch mehr Krebstoden 

P = 1 - 0,445 + 0,311 = 0,886. 

Wichtig: Wie schon bei der Benutzung einer Binomialverteilungstabelle sollten wir 

uns vor der Anwendung eines Binomialtests mit der Formulierung von Hypothese 

und Alternativ-Hypothese ganz klar machen, in welche immer selbe Richtung unsere 

einseitige Fragestellung geht, gleichgültig ob wir die Hypothese so oder so 

formulieren, also hier nach der Zufallswahrscheinlichkeit der Krebstode oder 

alternativ der Nichtkrebstode fragen. (Bitte aber niemals die inhaltliche Alternativ- 

Hypothese mit der statistischen Gegenrichtung verwechseln.) Wenn es die Richtung 

ist, in die SPSS aufaddiert gemäß seines Vergleichs von beobachtetem und Testanteil, 

wird das von uns gewünschte Ergebnis berechnet. Wenn das nicht der Fall ist, 

erhalten wir zwar auch ein Ergebnis, es ist dann aber nicht das vor uns gemeinte, 

sondern das der Gegenrichtung, also ein falsches, und niemand warnt uns dann! 

Deshalb folgende Sicherungsregel: Wenn wir also oben nach der 

Zufallswahrscheinlichkeit für 5 oder noch-mehr-Krebstodfälle fragen und der 

beobachtete Anteil größer als der vorgegebene Pop-Anteil von 25% ist, also 

ebenfalls in unsere mehr-Fragerichtung deutet, dann wird das ausgegebene P richtig 

sein. Und wenn wir stattdessen alternativ nach der Zufallswahrscheinlichkeit für 2 

oder noch-weniger-Nichtkrebstodfälle fragen und der beobachtete Anteil kleiner als 

der vorgegebene von 75% ist, also in die noch-weniger-Richtung weist, wird das 

Ergebnis auch richtig sein. Wenn allerdings diese Und-Bedingung nicht stimmt, dann 

wird das ausgegebene P nicht das der gewünschten Richtung sein. 

12.1.2 Zweiseitiger Test 

Wir erkennen, dass die obige Binomial-Verteilung nicht symmetrisch ist. Das ist sie 

nur dann, wenn der Testanteil 0,5 beträgt, also µ = 1 - µ = 0,5. Wenn das der Fall ist, 

kann die einseitige Überschreitungswahrscheinlichkeit einfach verdoppelt werden, 

um die zweiseitige zu erhalten. Das tut SPSS dann auch. Allerdings berechnet es 

auch nur dann die zweiseitige. 

Wenn µ ≠ 1 - µ wie im obigen Beispiel, ist die Binomialverteilung asymmetrisch. Dann 

muss die zweiseitige Überschreitungswahrscheinlichkeit als Summe der rechten und 

linken kritischen Region berechnet werden. Dazu müssen wir bei SPSS die 

Seite - 59 -


Überschreitungswahrscheinlichkeiten beider Regionen getrennt berechnen und beide 

dann selbst addieren: 

Wenn wir im Beispiel nicht nur einseitig fragen, ob der Krebstod in der Gegend des 

Kernkraftwerks in übernormaler Häufung auftritt, sondern auch in unternormaler 

Häufung, dann haben wir bei x = 5 Krebstodfällen nicht nur zu fragen, wie 

wahrscheinlich es ist, dass 5 oder noch mehr Fälle zufällig auftreten (x ≥ 5), also 5 

oder 6 oder 7, sondern zusätzlich, wie wahrscheinlich es ist, dass 7-5 oder noch 

weniger Fälle zufällig auftreten (x ≤ 7-5), also 2 oder 1 oder 0 (vgl. obige Verteilung). 

(Achtung: Es sind jetzt die Krebstodfälle gemeint, und nicht die alternativen 

Nichtkrebstodfälle). Diese linke Überschreitungswahrscheinlichkeit können wir von 

SPSS nicht direkt berechnen lassen, da der Anteil von 2 Krebstodfällen an 7 Fällen 

noch größer als der vorgegebene Anteil von 25 % ist, SPSS also nicht zur 

gewünschten Seite rechnet, sondern noch zur Mehr-Seite. Wir müssen also 

hilfsweise in einer zweiten Rechnung nach der Überschreitungswahrscheinlichkeit für 

3 oder noch mehr Krebstoten fragen (in den Daten jetzt statt 5 nur drei Krebstode) 

und diese dann von 1 subtrahieren, da die Summe aller Punktwahrscheinlichkeiten 1 

ist. Im vorliegenden Fall ergibt sich eine Ü-Wahrscheinlichkeit für die gemeinte untere 

Region von P u = 1 - 0,244 = 0,756, und somit 

P 2-seitig = P o + P u = 0,013 + 0,756 = 0,769 

Dasselbe Ergebnis würden wir natürlich auch erhalten, wenn wir fragen würden, ob 

die Nichtkrebstode in über- oder unternormaler Häufung auftritt. 

Die andere Seite kann aber auch direkt berechenbar sein. Wenn wir statt von 7 

Beobachtungsfällen von z.B. 9 ausgehen und uns bei nur 1 Krebstodfall fragen (µ 

weiterhin 25%), ob das über- oder unternormal ist, dann wird SPSS automatisch 

fragen wie wahrscheinlich 1 oder kein Krebstod-Fall ist bzw. alternativ wie 

wahrscheinlich 8 oder 9 Nichtkrebstodfälle (1- µ = 0,75 eingeben) sind und als 

Antwort P = 0,30 berechnen. Wenn wir dann zusätzlich wissen wollen, wie 

wahrscheinlich 8 oder 9 Krebstodfälle sind und die Daten entsprechend verändern, 

dann wird SPSS auch das berechnen (P = 0,000), weil (zum Glück) der beobachtete 

Anteil mit 0,89 größer als der vorgegebene Anteil von 0,25 ist. 

Zugegeben: Im Falle eines Binomialtests mag es einfacher sein, mithilfe einer 

tabellierten Binomialverteilung zu testen als mithilfe von SPSS, insbesondere bei 

zweiseitiger Fragestellung. 

Leider steht die zweiseitige Testung in vielen Büchern gar nicht, unzulänglich oder 

sogar falsch drin. Das mit dem Kauf von SPSS mitgelieferte (dürftige) SPSS- 

Handbuch für die exakten Tests ist z.B. der Meinung, dass bei zweiseitiger Testung 

die einseitige einfach zu verdoppeln ist, obwohl das Programm selbst es dann doch 

zum Glück nur im Falle der Symmetrie tut. 

Meistens wird man einseitig testen wollen, beim Krebstod auch mal in die andere 

Richtung: So scheint es bestimmte kleinere Areale zu geben, wo er erheblich 

weniger auftritt als im ganzen Land. Auch dann ist, nachdem durch einen 

statistischen Test die Unwahrscheinlichkeit einer Zufallsschwankung festgestellt 

worden ist, die Forschung nach der Ursache hoch interessant, wie schon beim 

Kernkraftwerk. 

Nach diesem Einschub in das bisherige Papier jetzt seine Fortsetzung: 

Die unter Optionen anforderbaren Statistiken sind unsinnig. Man ... 

Zu guter Letzt: 

Es ist zum näheren Verständnis sinnvoll, Verteilungen von 

Punktwahrscheinlichkeiten auch im Falle des exakten Testens von 4-Felder- 

Häufigkeiten anzulegen (Tee-Beispiel), für alle überhaupt möglichen Verteilungen bei 

Seite - 60 -


festen Randsummen. Man kann dabei ebenfalls einen unteren Ast und einen oberen 

Ast der Verteilung erzeugen, so dass klar wird, die Punktwahrscheinlichkeiten 

welcher Tafeln in Richtung der gemeinten H 1 -Hypothese zur Ü-Wahrscheinlichkeit P 

aufzuaddieren sind; und auch, wie zweiseitig zu testen ist. Das ist alles ganz analog, 

und man sollte es übungshalber wirklich mal machen. SPSS berechnet ja die 

Punktwahrscheinlichkeit für jede konkret eingegebene Häufigkeitsmatrix, so dass die 

ganze Verteilung der Punktwahrscheinlichkeiten aufgestellt werden kann und sodann 

verschiedenste Überschreitungswahrscheinlichkeiten überprüft werden können. 

Die unter OPTIONEN anforderbaren Statistiken sind unsinnig. Man erhält hier u.a. 

Mittelwert und Standardabweichungen der Merkmalskodierungen (!). Die 

unterschiedlichen Möglichkeiten zur Behandlung fehlender Werte (missing data) 

können relevant werden, wenn mehr als eine Testvariable eingegeben wurde und 

fallweiser Ausschluß gewählt wird, so daß bei allen Binomialtests nur solche 

Personen berücksichtigt werden, die in keiner dieser Testvariablen einen fehlenden 

Wert aufweisen. 

12.2 Eindimensionaler C 2 -Test 

Mit diesem Test kann überprüft werden, ob die Häufigkeiten der Werte (Kategorien) 

einer Variablen vorgegebenen theoretisch erwarteten Häufigkeiten (der 

Grundgesamtheit) entsprechen. 

Es wird daran erinnert, daß die zur jeder Kategorie erwartete Häufigkeit 

mindestens 5 betragen sollte. 

Analysieren fi Nichtparametrische Tests fi Chi-Quadrat 

Es öffnet sich das folgende Dialogfeld: 

Abb. 57: Chi-Quadrat-Test 

Seite - 61 -


Testvariablen 

In dieses Feld können mehrere Variablen hinüber geschoben werden. Das ist jedoch 

nur dann sinnvoll, wenn allen diesen Variablen gleiche Erwartungshäufigkeiten 

zugewiesen werden sollen. Ist das nicht der Fall, müssen die Variablen durch 

wiederholtes Aufrufen der Prozedur einzeln untersucht werden. 

Erwarteter Bereich 

Aus den Daten: Damit werden die Häufigkeiten aller (gültigen) Werte der 

Testvariablen ausgezählt und mit den pro Kategorie eingegebenen Häufigkeiten 

verglichen. Dabei werden auch Dezimalzahlen ausgezählt, wenn die Variable solche 

aufweist. Zwischen Werten wie z.B. 6,92 und 6,93 wird also unterschieden. 

Angegebenen Bereich verwenden: Sollen für die ausgewählte Testvariable nicht 

alle Werte, sondern nur ein ausgewählter Wertebereich zugrunde gelegt werden, so 

ist der untere und obere Grenzwert (Minimum und Maximum) als ganzzahliger Wert 

einzutragen. Diese beiden Werte gehören zum Bereich. Diese Einstellung bewirkt, 

daß die Werte innerhalb des Bereichs zu ganzzahligen Werten zusammengefaßt 

werden, indem nur der ganzzahlige Teil einer Dezimalzahl berücksichtigt wird (keine 

Rundung). Die Werte 6,93 und 6,92 werden also als 6 interpretiert. Zudem werden 

auch solche ganzzahligen Werte berücksichtigt, die zwar im vorgegebenen 

Wertebereich enthalten sind, nicht aber in der Testvariablen vorkommen. Für diese 

Werte erhält man dann eine beobachtete Häufigkeit von 0. Wenn man also z.B. ein 

Minimum von –3 und ein Maximum von 2 angibt, werden die Häufigkeiten der Werte 

–3, -2, -1, 0, 1 und 2 betrachtet. 

Erwartete Werte 

Alle Kategorien gleich: Es wird angenommen, daß alle Werte (Kategorien) der 

Testvariablen in der Grundgesamtheit mit der gleichen Häufigkeit vorkommt. SPSS 

errechnet in diesem Fall die pro Kategorie gleiche erwartete Häufigkeit aus, indem es 

die Zahl der Fälle (Personen) durch die Anzahl der Kategorien der Variablen dividiert. 

Werte: Wenn die für die einzelnen Kategorien erwarteten Häufigkeiten verschieden 

sind, müssen diese Häufigkeiten einzeln eingeben werden, und zwar zuerst für den 

kleinsten in der Testvariablen vorkommenden Wert (Kategorie), dann weiter in 

aufsteigender Folge. Statt absoluter Häufigkeiten können auch Wahrscheinlichkeiten 

oder Prozentwerte eingegeben werden. 

Sollte ein bestimmter Wertebereich der Variablen festgelegt worden sein, muß für 

jeden ganzzahligen Wert des Bereiches eine erwartete Häufigkeit eingegeben 

werden, auch wenn einzelne Werte in der Variablen nicht vorkommen sollten. 

Optionen: Die hier anforderbaren Statistiken sind im Zusammenhang mit der 

Fragestellung, unter der der X 2 -Test angefordert wird, in der Regel nicht sinnvoll. 

Ausgabe: Die Interpretation der Ausgabe dürfte keine Schwierigkeiten bereiten. 

Zusatzmodul „Exakte Tests“ 

Dies ist insbesondere von Interesse, wenn bei kleinen Stichprobenumfängen 

erwartete Häufigkeiten kleiner 5 auftreten. Der Aufruf des Moduls sorgt dann dafür, 

dass in der Ausgabe neben der „asymptotischen Signifikanz“ (asympotisch 

berechnete Überschreitungswahrscheinlichkeit p) zusätzlich die „exakte Signifikanz“ 

ausgegeben wird; ferner die „Punkt-Wahrscheinlichkeit“, d.h. die Wahrscheinlichkeit 

dafür, dass die Verteilung der Anzahl der beobachteten Fälle auf die k Kategorien so 

wie beobachtet zufällig auftritt. 

Das exakte p wird, in Erweiterung der Binomialverteilung, rechentechnisch aufwendig 

über eine Multinomial- bzw. Polynomialverteilung berechnet (z.B. Bortz, Lienert & 

Boehnke 1990, S. 92). 

Seite - 62 -


12.3 Der C 2 -Test in zweidimensionalen Kreuztabellen 

Analysieren fi Deskriptive Statistiken fi Kreuztabellen fiStatistik: Chi-Quadrat 

Die Prozedur KREUZTABELLE beschränkt sich nicht darauf, die gemeinsame 

Häufigkeitsverteilung zweier Variablen in einer Tabelle der Größe k * m (k = Anzahl 

Zeilen, m = Anzahl Spalten) darzustellen. Sie bietet auch den Χ 2 -Test an, mit dem 

untersucht werden kann, ob ein wahrscheinlich überzufälliger Zusammenhang 

zwischen den beiden Variablen besteht, oder ob sie stochastisch unabhängig 

voneinander sind (Nullhypothese). Zur Berechnung von Zusammenhängen zwischen 

Variablen wird KREUZTABELLE insbesondere dann verwendet, wenn die zu 

untersuchenden Variablen auf Nominalskalenniveau liegen. Anderenfalls stehen 

höherwertige Tests zur Verfügung. 

Neben der Zusammenhangshypothese kann der Test auch zur Prüfung von 

Unterschieden verwendet werden (Unterschiedshypothese). In diesem Fall stehen in 

der einen Dimension nicht die k Ausprägungen eines Merkmals, sondern k 

unabhängige Stichproben, bei denen jeweils die m Ausprägungen eines in der 

anderen Dimension stehenden Merkmals ausgezählt wurden. Dann lautet die 

Nullhypothese, dass alle Stichproben aus einer Grundgesamtheit stammen, die pro 

Merkmals-Ausprägung i π i –Anteile aufweisen, d.h. die Annahme der Homogenität 

der Merkmalsanteile bei k unabhängigen Stichproben. 

Beiden Nullhypothesen liegen unterschiedliche Zufallsmodelle zugrunde. Bei der 

Zusammenhangshypothese geht es um eine bivariate Zufallsvariable, deren 

Realisierung an einer Stichprobe untersucht wird, und bei der 

Unterschiedshypothese um eine univariate Zufallsvariable, deren Realisierung an 

einer k unabhängigen Stichproben untersucht wird. Obwohl es also um zwei 

unterschiedliche Zufallsmodelle geht, führen die statistischen Tests beider 

Nullhypothesen zu identischen Formeln/Ergebnissen. Forschungslogisch 

(Versuchsplanung) sind die unterschiedlichen Ansätze jedoch bedeutsam. 

Erwartete Häufigkeiten Zellen à Häufigkeiten: erwartet 

Wenn z.B. im Falle der Zusammenhangshypothese beide Variablen stochastisch 

unabhängig voneinander verteilt sind (H 0 ), dürften die Verteilungen der einen 

Variablen innerhalb der verschiedenen Kategorien der anderen Variablen nicht 

wesentlich voneinander abweichen und müßten der Gesamtverteilung der Variablen 

entsprechen. Wenn z.B. die Variable „Geschlecht“ und die Variable „Brillenträger“ 

unabhängig voneinander sind, dann müßten genauso viele Frauen wie Männer 

Brillenträger und Nicht-Brillenträger sein, d.h. das Verhältnis der Frauen und 

Männern in der Gesamtstichprobe müßte bei den Brillenträgern und Nicht- 

Brillenträgern in gleicher Weise vorkommen. Deshalb wird die unter der Annahme 

der Unabhängigkeit zweier Variablen in einer Zelle erwartete Häufigkeit so 

berechnet, daß die jeweiligen Randhäufigkeiten der beiden an der Zelle beteiligten 

Kategorien multipliziert werden und das Produkt durch das Gesamt-N dividiert wird. 

Betrachtet man die Randhäufigkeit einer Kategorie, so wird sie dadurch in dem 

Verhältnis auf die Kategorien der anderen Variablen aufgeteilt wie die Häufigkeiten 

diese Kategorien am Gesamt-N beteiligt sind. 

Die Randhäufigkeiten werden im Falle des Fehlens eigentlich zu benutzender 

Populationswahrscheinlichkeiten zu deren Schätzung benutzt. 

Seite - 63 -


Wenn nun die tatsächlich beobachteten Häufigkeiten deutlich von den erwarteten 

abweichen, kann dies darauf hindeuten, daß die Variablen möglicherweise nicht 

unabhängig voneinander sind. Bei der Berechnung des Χ 2 -Wertes werden die 

quadrierten Abweichungen durch die erwarteten Häufigkeiten dividiert. Die Summe 

dieser Quotienten bildet den Χ 2 -Wert. Durch das Quadrieren der Differenzen gehen 

positive und negative Abweichungen in gleicher Weise in das Maß ein und können 

sich nicht gegenseitig aufheben. Die Division durch die erwarteten Häufigkeiten ist 

notwendig, da sich sonst bei vielen Fällen auch mehr Abweichungen ergeben 

würden. Bei z.B. 1000 Fällen wird die Summe der quadrierten Abweichungen unter 

sonst gleichen Umständen größer sein als bei z.B. 100 Fällen. 

Je größer also die Abweichungen über alle Zellen sind, desto größer wird auch der 

Χ 2 -Wert ausfallen. Die Abweichungen in der betrachteten Stichprobe könnten jedoch 

zufälliger Natur sein. Die Χ 2 -Verteilung für jeweils eine bestimmte Anzahl von 

Freiheitsgraden (df = (k-1) *(m-1)) gibt an, mit welcher Wahrscheinlichkeit sich ein 

bestimmter Χ 2 -Wert auch dann zufällig ergeben kann, wenn die Variablen in der 

Grundgesamtheit unabhängig voneinander verteilt sind. Dabei gilt, daß bei 

gegebenem Zusammenhang zwischen den Variablen die Möglichkeit einer guten 

statistischen Absicherung des Ergebnisses mit wachsender Zellenzahl und damit 

größeren Freiheitsgraden abnimmt. Das Zusammenfassen einzelner Kategorien 

kann daher auch dann sinnvoll sein, wenn die erwarteten Häufigkeiten in den Zellen 

größer als 5 sind. Jedoch sollte andererseits die Tabellen mehr als 5 Zellen haben. 

Bei der Anwendung des asymptotischen Χ 2 - Tests sollte die erwartete Häufigkeit, 

also in jedem Feld der Kreuztabelle, mindestens 5 sein. Anderenfalls ist das 

Testergebnis nicht mehr zuverlässig. Zum Teil wird diese Forderung in der Literatur 

abgeschwächt formuliert. Es wird dann gefordert, daß mindestens 20 % der Felder 

eine erwartete Häufigkeit unter 5 haben dürfen. Bei der Berechnung des Χ 2 -Wertes 

wird von SPSS immer auf die kleinste in der Kreuztabelle vorkommende erwartete 

Häufigkeit aufmerksam gemacht. Auch gibt SPSS immer die Anzahl der Felder aus, 

in denen die erwartete Häufigkeit kleiner als 5 ist. 

Der Χ 2 -Test ist besonders bei Variablen auf Nominalskalenniveau geeignet. Zwar ist 

er auch bei höheren Skalenniveaus anwendbar, für diese stehen jedoch 

leistungsfähige Tests auf stochastische Unabhängigkeit zur Verfügung. 

Auch im Falle zweidimensionaler Kreuztabellen kann SPSS die 

Überschreitungswahrscheinlichkeit exakt berechnen. Dabei können drei exakte 

Verfahren angewendet werden, die asymptotisch alle der Χ 2 -Verteilung mit 

df = (k-1) * (m-1) folgen, d.h. asympotisch alle äquivalent sind. 

a) Im ersten Fall geht es um die exakte Berechnung der 

Überschreitungswahrscheinlichkeit p der für die beobachtete Kreuztabelle 

berechneten Pearson-Χ 2 –Testgröße. Es sind dazu alle Kreuztabellen zu 

erzeugen, die ebenfalls die Randsummen dieser Kreuztabelle aufweisen und die 

Punktwahrscheinlichkeiten jener Tabellen, die ein gleiches oder ein größeres 

(extremeres) Χ 2 als das der beobachteten Tabelle aufweisen, zu der 

Punktwahrscheinlichkeit der beobachteten Tabelle zu addieren. (Die Zahl solcher 

Tabellen kann in die Millionen und Milliarden gehen.) Die 

Seite - 64 -


Punktwahrscheinlichkeiten werden dabei durch einen hypergeometischen Ansatz 

bestimmt. 

b) Likelihood-ratio-Test 

c) Im dritten Fall wird der Freeman-Halton-Test (vgl. Lienert II) berechnet, der eine 

Erweiterung des im folgenden Abschnitt angesprochenen exakten 4-Felder-Tests 

von R.A. Fisher auf den Fall k > 2 und/oder m >2 darstellt. In SPSS wird er 

weiterhin "Fisher´s exakter Test" genannt, obwohl Fisher diese Erweiterung nicht 

selbst vorgenommen hat. 

Alle drei Verfahren prüfen die Nullhypothese (Zusammenhangshypothese) 

H 0 : π ij = π i * π j für alle (i,j)-Paare, 

die exakt berechneten p´s differieren jedoch geringfügig. Argumente, die einen der 

Tests hier besonders empfehlen würden, scheinen nicht vorzuliegen. Da im 2*2-Fall 

(vgl. nachfolgenden Abschnitt) es üblich ist, den exakten Test von Fisher zu nehmen, 

könnte man um der Einheitlichkeit willen bei größeren Kreuztabellen auch seine 

Erweiterung/Verallgemeinerung benutzen. 

12.4 Der spezielle Fall von 2*2-Kreuztabellen 

Der eben diskutierte allgemeine Χ 2 –Test kann, wie das obige Beispiel mit dem 

Brillenträgern schon andeutet, natürlich auch im Falle von K =2 und M =2 

angewendet werden. Es wird dann geprüft, ob die Verteilung einer dichotomen 

Variablen in zwei unabhängigen Stichproben signifikant verschieden ist bzw. ob 

zwischen zwei dichotomen Variablen ein signifikanter Zusammenhang besteht. 

Jedoch können sich insbesondere bei 2*2-Tabellen mit geringer Fallzahl 

Einschränkungen in der Zuverlässigkeit des Tests ergeben. Unabhängig davon 

berechnet SPSS neuerdings immer zusätzlich den exakten Test nach Fischer, denn 

er ist generell der genauere Test. Insbesondere kann er auch einseitig (extremere 

Verteilung nur zur jeweils einen Seite) angewendet werden. 

Für alle 2*2-Tabellen wird zum Χ 2 -Test noch die Yates´-Korektur angegeben. Sie 

besteht darin, daß bei der Berechnung des Χ 2 -Wertes vor dem Quadrieren die 

absoluten Abweichungen der beobachteten von den erwarteten Häufigkeiten um 0,5 

verringert werden. Dadurch ergibt sich ein kleinerer Χ 2 -Wert und somit ein 

konservativerer (d.h. zugunsten von H 0 ) arbeitender Test. Die Korrektur ist 

umstritten. 

Bei zwei dichotomen Variablen kann es sinnvoll sein, zusätzlich ein Maß für die 

Stärke des Zusammenhangs anzufordern. Das ist hier der Phi-Koeffizient, eine 

spezielle Formulierung der Produkt-Moment-Korrelation. Z.B. kann der Fisher-Test 

eine statistisch signifikante Beziehung zwischen beiden Variablen aufzeigen, die 

Stärke des Zusammenhangs jedoch gering sein, d.h. praktisch-inhaltlich 

bedeutungslos. 

12.5 Analyse von drei- oder höherdimensionalen Kreuztabellen 

Eine Erweiterung des zweidimensionalen Χ 2 -Tests auf weitere Dimensionen ist 

möglich, auch mit der Berechnung exakter Tests. SPSS berechnet solche 

Erweiterungen jedoch nicht. 

Seite - 65 -


Die Prozedur, höherdimensionale Kreuztabellen auszuzählen, z.B. eine 

dreidimensionale I*J*K-Tabelle, meint die Möglichkeit, für alle k Stufen des dritten 

Merkmals zweidimensionale I*J-Tabellen zu erstellen, oder für alle Kombinationen 

eines dritten und vierten Merkmals. Man erhält so die Möglichkeit, einen 

Zusammenhang zwischen zwei Variablen in Bezug auf die Stufen einer dritten 

Variablen oder noch weiterer einzelner Variablen oder von deren 

Stufenkombinationen zu betrachten; z.B. ob ein Zusammenhang zwischen zwei 

Variablen sowohl bei Frauen als auch bei Männern (Variable Geschlecht als dritte 

Variable) gegeben ist; denn es könnte sein, dass ein Zusammenhang ohne eine 

solche differenziertere Betrachtung nur mäßig vorhanden ist, aufgeschlüsselt nach 

den beiden Geschlechtern jedoch in dem einen Geschlecht stark und im anderen 

Geschlecht gar nicht nicht vorhanden ist, was eine völlig andere Information 

darstellen würde. 

Dritte, vierte ... Variablen werden über "Schicht" eingegeben. Wird links eine dritte 

Variable zur Auswahl angeklickt, so leuchtet "Schicht" auf, und die Variable kann als 

dritte eingegeben werden: 

a) Danach können auch weitere in diese 1. Schicht eingegeben werden. Alle diese 

Variablen sind dann dritte Variablen, d.h. Variablen einer dritten Dimension. Das 

heißt, dass die mit der eingebenen Zeilen- und Spaltenvariablen gemeinte 

Kreuztabelle auf die Stufen jeder einzelnen dieser dritten Variablen 

aufgeschlüsselt wird. Es ergeben sich so viele dreidimensionale Kreuztabellen 

wie dritte Variablen eingegeben werden, und so viele zweidimensionale (inklusive 

X 2 -Prüfung) wie die Summe der Stufen aller dritten Variablen beträgt. 

b) Wenn man dagegen auf die Taste "weiter" drückt, kann man eine weitere Schicht 

anlegen, also eine weitere Dimension. Dort kann man eine oder wiederum 

mehrere Variablen eingeben. Dann wird die gemeinte zweidimensionale 

Kreuztabelle nicht mehr auf den Stufen einzelner Variablen aufgeschlüsselt, 

sondern auf die Zweier-Stufenkombinationen der Variablen der dritten und vierten 

Dimension. 

13 Berechnung und Analyse von Korrelationen 

13.1 Produkt-Moment-Korrelation 

Analysieren fi Korrelation fi Bivariat 

Um die Stärke des Zusammenhangs zwischen zwei Variablen X und Y zu 

bestimmen, kann ein Korrelationskoeffizient r xy berechnet werden. Die Korrelation 

nach Pearson, auch Produkt-Moment-Korrelation genannt, versucht dabei, einen 

linearen Zusammenhang zu bestimmen und diesen in einer zwischen –1 und +1 

liegenden Maßzahl auszudrücken. Da die Korrelation auf die Entdeckung eines 

solchen Zusammenhangs aus ist, kann es sein, dass auch bei einem Pearson- 

Koeffizienten von Null dennoch ein totaler, jedoch eben nicht linearer 

Zusammenhang zwischen den beiden Variablen vorliegt. 

Gibt man mit dem obigen Aufruf mehrere Variablen ein, so wird jede Variable mit 

jeder anderen korreliert und das Ergebnis in Matrixform ausgegeben, bei vier 

Variablen z.B. 

Seite - 66 -


r 11 r 12 r 13 r 14 

r 21 r 22 r 23 r 24 

r 31 r 32 r 33 r 34 

r 41 r 42 r 43 r 44 

In dieser Matrix stehen in der Hauptdiagonalen, die von links oben nach rechts unten 

verläuft, die Autokorrelationen, d.h. die Korrelation jeder Variablen mit sich selbst. 

Diese ergeben natürlich jeweils r ii = 1.00. Oberhalb der Hauptdiagonalen steht das 

obere Dreieck, unterhalb das untere Dreieck. Die Dreiecke sind spiegelsymmetrisch 

gleich, d.h. r ij = r ji . 

Befolgt man obige Befehlskette, so öffnet sich folgender Dialog: 

Abb. 58: Das Fenster zur Berechnung bivariater Korrelationen 

Wir erkennen, dass Pearson schon voreingestellt ist, desgleichen eine zweiseitige 

Prüfung auf Signifikanz des jeweils berechneten Korrelationskoeffizienten. 

Sinnvoll läßt sich der Pearsonsche Korrelationskoeffizient nur berechnen, wenn 

beide Variablen mindestens Intervallskalenniveau aufweisen. Soll zudem die 

Signifikanzprüfung durchgeführt werden, ist erforderlich, dass die Variablen in der 

Grundgesamtheit zweidimensional normalverteilt sind. 

Für Variablen, die diese Voraussetzungen nicht erfüllen, aber mindestens 

Ordinalskalenniveau besitzen, stehen die beiden Rang-Korrelationskoeffizienten 

Kendall´s tau und Spearman´s rho zur Verfügung. Auch die Forderung der 

Normalverteilung in der Grundgesamtheit entfällt bei ihrer Berechnung. 

Der Signifikanztest für die Pearsonsche Korrelation lautet 

t = 

r * N − 2 

1 − r 

2 

Der Testwert ist bei Gültigkeit der Nullhypothese t-verteilt mit N-2 Freiheitsgraden. Er 

prüft, ob die empirisch ermittelte Korrelation r mit der Nullhypothese 

H 0 : r = 0 

zu vereinbaren ist. Die ausgedruckte Signifikanz p gibt die Wahrscheinlichkeit an, mit 

der sich in einer Stichprobe des vorliegenden Umfangs per Zufall auch dann ein 

Korrelationskoeffizient der beobachteten Größe ergeben kann, wenn in der 

Grundgesamtheit kein Zusammenhang zwischen den beiden Variablen besteht. 

Seite - 67 -


Wie wir sehen, hängt der Ausgang der Prüfung außer von der Größe der Korrelation 

vom N und damit von der Stichprobengröße ab. 

Mit dem Signifikanztest wird nur untersucht, ob überhaupt ein linearer 

Zusammenhang zwischen den Variablen besteht. Über die Stärke des 

Zusammenhangs wird nichts ausgesagt. 

Man kann wählen, ob für den Korrelationskoeffizienten das zwei- oder das einseitige 

Signifikanzniveau berechnet werden soll. Zweiseitig ist dann zu testen, wenn keine 

inhaltlich begründbare Hypothese über die Richtung des erwarteten 

Zusammenhangs vorliegt, wenn also nicht angenommen werden kann, dass die 

Korrelation positiv oder negativ sein wird. Einseitig ist entsprechend zu testen, wenn 

eine Erwartung in nur einer Richtung vorliegt. Prüft man z.B. in positiver Richtung, 

wird die Nullhypothese getestet, der Koeffizient in der Grundgesamtheit sei Null oder 

negativ. 

Unter OPTIONEN öffnet sich der folgende Dialog: 

Abb. 59: Bivariate Korrelationen: Optionen 

Hier ist die Behandlung fehlender Werte von Bedeutung. Es gibt zwei 

Behandlungsmöglichkeiten: 

a) Paarweiser Ausschluß: Hierbei werden die beiden jeweils zu korrelierenden 

Variablen (Spalten der Rohdatenmatrix) betrachtet und jeder Fall (Vp) gestrichen, 

der in wenigstens einer der beiden Variablen einen fehlenden Datenwert aufweist. 

Vorteil: pro Korrelation werden nur die Fälle gestrichen, die in den beiden jeweils 

zu korrelierenden Variablen fehlende Werte aufweisen. 

Nachteil: die verschiedenen Korrelationen können auf einem unterschiedlichen N 

(Zahl der Fälle) basieren. Deshalb sollte dieses Verfahren nicht angewandt 

werden, wenn die Korrelationsmatrix weiter verrechnet werden soll, z.B. in einer 

Regressionsanalyse. 

b) Fallweiser Auschluß: Hier wird jeder Fall gestrichen, der in mindestens einer der 

zu korrelierenden Variablen einen fehlenden Wert aufweist. 

Vorteil: Alle Korrelationskoeffizienten basieren auf demselben N. 

Nachteil: Die Zahl der Fälle kann sich u.U. erheblich reduzieren. 

13.2 Partial-Korrelation 

Analysieren fi Korrelation fi Partiell 

Die Feststellung eines linearen Zusammenhangs zwischen zwei Variablen scheint 

einfach zu sein: Man muß nur einen Korrelationskoeffizienten berechnen. Liegt dann 

z.B. ein hoher Zusammenhang vor, kann seine Interpretation allerdings leicht zu 

Seite - 68 -


falschen Schlußfolgerungen führen; denn die Stärke des Zusammenhangs zwischen 

den beiden Variablen wird möglicherweise durch den Koeffizienten nicht richtig 

abgebildet, und zwar dann nicht, wenn diese Korrelation durch den Einfluß weiterer 

Variablen auf beide Variablen zustande gekommen ist („Scheinkorrelation“). 

Korreliert man z.B. die Länge des großen Zehs mit der Intelligenz während der 

Wachstums von Kindern, so kann man feststellen, wenn auch etwas verwundert, 

dass die Länge mit der Intelligenz korreliert. Berücksichtigt man dagegen das Alter 

als Kontrollvariable und eliminiert man den Einfluß dieser Variablen auf beide 

Variablen, so korreliert die Länge des großen Zehs nicht mit der Intelligenz. 

Soll der lineare Zusammenhang zwischen den Variablen X und Y unter 

Berücksichtigung der Kontrollvariablen K bestimmt werden, so schätzt man zunächst 

zwei lineare Regressionen, wobei die eine die Variable X und die andere die Variable 

Y durch die unabhängige Variable K zu erklären versucht. Danach wird der partielle 

Korrelationskoeffizient als Pearsonscher Korrelationskoeffizient aus den Residuen 

der beiden Regressionsschätzungen bestimmt. Entsprechendes geschieht bei mehr 

als einer Kontrollvariablen. 

Mit dem obigen Prozedur-Aufruf lassen sich Partial-Korrelationskoeffizienten erster, 

zweiter, ... n-ter Ordnung r xy.i,j,k, ... berechnen, je nach Anzahl der Kontrollvariablen. 

Die Ausgabe der Interkorrelationen erfolgt in Matrixform. Abb. 59 zeigt das 

Dialogfenster, das sich nach obiger Befehlskette öffnet. 

Abb. 60: Partielle Korrelationen 

Im oberen Teil sind aus der Liste der Variablen die auszuwählen, die miteinander 

korreliert werden sollen. Im unteren Teil sind die Variablen auszuwählen, deren 

Einfluß aus den zu korrelierenden Variablen zuvor herauspartialisiert werden soll. 

Der unter OPTIONEN aufrufbare Dialog ist schon bekannt. Er entspricht den 

OPTIONEN bei der Berechnung bivariater Korrelationen. 

Im Output werden zunächst auch die Korrelationen nullter Ordnung aller Variablen 

ausgegeben, die „einfachen“ Pearsonschen Koeffizienten, also ohne 

Berücksichtigung der Einflüsse der Kontrollvariablen. 

Bei der Berechnung von Partial-Koeffizienten sollte nicht „auf gut Glück“ 

herumprobierend der Einfluß weiterer Variablen auf einen beobachteten Korrelationskoeffizienten 

untersucht werden. Vielmehr sollte vorher eine Theorie über mögliche 

Zusammenhänge entworfen und diese dann durch die Berechnung gezielter Partial- 

Korrelationen empirisch überprüft werden. Rein formal „entdeckte“ Einflüsse hätte 

Seite - 69 -


man sowieso im nachhinein inhaltlich-theoretisch zu erklären, z.B. den des Alters auf 

die Korrelation von großem Zeh und Intelligenz eben dadurch, dass in einem 

bestimmten Alter sowohl der Zeh als auch die Intelligenz noch wächst. 

13.3 Multiple Korrelation und Regression 

Analysieren fi Regression fi Linear 

Diese Prozedur ermöglicht die Berechnung einfacher und multipler linearer 

Regressionsverfahren und die Berechnung der entsprechenden multiplen 

Korrelationen. 

13.3.1 Schätzung einer einfachen Regressionsgleichung 

Nach obiger Befehlskette öffnet sich folgendes Dialogfenster: 

Abb. 61: Lineare Regression 

Zur Schätzung einer einfachen linearen Regression 

Y´ = b 1 X + b 0 

ist aus der Liste der Variablen zunächst die abhängige Variable (AV) auszuwählen. 

Diese wird auch Kriteriumsvariable genannt und wird meistens mit dem Buchstaben 

Y bezeichnet. Danach ist die unabhängige Variable (UV) einzugeben, auch Prädiktor 

genannt, und meistens mit dem Buchstaben X bezeichnet. Liegen fehlende Werte 

vor, so ist es bei zwei Variablen egal, ob über den Schalter OPTIONEN die 

Möglichkeit des paarweisen oder des fallweisen Ausschlusses gewählt wird. Bei 

mehr als einem Prädiktor, also bei drei oder mehr aus den Variablen der Datenmatrix 

ausgewählten Variablen, das ist der Fall der Multiplen Regression, sollte jedoch der 

fallweise Ausschluß gewählt werden, um Korrelationen zu erzeugen, die alle auf 

demselben N basieren. 

Das Ziel einer (zunächst) einfachen Regression ist es, die Gleichung Y´ = b 1 X + b 0 

anhand einer (Eich-)Stichprobe zu schätzen, also den Steigungskoeffizienten b 1 und 

der Achsenabschnitt bzw. die Konstante b 0 , um, falls sich Y aus X „gut“ vorhersaläßt, 

zukünftig für weitere Fälle, deren X-Meßwerte wir kennen, den zugehörigen Y´-Wert 

vorhersagen zu können. 

Seite - 70 -


In ein Koordinatensystem mit X auf der Abszisse und Y auf der Ordinate können wir 

die beobachteten Fälle eintragen und erhalten ein Streudiagramm. Gesucht ist jene 

Gerade Y´, die den mehr weniger erkennbaren Zusammenhang zwischen X und Y 

möglichst gut beschreibt. Gewählt wird als "am besten angepasste" jene, bei der die 

Summe der quadrierten (senkrechten) Abstände e der Punkte (Fälle) von ihr ein 

Minimum ergibt: Se 2 = S (Y-Y´) 2 Minimum = Regressionskriterium. Dieses Kriterium 

legt die Steigung der gesuchten Gerade fest. Der Steigungskoeffizient b 1 

(Regressionskoeffizient) wird dann durch 

b 1 = 

Ko var ianz( 

X , Y ) 

Varianz( 

X ) 

bestimmt. 

Danach wird der Achsenabschnitt b 0 festgelegt, indem in die Geradengleichung die 

Mittelwerte beider Variablen eingesetzt werden 

b 0 = 

Y − b* 

X 

Das bedeutet zum einen, dass e i im Durchschnitt Null sein wird, sich also die 

positiven und negativen Abstände der Streuungspunkte von Y´ aufheben werden, 

zum anderen, dass die Gerade durch den Punkt läuft, der von den Mittelwerten der 

Variablen X und Y gebildet wird, so dass auch, setzt man den Mittelwert X in die 

Gleichung ein, der Mittelwert Y vorhergesagt wird. 

Für die Beschreibung des Zusammenhangs bedeutsam ist aber vor allem das 

Steigungsmaß b 1 . Es gibt an, um wie viele Einheiten sich die AV verändert, wenn 

sich die UV um eine Einheit ändert. 

13.3.2 Erläuterung des Ergebnisteils von SPSS 

13.3.2.1 Multiple Korrelation R 

Betrachten wir die Sequenz der von SPSS ausgegebenen Ergebnisse, so interessiert 

noch nicht die gemäß eben erläuterter Definition geschätzte Regressionsgleichung, 

sondern zunächst, ob überhaupt ein Zusammenhang vorhanden ist. Dieser wird 

durch die „Multiple Korrelation R“ ausgedrückt. Sie gibt den Grad der linearen 

Korrelation (Stärke des Zusammenhangs) zwischen der abhängigen Variable Y und 

der vorhergesagten (aus X geschätzten) Variable Y´ an: R = r YY´ , ein Maß für die 

Güte der Anpassung der Regressionsgeraden Y´ an die Streuungspunkte. 

R 2 wird dabei häufig als Bestimmtheitsmaß oder Fit der Regressionsgleichung 

bezeichnet. Dabei wird davon ausgegangen, dass die gesamte Streuung von Y 

(Total Sum of Squares TSS), in zwei Anteile zerlegbar ist, in die durch Y´ erklärte 

Streuung (Explained Sum of Squares ESS) und in die nicht erklärte Reststreuung 

(Residual Sum of Squares RSS): 

TSS = ESS + RSS 

R 2 stellt dabei das Verhältnis von ESS und TSS dar, 

R 2 ESS 

= TSS 

also den Anteil der erklärten Streuung an der gesamten Streuung. Seine Werte 

liegen zwischen 0 und 1, weil weder ESS noch TSS (als Summe quadrierter Werte) 

negativ sein können, so dass R 2 immer positiv ist. Und da ESS immer nur ein Teil 

Seite - 71 -


von TSS ist, kann der Zähler nicht größer werden als der Nenner, so dass R 2 nicht 

größer als 1 werden kann. Sollte R 2 den Wert 1 erhalten, würde die gesamte 

Streuung erklärt werden und alle beobachteten Werte auf einer Geraden liegen. Je 

kleiner andererseits R 2 wird, desto schlechter ist die Anpassung der 

Regressionsgeraden Y´ an die beobachteten Werte (Streuungspunkte). 

13.3.2.2 Standardfehler des Schätzers 

Zwar werden die Schätzungen der Y-Werte durch die Y´-Werte zwar im Durchschnitt 

richtig sein, jedoch im konkreten Fall den Y-Werte mehr oder weniger über- oder 

unterschätzen. Von der Abweichung Y-Y (Streuung der Variablen Y) wird je nach 

Höhe von R 2 immer nur ein Anteil vorhergesagt/erklärt, nämlich der Anteil Y´-Y , 

während der Anteil e = Y-Y´ unerklärt bleibt. Wenn wir Σe 2 durch N dividieren, um 

den Einfluß der Stichprobengröße vom gesuchten Maß für diese Fehlerstreuung 

auszuschalten, und uns erinnern, dass der Mittelwert aller Residuen gleich Null ist, 

so erhalten wir 

∑e 2 i 

= 

N 

∑ 

∑ 

2 

2 

( ei 

− e) 

( ei 

− 0) 

= 

N N 

und wir erkennen, dass es um die Varianz der Residuen geht. 

Aus verschiedenen hier nicht auszuführenden Gründen wird die Summe der 

quadrierten Residuen jedoch nicht durch N, sondern N-k dividiert, d.h. abzüglich der 

Zahl der erklärenden Variablen, wobei der Achsenabschnitt b 0 mitzählt, bei der 

einfachen Regression also k = 2 ist. Wenn man ferner die Wurzel zieht, ergibt sich 

ein Wert, der als Standardfehler der Schätzung bezeichnet wird: 

Standardfehler der Schätzung = 

∑e 2 

i 

N − k 

Er dient als Maß dafür, wie dicht die prognostizierten Werte an den beobachteten 

Werten liegen. Er hat damit eine ähnliche Bedeutung wie R 2 . 

13.3.2.3 ANOVA 

Sodann folgt im Output eine ANalysis Of VAriance, d.h. ein F-Test, der prüft, ob der 

durch Y´aufgeklärte Varianzanteil ESS statistisch bedeutsam vom nichterklärten 

Varianzanteil RSS = Σe 2 verschieden ist. Die Quadratsumme ESS wird in der Zeile 

"Regression" ausgegeben, die Quadratsumme RSS in der Zeile "Residuen". 

Dividiert man jeweils durch die zugehörigen Freiheitsgrade, so erhält die zugehörigen 

Varianzen bzw. "Mittel der Quadrate". Die F-Wert ergibt sich, indem man die so 

berechnete erklärte Varianz durch die nichterklärte oder Fehlervarianz (als die 

kleinere) dividiert. Den F-Wert könnte man in einer F-Wert-Verteilungstabelle mit df 1 

= k-1 = 2-1 und df 2 = N-k auf Signifikanz überprüfen. SPSS nimmt uns das jedoch ab, 

indem es bei gegebenen F-Wert und Freiheitsgeraden unter "Signifikanz" direkt die 

zugehörige Überschreitungs-(Irrtums-)Wahrscheinlichkeit p ausgibt, also die 

Wahrscheinlichkeit dafür, dass ein solcher Varianzen-Quotient oder ein noch 

extremerer noch zufällig vorkommen kann. Ob wir das p dann als "signifikant" 

akzeptieren, also H 0 nicht mehr beibehalten wollen, entscheidet erst der Vergleich 

mit dem zuvor festgelegten α-Niveau. 

Seite - 72 -


13.3.2.4 Koeffizienten der Regressionsgleichung 

Nun endlich kommen wir zur von SPSS geschätzten Regressionsgleichung, also zur 

Steigung b 1 und zur Konstante b 0 . Beide stehen unter B, und wir können nunmehr die 

Regressionsgleichung Y´ = b 1 X + b 0 aufstellen. 

Diese Gleichung ist die sog. "Rohwertformel". Eingesetzt werden als X-Werte die 

Rohwerte, geschätzt werden mit Y´ Y-Rohwerte. Stattdessen kann man auch eine 

standardisierte Formel aufstellen. Dazu dient der standardisierte 

Regressionskoeffizient „Beta“ (β 1 analog zu b 1 ), der unter der Voraussetzung 

errechnet wird, dass X und Y standardisiert sind. Wegen cov xy = r XY und s x = s y =1 

und b 0 = 0 ergibt sich dann 

z Y´ = b 1 * z X 

und es werden aus standardisierten Werten z X standardisierte Werte z Y´ 

vorhergesagt. 

Beta wird auch Standardpartial-Regressionskoeffzient genannt. 

Zusätzlich ist noch eine Signifikanzprüfung des Regressionskoeffizienten b 1 möglich. 

Zu seiner Bewertung werden nämlich noch folgende Größen ausgegeben: 

Standardfehler von B („SE b 1 “), der für den Fall, dass der errechnete Regressionskoeffizient 

als Realisation einer Zufallsvariablen aufgefaßt werden kann, eine 

Schätzung für die Standardabweichung dieser Zufallsvariablen darstellt. Wir müssen 

uns nämlich vor Augen halten, dass die Schätzung nur auf einer Stichprobe beruht. 

Würden wir weitere Stichproben ziehen, würden sich sehr wahrscheinlich andere 

Regressionskoeffizienten ergeben, die alle mehr oder weniger vom "wahren" 

Koeffizienten abweichen würden. Die Schätzung für das Maß der Stärke dieser 

Streuung um diesen Populationsparameter lautet 

Var (b 1 ) = 

Var( 

e) 

Var( 

X )* N 

die Quadratwurzel daraus ist der Standardfehler des Regressionskoeffizienten 

SE(b 1 ) = Var b ) 

( 1 

Nunmehr ist ein t-Test möglich, um einen Schluß auf die ungefähre Lage des 

"wahren" Koeffizienten zu ziehen: 

t = 

b1 

− β1 

SE( b 1 

) 

wobei t einer t-Verteilung mit n-k Freiheitsgraden folgt. Bei N > 30 nähert sich die t- 

Verteilung der Standardnormalverteilung an (t → z). (Der griechische Buchstabe b 

zur Kennzeichnung des gemeinten Populationsparameters sollte nicht mit dem 

obigen standardisierten Regressionskoeffizienten Beta verwechselt werden.) 

Möchte man z.B. H 0 testen, dass in der Grundgesamtheit kein linearer 

Zusammenhang zwischen X und Y besteht, so setzt man β 1 = 0 und rechnet 

t = 

b − 0 

1 

SE( 

b ) 

1 

Seite - 73 -


Um diese Nullhypothese z.B. auf dem Niveau einer Irrtumswahrscheinlichkeit von 5% 

zweiseitig zu prüfen, muß man den entsprechenden kritischen t- bzw. z-Wert kennen, 

z.B. z = 1,96 auf dem 5%-Niveau. Ist der empirische t- bzw. z-Wert gleich oder 

größer als der kritische t- bzw. z-Wert, behalten wir die Nullhypothese nicht mehr bei. 

Es ist dieser t-Wert, der die Nullhypothese testet, der von SPSS ausgegeben wird, 

und zwar sowohl für b 1 als auch für die Konstante b 0 , und zwar gleich mit der 

zugehörigen Irrtumswahrscheinlichkeit („Signifikanz“) p, so dass dieser Wert direkt 

mit dem vorher definierten Alpha-Niveau (Risiko) verglichen werden kann. 

Obige t-Gleichung ist nicht nur zur Testung der Nullhypothese gut. Man kann sich 

z.B. auch fragen, ob der empirisch bestimmte b-Wert kleiner einen „wahren“ 

vorgegebenen β-Wert ist (Nullhypothese) bzw. >= diesem Wert ist 

(Gegenhypothese), z.B. für β 1 = 0,4. So gefragt würden wir einseitig fragen und der 

entsprechende z-Wert würde im Falle von 5% bei z = 1.65 liegen. Liegt der 

errechnete t- bzw. z-Wert auf oder über diesem kritischen Wert, ist die 

Nullhypothese, β 1 sei kleiner als 0,4, mit einer Irrtumswahrscheinlichkeit von 5% 

zurückzuweisen. 

Mit dem verfolgten Ansatz kann man schließlich auch einen Wertebereich 

(Konfidenzintervall) definieren, in dem der wahre Koeffizient β mit einer bestimmten 

Wahrscheinlichkeit liegen muß: 

b ± t-Wert * SE (b) 

wobei wir als kritischen t- bzw. z-Wert den zweiseitigen eines bestimmten Niveaus 

nehmen, z.B. auf dem 5%-Niveau bei großen Stichproben z = 1,96, auf dem 1%- 

Niveau z = 2,58. 

Die Grenzwerte für das 95%-Konfidenzintervall kann man sich auch von SPSS 

ausgeben lassen. Dazu drückt man im Dialogfeld auf die Taste „Statistik“ und 

danach in der erscheinenden Unterdialogtafel die Taste „Konfidenzintervalle“. Ein 

anderes %-Intervall läßt sich (zwar) nicht anklicken. Eine Berechnung ist dennoch 

möglich, wenn man die noch zu erlernende „Syntax“ verwendet. 

13.3.2.5 Vorhersagen mithilfe der Regressionsgleichung 

Wie oben bereits erwähnt, besteht ein Hauptzweck der Berechnung einer 

Regressionsgleichung anhand einer (Eich-)Stichprobe darin, für weitere, über diese 

Stichprobe hinaus auftretende Fälle den Wert Y´ aus der Kenntnis des Wertes X 

vorherzusagen, z.B. aus einem Eingangstest zu Beginn eines Lehrgangs bereits den 

Meßwert des Lehrgangsergebnisses, den eine bestimmte Person wahrscheinlich 

erhalten wird. Das geschieht dann in der Regel nicht aus Neugierde, sondern um 

gleich solche Personen vom (teuren) Lehrgang auszuschließen, die gemäß der 

Vorhersage das Lehrgangsziel wahrscheinlich nicht erreichen werden. 

Das alles geht natürlich nur unter der Annahme, dass der anhand der Stichprobe 

errechnete Regressionszusammenhang auch für die weiteren Fälle gilt, die „Eichung“ 

also anhand einer „repräsentativen“ Stichprobe stattgefunden hat. Dennoch werden 

wir grundsätzlich dem Stichprobenfehler ausgesetzt sein. 

Auch wissen wir, dass wir keinen deterministischen Zusammenhang zwischen dem 

Prädiktor X und der Kriteriumsvariablen Y berechnet haben. Die tatsächlichen Y- 

Werte der Stichprobe liegen mehr oder weniger verstreut über- und unterhalb der 

Regressionsgeraden. Ebenso werden die Werte weiterer Fälle streuen, so dass der 

geschätzte Wert Y´ nur ein Hinweis auf die Größe des zu erwartenden Y-Wertes 

Seite - 74 -


darstellt. Deshalb wird nicht einfach nur der prognostizierte Y´-Wert zur Entscheidung 

herangezogen, ob z.B. eine Person am Lehrgangs teilnehmen soll oder nicht, 

sondern ein Wertebereich (Intervall), indem der „wahre“ Y-Wert bei bereits 

gegebenem X-Wert mit einer bestimmten Wahrscheinlichkeit liegen wird. Zur 

Berechnung dieses Bereiches kann man im Falle der einfachen linearen Regression 

die folgende Formel verwenden: 

b 0 + b 1 * X 0 ± t-Wert * Var (e) 

* 

2 

1 ( X − X ) 

1+ 

+ 

N Var( 

X) *( N −1) 

Einzusetzen ist der t- bzw. z-Wert des gewünschten Signifikanzniveaus, für den 

zweiseitigen Test. 

X 0 ist der Wert des Prädiktors, für den der zugehörige Wert von Y prognostiziert 

werden soll. 

Diese Formel ist nicht ohne weiteres auf die unten betrachtete Multiple Regression 

(mehr als einen Prädiktor) übertragbar. Dazu sind Kenntnisse der Matrizenrechnung 

notwendig. 

13.3.3 Zeichnung der Regressionsgeraden 

Graphiken fi Streudiagramm fi Einfach fi Definieren 

Folgt man diesem Pfad, so wird das Dialogfeld „Einfaches Streudiagramm“ 

aufgerufen. 

Abb. 62: Einfaches Streudiagramm 

Hier wählen wir die UV X und die AV Y aus bei gleichnamiger Achsenbezeichnung. 

Nach der Betätigung des Buttons OK erscheint ein Streudiagramm, das uns den 

Zusammenhang zwischen X und Y zeichnerisch anhand der Fälle darstellt. 

Seite - 75 -


120 

110 

100 

90 


80 

70 

60 

60 

70 

80 

90 

Puls der VP ohne Belastung 

Abb. 63: Streudiagramm 

Wenn man ein Diagramm erstellt hat, kann man dies mithilfe des Graphik-Editors in 

verschiedener Weise bearbeiten. Um die Regressionsgerade in diese Punktwolke 

hineinzulegen, klicken wir zweimal auf die Graphik. Darauf erscheint das folgende 

Dialogfeld: 

Abb. 64: Optionen für Streudiagramme 

Hier klicken wir die Taste „Gesamt“ an, worauf unmittelbar darunter die Taste 

„Anpassungs-Optionen“ erscheint. Wenn wir sie betätigen, eröffnet sich das folgende 

Dialogfeld: 

Abb. 65: Optionen für Streudiagramm: Anpassungslinie 

Hier wählen wir die „Lineare Regression“ aus, evtl. greifen wir auch noch weitere 

Möglichkeiten auf. Drücken wir auf „Weiter“ und danach auf OK, so erscheint die 

folgende Graphik: 

Seite - 76 -


90 

80 

Puls der VP ohne Belastung 

70 

60 

60 

70 

80 

90 

100 

110 

120 


Abb. 66: Streudiagramm mit der Regressionsgeraden 

Die Stärke des durch das Streudiagramm gezeichneten und als linear 

angenommenen Zusammenhangs wird durch den Produkt-Moment- 

Korrelationskoeffizienten berechnet. Er beschreibt die Anpassungsgüte der durch die 

X-Y-Koordinaten beschriebenen Punkte an ihre zugehörige Regressionsgerade. 

Diese wiederum ist eindeutig bestimmt durch die Eigenschaft, dass sie unter allen 

möglichen Geraden diejenige ist, von der alle Punkte am wenigsten abweichen. 

Dazu muß die Summe der vertikalen Abstände aller Punkte von dieser Geraden 

gleich Null und die Summe der quadrierten vertikalen Abstände ein Minimum sein. 

13.4 Multiple Regression 

13.4.1 Erweiterung der einfachen Regression zur Multiplen Regression 

Bei einer Multiplen Regression haben wir wiederum eine AV, nun aber mehrere UV´s 

(Prädiktoren). Die Rohwerte-Regressionsformel hat jetzt folgende Gestalt 

Y´ = b 1 X 1 + b 2 X 2 + ... + b k X k + b 0 

bzw. in standardisierter Form 

z y´ = β 1 z x1 + β 2 z x2 + ... + β k z xk 

Im Falle von missing data wählen wir unter Optionen den fallweisen Ausschluß, um 

sicherzustellen, dass alle Korrelationen auf der Basis desselben N gerechnet 

werden. Fallweiser Ausschluß heißt, dass ein Fall, eine Person, nicht in die Analyse 

aufgenommen wird, wenn bei ihr in mindestens einer der aus der Rohdatenmatrix 

ausgewählten Variablen (Prädiktoren und AV) ein Wert fehlt. 

Die Anschaulichkeit der mithilfe des zweidimensionalen Streudiagramms erläuterten 

Regression mit nur einem Prädiktor geht bei mehreren Prädiktoren z.T. verloren. 

Dennoch sind alle Überlegungen im Prinzip auf den Fall mit mehreren Prädiktoren 

übertragbar. Entsprechend verändert sich der Output kaum. So finden wir die 

Multiple Korrelation R wieder, die wieder in der Korrelation zwischen den jetzt aus k 

Prädiktoren geschätzten Y´-Werten und den gemessenen Y-Werten besteht. R 2 als 

Seite - 77 -


Determinationskoeffizient gibt entsprechend den Anteil der Varianz von Y an, der 

durch die k Prädiktoren linear aufgeklärt wird. 

Im Multiplen Fall besteht leicht die Versuchung, ein möglichst hohes R 2 dadurch zu 

erreichen, dass man möglichst viele Prädiktoren in die Vorhersage gibt; denn R 2 kann 

sich nur erhöhen, wenn weitere Prädiktoren noch weitere Varianzanteile von Y 

aufklären. Ein gewissen Schutz davor soll das korrigierte R 2 bieten, bei dessen 

Berechnung zusätzlich die Anzahl der k Prädiktoren eingeht (wobei die Konstante 

mitzuzählen ist): 

korr. R 2 = 1- 

RSS /( N − k) 

TSS /( N −1) 

Erhöht nun ein weiterer Prädiktor ESS und verringert er damit RSS, so erhöht sich 

durch diese Verringerung einerseits das korrigierte R 2 , andererseits wird es aber 

durch die Erhöhung von k verringert. 

Der weitere Output bedarf keiner weiteren Erläuterung mehr. 

13.4.2 Vergleichbarkeit von Regressionskoeffizienten 

Es wird darauf aufmerksam gemacht, dass die b-Koeffizienten der Rohwertformel 

nicht in ihrer Höhe miteinander vergleichbar sind, also nicht gesagt werden kann, 

dasss der eine Prädiktor mehr zur Vorhersage des Kriteriums beiträgt als ein 

anderer. Die Vergleichbarkeit ist nicht gegeben, da in diesen Koeffizienten noch die 

zur Messung des jeweiligen Prädiktors verwendete Skala/Dimension steckt. 

Dagegen gestatten die β-Koeffizienten der standardisierten Prädiktoren prinzipiell 

einen solchen Vergleich; „prinzipiell“ deswegen, weil diese Aussage nur dann gilt, 

wenn die Prädiktoren nicht miteinander korrelieren, also keine „Multikollinearität“ 

vorliegt (vgl. den nächsten Abschnitt). 

Die Beta-Koeffizienten lassen sich aud den b-Koeffizienten auch wie folgt berechnen: 

β i = b i * 

s 

X i 

s 

Y 

wobei s Xi und s Y die Standardabweichungen des Prädiktors X i bzw. des Kriteriums Y 

darstellen. 

13.4.3 Prüfung auf Multikollinearität 

(Multi-)Kollinearität liegt vor, wenn zwischen zwei oder mehrere Prädiktoren deutliche 

Korrelationen bestehen. Genauer läßt sich bei perfekter Kollinearität ein Prädiktor 

aus einem anderen Prädiktor oder aus einer Kombination mehrerer anderer 

Prädiktoren über eine lineare Gleichung exakt vorhersagen. In einem solchen Fall 

kann die gewünschte Regressionsgleichung nicht geschätzt werden. SPSS schließt 

dann eine der betroffenen Prädiktoren aus dem Regressionsmodell aus. 

Erfahrungsgemäß kommt so etwas immer wieder vor, weil der Datensatz nicht 

wirklich gecheckt wurde, so dass z.B. zwei Prädiktoren zu 1 miteinander korrelieren. 

Der Grund liegt dann nicht etwa darin, dass die beiden Variablen tatsächlich in der 

Wirklichkeit zu 1 korrelieren, was sehr unwahrscheinlich ist, sondern weil 

Fehlplanungen diese Systematik zur Folge hatten. 

Liegt eine hohe, jedoch keine totale Kollinearität vor, kann die Schätzung der 

Regressionsgleichung durchgeführt werden. Allerdings werden die b- bzw. β- 

Seite - 78 -


Koeffizienten dann nicht mehr zuverlässig geschätzt. Der Koeffizient des einen 

Prädiktors kann dann z.B. überschätzt, der des anderen unterschätzt werden, auch 

wenn der gemeinsame Einfluß der Prädiktoren auf die Kriteriumsvariable noch richtig 

geschätzt wird. 

Man kann die Variablen, die man als unabhängige in das Regressionsmodell 

aufnehmen möchte, bereits vor der Regressionsrechnung auf Kollinearität prüfen, 

indem man im Dialogfeld „Statistik“ die Option „Deskriptive Statistik“ anklickt. Es wird 

dann eine Korrelationsmatrix zwischen diesen Prädiktoren berechnet. Sollten zwei 

Variablen dann sehr hoch miteinander korrelieren, sollte überlegt werden, ob nicht 

eine von beiden aus der Regression herausgenommen werden sollte. Sollten sich 

keine hohen Korrelationen beobachten lassen, darf daraus jedoch nicht auf keine 

Kollinearität geschlossen werden, da auch zwischen Kombinationen mehrerer 

Variablen ein linearer Zusammenhang bestehen kann. 

Mit SPSS können mehrere spezielle Kollinearitätsmaße berechnet werden. Man 

wählt dazu im Dialogfeld „Statistiken“ die Option „Kollinearitätsdiagnose“. Dann 

kommen zu der Tabelle „Koeffizienten“ des Outputs noch zwei weitere Spalten hinzu: 

Die Spalte „Toleranz“ meint 

2 

Toleranz i = 1 – R i 

2 

wobei R i den Korrelationskoeffizienten bezeichnet, der sich ergibt, wenn der i-te 

Prädiktor durch die übrigen Prädiktoren erklärt wird. Ist er sehr hoch, wird die 

Toleranz sehr klein sein, was dann auf das Vorliegen von Kollinearität deutet 

(Toleranz etwa < 0,1). 

Die Spalte VIF (Variance Inflation Factor) stellt nur den Kehrwert der Toleranz dar. 

Des weiteren wird noch eine Tabelle ausgegeben, die mit „Kollinearitätsdiagnose“ 

überschreiben ist. Wir erläutern sie nicht, da hierzu Kenntnisse der Matrizenrechnung 

notwendig sind. 

13.4.4 Methoden der Auswahl von Prädiktoren 

Der Normalfall ist, dass alle benannten Prädiktoren simultan in die 

Regressionsgleichung aufgenommen werden (METHODE: ENTER). Soll davon 

abgewichen werden, so können die Prädiktoren 

a) in Blöcke aufgespalten werden, die dann der Reihe nach in die 

Regressionsgleichung aufgenommen werden. Ein Block besteht aus einer Reihe 

von Prädiktoren. Hat man einen ersten Block eingegeben, so leuchtet „Block 1 

von 1“ und die Taste „Weiter“ auf. Betätigt man diese, kann man einen weiteren 

Block eingeben. Wir verfolgen diese Möglichkeit hier nicht weiter, d.h. wir gehen 

im Folgenden von der Eingabe nur eines Blocks aus. 

b) innerhalb eines Blockes schrittweise nach bestimmten Methoden in die 

Regressionsgleichung aufgenommen oder aus ihr entfernt werden. Die Aufnahme 

oder Entfernung wird dabei nach bestimmten statistischen Kriterien (F-Test) 

vorgenommen, die unter OPTIONEN ausgewählt werden können. Folgende 

Methoden stehen zur Verfügung: 

i. EINSCHLUß (ENTER): Alle Prädiktoren eines Blocks werden simultan 

aufgenommen (1 Schritt). Diese ist die voreingestellte Methode. 

ii. AUSSCHLUß (REMOVE): Alle Prädiktoren eines Blocks werden simultan 

ausgeschlossen (1 Schritt). Diese Option ist nur sinnvoll, wenn mehr als ein 

Block angegeben wurde. 

Seite - 79 -


iii. 

RÜCKWÄRTS (BACKWARD): Die Prädiktoren werden von SPSS (pro Block) 

darauf geprüft, ob sie in der Regressionsgleichung, die zunächst mit allen 

Prädiktoren berechnet worden ist, verbleiben sollen. Bei jedem Schritt wird 

derjenige Prädiktor ausgeschlossen, 

1. der den kleinsten partiellen Korrelationskoeffizienten mit der AV aufweist und 

2. dessen zugehöriger Regressionskoeffizient nicht signifikant ist. Das 

zugehörige Signifikanzniveau ist mit 0.10 voreingestellt. Es kann über 

OPTIONEN verändert werden. 

iv. 

VORWÄRTS (FORWARD): Hier wird pro Block, startend mit dem Prädiktor 

mit der höchsten partiellen Korrelation zur AV, bei jedem Schritt derjenige 

Prädiktor als ein weiterer in die Regression aufgenommen, der von allen noch 

nicht einbezogenen Prädiktoren die größte partielle Korrelation mit der AV 

aufweist. Die Einbeziehung findet jedoch nur dann statt, wenn 

• der Wert der minimalen Toleranz größer ist als der voreingestellte 

erlaubte Toleranzwert von 0.0001. „Minimale Toleranz“ meint dabei 

eine Kollinearitätsdiagnose (vgl. den vorhergehenden Abschnitt). 

• zusätzlich der ermittelte zugehörige Regressionskoeffizient, der sich 

durch die Einbeziehung in die Regression ergeben würde, signifikant 

von Null verschieden ist. Das für diesen Signifikanztest voreingestellte 

Signifikanzniveau ist 0.05. Es kann über OPTIONEN verändert werden. 

v. SCHRITTWEISE (STEPWISE): Bei dieser Wahlmöglichkeit wird zunächst 

eine erste UV nach dem oben angegebenen Forward-Kriterium in die 

Regression aufgenommen. Sofort danach werden aber alle bislang 

aufgenommenen UV`s nach dem oben angegebenen Backward-Kriterium 

untersucht. Die UV´s, die aufgrund dieses Kriteriums aus der Regression 

ausgeschlossen werden, stehen beim nachfolgenden Schritt wieder für eine 

Einbeziehung nach dem Forward-Kriterium zur Verfügung. Als maximale Zahl 

für solche Forward-Backward-Schritte ist das Doppelte der Zahl der UV´s 

angesetzt. Eigentlich aber sollte diese Stepwise-Regression zuvor damit 

enden, dass für keinen Prädiktor mehr die Notwendigkeit des Ausschlusses 

und für keinen Prädiktor mehr die Möglichkeit der Aufnahme existiert. 

Es muß davor gewarnt werden, diesen automatischen Auswahlverfahren und ihrem 

hauptsächlichen Kriterium, der Signifikanz des Regressionskoeffizienten, das 

scheinbar eine objektive Auswahl vornimmt, blind zu vertrauen. Überhaupt ist sehr oft 

eine fälschliche Anwendung des Regressionsmodells zu beobachten. Um dem 

vorzubeugen, sollte unbedingt vor der Anwendung eine inhaltliche Theorie entwickelt 

werden, die gezielt (geleitet aufgrund inhaltlicher Hypothesen) das Verfahren 

einsetzt. Man vermeidet dann blindes Herumstochern in den Daten („Snooping in the 

data“). 

Seite - 80 -


13.4.5 Diagramme (Plots): Prüfung der Residuen 

Klickt man im Dialogfeld LINEARE REGRESSION die Taste DIAGRAMME an, so 

öffnet sich das folgende neue Dialogfeld: 

Abb. 67: Lineare Regression: Diagramme 

Dieses Feld dient vor allem zur grafischen Überprüfung von Voraussetzungen der 

linearen Regression. Es bedeuten 

DEPENDENT 

Werte der abhängigen Variablen 

*ZPRED Standardisierte vorhergesagte Werte 

*ZPRESID Standardisierte Residuen 

*DRESID Ausgeschlossene Residuen 

*ADJPRED Korrigierte vorhergesagte Werte 

*SRESID Studentisierte Residuen 

*SDRESID Studentisierte ausgeschlossene Residuen 

a) Prüfung der Linearitätsannahme: Z.B. sollte grundsätzlich überprüft werden, ob 

die angenommene lineare Beziehung auch tatsächlich haltbar ist. Dazu kann ein 

Streudiagramm erstellt werden, in dem die Beziehung zwischen den 

standardisierten Vorhersagewerten (*ZPRED) und den standardisierten Residuen 

(*RSESID), definiert als standardisierte Differenz zwischen den tatsächlichen 

Werte Y und den Vorhersagewerten Y´, dargestellt wird. Testfrage: Welche 

Anordnung der Punkte sollte sich ergeben? Woran kann man erkennen, dass 

keine lineare Beziehung vorliegt? 

b) Prüfung der Normalverteilungsannahme: Eine zentrale Forderung des 

Regressionsmodells besteht darin, dass die Residuen, also die Fehler der 

Schätzung, nicht nur zufällig auftreten sollten, sondern zudem einer 

Normalverteilung (NV) folgen sollten. Mit NORMALVERTEILUNGSDIAGRAMM 

kann man ein Verteilungsdiagramm aufrufen, in welchem die empirisch ermittelte 

kumulierte Verteilung der standardisierten Residuen (*ZRESID) der zu 

erwartenden kumulierten Häufigkeitsverteilung unter der Annahme der NV 

gegenüber gestellt wird. Testfrage: Wie müssen die ausgegebenen Werte 

angeordnet sein, wenn die Voraussetzung der NV erfüllt sein sollte? 

Zur Überprüfung der NV kann auch die Ausgabe eines Histogramms der 

standardisierten Residuen dienen, das durch HISTOGRAMM abgerufen werden 

kann. In das Histogramm wird eine NV eingezeichnet. 

Seite - 81 -


Zur Erinnerung: 

Unter den Residuen einer Regressionsschätzung verstehen wir die Differenzen 

zwischen den tatsächlich beobachteten und den durch die Regressionsgleichung 

geschätzten Werten der AV. Das zu einem bestimmten Fall gehörende Residuum ist 

also Ausmaß, um den die Regressionsschätzung den tatsächlichen Wert verfehlt hat. 

Entsprechend wird die quadrierte Summe der Residuen zur Berechnung von R 2 

(Determinationskoeffizient, Bestimmtheitsmaß) verwendet, das damit einen Indikator 

für die Güte der Anpassung der Regressionsgleichung an die empirischen Werte 

darstellt. (R 2 gibt den Anteil der Gesantvariation von Y an, der durch einbezogenen 

Prädiktoren aufgeklärt wird.) 

Eine zentrale Forderung des Regressionsmodells besteht darin, dass die Residuen, 

also die Fehler der Schätzung, zufällig auftreten müssen, d.h. keinem 

systematischen Muster folgen dürfen. Sollte Letzteres der Fall sein, deutet das 

darauf hin, daß das geschätzte Modell falsch ist, da es nicht sämtliche Aspekte zur 

Erklärung der AV beinhaltet. Die „Falschheit“ kann daran liegen, dass weitere 

erklärende UV´s (Prädiktoren) nicht mit einbezogen wurden, aber auch an der 

gewählten linearen Funktion liegen (Prüfung der Linearitätsannahme siehe oben). 

13.4.6 Kreuzvalidierung 

Ein Hinweis darauf, wie stabil Regressionsvorhersagen sind, kann man mithilfe einer 

Kreuzvalidierung erhalten. Hierbei bestimmt man zwei Regressionsgleichungen 

aufgrund von zwei Teilstichproben und verwendet die Regressionsgleichung der 

jeweils einen zur Vorhersage der Kriteriumsvariablen der jeweils anderen. Die 

Korrelation der so vorhergesagten Kriteriumsvariablen mit den tatsächlich 

gemessenen Ausprägungen dieser Variablen informiert über die Stabilität der 

Regressionskoeffizienten (-gewichte). 

Um bei SPSS eine Kreuzvalidierung durchzuführen, muß mithilfe der an einer 

ersten Stichprobe berechnete Vorhersagegleichung eine neue Variable Y´ erzeugt 

werden. das geschieht mithilfe des bereits bekannten Befehls Transformieren à 

Berechnen. Dort wird als Zielvariable der Name der neuen Variablen eingegeben 

und unter „Numerischer Ausdruck“ die berechnete Rohwerte-Regressionsgleichung. 

Die Korrelation der neuen Variablen Y´ mit der beobachteten Variablen Y der zweiten 

Stichprobe gibt dann an, wie gut die an der ersten Stichprobe gewonnenen 

Regressionsgewichte zur Vorhersage in der zweiten Stichprobe geeignet sind. 

Anschließend wird das Verfahren wiederholt, indem jetzt die Regressionsgleichung 

anhand der zweiten Stichprobe aufgestellt wird und in der ersten Stichprobe 

eingesetzt wird zwecks Korrelation der nun dort mit ihr vorhergesagten Y´-Werte mit 

den tatsächlich beobachteten Werten. 

Die so erhaltenen beiden Korrelationskoeffizienten sind Multiple Korrelationen. Ihr 

Vergleich informiert über die Stichproben-Abhängigkeit dieser Koeffizienten. 

Seite - 82 -


14 Syntax 

14.1 Zwei Möglichkeiten, SPSS Anweisungen zu geben 

a) Die bislang gelernte Möglichkeit zum Aufruf eines Befehls besteht darin, diesen in einem 

Menü aus der Menüleiste auszuwählen und ihn anschließend in einem oder mehreren 

Dialogfeldern näher zu spezifizieren. Die Taste OK veranlaßt SPSS, den spezifizierten 

Gesamtbefehl auszuführen. 

b) Neben dieser Menütechnik bietet SPSS jedoch auch die Möglichkeit, Befehle mit Hilfe 

einer speziellen Befehlssprache aufzurufen. Hierzu müssen die Befehle in einer speziellen 

Steuer-Kommando-Sprache (Befehls-Satzlehre bzw. -syntax) formuliert und in dieser 

Form in eine Syntaxdatei geschrieben werden. Anschließend können sie aufgerufen und 

damit ausgeführt werden. 

Diese zweite Form der Befehlseingabe ist die ursprüngliche, und die bislang von uns benutzte 

und heute hauptsächliche Form der Befehlseingabe durch Anklicken ist ihr erst nachträglich 

übergestülpt worden. Immer noch ist es so, dass alle angeklickten Anweisungen in Kommandos 

der Befehlssyntax übersetzt und erst diese von SPSS ausgeführt werden. SPSS „versteht“ 

nur diese in seiner Befehlssyntax geschriebene Sprache. 

Die Umsetzung der ursprünglichen Steuersprache in ein (Anklick-)Menüsystem hat für den 

Benutzer den großen Vorteil, dass der Benutzer nicht mehr diese aus einer Unzahl von 

Befehlen bestehende SPSS-Befehls-Sprache zu erlernen braucht. Die gewünschten Befehle 

werden einem über das Menü bzw. Dialogfenster quasi „im Klartext“ angeboten, so dass die 

Befehlseingabe ohne den Zwischenschritt einer speziell zu erlernenden Kommandosprache 

geschehen kann. Zudem brauchen die Befehle nicht mehr zeitraubend eingetippt zu werden, 

es genügt ein Anklicken. 

Eigentlich scheint also eine Betrachtung oder gar Verwendung der unter der Anklick-Oberfläche 

(immer noch) agierenden Befehlssprache nicht notwendig zu sein. Es sind jedoch hauptsächlich 

zwei Situationen, in denen es notwendig oder ökonomischer sein kann, Befehle in 

der alten Kommandosprache einzugeben: 

a) Bestimmte Operationen oder Optionen sind nur über die Kommandosprache möglich. Für 

viele Befehle können zusätzliche Parameter eingeben werden, die in den entsprechenden 

Dialogfeldern nicht zur Verfügung stehen. 

b) Es gibt Situationen, in denen das Anklicken sehr umständlich ist und dadurch auch 

unübersichtlich wird, so dass eine Fehlanweisung immer wahrscheinlicher wird, z.B. bei 

umfangreichen Anweisungen zur Generierung, Tranformierung oder Rekodierung von 

Variablen. Dann kann die direkte sprachliche Eingabe die einfachere Möglichkeit sein. 

Sollte eine dieser beiden Situationen vorkommen, so wird man doch nicht auf den großen 

Vorteil des Befehle-Anklickens verzichten wollen. Vielmehr wird man in der Regel eine 

Mischung beider Möglichkeiten der Befehlseingabe wählen. Zunächst wird man einen 

meistens hauptsächlichen Teil der Anweisungen über die Menü- und Dialogfenster per 

Anklicken vornehmen und danach über die Taste 

EINFÜGEN 

zum sog. Syntaxfenster hinüberwechseln, um die dort in der Kommandosprache ausgeschriebenen 

Anweisungen (Syntaxdatei) noch zu ergänzen. Einfügen meint dabei Einfügen der 

Folge der angeklickten Befehle in eine (neue oder schon bestehende) Syntaxdatei. Mit dem 

Überwechseln aktiviert man gleichzeitig den Syntax-Editor, d.h. man kann die Befehle der 

Syntaxdatei löschen, verändern oder neue hinzufügen. Man kann die Datei auch speichern 

und erst später ausführen lassen, d.h. man hat Befehlssequenzen/Protokolle der durchgeführten 

Rechnungen. 

Seite - 83 -


Übung: Bitte überzeugen Sie sich durch Anklicken verschiedenster Datentranformationen 

und Rechnungen, die Sie schon kennen, dass Befehle, die Sie anklicken, tatsächlich im 

Syntaxfenster in geschriebener Form stehen. Wechseln Sie dazu jeweils mit Hilfe der Taste 

EINFÜGEN 

in das Syntaxfenster über, und zwar bevor Sie die Taste OK drücken, d.h. wünschen Sie nicht 

(unnötig) die Ausführung der angeklickten Befehle. 

Studieren Sie die Syntax-Befehle. Versuchen Sie sie zu verstehen! Sie müssen sie jedoch 

nicht auswendig lernen. Es genügt geistiges Nachvollziehen und Erklären-können der zuvor 

angeklickten Befehle. Das ist in der Regel möglich. 

Wenn man so nacheinander verschiedene Rechnungen zusammenstellt, wird mit dem 

Einfügen einer ersten Rechnung ein (erstes) Syntax1-Fenster aufgemacht und es werden alle 

weiteren Rechnungen nacheinander in dieses hineingeschrieben. Um aus dem Syntax-Fenster 

jeweils in das Daten-Editor-Fenster zurückzukehren, klickt man einfach auf dieses. Beim 

zweiten und weiteren Einfügen erscheint das Syntax-Fenster allerdings nicht mehr von selbst. 

Sie können es aufrufen, indem Sie mit dem Cursor auf die Grundleiste gehen. 

Wenn man die so zusammengestellten verschiedenen Rechnungen ausführen möchte, kann 

man das tun, indem man auf 

AUSFÜHREN 

klickt. Das danach erscheinende Menu versteht sich von selbst. Auswählen kann man auch 

durch Markieren (Ziehen mit der linken Maustaste). Wählen Sie nur ganze Befehle. 

14.2 Syntax-Fenster 

Insgesamt kann man eine (neue oder eine weitere) Syntaxdatei auf mindestens drei Arten 

anlegen: 

a) So wie eben bereits beschrieben, also mit einem ersten Einfügen-Befehl. 

b) Automatisch beim Start von SPSS. Man muß dann nur für eine entsprechende Voreinstellung 

sorgen, in dem man BEARBEITEN fi OPTIONEN wählt. 

Abb. 68: Optionen 

und in diesem Fenster die Möglichkeit „Syntax-Fenster beim Start öffnen“ und OK 

betätigt, so dass zukünftig, d.h. bei jedem erneuten Start von SPSS, automatisch ein 

Syntax-Fenster eingerichtet wird. Bevor in dieses etwas eingefügt wird, ist es natürlich 

noch leer. 

c) Während einer bereits laufenden SPSS-Sitzung. Dann wählt man die Befehlskette 

DATEI fi NEU fi SYNTAX 

Seite - 84 -


Wenn man das mehrere Male macht, werden nacheinander viele Syntax-Fenster angelegt, 

also Syntax1, Syntax2, Syntax3, ... . Dabei wird auch weitergezählt, wenn man einige 

schon wieder gelöscht hat. Nur eins dieses Fenster ist dabei das jeweils aktuelle. Über die 

Leiste unten können Sie jeweils bestimmen, welches es sein soll. Bestimmen Sie nichts, 

ist es das jeweils letzte. 

Diese 3. Möglichkeit interssiert uns hier weniger. Sie wird vor allem gewählt, wenn man 

nicht mithilfe des Anklickens SPSS-Programme schreiben möchte, sondern direkt solche 

Programme schreiben möchte, weil man (noch) die SPSS-Programmsprache kennt. 

Studierende, die studierten, bevor SPSS das Anklicksystem einführte, hatten sie noch zu 

erlernen. 

Den Inhalt von Syntax-Fenstern kann man auch speichern. Das geht in der bekannten Weise, 

indem man in der obersten Zeile des Fensters 

DATEI usw. aufruft. Man kann sie dann wie jede Datei später auch wieder öffnen, indem 

man im Daten-Editor-Fenster die Sequenz 

DATEI fi ÖFFNEN fi SYNTAX 

eingibt. Das und Weiteres braucht hier nicht erklärt zu werden. 

14.3 Die Journal-Datei 

Wie gesagt werden standardmäßig alle Anforderungen, die während eines Dialogs mit dem 

SPSS-System zur Ausführung gelangen, intern in Kommandos umgeformt. Diese Kommandos 

werden auch dann, wenn man kein Syntax-Fenster angelegt hat, in einer Journal-Datei 

gespeichert, die den voreingestellten Namen „spss.jnl“ trägt und im Home-Verzeichnis 

eingetragen ist (bei SPSS unter Windows meistens im Unterordner C:\Windows\Temp). Bei 

dieser Übertragung wird jedes neue Kommando an den bisherigen Inhalt der Datei angefügt. 

Dies bedeutet, dass diese Datei sämtliche Befehle beinhaltet, die seit Installationsbeginn von 

SPSS gestellt worden sind. Dadurch kann die Datei schon sehr lang geworden sein. 

Soll dagegen der jeweilige Inhalt der Journal-Datei zu Beginn eines neuen Dialogs gelöscht/überschrieben 

werden, so ist im zuletzt aufgerufenen Dialogfenster OPTIONEN die 

Möglichkeit "Überschreiben" zu aktivieren und der Inhalt des Fensters durch OK zu bestätigen. 

Um nicht unnötig Speicherplatz auf der Festplatte zu reservieren, sollte man diese 

Voreinstellung wählen. 

14.4 Syntax-Befehle in der Ausgabedatei 

Mit BEARBEITEN à OPTIONEN à VIEWER können Sie SPSS veranlassen, dass beim 

Ausführen eines Befehls in der Ausgabedatei den eigentlichen Ergebnissen der Befehl in 

Syntaxform vorangestellt wird, wenn Sie 

"Befehle im Log anzeigen" aktivieren. Sollte das schon bei Ihnen der Fall sein und möchten 

Sie das nicht mehr haben, so deaktivieren Sie entsprechend. 

14.5 Syntax von SPSS-Kommandos 

14.5.1 Syntaxdiagramme 

Dieses Papier soll nicht zum Schreiben kompletter SPSS-Syntaxdateien befähigen. Das soll 

daher im EDV-Kurs auch nicht verlangt werden. Es soll aber darum gehen, angeklickte 

Befehle in einer benötigten Weise verändern bzw. ergänzen zu können. Die Teilnehmer 

des EDV-Seminars sollten wissen, dass statistische Rechnungen, die man ausgehend von 

einer Untersuchung und aufgestelltem Untersuchungs- und Auswertungsplan fordert, 

doch möglich sein können, auch wenn sie nicht anklickbar sind. Was bei einem SPSS- 

Seite - 85 -


Befehl über sein bloßes Anklicken hinaus noch möglich bzw. überhaupt möglich ist, zeigen 

die Syntax-Diagramme der einzelnen Befehle. Es lohnt sich, diese immer dann zu studieren, 

wenn mit dem bloßen Anklicken nicht die Rechnungen erreicht werden können, die man sich 

wünscht, oder wenn man sich fragt, "ob das nicht weniger umständlich geht". Auf keinen Fall 

sollte man sofort sagen, dass „SPSS das nicht kann“, nur weil etwas nicht anklickbar ist. 

Ein Syntaxdiagramm zeigt die formale Struktur eines jeweiligen Befehls auf, also jener Befehls, 

die Sie bereits angeklickt haben und zu dessen Syntax mit der EINFÜGEN-Taste 

hinüber gewechselt werden kann. An der formalen Struktur eines Befehls lassen sich 

sämtliche notwendigen sowie optionalen Unterbefehle sowie alle zulässigen Angaben zu den 

einzelnen Unterbefehlen ablesen. Aufrufen tut man diese formale Struktur bzw. das Syntaxdiagramm 

eines Befehls, indem man den Cursor in einen über das Syntaxfenster 

ausgegebenen Befehl stellt und anschließend die Taste „Hilfe zur Syntax" in der Knopf- 

Leiste darüber betätigt. (Das Bild auf der Taste deutet die Syntax-Struktur eines Befehls an.) 

Wenn Sie dies nun einmal probeweise bei einem von Ihnen angeklickten und im Syntax- 

Fenster aufgelisteten Befehl tun, dann erschrecken Sie bitte nicht gleich angesichts der (nur 

auf den ersten Blick verwirrend) formalen Syntax-Struktur des betreffenden Befehls. Sie wird 

in den nächsten Abschnitten erläutert. 

Vor allem aber gilt folgender Rat: 

Klicken Sie immer auch in dem neuen Fenster "See Also" an und die weiteren Möglichkeiten, 

die sich danach eröffnen. Sie erhalten dadurch eine genaue Beschreibung des Gesamtbefehls 

sowie aller seiner Unterbefehle und sonstigen Möglichkeiten, die er bietet. Vor allem erhalten 

Sie so auch recht genaue Informationen über das, was Sie schon errechnet haben bzw. 

errechnen werden! 

Zusammen mit dem anderen wichtigen Tipp, nämlich vor dem Anklicken einer Taste in 

einem Dialogfeld die rechte Maustaste zu drücken zwecks Info, was Sie damit eigentlich 

befehlen, nutzen Sie das Hilfesystem von SPSS elegant aus. Sie brauchen so nämlich kein 

teures Buch über SPSS. SPSS sagt Ihnen auf diese beiden Weisen eigentlich alles, oft 

sogar die statistischen Hintergründe, d.h. oft bereits die Antworten auf Fragen, die Ihnen 

bei der kleinen EDV-Prüfung gestellt werden könnten. Probieren Sie das aus! Sie werden 

angenehm überrascht sein! 

14.5.2 Syntaxregeln 

Die Elemente der SPSS-Programmsprache kann man in die folgenden Kategorien einteilen. 

• Befehl (Kommando): Eine Anweisung, die den Ablauf von SPSS steuert. 

• Unterbefehl: Eine Zusatzanweisung zu einem SPSS-Befehl. Ein Befehl kann mehrere 

Unterbefehle haben. 

• Spezifikationen: Angabe, die einem Befehl oder einem Unterbefehl zugefügt werden. 

Spezifikationen können Schlüsselwörter, Zahlen, arithmetische Operatoren, Variablennamen 

und spezielle Trennzeichen enthalten. 

• Schlüsselwörter: Ein bestimmtes Wort, das in der SPSS-Syntax vorkommt und mit einer 

bestimmten Bedeutung belegt ist. Es können also die Wörter für bestimmte Befehle, 

Unterbefehle oder auch bestimmte Spezifikationen sein. Da die Bedeutung dieser Wörter 

a priori von SPSS festgelegt ist, dürfen sie nicht in anderer Bedeutung verwendet werden, 

z.B. als Name für eine Variable. Wir werden diese Wörter, die den Sprachschatz von 

SPSS darstellen, im Folgenden groß schreiben. (In der SPSS-Literatur wird der Begriff 

„Schlüsselwort“ nicht einheitlich verwendet. Oft wird er nur im Zusammenhang mit 

Spezifikationen gebraucht.) 

Beispiel: 

Seite - 86 -


CORRELATIONS 

/VARIABLES=alter depression intelligenz konzentration 

/PRINT=TWOTAIL SIG 

/MISSING=LISTWISE . 

CORRELATIONS ist ein Befehl. VARIABLES, PRINT und MISSING sind Unterbefehle. 

Dem Unterbefehl VARIABLES folgen Variablennamen, die Spezifikationen des Unterbefehls 

darstellen, jedoch keine (a priori reservierten) Schlüsselwörter sind. Dagegen folgen den 

Unterbefehlen PRINT und MISSING Spezifikationen in Form von Schlüsselwörtern. 

Beim Editieren der Befehlssyntax sind folgende einfache Regeln zu beachten: 

• Jeder Befehl muß am Anfang einer neuen Zeile beginnen und mit einem Punkt enden. 

• Ein Befehl kann sich über beliebig viele Zeilen erstrecken. 

• Unterbefehle werden in der Regel mit einem Schrägstrich voneinander getrennt. Vor dem 

ersten Unterbefehl kann der Schrägstrich auch weggelassen werden. 

• In Apostrophe gesetzter Text (bei Labels) muß sich auf einer Zeile befinden. 

• Eine Zeile darf nicht mehr als 80 Zeichen (Anschläge) haben. 

• Als Dezimaltrennzeichen in Spezifikationen muß ein Punkt verwendet werden. 

• Groß- und Kleinbuchstaben werden nicht unterschieden (außer in in Apostrophe gesetzten 

Text). 

• Das Einfügen von Leerzeichen oder der Beginn einer neuen Zeile ist an jedem Punkt 

erlaubt, wo ein einzelnes Leerzeichen erlaubt ist. 

• Bei Programmdateien, die im "Produktionsmodus" (Begriff in diesem SPSS-Papier nicht 

erklärt) laufen sollen, müssen die Fortsetzungszeilen eines Befehls um mindestens ein 

Leerzeichen eingerückt sein. 

14.5.3 Interpretation eines Syntaxprogramms 

Z.B. gibt es einen Befehl, mit dem für eine, mehrere oder sämtliche Variablen aus der 

Datendatei fehlende Werte definiert werden können. Das Syntaxdiagramm dieses Befehls 

lautet 

MISSING VALUES {varlist} (value list) [ [ / ] {varlist} . . . ] 

{ALL } {ALL } 

Diesem Syntaxprogramm ist zu entnehmen: 

Neben dem Befehl MISSING VALUES sind die Variablen anzugeben (varlist), für die 

fehlende Werte definiert werden sollen. Hinter der Variablenliste muß in Klammern eine Liste 

der Werte gegeben werden, die als fehlende Werte zu definieren sind. 

Listen können auch aus einem einzigen Wert bestehen. Als Variablenliste kann ein einzelner 

Variablenname, eine Liste mehrerer Variablennamen oder das Schlüsselwort ALL angegeben 

werden. Mit ALL sind alle Variablen der Datei gemeint. 

Durch den Befehlsnamen und die Angabe einer Variablenliste mit einer zugehörigen Werteliste 

sind alle notwendigen Angaben gemacht worden. Optional können jedoch weitere 

Variablenlisten mit jeweils einer Werteliste angegeben werden. Jede weitere Werteliste kann 

von der vorhergehenden durch einen Schrägstrich getrennt werden. 

Beispiel: 

MISSING VALUES alter gewicht (0) groesse (-1, -2) wohnort („keiner“, „k.A.“) 

oder (z.B.) 

MISSING VALUES 

/alter gewicht (0) 

Seite - 87 -


/groesse (-1,-2) 

/wohnort ("keiner", "k.A.") 

Inhaltliche Erklärung: 

Es werden drei Listen von Variablen aufgeführt: 

Die erste Liste besteht aus den Variablen alter und gewicht. Beide haben als Zeichen für einen 

fehlenden Wert die Null. (Achtung: Eine 0 (Null) ist als ein solches Zeichen nur statthaft, 

wenn die Null nicht als eine Maßzahl auftreten kann.) 

Die zweite Liste besteht nur aus der Variablen groesse. Bei dieser kann entweder -1 oder -2 

als Zeichen für einen fehlenden Wert auftreten. 

Die dritte Liste besteht ebenfalls aus einer Variablen, der Variablen wohnort. Sie besteht aus 

alphanumerischen Angaben. Zwei Zeichen sind bei ihr als Zeichen für einen fehlenden Wert 

deklariert worden, das Zeichen "keiner" und das Zeichen "k.A.". 

14.5.4 Bedeutung der Symbole und Schreibweisen in Syntaxdiagrammen 

• In Großbuchstaben geschriebene Wörter stellen Schlüsselwörter wie z.B. Befehlsnamen 

dar. 

• Ausdrücke in normaler Schrift stellen Platzhalter für Angaben dar, die vom konkreten 

Anwendungsfall abhängen. 

• Angaben in eckigen Klammern sind optional. Wenn sie weggelassen werden, werden sie 

häufig durch Voreinstellungen ersetzt. 

• Angaben, die in geschwungenen Klammern untereinander stehen, sind alternativ. Genau 

eine Möglichkeit ist zu wählen. 

• Optionale Angaben in Syntaxdiagrammen sind durch zwei Sternchen gekennzeichnet. 

Diese Angaben entsprechen der Voreinstellung, wenn nicht explizit andere Angaben 

gemacht werden. Aber nicht alle Voreinstellungen werden auf diese Weise markiert. 

• Der Ausdruck varname steht als Platzhalter für den Namen einer Variablen, der Ausdruck 

varlist als Platzhalter für eine Liste von Variablennamen. Diese kann auch aus einem 

einzigen Namen bestehen. 

• Häufig werden drei Punkte als Fortsetzungszeichen verwendet. Meistens ist die Bedeutung 

die, dass die betreffende Komponente eines Befehls in analoger Weise mehrfach 

wiederholt werden kann. 

• Zu beachten ist nochmals, dass jeder Befehl mit einem Punkt abzuschließen ist, auch 

wenn dieser Punkt in Syntaxdiagrammen nicht mit angegeben wird. 

14.5.5 Beispiel: Umsetzung eines Syntaxprogramms in einen Befehl 

Mit dem Menübefehl 

Analysieren → Deskriptive Statistiken → Deskriptive Statistiken 

können für eine oder mehrere Variablen statistische Maßzahlen berechnet werden. Wenn Sie 

den Pfad anklicken, dann können Sie sich über die Hilfe-Taste recht genau über den 

Befehl informieren. Klicken Sie auch OPTIONEN an und klicken Sie mit der rechten 

Maustaste die im Einzelnen wählbaren Statistiken an. 

Der diesem Menu-Befehl entsprechende Syntaxbefehl heißt DESCRIPTIVES. Bitte rufen Sie 

ihn entsprechend der Beschreibung in 14.4.1 auf, d.h. klicken Sie anhand eines Datensatzes 

eine Rechnung an, drücken Sie jedoch vor OK die EINFÜGEN-Taste. Wenn Sie danach den 

Cursor in den Befehl stellen und die Taste "Hilfe zur Syntax" (Syntax-Diagramm-Taste) 

drücken. Es erscheint das folgende Diagramm, das die Struktur und alle Optionen dieses 

Befehls wiedergibt. 

Seite - 88 -


DESCRIPTIVES [VARIABLES=] varname[(zname)] [varname . . . ] 

[/MISSING= {VARIABLE**} [INCLUDE] ] 

{LISTWISE } 

[/FORMAT={LABELS** } {NOINDEX**} {LINE** } ] 

{NOLABELS } {INDEX } {SERIAL} 

[/SAVE] 

[/STATISTICS=[DEFAULT**] [MEAN**] [MIN** ][SKEWNESS] ] 

[STDDEV** ] [SEMEAN] [MAX**][KURTOSIS] 

[VARIANCE ] [SUM ] [RANGE][ALL] 

[/SORT=[ {MEAN } ] [{ (A) } ] ] 

{SMEAN } {(D) } 

{STDDEV } 

{VARIANCE } 

{KURTOSIS } 

{SKEWNESS } 

{RANGE } 

{MIN } 

{MAX } 

{SUM } 

[NAME } 

Diese formale Befehlssyntax zeigt, dass neben dem Befehl nur eine Variable benannt werden 

muß. Alle anderen Angaben sind optional. Es wäre also z.B. der Befehl 

DESCRIPTIVES depression . 

möglich, deswegen, weil mit Ausnahme des Platzhalters varname, der für den Namen einer 

Variablen steht, alle anderen Angaben in eckigen Klammern stehen. Da nicht angegeben wird, 

welche Ergebnisse ausgegeben werden sollen, würden es jene sein, die in diesem DEFAULT- 

Fall mit ** gekennzeichnet worden sind (DEFAULT = Unterlassung). 

Zu den meisten im Diagramm aufgeführten Unterbefehlen gibt es ein Gegenstück in einem 

der beiden Dialogfelder des Anklickbefehls. So werden z.B. mit dem Unterbefehl 

STATISTICS die zu berechnenden Maßzahlen angegeben. Hier bietet der Syntaxbefehl die 

gleichen Möglichkeiten, die auch in den Dialogfeldern zur Verfügung stehen. Anders sieht es 

dagegen bei dem Unterbefehl SORT aus (Reihenfolge des Anzeigens). Zwar findet er sich 

auch in dem Dialogfeld DESRIPTIVE STATISTIK: OPTIONEN, jedoch mit weniger 

Alternativen als beim Syntaxbefehl. Der Unterbefehl MISSING, der den Umgang mit 

fehlenden Werten in den ausgewählten Variablen regelt, ist sogar nur im Syntaxbefehl 

verfügbar. Das bedeutet, dass bei alleiniger Befehlsgebung über die Dialogfelder im Falle von 

missing data eine von SPSS vorbestimmte (unbekannte, jedoch naheliegende) Voreinstellung 

zum Zuge kommen muß. 

Möchten wir z.B. von den beiden Variablen 

depression 

lebenszufriedenheit 

die Kennwerte MEAN SUM STDDEV VARIANCE SEMEAN ausgeben lassen und sollen 

die standardisierten Werte der Variablen als neue Variablen in der Datendatei gespeichert 

werden (SAVE) und die Ergebnisse in der alphabetischen Reihenfolge der Variablen ausgegeben 

werden, so kann man sich diese Wünsche alleine durch Anklicken erfüllen lassen. Der 

entsprechende Syntaxbefehl würde wie folgt aussehen 

Seite - 89 -


DESCRIPTIVES 

VARIABLES = depression lebenszufriedenheit 

/SAVE 

/STATISTICS = MEAN SUM STDDEV VARIANCE SEMEAN 

/SORT = NAME (A) . 

Dabei müßte der Unterbefehl VARIABLES nicht explizit aufgeführt werden. 

Da sich übrigens alle SPSS-Schlüsselwörter auf ihre drei Anfangsbuchstaben reduzieren 

lassen und auch nicht jeder Unterbefehl in einer neuen Zeile stehen muß, könnte der gleiche 

Befehl auch wie folgt geschrieben werden: 

DES depression lebenszufriedenheit /SAV /STA=MEA SUM STD VAR SEM 

/SOR=NAM(A) . 

Das sieht dann schon nach einer Geheimsprache aus. 

14.5.6 Einbindung der Syntax in den dialoggesteuerten Ablauf 

Anhand einiger Beispiele soll gezeigt werden, wie die SPSS-Syntax nutzbringend in einen 

SPSS-Dialog eingebracht werden kann. Nach einem Dialog drücken wir also die 

EINFÜGEN-Taste, wodurch die angeklickten Einstellungen als Syntax in den Syntax-Editor 

(Syntax-Fenster) eingefügt werden. Diese Syntax können wir nun noch editieren, um Möglichkeiten 

auszuschöpfen, die über die Dialogboxen nicht zur Verfügung stehen. 

Beispiel 1: CORRELATIONS 

Wollen wir zwischen z.B. sechs Variablen die Produkt-Moment-Korrelationen berechnen, so 

können wir dies durch Anklicken bewerkstelligen. Der entsprechende Syntax-Befehl könnte 

z.B. wie folgt aussehen: 

CORRELATIONS 

/VARIABLES=V1 V2 V3 V4 V5 V6 



Bei dieser Eingabe wird eine 6 * 6 – Korrelationsmatrix erzeugt. Wollen wir nun aber nicht 

die gesamte Matrix berechnen, sondern nur die Variablen V1 V2 V3 mit V4 V5 V6 

korrelieren, so müßte man durch Anklicken in umständlicher Weise 3 * 3 = 6 verschiedene 

Rechnungen starten, also V1 mit V4, V1 mit V5, . . . , V3 mit V6 korrelieren lassen. Auch 

würden wir dann 6 einzelne Korrelationskoeffizienten erhalten, obwohl wir ihre Zusammenstellung 

zu einer Matrix wünschen. Betrachten wir jedoch das Syntaxdiagramm dieses Befehls, 

so entdecken wir, dass man stattdessen einfach schreiben kann 

CORRELATIONS 

/VARIABLES=V1 V2 V3 WITH V4 V5 V6 



Das heißt, dass wir den Unterbefehl VARIABLES nur ein wenig zu redigieren brauchen, um 

die gewünschte Rechnung zu erzielen. 

Übrigens genügt es im Fall, dass man mehrere Variablen eingeben möchte, die in der Datendatei 

direkt nebeneinander stehen, nur die erste und letzte zu benennen und mit dem 

Schlüsselwort TO zu verbinden. Deshalb könnten wir den Unterbefehl VARIABLES auch 

wie folgt schreiben 

/VARIABLES=V1 TO V3 WITH V4 TO V6 

Im Falle vieler Variablen ergibt sich so eine erhebliche Zeitersparnis bei der Formulierung des 

Befehls. 

Seite - 90 -


Beispiel 2: Datentransformationen 

Mit Hilfe arithmetischer Formeln kann man aus alten Variablen neue errechnen. Z.B. kann es 

vorkommen, dass man eine Reihe von Meßwiederholungen bzw. Variablenpaare (t 0 , t 1 ) hat. 

Nun möchte man zu jedem Paar eine neue Variable durch Differenzenbildung erzeugen, als 

eine, die das Ausmaß der Veränderung einer Person von t 0 zu t 1 anzeigt, z.B. die Abnahme 

von Depression aufgrund einer Therapie. Dies könnte man tun, indem man durch 

Transformieren fi Berechnen 

die entsprechenden Dialogfelder aufruft, für jedes Paar einzeln-individuell. Das ist umständlich. 

Zeitsparender und vor allem übersichtlicher wäre es, die verschiedenen Paare wie folgt in 

die zugehörige Syntax-Datei hineinzuschreiben: 

COMPUTE diffdepr=t1depr-t0depr 

COMPUTE diffkonz=t1konz-t0konz 

COMPUTE diffzufrie=t1zufrie-t0zufrie 

COMPUTE diffmuedigk=t1muedigk-t0muedigk 

usw. für eventuelle weitere Variablen-Paare; je mehr Paare, umso zeitsparender und vor allem 

auch übersichtlicher wäre dieses Vorgehen. 

Wenn wir nun diese Berechnungs-Befehle betrachten, so sind sie alle von gleicher Bauart. 

Deswegen bräuchte man sie nicht einmal hinzuschreiben, sondern man könnte sie sogar mit 

Hilfe der SPSS-Befehle DO REPEAT – END REPEAT systematisch erzeugen, und zwar 

wie folgt: 

DO REPEAT 

p=diffdpr,diffkonz,diffzufrie,diffmuedigk 

/q=t1depr,t1konz,t1zufrie,t1muedigk 

/r=t0depr,t0konz,tozufrie,t0muedigk . 

COMPUTE p=q-r . 

END REPEAT . 

Wie man sieht, werden mit p, q und r Platzhalter eingeführt, die es erlauben, den COMPUTE- 

Befehl nur einmal hinzuschreiben. Ein solches Vorgehen spart zwar im Beispiel nicht viel an 

Aufwand ein, jedoch nur, weil der zunächst wiederholt hingeschriebene Rechenausdruck 

klein ist. Anders wäre es, wenn er umfangreich gewesen wäre oder gar aus mehreren umfangreichen 

Ausdrücken bestanden hätte. Das Beispiel soll demonstrieren, dass es mit der Syntax 

allgemein möglich ist, immer dann, wenn sich (Rechen-)Befehle formal wiederholen, diese in 

einer „Schleife“ in abstrakter Form nur einmal hinzuschreiben und somit das Hinschreiben 

der u.U. sehr vielen nur konkret verschiedenen Einzelanweisungen einzusparen. Würde man 

alle diese Einzelanweisungen gar durch Anklicken berechnen wollen, könnte man schnell die 

Übersicht verlieren. Eine Erzeugungssystematik zum Zwecke der Kontrolle, ob auch alle 

Einzelanweisungen wirklich angewiesen worden sind, müßte man sich wohl auf jeden Fall 

anlegen, im Falle des Anklickens wohl auf einem Extrapapier. 

Seite - 91 -


15 Inferenzstatistik 

15.1 t-Teste 

15.1.1 Allgemeines 

Zwei Stichproben des Umfangs N 1 und N 2 sind aus zwei Populationen gezogen worden. Der 

t-Test für unabhängige Stichproben überprüft die Nullhypothese, dass die beiden Stichproben 

aus Populationen stammen, deren Parameter µ 1 und µ 2 identisch sind. 

SPSS besitzt drei t-Tests, den t-Test bei unabhängigen Stichproben, den t-Test bei abhängigen 

(gepaarten) Stichproben und den t-Test bei einer Stichprobe. 

15.1.2 t-Test bei unabhängigen Stichproben 

Zwei Stichproben werden unabhängig voneinander gezogen. Das ist der Fall, wenn z.B. 

gefragt wird, ob sich Männer und Frauen in einer bestimmten Eigenschaft voneinander 

unterscheiden, und die eine Stichprobe aus der Population der Frauen und die andere aus der 

Population der Männer gezogen wird. Dann hat die Auswahl bzw. Zusammensetzung in der 

einen Stichprobe keinen Einfluss auf die Auswahl bzw. Zusammensetzung der anderen 

Stichprobe. Die beiden Stichproben sind unabhängig voneinander gezogen worden. 

Ferner wird vorausgesetzt, dass Zufallsstichproben vorliegen, also in jeder Population jedes 

Element die gleiche Chance hatte, in die Stichprobe zu kommen. 

Der t-Test für unabhängige Stichproben prüft, ob die Mittelwerte µ der beiden zugehörigen 

Populationen gleich groß sind: 

H 0 : µ 1 - µ 2 = 0 

H 1 : µ 1 - µ 2 ≠ 0 (ungerichtet, d.h. das eine µ größer oder kleiner als das andere ist) 

Um die Nullhypothese prüfen zu können, ist als Prüfmaß der Wert t definiert worden: 

t = 

M 

1 

− M 

2 

2 2 

S1 

S2 

+ 

N1 

N2 

M 1 und M 2 stellen die Mittelwerte der beiden Stichproben dar, S 1 und S 2 ihre Streuungen, N 1 

und N 2 die Stichprobenumfänge. Die Gleichung definiert eine Zufallsvariable, die für kleine 

Stichproben mit df = N 1 +N 2 -2 Freiheitsgraden „t-verteilt“ ist und für größere Stichproben 

(etwa df > 50) zunehmend normalverteilt, da die t-Verteilungen mit wachsendem N in eine 

Standardnormalverteilung übergehen (t → z). 

Die grundliegende Idee des Prüfwertes t ist die einer Verteilung der Differenzen der Stichprobenmittelwerte, 

die sich ergibt, wenn sehr häufig zwei voneinander unabhängige 

Stichproben gezogen werden. Gilt H 0 , so hat diese Verteilung einen Erwartungswert von µ 1 - 

µ 2 = 0. Die Schätzung der Streuung sM 1 − M 

dieser Verteilung, der geschätzte Standardfehler 

2 

der Differenz zweier Mittelwerte, ergibt sich aus den geschätzten Standardfehlern beider 

2 

2 2 

Mittelwerte, wie der Ausdruck unterhalb des Bruchstriches zeigt (genauer s 

M1− M 

= s 

2 M 

+ s 

1 M 

, 

2 

d.h. als Summe). 

Bei der Prüfung der Nullhypothese geht es um die Frage, mit welcher Wahrscheinlichkeit eine 

beobachtete Differenz M 1 –M 2 oder eine noch extremere zufällig zustande kommen kann. 

Diese Wahrscheinlichkeit wird durch den t-Test berechnet. Zur Entscheidung, ob H 0 , dass die 

Mittelwerte der Grundgesamtheiten identisch sind, beibehalten werden soll, sich also die 

beobachtete Mittelwertedifferenz nur zufällig ergeben hat, oder ob vielmehr eine 

Seite - 92 -


Verschiedenheit der beiden Populationsmittelwerte angenommen werden soll, ist vorher ein 

α-Fehler-Niveau (Signifikanzniveau) festzulegen. Häufig angewendete Niveaus sind α = 0,05 

und α = 0,01. Sie besagen, die Nullhypothese erst dann zu verwerfen, wenn die 

Irrtumswahrscheinlichkeit (auch α-Fehler-Wahrscheinlichkeit) kleiner oder gleich 5% bzw. 

1% ist. Beträgt also die Wahrscheinlichkeit für die beobachtete Differenz oder für eine noch 

extremere unter der Annahme, H 0 sei richtig, z.B. höchstens 5%, so wird dieses Ergebnis als 

signifikant auf dem 5%-Niveau bezeichnet, und H 0 verworfen und stattdessen H 1 akzeptiert. 

Dies geschieht unter dem Risiko, einen α-Fehler zu begehen, nämlich H 1 anzunehmen, 

obwohl H 0 gilt. 

Die Höhe des anzulegenden α-Niveaus sollte nicht mechanisch/unüberlegt mit 5% oder 1% 

übernommen werden, sondern von vor (!) der Testdurchführung vorgenommenen Risiko- 

Überlegungen abhängen, nämlich von den (erheblichen, z.B. teuren) Konsequenzen, die eine 

irrtümliche Entscheidung für H 1 haben könnte, in jenem inhaltlichen Bereich, aus dem die 

Fragestellung stammt. 

Ein signifikant ausgefallener t-Test besagt nur, dass H 1 angenommen wird, dass also µ 1 - µ 2 ≠ 

0 ist. Über das Ausmaß der Differenz wird nichts ausgesagt. Dazu kann aber das Konfidenzintervall 

eine gewisse Aussage machen, nämlich dass die Differenz der Mittelwerte beider 

Grundgesamtheiten mit einer voreingestellten Wahrscheinlichkeit, z.B. 95%, in einem 

gewissen Bereich (untere Grenze/obere Grenze) liegen wird. 

Nunmehr sind wir in der Lage, die t-Test-Prozedur mit Verständnis aufzurufen. Mit 

Analysieren fi Mittelwerte vergleichen fi T-Test bei unabhängigen Stichproben 

erhalten wir das erste Dialogfeld des Tests: 

Abb. 69: t -Test bei unabhängigen Stichproben 

Während wir in das Feld der Testvariablen die „abhängige“ Variable eingeben, geben wir 

unter „Gruppenvariable“ die „unabhängige“ (oder bedingende) Variable ein, also jene, von 

der wir annehmen, dass von ihren Ausprägungen/Stufen/Einzelbedingungen die Messwerte 

der Fälle (Personen) auf der abhängigen Variablen abhängen. 

Der Versuchsplan im Hintergrund 

Mit den Begriffen „unabhängige“ Variable (UV) und „abhängige“ Variable (AV) wird 

signalisiert, dass im Hintergrund der t-Test-Anwendung ein Versuchsplan steht. Z.B. kann in 

der Depressionsforschung eine neue noch hypothetische Therapie entwickelt worden sein, 

deren Wirksamkeit nun empirisch untersucht werden soll. Deshalb erhält eine erste 

Stichprobe aus einer definierten Population von Depressiven die Therapie, während eine 

zweite Stichprobe aus dieser Population keine Therapie erhält (Kontrollgruppe). Die 

unabhängige Variable (UV) besitzt jetzt zwei Gruppen (Stichproben), die Gruppe der 

Therapierten und die Gruppe der Nicht-Therapierten. Die abhängige Variable (AV) wird 

natürlich ein Test sein, der das Ausmaß einer vorliegenden Depression misst. Während sich 

vor der Therapie die beiden Gruppen im Ausmaß ihrer durchschnittlichen Depression nur 

Seite - 93 -


zufällig unterscheiden können (Zufallsstichproben), wird aufgrund der Theorie, auf der die 

neu entwickelte Therapie fußt, angenommen, dass diese in bestimmter Weise wirken wird. 

Nach Beendigung der Therapie sollten sich die Depressionsmittelwerte beider Stichproben 

deshalb nicht mehr nur zufällig unterscheiden, sondern aufgrund des Therapie-Einflusses 

verschieden sein, und zwar so, dass die therapierte Stichprobe jetzt einen kleineren 

Depressionswert aufzeigt. Es liegt damit aufgrund des Versuchsplans eine einseitige 

(gerichtete) Fragestellung vor. 

Damit ist kurz der Zusammenhang von Theorienbildung/Forschung → Versuchsplanung → 

Statistik → EDV/SPSS aufgezeigt worden. Er steht bei jeder Anwendung von SPSS im 

Hintergrund. Man sollte sich dieses Zusammenhangs immer bewusst sein. 

Nachdem wir die Gruppenvariable (UV) eingegeben haben, sind die Gruppen zu definieren. 

Durch Anklicken des entsprechenden Taste erhalten wir das folgende Dialogfeld 

Abb. 70: Gruppen definieren 

Hier geben wir die numerischen Codes der beiden Gruppen ein, so wie sie in der Datenmatrix 

in der Gruppenvariablen stehen. Dadurch kann sich SPSS die Fälle heraussuchen, die zu den 

damit bezeichneten Gruppen gehören. Sollte eine Gruppierungsvariable mehr als zwei Werte 

aufweisen (in der Regel liegt dann eine kontinuierliche Variable vor), kann man den Knopf 

CUT POINT betätigen und einen Trennwert eingeben. Dann werden zur ersten Gruppe alle 

Fälle gezählt, die kleiner als dieser kritische Wert sind, und zur zweiten Gruppe alle Fälle mit 

Werten, die gleich dem kritischen Wert oder größer sind. (Fälle mit fehlenden Werten werden 

natürlich nicht berücksichtigt.) Z.B. könnte ein Trennwert der Median-Wert (50%-Punkt) 

sein. Dann würde die Gesamtstichprobe aller Fälle in zwei Unterstichproben aufgeteilt 

werden. Ob das Sinn macht, hängt aber ganz von der Fragestellung ab, die ein Versuch(splan) 

beantworten soll. 

Im Dialogfeld OPTIONEN 

Abb. 71: Dialogfeld OPTIONEN 

kann der Sicherheitsgrad des Konfidenzintervalls festgelegt werden. Voreingestellt ist 95%. 

Des weiteren kann die Behandlung fehlender Werte bestimmt werden. Beim analyseweisen 

Ausschluss werden nur solche Fälle einbezogen, die in der Gruppierungsvariable und in der 

Testvariable keinen fehlenden Wert aufweisen (Normalfall). Sollten allerdings mehrere 

Testvariablen im vorausgehenden Dialogfeld eingegeben worden sein, dann werden nur jene 

Fälle ausgewählt, die in allen Variablen dieser Variablenliste einen gültigen Wert aufweisen 

(listenweiser Fallausschluss). Für jede Testvariable würde der t-Test gerechnet werden. 

Die Ausgabe sieht wie folgt aus: 

Seite - 94 -


Gruppenstatistiken 

P6 DEPR SUMME 

D01 BIS D15 

GESCHLECHT 

WEIBL 

MAENNL 

N 

Mittelwert 

Standardab 

weichung 

Standardfe 

hler des 

Mittelwertes 

260 2.99 3.420 .212 

145 1.71 2.840 .236 

Test bei unabhängigen Stichproben 

P6 DEPR SUMMEVarianzen sind gleich 

D01 BIS D15 Varianzen sind nicht 

gleich 

Levene-Test der 

Varianzgleichheit 

F 

Signifikanz 

T df Sig. (2-seitig) 

T-Test für die Mittelwertgleichheit 

Mittlere Standardfehle 


der Differenz 

Differenz r der Differenz Untere Obere 

8.028 .005 3.824 403 .000 1.28 .334 .621 1.935 

4.029 345.414 .000 1.28 .317 .654 1.902 

Abb. 72: Output des t-Tests für unabhängige Stichproben 

In diesem Output erkennen wir, dass zwei t-Tests durchgeführt wurden, einen unter der 

Annahme, dass die Varianzen beider Populationen gleich sind, und einen unter der Annahme, 

dass sie ungleich sind. 

Levene-Test 

Zuvor wurde der Levene-Test zur Prüfung der Gleichheit mit Hilfe des F-Testes durchgeführt, 

der auf einer weiteren Zufallsverteilung, der F-Verteilung basiert. Der Test vergleicht die 

beiden Stichprobenvarianzen miteinander, indem er die Nullhypothese prüft, dass die beiden 

Varianzen aus Grundgesamtheiten mit gleichen Varianzen stammen, d.h. mögliche 

Varianzunterschiede nur stichprobenbedingt zufällig sind. Zur Entscheidung, ob die 

Nullhypothese beizubehalten ist, ist wieder ein α-Fehler-Niveau anzulegen. Dazu sollte hier 

ein höheres Niveau gewählt, z.B. α = 0,20. Dies liegt daran, dass hier bei der Prüfung der 

Voraussetzung gleicher Varianzen für den t-Test unser Interesse darauf gerichtet ist, die H 0 

beizubehalten, und nicht, wie sonst üblich, sie zu verwerfen, weil wir in Wahrheit die H 1 - 

Hypothese meinen. Wir haben es hier also mit einer Fragestellung zu tun, bei der nicht die 

Wahrscheinlichkeit des α-Fehlers (Entscheidung zugunsten von H 1 , obwohl in der Population 

H o gilt), sondern die Wahrscheinlichkeit des β-Fehlers möglichst klein sein sollte. Der β- 

Fehler kennzeichnet die Wahrscheinlichkeit, die H 0 zu akzeptieren, obwohl sie falsch ist. 

Wenn wir uns also bei der Überprüfung der Voraussetzung gleicher Varianzen statt gegen den 

α-Fehler gegen den β-Fehler absichern wollen, dann bedeutet das, dass die 

Wahrscheinlichkeit dafür, dass wir fälschlicherweise behaupten, die Varianzen seien gleich 

(H 0 ), möglichst klein sein sollte. Der β-Fehler kann jedoch nur bestimmt werden, wenn eine 

spezifische Alternativhypothese vorliegt (Effektgröße: µ 1 ist (mindestens) um den Betrag x 

größer als µ 2 ). Da dies bei Überprüfung der Gleichheit der Varianzen praktisch niemals der 

Fall ist, müssen wir den β-Fehler indirekt klein halten, indem wir den α-Fehler vergrößern. 

Entscheiden wir uns bei einem α = 0,20-Fehler-Niveau für H 0 , wird diese Entscheidung mit 

einem kleineren β-Fehler behaftet sein, als wenn wir bei α = 0,05 die H 0 beibehalten. 

Nun scheint diese Diskussion ja nicht so relevant zu sein, weil doch, gleichgültig, ob die 

Populationsvarianzen gleich sind oder nicht, in jedem Fall ein t-Test gerechnet wird. Der 

Unterschied besteht im Folgenden: 

Obige Formel zur Berechnung der t-Wertes geht von der Annahme ungleicher Varianzen aus. 

Wenn jedoch unterstellt werden kann, dass die Varianzen gleich sind, wird bei der 

Berechnung des t-Wertes anstelle der beiden empirischen Gruppenvarianzen ein gewogenes 

(„gepooltes") Mittel dieser Varianzen verwendet, 

Seite - 95 -


S P 

( N 

= 

1 

2 

−1) 

⋅ S1 

+ ( N2 

− 1) ⋅S 

N + N − 2 

1 

2 

2 

2 

d.h. beide werden zu einer Varianz zusammengefasst, welche dann in der obigen t-Test- 

Formel an den Stellen der beiden empirischen Gruppenvarianzen eingesetzt wird. 

Die Ergebnisse des t-Tests auf der Basis gewogener Varianzen werden von SPSS also in der 

Zeile Varianzen sind gleich ausgewiesen. 

Im Falle gewogener Varianzen kann der t-Test dann leicht zu Fehlern führen, wenn entgegen 

der Annahme doch ein Unterschied zwischen den Varianzen der Grundgesamtheiten besteht. 

Der Fehler ist um so größer, je stärker sich die Varianzen unterscheiden. Wird umgekehrt der 

t-Test für ungleiche Varianzen durchgeführt, obwohl in Wahrheit gleiche Varianzen 

vorliegen, wird die Irrtumswahrscheinlichkeit etwas zu hoch ausgewiesen. Sollten Zweifel 

bezüglich der Annahme gleicher Varianzen bestehen, wird man deshalb vorsichtigerweise den 

Test für ungleiche Varianzen wählen. Allgemein gilt aber, dass sich bei großen Stichproben 

nur geringe Unterschiede zwischen den beiden Testverfahren ergeben. 

Signifikanzprüfung 

Die Sig.(2-seitig) meint die Wahrscheinlichkeit, mit der die beobachtete Mittelwertedifferenz 

gemäß t-Verteilung zufällig auftritt. Ist sie


Kontrollgruppe verzichten würden und die Patienten vor und nach der Therapie testen 

würden. Dann hoffen wir natürlich darauf, dass der Mittelwert der Patienten nach der 

Therapie geringer ausfallen wird als vorher (H 1 ). Bei einem solchen Versuchsplan sind aber 

die Depressionsmessungen nicht unabhängig voneinander, da beide Messungen an denselben 

Personen vorgenommen wurden. Statt von zwei Messungen spricht man formal auch von 

zwei voneinander abhängigen Stichproben. Da ihre Messwerte nicht voneinander unabhängig 

sind, werden es ihre Mittelwerte auch nicht sein. 

Ein anderer Fall der Abhängigkeit liegt vor, wenn jeweils eine Person aus einer ersten 

Stichprobe und eine zweite aus einer zweiten Stichprobe so ausgewählt werden, dass sie nach 

einem oder mehreren Merkmalen ein Paar bilden, d.h. die gleichen Merkmalsausprägungen 

aufweisen. Man spricht dann von parallelisierten Stichproben (matched samples). Der 

Vorteil dieser aufwendigen Vorgehensweise (gegenüber unabhängigen Stichproben) besteht 

darin, dass zufällige Unterschiede zwischen beiden Stichproben in Bezug auf ihre 

Zusammensetzung ausgeschlossen oder zumindest vermindert werden. 

Es gibt noch weitere Anwendungsfälle. Entscheidend ist, dass die einzelnen Beobachtungen 

der zu vergleichenden Gruppen nicht unabhängig voneinander zustande kommen, sondern 

jeweils paarweise ein systematischer Zusammenhang besteht. Daraus folgt auch, dass die 

beiden Stichproben die gleiche Anzahl von Fällen aufweisen müssen. 

Beim t-Test für abhängige Stichproben ist also zu berücksichtigen, dass die Varianz der einen 

Messwertreihe/Stichprobe von der Varianz der anderen Messwertreihe/Stichprobe beeinflusst 

wird. Wenn wir z.B. die Patienten therapieren, können die Unterschiede zwischen den 

Patienten, die vor der Therapie bestanden haben, auch noch nach ihr bestehen. Wenn wir nun 

den Standardfehler der Differenz so wie bei unabhängigen Stichproben schätzen würden, 

nämlich durch die Wurzel aus der Summe der Quadrate der geschätzten Standardfehler der 

beiden zu vergleichenden Mittelwerte (vgl. den Divisor in obiger t-Test-Formel), würden 

Unterschiede zwischen den Patienten, die vor und nach der Therapie bestünden, doppelt 

berücksichtigt werden, weil sie den Standardfehler des ersten und des zweiten Mittelwertes 

zumindest teilweise beeinflussen. Der Anteil der gemeinsamen Varianz würde dabei um so 

größer sein, je höher beide Stichproben korrelieren. Die Formel für die Schätzung des durch 

die Korrelation verringerten Standardfehlers für die Differenz zweier Mittelwerte lautet 

S 

2 2 

M1 − M 

= S 2 

2 M 

+ S 

1 M 

− r 

2 12 

⋅ SM 

⋅S 

1 M 2 

In der Praxis berechnet man ihn meistens anders. Die zweifache Berücksichtigung der 

gleichen Unterschiedlichkeit lässt sich nämlich umgehen, indem man für jedes Messwertpaar 

die Differenz bildet und anschließend den Mittelwert M d der Differenzen berechnet. Sodann 

interessiert uns die Verteilung solcher Mittelwerte. Deren geschätzte Streuung, der 

Standardfehler der Verteilung der Mittelwerte der Differenzen, lautet, analog zur Schätzung 

des Standardfehlers des arithmetischen Mittels, 

S 

M d 

= 

S 

d 

N 

sodass sich der t-Wert für abhängige Stichproben nach der Formel 

t = 

M 

S 

d 

M d 

berechnen lässt. 

M d ist auch gleich der Differenz aus den Mittelwerten beider Stichproben. 

Seite - 97 -


Nunmehr können wir den t-Test für abhängige Stichproben in SPSS aufrufen. 

Analysieren fi Mittelwerte vergleichen fi T-Test bei gepaarten Stichproben 

Abb. 73: T-Test bei gepaarten Stichproben 

Im Dialogfeld ist ein „Variablenpaar“ auszuwählen, d.h. dass SPSS statt von zwei 

Stichproben mit einer abhängigen Variablen (einer Testvariablen) formal von einer 

Stichprobe ( N = Anzahl der Paare) mit zwei Variablen (das sind die beiden Messungen) 

spricht. Die Stichprobe besteht also jetzt aus allen Fällen des Datensatzes, bzw. aus einer 

vorher ausgewählten Unterstichprobe. 

Man kann auch mehrere Variablenpaare auswählen, wobei eine Variable auch in mehreren 

Paaren vorkommen kann. Für jedes Paar wird anschließend ein eigener t-Test durchgeführt. 

Alternativ könnte man die ganze Prozedur auch wiederholt aufrufen, für jedes Paar einzeln. 

Dabei könnten sich allerdings evtl. Unterschiede in der Behandlung fehlender Werte ergeben: 

statt listenweisen Fallausschluss, Fallausschluss Test für Test, je nach Einstellung im 

Folgefeld OPTIONEN. Dort kann auch wieder der Sicherheitsgrad für das Konfidenzintervall 

eingestellt werden. 

Der Output bedarf wohl keiner weiteren Erläuterung. Ausgegeben wird auch die Korrelation 

zwischen beiden Messwertreihen/Variablen. Sie wird daraufhin überprüft, ob sie von r = 0 

(Nullhypothese) verschieden ist. Wie erinnerlich, ist der Korrelationskoeffizient ein Maß für 

die Stärke des linearen Zusammenhangs. Mit ihm wird daher ausgesagt, ob Personen, die in 

der einen Messwertreihe einen hohen/niedrigen Wert aufweisen, dies tendenziell auch in der 

anderen Messwertreihe tun. Der Koeffizient kann daher auch Hinweis dafür sein, ob das 

Paaren zufällige Unterschiede gegenüber der Ziehung unabhängiger Stichproben vermindern 

kann. Je größer der Koeffizient, desto größer ist der lineare Zusammenhang zwischen beiden 

Gruppen, so dass auch das Paaren eine entsprechende Auswirkung gehabt haben muss. 

15.1.4 t-Test bei einer Stichprobe 

Es wird geprüft, ob, mit welcher Wahrscheinlichkeit der Mittelwert µ der Population, aus der 

die Stichprobe gezogen wurde, einen vorgegebenen Wert über- oder unterschreitet. Z.B. kann 

geprüft werden, ob der durchschnittliche Intelligenzwert einer Stichprobe signifikant vom 

bekannten oder zu postulierenden Mittelwert der Population (µ = 100 als vorzugebener 

Testwert) abweicht. Oder es kann geprüft werden, ob der Mittelwert von dem Wert abweicht, 

der sich in einer anderen Studie ergeben haben möge. 

Die t-Verteilung ist anwendbar, da, wenn Stichproben des Umfangs N aus einer 

normalverteilten Grundgesamtheit gezogen werden, sich die am geschätzten Standardfehler 

S M relativierten Differenzen M - µ entsprechend einer t-Verteilung mit N-1 Freiheitsgraden 

verteilen. 

Seite - 98 -


Die Ausgabe enthält ferner ein Konfidenzintervall für den Populationsmittelwert µ. Das 

Intervall gibt an, dass µ mit einer Wahrscheinlichkeit von z.B. 95% im Bereich „vorgegebener 

Testwert + ausgegebene untere Grenze“ und „vorgegebener Wert + ausgegebene obere 

Grenze“ liegt. 

Analysieren fi Mittelwerte vergleichen fi T-Test bei einer Stichprobe 

Abb. 74: T-Test bei einer Stichprobe 

Zunächst geben wir die Testvariable ein, z.B. die Testvariable „IQ“. (Die Stichprobe besteht 

aus allen Fällen (Personen) des Datensatzes, bzw. aus alle Fällen, die wir vorher ausgewählt 

haben.) Sodann geben wir den Testwert ein, z.B. 100. Im Dialogfeld Optionen 

Abb. 75: T-Test bei einer Stichprobe: Optionen 

kann der Sicherheitsgrad des Konfidenzintervalls festgelegt werden. Voreingestellt ist 95%. 

Des weiteren kann die Behandlung fehlender Werte bestimmt werden, wie bereits bekannt. 

Die Ausgabe sieht wie folgt aus: 

Abb. 76: Ausgabe des Ein-Stichproben-T-Tests 

Der ausgegebene t-Wert oder ein noch größerer kommt bei x Freiheitsgraden (df: degrees of 

freedom) gemäß t-Verteilung mit der ebenfalls ausgegebenen Wahrscheinlichkeit p (Sig. (2- 

seitig) zufällig vor. Zur Entscheidung, ob also in jener Population, aus dem die Stichprobe 

stammt, µ vom vorgegebenen Testwert verschieden ist, ist wieder ein α-Fehler-Niveau 

(Signifikanzniveau) anzulegen. Sollte p


stattdessen H 1 akzeptieren, dass also ein solcher Unterschied in der Grundgesamtheit 

tatsächlich vorhanden ist. 

Ein derart signifikanter t-Test besagt nur, dass µ überhaupt vom vorgegebenen Testwert 

verschieden ist. Über die Größe des Abstands beider Werte wird nichts ausgesagt. Dazu kann 

aber das Konfidenzintervall gewisse Hinweise geben, dessen (gemäß voreingestelltem 

Sicherheitsgrad) untere und obere Grenzen mit ausgegeben werden. Um die tatsächlichen 

Grenzen zu bestimmen, in denen µ gemäß eingestelltem Sicherheitsgrad liegen wird, sind 

diese Grenzen je nach Vorzeichen zum vorgegebenen Testwert zu addieren/subtrahieren. 

(Hinweis: Das Konfidenzintervall ist also keins für das Populationsmittel µ, sondern eins für 

die Differenz µ - Testwert. Falls man die Grenzen für µ direkt haben möchte, müsste der 

Testwert 0 eingegeben werden. Die Ergebnisse des t-Tests wären dann aber nicht sinnvoll und 

dürften nicht beachtet werden.) 

15.2 Einfache Varianzanalyse 

Die einfache (einfaktorielle, One-Way) Varianzanalyse (VA, engl. Analysis of Variance 

ANOVA) stellt eine Erweiterung des t-Tests für unabhängige Stichproben von 2 auf k 

Stichproben dar. Geprüft wird die Nullhypothese, dass die Mittelwerte der k Populationen, 

aus denen die k Stichproben gezogen wurden, gleich groß sind (nur 2-seitig): 

µ 1 = µ 2 = ... = µ k . 

Eine „einfache“ VA heißt, dass nur eine Gruppierungsvariable (unabhängige Variable, UV) 

vorliegt. Diese wird auch als (Einfluss- oder bedingender) „Faktor“ bezeichnet. 

Im Falle von nur 2 Stichproben ist das Ergebnis der VA und des t-Tests identisch: t = F . 

Voraussetzungen zur Anwendung der VA sind, wie schon bei den t-Tests, 

a) dass die Stichproben aus normalverteilten Populationen stammen. Dazu gibt es inferenzstatistische 

Tests, aber auch graphische Tests als Normalverteilungsplots. 

b) dass die Varianzen der Grundgesamtheiten gleich sind. Das kann wieder mit dem Levene- 

Test überprüft werden. 

Grundsätzlich ist auf „nichtparametrische“ bzw. sog. „verteilungsfreie“ Verfahren 

auszuweichen, wenn die Voraussetzungen zur Anwendung eines parametrischen Tests nicht 

gegeben sind. Beim t-Test für unabhängige Stichproben wäre das der U-Test von Mann- 

Whitney, beim t-Test für abhängige Stichproben der Wilcoxon-Test. Bei der hier jetzt 

erörterten einfaktoriellen VA wäre es der H-Test von Kruskal und Wallis. 

Bei der Varianzanalyse wird die gesamte Streuung über die Fälle (Personen) aller k 

Stichproben hinweg in zwei voneinander unabhängige Quellen zerlegt („Varianz-Analyse“), 

in eine Streuung „zwischen“ den Stichproben und in eine Streuung innerhalb der Stichproben: 

Quadratsumme „total“ = Quadratsumme „zwischen“ + Quadratsumme „innerhalb“ 

Auch die zugehörigen Freiheitsgrade folgen dieser Zerlegung: 

Freiheitsgrade „total“ = Freiheitsgrade „zwischen“ + Freiheitsgrade „innerhalb“ 

Als Formel: N-1 = (k-1) + (N-k) 

wobei N die Gesamtzahl der Fälle über alle k Gruppen darstellt, also N = n*k, wenn wir mit n 

die bei allen Stichproben gleiche Stichprobengröße bezeichnen. (Gleiches n für alle 

Stichproben ist aber nicht unbedingt notwendig). 

Seite - 100 -


Die zugehörigen Varianzen erhalten wir, indem wir durch die zugehörigen Freiheitsgrade 

dividieren: 

S = QS z /(k-1) 

2 

z 

2 

i 

S = QS i /(N-k) 

Quadratsummen, die durch ihre Freiheitsgrade dividiert worden sind, werden auch als 

„Mittlere Quadrate“ bezeichnet. Entsprechend auch 

2 

S 

t 

= QS t /(N-1) 

Die Varianz „innerhalb“ gibt an, wie sehr die einzelnen Werte in den Stichproben um ihren 

jeweiligen Gruppenmittelwert streuen, die Varianz „zwischen“, wie sehr die Mittelwerte der 

Stichproben um den Mittelwert der gesamten Stichprobe streuen, die Varianz „total“, wie sehr 

alle Fälle um diesen Mittelwert streuen. 

Der inferenzstatistische Ansatz besteht nun darin, dass mit den beiden mittleren Quadraten 

„zwischen“ und „innerhalb“ zwei voneinander unabhängige Schätzungen der unter H 0 nur 

einen Populationsvarianz σ 2 vorliegen. Entsprechend prüft die Varianzanalyse mithilfe des F- 

Testes die Nullhypothese, ob die beiden Varianzen nur zufällig voneinander abweichen: 

F = geschätzte Varianz „zwischen“ / geschätzte Varianz „innerhalb“ wobei wir die Varianz 

„zwischen“ in den Zähler setzen, da wir an der Frage interessiert sind, ob die Varianz der k 

Mittelwerte noch als zufällig angesehen werden kann oder nicht. 

Die Varianz „innerhalb“ halten wir für die bessere, verlässlichere Schätzung, die nicht von 

möglichen Unterschieden „zwischen“ den Gruppen beeinflusst wird. Auch haben wir keinen 

sonstigen Grund anzunehmen, dass sie aus irgendeiner Ursache von der unter H 0 

angenommenen einen Populationsvarianz wesentlich abweichen könnte. Alle sind ja 

Zufallsstichproben. Sie müsste also eine echte „Fehlervarianz“ darstellen. Dagegen erwarten 

wir aufgrund eines Versuchsplans „zwischen“ den Gruppenmittelwerten Unterschiede, d.h. 

aufgrund inhaltlicher Begründungen/Hypothesen, so dass der Varianzanalyse folgende 

Hypothese zugrunde liegt: 

H 0 : µ 1 = µ 2 = µ 3 = ... = µ k 

H 1 : µ i ≠ µ j , 

d.h. mindestens 2 Mittelwerte sind ungleich, prinzipiell zweiseitige Fragestellung 

(Aufgrund einer Konvention (vgl. die Definition der F-Verteilung bzw. des F-Tests) ist es 

üblich, die (per H 1 anzunehmende) größere Variation, hier die Varianz „zwischen“, in den 

Zähler des F-Bruches zu setzen. Die Durchführung eines F-Tests erübrigt sich, wenn die 

Varianz im Zähler kleiner als im Nenner ist. Der F-Wert beginnt erst mit Werten > 1. Der 

Varianzunterschied wird damit einseitig geprüft, Abschnitt nur von der rechten Seite der F- 

Verteilung.) 

Die Zufallsverteilung von F ist bekannt. Mit ihrer Hilfe kann also die Wahrscheinlichkeit 

ermittelt werden, mit der ein beobachteter/aufgrund der Stichproben berechneter F-Wert oder 

ein noch größerer sich per Zufallsschwankung auch ergeben kann, wenn die Mittelwerte der k 

Populationen gleich sind. 

Nach dieser kurzen Rekapitulation dessen, was zum Verständnis des Outputs des 

Rechenverfahrens mindestens notwendig ist, können wir nunmehr die Rechenprozedur 

starten: 

Seite - 101 -


Analysieren fi Mittelwerte vergleichen fi Einfaktorielle ANOVA 

Der Befehl öffnet das folgende Dialogfeld: 

Abb. 77: Einfaktorielle ANOVA 

Als abhängige Variable(n) fügen wir jene Variablen ein, deren Stichprobenmittelwerte 

verglichen werden sollen. Bei mehreren abhängigen Variablen wird für jede eine VA 

durchgeführt. (Dann allerdings werden nur solche Fälle einbezogen, die in keiner dieser 

Variablen fehlende Werte aufweisen.) 

Im Feld Faktor wird die UV eingefügt, also jene, die die Stichproben/Gruppen definiert. 

Nunmehr könnte die VA bereits gestartet werden. Wir wollen jedoch noch einige Angaben zu 

den drei Tasten machen, die man noch in diesem Dialogfeld betätigen kann. 

Taste OPTIONEN: Hier können mit der Option DESKRIPTIVE STATISTIK für jede Gruppe 

die Anzahl ihrer Fälle, ihr Mittelwert, ihre Standardabweichung, der Standardfehler des 

Mittelwertes und das 95%-Konfidenzintervall (untere und obere Grenze), das aufgrund des 

Standardfehlers und dieses Sicherheitsgrades berechnet werden kann, angefordert werden. 

Das Konfidenzintervall besagt, dass das µ der Population, aus der die Stichprobe gezogen 

wurde, mit der voreingestellten Wahrscheinlichkeit im angegebenen Bereich liegen wird. 

Lautet der Mittelwert einer Stichprobe z.B. M= 3,12 und sein Standardfehler S M = 0,087, 

dann betragen die Grenzen M+-S M *z 95% = 3,12 + -0,087*1,96, d.h. UG =2,95 und OG = 

3,29. Der Standardfehler wird also mit dem (zweiseitigen) t-Wert bzw. bei größeren 

Stichproben z-Wert (hier z = 1,96) des voreingestellten Sicherheitsgrades multipliziert und 

dieser Bereich sowohl zur einen als auch zur anderen Seite des empirischen Mittelwertes 

geschlagen, um aussagen zu können, in welchem Bereich µ mit 95%-iger Sicherheit liegen 

wird. Bei z = 2,58 würde der 99%-Sicherheitsbereich berechnet werden. Sollten sich die 

Sicherheitsbereiche der Gruppen nicht überschneiden, so würde das bereits andeuten, dass die 

Mittelwerte der Populationen möglicherweise verschieden sind. 

Option HOMOGENITÄT DER VARIANZEN: Hier wird der Levene-Test auf Gleichheit der 

Varianzen in den k Populationen durchgeführt. (Er gibt aufgrund einer Maßzahl mit bekannter 

Verteilung an, mit welcher Wahrscheinlichkeit die k Stichproben k Populationen mit gleichen 

Varianzen entstammen.) 

Wenn wir also einen Faktor (UV) und eine abhängige Variable aus unserem Datensatz 

eingegeben haben, hier den Faktor Einkommen und als AV das Ergebnis eines 

Depressionstests einer Befragung von über 69 Jahre alten Patienten von Allgemeinarztpraxen, 

und ferner Deskriptive Statistiken und den Levene-Test angefordert haben, sieht das Ergebnis 

wie z.B. folgt aus: 

Seite - 102 -


P6 DEPR SUMME D01 BIS D15 

BIS DM 1.199 

DM 1.200-1.599 

DM 1.600-1.999 

DM 2.000-2.399 

DM 2.400-2.799 

DM 2.800-3.199 

DM 3.200 UND MEHR 

Gesamt 

N 

Mittelwert 

ONEWAY deskriptive Statistiken 

Standardab 

weichung 

95%-Konfidenzintervall für 

Standardf den Mittelwert 

ehler Untergrenze Obergrenze 

Minimum 

Maximum 

24 3.29 4.048 .826 1.58 5.00 0 13 

30 4.47 3.748 .684 3.07 5.87 0 14 

32 3.09 3.550 .628 1.81 4.37 0 13 

54 2.46 3.161 .430 1.60 3.33 0 12 

47 2.04 2.621 .382 1.27 2.81 0 9 

49 2.04 3.075 .439 1.16 2.92 0 11 

86 1.71 2.765 .298 1.12 2.30 0 11 

322 2.45 3.225 .180 2.09 2.80 0 14 

Test der Homogenität der Varianzen 


Levene-St 

atistik df1 df2 Signifikanz 

2.223 6 315 .041 


Zwischen den Gruppen 

Innerhalb der Gruppen 

Gesamt 

Quadrats 

umme 

ONEWAY ANOVA 

Abb. 78: Ergebnis einer einfaktoriellen Varianzanalyse 

df 

Mittel der 

Quadrate F Signifikanz 

215.467 6 35.911 3.621 .002 

3124.135 315 9.918 

3339.602 321 

Der Output ist nach den obigen Ausführungen leicht zu verstehen: 

Wie man zunächst bei den deskriptiven Statistiken sieht, sind die Depressions-Mittelwerte der 

gebildeten Einkommensstufen durchaus verschieden, mitunter sogar doppelt so hoch wie 

andere. Auch scheinen sie mit zunehmendem Einkommen abzufallen. Jedoch überschneiden 

sich die Konfidenzintervalle z.T. erheblich. 

Der Levene-Test ist auf den 20%-Niveau nicht signifikant. Zur Erinnerung: Wir meinen hier 

die Nullhypothese. 

Im Ergebnis der VA erscheinen die Quadratsummen „zwischen“ und „innerhalb“, deren 

Summe die Quadratsumme „gesamt“ ergibt. Gleiches gilt für die Freiheitsgrade. Der F-Wert 

ergibt sich durch die Division des mittleren Quadrats „zwischen“ durch das mittlere Quadrat 

„innerhalb“. Bei df 1 zwischen-Zähler-Freiheitsgraden und df 2 innerhalb-Nenner-Freiheitsgraden 

für den F-Test ergibt sich die ausgegebene Zufallswahrscheinlichkeit („Signifikanz“), die 

mit dem vorher bestimmten Signifikanzniveau zu vergleichen ist, um zu einer Entscheidung 

zu kommen. 

Im Falle von nur zwei Gruppen ist, wie erwähnt, dass Ergebnis mit dem t-Test identisch. Die 

Quadratwurzel des F-Wertes ergibt den t-Wert. Ferner ist dann df 1 „zwischen“ = 1, und df 2 

„innerhalb“ entspricht der Zahl der Freiheitsgrade des t-Tests. 

Seite - 103 -


15.2.1 „A-PRIORI“-KONTRASTE 

Taste KONTRASTE wieder des ersten Dialogfeldes: 

Die VA vergleicht alle k Mittelwerte gleichzeitig und nur zweiseitig, wobei sie nur einen (!) 

Test durchführt. Oft besteht die Hypothese jedoch nicht darin, ob sich die Mittelwerte der k 

Populationen überhaupt unterscheiden, so dass man eigentlich keine VA rechnen möchte, 

sondern man hat aufgrund inhaltlicher Überlegungen a priori genauere Hypothesen/inhaltliche 

Erwartungen. Z.B. könnte man bei drei Gruppen, einer Versuchsgruppe 1, einer Versuchsgruppe 

2 und einer Kontrollgruppe, erwarten, dass sich die erste Gruppe von der 

Kontrollgruppe und die zweite Gruppe von der Kontrollgruppe unterscheiden, und zwar z.B. 

höhere Werte gegenüber der Kontrollgruppe in der AV aufweisen müssten. Dann sind vom 

Versuchsplan her zwei einseitige Vergleiche zwischen je zwei Gruppen gemeint, also 

gerichtete t-Tests. 

Kontrast-Vergleiche sind t-Test-Vergleiche zwischen einzelnen Gruppen. Dabei besteht 

insbesondere die Möglichkeit, die Mittelwerte mehrerer Gruppen zu mitteln und mit 

Einzelmittelwerten anderer Gruppen oder mit Mittelwerten der Mittelwerte anderer Gruppen 

zu vergleichen. 

(Zu beachten ist, dass ein durchschnittlicher Mittelwert nicht mit dem Mittelwert 

übereinstimmen muss, der sich ergäbe, wenn die Gruppen zu einer Gruppe 

zusammengeworfen werden und von dieser dann der Mittelwert berechnet werden würde. Nur 

wenn die Einzelgruppen die gleiche Anzahl von Fällen enthalten stimmt der Mittelwert der 

Mittelwerte mit dem Mittelwert der zusammengeworfenen neuen Gruppe überein.) 

Zwecks Mittelung der Mittelwerte mehrerer Gruppen gibt man unterschiedliche Gewichte 

vor, mit denen die einzelnen Mittelwerte in die Berechnung des Gesamtmittelwertes eingehen 

sollen: 

a) Bei der gewöhnlichen Mittelung, z.B. M neu = 1/2 (M 1 + M 2 ) , geht jeder der Mittelwerte 

mit gleichem Gewicht ein, nämlich mit dem Gewicht 0,5, so dass man auch M neu = 

0,5*M 1 + 0,5*M 2 schreiben könnte. 

b) Man könnte aber auch z.B. so gewichten: M neu = 0,8*M 1 + 0,2*M 2 

Um Kontraste zu berechnen, klickt man auf die Taste KONTRASTE und gibt in dem sich 

öffnenden Dialogfeld in das Eingabefeld KOEFFIZIENTEN Gewichte in der Reihenfolge der 

Gruppen des Faktors ein, also für die erste Gruppe ein Gewicht, für die zweite, usw., 

insgesamt k Gewichte. Die Auswahl der Gewichte bestimmt, was für ein Kontrast berechnet 

wird, d.h. welche zwei Gruppen miteinander per t-Test verglichen werden. Der Kontrast ist 

dabei die Differenz der beiden zu vergleichenden Mittelwerte. Hat man z.B. drei Gruppen mit 

den Mittelwerten 

M 1 = 6,19 M 2 = 4,72 M 3 = 8,58 

und möchte man 

• z.B. einfach Gruppe 1 mit Gruppe 3 vergleichen, so gibt man nacheinander 

0,5 0 -0,5 

als Gewichte ein. Der Kontrast ergibt sich dann als 

Kontrast = 0,5 * 6,19 + 0 * 4,72 - 0,5 * 8,58 

also als Differenz der beiden zu vergleichenden Mittelwerte, im Output als "Kontrastwert" 

bezeichnet. Er stellt eine Linearkombination der Mittelwerte dar. 

• z.B. Gruppe 1 und Gruppe 2 gleichberechtigt zusammenfassen und mit Gruppe 3 

vergleichen, so wählt man die Koeffizienten 

0,5 0,5 -1 

so dass sich der Kontrast = 0,5 * 6,19 + 0,5 * 4,72 - 0,5 * 8,58 ergibt. 

Seite - 104 -


Natürlich wird man solche Vergleiche nicht willkürlich ansteuern, sondern 

hypothesengeleitet/geplant durchführen. 

Es muss für jede Gruppe ein Koeffizient eingegeben werden. Die Summe der Koeffizienten 

muss Null ergeben. Das wird bei der Eingabe im Dialogfeld kontrolliert, indem dort die 

Koeffizientensumme angezeigt wird. 

Aus der eben erklärten Koeffizienten-Eingabe folgt, dass alle Gruppen, für die man positive 

Koeffizienten eingegeben hat, zu einer Gruppe zusammengefasst werden, entsprechend die 

Gruppen mit negativen Vorzeichen zu einer zweiten Gruppe. 

Um einen bereits eingefügten Koeffizienten zu korrigieren, wird dieser in der Liste der 

Koeffizienten markiert, dann gibt man dafür den Koeffizienten im Eingabefeld ein und klickt 

anschließend auf die Schaltfläche ÄNDERN. 

Wenn man für alle Gruppen einen Koeffizienten definiert hat, ist der Kontrast vollständig 

definiert. Möchte man nach diesem noch weitere Kontraste testen, wird der erste im 

Dialogfeld unter Kontrast 1 von 1 eingegeben, die Schaltfläche WEITER gedrückt, der zweite 

Vergleich unter Kontrast 2 von 2 definiert, usw. Insgesamt kann man so zwar bis zu zehn 

Kontraste bestimmen, was jedoch kaum vorkommen dürfte. Plant man nämlich bestimmte 

Vergleiche a priori, so werden es in aller Regel nur wenige sein. 

Möchte man sicherstellen, dass bei mehreren Kontrasten die damit definierten t-Tests 

paarweise voneinander unabhängig (orthogonal) sind, so sollte für jedes Paar von Kontrast- 

Koeffizienten 

a 1 a 2 ... a k 

b 1 b 2 ... b k 

das Skalarprodukt 

a 1 * b 1 + a 2 * b 2 + ... + a k * b k = 0 

sein. 

Orthogonalität ist eine mathematische Bedingung. Es kann vorkommen, dass aufgrund 

inhaltlicher Hypothesen Vergleiche gewünscht sind, die nicht unabhängig voneinander sind 

und inhaltlich gesehen doch voneinander unabhängige Rückmeldungen geben. 

15.2.2 Rechenbeispiel 

Man nimmt an, dass Depression nicht (nur) anlagebedingt ist, sondern vor allem durch 

Umwelteinflüsse zustande kommt. Wenn man ferner annimmt, dass alte Menschen mit 

geringem Einkommen weniger Handlungsmöglichkeiten haben als solche mit hohem 

Einkommen, um bestimmten zu Depressionen führenden Situationen aus dem Wege zu gehen, 

dann ist a priori zu erwarten, dass sich die unteren Einkommensgruppen von den oberen 

unterscheiden müssten, und zwar die oberen einen geringeren Depressionswert ausweisen 

müssten. Wir wollen daher a priori die beiden unteren und die beiden oberen 

Einkommensgruppen zusammenfassen und miteinander per gerichtetem Kontrast-Test 

vergleichen. 

Dazu geben wir folgende k = 7 Gewichte ein 

-0,5 -0,5 0 0 0 0,5 0,5 

(Achtung, SPSS akzeptiert die Dezimalstelle nur als Punkt) 

und erwarten damit einen negativen Kontrastwert und t-Wert. Wollen wir ferner auf dem 5%- 

Niveau einseitig testen, so haben wir die zweiseitig ausgegebene Irrtumswahrscheinlichkeit p 

(„Signifikanz“) noch durch 2 zu dividieren und mit diesem α-Niveau zu vergleichen. 

Kontrast-Koeffizienten 

Kontrast 

1 

HAUSHALTSEINKOMMEN 

DM 

DM 

DM 

DM 

DM DM 3.200 

BIS DM 1.199 1.200-1.599 1.600-1.999 2.000-2.399 2.400-2.799 2.800-3.199 UND MEHR 

-.5 -.5 0 0 0 .5 .5 

Seite - 105 -


Kontrast-Tests 

P6 DEPR SUMME 

D01 BIS D15 

Abb. 79 Kontraste 

Kontrast 

Varianzen sind gleich 1 

Varianzen sind nicht 1 

gleich 

Kontrastwert 

Standardf 

ehler T df 

Signifikanz 

(2-seitig) 

-2.00 .515 -3.890 315 .000 

-2.00 .599 -3.348 71.541 .001 

Diese Division ist im vorliegenden Fall nicht notwendig, da bereits zweiseitig ein 

signifikantes Ergebnis besteht. 

Wichtige Aufgabe 

Bei einem t-Test für unabhängige Stichproben (Annahme: Varianzen sind gleich) werden die 

Mittelwerte zweier Gruppen/Stichproben miteinander verglichen, und der Standardfehler der 

Differenz wird aus den Varianzen der beiden Stichproben geschätzt. Nun liegen bei einer 

Varianzanalyse jedoch mehr als zwei Gruppen/Stichproben vor, so dass man den 

Standardfehler aus allen Stichproben schätzen könnte, nämlich mithilfe der Varianz 

„innerhalb“ aus der VA. Man würde dann einen t-Test mit mehr Freiheitsgraden erhalten, also 

mit einer höheren Teststärke. Überprüfen Sie, ob SPSS das macht, also bei den Kontrasten gar 

keinen „normalen“ t-Test mehr rechnet. 

15.2.3 MULTIPLE VERGLEICHSTESTS 

Taste POST HOC: Post Hoc meint a posteriori-Vergleiche. Solche kann man erwägen, wenn 

die VA signifikant ausgefallen ist, die Mittelwerte der entsprechenden Grundgesamtheiten 

also wahrscheinlich nicht alle gleich sind, der Faktor also wohl vermutlich einen Einfluss auf 

die AV ausübt. Dann könnte man im nachhinein darin interessiert sein, welche Mittelwerte 

sich unterscheiden, welche Differenzen zwischen ihnen also eigentlich für den signifikanten 

Ausfall der VA verantwortlich sind, und diese im nachhinein inhaltlich zu erklären versuchen. 

Man hatte darüber aber a priori keine inhaltlich begründbaren Hypothesen, so dass solche 

auch nicht gezielt mithilfe von Kontrasten getestet werden konnten. Es geht also um eine 

„Aufdeckung“ wesentlicher Varianzquellen im nachhinein, und streng zu beachten ist, dass 

solche Aufdeckungen hypothesengenerierend, aber nicht hypothesentestend sind. (Es ist nicht 

möglich, am selben Datensatz eine Hypothese zu erzeugen und sie aufgrund dieser Beobachtung 

bereits als bestätigt anzusehen.) 

SPSS bietet eine ganze Reihe von Post-Hoc-Tests an. 

(Die meisten werden z.B. bei Kirk, R.E. (1982), Experimental Design: Procedures for the behavioral sciences, 

beschrieben. In der UB, Zentralbibliothek, Freihandbereich mehrfach vorhanden. In der eigenen Bibliothek ist 

das Exemplar von 1982 dauerhaft verschwunden; es sind zwei Exemplare von 1968 da, die auch genügen; ferner 

ein Exemplar von 1995, das jedoch die Mitarbeiter des Instituts meistens entliehen haben; im übrigen ein gutes 

Buch zur Anschaffung, auch für das Hauptstudium. Es wird seinen Wert nicht verlieren.) 

Ihr Ansatz ist u.a., trotz vieler Vergleiche a posteriori eine Vergrößerung des α-Fehlers zu 

vermeiden. Die Idee der VA war ja, alle Mittelwerte durch nur einen Test zu vergleichen, also 

nicht alle Paare von Stichproben zu bilden und dadurch zu Massen-t-Tests zu kommen. Ein 

solches Vorgehen ist problematisch, weil diese Tests nicht unabhängig voneinander sind. Da 

jede aus einem einzelnen t-Test abgeleitete Schlussfolgerung mit einer gewissen 

Irrtumswahrscheinlichkeit behaftet ist, können viele t-Tests schnell bewirken, dass eine 

signifikante Mittelwertedifferenz auch dann unterstellt wird, wenn in Wirklichkeit gar kein 

Unterschied vorhanden ist, d.h. Zufallssignifikanz bzw. Vergrößerung des α-Fehlers. Bei 

einem Signifikanzniveau von z.B. 5% werden bei 100 Tests im Durchschnitt 5% 

zufallssignifikant ausfallen. Das Auftreten dieser zusätzlichen Wahrscheinlichkeit, etwas für 

signifikant zu halten, was es in Wahrheit nicht ist, lässt sich verringern bzw. vermeiden, wenn 

anstelle von t-Tests multiple Vergleichstests durchgeführt werden. Dazu gibt es verschiedene 

Verfahren, die hier bis auf den Scheffé-Test nicht diskutiert werden sollen. Wenn irgend 

Seite - 106 -


möglich, sollten nämlich nicht a posteriori Unterschiede zwischen Mittelwerten inhaltlich 

erklärt werden, d.h. erst im Nachhinein Hypothesen aufgestellt werden, sondern a priori, d.h. 

es sollten aufgrund inhaltlich-theoretischer Überlegungen gezielt aufgestellte Hypothesen mit 

entsprechend erwarteten Kontrasten getestet werden. 

15.2.3 SCHEFFÉ-TEST 

Kann also die Null-Hypothese, dass der Faktor keinen Effekt auf das abhängige Merkmal 

ausübt, nicht aufrecht erhalten werden, so stellt sich die Frage nach denjenigen 

Faktorenstufen, deren zugehörige Mittelwerte sich signifikant unterscheiden. Zur Ermittlung 

ist der Scheffé-Test empfehlenswert, weil er robust (gegenüber Verletzungen von 

Voraussetzungen unempfindlich), konservativ ist (erst relativ große Mittelwertsunterschiede 

werden als gesichert angesehen, d.h. Fehler 1. Art werden nicht so leicht begangen, nämlich 

die H 0 aufzugeben), eine Kumulation des α-Fehlers vermeidet und nicht nur auf Unterschiede 

zwischen einzelnen Gruppen angewendet werden kann, sondern auf Linearkombinationen der 

Mittelwerte überhaupt, wie wir sie bereits bei den Kontrasten kenngelernt haben. 

Bei den Kontrasten sind wir nicht von einer Kumulation des α-Fehlers ausgegangen, auch 

wenn wir mehrere Kontraste rechnen sollten. Wir haben dort nämlich bereits hervorgehoben, 

dass es immer nur einige wenige sein werden, weil jede Hypothese für sich begründet wurde, 

unabhängig von den anderen, so dass jede jetzt auch mittels eines Kontrastes für sich getestet 

wird, so dass auch das Ergebnis eines jeden Kontrast-Tests inhaltlich ein ganz bestimmte 

Rückmeldung gibt, und unabhängig von den anderen Kontrast-Tests. Wenn wir jede 

Hypothese aber für sich überprüfen, tritt das Problem einer Kumulation des α-Fehlers nicht 

auf. 

Das ist anders, wenn die Over-all-means-ANOVA signifikant ausfällt und man sich im 

nachhinein die Mittelwerte und zugehörige Konfidenzintervalle ansieht und spekulativ 

überlegt, aufgrund welcher Mittelwertedifferenzen die Signifikanz zustande gekommen sein 

könnte. Man kann dann u.U. sehr viele Linearkombinationen ausprobieren, man macht quasi 

ein ungeleitetes „snooping in the data“. Dann testet man keine jeweils spezifischen 

Hypothesen für sich mehr, sondern fortgesetzt die sehr allgemeine Hypothese, die der VA 

unterliegt, nämlich dass es überhaupt einen Unterschied zwischen den Gruppen gibt. Führt 

man jetzt viele t-Tests durch auf der Suche nach signifikanten Unterschieden, so wird t-Test 

für t-Test diese eine Hypothese immer wieder getestet. Wenn man aber dieselbe Hypothese 

wiederholt testet, gerät man in die Kumulation des α-Fehlers, denn es gilt, diese Hypothese zu 

entscheiden. 

Scheffé hat nun eine allgemeine Methode entwickelt, die einen konservativen Test in der 

Situation darstellt, dass man nach einer signifikant ausgefallenen VA im nachhinein viele 

Linearkombinationen der Mittelwerte testen möchte. Sein Test garantiert, dass die 

Wahrscheinlichkeit eines α-Fehlers für jeden beliebigen a posteriori durchgeführten 

Einzelvergleichstest nicht größer ist als das Signifikanzniveau α für den Overall-Test der VA. 

Der Nachweis kann hier nicht geführt werden. 

Ein Einzelvergleich ist nach Scheffé auf dem für die VA angegebenem α-Niveau signifikant, 

wenn der empirische F-Wert des Einzelvergleichs größer ist als der kritische Wert 

F´ = (k-1) * F (df1;df2;1 -α) 

wobei k die Anzahl der Stufen des Faktors und F (df1;df2;1-α) der kritische F-Wert für den F-Test 

in der VA darstellt, auch dessen Freiheitsgrade sind gemeint. 

Die bei den Kontrasten gezeigten Linearkombinationen kann man allgemein wie folgt 

schreiben 

Kontrast = c 1 M 1 + c 2 M 2 + ... c k M k 

Seite - 107 -


und jede solche Linearkombination stellt einen Vergleich der Mittelwerte dar, wenn Σc i = 0 

ist. Der empirische F-Wert wird wie folgt berechnet 

2 

( c1M 

1 

+ C2M 

2 

+ ... + ck 

) 

F = 

2 2 

2 

c1 

c2 

ck 

MQFehler( 

+ + ... + ) 

n1 

n2 

nk 

Wobei MQ Fehler das Mittlere Quadrat des Fehlers aus der Varianzanalyse darstellt, die 

Fehlervarianz „innerhalb“. Um signifikant zu werden, muss F also F´ überschreiten. 

Im Falle von nur zwei Gruppen (k = 2) stimmt der Scheffé-Test mit dem t-Test überein, bei k 

> 2 fordert er jedoch einen erheblich größeren F-Wert, um bei vorgegebenem 

Signifikanzniveau signifikant zu werden. Es wird also entsprechend dem Signifikanzniveau 

ein einzelner kritischer Wert berechnet, der überschritten werden muss, und der bei beliebig 

vielen Mittelwertsvergleichen/Linearkombinationen angelegt werden kann, bei gleichzeitigem 

Schutz, dass die Wahrscheinlichkeit, irgendein Ergebnis irrtümlich als signifikant zu 

deklarieren, höchstens α beträgt. 

Leider begnügt man sich bei der näheren a posteriori-Interpretation einer VA mithilfe des 

Scheffé-Tests meistens mit der Überprüfung der Differenzen für alle Mittelwertpaare. Für 

diesen Fall wird dann zwecks Verkürzung der Prozedur eine kritische Differenz berechnet, die 

von den empirischen Differenzen (Kontrasten) zu überschreiten sind, um als signifikant zu 

gelten. 

Abhängige Variable: P6 DEPR SUMME D01 BIS D15 

Scheffé-Prozedur 

(I) 

HAUSHALTSEINKOM 

MEN 

BIS DM 1.199 

DM 1.200-1.599 

DM 1.600-1.999 

DM 2.000-2.399 

DM 2.400-2.799 

DM 2.800-3.199 


(J) 


MEN 

DM 1.200-1.599 

DM 1.600-1.999 

DM 2.000-2.399 

DM 2.400-2.799 

DM 2.800-3.199 


BIS DM 1.199 

DM 1.600-1.999 

DM 2.000-2.399 

DM 2.400-2.799 

DM 2.800-3.199 


BIS DM 1.199 

DM 1.200-1.599 

DM 2.000-2.399 

DM 2.400-2.799 

DM 2.800-3.199 


BIS DM 1.199 

DM 1.200-1.599 

DM 1.600-1.999 

DM 2.400-2.799 

DM 2.800-3.199 


BIS DM 1.199 

DM 1.200-1.599 

DM 1.600-1.999 

DM 2.000-2.399 

DM 2.800-3.199 


BIS DM 1.199 

DM 1.200-1.599 

DM 1.600-1.999 

DM 2.000-2.399 

DM 2.400-2.799 


BIS DM 1.199 

DM 1.200-1.599 

DM 1.600-1.999 

DM 2.000-2.399 

DM 2.400-2.799 

DM 2.800-3.199 

*. Die mittlere Differenz ist auf der Stufe .05 signifikant. 

Mehrfachvergleiche 

Mittlere Standardf 

95%-Konfidenzintervall 

Differenz (I-J) ehler Signifikanz Untergrenze Obergrenze 

-1.18 .862 .932 -4.26 1.91 

.20 .850 1.000 -2.84 3.24 

.83 .773 .979 -1.93 3.59 

1.25 .790 .868 -1.57 4.07 

1.25 .785 .863 -1.55 4.05 

1.58 .727 .579 -1.02 4.18 

1.18 .862 .932 -1.91 4.26 

1.37 .800 .815 -1.49 4.23 

2.00 .717 .256 -.56 4.57 

2.42 .736 .097 -.21 5.05 

2.43 .730 .091 -.18 5.03 

2.76* .668 .010 .37 5.14 

-.20 .850 1.000 -3.24 2.84 

-1.37 .800 .815 -4.23 1.49 

.63 .703 .992 -1.88 3.14 

1.05 .722 .908 -1.53 3.63 

1.05 .716 .903 -1.50 3.61 

1.38 .652 .609 -.95 3.71 

-.83 .773 .979 -3.59 1.93 

-2.00 .717 .256 -4.57 .56 

-.63 .703 .992 -3.14 1.88 

.42 .628 .998 -1.82 2.66 

.42 .621 .998 -1.80 2.64 

.75 .547 .928 -1.20 2.71 

-1.25 .790 .868 -4.07 1.57 

-2.42 .736 .097 -5.05 .21 

-1.05 .722 .908 -3.63 1.53 

-.42 .628 .998 -2.66 1.82 

.00 .643 1.000 -2.30 2.30 

.33 .571 .999 -1.71 2.37 

-1.25 .785 .863 -4.05 1.55 

-2.43 .730 .091 -5.03 .18 

-1.05 .716 .903 -3.61 1.50 

-.42 .621 .998 -2.64 1.80 

.00 .643 1.000 -2.30 2.30 

.33 .564 .999 -1.68 2.35 

-1.58 .727 .579 -4.18 1.02 

-2.76* .668 .010 -5.14 -.37 

-1.38 .652 .609 -3.71 .95 

-.75 .547 .928 -2.71 1.20 

-.33 .571 .999 -2.37 1.71 

-.33 .564 .999 -2.35 1.68 

Abb. 79 Ergebnis des Scheffé - Tests 

Seite - 108 -


Wie man sieht, wird (nur) jede Stufe mit jeder anderen verglichen, also jeder Mittelwert mit 

⎛ 

jedem anderen, dabei M i nicht nur mit M j , sondern auch M j mit M i , also 2* 

k ⎞ 

⎜ ⎟ = 2*k*(k-1)/2 

⎝ 2 ⎠ 

= k*(k-1) = 7*6 = 42 Vergleiche. Dabei werden signifikante Mittelwertsdifferenzen mit 

einem Stern gekennzeichnet. Im vorliegenden Fall geschieht das nur einmal. 

Des weiteren folgen noch „Homogene Untergruppen“. Damit ist gemeint, dass innerhalb einer 

Gruppe sich der größte und der kleinste Mittelwert gemäß vorgegebenem α-Niveau nicht 

unterscheiden. 

Homogene Untergruppen 

a,b 

Scheffé-Prozedur 


MEN 


DM 2.800-3.199 

DM 2.400-2.799 

DM 2.000-2.399 

DM 1.600-1.999 

BIS DM 1.199 

DM 1.200-1.599 

Signifikanz 


Untergruppe für Alpha 

= .05. 

N 1 2 

86 1.71 

49 2.04 2.04 

47 2.04 2.04 

54 2.46 2.46 

32 3.09 3.09 

24 3.29 3.29 

30 4.47 

.550 .073 

Die Mittelwerte für die in homogenen Untergruppen 

befindlichen Gruppen werden angezeigt. 

a. Verwendet ein harmonisches Mittel für 

Stichprobengröße = 39.308. 

b. Die Gruppengrößen sind nicht identisch. Es wird das 

harmonische Mittel der Gruppengrößen verwendet. 

Fehlerniveaus des Typs I sind nicht garantiert. 

Abb. 80 Homogene Gruppen beim Scheffé – Test in diesem Bsp 

15. 3 Zwei- und höherfaktorielle Varianzanalysen 

Eine Warnung vorweg: Was schon bei der einfachen VA und den dortigen 

Mittelwertvergleichen galt, gilt erst recht jetzt und bei der zweifaktoriellen VA und noch 

höherfaktoriellen VA´s: Man sollte die Verfahren nicht missbrauchen, um zwischen allen 

möglichen Mittelwerten nach statistisch signifikanten Unterschieden herumzusuchen, also 

nicht auf Entdeckungsreise gehen. Das geschieht allerdings recht oft, offenbar immer 

dann, wenn die inhaltlichen Hypothesen sehr allgemein sind oder gar ganz fehlen („Mal 

sehen, ob etwas Signifikantes herauskommt“, als ob „Ergebnisse“ sich von selbst 

einstellen, bzw. nur entdeckt werden müssen, ohne Vorüberlegungen, sie einem wie im 

Schlaraffenland wie gebratene Tauben ins Maul fliegen. So kann man leider bei der 

zweifaktoriellen VA nicht nur die beiden Haupteffekte und die Interaktion „auf Signifikanz 

prüfen“, sondern bei allen drei Effekten auch die Mittelwerte in verschiedenster Weise 

vergleichen, alles auch ohne Hypothesen. Bei der dreifaktoriellen VA hat man dann schon 

drei Haupteffekte und vier Interaktionseffekte, also sieben Effekte, die kaum mehr 

übersehbare Zahl möglicher Mittelwertsvergleiche innerhalb der einzelnen Effekte nicht 

mehr gerechnet. Allgemein: Anzahl Effekte = 2 Anzahl Faktoren –1. Ohne spezifische inhaltlichtheoretische 

Hypothesen, die nur wenige und nur ganz bestimmte Vergleiche meinen, 

werden aber keine Hypothesen geprüft, sondern man probiert aufs Geradewohl herum. Die 

Übersetzung des griechischen Wortes „Hypothese“ lautet „Unterstellung“, also eine 

Annahme, das etwas „so“ ist, insbesondere die Annahme zur Erklärung bestimmter 

Tatsachen. Bedacht werden sollte auch, dass eine statistische Signifikanz eben nur eine 

Seite - 109 -


statistische ist, inhaltlich muss sie gar nichts bedeuten, so wie es inhaltlich hoch bedeutsam 

sein kann, dass zwischen bestimmten Mittelwerten keine signifikanten Differenzen zu 

beobachten sind. 

Das alles sollte umso mehr beachtet werden, als es heute schnell rechnende Computer gibt, 

die in Windeseile alles Mögliche zu rechnen gestatten. Das muss nicht unbedingt ein 

Vorteil sein. 

Bei der zweifaktoriellen VA liegen ein Zeilenfaktor mit k Stufen und ein Spaltenfaktor mit m 

Stufen vor, wobei die k*m Zellen-Zufalls-Stichproben unabhängig voneinander gezogen 

wurden. Irrtumswahrscheinlichkeiten werden berechnet für die beiden Haupteffekte sowie für 

den Interaktionseffekt, aber die Berechnung dieser Wahrscheinlichkeiten sollte nicht schon 

mit einer Prüfung auf Signifikanz gleichgesetzt werden. Dazu gehört noch der Vergleich mit 

dem α-Niveau. Wenn spezifische Hypothesen vorliegen, wird man häufig gar nicht an diesen 

Effekten selbst interessiert sein, sondern an ganz bestimmten Mittelwertsvergleichen, wie 

man sie mithilfe von a priori-Kontrasten rechnen kann. 

Das n der k*m Stichproben sollte möglichst gleich sein. Ist das nicht der Fall, so geht eine 

wichtige Eigenschaft der VA, die Unabhängigkeit bzw. Orthogonalität von Haupt- und 

Interaktionseffekten verloren. Man bezeichnet deshalb Varianzanalysen mit ungleich großen 

Stichproben auch als nichtorthogonale Analysen. Man kann in diesem Fall in verschiedener 

Weise vorgehen. 

Gleich große Stichproben werden in der Regel dann vorliegen, wenn die Daten die Ergebnisse 

geplanter Experimente sind, denen wohlüberlegte Hypothesen unterliegen. Bei 

Felduntersuchungen ist gleiches n jedoch meistens nicht der Fall. Dann wird die 

Varianzanalyse bei SPSS per Voreinstellung nach einem Verfahren von Yates („Method of 

weighted Squares of Means“ auch „Methode 1“ genannt) durchgeführt. Im Anschluss an die 

VA lassen sich paarweise Vergleiche der Zeilen- und Spaltenmittelwerte durchführen. Es 

kann auch ein Interaktionsdiagramm ausgegeben werden. Mithilfe der Syntax ist es ferner 

möglich, eine Prüfung der „einfachen Haupteffekte“ der Faktoren vorzunehmen. 

Obwohl die im Folgenden aufgerufene Prozedur viele Vergleiche ermöglicht, sind 

Berechnungen vom Versuchsplan her geforderter Kontraste mit ihr oft nicht möglich. Es 

sollte dann die Möglichkeit erwogen werden, die zwei- oder noch höherfaktorielle VA als 

einfaktorielle VA zu rechnen. Bei einer zweifaktoriellen VA mit k Zeilen und m Spalten z.B. ist 

dafür zunächst eine neue Variable mit k*M Stufen zu bilden. Diese ist dann als Faktor in die 

einfache VA einzugeben. Es könnten so gezielt geplante Vergleiche/Kontraste der k*m 

Mittelwerte möglich werden. 

Analysieren fi Allgemeines lineares Modell fi Univariat 

Abb. 81 Allgemeines Lineares Modell Univariat 

Seite - 110 -


Hier geben wir die abhängige Variable ein und unter FESTE FAKTOREN die beiden 

unabhängigen Variablen. Faktoren mit festen Effekten stellen den weitaus häufigsten Fall in 

der Forschung dar. Sie liegen dann vor, wenn die Faktorstufen gezielt bzw. systematisch 

ausgewählt wurden, also nicht durch eine Zufallsprozedur. Dagegen spricht man von einem 

Zufallsfaktor (random factor), wenn die Stufen durch eine solche Prozedur bestimmt werden, 

z.B., um den Einfluss eines Faktors „Persönlichkeit des Therapeuten“ zu realisieren, 

verschiedene Therapeuten dem Zufall nach gezogen werden. Über etwaige systematische 

Unterschiede zwischen den Therapeuten weiß man dann nichts. Schon gar nicht sind solche 

„wohl bedacht“ worden, d.h. eine theoretisch begründete Annahme unterschiedlicher 

Wirkungen auf die AV liegt nicht vor. Eher soll ausprobiert werden, ob das Ergebnis der 

Therapie vom Therapeuten abhängt. 

In dem über MODELL aufrufbaren Auswahlfeld sind keine Veränderungen vorzunehmen. 

Das voreingestellte und mit „Quadratsumme Typ III“ bezeichnete Verfahren entspricht der 

allgemein verwendeten „Methode 1“. Bei gleichem n pro Zelle entspricht das der üblichen 

VA. 

Die unter KONTRASTE möglichen Vergleiche zwischen den Zeilen- und Spalten-Mittelwerten 

dürften nur selten von Interesse sein. Wenn man sie dennoch aufrufen will, so ist als erstes 

der Faktor zu markieren, dessen Mittelwerte verglichen werden sollen. Voreingestellt sind 

„keine“ speziellen Kontraste, d.h. es werden keine durchgeführt. Sodann kann man im Dropdown-Menu 

auswählen, welche Mittelwerte wie verglichen werden sollen. Es bedeutet: 

a) Einfach: Vergleicht den Mittelwert jeder Faktorstufe mit dem Mittelwert einer 

angegebenen Faktorstufe. Man kann (jedoch nur) die erste oder letzte Faktorstufe 

auswählen. Z.B. bei 4 Stufen: 2-1, 3-1, 4-1. 

b) Differenz: Vergleicht den Mittelwert jeder Faktorstufe (außer der ersten) mit dem 

Mittelwert der vorhergehenden Faktorstufen. Z.B.: 2-1, 3-(1+2)/2, 4-(1+2+3)/3. 

c) Helmert: Vergleicht den Mittelwert jeder Stufe des Faktors (bis auf die letzte) mit dem 

Mittelwert der folgenden Stufen. Z.B.: 1-(2+3+4)/3, 2-(3+4)/2, 3-4. 

d) Wiederholt: Vergleicht den Mittelwert jeder Faktorstufe (außer der letzten) mit dem 

Mittelwert der folgenden Stufe. Z.B.: 1-2, 2-3, 3-4. 

e) Polynomial: Vergleicht den linearen, quadratischen, kubischen Effekt, usw. Die Kontraste 

können verwendet werden, um solche und weitere polynomiale Trends zu schätzen. Die 

weitere Eingabehilfe findet man für diesen Fall in der Syntaxstruktur. 

Diese Kontraste sind alle fest voreingestellt. Man kann sie auch nicht über die Syntax ändern 

(vgl. jedoch unten die Eingabe mithilfe des LMATRIX-Befehls). 

Bei den im Dialogfeld OPTIONEN 

Abb. 82 Optionen 

Seite - 111 -


aufrufbaren Kennwerten sollte zwischen dem Fall gleicher und ungleicher Zellengrößen 

unterschieden werden: 

a) Haben alle Zellen den gleichen Stichprobenumfang n, so gibt es nur eine Art von 

Zeilen- und Spalten-Mittelwerten. Zur Ausgabe aller Zellen- und Zeilen- und 

Spaltenkennwerte genügt es dann, die Option DESKRIPTIVE STATISTIK zu wählen. 

Im Feld MITTELWERTE ANZEIGEN FÜR sind dann keine Angaben zu machen. 

Klickt man HOMOGENITÄTSTEST an, so wird mithilfe des LEVENE-Tests geprüft, 

ob sich die Zellen-Varianzen signifikant voneinander unterscheiden. Eta-Quadrate zur 

Schätzung der Stärke der Haupt- und des Interaktionseffekts kann man über 

SCHÄTZER DER EFFEKTGRÖßE anfordern. 

b) Sind die Zellenumfänge dagegen ungleich, so sind gewichtete und ungewichtete 

Zeilen- und Spalten-Mittelwerte zu unterscheiden. Varianzanalysen nach Methode 1 

prüfen dann bei den Haupteffekten, ob signifikante Unterschiede zwischen den 

ungewichteten Mittelwerten bestehen. Diese werden ausgegeben, wenn der Zeilenund 

der Spaltenfaktor im Feld MITTELWERTE ANZEIGEN FÜR eingegeben 

werden. Die danach aufrufbare Option HAUPTEFFEKTE VERGLEICHEN meint 

(nur) den Fall paarweiser Mittelwertsvergleiche. 

15.3.1 Paarweise Vergleiche zwischen Zeilen- und Spalten-Mittelwerten 

Falls ein Faktor mit drei oder mehr Stufen einen statistisch signifikanten Einfluss auf die AV 

ausüben sollte (ein Haupteffekt), kann die Frage auftreten, zwischen welchen Mittelwerten 

der Faktorstufen sich Unterschiede absichern lassen. Zur Prüfung stellt SPSS über die Taste 

POST HOC wieder eine Reihe von Tests zur Verfügung, die schon bei der einfaktoriellen VA 

angeboten wurden. Dort hatten wir den Scheffé-Test als den konservativsten kurz erläutert. 

Man sollte wissen, dass alle angebotenen Post-Hoc-Verfahren ihre (nur paarweisen) 

Vergleiche mit den gewichteten Zeilen- bzw. Spalten-Mittelwerten durchführen: 

a) Das spielt im Fall gleicher Zellengrößen keine Rolle, da gewichtete und ungewichtete 

Mittelwerte dann übereinstimmen. Die VA der Haupteffekte und die folgenden 

Einzelvergleiche beziehen sich dann auf die gleichen Kennwerte. 

b) Bei ungleichen (disproportionalen) Zellengrößen ist das jedoch nicht so. Dann sind in den 

gewichteten Zeilen- und Spalten-Mittelwerten die Haupteffekte mehr oder weniger 

konfundiert. Die Einzelvergleiche müssten deshalb mit den ungewichteten Zeilen- und 

Spalten-Mittelwerten vorgenommen werden, so wie es bei der VA der Haupteffekte der 

Fall ist. Nur mit solchen Mittelwerten lassen vom jeweils anderen Faktor unabhängige 

Haupteffekte bestimmen. Bei ungleichen Zellengrößen sollten die Post-Hoc-Verfahren 

also nicht aufgerufen werden. 

(Nur paarweise) Vergleiche zwischen den ungewichteten Zeilen- und Spalten-Mittelwerten 

lassen sich jedoch über das Dialogfeld OPTIONEN aufrufen, indem dort unter 

MITTELWERTE ANZEIGEN FÜR die Faktoren eingefügt werden und anschließend 

HAUPTEFFEKTE VERGLEICHEN angeklickt wird. Dadurch wird das Feld ANPASSUNG 

DES KONFIDENZINTERVALLS aktiviert, dort sollte am besten die Bonferroni- 

Adjustierung gewählt werden (unter Annahme der Homogenität der Varianzen). Beließe man 

es bei der Voreinstellung „LSD (kein)“, würden bei den einzelnen Vergleichen nicht 

adjustierte p-Werte ausgegeben werden. (LSD meint Least significant difference, d.h. dass 

alle paarweisen Vergleiche von Mittelwerten durchgeführt werden, ohne dass eine α- 

Adjustierung erfolgt.) So aber werden die p-Werte wie folgt umgerechnet: p Bon = (k *(k-1)/2) 

* p LSD , wobei k die Anzahl der Stufen des Faktors ist und k*(k-1)/2 die Anzahl der Paare der 

Stufen. Die adjustierten p´s können dann direkt mit dem gewählten α-Niveau verglichen 

werden, der auch unter SIGNIFIKANZNIVEAU eingegeben werden sollte. 

Seite - 112 -


Ob man allerdings an nur paarweisen Vergleichen von den Hypothesen her interessiert ist, ist 

eine andere Frage. Nur weil SPSS sie anbietet, muss man sie noch lange nicht rechnen. 

15.3.2 Interaktionsdiagramm 

Eine graphische Darstellung der Interaktion zwischen dem Zeilen- und Spaltenfaktor kann 

über die Taste DIAGRAMME im ersten Dialogfeld aufgerufen werden. Unter 

HORIZONTALE ACHSE wird der Faktor eingegeben, dessen Stufen die horizontale Achse 

bilden sollen, und unter SEPARATE LINIEN entsprechend der andere Faktor. Danach ist das 

Faktorenpaar durch die Taste HINZUFÜGEN in das Feld DIAGRAMME einzubringen. 

KLICKT man sodann WEITER an, erhält man das Diagramm. 

In der Regel ist das Diagramm noch nachzubearbeiten. So sind sicherlich die voreingestellten 

Beschriftungen „Geschätztes Randmittel ...“ durch eigene Texte zu ändern, oder es soll ein 

Abstand zwischen den Anfangs- bzw. Endpunkten des Diagramms und den senkrechten 

Rändern der Einfassung eingefügt werden. Dazu ist der Diagramm-Editor durch zweimaliges 

Hineinklicken in das Diagramm aufzurufen. Im Diagramm-Editor sind die Punkte 

DIAGRAMME/OPTIONEN aufzurufen. Über die Option MARKIERUNGEN INNERHALB 

KATEGORIEN VERBINDEN werden die Abstände des Diagramms vom Rand eingeführt. 

Dabei werden leider auch senkrechte Linien zwischen den Punkten eingeführt. Man kann 

dieser aber verschwinden lassen, indem man eine dieser Linien anklickt und sie dann über 

FORMAT/FARBE mit der Farbe weiß übertüncht. Auch kann man die Beschriftungen 

„Geschätztes Randmittel“ beseitigen und durch neue Beschriftungen ersetzen, indem man in 

die jeweilige Beschriftung hineinklickt und den entsprechenden im erscheinenden Dialogfeld 

löscht und durch einen treffenderen ersetzt. 

Im Folgenden rechnen wir das Beispiel einer zweifaktoriellen VA aus Kirk, 1968, S. 175. Der 

2 *4-Datensatz sieht wie folgt aus: 

a1 

b1 

3 

6 

3 

3 

a1 

b2 

4 

5 

4 

3 

a1 

b3 

7 

8 

7 

6 

a1 

b4 

7 

8 

9 

8 

a2 

b1 

1 

2 

2 

2 

a2 

b2 

2 

3 

4 

3 

a2 

b3 

5 

6 

5 

6 

a2 

b4 

10 

10 

9 

11 

Er hat also mit n = 4 ein gleiches N pro Zelle. 

Um mithilfe von SPSS eine VA rechnen zu können, müssen in die Datenmatrix von SPSS 

drei Variablen eingegeben werden. Die erste Variable ist die Variable (der Faktor) A, die nur 

zwei Werte aufweist, die zweite Variable ist die Variable B, die vier Werte hat. Die dritte 

Variable ist die AV, d.h. die 2*4*4 Messwerte. Wir geben die Daten in lexikographischer 

Folge ein, also zuerst von der Faktorenkombination a1bl alle Messwerte, dann von der 

Kombination a1b2 alle Messwerte, usw. Die erste Vp wird also die Daten 1 1 3 erhalten, die 

zweite 1 1 6, die fünfte 1 2 7, die letzte 2 4 11. Insgesamt wird die Datenmatrix 32 Zeilen 

und drei Spalten haben. 

Seite - 113 -


Der Output sieht nun wie folgt aus (bitte nachrechnen): 

GET 

FILE='C:\Dokumente und Einstellungen\EDV-Laptop\Eigene Dateien\KIRK.sav'. 

UNIANOVA 

var00003 BY var00001 var00002 

/METHOD = SSTYPE(3) 

/INTERCEPT = INCLUDE 

/PLOT = PROFILE( var00002*var00001 ) 

/PRINT = DESCRIPTIVE 

/CRITERIA = ALPHA(.05) 

/DESIGN = var00001 var00002 var00001*var00002 . 

Zunächst haben wir uns per Voreinstellung die Syntax der angeklickten Befehle ausgeben 

lassen. Wie man das macht, ist unter „Syntax“ beschrieben. 

Sodann folgt das Ergebnis der VA, dabei haben wir unter OPTIONEN zusätzlich 

DESKRIPTIVE STATISTIK angeklickt. Der Output sieht wie folgt aus: 

Univariate Varianzanalyse 

Zwischensubjektfaktoren 

VAR00001 

VAR00002 

1.00 

2.00 

1.00 

2.00 

3.00 

4.00 

N 

16 

16 

8 

8 

8 

8 

Abb. 83 Zwischensubjektfaktoren 

Deskriptive Statistiken 

Abhängige Variable: VAR00003 

VAR00001 

1.00 

2.00 

Gesamt 

VAR00002 

1.00 

2.00 

3.00 

4.00 

Gesamt 

1.00 

2.00 

3.00 

4.00 

Gesamt 

1.00 

2.00 

3.00 

4.00 

Gesamt 

Mittelwert 

Abb. 84 Deskriptive Statistiken 

Standardab 

weichung 

3.7500 1.50000 4 

4.0000 .81650 4 

7.0000 .81650 4 

8.0000 .81650 4 

5.6875 2.12034 16 

1.7500 .50000 4 

3.0000 .81650 4 

5.5000 .57735 4 

10.0000 .81650 4 

5.0625 3.31600 16 

2.7500 1.48805 8 

3.5000 .92582 8 

6.2500 1.03510 8 

9.0000 1.30931 8 

5.3750 2.75622 32 

Es folgt nun das eigentliche Ergebnis der VA, das etwas erklärungsbedürftig überschrieben 

worden ist. 

N 

Seite - 114 -



Quelle 

Korrigiertes Modell 

Konstanter Term 

VAR00001 

VAR00002 

VAR00001 * VAR00002 

Fehler 

Gesamt 

Korrigierte 

Gesamtvariation 

Tests der Zwischensubjekteffekte 

Quadratsum 

Mittel der 

me vom Typ III df Quadrate F Signifikanz 

217.000 a 7 31.000 40.216 .000 

924.500 1 924.500 1199.351 .000 

3.125 1 3.125 4.054 .055 

194.500 3 64.833 84.108 .000 

19.375 3 6.458 8.378 .001 

18.500 24 .771 

1160.000 32 

235.500 31 

a. R-Quadrat = .921 (korrigiertes R-Quadrat = .899) 

Abb. 85 Test der Zwischensubjektfaktoren 

Die Begriffe „Korrigiertes Modell“ und „Konstanter Term“ erläutern wir nicht. Es würde hier 

zu weit führen. Die übrigen Ergebnisse entsprechen den Ergebnissen von Kirk, S. 176. 

„Fehler“ meint hier die Variation „innerhalb“. Die Quadratsummen der Faktoren 1 und 2, der 

Interaktion und die Fehlerquadratsumme (hier „innerhalb“) addieren sich zu der (korrigierten) 

Gesamtvariation (Quadratsumme total). Gleiches gilt für die Freiheitsgrade. Die Mittel der 

Quadrate ergeben sich, indem man die Quadratsummen durch die zugehörigen Freiheitsgrade 

dividiert. Die F-Werte der drei Effekte werden berechnet, indem man die entsprechenden 

mittleren Quadrate durch das mittlere Quadrat „Fehler“ teilt. 

Er folgt noch das Diagramm der Interaktion, das wir ebenfalls angefordert haben und 

entsprechend der obigen Beschreibung veränderten. 

Profildiagramm 

12 

Interaction between A and B 

10 

Measure of Marble Dropping 

8 

6 

4 

2 

0 

1.00 

2.00 

3.00 

4.00 

VAR00001 

1.00 

2.00 

Level of Social Deprivation 

Abb. 86 Interaktionsdiagramm 

15.3.3 Analyse der einfachen Haupteffekte (Bedingte Haupteffekttests) 

Sie wird in der Literatur empfohlen, um einen a posteriori festgestellten signifikanten 

Interaktionseffekt näher zu explorieren. Als bedingte Haupteffekte bezeichnet man die 

Unterschiedlichkeit der Stufen des Faktors A unter den Stufen des Faktors B, und umgekehrt. 

Falls mehrere bedingte Haupteffekte a posteriori an der Fehlervarianz (innerhalb) getestet 

Seite - 115 -


werden, sollte der Satz bedingter Haupteffekthypothesen analog zum Scheffé-Test „familywise“ 

auf einem nominellen α-Niveau abgesichert werden. Wir gehen hier nicht näher darauf 

ein. Gute Literatur (wie z.B. Kirk) sollte dann zu Rate gezogen werden. 

b 1 b 2 b 3 b 4 

a 1 M 1 M 2 M 3 M 4 

a 2 M 5 M 6 M 7 M 8 

a 3 M 9 M 10 M 11 M12 

Es wird also für jede Zeile varianzanalytisch geprüft, ob zwischen ihren Zellenmittelwerten 

signifikante Unterschiede bestehen. Ist das der Fall, kann anschließend mittels paarweiser 

Kontraste untersucht werden (bedingte Einzelvergleiche), welche der Mittelwerte sich 

voneinander unterscheiden. 

Anschließend kann Gleiches auch für jede Spalte geschehen. 

Möglich ist alles jedoch nur mithilfe der Syntax, mit dem dortigen LMATRIX-Befehl. 

Dabei weisen die zur Prüfung der einzelnen Effekte berechneten F-Brüche im Nenner das 

Mittlere Quadrat „innerhalb“ der Gesamtvarianzanalyse auf, weil dieses auf die Streuung 

„innerhalb“ aller Zellen beruht und somit eine höhere Teststärke ermöglicht. Das darf jedoch 

nur gemacht werden, wenn die Annahme gleicher Populationsvarianzen beibehalten werden 

konnte (Levene-Test). 

Wir rechnen im Folgenden einige der simple main effects nach, die Kirk (1968) auf der Basis 

seines Beispiels S. 179 bringt. Die Mittelwerte des Plans sind die folgenden: 

b 1 b 2 b 3 b 4 

a 1 3.75 4 7 8 

a 2 1,75 3 5,5 10 

Im oben bereits gerechneten Kirk-Beispiel sahen wir zunächst die Syntaxbefehle, die sich aus 

unseren angeklickten Befehle ergaben. Wie wir noch wissen, erhalten wir sie auch, wenn wir 

nach dem Anklicken dieser Befehle statt der Taste OK die Taste EINFÜGEN betätigen, und 

das damit der Syntax-Editor aufgerufen wird. Wir zeigen die Syntax-Befehle nochmal: 

GET 

FILE='C:\Dokumente und Einstellungen\EDV-Laptop\Eigene Dateien\KIRK.sav'. 

UNIANOVA 

var00003 BY var00001 var00002 



/PLOT = PROFILE( var00002*var00001 ) 

/PRINT = DESCRIPTIVE 

/CRITERIA = ALPHA(.05) 


Wir erkennen, dass die Prozedur UNIANOVA aufgerufen worden ist, und wir wissen auch 

noch, wie wir uns über die Syntax dieses Befehls näher informieren können. Das soll hier 

daher nicht wiederholt werden. 

Wir können nun LMATRIX-Befehle zum Zwecke der Berechnung einfacher Haupteffekte 

sowie von Einzelvergleichen innerhalb bedingter Haupteffekte wie folgt einfügen: 

UNIANOVA 

var00003 BY var00001 var00002 



/LMATRIX "Einzeleffekte der VAR2 auf die 1. Stufe der VAR1" 

var00002 1 -1 0 0 var00001*var00002 1 -1 0 0 0 0 0 0; 

var00002 1 0 -1 0 var00001*var00002 1 0 -1 0 0 0 0 0; 

var00002 1 0 0 -1 var00001*var00002 1 0 0 -1 0 0 0 0; 

Seite - 116 -


/LMATRIX "Effekt von VAR1 auf die Stufe b1 (von VAR2)" 

var00001 1 -1 var00001*var00002 1 0 0 0 -1 0 0 0 

/LMATRIX "Effekt von VAR1 auf die Stufe b2" 

var00001 1 -1 var00001*var00002 0 1 0 0 0 -1 0 0 

/LMATRIX "Effekt von var1 auf die Stufe b3" 

var00001 1 -1 var00001*var00002 0 0 1 0 0 0 -1 0 

/LMATRIX "Effekt von var1 auf die Stufe b4" 

var00001 1 -1 var00001*var00002 0 0 0 1 0 0 0 -1 


Wir haben hier folgende Auswahl von Kontrasten angesteuert: 

Im ersten LMATRIX-Befehl sollen Mittelwerte der ersten Zeile verglichen werden, und zwar 

M 1 -M 2 , M 1 -M 3 , M 1 -M 4 . Der Vergleich mithilfe von Kontrastkoeffizienten wird quasi zweimal 

eingegeben, einmal für den 2. Faktor (var00002), und einmal für die Faktorenkombination, 

die ja aus 2*4 = 8 Mittelwerten besteht, in der Reihenfolge erste Zeile zweite Zeile. 

Wir haben hier aus Platzgründen auf weitere Vergleiche in der ersten Zeile verzichtet, und 

Vergleiche für die zweite Zeile gar nicht angefordert. 

Wenn wir nun Vergleiche für einzelnen Spalten aufrufen wollen, so kann, weil Faktor A nur 

zwei Stufen hat, für jede Spalte (Stufe von B) nur ein Vergleich aufgerufen werden. Wir 

haben den LMATRIX-Befehl für alle vier Stufen von B ausgeführt. 

Nun zu den Ergebnissen (bitte nachrechnen): 

Benutzerdefinierte Hypothesentests Nr. 1 

Kontrastergebnisse (K-Matrix) a -.250 

Kontrast 

L1 

Kontrastschätzer 

Hypothesenwert 

Differenz (Schätzung - Hypothesen) 

Abhängige 

Variable 

VAR00003 

0 

-.250 

L2 

L3 

Standardfehler 

Signifikanz 


für die Differenz 


Untergrenze 

Obergrenze 




Signifikanz 





Untergrenze 

Obergrenze 



Signifikanz 



Untergrenze 

Obergrenze 

.621 

.691 

-1.531 

1.031 

-3.250 

0 

-3.250 

.621 

.000 

-4.531 

-1.969 

-4.250 

0 

-4.250 

.621 

.000 

-5.531 

-2.969 

a. Basiert auf der (L')-Matrix der benutzerdefinierten 

Kontrastkoeffizienten: Einzeleffekte der VAR2 auf die 1. Stufe der 

VAR1 

Abb. 87 Kontrastergebnisse Hypothesentests Nr. 1 

Seite - 117 -


Es sind für die erste Zeile von A drei Kontraste eingegeben worden, „Kontrastschätzer“ 

bedeutet die Differenz der beiden Mittelwerte, ebenso wie die „Differenz“ selbst. 

Die folgenden „Testergebnisse“ meinen die VA der ersten Zeile a 1 , bei Kirk (S. 181) „ B at 

a 1 “ genannt, d.h. Prüfung aller vier Mittelwerte der ersten Zeile auf Signifikanz. 


Quelle 

Kontrast 

Fehler 

Testergebnisse 

Quadrats 

Mittel der 

umme df Quadrate F Signifikanz 

54.688 3 18.229 23.649 .000 

18.500 24 .771 

Abb. 88 Testergebnisse Hypothesentests Nr. 1 

Es folgen die vier Spaltenvergleiche. Dabei sind bei einem Faktor mit nur zwei Stufen die 

„Kontrastergebnisse“ und die „Testergebnisse“ identisch, da nur ein Kontrast pro Bedingung 

vorliegt. Bei einer Beurteilung der Kontraste auf Signifikanz sollte noch entschieden werden, 

ob gezielte a priori-Kontraste vorliegen, oder ob hier im Nachhinein Kontraste gerechnet 

werden, auf der (systematischen) Suche nach „signifikanten“ Unterschieden zwischen 

Mittelwerten. Im zweiten Fall sollte eine Kumulation des α-Fehlers vermieden werden, d.h. 

z.B. das α-Niveau nach Bonferroni adjustiert werden. 


a 

Kontrastergebnisse (K-Matrix) 

Kontrast 

L1 




Abhängige 

Variable 

VAR00003 

2.000 

0 

2.000 


Signifikanz 



Untergrenze 

Obergrenze 

.621 

.004 

.719 

3.281 


Kontrastkoeffizienten: Effekt von VAR1 auf die Stufe b1 (von VAR2) 



Quelle 

Kontrast 

Fehler 

Quadrats 

umme 


8.000 1 8.000 10.378 .004 

18.500 24 .771 


df 

Mittel der 

Quadrate F Signifikanz 

Das ist z.B. der Vergleich des Mittelwerts der Zelle a 1 b 1 mit dem Mittelwert der Zelle a 2 b 1 , 

bei Kirk S. 182 „A at b1“ genannt. Wie man sich überzeugen kann, stimmen alle 

Nachrechnungen. 

Entsprechend die folgenden drei Tests. 


Seite - 118 -


Kontrastergebnisse (K-Matrix) a 1.000 

Kontrast 

L1 




Abhängige 

Variable 

VAR00003 

0 

1.000 


Signifikanz 



Untergrenze 

Obergrenze 


Kontrastkoeffizienten: Effekt von VAR1 auf die Stufe b2 

.621 

.120 

-.281 

2.281 



Quelle 

Kontrast 

Fehler 


Quadrats 

Mittel der 


2.000 1 2.000 2.595 .120 

18.500 24 .771 



Kontrastergebnisse (K-Matrix) a 1.500 

Kontrast 

L1 




Abhängige 

Variable 

VAR00003 

0 

1.500 


Signifikanz 



Untergrenze 

Obergrenze 


Kontrastkoeffizienten: Effekt von var1 auf die Stufe b3 

.621 

.024 

.219 

2.781 



Quelle 

Kontrast 

Fehler 


Quadrats 

Mittel der 


4.500 1 4.500 5.838 .024 

18.500 24 .771 


Seite - 119 -



Kontrastergebnisse (K-Matrix) a -2.000 

Kontrast 

L1 




Abhängige 

Variable 

VAR00003 

0 

-2.000 


Signifikanz 



Untergrenze 

Obergrenze 


Kontrastkoeffizienten: Effekt von var1 auf die Stufe b4 

.621 

.004 

-3.281 

-.719 



Quelle 

Kontrast 

Fehler 


Quadrats 

Mittel der 


8.000 1 8.000 10.378 .004 

18.500 24 .771 


Seite - 120 -

Download PDF 2000kb - Psychologie-studium.info

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?