(y) von

Seminar: Multivariate Verfahren 

Leitung: Dr. Thomas Schäfer 

Referenten: Wiebke Hoffmann, Claudia Günther 

18.05.2010

Regressionsanalyse – was war das nochmal? 

 

Grundlagen 

•Einfaches lineares Regressionsmodell 

•Strukturformel 

 

Multiple lineare Regression 

• Globale Gütemaße 

• Voraussetzungen 

• Methoden für Prädiktorenauswahl 

• Dummy-Variablen

Regressionsanalyse

• Analyse von Zusammenhängen zwischen Variablen (X,Y) 

• Vorhersage der Y-Werte aus X-Werten 

• Versuch, die Y-Werte auf die X-Werte „zurückzuführen“ 

Regressionstypen 

linear 

nicht-linear 

eine UV Lineare Einfachregression Nichtlinear, 

Einfachregression 

X 

Y 

mehrere UV Lineare multiple l Regression Nichtlinear, multiple 

l 

Regression 

X 1 

X 2 

Y

X 1 , X 2 ,… X i 

Y 

Prädiktor(en) 

Regressor(en) 

UV 

Bsp: 

Funktionen von Musik 

Kriterium 

Regressand 

AV 

Bsp: 

Beliebtheitsgrad von Musik

Musik 1 – Klavier 

Musik 2 - Rock 

Musik 3 – Pop 

Musik 4 – Club 

Musik 5 - Hip Hop

y 

Wovon ist es abhängig, 

ob ich eine bestimmte 

Musik mag 

(Musikpräferenz)? 

x 1 , x 2 … x i 

…hilft mir zu entspannen. 

…wühlt mich auf. 

…regt mich zum Tanzen oder 

zur Bewegung an. 

…ist Gesprächsthema 

zwischen mir und Freunden/ 

Bekannten 

N = 22 

…hilft mir beim Nachdenken

Analyse des stochastischen Zusammenhangs 

zwischen einer Zielgröße Y und mehreren 

Einflussgrößen X i bei verbundenen Stichproben 

(Variabilität von Y durch die Variabilitäten der X i erklären) 

Welchen stochastischen Zusammenhang gibt es zwischen 

der Musikpräferenz (Y) und verschiedenen Funktionen 

von Musik (X i )? 

Vorhersage der Werte einer Variable (Kriterium = Y) 

bei Kenntnis der Werte der anderen Variable 

(Prädiktor = X) 

Durch welche Funktionen von Musik kann man am besten 

die Musikpräferenz vorhersagen?

1. Zusammenhänge aufzeigen 

• Welcher Zusammenhang besteht zwischen einer 

Zielgröße (abhängig) und möglichen Einflussgrößen 

• Beispiel: Welche Faktoren beeinflussen die 

Bewertung der Pflege durch Bewohner in der 

stationären Altenpflege 

2. Einflussgrößen quantifizieren 

• Wie groß ist der Einfluss einer bestimmten Variablen 

auf die Zielgröße? 

• Beispiel: Wie groß ist der Einfluss des 

Zigarettenkonsum von Schwangeren auf die 

Fehlgeburtenrate?

Ursachenanalysen: 

Wie stark ist der Einfluss von X auf Y? 

Wirkungsanalysen: 

ik Wie verändert sich Y bei Veränderung von X? 

Zeitreihenanalysen: 

Wie verändert sich Y im Zeitverlauf? Prognose!

Regressionsanalyse 

•Einfaches lineares Regressionsmodell 

•Strukturformel 

•Regressionskoeffizienten g 

b i 

•Regressionskonstante b 0 

•Kriterium der kleinsten Quadrate

Grundidee: Vorhersage einer Ausprägung 

einer abhängigen Variable durch 

eine andere (unabhängige) 

Variable! 

Aus einem Datensatz entwickelt man eine 

Vorhersage-Gleichung, h die in diesen 

Datensatz die bestmögliche Vorhersage 

treffen würde 

Ähnlichkeit zur Korrelation 

Keine ‚echte‘ Kausalität!

Prinzip: Es wird eine Gerade ermittelt, 

die den Zusammenhang zwischen x und y 

beschreibt. 

y 

x

y 

Wovon ist es abhängig, 

ob ich eine bestimmte 

Musik mag 

(Musikpräferenz)? 

x 1 , x 2 … x i 

…hilft mir zu entspannen. 

…wühlt mich auf. 

…regt mich zum Tanzen oder 

zur Bewegung an. 

…ist Gesprächsthema 

zwischen mir und Freunden/ 

Bekannten 

N = 22 

…hilft mir beim Nachdenken

vorhergesagter y-Wert 

der Person i 

X-Wert der Person i 

yˆ 

i 

= b0 

+ 

b 

i 

⋅ 

x 

i 

additive Konstante 

(y-Achsen-Abschnitt), 

b 0 =a 

Regressionskoeffizient 

(Steigung)

= „ß-Gewichte“ ß der einzelnen Pädikt Prädiktorvariablen i (auch 

Partialregressionskoeffizienten) 

relativer Einfluss einer Prädiktorvariablen auf das 

Kriterium 

Das größte ß symbolisiert den größten Einfluss 

ß kann zwischen – 1 und 1 schwanken 

Extremere Betas Probleme mit dem Modell 

Interpretation: ändert sich x um eine 

Standartabweichung, dann ändert sich y 

um ß 

Standartabweichungen 

b i = 

r 

xy 

s 

s 

y 

x

= Schnittpunkt mit der y-Achse 

Wenn man über eine Person gar nichts weiß und ein Kriterium 

(y) schätzen soll, dann ist der Mittelwert dieses Kriteriums (y) 

von einer Vielzahl bekannter Personen die beste Schätzung. 

b 

0 

= 

y 

−bx 

i

y 

ˆ 

i 

= b0 

+ 

b 

i 

⋅ 

x 

i 

Die Parameter b 0 und b i werden aus den Merkmalsdaten x 

und y nach der Methode der kleinsten Quadrate (auch 

Kleinste-Quadrate-Schätzung oder kurz KQ-Schätzung 

genannt) berechnet (geschätzt).

Für einen Datensatz (eine Punktewolke) werden 

b 0 und b i so gewählt, dass der quadrierte 

Vorhersagefehler über alle Probanden minimal 

ist: 

N 

y − 

yˆ 

( ) min 

∑ 

2 

1 = 

i =1 i i 

Für die Ermittlung der Regressionsgleichung 

wird id die Differenz der tatsächlichen tählih von den 

vorhergesagten y-Werten also quadriert. Das 

hat 2 Vorteile… 

1. Abweichungswerte sind immer positiv. 

2. Große Abweichungen werden stärker berücksichtigt als 

kleine Abweichungen. 

yˆ 

= b 

i 

0 

+ 

b 

i 

⋅ 

x 

i

y-Wert der Person i 

Regressionskoeffizient (Steigung) 

y = b0 + 

b 

i 

⋅ 

x 

+ 

e V h g 

i i 

= 0 Vorhersagefehler 

additive Konstante 

(y-Achsen-Abschnitt) 

X-Wert der Person i 

…entspricht dem ALM.

Analysieren Regression Linear…

Festlegen von x (AV) und y (UV) 

AV – Präferenz 

UV - nachdenken

Modelle: Aufgenommene und entfernte Variablen + 

Methode (Einschluss) 

Varianzaufklärung: 

Globale Gütemaße: 

R 2 *100% Varianz ergibt den 

Wie gut gibt die Regressionsfunktion, die 

prozentualen Anteil der 

beobachteten Daten wieder ? 

erklärten Varianz an der 

Gesamtvarianz. Im Beispiel 

also 42,6%. 

KORRIGIERTER DETERMINATIONSKOEFFIZIENT: 

‐je mehr Prädiktoren eingehen, umso stärker muss R 2 nach 

unten korrigiert werden

t-Test zur Überprüfung der Signifikanz 

der Koeffizienten (getestet wird die H 0 , 

dass der Koeffizient in der Population 

Null ist, dass also der Prädiktor 

unbedeutend ist) 

unstandardisierte 

Werte für b 0 und b i 

y 

ˆ 

i 

= b0 

+ 

b 

i 

⋅ 

x 

y = 4,681 + 0,458*x 

i 

standardisierter 

Wert für b i 

z B wenn Klaviermusik in höchstem Maße (= 10) beim Nachdenken 

z.B. wenn Klaviermusik in höchstem Maße (= 10) beim Nachdenken 

hilft, ist die Vorhersage für die Musikpräferenz 9,2 

(9,261 = 4,681+0,458*10).


(1) Globale Gütemaße 

(2) Voraussetzungen 

(3) SPSS – Welche Methode wählen wir?

Hier gibt es im Gegensatz zur einfachen 

linearen Regression mehrere Prädiktoren. 

ˆ 0 2 

i i 

y i = b 0 

+ 

b 

1 

x 

1 

+ 

b 

2 

x 2 

+ ... 

+ 

b 

x

Analysieren Regression Linear…

Wie präzise sagt die Regressions- 

gleichung die Werte der 

Kriteriumsvariablen vorher? 


a) Multipler Korrelationskoeffizient R 

b) Multipler Determinationskoeffizient R 

2 

c) Standardschätzfehler s e 

d) F-Statistik

… entspricht der Korrelation zwischen vorhergesagten und 

tatsächlichen y-Werten. 

… ist ein Maß für den Zusammenhang des Kriteriums mit allen 

berücksichtigten Prädiktoren. 

…sagt aus, „wie gut“ die Vorhersage ist.

Kann unser Regressionsmodell überhaupt 

signifikant Varianz in der AV aufklären? 

Gesamte 

Varianz von 

y 

unerklärte 

Varianz = 

Fehlervarianz = 

Residuenvarianz 

y-^y 

erklärte Varianz 

= Varianz von ^y

Wieviel Varianz wird aufgeklärt? 

R 2 gibt die Gesamtvarianzaufklärung wieder. 

R 2 = 0,815 = 

67,907 

(erklärte Varianz) 

________ 

83,318 

(Gesamtvarianz)

(auch Bestimmtheitsmaß th it genannt) 

… gibt an, welcher Anteil der Varianz des Kriteriums durch alle 

Prädiktoren aufgeklärt werden kann bzw. wie viel Prozent 

Streuung in der abhängigen Variable sich auf die unabhängige(n) 

Variable(n) zurückführen lassen. 

… wird in der Regel geringer ausfallen, als die Summe der 

einzelnen Determinationskoeffizienten, weil die Prädiktoren 

zumeist redundante Informationen über das Kriterium enthalten. 

K 

∑ 

( yˆ 

k= 

1 

R² 

= 

K 

( y 

∑ 

k= 1 

k 

− y)² 

− y)² 

yk y 

= 

erklärte Streung 

Gesamtstreuung

Achtung! 

Man kann R² künstlich durch die Zahl der Prädiktoren 

erhöhen, da R² nie kleiner werden kann, wenn die Zahl der 

Prädiktoren steigt. 

Je mehr Prädiktoren, desto mehr wird R² „überschätzt“! 

korrigiertes R²

Warum wird R-Quadrat korrigiert? 

Je mehr UV in die Berechnung eingehen, desto eher wird ihr Einfluss überschätzt. 

• Je mehr Prädiktoren man benutzt, desto wichtiger ist es das korrigierte R-Quadrat zu 

benutzen und desto stärker weicht dieses von R-Quadrat ab. 

• … korrigiert auch um die Größe der Stichprobe (N), wobei gilt: Je größer die 

Stichprobe, desto eher entspricht das korrigierte dem originalen R-Quadrat. 

Wie? 

indem Bestimmtheitsmaß th it um eine Korrekturgröße vermindert wird 

Fazit: 

Das korrigierte R-Quadrat wird besonders bei der Verwendung vieler UV und/ oder 

kleiner Stichproben benutzt.

… ist die Standardabweichung d der Residuen. 

Je geringer der Fehler, desto genauer die Vorhersage. 

… ist ein Maß dafür, wie stark die wahren Kriteriumswerte (y- 

Werte) von den vorhergesagten Werten abweichen. 

… gibt die Streuung der y-Werte um die Regressionsgerade an: 

s 

n 

∑( 

y − 

ˆ 

)² 

i 

y i 

i= 

1 

2 

y. x 

= 

= sy 

⋅ 1− 

rxy 

n

… prüft jeden einzelnen Prädiktor auf statistische i Signifikanz. ifik 

Im vorliegenden Fall können „nachdenken“ und „aufstehen“ auf 

dem 5 %-Signifikanzniveau abgesichert werden.

Besitzt das geschätzte Modell auch über die Stichprobe hinaus 

für die Grundgesamtheit Gültigkeit? 

… testet, ob alle im Schätzmodell enthaltenen UV gemeinsam keinen 

Einfluss auf die AV ausüben. 

Der F-Wert ist mit einem p-Wert von < 0,05 statistisch 

signifikant. 

Bei Werten < 0,05 erfolgt Ablehnung der H 0 , d.h. die UV üben 

einen Einfluss auf die AV aus. 

Das vorliegende Modell kann also gegen den Zufall abgesichert 

werden.

Regressionsanalyse

keine Ausreißer ( Boxplot) 

 

Normalverteilung der Variablen ( Histogramm) 

 

Linearität 

 

Homoskedastizität: 

Streuung der Residuen konstant 

 

Normalverteilung der Residuen 

 

keine Autokorrelation der Residuen: 

statistische Unabhängigkeit der Residuen voneinander 

 

keine Multikollinearität: 

Unabhängigkeit der unabhängigen Variablen voneinander

Diagramme 

Veraltete Dialogfelder 

Streu-/Punkt-Diagramm 

Matrix-Streudiagramm

AV und UV in 

„Matrixvariablen“ ziehen 

(zur Übersichtlichkeit haben 

wir nur die ersten 3 UV zur 

Demonstration benutzt) 

„OK“

Doppelklick auf Diagramm 

Diagramm-Editor 

Elemente 

Anpassungslinie bei 

Gesamtwert 

Anpassungsmethode: 

Lo(w)ess 

Glättungsfaktor wählen 

(Wieviel % der Nachbarpunkte 

sollen in Berechnung 

einbezogen werden?)

= Varianzhomogenität (konstante Streuung) der 

Residuen/Fehler 

Es sollte im Streudiagramm kein Muster erkennbar sein. 

Y: ZRESID 

X: ZPRED

Hohe Werte der X-Achse 

können weniger gut 

vorhergesagt werden als 

niedrige Werte. 

Niedrige Werte der X- 

Achse können weniger gut 

vorhergesagt werden als 

hohe Werte.

Y – ZRESID 

X - ZPRED 

Beide Diagramme überprüfen an den Residuen, ob Normalverteilung 

vorliegt.

Das Histogramm zeigt nur leichte 

Abweichungen von der 

Normalverteilung. 

Im P-P-Diagramm werden die 

beobachteten gegen g die erwarteten 

standardisierten Residuen geplottet. 

Bei Normalverteilung müssten die 

Werte auf der eingezeichneten 

Diagonalen liegen. Dies ist 

annähernd der Fall. 

Abweichungen von der 

Normalverteilung nicht sehr 

schwerwiegend!

= Fehler sind nicht wie im Modell gefordert unabhängig, 

sondern weisen eine spezifische 

Form der Abhängigkeit auf 

Wo tritt sie auf? 

häufig bei zeitlich erhobenen Daten zwischen den 

aufeinanderfolgenden f d Beobachtungen 

Zeit als Regressor 

Test auf das Vorhandensein von Autokorrelation: 

Durbin-Watson-Test 

kann Werte zwischen 0 und 4 annehmen. 

e • DW bei 2 zentriert Annahme der H 0 : Die Fehler sind nicht 

autokorreliert. 

• DW in der Nähe von 0 oder 4 Verwerfen der H 0 

Autokorrelation besteht

keine Autokorrelation, da Wert nahe 2

Visualisierung i via Streudiagramm 

bei Unabhängigkeit und Normalverteilung: kreisförmig 

bei positiver Abhängigkeit: ansteigend gestreckt

… bedeutet, dass die Prädiktoren miteinander korreliert sind. 

orthogonale (unkorrelierte) vs. 

korrelierte UV 

x y 2 x x 1 2 

x 1 

y

… hat einen großen Einfluss auf den Standardfehler , der dann unter 

Umständen sehr anwächst. Die Lösungen werden sehr instabil. 

Inwieweit lassen sich lineare Abhängigkeiten unter den 

Prädiktoren tolerieren? 

 

Der Toleranzwert ist daher für die Kollinearitätsdiagnose wichtig: 

(1 - R i2 ), d.h. 1 - der multiplen Korrelation des jeweiligen Prädiktors mit den 

anderen Prädiktoren. 

geringe Toleranz lineare Abhängigkeiten mit anderen Prädiktoren 

 

VIF (variance inflation factor) baut auf TOLERANCE auf. 

VIF = 1 Unabhängigkeit 

Er steigt mit wachsender linearer Abhängigkeit. 

VIF nahe bei 1 nur geringe Anzeichen auf Kollinearität 

„Daumenregel“: 

Toleranzwert sollte nicht unter 0,25 sein 

VIF-Wert sollte nicht über 5,0 gehen.

einziger 

leicht 

kritischer 

Wert lt. 

Daumenregel

… tritt auf, wenn der multiple l Determinationskoeffizient i i größer 

als die Summe der einzelnen Determinationskoeffizienten ist. 

 

ein Prädiktor = ein Suppressor, wenn er zur Vorhersage des 

Kriteriums beiträgt, da er unerwünschte (= nicht mit Kriterium 

korrelierende) Einflüsse eines anderen Prädiktors unterdrückt 

(d.h. Suppressor korreliert mit einem der Prädiktoren aber nicht 

oder nur wenig mit Kriterium) und somit dessen Vorhersagekraft 

bzgl. des Kriteriums erhöht.

Regressionsanalyse in SPSS 

a) Einschluss 

a) Einschluss 

b) schrittweise

Alle angegebenen Variablen werden für die Vorhersage 

benutzt. 

WANN? 

falls man genau weiß, welche Variablen in der 

Regressionsgleichung aufgenommen werden müssen 

wenn man anhand der Beta-Koeffizienten den relativen 

Beitrag aller Variablen zur Regression vergleichen will

Lediglich „nachdenken“ und „aufstehen“ liefern signifikante Beiträge zur 

Varianzaufklärung an dem Kriterium, i dennoch müssen auf der Basis dieser 

Modellberechnung alle Prädiktoren in die Gleichung mit aufgenommen 

werden.

WANN? 

wenn von vorneherein nur Variablen in die Regressionsgleichung 

aufgenommen werden sollen, die einen signifikanten Beitrag zur 

Vorhersage des Kriteriums leisten 

VORTEILE 

redundante Prädiktoren werden nicht in die 

Regressionsgleichung aufgenommen 

Gleichung wird einfacher, kann aber trotzdem einen relativ 

hohen Varianzanteil erklären 

Schlussfolgerung: 

Die schrittweise Regression sollte nicht als 

hypothesentestendes Verfahren, sondern als ein 

hypothesengenerierendes Verfahren eingesetzt werden

Vergleich zweier Regressionsmodelle: 

Modell 1: „nachdenken“ / Modell 2: „nachdenken“ und „tanzen“ 

 

Prüfen auf Signifikanz über F-Test 

Vergleich zwischen F emp und F krit 

Ergebnis: 

F emp > F krit 

Nullhypothese abgelehnt, d.h. man kann davon ausgehen, dass ein signifikanter Unterschied zwischen 

den zwei Regressionsmodellen besteht und somit zwischen den zwei standardisierten Beta-Gewichten. 

 

Vergleichen der jeweiligen R-Quadrat-Werte 

Bei der Modellzusammenfassung ist immer das Modell mit der höchsten Varianzaufklärung zu wählen 

(hier Modell 2).

(= Indikator-, Kategorien-, binäre oder dichotome Variablen) 

… sind qualitative Variablen, die keine Ordnung im mathematischen 

Sinne angeben. 

… werden verwendet, um kategoriale Merkmale in Modellen zu 

berücksichtigen. 

… nehmen nur 2 Werte an ⇒ 0 oder 1, die das Vorhandensein (1) 

oder Fehlen (0) eines Merkmales beschreiben. 

z.B.: x=1, falls Frau 

x=0, falls Mann 

Bei uns z.B. ob VP Instrument spielt: 

Ja = 1 

Nein = 0 

Transformation der Daten mittels 

Transformation der Daten mittels 

Transformieren Umkodieren in andere Variablen

Wirkungen im Regressionsmodell 

yi ˆ = 

b 0 + 

b1x1 

+ 

b 2 

D 

+ 2 

für D=0 

ˆ 

für D=1 

yi = 0 + 1 1 b 2 { 

b 

b 

x 

yi ˆ = 

b 0 + 

b1x1 

+ 

b 0 { 

b 

2

Im Plot sind die e i die vertikalen Abstände 

der Datenpunkte vom Regressionsmodell. 

y 

e 

k 

= 

y 

k 

− 

yˆ 

k 

x

(y) von

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?