ePaper herunterladen

12. Lineare Regression

12. Lineare Regression 12. Lineare Regression

von psychologie.uni.freiburg.de Mehr von diesem Publisher

03.06.2014 Aufrufe

TERMIN 12 Lineare Regression

TERMIN 12

Lineare Regression

Wie lauten die

Voraussetzungen der PMK?

- min. intervallskalierte

- Normalverteilte Daten

- Homoskedastizität

- Linearer Zusammenhang

Welche Korrelation sollte

berechnet werden?

Reaktionszeit und

Position ?

Spearmans

Rangkorrelation

PMK oder

Spearman/Kendall

Schulnote und IQ?

Geschlecht und

Ängstlichkeit

(hoch – niedrig)?

Punkttetrachorische

Korrelation

Lineare Regression

Methode der linearen Regression

o

Ziel ist die Vorhersage einer Variablen (Kriterium) durch

eine andere Variable (Prädiktor)

o

Voraussetzung :

o

Zwischen beiden (intervallskalierten und normalverteilten)

Variablen besteht ein linearer Zusammenhang – d.h. die

Variablen (nach Pearson) korrelieren.

Anwendungsbeispiele:

o

Werte von x wurden bereits erhoben, Werte von y sind nicht

bekannt

o

x kann zum jetzigen Zeitpunkt erfasst werden, y erst viel

später

o

x ist leicht (einfach, preiswert, schnell) zu erfassen, y nur

durch teure, aufwändige Untersuchung zu erheben

Voraussetzungen der linearen

Regression

Folgende Voraussetzungen für die Berechnung einer

linearen Regressionsanalyse gegeben sein:

(1) Die Variablen x und y müssen intervallskaliert sein

(2) Die Variablen x und y müssen normalverteilt sein.

(3) Die Homoskedastizität der Variablen muss gegeben

sein.

(4) Die Regressionsresiduen müssen unabhängig und

normalverteilt sein.

Abhängigkeit der Residuen

Lineare Regression

Prinzip: Es wird eine

Gerade ermittelt, die

den Zusammenhang

zwischen x und y

beschreibt.

50

40

30

20

Mit einer solchen

Gerade kann zu jedem

Wert von x ein Wert von

y vorausgesagt werden.

RISIKO

10

0

60

80

100

120

140

160

180

Zum Beispiel:

OPT

x=119 ; y=31

x=83 ; y=18

Methode der kleinsten Quadrate

Für einen Datensatz (eine Punktewolke) wird die

Position der Regressionsgerade so gewählt, dass der

quadrierte Vorhersagefehler über alle Probanden

minimal ist:

∑

N

2

i = 1 i i

=

( y − yˆ

) min

Aus der Gleichung zur Methode der

kleinsten Quadrate wird die

allgemeine Gleichung der linearen

Regression hergeleitet :

s

yˆ

= r ⋅

y

⋅ − +

i xy i

s

x

( x x ) y

Die Gleichung der linearen Regression

Regressionsgerade:

ˆ +

y

i

= by.

x

⋅ xi

ay.

x

Wenn Streuungen, Mittelwerte sowie die Korrelation von zwei

Variablen bekannt sind, kann daraus das Regressionsgewicht (b)

und die additive Konstante (a) bestimmt werden:

b

yˆ

yx

i

=

r

xy

⋅

s

y

x

y

x

⋅

x

i

+

und

( y

−

r

xy

a

⋅

yx

s

y

x

=

⋅

y

x)

−

=

b

yx

r

xy

⋅

x

s

y

x

⋅ ( x

i

−

x)

+

Standardschätzfehler: Herleitung

Der Standardschätzfehler ist die

Standardabweichung der Vorhersage durch

eine Regression.

→ Je geringer der Fehler, desto genauer die

Vorhersage.

Die Herleitung erfolgt durch

Varianzzerlegung der Regressionsformel:

Standardschätzfehler: Formel

Die Standardabweichung der Residuen wird als

Standardschätzfehler bezeichnet. Er gibt die Streuung der y-Werte

um die Regressionsgerade an:

s

y.

x

n

∑

( y

yˆ

)²

i i

i = 1

y. x

=

= sy

⋅ 1

Der so berechnete Standardschätzfehler ist kein erwartungstreuer

Schätzer. Indem man anstelle von n durch (n - 2) teilt (bzw. den

empirischen Standardschätzfehler mit √(n/n-2) multipliziert),

erhält man einen erwartungstreuen Schätzer des

Standardschätzfehlers:

σˆ

=

n

∑

i = 1

( y

i

n −

−

n

2

−

yˆ

i

)²

=

n

n − 2

⋅

−

s

r

y.

x

2

Konfidenzintervalle

Der Standardschätzfehler ist ein Maß dafür, wie stark

die wahren Kriteriumswerte (y-Werte) von den

vorhergesagten Werten abweichen.

Bei einer normalverteilten Variablen liegen 95% aller

Werte in einem Bereich von Mittelwert ± 1.96 SD (→ z-

Tabelle).

Somit kann mittels des Standardschätzfehlers ein

Konfidenzintervall berechnet werden, in dem mit

festgelegter WS der wahre Kriteriumswert liegt:

KI = yˆ

± 1.96 ⋅ σˆ

i

y.

Regression zur Mitte

Die Wahrscheinlichkeitsrechnung sagt

vorher, dass ein extremer Wert zu Zeitpunkt

A sich zu Zeitpunkt B überzufällig häufig zu

einem weniger extremen Wert verändern

wird.

Für Prognosen wird oft die aktuelle

Ausprägung eines Merkmals verwendet, um

die künftige Ausprägung selbigen Merkmals

per Autoregression vorherzusagen.

Wir bekommen Änderungen in den

Messwerten, die ein rein statistisches

Artefakt sind. Diese inhaltlich zu

interpretieren ist ein schwerer methodischer

Kunstfehler!

Kreuzvalidierung

İst ein Verfahren zur Validierung einer

Regressionsgeraden.

Dabei werden die Werte einer Untersuchung

oder Stichprobe zur Vorhersage für eine

andere, konvergente genutzt.

Kreuzvalidierung

(1) Berechnung der ersten

Regressionsgeraden

(2) Vorhersage der Werte der 2.Stichprobe

(3) Überprüfung der ermittelten Werte

(4) Wiederholung der ersten drei Schritte für

die 2.Stichprobe

Kreuzvalidierung

Welcher Regressionswert ist gültig(bei

unterschiedlich hohen Ergebnissen)?

Was bedeutet die Differenz der

vorhergesagten Werte(bei signifikanten

Unterschieden)?

Restriction of range

Bei Begrenzung der Streuung eines

Merkmals (im Rahmen einer Untersuchung)

sinkt meist die Korrelation mit einem

anderen Merkmal.

İm Zuge dessen erfolgt eine

Unterschätzung der Populationskorrelation:

DENN:

Restriction of range

Verletzung der Normalverteilung?

Oder Berechnung eines linearen(je größer, desto

größer/kleiner) Zusammenhangs erschwert?

Arbeitsblatt:

lineare Regression

Vielen Dank...

... für die Aufmerksamkeit!

Fragen an:

S.Tomczyk@gmx.net

12. Lineare Regression

12. Lineare Regression ... Mehr anzeigen 12. Lineare Regression

Template löschen?

Als Template speichern ?

12. Lineare Regression 12. Lineare Regression