12. Lineare Regression

12. Lineare Regression 12. Lineare Regression

psychologie.uni.freiburg.de
von psychologie.uni.freiburg.de Mehr von diesem Publisher

TERMIN 12<br />

<strong>Lineare</strong> <strong>Regression</strong>


Wie lauten die<br />

Voraussetzungen der PMK?<br />

- min. intervallskalierte<br />

- Normalverteilte Daten<br />

- Homoskedastizität<br />

- <strong>Lineare</strong>r Zusammenhang


Welche Korrelation sollte<br />

berechnet werden?<br />

<br />

<br />

Reaktionszeit und<br />

Position ?<br />

<br />

Spearmans<br />

Rangkorrelation<br />

PMK oder<br />

Spearman/Kendall<br />

<br />

Schulnote und IQ?<br />

<br />

<br />

Geschlecht und<br />

Ängstlichkeit<br />

(hoch – niedrig)?<br />

Punkttetrachorische<br />

Korrelation


<strong>Lineare</strong> <strong>Regression</strong>


Methode der linearen <strong>Regression</strong><br />

o<br />

Ziel ist die Vorhersage einer Variablen (Kriterium) durch<br />

eine andere Variable (Prädiktor)<br />

o<br />

Voraussetzung :<br />

o<br />

Zwischen beiden (intervallskalierten und normalverteilten)<br />

Variablen besteht ein linearer Zusammenhang – d.h. die<br />

Variablen (nach Pearson) korrelieren.<br />

Anwendungsbeispiele:<br />

o<br />

Werte von x wurden bereits erhoben, Werte von y sind nicht<br />

bekannt<br />

o<br />

x kann zum jetzigen Zeitpunkt erfasst werden, y erst viel<br />

später<br />

o<br />

x ist leicht (einfach, preiswert, schnell) zu erfassen, y nur<br />

durch teure, aufwändige Untersuchung zu erheben


Voraussetzungen der linearen<br />

<strong>Regression</strong><br />

Folgende Voraussetzungen für die Berechnung einer<br />

linearen <strong>Regression</strong>sanalyse gegeben sein:<br />

(1) Die Variablen x und y müssen intervallskaliert sein<br />

(2) Die Variablen x und y müssen normalverteilt sein.<br />

(3) Die Homoskedastizität der Variablen muss gegeben<br />

sein.<br />

(4) Die <strong>Regression</strong>sresiduen müssen unabhängig und<br />

normalverteilt sein.


Abhängigkeit der Residuen


<strong>Lineare</strong> <strong>Regression</strong><br />

Prinzip: Es wird eine<br />

Gerade ermittelt, die<br />

den Zusammenhang<br />

zwischen x und y<br />

beschreibt.<br />

50<br />

40<br />

30<br />

20<br />

Mit einer solchen<br />

Gerade kann zu jedem<br />

Wert von x ein Wert von<br />

y vorausgesagt werden.<br />

RISIKO<br />

10<br />

0<br />

60<br />

80<br />

100<br />

120<br />

140<br />

160<br />

180<br />

Zum Beispiel:<br />

OPT<br />

x=119 ; y=31<br />

x=83 ; y=18


Methode der kleinsten Quadrate<br />

Für einen Datensatz (eine Punktewolke) wird die<br />

Position der <strong>Regression</strong>sgerade so gewählt, dass der<br />

quadrierte Vorhersagefehler über alle Probanden<br />

minimal ist:<br />

∑<br />

N<br />

2<br />

i = 1 i i<br />

=<br />

( y − yˆ<br />

) min<br />

Aus der Gleichung zur Methode der<br />

kleinsten Quadrate wird die<br />

allgemeine Gleichung der linearen<br />

<strong>Regression</strong> hergeleitet :<br />

s<br />

yˆ<br />

= r ⋅<br />

y<br />

⋅ − +<br />

i xy i<br />

s<br />

x<br />

( x x ) y


Die Gleichung der linearen <strong>Regression</strong><br />

<strong>Regression</strong>sgerade:<br />

ˆ +<br />

y<br />

i<br />

= by.<br />

x<br />

⋅ xi<br />

ay.<br />

x<br />

Wenn Streuungen, Mittelwerte sowie die Korrelation von zwei<br />

Variablen bekannt sind, kann daraus das <strong>Regression</strong>sgewicht (b)<br />

und die additive Konstante (a) bestimmt werden:<br />

b<br />

yˆ<br />

yx<br />

i<br />

=<br />

=<br />

r<br />

r<br />

xy<br />

xy<br />

⋅<br />

⋅<br />

s<br />

s<br />

s<br />

s<br />

y<br />

x<br />

y<br />

x<br />

⋅<br />

x<br />

i<br />

+<br />

und<br />

( y<br />

−<br />

r<br />

xy<br />

a<br />

⋅<br />

yx<br />

s<br />

s<br />

y<br />

x<br />

=<br />

⋅<br />

y<br />

x)<br />

−<br />

=<br />

b<br />

yx<br />

r<br />

xy<br />

⋅<br />

⋅<br />

x<br />

s<br />

s<br />

y<br />

x<br />

⋅ ( x<br />

i<br />

−<br />

x)<br />

+<br />

y


Standardschätzfehler: Herleitung<br />

Der Standardschätzfehler ist die<br />

Standardabweichung der Vorhersage durch<br />

eine <strong>Regression</strong>.<br />

→ Je geringer der Fehler, desto genauer die<br />

Vorhersage.<br />

Die Herleitung erfolgt durch<br />

Varianzzerlegung der <strong>Regression</strong>sformel:


Standardschätzfehler: Formel<br />

Die Standardabweichung der Residuen wird als<br />

Standardschätzfehler bezeichnet. Er gibt die Streuung der y-Werte<br />

um die <strong>Regression</strong>sgerade an:<br />

s<br />

y.<br />

x<br />

n<br />

∑<br />

( y<br />

yˆ<br />

)²<br />

i i<br />

i = 1<br />

y. x<br />

=<br />

= sy<br />

⋅ 1<br />

Der so berechnete Standardschätzfehler ist kein erwartungstreuer<br />

Schätzer. Indem man anstelle von n durch (n - 2) teilt (bzw. den<br />

empirischen Standardschätzfehler mit √(n/n-2) multipliziert),<br />

erhält man einen erwartungstreuen Schätzer des<br />

Standardschätzfehlers:<br />

σˆ<br />

=<br />

n<br />

∑<br />

i = 1<br />

( y<br />

i<br />

n −<br />

−<br />

n<br />

2<br />

−<br />

yˆ<br />

i<br />

)²<br />

=<br />

n<br />

n − 2<br />

⋅<br />

−<br />

s<br />

r<br />

y.<br />

x<br />

2<br />

xy


Konfidenzintervalle<br />

Der Standardschätzfehler ist ein Maß dafür, wie stark<br />

die wahren Kriteriumswerte (y-Werte) von den<br />

vorhergesagten Werten abweichen.<br />

Bei einer normalverteilten Variablen liegen 95% aller<br />

Werte in einem Bereich von Mittelwert ± 1.96 SD (→ z-<br />

Tabelle).<br />

Somit kann mittels des Standardschätzfehlers ein<br />

Konfidenzintervall berechnet werden, in dem mit<br />

festgelegter WS der wahre Kriteriumswert liegt:<br />

KI = yˆ<br />

± 1.96 ⋅ σˆ<br />

i<br />

y.<br />

x


<strong>Regression</strong> zur Mitte<br />

Die Wahrscheinlichkeitsrechnung sagt<br />

vorher, dass ein extremer Wert zu Zeitpunkt<br />

A sich zu Zeitpunkt B überzufällig häufig zu<br />

einem weniger extremen Wert verändern<br />

wird.<br />

Für Prognosen wird oft die aktuelle<br />

Ausprägung eines Merkmals verwendet, um<br />

die künftige Ausprägung selbigen Merkmals<br />

per Autoregression vorherzusagen.<br />

Wir bekommen Änderungen in den<br />

Messwerten, die ein rein statistisches<br />

Artefakt sind. Diese inhaltlich zu<br />

interpretieren ist ein schwerer methodischer<br />

Kunstfehler!


Kreuzvalidierung<br />

İst ein Verfahren zur Validierung einer<br />

<strong>Regression</strong>sgeraden.<br />

Dabei werden die Werte einer Untersuchung<br />

oder Stichprobe zur Vorhersage für eine<br />

andere, konvergente genutzt.


Kreuzvalidierung<br />

(1) Berechnung der ersten<br />

<strong>Regression</strong>sgeraden<br />

(2) Vorhersage der Werte der 2.Stichprobe<br />

(3) Überprüfung der ermittelten Werte<br />

(4) Wiederholung der ersten drei Schritte für<br />

die 2.Stichprobe


Kreuzvalidierung<br />

<br />

Welcher <strong>Regression</strong>swert ist gültig(bei<br />

unterschiedlich hohen Ergebnissen)?<br />

<br />

Was bedeutet die Differenz der<br />

vorhergesagten Werte(bei signifikanten<br />

Unterschieden)?


Restriction of range<br />

<br />

Bei Begrenzung der Streuung eines<br />

Merkmals (im Rahmen einer Untersuchung)<br />

sinkt meist die Korrelation mit einem<br />

anderen Merkmal.<br />

<br />

İm Zuge dessen erfolgt eine<br />

Unterschätzung der Populationskorrelation:<br />

DENN:


Restriction of range<br />

Verletzung der Normalverteilung?<br />

Oder Berechnung eines linearen(je größer, desto<br />

größer/kleiner) Zusammenhangs erschwert?


Arbeitsblatt:<br />

lineare <strong>Regression</strong>


Vielen Dank...<br />

... für die Aufmerksamkeit!<br />

Fragen an:<br />

S.Tomczyk@gmx.net

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!