12. Lineare Regression
12. Lineare Regression 12. Lineare Regression
TERMIN 12 Lineare Regression
- Seite 2 und 3: Wie lauten die Voraussetzungen der
- Seite 4 und 5: Lineare Regression
- Seite 6 und 7: Voraussetzungen der linearen Regres
- Seite 8 und 9: Lineare Regression Prinzip: Es wird
- Seite 10 und 11: Die Gleichung der linearen Regressi
- Seite 12 und 13: Standardschätzfehler: Formel Die S
- Seite 14 und 15: Regression zur Mitte Die Wahrschein
- Seite 16 und 17: Kreuzvalidierung (1) Berechnung der
- Seite 18 und 19: Restriction of range Bei Begrenzun
- Seite 20 und 21: Arbeitsblatt: lineare Regression
TERMIN 12<br />
<strong>Lineare</strong> <strong>Regression</strong>
Wie lauten die<br />
Voraussetzungen der PMK?<br />
- min. intervallskalierte<br />
- Normalverteilte Daten<br />
- Homoskedastizität<br />
- <strong>Lineare</strong>r Zusammenhang
Welche Korrelation sollte<br />
berechnet werden?<br />
<br />
<br />
Reaktionszeit und<br />
Position ?<br />
<br />
Spearmans<br />
Rangkorrelation<br />
PMK oder<br />
Spearman/Kendall<br />
<br />
Schulnote und IQ?<br />
<br />
<br />
Geschlecht und<br />
Ängstlichkeit<br />
(hoch – niedrig)?<br />
Punkttetrachorische<br />
Korrelation
<strong>Lineare</strong> <strong>Regression</strong>
Methode der linearen <strong>Regression</strong><br />
o<br />
Ziel ist die Vorhersage einer Variablen (Kriterium) durch<br />
eine andere Variable (Prädiktor)<br />
o<br />
Voraussetzung :<br />
o<br />
Zwischen beiden (intervallskalierten und normalverteilten)<br />
Variablen besteht ein linearer Zusammenhang – d.h. die<br />
Variablen (nach Pearson) korrelieren.<br />
Anwendungsbeispiele:<br />
o<br />
Werte von x wurden bereits erhoben, Werte von y sind nicht<br />
bekannt<br />
o<br />
x kann zum jetzigen Zeitpunkt erfasst werden, y erst viel<br />
später<br />
o<br />
x ist leicht (einfach, preiswert, schnell) zu erfassen, y nur<br />
durch teure, aufwändige Untersuchung zu erheben
Voraussetzungen der linearen<br />
<strong>Regression</strong><br />
Folgende Voraussetzungen für die Berechnung einer<br />
linearen <strong>Regression</strong>sanalyse gegeben sein:<br />
(1) Die Variablen x und y müssen intervallskaliert sein<br />
(2) Die Variablen x und y müssen normalverteilt sein.<br />
(3) Die Homoskedastizität der Variablen muss gegeben<br />
sein.<br />
(4) Die <strong>Regression</strong>sresiduen müssen unabhängig und<br />
normalverteilt sein.
Abhängigkeit der Residuen
<strong>Lineare</strong> <strong>Regression</strong><br />
Prinzip: Es wird eine<br />
Gerade ermittelt, die<br />
den Zusammenhang<br />
zwischen x und y<br />
beschreibt.<br />
50<br />
40<br />
30<br />
20<br />
Mit einer solchen<br />
Gerade kann zu jedem<br />
Wert von x ein Wert von<br />
y vorausgesagt werden.<br />
RISIKO<br />
10<br />
0<br />
60<br />
80<br />
100<br />
120<br />
140<br />
160<br />
180<br />
Zum Beispiel:<br />
OPT<br />
x=119 ; y=31<br />
x=83 ; y=18
Methode der kleinsten Quadrate<br />
Für einen Datensatz (eine Punktewolke) wird die<br />
Position der <strong>Regression</strong>sgerade so gewählt, dass der<br />
quadrierte Vorhersagefehler über alle Probanden<br />
minimal ist:<br />
∑<br />
N<br />
2<br />
i = 1 i i<br />
=<br />
( y − yˆ<br />
) min<br />
Aus der Gleichung zur Methode der<br />
kleinsten Quadrate wird die<br />
allgemeine Gleichung der linearen<br />
<strong>Regression</strong> hergeleitet :<br />
s<br />
yˆ<br />
= r ⋅<br />
y<br />
⋅ − +<br />
i xy i<br />
s<br />
x<br />
( x x ) y
Die Gleichung der linearen <strong>Regression</strong><br />
<strong>Regression</strong>sgerade:<br />
ˆ +<br />
y<br />
i<br />
= by.<br />
x<br />
⋅ xi<br />
ay.<br />
x<br />
Wenn Streuungen, Mittelwerte sowie die Korrelation von zwei<br />
Variablen bekannt sind, kann daraus das <strong>Regression</strong>sgewicht (b)<br />
und die additive Konstante (a) bestimmt werden:<br />
b<br />
yˆ<br />
yx<br />
i<br />
=<br />
=<br />
r<br />
r<br />
xy<br />
xy<br />
⋅<br />
⋅<br />
s<br />
s<br />
s<br />
s<br />
y<br />
x<br />
y<br />
x<br />
⋅<br />
x<br />
i<br />
+<br />
und<br />
( y<br />
−<br />
r<br />
xy<br />
a<br />
⋅<br />
yx<br />
s<br />
s<br />
y<br />
x<br />
=<br />
⋅<br />
y<br />
x)<br />
−<br />
=<br />
b<br />
yx<br />
r<br />
xy<br />
⋅<br />
⋅<br />
x<br />
s<br />
s<br />
y<br />
x<br />
⋅ ( x<br />
i<br />
−<br />
x)<br />
+<br />
y
Standardschätzfehler: Herleitung<br />
Der Standardschätzfehler ist die<br />
Standardabweichung der Vorhersage durch<br />
eine <strong>Regression</strong>.<br />
→ Je geringer der Fehler, desto genauer die<br />
Vorhersage.<br />
Die Herleitung erfolgt durch<br />
Varianzzerlegung der <strong>Regression</strong>sformel:
Standardschätzfehler: Formel<br />
Die Standardabweichung der Residuen wird als<br />
Standardschätzfehler bezeichnet. Er gibt die Streuung der y-Werte<br />
um die <strong>Regression</strong>sgerade an:<br />
s<br />
y.<br />
x<br />
n<br />
∑<br />
( y<br />
yˆ<br />
)²<br />
i i<br />
i = 1<br />
y. x<br />
=<br />
= sy<br />
⋅ 1<br />
Der so berechnete Standardschätzfehler ist kein erwartungstreuer<br />
Schätzer. Indem man anstelle von n durch (n - 2) teilt (bzw. den<br />
empirischen Standardschätzfehler mit √(n/n-2) multipliziert),<br />
erhält man einen erwartungstreuen Schätzer des<br />
Standardschätzfehlers:<br />
σˆ<br />
=<br />
n<br />
∑<br />
i = 1<br />
( y<br />
i<br />
n −<br />
−<br />
n<br />
2<br />
−<br />
yˆ<br />
i<br />
)²<br />
=<br />
n<br />
n − 2<br />
⋅<br />
−<br />
s<br />
r<br />
y.<br />
x<br />
2<br />
xy
Konfidenzintervalle<br />
Der Standardschätzfehler ist ein Maß dafür, wie stark<br />
die wahren Kriteriumswerte (y-Werte) von den<br />
vorhergesagten Werten abweichen.<br />
Bei einer normalverteilten Variablen liegen 95% aller<br />
Werte in einem Bereich von Mittelwert ± 1.96 SD (→ z-<br />
Tabelle).<br />
Somit kann mittels des Standardschätzfehlers ein<br />
Konfidenzintervall berechnet werden, in dem mit<br />
festgelegter WS der wahre Kriteriumswert liegt:<br />
KI = yˆ<br />
± 1.96 ⋅ σˆ<br />
i<br />
y.<br />
x
<strong>Regression</strong> zur Mitte<br />
Die Wahrscheinlichkeitsrechnung sagt<br />
vorher, dass ein extremer Wert zu Zeitpunkt<br />
A sich zu Zeitpunkt B überzufällig häufig zu<br />
einem weniger extremen Wert verändern<br />
wird.<br />
Für Prognosen wird oft die aktuelle<br />
Ausprägung eines Merkmals verwendet, um<br />
die künftige Ausprägung selbigen Merkmals<br />
per Autoregression vorherzusagen.<br />
Wir bekommen Änderungen in den<br />
Messwerten, die ein rein statistisches<br />
Artefakt sind. Diese inhaltlich zu<br />
interpretieren ist ein schwerer methodischer<br />
Kunstfehler!
Kreuzvalidierung<br />
İst ein Verfahren zur Validierung einer<br />
<strong>Regression</strong>sgeraden.<br />
Dabei werden die Werte einer Untersuchung<br />
oder Stichprobe zur Vorhersage für eine<br />
andere, konvergente genutzt.
Kreuzvalidierung<br />
(1) Berechnung der ersten<br />
<strong>Regression</strong>sgeraden<br />
(2) Vorhersage der Werte der 2.Stichprobe<br />
(3) Überprüfung der ermittelten Werte<br />
(4) Wiederholung der ersten drei Schritte für<br />
die 2.Stichprobe
Kreuzvalidierung<br />
<br />
Welcher <strong>Regression</strong>swert ist gültig(bei<br />
unterschiedlich hohen Ergebnissen)?<br />
<br />
Was bedeutet die Differenz der<br />
vorhergesagten Werte(bei signifikanten<br />
Unterschieden)?
Restriction of range<br />
<br />
Bei Begrenzung der Streuung eines<br />
Merkmals (im Rahmen einer Untersuchung)<br />
sinkt meist die Korrelation mit einem<br />
anderen Merkmal.<br />
<br />
İm Zuge dessen erfolgt eine<br />
Unterschätzung der Populationskorrelation:<br />
DENN:
Restriction of range<br />
Verletzung der Normalverteilung?<br />
Oder Berechnung eines linearen(je größer, desto<br />
größer/kleiner) Zusammenhangs erschwert?
Arbeitsblatt:<br />
lineare <strong>Regression</strong>
Vielen Dank...<br />
... für die Aufmerksamkeit!<br />
Fragen an:<br />
S.Tomczyk@gmx.net