Regression
Regression
Regression
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΛΙΝ∆ΡΟΜΗΣΗ<br />
(Simple Linear <strong>Regression</strong>)<br />
• Να κατανοηθεί η έννοια της παλινδρόµησης<br />
• Ποιες οι προϋποθέσεις για να εφαρµοσθεί η γραµµική<br />
παλινδρόµηση;<br />
• Τι είναι το γραµµικό µοντέλο και πως εκτιµούνται οι<br />
παράµετροι του.<br />
• Nα συζητηθούν πιο πολύπλοκες τεχνικές όπως η πολλαπλή<br />
παλινδρόµηση (multiple linear regression).<br />
1<br />
ΕΙ∆Η ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />
Γραµµική παλινδρόµηση (Linear regression). Χρησιµοποιείται όταν<br />
η µεταβλητή αποτελέσµατος είναι αριθµητική, όπως, η πίεση αίµατος<br />
κλπ.<br />
Λογιστική παλινδρόµηση (Logistic <strong>Regression</strong>). Χρησιµοποιείται όταν<br />
η µεταβλητή αποτελέσµατος είναι δική, όπως η εµφάνιση ή όχι<br />
µυωπίας, η ύπαρξη ή όχι µιας ασθένειας.<br />
Λογαριθµική-Γραµµική Παλινδρόµηση (log-Linear regression).<br />
Εφαρµόζεται όταν η µεταβλητή αποτελέσµατος είναι διακριτή, όπως ο<br />
αριθµός των νεοδιαγνωσµένων περιπτώσεων καρκίνου του πνεύµονα.<br />
Παλινδρόµηση Cox. Καλείται επίσης ως Αναλογική Παλινδρόµηση<br />
Κινδύνου (Proportional hazard regression) όταν η µεταβλητή<br />
αποτελέσµατος είναι ο χρόνος για να συµβεί κάποιο γεγονός π.χ.<br />
θάνατος, η<br />
2<br />
ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ<br />
(<strong>Regression</strong>)<br />
• Έστω Χ και Υ δύο µεταβλητές και (x i , y i ) τα δυνατά ζευγάρια τιµών<br />
που µπορούµε να δηµιουργήσουµε.<br />
• Θεωρούµε ότι οι δύο µεταβλητές συσχετίζονται και συνδέονται µε<br />
γραµµική σχέση.<br />
• Συνήθως η Χ καλείται ανεξάρτητη ή επεξηγηµατική (explanatory)<br />
Η Υ καλείται εξαρτηµένη ή δεσµευµένη (response) µεταβλητή.<br />
ΣΚΟΠΟΣ ΤΗΣ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />
Να διερευνηθεί η αλλαγή της ανεξάρτητης µεταβλητής σε σχέση µε<br />
τις αλλαγές τιµών εξαρτηµένης µεταβλητής. Να καθορισθούν οι<br />
ΠΑΛΙΝ∆ΡΟΜΗΣΗ<br />
Το θεωρητικό γενικό µοντέλο µε ένα ανεξάρτητο παράγοντα για τον<br />
πληθυσµό (population regression line)<br />
E(y | x) = µ = α + βx<br />
y|x<br />
Πειραµατικά οι παρατηρούµενες τιµές αποκλίνουν κατά ε i από την<br />
Αναµενόµενη τιµή E(y|x)<br />
yi<br />
= α + βx i<br />
+ ε<br />
i<br />
Από ένα δείγµα η εξίσωση της γραµµικής σχέσης δίνεται από<br />
τη σχέση (a, b εκτιµήτριες των α, β):<br />
)<br />
y=a+bx<br />
i<br />
i<br />
παράµετροι (συντελεστές) της σχέσης.<br />
3<br />
4<br />
1
y<br />
ΠΡΟΥΠΟΘΕΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΛΛΙΝ∆ΡΟΜΗΣΗ<br />
Για µια συγκεκριµένη τιµή της x οι αντίστοιχες τιµές των y<br />
ακολουθούν κανονική κατανοµή µε Ν(µ υ|χ, σ y|x ).<br />
Οι τιµές της µ y|x περιγράφονται από την ευθεία α+βx<br />
Ισχύει η οµοσκέδαση (homoscedacity) των υπολοίπων (residuals).<br />
Οι σ y|x παραµένουν σταθερές για όλες τις τιµές των x.<br />
Οι τιµές των y είναι ανεξάρτητες µεταξύ τους.<br />
ΟΡΟΛΟΓΙΑ-ΤΥΠΟΛΟΓΙΟ<br />
Χ, Υ: Η ανεξάρτητη και η εξαρτηµένη µεταβλητή<br />
(x i , y i ): Τα ζεύγη µετρήσεων των δύο µεταβλητών Χ, Υ<br />
X , Y:<br />
e i :<br />
ˆ : y i<br />
Οι µέσες τιµές των µεταβλητών Χ, Υ αντίστοιχα<br />
Οι υπολειπόµενες ποσότητες-σφάλµατα του γραµµικού µοντέλου<br />
(residuals).<br />
e ˆ<br />
i<br />
= yi − yi<br />
Η εκτιµώµενη τιµή της y i µε βάση το γραµµικό µοντέλο.<br />
Άθροισµα γινοµένων<br />
SS X , SS y :<br />
nCov( X , Y ) = ( x −x)( y − y)<br />
Άθροισµα τετραγώνων (Sum of squares)<br />
n<br />
n<br />
2 2<br />
SSx = ( xi − x) SS<br />
y<br />
= ( yi<br />
− y)<br />
SS<br />
∑<br />
∑<br />
R =b 2 SS x<br />
i= 1 i=<br />
1<br />
n<br />
2<br />
SS e : Άθροισµα τετραγώνων των σφαλµάτων e i<br />
SS ( ˆ<br />
e<br />
= ∑ yi − y)<br />
= SSe<br />
x i=<br />
1<br />
5<br />
6<br />
n<br />
∑<br />
i=<br />
1<br />
i<br />
i<br />
R 2 : Συντελεστής R 2 .<br />
ΟΡΟΛΟΓΙΑ-ΤΥΠΟΛΟΓΙΟ<br />
n<br />
∑<br />
( xi<br />
−x)( yi<br />
− y)<br />
sy<br />
b: i=<br />
1<br />
b= R = s<br />
n<br />
x<br />
2<br />
( x − x)<br />
n<br />
∑<br />
se(b) =<br />
SE(b) & SE(a):<br />
se(a) = s<br />
∑<br />
i=<br />
1<br />
n<br />
∑<br />
y|x<br />
i=1<br />
i<br />
s<br />
y|x<br />
(x - x)<br />
i<br />
1<br />
+<br />
n<br />
n<br />
2<br />
∑<br />
i=<br />
1<br />
2<br />
( y ˆ<br />
i<br />
− yi)<br />
2 i=<br />
1<br />
SSe<br />
R = 1− = 1−<br />
n<br />
2 SS<br />
y<br />
( y − y)<br />
x<br />
2<br />
( x − x)<br />
i<br />
2<br />
∑<br />
i=<br />
1<br />
i<br />
a: a=y-bx<br />
s<br />
yx |<br />
( y ˆ<br />
i<br />
− y )<br />
SSE<br />
i=<br />
1<br />
= =<br />
n−2 n−2<br />
n<br />
∑<br />
2<br />
i<br />
ΜΕΘΟ∆ΟΣ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ<br />
Η µέθοδος έχει ως στόχο την ελαχιστοποίηση των σφαλµάτων e i<br />
e = y − yˆ<br />
i i i<br />
n n<br />
2 2<br />
∑e ( ˆ<br />
i<br />
= ∑ yi −yi)<br />
i= 1 i=<br />
1<br />
Από τον µηδενισµό της α’ παραγώγου της<br />
s<br />
n<br />
∑<br />
( x − x)( y − y)<br />
i i<br />
y i=<br />
1<br />
b= R = s<br />
n<br />
x<br />
2<br />
∑( xi<br />
− x)<br />
i=<br />
1<br />
∂<br />
∑<br />
∂b<br />
2<br />
e i<br />
∂<br />
a=y-bx<br />
∑e<br />
2 i<br />
∂a<br />
7<br />
8<br />
2
Οι µετρήσεις µήκους και βάρους για ένα δείγµα 20 λιποβαρών κατά τη<br />
γέννηση βρεφών παρουσιάζονται στον παρακάτω πίνακα.<br />
Υποστηρίζεται από ερευνητές ότι υπάρχει µια γραµµική σχέση µεταξύ<br />
µήκους και βάρους των νεογέννητων.<br />
Υπολογίστε τους συντελεστές της ευθείας που προσαρµόζεται καλύτερα<br />
στα δεδοµένα.<br />
AA 1 2 3 4 5 6 7 8 9 10<br />
length 41 40 38 38 38 32 33 38 30 34<br />
weight 1360 1490 1490 1180 1200 680 620 1060 1320 830<br />
AA 11 12 13 14 15 16 17 18 19 20<br />
length 32 39 38 39 37 39 38 42 39 38<br />
weight 880 1130 1140 1350 950 1220 980 1480 1250 1250<br />
ΕΠΙΛΥΣΗ<br />
Για να εκτιµήσουµε τις µεταβλητές a και b υπολογίζουµε τα εξής:<br />
Τα περιγραφικά στατιστικά του δείγµατος<br />
x = 37,15 n= 20 s = 3, 2<br />
y = 1143 n= 20 s = 255<br />
xy = 859.320<br />
∑<br />
Τα αθροίσµατα τετραγώνων των µεταβλητών Χ, Υ,<br />
SSx<br />
= ( n − 1) S = 19x3,2 = 196,55<br />
SS = ( n − 1) S = 19x255 = 1.235.020<br />
y<br />
2 2<br />
x<br />
2 2<br />
y<br />
∑<br />
Οι συντελεστές a και b υπολογίζονται από:<br />
( x −x)( y − y) = 10.071<br />
10.071<br />
b = = 51,24 a = y -bx =1143 - 51,24 * 37,15 = -760,52<br />
196,55<br />
i<br />
i<br />
9<br />
10<br />
ΕΛΕΓΧΟΣ ΓΙΑ ΤΟΥΣ ΣΥΝΤΕΛΕΣΤΕΣ α, β<br />
ΕΛΕΓΧΟΣ ΓΙΑ ΤΟΥΣ ΣΥΝΤΕΛΕΣΤΕΣ α, β<br />
• Οι συντελεστές a, b ακολουθούν κανονική κατανοµή :<br />
• Μηδενική υπόθεση Ηο: β=0<br />
Εναλλακτική υπόθεση Η Α : β≠0<br />
• Μηδενική υπόθεση Ηο: α=0<br />
Εναλλακτική υπόθεση Η Α : α≠0<br />
a~N(α, s<br />
b~N(b, s<br />
2<br />
Y|X<br />
2<br />
Y|X<br />
2<br />
1 x<br />
[ + ])<br />
n<br />
n<br />
2<br />
( x − x)<br />
n<br />
∑<br />
i=<br />
1<br />
∑<br />
i=<br />
1<br />
1<br />
)<br />
2<br />
( x − x)<br />
• Συνεπώς οι SE(a), SE(b) θα είναι<br />
i<br />
i<br />
SE(a) = s<br />
SE(b) = s<br />
1<br />
+<br />
n<br />
• Για να ελέγξουµε εάν ισχύει η γραµµικότητα στον πληθυσµό<br />
ελέγχουµε εάν β= ή ≠0<br />
• Ο έλεγχος θα γίνει µε χρήση t-test<br />
y|x<br />
y|x<br />
n<br />
∑<br />
i=<br />
1<br />
n<br />
∑<br />
i=<br />
1<br />
2<br />
x<br />
( x − x)<br />
1<br />
( x − x)<br />
i<br />
i<br />
2<br />
2<br />
Υπολογισµός των SS y SS R, SS e<br />
2 2<br />
SSR<br />
= b × SSx<br />
= 51,24 x196,55 = 516.027<br />
SSe<br />
S<br />
yx |<br />
= = 199,86<br />
SS = SS − SS = 1.235.020-516.027=718.993<br />
n − 2<br />
e y R<br />
SS(b)= 14,26<br />
t=b/SS(b)=3,594<br />
Υπολογισµός των στατιστικών t<br />
SS(a)= 531,48<br />
t=a/SS(a)=-1,431<br />
Συγκρίνουµε µε την κρίσιµη τιµή t για n-2 και α=0,05 t=2,10<br />
Ο συντελεστής β είναι διάφορος<br />
του 0<br />
Ο συντελεστής α δεν είναι<br />
διάφορος του 0<br />
11<br />
12<br />
3
ΕΚΤΙΜΗΣΗ ΤΗΣ ΠΡΟΣΑΡΜΟΓΗΣ<br />
• Πόσο «καλό» είναι το µοντέλο;<br />
• Ο συντελεστής R 2 εξηγεί το ποσοστό της συνολικής<br />
µεταβλητότητας που εξηγείται από το µοντέλο<br />
• Οι τιµές του κυµαίνονται από 0-1<br />
• Ο συντελεστής R 2 είναι το τετράγωνο του συντελεστή Pearson<br />
στη συσχέτιση<br />
• ΕΝΑΛΛΑΚΤΙΚΑ: ∆ιαγράµµατα υπολοίπων<br />
n<br />
∑<br />
∑<br />
2<br />
( y ˆ<br />
i<br />
− yi)<br />
2 i=<br />
1<br />
SSe<br />
718.993<br />
R = 1− = 1− = 1− = 0, 418<br />
n<br />
2 SS<br />
y<br />
1.235.020<br />
( y − y)<br />
i=<br />
1<br />
i<br />
∆ΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΗΝ ΚΑΜΠΥΛΗ<br />
ΚΑΙ ΤΙΣ ΑΤΟΜΙΚΕΣ ΜΕΤΡΗΣΕΙΣ<br />
• Εκτίµηση των ∆Ε εµπιστοσύνης για την καµπύλη (confidence limits)<br />
και για τις ατοµικές τιµές (prediction bands)<br />
• Πρόκειται για τα ∆Ε για τη µέση τιµή (αριστερή σχέση) και τις<br />
ατοµικές µετρήσεις (δεξιά σχέση)<br />
• Οι σχέσεις είναι συναρτήσεις του x<br />
⎡ ⎤ ⎡ ⎤<br />
⎢ 2 2<br />
2 1 ( x−x) ⎥ ⎢<br />
2 1 ( x−x)<br />
⎥<br />
se( yˆ) = s ⎢ ˆ<br />
yx |<br />
+ ⎥ se( y) = s ⎢<br />
yx |<br />
1+ + ⎥<br />
n<br />
n<br />
⎢ n<br />
2 n<br />
2<br />
( xi<br />
−x) ⎥ ⎢ ( xi<br />
−x)<br />
⎥<br />
⎢ ∑ ⎥ ⎢ ∑<br />
⎣ ⎥<br />
i= 1 ⎦ ⎣ i=<br />
1 ⎦<br />
)<br />
95% ∆Ε: y±<br />
t ˆ<br />
n−2, aSE y<br />
( )<br />
13<br />
14<br />
ΕΠΙΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΜΕ EXCEL<br />
ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />
EXCEL<br />
Από Εργαλεία Ανάλυση ∆εδοµένων Παλινδρόµηση<br />
(Tools Data Analysis <strong>Regression</strong>)<br />
15<br />
16<br />
4
ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />
EXCEL<br />
∆ΙΑΓΡΑΜΜΑ ΓΡΑΜΜΗΣ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />
1600<br />
1400<br />
1200<br />
y = 51,239 x - 760,524<br />
R 2 = 0,418<br />
1000<br />
We ig ht<br />
800<br />
600<br />
400<br />
200<br />
0<br />
0 10 20 30 40 50<br />
Le ng th<br />
17<br />
18<br />
∆ΙΑΓΡΑΜΜΑ ΥΠΟΛΟΙΠΩΝ<br />
ΠΑΛΙΝ∆ΡΟΜΗΣΗ SPSS<br />
le ng th ∆ιάγραµµα υπ ολοίπ ω ν<br />
600<br />
500<br />
400<br />
300<br />
Υπόλοιπα<br />
200<br />
100<br />
0<br />
-100<br />
-200<br />
-300<br />
-400<br />
0 10 20 30 40 50<br />
le n g th<br />
19<br />
Από Analyze <br />
<strong>Regression</strong> <br />
Linear….<br />
REGRESSION<br />
/MISSING LISTWISE<br />
/STATISTICS COEFF OUTS R ANOVA<br />
/CRITERIA=PIN(.05) POUT(.10) CIN(95)<br />
/NOORIGIN<br />
/DEPENDENT Weight<br />
/METHOD=ENTER length<br />
/RESIDUALS DURBIN<br />
/SAVE MCIN ICIN RESID ZRESID . 20<br />
5
ΠΑΛΙΝ∆ΡΟΜΗΣΗ SPSS<br />
ΠΑΛΙΝ∆ΡΟΜΗΣΗ SPSS<br />
Variables Entered/Removed b<br />
Coefficients a<br />
Variables Variables<br />
Model Entered Removed Method<br />
1 length a . Enter<br />
a. All requested variables entered.<br />
b. Dependent Variable: Weight<br />
ΧΡΗΣΙΜΟΠΟΙΟΎΜΕΝΗ<br />
ΜΕΘΟ∆ΟΣ<br />
Unstandardized Standardized<br />
Coefficients Coefficients<br />
Model<br />
B Std. Error Beta<br />
t Sig.<br />
1 (Constant) -760,524 531,483 -1,431 ,170<br />
length 51,239 14,256 ,646 3,594 ,002<br />
a. Dependent Variable: Weight<br />
ΣΥΝΤΕΛΕΣΤΕΣ<br />
Model Summary b<br />
Adjusted Std. Error of Durbin-<br />
Model R R Square R Square the Estimate Watson<br />
1<br />
,646 a ,418 ,385 199,860 2,051<br />
a. Predictors: (Constant), length<br />
b. Dependent Variable: Weight<br />
ANOVA b<br />
Sum of<br />
Model<br />
Squares df Mean Square F Sig.<br />
1 <strong>Regression</strong> 516026,7 1 516026,665 12,919 ,002 a<br />
Residual 718993,3 18 39944,074<br />
Total<br />
1235020 19<br />
a. Predictors: (Constant), length<br />
b. Dependent Variable: Weight<br />
ΑΠΟΤΕΛΕΣΜΑΤΑ ΓΙΑ R<br />
ΕΓΚΥΡΟΤΗΤΑ ΤΟΥ ΜΟΝΤΕΛΟΥ<br />
Predicted Value<br />
Std. Predicted Value<br />
Standard Error of<br />
Predicted Value<br />
Adjusted Predicted Value<br />
Residual<br />
Std. Residual<br />
Stud. Residual<br />
Deleted Residual<br />
Stud. Deleted Residual<br />
Mahal. Distance<br />
Cook's Distance<br />
Centered Leverage Value<br />
Residuals Statistics a<br />
Minimum Maximum Mean Std. Deviation N<br />
776,64 1391,51 1143,00 164,801 20<br />
-2,223 1,508 ,000 1,000 20<br />
44,741 111,295 60,531 18,648 20<br />
532,41 1373,43 1134,81 191,003 20<br />
-310,359 543,358 ,000 194,530 20<br />
-1,553 2,719 ,000 ,973 20<br />
-1,672 3,273 ,018 1,087 20<br />
-359,888 787,589 8,185 244,873 20<br />
-1,768 5,000 ,103 1,396 20<br />
,002 4,942 ,950 1,288 20<br />
,000 2,408 ,153 ,534 20<br />
,000 ,260 ,050 ,068 20<br />
ΠΕΡΙΓΡΑΦΙΚΑ<br />
ΣΤΑΤΙΣΤΙΚΑ<br />
RESIDUALS<br />
a. Dependent Variable: Weight<br />
21<br />
22<br />
ΑΝΑΛΥΣΗ ΥΠΟΛΟΙΠΩΝ<br />
1600<br />
1400<br />
1200<br />
t<br />
h<br />
ig<br />
e<br />
W<br />
1000<br />
800<br />
R Sq Linear = 0,418<br />
RES_1: Υπόλοιπα<br />
LMCI_1 & UMCI_1:<br />
LICI_1 & UICI_1:<br />
ZRE_1: ΤΥΠΟΠΟΙΗΜΕΝΑ ΥΠΟΛΟΙΠΑ<br />
95% ∆E για την καµπύλη<br />
95% ∆Ε για κάθε τιµή<br />
600<br />
30 32 34 36 38 40 42<br />
length<br />
23<br />
24<br />
6
∆ΙΑΓΡΑΜΜΑ ΓΙΑ ΕΛΕΓΧΟ ΥΠΟΛΟΙΠΩΝ<br />
ΘΕΜΑΤΑ ΓΙΑ ΣΥΖΗΤΗΣΗ<br />
• Σε τι διαφέρει η παλινδρόµηση από τη συσχέτιση;<br />
Normal P-P Plot of <strong>Regression</strong> Standardized Residual<br />
1,0<br />
Dependent Variable: Weight<br />
• Μπορώ να επεκτείνω τα αποτελέσµατα τις παλινδρόµησης<br />
σε άλλη περιοχή τιµών;<br />
0,8<br />
b<br />
ro<br />
P<br />
0,6<br />
m<br />
u<br />
C<br />
d<br />
te<br />
c0,4<br />
e<br />
p<br />
x<br />
E<br />
• Τι είναι η πολλαπλή παλινδρόµηση;<br />
0,2<br />
0,0<br />
0,0 0,2 0,4 0,6 0,8 1,0<br />
Observed Cum Prob<br />
25<br />
26<br />
7