11.03.2014 Views

Regression

Regression

Regression

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΛΙΝ∆ΡΟΜΗΣΗ<br />

(Simple Linear <strong>Regression</strong>)<br />

• Να κατανοηθεί η έννοια της παλινδρόµησης<br />

• Ποιες οι προϋποθέσεις για να εφαρµοσθεί η γραµµική<br />

παλινδρόµηση;<br />

• Τι είναι το γραµµικό µοντέλο και πως εκτιµούνται οι<br />

παράµετροι του.<br />

• Nα συζητηθούν πιο πολύπλοκες τεχνικές όπως η πολλαπλή<br />

παλινδρόµηση (multiple linear regression).<br />

1<br />

ΕΙ∆Η ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />

Γραµµική παλινδρόµηση (Linear regression). Χρησιµοποιείται όταν<br />

η µεταβλητή αποτελέσµατος είναι αριθµητική, όπως, η πίεση αίµατος<br />

κλπ.<br />

Λογιστική παλινδρόµηση (Logistic <strong>Regression</strong>). Χρησιµοποιείται όταν<br />

η µεταβλητή αποτελέσµατος είναι δική, όπως η εµφάνιση ή όχι<br />

µυωπίας, η ύπαρξη ή όχι µιας ασθένειας.<br />

Λογαριθµική-Γραµµική Παλινδρόµηση (log-Linear regression).<br />

Εφαρµόζεται όταν η µεταβλητή αποτελέσµατος είναι διακριτή, όπως ο<br />

αριθµός των νεοδιαγνωσµένων περιπτώσεων καρκίνου του πνεύµονα.<br />

Παλινδρόµηση Cox. Καλείται επίσης ως Αναλογική Παλινδρόµηση<br />

Κινδύνου (Proportional hazard regression) όταν η µεταβλητή<br />

αποτελέσµατος είναι ο χρόνος για να συµβεί κάποιο γεγονός π.χ.<br />

θάνατος, η<br />

2<br />

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ<br />

(<strong>Regression</strong>)<br />

• Έστω Χ και Υ δύο µεταβλητές και (x i , y i ) τα δυνατά ζευγάρια τιµών<br />

που µπορούµε να δηµιουργήσουµε.<br />

• Θεωρούµε ότι οι δύο µεταβλητές συσχετίζονται και συνδέονται µε<br />

γραµµική σχέση.<br />

• Συνήθως η Χ καλείται ανεξάρτητη ή επεξηγηµατική (explanatory)<br />

Η Υ καλείται εξαρτηµένη ή δεσµευµένη (response) µεταβλητή.<br />

ΣΚΟΠΟΣ ΤΗΣ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />

Να διερευνηθεί η αλλαγή της ανεξάρτητης µεταβλητής σε σχέση µε<br />

τις αλλαγές τιµών εξαρτηµένης µεταβλητής. Να καθορισθούν οι<br />

ΠΑΛΙΝ∆ΡΟΜΗΣΗ<br />

Το θεωρητικό γενικό µοντέλο µε ένα ανεξάρτητο παράγοντα για τον<br />

πληθυσµό (population regression line)<br />

E(y | x) = µ = α + βx<br />

y|x<br />

Πειραµατικά οι παρατηρούµενες τιµές αποκλίνουν κατά ε i από την<br />

Αναµενόµενη τιµή E(y|x)<br />

yi<br />

= α + βx i<br />

+ ε<br />

i<br />

Από ένα δείγµα η εξίσωση της γραµµικής σχέσης δίνεται από<br />

τη σχέση (a, b εκτιµήτριες των α, β):<br />

)<br />

y=a+bx<br />

i<br />

i<br />

παράµετροι (συντελεστές) της σχέσης.<br />

3<br />

4<br />

1


y<br />

ΠΡΟΥΠΟΘΕΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΛΛΙΝ∆ΡΟΜΗΣΗ<br />

Για µια συγκεκριµένη τιµή της x οι αντίστοιχες τιµές των y<br />

ακολουθούν κανονική κατανοµή µε Ν(µ υ|χ, σ y|x ).<br />

Οι τιµές της µ y|x περιγράφονται από την ευθεία α+βx<br />

Ισχύει η οµοσκέδαση (homoscedacity) των υπολοίπων (residuals).<br />

Οι σ y|x παραµένουν σταθερές για όλες τις τιµές των x.<br />

Οι τιµές των y είναι ανεξάρτητες µεταξύ τους.<br />

ΟΡΟΛΟΓΙΑ-ΤΥΠΟΛΟΓΙΟ<br />

Χ, Υ: Η ανεξάρτητη και η εξαρτηµένη µεταβλητή<br />

(x i , y i ): Τα ζεύγη µετρήσεων των δύο µεταβλητών Χ, Υ<br />

X , Y:<br />

e i :<br />

ˆ : y i<br />

Οι µέσες τιµές των µεταβλητών Χ, Υ αντίστοιχα<br />

Οι υπολειπόµενες ποσότητες-σφάλµατα του γραµµικού µοντέλου<br />

(residuals).<br />

e ˆ<br />

i<br />

= yi − yi<br />

Η εκτιµώµενη τιµή της y i µε βάση το γραµµικό µοντέλο.<br />

Άθροισµα γινοµένων<br />

SS X , SS y :<br />

nCov( X , Y ) = ( x −x)( y − y)<br />

Άθροισµα τετραγώνων (Sum of squares)<br />

n<br />

n<br />

2 2<br />

SSx = ( xi − x) SS<br />

y<br />

= ( yi<br />

− y)<br />

SS<br />

∑<br />

∑<br />

R =b 2 SS x<br />

i= 1 i=<br />

1<br />

n<br />

2<br />

SS e : Άθροισµα τετραγώνων των σφαλµάτων e i<br />

SS ( ˆ<br />

e<br />

= ∑ yi − y)<br />

= SSe<br />

x i=<br />

1<br />

5<br />

6<br />

n<br />

∑<br />

i=<br />

1<br />

i<br />

i<br />

R 2 : Συντελεστής R 2 .<br />

ΟΡΟΛΟΓΙΑ-ΤΥΠΟΛΟΓΙΟ<br />

n<br />

∑<br />

( xi<br />

−x)( yi<br />

− y)<br />

sy<br />

b: i=<br />

1<br />

b= R = s<br />

n<br />

x<br />

2<br />

( x − x)<br />

n<br />

∑<br />

se(b) =<br />

SE(b) & SE(a):<br />

se(a) = s<br />

∑<br />

i=<br />

1<br />

n<br />

∑<br />

y|x<br />

i=1<br />

i<br />

s<br />

y|x<br />

(x - x)<br />

i<br />

1<br />

+<br />

n<br />

n<br />

2<br />

∑<br />

i=<br />

1<br />

2<br />

( y ˆ<br />

i<br />

− yi)<br />

2 i=<br />

1<br />

SSe<br />

R = 1− = 1−<br />

n<br />

2 SS<br />

y<br />

( y − y)<br />

x<br />

2<br />

( x − x)<br />

i<br />

2<br />

∑<br />

i=<br />

1<br />

i<br />

a: a=y-bx<br />

s<br />

yx |<br />

( y ˆ<br />

i<br />

− y )<br />

SSE<br />

i=<br />

1<br />

= =<br />

n−2 n−2<br />

n<br />

∑<br />

2<br />

i<br />

ΜΕΘΟ∆ΟΣ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ<br />

Η µέθοδος έχει ως στόχο την ελαχιστοποίηση των σφαλµάτων e i<br />

e = y − yˆ<br />

i i i<br />

n n<br />

2 2<br />

∑e ( ˆ<br />

i<br />

= ∑ yi −yi)<br />

i= 1 i=<br />

1<br />

Από τον µηδενισµό της α’ παραγώγου της<br />

s<br />

n<br />

∑<br />

( x − x)( y − y)<br />

i i<br />

y i=<br />

1<br />

b= R = s<br />

n<br />

x<br />

2<br />

∑( xi<br />

− x)<br />

i=<br />

1<br />

∂<br />

∑<br />

∂b<br />

2<br />

e i<br />

∂<br />

a=y-bx<br />

∑e<br />

2 i<br />

∂a<br />

7<br />

8<br />

2


Οι µετρήσεις µήκους και βάρους για ένα δείγµα 20 λιποβαρών κατά τη<br />

γέννηση βρεφών παρουσιάζονται στον παρακάτω πίνακα.<br />

Υποστηρίζεται από ερευνητές ότι υπάρχει µια γραµµική σχέση µεταξύ<br />

µήκους και βάρους των νεογέννητων.<br />

Υπολογίστε τους συντελεστές της ευθείας που προσαρµόζεται καλύτερα<br />

στα δεδοµένα.<br />

AA 1 2 3 4 5 6 7 8 9 10<br />

length 41 40 38 38 38 32 33 38 30 34<br />

weight 1360 1490 1490 1180 1200 680 620 1060 1320 830<br />

AA 11 12 13 14 15 16 17 18 19 20<br />

length 32 39 38 39 37 39 38 42 39 38<br />

weight 880 1130 1140 1350 950 1220 980 1480 1250 1250<br />

ΕΠΙΛΥΣΗ<br />

Για να εκτιµήσουµε τις µεταβλητές a και b υπολογίζουµε τα εξής:<br />

Τα περιγραφικά στατιστικά του δείγµατος<br />

x = 37,15 n= 20 s = 3, 2<br />

y = 1143 n= 20 s = 255<br />

xy = 859.320<br />

∑<br />

Τα αθροίσµατα τετραγώνων των µεταβλητών Χ, Υ,<br />

SSx<br />

= ( n − 1) S = 19x3,2 = 196,55<br />

SS = ( n − 1) S = 19x255 = 1.235.020<br />

y<br />

2 2<br />

x<br />

2 2<br />

y<br />

∑<br />

Οι συντελεστές a και b υπολογίζονται από:<br />

( x −x)( y − y) = 10.071<br />

10.071<br />

b = = 51,24 a = y -bx =1143 - 51,24 * 37,15 = -760,52<br />

196,55<br />

i<br />

i<br />

9<br />

10<br />

ΕΛΕΓΧΟΣ ΓΙΑ ΤΟΥΣ ΣΥΝΤΕΛΕΣΤΕΣ α, β<br />

ΕΛΕΓΧΟΣ ΓΙΑ ΤΟΥΣ ΣΥΝΤΕΛΕΣΤΕΣ α, β<br />

• Οι συντελεστές a, b ακολουθούν κανονική κατανοµή :<br />

• Μηδενική υπόθεση Ηο: β=0<br />

Εναλλακτική υπόθεση Η Α : β≠0<br />

• Μηδενική υπόθεση Ηο: α=0<br />

Εναλλακτική υπόθεση Η Α : α≠0<br />

a~N(α, s<br />

b~N(b, s<br />

2<br />

Y|X<br />

2<br />

Y|X<br />

2<br />

1 x<br />

[ + ])<br />

n<br />

n<br />

2<br />

( x − x)<br />

n<br />

∑<br />

i=<br />

1<br />

∑<br />

i=<br />

1<br />

1<br />

)<br />

2<br />

( x − x)<br />

• Συνεπώς οι SE(a), SE(b) θα είναι<br />

i<br />

i<br />

SE(a) = s<br />

SE(b) = s<br />

1<br />

+<br />

n<br />

• Για να ελέγξουµε εάν ισχύει η γραµµικότητα στον πληθυσµό<br />

ελέγχουµε εάν β= ή ≠0<br />

• Ο έλεγχος θα γίνει µε χρήση t-test<br />

y|x<br />

y|x<br />

n<br />

∑<br />

i=<br />

1<br />

n<br />

∑<br />

i=<br />

1<br />

2<br />

x<br />

( x − x)<br />

1<br />

( x − x)<br />

i<br />

i<br />

2<br />

2<br />

Υπολογισµός των SS y SS R, SS e<br />

2 2<br />

SSR<br />

= b × SSx<br />

= 51,24 x196,55 = 516.027<br />

SSe<br />

S<br />

yx |<br />

= = 199,86<br />

SS = SS − SS = 1.235.020-516.027=718.993<br />

n − 2<br />

e y R<br />

SS(b)= 14,26<br />

t=b/SS(b)=3,594<br />

Υπολογισµός των στατιστικών t<br />

SS(a)= 531,48<br />

t=a/SS(a)=-1,431<br />

Συγκρίνουµε µε την κρίσιµη τιµή t για n-2 και α=0,05 t=2,10<br />

Ο συντελεστής β είναι διάφορος<br />

του 0<br />

Ο συντελεστής α δεν είναι<br />

διάφορος του 0<br />

11<br />

12<br />

3


ΕΚΤΙΜΗΣΗ ΤΗΣ ΠΡΟΣΑΡΜΟΓΗΣ<br />

• Πόσο «καλό» είναι το µοντέλο;<br />

• Ο συντελεστής R 2 εξηγεί το ποσοστό της συνολικής<br />

µεταβλητότητας που εξηγείται από το µοντέλο<br />

• Οι τιµές του κυµαίνονται από 0-1<br />

• Ο συντελεστής R 2 είναι το τετράγωνο του συντελεστή Pearson<br />

στη συσχέτιση<br />

• ΕΝΑΛΛΑΚΤΙΚΑ: ∆ιαγράµµατα υπολοίπων<br />

n<br />

∑<br />

∑<br />

2<br />

( y ˆ<br />

i<br />

− yi)<br />

2 i=<br />

1<br />

SSe<br />

718.993<br />

R = 1− = 1− = 1− = 0, 418<br />

n<br />

2 SS<br />

y<br />

1.235.020<br />

( y − y)<br />

i=<br />

1<br />

i<br />

∆ΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΗΝ ΚΑΜΠΥΛΗ<br />

ΚΑΙ ΤΙΣ ΑΤΟΜΙΚΕΣ ΜΕΤΡΗΣΕΙΣ<br />

• Εκτίµηση των ∆Ε εµπιστοσύνης για την καµπύλη (confidence limits)<br />

και για τις ατοµικές τιµές (prediction bands)<br />

• Πρόκειται για τα ∆Ε για τη µέση τιµή (αριστερή σχέση) και τις<br />

ατοµικές µετρήσεις (δεξιά σχέση)<br />

• Οι σχέσεις είναι συναρτήσεις του x<br />

⎡ ⎤ ⎡ ⎤<br />

⎢ 2 2<br />

2 1 ( x−x) ⎥ ⎢<br />

2 1 ( x−x)<br />

⎥<br />

se( yˆ) = s ⎢ ˆ<br />

yx |<br />

+ ⎥ se( y) = s ⎢<br />

yx |<br />

1+ + ⎥<br />

n<br />

n<br />

⎢ n<br />

2 n<br />

2<br />

( xi<br />

−x) ⎥ ⎢ ( xi<br />

−x)<br />

⎥<br />

⎢ ∑ ⎥ ⎢ ∑<br />

⎣ ⎥<br />

i= 1 ⎦ ⎣ i=<br />

1 ⎦<br />

)<br />

95% ∆Ε: y±<br />

t ˆ<br />

n−2, aSE y<br />

( )<br />

13<br />

14<br />

ΕΠΙΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΜΕ EXCEL<br />

ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />

EXCEL<br />

Από Εργαλεία Ανάλυση ∆εδοµένων Παλινδρόµηση<br />

(Tools Data Analysis <strong>Regression</strong>)<br />

15<br />

16<br />

4


ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />

EXCEL<br />

∆ΙΑΓΡΑΜΜΑ ΓΡΑΜΜΗΣ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ<br />

1600<br />

1400<br />

1200<br />

y = 51,239 x - 760,524<br />

R 2 = 0,418<br />

1000<br />

We ig ht<br />

800<br />

600<br />

400<br />

200<br />

0<br />

0 10 20 30 40 50<br />

Le ng th<br />

17<br />

18<br />

∆ΙΑΓΡΑΜΜΑ ΥΠΟΛΟΙΠΩΝ<br />

ΠΑΛΙΝ∆ΡΟΜΗΣΗ SPSS<br />

le ng th ∆ιάγραµµα υπ ολοίπ ω ν<br />

600<br />

500<br />

400<br />

300<br />

Υπόλοιπα<br />

200<br />

100<br />

0<br />

-100<br />

-200<br />

-300<br />

-400<br />

0 10 20 30 40 50<br />

le n g th<br />

19<br />

Από Analyze <br />

<strong>Regression</strong> <br />

Linear….<br />

REGRESSION<br />

/MISSING LISTWISE<br />

/STATISTICS COEFF OUTS R ANOVA<br />

/CRITERIA=PIN(.05) POUT(.10) CIN(95)<br />

/NOORIGIN<br />

/DEPENDENT Weight<br />

/METHOD=ENTER length<br />

/RESIDUALS DURBIN<br />

/SAVE MCIN ICIN RESID ZRESID . 20<br />

5


ΠΑΛΙΝ∆ΡΟΜΗΣΗ SPSS<br />

ΠΑΛΙΝ∆ΡΟΜΗΣΗ SPSS<br />

Variables Entered/Removed b<br />

Coefficients a<br />

Variables Variables<br />

Model Entered Removed Method<br />

1 length a . Enter<br />

a. All requested variables entered.<br />

b. Dependent Variable: Weight<br />

ΧΡΗΣΙΜΟΠΟΙΟΎΜΕΝΗ<br />

ΜΕΘΟ∆ΟΣ<br />

Unstandardized Standardized<br />

Coefficients Coefficients<br />

Model<br />

B Std. Error Beta<br />

t Sig.<br />

1 (Constant) -760,524 531,483 -1,431 ,170<br />

length 51,239 14,256 ,646 3,594 ,002<br />

a. Dependent Variable: Weight<br />

ΣΥΝΤΕΛΕΣΤΕΣ<br />

Model Summary b<br />

Adjusted Std. Error of Durbin-<br />

Model R R Square R Square the Estimate Watson<br />

1<br />

,646 a ,418 ,385 199,860 2,051<br />

a. Predictors: (Constant), length<br />

b. Dependent Variable: Weight<br />

ANOVA b<br />

Sum of<br />

Model<br />

Squares df Mean Square F Sig.<br />

1 <strong>Regression</strong> 516026,7 1 516026,665 12,919 ,002 a<br />

Residual 718993,3 18 39944,074<br />

Total<br />

1235020 19<br />

a. Predictors: (Constant), length<br />

b. Dependent Variable: Weight<br />

ΑΠΟΤΕΛΕΣΜΑΤΑ ΓΙΑ R<br />

ΕΓΚΥΡΟΤΗΤΑ ΤΟΥ ΜΟΝΤΕΛΟΥ<br />

Predicted Value<br />

Std. Predicted Value<br />

Standard Error of<br />

Predicted Value<br />

Adjusted Predicted Value<br />

Residual<br />

Std. Residual<br />

Stud. Residual<br />

Deleted Residual<br />

Stud. Deleted Residual<br />

Mahal. Distance<br />

Cook's Distance<br />

Centered Leverage Value<br />

Residuals Statistics a<br />

Minimum Maximum Mean Std. Deviation N<br />

776,64 1391,51 1143,00 164,801 20<br />

-2,223 1,508 ,000 1,000 20<br />

44,741 111,295 60,531 18,648 20<br />

532,41 1373,43 1134,81 191,003 20<br />

-310,359 543,358 ,000 194,530 20<br />

-1,553 2,719 ,000 ,973 20<br />

-1,672 3,273 ,018 1,087 20<br />

-359,888 787,589 8,185 244,873 20<br />

-1,768 5,000 ,103 1,396 20<br />

,002 4,942 ,950 1,288 20<br />

,000 2,408 ,153 ,534 20<br />

,000 ,260 ,050 ,068 20<br />

ΠΕΡΙΓΡΑΦΙΚΑ<br />

ΣΤΑΤΙΣΤΙΚΑ<br />

RESIDUALS<br />

a. Dependent Variable: Weight<br />

21<br />

22<br />

ΑΝΑΛΥΣΗ ΥΠΟΛΟΙΠΩΝ<br />

1600<br />

1400<br />

1200<br />

t<br />

h<br />

ig<br />

e<br />

W<br />

1000<br />

800<br />

R Sq Linear = 0,418<br />

RES_1: Υπόλοιπα<br />

LMCI_1 & UMCI_1:<br />

LICI_1 & UICI_1:<br />

ZRE_1: ΤΥΠΟΠΟΙΗΜΕΝΑ ΥΠΟΛΟΙΠΑ<br />

95% ∆E για την καµπύλη<br />

95% ∆Ε για κάθε τιµή<br />

600<br />

30 32 34 36 38 40 42<br />

length<br />

23<br />

24<br />

6


∆ΙΑΓΡΑΜΜΑ ΓΙΑ ΕΛΕΓΧΟ ΥΠΟΛΟΙΠΩΝ<br />

ΘΕΜΑΤΑ ΓΙΑ ΣΥΖΗΤΗΣΗ<br />

• Σε τι διαφέρει η παλινδρόµηση από τη συσχέτιση;<br />

Normal P-P Plot of <strong>Regression</strong> Standardized Residual<br />

1,0<br />

Dependent Variable: Weight<br />

• Μπορώ να επεκτείνω τα αποτελέσµατα τις παλινδρόµησης<br />

σε άλλη περιοχή τιµών;<br />

0,8<br />

b<br />

ro<br />

P<br />

0,6<br />

m<br />

u<br />

C<br />

d<br />

te<br />

c0,4<br />

e<br />

p<br />

x<br />

E<br />

• Τι είναι η πολλαπλή παλινδρόµηση;<br />

0,2<br />

0,0<br />

0,0 0,2 0,4 0,6 0,8 1,0<br />

Observed Cum Prob<br />

25<br />

26<br />

7

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!