Regression

ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΛΙΝ∆ΡΟΜΗΣΗ 

(Simple Linear Regression) 

• Να κατανοηθεί η έννοια της παλινδρόµησης 

• Ποιες οι προϋποθέσεις για να εφαρµοσθεί η γραµµική 

παλινδρόµηση; 

• Τι είναι το γραµµικό µοντέλο και πως εκτιµούνται οι 

παράµετροι του. 

• Nα συζητηθούν πιο πολύπλοκες τεχνικές όπως η πολλαπλή 

παλινδρόµηση (multiple linear regression). 

1 

ΕΙ∆Η ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ 

Γραµµική παλινδρόµηση (Linear regression). Χρησιµοποιείται όταν 

η µεταβλητή αποτελέσµατος είναι αριθµητική, όπως, η πίεση αίµατος 

κλπ. 

Λογιστική παλινδρόµηση (Logistic Regression). Χρησιµοποιείται όταν 

η µεταβλητή αποτελέσµατος είναι δική, όπως η εµφάνιση ή όχι 

µυωπίας, η ύπαρξη ή όχι µιας ασθένειας. 

Λογαριθµική-Γραµµική Παλινδρόµηση (log-Linear regression). 

Εφαρµόζεται όταν η µεταβλητή αποτελέσµατος είναι διακριτή, όπως ο 

αριθµός των νεοδιαγνωσµένων περιπτώσεων καρκίνου του πνεύµονα. 

Παλινδρόµηση Cox. Καλείται επίσης ως Αναλογική Παλινδρόµηση 

Κινδύνου (Proportional hazard regression) όταν η µεταβλητή 

αποτελέσµατος είναι ο χρόνος για να συµβεί κάποιο γεγονός π.χ. 

θάνατος, η 

2 

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ∆ΡΟΜΗΣΗ 

(Regression) 

• Έστω Χ και Υ δύο µεταβλητές και (x i , y i ) τα δυνατά ζευγάρια τιµών 

που µπορούµε να δηµιουργήσουµε. 

• Θεωρούµε ότι οι δύο µεταβλητές συσχετίζονται και συνδέονται µε 

γραµµική σχέση. 

• Συνήθως η Χ καλείται ανεξάρτητη ή επεξηγηµατική (explanatory) 

Η Υ καλείται εξαρτηµένη ή δεσµευµένη (response) µεταβλητή. 

ΣΚΟΠΟΣ ΤΗΣ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ 

Να διερευνηθεί η αλλαγή της ανεξάρτητης µεταβλητής σε σχέση µε 

τις αλλαγές τιµών εξαρτηµένης µεταβλητής. Να καθορισθούν οι 

ΠΑΛΙΝ∆ΡΟΜΗΣΗ 

Το θεωρητικό γενικό µοντέλο µε ένα ανεξάρτητο παράγοντα για τον 

πληθυσµό (population regression line) 

E(y | x) = µ = α + βx 

y|x 

Πειραµατικά οι παρατηρούµενες τιµές αποκλίνουν κατά ε i από την 

Αναµενόµενη τιµή E(y|x) 

yi 

= α + βx i 

+ ε 

i 

Από ένα δείγµα η εξίσωση της γραµµικής σχέσης δίνεται από 

τη σχέση (a, b εκτιµήτριες των α, β): 

) 

y=a+bx 

i 

i 

παράµετροι (συντελεστές) της σχέσης. 

3 

4 

1

y 

ΠΡΟΥΠΟΘΕΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΛΛΙΝ∆ΡΟΜΗΣΗ 

Για µια συγκεκριµένη τιµή της x οι αντίστοιχες τιµές των y 

ακολουθούν κανονική κατανοµή µε Ν(µ υ|χ, σ y|x ). 

Οι τιµές της µ y|x περιγράφονται από την ευθεία α+βx 

Ισχύει η οµοσκέδαση (homoscedacity) των υπολοίπων (residuals). 

Οι σ y|x παραµένουν σταθερές για όλες τις τιµές των x. 

Οι τιµές των y είναι ανεξάρτητες µεταξύ τους. 

ΟΡΟΛΟΓΙΑ-ΤΥΠΟΛΟΓΙΟ 

Χ, Υ: Η ανεξάρτητη και η εξαρτηµένη µεταβλητή 

(x i , y i ): Τα ζεύγη µετρήσεων των δύο µεταβλητών Χ, Υ 

X , Y: 

e i : 

ˆ : y i 

Οι µέσες τιµές των µεταβλητών Χ, Υ αντίστοιχα 

Οι υπολειπόµενες ποσότητες-σφάλµατα του γραµµικού µοντέλου 

(residuals). 

e ˆ 

i 

= yi − yi 

Η εκτιµώµενη τιµή της y i µε βάση το γραµµικό µοντέλο. 

Άθροισµα γινοµένων 

SS X , SS y : 

nCov( X , Y ) = ( x −x)( y − y) 

Άθροισµα τετραγώνων (Sum of squares) 

n 

n 

2 2 

SSx = ( xi − x) SS 

y 

= ( yi 

− y) 

SS 

∑ 

∑ 

R =b 2 SS x 

i= 1 i= 

1 

n 

2 

SS e : Άθροισµα τετραγώνων των σφαλµάτων e i 

SS ( ˆ 

e 

= ∑ yi − y) 

= SSe 

x i= 

1 

5 

6 

n 

∑ 

i= 

1 

i 

i 

R 2 : Συντελεστής R 2 . 

ΟΡΟΛΟΓΙΑ-ΤΥΠΟΛΟΓΙΟ 

n 

∑ 

( xi 

−x)( yi 

− y) 

sy 

b: i= 

1 

b= R = s 

n 

x 

2 

( x − x) 

n 

∑ 

se(b) = 

SE(b) & SE(a): 

se(a) = s 

∑ 

i= 

1 

n 

∑ 

y|x 

i=1 

i 

s 

y|x 

(x - x) 

i 

1 

+ 

n 

n 

2 

∑ 

i= 

1 

2 

( y ˆ 

i 

− yi) 

2 i= 

1 

SSe 

R = 1− = 1− 

n 

2 SS 

y 

( y − y) 

x 

2 

( x − x) 

i 

2 

∑ 

i= 

1 

i 

a: a=y-bx 

s 

yx | 

( y ˆ 

i 

− y ) 

SSE 

i= 

1 

= = 

n−2 n−2 

n 

∑ 

2 

i 

ΜΕΘΟ∆ΟΣ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ 

Η µέθοδος έχει ως στόχο την ελαχιστοποίηση των σφαλµάτων e i 

e = y − yˆ 

i i i 

n n 

2 2 

∑e ( ˆ 

i 

= ∑ yi −yi) 

i= 1 i= 

1 

Από τον µηδενισµό της α’ παραγώγου της 

s 

n 

∑ 

( x − x)( y − y) 

i i 

y i= 

1 

b= R = s 

n 

x 

2 

∑( xi 

− x) 

i= 

1 

∂ 

∑ 

∂b 

2 

e i 

∂ 

a=y-bx 

∑e 

2 i 

∂a 

7 

8 

2

Οι µετρήσεις µήκους και βάρους για ένα δείγµα 20 λιποβαρών κατά τη 

γέννηση βρεφών παρουσιάζονται στον παρακάτω πίνακα. 

Υποστηρίζεται από ερευνητές ότι υπάρχει µια γραµµική σχέση µεταξύ 

µήκους και βάρους των νεογέννητων. 

Υπολογίστε τους συντελεστές της ευθείας που προσαρµόζεται καλύτερα 

στα δεδοµένα. 

AA 1 2 3 4 5 6 7 8 9 10 

length 41 40 38 38 38 32 33 38 30 34 

weight 1360 1490 1490 1180 1200 680 620 1060 1320 830 

AA 11 12 13 14 15 16 17 18 19 20 

length 32 39 38 39 37 39 38 42 39 38 

weight 880 1130 1140 1350 950 1220 980 1480 1250 1250 

ΕΠΙΛΥΣΗ 

Για να εκτιµήσουµε τις µεταβλητές a και b υπολογίζουµε τα εξής: 

Τα περιγραφικά στατιστικά του δείγµατος 

x = 37,15 n= 20 s = 3, 2 

y = 1143 n= 20 s = 255 

xy = 859.320 

∑ 

Τα αθροίσµατα τετραγώνων των µεταβλητών Χ, Υ, 

SSx 

= ( n − 1) S = 19x3,2 = 196,55 

SS = ( n − 1) S = 19x255 = 1.235.020 

y 

2 2 

x 

2 2 

y 

∑ 

Οι συντελεστές a και b υπολογίζονται από: 

( x −x)( y − y) = 10.071 

10.071 

b = = 51,24 a = y -bx =1143 - 51,24 * 37,15 = -760,52 

196,55 

i 

i 

9 

10 

ΕΛΕΓΧΟΣ ΓΙΑ ΤΟΥΣ ΣΥΝΤΕΛΕΣΤΕΣ α, β 

ΕΛΕΓΧΟΣ ΓΙΑ ΤΟΥΣ ΣΥΝΤΕΛΕΣΤΕΣ α, β 

• Οι συντελεστές a, b ακολουθούν κανονική κατανοµή : 

• Μηδενική υπόθεση Ηο: β=0 

Εναλλακτική υπόθεση Η Α : β≠0 

• Μηδενική υπόθεση Ηο: α=0 

Εναλλακτική υπόθεση Η Α : α≠0 

a~N(α, s 

b~N(b, s 

2 

Y|X 

2 

Y|X 

2 

1 x 

[ + ]) 

n 

n 

2 

( x − x) 

n 

∑ 

i= 

1 

∑ 

i= 

1 

1 

) 

2 

( x − x) 

• Συνεπώς οι SE(a), SE(b) θα είναι 

i 

i 

SE(a) = s 

SE(b) = s 

1 

+ 

n 

• Για να ελέγξουµε εάν ισχύει η γραµµικότητα στον πληθυσµό 

ελέγχουµε εάν β= ή ≠0 

• Ο έλεγχος θα γίνει µε χρήση t-test 

y|x 

y|x 

n 

∑ 

i= 

1 

n 

∑ 

i= 

1 

2 

x 

( x − x) 

1 

( x − x) 

i 

i 

2 

2 

Υπολογισµός των SS y SS R, SS e 

2 2 

SSR 

= b × SSx 

= 51,24 x196,55 = 516.027 

SSe 

S 

yx | 

= = 199,86 

SS = SS − SS = 1.235.020-516.027=718.993 

n − 2 

e y R 

SS(b)= 14,26 

t=b/SS(b)=3,594 

Υπολογισµός των στατιστικών t 

SS(a)= 531,48 

t=a/SS(a)=-1,431 

Συγκρίνουµε µε την κρίσιµη τιµή t για n-2 και α=0,05 t=2,10 

Ο συντελεστής β είναι διάφορος 

του 0 

Ο συντελεστής α δεν είναι 

διάφορος του 0 

11 

12 

3

ΕΚΤΙΜΗΣΗ ΤΗΣ ΠΡΟΣΑΡΜΟΓΗΣ 

• Πόσο «καλό» είναι το µοντέλο; 

• Ο συντελεστής R 2 εξηγεί το ποσοστό της συνολικής 

µεταβλητότητας που εξηγείται από το µοντέλο 

• Οι τιµές του κυµαίνονται από 0-1 

• Ο συντελεστής R 2 είναι το τετράγωνο του συντελεστή Pearson 

στη συσχέτιση 

• ΕΝΑΛΛΑΚΤΙΚΑ: ∆ιαγράµµατα υπολοίπων 

n 

∑ 

∑ 

2 

( y ˆ 

i 

− yi) 

2 i= 

1 

SSe 

718.993 

R = 1− = 1− = 1− = 0, 418 

n 

2 SS 

y 

1.235.020 

( y − y) 

i= 

1 

i 

∆ΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΗΝ ΚΑΜΠΥΛΗ 

ΚΑΙ ΤΙΣ ΑΤΟΜΙΚΕΣ ΜΕΤΡΗΣΕΙΣ 

• Εκτίµηση των ∆Ε εµπιστοσύνης για την καµπύλη (confidence limits) 

και για τις ατοµικές τιµές (prediction bands) 

• Πρόκειται για τα ∆Ε για τη µέση τιµή (αριστερή σχέση) και τις 

ατοµικές µετρήσεις (δεξιά σχέση) 

• Οι σχέσεις είναι συναρτήσεις του x 

⎡ ⎤ ⎡ ⎤ 

⎢ 2 2 

2 1 ( x−x) ⎥ ⎢ 

2 1 ( x−x) 

⎥ 

se( yˆ) = s ⎢ ˆ 

yx | 

+ ⎥ se( y) = s ⎢ 

yx | 

1+ + ⎥ 

n 

n 

⎢ n 

2 n 

2 

( xi 

−x) ⎥ ⎢ ( xi 

−x) 

⎥ 

⎢ ∑ ⎥ ⎢ ∑ 

⎣ ⎥ 

i= 1 ⎦ ⎣ i= 

1 ⎦ 

) 

95% ∆Ε: y± 

t ˆ 

n−2, aSE y 

( ) 

13 

14 

ΕΠΙΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΜΕ EXCEL 

ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ 

EXCEL 

Από Εργαλεία Ανάλυση ∆εδοµένων Παλινδρόµηση 

(Tools Data Analysis Regression) 

15 

16 

4

ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ 

EXCEL 

∆ΙΑΓΡΑΜΜΑ ΓΡΑΜΜΗΣ ΠΑΛΙΝ∆ΡΟΜΗΣΗΣ 

1600 

1400 

1200 

y = 51,239 x - 760,524 

R 2 = 0,418 

1000 

We ig ht 

800 

600 

400 

200 

0 

0 10 20 30 40 50 

Le ng th 

17 

18 

∆ΙΑΓΡΑΜΜΑ ΥΠΟΛΟΙΠΩΝ 

ΠΑΛΙΝ∆ΡΟΜΗΣΗ SPSS 

le ng th ∆ιάγραµµα υπ ολοίπ ω ν 

600 

500 

400 

300 

Υπόλοιπα 

200 

100 

0 

-100 

-200 

-300 

-400 

0 10 20 30 40 50 

le n g th 

19 

Από Analyze 

Regression 

Linear…. 

REGRESSION 

/MISSING LISTWISE 

/STATISTICS COEFF OUTS R ANOVA 

/CRITERIA=PIN(.05) POUT(.10) CIN(95) 

/NOORIGIN 

/DEPENDENT Weight 

/METHOD=ENTER length 

/RESIDUALS DURBIN 

/SAVE MCIN ICIN RESID ZRESID . 20 

5



Variables Entered/Removed b 

Coefficients a 

Variables Variables 

Model Entered Removed Method 

1 length a . Enter 

a. All requested variables entered. 

b. Dependent Variable: Weight 

ΧΡΗΣΙΜΟΠΟΙΟΎΜΕΝΗ 

ΜΕΘΟ∆ΟΣ 

Unstandardized Standardized 

Coefficients Coefficients 

Model 

B Std. Error Beta 

t Sig. 

1 (Constant) -760,524 531,483 -1,431 ,170 

length 51,239 14,256 ,646 3,594 ,002 

a. Dependent Variable: Weight 

ΣΥΝΤΕΛΕΣΤΕΣ 

Model Summary b 

Adjusted Std. Error of Durbin- 

Model R R Square R Square the Estimate Watson 

1 

,646 a ,418 ,385 199,860 2,051 

a. Predictors: (Constant), length 


ANOVA b 

Sum of 

Model 

Squares df Mean Square F Sig. 

1 Regression 516026,7 1 516026,665 12,919 ,002 a 

Residual 718993,3 18 39944,074 

Total 

1235020 19 

a. Predictors: (Constant), length 


ΑΠΟΤΕΛΕΣΜΑΤΑ ΓΙΑ R 

ΕΓΚΥΡΟΤΗΤΑ ΤΟΥ ΜΟΝΤΕΛΟΥ 

Predicted Value 

Std. Predicted Value 

Standard Error of 

Predicted Value 

Adjusted Predicted Value 

Residual 

Std. Residual 

Stud. Residual 

Deleted Residual 

Stud. Deleted Residual 

Mahal. Distance 

Cook's Distance 

Centered Leverage Value 

Residuals Statistics a 

Minimum Maximum Mean Std. Deviation N 

776,64 1391,51 1143,00 164,801 20 

-2,223 1,508 ,000 1,000 20 

44,741 111,295 60,531 18,648 20 

532,41 1373,43 1134,81 191,003 20 

-310,359 543,358 ,000 194,530 20 

-1,553 2,719 ,000 ,973 20 

-1,672 3,273 ,018 1,087 20 

-359,888 787,589 8,185 244,873 20 

-1,768 5,000 ,103 1,396 20 

,002 4,942 ,950 1,288 20 

,000 2,408 ,153 ,534 20 

,000 ,260 ,050 ,068 20 

ΠΕΡΙΓΡΑΦΙΚΑ 

ΣΤΑΤΙΣΤΙΚΑ 

RESIDUALS 

a. Dependent Variable: Weight 

21 

22 

ΑΝΑΛΥΣΗ ΥΠΟΛΟΙΠΩΝ 

1600 

1400 

1200 

t 

h 

ig 

e 

W 

1000 

800 

R Sq Linear = 0,418 

RES_1: Υπόλοιπα 

LMCI_1 & UMCI_1: 

LICI_1 & UICI_1: 

ZRE_1: ΤΥΠΟΠΟΙΗΜΕΝΑ ΥΠΟΛΟΙΠΑ 

95% ∆E για την καµπύλη 

95% ∆Ε για κάθε τιµή 

600 

30 32 34 36 38 40 42 

length 

23 

24 

6

∆ΙΑΓΡΑΜΜΑ ΓΙΑ ΕΛΕΓΧΟ ΥΠΟΛΟΙΠΩΝ 

ΘΕΜΑΤΑ ΓΙΑ ΣΥΖΗΤΗΣΗ 

• Σε τι διαφέρει η παλινδρόµηση από τη συσχέτιση; 

Normal P-P Plot of Regression Standardized Residual 

1,0 

Dependent Variable: Weight 

• Μπορώ να επεκτείνω τα αποτελέσµατα τις παλινδρόµησης 

σε άλλη περιοχή τιµών; 

0,8 

b 

ro 

P 

0,6 

m 

u 

C 

d 

te 

c0,4 

e 

p 

x 

E 

• Τι είναι η πολλαπλή παλινδρόµηση; 

0,2 

0,0 

0,0 0,2 0,4 0,6 0,8 1,0 

Observed Cum Prob 

25 

26 

7

Regression

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?