15.04.2013 Views

5. Regresia liniara

5. Regresia liniara

5. Regresia liniara

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Cursul Nr. 14<br />

<strong>Regresia</strong> <strong>liniara</strong>


Background<br />

• O mare parte a analizelor statistice uzuale se<br />

ocupă cu analiza relaţiei între două variabile<br />

statistice (atribute) ce corespund aceluiaşi grup<br />

de obiecte/instanţe.<br />

• Pentru a o identifica, se studiază relaţia dintre<br />

cele două caracteristici/atribute măsurate pe<br />

obiectele dintr-un anumit set.<br />

• Cu alte cuvinte, este vorba de două serii<br />

statistice în care cuplurile de valori (x i, y i),<br />

corespunzând cuplului de variabile statistice<br />

(X, Y) sunt măsurate pe acelaşi obiect.


Background<br />

• Există două mari motive pentru care se<br />

efectuează un asemenea studiu:<br />

– Descrierea relaţiei care ar putea exista între cele<br />

două variabile, analizând legătura între cele<br />

două serii de observaţii. Concret, se analizează<br />

dacă tendinţa ascendentă a uneia implică o<br />

tendinţă ascendentă, descendentă sau nici o<br />

tendinţă a celeilalte;<br />

– În ipoteza existenţei unei legături reale între ele,<br />

identificată în prima instanţă, să se poată<br />

prognostica valorile uneia în raport cu valorile<br />

celeilalte pe baza ecuaţiei de regresie.


Background<br />

• Scopul final este prognoza, în condiţia că<br />

este posibilă, cele două variabile fiind întradevăr<br />

corelate.<br />

• Metoda prin care analizăm posibilele<br />

asociaţii între valorile a două variabile<br />

statistice, prelevate de la acelaşi grup de<br />

obiecte, este cunoscută ca metoda<br />

corelaţiei şi are ca indice coeficientul de<br />

corelaţie (Pearson’s r).


Background<br />

• Fie două serii statistice {x i} i = 1,...,n şi {y i} i = 1,...,n,<br />

corespunzătoare cuplului de variabile statistice<br />

X şi Y. Atunci, coeficientul de corelaţie r<br />

(Pearson’s r) al celor două variabile este un<br />

număr real cuprins între –1 şi 1, definit de<br />

formula:


Background<br />

• Interpretarea corelaţiei dintre două variabile statistice:<br />

coeficientul de corelaţie r ia valori cuprinse între –1 şi<br />

+1, trecând şi prin 0, care indică o neasociere între<br />

cele două variabile (independenţă). O valoare a lui r<br />

apropiată de –1 indică o corelaţie negativă puternică,<br />

adică tendinţa unei variabile de a scădea semnificativ<br />

când cealaltă variabilă creşte, în timp ce o valoare a<br />

lui r apropiată de +1 indică o corelaţie pozitivă<br />

puternică, adică tendinţa de creştere semnificativă a<br />

unei variabile atunci când şi cealaltă variabilă creşte.<br />

Să notăm că există cazuri în care variabile<br />

dependente au coeficientul de corelaţie nul.


Visually Evaluating Correlation<br />

Scatter plots<br />

showing the<br />

similarity from –<br />

1 to 1.


Background<br />

• Coeficientul de corelaţie poate fi calculat pentru<br />

orice set de date, dar, pentru ca el să aibă<br />

relevanţă statistică, trebuie îndeplinite două<br />

condiţii majore:<br />

– (a) cele două variabile să fie definite de acelaşi lot<br />

de obiecte, cuplurile de date corespunzând<br />

aceluiaşi obiect;<br />

– (b) cel puţin una din variabile să aibă o repartiţie<br />

aproximativ normală, ideal fiind ca ambele să fie<br />

normal repartizate.


Background<br />

• Presupunând că legătura dintre cele două<br />

variabile X şi Y, reliefată de coeficientul de<br />

corelaţie r, nu este întâmplătoare, există trei<br />

posibile explicaţii:<br />

• Variabila X influenţează (cauzează) variabila<br />

Y;<br />

• Variabila Y influenţează variabila X;<br />

• Ambele variabile X şi Y sunt influenţate de<br />

acelaşi fenomen din fundal.


<strong>Regresia</strong> <strong>liniara</strong><br />

• Pasul următor în analiza legăturii dintre două<br />

variabile statistice, atunci când acestea sunt<br />

corelate, este să se stabilească concret natura<br />

legăturii liniare dintre ele, descriind-o printr-o<br />

ecuaţie matematică.<br />

• Scopul final al acestei abordări este prognoza<br />

valorilor uneia dintre variabile pe baza valorilor<br />

celeilalte, prognoză efectuată pe baza ecuaţiei<br />

ce descrie legătura dintre cele două seturi de<br />

date.


<strong>Regresia</strong> <strong>liniara</strong><br />

• Modul de prezentare a legăturii liniare dintre două<br />

variabile, atunci când aceasta există, se numeşte<br />

metoda regresiei liniare (linear regression).<br />

• Pentru aceasta se consideră una dintre variabile ca<br />

variabilă independentă sau variabilă predictor, iar<br />

cealaltă variabilă ca variabilă dependentă sau<br />

variabilă răspuns (outcome).<br />

• Legătura liniară dintre cele două variabile este<br />

descrisă de o ecuaţie liniară, ecuaţia de regresie<br />

(regression equation) căreia îi corespunde geometric<br />

dreapta de regresie (regression line).


<strong>Regresia</strong> <strong>liniara</strong><br />

• Ca metodologie, variabila dependentă se<br />

distribuie pe axa ordonatelor, în timp ce<br />

variabila independentă se distribuie pe axa<br />

absciselor. Ecuaţia dreptei de regresie se<br />

stabileşte pe baza metodei “celor mai mici<br />

pătrate” (least squares method) care, intuitiv,<br />

minimizează distanţa între punctele<br />

reprezentate de perechile de date/observed<br />

values şi punctele corespunzătoare de pe<br />

dreaptă/fitted values (obţinute pe verticalele<br />

corespunzătoare). Aceasta distanţă se numeşte<br />

reziduu (residual).


<strong>Regresia</strong> <strong>liniara</strong><br />

• În final, obţinem ecuaţia de regresie sub forma:<br />

Y = a + bX,<br />

unde a se numeşte interceptor iar b coeficient<br />

de regresie, cei doi parametri fiind obţinuţi cu<br />

ajutorul formulelor:<br />

b<br />

<br />

n<br />

<br />

i1<br />

( x x)( y y)<br />

n<br />

<br />

i1<br />

i i<br />

( x x)<br />

i<br />

2<br />

a y bx


Exemplu<br />

• Să considerăm datele culese de la un lot de 24<br />

de pacienţi având diabet de tip I, privind<br />

următoarele două variabile:<br />

– glucoza (G) în sânge pe stomacul gol<br />

(mmol/l);<br />

– viteza medie de contracţie Vcf (%/sec) a<br />

ventriculului stâng, obţinută prin ecocardiografie.


Pacient G Vcf Pacient G Vcf<br />

1 15,3 1,76 13 19,0 1,95<br />

2 10,8 1,34 14 15,1 1,28<br />

3 8,1 1,27 15 6,7 1,52<br />

4 19,5 1,47 16* 8,6 ?<br />

5 7,2 1,27 17 4,2 1,12<br />

6 5,3 1,49 18 10,3 1,37<br />

7 9,3 1,31 19 12,5 1,19<br />

8 11,1 1,09 20 16,1 1,05<br />

9 7,5 1,18 21 13,3 1,32<br />

10 12,2 1,22 22 4,9 1,03<br />

11 6,7 1,25 23 8,8 1,12<br />

12 5,2 1,19 24 9,5 1,70


Exemplu<br />

• Tabelul de mai jos prezintă principalele<br />

caracteristici numerice ale regresiei liniare aplicate<br />

în acest caz.


Exemplu<br />

• Aşa după cum se observă, în ciuda faptului că<br />

valoarea coeficientului de corelaţie r nu pare<br />

prea importantă, totuşi nivelul de semnificaţie<br />

p = 0,041 atestă o corelaţie semnificativă.<br />

Ecuaţia de regresie liniară este dată de:<br />

Vcf = 1,10 + 0.02G ,<br />

de unde deducem că valoarea estimată<br />

(prognozată pe baza regresiei liniare) a<br />

variabilei Vcf pentru pacientul No. 16 este de<br />

1,27%.


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• Spre deosebire de cazul regresiei liniare<br />

simple, în care am încercat sa exprimam o<br />

variabila (dependenta) în funcţie de o alta<br />

variabila (independenta, explicativa, predictor),<br />

acum ne punem problema situatiei în care<br />

avem de-a face cu cel puţin trei variabile, dintre<br />

care una este dependenta iar celelalte sunt<br />

independente, predictoare.


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• Vom prezenta, astfel, un model de regresie<br />

liniară multiplă în care variabila dependenta<br />

este exprimata ca o combinatie liniară de<br />

variabile independente sau variabile predictor/<br />

covariate.<br />

• Matematic vorbind, acest fapt se exprima prin<br />

ecuaţia de regresie multiplă:<br />

Y = a + b 1 X 1 + b 2 X 2 +…+ b k X k,<br />

unde Y reprezinta variabila dependenta iar<br />

variabilele X 1,…, X k sunt variabilele explicative,<br />

predictoare. Constantele b 1,…, b k reprezintă<br />

coeficientii de regresie, iar a este constanta de<br />

regresie sau interceptorul.


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• Atunci când ştim dinainte care variabile vor fi<br />

incluse în analiza regresivă multiplă, modelul se<br />

poate construi fără dificultate, singura problemă<br />

rămânând identificarea concretă a ecuaţiei de<br />

regresie.<br />

• Dacă scopul propus este şi stabilirea importanţei<br />

predictorilor, atunci va trebui să alegem dintre<br />

toate variabilele modelului pe cele esenţiale,<br />

pentru obţinerea unui model clar şi simplu.<br />

• În acest caz va trebui să facem apel la nivelul p de<br />

semnificaţie statistică a corelatiei fiecărei variabile<br />

predictoare cu variabila dependenta pentru a<br />

decide ierarhia importanţei lor.


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• In cazul în care nu cunoaştem dinainte care<br />

variabile predictive trebuie introduse în model,<br />

vom indica pe scurt cei doi algoritmi principali<br />

utilizaţi standard:<br />

– (1) regresia pas cu pas anterioară (forward<br />

stepwise regression);<br />

– (2) regresia pas cu pas posterioară<br />

(backward stepwise regression).


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

Algoritm pentru regresia pas cu pas anterioară.<br />

• (a) Se identifică variabila cu cel mai mare impact<br />

asupra variabilei dependente, i.e. variabila cea mai<br />

corelată cu variabila dependentă şi se introduce în<br />

model (cel mai mic nivel de semnificatie p);<br />

• (b) Se găseşte variabila din cele rămase care are cea<br />

mai mare corelaţie (ignorând semnul) cu reziduurile<br />

modelului de mai sus;<br />

• (c) Se repetă pasul (b) până când se ajunge la nivelul<br />

de semnificaţie p = 0.05, corespunzător variabilei<br />

curente introdusă în model.<br />

• Când nivelul de semnificaţie p depăşeşte valoarea de<br />

0.05 se opreşte procesul de introducere a predictorilor<br />

în model (condiţia de stop).


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• În ceea ce priveşte algoritmul pentru cealaltă<br />

metodă (regresia pas cu pas posterioară), vom<br />

aborda problema din direcţia opusă, adică:<br />

– (a) Luăm în consideraţie iniţial toate variabilele şi le<br />

excludem pas cu pas pe cele care au semnificaţia<br />

cea mai mică (cel mai mare nivel de semnificatie p).<br />

Aici modelul iniţial include toate variabilele,<br />

considerând că, cel puţin teoretic, toate variabilele<br />

pot fi importante.<br />

– (b) Se exclude apoi variabila cu cea mai mică<br />

influenţă asupra modelului, adică cu cel mai mare<br />

nivel de semnificaţie p privind corelaţia. Nivelul p de<br />

stop este tot 0.0<strong>5.</strong>


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

Websites<br />

• http://www.wessa.net/rwasp_multipleregres<br />

sion.wasp<br />

• http://www.jowerner.homepage.tonline.de/download.htm<br />

• http://www.rocketdownload.com/program/m<br />

ultiple-regression-forecasting-930.html


<strong>Regresia</strong> logistică<br />

• Sunt multe domenii de cercetare din: medicină,<br />

economie, fizică, meteorologie, astronomie,<br />

biologie etc., în care variabila dependenta nu<br />

mai este o variabilă continuă ci una binară,<br />

categorială.<br />

• În acest caz, când variabila dependenta se<br />

refera la două valori (categorii), nu mai este de<br />

folos regresia multiplă, ci se utilizează o<br />

abordare similară -regresia logistica.<br />

• În acest caz, în loc sa se prognozeze valoarea<br />

variabilei dependente în raport cu valorile<br />

variabilelor explicative, se va prognoza o<br />

transformare a variabilei dependente.


<strong>Regresia</strong> logistică<br />

• Transformare se numeşte transformarea logit,<br />

desemnată ca logit (p), unde p este proporţia<br />

de obiecte cu o anumita caracteristica (p<br />

reprezinta probabilitatea ca un individ sa aibă<br />

infarct miocardic, sau p reprezintă<br />

probabilitatea ca un client să rămână fidel unui<br />

anumit supermarket sau produs).<br />

• Formula dupa care se calculează logit (p) este:<br />

p <br />

logit (p) = ln <br />

1p


<strong>Regresia</strong> logistică<br />

• Atunci când utilizăm metoda regresiei<br />

logistice, la sfârşitul calculelor vom obţine<br />

valoarea logit (p) = sub forma unei<br />

combinatii liniare a variabilelor explicative.<br />

În aceste condiţii, putem calcula valoarea<br />

efectiva a probabilităţii p, utilizând formula:<br />

p = e / (1 + e ).


Exemplu<br />

• Scopul studiului este reprezentat de stabilirea<br />

influenţei fumatului, obezităţii si sforăitului asupra<br />

hipertensiunii arteriale, în sensul prognozei apariţiei<br />

acesteia pe baza variabilelor explicative mai sus<br />

amintite, privite ca factori de risc pentru această<br />

maladie. Utilizând metoda regresiei logistice, obţinem<br />

ecuaţia:<br />

logit (p) = -2,378 – 0,068 x fumat + 0,695 x obezitate<br />

+ 0,872 x sforăit,<br />

ecuaţie din care putem obţine probabilitatea ca un<br />

subiect sa dezvolte hipertensiune arterială, pe baza<br />

valorilor individuale ale celor trei variabile explicative –<br />

factori de risc pentru hipertensiune – codate astfel:<br />

0 = nefumător, 1 = fumator; 0 = ponderal,<br />

1 = supraponderal; 0 = nu sforaie, 1 = sforaie.


<strong>Regresia</strong> <strong>liniara</strong> logistica<br />

Websites<br />

• http://www.dtreg.com/logistic.htm<br />

• http://www.statsdirect.co.uk/help/regressio<br />

n_and_correlation/logi.htm<br />

• http://en.wikipedia.org/wiki/Logistic_re<br />

gression

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!