osnove statistike-regresija.pdf

osnove statistike-regresija.pdf osnove statistike-regresija.pdf

OSNOVE STATISTIKE<br />

Regresijska i korelacijska analiza


Regresijska i korelacijska analiza<br />

Dio <strong>statistike</strong> koji prouava povezanost i uzajamni odnos<br />

meu pojavama, koristei pri tomu matematike relacije,<br />

naziva se korelacija.<br />

Veze meu pojavama mogu biti funkcionalne (ili<br />

deterministike) i <strong>statistike</strong> ( ili stohastine).<br />

Glavna zadaa korelacijske analize je otkrivanje<br />

zakonitosti i pravilnosti koje vladaju u odnosima meu<br />

masovnim statistikim pojavama, te kreiranje<br />

matematikih modela koji pomou simbola opisuju<br />

ponašanje pojava u stvarnim uvjetima funkcioniranja.<br />

Korelacijska analiza ukljuuje konstrukciju grafikona za<br />

prikaz kovarijacije pojava (varijabli) i utvrivanje<br />

brojanih pokazatelja jakosti i smjera veze izmeu<br />

varijabli.


Regresijska i korelacijska analiza<br />

Kada se u analizi meuzavisnosti definira koja je<br />

varijabla zavisna a koja nezavisna onda se koriste<br />

metode regresijske analize.<br />

Zavisnost pojava se utvruje prema prethodnim<br />

teorijskim i empirijskim saznanjima o prirodi pojava i<br />

njihovim odnosima.<br />

Matematiki izraz koji pokazuje kako na vrijednost<br />

zavisne varijable utjee vrijednost jedne ili više<br />

nezavisnih varijabli naziva se regresijski model.<br />

Regresijski model predstavlja matematiku funkciju<br />

kojom se opisuje zavisnost jedne (zavisne) varijable o<br />

jednoj ili više nezavisnih varijabli.


Modeli regresije<br />

Opi oblik modela regresije je:<br />

Y<br />

f X , X ,..., X ) <br />

( 1 2 k<br />

Model se sastoji od deterministikog dijela, koji<br />

predstavlja matematiku funkciju kojom se izražava<br />

zavisnost zavisne varijable od odreenog broja<br />

nezavisnih varijabli, i stohastinog dijela koji<br />

predstavlja odstupanje od funkcionalne zavisnosti<br />

Modele regresije možemo podijeliti s obzirom na broj<br />

nezavisnih varijabli ukljuenih u model i s obzirom na<br />

oblik matematike funkcije deterministikog dijela<br />

modela


Modeli regresije<br />

S obzirom na broj nezavisnih varijabli u<br />

modelu, modeli regresije se dijele na<br />

modele jednostavne regresije i modele<br />

višestruke regresije.<br />

Model jednostavne linearne regresije ima<br />

jednu zavisnu i jednu nezavisnu varijablu.<br />

Model višestruke regresije ima jednu<br />

zavisnu i više nezavisnih varijabli


Modeli regresije<br />

Prema obliku matematike funkcije<br />

deterministikog modela, modele regresije<br />

dijelimo na linearne i nelinearne ili krivolinijske<br />

modele.<br />

Veza meu varijablama kod linearnog modela<br />

predoena je linearnom funkcijom, iji je graf<br />

pravac.<br />

Veza izmeu varijabli kod krivolinijske regresije<br />

ima oblik neke druge matematike funkcije, iji je<br />

graf neka kriva linija.


Modeli regresije<br />

Cilj regresijske analize je utvrditi smjer, oblik i jainu veze<br />

izmeu analiziranih pojava.<br />

Smjer veze može biti pozitivan i negativan.<br />

Oblik veze definiran je oblikom matematike funkcije koja<br />

predstavlja deterministiki dio modela regresije. Tako postoje<br />

linearni i krivolinijski modeli.<br />

Jaina veze se odreuje analizom sluajne varijable<br />

regresijskog modela. Sluajnom varijablom se predouju<br />

nesistemski utjecaji, odnosno utjecaji pojava koje nisu<br />

ukljuene u model.<br />

Kao prvi korak u analizi zavisnosti dviju sluajnih varijabli<br />

uobiajeno se empirijski podaci prikazuju grafiki. U<br />

koordinatni sustav se ucrtavaju toke odreene parovima<br />

vrijednosti i i . Tako dobiveni dijagram se naziva<br />

dijagram rasipanja (scatter diagram).<br />

y x ,


Karakteristini oblici dijagrama rasipanja<br />

y i<br />

y i<br />

x i<br />

Pozitivna, linearna funkcionalna veza<br />

Pozitivna,linearna jaka stohastina veza<br />

x i<br />

y i<br />

y i<br />

Negativna, linearna funkcionalna veza<br />

x i<br />

Negativna, linearna umjerena stohastina veza<br />

x i


Karakteristini oblici dijagrama rasipanja<br />

y i<br />

y i<br />

Pozitivna, linearna slaba statistika veza<br />

Nepostojanje veze<br />

x i<br />

x i<br />

y i<br />

x i<br />

Negativna, linearna slaba stohastina veza<br />

y i<br />

Krivolinijska stohastina veza<br />

x i


Modeli regresije – jednostavna linearna<br />

<strong>regresija</strong><br />

Model jednostavne linearne regresije, opi oblik<br />

modela je:<br />

y b0<br />

b1x<br />

<br />

i<br />

i<br />

e<br />

i<br />

U modelu jednostavne linearne regresije vrijednost<br />

zavisne varijable Y je linearna kombinacija<br />

vrijednosti nezavisne varijable X, parametara<br />

modela i sluajne varijable.<br />

Funkcionalni dio modela odreen je ako su poznate<br />

vrijednosti parametara b i b<br />

Vrijednost parametara se procjenjuje empirijski ili<br />

pomou izmjerenih n parova vrijednosti varijable X i<br />

Y<br />

0<br />

1


Modeli regresije – jednostavna linearna<br />

<strong>regresija</strong><br />

Analiza modela u domeni deskriptivne <strong>statistike</strong> vrši<br />

se izraunavanjem vrijednosti parametara i<br />

pokazatelja reprezentativnosti modela, a to su<br />

varijanca, standardna devijacija, koeficijent varijacije i<br />

koeficijent determinacije.<br />

Vrijednost procijenjenih parametara se izraunava iz<br />

n izmjerenih parova vrijednosti x i y.<br />

Prema tome i vrijednosti pokazatelja se odnose samo<br />

na n izmjerenih parova podataka.


Modeli regresije – jednostavna linearna<br />

<strong>regresija</strong><br />

Parametri procijenjenog modela se odreuju tako da<br />

odstupanja izmjerenih vrijednosti od procijenjene vrijednosti<br />

zavisne varijable pomou modela budu što manja.<br />

Postoji više metoda procjene parametara, a naješe se<br />

koristi metoda minimalnih kvadrata odstupanja. Parametri<br />

procijenjeni metodom minimalnih kvadrata odstupanja opisuju<br />

pravac za koji je zbroj rezidualnih kvadrata odstupanja<br />

minimalan.<br />

Parametri se izraunavaju pomou izraza:<br />

n<br />

<br />

i1<br />

b1 n<br />

x<br />

<br />

i1<br />

i<br />

y<br />

x<br />

i<br />

2<br />

i<br />

<br />

<br />

nx<br />

nx<br />

<br />

2<br />

y<br />

b y <br />

0<br />

bx


Modeli regresije – jednostavna linearna<br />

<strong>regresija</strong><br />

Parametar b0<br />

predstavlja konstantni lan modela, a<br />

parametar b1<br />

je regresijski koeficijent.<br />

Konstantan lan b0<br />

je vrijednost zavisne varijable kada<br />

je vrijednost nezavisne varijable jednaka nuli. Za veinu<br />

primjera nema konkretno znaenje.<br />

Regresijski koeficijent b1<br />

predstavlja linearnu promjenu<br />

zavisne varijable za jedinino poveanje nezavisne<br />

varijable.<br />

Regresijske vrijednosti se dobivaju uvrštavanjem<br />

odgovarajuih vrijednosti nezavisne varijable x u model<br />

regresije.<br />

Rezidualna odstupanja su odstupanja izmjerenih<br />

vrijednosti zavisne varijable od regresijskih vrijednosti.


Modeli regresije – jednostavna linearna<br />

<strong>regresija</strong><br />

Prodaja<br />

20<br />

15<br />

10<br />

5<br />

0<br />

Podaci o cijeni i prodaji proizvoda A<br />

(0, b 0 )<br />

0 2 4 6 8 10<br />

Cijena<br />

(x, y )<br />

Empirijski podaci Linearni model regresije


Modeli regresije – jednostavna linearna<br />

<strong>regresija</strong><br />

Razlike vrijednosti izmjerenih vrijednosti zavisne varijable<br />

i regresijskih vrijednosti predstavljaju rezidualna<br />

odstupanja i oznaavaju se sa ei<br />

.<br />

Ovako dobivena odstupanja su izražena u mjernim<br />

jedinicama zavisne varijable Y i nazivaju se apsolutna<br />

rezidualna odstupanja, e y yˆ<br />

.<br />

Relativna rezidualna odstupanja su izražena u<br />

postotcima i dobiju se tako što se apsolutno odstupanje<br />

podijeli izmjerenom vrijednosti varijable, zatim omjer<br />

pomnoži sa 100, y ˆ i yi<br />

<br />

e<br />

100<br />

i,<br />

rel<br />

i<br />

Rezidualna odstupanja se mogu izraziti i u standardnim<br />

devijacijama, pa se nazivaju standardizirana rezidualna<br />

odstupanja. Dobivaju se tako da se apsolutna<br />

odstupanja podijele standardnom devijacijom modela<br />

regresije,<br />

y i yˆ<br />

i <br />

ei,<br />

<br />

<br />

y<br />

y<br />

i<br />

i<br />

i


Modeli regresije – jednostavna linearna<br />

<strong>regresija</strong><br />

Model regresije je reprezentativniji što su manja rezidualna<br />

odstupanja.<br />

Kakvoa modela se mjeri odgovarajuim pokazateljima, a<br />

najznaajniji su:<br />

- Varijanca ili prosjeno kvadratno odstupanje, dobiva se tako<br />

da se zbroj kvadrata rezidualnih odstupanja podijeli brojem<br />

podataka.<br />

n<br />

2 1<br />

2<br />

y yˆ<br />

<br />

yˆ<br />

n i1<br />

i<br />

i<br />

- Standardna greška modela ili prosjeno odstupanje podataka<br />

od regresijskih vrijednosti, dobiva se kao pozitivni drugi<br />

korijen iz varijance.<br />

- Koeficijent varijacije je omjer standardne devijacije i prosjene<br />

vrijednosti zavisne varijable, pomnoženo sa 100.<br />

V<br />

yˆ<br />

<br />

<br />

y<br />

yˆ<br />

100


Modeli regresije – jednostavna linearna<br />

<strong>regresija</strong><br />

U analizi reprezentativnosti regresijskog pravca koristi se<br />

koeficijent determinacije.<br />

Koeficijent determinacije je relativna mjera prilagoenosti<br />

regresijskog pravca empirijskim podacima.<br />

Dobiva se kao omjer protumaenog dijela zbroja kvadrata<br />

odstupanja i ukupnog zbroja kvadrata odstupanja.<br />

Ukupno odstupanje empirijskih podataka (varijabla y) od<br />

prosjene vrijednosti varijable y se rastavlja na dio odstupanja<br />

protumaen modelom regresije (razlika regresijske vrijednosti i<br />

prosjene vrijednosti) i dio ne protumaen modelom (razlika<br />

izmeu izmjerene i regresijske vrijednosti)<br />

Koeficijent determinacije uzima vrijednosti iz intervala 0 i 1.<br />

r<br />

2<br />

n<br />

<br />

n<br />

i1<br />

<br />

i1<br />

yˆ y<br />

i<br />

y y<br />

i<br />

2<br />

2


Nelinearni regresijski modeli<br />

Povezanost dvije pojave ne može se uvijek izraziti<br />

linearnim modelom. Zbog toga se u izgradnji modela<br />

regresije koriste razliiti oblici funkcija, pa se takvi modeli<br />

zovu nelinearni ili krivolinijski modeli regresije.<br />

U praksi se naješe koriste modeli koji se postupkom<br />

transformacije mogu prevesti u modele jednostavne<br />

linearne regresije i modeli polinomske regresije.<br />

Od modela koji se mogu transformirati u modele<br />

jednostavne linearne regresije naješe se koriste:<br />

- eksponencijalni modeli,<br />

- multiplikativni model,<br />

- logaritamski model i<br />

- reciproni model.


Nelinearni regresijski modeli<br />

Kod svih modela regresije radi se o statistikoj<br />

meuzavisnosti pojava, pa modeli imaju<br />

funkcionalni dio i sluajnu promjenjivu.<br />

Analiza funkcionalnog dijela zavisi od oblika<br />

funkcije koji se koristi, a analiza rezidualnih<br />

odstupanja se provodi na isti nain bez obzira<br />

na oblik funkcije. Zbog toga je kod krivolinijskih<br />

modela navedena analiza samo funkcionalnog<br />

dijela.<br />

Analiza rezidualnih odstupanja provodi se<br />

izraunavanjem istih pokazatelja<br />

reprezentativnosti kao kod linearnog modela.


Nelinearni regresijski modeli<br />

Funkcionalni dio eksponencijalni model ima oblik:<br />

xi<br />

yˆ i b0b1<br />

Logaritmiranjem izraza dobiva se linearizirani model:<br />

log yˆ i logb0<br />

logb1<br />

xi<br />

Analiza transformiranog modela provodi se na isti nain kao<br />

kod linearnih modela, uz napomenu da je kod interpretacije<br />

rezultata nužno voditi rauna koje su varijable ili parametri<br />

transformirani.<br />

U navedenom modelu izvršena je transformacija zavisne<br />

varijable i koriste se logaritamske vrijednosti varijable log y .<br />

Vrijednosti parametara koji se procjenjuju pomou empirijskih<br />

vrijednosti se dobivaju u logaritamskim vrijednostima.<br />

i


Nelinearni regresijski modeli<br />

Vrijednost parametara, odnosno njihovih logaritamskih<br />

vrijednosti se dobiva pomou izraza:<br />

n<br />

<br />

xi<br />

log yi<br />

n x log y<br />

i1<br />

log b1<br />

logb<br />

n<br />

0 log y logb1<br />

x<br />

2 2<br />

x n x<br />

<br />

i1<br />

i


Nelinearni regresijski modeli<br />

Vrijednost parametara originalnog modela dobiva<br />

se antilogaritmiranjem.<br />

Parametar b0<br />

predstavlja vrijednost zavisne<br />

varijable kada nezavisna varijabla ima vrijednost<br />

nula. Kao i kod linearnog modela uglavnom nema<br />

stvarno znaenje.<br />

Vrijednost parametra b1<br />

pokazuje relativnu<br />

promjenu zavisne varijable za jedinino relativno<br />

poveanje nezavisne varijable. Tumai se<br />

uglavnom kao postotna promjena. Znai, ako se<br />

nezavisna varijabla povea za 1% zavisna varijabla<br />

e se promijeniti u postotcima za iznos b1 1100<br />

pomnožen sa sto.


Nelinearni regresijski modeli<br />

Logaritamski model koristi transformaciju nezavisne<br />

varijable ( log xi),<br />

a opi oblik regresije je: yˆ i b0<br />

b1<br />

log xi<br />

Model s procijenjenim parametrima se dobiva pomou<br />

izmjerenih n parova vrijednosti zavisne i nezavisne varijable,<br />

<br />

x , <br />

i yi<br />

Vrijednosti parametara procijenjenog modela se izraunavaju<br />

pomou izraza:<br />

b<br />

n<br />

<br />

i1<br />

1 n<br />

<br />

i1<br />

log x<br />

i<br />

<br />

2 log x n log x<br />

i<br />

y<br />

i<br />

n log x y<br />

2<br />

b <br />

y b log x<br />

0<br />

1


Nelinearni regresijski modeli<br />

Parametar b0<br />

predstavlja vrijednost zavisne varijable kada je<br />

nezavisna varijabla jednaka jedan log1 0 .<br />

b<br />

<br />

Parametar 1 pokazuje prosjeno linearno poveanje zavisne<br />

varijable kada se logaritam nezavisne varijable povea za<br />

jedan (vrijednost logaritma 0, 1, 2, 3, 4,… imaju redom brojevi<br />

1, 10, 100, 1000, 10000,…)<br />

1<br />

Reciproni model regresije ima oblik: yˆ<br />

i <br />

b b x<br />

Korištenjem reciprone vrijednosti za zavisnu varijablu ,<br />

yi<br />

<br />

model se transformira u linearni oblik: 1<br />

<br />

b0<br />

b1xi<br />

yˆ<br />

i<br />

0<br />

1<br />

i<br />

<br />

<br />

1


Model polinomske regresije<br />

U izboru tipa krivulje koja je najbolje prilagoena tokama u<br />

dijagramu rasipanja može se poi od modela polinomske<br />

regresije. Opi oblik polinomske regresije je:<br />

yˆ b b x b x ....<br />

b x ....<br />

b<br />

i<br />

0<br />

1<br />

i<br />

2<br />

2<br />

i<br />

j<br />

j<br />

i<br />

Koeficijenti polinoma b j , su parametri modela regresije koje<br />

treba procijeniti. Procjena parametara vrši se pomou<br />

izmjerenih n parova vrijednosti zavisne i nezavisne varijable ,<br />

x ,<br />

<br />

i yi<br />

k<br />

x<br />

k<br />

i


Model polinomske regresije<br />

U modelu polinomske regresije vrijednost zavisne varijable<br />

je kombinacija nepoznatih parametara , b j <br />

1,<br />

2,...,<br />

k<br />

j<br />

numerikih vrijednosti nezavisne varijable s razliitim<br />

stupnjevima i nepoznatih vrijednosti sluajne varijable.<br />

Ovdje je prikazan samo funkcionalni dio modela, a analiza<br />

sluajne varijable ili rezidualnih odstupanja se provodi na isti<br />

nain kao kod modela jednostavne linearne regresije.<br />

Procjena parametara se provodi metodom minimalnih<br />

kvadrata odstupanja, slino kao kod modela jednostavne<br />

linearne regresije, samo je broj normalnih jednadžbi jednak<br />

broju nepoznatih parametara.<br />

yi


Model polinomske regresije<br />

U zavisnosti od vrijednosti k imamo polinome razliitog<br />

stupnja. Za k 1 imamo polinom prvog stupnja ili<br />

linearnu funkciju; za k 2 polinom je drugog stupnja ili<br />

kvadratna funkcija iji graf je parabola; za k<br />

3 polinom<br />

je treeg stupnja…<br />

Teorijski k može uzeti bilo koju vrijednost iz skupa<br />

prirodnih brojeva, ali se u praksi koriste uglavnom<br />

polinomi drugog i treeg stupnja.<br />

Porastom stupnja polinoma, procjena parametara<br />

modela polinomske regresije postaje matematiki znatno<br />

složenija, a javlja se i problem tumaenja izraunatih<br />

parametara.


Model polinomske regresije<br />

Za model kvadratne regresije procijenjeni model ima oblik:<br />

2<br />

yˆ i b0<br />

b1<br />

xi<br />

b2<br />

xi<br />

Graf kvadratne funkcije je parabola, a procjena regresijskih<br />

koeficijenata b0 , b1 i b2<br />

se dobiva rješavanjem sustava<br />

normalnih jednadžbi:<br />

b<br />

b<br />

b<br />

0<br />

n<br />

n<br />

<br />

0<br />

i1<br />

n<br />

x<br />

i<br />

b<br />

b<br />

2<br />

xi<br />

b1<br />

2<br />

xi<br />

b2<br />

xi<br />

<br />

n<br />

2<br />

3<br />

xi<br />

b2<br />

xi<br />

<br />

n<br />

n<br />

0<br />

i1<br />

i1<br />

1<br />

i1<br />

i1<br />

i1<br />

1<br />

i1<br />

i1<br />

i1<br />

x<br />

3<br />

i<br />

b<br />

n<br />

n<br />

n<br />

n<br />

n<br />

n<br />

4<br />

xi<br />

<br />

2<br />

i1<br />

i1<br />

x<br />

y<br />

i<br />

x<br />

i<br />

y<br />

2<br />

i<br />

i<br />

y<br />

i


Korelacijski analiza<br />

Korelacijskom analizom se utvruje<br />

postojanje i jaina <strong>statistike</strong> veze meu<br />

pojavama. Za dvije pojave predoene<br />

kvantitativnim varijablama jaina veze se<br />

mjeri koeficijentom korelacije.<br />

Ako su pojave predoene varijablama<br />

ranga, stupanj <strong>statistike</strong> povezanosti se<br />

mjeri koeficijentom korelacije ranga.


Korelacijski analiza<br />

Polazna veliina za izraunavanje koeficijenta korelacije izmeu<br />

dvije numerike varijable je kovarijanca. Ako je za dvije<br />

numerike varijable X i Y izmjereno n parova njihovih vrijednosti<br />

, x i , yi<br />

i 1,<br />

2,...,<br />

n kovarijanca predstavlja prvi mješoviti moment<br />

vrijednosti varijabla oko njihovih sredina. Izraz za kovarijancu je:<br />

M<br />

11<br />

1<br />

<br />

n<br />

n<br />

<br />

i1<br />

x x<br />

y y<br />

i<br />

i<br />

Kovarijanca je aritmetika sredina umnožaka odstupanja<br />

vrijednosti varijable X od njezine aritmetike sredine i odstupanja<br />

vrijednosti varijable Y od njezine aritmetike sredine. Može<br />

uzimati pozitivne i negativne vrijednosti i ovisna je o mjernim<br />

jedinicama varijable X i Y, pa se njome prosuuje postojanje i<br />

smjer veze, ali ne i stupanj veze.


Korelacijski analiza<br />

Stupanj veze se mjeri Pearsonovim koeficijentom<br />

linearne korelacije koji se dobiva tako da se prvi<br />

mješoviti moment podijeli sa standardnim devijacijama<br />

varijabla X i Y. Izraz za koeficijent korelacije je:<br />

r<br />

M 11<br />

1 r 1<br />

<br />

x<br />

y<br />

ili u razvijenom obliku navedeni izraz ima oblik:<br />

r<br />

<br />

<br />

<br />

<br />

n<br />

<br />

i1<br />

x<br />

2<br />

i<br />

n<br />

<br />

i1<br />

<br />

x<br />

i<br />

nx<br />

y<br />

2<br />

i<br />

<br />

<br />

<br />

<br />

nxy<br />

n<br />

<br />

i1<br />

y<br />

2<br />

i<br />

<br />

ny<br />

2


Korelacijski analiza<br />

Spearmanov koeficijent korelacije ranga se izraunava<br />

pomou parova modaliteta rang-varijabla ili numerikih<br />

varijabla transformiranih u rang-varijable.<br />

Spearmanov koeficijent korelacije je dan izrazom:<br />

r<br />

s<br />

<br />

<br />

6<br />

n<br />

<br />

i1<br />

3<br />

n<br />

d<br />

2<br />

i<br />

1 d i rxi<br />

ry<br />

i <br />

1 rs<br />

1<br />

n<br />

Koeficijent korelacije ranga poprima vrijednosti iz<br />

zatvorenog intervala od minus jedan do plus jedan.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!