osnove statistike-regresija.pdf
osnove statistike-regresija.pdf osnove statistike-regresija.pdf
OSNOVE STATISTIKE Regresijska i korelacijska analiza
- Page 2 and 3: Regresijska i korelacijska analiza
- Page 4 and 5: Modeli regresije Opi oblik modela
- Page 6 and 7: Modeli regresije Prema obliku mate
- Page 8 and 9: Karakteristini oblici dijagrama ras
- Page 10 and 11: Modeli regresije - jednostavna line
- Page 12 and 13: Modeli regresije - jednostavna line
- Page 14 and 15: Modeli regresije - jednostavna line
- Page 16 and 17: Modeli regresije - jednostavna line
- Page 18 and 19: Nelinearni regresijski modeli Pove
- Page 20 and 21: Nelinearni regresijski modeli Funk
- Page 22 and 23: Nelinearni regresijski modeli Vrij
- Page 24 and 25: Nelinearni regresijski modeli Para
- Page 26 and 27: Model polinomske regresije U model
- Page 28 and 29: Model polinomske regresije Za mode
- Page 30 and 31: Korelacijski analiza Polazna velii
- Page 32: Korelacijski analiza Spearmanov ko
OSNOVE STATISTIKE<br />
Regresijska i korelacijska analiza
Regresijska i korelacijska analiza<br />
Dio <strong>statistike</strong> koji prouava povezanost i uzajamni odnos<br />
meu pojavama, koristei pri tomu matematike relacije,<br />
naziva se korelacija.<br />
Veze meu pojavama mogu biti funkcionalne (ili<br />
deterministike) i <strong>statistike</strong> ( ili stohastine).<br />
Glavna zadaa korelacijske analize je otkrivanje<br />
zakonitosti i pravilnosti koje vladaju u odnosima meu<br />
masovnim statistikim pojavama, te kreiranje<br />
matematikih modela koji pomou simbola opisuju<br />
ponašanje pojava u stvarnim uvjetima funkcioniranja.<br />
Korelacijska analiza ukljuuje konstrukciju grafikona za<br />
prikaz kovarijacije pojava (varijabli) i utvrivanje<br />
brojanih pokazatelja jakosti i smjera veze izmeu<br />
varijabli.
Regresijska i korelacijska analiza<br />
Kada se u analizi meuzavisnosti definira koja je<br />
varijabla zavisna a koja nezavisna onda se koriste<br />
metode regresijske analize.<br />
Zavisnost pojava se utvruje prema prethodnim<br />
teorijskim i empirijskim saznanjima o prirodi pojava i<br />
njihovim odnosima.<br />
Matematiki izraz koji pokazuje kako na vrijednost<br />
zavisne varijable utjee vrijednost jedne ili više<br />
nezavisnih varijabli naziva se regresijski model.<br />
Regresijski model predstavlja matematiku funkciju<br />
kojom se opisuje zavisnost jedne (zavisne) varijable o<br />
jednoj ili više nezavisnih varijabli.
Modeli regresije<br />
Opi oblik modela regresije je:<br />
Y<br />
f X , X ,..., X ) <br />
( 1 2 k<br />
Model se sastoji od deterministikog dijela, koji<br />
predstavlja matematiku funkciju kojom se izražava<br />
zavisnost zavisne varijable od odreenog broja<br />
nezavisnih varijabli, i stohastinog dijela koji<br />
predstavlja odstupanje od funkcionalne zavisnosti<br />
Modele regresije možemo podijeliti s obzirom na broj<br />
nezavisnih varijabli ukljuenih u model i s obzirom na<br />
oblik matematike funkcije deterministikog dijela<br />
modela
Modeli regresije<br />
S obzirom na broj nezavisnih varijabli u<br />
modelu, modeli regresije se dijele na<br />
modele jednostavne regresije i modele<br />
višestruke regresije.<br />
Model jednostavne linearne regresije ima<br />
jednu zavisnu i jednu nezavisnu varijablu.<br />
Model višestruke regresije ima jednu<br />
zavisnu i više nezavisnih varijabli
Modeli regresije<br />
Prema obliku matematike funkcije<br />
deterministikog modela, modele regresije<br />
dijelimo na linearne i nelinearne ili krivolinijske<br />
modele.<br />
Veza meu varijablama kod linearnog modela<br />
predoena je linearnom funkcijom, iji je graf<br />
pravac.<br />
Veza izmeu varijabli kod krivolinijske regresije<br />
ima oblik neke druge matematike funkcije, iji je<br />
graf neka kriva linija.
Modeli regresije<br />
Cilj regresijske analize je utvrditi smjer, oblik i jainu veze<br />
izmeu analiziranih pojava.<br />
Smjer veze može biti pozitivan i negativan.<br />
Oblik veze definiran je oblikom matematike funkcije koja<br />
predstavlja deterministiki dio modela regresije. Tako postoje<br />
linearni i krivolinijski modeli.<br />
Jaina veze se odreuje analizom sluajne varijable<br />
regresijskog modela. Sluajnom varijablom se predouju<br />
nesistemski utjecaji, odnosno utjecaji pojava koje nisu<br />
ukljuene u model.<br />
Kao prvi korak u analizi zavisnosti dviju sluajnih varijabli<br />
uobiajeno se empirijski podaci prikazuju grafiki. U<br />
koordinatni sustav se ucrtavaju toke odreene parovima<br />
vrijednosti i i . Tako dobiveni dijagram se naziva<br />
dijagram rasipanja (scatter diagram).<br />
y x ,
Karakteristini oblici dijagrama rasipanja<br />
y i<br />
y i<br />
x i<br />
Pozitivna, linearna funkcionalna veza<br />
Pozitivna,linearna jaka stohastina veza<br />
x i<br />
y i<br />
y i<br />
Negativna, linearna funkcionalna veza<br />
x i<br />
Negativna, linearna umjerena stohastina veza<br />
x i
Karakteristini oblici dijagrama rasipanja<br />
y i<br />
y i<br />
Pozitivna, linearna slaba statistika veza<br />
Nepostojanje veze<br />
x i<br />
x i<br />
y i<br />
x i<br />
Negativna, linearna slaba stohastina veza<br />
y i<br />
Krivolinijska stohastina veza<br />
x i
Modeli regresije – jednostavna linearna<br />
<strong>regresija</strong><br />
Model jednostavne linearne regresije, opi oblik<br />
modela je:<br />
y b0<br />
b1x<br />
<br />
i<br />
i<br />
e<br />
i<br />
U modelu jednostavne linearne regresije vrijednost<br />
zavisne varijable Y je linearna kombinacija<br />
vrijednosti nezavisne varijable X, parametara<br />
modela i sluajne varijable.<br />
Funkcionalni dio modela odreen je ako su poznate<br />
vrijednosti parametara b i b<br />
Vrijednost parametara se procjenjuje empirijski ili<br />
pomou izmjerenih n parova vrijednosti varijable X i<br />
Y<br />
0<br />
1
Modeli regresije – jednostavna linearna<br />
<strong>regresija</strong><br />
Analiza modela u domeni deskriptivne <strong>statistike</strong> vrši<br />
se izraunavanjem vrijednosti parametara i<br />
pokazatelja reprezentativnosti modela, a to su<br />
varijanca, standardna devijacija, koeficijent varijacije i<br />
koeficijent determinacije.<br />
Vrijednost procijenjenih parametara se izraunava iz<br />
n izmjerenih parova vrijednosti x i y.<br />
Prema tome i vrijednosti pokazatelja se odnose samo<br />
na n izmjerenih parova podataka.
Modeli regresije – jednostavna linearna<br />
<strong>regresija</strong><br />
Parametri procijenjenog modela se odreuju tako da<br />
odstupanja izmjerenih vrijednosti od procijenjene vrijednosti<br />
zavisne varijable pomou modela budu što manja.<br />
Postoji više metoda procjene parametara, a naješe se<br />
koristi metoda minimalnih kvadrata odstupanja. Parametri<br />
procijenjeni metodom minimalnih kvadrata odstupanja opisuju<br />
pravac za koji je zbroj rezidualnih kvadrata odstupanja<br />
minimalan.<br />
Parametri se izraunavaju pomou izraza:<br />
n<br />
<br />
i1<br />
b1 n<br />
x<br />
<br />
i1<br />
i<br />
y<br />
x<br />
i<br />
2<br />
i<br />
<br />
<br />
nx<br />
nx<br />
<br />
2<br />
y<br />
b y <br />
0<br />
bx
Modeli regresije – jednostavna linearna<br />
<strong>regresija</strong><br />
Parametar b0<br />
predstavlja konstantni lan modela, a<br />
parametar b1<br />
je regresijski koeficijent.<br />
Konstantan lan b0<br />
je vrijednost zavisne varijable kada<br />
je vrijednost nezavisne varijable jednaka nuli. Za veinu<br />
primjera nema konkretno znaenje.<br />
Regresijski koeficijent b1<br />
predstavlja linearnu promjenu<br />
zavisne varijable za jedinino poveanje nezavisne<br />
varijable.<br />
Regresijske vrijednosti se dobivaju uvrštavanjem<br />
odgovarajuih vrijednosti nezavisne varijable x u model<br />
regresije.<br />
Rezidualna odstupanja su odstupanja izmjerenih<br />
vrijednosti zavisne varijable od regresijskih vrijednosti.
Modeli regresije – jednostavna linearna<br />
<strong>regresija</strong><br />
Prodaja<br />
20<br />
15<br />
10<br />
5<br />
0<br />
Podaci o cijeni i prodaji proizvoda A<br />
(0, b 0 )<br />
0 2 4 6 8 10<br />
Cijena<br />
(x, y )<br />
Empirijski podaci Linearni model regresije
Modeli regresije – jednostavna linearna<br />
<strong>regresija</strong><br />
Razlike vrijednosti izmjerenih vrijednosti zavisne varijable<br />
i regresijskih vrijednosti predstavljaju rezidualna<br />
odstupanja i oznaavaju se sa ei<br />
.<br />
Ovako dobivena odstupanja su izražena u mjernim<br />
jedinicama zavisne varijable Y i nazivaju se apsolutna<br />
rezidualna odstupanja, e y yˆ<br />
.<br />
Relativna rezidualna odstupanja su izražena u<br />
postotcima i dobiju se tako što se apsolutno odstupanje<br />
podijeli izmjerenom vrijednosti varijable, zatim omjer<br />
pomnoži sa 100, y ˆ i yi<br />
<br />
e<br />
100<br />
i,<br />
rel<br />
i<br />
Rezidualna odstupanja se mogu izraziti i u standardnim<br />
devijacijama, pa se nazivaju standardizirana rezidualna<br />
odstupanja. Dobivaju se tako da se apsolutna<br />
odstupanja podijele standardnom devijacijom modela<br />
regresije,<br />
y i yˆ<br />
i <br />
ei,<br />
<br />
<br />
y<br />
y<br />
i<br />
i<br />
i
Modeli regresije – jednostavna linearna<br />
<strong>regresija</strong><br />
Model regresije je reprezentativniji što su manja rezidualna<br />
odstupanja.<br />
Kakvoa modela se mjeri odgovarajuim pokazateljima, a<br />
najznaajniji su:<br />
- Varijanca ili prosjeno kvadratno odstupanje, dobiva se tako<br />
da se zbroj kvadrata rezidualnih odstupanja podijeli brojem<br />
podataka.<br />
n<br />
2 1<br />
2<br />
y yˆ<br />
<br />
yˆ<br />
n i1<br />
i<br />
i<br />
- Standardna greška modela ili prosjeno odstupanje podataka<br />
od regresijskih vrijednosti, dobiva se kao pozitivni drugi<br />
korijen iz varijance.<br />
- Koeficijent varijacije je omjer standardne devijacije i prosjene<br />
vrijednosti zavisne varijable, pomnoženo sa 100.<br />
V<br />
yˆ<br />
<br />
<br />
y<br />
yˆ<br />
100
Modeli regresije – jednostavna linearna<br />
<strong>regresija</strong><br />
U analizi reprezentativnosti regresijskog pravca koristi se<br />
koeficijent determinacije.<br />
Koeficijent determinacije je relativna mjera prilagoenosti<br />
regresijskog pravca empirijskim podacima.<br />
Dobiva se kao omjer protumaenog dijela zbroja kvadrata<br />
odstupanja i ukupnog zbroja kvadrata odstupanja.<br />
Ukupno odstupanje empirijskih podataka (varijabla y) od<br />
prosjene vrijednosti varijable y se rastavlja na dio odstupanja<br />
protumaen modelom regresije (razlika regresijske vrijednosti i<br />
prosjene vrijednosti) i dio ne protumaen modelom (razlika<br />
izmeu izmjerene i regresijske vrijednosti)<br />
Koeficijent determinacije uzima vrijednosti iz intervala 0 i 1.<br />
r<br />
2<br />
n<br />
<br />
n<br />
i1<br />
<br />
i1<br />
yˆ y<br />
i<br />
y y<br />
i<br />
2<br />
2
Nelinearni regresijski modeli<br />
Povezanost dvije pojave ne može se uvijek izraziti<br />
linearnim modelom. Zbog toga se u izgradnji modela<br />
regresije koriste razliiti oblici funkcija, pa se takvi modeli<br />
zovu nelinearni ili krivolinijski modeli regresije.<br />
U praksi se naješe koriste modeli koji se postupkom<br />
transformacije mogu prevesti u modele jednostavne<br />
linearne regresije i modeli polinomske regresije.<br />
Od modela koji se mogu transformirati u modele<br />
jednostavne linearne regresije naješe se koriste:<br />
- eksponencijalni modeli,<br />
- multiplikativni model,<br />
- logaritamski model i<br />
- reciproni model.
Nelinearni regresijski modeli<br />
Kod svih modela regresije radi se o statistikoj<br />
meuzavisnosti pojava, pa modeli imaju<br />
funkcionalni dio i sluajnu promjenjivu.<br />
Analiza funkcionalnog dijela zavisi od oblika<br />
funkcije koji se koristi, a analiza rezidualnih<br />
odstupanja se provodi na isti nain bez obzira<br />
na oblik funkcije. Zbog toga je kod krivolinijskih<br />
modela navedena analiza samo funkcionalnog<br />
dijela.<br />
Analiza rezidualnih odstupanja provodi se<br />
izraunavanjem istih pokazatelja<br />
reprezentativnosti kao kod linearnog modela.
Nelinearni regresijski modeli<br />
Funkcionalni dio eksponencijalni model ima oblik:<br />
xi<br />
yˆ i b0b1<br />
Logaritmiranjem izraza dobiva se linearizirani model:<br />
log yˆ i logb0<br />
logb1<br />
xi<br />
Analiza transformiranog modela provodi se na isti nain kao<br />
kod linearnih modela, uz napomenu da je kod interpretacije<br />
rezultata nužno voditi rauna koje su varijable ili parametri<br />
transformirani.<br />
U navedenom modelu izvršena je transformacija zavisne<br />
varijable i koriste se logaritamske vrijednosti varijable log y .<br />
Vrijednosti parametara koji se procjenjuju pomou empirijskih<br />
vrijednosti se dobivaju u logaritamskim vrijednostima.<br />
i
Nelinearni regresijski modeli<br />
Vrijednost parametara, odnosno njihovih logaritamskih<br />
vrijednosti se dobiva pomou izraza:<br />
n<br />
<br />
xi<br />
log yi<br />
n x log y<br />
i1<br />
log b1<br />
logb<br />
n<br />
0 log y logb1<br />
x<br />
2 2<br />
x n x<br />
<br />
i1<br />
i
Nelinearni regresijski modeli<br />
Vrijednost parametara originalnog modela dobiva<br />
se antilogaritmiranjem.<br />
Parametar b0<br />
predstavlja vrijednost zavisne<br />
varijable kada nezavisna varijabla ima vrijednost<br />
nula. Kao i kod linearnog modela uglavnom nema<br />
stvarno znaenje.<br />
Vrijednost parametra b1<br />
pokazuje relativnu<br />
promjenu zavisne varijable za jedinino relativno<br />
poveanje nezavisne varijable. Tumai se<br />
uglavnom kao postotna promjena. Znai, ako se<br />
nezavisna varijabla povea za 1% zavisna varijabla<br />
e se promijeniti u postotcima za iznos b1 1100<br />
pomnožen sa sto.
Nelinearni regresijski modeli<br />
Logaritamski model koristi transformaciju nezavisne<br />
varijable ( log xi),<br />
a opi oblik regresije je: yˆ i b0<br />
b1<br />
log xi<br />
Model s procijenjenim parametrima se dobiva pomou<br />
izmjerenih n parova vrijednosti zavisne i nezavisne varijable,<br />
<br />
x , <br />
i yi<br />
Vrijednosti parametara procijenjenog modela se izraunavaju<br />
pomou izraza:<br />
b<br />
n<br />
<br />
i1<br />
1 n<br />
<br />
i1<br />
log x<br />
i<br />
<br />
2 log x n log x<br />
i<br />
y<br />
i<br />
n log x y<br />
2<br />
b <br />
y b log x<br />
0<br />
1
Nelinearni regresijski modeli<br />
Parametar b0<br />
predstavlja vrijednost zavisne varijable kada je<br />
nezavisna varijabla jednaka jedan log1 0 .<br />
b<br />
<br />
Parametar 1 pokazuje prosjeno linearno poveanje zavisne<br />
varijable kada se logaritam nezavisne varijable povea za<br />
jedan (vrijednost logaritma 0, 1, 2, 3, 4,… imaju redom brojevi<br />
1, 10, 100, 1000, 10000,…)<br />
1<br />
Reciproni model regresije ima oblik: yˆ<br />
i <br />
b b x<br />
Korištenjem reciprone vrijednosti za zavisnu varijablu ,<br />
yi<br />
<br />
model se transformira u linearni oblik: 1<br />
<br />
b0<br />
b1xi<br />
yˆ<br />
i<br />
0<br />
1<br />
i<br />
<br />
<br />
1
Model polinomske regresije<br />
U izboru tipa krivulje koja je najbolje prilagoena tokama u<br />
dijagramu rasipanja može se poi od modela polinomske<br />
regresije. Opi oblik polinomske regresije je:<br />
yˆ b b x b x ....<br />
b x ....<br />
b<br />
i<br />
0<br />
1<br />
i<br />
2<br />
2<br />
i<br />
j<br />
j<br />
i<br />
Koeficijenti polinoma b j , su parametri modela regresije koje<br />
treba procijeniti. Procjena parametara vrši se pomou<br />
izmjerenih n parova vrijednosti zavisne i nezavisne varijable ,<br />
x ,<br />
<br />
i yi<br />
k<br />
x<br />
k<br />
i
Model polinomske regresije<br />
U modelu polinomske regresije vrijednost zavisne varijable<br />
je kombinacija nepoznatih parametara , b j <br />
1,<br />
2,...,<br />
k<br />
j<br />
numerikih vrijednosti nezavisne varijable s razliitim<br />
stupnjevima i nepoznatih vrijednosti sluajne varijable.<br />
Ovdje je prikazan samo funkcionalni dio modela, a analiza<br />
sluajne varijable ili rezidualnih odstupanja se provodi na isti<br />
nain kao kod modela jednostavne linearne regresije.<br />
Procjena parametara se provodi metodom minimalnih<br />
kvadrata odstupanja, slino kao kod modela jednostavne<br />
linearne regresije, samo je broj normalnih jednadžbi jednak<br />
broju nepoznatih parametara.<br />
yi
Model polinomske regresije<br />
U zavisnosti od vrijednosti k imamo polinome razliitog<br />
stupnja. Za k 1 imamo polinom prvog stupnja ili<br />
linearnu funkciju; za k 2 polinom je drugog stupnja ili<br />
kvadratna funkcija iji graf je parabola; za k<br />
3 polinom<br />
je treeg stupnja…<br />
Teorijski k može uzeti bilo koju vrijednost iz skupa<br />
prirodnih brojeva, ali se u praksi koriste uglavnom<br />
polinomi drugog i treeg stupnja.<br />
Porastom stupnja polinoma, procjena parametara<br />
modela polinomske regresije postaje matematiki znatno<br />
složenija, a javlja se i problem tumaenja izraunatih<br />
parametara.
Model polinomske regresije<br />
Za model kvadratne regresije procijenjeni model ima oblik:<br />
2<br />
yˆ i b0<br />
b1<br />
xi<br />
b2<br />
xi<br />
Graf kvadratne funkcije je parabola, a procjena regresijskih<br />
koeficijenata b0 , b1 i b2<br />
se dobiva rješavanjem sustava<br />
normalnih jednadžbi:<br />
b<br />
b<br />
b<br />
0<br />
n<br />
n<br />
<br />
0<br />
i1<br />
n<br />
x<br />
i<br />
b<br />
b<br />
2<br />
xi<br />
b1<br />
2<br />
xi<br />
b2<br />
xi<br />
<br />
n<br />
2<br />
3<br />
xi<br />
b2<br />
xi<br />
<br />
n<br />
n<br />
0<br />
i1<br />
i1<br />
1<br />
i1<br />
i1<br />
i1<br />
1<br />
i1<br />
i1<br />
i1<br />
x<br />
3<br />
i<br />
b<br />
n<br />
n<br />
n<br />
n<br />
n<br />
n<br />
4<br />
xi<br />
<br />
2<br />
i1<br />
i1<br />
x<br />
y<br />
i<br />
x<br />
i<br />
y<br />
2<br />
i<br />
i<br />
y<br />
i
Korelacijski analiza<br />
Korelacijskom analizom se utvruje<br />
postojanje i jaina <strong>statistike</strong> veze meu<br />
pojavama. Za dvije pojave predoene<br />
kvantitativnim varijablama jaina veze se<br />
mjeri koeficijentom korelacije.<br />
Ako su pojave predoene varijablama<br />
ranga, stupanj <strong>statistike</strong> povezanosti se<br />
mjeri koeficijentom korelacije ranga.
Korelacijski analiza<br />
Polazna veliina za izraunavanje koeficijenta korelacije izmeu<br />
dvije numerike varijable je kovarijanca. Ako je za dvije<br />
numerike varijable X i Y izmjereno n parova njihovih vrijednosti<br />
, x i , yi<br />
i 1,<br />
2,...,<br />
n kovarijanca predstavlja prvi mješoviti moment<br />
vrijednosti varijabla oko njihovih sredina. Izraz za kovarijancu je:<br />
M<br />
11<br />
1<br />
<br />
n<br />
n<br />
<br />
i1<br />
x x<br />
y y<br />
i<br />
i<br />
Kovarijanca je aritmetika sredina umnožaka odstupanja<br />
vrijednosti varijable X od njezine aritmetike sredine i odstupanja<br />
vrijednosti varijable Y od njezine aritmetike sredine. Može<br />
uzimati pozitivne i negativne vrijednosti i ovisna je o mjernim<br />
jedinicama varijable X i Y, pa se njome prosuuje postojanje i<br />
smjer veze, ali ne i stupanj veze.
Korelacijski analiza<br />
Stupanj veze se mjeri Pearsonovim koeficijentom<br />
linearne korelacije koji se dobiva tako da se prvi<br />
mješoviti moment podijeli sa standardnim devijacijama<br />
varijabla X i Y. Izraz za koeficijent korelacije je:<br />
r<br />
M 11<br />
1 r 1<br />
<br />
x<br />
y<br />
ili u razvijenom obliku navedeni izraz ima oblik:<br />
r<br />
<br />
<br />
<br />
<br />
n<br />
<br />
i1<br />
x<br />
2<br />
i<br />
n<br />
<br />
i1<br />
<br />
x<br />
i<br />
nx<br />
y<br />
2<br />
i<br />
<br />
<br />
<br />
<br />
nxy<br />
n<br />
<br />
i1<br />
y<br />
2<br />
i<br />
<br />
ny<br />
2
Korelacijski analiza<br />
Spearmanov koeficijent korelacije ranga se izraunava<br />
pomou parova modaliteta rang-varijabla ili numerikih<br />
varijabla transformiranih u rang-varijable.<br />
Spearmanov koeficijent korelacije je dan izrazom:<br />
r<br />
s<br />
<br />
<br />
6<br />
n<br />
<br />
i1<br />
3<br />
n<br />
d<br />
2<br />
i<br />
1 d i rxi<br />
ry<br />
i <br />
1 rs<br />
1<br />
n<br />
Koeficijent korelacije ranga poprima vrijednosti iz<br />
zatvorenog intervala od minus jedan do plus jedan.