Metode raziskovanja Majda Bastič - Shrani.si
Metode raziskovanja Majda Bastič - Shrani.si
Metode raziskovanja Majda Bastič - Shrani.si
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Maribor, oktober 2006<br />
Univerza v Mariboru<br />
Ekonomsko-poslovna fakulteta Maribor<br />
<strong>Metode</strong> <strong>raziskovanja</strong><br />
<strong>Majda</strong> <strong>Bastič</strong>
Predgovor<br />
Kako se lotiti raziskave je pogosta dilema, s katero se soočajo tako študenti na dodiplomskem<br />
kot na podiplomskem študiju. Raziskovalna metodologija je v ekonomiji in managementu<br />
zelo obsežna in se neprestano razvija, zato je nemogoče vso njeno bogastvo strniti v en<br />
predmet in prikazati v eni knjigi.<br />
Namen tega gradiva je prikazati tisti del raziskovalnega procesa, ko se raziskovalec sooči z<br />
analizo zbranih podatkov, da bi odgovoril na zastavljeno raziskovalno vprašanje. Poznavanje<br />
v gradivu predstavljenih kvantitativnih metod bo pomagalo raziskovalcem pri izboru<br />
najustreznejše metode in pri pravilni interpretaciji dobljenih rezultatov. Glede na predvideni<br />
obseg predmeta smo se pri prikazu metod osredotočili na predpostavke, na katerih temelji<br />
metoda, potrebni podatki in interpretacijo rezultatov, dobljenih s programom SPSS.<br />
Pri pisanju metod, pojasnjenih v točkah 4.1, 4.2, 5, 6.1 sem <strong>si</strong> delno pomagala s teksti, ki sta<br />
jih napisali prof. dr. Polona Tominc in dr. Gabrijela Leskovar Špacapan.<br />
Maribor, oktober 2006<br />
2<br />
<strong>Majda</strong> <strong>Bastič</strong>
1 UVOD .................................................................................................................. 4<br />
2 ANALIZA PODATKOV ....................................................................................... 5<br />
2.1 Vrste skal za merjenje vrednosti spremenljivk.................................................................................... 6<br />
2.2 Pomembnejši parametri in statistike..................................................................................................... 6<br />
2.3 Zanesljivost vzorca ................................................................................................................................. 8<br />
2.4 Transformacija podatkov..................................................................................................................... 11<br />
3 KLASIFIKACIJA STATISTIČNIH METOD........................................................ 12<br />
4 UGOTAVLJANJE RAZLIK MED ARITMETIČNIMI SREDINAMI ..................... 14<br />
4.1 Domneve ................................................................................................................................................ 14<br />
4.2 Parametrični test za ugotavljanje značilnih razlik med dvema povprečnima vrednostma............ 16<br />
4.2.1 Dva neodvisna vzorca ........................................................................................................................ 16<br />
4.2.2 Dva odvisna vzorca............................................................................................................................ 18<br />
4.2.3 Analiza variance (ANOVA)............................................................................................................... 19<br />
4.3 Neparametrični testi ............................................................................................................................. 21<br />
4.3.1 Neparametrični testi za en vzorec ...................................................................................................... 21<br />
4.3.2 Neparametrični testi za ugotavljanje značilnih razlik med dvema povprečnima vrednostma za<br />
neodvisna vzorca.............................................................................................................................................. 22<br />
4.3.3 Neparametrični test za ugotavljanje značilnih razlik med dvema povprečnima vrednostma za odvisna<br />
vzorca 24<br />
5 ANALIZA ODVISNOSTI MED ŠTEVILSKIMI SPREMENLJIVKAMI................ 27<br />
5.1 Enostavna regre<strong>si</strong>ja .............................................................................................................................. 27<br />
5.2 Multipla regre<strong>si</strong>ja ................................................................................................................................. 30<br />
5.3 Diskriminantna analiza ........................................................................................................................ 32<br />
5.3.1 Diskriminantna analiza z dvema skupinama...................................................................................... 33<br />
5.3.2 Multipla diskriminantna analiza......................................................................................................... 34<br />
6 ANALIZA MEDSEBOJNE ODVISNOSTI.......................................................... 40<br />
6.1 Analiza skupin (Cluster analy<strong>si</strong>s)........................................................................................................ 40<br />
6.2 Faktorska analiza – metoda glavnih komponent ............................................................................... 44<br />
KAZALO SLIK ......................................................................................................... 51<br />
KAZALO RAZPREDELNIC...................................................................................... 51<br />
3
1 Uvod<br />
V družboslovju običajno pojasnjujemo pojave, za katere smatramo, da se v času in prostoru<br />
pojavljajo množično (slovenska podjetja, inovativna podjetja v razvijajočih se gospodarstvih,<br />
inovativna podjetja v tržno usmerjenih gospodarstvih). Množični pojav, ki je opredeljen<br />
krajevno, časovno in stvarno, imenujemo statistična množica. Posameznim pojavom, ki<br />
izpolnjujejo opredelitvene pogoje, pravimo statistične enote (kupec izdelka X, inovativno<br />
podjetje). Statistične enote imajo najrazličnejše značilnosti. Proučevane značilnosti<br />
statističnih enot pa imenujemo spremenljivke.<br />
Pri proučevanju množičnega pojava potrebujemo podatke o proučevanih spremenljivkah, ki<br />
jih običajno ni in jih moramo zbrati sami. Z ustreznimi metodami in modeli zbrane podatke<br />
transformiramo v informacije, s katerimi poskušamo razložiti proučevani pojav. Pri<br />
proučevanju teh pojavov bi bilo idealno, če bi razpolagali s podatki o proučevanih<br />
spremenljivkah za vse enote statistične množice. V večini primerov to zaradi omejenega časa<br />
in stroškov, namenjenih raziskavi ni možno. Zato zberemo podatke le za podmnožico<br />
statistične množice, ki jo imenujemo vzorec. Vzorec je torej samo del statistične množice. Z<br />
analizo zbranih podatkov o pojavu na enotah v vzorcu želimo razložiti proučevani pojav za<br />
celotno statistično množico.<br />
Raziskovalnega procesa se moramo lotiti <strong>si</strong>stematično, da ne bi prezrli nobenega<br />
pomembnega koraka, kar bi nas lahko napeljalo do napačnega zaključka. Kumar (2005)<br />
priporoča splošni raziskovalni model, ki je sestavljen iz dveh delov, to sta načrtovanje in<br />
izvedba raziskave, ki ju je nadalje razčlenil na osem faz. V njih opredelimo cilj raziskave in<br />
izberemo najboljšo raziskovalno pot, s katero bomo dosegli zastavljeni cilj. Raziskovalni<br />
model torej sestavlja:<br />
Načrtovanje raziskave<br />
1. opredelitev raziskovalnega problema (proučevanega pojava)<br />
2. izdelava koncepta raziskave<br />
3. izdelava instrumenta za zbiranje podatkov<br />
4. izbira vzorca<br />
5. pisanje raziskovalnega predloga<br />
Izvedba raziskave<br />
6. zbiranje podatkov<br />
7. obdelava podatkov<br />
8. pisanje raziskovalnega poročila<br />
1. Opredelitev raziskovalnega problema je ena najpomembnejših faz raziskovalnega procesa.<br />
V njej opredelimo cilj raziskave, to je kaj bomo proučevali. Cilj raziskave mora biti čim<br />
natančneje in jasneje opredeljen, saj je od nje odvisna vsebina ostalih faz raziskovalnega<br />
procesa.<br />
2. Z izdelavo koncepta raziskave pojasnimo, kako bomo poiskali odgovore na zastavljena<br />
raziskovalna vprašanja. V tej fazi poleg samega koncepta opredelimo še kaj in kako bomo<br />
merili, strategijo vzorčenja, okvir analize in njen časovni okvir.<br />
3. Vsako sredstvo, s katerim zbiramo podatke za raziskavo, se imenuje 'raziskovalno orodje'<br />
ali 'raziskovalni instrument'. Najpogosteje uporabljeni raziskovalni instrumenti za zbiranje<br />
podatkov so načrt intervjuja, vprašalnik, navodila za izvedbo intervjuja. Če za raziskavo<br />
načrtujemo uporabo primarnih podatkov, izdelamo instrument za zbiranje podatkov sami<br />
ali uporabimo takega, ki je bil že uporabljen v drugih raziskavah. Če pa načrtujemo<br />
4
uporabo sekundarnih podatkov (že zbranih podatkov v druge namene) izdelamo<br />
dokument, v katerega se vpisujejo potrebni sekundarni podatki.<br />
4. Natančnost in zanesljivost naših ugotovitev je v veliki meri odvisna tudi od načina, kako<br />
smo izbrali vzorec. Najpomembnejši cilj pri izbiranju vzorca je, ob upoštevanju stroškov<br />
raziskave, minimiziranje razlik med vrednostmi, ki jih dobimo iz vzorca, in tistimi, ki<br />
veljajo za statistično množico. Osnovno načelo vzorčenja je z relativno majhnim številom<br />
izbranih statističnih enot dobiti z visoko verjetnostjo dokaj realno sliko o proučevani<br />
statistični množici. Teorija vzorčenja temelji na dveh pomembnih načelih, to je na načelu<br />
nepristranosti in načelu mak<strong>si</strong>malne natančnosti. Pri izbiri vzorčenja izbiramo med<br />
slučajnim, ne-slučajnim in mešanim vzorčenjem. V okviru prvih dveh obstaja več strategij<br />
vzorčenja. Poznavanje teh strategij, njihovih prednosti in slabosti omogoča uporabniku<br />
izbiro najboljše strategije glede na postavljeni cilj raziskave in raziskovalna vprašanja.<br />
5. Rezultate prvih štirih faz, v katerih so bila opravljena potrebna pripravljalna dela za<br />
uspešno izvedbo raziskave, strnemo v raziskovalnem predlogu. V njem je natančno opisan<br />
raziskovalni problem in detajlno predstavljen načrt raziskave, s katero bomo dobili<br />
odgovore na zastavljena raziskovalna vprašanja.<br />
6. Potem ko smo opravili prve štiri faze in njihove rezultate strnili v raziskovalnem predlogu<br />
pričnemo s samo raziskavo. Ta prične z zbiranjem podatkov, ki jih bomo uporabili pri<br />
iskanju odgovorov na zastavljena raziskovalna vprašanja. Zbiranje podatkov je odvisno od<br />
vrste potrebnih podatkov (primarni, sekundarni) in od izbranega raziskovalnega<br />
instrumenta. Zbiranje podatkov ne glede na izbrano metodo poraja nekaj etičnih<br />
problemov.<br />
7. V fazi obdelave podatkov se zbrani podatki obdelajo v informacije, s katerimi bomo<br />
poskušali dati zanesljive odgovore na zastavljena raziskovalna vprašanja. <strong>Metode</strong>, ki jih<br />
bomo uporabili pri obdelavi zbranih podatkov so odvisne od:<br />
• vrste zbranih podatkov (opisni, numerični)<br />
• načina predstavitve dobljenih rezultatov zaintere<strong>si</strong>ranim javnostim<br />
V teoriji se raziskave delijo v kvantitativne in kvalitativne. Večino dejansko opravljenih<br />
raziskav v ekonomiji je težko razvrstiti le v eno skupino, saj le-te uporabljajo tako<br />
kvalitativne kot kvantitativne metode.<br />
8. Raziskava se konča s pisanjem raziskovalnega poročila, ki je za mnoge najtežje opravilo v<br />
tem procesu. V poročilu seznanimo zaintere<strong>si</strong>rano javnost, kaj smo proučevali, kaj smo<br />
odkrili in kateri zaključki sledijo našim ugotovitvam.<br />
V tem gradivu se bomo pretežno ukvarjali z metodami in modeli, s katerimi obdelujemo<br />
zbrane podatke v informacije, torej s sedmo fazo opisanega raziskovalnega modela.<br />
2 Analiza podatkov<br />
Izvedba same raziskave prične z zbiranjem podatkov o spremenljivkah za statistične enote.<br />
Vrsta podatkov in njihovih značilnosti določa nabor razpoložljivih metod za njihovo<br />
obdelavo. Zato <strong>si</strong> poglejmo, kaj moramo vedeti o podatkih, da bi lahko korektno opravili<br />
samo raziskavo.<br />
Podatki so lahko številski (numerični, kvantitativni, metric) ali opisni (kvalitativni, nonmetric).<br />
Številski podatki so merljivi, kot so prihodek, starost (zvezni številski podatki) ali<br />
člani družine, število podjetij (nezvezni ali diskretni). Kadar imamo opravka s številskimi<br />
podatki, razmišljamo o njihovi povprečni vrednosti: kolikšen je povprečni prihodek,<br />
povprečna starost, itd. Opisni podatki so števni podatki. Z njimi opisujemo spol, kraj<br />
5
preživljanja dopusta, velikost podjetja (majhno, srednje, veliko). V primeru, ko imamo opisne<br />
podatke, razmišljamo o deležih: kolikšen je delež majhnih podjetij med vsemi slovenskimi<br />
podjetji. Posebna vrsta opisnih podatkov so ordinalni (izobrazba, velikost podjetja). Te opisne<br />
podatke je mogoče glede na njihov pomen urediti po vrstnem redu (velika, srednja, mala<br />
podjetja).<br />
2.1 Vrste skal za merjenje vrednosti spremenljivk<br />
Poznamo štiri različne skale za merjenje vrednosti spremenljivk v družboslovju. To so<br />
nominalna, ordinalna, intervalna in razmernostna skala. Te skale omogočajo merjenje tako<br />
subjektivnih odgovorov kot merjenje odgovorov, ki se lahko merijo z veliko natančnostjo.<br />
Izbira skale, s katero bomo merili vrednosti opazovane spremenljivke, je odvisna od cilja<br />
raziskave.<br />
Opisne spremenljivke merimo na<br />
• nominalni skali, ki omogoča razvrščanje enot po določeni skupni značilnosti. Statistične<br />
enote razvrščamo v skupine tako, da imajo enote, razvrščene v isto skupino, isto<br />
značilnost. Spol merimo na nominalni skali. Enote razvrstimo po spolu v dve skupini<br />
(1= moški, 2=ženski spol).<br />
• ordinalni skali, ki ima vse lastnosti nominalne skale in še lastnost, da so skupine<br />
razvrščene po določenem kriteriju. Po velikosti lahko razvrstimo podjetja v tri skupine<br />
(1=velika, 2=srednja, 3=mala podjetja). Tudi po dohodku lahko statistične enote<br />
razvrstimo v več skupin in spremenljivko merimo na ordinalni skali (1=podpovprečen,<br />
2=povprečen, 3=nadpovprečen dohodek).<br />
Številske spremenljivke merimo z metričnimi skalami:<br />
• intervalna skala ima vse lastnosti ordinalne skale in še lastnost, da uporablja enoto<br />
mere. Med svojo začetno in končno točko je razčlenjena na enako velike intervale.<br />
Začetna in končna točka ter število intervalov so pri tej skali poljubno določeni.<br />
Celzijeva in Fahrenhajtova skala sta primera intervalne skale. Ker sta začetna in končna<br />
točka poljubno določeni, ta skala ni absolutna.<br />
• Razmernostna skala ima vse lastnosti predhodno opisanih skal in še lastnost, da je njena<br />
začetna točka nič in se ne spreminja. Zato je skala absolutna, razlika se vedno meri od<br />
točke nič. Spremenljivke, kot so dohodek, starost, teža se merijo z razmernostno skalo.<br />
Za vrednosti teh spremenljivk velja še, da je dohodek 200.000 SIT dvakrat večji od<br />
dohodka 100.000 SIT ali oseba, ki je stara 20 let je dvakrat starejša od osebe, stare 10<br />
let. Te lastnosti nima nobena od predhodno obravnavanih skal.<br />
2.2 Pomembnejši parametri in statistike<br />
Parameter je neka številska ali opisna značilnost statistične množice. Če pa to značilnost<br />
ugotavljamo s pomočjo vzorca jo imenujemo statistika. Parameter ima stalno vrednost, dokler<br />
se ne spremeni proučevana značilnost statistične množice. Iz statistične množice lahko<br />
tvorimo veliko različnih vzorcev, zato je statistika spremenljiva vrednost, ki je odvisna od<br />
izbranega vzorca. Npr. povprečni osebni dohodek vseh zaposlenih v Sloveniji je parameter,<br />
povprečni osebni dohodek v vzorec izbranih zaposlenih v Sloveniji pa statistika.<br />
6
S statistično analizo želimo dobiti zanesljive ugotovitve o proučevanem množičnem pojavu,<br />
zato proučujemo ta pojav na celotni statistični množici ali na vzorcu. Tudi če ga proučujemo<br />
na vzorcu, moramo imeti v vzorcu dovolj statističnih enot. Zato imamo za vsako<br />
spremenljivko veliko število podatkov. Pri opisovanju značilnosti ni smiselno navajati vseh<br />
zbranih vrednosti za spremenljivko, temveč uporabljamo v ta namen vrednosti, ki najbolje<br />
predstavljajo zbrane vrednosti določene spremenljivke. Take vrednosti so srednje vrednosti,<br />
mere variabilnosti ter mere a<strong>si</strong>metrije in sploščenosti.<br />
Srednje vrednosti<br />
Najpogosteje uporabljene srednje vrednosti so aritmetična sredina, mediana, modus.<br />
Aritmetična sredina je najpomembnejša srednja vrednost. Računamo jo iz vseh zbranih<br />
podatkov za spremenljivko, zato je njena predstavitvena (reprezentačna) vrednost vprašljiva,<br />
če so med podatki tudi taki, ki se bistveno razlikujejo od ostalih podatkov.<br />
Modus je srednja vrednost, okrog katere je največja gostitev vrednosti.<br />
Mediana ali središčnica predstavlja tisto vrednost, pri kateri ima polovica enot statistične<br />
množice ali vzorca manjše, polovica pa večje vrednosti od mediane. Glavna pomanjkljivost<br />
mediane je njena neobčutljivost na spremembe vrednosti. Njena vrednost se spremeni šele, ko<br />
vrednosti preidejo iz ene polovice v drugo.<br />
Mere variabilnosti<br />
Z merami variabilnosti proučujemo razlike med vrednostmi spremenljivke (variacijski<br />
razmik) ter med vrednostmi spremenljivke in vnaprej določeno vrednostjo, ki je lahko<br />
aritmetična sredina, mediana ali modus. Najpogosteje uporabljene mere variabilnosti so<br />
variacijski razmik, varianca in standardni odklon.<br />
Variacijski razmik je najenostavnejša mera variabilnosti, ki je enak razliki med najmanjšo in<br />
največjo vrednostjo spremenljivke.<br />
Varianca je povprečna napaka med dejanskimi vrednostmi spremenljivke in njeno aritmetično<br />
sredino. Izraža se v kvadratu osnovne mere. Zaradi tega se pogosteje uporablja standardni<br />
odklon, ki je enak kvadratnemu korenu iz variance in se izraža v enakih enotah kot<br />
spremenljivka in njena aritmetična sredina. Standardni odklon uporabljamo tudi kot mero<br />
reprezentativnosti aritmetične sredine. Manjši kot je standardni odklon (v primerjavi z<br />
aritmetično sredino) manjše so razlike med dejanskimi vrednostmi spremenljivke in njeno<br />
aritmetično sredino ter obratno. Če so vse vrednosti spremenljivke enake, tedaj je standardni<br />
odklon enak nič.<br />
Mere a<strong>si</strong>metrije in sploščenosti<br />
Za nadaljnjo analizo je koristno vrednosti spremenljivke urediti v obliki frekvenčne<br />
porazdelitve, ki nam pove, kolikokrat se pojavi določena vrednost, in nato frekvenčno<br />
porazdelitev prikazati v obliki histograma. Frekvenčne porazdelitve, prirejene različnim<br />
spremenljivkam, imajo različne oblike. Mnoge v tem gradivu obravnavane metode temeljijo<br />
na predpostavki, da so vrednosti spremenljivke porazdeljene po normalni porazdelitvi, ki je<br />
prikazana na sliki 2.1. V večini primerov obstajata dva razloga, zakaj konkretna porazdelitev<br />
ni normalna. To sta pomanjkanje <strong>si</strong>metričnosti (a<strong>si</strong>metrične porazdelitve) in zahtevane<br />
sploščenosti. A<strong>si</strong>metričnost in sploščenost konkretne porazdelitve merimo z merami<br />
a<strong>si</strong>metrije in sploščenosti.<br />
7
Slika 2.1. Normalna porazdelitev<br />
y − 3σ<br />
y − 2σ<br />
y −σ<br />
y y + σ y + 2σ<br />
y + 3σ<br />
A<strong>si</strong>metrične porazdelitve (skewness) so lahko pozitivno a<strong>si</strong>metrične oziroma a<strong>si</strong>metrične v<br />
desno (večja gostitev je pri manjših vrednosti spremenljivke) ali negativno a<strong>si</strong>metrične<br />
oziroma a<strong>si</strong>metrične v levo (večja gostitev vrednosti je pri večjih vrednostih spremenljivke).<br />
Porazdelitve se razlikujejo med seboj tudi po svoji sploščenosti (kurto<strong>si</strong>s). Ene so bolj<br />
sploščene, druge bolj koničaste. Sploščenost porazdelitve primerjamo z normalno, ki je vzeta<br />
kot idealna. Pozitivne vrednosti koeficienta sploščenosti kažejo na koničasto porazdelitev,<br />
negativne pa na bolj sploščeno kot je normalna porazdelitev. O sploščenosti porazdelitve nam<br />
pove tudi vrednost standardnega odklona. Z večanjem njegove vrednosti postaja porazdelitev<br />
vedno bolj sploščena, z manjšanjem njegove vrednosti pa prehaja vedno bolj v koničasto<br />
porazdelitev.<br />
Za normalno porazdelitev velja, da sta koeficienta a<strong>si</strong>metričnosti in sploščenosti enaka 0. Za<br />
proučevano porazdelitev nam vrednosti teh dveh koeficientov povesta, za koliko se le-ta<br />
razlikuje od normalne porazdelitve.<br />
2.3 Zanesljivost vzorca<br />
Merimo jo s standardno napako ocene aritmetične sredine. Zaradi lažjega razumevanja<br />
vzemimo, da ima statistična množica le 5 enot, s pomočjo slučajnih števil bomo v vzorec<br />
izbrali dve enoti. Pri teh pogojih bi lahko oblikovali 10 različnih vzorcev (število vseh možnih<br />
kombinacij) in za vsakega izračunali njegovo aritmetično sredino (vzorčna aritmetična<br />
sredina). Iz histograma vzorčnih aritmetičnih sredin bi ugotovili, da se le-te porazdeljujejo<br />
normalno, s povprečno vrednostjo, ki je enaka aritmetični sredini statistične množice,<br />
variiranje vzorčnih aritmetičnih sredin pa opisuje standardni odklon vzorčnih aritmetičnih<br />
sredin, ki ga imenujemo standardna napaka ocene aritmetične sredine SE . Manjša kot je<br />
x<br />
njena vrednost, manjša je variabilnost med vzorčnimi povprečnimi vrednostmi, boljši<br />
predstavnik statistične množice je vzorec, in obratno. Njena vrednost je določena z<br />
s<br />
SE = x<br />
n<br />
kjer je x<br />
SE standardna napaka ocene aritmetične sredine, s je standardni odklon vzorca in n<br />
število enot v vzorcu.<br />
8
Primer 2.1<br />
Poglejmo primer, ko so študenti ocenjevali delo učitelja tudi po tem, kako dobro podaja snov,<br />
ki jo predava. Spremenljivko 'podajanje snovi' s <strong>si</strong>mbolom K4 so ocenjevali na 7-stopenjski<br />
skali, kjer je 1 pomenila zelo slabo in 7 izjemno dobro podajanje snovi. Iz statistične množice<br />
študentov, ki so poslušali učiteljeva predavanja, smo naključno izbrali 214 študentov in jih<br />
pro<strong>si</strong>li, da ocenijo podajanje snovi za ocenjevanega učitelja. Dobljenih 214 podatkov smo<br />
analizirali s programom SPSS 13. Rezultati analize so podani v razpredelnicah 2.1, 2.2. in<br />
sliki 2.2.<br />
Razpredelnica 2.1. Statistike za spremenljivko K4<br />
K4<br />
N<br />
Mean<br />
Std. Error of Mean<br />
Median<br />
Mode<br />
Std. Deviation<br />
Variance<br />
Skewness<br />
Std. Error of Skewness<br />
Kurto<strong>si</strong>s<br />
Std. Error of Kurto<strong>si</strong>s<br />
Range<br />
Minimum<br />
Maximum<br />
Statistics<br />
Valid<br />
Mis<strong>si</strong>ng<br />
9<br />
214<br />
0<br />
5,3411<br />
,08986<br />
5,5000<br />
6,00<br />
1,31460<br />
1,728<br />
-,651<br />
,166<br />
-,004<br />
,331<br />
6,00<br />
1,00<br />
7,00<br />
V razpredelnici 2.1 so podane opisne statistike za spremenljivko 'podajanje snovi' s <strong>si</strong>mbolom<br />
K4. Za njo smo dobili 214 odgovorov. V<strong>si</strong> anketirani študenti so odgovorili na to vprašanje<br />
(manjkajoče vrednosti=0). Iz razpredelnice nadalje odčitamo aritmetično sredino, ki je 5,34,<br />
mediano, ki je 5,5 in modus, ki je enak 6. Primerjava srednjih vrednosti, ki se med seboj<br />
razlikujejo, kaže na ne<strong>si</strong>metričnost porazdelitve, kar potrjuje tudi koeficient a<strong>si</strong>metričnosti<br />
(skewness), ki ni enak nič. Njegova negativna vrednost (-0,651) kaže na a<strong>si</strong>metričnost<br />
porazdelitve v levo. Nadaljnjo lastnost porazdelitve kaže koeficient sploščenosti (kurto<strong>si</strong>s), ki<br />
je -0,004. Njegova vrednost je skoraj enaka nič, kar kaže na veliko podobnost te porazdelitve<br />
normalni porazdelitvi. Variacijski razmik (range) je 6 in je enak razliki med najmanjšo (1) in<br />
največjo vrednostjo (7). Standardna napaka aritmetične sredine je 0,09. Njena majhna<br />
vrednost glede na vrednost aritmetične sredine kaže na zanesljivost vzorca in izračunanih<br />
statistik. Standardni odklon je 1,31.
Razpredelnica 2.2. Frekvenčna in kumulativna porazdelitev za spremenljivko K4<br />
Valid<br />
1,00<br />
2,00<br />
3,00<br />
4,00<br />
5,00<br />
6,00<br />
7,00<br />
Total<br />
K4<br />
Frequency Percent Valid Percent<br />
Cumulative<br />
Percent<br />
1 ,5 ,5 ,5<br />
5 2,3 2,3 2,8<br />
15 7,0 7,0 9,8<br />
30 14,0 14,0 23,8<br />
56 26,2 26,2 50,0<br />
62 29,0 29,0 79,0<br />
45 21,0 21,0 100,0<br />
214 100,0 100,0<br />
V razpredelnici 2.2 je podana frekvenčna porazdelitev za spremenljivko 'podajanje snovi'. Iz<br />
nje je razvidno, da je največ študentov (62 ali 29 %) ocenilo učitelja po tej lastnosti z oceno 6<br />
(modus). Grafični prikaz te porazdelitve in tej porazdelitvi prirejena krivulja normalne<br />
porazdelitve sta prikazani na sliki 2.2.<br />
Slika 2.2. Histogram in krivulja normalne porazdelitve za spremenljivko K4<br />
Frequency<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
0,00<br />
2,00<br />
4,00<br />
K4<br />
Histogram<br />
10<br />
6,00<br />
8,00<br />
Mean =5,3411<br />
Std. Dev. =1,3146<br />
N =214<br />
Obrobna vrednost (outlier)<br />
je tista vrednost spremenljivke, ki se bistveno razlikuje od ostalih vrednosti in utegne vplivati<br />
na pristranost podatkom prirejenega modela. Kot primer obrobne vrednosti vzemimo primer<br />
sedmih ocenjevalcev kakovosti učbenika. Njihove ocene so 5, 4, 2, 5, 5, 5, 5. Že iz pregleda<br />
ocen vidimo, da ocena tretjega ocenjevalca bistveno odstopa od ostalih. Proučimo še njen<br />
vpliv na aritmetično sredino. Njena vrednost znaša 4,42, če upoštevamo vseh sedem ocen,<br />
oziroma 4,83, če ne upoštevamo ocene tretjega ocenjevalca. Razlika je 0,41 ali 9,3 %.<br />
Ko ima spremenljivka veliko vrednosti in zanjo vemo, da je normalno porazdeljena, je<br />
odkrivanje obrobnih vrednosti mnogo lažje, če njene vrednosti standardiziramo z<br />
xi<br />
− x<br />
zi<br />
=<br />
s<br />
kjer je zi standardizirana i-ta vrednost spremenljivke X, xi je i-ta vrednost spremenljivke X in s<br />
iz vzorca izračunani standardni odklon spremenljivke X. Pri normalni porazdelitvi vrednosti<br />
spremenljivke pričakujemo, da bo približno 5 % vrednosti večjih od 1,96, 1 % vrednosti<br />
večjih od 2,58, nobena vrednost pa ne bo večja od 3,29.
Poglejmo uporabo tega pravila na primeru ocen učbenika, čeprav se zavedamo, da dobljena<br />
porazdelitev za ocene ni normalna. Standardizirane vrednosti spremenljivke ocena so podane<br />
v razpredelnici 2.3. Šest absolutnih vrednosti spremenljivke Z je manjših od 1,96, le ena njena<br />
absolutna vrednost je večja od 1,96, kar predstavlja 14 % in je več od 5 %.<br />
Razpredelnica 2.3. Standardizirane vrednosti spremenljivke ocena učbenika<br />
x z<br />
5 0,50395<br />
4 -0,37796<br />
2 -2,14180<br />
5 0,50395<br />
5 0,50395<br />
5 0,50395<br />
5 0,50395<br />
2.4 Transformacija podatkov<br />
Kadar med vrednostmi proučevane spremenljivke nastopajo obrobne vrednosti ali<br />
porazdelitev vrednosti spremenljivke ni normalna, <strong>si</strong> lahko pomagamo tako, da:<br />
• izločimo obrobne vrednosti<br />
• transformiramo podatke<br />
Transformacija podatkov je v primerih, ko nismo <strong>si</strong>gurni, da statistična enota z obrobno<br />
vrednostjo ne spada v statistično množico, boljša alternativa. Najpogosteje uporabljene<br />
transformacije so:<br />
• logaritmiranje vrednosti, ki je učinkovit način za zmanjšanje pozitivne a<strong>si</strong>metrije. Če so<br />
vrednosti spremenljivke, ki jo nameravamo transformirati, negativne ali nič, je treba<br />
predhodno izvesti transformacijo, po kateri nobena vrednost ne bo negativna ali nič. To<br />
dosežemo s prištevanjem dovolj velike konstante vsem vrednostim spremenljivke.<br />
• Korenjenje vrednosti ima mnogo večji učinek na večje kot manjše vrednosti, kar<br />
pripomore, da se večje vrednosti bolj približajo srednjim vrednostim. Zato ta<br />
transformacija zmanjšuje pozitivno a<strong>si</strong>metrijo bolj kot logaritemska transformacija. Pri<br />
tej transformaciji moramo paziti na negativna števila, zato je potrebna predhodna<br />
transformacija, s katero odpravimo negativna števila, kar dosežemo na enak način kot je<br />
opisano pri logaritemski transformaciji.<br />
• Recipročna transformacija je opredeljena z 1/xi. Po tej transformaciji postanejo največje<br />
vrednosti spremenljivke najmanjše in najmanjše največje. Spodnja meja transformiranih<br />
vrednosti je nič. Temu problemu se lahko izognemo, če izvedemo predhodno<br />
transformacijo, s katero vrednost spremenljivke odštejemo od vrednosti, ki je večja od<br />
največje vrednosti. Če strnemo obe transformaciji, je pravilo transformiranja<br />
1<br />
c − xi<br />
kjer je c > xmax in xmax je največja vrednost spremenljivke X.<br />
Omenjene transformacije so primerne tudi za zmanjševanje negativne a<strong>si</strong>metrije. V ta<br />
namen moramo predhodno transformirati vrednosti spremenljivke po pravilu:<br />
c – xi, kjer je c > xmax in xmax največja vrednost spremenljivke X.<br />
11
3 Kla<strong>si</strong>fikacija statističnih metod<br />
Najpogostejša delitev statističnih metod je v dve skupini: univariatne in multivariatne metode.<br />
Univariatne metode so primerne za analizo podatkov, kadar proučujemo pri vsaki enoti le eno<br />
značilnost (spremenljivko). Multivariatne metode pa uporabimo za hkratno analizo več<br />
značilnosti, torej istočasno analiziramo več spremenljivk. Obe skupini metod se razlikujeta<br />
tudi v tem, da se univariatne metode ukvarjajo z analizo povprečij in variance, medtem ko se<br />
multivariatne analize osredotočajo na proučevanje ravni zveze med spremenljivkami<br />
(korelacija, kovarianca).<br />
Nadaljnja razčlenitev univariatnih metod je prikazana na sliki 3.1. Iz nje je razvidno, da je<br />
izbor ustrezne metode odvisen od:<br />
1. vrste spremenljivke, ki jo analiziramo: številska ali opisna<br />
2. od števila vzorcev<br />
3. povezave med vzorci: neodvisni ali odvisni.<br />
Dva vzorca sta neodvisna, kadar enote prvega vzorca niso vzete iz iste statistične množice kot<br />
enote drugega vzorca (npr. naključno izbrani kupci izdelka A tvorijo en vzorec, naključno<br />
izbrani, ki niso kupili izdelka A, pa drug vzorec). Dva vzorca sta odvisna, kadar so enote<br />
vzete iz iste statistične množice (npr. kupci izdelka A ocenjujejo dva atributa – za vsako enoto<br />
sta vrednost prvega in drugega atributa med seboj odvisni, ker sta dobljeni od iste osebe).<br />
Slika 3.1. Kla<strong>si</strong>fikacija univariatnih statističnih metod<br />
Nadaljnja razčlenitev multivariatnih metod je prikazana na sliki 3.2. Te metode je mogoče<br />
najprej razčleniti v dve skupini, to sta metode za proučevanje odvisnosti in metode za<br />
proučevanje medsebojne odvisnosti. <strong>Metode</strong> za proučevanje odvisnosti uporabimo, kadar<br />
proučujemo odvisnost med dvema množicama spremenljivk. V eni so odvisne spremenljivke,<br />
v drugi pa neodvisne. Nadaljnji izbor ustrezne metode za proučevanje odvisnosti pa je<br />
odvisen še od števila odvisnih spremenljivk. Tako tvorijo eno skupino metode za analizo<br />
odvisnosti med eno odvisno spremenljivko in eno ali več neodvisnimi spremenljivkami in<br />
drugo skupino metode za analizo odvisnosti med več odvisnimi in neodvisnimi<br />
12
spremenljivkami. Pri metodah za proučevanje medsebojne odvisnosti spremenljivke ne<br />
delimo na odvisne in neodvisne, temveč proučujemo odvisnost med vsemi proučevanimi<br />
spremenljivkami ali enotami, da bi medsebojno odvisne spremenljivke ali enote združili v<br />
skupine. Te metode se nadalje delijo v dve skupine, glede na to ali proučujemo medsebojno<br />
odvisnost med spremenljivkami (medsebojno odvisne spremenljivke združimo v novo<br />
spremenljivko ali faktor) ali proučujemo medsebojno odvisnost med statističnimi enotami ali<br />
subjekti (medsebojno odvisne oziroma podobne enote združimo v skupine ali klastre).<br />
Slika 3.2. Kla<strong>si</strong>fikacija multivariatnih statističnih metod<br />
Izbor ustrezne multivariatne metode je odvisen od tega<br />
1. ali proučujemo odvisnost med dvema množicama spremenljivk ali medsebojno<br />
odvisnost znotraj ene množice spremenljivk.<br />
2. Izbor ustrezne metode za proučevanje odvisnosti med dvema množicama spremenljivk<br />
je nadalje odvisen od števila spremenljivk v množici odvisnih spremenljivk in od vrste<br />
spremenljivke, kar je prikazano v razpredelnici 3.1.<br />
3. Izbor ustrezne metode za proučevanje medsebojne odvisnosti pa je odvisen ali<br />
proučujemo medsebojno odvisnost med spremenljivkami ali med subjekti<br />
(statističnimi enotami).<br />
Razpredelnica 3.1. <strong>Metode</strong> za proučevanje odvisnosti med spremenljivkami<br />
Odvisna spremenljivka(e) Neodvisne spremenljivke Metoda<br />
Številska Številske Mulitpla regre<strong>si</strong>jska analiza<br />
Opisna Številske Diskriminantna analiza<br />
Številska Opisne Analiza variance<br />
Opisna Opisne Conjoint analiza<br />
Številske* Številske Kanonična korelacija<br />
Številske* Opisne Multipla analiza variance<br />
Opisne* Opisne Diskretna diskriminantna analiza<br />
*več odvisnih spremenljivk<br />
13
4 Ugotavljanje razlik med aritmetičnimi sredinami<br />
4.1 Domneve<br />
Osrednje mesto v vzorčnem pristopu ima domneva, ki odraža raziskovalno vprašanje. Ko smo<br />
oblikovali vzorec in želimo odgovoriti na naše raziskovalno vprašanje, najprej opredelimo<br />
izhodiščno domnevo, ki jo imenujemo ničelna domneva (običajna oznaka je Ho). Kaj bi<br />
povedala ničelna domneva o sebi? Tole: »Jaz predstavljam takšno stanje, v katerem ni<br />
nobenih razlik med spremenljivkami, ki jih preučuješ.« Takšne ničelne domneve so na<br />
primer:<br />
1. pri nekem predmetu se povprečna ocena študentov, ki obiskujejo vaje, ne razlikuje od<br />
povprečne ocene študentov, ki vaj ne obiskujejo.<br />
2. V Sloveniji med moškimi in ženskami ni razlik v nagnjenosti k podjetništvu.<br />
3. Med malimi in srednje velikimi podjetji ter velikimi podjetji v Sloveniji ni razlik v<br />
povprečnem dobičku na delavca.<br />
Vsem tem ničelnim domnevam je skupno to, da vsebujejo trditev, da sta dve ali več stvari<br />
enakih ali pa da nista povezani med seboj. Ničelna domneva tako predstavlja izhodiščno<br />
točko in ciljno merilo, s katerim dejansko stanje primerjamo.<br />
Raziskovalna domneva pa je, v nasprotju z ničelno, trditev o neenakosti oziroma odvisnosti<br />
(običajna oznaka je H1). Za vsako od prej zapisanih ničelnih domnev lahko zapišemo več<br />
možnih raziskovalnih domnev. Na primer:<br />
1. Pri nekem predmetu povprečna ocena študentov, ki obiskujejo vaje, ni enaka<br />
povprečni oceni študentov, ki vaj ne obiskujejo.<br />
2. Nagnjenost k podjetništvu med moškimi in ženskami se v Sloveniji razlikuje.<br />
3. Povprečni dobiček na delavca v malih in srednje velikih podjetjih je manjši kot<br />
povprečni dobiček na delavca v velikih podjetjih v Sloveniji.<br />
O indirektni raziskovalni domnevi (ali dvostranski – two-tailed) govorimo takrat, kadar ne<br />
podamo nobenega odnosa, ampak le … se razlikuje… O direktni raziskovalni domnevi (ali<br />
enostranski – one-tailed) pa takrat, kadar razmerje natančneje opredelimo z odnosom …<br />
manjše kot… ali … večje kot…<br />
Zaradi vsega tega ima v raziskavah zato jasno oblikovana, kratka, lahko razumljiva<br />
raziskovalna domneva, ki jo mora biti možno preveriti, najpomembnejše mesto. Tabela 3.1.1<br />
prikazuje tri ničelne domneve ter po eno od možnih enostranskih ter dvostranskih<br />
raziskovalnih domnev.<br />
Razpredelnica 4.1. Ničelna domneva ter raziskovalne domneve<br />
Ničelna domneva Dvostranska raz. domneva Enostranska raz. domneva<br />
Pri nekem predmetu se povprečna<br />
ocena študentov, ki obiskujejo<br />
vaje, ne razlikuje od povprečne<br />
ocene študentov, ki vaj ne<br />
obiskujejo.<br />
V Sloveniji med moškimi in<br />
ženskami ni razlik v nagnjenosti k<br />
podjetništvu.<br />
Pri nekem predmetu povprečna<br />
ocena študentov, ki obiskujejo<br />
vaje, ni enaka povprečni oceni<br />
študentov, ki vaj ne obiskujejo.<br />
Nagnjenost k podjetništvu med<br />
moškimi in ženskami se v Sloveniji<br />
razlikuje.<br />
14<br />
Pri nekem predmetu je povprečna<br />
ocena študentov, ki obiskujejo<br />
vaje, višja kot povprečna ocena<br />
študentov, ki vaj ne obiskujejo.<br />
Nagnjenost k podjetništvu med<br />
ženskami je v Sloveniji manjša kot<br />
nagnjenost k podjetništvu med<br />
moškimi.
Med malimi in srednje velikimi<br />
podjetji ter velikimi podjetji v<br />
Sloveniji ni razlik v povprečnem<br />
dobičku na delavca.<br />
Med malimi in srednje velikimi<br />
podjetji ter velikimi podjetji v<br />
Sloveniji so razlike v povprečnem<br />
dobičku na delavca.<br />
15<br />
Povprečni dobiček na delavca v<br />
malih in srednje velikih podjetjih je<br />
manjši kot povprečni dobiček na<br />
delavca v velikih podjetjih v<br />
Sloveniji.<br />
Statistično značilne razlike<br />
Izraz značilne razlike (<strong>si</strong>gnificantly different) je pri statističnem razlikovanju nujno prisoten.<br />
Poglejmo primer. Dodajmo ta izraz v prej zapisano raziskovalno domnevo pri drugem<br />
primeru. »V Sloveniji se nagnjenost k podjetništvu med moškimi in ženskami značilno<br />
razlikuje od nagnjenosti k podjetništvu med ženskami. Z izrazom značilno mislimo na to, da<br />
je razlika v nagnjenosti k podjetništvu med obema skupinama posledica nekega<br />
<strong>si</strong>stematičnega vpliva in ni nastala slučajno. V tem primeru je ta vpliv spol osebe.<br />
Domnevamo, da so v<strong>si</strong> ostali faktorji, ki vplivajo na razlike med obema skupinama,<br />
nadzorovani.<br />
Kako gotovi pa smo lahko v to? Pomembno je reči, da kljub temu, da smo lahko precej gotovi<br />
v to, da so razlike med obema skupinama posledica vpliva spola, pa 100 % ali popolnoma<br />
gotovi, le ne moremo biti. Vzrokov je veliko. Na primer: v prvi skupini (moški) so bili v<br />
vzorec zajeti predvsem ljudje, pri katerih je podjetništvo družinska tradicija, pri drugi skupini<br />
(ženske) pa ne. Statistično neoporečni raziskovalec bi bil na takšne vplivne dejavnike pozoren<br />
<strong>si</strong>cer že pri oblikovanju vzorca. Kaj torej narediti? V statističnih raziskavah zato postavimo<br />
mejo za napako, ki je nismo mogli predvideti. To mejo oziroma nivo tveganja, ki smo ga<br />
pripravljeni prenesti, imenujemo stopnja značilnosti (<strong>si</strong>gnificance level).<br />
Stopnja značilnosti je tveganje, ki je povezano s tem, da nismo 100 %-no gotovi, da je to, kar<br />
proučujemo v raziskavi, to, kar preverjamo. Če je stopnja značilnosti na primer 0,05 (običajen<br />
zapis je p < 0,05) to pomeni, da je 5 %-na možnost, da razlike, ki smo jih odkrili, niso<br />
posledica domnevnega vzroka (to je spola), pač pa nekih drugih neznanih vzrokov. Seveda to<br />
tveganje želimo zmanjšati, koliko se le da.<br />
Razpredelnica 4.2. Ničelna domneva in zaključki<br />
Ničelna<br />
domneva je<br />
Naš zaključek<br />
Ničelno domnevo<br />
smo sprejeli<br />
Ničelne domneve nismo<br />
sprejeli<br />
Pravilna Naš zaključek je pravilen. Naš zaključek je napačen.<br />
Naredili smo napako, ki jo<br />
Nepravilna Naš zaključek je napačen.<br />
Naredili smo napako, ki jo<br />
imenujemo napaka II. vrste.<br />
imenujemo napaka I. vrste.<br />
Naš zaključek je<br />
pravilen<br />
Kaj se torej lahko zgodi, ko preverjamo ničelno domnevo? Izhodišče je, da je ničelna<br />
domneva, ki se nanaša na populacijo, lahko pravilna ali nepravilna. Tega seveda ne vemo, saj<br />
te domneve ne moremo preverjati direktno (to je na populaciji). Zgodi se lahko, da ničelne<br />
domneve v naši raziskavi bodi<strong>si</strong> ne zavrnemo ali pa jo zavrnemo. Razpredelnica 4.2 zajema<br />
možne odnose med značilnostjo ničelne domneve (to je, da je pravilna ali nepravilna) in<br />
našim zaključkom (da ničelno domnevo zavrnemo ali pa ne). Napaka I. vrste je prej opisana<br />
stopnja značilnosti.
Kaj v bistvu želimo s pomočjo statističnega testiranja doseči? Naš center raziskave je<br />
raziskovalna domneva in ničelno domnevo želimo statistično značilno zavreči, torej ugotoviti,<br />
da ničelna domneva ni smiselna razlaga tega, kar proučujemo.<br />
4.2 Parametrični test za ugotavljanje značilnih razlik med dvema<br />
povprečnima vrednostma<br />
Poglejmo primer o proučevanju vpliva sredstev za izobraževanje prodajalcev na velikost<br />
njihove prodaje v dveh skupinah podjetjih: tistih, ki temu namenjajo manj kot 50 d.e. na<br />
prodajalca (skupina A) in tistih, ki namenjajo več kot 50 d.e. (skupina B).<br />
Koraki v raziskavi tega vprašanja bi bili takšni:<br />
1. Upoštevajoč pravila slučajnega vzorčenja izberemo dva vzorca, v prvega smo izbirali med<br />
podjetji, ki namenjajo manj kot 50 d.e. na prodajalca za izobraževanje, v drugega pa med<br />
podjetji, ki namenjajo več kot 50 d.e. Vzorca sta izbrana tako, da dobro predstavljata<br />
populacijo.<br />
2. Izračunamo povprečno prodajo na prodajalca v obeh vzorcih. Obe povprečni vrednosti<br />
primerjamo s pomočjo določenega statističnega testa.<br />
3. Sledi zaključek o tem, ali so razlike med obema povprečnima vrednostma nastale slučajno,<br />
ali pa so posledica »resničnih« oziroma statistično značilnih razlik med obema skupinama<br />
(kar bi pomenilo, da so rezultat različnega vlaganja v izobraževanje prodajalcev).<br />
4. Zaključek, dobljen na osnovi vzorčnega pristopa, posplošimo na celotno populacijo, torej<br />
na vsa podjetja.<br />
Vsak tip ničelne domneve je povezan z določenim tipom statističnega parametra in vsak tip<br />
statističnega parametra je povezan z določeno porazdelitvijo, katere značilnosti primerjamo z<br />
vzorčnimi podatki. Kako »deluje« statistični test?<br />
1. Postavitev ničelne domneve.<br />
2. Izbira stopnje značilnosti preizkusa.<br />
3. Izbira primernega testa.<br />
4. Izračun testne vrednosti. Je rezultat izbranega testa in jo izračunamo na določen način. To<br />
je številska vrednost.<br />
5. Izbira kritične vrednosti, ki jo potrebujemo, da vemo, kdaj ničelno domnevo zavreči.<br />
Kritične vrednosti se nahajajo v tabelah oziroma nam jo poda računalniški program.<br />
6. Primerjava izračunane testne vrednosti (v koraku 4) in kritične vrednosti (v koraku 5).<br />
7. Če je izračunana vrednost ekstremnejša od kritične vrednosti, ničelne domneve ne<br />
moremo sprejeti.<br />
5. Če izračunana vrednost ne presega kritične vrednosti, ničelne domneve ne zavrnemo.<br />
4.2.1 Dva neodvisna vzorca<br />
Za neodvisna vzorca uporabimo z-test za neodvisne vzorce takrat, kadar sta vzorca velika ali<br />
pa takrat, kadar je varianca iz osnovne statistične množice znana. Kadar imamo majhen<br />
vzorec, uporabimo t-test za neodvisne vzorce. Izračunano vrednost iz vzorčnih podatkov<br />
izračunamo v obeh primerih enako, razlikuje se le kritična vrednost.<br />
16
Primer 4.2.1<br />
Poglejmo primer: želimo ugotoviti, ali obstajajo značilne razlike v povprečni porabi neke<br />
pijače na dan med prebivalci toplejšega, primorskega dela nekega področja in prebivalci<br />
hladnejšega, gorskega dela. Izbrali smo dva vzorca po 30 prebivalcev. Vzorčni podatki o<br />
porabi pijače na dan (v k.e.) so za vsakega od 30 prebivalcev zapisani v razpredelnici 4.3.<br />
Razpredelnica 4.3. Vzorčni podatki o porabi pijače na dan (v k.e.)<br />
Poraba prebivalcev gorskega dela Poraba prebivalcev Primorskega dela<br />
7 5 5 5 3 4<br />
3 4 7 4 2 3<br />
3 6 1 4 5 2<br />
2 10 9 5 4 7<br />
3 10 2 5 4 6<br />
8 5 5 7 6 2<br />
8 1 2 8 7 8<br />
5 1 12 8 7 9<br />
8 4 15 9 5 7<br />
5 3 4 8 6 6<br />
Postavimo ničelno domnevo: Ho: μ1 = μ2 in raziskovalno domnevo H1: μ1 ≠ μ2. Z μ1 smo<br />
označili povprečno porabo pijače prebivalcev gorskega dela na dan, z μ2 pa povprečno porabo<br />
pijače prebivalcev primorskega dela na dan. Domneva je dvostranska. Izbira stopnje<br />
značilnosti je prepuščena nam, običajno je 0,05.<br />
Če značilnost razlik med povprečnima vrednostma ugotavljamo s t-testom s programom SPSS<br />
dobimo naslednje izpise:<br />
poraba<br />
poraba<br />
skupina<br />
1<br />
2<br />
Equal variances<br />
assumed<br />
Equal variances<br />
not assumed<br />
Group Statistics<br />
N Mean Std. Deviation<br />
Std. Error<br />
Mean<br />
30 5,43 3,421 ,625<br />
30 5,53 2,063 ,377<br />
Levene's Test<br />
for Equality of<br />
Variances<br />
F Sig.<br />
Independent Samples Test<br />
t df<br />
4,994 ,029 -,14 58 ,891 -,100 ,729 -1,560 1,360<br />
-,14 48 ,892 -,100 ,729 -1,567 1,367<br />
17<br />
t-test for Equality of Means<br />
Sig.<br />
(2-tailed)<br />
Mean<br />
Differ.<br />
Std.<br />
Error<br />
95%<br />
Confidence<br />
Interval of the<br />
Difference<br />
Differ. Lower Upper<br />
Iz izpisa odčitamo natančno verjetnost, da so razlike med obema skupinama nastale slučajno.<br />
Ta verjetnost je enaka 0,891. To nam dovoljuje zaključek, da razlike niso posledica kakega<br />
<strong>si</strong>stematičnega vpliva, pač so nastale slučajno. Zato ničelne domneve ne zavrnemo.
4.2.2 Dva odvisna vzorca<br />
Kadar imamo dva odvisna vzorca, za analizo značilnih razlik med dvema povprečnima<br />
vrednostma uporabimo t-test za odvisne vzorce.<br />
Primer 4.2.2<br />
Poglejmo primer: želimo analizirati uspešnost izobraževalnega tečaja za uporabo<br />
računalniškega programa v nekem podjetju, ki jo merimo s številom opravljenih nalog v<br />
časovni enoti. V ta namen smo izbrali v vzorec 25 zaposlenih in merili število opravljenih<br />
nalog v časovni enoti pred obiskom tečaja in po končanem tečaju. Torej imamo dva vzorca, v<br />
vsakem je 25 zaposlenih, vzorca pa sta odvisna, saj smo iste zaposlene anketirali pred in po<br />
tečaju. Vzorčni podatki o številu opravljenih nalog v časovni enoti so v razpredelnici 4.4.<br />
Razpredelnica 4.4. Podatki o številu opravljenih nalog<br />
Pred 3 5 4 6 5 5 4 5 3 6 7 8 7 6 7 8 8 9 9 8 7 7 6 7 8<br />
Po 7 8 6 7 8 9 6 6 7 8 8 7 9 10 9 9 8 8 4 4 5 6 9 8 12<br />
Postavimo ničelno domnevo: Ho: μpo = μpred in raziskovalno domnevo H1: μpo > μpred. Z μpo in<br />
μpred smo označili povprečno število opravljenih nalog v časovni enoti po in pred<br />
usposabljanjem. Domneva je enostranska, saj domnevamo, da bodo delovni rezultati po<br />
opravljenem usposabljanju boljši kot so bili pred njim.<br />
Za ugotavljanje značilnosti razlik uporabimo t-test za odvisne vzorce, ki smo ga za primer<br />
4.2.2 izvedli s programom SPSS in dobili naslednje izpise:<br />
Pair<br />
1<br />
Pair 1<br />
Pair 1<br />
pred<br />
po<br />
pred & po<br />
pred - po<br />
Paired Samples Statistics<br />
Mean N Std. Deviation<br />
Std. Error<br />
Mean<br />
6,32 25 1,725 ,345<br />
7,52 25 1,828 ,366<br />
Paired Samples Correlations<br />
N Correlation Sig.<br />
25 ,051 ,810<br />
Paired Samples Test<br />
Paired Differences<br />
Std. Error<br />
95% Confidence<br />
Interval of the<br />
Difference<br />
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)<br />
-1,200 2,449 ,490 -2,211 -,189 -2,449 24 ,022<br />
S programom SPSS ne moremo izvesti enostranskega t-testa za odvisna vzorca. Zato se<br />
verjetnost 0,022 nanaša na dvostranski test. Pripadajoča verjetnost za enostranski test je torej<br />
0,011. Ker je dobljena verjetnost manjša od stopnje značilnosti (0,05), ničelno domnevo<br />
18
zavrnemo in zaključimo, da razlike v povprečnem številu opravljenih nalog v časovni enoti<br />
niso nastale slučajno, pač pa kot posledica vpliva usposabljanja.<br />
4.2.3 Analiza variance (ANOVA)<br />
To analizo oziroma statistični test uporabljamo takrat, kadar analiziramo značilnost razlik<br />
med povprečnimi vrednostmi za več kot dva vzorca, pri čemer so vzorci med seboj neodvisni.<br />
Analizo variance je primerno uporabiti v različnih <strong>si</strong>tuacijah. Tukaj se bomo ukvarjali le z<br />
enostavno analizo variance, kjer analiziramo le eno spremenljivko, imamo pa več kot dva<br />
vzorca (enostavno analizo variance imenujemo z angleškim izrazom tudi one-way analyis of<br />
variance). Ta metoda se imenuje tako zato, ker celotno variiranje vrednosti (merjeno z<br />
povprečnim kvadratnim odklonom vrednosti od aritmetične sredine = varianca) razdelimo na<br />
variiranje vrednosti zaradi razlik znotraj vzorcev in na variiranje vrednosti zaradi razlik med<br />
vzorci. Obe sestavini variance nato primerjamo med seboj.<br />
Primer 4.2.3<br />
Poglejmo primer. Vodja trženja v nekem srednje velikem podjetju za proizvodnjo osvežilcev<br />
prostorov je oblikoval tri različne oglaševalne akcije za novo vrsto osvežilca. Testirati želimo<br />
uspešnost teh treh oglaševalnih akcij in v ta namen smo izbrali 30 velikih trgovin. Razdelili<br />
smo jih v tri skupine po 10 trgovin in v vsaki skupini izvedli po eno oglaševalno akcijo.<br />
Zabeležili smo prodajo po vsaki akciji. (Domnevajmo, da so trgovine enakovredne po<br />
obiskanosti, po kupni moči prebivalcev v njihovem okolišu, domnevajmo, da izvedba<br />
posamezne akcije v eni trgovini ne vpliva na prodajo v drugi ipd.) Podatki o prodaji v<br />
denarnih enotah (d.e.) v teh 30 trgovinah po vsaki od oglaševalnih akcij so v razpredelnici<br />
4.5.<br />
Razpredelnica 4.5. Prodaja po izvedbi oglaševalskih akcij<br />
Prodaja<br />
po prvi<br />
akciji<br />
Prodaja<br />
po drugi<br />
akciji<br />
Prodaja<br />
po tretji<br />
akciji<br />
87 87 89<br />
86 85 91<br />
76 99 96<br />
56 85 87<br />
78 79 89<br />
98 81 90<br />
77 82 89<br />
66 78 96<br />
75 85 96<br />
67 91 93<br />
Postavimo ničelno domnevo: Ho: μ1 = μ2 = μ3 in raziskovalne domneve H1: μ1 ≠ μ2 ≠ μ3. Z<br />
μ1, μ2 in μ3 smo označili povprečno prodajo po posamezni oglaševalski akciji v osnovni<br />
statistični množici. Za stopnjo značilnosti vzemimo vrednost 0,05.<br />
Za ugotavljanje značilnosti razlik uporabimo ANOVA test, ki ga bomo izvedli s programom<br />
SPSS in dobili naslednje izpise:<br />
19
prodaja<br />
1<br />
2<br />
3<br />
Total<br />
prodaja<br />
Between Groups<br />
Within Groups<br />
Total<br />
Descriptives<br />
95% Confidence<br />
Interval for Mean<br />
Std. Std. Lower Upper<br />
N Mean Deviation Error Bound Bound Minimum Maximum<br />
10 76,60 11,965 3,784 68,04 85,16 56 98<br />
10 85,20 6,197 1,960 80,77 89,63 78 99<br />
10 91,60 3,406 1,077 89,16 94,04 87 96<br />
30 84,47 9,951 1,817 80,75 88,18 56 99<br />
ANOVA<br />
Sum of<br />
Squares df Mean Square F Sig.<br />
1133,067 2 566,533 8,799 ,001<br />
1738,400 27 64,385<br />
2871,467 29<br />
V našem primeru je izračunana verjetnost (Sig.) manjša od 0,05, kar pomeni, da razlike v<br />
prodaji med tremi skupinami trgovin niso nastale slučajno, pač pa so posledica <strong>si</strong>stematičnega<br />
vpliva oglaševalske akcije na prodajo. Ker nas zanima, katere skupine podatkov se med seboj<br />
bistveno razlikujejo, smo opravili še dodatno analizo, ki se imenuje post hoc analiza. V njej<br />
primerjamo povprečje vsake skupine s povprečjema preostalih dveh skupin. Iz izpisa<br />
rezultatov te analize, ki smo jo naredili s Tukeyevo metodo, je razvidno, da značilne razlike<br />
obstajajo med prodajo po prvi in prodajo po tretji akciji, prodaja po drugi in tretji akciji ter<br />
prodaja po prvi in drugi akciji pa se med seboj značilno ne razlikujejo.<br />
Dependent Variable: prodaja<br />
Tukey HSD<br />
Multiple Comparisons<br />
Mean<br />
95% Confidence<br />
Interval<br />
Difference Std.<br />
Lower Upper<br />
(I) akcija (J) akcija (I-J) Error Sig. Bound Bound<br />
1 2<br />
-8,600 3,588 ,060 -17,50 ,30<br />
3<br />
-15,000* 3,588 ,001 -23,90 -6,10<br />
2 1<br />
8,600 3,588 ,060 -,30 17,50<br />
3<br />
-6,400 3,588 ,194 -15,30 2,50<br />
3 1<br />
15,000* 3,588 ,001 6,10 23,90<br />
2<br />
6,400 3,588 ,194 -2,50 15,30<br />
*. The mean difference is <strong>si</strong>gnificant at the .05 level.<br />
Za ugotavljanje razlik med aritmetičnimi sredinami s t-testom morata biti izpolnjena pogoja o<br />
enakosti varianc in normalni porazdelitvi vrednosti spremenljivke. Program SPPS nam<br />
posreduje rezultate t-testa za primer, ko je pogoj o enakosti varianc izpolnjen in za primer, ko<br />
ta pogoj ni izpolnjen. Pojavi pa se vprašanje, kako ravnati, ko ni izpolnjen pogoj o normalni<br />
20
porazdelitvi vrednosti spremenljivke. Na voljo sta nam dve možnosti. Po eni poskušamo<br />
poiskati tako transformiracijo podatkov, po kateri bodo transformirani podatki normalno<br />
porazdeljeni. Če po tej poti ne uspemo rešiti našega problema, tedaj <strong>si</strong> pomagamo z<br />
neparametrični testi. Njihova dobra lastnost je, da zanje velja manj predpostavk kot za njihove<br />
primerljive parametrične teste.<br />
4.3 Neparametrični testi<br />
Neparametrične teste uporabljamo za ugotavljanje razlik med povprečnimi vrednostmi za<br />
opisne spremenljivke, ki jih merimo na ordinalni skali ali za številske spremenljivke, katerih<br />
vrednosti niso normalno porazdeljene.<br />
4.3.1 Neparametrični testi za en vzorec<br />
Pomemben pogoj pri izboru ustrezne metode je normalna porazdelitev vrednosti proučevane<br />
spremenljivke ali spremenljivk. Ali je ta pogoj izpolnjen lahko preverimo s Kolmogorov-<br />
Smirnovim testom in Shapiro-Wilkovim testom. V teh testih se primerjajo vrednosti<br />
proučevane spremenljivke z vrednostmi normalno porazdeljene spremenljivke z enako<br />
aritmetično sredino in standardnim odklonom, kot ga ima proučevana spremenljivka. Ko je<br />
test neznačilen (p > 0,05), tedaj se porazdelitev proučevane spremenljivke bistveno ne<br />
razlikuje od normalne porazdelitve. Proučevana spremenljivka ni normalno porazdeljena, ko<br />
je test statistično značilen (p < 0,05). Slabost teh testov je, da lahko za velike vzorce dobimo<br />
statistično značilen test tudi v primeru, ko je proučevana spremenljivka normalno<br />
porazdeljena. Zato <strong>si</strong> moramo pri velikih vzorcih, ko dobimo statistično značilen test,<br />
pomagati še s sliko porazdelitve in koeficientoma a<strong>si</strong>metrije in sploščenosti.<br />
Vzemimo, da smo s Kolmogorov-Smirnovim testom in Shapiro-Wilkovim testom ugotavljali,<br />
statistično značilnost razlik med porazdelitvijo vrednosti spremenljivke v1 in normalno<br />
porazdelitvijo. Rezultati obeh testov, dobljenih s programom SPSS, so podani v razpredelnici<br />
4.6.<br />
Razpredelnica 4.6. Rezultati Kolmogorov-Smirnovega in Shapiro-Wilkovega testa<br />
Tests of Normality<br />
Statistic df Sig. Statistic<br />
Shapiro-Wilk<br />
df Sig.<br />
v1<br />
,135 20 ,200* ,938 20 ,219<br />
*. This is a lower bound of the true <strong>si</strong>gnificance.<br />
Kolmogorov-Smirnov a<br />
a. Lilliefors Significance Correction<br />
V obeh testih je p > 0,05, kar kaže, da se porazdelitev vrednosti spremenljivke v1 bistveno ne<br />
razlikuje od normalne porazdelitve. V nadaljnjih raziskavah smemo vzeti, da je pogoj o<br />
normalni porazdelitvi spremenljivke v1 izpolnjen.<br />
21
4.3.2 Neparametrični testi za ugotavljanje značilnih razlik med dvema<br />
povprečnima vrednostma za neodvisna vzorca<br />
Mann-Whitneyev test in Wilcoxon rank-sum test uporabljamo za ugotavljanje razlik med<br />
dvema povprečnima vrednostma za neodvisna vzorca, ko proučevana številska spremenljivka<br />
ni normalno porazdeljena ali za opisne spremenljivke, merjene na ordinalni skali. Testa<br />
predstavljata neparametrična ekvivalenta parametričnemu t-testu. Pri obeh testih se vrednosti<br />
številske spremenljivke pretvorijo v range, tako da se najmanjši vrednosti pripiše rang 1,<br />
naslednji najmanjši rang 2, itd. Za izračun testne statistike se uporabijo vrednosti rangov.<br />
Pri Wilcoxon rank-sum testu je testna statistika Ws, ki je pri enako velikih skupinah enaka<br />
manjši od obeh vsot rangov skupine oziroma vsoti rangov manjše skupine, ko skupini nista<br />
enako veliki. Vrednost statistike Ws je statistično značilna pri p < 0,05, če je njena absolutna<br />
standardizirana vrednost z večja od 1,96. Njena standardizirana vrednost je opredeljena z:<br />
Ws<br />
−W<br />
z =<br />
SE<br />
W<br />
s<br />
s<br />
kjer je Ws povprečna vrednost testne statistike in<br />
vrednosti izračunamo z:<br />
n1(<br />
n1<br />
+ n2<br />
+ 1)<br />
Ws<br />
=<br />
2<br />
SE<br />
W s<br />
=<br />
n1n2<br />
( n1<br />
+ n2<br />
+ 1)<br />
12<br />
kjer sta n1 in n2 velikost prve oziroma druge skupine.<br />
22<br />
SE W njena standardna napaka. Njuni<br />
s<br />
Zelo podoben Wilcoxonov rank-sum testu je Man-Whitneyev test, ki temelji na testni<br />
statistiki U, opredeljeni za skupino i z:<br />
n ( n + 1)<br />
2<br />
1 1<br />
Ui = n1n2<br />
+ −<br />
kjer je Ri vsota rangov skupine i.<br />
R<br />
i<br />
Primer 4.3.2<br />
Poglejmo primer, ko želimo proučiti vpliv ukrepov za povečanje zadovoljstva zaposlenih na<br />
letno število bolniških izostankov. V ta namen smo 20 izbranih podjetij razvrstili v dve<br />
skupini po 10 podjetij. Omenjeni ukrepi so se izvajali eno leto le v podjetjih, razvrščenih v<br />
drugo skupino. Podatki o letnem številu bolniških pred in po enoletnem izvajanju ukrepov so<br />
podani v razpredelnici 4.7. Ker podatki o številu bolniških niso normalno porazdeljeni, bomo<br />
uporabili neparametrični test za ugotavljanje značilnosti razlik v povprečnih vrednostih obeh<br />
skupin. Zaradi lažjega razumevanja so v četrtem in šestem stolpcu te razpredelnice navedeni<br />
rangi, ki pripadajo posameznim vrednostim spremenljivke, ki pa jih uporabniku programa<br />
SPSS ni potrebno računati.
Razpredelnica 4.7. Podatki in rangi<br />
Podjetje Skupina Št. bolniških Rang Št. bolniških Rang<br />
1 1 150 5 280 12<br />
2 1 350 20 350 17<br />
3 1 160 8,5 350 17<br />
4 1 180 13 240 10<br />
5 1 190 15,5 390 20<br />
6 1 170 11 320 15<br />
7 1 270 19 270 11<br />
8 1 160 8,5 290 13<br />
9 1 130 1,5 360 19<br />
10 1 200 17,5 350 17<br />
11 2 160 8,5 50 2<br />
12 2 150 5 60 3,5<br />
13 2 200 17,5 300 14<br />
14 2 150 5 80 6<br />
15 2 160 8,5 90 7<br />
16 2 130 1,5 70 5<br />
17 2 140 3 60 3,5<br />
18 2 190 15,5 170 9<br />
19 2 180 13 30 1<br />
20 2 180 13 100 8<br />
Če s programom SPSS opravimo neparametrični test za dva neodvisna vzorca za podatke v<br />
razpredelnici 4.7, dobimo rezultate, podane v razpredelnici 4.8 in 4.9. V razpredelnici 4.8 so<br />
podane vsote rangov za obe skupini pred in po izvedbi ukrepov in povprečne vrednosti<br />
rangov. Tako je vsota rangov za prvo skupino pred izvedbo ukrepov 119,5 in za drugo<br />
skupino 90,5. Povprečni rang za prvo skupino pred izvedbo ukrepov (bolpred) je 11,95 in za<br />
drugo 9,05. Na enak način razložimo rezultate v tej razpredelnici za spremenljivko bopo, to je<br />
za stanje po izvedbi ukrepov. Iz primerjave povprečnih vrednostih vidimo, da je povprečni<br />
rang za drugo skupino manjši v obeh primerih, to je pred in po izvajanju ukrepov za<br />
izboljšanje zadovoljstva zaposlenih. Zanima nas, ali so te razlike v povprečnih vrednostih<br />
rangov značilne. Odgovor najdemo v razpredelnici 4.9.<br />
Najprej je podana vrednost Mann-Whitneyeve statistike U in nato vrednost Wilcoxonove<br />
statistike Ws ter njena standardizirana vrednost. Absolutna vrednost spremenljivke z za stanje<br />
števila bolniških pred izvajanjem ukrepov je manjša od 1,96, za stanje po izvajanju ukrepov<br />
pa večja od 1,96. Pripadajočo stopnjo značilnosti za njene vrednosti najdemo v naslednji vrsti.<br />
Upoštevaje navedene rezultate smemo zaključiti, da se pred izvajanjem ukrepov prva skupina<br />
ni značilno razlikovala od druge skupine po letnem številu bolniških izostankov. To pa ne<br />
velja za število bolniških izostankov po opravljenih ukrepih. Tu je razlika med povprečnimi<br />
rangi značilna (z = |3,484|, α < 0,01), kar pomeni, da so ukrepi za izboljšanje zadovoljstva<br />
zaposlenih vplivali tudi na zmanjšanje letnega števila bolniških izostankov.<br />
Razpredelnica 4.8. Rangi in testne statistike<br />
23
olpred<br />
bopo<br />
skupina<br />
1<br />
2<br />
Total<br />
1<br />
2<br />
Total<br />
Ranks<br />
N Mean Rank Sum of Ranks<br />
10 11,95 119,50<br />
10 9,05 90,50<br />
20<br />
10 15,10 151,00<br />
10 5,90 59,00<br />
20<br />
Razpredelnica 4.9. Testne statistike<br />
Test Statistics b<br />
35,500 4,000<br />
90,500 59,000<br />
-1,105 -3,484<br />
,269 ,000<br />
,280 a<br />
bolpred bopo<br />
Mann-Whitney U<br />
Wilcoxon W<br />
Z<br />
Asymp. Sig. (2-tailed)<br />
Exact Sig. [2*(1-tailed<br />
Sig.)]<br />
Exact Sig. (2-tailed) ,288 ,000<br />
Exact Sig. (1-tailed) ,144 ,000<br />
Point Probability<br />
,013 ,000<br />
a. Not corrected for ties.<br />
b. Grouping Variable: skupina<br />
,000 a<br />
4.3.3 Neparametrični test za ugotavljanje značilnih razlik med dvema<br />
povprečnima vrednostma za odvisna vzorca<br />
Wilcoxon <strong>si</strong>gned-rank test, ki ga uporabljamo za ugotavljanje značilnih razlik med<br />
povprečnima vrednostma dveh spremenljivk, ki smo jih dobili od istih subjektov (statističnih<br />
enot), je neparametrični ekvivalent parametričnemu t-testu za odvisne vzorce.<br />
Wilcoxon <strong>si</strong>gned-rank test izhaja iz razlik med vrednostmi spremenljivk za iste enote, ki se<br />
glede na njihovo absolutno vrednost razvrščajo od najmanjše, ki dobi rang ena, do največje.<br />
Razlike, ki so enake nič, se pri razvrščanju ne upoštevajo. Tvorita se dve vsoti rangov, in <strong>si</strong>cer<br />
vsota rangov, ki pripadajo pozitivnim razlikam, in vsota rangov, ki pripadajo negativnim<br />
razlikam. Vrednost testne statistike T je enaka manjši od obeh vsot rangov. Vrednost statistike<br />
T je statistično značilna pri p < 0,05, če je njena absolutna standardizirana vrednost z večja od<br />
1,96. Ta je opredeljena z:<br />
T − T<br />
z =<br />
SET<br />
kjer je T povprečna vrednost testne statistike in SE T njena standardna napaka. Njuni<br />
vrednosti izračunamo z:<br />
n(<br />
n + 1)<br />
T =<br />
4<br />
24
SET =<br />
n(<br />
n + 1)(<br />
2n<br />
+ 1)<br />
24<br />
kjer n pomeni velikost vzorca.<br />
Podatki, podani v razpredelnici 4.7, nam omogočajo še analizo povprečnega letnega števila<br />
bolniških odsotnosti pred in po končanih ukrepih za vsako skupino posebej. Za skupino<br />
podjetij, v katerih so se ukrepi izvajali, lahko preverimo, ali so ukrepi vplivali na število<br />
bolniških izostankov, za skupino podjetij, v katerih se ukrepi niso izvajali, pa ali so razlike<br />
med številom bolniških odsotnosti med dvema časovnima trenutkoma, statistično značilne.<br />
Če opravimo Wilcoxon <strong>si</strong>gned-rank test s programom SPSS za drugo skupino, kjer so izvajali<br />
ukrepe za izboljšanja zadovoljstva, dobimo rezultate, prikazane v razpredelnicah 4.10. V prvi<br />
razpredelnici (Descriptive Statistics) sta za drugo skupino podani aritmetični sredini letnih<br />
izostankov pred (bolpred) in po končanju izvajanja ukrepov (bopo). Povprečno število<br />
bolniških izostankov po izvajanju ukrepov se je zmanjšalo, zanima nas pa, ali je razlika med<br />
tema dvema aritmetičnima sredinama značilna. V drugi razpredelnici (Ranks) je v stolpcu N<br />
podano najprej število negativnih razlik med številom bolniških pred in po izvajanju ukrepov,<br />
nato povprečni rang za negativne razlike in povprečni rang za pozitivne razlike ter v zadnjem<br />
stolpcu še vsota rangov za negativne in vsota rangov za pozitivne razlike. Vrednost T<br />
statistike je enaka manjši vsoti rangov, v tem primeru je T = 8. Njena absolutna<br />
standardizirana vrednost, ki jo skupaj s stopnjo značilnosti najdemo v zadnji razpredelnici<br />
(Test statistics), je večja od 1,96, kar kaže na značilnost razlik med aritmetičnimi sredinami<br />
rangov. To potrjuje tudi stopnja značilnosti α, ki je manjša od 0,05. Za prvo skupino so ti<br />
rezultati podani v razpredelnicah 4.11.<br />
Razpredelnice 4.10. Rezultati Wilcoxon <strong>si</strong>gned-rank test za drugo skupino podjetij<br />
Descriptive Statistics a<br />
N Mean Std. Deviation Minimum Maximum<br />
bolpred 10 164,00 22,706 130 200<br />
bopo<br />
a. skupina = 2<br />
10 101,00 79,505 30 300<br />
bopo - bolpred<br />
Negative Ranks<br />
Po<strong>si</strong>tive Ranks<br />
Ties<br />
Total<br />
a. bopo < bolpred<br />
b. bopo > bolpred<br />
c. bopo = bolpred<br />
d.<br />
skupina = 2<br />
Ranks d<br />
9a N Mean Rank Sum of Ranks<br />
5,22 47,00<br />
1 b 8,00 8,00<br />
0 c<br />
10<br />
25
Test Statistics b,c<br />
bopo -<br />
bolpred<br />
Z<br />
Asymp. Sig. (2-tailed) ,047<br />
a. Based on po<strong>si</strong>tive ranks.<br />
-1,990 a<br />
b. Wilcoxon Signed Ranks Test<br />
c. skupina = 2<br />
Razpredelnice 4.11. Rezultati Wilcoxon <strong>si</strong>gned-rank test za prvo skupino podjetij<br />
bolpred<br />
bopo<br />
a. skupina = 1<br />
bopo - bolpred<br />
Descriptive Statistics a<br />
N Mean Std. Deviation Minimum Maximum<br />
10 196,00 66,030 130 350<br />
10 320,00 47,842 240 390<br />
Negative Ranks<br />
Po<strong>si</strong>tive Ranks<br />
Ties<br />
Total<br />
a. bopo < bolpred<br />
b. bopo > bolpred<br />
c. bopo = bolpred<br />
d. skupina = 1<br />
Test Statistics b,c<br />
bopo -<br />
bolpred<br />
Z<br />
Asymp. Sig. (2-tailed) ,012<br />
a. Based on negative ranks.<br />
-2,527 a<br />
b. Wilcoxon Signed Ranks Test<br />
c. skupina = 1<br />
Ranks d<br />
0a N Mean Rank Sum of Ranks<br />
,00 ,00<br />
8 b 4,50 36,00<br />
2 c<br />
10<br />
Pregled vrednosti v razpredelnicah 4.11 pokaže, da se je v podjetjih, razvrščenih v prvo<br />
skupino, število bolniških izostankov v obdobju, ko so se v drugi skupini podjetij izvajali<br />
ukrepi za izboljšanje zadovoljstva zaposlenih, povečalo. Rezultati Wilcoxon <strong>si</strong>gned-rank testa<br />
pokažejo, da je povečanje bolniških izostankov značilno. Primerjava rezultatov za obe skupini<br />
nam dovoljuje zaključek, da izvedeni ukrepi za izboljšanje zadovoljstva zaposlenih vplivajo<br />
na zmanjšanje bolniških izostankov.<br />
26
5 Analiza odvisnosti med številskimi spremenljivkami<br />
5.1 Enostavna regre<strong>si</strong>ja<br />
Z regre<strong>si</strong>jsko in korelacijsko analizo ugotavljamo medsebojno odvisnost med dvema ali več<br />
skupinami spremenljivk. S korelacijsko analizo ugotavljamo jakost odvisnosti, z regre<strong>si</strong>jsko<br />
analizo pa je mogoče odvisnost med odvisno in eno (ali več) neodvisnimi spremenljivkami<br />
izraziti v obliki regre<strong>si</strong>jske enačbe. Korelacijska analiza (kakor tudi noben drugi matematični<br />
postopek) pa ne omogoča ugotavljanja vzročnosti. Le–to je mogoče ugotavljati na osnovi<br />
poznavanja pojavov oz. študija relevantne teorije.<br />
Študij odvisnosti med eno odvisno in eno neodvisno spremenljivko (enostavna regre<strong>si</strong>ja) je<br />
najenostavneje pričeti s prikazom dvojic vrednosti obeh spremenljivk v razsevnem grafikonu<br />
(angl. scatter diagram). Ta omogoča ugotoviti obliko, smer in jakost odvisnosti. Oblika je<br />
lahko linearna ali krivuljčna, smer je lahko pozitivna (z naraščanjem vrednosti neodvisne<br />
spremenljivke naraščajo tudi vrednosti odvisne) ali negativna, glede na jakost pa je lahko bolj<br />
ali manj močna.<br />
Regre<strong>si</strong>jska premica in regre<strong>si</strong>jska enačba<br />
V kolikor obstaja med opazovanima spremenljivkama odvisnost, je mogoče med točke<br />
narisati regre<strong>si</strong>jsko premico (v primeru linearne odvisnosti) oz. regre<strong>si</strong>jsko krivuljo (v primeru<br />
krivuljčne odvisnosti) tako, da se premica oz. krivulja čim bolje prilega točkam. Ker v večini<br />
primerov pri proučevanju ekonomsko-socialnih pojavov ne gre za primer funkcijske<br />
odvisnosti (vse točke ne ležijo na premici oz. krivulji) y = f(x), zapišemo linearno<br />
korelacijsko odvisnost med spremenljivkama x in y v obliki modela korelacijske odvisnosti<br />
y = f (x) + e<br />
yi = a0 + a1xi + ei za i = 1,2,…,N,<br />
kjer je y odvisna spremenljivka, x je neodvisna spremenljivka, e pa je napaka, imenovana tudi<br />
ostanek ali rezidual (angl. error, disturbance term), ki nastane zaradi slučajnih vplivov, napak<br />
pri merjenju ali zaradi tega, ker v model niso vključeni v<strong>si</strong> vplivi (spremenljivke) na odvisno<br />
spremenljivko.<br />
Pri analitičnem določanju parametrov regre<strong>si</strong>jske premice uporabimo metodo najmanjših<br />
kvadratov (angl. least-squares solution). Ob uporabi te metode so vrednosti parametrov<br />
regre<strong>si</strong>jske premice določene tako, da je vsota kvadratov odklonov stvarnih vrednosti (y) od<br />
vrednosti na regre<strong>si</strong>jski premici ( yˆ ) najmanjša, torej<br />
N<br />
N<br />
i=<br />
1<br />
i<br />
i=<br />
1<br />
i<br />
2 2<br />
S = ∑( y − yˆ ) = ∑e⇒min Za napake e = y – yˆ se pri metodi najmanjših kvadratov predpostavlja, da so normalno<br />
porazdeljene s povprečno vrednostjo nič, da je varianca za vrednosti e konstantna in torej<br />
neodvisna od vrednosti neodvisne spremenljivke ter da so vrednosti e med seboj neodvisne.<br />
Analiza variance temelji na enačbi:<br />
2 n<br />
2 n<br />
2 2 2<br />
( y − y)<br />
= ( y − y)<br />
+ ( y yˆ<br />
) = σ + σ<br />
n<br />
i=<br />
1<br />
i<br />
i=<br />
1<br />
i<br />
i=<br />
1<br />
∑ ∑ ˆ ∑ i − i xy ey<br />
27
Z zgornjo enačbo je vsota kvadratov odstopanj dejanskih vrednosti spremenljivke y od njene<br />
aritmetične sredine razčlenjena v dve sestavini. Prva izraža vsoto kvadratov odstopanj z<br />
regre<strong>si</strong>jsko funkcijo dobljenih vrednosti odvisne spremenljivke od njene aritmetične sredine.<br />
To sestavino imenujemo tudi z regre<strong>si</strong>jskim modelom pojasnjena vsota kvadratov odstopanj<br />
ali kratko pojasnjena varianca. Druga sestavina izraža vsoto kvadratov odstopanj dejanskih<br />
vrednosti od vrednosti, ki jih za spremenljivko y dobimo z regre<strong>si</strong>jskim modelom. Imenujemo<br />
jo tudi nepojasnjena varianca.<br />
Standardna napaka ocene je kvadratni koren iz nepojasnjene variance in izraža povprečno<br />
odstopanje dejanskih vrednosti spremenljivke y od vrednosti na regre<strong>si</strong>jski premici:<br />
σey =<br />
2<br />
σ ey<br />
Analiza kakovosti izračunane regre<strong>si</strong>jske funkcije<br />
Zanesljivost izračunane regre<strong>si</strong>jske funkcije ugotavljamo z F testom, zanesljivost njenih<br />
regre<strong>si</strong>jskih koeficientov pa s t testom. Z F testom preizkušamo domnevi<br />
H0: 2<br />
xy<br />
r = 0 in<br />
H1: 2<br />
r xy ≠ 0,<br />
kjer je 2<br />
rxy determinacijski koeficient, opredeljen kot razmerje med pojasnjeno in skupno<br />
varianco za odvisno spremenljivko. Statistika F je definirana z:<br />
F =<br />
n<br />
( yˆ<br />
y)<br />
∑ −<br />
( y − yˆ<br />
)<br />
∑ / n − k − 1<br />
i=<br />
1<br />
n<br />
i=<br />
1<br />
i<br />
i<br />
i<br />
2<br />
2<br />
/ k<br />
kjer je vrednost v števcu enaka pojasnjeni varianci, v imenovalcu pa nepojasnjeni varianci. Če<br />
je izračunana vrednost za F pri k in (n – k – 1) stopinjah prostosti in pri vnaprej določeni<br />
stopnji tveganja večja od teoretične vrednosti, ki jo odčitamo v tabeli kritičnih vrednosti za F-<br />
porazdelitev, lahko trdimo, da je determinacijski koeficient 2<br />
xy<br />
28<br />
r značilno različen od nič in<br />
zavrnemo ničelno domnevo.<br />
Zanesljivost izračunanih parametrov regre<strong>si</strong>jske premice pa testiramo s t-testom. Pri tem<br />
testiramo domnevi:<br />
H0: aj = 0<br />
H1: aj ≠ 0<br />
na osnovi Studentove t statistike pri (n - k - 1) prostostnih stopinjah:<br />
aˆ<br />
j<br />
t =<br />
s<br />
aˆ<br />
j<br />
kjer je j a s ˆ je standardna napaka regre<strong>si</strong>jskega koeficienta j.<br />
Če je izračunana vrednost statistike t večja od teoretične vrednosti, ki jo najdemo v tabeli za tporazdelitev<br />
pri (n – k – 1) prostostnih stopinjah in ustrezni stopnji tveganja (α/2), lahko<br />
trdimo, da je vrednost regre<strong>si</strong>jskega koeficienta a1 (v primeru enostavne regre<strong>si</strong>je) značilno<br />
različna od nič in zavrnemo ničelno domnevo. Na podoben način testiramo tudi konstanto a0.
Primer 5.1<br />
Poglejmo primer, ki podjetje prodaja svoje izdelke na 40 prodajnih področjih in želi ugotoviti<br />
kako je prodaja (odvisna spremenljivka) odvisna od števila propagandnih akcij (neodvisna<br />
spremenljivka). Podatki o prodaji in številu propagandnih akcij so podani v datoteki regenost.<br />
S programom SPSS smo dobili naslednje izpise.<br />
Model Summary<br />
,880a Adjusted R<br />
Std. Error<br />
of the<br />
Model R R Square Square Estimate<br />
1<br />
,775 ,769 595,60<br />
a. Predictors: (Constant), propaganda<br />
Korelacijski koeficient (R=0,88) kaže na močno linearno povezavo med spremenljivko<br />
prodaja in spremenljivko število propagandnih akcij. Determinacijski koeficient (R Square) pa<br />
kaže delež pojasnjene variance v skupni varianci za odvisno spremenljivko. 77,5 % celotne<br />
variance je pojasnjene z variabilnostjo spremenljivke število propagandnih akcij.<br />
ANOVA b<br />
4,6E+07 1 5,E+07 130,644 ,000a Sum of<br />
Mean<br />
Model<br />
Squares df Square F Sig.<br />
1 Regres<strong>si</strong>on<br />
Re<strong>si</strong>dual 1,3E+07 38 354742<br />
Total<br />
6,0E+07 39<br />
a. Predictors: (Constant), propaganda<br />
b. Dependent Variable: prodaja<br />
F test kaže, da obstaja med spremenljivkama linearna odvisnost; pri enostavni regre<strong>si</strong>ji je Ftest<br />
identičen testiranju hipoteze H0: â j = 0 s t-testom. Prav tako F-test kaže, da obstaja med<br />
spremenljivkama linearna odvisnost. Pri enostavni regre<strong>si</strong>ji je F-test identičen testiranju<br />
domneve Ho: aˆ j = 0 .<br />
Coefficients a<br />
Unstandardized<br />
Coefficients<br />
29<br />
Standar<br />
dized<br />
Coeffici<br />
ents<br />
Model<br />
B Std. Error Beta t Sig.<br />
1 (Constant) 1354,34 259,065 5,228 ,000<br />
propaganda 253,077 22,142 ,880 11,430 ,000<br />
a. Dependent Variable: prodaja<br />
Vrednost statistike t in raven značilnosti (Sig.) kažeta, da je koeficient a1 značilno različen od<br />
nič, kar pomeni, da obstaja odvisnost med opazovanima spremenljivkama. Enačba regre<strong>si</strong>jske<br />
premice je:<br />
yˆ =<br />
1354,<br />
34 + 253,<br />
077x
5.2 Multipla regre<strong>si</strong>ja<br />
V primeru, ko na vrednosti ene odvisne spremenljivke vpliva več dejavnikov – spremenljivk,<br />
govorimo o multipli regre<strong>si</strong>ji. Model linearne multiple regre<strong>si</strong>je predstavlja naslednja enačba<br />
yi = a0 + a1xi1 + a2xi2 + … + akxik + ei za i = 1,2, …, n<br />
kjer je:<br />
yi - vrednost odvisne spremenljivke pri i-ti enoti<br />
a k - vrednost regre<strong>si</strong>jskega koeficienta pri k-ti neodvisni spremenljivki<br />
xik - vrednost k-te neodvisne spremenljivke pri i-ti enoti<br />
Na osnovi vzorčnega pristopa ter z uporabo metode najmanjših kvadratov dobimo ocene<br />
regre<strong>si</strong>jskih koeficientov<br />
yˆ = â + â x + â x + ... + â x<br />
za i = 1,2, …, n<br />
i<br />
0<br />
1 i1<br />
2<br />
i2<br />
k<br />
ik<br />
Koeficienti â j j=1,…,k so enaki parcialnim regre<strong>si</strong>jskim koeficientom. Koeficient â 1 pove<br />
spremembo vrednosti odvisne spremenljivke, če se vrednost neodvisne spremenljivke x1<br />
spremeni za enoto pri pogoju, da vrednosti neodvisnih spremenljivk x2, x3,…,xk, ostanejo<br />
nespremenjene.<br />
Multipli korelacijski koeficient, multipli determinacijski koeficient<br />
Multipli korelacijski koeficient R kaže jakost odvisnosti med odvisno in k neodvisnimi<br />
spremenljivkami in je vedno pozitivna vrednost. Multipli determinacijski koeficient R 2 pa<br />
predstavlja delež variance v odvisni spremenljivki, ki je pojasnjena z variabilnostjo v<br />
neodvisnih spremenljivkah.<br />
Zanesljivost dobljene regre<strong>si</strong>jske funkcije se ugotavlja z F-testom, pri čemer preizkušamo<br />
domnevi:<br />
H0: R 2 = 0<br />
H1: R 2 ≠ 0<br />
in s t-testom domnevi:<br />
H0 : aj (j = 1,2....k) = 0<br />
H1 : vsaj eden aj je različen od nič.<br />
Ničelno domnevo zavrnemo, če je izračunana vrednost statistike F večja od njene teoretične<br />
vrednosti pri k oz. (n – k – 1 ) prostostnih stopinjah in vnaprej določeni stopnji tveganja α. Če<br />
smo ničelno domnevo zavrnili, pomeni, da je vsaj en koeficient različen od nič. S<br />
Studentovim t-testom ugotavljamo, kateri regre<strong>si</strong>jski koeficienti so različni od nič.<br />
Primer 5.2<br />
Poglejmo primer podjetja, opisanega v primeru 5.1, ki prodaja svoje izdelke na 40 prodajnih<br />
področjih. Tokrat želi ugotoviti, kako je prodaja odvisna od števila propagandnih akcij in<br />
števila trgovskih potnikov. Podatki za spremenljivke: y = prodaja, x1 = število propagandnih<br />
akcij, x2 = število trgovskih potnikov so podani v datoteki regmult.<br />
S programom SPSS in metodo Enter smo dobili za ta primer naslednje izpise rezultatov.<br />
30
Model Summary<br />
,935a Adjusted R<br />
Std. Error<br />
of the<br />
Model R R Square Square Estimate<br />
1<br />
,874 ,867 451,65<br />
a. Predictors: (Constant), število trgovskih<br />
potnikov, propaganda<br />
ANOVA b<br />
5,2E+07 2 3,E+07 128,141 ,000a Sum of<br />
Mean<br />
Model<br />
Squares df Square F Sig.<br />
1 Regres<strong>si</strong>on<br />
Re<strong>si</strong>dual 7547456 37 203985<br />
Total<br />
6,0E+07 39<br />
a. Predictors: (Constant), število trgovskih potnikov, propaganda<br />
b. Dependent Variable: prodaja<br />
Coefficients a<br />
Unstandardized<br />
Coefficients<br />
31<br />
Standar<br />
dized<br />
Coeffici<br />
ents<br />
Model<br />
B Std. Error Beta t Sig.<br />
1 (Constant)<br />
693,285 231,555 2,994 ,005<br />
propaganda 141,562 26,636 ,492 5,315 ,000<br />
število trgovskih<br />
potnikov<br />
375,313 69,593 ,500 5,393 ,000<br />
a. Dependent Variable: prodaja<br />
Povečana vrednost multiplega determinacijskega koeficienta kaže, da se je delež pojasnjene<br />
variance v skupni varianci povečal od 76,9 % na 86,7 % z vključitvijo še ene neodvisne<br />
spremenljivke (x2) v model. F-test in raven značilnosti kažeta, da obstaja odvisnost med<br />
prodajo ter številom propagandnih akcij in številom trgovskih potnikov. t-testi in ravni<br />
značilnosti za posamezne regre<strong>si</strong>jske koeficiente kažejo, da so v<strong>si</strong> regre<strong>si</strong>jski koeficienti<br />
značilno različni od nič na ravni značilnosti manjši od 0,05. V<strong>si</strong> ti rezultati kažejo na<br />
smiselnost uporabe regre<strong>si</strong>jskega modela, ki ga zapišemo z enačbo:<br />
y ˆ = 693,<br />
285 + 141,<br />
562x1<br />
+ 375,<br />
313x2<br />
Koeficient regre<strong>si</strong>jske enačbe pri x1 pove, za koliko se v poprečju spremeni odvisna<br />
spremenljivka yˆ , če se neodvisna spremenljivka x1 poveča za enoto pri nespremenjeni<br />
vrednosti spremenljivke x2.<br />
Običajno želimo ugotovitve, dobljene s pomočjo vzorca, posplošiti na statistično množico. To<br />
smemo storiti, če so izpolnjene predpostavke, na katerih temelji regre<strong>si</strong>jska analiza. Te so.<br />
• Neodvisne spremenljivke med seboj niso premočno korelirane (multikolinearnost).<br />
Prisotnost multikolinearnosti preverjamo z variance inflation factor (VIF). Če je njegova<br />
vrednost 10, obstaja premočna koreliranost med neodvisnimi spremenljivkami.
• Homoskedastičnost pomeni, da mora biti varianca rezidualov konstantna za vse vrednosti<br />
odvisne spremenljivke.<br />
• Reziduali morajo biti nekorelirani. Za poljubni dve vrednosti odvisne spremenljivke<br />
morata biti pripadajoča reziduala nekorelirana. Izpolnitev te predpostavke ugotavljamo z<br />
Durbin-Watsonovim testom. Če je njegova vrednost enaka dva, reziduali med seboj niso<br />
korelirani, če je njegova vrednost večja od dva obstaja negativna korelacija med reziduali,<br />
o pozitivni korelaciji med reziduali pa govorimo, ko je vrednost Durbin-Watsonovega<br />
testa manjša od dva. Običajno vrednosti Durbin-Watsonovega testa, ki so večje od tri in<br />
manjše od ena, kažejo na zaskrbljujočo koreliranost med reziduali.<br />
• Reziduali morajo biti normalno porazdeljene slučajne spremenljivke s povprečno<br />
vrednostjo nič.<br />
5.3 Diskriminantna analiza<br />
Diskriminantna analiza je primerna metoda za proučevanje odvisnosti, kadar je odvisna<br />
spremenljivka opisna, neodvisne spremenljivke pa so številske. Zanima nas na primer ali se in<br />
kako razlikujejo kupci naših izdelkov od kupcev konkurenčnih izdelkov. Odvisna<br />
spremenljivka je opisna z dvema vrednostma(1=kupec naših izdelkov, 2=kupec konkurenčnih<br />
izdelkov), neodvisne spremenljivke pa so lahko starost kupcev, njihov osebni dohodek,<br />
stopnja izobrazbe itd. (številske spremenljivke).<br />
Cilji diskriminantne analize so:<br />
1. oblikovanje diskriminantne funkcije kot linearne kombinacije izbranih neodvisnih<br />
spremenljivk tako, da le-ta v čim večji možni meri omogoča razlikovanje med skupinami<br />
na osnovi izbranih neodvisnih spremenljivk.<br />
2. ugotavljanje ali obstajajo značilne razlike med skupinami z vidika izbranih neodvisnih<br />
spremenljivk.<br />
3. določitev prispevka neodvisnih spremenljivk k razlikovanju med skupinami.<br />
4. razvrščanje enot v eno izmed skupin na osnovi diskriminantne funkcije in vrednosti<br />
neodvisnih spremenljivk.<br />
Kadar ima odvisna spremenljivka samo dve vrednosti (dve skupini), govorimo o<br />
diskriminantni analizi z dvema skupinama, če pa ima 3 ali več vrednosti (3 ali več skupin) pa<br />
govorimo o multipli diskriminantni analizi.<br />
Diskriminantna analiza je podobna multipli regre<strong>si</strong>jski analizi, le da je odvisna spremenljivka<br />
opisna. Z diskriminantno analizo ugotavljamo in pojasnjujemo razlike med skupinami. Da bi<br />
na primer ugotovili, kako se razlikujejo kupci naših izdelkov od kupcev, ki kupujejo<br />
konkurenčne izdelke glede na dohodek, starost, izobrazbo (neodvisne spremenljivke), bi lahko<br />
za posamezne skupine izračunali povprečen dohodek, starost, izobrazbeno raven in ugotovili<br />
kakšna so povprečja v posamezni skupini. To je vsekakor zanimivo z vidika posameznih<br />
spremenljivk, nič pa ne pove o njihovem skupnem vplivu pri predpostavki, da je mala<br />
verjetnost, da imajo vse spremenljivke neodvisne učinke. Če se npr. skupine razlikujejo glede<br />
na povprečen dohodek, se zelo verjetno razlikujejo tudi glede na izobrazbo, saj sta ti dve<br />
spremenljivki med seboj močno povezani. Zato nas zanima skupen učinek obeh spremenljivk,<br />
prav tako pa, katera spremenljivka ima večji učinek. Diskriminantna analiza omogoča, da<br />
obravnavamo spremenljivke hkrati, tako da upoštevamo njihove medsebojne odvisnosti in<br />
informacije, ki se delno pokrivajo.<br />
32
5.3.1 Diskriminantna analiza z dvema skupinama<br />
Da bi ugotovili, katere spremenljivke prispevajo največ k razlikovanju med dvema skupinama<br />
enot, oblikujemo novo spremenljivko – diskriminantno funkcijo, oblikovano tako, da se<br />
vrednosti enot, izračunane z diskriminantno funkcijo, v obeh skupinah med seboj v največji<br />
možni meri razlikujejo. Analiza variance bi za tako oblikovane nove vrednosti enot pokazala<br />
značilne razlike med povprečnima vrednostma proučevanih skupin. V okviru diskriminantne<br />
analize se za ugotavljanje učinkovitosti diskriminantne funkcije uporablja statistika Wilks<br />
lambda.<br />
Diskriminantno funkcijo zapišemo:<br />
D = a1y1 + a2y2 +…+ akyk<br />
kjer je:<br />
D - vrednost diskriminantne funkcije (discriminant scores)<br />
ak - koeficient diskriminantne funkcije pri spremenljivki yk<br />
yk - k-ta neodvisna spremenljivka<br />
V primeru dveh skupin enot <strong>si</strong> lahko predstavljamo dve delno pokrivajoči normalni<br />
porazdelitvi vrednosti D za dve skupini. Vrednosti D so oblikovane tako (z izbiro ustreznih<br />
vrednosti koeficientov a1, a2, ….ak), da sta obe porazdelitvi med seboj čim bolj oddaljeni.<br />
Koeficienti oz. uteži so določene tako, da je razmerje<br />
Variabilnost<br />
med skupinami<br />
Variabilnost<br />
znotrajskupin<br />
mak<strong>si</strong>malno. Na ta način so <strong>si</strong> enote z vidika vrednosti D znotraj skupin med seboj čim bolj<br />
podobne, med skupinama pa čim bolj različne. Tako se problem več neodvisnih spremenljivk<br />
zmanjša na problem ene neodvisne spremenljivke. Zaradi tega ni potrebno primerjati skupini<br />
po vseh neodvisnih spremenljivkah, temveč samo glede na vrednosti ene spremenljivke D.<br />
Prav tako je tudi zagotovljeno, da sta <strong>si</strong> skupini glede na vrednosti D med seboj v največji<br />
možni meri različni.<br />
V nadaljevanju je potrebno ugotoviti, v čem se skupini med seboj najbolj razlikujeta oz.<br />
katere spremenljivke največ prispevajo k razlikovanju med skupinama.<br />
Interpretacija diskriminantne funkcije<br />
Statistično značilna diskriminantna funkcija pomeni, da so razlike med skupinama značilne,<br />
kar se preverja z analizo variance.<br />
Koeficiente diskriminantne funkcije razložimo podobno kot regre<strong>si</strong>jske keoeficiente. Vsak<br />
koeficient odraža relativni prispevek k diskriminantni funkciji pri spremembi vsake neodvisne<br />
spremenljivke za eno enoto. Majhna vrednost koeficienta pomeni majhni relativni prispevek<br />
spremenljivke k vrednosti diskriminantne funkcije in obratno. Problem nastopi, kadar so<br />
spremenljivke izražene v različnih enotah. Zato se v teh primerih prispevek posamezne<br />
spremenljivke – uteži - izrazi še v standardizirani obliki. Absolutna velikost standardiziranih<br />
uteži tako omogoča ugotavljanje relativnega prispevka posamezne spremenljivke. Majhna<br />
standardizirana vrednost torej pomeni, da spremenljivka ni pomembna pri diskriminiranju<br />
med skupinami, ali pa se je njen učinek izgubil zaradi multikolinearnosti med<br />
spremenljivkami.<br />
Diskriminantne uteži (discriminant loadings) kažejo pomen neodvisnih spremenljivk v<br />
razlikovanju med skupinami in se izračunajo kot enostavni korelacijski koeficienti med<br />
diskriminantnimi vrednostmi in vrednostmi za posamezno neodvisno spremenljivko. Kvadrati<br />
33
teh koeficientov se pojasnjujejo kot determinacijski koeficienti in kažejo delež variabilnosti v<br />
diskriminantni vrednosti, ki je pojasnjen z ustrezno neodvisno spremenljivko.<br />
Če povzamemo, so v bistvu tri možnosti za ocenjevanje relativnega pomena spremenljivk pri<br />
razlikovanju med skupinama: razlike v aritmetični sredini spremenljivk med skupinami,<br />
standardizirani koeficienti in diskriminantne uteži. Vse tri analize dajo iste zaključke o<br />
relativnem pomenu spremenljivk, če med neodvisnimi spremenljivkami ni multikolinearnosti.<br />
V primeru multikolinearnosti so lahko zaključki različni, zato je potrebna toliko večja<br />
pazljivost pri razlaganju izidov statistične analize.<br />
5.3.2 Multipla diskriminantna analiza<br />
Pri multipli diskriminantni analizi z G skupinami je mogoče oceniti G-1 diskriminantnih<br />
funkcij, če je število neodvisnih spremenljivk večje od G, kar je običajno. Prva funkcija ima<br />
največje vrednost količnika med varianco med skupinami in varianco znotraj skupin<br />
(eigenvalue). Druga, nekorelirana s prvo, ima drugi največji količnik itd. Vendar pa ni rečeno,<br />
da so vse funkcije statistično značilne. Prva funkcija prispeva mak<strong>si</strong>malno k razlikovanju, kar<br />
pomeni, da imajo enote znotraj skupin zelo podobne diskriminantne vrednosti, med skupinami<br />
pa se te vrednosti zelo razlikujejo.<br />
Primer 5.3<br />
Diskriminantno analizo bomo izvedli na primeru 30 družin, za katere nas zanima, katere<br />
njihove lastnosti vplivajo na to, da družina obišče zdravilišče ali ne (v primeru diskriminantne<br />
analize z dvema skupinama) oziroma katere so tiste lastnosti družin, ki vplivajo na to, ali<br />
družina porabi male, srednje ali visoke zneske za dopust (v primeru diskriminantne analize s<br />
tremi skupinami). Pri diskriminantni analizi je odvisna spremenljivka skupina. V našem<br />
primeru z dvema skupinama so v skupini 1 družine, ki so obiskale zdravilišče, v skupini 2 pa<br />
družine, ki zdravilišča niso obiskale. V primeru treh skupin pa so v skupini 1 družine, ki<br />
porabijo mali znesek za dopust, v skupini 2 družine, ki porabijo srednje velike zneske za<br />
dopust in v skupini 3 družine, ki porabijo visoke zneske za dopust. Spremenljivke, ki naj bi<br />
vplivale na odločitev o obisku zdravilišča oz. na znesek, ki ga družina porabi za dopust so:<br />
višina letnega dohodka družine (DOHODEK), kako rada družina potuje (ODNOS), kako<br />
pomemben je dopust za družino (POMEN), velikost družine (VELIKOST), starost očeta ali<br />
matere (STAROST). Spremenljivke ODNOS in POMEN smo merili na intervalni skali od 1<br />
do 9 (1 = družina ne potuje rada, oz. dopust ni pomemben; 9 = družina zelo rada potuje, oz.<br />
dopust je zelo pomemben). Podatki so v datoteki diskrim.<br />
S programom SPSS smo najprej opravili diskriminantno analizo z dvema skupinama in dobili<br />
naslednje izpise.<br />
Eigenvalues<br />
1,786a % of Cumulative Canonical<br />
Function Eigenvalue Variance % Correlation<br />
1<br />
100,0 100,0 ,801<br />
a. First 1 canonical discriminant functions were used in the<br />
analy<strong>si</strong>s.<br />
Lastna vrednost (Eigenvalue) je razmerje med vsoto kvadratov med skupinami in vsoto<br />
kvadratov znotraj skupin. Večja kot je njena vrednost, boljša je diskriminantna funkcija.<br />
34
Test of Function(s)<br />
1<br />
Wilks' Lambda<br />
Wilks'<br />
Lambda Chi-square df Sig.<br />
,359 26,130 5 ,000<br />
Wilks' λ je enaka količniku med vsoto kvadratov znotraj skupin in celotno vsoto kvadratov.<br />
Njene vrednosti so med 0 in 1. Vrednost λ blizu 1 pomeni, da aritmetične sredine<br />
diskriminantnih vrednosti med skupinami niso značilno različne, mala vrednost pa da so. Do<br />
enakega zaključka pridemo ob upoštevanju vrednost hi-kvadrat, ki jo uporabimo pri testiranju<br />
ničelne domneve, da so aritmetične sredine diskriminantnih vrednosti skupin enake. Ker je v<br />
tem primeru raven značilnosti manjša od 0,05, smemo ničelno domnevo o enakosti<br />
aritmetičnih sredin diskriminantnih vrednosti skupin zavreči s tveganjem, manjšim od 0,05.<br />
Standardized Canonical<br />
Discriminant Function Coefficients<br />
LETNI DOHODEK<br />
DRUŽINE<br />
ODNOS DO<br />
ZDRAVILIŠČ<br />
POMEN DRUŽINSKIH<br />
POČITNIC<br />
ŠTEVILO DRUŽINSKIH<br />
ČLANOV<br />
STAROST OČETA ALI<br />
MATERE<br />
Structure Matrix<br />
LETNI DOHODEK<br />
DRUŽINE<br />
ŠTEVILO DRUŽINSKIH<br />
ČLANOV<br />
POMEN DRUŽINSKIH<br />
POČITNIC<br />
ODNOS DO<br />
ZDRAVILIŠČ<br />
STAROST OČETA ALI<br />
MATERE<br />
Function<br />
1<br />
,743<br />
,096<br />
,233<br />
,469<br />
,209<br />
Function<br />
1<br />
,822<br />
,541<br />
,346<br />
,213<br />
,164<br />
Pooled within-groups correlations between<br />
discriminating variables and standardized<br />
canonical discriminant functions<br />
Variables ordered by absolute <strong>si</strong>ze of<br />
correlation within function.<br />
Standardizirani koeficienti kažejo na<br />
relativni pomen spremenljivk pri<br />
razlikovanju med skupinama.<br />
Spremenljivke z večjo vrednostjo<br />
standardiziranega koeficienta prispevajo<br />
več k razlikovanju med skupinama.<br />
Najpomembnejša spremenljivka je torej<br />
letni dohodek, sledi ji število družinskih<br />
članov itd.<br />
35<br />
V strukturni matriki je relativni<br />
pomen posameznih spremenljivk<br />
pri razlikovanju med skupinama<br />
prikazan po vrstnem redu ob<br />
upoštevanju diskriminantnih uteži<br />
(discriminant loadings). To so<br />
enostavni korelacijski koeficienti<br />
med diskriminantno funkcijo in<br />
posameznimi spremenljivkami.
Functions at Group Centroids<br />
OBISK ZDRAVILIŠČA<br />
1<br />
2<br />
Function<br />
1<br />
1,291<br />
-1,291<br />
Unstandardized canonical discriminant<br />
functions evaluated at group means<br />
Clas<strong>si</strong>fication Results a<br />
Predicted Group<br />
Membership<br />
OBISK ZDRAVILIŠČA 1 2 Total<br />
Original Count 1<br />
12 3 15<br />
2<br />
0 15 15<br />
% 1<br />
80,0 20,0 100,0<br />
2<br />
,0 100,0 100,0<br />
a. 90,0% of original grouped cases correctly clas<strong>si</strong>fied.<br />
Kla<strong>si</strong>fikacijska matrika prikazuje število z diskriminantno funkcijo pravilno razvrščenih enot<br />
v skupini. Uspešnost kla<strong>si</strong>fikacije je prikazana s količnikom med pravilno razvrščenimi<br />
enotami in skupnim številom enot (hit ratio).<br />
Za izvedbo diskriminantne analize s tremi skupinami se postopek v našem primeru razlikuje v<br />
toliko, da razvrščamo enote v tri skupinah po spremenljivki ZNESEK DRUŽINE.<br />
Rezultati analize, dobljeni s programom SPSS za diskriminantno analizo s tremi skupinami,<br />
so:<br />
Eigenvalues<br />
3,819a 93,9 93,9 ,890<br />
,247a % of Cumulative Canonical<br />
Function Eigenvalue Variance % Correlation<br />
1<br />
2<br />
6,1 100,0 ,445<br />
a. First 2 canonical discriminant functions were used in the<br />
analy<strong>si</strong>s.<br />
Prva funkcija ima večjo lastno vrednost (eigenvalue), omogoča torej boljše razlikovanje med<br />
skupinami. Na osnovi Wilks' lambde, hi-kvadrata in stopnje značilnosti sklepamo, da prva<br />
funkcija omogoča razlikovanje med skupinami: majhna vrednost Wilks' Lambde, nizka<br />
stopnja tveganja (α ‹ 0,05).<br />
Test of Function(s)<br />
1 through 2<br />
2<br />
Wilks' Lambda<br />
Wilks'<br />
Lambda Chi-square df Sig.<br />
,166 44,831 10 ,000<br />
,802 5,517 4 ,238<br />
36<br />
Centroid je povprečje<br />
diskriminantnih<br />
vrednosti v skupini.
Če izločimo iz analize prvo funkcijo, pa vidimo, da druga funkcija ne prispeva značilno k<br />
razlikovanju med skupinama: visoka vrednost Wilks' Lambde, visoka stopnja tveganja (α ›<br />
0,05).<br />
LETNI DOHODEK<br />
DRUŽINE<br />
ŠTEVILO DRUŽINSKIH<br />
ČLANOV<br />
ODNOS DO<br />
ZDRAVILIŠČ<br />
POMEN DRUŽINSKIH<br />
POČITNIC<br />
STAROST OČETA ALI<br />
MATERE<br />
Structure Matrix<br />
Function<br />
1 2<br />
,856* -,278<br />
,193* ,077<br />
,219 ,588*<br />
,149 ,454*<br />
,166 ,341*<br />
Pooled within-groups correlations between<br />
discriminating variables and standardized<br />
canonical discriminant functions<br />
Variables ordered by absolute <strong>si</strong>ze of correlation<br />
within function.<br />
*. Largest absolute correlation between each<br />
variable and any discriminant function<br />
Iz strukturne matrike vidimo, da je prva funkcija, ki največ prispeva k razlikovanju med<br />
skupinama, povezana s spremenljivkama LETNI DOHODEK IN ŠTEVILO DRUŽINSKIH<br />
ČLANOV. Ta funkcija omogoča razlikovanje med vsemi tremi skupinami: skupina 3 ima<br />
največji letni dohodek in največje število družinskih članov, sledi skupina 2 in nato skupina 1<br />
(povprečne vrednosti vidimo v Tabeli 5.2.1: Group Statistics). Podobno lahko komentiramo<br />
drugo diskriminantno funkcijo, ki pa prispeva slabše k razlikovanju med skupinami.<br />
Slika 5.1. Razsevni grafikon<br />
Function 2<br />
3<br />
2<br />
1<br />
0<br />
-1<br />
-2<br />
-3<br />
Canonical Discriminant Functions<br />
-4<br />
Function 1<br />
1<br />
-2<br />
2<br />
0<br />
2<br />
3<br />
4<br />
6<br />
ZNESEK DRUŽINE ZA LE<br />
Group Centroids<br />
Ungrouped Cases<br />
3<br />
2<br />
1<br />
37<br />
Prva funkcija je povezana s<br />
spremenljivkama LETNI DOHODEK in<br />
ŠTEVILO DRUŽINSKIH ČLANOV (*),<br />
druga funkcija pa s preostalimi<br />
spremenljivkami.
Razsevni grafikon kaže položaj posamezne enote oz. skupine enot glede na prvo in drugo<br />
diskriminantno funkcijo ter razlike med skupinami, upoštevajoč spremenljivke povezane s<br />
posameznima funkcijama.<br />
Aritmetične sredine in standardni odkloni za spremenljivke, uporabljene v diskriminantni<br />
analizi za tri skupine družin so podane v razpredelnici Group Statistics.<br />
38
ZNESEK DRUŽINE<br />
ZA LETNI DOPUST<br />
1<br />
2<br />
3<br />
Total<br />
LETNI DOHODEK<br />
DRUŽINE<br />
ODNOS DO<br />
ZDRAVILIŠČ<br />
POMEN DRUŽINSKIH<br />
POČITNIC<br />
ŠTEVILO DRUŽINSKIH<br />
ČLANOV<br />
STAROST OČETA ALI<br />
MATERE<br />
LETNI DOHODEK<br />
DRUŽINE<br />
ODNOS DO<br />
ZDRAVILIŠČ<br />
POMEN DRUŽINSKIH<br />
POČITNIC<br />
ŠTEVILO DRUŽINSKIH<br />
ČLANOV<br />
STAROST OČETA ALI<br />
MATERE<br />
LETNI DOHODEK<br />
DRUŽINE<br />
ODNOS DO<br />
ZDRAVILIŠČ<br />
POMEN DRUŽINSKIH<br />
POČITNIC<br />
ŠTEVILO DRUŽINSKIH<br />
ČLANOV<br />
STAROST OČETA ALI<br />
MATERE<br />
LETNI DOHODEK<br />
DRUŽINE<br />
ODNOS DO<br />
ZDRAVILIŠČ<br />
POMEN DRUŽINSKIH<br />
POČITNIC<br />
ŠTEVILO DRUŽINSKIH<br />
ČLANOV<br />
STAROST OČETA ALI<br />
MATERE<br />
Group Statistics<br />
39<br />
Mean<br />
Std.<br />
Valid N (listwise)<br />
Deviation Unweighted Weighted<br />
38,570 5,297 10 10,000<br />
4,500 1,716 10 10,000<br />
4,700 1,889 10 10,000<br />
3,100 1,197 10 10,000<br />
50,300 8,097 10 10,000<br />
50,110 6,002 10 10,000<br />
4,000 2,357 10 10,000<br />
4,200 2,486 10 10,000<br />
3,400 1,506 10 10,000<br />
49,500 9,253 10 10,000<br />
64,970 8,614 10 10,000<br />
6,100 1,197 10 10,000<br />
5,900 1,663 10 10,000<br />
4,200 1,135 10 10,000<br />
56,000 7,601 10 10,000<br />
51,217 12,795 30 30,000<br />
4,867 1,978 30 30,000<br />
4,933 2,100 30 30,000<br />
3,567 1,331 30 30,000<br />
51,933 8,574 30 30,000
6 Analiza medsebojne odvisnosti<br />
6.1 Analiza skupin (Cluster analy<strong>si</strong>s)<br />
V marketingu, pa tudi na drugih področjih, se mnogokrat kaže potreba po razvrščanju<br />
subjektov – enot v homogene skupine, t.j. skupine s čim bolj podobnimi lastnostmi. Npr.<br />
podjetje želi segmentirati tržišče, to je razvrstiti potencialne kupce v homogene skupine, ki so<br />
dovolj velike ali dobičkonosne za nadaljnjo obravnavo z vidika zadovoljevanja njihovih<br />
specifičnih potreb. Pri razvrščanju v skupine je mogoče upoštevati številne lastnosti<br />
potrošnikov kot so demografske (spol, starost….), ekonomske, vedenjske, p<strong>si</strong>hološke. Takšno<br />
analizo omogoča analiza skupin. Njen cilj je razvrstiti enote v skupine tako, da so znotraj<br />
skupin enote med seboj čim bolj podobne, med skupinami pa čim bolj različne. Pri tej analizi<br />
gre torej za združevanje enot in s tem zmanjševanje njihovega števila. Razvrščanje v skupine<br />
se izvede na osnovi ustreznih spremenljivk, pri čemer analiza skupin ne razlikuje med<br />
odvisnimi in neodvisnimi spremenljivkami.<br />
V okviru analize skupin je treba rešiti naslednja vprašanja:<br />
1. Katere spremenljivke so v konkretni raziskavi pomembne za razvrščanje enot v homogene<br />
skupine?<br />
2. Katero merilo upoštevati pri določanju razlik med enotami?<br />
3. Kateri kriterij upoštevati pri vključevanju enot v skupine?<br />
Postopek pri izvedbi analize skupin:<br />
1. Definiranje problema<br />
2. Izbira merila razlik oz. podobnosti med enotami (distance measure)<br />
3. Izbira metode<br />
4. Odločitev o številu skupin<br />
5. Interpretacija skupin<br />
4. Ocenjevanje kvalitete rezultatov razvrščanja enot v skupine (reliability and validity of<br />
clustering).<br />
Definiranje problema<br />
Pri definiranju problema je zelo pomembno pravilno določiti - izbrati značilnosti enot<br />
(spremenljivke), po katerih se bodo enote združevale v skupine – klastre. Spremenljivke se<br />
določajo na osnovi preteklih raziskovanj (izkušenj), teorije na relevantnem področju oz. na<br />
osnovi hipotez, ki se testirajo.<br />
Izbira merila<br />
Ker je cilj analize skupin razvrstiti enote v homogene skupine potrebujemo mero, s katero je<br />
mogoče presojati podobnost oz. različnost med posameznimi enotami. Na razpolago je več<br />
načinov merjenja razlik oz. podobnosti med enotami. Kot najbolj pogosto merilo podobnosti<br />
se uporablja evklidska razdalja (euclidean distance) oz. njen kvadrat. Kvadrirana evklidska<br />
razdalja je vsota kvadriranih razlik med vrednostmi dveh spremenljivk za vse možne pare<br />
enot. Če so vrednosti spremenljivk podane v različnih enotah mere, jih je potrebno predhodno<br />
standardizirati.<br />
40
Kvadrirana evklidska razdalja je definirana z:<br />
p<br />
d = ∑ ( x − x )<br />
2<br />
rs<br />
j=<br />
1<br />
rj<br />
sj<br />
2<br />
2<br />
kjer je d rs kvadrirana evklidska razdalja med enotama r in s, xrj je vrednost j-te spremenljivke<br />
pri enoti r in xsj je vrednost j-te spremenljivke pri enoti s, p pa je število spremenljivk.<br />
Izbira metode<br />
Tako kot je več načinov merjenja razlik oz. podobnosti med enotami je tudi več metod, ki<br />
omogočajo združevanje enot v skupine.<br />
Pri metodi variance se skupine tvorijo na osnovi minimiziranja variance znotraj skupin<br />
(within-cluster variance) – Wardova metoda. Wardova metoda združuje enote in skupine na<br />
principu mak<strong>si</strong>miranja homogenosti znotraj skupin. Vsota kvadratov znotraj skupin služi kot<br />
merilo homogenosti. Ob vsakem koraku se skupine formirajo tako, da je za oblikovane<br />
skupine vsota kvadratov znotraj skupin minimalna (within cluster sums of squeres). Wardova<br />
metoda zahteva uporabo evklidske razdalje. Na osnovi izračunanih evklidskih razdalj se tvori<br />
matrika podobnosti (Similarity Matrix), ki v nadaljevanju omogoča združevanje enot v<br />
skupine po različnih metodah. Metoda hierarhičnega (drevesnega) razvrščanja prične<br />
razvrščanje s številom skupin, ki je enako številu enot, nato pa se v vsakem koraku število<br />
skupin zmanjša za eno (združevanje enot oz. skupin je prikazano v dendrogramu).<br />
Odločitev o številu skupin<br />
Glede odločitve o številu skupin ni trdnih pravil, upoštevati pa je mogoče naslednje.<br />
• Spoznanja na osnovi teorije in prakse obravnavanega področja.<br />
• Pri uporabi hierarhične metode je mogoče upoštevati razlike (kvadrirana evklidska<br />
razdalja), pri katerih pride do združevanja skupin. Informacijo lahko dobimo iz pregleda<br />
združevanja (agglomeration schedule) ali iz dendrograma.<br />
• Število enot v posameznih skupinah ne sme biti premalo.<br />
Interpretacija skupin<br />
Skupine je mogoče razložiti s pomočjo centroidov skupin. Ti predstavljajo povprečno<br />
vrednost enot v skupini za vsako spremenljivko. Prav tako je mogoče skupine razložiti s<br />
pomočjo diskriminantne analize in analize variance, ki omogočata določitev spremenljivk, ki<br />
največ prispevajo k razlikovanju med oblikovanimi skupinami. Pri tem so v pomoč tudi<br />
spremenljivke, ki se niso uporabile pri razvrščanju enot v skupine.<br />
Ocenjevanje kvalitete razvrščanja enot v skupine (reliability and validity of clustering)<br />
Kvaliteto razvrščanja lahko preverimo z naslednjimi postopki:<br />
• Na istih podatkih uporabimo drugačno mero razlik med enotami. S primerjavo rezultatov<br />
lahko določimo stabilnost rešitev.<br />
• Uporabimo različne metode združevanja in primerjamo rezultate.<br />
• Na slučajen način razdelimo podatke na dva dela. Primerjamo centroide skupin iz obeh<br />
delov podatkov.<br />
• Na slučajen način izpuščamo spremenljivke. Primerjamo rezultate z rezultati, ki smo jih<br />
dobili z uporabo vseh spremenljivk.<br />
Večina metod analize skupin je relativno enostavna za razumevanje in ne zahtevajo<br />
poglobljenega statističnega znanja. V okviru analize skupin se uporabljajo naslednji pojmi:<br />
41
Načrt združevanja (agglomeration schedule) podaja informacije o enotah, ki se na<br />
posameznih stopnjah hierarhične metode združujejo v skupine.<br />
Centroid skupine (cluster centroid) je povprečna vrednost spremenljivk za enote, ki so v<br />
določeni skupini.<br />
Članstvo v skupini (cluster membership) pokaže kateri skupini pripada določena enota.<br />
Dendrogram je grafični prikaz rezultatov združevanja (drevo), ki kaže razvrščanje enot v<br />
skupine na ustreznih ravneh ob upoštevanju razlik oz. podobnosti med enotami. Na vertikalni<br />
skali je prikazano združevanje enot v skupine, na horizontalni skali pa so prikazane<br />
»razdalje«, pri katerih pride do združevanja. Dendrogram se čita z leve proti desni.<br />
Primer 6.1<br />
Analizo skupin bomo izvedli na primeru 20 kupcev, ki jih želimo razvrstiti v tri homogene<br />
skupine glede na njihove navade oz. njihov odnos do nakupovanja. Kupci so na intervalni<br />
skali od 1 (se v celoti ne strinjam) do 7 (se v celoti strinjam) izrazili svoje mnenje o naslednjih<br />
trditvah:<br />
1. nakupovanje je zabava (ZABAVA)<br />
2. nakupovanje zmanjšuje družinski proračun (STROŠEK)<br />
3. ob nakupovanju običajno ne ko<strong>si</strong>m doma (KOSILO)<br />
4. pri nakupovanju poskušam doseči najugodnejši nakup (UGODNO)<br />
5. nakupovanje me ne zanima (NEZANIMA)<br />
6. s primerjavo cen lahko dosti prihraniš (PRIHRAN)<br />
V oklepajih so navedena imena spremenljivk. Podatki za izvedbo analize skupin so v datoteki<br />
podatki cluster. S programom SPSS dobimo naslednje izpise.<br />
42
Razpredelnica 6.1. Članstvo v skupinah<br />
Cluster Membership<br />
Case<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
10<br />
11<br />
12<br />
13<br />
14<br />
15<br />
16<br />
17<br />
18<br />
19<br />
20<br />
3 Clusters<br />
1<br />
2<br />
1<br />
3<br />
2<br />
1<br />
1<br />
1<br />
2<br />
3<br />
2<br />
1<br />
2<br />
3<br />
1<br />
3<br />
1<br />
3<br />
3<br />
2<br />
Slika 6.1. Dendrogram<br />
Dendrogram u<strong>si</strong>ng Ward Method<br />
Rescaled Distance Cluster Combine<br />
C A S E 0 5 10 15 20 25<br />
Label Num +---------+---------+---------+---------+---------+<br />
14 òø<br />
16 òú<br />
10 òú<br />
4 òôòòòø<br />
19 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòø<br />
18 òòòòò÷ ùòòòòòòòòòòòòòòòòòòòø<br />
2 òûòø ó ó<br />
13 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó<br />
5 òø ó ó<br />
11 òôò÷ ó<br />
9 òú ó<br />
20 ò÷ ó<br />
3 òûòø ó<br />
8 ò÷ ó ó<br />
6 òø ó ó<br />
7 òú ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷<br />
12 òú ó<br />
1 òôòø<br />
17 ò÷ ó<br />
15 òòò÷<br />
Iz desnega stolpca je razvidno, v katero<br />
skupino je razvrščena posamezna enota.<br />
43<br />
Iz dendrograma je<br />
razvidno, da je bilo na<br />
začetku 20 skupin (enot),<br />
ki so se nato postopoma<br />
združevale v skupine<br />
tako, da so na koncu vse<br />
enote združene v eni<br />
skupini
Iz drugega stolpca razpredelnice 6.1 je razvidno, da so enote razvrščene v tri skupine (clustre).<br />
Številka v tem stolpcu pove, v katero skupino je razvrščena posamezna enota. Potek<br />
razvrščanja v skupine je prikazan z dendrogramom. Na začetku razvrščanje je bilo 20 enot, ki<br />
so se postopoma združevale v skupine, na koncu razvrščanja so vse enote združene v eno<br />
skupino. Odločiti se je treba, v koliko skupin je smiselno združiti enote. V tem primeru smo<br />
se odločili za tri skupine.<br />
6.2 Faktorska analiza – metoda glavnih komponent<br />
Pri proučevanju kompleksnih pojavov moramo pogosto upoštevati veliko medsebojno<br />
odvisnih spremenljivk. Če pri analizi njihovega vpliva na odvisno spremenljivko uporabimo<br />
multiplo regre<strong>si</strong>jsko analizo, izgubimo precejšen del informacij, vsebovanih v neznačilnih<br />
regresorjih, ki jih v nadaljnji analizi ne upoštevamo. Zato v takih primerih uporabimo<br />
faktorsko analizo, ki nam z uvedbo <strong>si</strong>ntetičnih spremenljivk (faktorjev) zmanjša število<br />
spremenljivk. Pri klastrski analizi združujemo v skupine enote, pri faktorski analizi pa<br />
spremenljivke.<br />
Tako je na primer število dejavnikov, ki vplivajo na uspeh novega izdelka, zelo veliko. Iz<br />
velikega števila dejavnikov želimo s faktorsko analizo opredeliti nekaj faktorjev, ki pojasnijo<br />
čim večji delež celotne variance. Namesto velikega števila spremenljivk vključimo v<br />
nadaljnje analize samo manjše število faktorjev.<br />
Prvi faktor je zato določen tako, da pojasni čim večji delež celotne variance. Drugi je izbran<br />
tako, da je neodvisen od prvega in pojasni čim večji delež še nepojasnjene variance. Na<br />
podoben način so določeni še preostali faktorji.<br />
Potek faktorske analize je možno opisati z naslednjimi koraki:<br />
1. določitev spremenljivk in analiza odvisnosti med njimi<br />
2. odločitev o številu faktorjev<br />
3. vsebinska opredelitev faktorjev<br />
Prva faza se nanaša na izbor spremenljivk, ki jih bomo upoštevali v faktorski analizi. Te<br />
izberemo na osnovi predhodnih raziskav ali naše presoje. Število izbranih spremenljivk<br />
določa velikost vzorca. Izkustveno pravilo kaže, da naj je v vzorcu vsaj 4 k enot, kjer je k<br />
število spremenljivk. Odvisnost med spremenljivkami proučujemo s korelacijsko matriko.<br />
Faktorska analiza namreč ni smiselna, če obstaja šibka povezanost med spremenljivkami.<br />
Smiselnost uporabe faktorske analize preizkušamo z Bartlettovim testom sferičnosti. Z njim<br />
preizkušamo ničelno domnevo, da je osnovna korelacijska matrika enaka matriki enote, kar<br />
pomeni, da ne obstaja odvisnost med opazovanimi spremenljivkami. Velika vrednost te<br />
statistike govori v prid uporabe faktorske analize. Poleg Bartlettovega testa sferičnosti se<br />
uporablja še Keiser-Meyer-Olkinova statistika (KMO), ki temelji na primerjavi velikosti<br />
korelacijskih in parcialnih korelacijskih koeficientov. Uporaba faktorske analize je smiselna<br />
pri veliki vrednosti te statistike, to je pri vrednosti, ki je večja od 0,5.<br />
V naslednjem koraku določimo nove, to je <strong>si</strong>ntetične spremenljivke, ki jih bomo imenovali<br />
faktorje. Za to je možno uporabiti dve metodi. Pri metodi glavnih komponent so faktorji<br />
določeni kot linearna kombinacija prvotnih spremenljivk. Pri kla<strong>si</strong>čni faktorski analizi pa pri<br />
44
določanju faktorjev upoštevamo predpostavke o strukturi spremenljivk in njihovih virih<br />
variacije.<br />
Model glavnih komponent je določen z:<br />
z1 = a11F1 + a12F2 + … + a1kFk<br />
z2 = a21F1 + a22F2 + … + a2kFk<br />
M<br />
zk = ak1F1 + ak2F2 + … + akkFk<br />
kjer pomeni:<br />
zi – standardizirana vrednost i-te opazovane spremenljivke, i = 1, …, k<br />
Fj - j-ta glavna komponenta oziroma faktor, j = 1, …, k<br />
aij - faktorska utež pri i-ti spremenljivki in j-tem faktorju.<br />
Vsako opazovano spremenljivko smo izrazili s k glavnimi komponentami. Komponente<br />
določamo zaporedoma, tako da linearna kombinacija spremenljivk, ki določa prvo<br />
komponento, pojasni največji del celotne variance. Druga komponenta je določena kot druga<br />
najboljša linearna kombinacija, ki pojasni največji del s prvo komponento še nepojasnjene<br />
variance.<br />
V drugi fazi izvajanja faktorske analize želimo določiti faktorje, ki pojasnijo čim večji delež<br />
celotne variance. Pri tem <strong>si</strong> pomagamo s komunalitetami in lastnimi vrednostmi. Vsoto<br />
kvadratov faktorskih uteži za m faktorjev imenujemo komunaliteto in jo za spremenljivko zi<br />
označimo s h 2<br />
i , pri čemer je m < k. Ta je torej enaka:<br />
h = a + a + ... + a<br />
2<br />
i<br />
2<br />
i1<br />
2<br />
i 2<br />
2<br />
im<br />
in izraža prispevek m faktorjev k pojasnitvi variance za spremenljivko zi. Delež nepojasnjene<br />
variance, če upoštevamo le m faktorjev, je 1 - 2<br />
h i . Ena pomembnih nalog pri uporabi<br />
faktorske analize je določiti primerno vrednost za m.<br />
Vsoto kvadratov faktorskih uteži za j-ti faktor imenujemo lastna vrednost λi. Izraža tisti del<br />
celotne variance, ki je pojasnjena z j-tim faktorjem. Njena vrednost je določena z:<br />
a 2<br />
j<br />
1 + a 2<br />
2 j + … + a 2<br />
kj = λj<br />
Pri metodi glavnih komponent so faktorji določeni tako, da prvi pojasni največji del celotne<br />
variance, drugi faktor največji del s prvim faktorjem še nepojasnjene variance itd., zato velja:<br />
λ1 > λ2 > … > λk<br />
Ker je celotna varianca enaka<br />
k<br />
k<br />
2<br />
∑∑a = ∑ 1 = k<br />
ij<br />
i=<br />
1 j=<br />
1 i=<br />
1<br />
k<br />
45
je odstotek celotne variance, ki je pojasnjen z j-tim faktorjem določen z:<br />
λ<br />
100<br />
j<br />
k<br />
Za nadaljnjo analizo izrazimo faktorje še kot funkcije spremenljivk zj j=1, 2, …, r. Tako<br />
izrazimo j-ti faktor z:<br />
Fj = c1jz1 + c2jz2 + … + ckj zk<br />
Druga faza faktorske analize se zaključi z določitvijo števila faktorjev (glavnih komponent),<br />
ki jih bomo upoštevali v nadaljnjih analizah. Pri tem je možno uporabiti različna pravila. Ta<br />
temeljijo na:<br />
a) izkušnjah, ki pomagajo raziskovalcu pri vnaprejšnji oceni števila faktorjev, ki bodo<br />
pojasnili čim večji delež variance;<br />
b) lastni vrednosti λj , j = 1, 2, … , k. Pri tem pristopu se vključijo v nadaljnjo analizo le tisti<br />
faktorji, ki jim pripada lastna vrednost, ki je večja od ena.<br />
c) diagramu lastnih vrednosti, ki ga dobimo, če na absciso nanašamo rang faktorjev, na<br />
ordinato pa njihove lastne vrednosti. Oblika tako dobljenega linijskega grafikona nam<br />
omogoča določiti ustrezno število faktorjev. V nadaljnji analizi upoštevamo le faktorje z<br />
lastno vrednostjo, ki je večja od tiste, ki je na prelomu linije. Običajno je število faktorjev,<br />
določeno s tem pristopom, večje od števila, ki ga dobimo z uporabo v točki b opisanega<br />
pristopa;<br />
d) odstotku pojasnjene celotne variance; število faktorjev je odvisno od vnaprej predpisanega<br />
odstotka celotne variance, ki naj bo pojasnjen z izbranim številom faktorjev. Od vsebine<br />
problema je odvisen predpisan odstotek celotne variance, vendar strokovnjaki priporočajo<br />
naj bo le-ta vsaj 60 %;<br />
e) statističnem testu značilnosti faktorjev, ki temelji na ugotavljanju statistične značilnosti<br />
lastnih vrednosti. V nadaljnji analizi obdržimo faktorje, ki jim pripadajo statistično<br />
značilne lastne vrednosti. Ta pristop da slabo izbiro pri velikih vzorcih (n > 200), saj so<br />
pri le-teh statistično značilne tudi lastne vrednosti manjše od ena.<br />
V tretji fazi opredelimo vsebinski pomen izbranih faktorjev. Pri tem <strong>si</strong> pomagamo s<br />
faktorskimi utežmi aij. Te izražajo moč zveze med i-to spremenljivko in j-tim faktorjem.<br />
Vsebinski pomen j-tega faktorja zato določa spremenljivka oziroma spremenljivke z visoko<br />
vrednostjo faktorske uteži. Vsebinsko pojasnjevanje j-tega faktorja pa je oteženo, če je ta<br />
močno koreliran z vsemi ali večino spremenljivk, ki imajo visoke faktorske uteži tudi pri<br />
drugih faktorjih. Zato je v večini primerov potrebna še rotacija faktorjev, ki da enostavnejšo<br />
faktorsko strukturo. Za njo je značilno, da vsakemu faktorju pripada ena ali manjše število<br />
uteži z veliko vrednostjo, vrednosti drugih faktorskih uteži pri tem faktorju pa so zelo majhne.<br />
Nadaljnja pomembna lastnost te strukture je, da ima vsaka spremenljivka le eno faktorsko<br />
utež z visoko vrednostjo. Z rotacijo faktorjev se ne spremenijo vrednosti komunalitet in<br />
odstotek pojasnjene celotne variance z izbranim številom faktorjev, spremenijo pa se lastne<br />
vrednosti izbranih faktorjev in s tem tudi odstotek s posameznim faktorjem pojasnjene<br />
variance.<br />
Najbolj pogosto uporabljena analitična metoda, ki da enostavnejšo faktorsko strukturo, je<br />
varimax metoda. Je ortogonalna metoda, ki zagotavlja medsebojno neodvisnost rotiranih<br />
faktorjev. Če iz teorije izhaja, da faktorji utegnejo biti med seboj odvisni, uporabimo eno od<br />
oblique rotacij.<br />
46
Primer 6.2<br />
Pri proučevanju odvisnosti med načinom preživljanja prostega časa in nakupnim obnašanjem<br />
želimo upoštevati tudi mnenje potencialnih potrošnikov o naslednjih trditvah:<br />
V1: Raje bi preživel-a miren večer doma, kot odšel(a) na zabavo.<br />
V2: Vedno preverim ceno izdelka, tudi za izdelke z nizko ceno.<br />
V3: Branje revij je zanimivejše od gledanja televizije.<br />
V4: Odločitve o nakupu izdelka ne sprejemam pod vplivom oglaševanja.<br />
V5: Najraje sem doma.<br />
V6: Hranim in unovčim kupone za popust pri ceni.<br />
V7: Podjetja potrošijo preveč denarja za oglaševanje.<br />
Zastavljene trditve smo testirali na vzorcu 25 anketirancev. Njihovo mnenje o vsaki trditvi<br />
smo merili na intervalni skali od 1 do 7 (1 pomeni popolno nestrinjanje, 7 pa popolno<br />
strinjanje s trditvijo). S programom SPSS smo izvedli faktorsko analizo in dobili naslednje<br />
rezultate.<br />
V razpredelnici 6.2 je podana korelacijska matrika, ki omogoča analizo odvisnosti med<br />
spremenljivkami. Iz velikosti korelacijskih koeficientov ugotovimo, da obstaja srednje močna<br />
odvisnost med spremenljivkami V1, V3 in V5, med spremenljivkama V2 in V6, med<br />
spremenljivkama V3 in V7 ter spremenljivkama V4 in V7.<br />
Razpredelnica 6.2. Korelacijska matrika<br />
Correlation<br />
V1<br />
V2<br />
V3<br />
V4<br />
V5<br />
V6<br />
V7<br />
Correlation Matrix<br />
V1 V2 V3 V4 V5 V6 V7<br />
1.000 -.004 .628 .082 .675 -.100 -.338<br />
-.004 1.000 .151 -.248 .048 .582 -.251<br />
.628 .151 1.000 -.182 .480 .090 -.588<br />
.082 -.248 -.182 1.000 .272 .017 .469<br />
.675 .048 .480 .272 1.000 -.110 -.082<br />
-.100 .582 .090 .017 -.110 1.000 .014<br />
-.338 -.251 -.588 .469 -.082 .014 1.000<br />
Analiza odvisnosti med spremenljivkami kaže na smiselnost uporabe faktorske analize, kar<br />
potrjujeta še Bartlettov test sferičnosti in Kaiser-Meyer-Olkinov kazalec (KMO). Izidi teh<br />
dveh testov so podani v razpredelnici 6.3. Vrednost kazalca KMO je večja od 0,5 in s<br />
tveganjem manjšim od 0,05 smemo zavrniti ničelno domnevo, da je korelacijska matrika<br />
enaka matriki enote (Bartlettov test sferičnosti).<br />
Razpredelnica 6.3. KMO in Bartlettov test<br />
KMO and Bartlett's Test<br />
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.<br />
Bartlett's Test of Sphericity<br />
47<br />
Approx. Chi-Square<br />
df<br />
Sig.<br />
.550<br />
57.994<br />
21<br />
.000
V drugem stolpcu razpredelnice 6.4 so podane lastne vrednosti za posamezne faktorje. Prvi<br />
trije faktorji imajo lastno vrednost večjo od ena. Največja lastna vrednost pripada prvemu<br />
faktorju in je enaka 2,485. Z njim je pojasnjene 35,505 % celotne variance, z drugim<br />
faktorjem 26,013 % in 19,131 % s tretjim. Odstotek celotne variance, pojasnjen s prvim<br />
faktorjem je enak:<br />
2,<br />
485<br />
100 = 35,<br />
5%<br />
7<br />
Celotna varianca enaka številu spremenljivk, to je 7 v našem primeru. S prvimi tremi faktorji<br />
je pojasnjeno 80,649 % celotne variance.<br />
Razpredelnica 6.4. Lastne vrednosti in pojasnjena varianca<br />
Initial Eigenvalues Extraction Sums of Squared Loadings<br />
Component<br />
Total<br />
% of<br />
Variance<br />
Cumulative<br />
%<br />
Total % of<br />
Variance<br />
Cumulative<br />
%<br />
1 2.485 35.505 35.505 2.485 35.505 35.505<br />
2 1.821 26.013 61.518 1.821 26.013 61.518<br />
3 1.339 19.131 80.649 1.339 19.131 80.649<br />
4 .508 7.258 87.907<br />
5 .376 5.373 93.280<br />
6 .279 3.990 97.270<br />
7 .191 2.730 100.000<br />
S faktorsko analizo želimo določiti manjše število faktorjev kot je število spremenljivk. Zato<br />
je pri izvajanju faktorske analize pomembna odločitev o številu faktorjev, ki jih bomo<br />
upoštevali v nadaljnjih analizah.<br />
Če pri tej odločitvi uporabimo pravilo lastne vrednosti, bi se v obravnavanem primeru odločili<br />
za prve tri faktorje, ki imajo lastno vrednost večjo od 1. Ti bi bili izbrani tudi po pravilu<br />
celotne pojasnjene variance, saj je z njimi pojasnjene 80,649 % celotne variance, kar je več od<br />
predpisanega minimalnega odstotka (več kot 60 %). Na tri faktorje kaže tudi diagram lastnih<br />
vrednosti, prikazan na sliki 6.3, saj je prelom linije pri k = 4. Po tem pravilu namreč zadržimo<br />
tiste faktorje, ki imajo večjo lastno vrednost kot faktor, ki leži na prelomu.<br />
Slika 6.2. Diagram lastnih vrednosti<br />
Eigenvalue<br />
3.0<br />
2.5<br />
2.0<br />
1.5<br />
1.0<br />
.5<br />
0.0<br />
1<br />
Scree Plot<br />
2<br />
Component Number<br />
3<br />
4<br />
5<br />
6<br />
7<br />
48
V razpredelnici 6.5 so za prve tri faktorje podane faktorske uteži. Kažejo moč odvisnosti med<br />
2<br />
i-to spremenljivko in j-tim faktorjem. Kvadrat faktorske uteži a ij pa kaže del celotne variance<br />
i-te spremenljivke, ki je pojasnjena z j-tim faktorjem.<br />
Razpredelnica 6.5. Faktorske uteži<br />
V1<br />
V2<br />
V3<br />
V4<br />
V5<br />
V6<br />
V7<br />
Component Matrix a<br />
1<br />
Component<br />
2 3<br />
.817 .378 8.69E-02<br />
.279 -.714 .457<br />
.887 -2.7E-02 -4.3E-02<br />
-.204 .634 .597<br />
.664 .505 .329<br />
5.01E-02 -.604 .689<br />
-.684 .383 .426<br />
Extraction Method: Principal Component Analy<strong>si</strong>s.<br />
a. 3 components extracted.<br />
Komunalitete so podane v stolpcu »Extraction« razpredelnice 6.6. Njihove vrednosti povedo<br />
odstotek variance spremenljivke, ki je pojasnjena s prvimi tremi faktorji.<br />
Razpredelnica 6.6. Komunalitete<br />
V1<br />
V2<br />
V3<br />
V4<br />
V5<br />
V6<br />
V7<br />
Communalities<br />
Initial Extraction<br />
1.000 .818<br />
1.000 .796<br />
1.000 .790<br />
1.000 .800<br />
1.000 .805<br />
1.000 .841<br />
1.000 .796<br />
Extraction Method: Principal Component Analy<strong>si</strong>s.<br />
S faktorskimi utežmi, podanimi v razpredelnici 6.5, ni podana enostavna faktorska struktura,<br />
ki bi olajšala vsebinsko pojasnitev posameznih faktorjev. Zato z rotacijo faktorjev poiščemo<br />
enostavnejšo strukturo. To storimo z varimax metodo. Zaradi rotacije faktorjev se spremenijo<br />
njihove lastne vrednosti in delež s posameznim faktorjem pojasnjene celotne variance, ne<br />
spremeni pa se delež pojasnjene celotne variance z obdržanimi faktorji. Spremenjene lastne<br />
vrednosti in pripadajoči deleži pojasnjene celotne variance so podani v razpredelnici 6.7.<br />
Razpredelnica 6.7. Lastne vrednosti in pojasnjene variance po rotaciji<br />
Component<br />
Rotation Sums of Squared Loadings<br />
Total % of Variance Cumulative %<br />
1 2.315 33.076 33.076<br />
2 1.731 24.729 57.805<br />
3 1.599 22.844 80.649<br />
49
S primerjavo lastnih vrednosti, podanih v razpredelnici 6.7 in 6.4, ugotovimo zmanjšanje<br />
lastne vrednosti pri prvem in drugem faktorju ter povečanje pri tretjem. Tudi po rotaciji je s<br />
prvimi tremi faktorji pojasnjene 80,649 % celotne variance. Faktorske uteži, dobljene z<br />
metodo varimax, so podane v razpredelnici 6.8. Čim višja je vrednost faktorske uteži, tem več<br />
pripadajoča spremenljivka prispeva k pojasnitvi celotne variance. V obravnavanem primeru<br />
imajo spremenljivke V1, V3 in V5 visoke faktorske uteži pri prvem faktorju. Te spremenljivke<br />
torej pojasnjujejo vsebino prvega faktorja, ki po rotaciji pojasnjuje 33,076 % celotne variance.<br />
Upoštevajoč vsebino teh spremenljivk, bi prvi faktor lahko poimenovali »način preživljanja<br />
prostega časa«. Spremenljivke V4 in V7 imajo visoke faktorske uteži pri drugem faktorju, zato<br />
bi ga lahko poimenovali z »oglaševanje«. Ta faktor pojasni 24,729 % celotne variance. Tretji<br />
faktor, ki pojasni 22,844 % celotne variance, ima visoke faktorske uteži pri spremenljivkah V2<br />
in V6. Poimenovali bi ga lahko s »cena in popusti«.<br />
Razpredelnica 6.8. Faktorske uteži dobljene z varimax metodo<br />
V1<br />
V2<br />
V3<br />
V4<br />
V5<br />
V6<br />
V7<br />
Rotated Component Matrix a<br />
1<br />
Component<br />
2 3<br />
.897 -8.2E-02 -7.6E-02<br />
4.86E-02 -.232 .860<br />
.762 -.440 .125<br />
.214 .867 -5.2E-02<br />
.868 .224 -1.7E-02<br />
-5.7E-02 9.06E-02 .911<br />
-.351 .817 -7.3E-02<br />
Extraction Method: Principal Component Analy<strong>si</strong>s.<br />
Rotation Method: Varimax with Kaiser Normalization.<br />
a.<br />
Rotation converged in 4 iterations.<br />
50
Kazalo slik<br />
Slika 2.1. Normalna porazdelitev............................................................................................... 8<br />
Slika 2.2. Histogram in krivulja normalne porazdelitve za spremenljivko K4 ........................ 10<br />
Slika 3.1. Kla<strong>si</strong>fikacija univariatnih statističnih metod............................................................ 12<br />
Slika 3.2. Kla<strong>si</strong>fikacija multivariatnih statističnih metod ........................................................ 13<br />
Slika 6.2. Razsevni grafikon .................................................................................................... 37<br />
Slika 6.1. Dendrogram ............................................................................................................. 43<br />
Slika 6.3. Diagram lastnih vrednosti ........................................................................................ 48<br />
Kazalo razpredelnic<br />
Razpredelnica 2.1. Statistike za spremenljivko K4.................................................................... 9<br />
Razpredelnica 2.2. Frekvenčna in kumulativna porazdelitev za spremenljivko K4 ............... 10<br />
Razpredelnica 2.3. Standardizirane vrednosti spremenljivke ocena učbenika......................... 11<br />
Razpredelnica 3.1. <strong>Metode</strong> za proučevanje odvisnosti med spremenljivkami ........................ 13<br />
Razpredelnica 4.1. Ničelna domneva ter raziskovalne domneve............................................. 14<br />
Razpredelnica 4.2. Ničelna domneva in zaključki ................................................................... 15<br />
Razpredelnica 4.3. Vzorčni podatki o porabi pijače na dan (v k.e.) ......................................... 17<br />
Razpredelnica 4.4. Podatki o številu opravljenih nalog........................................................... 18<br />
Razpredelnica 4.5. Prodaja po izvedbi oglaševalskih akcij ..................................................... 19<br />
Razpredelnica 4.6. Rezultati Kolmogorov-Smirnovega in Shapiro-Wilkovega testa.............. 21<br />
Razpredelnica 4.7. Podatki in rangi ......................................................................................... 23<br />
Razpredelnica 4.8. Rangi in testne statistike............................................................................ 23<br />
Razpredelnica 4.9. Testne statistike ......................................................................................... 24<br />
Razpredelnice 4.10. Rezultati Wilcoxon <strong>si</strong>gned-rank test za drugo skupino podjetij.............. 25<br />
Razpredelnice 4.11. Rezultati Wilcoxon <strong>si</strong>gned-rank test za prvo skupino podjetij................ 26<br />
Razpredelnica 6.1. Članstvo v skupinah .................................................................................. 43<br />
Razpredelnica 6.2. Korelacijska matrika.................................................................................. 47<br />
Razpredelnica 6.3. KMO in Bartlettov test.............................................................................. 47<br />
Razpredelnica 6.4. Lastne vrednosti in pojasnjena varianca.................................................... 48<br />
Razpredelnica 6.5. Faktorske uteži .......................................................................................... 49<br />
Razpredelnica 6.6. Komunalitete ............................................................................................. 49<br />
Razpredelnica 6.7. Lastne vrednosti in pojasnjene variance po rotaciji .................................. 49<br />
Razpredelnica 6.8. Faktorske uteži dobljene z varimax metodo.............................................. 50<br />
51