14.06.2013 Views

Analiza de cluster

Analiza de cluster

Analiza de cluster

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Analiza</strong> <strong>de</strong> <strong>cluster</strong><br />

M. Popa


1. Introducere<br />

2. Pregătirea și organizarea datelor<br />

3. Alegerea meto<strong>de</strong>i <strong>de</strong> calcul a similarității<br />

4. Alegerea meto<strong>de</strong>i <strong>de</strong> grupare<br />

5. Validarea structurii <strong>de</strong> <strong>cluster</strong><br />

6. Exemple <strong>de</strong> analiză <strong>de</strong> <strong>cluster</strong> cu SPSS<br />

7. Concluzii


Clusterizarea procedurilor statistice din programa cursului:<br />

Asociere<br />

variabile<br />

Regresie<br />

liniară<br />

Regresie<br />

logistică<br />

Corelație<br />

parțială<br />

Mediere<br />

Mo<strong>de</strong>rare<br />

Comparație<br />

grupuri<br />

ANOVA<br />

factorială<br />

ANCOVA<br />

MANOVA<br />

MANCOVA<br />

Grupare date<br />

<strong>Analiza</strong> factorială<br />

exploratorie<br />

<strong>Analiza</strong> <strong>de</strong> <strong>cluster</strong>


1. Introducere<br />

• <strong>de</strong>zvoltată în anii `30 în psihologie <strong>de</strong> către Zubin și<br />

Tryon<br />

• Colecție <strong>de</strong> tehnici <strong>de</strong> clasificare a cazurilor incluse<br />

într-o bază <strong>de</strong> date<br />

– cât mai omogene intern<br />

– Cât mai eterogene extern<br />

Punctele reprezintă cazuri


<strong>Analiza</strong> <strong>de</strong> <strong>cluster</strong>…<br />

• Nu conduce la o soluție unică<br />

– Cercetătorul alege metoda <strong>de</strong> analiză și soluția <strong>de</strong> grupare<br />

pe care o consi<strong>de</strong>ră potrivită<br />

– Soluția <strong>de</strong> grupare <strong>de</strong>pin<strong>de</strong> <strong>de</strong> o serie <strong>de</strong> <strong>de</strong>cizii subiective<br />

• abordarea ei presupune însușirea unei colecții <strong>de</strong><br />

concepte și principii cu privire la problematica<br />

clasificării<br />

• SUA<br />

– The Classification Society of North America, cu o vechime<br />

<strong>de</strong> peste 30 <strong>de</strong> ani<br />

– Mii <strong>de</strong> articole privind tehnicile <strong>de</strong> grupare


• Studii exploratorii<br />

Utilitatea analizei <strong>de</strong> <strong>cluster</strong>…<br />

– Căutarea structurii datelor (obiectiv prepon<strong>de</strong>rent)<br />

• Studii <strong>de</strong> confirmare<br />

• Confirmarea unei structuri existente (presupuse)<br />

• Obiectiv posibil, dar dificil <strong>de</strong> abordat<br />

– nu există o teorie unificatoare a meto<strong>de</strong>lor <strong>de</strong> grupare și nici tehnici<br />

sigure <strong>de</strong> validare<br />

– Nu există (încă) un test statistic pentru <strong>de</strong>cizia <strong>de</strong> confirmare<br />

• Elaborarea <strong>de</strong> tipologii <strong>de</strong> grupare<br />

– nu este singura tehnica <strong>de</strong> realizare a tipologiilor<br />

• Generarea <strong>de</strong> ipoteze


2. Pregătirea şi organizarea datelor<br />

• datele sunt organizate sub formă <strong>de</strong> matrice<br />

• cazuri<br />

• itemi<br />

• mo<strong>de</strong>le<br />

• indivizi<br />

• subiecți<br />

• obiecte,<br />

• unități<br />

operaționaltaxonomice,<br />

• profile<br />

Variabilă <strong>de</strong><br />

i<strong>de</strong>ntificare<br />

variabile, <strong>de</strong>scriptori, atribute, caractere, itemi, profile<br />

Nume Salariu Norma Poziția Articole Vechime<br />

Rosalyn<br />

1,00 5 21 32<br />

Lawrence<br />

123600,00<br />

96799,92 1,00 5 71 27<br />

Sunila 83358,00 1,00 5 19 24<br />

Randolph 83235,84 1,00 5 17 38<br />

Dea 6962,94 ,50 1 0 0<br />

Clau<strong>de</strong> 6812,82 ,50 1 0 0<br />

Amanda 5999,14 ,50 1 0 0<br />

Boris 4919,85 ,25 1 4 15<br />

Garrett 4738,86 ,25 1 0 0<br />

… … … … … …<br />

Orice<br />

scală<br />

<strong>de</strong><br />

măsurare


Selectarea cazurilor<br />

• eșantionarea aleatoare nu este o condiție necesară<br />

– eșantionul trebuie să reprezinte categoriile vizate<br />

– proporția cazurilor din cadrul eșantionului nu trebuie să respecte în mod<br />

necesar proporția <strong>de</strong> la nivelul populației<br />

– … <strong>de</strong>cât dacă se urmărește generalizarea rezultatelor<br />

• categorii mai puțin reprezentate la nivelul populației vor avea șanse<br />

mai reduse <strong>de</strong> a fi surprinse <strong>de</strong> analiza <strong>de</strong> <strong>cluster</strong><br />

– Soluție: supra-reprezentarea tipurilor minoritare<br />

• Separarea bazei <strong>de</strong> date în două, pentru validarea ulterioară a<br />

soluției <strong>de</strong> grupare<br />

• ”cazuri-tip i<strong>de</strong>ale”<br />

– Cazuri care <strong>de</strong>scriu categorii tipice, prognozate <strong>de</strong> cercetător<br />

• Regăsirea lor în anumite <strong>cluster</strong>e vor fi o dovadă a validității<br />

• Atenție la valorile extreme (outliers)<br />

– Duc la <strong>cluster</strong>e ”artificiale”<br />

• Valorile lipsă (missing) sunt eliminate <strong>de</strong> SPSS<br />

– reduc volumul util <strong>de</strong> date, prin eliminarea cazurilor <strong>de</strong> către SPSS<br />

• Codificarea concordantă a variabilelor<br />

– codificari discordante fac dificilă interpretarea


Selectarea variabilelor<br />

• nu se impune condiția distribuției normale a<br />

variabilelor<br />

– meto<strong>de</strong>le <strong>de</strong> grupare se bazează pe euristici care nu iau în<br />

consi<strong>de</strong>rare distribuția variabilelor<br />

• Probleme importante<br />

– Numărul variabilelor<br />

– Alegerea variabilelor<br />

– Variabilitatea<br />

– Asocierea variabilelor în dimensiuni<br />

– Corelația variabilelor


Numărul variabilelor<br />

• În exemplul dat există 5 variabile<br />

– Sunt multe? Puține? Câte ar trebui să fie?<br />

– Nu există criterii pentru un răspuns sigur…<br />

– Wuensch a păstrat doar o parte din variabilele disponibile<br />

• a eliminat genul și o variabilă în care numărul <strong>de</strong> articole nu era<br />

sigur


Variabilitatea<br />

• Operațiunea <strong>de</strong> grupare (<strong>cluster</strong>izare) este favorizată<br />

<strong>de</strong> utilizarea unor variabile cu o variație cât mai mare<br />

– produc o discriminare mai bună între cazuri<br />

• se va evita utilizarea unor variabile a căror valori sunt<br />

<strong>de</strong> ordine <strong>de</strong> mărime foarte diferite<br />

– dacă una din variabile este <strong>de</strong> ordinul zecilor <strong>de</strong> mii<br />

(salariul), iar altă variabilă este <strong>de</strong> ordinul zecilor<br />

(vechimea în ani), atunci prima va avea pon<strong>de</strong>re mai mare<br />

în operațiunea <strong>de</strong> grupare<br />

• Soluție: transformare a variabilelor în scoruri<br />

standard<br />

– <strong>de</strong> regulă în scoruri z, dar există și alte meto<strong>de</strong>, care nu se<br />

bazează pe ab. standard (medie)


Asocierea variabilelor în dimensiuni<br />

• asocierea lor în anumite dimensiuni trebuie luată în<br />

consi<strong>de</strong>rare<br />

• Ex.: pentru clasificarea cadrelor didactice pot fi luate<br />

în consi<strong>de</strong>rare diverse variabile care <strong>de</strong>scriu<br />

”aprecierea” și ”performanța aca<strong>de</strong>mică”<br />

– dacă ”performanța aca<strong>de</strong>mică” ar fi reprezentată prin mai<br />

multe variabile <strong>de</strong>cât ”aprecierea”, atunci acest aspect ar<br />

avea o pon<strong>de</strong>re mai mare în alcătuirea <strong>cluster</strong>elor<br />

– acest lucru nu este negativ în sine, cercetătorul are drept<br />

<strong>de</strong> opțiune


Corelația variabilelor<br />

• există autori care recomandă eliminarea variabilelor care<br />

corelează între ele<br />

• Millgram și Hirtle (op. cit.) consi<strong>de</strong>ră că existența unor<br />

corelații nu este un aspect negativ pentru analiza <strong>de</strong><br />

<strong>cluster</strong><br />

– ar putea fi tocmai rezultatul unei grupări naturale a acelor<br />

variabile, iar eliminarea corelației nu ar face <strong>de</strong>cât să<br />

distorsioneze gruparea datelor<br />

– analiza <strong>de</strong> <strong>cluster</strong> poate fi precedată <strong>de</strong> analize factoriale, care<br />

urmăresc gruparea variabilelor<br />

• acest lucru este justificat numai dacă se presupune că gruparea în<br />

<strong>cluster</strong>i are loc în spațiul factorilor și nu al variabilelor individuale<br />

• Prin ”comprimare a variabilelor” se ajunge la soluții <strong>de</strong> grupare în<br />

<strong>cluster</strong>i care pot diferi substanțial <strong>de</strong> gruparea pe baza variabilelor<br />

individuale


Alegerea variabilelor<br />

• În nici un caz nu vor fi puse ”cu furca”, la grămadă!<br />

• Omiterea unor variabile importante, dar și punerea unor<br />

variabile irelevante afectează soluția <strong>de</strong> grupare<br />

– Ex.: stabilirea unei tipologii a organizaţiilor utilizându-se<br />

variabile ca cifra <strong>de</strong> afaceri, profitul realizat, nivelul <strong>de</strong> calificare<br />

a angajaţilor, dar fără a se inclu<strong>de</strong> o variabilă cu numărul <strong>de</strong><br />

angajaţi…<br />

• Consecința: mărimea organizaţiei nu va fi luată în consi<strong>de</strong>rare la<br />

stabilirea <strong>cluster</strong>elor<br />

– Ex.: dacă se vor inclu<strong>de</strong> variabile nerelevante, cum ar fi<br />

cheltuielile cu sponsorizarea activităţilor sportive, care se<br />

regăsesc doar la unele dintre organizaţiile analizate<br />

• Consecința: gruparea în <strong>cluster</strong>e va fi <strong>de</strong>formată <strong>de</strong> această variabilă<br />

• Chiar și una sau două variabile irelevante pot afecta în<br />

mod important soluția <strong>de</strong> grupare


Alegerea variabilelor - Concluzii<br />

• rezultatele analizei <strong>de</strong> <strong>cluster</strong> <strong>de</strong>pind <strong>de</strong>cisiv <strong>de</strong><br />

modul <strong>de</strong> alegere a variabilelor<br />

• Programul oferă soluții <strong>de</strong> grupare indiferent <strong>de</strong><br />

oportunitatea variabilelor<br />

– Nu semnalează prin nimic caracterul nepotrivit al<br />

variabilelor


3. Alegerea meto<strong>de</strong>i <strong>de</strong> calcul a similarității<br />

• <strong>Analiza</strong> <strong>de</strong> <strong>cluster</strong> grupează cazurile similare în<br />

categorii cât mai omogene intern și cât mai<br />

neomogene extern (între categorii)<br />

• Gruparea se bazează pe evaluarea<br />

similarității/disimilarității dintre cazuri


Meto<strong>de</strong> <strong>de</strong> calcul a similarității<br />

• Corelația<br />

– Corelație Pearson între variabilele cazurilor<br />

– Valori între +1 (similaritate maximă) și -1 (disimilaritate maximă)<br />

– Este discutabilă pentru variabile exprimate pe scale diferite (medie lipsită <strong>de</strong> sens)<br />

• Distanța<br />

– Distanța euclidiană, cea mai utilizată în practică (suma diferențelor, ridicate la pătrat)<br />

– Distanța euclidiană pătratică, se obține prin ridicarea la pătrat a distanței euclidiene;<br />

– Distanța Manhattan (sau city-block), este suma diferențelor absolute dintre valorile<br />

itemilor;<br />

– Distanța Cebîșev, este diferența maximă absolută dintre valorile itemilor;<br />

– Distanța Minkovski este rădăcina <strong>de</strong> ordin r din suma puterilor <strong>de</strong> ordin r ale diferențelor<br />

dintre valorile cazurilor.<br />

– Distanța Mahalanobis ține cont <strong>de</strong> standardizarea variabilelor și ajustează intercorelațiile<br />

dintre acestea<br />

• Utilă în cazul variabilelor măsurate pe scale diferite sau atunci când există un set <strong>de</strong> variabile corelate<br />

între ele, care pot avea o pon<strong>de</strong>re excesivă în procesul <strong>de</strong> grupare<br />

• Asocierea (pentru variabile categoriale)<br />

– Coeficientul <strong>de</strong> asociere simplă<br />

– Coeficientul lui Jaccard<br />

– Coeficientul lui Gower


4. Meto<strong>de</strong> <strong>de</strong> grupare<br />

• există mai multe modalități <strong>de</strong> realizare a grupării<br />

• fiecare metodă <strong>de</strong> grupare va produce o configurație<br />

diferită a <strong>cluster</strong>elor<br />

• Meto<strong>de</strong>le cele mai uzuale<br />

– A. tehnici <strong>de</strong> grupare ierarhică aglomerativă<br />

– B. tehnici <strong>de</strong> partiționare iterativă


A. Gruparea ierarhică aglomerativă<br />

• fiecare caz individual este consi<strong>de</strong>rat drept un ”obiect”<br />

• La primul pas…<br />

– se asociază obiectele care au cel mai mare grad <strong>de</strong> similaritate (sunt<br />

mai apropiate sub aspectul valorilor care îi <strong>de</strong>scriu)<br />

• La următorul pas…<br />

– avem, pe <strong>de</strong> o parte, cazuri individuale și, pe <strong>de</strong> altă parte, obiecte<br />

rezultate prin gruparea unor cazuri individuale la pasul anterior<br />

– algoritmul calculează distanța dintre aceste obiecte și le grupează pe<br />

baza aceluiași criteriu <strong>de</strong> distanță<br />

• în continuare, prin pași succesivi, obiectele sunt grupate<br />

progresiv până când, la penultimul pas, toate cazurile inițiale<br />

sunt grupate în doi <strong>cluster</strong>i<br />

• la ultimul pas toate cazurile se vor regăsi grupate într-un<br />

singur <strong>cluster</strong>.


c4<br />

c2<br />

c1<br />

c2<br />

c3<br />

c4<br />

c3<br />

c1<br />

c1 c2 c3 c4<br />

c1 c2 c3 c4


Tehnici aglomerative<br />

• complete linkage (legătură completă)<br />

• average linkage between groups (legătura medie<br />

între grupuri)<br />

• … ș.a.


Tehnici <strong>de</strong> grupare iterativă (k-means <strong>cluster</strong>ing)<br />

• meto<strong>de</strong>le aglomerative constituie progresiv grupuri din ce în<br />

ce mai largi, până epuizează toate cazurile<br />

• abordarea iterativă pornește <strong>de</strong> la un număr fix <strong>de</strong> <strong>cluster</strong>i<br />

<strong>de</strong>clarat <strong>de</strong> cercetător<br />

• Construcția <strong>cluster</strong>elor poate fi <strong>de</strong>clarată:<br />

– prin metoda actualizării iterative a centrilor <strong>cluster</strong>elor<br />

– … sau prin utilizarea unor centri <strong>de</strong> <strong>cluster</strong> <strong>de</strong>clarați, care sunt păstrați<br />

pe toată durata analizei<br />

• Procedura salvează<br />

– apartenența <strong>de</strong> <strong>cluster</strong> a fiecărui caz<br />

– distanța fiecărui caz față <strong>de</strong> centrul <strong>cluster</strong>ului din care face parte<br />

– centrul <strong>cluster</strong>elor în stadiul final<br />

• Tehnici potrivite pentru baze <strong>de</strong> date mari (sute <strong>de</strong> cazuri)


5. Numărul <strong>de</strong> <strong>cluster</strong>e<br />

• algoritmul <strong>de</strong> grupare oferă soluții progresive<br />

– <strong>de</strong> la un număr <strong>de</strong> <strong>cluster</strong>i egal cu numărul cazurilor până la soluția finală,<br />

în care toate cazurile sunt grupate într-un singur <strong>cluster</strong><br />

• soluția optimă se localizează între aceste două situații<br />

– cercetătorul trebuie să <strong>de</strong>cidă un<strong>de</strong><br />

• nu există în prezent o metodă <strong>de</strong> stabilire general acceptată<br />

– <strong>de</strong>pin<strong>de</strong> <strong>de</strong> obiectivele cercetătorului în legătură cu utilizarea acestora<br />

• Recomandabil<br />

– să fie analizate caracteristicile <strong>cluster</strong>ilor rezultaţi în etape succesive<br />

– să se <strong>de</strong>cidă când s-a ajuns la o soluţie interpretabilă, sau la o soluţie cu un<br />

număr rezonabil <strong>de</strong> <strong>cluster</strong>i, ori suficient <strong>de</strong> omogeni<br />

• atunci când distanța dintre <strong>cluster</strong>i învecinați crește brusc, putem<br />

presupune că la pasul respectiv sunt unite două grupuri sensibil<br />

diferite<br />

• este recomandabil să se producă mai multe soluții <strong>de</strong> grupare<br />

– acestea vor fi analizate comparativ pentru a se adopta soluția finală<br />

• reprezentări grafice specifice: <strong>de</strong>ndograma și graficul ”icicle”<br />

(țurțure)


6. Validarea structurii <strong>de</strong> <strong>cluster</strong><br />

• Interpretarea <strong>cluster</strong>elor<br />

– Statistici <strong>de</strong>scriptive<br />

• Reprezentările grafice<br />

– Scatter plot<br />

• Testarea ipotezelor<br />

– ANOVA, MANOVA, chi-pătrat<br />

– Atenție, variabilele criteriu <strong>de</strong> grupare dau, oricum, diferențe<br />

semnificative!<br />

• Studiile <strong>de</strong> replicare<br />

– Clusterizare dublă a altui set <strong>de</strong> date<br />

• Odată pe baza distanței față <strong>de</strong> centroizii primelor <strong>cluster</strong>e<br />

• A doua oară, prin analiza <strong>de</strong> <strong>cluster</strong> directă a setului <strong>de</strong> rezervă<br />

• Testarea semnificației concordanței dintre cele două soluții


Exemple <strong>de</strong> analiză <strong>de</strong> <strong>cluster</strong> cu SPSS<br />

• <strong>Analiza</strong> ierarhică aglomerativă (Hierachical Cluster Analysis)<br />

• <strong>Analiza</strong> <strong>de</strong> partiționare iterativă (K-Means Cluster)


Cluster 1 – ”Seniori”<br />

Cluster 2 – ”Restul”<br />

Cluster 3 – ”Adjuncți”


Concluzii<br />

• <strong>Analiza</strong> <strong>de</strong> <strong>cluster</strong> poate fi o soluție utilă pentru investigarea<br />

structurii cazurilor și obținerea <strong>de</strong> tipologii<br />

• Utilizarea ei va fi abordată cu pru<strong>de</strong>nță<br />

– Implică multe <strong>de</strong>cizii subiective<br />

– Necesită cunoștințe teoretice și experiență<br />

– necesită o permanentă consultare a literaturii <strong>de</strong> specialitate și o<br />

practică individuală bazată pe încercarea unor soluții variate și analiza<br />

efectelor acestora<br />

• structurarea tipologică a datelor, oricât <strong>de</strong> tentantă ar fi, nu<br />

reprezintă în mod necesar o soluție pentru orice problemă <strong>de</strong><br />

cercetare în psihologie<br />

• analiza <strong>de</strong> <strong>cluster</strong> nu este o procedura <strong>de</strong> testare a ipotezelor<br />

<strong>de</strong> cercetare<br />

– soluțiile sale sunt într-o măsură <strong>de</strong>stul <strong>de</strong> ridicată afectată <strong>de</strong> opțiunile<br />

subiective ale cercetătorului

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!