Analiza de cluster

Analiza de cluster 

M. Popa

1. Introducere 

2. Pregătirea și organizarea datelor 

3. Alegerea metodei de calcul a similarității 

4. Alegerea metodei de grupare 

5. Validarea structurii de cluster 

6. Exemple de analiză de cluster cu SPSS 

7. Concluzii

Clusterizarea procedurilor statistice din programa cursului: 

Asociere 

variabile 

Regresie 

liniară 

Regresie 

logistică 

Corelație 

parțială 

Mediere 

Moderare 

Comparație 

grupuri 

ANOVA 

factorială 

ANCOVA 

MANOVA 

MANCOVA 

Grupare date 

Analiza factorială 

exploratorie 

Analiza de cluster

1. Introducere 

• dezvoltată în anii `30 în psihologie de către Zubin și 

Tryon 

• Colecție de tehnici de clasificare a cazurilor incluse 

într-o bază de date 

– cât mai omogene intern 

– Cât mai eterogene extern 

Punctele reprezintă cazuri

Analiza de cluster… 

• Nu conduce la o soluție unică 

– Cercetătorul alege metoda de analiză și soluția de grupare 

pe care o consideră potrivită 

– Soluția de grupare depinde de o serie de decizii subiective 

• abordarea ei presupune însușirea unei colecții de 

concepte și principii cu privire la problematica 

clasificării 

• SUA 

– The Classification Society of North America, cu o vechime 

de peste 30 de ani 

– Mii de articole privind tehnicile de grupare

• Studii exploratorii 

Utilitatea analizei de cluster… 

– Căutarea structurii datelor (obiectiv preponderent) 

• Studii de confirmare 

• Confirmarea unei structuri existente (presupuse) 

• Obiectiv posibil, dar dificil de abordat 

– nu există o teorie unificatoare a metodelor de grupare și nici tehnici 

sigure de validare 

– Nu există (încă) un test statistic pentru decizia de confirmare 

• Elaborarea de tipologii de grupare 

– nu este singura tehnica de realizare a tipologiilor 

• Generarea de ipoteze

2. Pregătirea şi organizarea datelor 

• datele sunt organizate sub formă de matrice 

• cazuri 

• itemi 

• modele 

• indivizi 

• subiecți 

• obiecte, 

• unități 

operaționaltaxonomice, 

• profile 

Variabilă de 

identificare 

variabile, descriptori, atribute, caractere, itemi, profile 

Nume Salariu Norma Poziția Articole Vechime 

Rosalyn 

1,00 5 21 32 

Lawrence 

123600,00 

96799,92 1,00 5 71 27 

Sunila 83358,00 1,00 5 19 24 

Randolph 83235,84 1,00 5 17 38 

Dea 6962,94 ,50 1 0 0 

Claude 6812,82 ,50 1 0 0 

Amanda 5999,14 ,50 1 0 0 

Boris 4919,85 ,25 1 4 15 

Garrett 4738,86 ,25 1 0 0 

… … … … … … 

Orice 

scală 

de 

măsurare

Selectarea cazurilor 

• eșantionarea aleatoare nu este o condiție necesară 

– eșantionul trebuie să reprezinte categoriile vizate 

– proporția cazurilor din cadrul eșantionului nu trebuie să respecte în mod 

necesar proporția de la nivelul populației 

– … decât dacă se urmărește generalizarea rezultatelor 

• categorii mai puțin reprezentate la nivelul populației vor avea șanse 

mai reduse de a fi surprinse de analiza de cluster 

– Soluție: supra-reprezentarea tipurilor minoritare 

• Separarea bazei de date în două, pentru validarea ulterioară a 

soluției de grupare 

• ”cazuri-tip ideale” 

– Cazuri care descriu categorii tipice, prognozate de cercetător 

• Regăsirea lor în anumite clustere vor fi o dovadă a validității 

• Atenție la valorile extreme (outliers) 

– Duc la clustere ”artificiale” 

• Valorile lipsă (missing) sunt eliminate de SPSS 

– reduc volumul util de date, prin eliminarea cazurilor de către SPSS 

• Codificarea concordantă a variabilelor 

– codificari discordante fac dificilă interpretarea

Selectarea variabilelor 

• nu se impune condiția distribuției normale a 

variabilelor 

– metodele de grupare se bazează pe euristici care nu iau în 

considerare distribuția variabilelor 

• Probleme importante 

– Numărul variabilelor 

– Alegerea variabilelor 

– Variabilitatea 

– Asocierea variabilelor în dimensiuni 

– Corelația variabilelor

Numărul variabilelor 

• În exemplul dat există 5 variabile 

– Sunt multe? Puține? Câte ar trebui să fie? 

– Nu există criterii pentru un răspuns sigur… 

– Wuensch a păstrat doar o parte din variabilele disponibile 

• a eliminat genul și o variabilă în care numărul de articole nu era 

sigur

Variabilitatea 

• Operațiunea de grupare (clusterizare) este favorizată 

de utilizarea unor variabile cu o variație cât mai mare 

– produc o discriminare mai bună între cazuri 

• se va evita utilizarea unor variabile a căror valori sunt 

de ordine de mărime foarte diferite 

– dacă una din variabile este de ordinul zecilor de mii 

(salariul), iar altă variabilă este de ordinul zecilor 

(vechimea în ani), atunci prima va avea pondere mai mare 

în operațiunea de grupare 

• Soluție: transformare a variabilelor în scoruri 

standard 

– de regulă în scoruri z, dar există și alte metode, care nu se 

bazează pe ab. standard (medie)

Asocierea variabilelor în dimensiuni 

• asocierea lor în anumite dimensiuni trebuie luată în 

considerare 

• Ex.: pentru clasificarea cadrelor didactice pot fi luate 

în considerare diverse variabile care descriu 

”aprecierea” și ”performanța academică” 

– dacă ”performanța academică” ar fi reprezentată prin mai 

multe variabile decât ”aprecierea”, atunci acest aspect ar 

avea o pondere mai mare în alcătuirea clusterelor 

– acest lucru nu este negativ în sine, cercetătorul are drept 

de opțiune

Corelația variabilelor 

• există autori care recomandă eliminarea variabilelor care 

corelează între ele 

• Millgram și Hirtle (op. cit.) consideră că existența unor 

corelații nu este un aspect negativ pentru analiza de 

cluster 

– ar putea fi tocmai rezultatul unei grupări naturale a acelor 

variabile, iar eliminarea corelației nu ar face decât să 

distorsioneze gruparea datelor 

– analiza de cluster poate fi precedată de analize factoriale, care 

urmăresc gruparea variabilelor 

• acest lucru este justificat numai dacă se presupune că gruparea în 

clusteri are loc în spațiul factorilor și nu al variabilelor individuale 

• Prin ”comprimare a variabilelor” se ajunge la soluții de grupare în 

clusteri care pot diferi substanțial de gruparea pe baza variabilelor 

individuale

Alegerea variabilelor 

• În nici un caz nu vor fi puse ”cu furca”, la grămadă! 

• Omiterea unor variabile importante, dar și punerea unor 

variabile irelevante afectează soluția de grupare 

– Ex.: stabilirea unei tipologii a organizaţiilor utilizându-se 

variabile ca cifra de afaceri, profitul realizat, nivelul de calificare 

a angajaţilor, dar fără a se include o variabilă cu numărul de 

angajaţi… 

• Consecința: mărimea organizaţiei nu va fi luată în considerare la 

stabilirea clusterelor 

– Ex.: dacă se vor include variabile nerelevante, cum ar fi 

cheltuielile cu sponsorizarea activităţilor sportive, care se 

regăsesc doar la unele dintre organizaţiile analizate 

• Consecința: gruparea în clustere va fi deformată de această variabilă 

• Chiar și una sau două variabile irelevante pot afecta în 

mod important soluția de grupare

Alegerea variabilelor - Concluzii 

• rezultatele analizei de cluster depind decisiv de 

modul de alegere a variabilelor 

• Programul oferă soluții de grupare indiferent de 

oportunitatea variabilelor 

– Nu semnalează prin nimic caracterul nepotrivit al 

variabilelor

3. Alegerea metodei de calcul a similarității 

• Analiza de cluster grupează cazurile similare în 

categorii cât mai omogene intern și cât mai 

neomogene extern (între categorii) 

• Gruparea se bazează pe evaluarea 

similarității/disimilarității dintre cazuri

Metode de calcul a similarității 

• Corelația 

– Corelație Pearson între variabilele cazurilor 

– Valori între +1 (similaritate maximă) și -1 (disimilaritate maximă) 

– Este discutabilă pentru variabile exprimate pe scale diferite (medie lipsită de sens) 

• Distanța 

– Distanța euclidiană, cea mai utilizată în practică (suma diferențelor, ridicate la pătrat) 

– Distanța euclidiană pătratică, se obține prin ridicarea la pătrat a distanței euclidiene; 

– Distanța Manhattan (sau city-block), este suma diferențelor absolute dintre valorile 

itemilor; 

– Distanța Cebîșev, este diferența maximă absolută dintre valorile itemilor; 

– Distanța Minkovski este rădăcina de ordin r din suma puterilor de ordin r ale diferențelor 

dintre valorile cazurilor. 

– Distanța Mahalanobis ține cont de standardizarea variabilelor și ajustează intercorelațiile 

dintre acestea 

• Utilă în cazul variabilelor măsurate pe scale diferite sau atunci când există un set de variabile corelate 

între ele, care pot avea o pondere excesivă în procesul de grupare 

• Asocierea (pentru variabile categoriale) 

– Coeficientul de asociere simplă 

– Coeficientul lui Jaccard 

– Coeficientul lui Gower

4. Metode de grupare 

• există mai multe modalități de realizare a grupării 

• fiecare metodă de grupare va produce o configurație 

diferită a clusterelor 

• Metodele cele mai uzuale 

– A. tehnici de grupare ierarhică aglomerativă 

– B. tehnici de partiționare iterativă

A. Gruparea ierarhică aglomerativă 

• fiecare caz individual este considerat drept un ”obiect” 

• La primul pas… 

– se asociază obiectele care au cel mai mare grad de similaritate (sunt 

mai apropiate sub aspectul valorilor care îi descriu) 

• La următorul pas… 

– avem, pe de o parte, cazuri individuale și, pe de altă parte, obiecte 

rezultate prin gruparea unor cazuri individuale la pasul anterior 

– algoritmul calculează distanța dintre aceste obiecte și le grupează pe 

baza aceluiași criteriu de distanță 

• în continuare, prin pași succesivi, obiectele sunt grupate 

progresiv până când, la penultimul pas, toate cazurile inițiale 

sunt grupate în doi clusteri 

• la ultimul pas toate cazurile se vor regăsi grupate într-un 

singur cluster.

c4 

c2 

c1 

c2 

c3 

c4 

c3 

c1 

c1 c2 c3 c4 

c1 c2 c3 c4

Tehnici aglomerative 

• complete linkage (legătură completă) 

• average linkage between groups (legătura medie 

între grupuri) 

• … ș.a.

Tehnici de grupare iterativă (k-means clustering) 

• metodele aglomerative constituie progresiv grupuri din ce în 

ce mai largi, până epuizează toate cazurile 

• abordarea iterativă pornește de la un număr fix de clusteri 

declarat de cercetător 

• Construcția clusterelor poate fi declarată: 

– prin metoda actualizării iterative a centrilor clusterelor 

– … sau prin utilizarea unor centri de cluster declarați, care sunt păstrați 

pe toată durata analizei 

• Procedura salvează 

– apartenența de cluster a fiecărui caz 

– distanța fiecărui caz față de centrul clusterului din care face parte 

– centrul clusterelor în stadiul final 

• Tehnici potrivite pentru baze de date mari (sute de cazuri)

5. Numărul de clustere 

• algoritmul de grupare oferă soluții progresive 

– de la un număr de clusteri egal cu numărul cazurilor până la soluția finală, 

în care toate cazurile sunt grupate într-un singur cluster 

• soluția optimă se localizează între aceste două situații 

– cercetătorul trebuie să decidă unde 

• nu există în prezent o metodă de stabilire general acceptată 

– depinde de obiectivele cercetătorului în legătură cu utilizarea acestora 

• Recomandabil 

– să fie analizate caracteristicile clusterilor rezultaţi în etape succesive 

– să se decidă când s-a ajuns la o soluţie interpretabilă, sau la o soluţie cu un 

număr rezonabil de clusteri, ori suficient de omogeni 

• atunci când distanța dintre clusteri învecinați crește brusc, putem 

presupune că la pasul respectiv sunt unite două grupuri sensibil 

diferite 

• este recomandabil să se producă mai multe soluții de grupare 

– acestea vor fi analizate comparativ pentru a se adopta soluția finală 

• reprezentări grafice specifice: dendograma și graficul ”icicle” 

(țurțure)

6. Validarea structurii de cluster 

• Interpretarea clusterelor 

– Statistici descriptive 

• Reprezentările grafice 

– Scatter plot 

• Testarea ipotezelor 

– ANOVA, MANOVA, chi-pătrat 

– Atenție, variabilele criteriu de grupare dau, oricum, diferențe 

semnificative! 

• Studiile de replicare 

– Clusterizare dublă a altui set de date 

• Odată pe baza distanței față de centroizii primelor clustere 

• A doua oară, prin analiza de cluster directă a setului de rezervă 

• Testarea semnificației concordanței dintre cele două soluții

Exemple de analiză de cluster cu SPSS 

• Analiza ierarhică aglomerativă (Hierachical Cluster Analysis) 

• Analiza de partiționare iterativă (K-Means Cluster)

Cluster 1 – ”Seniori” 

Cluster 2 – ”Restul” 

Cluster 3 – ”Adjuncți”

Concluzii 

• Analiza de cluster poate fi o soluție utilă pentru investigarea 

structurii cazurilor și obținerea de tipologii 

• Utilizarea ei va fi abordată cu prudență 

– Implică multe decizii subiective 

– Necesită cunoștințe teoretice și experiență 

– necesită o permanentă consultare a literaturii de specialitate și o 

practică individuală bazată pe încercarea unor soluții variate și analiza 

efectelor acestora 

• structurarea tipologică a datelor, oricât de tentantă ar fi, nu 

reprezintă în mod necesar o soluție pentru orice problemă de 

cercetare în psihologie 

• analiza de cluster nu este o procedura de testare a ipotezelor 

de cercetare 

– soluțiile sale sunt într-o măsură destul de ridicată afectată de opțiunile 

subiective ale cercetătorului

Analiza de cluster

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?