29.05.2013 Views

Prati, pascoli e paesaggio alpino - SoZooAlp

Prati, pascoli e paesaggio alpino - SoZooAlp

Prati, pascoli e paesaggio alpino - SoZooAlp

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Fausto Gusmeroli<br />

iniziale da quelle piccole differenze tra i campioni ascrivibili fondamentalmente a rumore,<br />

è comunque di uso comune, data la sua praticità per l’elaborazione meccanizzata.<br />

Esistono per altro significative differenze tra i vari metodi agglomerativi nei confronti<br />

delle richieste di memoria operativa. Alcuni metodi, detti combinatoriali, sono molto<br />

parsimoniosi, poiché una volta ricavata la matrice di somiglianza/dissomiglianza tra gli<br />

oggetti (matrice secondaria), operano solo su questa. Altri, invece, più esigenti, si rivolgono<br />

simultaneamente alla matrice primaria e alla secondaria, ricalcolando quest’ultima<br />

ad ogni passaggio del clustering e sempre a partire dai dati originali. Un terzo gruppo,<br />

infine, opera ancora su due matrici: la secondaria, che come negli algoritmi combinatoriali<br />

surroga la matrice primaria, e una nuova matrice simmetrica derivata ad ogni ciclo<br />

dalla matrice secondaria, che contiene le informazioni specifiche per il clustering. Un altro<br />

fattore che può influire sulla richiesta di memoria operativa è il numero delle fusioni<br />

prodotte in ogni passaggio: vi sono dei metodi che, permettendo più fusioni, accelerano<br />

notevolmente il processo, senza alterarne i risultati.<br />

La classificazione gerarchica agglomerativa contempla approcci basati sia sul criterio<br />

di separazione dei cluster, sia di coesione interna, sia di ottimizzazione globale.<br />

L’approccio del primo tipo adotta algoritmi combinatoriali, quindi parte dalla matrice di<br />

somiglianza/dissomiglianza (metriche o di dissimilarità) tra gli oggetti e, ad ogni passaggio<br />

o livello gerarchico, individua ed aggrega le coppie di oggetti o di cluster più vicini,<br />

fino alla completa riunione di tutti gli oggetti in un unico cluster. Dopo ogni fusione sono<br />

ricalcolate le distanze o dissimilarità tra i nuovi cluster e tutti gli altri oggetti e cluster,<br />

mentre sono cancellate dalla matrice secondaria le righe e le colonne non necessarie (una<br />

riga e una colonna per ogni fusione di due oggetti). Il nodo cruciale dell’analisi è il modo<br />

con il quale sono calcolate le nuove distanze o dissimilarità. Sono possibili molteplici<br />

soluzioni, dalle quali si generano differenti tecniche di clustering, di seguito illustrate.<br />

Clustering di legame singolo (Single-linkage clustering)<br />

Il metodo, detto anche del minimo o del prossimo più vicino, enfatizza la separazione<br />

tra i cluster. La distanza tra essi è misurata sugli oggetti più vicini (Fig. 5.5), per cui la<br />

coesione interna è del tutto irrilevante e gli agglomerati tendono ad essere molto dispersi.<br />

Inoltre, un piccolo cluster iniziale può facilmente attrarre gli altri oggetti in sequenza,<br />

producendo il cosiddetto effetto catena (Fig. 5.6 a), adatto più ad esprimere la variazione<br />

graduale degli oggetti piuttosto che la tendenza a raggrupparsi. Per tali ragioni, il metodo<br />

è poco adatto agli studi vegetazionali, mentre è efficace in campo tassonomico. La sua<br />

principale qualità è l’insensibilità ai legami, ossia alla presenza nel medesimo livello<br />

gerarchico di più coppie di oggetti o cluster equidistanti, fenomeno che si verifica specialmente<br />

con dati binari e che nei metodi che operano discriminando arbitrariamente tra<br />

le coppie può condizionare fortemente l’esito del processo.<br />

Clustering di legame completo (Complete-linkage clustering)<br />

Questo clustering, noto anche come metodo del prossimo più lontano, è in tutto e per<br />

tutto l’opposto del precedente. Poiché la distanza tra i cluster è riferita agli oggetti più<br />

lontani, al criterio della separazione è anteposto quello della coesione interna. Il concatenamento<br />

è impedito, a favore della composizione di cluster simili per dimensione, di<br />

forma ipersferica, che danno dendrogrammi bilanciati anche laddove la struttura dei dati<br />

non lo giustificherebbe.<br />

94

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!