Prati, pascoli e paesaggio alpino - SoZooAlp
Prati, pascoli e paesaggio alpino - SoZooAlp
Prati, pascoli e paesaggio alpino - SoZooAlp
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Fausto Gusmeroli<br />
iniziale da quelle piccole differenze tra i campioni ascrivibili fondamentalmente a rumore,<br />
è comunque di uso comune, data la sua praticità per l’elaborazione meccanizzata.<br />
Esistono per altro significative differenze tra i vari metodi agglomerativi nei confronti<br />
delle richieste di memoria operativa. Alcuni metodi, detti combinatoriali, sono molto<br />
parsimoniosi, poiché una volta ricavata la matrice di somiglianza/dissomiglianza tra gli<br />
oggetti (matrice secondaria), operano solo su questa. Altri, invece, più esigenti, si rivolgono<br />
simultaneamente alla matrice primaria e alla secondaria, ricalcolando quest’ultima<br />
ad ogni passaggio del clustering e sempre a partire dai dati originali. Un terzo gruppo,<br />
infine, opera ancora su due matrici: la secondaria, che come negli algoritmi combinatoriali<br />
surroga la matrice primaria, e una nuova matrice simmetrica derivata ad ogni ciclo<br />
dalla matrice secondaria, che contiene le informazioni specifiche per il clustering. Un altro<br />
fattore che può influire sulla richiesta di memoria operativa è il numero delle fusioni<br />
prodotte in ogni passaggio: vi sono dei metodi che, permettendo più fusioni, accelerano<br />
notevolmente il processo, senza alterarne i risultati.<br />
La classificazione gerarchica agglomerativa contempla approcci basati sia sul criterio<br />
di separazione dei cluster, sia di coesione interna, sia di ottimizzazione globale.<br />
L’approccio del primo tipo adotta algoritmi combinatoriali, quindi parte dalla matrice di<br />
somiglianza/dissomiglianza (metriche o di dissimilarità) tra gli oggetti e, ad ogni passaggio<br />
o livello gerarchico, individua ed aggrega le coppie di oggetti o di cluster più vicini,<br />
fino alla completa riunione di tutti gli oggetti in un unico cluster. Dopo ogni fusione sono<br />
ricalcolate le distanze o dissimilarità tra i nuovi cluster e tutti gli altri oggetti e cluster,<br />
mentre sono cancellate dalla matrice secondaria le righe e le colonne non necessarie (una<br />
riga e una colonna per ogni fusione di due oggetti). Il nodo cruciale dell’analisi è il modo<br />
con il quale sono calcolate le nuove distanze o dissimilarità. Sono possibili molteplici<br />
soluzioni, dalle quali si generano differenti tecniche di clustering, di seguito illustrate.<br />
Clustering di legame singolo (Single-linkage clustering)<br />
Il metodo, detto anche del minimo o del prossimo più vicino, enfatizza la separazione<br />
tra i cluster. La distanza tra essi è misurata sugli oggetti più vicini (Fig. 5.5), per cui la<br />
coesione interna è del tutto irrilevante e gli agglomerati tendono ad essere molto dispersi.<br />
Inoltre, un piccolo cluster iniziale può facilmente attrarre gli altri oggetti in sequenza,<br />
producendo il cosiddetto effetto catena (Fig. 5.6 a), adatto più ad esprimere la variazione<br />
graduale degli oggetti piuttosto che la tendenza a raggrupparsi. Per tali ragioni, il metodo<br />
è poco adatto agli studi vegetazionali, mentre è efficace in campo tassonomico. La sua<br />
principale qualità è l’insensibilità ai legami, ossia alla presenza nel medesimo livello<br />
gerarchico di più coppie di oggetti o cluster equidistanti, fenomeno che si verifica specialmente<br />
con dati binari e che nei metodi che operano discriminando arbitrariamente tra<br />
le coppie può condizionare fortemente l’esito del processo.<br />
Clustering di legame completo (Complete-linkage clustering)<br />
Questo clustering, noto anche come metodo del prossimo più lontano, è in tutto e per<br />
tutto l’opposto del precedente. Poiché la distanza tra i cluster è riferita agli oggetti più<br />
lontani, al criterio della separazione è anteposto quello della coesione interna. Il concatenamento<br />
è impedito, a favore della composizione di cluster simili per dimensione, di<br />
forma ipersferica, che danno dendrogrammi bilanciati anche laddove la struttura dei dati<br />
non lo giustificherebbe.<br />
94