29.05.2013 Views

Prati, pascoli e paesaggio alpino - SoZooAlp

Prati, pascoli e paesaggio alpino - SoZooAlp

Prati, pascoli e paesaggio alpino - SoZooAlp

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

99<br />

PRATI, PASCOLI E PAESAGGIO ALPINO<br />

mogeneità dei nuovi cluster tendono ad essere meno fedeli, perchè forzate a produrre<br />

cluster di dimensione omogenea. Il metodo senz’altro più noto nelle scienze biologiche<br />

è quello che minimizza l’incremento della devianza. I due cluster che vengono fusi ad<br />

ogni passaggio sono quelli la cui unione determina il minimo incremento delle devianze<br />

(è cioè minimizzata l’espressione: Δ dev(A+B) = dev(A+B) – devA – devB, dove con A e B sono<br />

indicati i due cluster di fusione). Meno comune è il metodo che minimizza la devianza<br />

dei nuovi cluster, come del resto anche i metodi basati sulla varianza e quelli relativi alla<br />

dissimilarità media entro i cluster. Questi ultimi sono per altro piuttosto interessanti, in<br />

quanto potendo usare qualsiasi misura di somiglianza/dissomiglianza, non solo quelle<br />

che rispettano la geometria Euclidea, sono di applicazione più generale. Tra essi vi è<br />

anche un metodo a strategia flessibile (λ flessibile), che funziona con la stessa logica e<br />

procedimento di calcolo dei metodi visti in precedenza. Il parametro λ può assumere valore<br />

nullo o valori negativi, producendo nell’ordine dendrogrammi concatenati o vieppiù<br />

bilanciati nelle dimensioni dei cluster.<br />

Per quanto concerne le metodologie ad algoritmi non combinatoriali, esse impiegano<br />

misure di somiglianza/dissomiglianza riprese dalla teoria dell’informazione. La procedura<br />

più nota è quella che minimizza l’incremento di entropia ponderata: ΔS(A+B) = S(A+B)<br />

– SA – SB.<br />

Le strategie di ottimizzazione globale, infine, sono quelle che valutano gli effetti<br />

delle fusioni degli oggetti e dei cluster sull’intera classificazione, non solo sulle relazioni<br />

di reciprocità tra le coppie di elementi delle strategie di separazione e coesione interna.<br />

Come nel clustering non gerarchico, la ripartizione è valutata ricorrendo a funzioni di<br />

bontà, tra le quali la più semplice e pratica è il rapporto di dissimilarità media entro e tra<br />

i cluster. Sempre in analogia con io clustering gerarchico, il metodo ha il vantaggio di<br />

considerare simultaneamente la coesione e la separazione dei cluster, di poter confrontare<br />

direttamente differenti classificazioni (la funzione di bontà è un numero puro) e di<br />

poter utilizzare qualsivoglia misura di somiglianza/dissomiglianza. Il principale difetto<br />

risiede nella laboriosità di calcolo, dovuta agli algoritmi non combinatoriali e alla necessità<br />

di ricavare anche una seconda matrice simmetrica. Inoltre, i dendrogrammi prodotti<br />

mancano del livello superiore (sono visualizzati due sottoalberi), in quanto per la fusione<br />

degli ultimi due cluster non è possibile il calcolo della funzione di bontà. Essendo per altro<br />

completa la gerarchia, non viene pregiudicata l’interpretazione della classificazione.<br />

5.5. La cluster analysis gerarchica divisiva<br />

Il clustering gerarchico divisivo è meno apprezzato dell’agglomerativo, causa la<br />

maggiore laboriosità di calcolo. L’inconveniente non è però tale da escluderlo dal novero<br />

delle tecniche di classificazione in analisi vegetazionale.<br />

Il processo di divisione può essere di tipo politetico o monotetico Tra le tecniche<br />

politetiche, la più classica è certamente quella proposto da Edwards e Cavalli-Sforza.<br />

Per un dato livello del clustering, la divisione del cluster avviene in modo da ridurre il<br />

più possibile la devianza dei nuovi gruppi, il che, indicando con A1 e A2 i nuovi cluster<br />

ottenuti da A, equivale a massimizzare la funzione: devA = devA – devA1 – devA2.<br />

Naturalmente devono essere esaminate tutte le possibili divisioni, ciò che comporta<br />

un impegno quasi proibitivo già in matrici di 25-30 oggetti (le ripartizioni di n oggetti

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!