Prati, pascoli e paesaggio alpino - SoZooAlp

Prati, pascoli e paesaggio alpino - SoZooAlp Prati, pascoli e paesaggio alpino - SoZooAlp

29.05.2013 Views

99 PRATI, PASCOLI E PAESAGGIO ALPINO mogeneità dei nuovi cluster tendono ad essere meno fedeli, perchè forzate a produrre cluster di dimensione omogenea. Il metodo senz’altro più noto nelle scienze biologiche è quello che minimizza l’incremento della devianza. I due cluster che vengono fusi ad ogni passaggio sono quelli la cui unione determina il minimo incremento delle devianze (è cioè minimizzata l’espressione: Δ dev(A+B) = dev(A+B) – devA – devB, dove con A e B sono indicati i due cluster di fusione). Meno comune è il metodo che minimizza la devianza dei nuovi cluster, come del resto anche i metodi basati sulla varianza e quelli relativi alla dissimilarità media entro i cluster. Questi ultimi sono per altro piuttosto interessanti, in quanto potendo usare qualsiasi misura di somiglianza/dissomiglianza, non solo quelle che rispettano la geometria Euclidea, sono di applicazione più generale. Tra essi vi è anche un metodo a strategia flessibile (λ flessibile), che funziona con la stessa logica e procedimento di calcolo dei metodi visti in precedenza. Il parametro λ può assumere valore nullo o valori negativi, producendo nell’ordine dendrogrammi concatenati o vieppiù bilanciati nelle dimensioni dei cluster. Per quanto concerne le metodologie ad algoritmi non combinatoriali, esse impiegano misure di somiglianza/dissomiglianza riprese dalla teoria dell’informazione. La procedura più nota è quella che minimizza l’incremento di entropia ponderata: ΔS(A+B) = S(A+B) – SA – SB. Le strategie di ottimizzazione globale, infine, sono quelle che valutano gli effetti delle fusioni degli oggetti e dei cluster sull’intera classificazione, non solo sulle relazioni di reciprocità tra le coppie di elementi delle strategie di separazione e coesione interna. Come nel clustering non gerarchico, la ripartizione è valutata ricorrendo a funzioni di bontà, tra le quali la più semplice e pratica è il rapporto di dissimilarità media entro e tra i cluster. Sempre in analogia con io clustering gerarchico, il metodo ha il vantaggio di considerare simultaneamente la coesione e la separazione dei cluster, di poter confrontare direttamente differenti classificazioni (la funzione di bontà è un numero puro) e di poter utilizzare qualsivoglia misura di somiglianza/dissomiglianza. Il principale difetto risiede nella laboriosità di calcolo, dovuta agli algoritmi non combinatoriali e alla necessità di ricavare anche una seconda matrice simmetrica. Inoltre, i dendrogrammi prodotti mancano del livello superiore (sono visualizzati due sottoalberi), in quanto per la fusione degli ultimi due cluster non è possibile il calcolo della funzione di bontà. Essendo per altro completa la gerarchia, non viene pregiudicata l’interpretazione della classificazione. 5.5. La cluster analysis gerarchica divisiva Il clustering gerarchico divisivo è meno apprezzato dell’agglomerativo, causa la maggiore laboriosità di calcolo. L’inconveniente non è però tale da escluderlo dal novero delle tecniche di classificazione in analisi vegetazionale. Il processo di divisione può essere di tipo politetico o monotetico Tra le tecniche politetiche, la più classica è certamente quella proposto da Edwards e Cavalli-Sforza. Per un dato livello del clustering, la divisione del cluster avviene in modo da ridurre il più possibile la devianza dei nuovi gruppi, il che, indicando con A1 e A2 i nuovi cluster ottenuti da A, equivale a massimizzare la funzione: devA = devA – devA1 – devA2. Naturalmente devono essere esaminate tutte le possibili divisioni, ciò che comporta un impegno quasi proibitivo già in matrici di 25-30 oggetti (le ripartizioni di n oggetti

Fausto Gusmeroli in k cluster sono pari a k n /k! e dunque per 20 oggetti sono già più di 500.000!). Per rimediare a tale limite sono stati elaborati metodi che prevedono un preliminare ordinamento e la successiva classificazione degli oggetti in base a questo. La tecnica più importante, largamente applicata in ecologia vegetale, è l’ordinamento dicotomico, più noto con l’acronimo TWINSPAN (Two-way indicator species analysis). Per l’ordinamento è impiegata l’analisi di corrispondenza (si veda il capitolo 6). Dalle coordinate degli oggetti sul primo asse si calcola il centroide, il quale dividerà gli oggetti stessi nei primi due cluster a seconda che cadano alla sua destra o alla sua sinistra. I due cluster vengono poi a loro volta suddivisi in gruppi più piccoli con la medesima procedura e così iterativamente fino alla completa separazione di ogni oggetto. I risultati possono essere mostrati con un dendrogramma i cui i livelli gerarchici sono stabiliti sulle sequenze di divisioni o in termini di distanze medie tra i campioni negli spazi di ordinamento. Poiché l’analisi di corrispondenza è un ordinamento simultaneo degli oggetti e delle variabile descrittive, anche queste ultime possono essere classificate in maniera simile, ciò che consente di utilizzare il procedimento come tecnica di classificazione a blocchi nell’arrangiamento di matrice. Esistono anche metodi basati su altri ordinamenti (Componenti principali e Coordinate principali), ma sono assai meno comuni di TWINSPAN. Tutti hanno modeste richieste informatiche, dato che non è memorizzata alcuna matrice di somiglianza/ dissomiglianza e l’ammontare dei calcoli cresce linearmente con i dati, prestandosi così per indagini di matrici molto grandi. Il clustering monotetico appartiene all’epoca antecedente l’avvento dell’informatica. Oggi conserva un interesse marginale, limitato ai dati binari. La tecnica di riferimento è l’analisi di associazione, nella versione definita da Williams e Lambert sull’algoritmo primigenio di Goodall. In primo luogo è identificata la variabile descrittiva più informativa, ossia quella massimamente associata a tutte le altre, in funzione della quale gli oggetti sono divisi nei primi due gruppi. Quindi si ricerca, separatamente per ognuno, una nuova variabile informativa, si divide nuovamente e così via. I due autori hanno anche messo a punto un metodo per classificare le variabili e un procedimento simultaneo utilizzabile come arrangiamento di matrice. Nodo cruciale del metodo è la scelta della funzione matematica con la quale individuare la variabile divisiva. Nella prima versione si impiegava il Χ 2 , non applicabile però in tabelle di contingenza con basse frequenze, se non omettendo numerose variabili. In sua vece si può ricorrere a formule derivate dalla teoria dell’informazione o a misure di entropia. In questo caso i due nuovi cluster divisivi sono ricavati in maniera tale da massimizzare il decremento di entropia raggruppata, ossia la grandezza: ΔHA=HA – HA1 – HA2. Poiché le aggregazioni e le gerarchie sono caratterizzati dalle variabili divisive, il clustering monotetico ha il pregio della facile e immediata interpretazione dei risultati. Il difetto sta nei rischi di cattive classificazioni, elevati laddove vi è scarsa consonanza tra le variabili divisive e le altre variabili. Le ripartizioni vengono perciò spesso manipolate attraverso algoritmi di riposizionamento. Altro inconveniente è l’impossibilità di realizzare analisi di dettaglio. La sfera specifica d’indagine rimane circoscritta a matrici ampie, con molte variabili (possibilmente più numerose degli oggetti), nelle quali le associazione tra queste sono statisticamente più affidabili 18 . 18 Tutti i metodi di clustering gerarchico descritti sono liberi, nel senso che leggono la struttura delle relazioni tra gli oggetti in base esclusivamente ai loro algoritmi interni. Sono però possibili anche processi in qualche misura 100

Fausto Gusmeroli<br />

in k cluster sono pari a k n /k! e dunque per 20 oggetti sono già più di 500.000!). Per rimediare<br />

a tale limite sono stati elaborati metodi che prevedono un preliminare ordinamento<br />

e la successiva classificazione degli oggetti in base a questo. La tecnica più importante,<br />

largamente applicata in ecologia vegetale, è l’ordinamento dicotomico, più noto con l’acronimo<br />

TWINSPAN (Two-way indicator species analysis). Per l’ordinamento è impiegata<br />

l’analisi di corrispondenza (si veda il capitolo 6). Dalle coordinate degli oggetti sul<br />

primo asse si calcola il centroide, il quale dividerà gli oggetti stessi nei primi due cluster<br />

a seconda che cadano alla sua destra o alla sua sinistra. I due cluster vengono poi a loro<br />

volta suddivisi in gruppi più piccoli con la medesima procedura e così iterativamente<br />

fino alla completa separazione di ogni oggetto. I risultati possono essere mostrati con<br />

un dendrogramma i cui i livelli gerarchici sono stabiliti sulle sequenze di divisioni o in<br />

termini di distanze medie tra i campioni negli spazi di ordinamento. Poiché l’analisi di<br />

corrispondenza è un ordinamento simultaneo degli oggetti e delle variabile descrittive,<br />

anche queste ultime possono essere classificate in maniera simile, ciò che consente di<br />

utilizzare il procedimento come tecnica di classificazione a blocchi nell’arrangiamento<br />

di matrice. Esistono anche metodi basati su altri ordinamenti (Componenti principali e<br />

Coordinate principali), ma sono assai meno comuni di TWINSPAN. Tutti hanno modeste<br />

richieste informatiche, dato che non è memorizzata alcuna matrice di somiglianza/<br />

dissomiglianza e l’ammontare dei calcoli cresce linearmente con i dati, prestandosi così<br />

per indagini di matrici molto grandi.<br />

Il clustering monotetico appartiene all’epoca antecedente l’avvento dell’informatica.<br />

Oggi conserva un interesse marginale, limitato ai dati binari. La tecnica di riferimento<br />

è l’analisi di associazione, nella versione definita da Williams e Lambert sull’algoritmo<br />

primigenio di Goodall. In primo luogo è identificata la variabile descrittiva più informativa,<br />

ossia quella massimamente associata a tutte le altre, in funzione della quale gli<br />

oggetti sono divisi nei primi due gruppi. Quindi si ricerca, separatamente per ognuno,<br />

una nuova variabile informativa, si divide nuovamente e così via. I due autori hanno anche<br />

messo a punto un metodo per classificare le variabili e un procedimento simultaneo<br />

utilizzabile come arrangiamento di matrice. Nodo cruciale del metodo è la scelta della<br />

funzione matematica con la quale individuare la variabile divisiva. Nella prima versione<br />

si impiegava il Χ 2 , non applicabile però in tabelle di contingenza con basse frequenze, se<br />

non omettendo numerose variabili. In sua vece si può ricorrere a formule derivate dalla<br />

teoria dell’informazione o a misure di entropia. In questo caso i due nuovi cluster divisivi<br />

sono ricavati in maniera tale da massimizzare il decremento di entropia raggruppata,<br />

ossia la grandezza: ΔHA=HA – HA1 – HA2.<br />

Poiché le aggregazioni e le gerarchie sono caratterizzati dalle variabili divisive, il<br />

clustering monotetico ha il pregio della facile e immediata interpretazione dei risultati.<br />

Il difetto sta nei rischi di cattive classificazioni, elevati laddove vi è scarsa consonanza<br />

tra le variabili divisive e le altre variabili. Le ripartizioni vengono perciò spesso manipolate<br />

attraverso algoritmi di riposizionamento. Altro inconveniente è l’impossibilità di<br />

realizzare analisi di dettaglio. La sfera specifica d’indagine rimane circoscritta a matrici<br />

ampie, con molte variabili (possibilmente più numerose degli oggetti), nelle quali le<br />

associazione tra queste sono statisticamente più affidabili 18 .<br />

18 Tutti i metodi di clustering gerarchico descritti sono liberi, nel senso che leggono la struttura delle relazioni<br />

tra gli oggetti in base esclusivamente ai loro algoritmi interni. Sono però possibili anche processi in qualche misura<br />

100

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!