Prati, pascoli e paesaggio alpino - SoZooAlp
Prati, pascoli e paesaggio alpino - SoZooAlp Prati, pascoli e paesaggio alpino - SoZooAlp
99 PRATI, PASCOLI E PAESAGGIO ALPINO mogeneità dei nuovi cluster tendono ad essere meno fedeli, perchè forzate a produrre cluster di dimensione omogenea. Il metodo senz’altro più noto nelle scienze biologiche è quello che minimizza l’incremento della devianza. I due cluster che vengono fusi ad ogni passaggio sono quelli la cui unione determina il minimo incremento delle devianze (è cioè minimizzata l’espressione: Δ dev(A+B) = dev(A+B) – devA – devB, dove con A e B sono indicati i due cluster di fusione). Meno comune è il metodo che minimizza la devianza dei nuovi cluster, come del resto anche i metodi basati sulla varianza e quelli relativi alla dissimilarità media entro i cluster. Questi ultimi sono per altro piuttosto interessanti, in quanto potendo usare qualsiasi misura di somiglianza/dissomiglianza, non solo quelle che rispettano la geometria Euclidea, sono di applicazione più generale. Tra essi vi è anche un metodo a strategia flessibile (λ flessibile), che funziona con la stessa logica e procedimento di calcolo dei metodi visti in precedenza. Il parametro λ può assumere valore nullo o valori negativi, producendo nell’ordine dendrogrammi concatenati o vieppiù bilanciati nelle dimensioni dei cluster. Per quanto concerne le metodologie ad algoritmi non combinatoriali, esse impiegano misure di somiglianza/dissomiglianza riprese dalla teoria dell’informazione. La procedura più nota è quella che minimizza l’incremento di entropia ponderata: ΔS(A+B) = S(A+B) – SA – SB. Le strategie di ottimizzazione globale, infine, sono quelle che valutano gli effetti delle fusioni degli oggetti e dei cluster sull’intera classificazione, non solo sulle relazioni di reciprocità tra le coppie di elementi delle strategie di separazione e coesione interna. Come nel clustering non gerarchico, la ripartizione è valutata ricorrendo a funzioni di bontà, tra le quali la più semplice e pratica è il rapporto di dissimilarità media entro e tra i cluster. Sempre in analogia con io clustering gerarchico, il metodo ha il vantaggio di considerare simultaneamente la coesione e la separazione dei cluster, di poter confrontare direttamente differenti classificazioni (la funzione di bontà è un numero puro) e di poter utilizzare qualsivoglia misura di somiglianza/dissomiglianza. Il principale difetto risiede nella laboriosità di calcolo, dovuta agli algoritmi non combinatoriali e alla necessità di ricavare anche una seconda matrice simmetrica. Inoltre, i dendrogrammi prodotti mancano del livello superiore (sono visualizzati due sottoalberi), in quanto per la fusione degli ultimi due cluster non è possibile il calcolo della funzione di bontà. Essendo per altro completa la gerarchia, non viene pregiudicata l’interpretazione della classificazione. 5.5. La cluster analysis gerarchica divisiva Il clustering gerarchico divisivo è meno apprezzato dell’agglomerativo, causa la maggiore laboriosità di calcolo. L’inconveniente non è però tale da escluderlo dal novero delle tecniche di classificazione in analisi vegetazionale. Il processo di divisione può essere di tipo politetico o monotetico Tra le tecniche politetiche, la più classica è certamente quella proposto da Edwards e Cavalli-Sforza. Per un dato livello del clustering, la divisione del cluster avviene in modo da ridurre il più possibile la devianza dei nuovi gruppi, il che, indicando con A1 e A2 i nuovi cluster ottenuti da A, equivale a massimizzare la funzione: devA = devA – devA1 – devA2. Naturalmente devono essere esaminate tutte le possibili divisioni, ciò che comporta un impegno quasi proibitivo già in matrici di 25-30 oggetti (le ripartizioni di n oggetti
Fausto Gusmeroli in k cluster sono pari a k n /k! e dunque per 20 oggetti sono già più di 500.000!). Per rimediare a tale limite sono stati elaborati metodi che prevedono un preliminare ordinamento e la successiva classificazione degli oggetti in base a questo. La tecnica più importante, largamente applicata in ecologia vegetale, è l’ordinamento dicotomico, più noto con l’acronimo TWINSPAN (Two-way indicator species analysis). Per l’ordinamento è impiegata l’analisi di corrispondenza (si veda il capitolo 6). Dalle coordinate degli oggetti sul primo asse si calcola il centroide, il quale dividerà gli oggetti stessi nei primi due cluster a seconda che cadano alla sua destra o alla sua sinistra. I due cluster vengono poi a loro volta suddivisi in gruppi più piccoli con la medesima procedura e così iterativamente fino alla completa separazione di ogni oggetto. I risultati possono essere mostrati con un dendrogramma i cui i livelli gerarchici sono stabiliti sulle sequenze di divisioni o in termini di distanze medie tra i campioni negli spazi di ordinamento. Poiché l’analisi di corrispondenza è un ordinamento simultaneo degli oggetti e delle variabile descrittive, anche queste ultime possono essere classificate in maniera simile, ciò che consente di utilizzare il procedimento come tecnica di classificazione a blocchi nell’arrangiamento di matrice. Esistono anche metodi basati su altri ordinamenti (Componenti principali e Coordinate principali), ma sono assai meno comuni di TWINSPAN. Tutti hanno modeste richieste informatiche, dato che non è memorizzata alcuna matrice di somiglianza/ dissomiglianza e l’ammontare dei calcoli cresce linearmente con i dati, prestandosi così per indagini di matrici molto grandi. Il clustering monotetico appartiene all’epoca antecedente l’avvento dell’informatica. Oggi conserva un interesse marginale, limitato ai dati binari. La tecnica di riferimento è l’analisi di associazione, nella versione definita da Williams e Lambert sull’algoritmo primigenio di Goodall. In primo luogo è identificata la variabile descrittiva più informativa, ossia quella massimamente associata a tutte le altre, in funzione della quale gli oggetti sono divisi nei primi due gruppi. Quindi si ricerca, separatamente per ognuno, una nuova variabile informativa, si divide nuovamente e così via. I due autori hanno anche messo a punto un metodo per classificare le variabili e un procedimento simultaneo utilizzabile come arrangiamento di matrice. Nodo cruciale del metodo è la scelta della funzione matematica con la quale individuare la variabile divisiva. Nella prima versione si impiegava il Χ 2 , non applicabile però in tabelle di contingenza con basse frequenze, se non omettendo numerose variabili. In sua vece si può ricorrere a formule derivate dalla teoria dell’informazione o a misure di entropia. In questo caso i due nuovi cluster divisivi sono ricavati in maniera tale da massimizzare il decremento di entropia raggruppata, ossia la grandezza: ΔHA=HA – HA1 – HA2. Poiché le aggregazioni e le gerarchie sono caratterizzati dalle variabili divisive, il clustering monotetico ha il pregio della facile e immediata interpretazione dei risultati. Il difetto sta nei rischi di cattive classificazioni, elevati laddove vi è scarsa consonanza tra le variabili divisive e le altre variabili. Le ripartizioni vengono perciò spesso manipolate attraverso algoritmi di riposizionamento. Altro inconveniente è l’impossibilità di realizzare analisi di dettaglio. La sfera specifica d’indagine rimane circoscritta a matrici ampie, con molte variabili (possibilmente più numerose degli oggetti), nelle quali le associazione tra queste sono statisticamente più affidabili 18 . 18 Tutti i metodi di clustering gerarchico descritti sono liberi, nel senso che leggono la struttura delle relazioni tra gli oggetti in base esclusivamente ai loro algoritmi interni. Sono però possibili anche processi in qualche misura 100
- Page 50 and 51: 49 PRATI, PASCOLI E PAESAGGIO ALPIN
- Page 52 and 53: 51 PRATI, PASCOLI E PAESAGGIO ALPIN
- Page 54 and 55: Fig. 2.6 Profili di α della funzio
- Page 56 and 57: 55 PRATI, PASCOLI E PAESAGGIO ALPIN
- Page 58 and 59: 57 PRATI, PASCOLI E PAESAGGIO ALPIN
- Page 60 and 61: 59 PRATI, PASCOLI E PAESAGGIO ALPIN
- Page 62 and 63: Fenomeni di eutrofizzazione in un p
- Page 64 and 65: 63 PRATI, PASCOLI E PAESAGGIO ALPIN
- Page 66: 65 PRATI, PASCOLI E PAESAGGIO ALPIN
- Page 69 and 70: Fausto Gusmeroli 4. La vEgEtazIoNE
- Page 71 and 72: Fausto Gusmeroli Tab. 4.1 Tab. Comu
- Page 73 and 74: Fausto Gusmeroli Fig. 4.2 I due tip
- Page 75 and 76: Fausto Gusmeroli Fig. 4.3 Principal
- Page 77 and 78: Fausto Gusmeroli temperatura di 30
- Page 79 and 80: Fausto Gusmeroli Tab. 4.3 Scale di
- Page 81 and 82: Fig. 4.4 Fausto Gusmeroli Tre ogget
- Page 83 and 84: Fausto Gusmeroli Le principali stan
- Page 85 and 86: Fausto Gusmeroli tale sono riconduc
- Page 87 and 88: Fausto Gusmeroli ossia la loro dist
- Page 89 and 90: Fig. 5.2Fausto Gusmeroli Rappresent
- Page 91 and 92: Fig. 5.4 Effetto ricercato nel riar
- Page 93 and 94: Fausto Gusmeroli ragione e viste an
- Page 95 and 96: Fausto Gusmeroli iniziale da quelle
- Page 97 and 98: Particolarità nei dendrogrammi Fau
- Page 99: Classificazioni flessibili ottenute
- Page 103 and 104: Fausto Gusmeroli verificare se vari
- Page 105 and 106: Fausto Gusmeroli aggiunto il nome d
- Page 107 and 108: Fausto Gusmeroli scinale (più even
- Page 109 and 110: Funzione di risposta della specie l
- Page 111 and 112: Fausto Gusmeroli semplice: i parame
- Page 113 and 114: Fausto Gusmeroli in rapporto alla s
- Page 115 and 116: Fausto Gusmeroli Fig. 6.3 Derivazio
- Page 117 and 118: Fig. 6.5 Fausto Gusmeroli Diagrammi
- Page 119 and 120: Vari tipi di biplot ottenuti sulla
- Page 121 and 122: Fausto Gusmeroli Dato che COA adott
- Page 123 and 124: Fausto Gusmeroli Lo scaling multidi
- Page 125 and 126: Diagramma di detrito Fausto Gusmero
- Page 127 and 128: Fausto Gusmeroli lettura. Se vi son
- Page 129 and 130: Fausto Gusmeroli getazionali. La di
- Page 131 and 132: Fausto Gusmeroli semplicemente nell
- Page 133 and 134: Fausto Gusmeroli 7. IL PaEsaggIo Na
- Page 135 and 136: Fausto Gusmeroli revoli ha portato
- Page 137 and 138: Fausto Gusmeroli deriva un’ulteri
- Page 139 and 140: Fausto Gusmeroli Tab. Tab. 7.2 Sche
- Page 141 and 142: Fausto Gusmeroli 9 Faggeta 140
- Page 143 and 144: Fausto Gusmeroli 7.4. Le foreste di
- Page 145 and 146: Fausto Gusmeroli de l’appartenenz
- Page 147 and 148: Fausto Gusmeroli che si aggiungono
- Page 149 and 150: Fausto Gusmeroli 19 Associazione di
Fausto Gusmeroli<br />
in k cluster sono pari a k n /k! e dunque per 20 oggetti sono già più di 500.000!). Per rimediare<br />
a tale limite sono stati elaborati metodi che prevedono un preliminare ordinamento<br />
e la successiva classificazione degli oggetti in base a questo. La tecnica più importante,<br />
largamente applicata in ecologia vegetale, è l’ordinamento dicotomico, più noto con l’acronimo<br />
TWINSPAN (Two-way indicator species analysis). Per l’ordinamento è impiegata<br />
l’analisi di corrispondenza (si veda il capitolo 6). Dalle coordinate degli oggetti sul<br />
primo asse si calcola il centroide, il quale dividerà gli oggetti stessi nei primi due cluster<br />
a seconda che cadano alla sua destra o alla sua sinistra. I due cluster vengono poi a loro<br />
volta suddivisi in gruppi più piccoli con la medesima procedura e così iterativamente<br />
fino alla completa separazione di ogni oggetto. I risultati possono essere mostrati con<br />
un dendrogramma i cui i livelli gerarchici sono stabiliti sulle sequenze di divisioni o in<br />
termini di distanze medie tra i campioni negli spazi di ordinamento. Poiché l’analisi di<br />
corrispondenza è un ordinamento simultaneo degli oggetti e delle variabile descrittive,<br />
anche queste ultime possono essere classificate in maniera simile, ciò che consente di<br />
utilizzare il procedimento come tecnica di classificazione a blocchi nell’arrangiamento<br />
di matrice. Esistono anche metodi basati su altri ordinamenti (Componenti principali e<br />
Coordinate principali), ma sono assai meno comuni di TWINSPAN. Tutti hanno modeste<br />
richieste informatiche, dato che non è memorizzata alcuna matrice di somiglianza/<br />
dissomiglianza e l’ammontare dei calcoli cresce linearmente con i dati, prestandosi così<br />
per indagini di matrici molto grandi.<br />
Il clustering monotetico appartiene all’epoca antecedente l’avvento dell’informatica.<br />
Oggi conserva un interesse marginale, limitato ai dati binari. La tecnica di riferimento<br />
è l’analisi di associazione, nella versione definita da Williams e Lambert sull’algoritmo<br />
primigenio di Goodall. In primo luogo è identificata la variabile descrittiva più informativa,<br />
ossia quella massimamente associata a tutte le altre, in funzione della quale gli<br />
oggetti sono divisi nei primi due gruppi. Quindi si ricerca, separatamente per ognuno,<br />
una nuova variabile informativa, si divide nuovamente e così via. I due autori hanno anche<br />
messo a punto un metodo per classificare le variabili e un procedimento simultaneo<br />
utilizzabile come arrangiamento di matrice. Nodo cruciale del metodo è la scelta della<br />
funzione matematica con la quale individuare la variabile divisiva. Nella prima versione<br />
si impiegava il Χ 2 , non applicabile però in tabelle di contingenza con basse frequenze, se<br />
non omettendo numerose variabili. In sua vece si può ricorrere a formule derivate dalla<br />
teoria dell’informazione o a misure di entropia. In questo caso i due nuovi cluster divisivi<br />
sono ricavati in maniera tale da massimizzare il decremento di entropia raggruppata,<br />
ossia la grandezza: ΔHA=HA – HA1 – HA2.<br />
Poiché le aggregazioni e le gerarchie sono caratterizzati dalle variabili divisive, il<br />
clustering monotetico ha il pregio della facile e immediata interpretazione dei risultati.<br />
Il difetto sta nei rischi di cattive classificazioni, elevati laddove vi è scarsa consonanza<br />
tra le variabili divisive e le altre variabili. Le ripartizioni vengono perciò spesso manipolate<br />
attraverso algoritmi di riposizionamento. Altro inconveniente è l’impossibilità di<br />
realizzare analisi di dettaglio. La sfera specifica d’indagine rimane circoscritta a matrici<br />
ampie, con molte variabili (possibilmente più numerose degli oggetti), nelle quali le<br />
associazione tra queste sono statisticamente più affidabili 18 .<br />
18 Tutti i metodi di clustering gerarchico descritti sono liberi, nel senso che leggono la struttura delle relazioni<br />
tra gli oggetti in base esclusivamente ai loro algoritmi interni. Sono però possibili anche processi in qualche misura<br />
100