Prati, pascoli e paesaggio alpino - SoZooAlp
Prati, pascoli e paesaggio alpino - SoZooAlp
Prati, pascoli e paesaggio alpino - SoZooAlp
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
5.6. valutazione dei risultati del clustering<br />
101<br />
PRATI, PASCOLI E PAESAGGIO ALPINO<br />
L’elevato numero dei metodi di clustering e i differenti riscontri che possono fornire<br />
pongono problemi di scelta non semplici. La classificazione ottimale va sempre ricercata<br />
attraverso la comparazione di più alternative, valutandone l’efficacia rispetto agli<br />
obiettivi dell’identificazione degli oggetti singolari e delle disgiunzioni, del controllo del<br />
rumore, del riassunto della ridondanza e dell’evidenziazione della struttura delle relazioni.<br />
Un importante supporto può venire dall’analisi di ordinamento che, come si chiarirà<br />
nel capitolo seguente, pur non essendo di per sé una tecnica di classificazione, si presta<br />
anche a questo scopo. Del resto, la coerenza tra la classificazione e l’ordinamento rappresenta<br />
una condizione auspicabile per l’analisi ecologica.<br />
La valutazione della classificazione assume aspetti di maggiore complessità in matrici<br />
di grande dimensione e soprattutto nel clustering gerarchico, dove il giudizio non<br />
riguarda solo gli aggruppamenti, ma tutta la struttura di agglomerazione. In questo caso,<br />
oltre al confronto tra più tecniche, si possono utilizzare procedure che esaminano il<br />
dendrogramma dall’interno, nella sua coerenza con le relazioni di somiglianza/dissomiglianza<br />
tra gli oggetti e nella sua stabilità. La coerenza si può stimare per mezzo di vari<br />
indici, il più noto dei quali, valido per dati quantitativi, è la correlazione cofonetica, una<br />
correlazione lineare funzione delle scarto tra la matrice delle distanze reali tra gli oggetti<br />
(la matrice secondaria) e la matrice delle distanze riportate nel dendrogramma. Queste<br />
distanze, dette ultrametriche, non coincidono mai con le originali (anzi, talvolta divergono<br />
fortemente), causa le aggregazione degli oggetti nei cluster, ossia la loro collocazione<br />
su un medesimo livello gerarchico del dendrogramma a fronte di distanze differenti dagli<br />
altri oggetti 19 . La correlazione cofonetica oscilla normalmente tra 0.60 e 0.95. I valori<br />
più elevati, segno di migliore adattamento, si ottengono abitualmente con il clustering<br />
medio di gruppo. La stabilità della classificazione, ossia l’insensibilità rispetto a piccole<br />
oscillazioni nei dati di partenza (ma non a cambiamenti più sostanziali, ciò che segnalerebbe<br />
una scarsa sensibilità del metodo), può essere indagata con criteri statistici. Si può<br />
condizionati dall’esterno. Si tratta di due metodologie particolari, note come clustering vincolato e clustering<br />
adattato.<br />
Nel clustering vincolato, applicabile a tutte le procedure gerarchiche descritte, sia agglomerative che divisive,<br />
modificando opportunamente l’algoritmo, sono imposti dei vincoli esterni, in modo da impedire che i cluster riflettano<br />
fedelmente la somiglianza/dissomiglianza tra gli oggetti. Tali vincoli consistono nell’escludere l’aggregazione di<br />
determinati oggetti durante il clustering, nonostante la loro somiglianza. Un esempio si ha negli studi palinologici e<br />
paleontologici, in cui si vuole evitare che strati fisicamente lontani vengano agglomerati durante il processo.<br />
Il clustering adattato serve invece a guidare in qualche misura il processo, in modo da renderlo coerente con<br />
alcuni risultati attesi che emergono direttamente da un esame preliminare dei dati o conoscenze pre-esistenti. Ciò è<br />
attuato con specifici algoritmi che fissano alcune caratteristiche di forma dei cluster.<br />
19 Vi sono altri strumenti grafici che permettono una migliore rappresentazione delle distanze/dissimilarità reali<br />
tra gli oggetti. Sono questi i cosiddetti alberi minimamente aperti (minimum spanning trees) e gli alberi additivi.<br />
I primi si differenziano dai dendrogrammi per il fatto che ogni vertice corrisponde ad un oggetto e i segmenti che<br />
li uniscono sono proporzionali alle distanze tra essi. L’albero è costruito progressivamente unendo i due oggetti più<br />
simili, facendo in modo che la somma complessiva dei segmenti sia la minima possibile ed evitando la formazione<br />
di strutture chiuse. Pur non essendo di per sé un metodo di clustering, ha stretta analogia con la procedura di legame<br />
singolo. I cluster possono esser ricavati con procedimento divisivo spezzando i segmenti a partire dai più lunghi. La<br />
sua principale applicazione rimane però il controllo degli ordinamenti a due dimensioni, che si ottiene proiettando<br />
l’albero sul diagramma e verificando le distanze tra gli oggetti ordinati.<br />
Gli alberi additivi, molto usati in psicologia, sono dendrogrammi particolari, in cui gli oggetti non sono allineati<br />
su una linea retta, ma sfasati. La distanza per qualsiasi coppia di oggetti è ottenuta addizionando la lunghezza dei<br />
segmenti lungo il percorso tra i due vertici corrispondenti.