29.05.2013 Views

Prati, pascoli e paesaggio alpino - SoZooAlp

Prati, pascoli e paesaggio alpino - SoZooAlp

Prati, pascoli e paesaggio alpino - SoZooAlp

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5.6. valutazione dei risultati del clustering<br />

101<br />

PRATI, PASCOLI E PAESAGGIO ALPINO<br />

L’elevato numero dei metodi di clustering e i differenti riscontri che possono fornire<br />

pongono problemi di scelta non semplici. La classificazione ottimale va sempre ricercata<br />

attraverso la comparazione di più alternative, valutandone l’efficacia rispetto agli<br />

obiettivi dell’identificazione degli oggetti singolari e delle disgiunzioni, del controllo del<br />

rumore, del riassunto della ridondanza e dell’evidenziazione della struttura delle relazioni.<br />

Un importante supporto può venire dall’analisi di ordinamento che, come si chiarirà<br />

nel capitolo seguente, pur non essendo di per sé una tecnica di classificazione, si presta<br />

anche a questo scopo. Del resto, la coerenza tra la classificazione e l’ordinamento rappresenta<br />

una condizione auspicabile per l’analisi ecologica.<br />

La valutazione della classificazione assume aspetti di maggiore complessità in matrici<br />

di grande dimensione e soprattutto nel clustering gerarchico, dove il giudizio non<br />

riguarda solo gli aggruppamenti, ma tutta la struttura di agglomerazione. In questo caso,<br />

oltre al confronto tra più tecniche, si possono utilizzare procedure che esaminano il<br />

dendrogramma dall’interno, nella sua coerenza con le relazioni di somiglianza/dissomiglianza<br />

tra gli oggetti e nella sua stabilità. La coerenza si può stimare per mezzo di vari<br />

indici, il più noto dei quali, valido per dati quantitativi, è la correlazione cofonetica, una<br />

correlazione lineare funzione delle scarto tra la matrice delle distanze reali tra gli oggetti<br />

(la matrice secondaria) e la matrice delle distanze riportate nel dendrogramma. Queste<br />

distanze, dette ultrametriche, non coincidono mai con le originali (anzi, talvolta divergono<br />

fortemente), causa le aggregazione degli oggetti nei cluster, ossia la loro collocazione<br />

su un medesimo livello gerarchico del dendrogramma a fronte di distanze differenti dagli<br />

altri oggetti 19 . La correlazione cofonetica oscilla normalmente tra 0.60 e 0.95. I valori<br />

più elevati, segno di migliore adattamento, si ottengono abitualmente con il clustering<br />

medio di gruppo. La stabilità della classificazione, ossia l’insensibilità rispetto a piccole<br />

oscillazioni nei dati di partenza (ma non a cambiamenti più sostanziali, ciò che segnalerebbe<br />

una scarsa sensibilità del metodo), può essere indagata con criteri statistici. Si può<br />

condizionati dall’esterno. Si tratta di due metodologie particolari, note come clustering vincolato e clustering<br />

adattato.<br />

Nel clustering vincolato, applicabile a tutte le procedure gerarchiche descritte, sia agglomerative che divisive,<br />

modificando opportunamente l’algoritmo, sono imposti dei vincoli esterni, in modo da impedire che i cluster riflettano<br />

fedelmente la somiglianza/dissomiglianza tra gli oggetti. Tali vincoli consistono nell’escludere l’aggregazione di<br />

determinati oggetti durante il clustering, nonostante la loro somiglianza. Un esempio si ha negli studi palinologici e<br />

paleontologici, in cui si vuole evitare che strati fisicamente lontani vengano agglomerati durante il processo.<br />

Il clustering adattato serve invece a guidare in qualche misura il processo, in modo da renderlo coerente con<br />

alcuni risultati attesi che emergono direttamente da un esame preliminare dei dati o conoscenze pre-esistenti. Ciò è<br />

attuato con specifici algoritmi che fissano alcune caratteristiche di forma dei cluster.<br />

19 Vi sono altri strumenti grafici che permettono una migliore rappresentazione delle distanze/dissimilarità reali<br />

tra gli oggetti. Sono questi i cosiddetti alberi minimamente aperti (minimum spanning trees) e gli alberi additivi.<br />

I primi si differenziano dai dendrogrammi per il fatto che ogni vertice corrisponde ad un oggetto e i segmenti che<br />

li uniscono sono proporzionali alle distanze tra essi. L’albero è costruito progressivamente unendo i due oggetti più<br />

simili, facendo in modo che la somma complessiva dei segmenti sia la minima possibile ed evitando la formazione<br />

di strutture chiuse. Pur non essendo di per sé un metodo di clustering, ha stretta analogia con la procedura di legame<br />

singolo. I cluster possono esser ricavati con procedimento divisivo spezzando i segmenti a partire dai più lunghi. La<br />

sua principale applicazione rimane però il controllo degli ordinamenti a due dimensioni, che si ottiene proiettando<br />

l’albero sul diagramma e verificando le distanze tra gli oggetti ordinati.<br />

Gli alberi additivi, molto usati in psicologia, sono dendrogrammi particolari, in cui gli oggetti non sono allineati<br />

su una linea retta, ma sfasati. La distanza per qualsiasi coppia di oggetti è ottenuta addizionando la lunghezza dei<br />

segmenti lungo il percorso tra i due vertici corrispondenti.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!