Prati, pascoli e paesaggio alpino - SoZooAlp
Prati, pascoli e paesaggio alpino - SoZooAlp
Prati, pascoli e paesaggio alpino - SoZooAlp
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
91<br />
PRATI, PASCOLI E PAESAGGIO ALPINO<br />
elementi. Si riconoscono tre metodologie fondamentali: le ripartizione, i cluster di sovrapposizione<br />
e il clustering sfocato.<br />
I metodi di ripartizione forniscono una distribuzione degli oggetti in k cluster distinti.<br />
Le ripartizioni sono dette hard o crisp in quanto, diversamente da quanto succede<br />
nel clustering sfocato, ogni entità può appartenere solo ad un singolo cluster ed ogni<br />
cluster deve possedere almeno un elemento (altrimenti vi sarebbero meno di k cluster).<br />
L’algoritmo di classificazione è solitamente iterativo e le iterazioni cessano quando è<br />
massimizzata la bontà della ripartizione, valutata da una funzione il cui valore deve essere<br />
ridotto al minimo. Il numero dei cluster va specificato a priori e, poiché il numero<br />
ottimale non è noto, occorre provare con tutti i possibili valori, scegliendo la soluzione<br />
che minimizza la funzione di bontà. Con molti oggetti il procedimento diventa estremamente<br />
laborioso, per cui in pratica ci si accontenta di un numero ridotto di tentativi (indicativamente<br />
una decina). A seconda di come è definita la funzione di bontà e di come<br />
si aggiusta la ripartizione ad ogni iterazione, si hanno differenti procedure, la più nota<br />
delle quali è quella delle k medie, con le sue varianti, che segue il criterio della massima<br />
coesione dei cluster ricercata minimizzando la devianza interna 12 . Altre procedure, più<br />
complesse, prendono in considerazione anche il criterio della separazione dei cluster e,<br />
a differenza delle k medie, si possono estendere anche ai dati binari e ordinali 13 . I cluster<br />
di sovrapposizione, noti come clustering Bk, diversamente dai metodi di ripartizione<br />
accettano che un oggetto faccia parte di più raggruppamenti. Si prestano perciò alla<br />
classificazione di quelle entità poco caratterizzate, di difficile collocazione, che vengono<br />
assegnate contemporaneamente a più cluster attraverso una classificazione sovrapposta.<br />
Sono prodotte più classificazioni corrispondenti ai diversi valori di k, nelle quali due<br />
cluster qualsiasi possono sovrapporsi ad ogni altro cluster in un numero massimo di k-1<br />
oggetti: la lettera k non indica dunque qui il numero di cluster, bensì il numero massimo<br />
di oggetti che possono essere condivisi nei cluster sovrapposti. Le classificazioni B1 saranno<br />
così ripartizioni hard, le B2 saranno quelle nelle quali un oggetto potrà appartenere<br />
a due cluster, le B3 quelle in cui gli oggetti condivisi saranno al massimo due e così via.<br />
L’algoritmo è piuttosto complicato, come complessa è la rappresentazione dei risultati,<br />
specialmente quando si hanno molti oggetti e cluster. In tal caso i risultati non possono<br />
essere mostrati senza l’ausilio di altri strumenti statistici, quali gli ordinamenti. Per tale<br />
12 L’algoritmo standard del metodo prevede (1) di selezionare una iniziale arbitraria ripartizione degli oggetti<br />
in k gruppi, (2) di calcolare il centroide (la media per tutte le variabili descrittive) per ogni cluster e (3) determinare<br />
la distanza Euclidea per ogni oggetto dal rispettivo centroide. La bontà della ripartizione è misurata in termini di<br />
devianza:<br />
J = ∑h=1 k ∑j∊Ah mh ∑i=1 n (xij – zih) 2<br />
dove: zih = centroide (media) del cluster Ah per la variabile i<br />
mh = numero degli oggetti nel cluster Ah<br />
n = numero delle variabili.<br />
Se vi sono oggetti il cui riposizionamento riduce il valore di J, questi sono collocati nel nuovo gruppo e si ritorna<br />
al punto (2) e al punto (3), ripetendo le iterazioni fino a che non sono più possibili diminuzioni di J.<br />
13 Metodi particolari di ripartizione, utili per elaborare matrici molto grandi (migliaia di oggetti), non<br />
agevolmente analizzabili con altri metodi, sono quelli che permettono classificazioni veloci, a scapito però della<br />
qualità dei risultati. Essi da un lato leggono i dati oggetto per oggetto, evitando l’immagazzinamento della matrice<br />
completa nella memoria operativa del computer, dall’altro riducono la mole dei dati da sottoporre ad ulteriore analisi<br />
rappresentando ogni cluster con uno dei suoi membri. La procedura di base in tali ripartizioni è l’algoritmo leader, che<br />
ha però l’inconveniente di far dipendere i risultati dalla sequenza con la quale gli oggetti sono presentati per l’analisi.<br />
Ad esso si può rimediare scegliendo casualmente l’elemento leader, ma questo rallenta notevolmente la procedura.