29.05.2013 Views

Prati, pascoli e paesaggio alpino - SoZooAlp

Prati, pascoli e paesaggio alpino - SoZooAlp

Prati, pascoli e paesaggio alpino - SoZooAlp

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

91<br />

PRATI, PASCOLI E PAESAGGIO ALPINO<br />

elementi. Si riconoscono tre metodologie fondamentali: le ripartizione, i cluster di sovrapposizione<br />

e il clustering sfocato.<br />

I metodi di ripartizione forniscono una distribuzione degli oggetti in k cluster distinti.<br />

Le ripartizioni sono dette hard o crisp in quanto, diversamente da quanto succede<br />

nel clustering sfocato, ogni entità può appartenere solo ad un singolo cluster ed ogni<br />

cluster deve possedere almeno un elemento (altrimenti vi sarebbero meno di k cluster).<br />

L’algoritmo di classificazione è solitamente iterativo e le iterazioni cessano quando è<br />

massimizzata la bontà della ripartizione, valutata da una funzione il cui valore deve essere<br />

ridotto al minimo. Il numero dei cluster va specificato a priori e, poiché il numero<br />

ottimale non è noto, occorre provare con tutti i possibili valori, scegliendo la soluzione<br />

che minimizza la funzione di bontà. Con molti oggetti il procedimento diventa estremamente<br />

laborioso, per cui in pratica ci si accontenta di un numero ridotto di tentativi (indicativamente<br />

una decina). A seconda di come è definita la funzione di bontà e di come<br />

si aggiusta la ripartizione ad ogni iterazione, si hanno differenti procedure, la più nota<br />

delle quali è quella delle k medie, con le sue varianti, che segue il criterio della massima<br />

coesione dei cluster ricercata minimizzando la devianza interna 12 . Altre procedure, più<br />

complesse, prendono in considerazione anche il criterio della separazione dei cluster e,<br />

a differenza delle k medie, si possono estendere anche ai dati binari e ordinali 13 . I cluster<br />

di sovrapposizione, noti come clustering Bk, diversamente dai metodi di ripartizione<br />

accettano che un oggetto faccia parte di più raggruppamenti. Si prestano perciò alla<br />

classificazione di quelle entità poco caratterizzate, di difficile collocazione, che vengono<br />

assegnate contemporaneamente a più cluster attraverso una classificazione sovrapposta.<br />

Sono prodotte più classificazioni corrispondenti ai diversi valori di k, nelle quali due<br />

cluster qualsiasi possono sovrapporsi ad ogni altro cluster in un numero massimo di k-1<br />

oggetti: la lettera k non indica dunque qui il numero di cluster, bensì il numero massimo<br />

di oggetti che possono essere condivisi nei cluster sovrapposti. Le classificazioni B1 saranno<br />

così ripartizioni hard, le B2 saranno quelle nelle quali un oggetto potrà appartenere<br />

a due cluster, le B3 quelle in cui gli oggetti condivisi saranno al massimo due e così via.<br />

L’algoritmo è piuttosto complicato, come complessa è la rappresentazione dei risultati,<br />

specialmente quando si hanno molti oggetti e cluster. In tal caso i risultati non possono<br />

essere mostrati senza l’ausilio di altri strumenti statistici, quali gli ordinamenti. Per tale<br />

12 L’algoritmo standard del metodo prevede (1) di selezionare una iniziale arbitraria ripartizione degli oggetti<br />

in k gruppi, (2) di calcolare il centroide (la media per tutte le variabili descrittive) per ogni cluster e (3) determinare<br />

la distanza Euclidea per ogni oggetto dal rispettivo centroide. La bontà della ripartizione è misurata in termini di<br />

devianza:<br />

J = ∑h=1 k ∑j∊Ah mh ∑i=1 n (xij – zih) 2<br />

dove: zih = centroide (media) del cluster Ah per la variabile i<br />

mh = numero degli oggetti nel cluster Ah<br />

n = numero delle variabili.<br />

Se vi sono oggetti il cui riposizionamento riduce il valore di J, questi sono collocati nel nuovo gruppo e si ritorna<br />

al punto (2) e al punto (3), ripetendo le iterazioni fino a che non sono più possibili diminuzioni di J.<br />

13 Metodi particolari di ripartizione, utili per elaborare matrici molto grandi (migliaia di oggetti), non<br />

agevolmente analizzabili con altri metodi, sono quelli che permettono classificazioni veloci, a scapito però della<br />

qualità dei risultati. Essi da un lato leggono i dati oggetto per oggetto, evitando l’immagazzinamento della matrice<br />

completa nella memoria operativa del computer, dall’altro riducono la mole dei dati da sottoporre ad ulteriore analisi<br />

rappresentando ogni cluster con uno dei suoi membri. La procedura di base in tali ripartizioni è l’algoritmo leader, che<br />

ha però l’inconveniente di far dipendere i risultati dalla sequenza con la quale gli oggetti sono presentati per l’analisi.<br />

Ad esso si può rimediare scegliendo casualmente l’elemento leader, ma questo rallenta notevolmente la procedura.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!