28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1.3 Validations numériques 19<br />

1.3 Validations numériques<br />

Afin <strong>de</strong> vali<strong>de</strong>r les heuristiques (1.2) <strong>et</strong> (1.3), elles sont testées sur les 6 exemples géométriques<br />

2D <strong>de</strong>s figures 1.3 <strong>et</strong> 1.4 :<br />

– (a) smiley constitué <strong>de</strong> N = 790 points <strong>et</strong> <strong>de</strong> k = 3 clusters,<br />

– (b) 2 cercles concentriques avec N = 250 points <strong>et</strong> k = 2,<br />

– (c) 3 portions <strong>de</strong> couronnes concentriques <strong>de</strong> N = 1200 points <strong>et</strong> k = 3,<br />

– (d) 2 carrés concentriques N = 600 points,<br />

– (e) une cible <strong>de</strong> N = 650 points constituée <strong>de</strong> k = 4 couronnes ;<br />

– (f) 2 rectangles étirés <strong>de</strong> N = 640 points.<br />

Ces exemples sont utilisés par [84, 20, 116] car ils représentent <strong>de</strong>s domaines non-convexes, aux<br />

<strong>de</strong>nsités inter-clusters <strong>et</strong> intra-cluster variables <strong>et</strong> faisant échouer <strong>de</strong>s métho<strong>de</strong>s c<strong>la</strong>ssiques comme <strong>la</strong><br />

métho<strong>de</strong> k-means. Le résultat du clustering pour chaque exemple est présenté sur les figures 1.7 <strong>et</strong><br />

1.8. Les heuristiques (1.2) <strong>et</strong> (1.3) partitionnent correctement les exemples géométriques (a) <strong>à</strong> (e) <strong>et</strong><br />

leurs valeurs sont très proches voire égales car <strong>la</strong> distribution est isotropique avec approximativement<br />

les mêmes amplitu<strong>de</strong>s suivant chaque direction. Par contre, l’exemple (f) représente un cas où <strong>la</strong><br />

distribution est isotropique avec <strong>de</strong>s amplitu<strong>de</strong>s différentes d’un facteur 10 suivant les directions.<br />

Seule l’heuristique (1.3) partitionne correctement. En eff<strong>et</strong>, l’adaptation <strong>de</strong>s dimensions <strong>de</strong> <strong>la</strong> boîte<br />

<strong>à</strong> <strong>la</strong> distribution <strong>de</strong>s points a divisé par <strong>de</strong>ux <strong>la</strong> valeur <strong>de</strong> (1.2).<br />

Pour l’étu<strong>de</strong> plus fine du paramètre, il faut maintenant introduire <strong>de</strong>s critères, <strong>de</strong>s mesures<br />

<strong>de</strong> qualités, perm<strong>et</strong>tant <strong>de</strong> vali<strong>de</strong>r ces heuristiques <strong>et</strong> <strong>de</strong> montrer l’influence du paramètre sur les<br />

résultats.<br />

1.3.1 Mesures <strong>de</strong> qualité<br />

Plusieurs critères pour évaluer l’efficacité du résultat <strong>de</strong> clustering existent. Parmi eux, Mei<strong>la</strong> [78]<br />

introduit <strong>la</strong> Variation d’Information (VI) pour comparer <strong>de</strong>ux clusterings. La VI est une métrique<br />

évaluant <strong>la</strong> quantité d’information gagnée ou perdue d’un cluster <strong>à</strong> un autre utilisant l’entropie<br />

associée <strong>à</strong> un cluster <strong>et</strong> l’information mutuelle. La différence entre <strong>de</strong>ux clusters peut être mesurée<br />

avec l’indice <strong>de</strong> Wal<strong>la</strong>ce introduit par Wal<strong>la</strong>ce [109]. Elle consiste <strong>à</strong> calculer <strong>la</strong> probabilité (donc <strong>à</strong><br />

valeur dans [0, 1]) qu’un couple <strong>de</strong> points soit correctement c<strong>la</strong>ssé. C<strong>et</strong> indice donne <strong>la</strong> valeur 1 si<br />

le clustering n’a pas d’erreur.<br />

Dans c<strong>et</strong>te section, nous nous intéresserons <strong>à</strong> <strong>la</strong> matrice <strong>de</strong> confusion <strong>de</strong> Verma <strong>et</strong> Mei<strong>la</strong> [104]<br />

perm<strong>et</strong>tant d’évaluer le pourcentage exact <strong>de</strong> points mal c<strong>la</strong>ssés. Puis nous définissons une nouvelle<br />

mesure <strong>de</strong> qualité basée sur les normes <strong>de</strong> Frobenius <strong>de</strong> blocs d’affinités pour comparer les affinités<br />

entre les clusters <strong>et</strong> celles intra-clusters. Dans les <strong>de</strong>ux cas, nous étudierons sur <strong>de</strong>ux exemples<br />

géométriques l’évolution <strong>de</strong> <strong>la</strong> qualité en fonction <strong>de</strong>s valeurs du paramètre σ.<br />

Matrice <strong>de</strong> Confusion<br />

Introduite par Verma <strong>et</strong> Mei<strong>la</strong> [104], <strong>la</strong> matrice <strong>de</strong> confusion évalue l’erreur réelle <strong>de</strong> clustering<br />

c’est-<strong>à</strong>-dire le nombre <strong>de</strong> points mal assignés au sein <strong>de</strong>s clusters. Elle suppose donc que les clusters<br />

sont connus a priori.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!