28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

24 C<strong>la</strong>ssification <strong>spectrale</strong> : algorithme <strong>et</strong> étu<strong>de</strong> du paramètre<br />

où L (ij) Ni F = l=1<br />

Nj m=1 |L(ij)<br />

lm |2<br />

1<br />

2<br />

<strong>et</strong> où Ni <strong>et</strong> Nj sont les dimensions du bloc (ij) <strong>de</strong> L.<br />

Si le ratio est proche <strong>de</strong> 0 alors <strong>la</strong> matrice affinité réordonnancée par cluster a une structure blocdiagonale,<br />

proche du cas idéal <strong>et</strong> donc le clustering obtenu est bon.<br />

Prenons l’exemple du cas idéal <strong>de</strong> <strong>la</strong> figure 1.1 où l’on considère 3 blocs séparés d’une distance<br />

d. Avec k = 3, <strong>la</strong> matrice suivante L s’écrit donc <strong>de</strong> <strong>la</strong> façon suivante :<br />

⎡<br />

L = ⎣<br />

L (11) L (12) L (13)<br />

L (21) L (22) L (23)<br />

L (31) L (32) L (33)<br />

En notant d(xl, xm) <strong>la</strong> distance séparant xl <strong>et</strong> xm, <strong>de</strong>ux points <strong>de</strong> S appartenant <strong>à</strong> <strong>de</strong>ux clusters<br />

différents, on définit par ɛlm <strong>la</strong> distance telle que ɛlm = d(xl, xm) − d où d est <strong>la</strong> distance <strong>de</strong><br />

séparation entre les blocs. Pour i = j, <strong>la</strong> norme <strong>de</strong> Frobenius du bloc hors-diagonal L (ij) est majorée<br />

par inégalité triangu<strong>la</strong>ire par :<br />

ˆ L (ij) 2 F =<br />

Ni <br />

Nj <br />

l=1 m=1<br />

e − d+ɛlm 2<br />

2<br />

σ2 d2<br />

−<br />

≤ e σ2 ⎤<br />

⎦<br />

Ni <br />

Nj <br />

l=1 m=1<br />

e −ɛ lm 2<br />

2<br />

σ 2 .<br />

Pour i = j, les points <strong>de</strong> S appartenant au même cluster sont séparés par une distance homogène<br />

<strong>à</strong> ɛlm. Donc, le ratio rij est fonction <strong>de</strong> t ↦→ exp(− d2<br />

t2 ) qui tend vers 0 lorsque t tend vers 0.<br />

C<strong>et</strong>te mesure traduit par elle-même le principe du clustering : si le ratio est proche <strong>de</strong> 0 alors <strong>de</strong>s<br />

points appartenant <strong>à</strong> <strong>de</strong>s clusters différents seront le moins semb<strong>la</strong>ble <strong>et</strong> <strong>de</strong>s points appartenant<br />

au même cluster le plus semb<strong>la</strong>ble possible. Si le ratio rij est proche <strong>de</strong> 0, <strong>la</strong> matrice affinité a<br />

une structure quasi bloc-diagonale. C<strong>et</strong>te situation correspond dans l’espace spectral <strong>à</strong> <strong>de</strong>s clusters<br />

concentrés <strong>et</strong> séparés. Dans le cas général, les blocs hors-diagonaux <strong>de</strong> <strong>la</strong> matrice affinité normalisée<br />

L ne sont pas <strong>de</strong>s blocs nuls. Dans <strong>la</strong> figure 1.10 où l’on considère tous les exemples géométriques<br />

précé<strong>de</strong>mment présentés, les valeurs <strong>de</strong>s ratios rij en fonction <strong>de</strong>s valeurs <strong>de</strong> σ sont tracées pour<br />

les diverses valeurs <strong>de</strong> (i, j) ∈ {1, .., k} 2 avec i = j. Les lignes verticales noire, verte <strong>et</strong> magenta<br />

en pointillés indiquent respectivement <strong>la</strong> valeur du paramètre heuristique (1.2), celle du paramètre<br />

heuristique (1.3) <strong>et</strong> celle définie par Brand [20]. A l’instar <strong>de</strong> <strong>la</strong> mesure <strong>de</strong> qualité basée sur <strong>la</strong><br />

matrice <strong>de</strong> confusion, les valeurs <strong>de</strong> σ proches <strong>de</strong> 0 ne sont pas testées pour les figures (b), (e) <strong>et</strong><br />

(f) <strong>à</strong> cause du mauvais conditionnement <strong>de</strong> <strong>la</strong> matrice affinité A (supérieur <strong>à</strong> 1013 ).<br />

D’après les variations <strong>de</strong> ces mesures suivant les valeurs <strong>de</strong> σ, les intervalles sur lesquels <strong>la</strong> matrice<br />

affinité s’approche d’une structure bloc diagonale coïnci<strong>de</strong>nt avec ceux du pourcentage d’erreur <strong>de</strong><br />

<strong>la</strong> précé<strong>de</strong>nte mesure <strong>de</strong> qualité. C<strong>et</strong> intervalle dépend <strong>de</strong> <strong>la</strong> nature du problème <strong>et</strong> diffère suivant<br />

les cas comme on l’a observé avec <strong>la</strong> précé<strong>de</strong>nte mesure <strong>de</strong> qualité. Les résultats sur les six exemples<br />

géométriques montrent que l’intervalle <strong>de</strong> valeurs pour un choix approprié du paramètre σ est<br />

approximativement le même que pour <strong>la</strong> mesure <strong>de</strong> qualité basée sur le ratio matrice <strong>de</strong> confusion.<br />

Remarque 1.8. C<strong>et</strong>te mesure perm<strong>et</strong> donc d’évaluer <strong>la</strong> partition finale du clustering spectral <strong>à</strong><br />

partir <strong>de</strong> l’affinité entre les points. Etant non supervisée par nature, c<strong>et</strong>te mesure peut être utilisée<br />

pour déterminer le nombre <strong>de</strong> clusters k : le critère <strong>à</strong> minimiser serait un ratio moyen sur tous les<br />

blocs <strong>de</strong> <strong>la</strong> partition pour diverses valeurs <strong>de</strong> k (cf chapitre 4).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!