28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

22 C<strong>la</strong>ssification <strong>spectrale</strong> : algorithme <strong>et</strong> étu<strong>de</strong> du paramètre<br />

Mesure <strong>de</strong> qualité 1.6. Soit k le nombre <strong>de</strong> clusters. Après avoir appliqué le spectral clustering<br />

pour une valeur <strong>de</strong> k, on définit <strong>la</strong> matrice <strong>de</strong> confusion , notée C ∈ Mk,k(R), <strong>de</strong> <strong>la</strong> façon suivante :<br />

les éléments Cij définissent le nombre <strong>de</strong> points qui sont assignés au cluster j au lieu du cluster i<br />

pour i = j <strong>et</strong> Cii le nombre <strong>de</strong> points correctement assignés pour chaque cluster i. On définit alors<br />

un pourcentage <strong>de</strong> points mal-c<strong>la</strong>ssés, noté Perreur, par :<br />

Perreur =<br />

k<br />

i=j Cij<br />

N<br />

où N est le nombre <strong>de</strong> points <strong>et</strong> k le nombre <strong>de</strong> clusters.<br />

Le pourcentage d’erreur Perreur issu <strong>de</strong> <strong>la</strong> matrice <strong>de</strong> confusion donne une estimation <strong>de</strong> l’erreur<br />

réelle dans <strong>la</strong> métho<strong>de</strong> <strong>de</strong> clustering. C<strong>et</strong>te mesure est donc testée sur les exemples géométriques<br />

précé<strong>de</strong>mment présentés <strong>et</strong>, sur <strong>la</strong> figure 1.9, le pourcentage d’erreur Perreur est tracé en fonction<br />

<strong>de</strong>s valeurs <strong>de</strong> σ. Sur certains exemples comme (b), (e) <strong>et</strong> (f), les premières valeurs <strong>de</strong> σ ne sont pas<br />

testées car pour ces valeurs proches <strong>de</strong> 0, le conditionnement <strong>de</strong> <strong>la</strong> matrice affinité A est mauvais<br />

(supérieur <strong>à</strong> 10 13 ) ce qui ne perm<strong>et</strong> pas <strong>de</strong> faire converger les algorithmes <strong>de</strong> recherche <strong>de</strong> valeurs<br />

propres <strong>et</strong> vecteurs propres. De plus, les valeurs <strong>de</strong> σ supérieures <strong>à</strong> l’intervalle considéré pour chaque<br />

exemple ne présentent pas d’intérêt car le pourcentage d’erreur Perreur reste supérieur ou égal <strong>à</strong><br />

celui <strong>de</strong> <strong>la</strong> <strong>de</strong>rnière valeur <strong>de</strong> σ représentée sur <strong>la</strong> figure 1.9. Les lignes verticales noire, verte <strong>et</strong><br />

magenta en pointillés indiquent respectivement <strong>la</strong> valeur du paramètre heuristique (1.2), celle du<br />

paramètre heuristique (1.3) <strong>et</strong> celle définie par Brand [20]. Suivant les exemples, l’intervalle sur<br />

lequel il n’y a pas d’erreur <strong>de</strong> clustering varie considérablement d’un cas <strong>à</strong> l’autre : par exemple,<br />

<strong>la</strong> longueur <strong>de</strong> l’intervalle peut être <strong>de</strong> l’ordre <strong>de</strong> 0.4 pour (b) ou être inférieure <strong>à</strong> 0.1 pour (a)<br />

<strong>et</strong> (c). En eff<strong>et</strong>, le pourcentage d’erreur Perreur varie instantanément quand σ n’appartient plus <strong>à</strong><br />

l’intervalle adéquat. Comparées aux résultats numériques <strong>de</strong> <strong>la</strong> figure 1.3, les valeurs d’heuristiques<br />

pour lesquelles le partitionnement est incorrect appartiennent <strong>à</strong> l’intervalle où Perreur est supérieure<br />

<strong>à</strong> 0%. Les valeurs <strong>de</strong>s heuristiques (1.2) <strong>et</strong> (1.3) correspon<strong>de</strong>nt <strong>à</strong> une valeur <strong>de</strong> σ avec une erreur <strong>de</strong><br />

clustering nulle exceptée pour l’heuristique (1.2) avec l’exemple <strong>de</strong>s <strong>de</strong>ux rectangles étirés figure 1.9<br />

(f). C<strong>et</strong>te mesure vali<strong>de</strong> donc l’influence du paramètre ainsi que les résultats numériques <strong>de</strong>s figures<br />

1.3, 1.7 <strong>et</strong> 1.8 pour les différentes heuristiques.<br />

Ratio <strong>de</strong> normes <strong>de</strong> Frobenius<br />

La mesure par matrice <strong>de</strong> confusion donne un très bon outil d’analyse <strong>de</strong> <strong>la</strong> qualité du cluster.<br />

Elle <strong>de</strong>man<strong>de</strong> cependant <strong>de</strong> connaître l’état exact du clustering <strong>à</strong> obtenir <strong>et</strong> ne peut donc pas<br />

être utilisée pour <strong>de</strong>s <strong>applications</strong> non supervisées. En particulier, on cherche <strong>à</strong> évaluer <strong>de</strong> manière<br />

automatique le bon nombre <strong>de</strong> clusters. Pour ce faire, on propose d’introduire une autre mesure <strong>de</strong><br />

qualité calculée directement <strong>à</strong> partir <strong>de</strong>s données internes au calcul. Après validation, c<strong>et</strong>te mesure<br />

sera introduite par <strong>la</strong> suite comme outil <strong>de</strong> <strong>la</strong> stratégie parallèle présentée au chapitre 4.<br />

Mesure <strong>de</strong> qualité 1.7. Après avoir appliqué le spectral clustering pour un nombre <strong>de</strong> clusters k<br />

<strong>à</strong> déterminer mais que l’on fixe a priori, <strong>la</strong> matrice affinité A définie par (1.1) est réordonnancée<br />

par cluster. On obtient <strong>la</strong> matrice par bloc, notée L, telle que les blocs hors diagonaux représentent<br />

les affinités entre les clusters <strong>et</strong> les blocs diagonaux l’affinité intra-cluster. On évalue les ratios entre<br />

les normes <strong>de</strong> Frobenius <strong>de</strong>s blocs diagonaux <strong>et</strong> ceux hors-diagonaux pour i, j ∈ 1, .., k <strong>et</strong> i = j :<br />

rij = L(ij) F<br />

L (ii) , (1.4)<br />

F

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!