28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 1<br />

C<strong>la</strong>ssification <strong>spectrale</strong> : algorithme <strong>et</strong><br />

étu<strong>de</strong> du paramètre<br />

Ce chapitre s’intéresse <strong>à</strong> <strong>la</strong> métho<strong>de</strong> <strong>de</strong> c<strong>la</strong>ssification <strong>spectrale</strong> (ou clustering spectral) <strong>et</strong> <strong>à</strong> sa mise<br />

en oeuvre. Comme c<strong>et</strong>te métho<strong>de</strong> repose sur <strong>la</strong> seule mesure d’affinité entre tous les couples <strong>de</strong> points,<br />

sans a priori sur les formes <strong>de</strong>s c<strong>la</strong>sses (ou clusters), nous étudierons plus particulièrement, après<br />

une présentation <strong>de</strong> l’algorithme, le paramètre <strong>de</strong> l’affinité gaussienne. En eff<strong>et</strong>, son rôle est crucial<br />

dans le partitionnement <strong>de</strong>s données <strong>et</strong> il n’existe pas a priori <strong>de</strong> moyen pour définir un paramètre<br />

optimal, mais un ordre <strong>de</strong> gran<strong>de</strong>ur peut être accessible. On propose donc <strong>de</strong>ux heuristiques qui<br />

seront confrontées aux résultats théoriques dans le chapitre suivant. Dans un premier temps, les<br />

diverses définitions, globales <strong>et</strong> locales, basées sur <strong>de</strong>s interprétations physiques seront présentées.<br />

Ensuite nous proposerons une heuristique basée sur un point <strong>de</strong> vue géométrique <strong>et</strong> nous introduirons<br />

une mesure <strong>de</strong> qualité pour étudier l’influence <strong>de</strong> ce paramètre sur les résultats <strong>de</strong> c<strong>la</strong>ssification (ou<br />

clustering).<br />

1.1 Présentation <strong>de</strong> <strong>la</strong> c<strong>la</strong>ssification <strong>spectrale</strong><br />

Dans <strong>la</strong> suite, nous présentons un algorithme <strong>de</strong> spectral clustering <strong>et</strong> le choix du paramètre <strong>de</strong><br />

l’affinité gaussienne sera étudié.<br />

1.1.1 Algorithme <strong>de</strong> c<strong>la</strong>ssification <strong>spectrale</strong><br />

La métho<strong>de</strong> <strong>de</strong> clustering spectral consiste <strong>à</strong> extraire les vecteurs propres associés aux plus<br />

gran<strong>de</strong>s valeurs propres d’une matrice affinité normalisée, issue d’un noyau <strong>de</strong> Mercer [48]. Ces<br />

vecteurs propres constituent un espace <strong>de</strong> dimension réduite dans lequel les données transformées<br />

seront linéairement séparables. Deux principales c<strong>la</strong>sses d’algorithmes <strong>de</strong> clustering spectral ont été<br />

développées <strong>à</strong> partir <strong>de</strong> partitionnement <strong>de</strong> graphes [104]. La première est fondée sur un partitionnement<br />

bipartite récursif <strong>à</strong> partir du vecteur propre associé <strong>à</strong> <strong>la</strong> secon<strong>de</strong> plus gran<strong>de</strong> valeur propre<br />

du graphe du Lap<strong>la</strong>cien normalisé [63, 91], ou vecteur <strong>de</strong> Fiedler [25] dans le cas non-normalisé. La<br />

<strong>de</strong>uxième c<strong>la</strong>sse d’algorithmes n’utilise pas <strong>de</strong> manière récursive un seul vecteur propre mais propose<br />

<strong>de</strong> proj<strong>et</strong>er les données originales dans un espace défini par les k plus grands vecteurs propres d’une<br />

matrice d’adjacence normalisée (ou matrice simi<strong>la</strong>ire <strong>à</strong> celle-ci), <strong>et</strong> d’appliquer un algorithme standard<br />

comme k-means sur ces nouvelles coordonnées [84, 79]. Nous porterons l’étu<strong>de</strong> principalement<br />

sur c<strong>et</strong>te <strong>de</strong>rnière c<strong>la</strong>sse dans un souci <strong>de</strong> coût numérique <strong>et</strong> <strong>de</strong> simplicité algorithmique.<br />

Y.Weiss <strong>et</strong> al (NJW) [84] présentent c<strong>et</strong>te <strong>de</strong>rnière c<strong>la</strong>sse d’algorithmes (c.f. Algorithme 1) pour<br />

partitionner un ensemble <strong>de</strong> points S = {x1, ..., xN} ⊂ R p en k clusters où k est fixé. NJW justifient<br />

9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!