28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

6 Introduction<br />

choisi pour mesure <strong>de</strong> simi<strong>la</strong>rité <strong>et</strong>, <strong>à</strong> l’instar <strong>de</strong>s métho<strong>de</strong>s précé<strong>de</strong>mment présentées, il dépend d’un<br />

paramètre sca<strong>la</strong>ire σ qui affecte les résultats [84]. Or, ce paramètre représente le rayon du voisinage<br />

[105] : il sert <strong>de</strong> seuil <strong>à</strong> partir duquel <strong>de</strong>ux points sont déc<strong>la</strong>rés proches ou non. Divers points <strong>de</strong> vues<br />

ont été adoptés pour le définir. Des approches globales [20, 84] <strong>et</strong> locales ont aussi été établies via<br />

<strong>de</strong>s interprétations physiques [42, 116] pour définir ce paramètre. Mais il reste <strong>à</strong> montrer l’influence<br />

<strong>de</strong> ce paramètre sur <strong>la</strong> qualité du clustering <strong>à</strong> travers <strong>de</strong>s mesures quantitatives <strong>et</strong> <strong>à</strong> en dégager une<br />

définition <strong>à</strong> même <strong>de</strong> donner <strong>de</strong>s informations sur <strong>la</strong> partition finale.<br />

D’un autre côté, le fonctionnement même <strong>de</strong> <strong>la</strong> métho<strong>de</strong> <strong>de</strong> spectral clustering requiert <strong>de</strong>s justifications<br />

théoriques. En eff<strong>et</strong>, <strong>de</strong>s limites sur c<strong>et</strong>te métho<strong>de</strong> ont été recensées [107, 80, 78]. Malgré<br />

l’explication générale <strong>à</strong> travers <strong>la</strong> conductance d’un graphe, il reste <strong>à</strong> justifier comment le regroupement<br />

dans un espace <strong>de</strong> plus p<strong>et</strong>ite dimension définit correctement le partitionnement <strong>de</strong>s données<br />

d’origines. Plusieurs travaux ont été menés pour expliquer le fonctionnement du clustering spectral.<br />

Comme son principe est <strong>de</strong> regrouper <strong>de</strong>s données <strong>à</strong> travers une notion <strong>de</strong> voisinage, le Clustering<br />

spectral peut être interprété comme <strong>la</strong> discrétisation d’un opérateur Lap<strong>la</strong>ce-Beltrami <strong>et</strong> d’un<br />

noyau <strong>de</strong> chaleur défini sur <strong>de</strong>s variétés sous l’hypothèse d’un échantillonnage uniforme <strong>de</strong> <strong>la</strong> variété<br />

[11, 12, 13]. D’autres raisonnements probabilistes basés sur <strong>de</strong>s modèles <strong>de</strong> diffusion [82, 83, 81] ont<br />

établi <strong>de</strong>s résultats asymptotiques pour un grand nombre <strong>de</strong> points. La consistance <strong>de</strong> c<strong>et</strong>te métho<strong>de</strong><br />

a aussi été étudiée en considérant un grand échantillon <strong>de</strong> données [63, 106]. Des propriétés sous<br />

<strong>de</strong>s hypothèses standards pour les matrices du Lap<strong>la</strong>cien normalisé ont été prouvées, incluant <strong>la</strong><br />

convergence du premier vecteur propre vers une fonction propre d’un opérateur limite. Cependant,<br />

d’un point <strong>de</strong> vue numérique, le Clustering spectral partitionne correctement un ensemble fini <strong>de</strong><br />

points. Considérer un ensemble fini <strong>de</strong> points pose le problème du sens <strong>à</strong> donner <strong>à</strong> <strong>la</strong> notion <strong>de</strong><br />

c<strong>la</strong>sse <strong>et</strong> <strong>de</strong> comment lier les c<strong>la</strong>sses finales <strong>à</strong> <strong>de</strong>s éléments spectraux (valeur propre/vecteur propres<br />

extraits d’une matrice affinité). Il reste <strong>à</strong> expliquer comment le clustering dans un espace <strong>de</strong> projection<br />

spectral caractérise le clustering dans l’espace d’origine <strong>et</strong> étudier le rôle du paramètre du<br />

noyau Gaussien dans le partitionnement.<br />

Enfin, dans le cadre <strong>de</strong> <strong>la</strong> biologie <strong>et</strong> <strong>de</strong> <strong>la</strong> segmentation d’images, nous avons affaire <strong>à</strong> un grand<br />

flot <strong>de</strong> données. Le calcul <strong>de</strong> <strong>la</strong> matrice affinité sur l’ensemble <strong>de</strong>s données puis <strong>de</strong> son spectre<br />

<strong>de</strong>vient alors très coûteux. Une parallélisation <strong>de</strong> c<strong>et</strong>te métho<strong>de</strong>, notamment <strong>de</strong>s travaux principalement<br />

basés sur <strong>de</strong>s techniques d’algèbre linéaire pour réduire le coût numérique, ont été développés<br />

[44, 92, 38]. Cependant, les algorithmes développés ne s’affranchissent pas <strong>de</strong> <strong>la</strong> construction <strong>de</strong> <strong>la</strong><br />

matrice affinité complète. C<strong>et</strong>te étape reste très coûteuse en temps <strong>de</strong> calcul <strong>et</strong> en stockage mémoire.<br />

De plus, déterminer le nombre <strong>de</strong> clusters reste un problème ouvert. Il reste donc <strong>à</strong> définir<br />

une stratégie parallèle pour traiter un grand nombre <strong>de</strong> données <strong>et</strong> automatiser le choix du nombre<br />

<strong>de</strong> clusters <strong>et</strong> les paramètres inhérents au clustering spectral <strong>et</strong> <strong>à</strong> <strong>la</strong> stratégie parallèle.<br />

P<strong>la</strong>n <strong>de</strong> <strong>la</strong> Thèse<br />

C<strong>et</strong>te thèse se découpe autour <strong>de</strong> quatre chapitres suivant les points d’étu<strong>de</strong> précé<strong>de</strong>mment<br />

évoqués. Nous testerons <strong>la</strong> métho<strong>de</strong> sur <strong>de</strong>s exemples géométriques en 2D <strong>et</strong> 3D (ou challenges<br />

<strong>de</strong> clustering) <strong>et</strong> sur <strong>de</strong>s cas <strong>de</strong> segmentation d’images sur les quatre premiers chapitres. En eff<strong>et</strong>,<br />

l’aspect visuel pourra nous ai<strong>de</strong>r <strong>à</strong> juger <strong>de</strong> <strong>la</strong> performance <strong>de</strong> <strong>la</strong> métho<strong>de</strong> avant <strong>de</strong> l’appliquer sur<br />

<strong>de</strong>s cas réels <strong>de</strong> biologie ou d’imagerie médicale dans le quatrième chapitre.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!