28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4.9.4 Comparaison avec <strong>la</strong> métho<strong>de</strong> k-means 157<br />

schémas parallèles <strong>et</strong> <strong>de</strong> nouveaux domaines d’<strong>applications</strong> relevant proprement <strong>de</strong> <strong>la</strong> c<strong>la</strong>ssification<br />

non supervisée. La complexité <strong>de</strong> c<strong>et</strong>te discipline étant justement dans le caractère "aveugle" <strong>de</strong>s<br />

métho<strong>de</strong>s <strong>à</strong> développer/utiliser, ce<strong>la</strong> ouvre donc plusieurs perspectives <strong>à</strong> ce travail.<br />

Tout d’abord, d’un point <strong>de</strong> vue théorique, nous avons pu montrer que l’algorithme du spectral<br />

clustering sans l’étape <strong>de</strong> normalisation revenait <strong>à</strong> rechercher, au sein <strong>de</strong> <strong>la</strong> matrice affinité, <strong>de</strong>s<br />

vecteurs propres "proches" (en un sens que nous avons quantifié en fonction <strong>de</strong> <strong>la</strong> distribution <strong>de</strong>s<br />

données <strong>et</strong> du choix du paramètre gaussien) d’une discrétisation conforme <strong>de</strong> fonctions propres d’un<br />

problème <strong>de</strong> <strong>la</strong> chaleur avec conditions <strong>de</strong> Dirichl<strong>et</strong> au bord. Ces <strong>de</strong>rnières furent reliées <strong>à</strong> <strong>de</strong>s propriétés<br />

dites "<strong>de</strong> clustering", c’est-<strong>à</strong>-dire perm<strong>et</strong>tant <strong>de</strong> déterminer l’appartenance <strong>à</strong> une composante<br />

connexe <strong>de</strong> tout point donné. Toutefois, le résultat nécessite une famille <strong>de</strong> vecteurs propres afin<br />

<strong>de</strong> pouvoir c<strong>la</strong>sser, sans détermination possible, tous les points d’un ensemble donné. De plus, c<strong>et</strong>te<br />

famille n’est a priori ni finie ni limitée aux premiers vecteurs propres (ceux associés aux plus gran<strong>de</strong>s<br />

valeurs propres). Les exemples numériques ont néanmoins montré que, dans le cas <strong>de</strong> l’algorithme<br />

<strong>de</strong> spectral clustering avec étape <strong>de</strong> normalisation, il était possible <strong>de</strong> se limiter aux k plus grands<br />

vecteurs propres pour avoir un critère déterminant exactement les clusters <strong>de</strong> l’ensemble <strong>à</strong> traiter.<br />

L’étape <strong>de</strong> normalisation semble donc déterminante pour simplifier <strong>la</strong> recherche <strong>de</strong>s "bons" éléments<br />

spectraux <strong>à</strong> utiliser. Comme évoqué dans le chapitre 2, il semblerait qu’elle perm<strong>et</strong>te d’apparenter <strong>la</strong><br />

métho<strong>de</strong> <strong>à</strong> <strong>la</strong> recherche <strong>de</strong> fonctions propres du problème <strong>de</strong> <strong>la</strong> chaleur avec conditions <strong>de</strong> Neumann.<br />

Ceci serait alors en accord avec le caractère constant par morceaux observé sur les vecteurs propres<br />

<strong>de</strong> <strong>la</strong> matrice affinité normalisée. Une première perspective serait donc <strong>de</strong> démontrer effectivement<br />

s’il s’agit bien d’une approximation <strong>de</strong>s solutions propres du problème avec conditions <strong>de</strong> Neumann<br />

<strong>et</strong> surtout <strong>de</strong> quantifier l’ordre d’erreur induit par les approximations successives afin, le cas échéant,<br />

<strong>de</strong> re-qualifier l’heuristique proposée sur le paramètre affinité gaussien.<br />

Par ailleurs, dans le cadre du traitement d’images, <strong>de</strong>s boîtes affinités 3D pour les niveaux <strong>de</strong> gris<br />

ou 5D pour les couleurs ont été définies pour allier les informations géométrique <strong>et</strong> <strong>de</strong> couleur d’une<br />

image. Ce concept utilise une normalisation <strong>de</strong>s données afin d’équilibrer le poids <strong>de</strong>s informations<br />

<strong>de</strong> natures différentes. Une étu<strong>de</strong> sur l’influence <strong>de</strong> c<strong>et</strong>te pondération sur les résultats théoriques<br />

pourrait être menée.<br />

Enfin c<strong>et</strong>te étu<strong>de</strong> théorique ouvre <strong>la</strong> voie <strong>à</strong> l’étu<strong>de</strong> d’autres métho<strong>de</strong>s <strong>à</strong> noyaux, <strong>à</strong> <strong>de</strong>s métho<strong>de</strong>s<br />

basées sur les noyaux <strong>de</strong> Mercer notamment, le k-means <strong>à</strong> noyaux <strong>et</strong> les estimateurs <strong>à</strong> noyaux.<br />

Du point <strong>de</strong> vue <strong>de</strong> <strong>la</strong> mise en oeuvre <strong>et</strong> <strong>de</strong>s performances <strong>de</strong>s stratégies <strong>de</strong> parallélisation<br />

proposées, plusieurs points pourraient être étudiés.<br />

En premier lieu, grâce <strong>à</strong> un bon choix <strong>de</strong> paramètre, <strong>la</strong> métho<strong>de</strong> du spectral clustering présente<br />

les meilleurs résultats sur nos exemples. Cependant d’autres étapes <strong>de</strong> l’algorithme peuvent<br />

être améliorées. En eff<strong>et</strong>, le travail <strong>de</strong> c<strong>et</strong>te thèse se concentrait sur l’étu<strong>de</strong> <strong>de</strong> <strong>la</strong> matrice d’affinité<br />

gaussienne, <strong>de</strong> son paramètre <strong>et</strong> <strong>de</strong> ses éléments spectraux afin d’expliquer <strong>la</strong> séparation <strong>de</strong>s<br />

données dans l’espace <strong>de</strong> projection <strong>spectrale</strong> <strong>et</strong> conditionner c<strong>et</strong>te séparation. L’étape <strong>de</strong> k-means<br />

qui constitue l’étape <strong>de</strong> clustering dans l’espace <strong>de</strong> projection <strong>spectrale</strong> n’a pas été <strong>à</strong> proprement<br />

étudiée. En eff<strong>et</strong>, le choix <strong>de</strong> <strong>la</strong> métrique, l’initialisation <strong>de</strong>s centres <strong>et</strong> <strong>de</strong>s estimateurs <strong>de</strong> <strong>la</strong> qualité<br />

<strong>de</strong> <strong>la</strong> partition peuvent être adaptés aux données <strong>de</strong> l’hypersphère unité <strong>de</strong> dimension k. Des gains<br />

importants, notamment en temps <strong>de</strong> calculs, pourraient être attendus d’une amélioration <strong>de</strong> c<strong>et</strong>te<br />

étape.<br />

Dans un second temps, d’un point <strong>de</strong> vue numérique, <strong>de</strong> nombreuses améliorations peuvent être<br />

apportées <strong>à</strong> <strong>la</strong> stratégie parallèle du spectral clustering. Afin d’optimiser les performances <strong>de</strong> <strong>la</strong><br />

parallélisation, une étu<strong>de</strong> sur <strong>la</strong> découpe <strong>de</strong>s données visant <strong>à</strong> équilibrer les données par processus<br />

serait nécessaire. De plus, <strong>de</strong>s techniques pour creuser <strong>la</strong> matrice affinité gaussienne via <strong>de</strong>s tech-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!