Contributions à l'étude de la classification spectrale et applications
Contributions à l'étude de la classification spectrale et applications
Contributions à l'étude de la classification spectrale et applications
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
34 C<strong>la</strong>ssification <strong>et</strong> éléments spectraux <strong>de</strong> <strong>la</strong> matrice affinité gaussienne<br />
Marche aléatoire sur un graphe<br />
Mei<strong>la</strong> <strong>et</strong> Shi [79] utilisent le lien entre le Lap<strong>la</strong>cien d’un graphe <strong>et</strong> les chaînes <strong>de</strong> Markov initié par<br />
[25] <strong>et</strong> i<strong>de</strong>ntifient <strong>la</strong> matrice d’affinité normalisée comme une matrice stochastique représentant une<br />
marche aléatoire sur un graphe <strong>et</strong> le critère <strong>de</strong> <strong>la</strong> coupe normalisée comme <strong>la</strong> somme <strong>de</strong>s probabilités<br />
<strong>de</strong> transition entre <strong>de</strong>ux ensembles. Mais, seuls le cas où les vecteurs propres sont constants par<br />
morceaux pour <strong>de</strong>s structures matricielles spécifiques (bloc diagonales) sont considérées. D’autres<br />
aspects <strong>de</strong>s marches aléatoires sont utilisés pour proposer <strong>de</strong>s variantes <strong>de</strong> <strong>la</strong> métho<strong>de</strong> <strong>de</strong> spectral<br />
clustering avec <strong>de</strong>s techniques agglomératives [55] ou bien l’utilisation d’une distance euclidienne<br />
basée sur le temps moyen <strong>de</strong> commutation entre les points d’une marche aléatoire d’un graphe [114].<br />
Perturbation matricielle<br />
Comme évoqué dans le chapitre 1, Ng, Jordan <strong>et</strong> Weiss [84] expliquent le clustering spectral en<br />
considérant un cas idéal où <strong>la</strong> matrice affinité gaussienne a une structure numérique bloc diagonale.<br />
Cependant, dans le cas général, c<strong>et</strong>te structure n’est pas conservée donc les auteurs utilisent <strong>de</strong>s<br />
résultats sur <strong>la</strong> perturbation <strong>de</strong> matrices. La théorie <strong>de</strong> <strong>la</strong> perturbation matricielle [96] traite du<br />
comportement <strong>de</strong>s valeurs propres <strong>et</strong> <strong>de</strong>s vecteurs propres d’une matrice B lorsque celle-ci est suj<strong>et</strong>te<br />
<strong>à</strong> <strong>de</strong> faibles perturbations additives H c’est-<strong>à</strong>-dire l’étu<strong>de</strong> <strong>de</strong>s éléments spectaux <strong>de</strong> ˜ B = B + H. Le<br />
théorème <strong>de</strong> Davis-Kahan [18] perm<strong>et</strong> <strong>de</strong> borner <strong>la</strong> différence, via les angles principaux [49], entre<br />
les espaces propres <strong>de</strong> B <strong>et</strong> ˜ B associés aux valeurs propres proches <strong>de</strong> 1. C<strong>et</strong>te différence dépend <strong>de</strong><br />
l’écart entre les valeurs propres proches <strong>de</strong> 1 <strong>et</strong> le reste du spectre. Or, ces résultats sont sensibles<br />
<strong>à</strong> l’importance <strong>de</strong> <strong>la</strong> perturbation <strong>et</strong> l’écart peut être très p<strong>et</strong>it.<br />
Interprétation via <strong>de</strong>s opérateurs<br />
D’autres interprétations mathématiques <strong>de</strong> c<strong>et</strong>te métho<strong>de</strong> ont été étudiées en utilisant une version<br />
continue <strong>de</strong> ce problème. Plusieurs travaux ont été menés pour expliquer le fonctionnement du<br />
clustering spectral. Belkin <strong>et</strong> Nyogi [11] ont montré que sur une variété <strong>de</strong> R p , les premiers vecteurs<br />
propres sont <strong>de</strong>s approximations <strong>de</strong> l’opérateur <strong>de</strong> Lap<strong>la</strong>ce-Beltrami. Mais c<strong>et</strong>te justification est<br />
vali<strong>de</strong> lorsque les données sont uniformément échantillonnées sur une variété <strong>de</strong> R p .<br />
Nadler <strong>et</strong> al [82] donnent une autre interprétation probabiliste basée sur un modèle <strong>de</strong> diffusion.<br />
Pour ce<strong>la</strong>, <strong>la</strong> distance <strong>de</strong> diffusion est définie comme une distance entre <strong>de</strong>ux points basée sur une<br />
marche aléatoire sur un graphe. La projection <strong>de</strong> diffusion <strong>de</strong> l’espace <strong>de</strong>s données dans un espace<br />
est définie par les k premiers vecteurs propres. Il a été démontré que les distances <strong>de</strong> diffusion dans<br />
l’espace original sont égales aux distances euclidiennes dans l’espace <strong>de</strong> projection <strong>de</strong> diffusion. Ce<br />
résultat justifie l’utilisation <strong>de</strong>s distances euclidiennes dans l’espace <strong>de</strong> projection pour <strong>de</strong> diffusion<br />
pour le clustering.<br />
Tous ces résultats sont établis asymptotiquement pour un grand nombre <strong>de</strong> points. Cependant,<br />
d’un point <strong>de</strong> vue numérique, le spectral clustering partitionne correctement un ensemble fini <strong>de</strong><br />
points avec <strong>de</strong>s distributions quelconques sur les dimensions.<br />
Nous proposons donc une nouvelle interprétation où l’ensemble fini <strong>de</strong>s données représentera <strong>la</strong><br />
discrétisation <strong>de</strong> sous-ensembles. Ainsi, les vecteurs propres <strong>de</strong> <strong>la</strong> matrice gaussienne seront, pour<br />
une bonne valeur <strong>de</strong> t, <strong>la</strong> représentation discrète <strong>de</strong> fonctions <strong>à</strong> support sur un seul <strong>de</strong> ces sousensembles.<br />
L’objectif est aussi d’avoir <strong>de</strong>s éléments d’analyse pour juger <strong>la</strong> qualité du clustering <strong>et</strong><br />
du choix du paramètre σ.