36 C<strong>la</strong>ssification <strong>et</strong> éléments spectraux <strong>de</strong> <strong>la</strong> matrice affinité gaussienne (a) Exemple <strong>de</strong> clustering idéal (b) Exemple <strong>de</strong> sous-clustering (c) Exemple <strong>de</strong> sur-clustering (d) Exemple <strong>de</strong> mauvais clustering Figure 2.1 – Définitions du clustering
2.2 Présentation du résultat principal 37 pour tout j ∈ {1, .., k}, Cj ⊂ Pj. Or il existe j ∈ {1, .., k} tel que Cj = Pj. Donc k j=1 Cj = k j=1 Pj = P. Ce qui contredit l’hypothèse que C est une partition. La réciproque est triviale. Supposons maintenant que Ω n’induise pas un k-clustering compatible, c’est-<strong>à</strong>-dire qu’il existe <strong>de</strong>ux points xi ∈ Pi <strong>et</strong> xj ∈ Pj avec i = j tels que xi ∈ C1 <strong>et</strong> xj ∈ C1. S’ils sont assignés au même cluster C1 alors, d’après l’algorithme 2, Yi1 = 0 <strong>et</strong> Yj1 = 0. En d’autres termes, (X1)i = 0 <strong>et</strong> (X1)j = 0. Alors, d’après les hypothèses sur les vecteurs propres, xi ∈ P1 <strong>et</strong> xj ∈ P1 ce qui est faux. Donc <strong>la</strong> partition C = {C1, .., Ck} est i<strong>de</strong>ntique au k-clustering induit par Ω. La proposition 2.2 énonce un résultat <strong>de</strong> clustering immédiat en ce sens qu’il est trivial <strong>à</strong> réaliser, sous réserve qu’on puisse trouver exactement k vecteurs dont les coordonnées sont non nulles sur une seule <strong>de</strong>s k partitions <strong>de</strong> points Pj, j = 1, . . . , k. Il est c<strong>la</strong>ir que dans <strong>la</strong> pratique ce ne sera pas le cas, mais nous allons analyser dans ce chapitre sous quelles hypothèses il est possible <strong>de</strong> se rapprocher <strong>de</strong> c<strong>et</strong>te situation idéale. Avant toute chose, il est utile <strong>de</strong> rappeler que l’existence <strong>de</strong> tels vecteurs rejoint directement l’hypothèse <strong>de</strong> structure diagonale par bloc <strong>de</strong> <strong>la</strong> matrice A, telle que l’exploitent Ng, Jordan <strong>et</strong> Weiss [84]. En eff<strong>et</strong>, sous l’hypothèse d’une telle structure diagonale par bloc, les vecteurs propres <strong>de</strong> A peuvent se regrouper en k sous ensembles <strong>de</strong> vecteurs ayant chacun <strong>de</strong>s composantes non nulles en correspondance avec l’un <strong>de</strong>s k blocs diagonaux <strong>de</strong> <strong>la</strong> matrice. La normalisation <strong>de</strong> <strong>la</strong> matrice ne sert alors qu’<strong>à</strong> éviter d’avoir <strong>à</strong> faire une décomposition <strong>spectrale</strong> complète <strong>de</strong> <strong>la</strong> matrice A <strong>et</strong> <strong>à</strong> r<strong>et</strong>rouver (étape qui peut être coûteuse) dans l’ensemble <strong>de</strong>s vecteurs propres <strong>la</strong> répartition par bloc <strong>de</strong>s composantes non nulles <strong>de</strong> ces vecteurs (après permutation éventuelle <strong>de</strong>s lignes). En eff<strong>et</strong>, <strong>la</strong> normalisation garantit simplement que <strong>la</strong> valeur propre dominante égale <strong>à</strong> 1 est <strong>de</strong> multiplicité k, <strong>et</strong> que les vecteurs propres associés sont une combinaison linéaire <strong>de</strong> k vecteurs ayant <strong>de</strong>s coordonnées non nulles <strong>et</strong> constantes re<strong>la</strong>tivement <strong>à</strong> chacun <strong>de</strong>s k blocs diagonaux respectivement. L’une <strong>de</strong>s questions <strong>à</strong> <strong>la</strong>quelle nous nous intéressons dans ce chapitre est d’analyser dans quelle mesure <strong>la</strong> matrice <strong>de</strong> simi<strong>la</strong>rité A est proche <strong>de</strong> c<strong>et</strong>te situation bloc-diagonale idéale. Ng, Jordan <strong>et</strong> Weiss [84] abor<strong>de</strong>nt c<strong>et</strong>te question en analysant <strong>la</strong> structure <strong>de</strong>s vecteurs propres <strong>de</strong> A par le biais <strong>de</strong> <strong>la</strong> théorie <strong>de</strong> <strong>la</strong> perturbation matricielle. Dans le même esprit, nous analyserons <strong>la</strong> structure <strong>de</strong> ces vecteurs propres <strong>à</strong> l’ai<strong>de</strong> d’un problème continu m<strong>et</strong>tant en jeu l’équation <strong>de</strong> <strong>la</strong> chaleur. Dans le cas où l’étape <strong>de</strong> normalisation est supprimée, <strong>la</strong> métho<strong>de</strong> <strong>de</strong> spectral clustering se résume aux étapes <strong>de</strong> l’algorithme 2, dans lequel intervient <strong>la</strong> décomposition <strong>spectrale</strong> <strong>de</strong> <strong>la</strong> matrice d’affinité Gaussienne, explicitée en (2.1). Comme les éléments spectraux <strong>de</strong> <strong>la</strong> matrice d’affinité ne fournissent pas explicitement <strong>de</strong> critère géométrique re<strong>la</strong>tivement <strong>à</strong> un ensemble discr<strong>et</strong> <strong>de</strong> données, nous nous proposons <strong>de</strong> revenir <strong>à</strong> une formu<strong>la</strong>tion continue où les clusters sont inclus dans un ouvert Ω fournissant un k-clustering compatible. En interprétant <strong>la</strong> matrice affinité gaussienne comme <strong>la</strong> discrétisation du noyau <strong>de</strong> Green <strong>de</strong> l’équation <strong>de</strong> <strong>la</strong> chaleur <strong>et</strong> en utilisant les éléments finis, on montre que, pour un ensemble fini <strong>de</strong> points, les vecteurs propres <strong>de</strong> <strong>la</strong> matrice affinité gaussienne sont <strong>la</strong> représentation asymptotique <strong>de</strong> fonctions dont le support est inclus dans une seule composante connexe. Ce r<strong>et</strong>our <strong>à</strong> une formu<strong>la</strong>tion continue est effectué <strong>à</strong> l’ai<strong>de</strong> <strong>de</strong>s éléments finis. Ainsi, les vecteurs propres <strong>de</strong> <strong>la</strong> matrice affinité A sont interprétés comme <strong>la</strong> discrétisation <strong>de</strong> fonctions propres d’un opérateur. En eff<strong>et</strong>, avec les éléments finis dont les noeuds correspon<strong>de</strong>nt aux données d’origine, une représentation d’une fonction est donnée par sa valeur nodale. Donc on peut interpréter <strong>la</strong> matrice A <strong>et</strong> ses vecteurs propres comme les représentations respectives d’un opérateur L 2 <strong>et</strong> d’une fonction L 2 . L’opérateur dont <strong>la</strong> représentation en éléments finis concor<strong>de</strong> avec <strong>la</strong> définition <strong>de</strong> A est le noyau <strong>de</strong> l’équation <strong>de</strong> <strong>la</strong> chaleur, noté KH, sur R p . Comme le spectre <strong>de</strong> l’opérateur SH (convolution par KH) est essentiel, les vecteurs propres <strong>de</strong> A ne peuvent pas être directement interprétés comme