28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

88 Parallélisation <strong>de</strong> <strong>la</strong> c<strong>la</strong>ssification <strong>spectrale</strong><br />

k ne <strong>de</strong>vra pas être fixé en amont puisque <strong>la</strong> distribution <strong>de</strong>s points variant entre les domaines, ce<br />

nombre variera d’un sous-domaine <strong>à</strong> un autre. Par conséquent, une heuristique doit être définie pour<br />

automatiser le choix sur chaque sous domaine sans information a priori.<br />

3.1.3 Définition du nombre <strong>de</strong> c<strong>la</strong>sses k<br />

Le problème du choix du nombre <strong>de</strong> c<strong>la</strong>sses est un problème général pour les algorithmes <strong>de</strong><br />

c<strong>la</strong>ssification non supervisée. De nombreuses métho<strong>de</strong>s existent. Certaines sont basées sur <strong>de</strong>s estimateurs<br />

issus <strong>de</strong> <strong>la</strong> vraisemb<strong>la</strong>nce entre les données [45]. Dans le cadre non supervisé où nous<br />

disposons <strong>de</strong> peu d’informations, <strong>de</strong> nombreux critères ont été définis <strong>et</strong> sont principalement divisés,<br />

d’une part, en critères internes comme <strong>la</strong> mesure <strong>de</strong> simi<strong>la</strong>rité définie en utilisant <strong>de</strong>s métriques<br />

différentes (euclidienne, Hartigan...) [97], <strong>et</strong> d’autre part en critères externes soit basés sur <strong>de</strong>s modèles<br />

physiques [116, 42] soit sur <strong>la</strong> mesure <strong>de</strong> l’écart statistique [15], <strong>la</strong> stabilité <strong>de</strong> <strong>la</strong> partition<br />

[15, 14] ou encore <strong>la</strong> prédiction <strong>de</strong> <strong>la</strong> partition [36]. Concernant l’interprétation du spectral clustering<br />

via <strong>la</strong> théorie <strong>de</strong> perturbation matricielle, une heuristique sur l’écart entre les valeurs propres<br />

peut être définie. Cependant ces heuristiques souffrent d’une ou plusieurs <strong>de</strong>s limitations suivantes :<br />

choix <strong>de</strong> <strong>la</strong> métrique, sensibilité <strong>de</strong>s fonctions coûts, coût numérique <strong>de</strong>s estimations.<br />

La problématique du choix <strong>de</strong> k est d’autant plus difficile <strong>à</strong> résoudre car ce nombre peut varier<br />

d’un sous-domaine <strong>à</strong> un autre dans une stratégie <strong>de</strong> décomposition en sous-domaines. Pour ce faire,<br />

nous considérons pour chaque sous-domaine <strong>la</strong> mesure <strong>de</strong> qualité basée sur les ratio <strong>de</strong> normes <strong>de</strong><br />

Frobenius, présentée au chapitre 1, pour évaluer le nombre <strong>de</strong> c<strong>la</strong>sses.<br />

Heuristique 3.7. Soit nk un nombre limite <strong>de</strong> c<strong>la</strong>sses <strong>à</strong> chercher. Après avoir appliqué le spectral<br />

clustering pour un nombre <strong>de</strong> cluster k ′ ∈ [|2, nk|], <strong>la</strong> matrice affinité A définie par (1.1) est réordonnancée<br />

par c<strong>la</strong>sse. On obtient <strong>la</strong> matrice par bloc, notée L, telle que les blocs hors diagonaux<br />

représentent les affinités entre les c<strong>la</strong>sses <strong>et</strong> les blocs diagonaux l’affinité intra-c<strong>la</strong>sse. Les ratios entre<br />

les normes <strong>de</strong> Frobenius <strong>de</strong>s blocs diagonaux <strong>et</strong> ceux hors-diagonaux sont évalués pour i, j ∈ [|1, k ′ |]<br />

<strong>et</strong> i = j :<br />

Nj m=1 |L(ij)<br />

lm |2<br />

1<br />

2<br />

rij = L(ij) F<br />

L (ii) ,<br />

F<br />

avec L (ij) Ni F = l=1<br />

Soit ηk ′ le ratio moyen <strong>de</strong>s rij pour une valeur k ′ ∈ [|1, nk|] défini par :<br />

ηk ′ =<br />

<strong>et</strong> où Ni <strong>et</strong> Nj sont les dimensions du bloc (ij) <strong>de</strong> L.<br />

2<br />

k ′ (k ′ − 1)<br />

k ′<br />

<br />

i=1<br />

j=i+1<br />

rij. (3.4)<br />

Alors le nombre <strong>de</strong> c<strong>la</strong>sse k satisfait <strong>la</strong> condition suivante, pour tout k ′ ∈ [|2, nk|] :<br />

k = arg min<br />

k ′ ηk ′. (3.5)<br />

∈[|2,nk|]<br />

Par définition, le nombre approprié <strong>de</strong> c<strong>la</strong>sses k correspond <strong>à</strong> une situation où <strong>de</strong>s points qui<br />

appartiennent <strong>à</strong> <strong>de</strong>s c<strong>la</strong>sses différents aient le moins d’affinité entre eux <strong>et</strong>, dans le cas contraire, une<br />

forte affinité entre eux s’ils appartiennent au même c<strong>la</strong>sse. Parmi diverses valeurs <strong>de</strong> k, le nombre<br />

<strong>de</strong> c<strong>la</strong>sse final est défini <strong>de</strong> telle sorte que l’affinité soit <strong>la</strong> plus faible entre c<strong>la</strong>sses <strong>et</strong> <strong>la</strong> plus forte<br />

au sein <strong>de</strong>s c<strong>la</strong>sses. L’équation (3.5) donne un ratio moyen <strong>de</strong> l’affinité entre les c<strong>la</strong>sses. Si le ratio<br />

ηk est proche <strong>de</strong> 0 alors <strong>la</strong> matrice affinité réordonnancée par c<strong>la</strong>sse a une structure bloc-diagonale,

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!