28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1.1.2 Problème du choix du paramètre 13<br />

Weiss [84], σ contrôle <strong>la</strong> simi<strong>la</strong>rité entre les données <strong>et</strong> conditionne <strong>la</strong> qualité <strong>de</strong>s résultats. Ainsi,<br />

parmi les différentes valeurs <strong>de</strong> σ, on sélectionne celle qui minimise <strong>la</strong> dispersion <strong>de</strong>s points d’un<br />

même cluster dans l’espace propre réduit. C<strong>et</strong>te sélection peut être implémentée automatiquement<br />

<strong>de</strong> manière non supervisée en considérant <strong>la</strong> dispersion <strong>de</strong>s projections dans l’espace propre comme<br />

indicateur. Ce choix peut être défini <strong>à</strong> l’ai<strong>de</strong> d’un histogramme sur les normes xi − xj2 entre tous<br />

les points xi, xj, pour tout i, j ∈ {1, .., N}. En supposant l’existence <strong>de</strong> clusters, l’histogramme<br />

<strong>de</strong>viendra multi-modal : le premier mo<strong>de</strong> correspondra <strong>à</strong> <strong>la</strong> moyenne intra-cluster <strong>et</strong> les suivants<br />

représenteront les distances entre les clusters. Sélectionner un σ <strong>de</strong> l’ordre du premier mo<strong>de</strong> <strong>de</strong><br />

l’histogramme revient donc <strong>à</strong> privilégier les affinités au sein <strong>de</strong>s clusters <strong>et</strong> donc <strong>la</strong> structure blocdiagonale<br />

<strong>de</strong> <strong>la</strong> matrice affinité.<br />

Brand <strong>et</strong> Huang [20] définissent un paramètre sca<strong>la</strong>ire global semb<strong>la</strong>ble <strong>à</strong> l’heuristique sur les histogrammes.<br />

En eff<strong>et</strong>, σ doit être égal <strong>à</strong> <strong>la</strong> moyenne <strong>de</strong> <strong>la</strong> distance entre chaque point <strong>de</strong> l’ensemble<br />

S <strong>et</strong> son plus proche voisin. C<strong>et</strong>te heuristique est testée sur divers exemples géométriques 2D aux<br />

<strong>de</strong>nsités variées <strong>et</strong> les résultats du clustering sont représentés sur <strong>la</strong> figure 1.3. Sur certains exemples,<br />

c<strong>et</strong>te estimation peut s’avérer insuffisante notamment lorsque les <strong>de</strong>nsités au sein même d’un cluster<br />

varient comme pour les exemples (b) <strong>et</strong> (e) <strong>de</strong> <strong>la</strong> figure 1.3. De plus, c<strong>et</strong>te définition requiert <strong>de</strong> faire<br />

une boucle sur tous les points xi ∈ S pour résoudre min xi − xj2, pour tout i ∈ {1, .., N}, ce qui<br />

j<br />

peut être coûteux numériquement dans le cas d’un nombre important <strong>de</strong> données xj en particulier.<br />

Approche locale<br />

Une <strong>de</strong>rnière c<strong>la</strong>sse <strong>de</strong> définitions basées sur <strong>de</strong>s interprétations physiques [116, 42] privilégie<br />

<strong>de</strong>s approches locales où un paramètre sca<strong>la</strong>ire spécifique est défini pour chaque point xi. Perona<br />

<strong>et</strong> Zelnik-Manor [116] ont adopté une approche locale, consistant <strong>à</strong> définir un sca<strong>la</strong>ire pour chaque<br />

couple <strong>de</strong> point xi, xj. Ils assignent un paramètre sca<strong>la</strong>ire σi différent <strong>à</strong> chaque point xi <strong>de</strong> l’ensemble<br />

S. σi est égal <strong>à</strong> <strong>la</strong> distance entre le point xi <strong>et</strong> son P ième voisin le plus proche. C<strong>et</strong>te métho<strong>de</strong> donne<br />

<strong>de</strong> bons résultats dans certains cas où l’eff<strong>et</strong> <strong>de</strong> l’analyse locale fournit assez d’informations pour<br />

créer les clusters : par exemple, <strong>de</strong>s clusters compacts plongés dans du bruit. Mais calculer une<br />

valeur <strong>de</strong> σ pour chaque point xi peut être coûteux <strong>et</strong> <strong>la</strong> valeur P reste fixée empiriquement (<strong>à</strong><br />

P = 7 pour [116]).<br />

Une autre approche locale développée par Fischer <strong>et</strong> Po<strong>la</strong>nd [42] utilise <strong>la</strong> conductivité définie dans<br />

les réseaux électriques : <strong>la</strong> conductivité entre <strong>de</strong>ux points dépend alors <strong>de</strong> tous les chemins entre<br />

eux. C<strong>et</strong>te définition perm<strong>et</strong> <strong>de</strong> renforcer <strong>la</strong> structure numérique par bloc <strong>de</strong> <strong>la</strong> matrice affinité. Le<br />

paramètre local est fixé tel que <strong>la</strong> somme <strong>de</strong>s lignes <strong>de</strong> <strong>la</strong> matrice affinité A est égale <strong>à</strong> une valeur<br />

τ. Donc σ dépend d’une autre valeur τ représentant un rayon <strong>de</strong> voisinage <strong>à</strong> fixer empiriquement.<br />

Remarque 1.1. Ces définitions locales s’avèrent très efficaces pour <strong>de</strong>s cas <strong>de</strong> données bruitées.<br />

Elles perm<strong>et</strong>tent <strong>de</strong> distinguer le bruit <strong>de</strong>s données comme le montre <strong>la</strong> figure 1.4. Cependant, ces<br />

approches s’avèrent coûteuses <strong>et</strong> impliquent <strong>de</strong> définir <strong>de</strong> nouveaux paramètres, respectivement le<br />

nombre <strong>de</strong> voisins P pour [116] ou <strong>la</strong> valeur τ pour [42]. Ces <strong>de</strong>rniers représentent le raffinement<br />

<strong>de</strong> l’étu<strong>de</strong> locale.<br />

Dans les exemples introduits sur <strong>la</strong> figure 1.4, <strong>la</strong> <strong>de</strong>nsité <strong>de</strong>s points varie au sein <strong>de</strong>s clusters. Ces<br />

résultats illustrent le fait que, sans l’information <strong>de</strong> <strong>de</strong>nsité globale, il peut être difficile <strong>de</strong> c<strong>la</strong>sser

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!