28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

18 C<strong>la</strong>ssification <strong>spectrale</strong> : algorithme <strong>et</strong> étu<strong>de</strong> du paramètre<br />

Heuristique 1.4. Soit un ensemble <strong>de</strong> points S = {xi, 1 ≤ i ≤ N} dont <strong>la</strong> distribution est isotropique<br />

avec <strong>de</strong>s amplitu<strong>de</strong>s différentes suivant les directions. Chaque élément <strong>de</strong> S est inclus dans<br />

une boîte rectangu<strong>la</strong>ire <strong>de</strong> dimension p <strong>de</strong> côté ρk pour <strong>la</strong> k-ième dimension défini par :<br />

ρk = max<br />

1≤i≤p xi(k) − min<br />

1≤j≤p xj(k), k ∈ {1, . . . , N}, pour k ∈ {1, .., p}.<br />

Alors, le paramètre gaussien σ est une fraction <strong>de</strong> <strong>la</strong> distance référence, notée ¯σ0, définie par :<br />

¯σ0 = Dmax<br />

√ p p<br />

ρ2<br />

i=1 ρi<br />

N<br />

1<br />

p<br />

, (1.3)<br />

où n est le nombre <strong>de</strong> points <strong>et</strong> p <strong>la</strong> dimension <strong>de</strong>s données. Alors, le paramètre gaussien σ2 est égal<br />

<strong>à</strong> une fraction <strong>de</strong> <strong>la</strong> distance référence ¯σ0 :<br />

σ2 = ¯σ0<br />

2 .<br />

Sous l’hypothèse que l’ensemble <strong>de</strong>s données <strong>de</strong> dimension p est suffisamment isotropique, il<br />

peut exister <strong>de</strong>s directions dans les données avec <strong>de</strong>s variations d’amplitu<strong>de</strong>s. Dans ce cas, le calcul<br />

<strong>de</strong> σ est adapté en considérant que l’ensemble <strong>de</strong>s points est inclus dans une boîte rectangu<strong>la</strong>ire <strong>de</strong><br />

dimension p dont les côtés sont proportionnels aux amplitu<strong>de</strong>s suivant chaque direction comme le<br />

représente <strong>la</strong> figure 1.6 dans le cas 3D. Pour définir toutes les dimensions <strong>de</strong>s côtés <strong>de</strong> c<strong>et</strong>te nouvelle<br />

boîte, on calcule alors <strong>la</strong> plus gran<strong>de</strong> distance entre toutes les paires <strong>de</strong> points appartenant <strong>à</strong> S<br />

suivant chacune <strong>de</strong>s directions, notées ρk (pour <strong>la</strong> k ime dimension), <strong>et</strong> donnée par :<br />

ρk = max<br />

1≤i≤p xi(k) − min<br />

1≤j≤p xj(k), k ∈ {1, . . . , N} .<br />

Le vecteur ρ = (ρ1, ..ρp) T incorpore les tailles <strong>de</strong>s intervalles dans lesquels chaque variable est incluse.<br />

Dans ce cas, le côté <strong>de</strong> <strong>la</strong> boîte rectangu<strong>la</strong>ire reste dans le même esprit que précé<strong>de</strong>mment.<br />

Il est donc fonction du vecteur ρ <strong>et</strong> du diamètre maximal Dmax. La distance Dmax est alors égale,<br />

p<br />

d’après le théorème <strong>de</strong> Pythagore <strong>à</strong> : D 2 max =<br />

i=1<br />

le facteur l étant égal au ratio entre Dmax <strong>et</strong> <strong>la</strong> norme euclidienne ρ2 : l = Dmax<br />

.<br />

ρ2<br />

Le volume est alors décomposé en N volumes cubiques <strong>de</strong> côté ¯σ0 défini par : ¯σ0 = Dmax<br />

√ p p i=1<br />

ρ2<br />

ρi<br />

N<br />

où le facteur √ p perm<strong>et</strong> <strong>de</strong> r<strong>et</strong>rouver l’équation (1.2) quand ρ est constant <strong>et</strong> quand <strong>la</strong> boîte est<br />

carrée.<br />

Une autre façon d’envisager ce cas <strong>de</strong> distribution aurait été d’utiliser les distances <strong>de</strong> Maha<strong>la</strong>nobis.<br />

En eff<strong>et</strong>, ces distances perm<strong>et</strong>tent <strong>de</strong> calculer l’orientation <strong>spectrale</strong> <strong>de</strong> <strong>la</strong> dispersion <strong>de</strong>s<br />

données en fixant les axes principaux <strong>et</strong> en calcu<strong>la</strong>nt les amplitu<strong>de</strong>s sur ces axes. Mais c<strong>et</strong>te étape<br />

est coûteuse numériquement <strong>et</strong> elle repose sur <strong>la</strong> matrice <strong>de</strong> variance-covariance donc sur l’hypothèse<br />

que les points sont corrélés entre eux. De plus, dans le cas <strong>de</strong> données corrélées, une étape<br />

préliminaire par Analyse en Composante Principale est souvent utilisée.<br />

Remarque 1.5. Dans les <strong>de</strong>ux configurations <strong>de</strong> distributions isotropiques, ces heuristiques restent<br />

sensibles aux artefacts, au bruit <strong>et</strong> aux <strong>de</strong>nsités fortement variables localement. Une possibilité reste<br />

d’appliquer plusieurs fois le clustering spectral dans le cas d’artefact, en modifiant le Dmax <strong>à</strong> chaque<br />

étape. Cependant, l’approche locale reste privilégiée dans le cas <strong>de</strong> bruitage <strong>de</strong> données entre les<br />

clusters <strong>et</strong> suppose donc une étu<strong>de</strong> plus spécifique <strong>de</strong> certains clusters.<br />

ρ 2 i l 2 ,<br />

1<br />

p

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!