28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4 Introduction<br />

c<strong>la</strong>sse <strong>et</strong> <strong>la</strong> dispersion entre les c<strong>la</strong>sses. Ces processus se terminent par un critère d’arrêt <strong>à</strong> définir<br />

(en général, un nombre a priori <strong>de</strong> clusters finaux). Ces métho<strong>de</strong>s sont performantes <strong>et</strong> s’adaptent <strong>à</strong><br />

tout type <strong>de</strong> données <strong>et</strong> pour toute mesure <strong>de</strong> simi<strong>la</strong>rité. Par contre, le manque d’évaluation au sein<br />

<strong>de</strong>s clusters itérativement construits <strong>et</strong> le manque <strong>de</strong> critère d’arrêt précis restent les points faibles<br />

<strong>de</strong> ces algorithmes.<br />

L’autre gran<strong>de</strong> catégorie <strong>de</strong> métho<strong>de</strong>s non supervisées est basée sur le partitionnement <strong>de</strong>s<br />

données initiales <strong>et</strong> <strong>la</strong> réallocation dynamique <strong>de</strong> partitions. Parmi elles, l’optimisation <strong>de</strong> fonctions<br />

objectifs reste le fon<strong>de</strong>ment mathématique <strong>de</strong>s plus anciennes métho<strong>de</strong>s <strong>de</strong> c<strong>la</strong>ssification. La métho<strong>de</strong><br />

k-means est l’une <strong>de</strong>s plus utilisées [77, 56, 95] <strong>et</strong> fonctionne sur <strong>de</strong>ux estimateurs [90]. Le premier est<br />

basé sur l’estimation du centre <strong>de</strong> gravité <strong>de</strong> chaque cluster comme l’isobarycentre <strong>de</strong> l’ensemble <strong>de</strong>s<br />

points appartenant au cluster. Le second est fondé sur l’estimation globale <strong>de</strong> <strong>la</strong> partition <strong>de</strong>s données<br />

i.e l’inertie <strong>de</strong>s nuages <strong>de</strong> points par cluster. Ce <strong>de</strong>rnier représente les moindres carrés ordinaires<br />

entre les points <strong>et</strong> leurs centres correspondants pour <strong>la</strong> norme L 2 . Il existe <strong>de</strong>ux principales versions<br />

<strong>à</strong> l’optimisation du k-means itératif. La première version du k-means [43] est semb<strong>la</strong>ble, d’un point<br />

<strong>de</strong> vue probabiliste, <strong>à</strong> un maximum <strong>de</strong> vraisemb<strong>la</strong>nce <strong>et</strong> se décompose en <strong>de</strong>ux étapes : assigner<br />

les points <strong>à</strong> leur centre le plus proche puis recalculer les centres <strong>de</strong>s nouveaux ensembles <strong>de</strong> points<br />

jusqu’<strong>à</strong> satisfaire un critère d’arrêt (par exemple, l’invariance <strong>de</strong> <strong>la</strong> composition <strong>de</strong>s clusters entre<br />

<strong>de</strong>ux itérations). L’autre version <strong>de</strong> c<strong>et</strong>te métho<strong>de</strong> utilise <strong>la</strong> fonction objectif <strong>de</strong>s moindres carrés<br />

ordinaires pour perm<strong>et</strong>tre le réassignement <strong>de</strong>s points. Seuls les points améliorant c<strong>et</strong>te fonction<br />

objectif seront dép<strong>la</strong>cés <strong>et</strong> leurs centres respectifs recalculés. Ces variantes pour <strong>la</strong> norme L 2 ont<br />

<strong>la</strong> même complexité numérique mais dépen<strong>de</strong>nt <strong>de</strong> <strong>la</strong> mesure <strong>de</strong> simi<strong>la</strong>rité utilisée <strong>et</strong> <strong>de</strong> <strong>la</strong> nature<br />

<strong>de</strong>s données. De nombreux autres algorithmes perm<strong>et</strong>tent d’optimiser <strong>la</strong> fonction objectif [9, 54]<br />

ou <strong>de</strong> définir heuristiquement un nombre optimal k <strong>de</strong> clusters [45, 15, 97] <strong>et</strong> l’initialisation <strong>de</strong>s<br />

centres [4, 19, 57]. Cependant, <strong>la</strong> métho<strong>de</strong> k-means reste sensible <strong>à</strong> l’initialisation <strong>de</strong>s centres <strong>de</strong><br />

clusters, aux optima locaux, aux données aberrantes <strong>et</strong> <strong>à</strong> <strong>la</strong> nature <strong>de</strong>s données. Mais le principal<br />

problème <strong>de</strong> c<strong>et</strong>te métho<strong>de</strong> basée sur <strong>la</strong> séparation linéaire est que, par définition, le k-means ne<br />

partitionne pas correctement les clusters couvrant un domaine non-convexe c’est-<strong>à</strong>-dire dans le cas<br />

<strong>de</strong> séparations non linéaires.<br />

Traiter <strong>de</strong>s domaines non-convexes revient <strong>à</strong> considérer les clusters comme <strong>de</strong>s ouverts <strong>et</strong> <strong>à</strong><br />

ajouter <strong>de</strong>s notions topologiques <strong>de</strong> connexité, <strong>de</strong> <strong>de</strong>nsité <strong>et</strong> <strong>de</strong> voisinage. En eff<strong>et</strong>, dans un espace<br />

Euclidien, un ouvert peut être divisé en un ensemble <strong>de</strong> composantes connexes. Ainsi les clusters<br />

seront caractérisés <strong>de</strong> par leur <strong>de</strong>nsité comme <strong>de</strong>s composantes connexes <strong>de</strong>nses <strong>et</strong> <strong>de</strong>s points appartenant<br />

au même cluster seront définis par leur voisinage. Les approches probabilistes utilisent ces<br />

propriétés car les éléments <strong>de</strong>s différents clusters sont supposés être générés par <strong>de</strong>s distributions <strong>de</strong><br />

probabilités différentes ou bien <strong>de</strong> même famille avec <strong>de</strong>s paramètres différents. On distingue donc<br />

<strong>de</strong>ux principales approches parmi les métho<strong>de</strong>s <strong>de</strong> partitionnement basées sur <strong>la</strong> <strong>de</strong>nsité <strong>de</strong> points<br />

[53]. La première [37] juge <strong>la</strong> <strong>de</strong>nsité autour d’un voisinage d’un obj<strong>et</strong> comme suffisante suivant le<br />

nombre <strong>de</strong> points situés <strong>à</strong> un certain rayon <strong>de</strong> c<strong>et</strong> obj<strong>et</strong>. Elle nécessite donc <strong>la</strong> définition <strong>de</strong> <strong>de</strong>ux<br />

paramètres : le rayon du voisinage <strong>et</strong> celui du cardinal minimum pour constituer un cluster. Ainsi les<br />

données aberrantes, bruitées, sont considérées <strong>et</strong> le processus est performant pour <strong>de</strong> faibles dimensions.<br />

Par contre, ces <strong>de</strong>ux paramètres restent difficiles <strong>à</strong> choisir <strong>de</strong> manière automatique c’est-<strong>à</strong>-dire<br />

sans apport d’informations extérieures. L’autre approche [59, 53] est basée sur un ensemble <strong>de</strong> distribution<br />

<strong>de</strong> fonctions <strong>de</strong> <strong>de</strong>nsités. A partir <strong>de</strong> fonctions d’influences (en général gaussiennes ou<br />

signaux carrés) décrivant l’impact d’un point sur son voisinage, <strong>la</strong> <strong>de</strong>nsité globale <strong>de</strong> l’espace <strong>de</strong>s<br />

données est modélisée <strong>de</strong> manière itérative comme <strong>la</strong> somme <strong>de</strong>s fonctions d’influences <strong>de</strong> tous les<br />

points. En i<strong>de</strong>ntifiant les <strong>de</strong>nsités d’attractions c’est-<strong>à</strong>-dire les maxima locaux <strong>de</strong> <strong>la</strong> <strong>de</strong>nsité globale,<br />

les clusters sont alors déterminés mathématiquement. Les paramètres <strong>de</strong> voisinage <strong>et</strong> <strong>de</strong> <strong>la</strong> fonction<br />

d’influence restent <strong>à</strong> nouveau <strong>à</strong> choisir. De plus, les lois <strong>de</strong> probabilités utilisées ne sont pas toujours

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!