Contributions à l'étude de la classification spectrale et applications
Contributions à l'étude de la classification spectrale et applications
Contributions à l'étude de la classification spectrale et applications
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
4 Introduction<br />
c<strong>la</strong>sse <strong>et</strong> <strong>la</strong> dispersion entre les c<strong>la</strong>sses. Ces processus se terminent par un critère d’arrêt <strong>à</strong> définir<br />
(en général, un nombre a priori <strong>de</strong> clusters finaux). Ces métho<strong>de</strong>s sont performantes <strong>et</strong> s’adaptent <strong>à</strong><br />
tout type <strong>de</strong> données <strong>et</strong> pour toute mesure <strong>de</strong> simi<strong>la</strong>rité. Par contre, le manque d’évaluation au sein<br />
<strong>de</strong>s clusters itérativement construits <strong>et</strong> le manque <strong>de</strong> critère d’arrêt précis restent les points faibles<br />
<strong>de</strong> ces algorithmes.<br />
L’autre gran<strong>de</strong> catégorie <strong>de</strong> métho<strong>de</strong>s non supervisées est basée sur le partitionnement <strong>de</strong>s<br />
données initiales <strong>et</strong> <strong>la</strong> réallocation dynamique <strong>de</strong> partitions. Parmi elles, l’optimisation <strong>de</strong> fonctions<br />
objectifs reste le fon<strong>de</strong>ment mathématique <strong>de</strong>s plus anciennes métho<strong>de</strong>s <strong>de</strong> c<strong>la</strong>ssification. La métho<strong>de</strong><br />
k-means est l’une <strong>de</strong>s plus utilisées [77, 56, 95] <strong>et</strong> fonctionne sur <strong>de</strong>ux estimateurs [90]. Le premier est<br />
basé sur l’estimation du centre <strong>de</strong> gravité <strong>de</strong> chaque cluster comme l’isobarycentre <strong>de</strong> l’ensemble <strong>de</strong>s<br />
points appartenant au cluster. Le second est fondé sur l’estimation globale <strong>de</strong> <strong>la</strong> partition <strong>de</strong>s données<br />
i.e l’inertie <strong>de</strong>s nuages <strong>de</strong> points par cluster. Ce <strong>de</strong>rnier représente les moindres carrés ordinaires<br />
entre les points <strong>et</strong> leurs centres correspondants pour <strong>la</strong> norme L 2 . Il existe <strong>de</strong>ux principales versions<br />
<strong>à</strong> l’optimisation du k-means itératif. La première version du k-means [43] est semb<strong>la</strong>ble, d’un point<br />
<strong>de</strong> vue probabiliste, <strong>à</strong> un maximum <strong>de</strong> vraisemb<strong>la</strong>nce <strong>et</strong> se décompose en <strong>de</strong>ux étapes : assigner<br />
les points <strong>à</strong> leur centre le plus proche puis recalculer les centres <strong>de</strong>s nouveaux ensembles <strong>de</strong> points<br />
jusqu’<strong>à</strong> satisfaire un critère d’arrêt (par exemple, l’invariance <strong>de</strong> <strong>la</strong> composition <strong>de</strong>s clusters entre<br />
<strong>de</strong>ux itérations). L’autre version <strong>de</strong> c<strong>et</strong>te métho<strong>de</strong> utilise <strong>la</strong> fonction objectif <strong>de</strong>s moindres carrés<br />
ordinaires pour perm<strong>et</strong>tre le réassignement <strong>de</strong>s points. Seuls les points améliorant c<strong>et</strong>te fonction<br />
objectif seront dép<strong>la</strong>cés <strong>et</strong> leurs centres respectifs recalculés. Ces variantes pour <strong>la</strong> norme L 2 ont<br />
<strong>la</strong> même complexité numérique mais dépen<strong>de</strong>nt <strong>de</strong> <strong>la</strong> mesure <strong>de</strong> simi<strong>la</strong>rité utilisée <strong>et</strong> <strong>de</strong> <strong>la</strong> nature<br />
<strong>de</strong>s données. De nombreux autres algorithmes perm<strong>et</strong>tent d’optimiser <strong>la</strong> fonction objectif [9, 54]<br />
ou <strong>de</strong> définir heuristiquement un nombre optimal k <strong>de</strong> clusters [45, 15, 97] <strong>et</strong> l’initialisation <strong>de</strong>s<br />
centres [4, 19, 57]. Cependant, <strong>la</strong> métho<strong>de</strong> k-means reste sensible <strong>à</strong> l’initialisation <strong>de</strong>s centres <strong>de</strong><br />
clusters, aux optima locaux, aux données aberrantes <strong>et</strong> <strong>à</strong> <strong>la</strong> nature <strong>de</strong>s données. Mais le principal<br />
problème <strong>de</strong> c<strong>et</strong>te métho<strong>de</strong> basée sur <strong>la</strong> séparation linéaire est que, par définition, le k-means ne<br />
partitionne pas correctement les clusters couvrant un domaine non-convexe c’est-<strong>à</strong>-dire dans le cas<br />
<strong>de</strong> séparations non linéaires.<br />
Traiter <strong>de</strong>s domaines non-convexes revient <strong>à</strong> considérer les clusters comme <strong>de</strong>s ouverts <strong>et</strong> <strong>à</strong><br />
ajouter <strong>de</strong>s notions topologiques <strong>de</strong> connexité, <strong>de</strong> <strong>de</strong>nsité <strong>et</strong> <strong>de</strong> voisinage. En eff<strong>et</strong>, dans un espace<br />
Euclidien, un ouvert peut être divisé en un ensemble <strong>de</strong> composantes connexes. Ainsi les clusters<br />
seront caractérisés <strong>de</strong> par leur <strong>de</strong>nsité comme <strong>de</strong>s composantes connexes <strong>de</strong>nses <strong>et</strong> <strong>de</strong>s points appartenant<br />
au même cluster seront définis par leur voisinage. Les approches probabilistes utilisent ces<br />
propriétés car les éléments <strong>de</strong>s différents clusters sont supposés être générés par <strong>de</strong>s distributions <strong>de</strong><br />
probabilités différentes ou bien <strong>de</strong> même famille avec <strong>de</strong>s paramètres différents. On distingue donc<br />
<strong>de</strong>ux principales approches parmi les métho<strong>de</strong>s <strong>de</strong> partitionnement basées sur <strong>la</strong> <strong>de</strong>nsité <strong>de</strong> points<br />
[53]. La première [37] juge <strong>la</strong> <strong>de</strong>nsité autour d’un voisinage d’un obj<strong>et</strong> comme suffisante suivant le<br />
nombre <strong>de</strong> points situés <strong>à</strong> un certain rayon <strong>de</strong> c<strong>et</strong> obj<strong>et</strong>. Elle nécessite donc <strong>la</strong> définition <strong>de</strong> <strong>de</strong>ux<br />
paramètres : le rayon du voisinage <strong>et</strong> celui du cardinal minimum pour constituer un cluster. Ainsi les<br />
données aberrantes, bruitées, sont considérées <strong>et</strong> le processus est performant pour <strong>de</strong> faibles dimensions.<br />
Par contre, ces <strong>de</strong>ux paramètres restent difficiles <strong>à</strong> choisir <strong>de</strong> manière automatique c’est-<strong>à</strong>-dire<br />
sans apport d’informations extérieures. L’autre approche [59, 53] est basée sur un ensemble <strong>de</strong> distribution<br />
<strong>de</strong> fonctions <strong>de</strong> <strong>de</strong>nsités. A partir <strong>de</strong> fonctions d’influences (en général gaussiennes ou<br />
signaux carrés) décrivant l’impact d’un point sur son voisinage, <strong>la</strong> <strong>de</strong>nsité globale <strong>de</strong> l’espace <strong>de</strong>s<br />
données est modélisée <strong>de</strong> manière itérative comme <strong>la</strong> somme <strong>de</strong>s fonctions d’influences <strong>de</strong> tous les<br />
points. En i<strong>de</strong>ntifiant les <strong>de</strong>nsités d’attractions c’est-<strong>à</strong>-dire les maxima locaux <strong>de</strong> <strong>la</strong> <strong>de</strong>nsité globale,<br />
les clusters sont alors déterminés mathématiquement. Les paramètres <strong>de</strong> voisinage <strong>et</strong> <strong>de</strong> <strong>la</strong> fonction<br />
d’influence restent <strong>à</strong> nouveau <strong>à</strong> choisir. De plus, les lois <strong>de</strong> probabilités utilisées ne sont pas toujours