28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Introduction<br />

Les domaines <strong>de</strong>s biologies cellu<strong>la</strong>ire <strong>et</strong> molécu<strong>la</strong>ire connaissent <strong>de</strong> gran<strong>de</strong>s avancées avec l’arrivée<br />

notamment <strong>de</strong>s nanotechnologies <strong>et</strong> <strong>de</strong>s biopuces. A l’instar <strong>de</strong> <strong>la</strong> génétique, l’imagerie médicale<br />

utilise <strong>de</strong>s nouvelles techniques telles que <strong>la</strong> scintigraphie pour étudier l’activité métabolique d’un<br />

organe grâce <strong>à</strong> l’injection d’un radiotraceur dont on connaît le comportement <strong>et</strong> les propriétés biologiques.<br />

Dans ces <strong>de</strong>ux domaines, <strong>de</strong> grands flots <strong>de</strong> données <strong>à</strong> analyser sont générés. Ces données<br />

sont par conséquent multidimensionnelles, très nombreuses <strong>et</strong> souvent bruitées. Elles représentent,<br />

suivant le domaine d’<strong>applications</strong>, <strong>de</strong>s intensités lumineuses pour transcrire l’expression <strong>de</strong> gènes,<br />

<strong>de</strong>s courbes d’activités temporelles, <strong>de</strong>s images 3D pour l’imagerie médicale. L’extraction <strong>de</strong> connaissances<br />

issues <strong>de</strong> ces données massives biologiques ou médicales <strong>de</strong>vient alors un réel problème. Son<br />

processus se décompose en plusieurs étapes. Tout d’abord, un prétraitement <strong>de</strong>s données est réalisé<br />

pour m<strong>et</strong>tre <strong>à</strong> l’échelle <strong>et</strong> normaliser les données. Une analyse exploratoire <strong>de</strong>s données est en général<br />

faite en vue d’une éventuelle réduction <strong>de</strong> <strong>la</strong> cardinalité <strong>de</strong> l’ensemble <strong>de</strong>s variables [100, 34, 103].<br />

Suit alors l’étape <strong>de</strong> fouille <strong>de</strong> données, étape mathématique du processus d’Extraction <strong>de</strong> Connaissance.<br />

A partir d’une formu<strong>la</strong>tion mathématique basée sur les obj<strong>et</strong>s <strong>et</strong> le choix d’une mesure <strong>de</strong><br />

simi<strong>la</strong>rité, une résolution numérique du problème <strong>de</strong> c<strong>la</strong>ssification est effectuée. Des étapes d’évaluation<br />

<strong>et</strong> <strong>de</strong> validation <strong>de</strong> <strong>la</strong> c<strong>la</strong>ssification obtenue sont requises pour juger <strong>la</strong> pertinance <strong>de</strong> l’étape<br />

fouille <strong>de</strong> données. Enfin, <strong>la</strong> visualisation <strong>et</strong> l’interprétation <strong>de</strong>s résultats constituent l’étape <strong>de</strong><br />

post-traitement du processus.<br />

Dans ce processus, nous nous intéressons <strong>à</strong> l’étape <strong>de</strong> fouille <strong>de</strong> données. Le manque <strong>de</strong> supervision<br />

lié au manque d’expérience, <strong>de</strong> connaissances a priori sur ces nouvelles techniques d’expérimentations<br />

m<strong>et</strong>tent <strong>à</strong> mal <strong>de</strong> nombreuses métho<strong>de</strong>s d’analyse <strong>de</strong> données. Sont alors privilégiées les<br />

métho<strong>de</strong>s non supervisées (ou clustering) [35, 61, 53, 113, 17, 52]. Le problème <strong>de</strong> <strong>la</strong> c<strong>la</strong>ssification<br />

non supervisée peut s’énoncer comme suit : étant donné m items (ou obj<strong>et</strong>s) définis par les variables<br />

numériques <strong>de</strong> n variables (ou attributs), on regroupe ces items <strong>à</strong> l’ai<strong>de</strong> d’une mesure <strong>de</strong> simi<strong>la</strong>rité<br />

(ou proximité), en c<strong>la</strong>sses <strong>de</strong> telle sorte que les obj<strong>et</strong>s <strong>de</strong> <strong>la</strong> même c<strong>la</strong>sse soient le plus semb<strong>la</strong>ble<br />

possible <strong>et</strong> <strong>de</strong>s obj<strong>et</strong>s <strong>de</strong> c<strong>la</strong>sses différentes le moins semb<strong>la</strong>ble possible.<br />

Les métho<strong>de</strong>s non supervisées sont grossièrement regroupées en <strong>de</strong>ux gran<strong>de</strong>s catégories : les<br />

métho<strong>de</strong>s hiérarchiques, <strong>de</strong> nature ensembliste, <strong>et</strong> les métho<strong>de</strong>s <strong>de</strong> partitionnement basées sur <strong>de</strong>s<br />

approches probabilistes, d’optimisation ou bien <strong>de</strong> théorie <strong>de</strong>s graphes. Les métho<strong>de</strong>s hiérarchiques<br />

consistent <strong>à</strong> transformer une matrice <strong>de</strong> simi<strong>la</strong>rité en une hiérarchie <strong>de</strong> partitions emboîtées. La hiérarchie<br />

peut être représentée comme un arbre <strong>de</strong>ndogramme dans lequel chaque cluster est emboîté<br />

dans un autre. Plusieurs variantes sont distinguées [61, 65]. Le clustering ascendant [72, 73] débute<br />

en considérant chaque obj<strong>et</strong> comme un cluster <strong>et</strong> itérativement réduit le nombre <strong>de</strong> clusters en fusionnant<br />

les obj<strong>et</strong>s les plus proches. La métho<strong>de</strong> <strong>de</strong>scendante [71] débute, quant <strong>à</strong> elle, avec un seul<br />

cluster regroupant tous les obj<strong>et</strong>s <strong>et</strong> divise les clusters afin que l’hétérogénéité soit <strong>la</strong> plus réduite<br />

possible. Les partitions évoluent au cours <strong>de</strong>s itérations via un critère <strong>de</strong> qualité comme le critère<br />

<strong>de</strong> Ward [111], critère d’agrégation selon l’inertie, alliant <strong>à</strong> <strong>la</strong> fois <strong>la</strong> dispersion <strong>à</strong> l’intérieur d’une<br />

3

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!