28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4.2.2 Adaptation <strong>de</strong> <strong>la</strong> métho<strong>de</strong> Self Organizing Maps pour données temporelles<br />

d’expression <strong>de</strong> gènes 125<br />

1. nombre <strong>de</strong> neurones dans <strong>la</strong> grille : comme il s’agit d’une métho<strong>de</strong> <strong>de</strong> c<strong>la</strong>ssification non supervisée,<br />

le nombre <strong>de</strong> clusters est supposé inconnu,<br />

2. initialisation <strong>de</strong>s vecteurs poids : une bonne initialisation perm<strong>et</strong> <strong>à</strong> l’algorithme <strong>de</strong> converger<br />

plus vite vers <strong>la</strong> meilleure solution. Trois types d’initialisation sont, en général, utilisés :<br />

– initialisation aléatoire : les vecteurs poids initiaux sont <strong>de</strong>s valeurs prises aléatoirement<br />

entre le minimum <strong>et</strong> le maximum <strong>de</strong>s valeurs <strong>de</strong>s vecteurs dans l’espace <strong>de</strong>s données,<br />

– initialisation aléatoire sur les gènes : les vecteurs poids sont <strong>de</strong>s gènes pris aléatoirement<br />

dans l’ensemble <strong>de</strong>s données,<br />

– initialisation issue <strong>de</strong> l’ACP : les vecteurs initiaux sont <strong>de</strong>s vecteurs propres associés aux<br />

plus gran<strong>de</strong>s valeurs propres <strong>de</strong> l’ensemble <strong>de</strong>s données.<br />

3. Choix <strong>de</strong> <strong>la</strong> mesure <strong>de</strong> simi<strong>la</strong>rité : choix important suivant le problème que l’on traite. En<br />

général, <strong>la</strong> norme euclidienne .2 est utilisée.<br />

4. Noyau <strong>de</strong> voisinage : <strong>à</strong> modifier suivant les données <strong>à</strong> traiter.<br />

4.2.2 Adaptation <strong>de</strong> <strong>la</strong> métho<strong>de</strong> Self Organizing Maps pour données temporelles<br />

d’expression <strong>de</strong> gènes<br />

Dans <strong>la</strong> suite, chaque problème lié aux cartes <strong>de</strong> Kohonen recensé dans <strong>la</strong> section précé<strong>de</strong>nte est<br />

abordé <strong>et</strong> adapté <strong>à</strong> <strong>la</strong> c<strong>la</strong>ssification <strong>de</strong> profils temporels d’expression <strong>de</strong> gènes.<br />

Dimension <strong>de</strong> <strong>la</strong> grille<br />

Nous disposons <strong>de</strong> données répétées <strong>et</strong> dépendante du temps : X = {x1, .., xN} ∈ R p . Le but est<br />

<strong>de</strong> définir le nombre <strong>de</strong> profils différents <strong>et</strong> <strong>de</strong> regrouper les gènes correspondants <strong>à</strong> chaque profil.<br />

Tous les profils possibles peuvent être recensés en utilisant un système ternaire c’est-<strong>à</strong>-dire un<br />

système <strong>de</strong> numération <strong>de</strong> <strong>la</strong> base 3 :<br />

– soit l’expression du gène xi est constant entre <strong>de</strong>ux instants (invariance),<br />

– soit l’expression du gène xi augmente entre <strong>de</strong>ux instants (répression),<br />

– soit l’expression du gène xi diminue entre <strong>de</strong>ux instants (inhibition).<br />

Le nombre d’unités K <strong>de</strong> <strong>la</strong> grille <strong>de</strong> neurones est <strong>de</strong> 3 p−1 <strong>et</strong> les dimensions <strong>de</strong> <strong>la</strong> grille sont [3 3 p−2 ].<br />

La structure <strong>de</strong> <strong>la</strong> grille peut être rectangu<strong>la</strong>ire ou hexagonale.<br />

Initialisation par ba<strong>la</strong>yage <strong>de</strong> profils<br />

Le nombre <strong>de</strong> neurones correspond au nombre <strong>de</strong> combinaisons possibles <strong>de</strong> profils. Ainsi les<br />

vecteurs poids initiaux associés aux neurones doivent ba<strong>la</strong>yer toutes les combinaisons <strong>de</strong> profils. De<br />

plus, c<strong>et</strong>te initialisation doit prendre en compte <strong>de</strong>s informations sur les données <strong>à</strong> savoir moyenne<br />

<strong>et</strong> écart-type <strong>de</strong> manière <strong>à</strong> converger plus vite <strong>et</strong> donc diminuer le temps <strong>de</strong> calcul.<br />

Pour chaque vecteur poids, <strong>la</strong> valeur <strong>à</strong> l’instant t0 est égale <strong>à</strong> <strong>la</strong> moyenne <strong>de</strong>s données <strong>à</strong> t0. Ensuite,<br />

une amplitu<strong>de</strong> adaptée au jeu <strong>de</strong> données, <strong>à</strong> savoir l’écart-type entre <strong>de</strong>ux instants consécutifs est<br />

définie. Pour finir, <strong>la</strong> conversion en base 3 <strong>de</strong>s chiffres {1, 2.., 3 p−1 } est utilisée afin <strong>de</strong> ba<strong>la</strong>yer tous<br />

les cas. Les divers profils sont ainsi ba<strong>la</strong>yés <strong>et</strong> adaptés <strong>à</strong> notre jeu <strong>de</strong> données. L’avantage est donc un<br />

gain en terme <strong>de</strong> temps <strong>de</strong> calcul <strong>et</strong> <strong>de</strong> coût numérique : le calcul <strong>de</strong> <strong>la</strong> matrice <strong>de</strong> variance-covariance<br />

<strong>et</strong> l’extraction <strong>de</strong>s p vecteurs propres sont évités.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!