Contributions à l'étude de la classification spectrale et applications

More documents

Recommendations

Info

124 Extraction de connaissances appliquée à la biologie et l’imagerie médicale ses vecteurs données donc il doit être ajusté à chaque itération jusqu’à convergence de l’algorithme. Le neurone c = arg mink −s(xj, mk) et les neurones voisins à ɛ du neurone c sont mis à jour à l’itération t à l’aide du noyau de voisinage suivant : hci(t) = α(t)h(s(rc, ri), ɛ). Le noyau de voisinage est composé de deux parties : – fonction de voisinage h(s(., .), ɛ) : seuls les voisins les plus proches sont mis à jours à l’itération t. En général h(s(., .), ɛ) est une fonction indicatrice, une gaussienne ou la composée d’une gaussienne et d’une indicatrice et le seuil de voisinage est défini par ɛ. Par exemple, pour une indicatrice : h(s(., .), ɛ) = I s(.,.)≤ɛ – fonction d’apprentissage α : sert de pondération ; il s’agit d’une fonction strictement décroissante en fonction des itérations t, le rayon initial verifie : α0 = α(0) ∈ [0, 1]. Le critère de convergence est défini par la différence, entre deux itérations successives, de la mesure de similarité des vecteurs de données avec leur vecteur représentant. Autrement dit, ∃δ > 0, N K j=1 i=1 I s(xj,mi(t))≤ɛ s(mi(t), xj) − N j=1 i=1 K Is(xj,mi(t−1))≤ɛ s(mi(t − 1), xj) ≤ δ. (4.1) En cas de divergence, on fixe un nombre d’itération maximum noté tmax. On notera L l’itération vérifiant le critère de convergence l’équation (4.1). L’algorithme de cette méthode est défini comme suit : Algorithm 4 Algorithme SOM général 1. t=1, 2. arrêt=faux. 3. Pour tout i = 1, .., K initialisation des vecteurs poids mi = [m1 i , .., mp i ]T . 4. Répéter (a) Pour tout j = 1, .., N, identifier le vecteur poids mc le plus semblable à xj, vérifiant : s(xj, mc) = min k −s(xj, mk). (b) Pour tout j = 1, .., N, pour tout i = 1, .., K, mise à jour du vecteur poids mi : (c) Faire t=t+1. (d) Mise à jour (arrêt). 5. Jusqu’à arrêt=vrai ⇔ t = L et t ≤ tmax. Problèmes liés à cette méthode mi(t + 1) = mi(t) + α(t)h(s(r i , r c ), ɛ)[xj(t) − mi(t)]. L’algorithme 4 impose la définition de certains paramètres :
4.2.2 Adaptation de la méthode Self Organizing Maps pour données temporelles d’expression de gènes 125 1. nombre de neurones dans la grille : comme il s’agit d’une méthode de classification non supervisée, le nombre de clusters est supposé inconnu, 2. initialisation des vecteurs poids : une bonne initialisation permet à l’algorithme de converger plus vite vers la meilleure solution. Trois types d’initialisation sont, en général, utilisés : – initialisation aléatoire : les vecteurs poids initiaux sont des valeurs prises aléatoirement entre le minimum et le maximum des valeurs des vecteurs dans l’espace des données, – initialisation aléatoire sur les gènes : les vecteurs poids sont des gènes pris aléatoirement dans l’ensemble des données, – initialisation issue de l’ACP : les vecteurs initiaux sont des vecteurs propres associés aux plus grandes valeurs propres de l’ensemble des données. 3. Choix de la mesure de similarité : choix important suivant le problème que l’on traite. En général, la norme euclidienne .2 est utilisée. 4. Noyau de voisinage : à modifier suivant les données à traiter. 4.2.2 Adaptation de la méthode Self Organizing Maps pour données temporelles d’expression de gènes Dans la suite, chaque problème lié aux cartes de Kohonen recensé dans la section précédente est abordé et adapté à la classification de profils temporels d’expression de gènes. Dimension de la grille Nous disposons de données répétées et dépendante du temps : X = {x1, .., xN} ∈ R p . Le but est de définir le nombre de profils différents et de regrouper les gènes correspondants à chaque profil. Tous les profils possibles peuvent être recensés en utilisant un système ternaire c’est-à-dire un système de numération de la base 3 : – soit l’expression du gène xi est constant entre deux instants (invariance), – soit l’expression du gène xi augmente entre deux instants (répression), – soit l’expression du gène xi diminue entre deux instants (inhibition). Le nombre d’unités K de la grille de neurones est de 3 p−1 et les dimensions de la grille sont [3 3 p−2 ]. La structure de la grille peut être rectangulaire ou hexagonale. Initialisation par balayage de profils Le nombre de neurones correspond au nombre de combinaisons possibles de profils. Ainsi les vecteurs poids initiaux associés aux neurones doivent balayer toutes les combinaisons de profils. De plus, cette initialisation doit prendre en compte des informations sur les données à savoir moyenne et écart-type de manière à converger plus vite et donc diminuer le temps de calcul. Pour chaque vecteur poids, la valeur à l’instant t0 est égale à la moyenne des données à t0. Ensuite, une amplitude adaptée au jeu de données, à savoir l’écart-type entre deux instants consécutifs est définie. Pour finir, la conversion en base 3 des chiffres {1, 2.., 3 p−1 } est utilisée afin de balayer tous les cas. Les divers profils sont ainsi balayés et adaptés à notre jeu de données. L’avantage est donc un gain en terme de temps de calcul et de coût numérique : le calcul de la matrice de variance-covariance et l’extraction des p vecteurs propres sont évités.
Page 1:
Institut National Polytechnique de
Page 4 and 5:
ii TABLE DES MATIÈRES 2.5.1 Expér
Page 7 and 8:
Table des figures 1.1 Illustration
Page 9:
TABLE DES FIGURES vii 4.8 Etude ave
Page 13 and 14:
Remerciements Je tiens tout d’abo
Page 15 and 16:
Introduction Les domaines des biolo
Page 17 and 18:
adéquates dans un cadre non superv
Page 19 and 20:
Chapitre 1 : Classification spectra
Page 21 and 22:
Chapitre 1 Classification spectrale
Page 23 and 24:
1.1.1 Algorithme de classification
Page 25 and 26:
1.1.2 Problème du choix du paramè
Page 27 and 28:
1.1.2 Problème du choix du paramè
Page 29 and 30:
1.2.2 Cas d’une distribution isot
Page 31 and 32:
1.3 Validations numériques 19 1.3
Page 33 and 34:
1.3.1 Mesures de qualité 21 (a) Sm
Page 35 and 36:
Page 37 and 38:
Page 39 and 40:
1.4 Méthodes de classification spe
Page 41 and 42:
1.4.2 Traitement d’images 29 une
Page 43 and 44:
1.4.2 Traitement d’images 31 (a)
Page 45 and 46:
Chapitre 2 Classification et élém
Page 47 and 48:
2.2 Présentation du résultat prin
Page 49 and 50:
Page 51 and 52:
Page 53 and 54:
2.3 Propriétés de classification
Page 55 and 56:
2.3.2 Classification via l’opéra
Page 57 and 58:
Page 59 and 60:
Page 61 and 62:
Page 63 and 64:
Page 65 and 66:
2.4.1 Eléments finis de Lagrange 5
Page 67 and 68:
2.4.2 Interprétation des élément
Page 69 and 70:
2.4.3 Propriété de classification
Page 71 and 72:
2.4.3 Propriété de classification
Page 73 and 74:
2.4.4 Condensation de masse 61 Le t
Page 75 and 76:
2.4.4 Condensation de masse 63 Eval
Page 77 and 78:
2.4.4 Condensation de masse 65 (a)
Page 79 and 80:
2.5.1 Expérimentations numériques
Page 81 and 82:
2.5.2 Choix du paramètre gaussien
Page 83 and 84:
2.5.2 Choix du paramètre gaussien
Page 85 and 86: 2.5.2 Choix du paramètre gaussien
Page 87 and 88: 2.5.3 Passage du discret au continu
Page 89 and 90: 2.5.4 Etape de normalisation 77 d
Page 91 and 92: 2.5.5 Cas limites de validité de l
Page 93: 2.5.5 Cas limites de validité de l
Page 96 and 97: 84 Parallélisation de la classific
Page 112 and 113: 100 Parallélisation de la classifi
Page 132 and 133: 120 Extraction de connaissances app
Page 167 and 168: Conclusion et perspectives Dans ce
Page 169 and 170: 4.9.4 Comparaison avec la méthode
Page 171 and 172: Bibliographie [1] P.D. Acton, L.S.
Page 173 and 174: BIBLIOGRAPHIE 161 [37] M. Ester, H.
Page 175 and 176: BIBLIOGRAPHIE 163 [75] R. Maroy, R.
Page 177: BIBLIOGRAPHIE 165 [114] L. Yen, D.
show all

Contributions à l'étude de la classification spectrale et applications

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?