11.07.2015 Views

Cours II : Alignement multiple - Site Sécurisé du LIRMM

Cours II : Alignement multiple - Site Sécurisé du LIRMM

Cours II : Alignement multiple - Site Sécurisé du LIRMM

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

M1 Bioinformatique, Connaissances et Données - Master Stic pour la SantéAnnée 2013-2014GMIN220 - <strong>Alignement</strong>Partie <strong>II</strong> : <strong>Alignement</strong> <strong>multiple</strong>Sèverine BérardAnne-Muriel Arigon Chifolleauhttp ://www2.lirmm.fr/∼arigon/enseignement/GMIN220/ISEM - <strong>LIRMM</strong> - UM2/UM1


Plan 1• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


<strong>Alignement</strong> <strong>multiple</strong> 2• Permet d’aligner plusieurs séquences simultanément• En général pour les protéines• <strong>Alignement</strong>s faits à la main par les experts biologistes• Généralisation naturelle de l’alignement 2 à 2 mais beaucoup pluscomplexe en terme de calculProblème : Étant données k séquences s 1 , s 2 , . . . , s k , trouver lemeilleur alignement <strong>multiple</strong> pour ces séquences• Ce pb est NP-complet (⇒ ∄ de solution exacte en tps raisonnable)


Exemples d’alignement 3


Intérêt des alignements <strong>multiple</strong>s 4• Recherche dans les banques ⇒ plrs séquences similaires à la requêteIl est naturel de vouloir aligner ces séquences entre elles• MSA détectent les régions qui ont été conservées lors de l’évolutionTrès svt des domaines associés à une fonction clé de la molécule• Plusieurs protéines de fonctions similaires dans différentes espèces→ Quelles parties semblables ? ⇒ Consensus/Profil→ Quelles parties différentes ?• Permet de trouver d’autres membres d’une famille de protéines• Séquençage de génomes (assemblage, recouvrement EST)• Point de départ pour les analyses phylogénétiques<strong>Alignement</strong>s <strong>multiple</strong>s plus informatifs que les ali. de 2 séq.


Les 2 grands types de MSA 5• Un MSA peut être global ou local (comme un alignement de 2séquences)• Global : l’alignement 2 à 2 est éten<strong>du</strong> pour inclure 3 séq. ou plusDes protéines de ≠ organismes peuvent être conservées sur toute lalongueur si elles assurent une fonction biologique importanteLogiciels : CLUSTALW, CLUSTAL Ω, T-COFFEE, MUSCLE,MAFFT, MULTALIN, DIALIGN, . . .• Local : recherche de domaines/régions conservésLes domaines fonctionnels de protéines peuvent être conservéstandis que le reste de la séquence divergeLogiciels : DIALIGN, BLOCKS Web site, eMOTIF, GIBBS,HMMER, . . .


Sensibilité et sélectivité 6• Notions utiles pour comparer des méthodes• Par exemple : on regarde si des séquences sont membres d’une famille deprotéine en fonction d’un certain seuilSéq. membres familleSéq. non membresSéq. au-dessus <strong>du</strong> seuil Vrais positifs Faux positifsSéq. en dessous <strong>du</strong> seuil Faux négatifs Vrai négatifs• Sensibilité =Vrais positifsVrais positifs+Faux négatifs⇒ capacité à détecter les vraies instances de l’objet recherché (VP) =capacité à détecter tout ce qui est intéressant sur le plan biologique• Sélectivité =Vrais positifsVrais positifs+Faux positifs⇒ capacité à rejeter les fausses instances (FP) = capacité à ne détecterque la réalité biologique et rien de plus


Benchmark 7• Bases de données d’alignements <strong>multiple</strong>s de référence : BaliBASE,PREFAB, OXBENCH, SABmark, SSSD, HomFam, . . .• Utilisé pour attester de la qualité des logiciels d’alignement <strong>multiple</strong>• BaliBASE 3.0 [Thompson et al., 2005]→ Plus de 200 familles de protéines→ <strong>Alignement</strong>s de qualité (structure secondaire et vérification manuelle)→ Plusieurs ensembles de référence (pb d’aligenment spécifique)⊲ Référence 1 : séquences équidistantes avec ≠ niveaux de conservation⊲ Référence 2 : protéines homologues + 1 séquence orpheline⊲ Référence 3 : sous-groupes avec - de 25% d’identité entre les groupes⊲ Référence 4 : extensions N/C-terminales⊲ Référence 5 : insertions internes⊲ Référence 6-8 : régions transmembranaires / répétées, inversion dedomaines⊲ Référence 9 : motifs linéaires


Plan 8• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Méthode de score 9Comment quantifier la qualité d’un alignement <strong>multiple</strong> ?• Généraliser une fonction de score pour un alignement de k séq.• Le score d’un MSA est la somme des scores de ses colonnes(ici les colonnes sont de hauteur k)• Les colonnes sont considérées indépendantes• Fonction à k paramètres ?Si alphabet de taille α ⇒ α k colonnes possibles (22 5 > 5 millions)On ne peut pas associer un coût à chaque colonne ! ? !• Mesure raisonnable S, quelles propriétés ?


Méthode de score SP 11• SP pour Sum of Pairs, c’est la méthode la plus utilisée• Somme des scores de toutes les paires d’a.a. possibles dans une colonne(p(−, −) = 0), puis somme des scores des colonnesSP (I, −, I, V ) = p(I, −) + p(I, I) + p(I, V ) + p(−, I) + p(−, V ) + p(I, V )• Exemple avec BLOSUM62 et indel=-21 N N N I V2 N N N I V3 N N N − V4 N N C I V5 N C C I V• Il y a k(k−1)2paires/scores à calculer pour chaque colonne


Méthode de score SP 11• SP pour Sum of Pairs, c’est la méthode la plus utilisée• Somme des scores de toutes les paires d’a.a. possibles dans une colonne(p(−, −) = 0), puis somme des scores des colonnesSP (I, −, I, V ) = p(I, −) + p(I, I) + p(I, V ) + p(−, I) + p(−, V ) + p(I, V )• Exemple avec BLOSUM62 et indel=-2p(N, N) = 61 N N N I V2 N N N I V3 N N N − V4 N N C I V5 N C C I V60• Il y a k(k−1)2paires/scores à calculer pour chaque colonne


Méthode de score SP 11• SP pour Sum of Pairs, c’est la méthode la plus utilisée• Somme des scores de toutes les paires d’a.a. possibles dans une colonne(p(−, −) = 0), puis somme des scores des colonnesSP (I, −, I, V ) = p(I, −) + p(I, I) + p(I, V ) + p(−, I) + p(−, V ) + p(I, V )• Exemple avec BLOSUM62 et indel=-2p(N, N) = 6p(N, C) = −3 1 N N N I V2 N N N I V3 N N N − V4 N N C I V5 N C C I V60 24• Il y a k(k−1)2paires/scores à calculer pour chaque colonne


Méthode de score SP 11• SP pour Sum of Pairs, c’est la méthode la plus utilisée• Somme des scores de toutes les paires d’a.a. possibles dans une colonne(p(−, −) = 0), puis somme des scores des colonnesSP (I, −, I, V ) = p(I, −) + p(I, I) + p(I, V ) + p(−, I) + p(−, V ) + p(I, V )• Exemple avec BLOSUM62 et indel=-2p(N, N) = 6p(N, C) = −3 1 N N N I Vp(C, C) = 9 2 N N N I V3 N N N − V4 N N C I V5 N C C I V60 24 9• Il y a k(k−1)2paires/scores à calculer pour chaque colonne


Méthode de score SP 11• SP pour Sum of Pairs, c’est la méthode la plus utilisée• Somme des scores de toutes les paires d’a.a. possibles dans une colonne(p(−, −) = 0), puis somme des scores des colonnesSP (I, −, I, V ) = p(I, −) + p(I, I) + p(I, V ) + p(−, I) + p(−, V ) + p(I, V )• Exemple avec BLOSUM62 et indel=-2p(N, N) = 6p(N, C) = −3 1 N N N I Vp(C, C) = 9 2 N N N I Vp(I, I) = 4 3 N N N − Vp(I, −) = −2 4 N N C I V5 N C C I V60 24 9 16• Il y a k(k−1)2paires/scores à calculer pour chaque colonne


Méthode de score SP 11• SP pour Sum of Pairs, c’est la méthode la plus utilisée• Somme des scores de toutes les paires d’a.a. possibles dans une colonne(p(−, −) = 0), puis somme des scores des colonnesSP (I, −, I, V ) = p(I, −) + p(I, I) + p(I, V ) + p(−, I) + p(−, V ) + p(I, V )• Exemple avec BLOSUM62 et indel=-2p(N, N) = 6p(N, C) = −3 1 N N N I Vp(C, C) = 9 2 N N N I Vp(I, I) = 4 3 N N N − Vp(I, −) = −2 4 N N C I Vp(V, V ) = 4 5 N C C I V60 24 9 16 40• Il y a k(k−1)2paires/scores à calculer pour chaque colonne


Méthode de score SP 11• SP pour Sum of Pairs, c’est la méthode la plus utilisée• Somme des scores de toutes les paires d’a.a. possibles dans une colonne(p(−, −) = 0), puis somme des scores des colonnesSP (I, −, I, V ) = p(I, −) + p(I, I) + p(I, V ) + p(−, I) + p(−, V ) + p(I, V )• Exemple avec BLOSUM62 et indel=-2p(N, N) = 6p(N, C) = −3 1 N N N I Vp(C, C) = 9 2 N N N I Vp(I, I) = 4 3 N N N − Vp(I, −) = −2 4 N N C I Vp(V, V ) = 4 5 N C C I V60 24 9 16 40 =• Il y a k(k−1)2paires/scores à calculer pour chaque colonne


Méthode de score SP 11• SP pour Sum of Pairs, c’est la méthode la plus utilisée• Somme des scores de toutes les paires d’a.a. possibles dans une colonne(p(−, −) = 0), puis somme des scores des colonnesSP (I, −, I, V ) = p(I, −) + p(I, I) + p(I, V ) + p(−, I) + p(−, V ) + p(I, V )• Exemple avec BLOSUM62 et indel=-2p(N, N) = 6p(N, C) = −3 1 N N N I Vp(C, C) = 9 2 N N N I Vp(I, I) = 4 3 N N N − Vp(I, −) = −2 4 N N C I Vp(V, V ) = 4 5 N C C I V60 24 9 16 40 = 149• Il y a k(k−1)2paires/scores à calculer pour chaque colonne


Plan 12• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Méthode exacte 13• Le principe de programmation dynamique est généralisable à kséquences de longueur n• Matrice A de dimension n k• A(i 1 , i 2 , . . . , i k ) contient le score d’alignement optimal entre lespréfixes s 1 [1..i 1 ], s 2 [1..i 2 ], . . . , s k [1..i k ]• Remplissage des O(n k ) cases de la table ⇒ espace mémoire O(n k )• Chaque entrée (∼ case) dépend de 2 k − 1 entrées déjà calculées• Calculer le score SP requiert O(k 2 ) car il y a k(k−1)2pairesTemps total d’exécution en O(k 2 2 k n k )


Exemple avec 3 séquencesi,j,k)(i,j,k−1)(i−1,j−1,k)(i,j−1,k)(i−1,j−1,k−1)(i,j−1,k−1)(i−1,j,k−1)(i−1,j,k)


Exemple avec 3 séquences : la récurrence 15• 3 séquences : r, s et t, méthode de score SP et g pénalité de gap• A matrice de prog. dyn.Initialisation : A(0, 0, 0) = 0 ; A(i, 0, 0) = i × 2g ;A(0, j, 0) = j × 2g ; A(0, 0, k) = k × 2g.⎧A(i − 1, j − 1, k − 1) + SP (r i , s j , t k )A(i, j − 1, k − 1) + SP (−, s j , t k )Remplissage : A(i, j, k) = max⎪⎨A(i − 1, j, k − 1) + SP (r i , −, t k )A(i − 1, j − 1, k) + SP (r i , s j , −)A(i, j, k − 1) + SP (−, −, t k )⎪⎩A(i, j − 1, k) + SP (−, s j , −)A(i − 1, j, k) + SP (r i , −, −)


Méthode exacte : conclusion 16• Méthode guère plus complexe pour k séquences que pour 2(facilement programmable)• Mais le temps de calcul en O(k 2 2 k n k ), ainsi que la place mémoirenécessaire deviennent prohibitif quand k augmente.• Illustration :→ 2 séquences de 100 a.a. → 1 sec.→ 3 séquences de 100 a.a. → 10 min→ 4 séquences de 100 a.a. → ∼ 3 jours→ à partir de 9 séq. le tps de calcul dépasse l’âge de l’univers . . .⇒ Mise au point d’algorithmes heuristiques performants et debonne qualité (pb encore ouvert aujourd’hui)


Plan 17• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global→ <strong>Alignement</strong> exact (ex : MSA, DCA)→ <strong>Alignement</strong> progressif (ex : CLUSTALW)→ Amélioration de l’approche progressive (ex : T-COFFEE,MAFFT, DIALIGN,. . . )→ Autres méthodes d’alignement <strong>multiple</strong>• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Plan 17• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global→ <strong>Alignement</strong> exact (ex : MSA, DCA)→ <strong>Alignement</strong> progressif (ex : CLUSTALW)→ Amélioration de l’approche progressive (ex : T-COFFEE,MAFFT, DIALIGN,. . . )→ Autres méthodes d’alignement <strong>multiple</strong>• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Algorithmes basés sur une méthode exacte 18• Objectif : alignement simultané de séquences ’optimal’• Variante <strong>du</strong> principe de programmation dynamique multi-dimensionnelle• Measurement Systems Analysis (MSA)software : heuristique basée sur l’algorithmecomplet de N&W⇒ restreindre le calcul de l’alignement autourde la diagonale• Divise Conquer <strong>multiple</strong> sequence <strong>Alignement</strong>(DCA) software : heuristique basée sur MSA etl’approche ≪ diviser pour régner ≫


Plan 18• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global→ <strong>Alignement</strong> exact (ex : MSA, DCA)→ <strong>Alignement</strong> progressif (ex : CLUSTALW)→ Amélioration de l’approche progressive (ex : T-COFFEE,MAFFT, DIALIGN,. . . )→ Autres méthodes d’alignement <strong>multiple</strong>• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Méthode progressive 19• Difficile d’aligner simultanément k séquences→ on aligne toutes les paires de séquences→ un score est donné à chaque alignement par paire→ on aligne les séquences progressivement en se basant sur lesalignements par paire : les plus proches puis une autre selon un critèreprécis, . . .• Approche la + utilisée pour l’alignement <strong>multiple</strong> global• Plusieurs alogorithmes qui utilisent différents critères pour :→ l’algorithme d’alignement par paire ( prog dyn, point d’ancrage)→ la fonction de score ou de distance (score, matrice de substitution,. . . )→ l’ordre d’alignement des séquences (arbre guide, étoile, . . . )→ la méthode pour aligner les séquenses (alignement de profils,alignement d’alignement, . . . )


Les profils 20• profil ∼alignement intermédiaire dans l’alignement progressif• Plusieurs méthodes pour progressivement alignées les séquences→ alignement de 2 séquences→ alignement d’une séquence et d’un profil→ alignement de 2 profils• Méthode <strong>du</strong> Profil→ Profil = matrice de scores position-spécifique dans unalignement <strong>multiple</strong> (Position-Specific Scoring Matrix=PSSM)→ 1 colonne de l’alignement = 1 ligne dans le profil→ Exemple de méthode de construction : les scores pour chaquetype de rési<strong>du</strong> sont calculés à partir d’une matrice desubstitutions (PAM, Blosum, ...) et des fréquences de variationobservées pour une position donnée de l’alignement


CLUSTALW 21• Programme original CLUSTAL utilisé depuis 1988, régulièrement améliorédepuis [Higgins & Sharp, 88]• CLUSTALW ([Thompson et al, 94]) = version la plus classique (W pourWeighting) ; les séquences et les paramètres sont pondérés• CLUSTAL Omega ([Sievers et al, 11]) = version la plus récente ;amélioration en terme d’échelle et de qualité des aln (cf. partie suivante)• Fonctionnalités : ajout d’une séq. ou d’un ali. à un ali. déjà fait,pro<strong>du</strong>ction d’un arbre phylogénétique, paramètre slow/fast, . . .• Méthode1. Construction de la matrice des k(k−1)2distances2. Logiciel de reconstruction phylogénétique ⇒ arbre3. <strong>Alignement</strong> progressif suivant cet arbre• Complexité pour k séquences de longueur n : O(kn 2 )


Etapes de ClustalW (1) 22


Etapes de ClustalW (2) 23


Etapes de ClustalW (3) 24


CLUSTALW : le score 25• Pondération des séquences :Une séquence similaire à d’autres dans le groupe a un poids faible,alors qu’une séquence moins proche des autres a un poids plus fort⇒ On diminue ainsi le poids des groupes de séquences similaires etprivilégie les changements dans l’arbre évolutif• Pénalité de gap :CLUSTALW pénalise les gaps de manière à les placer entre lesdomaines conservés (utilise une matrice spéciale et ≠ pénalitéssuivant les régions)Méthode de score de CLUSTALW ≠ SP-score


Résultats graphiques de CLUSTALW 26• CLUSTALW affiche par défaut les symboles suivants pour indiquerle degrés de conservation dans chaque colonne :→ * caractère identique dans toute la colonne→ : substitutions conservatives (suivant la table des couleurs)→ . substitutions semi-conservatives


Code couleur de CLUSTALW 27A.A. Couleur DescriptionAVFPMILW Rouge Petits (petits + hydrophobes (incl. aromatiques -Y))DE Bleu AcidesRK Magenta Basiques - HSTYHCNGQ Vert Hydroxyl + sulfhydryl + amine + GAutres Gris Unusual amino/imino acids . . .(http:http ://fr.wikipedia.org/wiki/Acide aminé)


<strong>Alignement</strong> étoile 28• Un autre type d’alignement progressif : l’alignement étoile• Principe : alignement 2 à 2 entre une séquence fixée (le centre del’étoile) et toutes les autres séquences• Méthode :1. <strong>Alignement</strong>s globaux de toutes les séquences 2 par 22. Choisir la séquence centre s c en fonction des alignements parpaire (la plus proche de toutes les autres)3. Construction de l’alignement <strong>multiple</strong> par juxtaposition desalignements 2 à 2 entre toutes les s i pour i ≠ c et s c (s c est laséquence guide)• Procé<strong>du</strong>re en O(kn 2 + k 2 l)


Plan 29• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global→ <strong>Alignement</strong> exact (ex : MSA, DCA)→ <strong>Alignement</strong> progressif (ex : CLUSTALW)→ Amélioration de l’approche progressive (ex :T-COFFEE, MAFFT, DIALIGN,. . . )→ Autres méthodes d’alignement <strong>multiple</strong>• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Amélioration de l’approche progressive 30• Approche progressive = approche la + utilisée car :→ rapide→ besoin de peu de mémoire→ bonnes performances avec des séquences conservées• MAIS l’approche progressive a plusieurs inconvénients, notamment :→ toute création d’un trou est définitive ⇒ ≪ once a gap, ever a gap ≫→ comparaison simultanée de 2 séquences uniquement→ résultat dépendant des méthodes choisies (score, ordre, . . . )• Différentes méthodes d’amélioration de l’alignement progressif→ fonction de score basée sur la consistance→ raffinement itératif→ utilisation de modèles probabilistes : profils HMM→ . . .


Fonction de score basée sur la consistance 31• Les schémas de score utilisés par les algorithmes d’alignements par pairessont un élément trés influent dans l’algorithme progressif :→ méthodes basées sur les matrices (ClustalW, Muscle, Kalign, . . . )→ méthodes basées sur la consistance (T-Cofee, MAFFT, ProbCons,. . . )


Rafinement itératif 32• Le pb majeur avec l’alignement progressif est qu’une erreur faite audébut de l’alignement ne peut être corrigée par la suite• Pour pallier ce pb, une étape de rafinement est ajouté, suivantdifférentes stratégies : construction itérative de l’arbre guide,division de l’arbre guide en sous-arbre, ...• Objectif = améliorer le score d’alignement global en réalignant dessous-groupes de séquences de manière répétée puis en alignant cessous-groupes dans l’alignement global de toutes les séquences• La sélection de ces sous-groupes peut se faire sur la base de l’arbreguide, ou la séparation d’une à deux séquences <strong>du</strong> reste, ou demanière aléatoire


Exemple de rafinement d’alignement progressif 33


Modèles probabilistes 34• Représentation des alignements par des profils HMM• Modèles de Markov cachés (HMM)


T-COFFEE 35• T-COFFEE V5.05 (2007), [Notredame et al, 2000]• Méthode :1. Construction d’une bibliothèque d’alignement 2 à 2, globaux etlocaux, pour chaque paire de séquences <strong>du</strong> jeu d’entrée2. Phase de “scorage” pour donner un poids aux alignements puis auxcaractères alignés (≪ library extension ≫)3. Cette bibliothèque est ensuite utilisée pour guider une phased’alignement progressif pour trouver un MSA préservant laconsistance des alignements 2 à 2• Pro<strong>du</strong>it de meilleurs alignements mais encore trop lent pour de gros jeuxde séquences• Différentes versions spécifiques et permettant l’utilisation de donnéesexternes (autres programmes, structures, ...)• Originalité : permet de combiner différents résultats (exemple :CLUSTALW, DIALIGN et alignement structural)


T-COFFEE : plusieurs versions 36


T-COFFEE : Résultats graphiques 37• Les parties oranges et rouges sont considérées comme bien alignées• Plusieurs formats de sortie : .aln (CLUSTALW), FASTA, PHYLIPet T-COFFEE ci-dessus• + 2 formats d’arbres


MUSCLE 38• MUSCLE V3.8 (2010) [Edgar, R.C., 2004]1. k-mer clustering⇒ alignementprogressif rapide2.progressivealignment + treerefinement⇒amélioration del’alignement progressif3.tree dependentrefinement⇒ raffinement itératif


MUSCLE : Utilisations et Résultat 39• 3 stratégies d’utilisation (versions) de MUSCLE : compromis entre qualitéet rapidité (étapes 1, 2, 3)I. MUSCLE, options par défaut (étapes 1 à 3) ⇒ qualité maximum<strong>II</strong>. MUSCLE-fast (étape 1) ⇒ rapidité maximum<strong>II</strong>I. MUSCLE-prog (étapes 1 et 2) ⇒ compromis entre qualité et rapidité• Options : ajout de séquences à un alignement existant, alignements deprofils, ...• Les parties bleus sont considérées comme bien alignées• Plusieurs formats de sortie : .CLUSTALW, FASTA, PHYLIP, HTML(ci-dessus), GCG MSF• + les arbres guides (aprés la 1ere ou 2eme itération)


MAFFT 40• MAFFT V7 (2013) [Katoh K and Standley D M, 2013]• Même principe que MUSCLE→ Étape 1 : alignement progressif rapide→ Étape 2 : amélioration de l’alignement progressif→ Étape 3 : rafinement itératif• <strong>Alignement</strong> par paire (étape 1) :→ Séquence réécrit dans un système où les acides aminés sontdécrits par leur polarité et leur volume→ Segments de similarité entre chaque paire de séquence repéréspar une analyse par Transformée de Fourrier rapide (FFT)→ <strong>Alignement</strong> par paire sur la base de ses segments (algorithmerestreint de prog. dyn. global)


MAFFT - Utilisation 41• 3 stratégies d’utilisation (versions) de MAFFTI. FFT-NS-1/2 : méthode progressive (étape 1 / étape 1 et 2)<strong>II</strong>. FFT/NW-NS-i : méthode de raffinements itératif utilisant le scoreWSP (étape 1 à 3)<strong>II</strong>I. L/E/G-INS-i : méthode de raffinements itératif utilisant le score WSP(weighted sum-of-pairs) et des scores basés sur la consistance (étape1 à 3)• Méthodes pour construire les alignements par paire→ Algorithme FFT (I et <strong>II</strong>)→ Algorithme d’alignement global de Needleman et Wunsch (<strong>II</strong>I G-INS-i)→ Algorithme d’alignement local de Smith et Waterman (<strong>II</strong>I L/E/-INS-i)• Autres options possibles :→ Aligner un grand nombre de séquences (≥10 000, PartTree)→ Ajout de séquences à un alignements existant, alignements de profils


MAFFT - Résultat 42• Plusieurs formats de sortie possibles pour l’alignement <strong>multiple</strong>• Visualisation de l’alignement et de l’arbre phylogénétique• Rafinement <strong>du</strong> jeux de données


Clustal Omega 43• Clustal Ω [Sievers et al, 11]• Même principe que Clustal W mais :→ Construction de l’arbre guide = version optimisée de mBed([Blackshields et al. 2010], séquences remplacées par des vecteurs dedistance)→ <strong>Alignement</strong> progressif = alignement de profils HMM (Hhalign, [Söding,2005])• Options possibles :→ <strong>Alignement</strong> de profil externe (EPA) : utilisation d’un profil HMMexistant (ou construit à partir d’un alignement existant) pour guiderl’alignement <strong>du</strong> jeux de données→ Utiliser le principe de l’EPA dans un schéma itératif pour améliorerl’arbre guide et/ou l’alignement progressif→ Aligner un grand nombre de séquences (≥10 000)→ Ajout de séquences à un alignement existant, alignement de profils


Autres exemples de logiciels utilisant des méthodesqui améliorent l’approche progressive 44• ProbCons [Do et al., 2005]→ <strong>Alignement</strong> progressif basé sur une combinaison de modèlesprobabilistes et de calcul de consistance : consistance probabilistecaclulée à partir de HMM→ Rafinement itératif• KALIGN2 [Lassmann et al., 2009]→ <strong>Alignement</strong> progressif utilisant, pour le calcul des distancesentre séquences, l’algorithme Wu-Manber de reconnaissance dechaîne (précision et vitesse améliorées)→ Option : programmation dynamique pour aligner les profils


MULTALIN 45• Programme de Florence Corpet de l’INRA Toulouse [Corpet, 88]• <strong>Alignement</strong> <strong>multiple</strong> avec clustering hiérarchique• Principe similaire à CLUSTAL mais pas d’évolution depuis 2000• Méthode :1. Initialisation : tous les ali. 2 à 2 sont faits et on garde leur score2. Clustering hiérarchique des séquences à partir de ces scores3. <strong>Alignement</strong>s selon cet arbre hiérarchique → ali. complet4. Calcule <strong>du</strong> score SP de l’alignement obtenu (et donc le score dechaque paire de séquences alignées)5. Nouveau clustering hiérarchique avec ces nouveaux scores6. Si le nouveau clustering est différent <strong>du</strong> 1er, on peutrecommencer (pas 3.) jusqu’à ce que ce soit stable


Résultats graphiques de MULTALIN 46• Plusieurs formats d’entrée et de sortie disponibles• Code couleur suivant le degrés de consensus de la colonne :– Rouge → fort consensus, lettre majuscule– Bleu → faible consensus, lettre minuscule– Noir → neutre, pas de caractère reporté• Possibilité de modification des paramètres de la méthode et enparticulier de ceux d’affichage


DIALIGN 47• DIALIGN 2.2.1 (oct. 2007) [Morgenstern, 2004]→ Version améliorée : DIALIGN-TX [Subramanian et al., 2008]• Spécialité : se base sur des similarités locales pour aligner des séquencestrès divergentes ou de longueur différentes• Méthode :1. Repérer les régions alignées sans gaps dans les alignements 2 à 2 (∼diagonales continues dans un dotplot)2. Cherche un ensemble compatibles de diagonales pondérées pouvantpro<strong>du</strong>ire un ali. et maximisant la somme des poids3. DIALIGN construit un alignement progressivement à partir de cesdiagonales• Schéma de score dans DIALIGN : score de l’aln = somme des scores desdiagonales qui le composent ⇒ pas de pénalités de gap


DIALIGN - Utilisation 48• Différentes versions de Dialign→ DIALIGN-TX⊲ Dernière version de DIALIGN→ Anchored DIALIGN⊲ Contraintes définies par l’utilisateur (points d’ancrage des régionsalignées)→ DIALIGN-PFAM⊲ Utilisation des informations de PFAM→ CHAOS-DIALIGN⊲ Aln <strong>multiple</strong> ET aln par paire de séquences génomiques⊲ Utilisation d’un algorithme (CHAOS) qui identifie rapidement lesrégions de fortes similarités (= point d’ancrage des régions alignéespar DIALIGN)


CHAOS-DIALIGN - Résultat 49• 2 formats de sortie possibles : FASTA et DIALIGN ci-dessus pourl’alignement <strong>multiple</strong>• la liste des segments (alignements locaux sans gap par paire)PHYLIP• la liste des points d’ancrage créés par CHAOS


PSI-BLAST 50• Les MSA peuvent servir à faire des recherches plus sensibles dans lesbanques de données qu’en utilisant 1 seule séq. requête• Rappel <strong>du</strong> fonctionnement de PSI-BLAST1. On cherche des séquences similaires à la requête2. Construction d’un profil ou PSSM3. (en boucle) On cherche avec ce profil et on y intègre les nouvellesséquences trouvées4. Fin qd l’ensemble de séq. est stable ou le nb max d’itérations estdépassée• PSI-BLAST utilise des alignement <strong>multiple</strong>s différents de ceux obtenusavec les outils classiques→ Normalement les MSA sont plus long que les séquences qu’ilscontiennent mais PSI-BLAST supprime les régions qui nécessiteraientd’intro<strong>du</strong>ire des gap dans la séq. requête


Plan 51• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global→ <strong>Alignement</strong> exact (ex : MSA, DCA)→ <strong>Alignement</strong> progressif (ex : CLUSTALW)→ Amélioration de l’approche progressive (ex : T-COFFEE,MAFFT, DIALIGN,. . . )→ Autres méthodes d’alignement <strong>multiple</strong>• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Approche itérative 52• Principe : construction d’un alignement initial puis pdt chaqueitération, modification de l’aln courrant jusqu’à convergence• Différentes manières de modifier un alignement– insertion/deletion d’un ou plusieurs gap dans l’alignement– exclusion de séquences alignées séparément puis réalignées avecl’alignement global– division de l’alignement en 2 groupes alignés séparemment puisalignés ensemble– division de l’alignement en 2 groupes dont les profiles sontconstruits puis alignés ensemble• Exemple de programmes : algorithme génétique (ex : SAGA), . . .


Approche utilisant des informations externes 53• Approche récente ⇒ nouvelle catégorie d’algorithmes• Objectif = améliorer la signification biologique d’un aln enintégrant/utilisant des informations aditionnelles externes→ informations fonctionnelles (homologie) ou structurelles (stucturesecondaire/tertiaire) extraites de bd biologiques→ contraintes définies par l’utilisateur• Utilisation d’une des approches d’alignement <strong>multiple</strong> améliorée pardifférentes stratégies• Une des stratégies : l’extension <strong>du</strong> principe de consistance→ utilisation d’un jeux de données comme point de départ pour exploreret retrouver toutes les informations connexes contenues dans les bdpublics afin de constituer la librairie utilisée pour la construction del’aln <strong>multiple</strong> global• Exemple de programmes : Expresso, PROMALS, PRALINE, DBClustal,MUMMALS, SPEM, . . .


La suite . . . 54• Approche ”Phylogeny-aware”→ Objetif : obtenir un alignement ”évolutivement” correct→ <strong>Alignement</strong>s pour la phylogénie→ PRANK [Löytynoja and Goldman, 2005 ; 2010]⊲ Programme d’alignement <strong>multiple</strong> probabiliste⊲ Prend en compte les informations phylogénétiques contenuesdans les indels⇒ gérer correctement les insertions⇒ éviter la sur-estimation <strong>du</strong> nombre d’évènement de délétion• Approche co-estimation de l’alignement et de la phylogénie


<strong>Alignement</strong> structurel 55• Lorsqu’on dispose de structures 3D, on peut comparer des protéines enles superposant• Mais il faut connaître quels sont les a.a. qui se correspondent• C’est le but des méthodes d’alignement <strong>multiple</strong> structurel→ <strong>Alignement</strong> structurel des séquences→ Superposition 3D de leur structure• Logiciels, pour 2 ou plusieurs protéines : SSAP, DALI, STAMP, . . .• Méthode de STAMP1. <strong>Alignement</strong> structurel de 2 séquences2. Les structures sont superposées selon cet alignement3. Calcul d’une matrice de scores de similarité structurelle4. Prog. dyn. sur cette matrice pour trouver meilleur score & ali.5. Étant donné l’alignement on recommence jusqu’à convergenceSi plusieurs séquences, toutes les paires de structures sont comparées etun arbre est calculé, et on le suit comme pour un alignement progressif


Plan 56• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local→ Méthodes à motif unique→ Méthodes à alignement complet de domaines→ Méthodes à plusieurs motifs• Nettoyage de MSA• Éditeurs de MSA• Références


MSA Locaux 57• Les méthodes de MSA décrites précédemment pro<strong>du</strong>isent unalignement global des séquences→ Bon point de départ pour les analyses phylogénétiques• Les méthodes de MSA locaux alignent les régions les plus similairesdes séquences, ignorant les régions dissimilaires→ Recherche de domaines• La pro<strong>du</strong>ction d’un MSA local peut se faire soit1. en utilisant des méthodes d’alignements <strong>multiple</strong> local2. en partant d’un MSA global et en sélectionnant les régions lesplus conservées• Il existe de nombreuses banques de familles de séquences protéiquesbasées sur le partage d’une caractéristique commune


MSA Locaux : définition et intérêt 58• Domaines protéiques→ Unité structurale (structuraliste) : régions capable de se replierindépendamment <strong>du</strong> reste de la protéine→ Unité fonctionnelle (biochimiste) : régions pour lesquelles unefonction propre a pu être caractérisée expérimentallement→ Unité d’évolution (évolutionniste/génomique comparative) :régions homologues, issues d’un domaine ancestral commun etconservés au cours de l’évolution⇒ Définitions compatibles• Protéines monodomaines ou multidomaines (plusieurs fonctions ounouvelles fonctions)⇒ L’identification précise des domaines apporte des informationsstructurelles, fonctionnelles et évolutives.


MSA Locaux : terminologie 59• Domaine et Motif→ Motif = petit groupe d’a.a. extrêmement bien conservé entredes séquences globalement différentes et associé à desinteractions bien précises (site actif ou d’ancrage, . . . )⇒ Un domaine contenant plusieurs sites d’ancrage est composéde plusieurs motifs→ Un motif n’a pas forcément de repliement propre.→ Un motif contient des rési<strong>du</strong>s essentiels à la fonction et àl’interaction, éventuellement entre-coupés de rési<strong>du</strong>snon-essentiels


Extraction d’un MSA global 60• Motif→ Expression régulière /pattern• Groupe de motifs→ Matrice de fréquence⇒ Signature→ Matrice pondéréeposition spécifique⇒ Bloc• <strong>Alignement</strong> <strong>multiple</strong> dedomaines→ Profil→ HMM[Attwood, 2000]


Création de banques de familles protéiques 61• Méthode à motifsuniques→ PROSITE (pattern)→ IDENTIFY ⇒ eMOTIF• Méthode à motifs<strong>multiple</strong>s→ PRINTS→ BLOCKS ⇒ Interpro• Méthode à alignementcomplet de domaines→ PROSITE (profiles)→ PFAM[Attwood, 2000]


Plan 62• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local→ Méthodes à motif unique→ Méthodes à alignement complet de domaines→ Méthodes à plusieurs motifs• Nettoyage de MSA• Éditeurs de MSA• Références


Régions conservées dans les protéines 63• La nature réutilise souvent un même élément de séquence pourréaliser des fonctions analogues• Ces éléments conservés se structurent généralement en domainesindépendants dans les protéines et prennent en charge une destâches de la protéine : liaison à l’ADN ou à l’ARN, fixation d’unligand, activité enzymatique, . . .• Un gd nb de domaines sont répertoriés dans des bq spécialisées→ Ex : PRODOM, INRA Toulouse, ∼ 1 million domaines communs àau moins 2 protéines, lg moy 100 a.a.• <strong>Alignement</strong> systématique de ces domaines ⇒ identification demotifs caractéristiques


Motif conservés / Expressions régulières 64• Il existe des positions (d’un MSA) où l’on trouve toujours un mêmea.a. ou bien des a.a. similaires (F, Y aromatiques), elles constituentune signature caractéristique de la famille de domaines homologues• On peut donc vouloir chercher des motifs défini de la manièresuivante :F ou Y, suivi d’un a.a. qcq, suivi de C, suivi de 5 a.a. qcq, suivi de C• Même motif mais en syntaxe PROSITE : [FY]-X-C-X(5)-C• On appelle ce formalisme expressions régulières, regex en anglais


Construire un motif PROSITE 65• Utilisation <strong>du</strong> code standard des protéines (IUPAC)• La lettre X est utilisée pour identifier une position qui peut acceptern’importe quel rési<strong>du</strong>• Les positions qui peuvent accepter plrs rési<strong>du</strong>s sont indiquées pardes [] qui renferment les rési<strong>du</strong>s acceptables, ex : [GTS]• Les rési<strong>du</strong>s polymorphes sont indiqués par des {} qui indiquentquels rési<strong>du</strong>s sont impossibles• Chaque indication de contenu est séparée de la suivante par un -,ex : A-T-X-T-X-X-[GTS]• Les répétitions de positions ayant un contenu identique sontindiquées de la manière suivante :A-A-A→A(3) ; T-T→T(2) ; [AT](2)→A-A ou A-T ou T-A ou T-TX(1,3) signifie que les alternatives X, X-X ou X-X-X sont possibles


Un mot sur PROSITE 66• PROSITE est une base de données où chaque entrée décrit desdomaines de protéines, des familles ou des sites fonctionnels ainsique les motifs et profils associés• PROSITE contient plus de 1400 motifs documentés• Consensus PROSITE pour “Zinc finger C2H2-type”ABC3G_LAGLA/285-305ABRU_DROME/546-567ACE1_TRIRE/402-424ACE2_SCHPO/445-467ACE2_SCHPO/475-495ACE2_YEAST/605-627ACE2_YEAST/635-657ADNP_HUMAN/514-535ADNP_MOUSE/233-254...Cfs..CaekVaeflqenpHvnl..HCpk..CgkiYrsahtlrtHledk.HCrepgCtkeFkrpcdltkHekt..HClyngCnkrIarkynvesHiqt..HCdl..CkagFvrhhdlkrHlri..HClypnCnkvFkrrynirsHiqt..HCdfpgCtkaFvrnhdlirHkis..HCpy..CrstFndvekmaaHmrmv.HCpy..CrstFndvekmaaHmrmv.HC - X(2,4) - C - X(3) - [LIVMFYWC] - X(8) - H - X(3,5) - H


Chercher un motif dans une séquence 67• Avantage :→ Des algorithmes de recherche de motifs très puissants existent (domainepattern matching en informatique)→ Les expressions régulières permettent un codage simple <strong>du</strong> motif→ Les méthodes qui cherchent des motifs pointent vers des courtes régionsconservées qui peuvent représenter des fonctions biologiques• Inconvénients :→ Manque de souplesse : ≪similaritématche ou ne matche pas ≫, pas de mesure de→ N’autorisent pas les gaps→ Souvent il n’y a pas d’analyse de la significativité <strong>du</strong> motif→ Problème si l’organisme étudié ne fait pas partie des organismes utiliséspour définir le motif ⇒ plrs motif par famille de protéines→ Si la famille de protéines a plrs régions conservées, laquelle choisir ?


Expressions régulières floues 68• Fuzzy regex en anglais• Permet de relâcher lescontraintes en autorisant lessubstitutions d’a.a. de mêmegroupe• Ces groupes sont définis sur labase des partages de propriétésphysico-chimiques (cf.diagramme de Venn p. 27)PetitsPetits hydroxyleBasiquesAromatiquesBasiquesPetits hydrophobesMoyens hydrophobesAcides/AmidesPetits/polairesA GS TK RF Y WH K RV L IV L I MD E N QA C G S T P• Ex : motif [AS]-D-[IVL]-G-X(4)-PG-C-[DE]-R-[FY](2)-Q→ Motif flou dérivé [ASCGPT]-D-[IVLM]-G-X(4)-PG-C-[DE]-R-[FYW](2)-Q• Permet d’identifier des prot. assez éloignées mais augmente le bruit• Banque de donnée eMOTIF


Plan 69• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local→ Méthodes à motif unique→ Méthodes à alignement complet de domaines→ Méthodes à plusieurs motifs• Nettoyage de MSA• Éditeurs de MSA• Références


Analyse de profil 70• Les profils sont construits à partir d’un MSA global des séquences,en extrayant les régions les plus conservées, donnant ainsi un MSAde plus petite taille• Une matrice de scores pour ce MSA est alors calculée, on l’appelleprofil (profile en anglais)• Un profil est composé de colonnes contenant les scores pour lesmatches, les mismatches et les pénalités de gap• Une fois calculé, le profil peut être utilisé pour chercher uneséquence cible


Plus précisément 71• Les profils sont similaires aux matrices de scores (PSSM)• Un profil est une matrice de 23 colonnes : une pour chaque a.a.,plus une colonne pour un a.a. inconnu ’Z’ et 2 colonnes pour lespénalités d’ouverture et d’extension de gap• Le profil a autant de lignes que le MSA a de colonnes• Une séquence consensus est indiquée verticalement à la gauche <strong>du</strong>tableau, elle représente les a.a. les plus fréquents à chaque position• Les scores reflètent le nb d’occurrences de chaque a.a. dans lesséquences alignées


Exemple de profil 72BIRC6_HUMANCOP10_ARATHFTS1_HUMANFTS1_MOUSEMMS2_SCHPOMMS2_YEAST...RRLAQEAVTLST.....S.........LPLSSSSSVFVRCde.......eRLDIMKVLITGP...ADTPYKRIQREMAELNI.....D.........PPPDCSAGPKGD-..........NLYHWIAT<strong>II</strong>GP...SGTPYYSLLAEFTLVVK.....Q.........KLPGVYVQPSYRS..........ALMWFGVIFI--...RHGLYYSLLAEFTLVVK.....Q.........KLPGVYVQPSYRS..........ALVWFGVIFI--...RHGLYFKLLEELEKGEKgl..gE.........SSCSYGLTNADDI..........TLSDWNATILGP...AHSVHFRLLEELEKGEK.....Gf........GPESCSYGLADSDd........iTMTKWNGTILGP...PHSNHA B C D E F G H I K L M N P Q R S T V W’R’; -10, -6,-25, -9, -2,-13,-19, -7,-16, 16,-14, -6, -1,-17, 1, 18, -6, -4,-13,-20’R’; -15,-12,-26,-13, -4,-13,-20, -5,-21, 16,-10, -6, -4,-20, 3, 47, -9, -6,-14,-21’L’; -9,-28,-22,-30,-20, 4,-32,-22, 25,-26, 35, 17,-26,-26,-19,-20,-24, -9, 16,-21’M’; -7,-14,-20,-19, -8, -8,-23, -7, 0, -5, 6, 14,-13,-19, 5, -3,-13, -7, -4,-19’K’; -7, -2,-28, -1, 13,-27,-19, -7,-27, 33,-24,-10, -2,-11, 11, 26, -7, -9,-20,-20’E’; -12, 15,-30, 26, 50,-32,-18, 1,-31, 8,-22,-20, 3, -2, 21, -1, 0,-10,-30,-31’L’; -10,-25,-21,-28,-20, 17,-28,-16, 10,-19, 22, 9,-22,-27,-19,-12,-20, -7, 7,-12...


Profil : avantages et inconvénients 73• Avantages→ Les profiles permettent de détecter des ressemblances trés faibles→ Les profiles ne sont habituellement pas confinés à de courts domainestrés similaires→ Les profiles sont supposés être plus senseibles et plus robustes que lesmotifs• Inconvénients→ Les profils sont très liés aux MSA globaux dont ils sont extraits (refletde la variation dans les séquences)⊲ Si il y a beaucoup de séquences similaires, le MSA et le profil dé<strong>du</strong>itseront biaisés en faveur de ces séquences⊲ Diverses corrections dont pondération des séquences→ Autre problème : des a.a. peuvent de pas être représentés danscertaines colonnes à cause d’un trop petit nb de séq. incluses


Construction de profil 74• Deux méthodes sont principalement utilisées pour construire desprofils→ Méthode moyenne : les scores <strong>du</strong> profil sont pondérés par laproportion de chaque a.a. dans chaque colonne (ex MEME)→ Méthode évolutive : basée sur le modèle d’évolution de protéine deDayoff, elle suppose différentes vitesses d’évolution pour chaquecolonne <strong>du</strong> MSA• Évaluation de profils : le “ROC plot” mesure la précision d’un profilpour discriminer entre les membres ou non-membres d’une famillede protéines lors d’une recherche de similarité dans les banques• Alternative pour représenter les alignements de domaines :HMM profil


Sequence Logo et WebLogo 75• Logo [Schneider and Stephens, 1990](WebLogo [Crooks et al., 2004])• Représentation graphique d’un MSA• Une pile de symboles pour chaqueposition• Hauteur de la pile = conservation àcette position• Hauteur des symboles = fréquencerelative de chaque base à cette position• Description plus riche et plus précisequ’une séquence consensus⇒ Identifier plus facilement laconservation des colonnes d’un MSA[Shaner et al., 2003]


Plan 76• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local→ Méthodes à motif unique→ Méthodes à alignement complet de domaines→ Méthodes à plusieurs motifs• Nettoyage de MSA• Éditeurs de MSA• Références


Les blocs 77• Comme les profils, les blocs représentent les régions conservées(motifs) dans un MSA global• Les blocs pro<strong>du</strong>its de cette manière sont aussi bon (ou moins bon)que le MSA dont ils sont issus• Les blocs sont représentés sous forme de matrice de scoreposition-specific (∼ profil)• Les blocs sont différents des profils car ils n’autorisent pas les indels• Les blocs peuvent être constitués de plusieurs régions similairesmais non adjacentes• Le motif trouvé dans chaque séquence est de même lg, et qd lesséq. sont alignées, les caractères sont dans les mêmes colonnes


Exemple de bloc et logo associé 78Block IPB006715AETV5_HUMAN|P41161 ( 1) MDGFYDQQVPFMV 35ETV1_HUMAN|P50549 ( 1) MDGFYDQQVPYMV 33ETV1_MOUSE|P41164 ( 1) MDGFYDQQVPYVV 37ETV4_HUMAN|P43268 ( 73) KAGYLDQQVPYTF 77ETV4_MOUSE|P28322 ( 81) KGGYLDQRVPYTF 100PEA3_BRARE|Q9PUQ1 ( 5) MDGYLDQQVPYTL 50...


Les empreintes 79• Les empreintes ou signatures ou fingerprints sont une autre représentationde plusieurs régions conservés (motifs) dans le MSA• Les empreintes sont des matrices de comptage d’a.a. non pondérées• Ces matrices sont donc creuses : la plupart des cases contenant 0• L’utilisation de ces matrices brutes est plutôt rare• On construit donc des empreintes par itérations successives sur lesbanques Swiss-Prot et TrEMBL pour qu’elles contiennent plus devariabilité• Banque de données PRINTS (Version 42.0) contient 2156 empreintes,encodant 12444 motifs uniques• Plus restrictif que profil ou pattern : utiliser pour prédire l’occurrence demotifs similaires


Un mot sur les méthodes statistiques 80• Les méthodes que l’on vient de voir utilisent un MSA global comme pointde départ et tentent de localiser les régions conservées• Une alternative est de chercher les motifs conservés en faisant desalignements “tests” et ensuite d’améliorer ces alignements en utilisant desméthodes statistiques• Plusieurs méthodes regroupées sous ce terme : algorithmes EM(Expectation Maximisation), Gibbs Sampler, les modèles de Markovcachés (HMM), . . .• Exemple de logiciel utilisant les profils HMM : HMMER [Eddy, 2009]→ Construction d’un alignement <strong>multiple</strong> en utilisant des HMM→ Recherche de régions (ou séquences) s’alignant avec des séquencespréalignées (construction d’un HMM puis recherche dans BD)• Les matrices de scores pro<strong>du</strong>ites par ces méthodes peuvent être utiliséespour la recherche de séquences présentant le même motif


Bilan 81• Les bases de données comme PROSITE, PRINTS, Pfam, .... sontessentielles :→ pour l’identification des relations entre séquences éloignées→ pour la prédiction des fonctions et des structures des protéines• Problèmes : format différents, nomenclature différentes,avantages/inconvénients• InterPro (http ://www.ebi.ac.uk/interpro)→ projet mondial fournissant une vue intégrée des bd majeurs demotifs de séquences + interface web d’accès aux données→ bd de familles de protéines, de domaines et de sites fonctionnels


Plan 82• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Nettoyage de l’alignement 83• Qualité des MSA ⇒ qualité/précision des analyses (phylogénie, . . . )• Mais différents problèmes exsitent dans les MSA→ Grandes zones de gap→ Séquences de longueurs différentes→ Régions aves un alignement ambigu→ Variabilité importante des caractères (régions trés divergentes)→ . . .Nettoyage <strong>du</strong> MSA pour avoir un aln de meilleur qualitéSuppression des régions non informatives, mal conservées• Logiciels : BMGE ([Criscuolo and Gribaldo, 2010]), Trimal([Capella-Gutiérrez et al., 2009]), Gblocks, . . .


Gblocks 84• Gblocks [Castresana, 2000] : logiciel trés utilisé pour nettoyer unalignement (mais qui date un peu . . . )• Classement des sites en 3 catégories en fonction de la variabilité observéeà chaque site : Conservé, Non conservé, Très conservé• Détermination d’un ensemble de blocs de site bien alignés en éliminant :→ Les sites non conservés→ Leur voisins jusqu’au 1er site très conservé→ Les blocs de sites restant trop court• Différents paramètres :→ Mo<strong>du</strong>ler le niveau de stringence avec lequel les sites les plus variablessont éliminés→ Paramètres par défaut : effet conservateur (élimine + de sites que lessites non homologues)


Plan 85• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Généralités 86• Une fois qu’on a obtenu un MSA global, il peut être intéressantd’éditer les séquences manuellement pour obtenir un meilleuralignement• Un “bon” éditeur de séquences devrait avoir au moins lescaractéristiques suivantes :→ Prendre en compte l’affichage coloré <strong>du</strong> MSA où les couleursaident à la compréhension→ Reconnaissance des formats de MSA en sortie des logicielsd’alignement et maintient de ce format après l’édition→ Interface graphique ergonomique, utilisation de la souris, . . .


Éditeurs 87• Éditeurs : CINEMA (Colour INteractive Editor for Multiple Alignment),GDE (Genetic Data Environment), GeneDoc (pour Windows), SEAVIEW,Jalview, BioEdit (pour Windows uniquement), . . .• Certains, comme Seaview, combinent plusieurs fonctionnalités : éditiond’alignements, mais également construction et nettoyage d’alignements(et recontrsuction phylogénétique)• La plupart d’entre eux doivent être installés sur machines


Formats 88• Il existe un grand nombre de formats de MSA• Les deux plus fréquents sont le format MSF (Genetic’s ComputerGroup) et le format ALN (CLUSTALW)• On peut convertir l’un en l’autre facilement• Exemple de format ALN :CLUSTAL W (1.82) <strong>multiple</strong> sequence alignmentFOSB_MOUSE MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTVTA 60FOSB_HUMAN MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTVTA 60************************************************************FOSB_MOUSE ITTSQDLQWLVQPTLISSMAQSQGQPLASQPPAVDPYDMPGTSYSTPGLSAYSTGGASGS 120FOSB_HUMAN ITTSQDLQWLVQPTLISSMAQSQGQPLASQPPVVDPYDMPGTSYSTPGMSGYSSGGASGS 120********************************.***************:*.**:******


Format ALN/ClustalW 89• Le format ALN est le format d’origine <strong>du</strong> programme ClustalW. Lefichier commence par le mot clé ”CLUSTAL” puis diversesinformations concernant la version de CLUSTAL utilisée (ex :”CLUSTAL W (1.82) <strong>multiple</strong> sequence alignment”)• L’alignement est écrit en blocs de taille 60 rési<strong>du</strong>s• Chaque bloc commence avec le nom de la séquence et termine parla position de fin <strong>du</strong> bloc• Des informations concernant les mises en correspondance desrési<strong>du</strong>s est donnée en dessous de chaque bloc : “*” même rési<strong>du</strong>dans toute la colonne,“:” substitutions conservatives, “.”substitutions semi-conservatives.


Format GCG/MSF 90• Le fichier commence par autant de lignes de description quenécessaire• Les commentaires sont terminés par une ligne commençant avec 2barres obliques• La 1re ligne reconnue est celle qui contient ”MSF :”, elle contientaussi la lg de la séquence, le type, etc• Ensuite une ligne blanche• Puis une ligne par séquence avec leur description (nom, lg, poids,. . . ), ce bloc est aussi terminé par 2 barres obliques• Encore une ligne blanche• Enfin l’alignement proprement dit


Format GCG/MSF (2) 91Les commentaires ....//MSF: 510 Type: P Check: 7736 ..Name: ACHE_BOVIN oo Len: 510 Check: 7842 Weight: 16.0Name: ACHE_HUMAN oo Len: 510 Check: 8553 Weight: 17.8Name: ACHE_MOUSE oo Len: 510 Check: 229 Weight: 12.5Name: ACHE_RAT oo Len: 510 Check: 8410 Weight: 14.2Name: ACHE_XENLA oo Len: 510 Check: 2702 Weight: 39.2//ACHE_BOVINACHE_HUMANACHE_MOUSEACHE_RATACHE_XENLAMAGALLCALL LLQLLGRGEG KNEELRLYHY LFDTYDPGRR PVQEPEDTVTMARAPLGVLL LLGLLGRGVG KNEELRLYHH LFNNYDPGSR PVREPEDTVTMAGALLGALL LLTLFGRSQG KNEELSLYHH LFDNYDPECR PVRRPEDTVTMTMALLGTLL LLALFGRSQG KNEELSLYHH LFDNYDPECR PVRRPEDTVTMESGVRILSL LILLHNSLAS ESEESRLIKH LFTSYDQKAR PSKGLDDVVPACHE_BOVINACHE_HUMANACHE_MOUSEACHE_RATISLKVTLTNL ISLNEKEETL TTSVWIGIDW QDYRLNYSKG DFGGVETLRVISLKVTLTNL ISLNEKEETL TTSVWIGIDW QDYRLNYSKD DFGGIETLRVITLKVTLTNL ISLNEKEETL TTSVWIGIDW HDYRLNYSKD DFAGVGILRVITLKVTLTNL ISLNEKEETL TTSVWIGIEW QDYRLNFSKD DFAGVEILRV


Plan 92• Intro<strong>du</strong>ction• Méthodes de score• <strong>Alignement</strong> <strong>multiple</strong> exact• MSA Global• MSA Local• Nettoyage de MSA• Éditeurs de MSA• Références


Références (1/2) 93• Chap 8 et 13 dans “Bioinformatics : A Practical Guide tothe Analysis of Genes and Proteins, 3rd Edition”[Baxevanis & Ouellette, 2005]• Chap 2 et 4 dans “Bioinformatique Génomique etpost-génomique”[Dardel & Képès, 2002]• Chap 5, 7 et 9 dans “Bioinformatics and MolecularEvolution”[Higgs & Attwood, 2005]• Chap 12 dans “Algorithms in computational molecularbiology : Techniques, Approaches and Applications”[Elloumi & Zomaya, 2011]


Références (2/2) 94• Fiches 19 à 28 dans “Bio-informatique Principesd’utilisation des outils”[Tagu & Risler, 2010]• “Bioinformatique <strong>Cours</strong> et cas pratique”[Deléage & Gouy, 2013]• Article de recherche : Notredame C (2007) Recent Evolutions ofMultiple Sequence Alignment Algorithms. PLoS Comput Biol 3(8) :e123 [Notredame, 2007]• Article de recherche : Thompson at al. (2011) A ComprehensiveBenchmark Study of Multiple Sequence <strong>Alignement</strong> Methods :Current Challenges and Future Perspectives. Plos One 6(3) :e18093 [Thompson, 2011]

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!