Algorithme d'optimisation par colonie de fourmis - Cercle ...
Algorithme d'optimisation par colonie de fourmis - Cercle ...
Algorithme d'optimisation par colonie de fourmis - Cercle ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Faculté <strong>de</strong>s Sciences<br />
Dé<strong>par</strong>tement d’Informatique<br />
<strong>Algorithme</strong> d’optimisation <strong>par</strong> <strong>colonie</strong><br />
<strong>de</strong> <strong>fourmis</strong> : développement et<br />
application à la prédiction ab initio <strong>de</strong><br />
la structure native <strong>de</strong>s protéines<br />
Fabian TEHEUX<br />
Mémoire présenté sous la direction du Prof. Marianne ROOMAN<br />
et du Prof. Esteban ZIMANYI<br />
en vue <strong>de</strong> l’obtention du gra<strong>de</strong> <strong>de</strong> Licencié en Informatique<br />
Année académique 2005–2006
Table <strong>de</strong>s matières<br />
Préface 7<br />
1 Introduction 9<br />
1.1 Les protéines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />
1.1.1 Structure primaire . . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.1.2 Structure secondaire . . . . . . . . . . . . . . . . . . . . . . 11<br />
1.1.3 Structure tertiaire . . . . . . . . . . . . . . . . . . . . . . . . 12<br />
1.2 Le repliement <strong>de</strong>s protéines . . . . . . . . . . . . . . . . . . . . . . 13<br />
1.3 La prédiction <strong>de</strong> la structure native <strong>de</strong>s protéines . . . . . . . . . . 17<br />
1.3.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
1.3.2 Aperçu général <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> prédiction . . . . . . . . 18<br />
1.3.3 Les impératifs <strong>de</strong> la prédiction <strong>de</strong> structures natives . . . . 19<br />
2 Présentation <strong>de</strong>s outils et métho<strong>de</strong>s existants 20<br />
2.1 Les modèles utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
2.1.1 Modélisation <strong>de</strong> la protéine . . . . . . . . . . . . . . . . . . 20<br />
2.1.2 Discrétisation <strong>de</strong> l’espace conformationnel . . . . . . . . . 23<br />
2.2 L’exploration <strong>de</strong> l’espace conformationnel . . . . . . . . . . . . . . 25<br />
2.2.1 Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />
2.2.2 Le Recuit Simulé . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
2.2.3 Recherche Tabou . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
2.2.4 <strong>Algorithme</strong>s évolutionnaires . . . . . . . . . . . . . . . . . 28<br />
2.2.5 Colonies <strong>de</strong> <strong>fourmis</strong> . . . . . . . . . . . . . . . . . . . . . . 32<br />
2.2.6 Métho<strong>de</strong>s hybri<strong>de</strong>s . . . . . . . . . . . . . . . . . . . . . . . 39<br />
2.3 Les fonctions énergétiques . . . . . . . . . . . . . . . . . . . . . . . 39<br />
2.4 L’évaluation <strong>de</strong>s résultats d’une prédiction . . . . . . . . . . . . . 40<br />
2.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />
2
TABLE DES MATIÈRES 3<br />
3 Nos outils et métho<strong>de</strong>s 42<br />
3.1 Modélisation <strong>de</strong> nos protéines . . . . . . . . . . . . . . . . . . . . . 43<br />
3.2 Discrétisation <strong>de</strong> notre espace <strong>de</strong> recherche . . . . . . . . . . . . . 45<br />
3.3 Exploration <strong>de</strong> l’espace conformationnel . . . . . . . . . . . . . . . 46<br />
3.4 Fonction énergétique utilisée . . . . . . . . . . . . . . . . . . . . . 48<br />
3.4.1 Les potentiels <strong>de</strong> torsion . . . . . . . . . . . . . . . . . . . . 48<br />
3.4.2 Les potentiels <strong>de</strong> distance . . . . . . . . . . . . . . . . . . . 49<br />
3.4.3 Utilisation combinée <strong>de</strong>s potentiels . . . . . . . . . . . . . 50<br />
3.5 Evaluation <strong>de</strong> nos solutions . . . . . . . . . . . . . . . . . . . . . . 51<br />
3.6 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
4 Notre algorithme : AC-ProPre 52<br />
4.1 L’espace conformationnel . . . . . . . . . . . . . . . . . . . . . . . 52<br />
4.2 Les potentiels énergétiques . . . . . . . . . . . . . . . . . . . . . . 53<br />
4.3 La structure et les calculs effectués sur les protéines . . . . . . . . 54<br />
4.3.1 La structure protéique tridimensionnelle . . . . . . . . . . 55<br />
4.3.2 Les métho<strong>de</strong>s <strong>de</strong> calcul . . . . . . . . . . . . . . . . . . . . 56<br />
4.4 La <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />
4.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />
5 Tests et résultats 62<br />
5.1 Les configurations d’exécution <strong>de</strong> notre algorithme . . . . . . . . 62<br />
5.2 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
5.2.1 Evaluation énergétique <strong>de</strong> notre algorithme . . . . . . . . 63<br />
5.2.2 Calcul du RMSD . . . . . . . . . . . . . . . . . . . . . . . . 64<br />
5.2.3 RMSD Vs énergie libre . . . . . . . . . . . . . . . . . . . . . 69<br />
5.3 Notre meilleure prédiction : une RMSD <strong>de</strong> 3,5222Å . . . . . . . . 72<br />
Conclusion 76<br />
Bibliographie 78
Table <strong>de</strong>s figures<br />
1.1 Représentation atomique d’un aci<strong>de</strong> aminé. . . . . . . . . . . . . . 10<br />
1.2 Représentation simplifiée d’un aci<strong>de</strong> aminé. . . . . . . . . . . . . . 11<br />
1.3 Illustration <strong>de</strong>s angles <strong>de</strong> torsion φ et ψ dûs aux liaisons chimiques. 12<br />
1.4 Exemples <strong>de</strong> structures secondaires : (a)hélice-α, (b)feuillet-β. . . 12<br />
1.5 Exemples <strong>de</strong> structure tertiaire : l’ubiquitine. . . . . . . . . . . . . 13<br />
1.6 Représentation tridimensionnelle du paysage énergétique d’une<br />
protéine : (a) un paysage énergétique idéal, (b) un paysage énergétique<br />
réel, (c) <strong>de</strong>ux chemins <strong>de</strong> repliement différents, (d) le<br />
<strong>par</strong>adoxe <strong>de</strong> Levinthal. [source : Gilquin Bernard : Exploration<br />
<strong>de</strong>s méchanismes <strong>de</strong> repliement <strong>de</strong>s protéines <strong>par</strong> dynamique<br />
moléculaire] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />
2.1 Résultats d’une prédiction bidimensionelle basée sur le modèle<br />
HP pour une protéine <strong>de</strong> séquence ’HHHPPHPHPHPPHPHPHP-<br />
PH’ (le début <strong>de</strong> la séquence est symbolisée <strong>par</strong> ’1’ et les résidus<br />
’H’ sont en noir). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />
2.2 Illustration <strong>de</strong> l’angle ω. La molécule entourée est un résidu quelconque<br />
venu s’attacher au résidu que nous étudions. . . . . . . . 22<br />
2.3 Exemple <strong>de</strong> modification conformationnelle locale : (a) l’état avant<br />
la modification conformationnelle, (b) l’état après la modification<br />
conformationnelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
2.4 Fonctionnement d’un algorithme évolutionnaire ordinaire. . . . . 30<br />
2.5 Evolution du comportement <strong>de</strong>s <strong>fourmis</strong> en fonction d’une modification<br />
<strong>de</strong> l’environnement : (a) situation initiale, (b) un ostacle<br />
s’interpose et les <strong>fourmis</strong> choisissent d’aller d’un côté ou <strong>de</strong> l’autre<br />
avec la même probabilité, (c) l’axe BCD étant plus court, les <strong>fourmis</strong><br />
arrivent plus vite <strong>de</strong> l’autre côté <strong>de</strong> l’obstacle, (d) le nombre<br />
croissant <strong>de</strong> phéromones fait émerger le chemin BCD. . . . . . . . 33<br />
4
TABLE DES FIGURES 5<br />
3.1 Représentation simplifiée d’un aci<strong>de</strong> aminé, attention le cas <strong>par</strong>ticulier<br />
<strong>de</strong> la Glycine verra ses atomes Cβ et Cµ se trouver au même<br />
endroit que l’atome Cα. . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />
3.2 Exemple d’angle <strong>de</strong> valence : en pointillé, l’angle <strong>de</strong> valence associé<br />
à l’atome O. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />
4.1 AC-ProPre : déroulement schématique. . . . . . . . . . . . . . . . 61<br />
5.1 Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />
une configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.8, ds0 et ds1 ne sont pas<br />
pris en compte). Les graphique allignés se passent à un nombre<br />
d’itérations équivalent et les graphiques en colonne ont le même<br />
facteur d’élitisme. Les quatres courbes représentent chacune un<br />
nombre <strong>de</strong> <strong>fourmis</strong> d’élite différent. . . . . . . . . . . . . . . . . . 65<br />
5.2 Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />
une configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.6, ds0 et ds1 ne sont pas<br />
pris en compte). Dans ce cas-ci, les diverses courbe montrent un<br />
comportement tout à fait dis<strong>par</strong>ate. . . . . . . . . . . . . . . . . . . 66<br />
5.3 Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />
une configuration <strong>de</strong> (α = 1, β = 2, ρ = 0.8, ds0 et ds1 sont<br />
pris en compte). Les graphique allignés se passent à un nombre<br />
d’itérations équivalent et les graphiques en colonne ont le même<br />
facteur d’élitisme. Les quatres courbes représentent chacune un<br />
nombre <strong>de</strong> <strong>fourmis</strong> d’élite différent. . . . . . . . . . . . . . . . . . 67<br />
5.4 Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />
une configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.6, ds0 et ds1 sont<br />
pris en compte). Dans ce cas-ci, les diverses courbe montrent un<br />
comportement tout à fait dis<strong>par</strong>ate. . . . . . . . . . . . . . . . . . . 68<br />
5.5 Graphiques du RMSD moyen <strong>de</strong>s prédictions effectuées avec une<br />
configuration <strong>de</strong> (α = 1, β = 5, ρ = 0.8, ds0 et ds1 sont pris en<br />
compte). L’allure <strong>de</strong> ces courbes n’évoque rien <strong>de</strong> <strong>par</strong>ticulier. . . . 70<br />
5.6 Graphiques <strong>de</strong> com<strong>par</strong>aison entre le RMSD et l’énergie libre d’une<br />
conformation prédite : (a) prise en compte <strong>de</strong> toute les prédictions<br />
effectuées sans considération <strong>de</strong>s potentiels <strong>de</strong> distance, (b) limitation<br />
aux prédictions présentant un RMSD inférieur à 7Å. . . . . 71<br />
5.7 Représentation <strong>de</strong> la structure tertiaire <strong>de</strong> la prédiction effectuée<br />
<strong>par</strong> AC-ProPre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />
5.8 Représentation <strong>de</strong> la structure tertiaire <strong>de</strong> l’ubiquitine (résidu 1-35). 74
TABLE DES FIGURES 6<br />
5.9 Supperposition <strong>de</strong> la conformation simulée <strong>par</strong> AC-ProPre avec<br />
la conformation native connue. . . . . . . . . . . . . . . . . . . . . 75
Préface<br />
Depuis ses origines, l’informatique a apporté <strong>de</strong>s solutions dans <strong>de</strong>s domaines<br />
aussi variés que complexes. Aujourd’hui, la science y fait une fois <strong>de</strong><br />
plus appel afin <strong>de</strong> prédire la structure tridimentionelle <strong>de</strong>s protéines.<br />
Dans la vie <strong>de</strong> tous les jours, les protéines jouent <strong>de</strong>s rôles importants sur<br />
notre Terre. Il est donc très intéressant <strong>de</strong> comprendre comment elles fonctionnent.<br />
Malheureusement, il nous faut pour ce faire déterminer la structure<br />
tridimentionnelle qu’une protéine adoptera afin <strong>de</strong> jouer son rôle biologique.<br />
Cela n’est évi<strong>de</strong>mment pas aisé !<br />
Les scientifiques se sont donc rués sur <strong>de</strong>s métho<strong>de</strong>s expérimentales ayant<br />
fait leurs preuves, mais ces métho<strong>de</strong>s sont d’une lenteur que le plus patient<br />
<strong>de</strong>s curieux ne saurait supporter. Ainsi, <strong>de</strong> nombreux chercheurs utilisent aujourd’hui<br />
les moyens informatiques afin <strong>de</strong> prédire ce que l’expérience pourra<br />
démontrer.<br />
Lorsqu’un jour <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> prédictions seront <strong>par</strong>faitement au point, il<br />
sera alors possible <strong>de</strong> créer les médicaments les plus adaptés aux défaillances<br />
diverses <strong>de</strong> l’organisme, d’utiliser au mieux les diverses caractéristiques <strong>de</strong> ces<br />
protéines afin d’embellir notre environnement, etc. Un jour peut-être sera-t-il<br />
même possible <strong>de</strong> créer une protéine en fonction <strong>de</strong> besoins du moment !<br />
Nous voicis donc <strong>de</strong>vant une frontière scientifique que l’exploration ne fera<br />
que repousser... En ce qui nous concerne, nous ferons un premier pas dans<br />
l’implémentation d’une métho<strong>de</strong> <strong>de</strong> prédiction (basée sur la métaheuristique<br />
d’optimisation <strong>par</strong> <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong>) appliquée à un espace discret mais proche<br />
<strong>de</strong> celui dans lequel évoluent les protéines réelles. En effet, la littérature actuelle<br />
propose quelques articles implémentant ce type <strong>de</strong> métho<strong>de</strong> mais elle n’a encore<br />
jamais été utilisée avec <strong>de</strong>s modèles <strong>de</strong> représentations proche <strong>de</strong> la réalité.<br />
Nous découvrirons donc pas à pas toutes les informations nécessaires à<br />
la bonne compréhension du fonctionement <strong>de</strong> cette métho<strong>de</strong> pour ensuite en<br />
découvrir les <strong>par</strong>ticularités.<br />
7
« Zooveel is zeker, dat ik het eerst heb aangetoond, dat het vleesch in het<br />
brood aanwezig is en <strong>de</strong> kaas in het gras. »<br />
(« Une chose est certaine, je suis le premier à avoir montré que la vian<strong>de</strong> est<br />
présente dans le pain et le fromage dans l’herbe. »)<br />
Gerhard MULDER
Chapitre 1<br />
Introduction<br />
1.1 Les protéines<br />
Nous sommes en 1835. Un chimiste hollandais, Gerhard Mul<strong>de</strong>r, effectue une<br />
analyse chimique sur le blanc d’œuf et déclare que c’est une substance constituée<br />
d’une base <strong>de</strong> carbone (symbole chimique C), hydrogène (H), oxygène (O) et<br />
azote (N), auxquels s’ajoutent un peu <strong>de</strong> phosphore et <strong>de</strong> souffre. Il montre<br />
également que <strong>de</strong>s substances d’une composition i<strong>de</strong>ntique sont présentes dans<br />
<strong>de</strong>s tissus animaux et végétaux. Les protéines venaient d’être découvertes.<br />
Le mot protéine vient du grec prôtos qui signifie premier, essentiel. En effet,<br />
les protéines interviennent dans la gran<strong>de</strong> majorité <strong>de</strong>s processus qui régissent<br />
le fonctionnement <strong>de</strong> tout être vivant [1]. Leurs rôles sont aussi variés que<br />
complexes :<br />
– l’insuline, <strong>par</strong> exemple, joue un rôle hormonal et transmet <strong>de</strong>s messages<br />
au travers <strong>de</strong> l’organisme ;<br />
– l’hémoglobine, protéine cinématographiquement célèbre, s’occupe du transport<br />
du dioxygène dans notre corps ;<br />
– d’autre protéines <strong>de</strong> transport existent et agissent dans <strong>de</strong>s processus tels<br />
que la photosynthèse ;<br />
– certaines protéines jouent un rôle majeur dans la conversion d’énergie<br />
chimique en énergie mécanique, dans les muscles <strong>par</strong> exemple ;<br />
– les anticorps dont nous avons tous entendu <strong>par</strong>lé et qui jouent un rôle<br />
prédominant dans le système immunitaire sont encore <strong>de</strong>s protéines. Ils<br />
savent faire la différence entre les corps connus et les corps intrus tels que<br />
les virus et autres bactéries.<br />
9
CHAPITRE 1. INTRODUCTION 10<br />
Une autre éthymologie, moins probable mais quelque peu plus séduisante,<br />
voudrait que le mot protéine fasse référence au dieu grec Protée, dieu qui possédait<br />
un pouvoir <strong>de</strong> polymorphisme infini sur son corps. Un fois <strong>de</strong> plus, force<br />
est <strong>de</strong> constater que s’il existe <strong>de</strong>s corps naturels présentant une multitu<strong>de</strong> <strong>de</strong><br />
formes différentes, ce sont bien les protéines !<br />
1.1.1 Structure primaire<br />
Toutes les protéines ont un point commun : ce sont <strong>de</strong>s polymères linéaires<br />
construits à <strong>par</strong>tir <strong>de</strong> différentes combinaisons <strong>de</strong>s 20 aci<strong>de</strong>s aminés <strong>de</strong> base.<br />
On peut représenter un aci<strong>de</strong> aminé comme à la figure 1.1. L’atome central<br />
est appelé carbone α (Cα). Trois structures chimiques s’y connectent : le<br />
groupement amine (−NH2), le groupement carboxyle (−COOH) et une chaîne<br />
latérale (habituellement symbolisée <strong>par</strong> R). Chaque aci<strong>de</strong> aminé diffère <strong>par</strong> cette<br />
chaîne latérale. De plus, cette <strong>de</strong>rnière confère à l’aci<strong>de</strong> aminé ses propriétés<br />
<strong>par</strong>ticulières.<br />
Fig. 1.1 – Représentation atomique d’un aci<strong>de</strong> aminé.<br />
Dans la suite <strong>de</strong> ce mémoire, nous simplifierons les aci<strong>de</strong>s aminés <strong>par</strong> la<br />
représentation suivante (cfr. figue 1.2) où N, Cα, C et O sont les atomes réels <strong>de</strong><br />
la chaîne principle <strong>de</strong> l’aci<strong>de</strong> aminé, Cβ est le premier atome <strong>de</strong> la chaîne latérale<br />
et Cµ est un atome fictif utilisé pour simuler la chaine latérale.<br />
Le Cµ correspond à la moyenne géométrique <strong>de</strong> tous les atomes <strong>de</strong> la<br />
chaîne latérale <strong>de</strong> l’aci<strong>de</strong> aminé (à l’exception <strong>de</strong>s atomes d’hydrogène H). Cette<br />
moyenne est calculée à <strong>par</strong>tir d’une base <strong>de</strong> donnée <strong>de</strong>s structures protéiques<br />
connues dont on a extrait les informations <strong>de</strong> l’aci<strong>de</strong> aminé concerné [2].<br />
Cette représentation simplifiée a (évi<strong>de</strong>mment) une exception : l’aci<strong>de</strong> aminé<br />
nommé glycine. En effet, cet aci<strong>de</strong> aminé ne possè<strong>de</strong> qu’un simple atome d’hy-
CHAPITRE 1. INTRODUCTION 11<br />
Fig. 1.2 – Représentation simplifiée d’un aci<strong>de</strong> aminé.<br />
drogène en guise <strong>de</strong> chaîne latérale. Il est donc commun d’établir une correspondance<br />
<strong>de</strong>s atomes Cβ et Cµ avec l’atome Cα.<br />
Lors <strong>de</strong> la formation d’une protéine, la liaison entre <strong>de</strong>ux aci<strong>de</strong>s aminés se<br />
fait au moyen d’une réaction <strong>de</strong> con<strong>de</strong>nsation. Ainsi, il est commun <strong>de</strong> <strong>par</strong>ler <strong>de</strong><br />
résidus au lieu d’aci<strong>de</strong>s aminés. Le nombre <strong>de</strong> résidus constituant une protéine<br />
varie d’une cinquantaine à plusieurs milliers.<br />
On appelle séquence d’une protéine la suite <strong>de</strong>s résidus qui la compose. C’est<br />
cette séquence qui constitue la structure primaire <strong>de</strong> la protéine. Il est remarquable<br />
<strong>de</strong> constater que la séquence contient toutes les informations nécessaires<br />
à l’adoption d’une structure spécifique et à l’éxcution <strong>de</strong> la fonction biologique<br />
<strong>de</strong> la protéine.<br />
1.1.2 Structure secondaire<br />
Les atomes sont liés entre eux <strong>par</strong> un lien chimique et le lien qui lie l’atome<br />
C d’un résidu à l’atome N d’un autre résidu est appelé lien peptidique. De <strong>par</strong><br />
leurs natures, ces liaisons offrent une certaine liberté <strong>de</strong> rotation aux atomes liés.<br />
Toutefois, le lien peptidique entre <strong>de</strong>ux résidus est <strong>par</strong>ticulier : il a un caractère<br />
<strong>par</strong>tiel <strong>de</strong> double liaison qui a pour conséquence <strong>de</strong> contraindre dans un même<br />
plan les atomes Cα <strong>de</strong> <strong>de</strong>ux résidus voisins et les atomes intermédiaires C, O, N.<br />
Cela dit, comme nous le montre la figure 1.3, il existe toujours <strong>de</strong>s libertés <strong>de</strong><br />
rotation autour <strong>de</strong>s liens N − Cα (appelé angle <strong>de</strong> torsion φ) et Cα − C (angle ψ).<br />
De plus, dans le cas d’une représentation <strong>de</strong> résidus plus détaillée, les chaines<br />
latérales jouissent également d’une certaine liberté <strong>de</strong> rotation. Il en résulte que le<br />
nombre <strong>de</strong> conformations potentiellement accessibles pour une protéine d’une
CHAPITRE 1. INTRODUCTION 12<br />
certaine longueur est astronomiquement grand. Et pourtant, certains motifs<br />
structuraux réguliers sont observés <strong>de</strong> manière récurente dans les protéines.<br />
Ce sont ces arrangements que l’on appelle structure secondaire. Parmi eux,<br />
<strong>de</strong>ux catgories se distinguent : les hélices-α (figure 1.4(a)) et les feuillets-β (figure<br />
1.4(b)). Le squelette (backbone) <strong>de</strong> ces structures est composé <strong>de</strong> la suite <strong>de</strong>s<br />
atomes Cα <strong>de</strong> chaque aci<strong>de</strong> aminé constituant la protéine.<br />
Fig. 1.3 – Illustration <strong>de</strong>s angles <strong>de</strong> torsion φ et ψ dûs aux liaisons chimiques.<br />
Fig. 1.4 – Exemples <strong>de</strong> structures secondaires : (a)hélice-α, (b)feuillet-β.<br />
1.1.3 Structure tertiaire<br />
Chaque protéine a la <strong>par</strong>ticularité <strong>de</strong> possé<strong>de</strong>r <strong>de</strong>s caractéristiques physiques<br />
et chimiques qui lui sont propres. Toutefois, ces caractéristiques sont spécifiques<br />
à la conformation spatiale adoptée <strong>par</strong> la protéine. La majorité <strong>de</strong>s protéines se<br />
replient donc pour adopter une conformation tridimensionnelle unique appelée
CHAPITRE 1. INTRODUCTION 13<br />
structure tertiaire dont la <strong>par</strong>ticularité est d’utiliser <strong>de</strong>s interactions entre résidus<br />
proches dans l’espace mais distants dans la séquence. Cette structure tertiaire,<br />
également appellée état natif, est stable grâce aux nombreuses interactions favorables<br />
qui s’établissent en son sein. Notons que l’on appelle interacions natives<br />
une interaction présente dans la structure native. La figure 1.5 nous montre en<br />
exemple la structure tertiaire <strong>de</strong> l’ubiquitine. Les diverses structures secondaires<br />
sont reliées <strong>par</strong> ce que l’on appelle <strong>de</strong>s cou<strong>de</strong>s.<br />
Fig. 1.5 – Exemples <strong>de</strong> structure tertiaire : l’ubiquitine.<br />
C’est grâce à l’adoption <strong>de</strong> cette structure tridimensionnelle <strong>par</strong>ticulière<br />
que les protéines peuvent réaliser leur fonction biologique. L’hémoglobine, <strong>par</strong><br />
exemple, transporte le dioxygène dans une cavité enfouie au sein <strong>de</strong> sa structure<br />
tertiaire.<br />
1.2 Le repliement <strong>de</strong>s protéines<br />
Une protéine peut adopter différentes conformations, celles <strong>de</strong> l’état dénaturé<br />
étant généralement les moins stables. A l’image d’un ressort trop tendu, une<br />
protéine en état instable cherche à atteindre son état le plus stable caractérisé<br />
<strong>par</strong> une énergie libre minimale. Une hypothèse largement admise est que la<br />
structure native d’une protéine correspond généralement à sa conformation<br />
d’énergie libre minimale.<br />
Le repliement d’une protéine est un processus extrêmement spécifique et<br />
<strong>par</strong>ticulièrement efficace. En effet, la rapidité avec laquelle une protéine trouve sa<br />
conformation <strong>de</strong> plus basse énergie est remarquable. Par exemple, une protéine
CHAPITRE 1. INTRODUCTION 14<br />
<strong>de</strong> 100 résidus peut adopter 2 100 (≈ 10 30 ) structures tridimensionnelles différentes<br />
en supposant que seulement 2 conformations soient accessibles à chaque résidu,<br />
ce qui est loin <strong>de</strong> la réalité. En admettant que le passage d’une conformation<br />
à une autre se fait en 10 −13 secon<strong>de</strong>s (ce qui correspond au temps necessaire<br />
pour une rotation autour d’une liaison peptidique), il faudrait 10 17 secon<strong>de</strong>s soit<br />
environ trois milliard d’années, pour tester toutes les conformations possibles.<br />
Très clairement, la totalité <strong>de</strong>s conformations accessibles à une véritable protéine,<br />
sans aucune simplification, dépasse <strong>de</strong> loin le <strong>de</strong>gré d’abstraction humain.<br />
Pourtant, les protéines arrivent à retrouver leur structure native en un temps<br />
allant <strong>de</strong> quelques millisecon<strong>de</strong>s à quelques secon<strong>de</strong>s ! Levinthal en 1969 [3], fut<br />
le premier à relever cette incompatibilité que l’on nomme aujourd’hui <strong>par</strong>adoxe<br />
<strong>de</strong> Levinthal. Il ajoutait que, <strong>de</strong> toute évi<strong>de</strong>nce, les protéines n’explorent pas la<br />
totalité <strong>de</strong> leur espace conformationnel. Actuellement, seuls <strong>de</strong>s modèles théoriques<br />
viennent expliquer la rapidité <strong>de</strong> ce processus. En effet, les mécanismes<br />
qui permettent à une séquence d’aci<strong>de</strong>s aminés <strong>de</strong> se replier en une structure<br />
tridiensionelle unique sont actuellement mal connus.<br />
Le modèle <strong>de</strong> diffusion-collision propose un mécanisme <strong>de</strong> repliement hiérarchique<br />
qui permet <strong>de</strong> réduire drastiquement l’espace conformationnel. La<br />
théorie soutient qu’il y aurait, dans un premier temps, un repliement <strong>de</strong>s sousdomaines<br />
<strong>de</strong> la protéines, ces sous-domaines étant d’une taille très limitée. Par<br />
la suite, <strong>de</strong>s interaction entre sous-domaines se créeraient, formant ainsi <strong>de</strong>s<br />
domaines plus important. Cela durerait jusqu’à la formation complète <strong>de</strong> la<br />
structure native <strong>de</strong> la protéine.<br />
Le modèle <strong>de</strong> l’effondrement hydrophobe quant à lui s’appuie sur la tendance<br />
<strong>de</strong>s résidus hydrophobes à se regrouper dans les premiers instants du processus<br />
afin d’éviter tout contact avec l’eau. Ce regroupement aurait lieu avant la<br />
formation <strong>de</strong> structures secondaires et aurait une influence prépondérante pour<br />
la suite du repliement. En effet, le noyau hydrophobe temporairement formé<br />
réduirait considérablement l’espace conformationnel accessible à la protéine.<br />
Enfin, le modèle <strong>de</strong> nucléation-con<strong>de</strong>nsation met en avant l’importance <strong>de</strong>s<br />
interactions tertiaires (c’est-à-dire entre résidus distants dans la séquence). Afin<br />
que ces interactions aient lieu, la formation d’un noyau <strong>de</strong> repliement est requise.<br />
Les fragments <strong>de</strong> protéine non repliés entrant en contact avec le noyau<br />
adopteraient ensuite leur structure native.<br />
D’autre modèles théoriques existent et le lecteur intéressé trouvera une brève<br />
présentation <strong>de</strong> la majorité d’entre-eux dans [4].<br />
Durant les années 90, un nouveau modèle <strong>de</strong> repliement protéique a été
CHAPITRE 1. INTRODUCTION 15<br />
développé [5] et fut revisité en 1998 [6]. Sa caractéristique principale est <strong>de</strong><br />
représenter le paysage énergétique d’une protéine. Il s’agit en fait d’une représentation<br />
multi-dimensionnelle <strong>de</strong> l’énergie libre d’une conformation <strong>de</strong> la protéine<br />
en fonction <strong>de</strong> sa similarité avec la structure native.<br />
Une interprétation tridimensionnelle du paysage énergétique produit un<br />
entonnoir communément appelé entonnoir <strong>de</strong> repliement. L’axe vertical <strong>de</strong> cet<br />
entonnoir représente l’énergie libre d’une conformation et les axes horizontaux<br />
représentent les conformations <strong>de</strong> la protéine accessibles à un certain niveau<br />
d’énergie. A la base <strong>de</strong> cet entonnoir, on trouve la structure native qui est donc<br />
d’une énergie libre minimale. Plus on monte dans l’entonnoir, plus le nombre <strong>de</strong><br />
conformations possibles à un même niveau d’énergie augmente. Le repliement<br />
serait donc un processus progressif <strong>de</strong> modifications conformationnelles entraînant<br />
la création d’interactions natives favorables et débouchant sur la structure<br />
native (cfr. figure 1.6).<br />
Dans une situation idéale, l’entonnoir serait <strong>par</strong>fait et chaque modification<br />
conformationnelle en direction <strong>de</strong> l’état natif stabiliserait la protéine (figure<br />
1.6(a)). Malheureusement, l’expérience montre que <strong>de</strong>s modifications conformationnelles<br />
nécessaires à la création d’interactions natives peuvent être défavorables<br />
d’un point <strong>de</strong> vue énergétique ! Cela introduit <strong>de</strong>s variations dans le<br />
paysage énergétique et laisse ap<strong>par</strong>aitre un concept bien connu dans le domaine<br />
<strong>de</strong> l’informatique : le problème <strong>de</strong>s minima locaux (figure 1.6(b)). Un paysage<br />
énergétique peut donc s’avérer plus ou moins complexe, ce qui induit qu’il existe<br />
différents chemins <strong>de</strong> repliement entre une conformation d’état dénaturé et une<br />
conformation d’état stable (figure 1.6(c)).<br />
Il est intéressant <strong>de</strong> com<strong>par</strong>er le <strong>par</strong>adoxe <strong>de</strong> Levinthal à un paysage énergétique<br />
plat [7]. L’idée à l’époque était qu’il existait une conformation native<br />
unique et que toute autre conformation était inintéressante. On se rend alors<br />
compte que le problème d’origine est mal posé : en effet, il est mathématiquement<br />
improbable <strong>de</strong> tomber dans le trou <strong>de</strong> l’entonnoir à <strong>par</strong>tir d’un paysage<br />
plat en un temps raisonnable (figure 1.6(d)).<br />
Ce modèle <strong>de</strong> paysage énergétique ne remet pas en question tous les modèles<br />
précé<strong>de</strong>nts, au contraire. Il permet d’expliquer plusieurs phénomènes observés<br />
tels que l’existence <strong>de</strong> chemins <strong>de</strong> repliement préférés. Cela appuierait certaines<br />
théories comme <strong>par</strong> exemple celles <strong>de</strong> la création d’un noyau hydrophobe ou<br />
d’intermédiaires <strong>de</strong> repliement. Concrètement, le paysage énergétique procure<br />
un cadre général dans lequel les cas <strong>par</strong>ticuliers peuvent être interprétés.
CHAPITRE 1. INTRODUCTION 16<br />
Fig. 1.6 – Représentation tridimensionnelle du paysage énergétique d’une protéine<br />
: (a) un paysage énergétique idéal, (b) un paysage énergétique réel, (c)<br />
<strong>de</strong>ux chemins <strong>de</strong> repliement différents, (d) le <strong>par</strong>adoxe <strong>de</strong> Levinthal. [source :<br />
Gilquin Bernard : Exploration <strong>de</strong>s méchanismes <strong>de</strong> repliement <strong>de</strong>s protéines <strong>par</strong><br />
dynamique moléculaire]
CHAPITRE 1. INTRODUCTION 17<br />
1.3 La prédiction <strong>de</strong> la structure native <strong>de</strong>s protéines<br />
1.3.1 Objectif<br />
La structure native d’une protéine est une richesse en soi. Elle est l’inconnue<br />
nécessaire à la résolution d’une foule <strong>de</strong> questions, dont la principale est :<br />
« Comment ça marche ? ». En effet, pour comprendre le fonctionnement d’une<br />
protéine il faut impérativement en connaître la structure native. Par exemple,<br />
les sites actifs <strong>de</strong>s protéines ne sont généralement fonctionnels qu’une fois la<br />
protéine complètement repliée.<br />
Outre cet aspect primordial, <strong>de</strong> multiples possibilités s’offrent à nous :<br />
– l’étu<strong>de</strong> <strong>de</strong>s interactions possibles entre une protéine et diverses molécules<br />
permet <strong>par</strong> exemple la création <strong>de</strong> médicaments qui agiront précisément<br />
là où c’est nécessaire ;<br />
– certaines protéines subissent <strong>de</strong>s mutations pour diverses raisons et la<br />
compréhension fine <strong>de</strong> l’effet <strong>de</strong> ces mutations passe <strong>par</strong> la connaissance<br />
<strong>de</strong> la structure native ;<br />
– la conception <strong>de</strong> protéines dont la séquence est modifiée permettrait d’obtenir<br />
<strong>de</strong> nouvelles propriétés comme <strong>par</strong> exemple une augmentation <strong>de</strong> la<br />
stabilité <strong>de</strong> la protéine ou encore l’amélioration <strong>de</strong> réactions enzymatiques<br />
dans le milieu industriel ;<br />
– la compréhension <strong>de</strong>s mécanismes <strong>de</strong> stabilisation <strong>de</strong> l’état d’une protéine<br />
pourrait conduire, dans un futur plus ou moins proche, à la création <strong>de</strong><br />
nouvelle protéines avec un rôle bien précis et défini à l’avance. Le besoin<br />
sera alors à l’origine <strong>de</strong> la protéine...<br />
Il existe une base <strong>de</strong> données accessible à tous, la Protein Data Bank (PDB)<br />
[8], qui répertorie toutes les connaissances actuelles concernant les structures<br />
<strong>de</strong>s protéines. On y retrouve <strong>de</strong> nombreuses structures natives établies expérimentalement<br />
<strong>par</strong> cristallographie aux rayons X ou <strong>par</strong> résonance magnétique<br />
nucléaire. Pour plus d’information dans ce domaine, le lecteur intéressé se dirigera<br />
vers [9, 10].<br />
Malheureusement, ces métho<strong>de</strong>s, en plus d’être lentes, sont plutôt coûteuses.<br />
De plus, le nombre <strong>de</strong> séquences protéiques connues est bien plus grand que le<br />
nombre <strong>de</strong> structures natives établies et l’écart entre les <strong>de</strong>ux ne cesse d’augmenter.<br />
Ces divers arguments ont poussé les chercheurs à se tourner vers d’autres<br />
métho<strong>de</strong>s.<br />
L’expérience ayant montré que la plu<strong>par</strong>t <strong>de</strong>s protéines adoptent <strong>de</strong>s confor-
CHAPITRE 1. INTRODUCTION 18<br />
mations spécifiques, l’étu<strong>de</strong> in silico <strong>de</strong>s protéines va bon train. De nombreux<br />
projets tels que l’étu<strong>de</strong> théorique du repliement <strong>de</strong>s protéines ou la simulation<br />
<strong>de</strong>s interactions protéine-protéine ont vu le jour. Parmi eux, on retrouve la<br />
prédiction <strong>de</strong> la structure native <strong>de</strong>s protéines.<br />
1.3.2 Aperçu général <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> prédiction<br />
Avant <strong>de</strong> découvrir ce qu’est la prédiction, une question se pose : pourquoi<br />
ne pas simuler intégralement un repliement protéique ? Après tout, les connaissances<br />
actuelles permettent d’envisager une simulation complète, picomètres<br />
<strong>par</strong> picomètres, <strong>de</strong>s mouvements atomiques d’une protéine...<br />
Actuellement, ce genre <strong>de</strong> technique existe mais il est calculatoirement impossible<br />
d’effectuer une simulation longue <strong>de</strong> plus <strong>de</strong> quelques nanosecon<strong>de</strong>s<br />
(au mieux une microsecon<strong>de</strong>). Or, nous le découvrions tout à l’heure, un repliement<br />
protéique nécessite quelques millisecon<strong>de</strong>s (au pire secon<strong>de</strong>s). L’échelle <strong>de</strong><br />
temps n’est donc tout simplement pas accessible et <strong>par</strong> ailleurs, l’informatique a<br />
ce défaut <strong>de</strong> toujours procé<strong>de</strong>r <strong>par</strong> approximation <strong>de</strong> valeurs, ce qui peut entrainer<br />
sur le long terme une dégradation fortement prononcée <strong>de</strong>s résultats. Il en<br />
va d’ailleurs <strong>de</strong> même pour les évaluations énergétiques qui sont certainement<br />
im<strong>par</strong>faites [11].<br />
L’intérêt <strong>de</strong> la prédiction est donc évi<strong>de</strong>nt : gagner du temps ! Deux gran<strong>de</strong>s<br />
catégories <strong>de</strong> prédictions existent : celle basée sur les connaissances actuelles et<br />
l’autre, plus pure, se basant uniquement sur la structure primaire <strong>de</strong> la protéine,<br />
c’est-à-dire sa séquence.<br />
La première catégorie repose sur l’utilisation <strong>de</strong> bases <strong>de</strong> données <strong>de</strong> structures<br />
protéiques. Il faudra donc qu’il existe un certain <strong>de</strong>gré <strong>de</strong> similitu<strong>de</strong> <strong>de</strong><br />
séquence ou <strong>de</strong> structure entre la protéine étudiée et une ou plusieurs protéines<br />
<strong>de</strong> la base <strong>de</strong> donnée. La modélisation <strong>par</strong> homologie, <strong>par</strong> exemple, com<strong>par</strong>e les<br />
séquences <strong>de</strong> la PDB avec la séquence protéique cible [12]. Si un <strong>de</strong>gré d’homologie<br />
suffisant est dégagé, alors on produit une structure dérivée <strong>de</strong>s structures<br />
homologues <strong>de</strong> la PDB. Ce procédé donne <strong>de</strong> bons résultats car les protéines <strong>de</strong><br />
séquence similaire ont généralement <strong>de</strong>s structures très semblables.<br />
Un autre exemple est la reconnaissance structurale [13, 14]. On l’utilise généralement<br />
quand la modélisation <strong>par</strong> homologie a échoué. En effet, un tel échec<br />
est clairement dû à un manque <strong>de</strong> similitu<strong>de</strong> entre la protéine cible et les protéines<br />
<strong>de</strong> la PDB. Cette métho<strong>de</strong> propose donc d’utiliser un squelette issu <strong>de</strong>s<br />
conformations structurales connues afin d’y enfiler la séquence d’aci<strong>de</strong>s aminés
CHAPITRE 1. INTRODUCTION 19<br />
<strong>de</strong> la protéine cible. A nouveau, il existe <strong>de</strong>s bases <strong>de</strong> données structurales. Par<br />
exemple, la Fold Classification based on Structure-Structure alignement of Proteins<br />
(FSSP) [15] regroupe les structures représentatives <strong>de</strong> la PDB. L’intérêt d’une<br />
telle banque provient du fait que la PDB contient <strong>de</strong>s structures redondantes.<br />
Dans le cadre <strong>de</strong> la reconnaissance structurale, l’utilisation <strong>de</strong> structures représentatives<br />
est un atout significatif.<br />
L’autre catégorie <strong>de</strong> prédiction se fait ab initio, c’est-à-dire sur base <strong>de</strong> la<br />
seule séquence <strong>de</strong> la protéine. Cette catégorie est beaucoup plus générale mais<br />
est bien évi<strong>de</strong>mment plus ardue à mettre en œuvre. L’hypothèse <strong>de</strong> base est<br />
celle selon laquelle la structure native correspond au minimum global d’énergie<br />
libre. Le but d’une prédiction ab initio est donc évi<strong>de</strong>nt : trouver une structure<br />
tridimensionnelle d’énergie libre minimale.<br />
1.3.3 Les impératifs <strong>de</strong> la prédiction <strong>de</strong> structures natives<br />
Afin <strong>de</strong> réaliser au mieux une prédiction, certains outils sont nécessaires :<br />
1. une modélisation <strong>de</strong> la protéine étudiée ;<br />
2. une métho<strong>de</strong> <strong>de</strong> discrétisation <strong>de</strong> l’espace dans lequel elle évolue ;<br />
3. une métho<strong>de</strong> <strong>de</strong> recherche qui permet l’exporation <strong>de</strong> l’espace conformationnel<br />
;<br />
4. une fonction énergétique permettant l’évaluation d’une structure <strong>par</strong> rapport<br />
à sa séquence ;<br />
5. dans certains cas, il sera intéressant <strong>de</strong> possé<strong>de</strong>r d’un moyen d’évaluation<br />
<strong>de</strong>s prédictions obtenues.<br />
Le chapitre suivant propose donc un tour d’horizon <strong>de</strong> ces divers impératifs.<br />
Nous y découvrirons plusieurs outils et métho<strong>de</strong>s permettant <strong>de</strong> procé<strong>de</strong>r à une<br />
prédiction digne <strong>de</strong> ce nom.
Chapitre 2<br />
Présentation <strong>de</strong>s outils et métho<strong>de</strong>s<br />
existants<br />
Ce chapitre propose au lecteur un aperçu <strong>de</strong>s quelques techniques utilisées<br />
dans le domaine <strong>de</strong> la prédiction <strong>de</strong> structures natives. Il permettra en outre <strong>de</strong><br />
mieux se rendre compte <strong>de</strong>s divers problèmes rencontrés dans ce domaine et <strong>de</strong><br />
découvrir les solutions qui y sont apportées.<br />
2.1 Les modèles utilisés<br />
Une difficulté récurrente en informatique est celle <strong>de</strong> la modélisation <strong>de</strong>s<br />
problèmes étudiés. Dans ce cas-ci comme dans beaucoup d’autres, il faut trouver<br />
un juste compromis entre simplification du problème et qualité <strong>de</strong>s résultats.<br />
Dans le cadre <strong>de</strong>s prédictions <strong>de</strong> la structure native <strong>de</strong>s protéines, il y a <strong>de</strong>ux<br />
entités à modéliser : la protéine elle même et l’espace <strong>de</strong> recherche.<br />
2.1.1 Modélisation <strong>de</strong> la protéine<br />
La modélisation d’une protéine peut se faire <strong>par</strong> une représentation complète<br />
au niveau atomique <strong>de</strong>s aci<strong>de</strong>s aminés la composant. Evi<strong>de</strong>mment, un<br />
tel modèle entraînerait un coût <strong>de</strong> calcul non négligeable. D’un autre côté, une<br />
représentation trop simpliste <strong>de</strong> la protéine entraînera une dégradation <strong>de</strong> la<br />
qualité <strong>de</strong>s résultats. Il faut donc trouver un compromis dont on pourra tirer le<br />
meilleur <strong>par</strong>ti dans les <strong>de</strong>ux cas.<br />
20
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 21<br />
Le modèle HP<br />
Le modèle HP [16] est simple : il propose <strong>de</strong> réduire les vingt aci<strong>de</strong>s aminés<br />
à seulement <strong>de</strong>ux groupes : les aci<strong>de</strong>s aminés hydrophiles (nommé P) et les<br />
aci<strong>de</strong>s aminés hydrophobes (nommé H). Dès lors, une protéine, plutôt que<br />
d’être représentée <strong>par</strong> une séquence composée <strong>de</strong> 20 aci<strong>de</strong>s aminés différents,<br />
sera simplement représentée <strong>par</strong> une suite d’aci<strong>de</strong>s aminé H ou P, ce qui simplifie<br />
vraiment les choses ! De plus, un résidu est réduit à un seul point dans l’espace,<br />
on ne tient donc absolument pas compte du détail atomique.<br />
Ce modèle étant basé sur la théorie <strong>de</strong> la création d’un noyau hydrophobe,<br />
il faudra, pour satisfaire aux conditions <strong>de</strong> repliement <strong>de</strong>s protéines, minimiser<br />
l’interaction <strong>de</strong>s résidus H avec l’environnement extérieur (généralement l’eau).<br />
Le résultat d’une prédiction effectuée à <strong>par</strong>tir d’un modèle <strong>de</strong> ce genre se trouve<br />
en figure 2.1.<br />
Fig. 2.1 – Résultats d’une prédiction bidimensionelle basée sur le modèle HP<br />
pour une protéine <strong>de</strong> séquence ’HHHPPHPHPHPPHPHPHPPH’ (le début <strong>de</strong><br />
la séquence est symbolisée <strong>par</strong> ’1’ et les résidus ’H’ sont en noir).<br />
Malheureusement, une représentation aussi simpliste fourni peu <strong>de</strong> résultats<br />
intéressants dans le cadre <strong>de</strong> la prédiction <strong>de</strong> structure native <strong>de</strong> protéine.<br />
En effet, réduire les propriétés <strong>de</strong>s aci<strong>de</strong>s àminés à un simple caractère<br />
d’hydrophobie-hydrophilie est assez limitatif. Par contre, au niveau <strong>de</strong>s étu<strong>de</strong>s<br />
théoriques, elle permet <strong>de</strong> mieux comprendre certaines étapes du repliement<br />
<strong>de</strong>s protéines.<br />
Le modèle (φ, ψ, ω)<br />
Comme nous l’avons vu dans l’introduction, les résidus peuvent adopter<br />
diverses conformations en fonction <strong>de</strong>s angles <strong>de</strong> torsion adoptés autour <strong>de</strong><br />
leurs liaisons chimiques. Bien que l’angle ω puisse sembler nouveau au lecteur,
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 22<br />
il s’agit en fait du nom donné à celui <strong>de</strong> la liaison inter-résidu C−N. Pour rappel,<br />
ce lien à un caractère <strong>par</strong>tiel <strong>de</strong> double liaison, ce qui limite à <strong>de</strong>ux les valeurs<br />
prises <strong>par</strong> l’angle ω : 0 ◦ et 180 ◦ .<br />
Fig. 2.2 – Illustration <strong>de</strong> l’angle ω. La molécule entourée est un résidu quelconque<br />
venu s’attacher au résidu que nous étudions.<br />
Ainsi, la conformation d’un résidu est donnée <strong>par</strong> un triplet (φ, ψ, ω) et<br />
le squelette d’une protéine peut être modélisé <strong>par</strong> une suite <strong>de</strong> triplets, <strong>de</strong><br />
taille équivalente au nombre <strong>de</strong> résidus <strong>de</strong> la protéine. Finalement, la structure<br />
tridimensionnelle d’une protéine sera calculée à <strong>par</strong>tir <strong>de</strong>s conformations (φ, ψ,<br />
ω) successives adoptées pas les résidus la composant.<br />
Les modèles intermédiaires<br />
On entends <strong>par</strong> modèle intermédiaire un modèle offrant une <strong>de</strong>scription <strong>de</strong><br />
la protéine plus détaillée que dans le modèle HP, mais moins détaillée qu’un<br />
modèle complet. Ainsi, il arrive <strong>de</strong> regrouper les aci<strong>de</strong>s aminés en plusieurs<br />
classes afin <strong>de</strong> permettre un niveau <strong>de</strong> détail plus élevé. Une fois cette classification<br />
effectuée, on peut encore se contenter <strong>de</strong> représenter le résidu <strong>par</strong> un seul<br />
point dans l’espace ou bien <strong>par</strong> quelques atomes.<br />
A ce sujet, il est important <strong>de</strong> se souvenir d’une simplification que nous<br />
avons effectuée lors <strong>de</strong> l’introduction : le remplacement <strong>de</strong> la chaîne latérale <strong>par</strong>
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 23<br />
un atome fictif, le Cµ. Dans le cas ou la chaîne latérale serait prise en compte<br />
dans le modèle, une représentation encore plus fine <strong>de</strong> la protéine aurait lieu.<br />
En effet, cette chaîne latérale possè<strong>de</strong> également <strong>de</strong>s libertés <strong>de</strong> rotation autour<br />
<strong>de</strong> certaines liaisons chimiques et il serait tout à fait envisageable <strong>de</strong> les prendre<br />
en compte.<br />
2.1.2 Discrétisation <strong>de</strong> l’espace conformationnel<br />
Nous l’avons déjà dit, l’espace conformationnel est immensément grand.<br />
Diverses techniques <strong>de</strong> discrétisation existent donc afin <strong>de</strong> permettre une diminution<br />
substanciellment importante <strong>de</strong>s conformations possibles. Bien entendu,<br />
il s’agit à nouveau <strong>de</strong> trouver un bon compromis entre <strong>de</strong>gré <strong>de</strong> simplification<br />
et qualité <strong>de</strong> résultat. Deux grands types <strong>de</strong> discrétisation existent :<br />
1. le modèle réseau propose une restriction <strong>de</strong> l’espace conformationnel en<br />
maille fixe ;<br />
2. le modèle hors réseau propose une restriction <strong>de</strong> l’espace conformationnel en<br />
limitant <strong>par</strong> exemple les rotations autour <strong>de</strong>s liaisons chimiques à certaines<br />
valeurs angulaire bien définies, ce qui a pour conséquence <strong>de</strong> créer un<br />
modèle réseau dynamique.<br />
Les modèles réseau<br />
Les premiers modèles réseaux étaient basiques et consistaient en une simple<br />
grille bidimensionnelle fixe. Le lecteur comprendra aisément qu’une telle représentation<br />
protéique est bien loin <strong>de</strong> la réalité. Grâce à l’amélioration <strong>de</strong>s<br />
techniques <strong>de</strong> recherche dans l’espace conformationnel, <strong>de</strong>s modèles réseaux<br />
plus fins commencèrent à être utilisés. L’utilisation <strong>de</strong> grille tridimensionnelle<br />
à maille étroite offre une nette amélioration <strong>de</strong> représentation mais le caractère<br />
statique <strong>de</strong> ces modèles représente un facteur limitatif important au niveau <strong>de</strong><br />
la qualité <strong>de</strong>s solutions obtenues.<br />
En effet, dans un modèle réseau, on travaille avec <strong>de</strong>s coordonnées fixes<br />
définies <strong>par</strong> la maille utilisée. Ainsi, dans le cas d’une représentation atomique<br />
<strong>de</strong> la protéine, les distances inter-atomiques seront fixes et les possibilités <strong>de</strong><br />
rotation angulaire seront également définies (<strong>par</strong> exemple, dans un modèle<br />
bidimensionnel carré où la maille représente la distance inter-atomique, ces<br />
rotations seront toujours multiples <strong>de</strong> 90 ◦ ).
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 24<br />
Toutefois, certains avantages existent <strong>de</strong> <strong>par</strong> la rigidité du modèle. Par<br />
exemple, il est tout à fait possible qu’un résidu passe d’une conformation à<br />
une autre sans que cela nous oblige à recalculer la position <strong>de</strong> tous les autres<br />
résidus (cfr. figure 2.3). C’est là l’avantage <strong>de</strong> travailler avec <strong>de</strong>s coordonnées<br />
externes au modèle <strong>de</strong> protéine utilisé.<br />
Fig. 2.3 – Exemple <strong>de</strong> modification conformationnelle locale : (a) l’état avant la<br />
modification conformationnelle, (b) l’état après la modification conformationnelle.<br />
Les modèles hors réseau<br />
Les modèles hors réseau sont généralement basés sur la limitation <strong>de</strong>s conformations<br />
accessibles pour un résidus, c’est-à-dire sur la limitation <strong>de</strong>s valeurs<br />
prises <strong>par</strong> les angles <strong>de</strong> rotation autour <strong>de</strong> leurs liaisons chimiques. Par exemple,<br />
la liaison N −Cα sera limitée à un ensemble <strong>de</strong> quelques angles φ accessibles. Par<br />
ailleurs, la distance <strong>de</strong>s liaisons inter-atomiques peut être définie pour chaque<br />
paire d’atome [17], ce qui accentue encore le réalisme <strong>de</strong> ce modèle.<br />
La discrétisation du modèle dépendra donc du nombre <strong>de</strong> valeurs disponibles<br />
pour chaque résidu. Ce système simple est facilement transposable dans<br />
le cas où la chaine latérale <strong>de</strong>s protéines est prise en compte.<br />
Son avantage est évi<strong>de</strong>nt : il est basé sur la nature même <strong>de</strong>s protéines et<br />
utilise donc un système <strong>de</strong> coordonnée internes pour la représentation <strong>de</strong> cellesci.<br />
De plus, il permet <strong>de</strong> travailler dans un espace conformationnel accessible à<br />
la prédiction tout en préservant une certaine qualité <strong>de</strong> résultat.<br />
Cependant, pour un même niveau <strong>de</strong> discrétisation, le modèle hors réseau<br />
<strong>de</strong>man<strong>de</strong> généralement plus <strong>de</strong> calculs que le modèle réseau. Pour reprendre<br />
l’exemple du modèle réseau, si nous modifions la conformation d’un seul résidu<br />
<strong>de</strong> la protéine dans le cadre du modèle hors réseau, il nous faudra recalculer
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 25<br />
toutes les coordonnées tridimensionnelles <strong>de</strong> la protéine à <strong>par</strong>tir <strong>de</strong>s triplets (φ,<br />
ψ, ω) <strong>de</strong> chaque résidu. Il s’agit en fait d’effectuer la traduction <strong>de</strong>s coordonnées<br />
internes en coordonnées réelles.<br />
2.2 L’exploration <strong>de</strong> l’espace conformationnel<br />
De <strong>par</strong> son paysage énergétique, une protéine ne peut <strong>par</strong>fois atteindre<br />
son minimum global d’énergie libre qu’en procédant à certaines modifications<br />
conformationnelles défavorables. Autrement dit, il arrive <strong>par</strong>fois que pour passer<br />
d’une état X à un état Y plus stable, la protéine se retrouve dans un état<br />
intermédiaire <strong>de</strong> stabilité moindre que son état d’origine X.<br />
C’est là le grand problème <strong>de</strong>s minima locaux. Précisément, le problème est<br />
<strong>de</strong> détecter que la protéine se trouve dans une conformation d’énergie libre<br />
minimale locale qui n’est pas native. Le problème sous-jacent est évi<strong>de</strong>mment<br />
<strong>de</strong> trouver un moyen <strong>de</strong> sortir <strong>de</strong> ce minimum local, c’est-à-dire d’accepter une<br />
modification conformationnelle défavorable.<br />
Diverses solutions ont été apportées à ce problème, mais aucune d’entre-elles<br />
n’est optimale. On <strong>par</strong>le donc couramment d’heuristiques et <strong>de</strong> métaheuristiques.<br />
Une heuristique est une métho<strong>de</strong> <strong>de</strong> production <strong>de</strong> solution adaptée à un problème<br />
<strong>par</strong>ticulier alors qu’une métaheuristique constiste en une stratégie <strong>de</strong><br />
choix pouvant piloter une heuristique.<br />
En résumé, un bon compromis entre l’exploration <strong>de</strong> l’espace conformationnel<br />
et l’intensification <strong>de</strong> la recherce d’une solution minimale doit être trouvé.<br />
Si la priorité est donnée à l’exploration, il est fort probable qu’on ne converge<br />
jamais vers une solution minimale (même locale) alors que si l’on privilégie l’intensification<br />
d’une solution, on aura <strong>de</strong> gran<strong>de</strong>s chances <strong>de</strong> rester bloqué dans<br />
un minimum local.<br />
2.2.1 Monte Carlo<br />
Monte Carlo est une métho<strong>de</strong> <strong>de</strong> prédiction probabiliste basée sur la modification<br />
aléatoire <strong>de</strong> la conformation <strong>de</strong> certains résidus <strong>de</strong> la protéine étudiée<br />
[18]. A chaque itération <strong>de</strong> la métho<strong>de</strong>, une nouvelle structure protéique peut<br />
donc être évaluée <strong>par</strong> la fonction énergétique. La suite <strong>de</strong> l’algorithme dépendra<br />
<strong>de</strong> l’énergie calculée. Dans les première versions <strong>de</strong> Monte Carlo, le choix était<br />
simple :
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 26<br />
– si l’énergie calculée est inférieure à l’énergie <strong>de</strong> la conformation précé<strong>de</strong>nte,<br />
alors c’est que la nouvelle conformation offre à la protéine un état plus<br />
stable. On conservera donc cette conformation qui servira <strong>de</strong> base à la<br />
prochaine itération ;<br />
– dans l’autre cas, on procè<strong>de</strong> simplement au rejet <strong>de</strong> la nouvelle conformation.<br />
Ce genre <strong>de</strong> rejet automatique entraîne fatalement la découverte <strong>de</strong> solutions<br />
locale, ce qui n’est pas vraiment l’objectif recherché. Ainsi, certains critères d’acceptation<br />
ont été développés. Le concept est commun : permettre l’acceptation<br />
<strong>de</strong> modifications conformationnelles défavorables afin <strong>de</strong> diminuer les chances<br />
<strong>de</strong> tomber dans un minimum local.<br />
Un critère régulièrement utilisé est celui dit <strong>de</strong> Metropolis [19] où ∆E représente<br />
la différence d’énergie entre la conformation évaluée et la <strong>de</strong>rnière<br />
conformation acceptée :<br />
ɛ ≤ e −(∆E)(kT)<br />
Le facteur kT représente la multiplication entre la constante <strong>de</strong> Boltzman et<br />
la température à laquelle s’effectue la prédiction et ɛ est un nombre aléatoire<br />
compris entre 0 et 1 [19].<br />
Ainsi, si le critère <strong>de</strong> Métropolis est vérifié, alors une modification conformationnelle<br />
défavorable sera acceptée et servira <strong>de</strong> base à la prochaine itération.<br />
On constate donc qu’une première approche d’exploration <strong>de</strong> l’espace conformationnel<br />
passe simplement <strong>par</strong> la considération d’un critère d’acceptation stochastique.<br />
En effet, plus la modification conformationnelle est défavorable, plus ∆E est<br />
grand, ce qui implique que l’exponentielle est plus petite que 1 et donc que les<br />
chances d’acceptations sont réduites. Par contre, dans le cas d’une modification<br />
conformationnelle favorable, ∆E sera négatif et l’exponentielle sera toujours plus<br />
gran<strong>de</strong> que 1. La conformation sera donc toujours acceptée.<br />
2.2.2 Le Recuit Simulé<br />
La métho<strong>de</strong> <strong>de</strong> Monte Carlo incluant un critère <strong>de</strong> Métropolis est attrayante<br />
mais peut encore être améliorée. En effet, il y a un <strong>par</strong>amètre intéressant sur<br />
lequel nous pouvons jouer : la température. C’est donc en 1983 qu’ap<strong>par</strong>aît<br />
le Recuit Simulé. Il propose simplement <strong>de</strong> commencer la prédiction à haute<br />
température et <strong>de</strong> la faire baisser progressivement [20]. Dans la vie courrante,<br />
on constate <strong>par</strong> exemple que la qualité d’un rail <strong>de</strong> chemin <strong>de</strong> fer est fortement
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 27<br />
dépendante <strong>de</strong> son refroidissement lors <strong>de</strong> sa confection. S’il est refroidi trop<br />
vite, la structure métallique sera im<strong>par</strong>faite et le rail présentera <strong>de</strong>s défauts.<br />
Il faut donc prendre le temps, ce qui rend généralement cette métho<strong>de</strong> moins<br />
rapi<strong>de</strong> que les autres.<br />
L’introduction d’une variation progressive <strong>de</strong> la température lors d’une prédiction<br />
<strong>de</strong> structure native introduit donc un facteur dynamique intéressant<br />
dans le critère d’acceptation. Celui-ci permettra un <strong>de</strong>gré d’acceptation <strong>de</strong> modification<br />
conformationnelle défavorable plus élevé au début <strong>de</strong> la prédiction<br />
et plus faible à la fin. Il favorise donc une phase d’exploration dans un premier<br />
temps pour permettre ensuite une intensification <strong>de</strong> la recherche.<br />
Il arrive <strong>par</strong>fois d’effectuer un Recuit Simulé sur une protéine déjà <strong>par</strong>tiellement<br />
repliée. Il est donc important <strong>de</strong> remarquer que le choix <strong>de</strong> la température<br />
initiale est un facteur très important : si une température trop élevée est choisie,<br />
on pourrait assister à un dépliement <strong>de</strong> la protéine, ce qui n’est pas du tout le<br />
but recherché !<br />
Enfin, signalons que sous certaines conditions (dont <strong>par</strong> exemple un schéma<br />
<strong>de</strong> décroissance <strong>par</strong>ticulier), <strong>de</strong>s preuves <strong>de</strong> convergence asymptotique existent<br />
pour le Recuit Simulé. Ceci constitue un avantage mathématique inexistant<br />
dans le cas <strong>de</strong>s métho<strong>de</strong>s heuristique [21, 22]. Malheureusement, il est très<br />
difficile d’appliquer au mieux la théorie sans consacrer beaucoup <strong>de</strong> temps au<br />
<strong>par</strong>amétrage <strong>de</strong> l’algorithme.<br />
2.2.3 Recherche Tabou<br />
En 1986, Fred Glover propose une nouvelle métho<strong>de</strong> concernant le problème<br />
<strong>de</strong>s minima locaux : l’utilisation d’une liste taboue simulant en fait le principe<br />
<strong>de</strong> mémoire [23]. L’application <strong>de</strong> cette métho<strong>de</strong> donne une heuristique en ce<br />
sens qu’elle ne converge pas spécialement vers le minimum global. Elle est <strong>par</strong><br />
contre un excellent gui<strong>de</strong> !<br />
L’idée <strong>de</strong> la recherche Tabou est <strong>de</strong> permettre la poursuite d’une recherche<br />
même quand un minimum local est trouvé. La mémoire sera utilisée pour éviter<br />
les retours en arrière et donc les cycles. Il est important <strong>de</strong> signaler qu’une<br />
mémoire élevée <strong>de</strong>viendra trop restrictive tout comme une mémoire trop petite<br />
sera probablement inutile. L’intérêt typique <strong>de</strong> cette mémoire est <strong>de</strong> forcer la<br />
recherche à explorer une autre zone que celle dans laquelle se trouve la solution<br />
la plus récente.<br />
Formellement, définissons s comme étant la solution actuelle, sG comme étant
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 28<br />
la solution golbale et V(s) comme étant l’espace <strong>de</strong> solutions voisines à s. Une fois<br />
qu’une solution s est trouvée, elle est mise en mémoire (dans la liste Tabou) pour<br />
un nombre d’itération i. Il sera dés lors impossible <strong>de</strong> revenir à cette solution tant<br />
que le nombre i d’itération ne sera pas dépassé. Toutefois, une exception existe :<br />
lorsqu’un mouvement tabou permet d’améliorer la solution s, il sera autorisé.<br />
C’est ce que l’on appelle le critère d’aspiration.<br />
Le grand avantage <strong>de</strong> la recherche Tabou est que lorsqu’elle <strong>de</strong>vra choisir<br />
un voisin dans V(s), elle choisira toujours le meilleur alors que pour le Recuit<br />
Simulé, on assistait à une modification aléatoire <strong>de</strong> la solution. On découvre<br />
ainsi une autre approche <strong>de</strong> résolution du problème <strong>de</strong>s minima locaux : plutôt<br />
que <strong>de</strong> les éviter, on les utilise<br />
Enfin, notons qu’il existe diverses variantes <strong>de</strong> la recherche Tabou utilisant<br />
<strong>de</strong>s modification sur la fonction d’évaluation <strong>de</strong>s voisins. L’idée générale est<br />
d’ajouter <strong>de</strong>s pénalités ou <strong>de</strong>s avantages sur base <strong>de</strong> certains critères remplis<br />
<strong>par</strong> le voisin évalué. Une autre variante <strong>de</strong> la recherche Tabou alterne volontairement<br />
les phases d’intensification <strong>de</strong> la recherche avec les phases d’exploration<br />
<strong>de</strong> l’espace en changeant dynamiquement le nombre <strong>de</strong> mouvements tabous<br />
stockés en mémoire.<br />
2.2.4 <strong>Algorithme</strong>s évolutionnaires<br />
Les diverses métho<strong>de</strong>s que nous venons d’explorer ont toutes un point commun<br />
: leurs itérations reposent sur l’amélioration d’une solution unique. En effet,<br />
on travaillera toujours à <strong>par</strong>tir d’une solution initiale en essayant <strong>de</strong> l’améliorer<br />
au maximum en fonction <strong>de</strong>s contraintes du problème étudié. Les métho<strong>de</strong>s que<br />
nous allons explorer à <strong>par</strong>tir <strong>de</strong> maintenant sont <strong>de</strong>s métho<strong>de</strong>s à population <strong>de</strong><br />
solutions.<br />
Le therme algorithme évolutionnaire regroupe en fait une multitu<strong>de</strong> <strong>de</strong> métaheuristique<br />
différentes. Cependant, toutes ont un point commun : elles utilisent<br />
le concept d’algorithme génétique, c’est-à-dire l’application informatique simplifiée<br />
<strong>de</strong> la théorie <strong>de</strong> l’évolution <strong>de</strong> Darwin. L’actuel succès <strong>de</strong>s algorithmes<br />
génétiques est évi<strong>de</strong>mment dû aux ouvrages <strong>de</strong> David Goldberg [24] mais leur<br />
date <strong>de</strong> naissance réelle provient <strong>de</strong> la publication en 1975 du livre <strong>de</strong> John<br />
Holland intitulé Adaptation in Natural and Artificial System.<br />
Les algorithmes évolutionnaires sont <strong>de</strong> <strong>par</strong> leur nature <strong>de</strong> métaheuristique<br />
extrèmement flexibles. Ils peuvent donc être appliqués à <strong>de</strong> nombreux problèmes.<br />
Toutefois, leur utilisation en tant que « magic box »est à proscrire ! En
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 29<br />
effet, certains mécanismes internes nécessitent un coût calculatoire important<br />
et les performances d’une implémentation irréfléchie <strong>de</strong> ce genre <strong>de</strong> métho<strong>de</strong><br />
seraient plus que médiocres.<br />
De manière générale, il est important <strong>de</strong> spécialiser l’algorithme en fonction<br />
du problème étudié. En effet, l’inclusion <strong>de</strong> connaissance au processus <strong>de</strong> recherche<br />
ne fera qu’améliorer la qualité <strong>de</strong>s résultats obtenus. Toutefois une chose<br />
est certaine, un algorithme évolutionnaire ne fournira jamais <strong>de</strong> meilleures performances<br />
qu’une métho<strong>de</strong> <strong>de</strong> recherche exacte (si elle existe).<br />
Avant d’examiner le fonctionnement <strong>de</strong> ce type <strong>de</strong> métho<strong>de</strong>, définissons-en<br />
le vocabulaire. L’espace <strong>de</strong> recherche sera appelé l’environnement et les solutions<br />
seront les individus regroupés en population.<br />
Le but <strong>de</strong> l’algorithme est d’évaluer la capacité d’une population à s’adapter<br />
à son environnement. Pour mesurer la qualité <strong>de</strong>s individus, l’algorithme utilise<br />
une fonction d’évaluation appellée fonction <strong>de</strong> fitness. Le but <strong>de</strong>vient donc la<br />
recherche d’un individu maximisant la fonction <strong>de</strong> fitness.<br />
Pour représenter un individu, les algorithmes génétiques utilisent <strong>de</strong>s chromosomes.<br />
On dira que le génotype d’un individu représente son codage quand son<br />
phénotype sera l’expression du co<strong>de</strong> génétique dans l’environnement. Les différent<br />
types d’algorithmes évolutionnaires sont en fait caractérisés <strong>par</strong> le moyen<br />
<strong>de</strong> codage <strong>de</strong>s individus utilisé.<br />
Maintenant que ce vocabulaire est acquis, penchons-nous sur le fonctionnement<br />
<strong>de</strong> l’algorithme avant d’approfondir les métho<strong>de</strong>s d’exploration <strong>de</strong> l’espace<br />
et d’intensification <strong>de</strong>s solutions. Comme le montre la figure 2.4, tout<br />
commence au dé<strong>par</strong>t d’une population initiale. L’idée <strong>de</strong>s algorithmes évolutionnaires<br />
est <strong>de</strong> fonctionner <strong>par</strong> génération <strong>de</strong> population. Il faut donc créer <strong>de</strong><br />
nouveaux individus sur base <strong>de</strong> la population courante.<br />
Pour ce faire, une <strong>par</strong>tie <strong>de</strong> la population sera sélectionnée pour donner<br />
naissance à <strong>de</strong> nouveaux individus. Ces individus enfants seront créés <strong>par</strong> croisement<br />
et/ou mutation afin former la nouvelle population. Par ailleurs, afin <strong>de</strong><br />
conserver une certaine mémoire <strong>de</strong>s individus visités, un facteur d’élitisme sera<br />
utilisé pour inclure certains <strong>par</strong>ents dans la nouvelle génération d’individus. On<br />
répetera ces opérations jusqu’à ce qu’un critère <strong>de</strong> terminaison soit atteint.<br />
Bien entendu, s’il existe <strong>de</strong> multiples algorithmes évolutionnaires, c’est non<br />
seulement <strong>par</strong>ce que le codage <strong>de</strong>s individus diffère <strong>de</strong> métho<strong>de</strong> en métho<strong>de</strong><br />
mais également <strong>par</strong>ce que les opérations <strong>de</strong> sélection, <strong>de</strong> croisement et <strong>de</strong><br />
mutations connaissent beaucoup <strong>de</strong> variantes. Une foule <strong>de</strong> possibilités existe<br />
mais nous ne les explorerons pas ici. Le lecteur intéressé en trouvera quelques
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 30<br />
Fig. 2.4 – Fonctionnement d’un algorithme évolutionnaire ordinaire.
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 31<br />
exemples <strong>par</strong>ticulièrements intéressants dans [25].<br />
C’est <strong>par</strong> contre le moment <strong>de</strong> pointer du doigt les mécanismes qui nous<br />
intéressent ! En effet, ce sont ces trois opérateurs (sélection, croisement et mutation)<br />
qui constituent la base du compromis entre exploration et intensification<br />
que le présent ouvrage s’attèle à déterminer ! Par ailleurs, la métho<strong>de</strong> <strong>de</strong> reproduction<br />
ainsi que le remplacement <strong>de</strong> la population sont <strong>de</strong>ux autres facteurs<br />
intéressants.<br />
On peut dire que l’opérateur <strong>de</strong> sélection a une influence sur la convergence<br />
<strong>de</strong> l’algorithme. Ainsi, afin <strong>de</strong> gar<strong>de</strong>r un <strong>de</strong>rgé d’exploration suffisant, une certaine<br />
diversité doit être conservée <strong>par</strong>mis les individus. Il faudra donc que la<br />
population <strong>de</strong> <strong>par</strong>ents sélectionnés ne soit pas trop restreinte. L’opérateur <strong>de</strong><br />
croisement quant à lui est le principal outil mettant en œuvre le compromis<br />
entre exploration et intensification. Cet opérateur plus que n’importe quel autre<br />
doit être spécifique au problère étudié ainsi qu’au codage utilisé dans la représentation<br />
<strong>de</strong>s individus. En ce qui concerne l’opérateur <strong>de</strong> mutation, on peut<br />
dire qu’il garanti une certaine exploration aléatoire <strong>de</strong> l’espace. Il faudra donc<br />
veiller à ne pas trop l’utiliser afin <strong>de</strong> ne pas entrer dans un état <strong>de</strong> stagnation dû<br />
à l’é<strong>par</strong>pillement constant <strong>de</strong>s individus.<br />
Vient ensuite la métho<strong>de</strong> <strong>de</strong> reproduction. On entend <strong>par</strong> là le nombre<br />
d’enfants généré <strong>par</strong> un couple d’individus <strong>par</strong>ents. De multiples possibilités<br />
existent, qui influe généralement sur la rapidité <strong>de</strong> concentration <strong>de</strong> la population<br />
autour <strong>de</strong>s bons individus.<br />
Pour finir, il reste le facteur <strong>de</strong> remplacement <strong>de</strong> la population. Si une population<br />
est entièrement renouvelée à chaque itération, les chances <strong>de</strong> convergence<br />
se verront réduites. Il faut adopter un certain niveau d’élitisme qui permet <strong>de</strong><br />
conserver une mémoire <strong>de</strong>s bons individus rencontrés.<br />
Comme le montrent les trois <strong>par</strong>araphes précé<strong>de</strong>nts, le nombre <strong>de</strong> choix<br />
<strong>par</strong>amétriques à faire est assez important. C’est là le grand problème <strong>de</strong>s algorithmes<br />
évolutionnaires : il faut du temps pour dégager une configuration<br />
<strong>par</strong>amétrique intéressante.<br />
On constate donc que la famille <strong>de</strong>s algorithmes évolutionnaires dispose<br />
<strong>de</strong> plusieurs outils intéressants jouant directement sur les individus <strong>de</strong> la population.<br />
Remarquons que la qualité <strong>de</strong> la population initiale n’est pas sans<br />
importance ! En effet, elle est un facteur déterminant pour le déroulement et la<br />
convergence <strong>de</strong> l’algorithme. Il est d’ailleurs fréquent d’utiliser comme population<br />
initiale les résultats <strong>de</strong> diverses recherches locales effectuée préalablement.<br />
Cela donne naissance à <strong>de</strong>s algorithmes hybri<strong>de</strong>s que nous aurons l’occasion <strong>de</strong>
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 32<br />
découvrir plus loin.<br />
Pour terminer cette section sur les algorithmes évolutionnaires, notons qu’ils<br />
offrent facilement la possibilité d’effectuer une exécution <strong>par</strong>allèle sur un cluster<br />
<strong>de</strong> machines ou sur une machine multi-processeur. En effet, dès lors que chaque<br />
individu doit être évalué individuellement, une évaluation simultanée <strong>de</strong> plusieurs<br />
individus est tout à fait envisageable ! Une autre possibilité facilement<br />
exploitable serait <strong>de</strong> conserver la population d’origine et <strong>de</strong> procé<strong>de</strong>r <strong>par</strong> sélection<br />
inverse : un individu fils viendrait remplacer le plus mauvais individu <strong>de</strong><br />
la population.<br />
2.2.5 Colonies <strong>de</strong> <strong>fourmis</strong><br />
Les <strong>fourmis</strong> dans la nature<br />
Tout comme les algorithmes évolutionnaires, la métho<strong>de</strong> <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong><br />
<strong>fourmis</strong> est basée sur une observation naturelle : le comportement <strong>de</strong>s <strong>fourmis</strong><br />
dans leur cohabitation en <strong>colonie</strong>s. En 1983, <strong>de</strong>s chercheurs découvrent que les<br />
<strong>fourmis</strong> ont la capacité <strong>de</strong> toujours trouver le chemin le plus court entre leur nid<br />
et une source <strong>de</strong> nourriture (<strong>par</strong> exemple) [26], ce qui est assez surprenant car la<br />
gran<strong>de</strong> majorité <strong>de</strong>s <strong>fourmis</strong> est aveugle. Par ailleurs, les <strong>fourmis</strong> sont également<br />
aptes à réagir aux modifications <strong>de</strong> l’environnement. Ainsi, lorsqu’un ancien<br />
chemin est obstrué <strong>par</strong> un obstacle quelconque, les <strong>fourmis</strong> trouveront un autre<br />
chemin, toujours plus court que tous les autres possibles.<br />
Ces <strong>par</strong>ticularités surprenantes ont donc fait l’objet <strong>de</strong> nombreuses recherches<br />
et finalement, un moyen <strong>de</strong> communication chimique entre les <strong>fourmis</strong> fut découvert<br />
: la phéromone. Concrètement, les <strong>fourmis</strong> déposent régulièrement une<br />
certaine quantité <strong>de</strong> phéromone sur le chemin qu’elles <strong>par</strong>courent. Lorsqu’elles<br />
arrivent à un point où plusieurs chemins s’offrent à elles, elles font un choix<br />
probabiliste sur base <strong>de</strong> la quantité <strong>de</strong> phéromone présente sur chaque chemin.<br />
Ainsi, lorsque plusieurs <strong>fourmis</strong> sillonnent le même espace, on assiste à<br />
l’émergence du meilleur chemin entre le nid et la source <strong>de</strong> nourriture.<br />
Pour mieux comprendre cette <strong>par</strong>ticularité, examinons ce qu’il se passe dans<br />
le cas d’une modification environnementale. Initialement, les <strong>fourmis</strong> utilisent<br />
un chemin donné (cfr. figure 2.5(a)) entre le nid (A) et la source <strong>de</strong> nourriture<br />
(E). Subitement, une bûche bloque le chemin d’origine. Les foumis sont donc<br />
contraintes <strong>de</strong> trouver un autre chemin.<br />
Dans le sens A vers E, les premières <strong>fourmis</strong> à <strong>de</strong>voir faire ce choix auront
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 33<br />
la même probabilité <strong>de</strong> se diriger à gauche ou à droite <strong>de</strong> l’obstacle car aucune<br />
autre fourmi ne sera passée avant elles. Il n’y a donc aucune trace phéromonale<br />
(cfr. figure 2.5(b)). Toutefois, une fourmi ayant choisi d’aller à droite (chemin<br />
BCD) arrivera en D bien avant une fourmi ayant choisi la gauche. De plus la<br />
situation est i<strong>de</strong>ntique en ce qui concerne le sens E vers A (cfr. figure 2.5(c)).<br />
Finalement, la quantité <strong>de</strong> <strong>fourmis</strong> utilisant l’axe BCD est plus élevée que<br />
pour l’axe BHD ce qui entraîne une quantité <strong>de</strong> phéromone croissante sur l’axe<br />
BCD. Après un certain laps <strong>de</strong> temps, toutes les <strong>fourmis</strong> <strong>de</strong>vraient (statistiquement)<br />
utiliser l’axe BCD (cfr. figure 2.5(c)). C’est ce phénomène que l’on appelle<br />
la stigmergie.<br />
Fig. 2.5 – Evolution du comportement <strong>de</strong>s <strong>fourmis</strong> en fonction d’une modification<br />
<strong>de</strong> l’environnement : (a) situation initiale, (b) un ostacle s’interpose et<br />
les <strong>fourmis</strong> choisissent d’aller d’un côté ou <strong>de</strong> l’autre avec la même probabilité,<br />
(c) l’axe BCD étant plus court, les <strong>fourmis</strong> arrivent plus vite <strong>de</strong> l’autre côté <strong>de</strong><br />
l’obstacle, (d) le nombre croissant <strong>de</strong> phéromones fait émerger le chemin BCD.
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 34<br />
La transposition informatique <strong>de</strong>s <strong>fourmis</strong><br />
Comme nous venons <strong>de</strong> le voir, les <strong>fourmis</strong> possè<strong>de</strong>nt naturellement un<br />
outil leur permettant <strong>de</strong> communiquer <strong>de</strong> façon générale afin <strong>de</strong> faire ressortir<br />
un comportement global <strong>de</strong> la <strong>colonie</strong>. Les premières publications <strong>de</strong> cette idée<br />
datent <strong>de</strong> 1991 [27, 28] et la première application fut faite sur le problème du<br />
voyageur <strong>de</strong> commerce. Cette transposition était évi<strong>de</strong>nte vu que l’objectif <strong>de</strong><br />
ce problème est <strong>de</strong> trouver un chemin minimal répondant à certains critères. Il<br />
est toutefois possible d’utiliser un système <strong>de</strong> <strong>fourmis</strong> pour résoudre d’autres<br />
problèmes.<br />
Les métho<strong>de</strong>s <strong>de</strong> recherche <strong>par</strong> <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong> on une <strong>par</strong>ticularité :<br />
la recherche <strong>de</strong> solutions s’effectue sur base <strong>de</strong> la totalité <strong>de</strong> la population et<br />
non plus a <strong>par</strong>tir <strong>de</strong> quelques meilleurs individus (comme c’est le cas dans<br />
les algorithmes évolutionnaires). Cette <strong>par</strong>ticularité non négligeable a donné<br />
naissance la création <strong>de</strong> nombreux types d’algorithme <strong>de</strong> recherche, nous en<br />
découvrirons ici les gran<strong>de</strong>s lignes.<br />
Le concept général est <strong>de</strong> simuler le comportement <strong>de</strong> plusieurs agents collaborants<br />
dans la recherche d’une meilleure solution en utilisant un moyen <strong>de</strong><br />
communication simple : la phéromone. Dans le cadre <strong>de</strong> la métaheuristique<br />
d’optimisation <strong>par</strong> <strong>colonie</strong> <strong>de</strong> fourmi, les agents sont ... <strong>de</strong>s <strong>fourmis</strong>. Bien entendu,<br />
il y aura quelques différences entre les <strong>fourmis</strong> naturelles et celles utilisée<br />
dans le domaine informatique que nous nommerons désormais <strong>fourmis</strong> artificielles.<br />
Ainsi, une fourmi artificielle :<br />
1. n’est pas totalement aveugle et peut donc voir un peu plus loin que son<br />
entourage direct ;<br />
2. évolue dans un univers ou le temps est discret ;<br />
3. dispose d’une certaine mémoire lui permettant <strong>de</strong> retenir la solution qu’elle<br />
a construit ;<br />
4. gère la quantité <strong>de</strong> phéromone déposée en fonction <strong>de</strong> la qualité <strong>de</strong> la<br />
solution et peut procé<strong>de</strong>r à différents types <strong>de</strong> dépôts phéromonaux.<br />
Ces quelques améliorations ne sont pas sans conséquences, nous allons le découvrir<br />
ci-<strong>de</strong>ssous..<br />
Pour commencer, découvrons l’impact engendré <strong>par</strong> l’acuité visuelle <strong>de</strong> nos<br />
<strong>fourmis</strong> artificielles. Très clairement, cela permet à la fourmi <strong>de</strong> se gui<strong>de</strong>r autrement<br />
que <strong>par</strong> son seul environnement direct. Ce gui<strong>de</strong> est en fait une valeur que<br />
nous appellerons valeur heuristique, c’est-à-dire une valeur pouvant influencer le
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 35<br />
choix fait <strong>par</strong> notre fourmi. Par exemple, dans le cadre <strong>de</strong> la recherche d’un plus<br />
court chemin, lorsqu’une fourmi <strong>de</strong>vra faire un choix sur le chemin à suivre,<br />
une valeur heuristique pouvant lui simplifier la tâche serait, <strong>par</strong> exemple, la<br />
longueur <strong>de</strong>s chemins accessibles.<br />
Cette valeur heuristique est donc une donnée propre au problème qui permet<br />
<strong>de</strong> spécialiser la métaheuristique. Il s’agit là d’un atout important car, nous<br />
l’avons déjà vu, utiliser une métaheuristique comme métho<strong>de</strong> <strong>de</strong> recherche<br />
universelle n’est pas une bonne idée et conduirait certainement à <strong>de</strong> médiocres<br />
résultats. C’est <strong>par</strong> l’inclusion <strong>de</strong> connaissances propres au problème étudié que<br />
la métho<strong>de</strong> <strong>de</strong> recherche fournira les meilleurs résultats.<br />
Revenons en donc à nos <strong>fourmis</strong>. Chacune tente <strong>de</strong> trouver une solution<br />
minimisant la fonction d’évaluation utilisée. Cette solution est donc construite<br />
pas-à-pas en fonction <strong>de</strong> divers <strong>par</strong>amètres <strong>par</strong>mis lesquels nous retrouvons<br />
la valeur heuristique. Bien évi<strong>de</strong>mment, les phéromones sont toujours <strong>de</strong> la<br />
<strong>par</strong>tie. Pratiquement, le choix fait <strong>par</strong> une fourmi artificielle dépends <strong>de</strong> ces<br />
<strong>de</strong>ux données.<br />
De manière plus formelle, on dit qu’à chaque point nécessitant un choix, une<br />
table <strong>de</strong> décision, résultat d’une opération mathématique <strong>par</strong>ticulière, produit<br />
les règles probabilistes sur lesquelles sont basés les mouvements <strong>de</strong>s <strong>fourmis</strong>.<br />
Afin <strong>de</strong> découvrir cette opération mathématique, notons <strong>par</strong> τij la quantité <strong>de</strong><br />
phéromone présente sur un chemine reliant i à j et <strong>par</strong> ηij la valeur heuristique<br />
associée à ce même chemin. En considérant que la fourmi se trouve sur un point<br />
i, la probabilité pij qu’elle se dirige vers le point j sera donnée <strong>par</strong> :<br />
pij =<br />
[τij] α · [ηij] β<br />
k∈V(i)[τik] α · [ηik] β<br />
où V(i) représente le voisinage <strong>de</strong> i, c’est-à-dire tous les points accessibles à<br />
<strong>par</strong>tir <strong>de</strong> i et où α et β sont <strong>de</strong>s <strong>par</strong>amètres permettant <strong>de</strong> contrôler l’importance<br />
relative donnée aux phéromones et aux valeurs heuristiques. Pour être complet,<br />
rappelons nous que nos <strong>fourmis</strong> artificielles évoluent dans un univers ou le<br />
temps est discret. La formule <strong>de</strong>vient donc :<br />
pij =<br />
[τij(t)] α · [ηij(t)] β<br />
k∈V(i)[τik(t)] α · [ηik(t)] β<br />
De ces formules, nous retirons q’une fourmi procè<strong>de</strong> à la construction d’une<br />
solution étape <strong>par</strong> étape en effectuant un choix stochastique en fonction <strong>de</strong>s<br />
phéromones et <strong>de</strong>s valeurs heuristiques présentes sur son chemin. Nous venons
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 36<br />
donc <strong>de</strong> mettre le doigt sur <strong>de</strong>ux <strong>de</strong>s <strong>par</strong>amètres les plus fondamentaux <strong>de</strong> la<br />
métho<strong>de</strong> <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong> : α et β. En effet, ces <strong>par</strong>amètres ont un <strong>de</strong>gré<br />
d’influence important <strong>par</strong> rapport à l’exploration <strong>de</strong> l’espace conformationnel et<br />
à l’intensification <strong>de</strong>s solutions. Nous aurons l’occasion d’y revenir au chapitre<br />
suivant lorsque nous décrirons la manière dont nous avons adapté la métho<strong>de</strong><br />
<strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong> au problème <strong>de</strong> la prédiction <strong>de</strong> structures natives.<br />
Maintenant que nous savons comment s’orientent les <strong>fourmis</strong>, nous allons<br />
découvrir comment se gère le dépôt <strong>de</strong> phéromones. En effet, c’est en déposant<br />
<strong>de</strong>s phéromones qu’une fourmi augmente la probabilité <strong>de</strong> fréquentation du<br />
chemin qu’elle utilise. Pour en revenir à notre petite énumération <strong>de</strong>s différences<br />
entre fourmi réelle et fourmi artificielle, nous allons découvrir simultanément<br />
l’intéret <strong>de</strong> la mémoire <strong>de</strong> la fourmi artificielle ainsi que les diverses façons dont<br />
elle dépose ses phéromones.<br />
Grâce à sa mémoire, une fourmi peut construire une solution valable répondant<br />
à certains critères dépendant du problème étudié. De plus, une fois la<br />
solution élaborée, elle peut l’évaluer dans sa totalité ! C’est grâce à ces capacités<br />
<strong>de</strong> souvenir et d’évaluation qu’une fourmi peut procé<strong>de</strong>r à différents types <strong>de</strong><br />
dépôts <strong>de</strong> phéromones :<br />
– lorsqu’une fourmi dépose <strong>de</strong>s phéromones tout au long <strong>de</strong> l’élaboration<br />
<strong>de</strong> sa solution, on <strong>par</strong>lera <strong>de</strong> dépôt en ligne, pas-à-pas (online step by step) ;<br />
– <strong>par</strong> contre, si une fourmi procè<strong>de</strong> à un dépôt phéromonal à la fin <strong>de</strong> la<br />
construction <strong>de</strong> sa solution, on <strong>par</strong>lera <strong>de</strong> dépôt en ligne, retardé (online<br />
<strong>de</strong>layed).<br />
De plus, la quantité <strong>de</strong> phéromone déposée sera directement proportionnelle<br />
à la qualité <strong>de</strong> la solution (<strong>par</strong>tielle) élaborée. Si cette solution est intéressante,<br />
la fourmi déposera une gran<strong>de</strong> quantité <strong>de</strong> phéromone afin <strong>de</strong> maximiser les<br />
chances <strong>de</strong> passage <strong>par</strong> les autres <strong>fourmis</strong>.<br />
Nous venons donc <strong>de</strong> découvrir que l’intensification d’une solution se fait<br />
suite à la quantité phéromonale présente sur un chemin. Bien entendu, la valeur<br />
donnée à α reste prépondérante. Dans le cas ou celle-ci serait <strong>de</strong> 0, les<br />
phéromones ne seraient tout simplement pas pirses en compte.<br />
Il est <strong>par</strong> ailleurs intéressant <strong>de</strong> constater qu’une réduction néfaste <strong>de</strong> l’espace<br />
<strong>de</strong> recherche aura lieu si la quantité phéromonale déposée est mal gérée.<br />
Dans ce cas, on pourrait assister à l’émergence rapi<strong>de</strong> d’un chemin minimal<br />
qui engendrerait un état <strong>de</strong> stagnation <strong>de</strong> la recherche. En effet, ce chemin étant<br />
utilisé <strong>par</strong> un nombre croissant <strong>de</strong> <strong>fourmis</strong>, la quantité phéromonale ne cesserait<br />
d’augmenter et plus aucune exploration <strong>de</strong> l’espace n’aurait lieu.
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 37<br />
Heureusement, une phéromone n’est pas éternelle ! En effet, dans la nature<br />
tout comme dans la transposition informatique, les phéromones s’évaporent.<br />
Nous introduisons donc un facteur <strong>de</strong> persistance qui sera appliqué à tout<br />
dépôt phéromonal. En nottant <strong>par</strong> ρ le facteur <strong>de</strong> persistance, nous pouvons<br />
dire que (1 − ρ) correspond à l’évaporation. Ainsi, un moyen <strong>de</strong> contrôle <strong>de</strong> la<br />
convergence <strong>de</strong> l’algorithme nous est donné. Ce facteur <strong>de</strong> persistance évoque<br />
d’une certaine manière la mémoire <strong>de</strong> la <strong>colonie</strong>. Pour faire la com<strong>par</strong>aison avec<br />
les algorithmes génétiques, la persistance est à la phéromone ce que l’élitisme<br />
était à la population.<br />
Attention toute fois à ne pas se méprendre, l’exemple d’émergence rapi<strong>de</strong><br />
d’un chemin minimal sera toujours possible ! La métaheuristique <strong>de</strong>s <strong>colonie</strong>s<br />
<strong>de</strong> <strong>fourmis</strong>, comme bien d’autres, <strong>de</strong>man<strong>de</strong> un temps considérable dans la<br />
recherche d’une <strong>par</strong>amétrisation satisfaisante. Une solution intéressante à ce<br />
problème consiste à modifier le <strong>par</strong>amètre α pour quelques tours, afin <strong>de</strong> relancer<br />
l’exploration <strong>de</strong> l’espace. Un autre problème potentiel résolu <strong>par</strong> le facteur<br />
<strong>de</strong> persistance est ce que l’on appelle en anglais le phénomène d’attrition. Ce<br />
problème provient <strong>de</strong> l’accumulation <strong>de</strong> phéromones due à un tronçon <strong>par</strong>tiel<br />
commun dans plusieurs solutions différentes. Toutefois, il faut remarquer que<br />
ce phénomène se produit plus facilement dans un espace bidimentionnel fortement<br />
discrétisé que dans un espace tridimentionel tel que ceux dont nous avons<br />
<strong>par</strong>lé ci-<strong>de</strong>ssus.<br />
Les cinq <strong>de</strong>rniers <strong>par</strong>agraphes nous ont donc appris que chaque fourmi fait<br />
un dépot <strong>de</strong> phéromone en fonction <strong>de</strong> la solution qu’elle a calculé et qu’un facteur<br />
<strong>de</strong> persistance ρ permet <strong>de</strong> gérer l’évaporation <strong>de</strong>s dépots <strong>de</strong> phéromones.<br />
Il est donc intéressant <strong>de</strong> formaliser cela. Ainsi, en notant <strong>par</strong> ∆τ k<br />
ij<br />
(t, t + n) la<br />
quantité <strong>de</strong> phéromone déposée <strong>par</strong> la fourmi k sur le chemin ij dans l’interalle<br />
<strong>de</strong> temps (t, t + n) nous obtenons que :<br />
τij(t + n) = ρτij(t) +<br />
m<br />
k=1<br />
∆τ k<br />
ij (t, t + n)<br />
où m représente le nombre total <strong>de</strong> <strong>fourmis</strong>, n est l’intervalle unitaire <strong>de</strong> temps<br />
discret et τij(t) est toujours la quantité <strong>de</strong> phéromone présente sur le chemin<br />
reliant i à j. On peut traduire cette formule en disant que la quantité <strong>de</strong> phéromones<br />
présentes sur le chemin ij à l’instant (t + n) est égale à la persistance <strong>de</strong><br />
la quantité <strong>de</strong> phéromone présente à l’instant précé<strong>de</strong>nt (t) à laquelle on ajoute<br />
les nouveaux dépots <strong>de</strong> toute les <strong>fourmis</strong> ayant <strong>par</strong>couru le chemin ij <strong>de</strong>puis<br />
l’instant précé<strong>de</strong>nt (t).
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 38<br />
Enfin, pour clôturer cette section, notons que lorsqu’une fourmi a procédé<br />
à l’élaboration d’une solution ainsi qu’à la mise à jour phéromonale correspondante,<br />
elle meurt. Cela nous permet <strong>de</strong> bien nous rendre compte <strong>de</strong> l’indépendance<br />
<strong>de</strong>s <strong>fourmis</strong> <strong>par</strong> rapport à la <strong>colonie</strong>. En effet, tout au long <strong>de</strong> sa vie,<br />
la fourmi n’aura utilisé que les informations locales qui se trouvaient sur son<br />
chemin, sans oublier la valeur heuristique.<br />
Les <strong>par</strong>ticularités offertes <strong>par</strong> la <strong>colonie</strong> artificielle<br />
Les avantages présentés <strong>par</strong> la métaheuristique <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong> ne<br />
s’arrêtent pas là ! En effet, en plus <strong>de</strong>s améliorations effectuées sur les <strong>fourmis</strong>, il<br />
est possible d’effectuer <strong>de</strong>s actions centralisées qu’une fourmi réelle serait incapable<br />
<strong>de</strong> réaliser. Par exemple, il est possible <strong>de</strong> procé<strong>de</strong>r à un dépot phéromonal<br />
supplémentaire pour certaines solutions jugées <strong>par</strong>ticulièrement intéressantes.<br />
On <strong>par</strong>lera alors <strong>de</strong> dépôt hors-ligne (offline), ce qui correspond à une certaine<br />
forme d’élitisme anticipatif.<br />
Nous pouvons donc récapituler le fonctionnement d’une <strong>colonie</strong> <strong>de</strong> fourmi<br />
<strong>par</strong> le pseudoco<strong>de</strong> suivant :<br />
while ( c r i t e r e <strong>de</strong> terminaison non a t t e i n t ) {<br />
p l a n i f i c a t i o n {<br />
<strong>fourmis</strong>_en_action ( ) ;<br />
evaporation_<strong>de</strong>s_pheromones ( ) ;<br />
a c t i o n s _ g e n e r a l e s ( ) ;<br />
}<br />
}<br />
Il est important <strong>de</strong> remarquer que les opérations <strong>de</strong> planification ne sont pas<br />
définies, ce qui permet une multitu<strong>de</strong> d’implémentation <strong>de</strong> cette métho<strong>de</strong> [29].<br />
De plus, la métaheuristique, <strong>de</strong> <strong>par</strong> son fonctionnement, permet <strong>de</strong>s implémentations<br />
faciles pour <strong>de</strong>s systèmes informatiques en cluster [30, 29].<br />
Enfin, notons que d’autres métho<strong>de</strong>s heuristiques basées sur <strong>de</strong>s observations<br />
naturelles existent (comme <strong>par</strong> exemple les réseaux <strong>de</strong> neurones). Le lecteur<br />
intéressé sera certainement comblé <strong>par</strong> [22] qui propose un excellent tour<br />
d’horison en la matière.
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 39<br />
2.2.6 Métho<strong>de</strong>s hybri<strong>de</strong>s<br />
Il arrive fréquemment que <strong>de</strong>s solutions hybri<strong>de</strong>s soient apportées au problème<br />
d’exploration <strong>de</strong> l’espace. L’idée est <strong>de</strong> combiner <strong>de</strong>ux métho<strong>de</strong>s complémentaires<br />
: une <strong>de</strong> recherche globale et une <strong>de</strong> recherche locale. En effet, les<br />
effets combinés obtenus <strong>par</strong> ce genre d’hybridation sont souvent encourageants.<br />
A titre d’exemple, examinons l’hybridation d’un algoritme évolutionnaire<br />
[31] avec, comme métho<strong>de</strong> <strong>de</strong> recherche locale la métho<strong>de</strong> Tabou (mais nous<br />
aurions pu choisir n’importe quelle autre autre). Typiquement, la phase d’initialisation<br />
<strong>de</strong> l’algorithme évolutionnaire sera modifiée en ce sens qu’une recherche<br />
locale sera effectuée sur chaque individu <strong>de</strong> dé<strong>par</strong>t. Ensuite commencera seulement<br />
la reherche proprement dite. De plus, plutôt que <strong>de</strong> procé<strong>de</strong>r simplement<br />
à un croisement lors du renouvellement <strong>de</strong> la population, une intensification<br />
locale sera à nouveau effectuée sur les individus résultant du croisement.<br />
Ces modifications permettent <strong>de</strong> concentrer la recherche globale autour <strong>de</strong><br />
solutions à priori locales. Bien entendu, tout autre mélange est possible. Il faudra<br />
toutefois procé<strong>de</strong>r à l’hybridation <strong>de</strong> manière intelligente afin <strong>de</strong> ne pas<br />
engendrer <strong>de</strong> surcoût <strong>de</strong> calcul ni <strong>de</strong> dégradation <strong>de</strong> compromis entre exploration<br />
et intensification. D’autres exemples d’hybridation existent en masse, [32]<br />
propose <strong>par</strong> exemple l’hybridation d’un réseau <strong>de</strong> neurone (métaheuristique<br />
non explorée dans le cadre <strong>de</strong> cet ouvrage) avec la recherche Tabou.<br />
2.3 Les fonctions énergétiques<br />
Quelle que soit la recherche effectuée in silico, un besoin commun est la fonction<br />
énergétique capable d’évaluer la correspondance qualitative et quantitative<br />
entre une séquence d’aci<strong>de</strong>s aminés et une conformation spatiale donnée. En<br />
effet, la performance atteinte <strong>par</strong> le matériel et la qualité <strong>de</strong>s algorithmes utilisés<br />
ne servent à rien sans une fonction d’évaluation pertinente.<br />
Les fonctions énergétiques fournissent <strong>de</strong>s résultats sur base <strong>de</strong> potentiels qui<br />
sont représentatifs <strong>de</strong>s interactions présentes au sein d’une structure tridimensionnelle.<br />
Lorsqu’une interaction interne est native, son potentiel énergétique<br />
sera faible. Bien entendu, le nombre <strong>de</strong> types d’interactions dans une protéine<br />
est élevé, ce qui engendre une multitu<strong>de</strong> <strong>de</strong> potentiels calculables.<br />
A titre d’exemple, le potentiel d’hydrophobicité est calculé sur base <strong>de</strong>s différences<br />
entre résidus hydrophobes et résidus hydrophiles et est totalement<br />
indépendant <strong>de</strong> la conformation locale adoptée <strong>par</strong> la protéine. Son utilisation
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 40<br />
influencera la prédiction vers un arrangement spécifique <strong>de</strong>s résidus hydrophobes.<br />
Autre exemple, le potentiel <strong>de</strong> distance qui est calculé sur base <strong>de</strong> la<br />
propension d’un couple <strong>de</strong> résidus distants dans la séquence, à être sé<strong>par</strong>és dans<br />
l’espace <strong>par</strong> une certaine distance.<br />
Nous aurons l’occasion <strong>de</strong> revenir sur ces potentiels lors <strong>de</strong> l’explication<br />
détaillée du calcul <strong>de</strong> l’énergie libre <strong>de</strong> nos prédictions.<br />
2.4 L’évaluation <strong>de</strong>s résultats d’une prédiction<br />
Afin <strong>de</strong> développer <strong>de</strong>s algorithmes toujours plus performant, <strong>de</strong> nombreux<br />
tests sont effectués. Afin <strong>de</strong> procé<strong>de</strong>r à ces mesures, il est fréquent <strong>de</strong> faire<br />
<strong>de</strong> la prédiction <strong>de</strong> structure native sur <strong>de</strong>s protéines dont on connaît déjà la<br />
conformation d’énergie libre minimale. Pour procé<strong>de</strong>r à l’évaluation, on effectue<br />
généralement un calcul du RMSD (Root Mean square Deviation) entre la conformation<br />
native et celle obtenue <strong>par</strong> prédiction. Cette opération mesure simplement<br />
les différences <strong>de</strong> position entre les atomes <strong>de</strong> Cα représentatifs du squelette <strong>de</strong>s<br />
structures com<strong>par</strong>ées. Bien entendu, il serait tout à fait envisageable d’effectuer<br />
un calcul RMSD sur chaque atome constituant la protéine. Notons également<br />
qu’un calcul RMSD retourne le plus petit résultat possible. En effet, le calcul<br />
s’effectue sur le meilleur alignement <strong>de</strong>s <strong>de</strong>ux structures com<strong>par</strong>ées, ce qui a<br />
pour effet d’en minimiser le résultat.<br />
En notant <strong>par</strong> (x i n , yi n , zi n ) les coordonnées <strong>de</strong> l’atome Cα du résidu i <strong>de</strong> la<br />
structure native et <strong>par</strong> (x i p , yi p , zi p ) les coordonnées <strong>de</strong> l’atome Cα du résidu n <strong>de</strong><br />
la structure prédite, le calcul du RMSD s’effectue en calculant :<br />
⎛ <br />
1<br />
min ⎜⎝ r<br />
r<br />
i=1<br />
<br />
i (xn − xi p) 2 + (yi n − yi p) 2 + (zi n − zi p) 2<br />
⎞⎟ ⎠<br />
où r est le nombres <strong>de</strong> résidus <strong>de</strong> la protéine.<br />
Une secon<strong>de</strong> métho<strong>de</strong> d’évaluation serait <strong>de</strong> com<strong>par</strong>er les résultats énergétiques<br />
obtenus entre diverses métho<strong>de</strong>s <strong>de</strong> prédiction. Malheureusement, l’imperfection<br />
<strong>de</strong>s multiples fonctions énergétiques existantes nous oblige à regar<strong>de</strong>r<br />
ces résultats avec circonspection. Il n’est pas rare que l’évaluation énergétique<br />
d’une structure native connue offre un score supérieur à celle d’une prédiction !<br />
D’autres com<strong>par</strong>aisons peuvent avoir lieu entre la protéine à l’état natif et la<br />
protéine prédite. Citons <strong>par</strong> exemple l’étu<strong>de</strong> du pourcentage <strong>de</strong> contacts natifs,
CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 41<br />
c’est-à-dire <strong>de</strong> contact inter-résidus semblables entre la structure native connue<br />
et la structure prédite.<br />
Un autre facteur fréquemment évalué est celui du temps requis <strong>par</strong> une<br />
prédiction. Au vu <strong>de</strong> la gran<strong>de</strong> diversité <strong>de</strong> machines et <strong>de</strong> métho<strong>de</strong>s utilisées<br />
dans ce domaine, il va <strong>de</strong> soi qu’une unité d’évaluation temporelle simple serait<br />
un non sens. Il est donc fréquent d’utiliser comme source <strong>de</strong> prédiction une base<br />
<strong>de</strong> données contenant <strong>de</strong>s protéines-type présentant <strong>de</strong>s propriétés <strong>par</strong>ticulières<br />
(benchmarks). Ainsi, en spécifiant les caractéristiques <strong>de</strong> la machine utilisée, on<br />
peut se faire une idée <strong>de</strong> la qualité <strong>de</strong> la métho<strong>de</strong> <strong>de</strong> prédiction utilisée.<br />
2.5 Récapitulatif<br />
La prédiction <strong>de</strong> la structure native d’une protéine a un intérêt scientifique<br />
important. Outre le gain <strong>de</strong> temps et d’argent que procurent les métho<strong>de</strong>s in<br />
silico, une multitu<strong>de</strong> d’applications dérivées sont accessibles dès lors que la<br />
struture native d’une protéine est connue. Pour effectuer une prédiction <strong>de</strong> la<br />
structure native d’une protéine, certains outils sont indispensables, nous venons<br />
d’en faire le tour.<br />
Il est important <strong>de</strong> remarquer que quelles que soient les métho<strong>de</strong>s utilisées,<br />
la situation initiale <strong>de</strong> la recherche a une gran<strong>de</strong> importance. De plus, la qualité<br />
<strong>de</strong>s résultats obtenus est souvent suffisante pour <strong>de</strong>s problèmes basiques mais<br />
ce n’est pas toujours le cas lors <strong>de</strong> l’étu<strong>de</strong> <strong>de</strong> problèmes plus importants. La<br />
recherche du minimum global est un problème difficile pour lequel il n’existe<br />
actuellement aucun algorithme efficace garantissant un résultat optimal.<br />
Dans le chapitre suivant, nous présenterons la totalité <strong>de</strong>s choix effectués<br />
pour le développement <strong>de</strong> notre logiciel <strong>de</strong> prédiction <strong>de</strong> structure native <strong>de</strong><br />
protéine. Cela fait, nous nous lancerons dans la découverte <strong>de</strong> son fonctionnement<br />
pour ensuite en révéler les résultats.
Chapitre 3<br />
Nos outils et métho<strong>de</strong>s<br />
Le problème <strong>de</strong> prédiction <strong>de</strong> la structure native d’une protéine est en fait un<br />
problème d’optimisation combinatoire <strong>par</strong>ticulier. En effet, il existe <strong>de</strong> nombreux<br />
problèmes <strong>de</strong> ce type. Chacun peut être défini <strong>par</strong> une paire (S, f ) où S représente<br />
l’ensemble fini <strong>de</strong> toutes les solutions existantes et f est une fonction <strong>de</strong> type<br />
f : S → R permettant d’évaluer la qualité d’une solution i <strong>par</strong>ticulière [22]. La<br />
valeur optimale <strong>de</strong> f est :<br />
f0 = min{ f (i) : i ∈ S}<br />
et l’ensemble <strong>de</strong>s solutions optimales est :<br />
S0 = {i ∈ S : f (i) = f0}<br />
La résolution du problème se fait donc en trouvant certaine(s) solution(s) i0 ∈ S0.<br />
Afin <strong>de</strong> bien comprendre tout cela, transposons ces données mathématiques<br />
au cas qui nous intéresse. Pour cela, rappelons que nous nous basons sur l’hypothèse<br />
largement admise selon laquelle la structure native d’une protéine correspond<br />
à son minimum d’énergie libre. Dans notre cas, S est l’espace conformationnel<br />
accessible et f sera la fonction énergétique utilisée. Si nous appliquons<br />
ces formules à une protéine dont nous connaissons déjà la structure native (que<br />
nous noterons n) on aura que f (n) = f0. D’autre <strong>par</strong>t, on sait que n ∈ S et donc<br />
que n ∈ S0 car l’équation <strong>de</strong> S0 est bien vérifiée.<br />
Ces problèmes d’optimisation combinatoire sont difficiles à résoudre car<br />
pour la plu<strong>par</strong>t, une exploration exhaustive <strong>de</strong>s solutions possibles sera requise<br />
afin <strong>de</strong> déterminer la ou les meilleures solutions. Pour les problèmes <strong>de</strong> gran<strong>de</strong><br />
taille, une telle exploration n’est actuellement pas réalisable en un temps raisonnable.<br />
Il n’existe donc pas <strong>de</strong> métho<strong>de</strong> déterministe garantissant un résultat<br />
42
CHAPITRE 3. NOS OUTILS ET MÉTHODES 43<br />
optimum. Ainsi, <strong>de</strong>s métaheuristiques proposent <strong>de</strong>s stratégies générales d’exploration<br />
<strong>de</strong> l’espace qui peuvent être appliquées à un problème <strong>par</strong>ticulier.<br />
Dans notre cas, nous avons choisi <strong>de</strong> concevoir un algorithme <strong>de</strong> prédiction<br />
<strong>de</strong> la structure native <strong>de</strong> protéines à <strong>par</strong>tir <strong>de</strong> la métaheuristique <strong>de</strong>s <strong>colonie</strong>s<br />
<strong>de</strong> <strong>fourmis</strong> que nous avons explorée dans le chapitre précé<strong>de</strong>nt. Ce chapitre-ci<br />
propose donc <strong>de</strong> découvrir les divers choix que nous avons effectués quant aux<br />
diverses exigences requises <strong>par</strong> la prédiction <strong>de</strong> structure native.<br />
3.1 Modélisation <strong>de</strong> nos protéines<br />
Nous avons opté pour une représentation atomique simplifiée <strong>de</strong>s aci<strong>de</strong>s<br />
aminés (cfr. figure 3.1). Ainsi, comme nous le voyions dans l’introduction, nous<br />
ne prenons pas en compte la totalité <strong>de</strong> la chaîne latérale. Celle-ci sera simplifiée<br />
au moyen <strong>de</strong>s atomes Cβ et Cµ. Cette représentation offre l’avantage d’être assez<br />
réaliste tout en ne <strong>de</strong>mandant pas une quantité <strong>de</strong> calcul trop importante.<br />
Fig. 3.1 – Représentation simplifiée d’un aci<strong>de</strong> aminé, attention le cas <strong>par</strong>ticulier<br />
<strong>de</strong> la Glycine verra ses atomes Cβ et Cµ se trouver au même endroit que l’atome<br />
Cα.<br />
Une protéine sera donc représentée <strong>par</strong> sa chaîne principale (son squelette),<br />
ainsi que <strong>par</strong> les atomes Cbeta et Cµ <strong>de</strong> chaque résidu. Par ailleurs, nos protéines<br />
évolueront dans l’espace (φ, ψ, ω), c’est-à-dire que les angles <strong>de</strong> rotation autour<br />
<strong>de</strong>s liaisons chimiques N − Cα et Cα − C ainsi que la liaison C − N entre un<br />
résidu et son voisin, prendront respectivement les valeurs φ, ψ et ω. Rappelonsnous<br />
également que l’angle ω résulte d’un lien peptidique <strong>par</strong>ticulier ayant un<br />
caractère <strong>de</strong> double liaison, ce qui limite ses valeurs à 0 ◦ ou 180 ◦ . Le lecteur se
CHAPITRE 3. NOS OUTILS ET MÉTHODES 44<br />
posant <strong>de</strong>s questions sur les valeurs initiales <strong>de</strong>s angles φ et ψ vera sa curiosité<br />
assouvie en page 55.<br />
Il nous faut encore préciser que les distances <strong>de</strong> liaison inter-atomique auront<br />
<strong>de</strong>s valeurs fixes variant en fonction <strong>de</strong>s atomes liés. Cela n’entraîne aucune<br />
surcharge <strong>de</strong> calcul mais nous permet d’approcher encore un peu mieux la<br />
réalité. Enfin, dans notre cas <strong>de</strong> représentation simplifiée <strong>de</strong>s aci<strong>de</strong>s aminés, les<br />
angles <strong>de</strong> valences (cfr. figure 3.2 ) seront également fixés pour chaque atome.<br />
Fig. 3.2 – Exemple d’angle <strong>de</strong> valence : en pointillé, l’angle <strong>de</strong> valence associé à<br />
l’atome O.<br />
On dira qu’une prédiction <strong>de</strong> protéine sera valable si elle ne contient pas <strong>de</strong><br />
clash stériques. Cette appellation dénote en fait une collision entre <strong>de</strong>ux atomes.<br />
En effet, il est tout a fait possible <strong>de</strong> prédire <strong>de</strong>s protéines présentant une structure<br />
tridimensionnelle irréalisable dans la nature. Il <strong>de</strong>vra donc être possible<br />
d’évaluer la présence <strong>de</strong> telles collisions.<br />
Dans notre modèle, nous veillerons à l’absence <strong>de</strong> collisions entre chaînes<br />
latérales et donc uniquement entre les atomes Cµ. Pour effectuer ces vérifications,<br />
un rayon atomique est fixé pour l’atome Cµ <strong>de</strong> chaque résidu, on l’appelle le<br />
rayon <strong>de</strong> van <strong>de</strong>r Waals [17]. En notant <strong>par</strong> rVDW(Cµ) le rayon <strong>de</strong> Van<strong>de</strong>rwaals<br />
<strong>de</strong> l’atome Cµ, on dira qu’il y a collision si<br />
rVDW(C1 µ) + rVDW(C2 µ)<br />
· a > distanceSpatiale((C 1 µ), (C 2 µ))<br />
2<br />
où distanceSpatiale calcule la distance réelle sé<strong>par</strong>ant <strong>de</strong>ux atomes et a représente<br />
un facteur d’aération permettant donc d’éviter <strong>de</strong>s prédictions trop compactes.<br />
Il faudra donc évaluer l’absence <strong>de</strong> collision entre tous les atomes Cµ <strong>de</strong> la<br />
protéine prédite afin que celle-ci soit réalisable et puisse <strong>par</strong>ticiper à la recherche
CHAPITRE 3. NOS OUTILS ET MÉTHODES 45<br />
<strong>de</strong> la structure native.<br />
3.2 Discrétisation <strong>de</strong> notre espace <strong>de</strong> recherche<br />
Comme notre protéine évolue dans l’espace (φ, ψ, ω), il va <strong>de</strong> soi que la discrétisation<br />
<strong>de</strong> l’espace conformationnel passera <strong>par</strong> une limitation <strong>de</strong>s valeurs<br />
accessibles <strong>par</strong> chaque triplet angulaire. Au sein d’une protéine réelle, certaines<br />
valeurs <strong>de</strong> (φ, ψ, ω) ne sont pas accessibles aux résidus car elles correspondraient<br />
à <strong>de</strong>s collisions atomiques. Il a été observé que l’ensemble <strong>de</strong>s conformations<br />
possibles pour chaque résidu peut être réduit à sept domaines dans l’espace<br />
<strong>de</strong>s triplets (φ, ψ, ω) [33] : A, C, B, P, G, E et O. La discrétisation <strong>de</strong> l’espace<br />
conformationnel s’opère donc en dégageant un certain nombre <strong>de</strong> représentants<br />
<strong>par</strong> domaine, calculés à <strong>par</strong>tir <strong>de</strong> conformations natives réelles observées<br />
expérimentalement.<br />
Ces représentants peuvent être calculés <strong>par</strong> résidu car la conformation <strong>de</strong><br />
chacun d’entre eux est sensiblement différente dans la réalité. Néanmois, nous<br />
avons initialement décidé d’utiliser <strong>de</strong>s représentants généraux pouvant être appliqués<br />
sur n’importe quel résidu, cela facilitant les opérations à effectuer (nous<br />
verrons plus loins que finalement, il eut été aisé <strong>de</strong> prendre <strong>de</strong>s représentants<br />
<strong>par</strong>ticuliers pour chaque résidu).<br />
Dans le cas ou seulement un représentant est disponible, il n’y aura aucun<br />
choix stochastique à effectuer. Par contre, dès que plusieurs représentants sont<br />
accessibles, il faut permettre une sélection proche <strong>de</strong> la réalité. C’est pourquoi<br />
en plus <strong>de</strong>s trois données angulaires nécessaires, un représentant contient une<br />
quatrième donnée : son nombre d’occurences. En effet, diverses conformations<br />
sont observées dans la nature et certaines d’entre-elles sont plus fréquentes que<br />
d’autres. Recherchant un maximum <strong>de</strong> réalité lors <strong>de</strong> la conception <strong>de</strong> notre<br />
modèle, il nous a <strong>par</strong>u évi<strong>de</strong>nt d’opérer un choix stochastique dépendant du<br />
nombre d’occurence <strong>de</strong> chaque représentant.<br />
Cela se fait simplement en associant à chaque triplet angulaire <strong>de</strong> chaque<br />
domaine une probabilité d’ap<strong>par</strong>ition. Cette probabilité intra-domaine se calcule<br />
simplement en divisant le nombre d’occurences du représentant considéré<br />
<strong>par</strong> la somme du nombre d’occurences <strong>de</strong> chaque représentant. En effectuant<br />
ce calcul sur chaque domaine, on obtient donc une discrétisation <strong>de</strong> l’espace<br />
conformationnel accessible.<br />
Il est important <strong>de</strong> remarquer que cette discrétisation s’opère <strong>par</strong> un système
CHAPITRE 3. NOS OUTILS ET MÉTHODES 46<br />
<strong>de</strong> coordonnées interne à la protéine. Ainsi, la représentation tridimensionnelle<br />
d’une prédiction s’obtiendra en traduisant les coordonnées (φ, ψ, ω) en coordonnées<br />
(x, y, z). Pour effectuer cette traduction, les données propres <strong>de</strong> chaque<br />
atome seront nécessaires (angle <strong>de</strong> valence et distance inter-atomique).<br />
3.3 Exploration <strong>de</strong> l’espace conformationnel<br />
Comme nous l’écrivions en début <strong>de</strong> chapitre, nous avons opté pour une<br />
métho<strong>de</strong> <strong>de</strong> recherche dérivée <strong>de</strong> la métaheuristique <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong>.<br />
Le chapitre précé<strong>de</strong>nt nous proposait un aperçu général du fonctionnement <strong>de</strong><br />
ces <strong>colonie</strong>s, examinons donc ensemble les spécificités <strong>de</strong> fonctionnement <strong>de</strong><br />
notre <strong>colonie</strong>.<br />
L’univers d’évolution <strong>de</strong> nos <strong>fourmis</strong> artificielles correspond concrètement<br />
à l’espace conformationnel accessible <strong>par</strong> la protéine, celui-ci étant discrétisé<br />
en sept domaines. La tâche <strong>de</strong> nos <strong>fourmis</strong> consistera donc à trouver une suite<br />
<strong>de</strong> domaines offrant une structure tridimensionnelle minimisant la fonction<br />
énergétique que nous découvrirons plus loin.<br />
Afin <strong>de</strong> réaliser au mieux sa tâche, une fourmi opérera une suite <strong>de</strong> choix<br />
probabilistes basés sur la quantité locale <strong>de</strong> phéromone τ ainsi que sur les valeurs<br />
heuristiques disponibles η. Une question se pose ici : à quoi faire correspondre<br />
cette valeur η ? L’idée est <strong>de</strong> trouver un indicateur permettant d’ai<strong>de</strong>r la fourmi<br />
dans son choix. Il faudrait donc disposer d’une valeur indiquant un domaine <strong>de</strong><br />
conformation à priori favorable pour un résidu donné.<br />
Heureusement, <strong>de</strong>puis quelques années, il existe à l’ULB certains projets<br />
<strong>de</strong> recherche et <strong>de</strong> prédiction correspondant exactement à nos besoins. Ces<br />
projets se nomment Prelu<strong>de</strong> et Fugue [14, 34]. Ainsi, il est possible d’obtenir, pour<br />
une séquence donnée, une séquence correspondante <strong>de</strong> domaines favorables<br />
ainsi qu’un facteur exprimant la valeur <strong>de</strong> cette correspondance. Ce facteur<br />
prend <strong>de</strong>s valeurs entières comprises entre 0 et 9 et lorsqu’il vaut 0, c’est qu’il<br />
n’y a pas <strong>de</strong> prédiction pour le résidu concerné (voir exemple ci-<strong>de</strong>ssous). Il<br />
est important <strong>de</strong> signaler que ces prédictions se basent exclusivement sur les<br />
interactions locales le long <strong>de</strong> la séquence et ne prennent pas en compte les<br />
interactions tertiaires ! La séquence <strong>de</strong> domaines fournie <strong>par</strong> ces programmes<br />
ne constitue donc généralement pas une solution convenable pour la structure<br />
tertiaire complète <strong>de</strong> la protéine mais elle est utile car elle permet <strong>de</strong> connaître<br />
les préférences individuelles <strong>de</strong> petites portions <strong>de</strong> la séquence.
CHAPITRE 3. NOS OUTILS ET MÉTHODES 47<br />
Séquence: QQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG<br />
Domaine favorable: CPBBBBGGBPPBACPBAAxCGPBPGPBBBBBBAxxxx<br />
Facteur <strong>de</strong> correspondance: 1145789996211222220467776412333320000<br />
Grâce à ces projets, nous disposons donc d’un biais inter-domaines en plus<br />
du biais intra-domaine (dû à la probabilité d’ap<strong>par</strong>ition <strong>de</strong> chaque représentant<br />
d’un domaine). Fort <strong>de</strong> cet avantage, nous avons donc décidé d’utiliser comme<br />
valeur heuristique pour un domaine, le facteur proposé <strong>par</strong> Prelu<strong>de</strong> et Fugue,<br />
quand il existe. Cela nous permet <strong>de</strong> procé<strong>de</strong>r au calcul que nous proposait<br />
l’équation du chapitre précé<strong>de</strong>nt :<br />
pij =<br />
[τij(t)] α · [ηij(t)] β<br />
k∈V(i)[τik(t)] α · [ηik(t)] β<br />
où pij représente donc la probabilité d’associer le domaine j au résidu i. Il sera<br />
donc très important <strong>de</strong> <strong>par</strong>amétrer au mieux les facteurs α et β.<br />
Maintenant que nous avons une stratégie <strong>de</strong> décision, il nous faut fixer les<br />
caractéristiques du dépôt phéromonal <strong>de</strong> nos <strong>fourmis</strong>. Cela signifie qu’il nous<br />
faut déci<strong>de</strong>r quand déposer <strong>de</strong>s phéromones et en quelle quantité.<br />
Avant d’expliquer nos choix, quelques définitions sont nécessaires. Appelons<br />
itération une recherche complète effectuée <strong>par</strong> une fourmi, c’est-à-dire qu’après<br />
une itération, une fourmi aura construit et évalué une prédiction complète et<br />
mourra. De plus, nommons cycle un nombre m d’itérations où m représente le<br />
nombre total <strong>de</strong> <strong>fourmis</strong> <strong>de</strong> la <strong>colonie</strong>. Ainsi, après un cycle, toutes les <strong>fourmis</strong><br />
auront procédé à l’élaboration et l’évaluation d’une prédiction complète. Le<br />
nombre <strong>de</strong> cycles sera une variable à définir lors <strong>de</strong> l’exécution <strong>de</strong> l’algorithme.<br />
Enfin, en se souvenant que nous travaillons dans un univers où le temps est<br />
discrétisé, nous pouvons également dire qu’un cycle se passera en une unité<br />
<strong>de</strong> temps. Cela signifie qu’un cycle commençant en (t) se terminera en (t + 1).<br />
Revenons maintenant au dépôt <strong>de</strong> phéromones.<br />
Nous avons décidé d’effectuer un dépôt offline dans le but <strong>de</strong> permettre à<br />
chaque fourmi <strong>de</strong> disposer <strong>de</strong> la même base phéromonale lors d’un cycle <strong>de</strong><br />
recherche. En effet, le dépôt offline s’effectue après un cycle entier, ce qui permet<br />
<strong>de</strong> ne pas modifier la situation initiale du cycle <strong>de</strong> recherche. Nous utilisons<br />
donc les propriétés <strong>de</strong> la discrétisation du temps, nous permettant d’effectuer<br />
une simulation d’activité simultanée <strong>de</strong> la <strong>colonie</strong> sans aucune interférence<br />
inter-fourmi. Bien entendu, certaines structures <strong>de</strong> données seront nécessaires<br />
à l’application <strong>de</strong> ce choix, nous aurons l’occasion <strong>de</strong> les découvrir au chapitre<br />
suivant.
CHAPITRE 3. NOS OUTILS ET MÉTHODES 48<br />
Outre ce dépôt phéromonal offline, nous avons également pensé à exécuter un<br />
dépôt phéromonal élitiste, c’est-à-dire <strong>de</strong> déposer <strong>de</strong>s phéromones supplémentaires<br />
pour les x meilleures conformations protéiques. Une fois <strong>de</strong> plus, x sera<br />
un <strong>par</strong>amètre à définir, <strong>de</strong> même que le facteur d’élitisme spécifiant la quantité<br />
<strong>de</strong> phéromone additionelle à déposer. Formellement, nous obtenons donc que :<br />
τij(t + 1) = ρτij(t) +<br />
m<br />
k=1<br />
∆τ k<br />
ij (t, t + 1) +<br />
e<br />
l=1<br />
∆τ l<br />
ij (t, t + 1)<br />
où e est le nombre <strong>de</strong> <strong>fourmis</strong> élitistes et m le nombre total <strong>de</strong> <strong>fourmis</strong>. Nous<br />
n’en avions pas encore <strong>par</strong>lé mais il est évi<strong>de</strong>nt qu’un taux <strong>de</strong> persistance ρ sera<br />
utilisé afin <strong>de</strong> permettre le renouvellement phéromonal et donc l’exporation <strong>de</strong><br />
l’espace conformationnel.<br />
En résumé, notre prédiction se fera au moyen d’une <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong><br />
contenant un certain pourcentage <strong>de</strong> <strong>fourmis</strong> élitistes et procédant d’une <strong>par</strong>t à<br />
un dépôt phéromonal offline et d’autre <strong>par</strong>t à un dépôt phéromonal élitiste. Les<br />
<strong>par</strong>ticularités d’implémentations seront explorées au prochain chapitre.<br />
3.4 Fonction énergétique utilisée<br />
Dans le cadre <strong>de</strong> ce mémoire, nous utiliserons une classe <strong>de</strong> fonctions énergétiques<br />
appelée potentiels statistiques. Ces potentiels sont dérivés <strong>de</strong> bases <strong>de</strong><br />
données <strong>de</strong> protéines dont les structures natives sont connues [35]. Dans notre<br />
étu<strong>de</strong>, nous avons décidé d’utiliser <strong>de</strong>ux types <strong>de</strong> potentiels : les potentiels <strong>de</strong><br />
torsion entre petits éléments <strong>de</strong> structure et les potentiels <strong>de</strong> distance entre petits<br />
éléments <strong>de</strong> séquence.<br />
3.4.1 Les potentiels <strong>de</strong> torsion<br />
Les potentiels <strong>de</strong> torsion décrivent exclusivement les interactions locales<br />
le long <strong>de</strong> la chaîne principale et sont donc lié à la prédiction <strong>de</strong> structures<br />
secondaires telles que <strong>de</strong>s hélices-α. Chaque potentiel porte un nom différent où<br />
s signifie résidu <strong>de</strong> la séquence et t signifie domaine <strong>de</strong> torsion. Ces potentiels<br />
mesurent l’adéquation <strong>de</strong>s données qui leurs sont fournies. Si cette adéquation<br />
est bonne, l’énergie correspondante sera basse.<br />
Par exemple, le potentiel st0 mesure l’adéquation entre la nature d’un résidu<br />
donné et le domaine prédit pour ce résidu ou pour un résidu voisin. Prenons le
CHAPITRE 3. NOS OUTILS ET MÉTHODES 49<br />
cas <strong>de</strong> l’aci<strong>de</strong> aminé nommé alanine. S’il se trouve en position 5 dans la séquence<br />
et qu’en position 7, le domaine prédit est P, alors l’énergie fournie <strong>par</strong> le potentiel<br />
st0 vaudra 0.114887. Par contre si le domaine prédit avait été A, l’énergie aurait<br />
été <strong>de</strong> -0.111486.<br />
Il faudra donc effectuer ces calculs le long <strong>de</strong> toute la séquence <strong>de</strong> la protéine.<br />
Toutefois, au vu du caractère local <strong>de</strong>s potentiels <strong>de</strong> torsion, la fenêtre d’exploration<br />
autour du résidu <strong>de</strong> base sera <strong>de</strong> 8 résidus dans la séquence. Dans le cas<br />
du potentiel st0, on évaluera donc l’adéquation entre un résidu en position i<br />
<strong>de</strong> la séquence et une prédiction <strong>de</strong> domaine en position j <strong>de</strong> la séquence, avec<br />
−8 ≤ (j − i) ≤ 8.<br />
Les potentiels <strong>de</strong> torsion que nous utiliserons sont les suivants :<br />
– st0, qui mesure l’adéquation entre le résidu positionné en i et le domaine<br />
prédit en position j ;<br />
– stt1, qui mesure l’adéquation entre le résidu positionné en i, le domaine<br />
prédit en position j et le domaine prédit en position k ;<br />
– tss1, qui mesure l’adéquation entre le domaine prédit en position i, le<br />
résidu positionné en j et le résidu positionné en k ;<br />
– tt0, qui mesure l’adéquation entre les domaines prédits en position i et j ;<br />
– ttt1, qui mesure l’adéquation entre les domaines prédits en position i, j et<br />
k.<br />
Le lecteur attentif aura remarqué une redondance <strong>de</strong> calcul dans les potentiels tt0<br />
et ttt1. En effet, pour le potentiel tt0 (mais cela est transposable pour le potentiel<br />
ttt1), qu’on aie les domaines P et B respectivement en position 2 et 4 ou l’inverse<br />
revient exactement au même calcul ! Ainsi, pour ces <strong>de</strong>ux potentiels, le calcul ne<br />
s’effectuera que sur une fenêtre positive, c’est-à-dire pour les 8 résidus voisins<br />
<strong>de</strong> droite dans le sens <strong>de</strong> lecture <strong>de</strong> la séquence <strong>de</strong> la protéine. Il sera encore<br />
temps <strong>de</strong> ré<strong>par</strong>tir ce potentiel énergétique intelligemment, nous y reviendrons<br />
au chapitre suivant .<br />
3.4.2 Les potentiels <strong>de</strong> distance<br />
Nous le découvrions dans l’introduction, la création <strong>de</strong> la structure tertiaire<br />
d’une protéine est principalement due aux interactions entre résidus distants<br />
dans la séquence mais proches dans l’espace. Les potentiels <strong>de</strong> distance sont<br />
donc un moyen <strong>de</strong> mesurer la contribution <strong>de</strong> telles interactions.<br />
Dans ce cas-ci, il est tout à fait possible que <strong>de</strong>s résidus espacés <strong>par</strong> plus <strong>de</strong><br />
8 autres résidus dans la séquence se retrouvent rapprochés dans l’espace. Nous
CHAPITRE 3. NOS OUTILS ET MÉTHODES 50<br />
effectuerons donc ce calcul pour chaque résidu <strong>par</strong> rapport à toute la séquence à<br />
l’exception <strong>de</strong> ses <strong>de</strong>ux voisins directs dans la séquence, qui lui seront forcément<br />
très proche dans l’espace. Par contre, si les résidus considérés sont distants dans<br />
l’espace <strong>de</strong> plus <strong>de</strong> 8Å, on considèrera qu’il n’y a tout simplement aucune<br />
interaction.<br />
L’énergie calculée dépend donc <strong>de</strong> la nature <strong>de</strong>s <strong>de</strong>ux résidus ainsi que <strong>de</strong><br />
leur distance spatiale, mais aussi <strong>de</strong> leurs positions relatives dans la séquence.<br />
Par exemple, si nous avons une alanine en position 5 et une proline en position 8,<br />
l’énergie ne sera pas la même que pour une alanine en position 5 et une proline<br />
en position 9 présentant la même distance spatiale.<br />
Remarquons tout <strong>de</strong> même que lorsque les <strong>de</strong>ux résidus considérés sont<br />
éloignés <strong>de</strong> plus <strong>de</strong> 8 résidus dans la séquence, le potentiel calculera une valeur<br />
énergétique dépendant uniquement du type <strong>de</strong> résidu considéré et <strong>de</strong> la distance<br />
spatiale. La distance dans la séquence ne sera donc plus prise en compte. Par<br />
exemple, admettons que le résidus 5 soit toujours une alanine et que les résidus 24<br />
et 65 soient <strong>de</strong>s leucine. Si l’on considère les résidus 8 et 24 spatialement distants<br />
<strong>de</strong> 3Å et les résidus 8 et 65 également distants <strong>de</strong> 3Å, le potentiel énergétique<br />
calculé sera le même.<br />
Nous utiliserons <strong>de</strong>ux potentiels <strong>de</strong> distance : ds0 et ds1. Le potentiel ds0<br />
mesure l’adéquation entre la présence d’un résidu <strong>par</strong>ticulier en position i <strong>de</strong> la<br />
séquence et un résidu quelconque en position j présentant une certaine distance<br />
spatiale avec le résidu i. D’un autre côté, le potentiel ds1 effectue le même calcul<br />
mais avec un résidu défini en position j.<br />
Par exemple, prenons le cas où le résidu 5 est une alanine et le résidu 8 une<br />
proline, ces <strong>de</strong>ux résidus étant sé<strong>par</strong>é <strong>par</strong> 4Å. Le potentiel ds1 calculerait une<br />
valeur énergétique <strong>de</strong> 0.031414 et le potentiel ds0 une valeur énergétique <strong>de</strong><br />
0.397226. Si <strong>par</strong> contre le résidu 8 était une valine, la valeur prise <strong>par</strong> le potentiel<br />
ds1 serait différente, mais pas celle prise <strong>par</strong> le potentiel ds0.<br />
A nouveau, comme pour les potentiels tt0 et ttt1 remarquons que le potentiel<br />
ds1 offre un certain niveau <strong>de</strong> redondance, ce qui permet <strong>de</strong> réduire les calculs.<br />
3.4.3 Utilisation combinée <strong>de</strong>s potentiels<br />
Notre espoir est que l’utilisation combinée <strong>de</strong> ces <strong>de</strong>ux types <strong>de</strong> potentiels<br />
permette la prédiction <strong>de</strong> structures secondaires tout en prenant en compte les<br />
interactions tertiaires. Ainsi, la protéine prédite <strong>de</strong>vrait avoir un <strong>de</strong>gré <strong>de</strong> similitu<strong>de</strong><br />
plus important avec la structure tidimensionnelle réelle d’une protéine
CHAPITRE 3. NOS OUTILS ET MÉTHODES 51<br />
que dans le cas ou seuls les potentiels <strong>de</strong> torsion seraient pris en compte.<br />
3.5 Evaluation <strong>de</strong> nos solutions<br />
Afin d’évaluer nos solutions, nous procé<strong>de</strong>rons au calcul du RMSD (Root<br />
Mean Square Deviation) sur les atomes Cα <strong>de</strong> nos protéines prédites. Pour rappel,<br />
ce calcul permet <strong>de</strong> mesurer les différences <strong>de</strong> position entre <strong>de</strong>ux structures<br />
données. Nous procè<strong>de</strong>rons donc à un jeu <strong>de</strong> test sur un fragment <strong>de</strong> protéine<br />
dont la structure native est déjà connue.<br />
Nous découvrirons également dans quelle mesure notre algorithme trouve<br />
<strong>de</strong>s conformations d’énergie libre minimale et profiterons <strong>de</strong> l’occasion pour<br />
faire une com<strong>par</strong>aison entre les énergies obtenues et les RMSD correspondants.<br />
3.6 Récapitulatif<br />
Nous venons <strong>de</strong> découvrir l’ensemble <strong>de</strong>s outils que nous utiliserons pour<br />
procé<strong>de</strong>r à la prédiction <strong>de</strong> la structure native <strong>de</strong> protéines. Dans le chapitre<br />
suivant, nous allons découvrir les spécificités <strong>de</strong> l’algorithme que nous avons<br />
développé avant d’en découvrir les tests et les résultats. Ce chapitre présentera<br />
les diverses <strong>par</strong>ticularités d’implémentation <strong>de</strong>s outils utilisés.
Chapitre 4<br />
Notre algorithme : AC-ProPre<br />
Dans ce chapitre, nous allons passer en revue les spécificités d’implémentation<br />
<strong>de</strong>s outils découverts au chapitre précé<strong>de</strong>nt. Notre algorithme, AC-ProPre<br />
(Ant Colony for Protein Prediction), ayant été réalisé en C++, nous structurerons<br />
ce chapitre à l’image du co<strong>de</strong> source, c’est-à-dire classe <strong>par</strong> classe. Nous commencerons<br />
donc <strong>par</strong> explorer l’implémentation <strong>de</strong> la discrétisation <strong>de</strong> l’espace<br />
conformationnel pour ensuite découvrir la manière dont les potentiels énergétiques<br />
sont codés et utilisés. Enfin, nous nous pencherons sur la représentation<br />
<strong>de</strong>s protéines ainsi que sur les divers calculs nécessaires à l’élaboration <strong>de</strong> la<br />
prédiction. Pour finir nous découvrirons évi<strong>de</strong>mment la manière <strong>de</strong> fonctionner<br />
<strong>de</strong> nos <strong>fourmis</strong> artificielles.<br />
4.1 L’espace conformationnel<br />
Le co<strong>de</strong> source <strong>de</strong> cette section se trouve dans les fichiers domaine.h et domaine.cc.<br />
Comme nous l’avons maintes fois signalé, nous travaillons dans l’espace<br />
(φ, ψ, ω) pouvant être représenté en sept domaines : A, C, B, P, G, E et O. Il<br />
y aura donc une instance <strong>de</strong> la classe domaine pour chaque domaine utilisé.<br />
Un domaine contient <strong>de</strong>s représentants. Comme nous l’expliquions au chapitre<br />
précé<strong>de</strong>nt, nous avons choisi <strong>de</strong> travailler avec <strong>de</strong>s représentants communs,<br />
c’est-à-dire appliquables à chaque résidu. Néanmoins, une amélioration relativement<br />
simple à implémenter serait <strong>de</strong> considérer <strong>de</strong>s représentants propres à<br />
la nature du résidu, cela pourra être fait dans une version ultérieure <strong>de</strong> notre<br />
algorithme.<br />
Les représentants proviennent <strong>de</strong> fichiers source nommés cah_rama_141_x<br />
52
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 53<br />
où x représente le nombre <strong>de</strong> représentants effectifs <strong>par</strong> domaine. Il est donc<br />
possible <strong>de</strong> travailler avec un nombre <strong>de</strong> représentants variable. Il est évi<strong>de</strong>nt<br />
qu’un nombre <strong>de</strong> représentants élevé permettra une prédiction plus proche <strong>de</strong><br />
la réalité.<br />
Chaque représentant est caractérisé <strong>par</strong> un triplet angulaire et un nombre<br />
d’occurences. C’est au moyen <strong>de</strong> ce nombre d’occurence que nous calculons la<br />
probabilité <strong>de</strong> sélection d’un représentant <strong>par</strong>ticulier. Pour calculer cette probabilité,<br />
il nous suffit <strong>de</strong> diviser le nombre d’occurences <strong>de</strong> chaque représentant<br />
<strong>par</strong> le nombre d’occurences totale d’un domaine. Ainsi, nous obtenons un modèle<br />
probabiliste cohérent où la somme <strong>de</strong>s probabilités d’ap<strong>par</strong>ition <strong>de</strong> chaque<br />
représentant vaut 1.<br />
Afin <strong>de</strong> permettre un choix aléatoire rapi<strong>de</strong> pour la sélection <strong>de</strong> représentants,<br />
nous construisons un vecteur d’intervalle <strong>de</strong> probabilité proportionnel à<br />
la probabilité d’ap<strong>par</strong>ition <strong>de</strong> chaque représentant. Ainsi, à chaque fois qu’un<br />
représentant <strong>de</strong>vra être sélectionné, il suffira <strong>de</strong> tirer aléatoirement un nombre<br />
entre 0 et 1 et <strong>de</strong> choisir le représentant dont l’intervalle contient ce nombre<br />
aléatoire.<br />
Nous voilà donc avec un espace conformationnel discrétisé. Pour obtenir un<br />
représentant, il nous suffira d’appeler la fonction getRepresentant().<br />
4.2 Les potentiels énergétiques<br />
Chaque potentiel énergétique utilisé est fourni sur fichier texte. Sachant qu’il<br />
existe vingt types d’aci<strong>de</strong>s aminés et sept domaines, ce n’est pas une surprise<br />
d’apprendre que le fichier potentiel le plus lourd (tss1) fait 6,1 Mo. Au vu du<br />
nombre d’accès nécessaires au calcul <strong>de</strong> l’énergie libre d’une conformation, il<br />
est évi<strong>de</strong>nt qu’il faut trouver un moyen <strong>de</strong> stockage en mémoire vive pour ces<br />
données vitales.<br />
Malheureusement, les potentiels sont tels qu’un gaspillage significatif <strong>de</strong> la<br />
mémoire vive aurait lieu si nous utilisions simplement <strong>de</strong>s matrices multidimensionnelles<br />
pour le stockage <strong>de</strong> leurs données. De plus, chaque potentiel a<br />
<strong>de</strong>s caractéristiques propres qui empêchent la création d’une métho<strong>de</strong> générale<br />
automatique <strong>de</strong> stockage et d’accès. Toutefois, un concept commun peut-être dégagé<br />
: l’idée est <strong>de</strong> stocker les valeurs énergétiques d’un potentiel dans un simple<br />
vecteur <strong>de</strong> données et <strong>de</strong> développer <strong>par</strong>allèllement une métho<strong>de</strong> d’accès à ce<br />
vecteur basée sur les <strong>par</strong>amètres nécessaires au calcul du potentiel énergétique.
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 54<br />
Nous avons donc développé, pour chaque potentiel, un calcul <strong>de</strong> l’espace nécessaire<br />
pour le stockage <strong>de</strong>s énergies ainsi que la métho<strong>de</strong> d’accès à cet espace.<br />
Le problème était simple : trouver l’in<strong>de</strong>x dans le vecteur correspondant aux<br />
<strong>par</strong>amètres <strong>de</strong> calcul du potentiel afin <strong>de</strong> retourner la bonne valeur énergétique.<br />
Il était donc nécessaire d’attribuer à chaque domaine ainsi qu’à chaque aci<strong>de</strong><br />
aminé un numéro d’i<strong>de</strong>ntification unique.<br />
Ainsi, afin d’éviter toute erreur <strong>de</strong> manipulation ou <strong>de</strong> conversion, les fonctions<br />
communes ddTOint() et aaTOint() sont un point <strong>de</strong> passage obligé convertissant<br />
un domaine (respectivement un aci<strong>de</strong> aminé) en nombre entier. Il est<br />
évi<strong>de</strong>nt que ces nombres sont une suite croissante commencant à 0. Dans le cas<br />
<strong>de</strong>s potentiels <strong>de</strong> distances, une fonction similaire a été prévue afin <strong>de</strong> convertir<br />
la distances spatiale entre <strong>de</strong>ux résidus.<br />
Par ailleurs, afin <strong>de</strong> généraliser l’utilisation <strong>de</strong> notre algorithme, nous avons<br />
tenu compte <strong>de</strong> l’éventuelle modification <strong>de</strong> la taille <strong>de</strong> la fenêtre. Pour rappel,<br />
cette fenêtre délimite l’espace possible entre <strong>de</strong>ux positions <strong>de</strong> la séquence pour<br />
le calcul d’un potentiel. Dans notre cas, comme présenté au chapitre précé<strong>de</strong>nt,<br />
cette fenêtre vaut 8.<br />
Finalement, nous avons obtenu <strong>de</strong>s vecteurs <strong>de</strong> taille optimale <strong>par</strong> rapport<br />
aux spécificités <strong>de</strong>s fonctions potentiels et ce pour un coût <strong>de</strong> calcul supplémentaire<br />
négligeable. En effet, si nous avions travaillé avec <strong>de</strong>s matrices multidimensionnelles,<br />
le calcul d’in<strong>de</strong>x automatique aurait été com<strong>par</strong>able, mais nous<br />
aurions gaspillé beaucoup d’espace mémoire.<br />
Nous pouvons donc conclure en nous réjouissant <strong>de</strong> disposer <strong>de</strong> fonctions <strong>de</strong><br />
calcul <strong>de</strong> potentiel simples. Par exemple, un simple appel à la fonction getDs0()<br />
avec les <strong>par</strong>amètres nécessaires nous retournera le potentiel énergétique associé.<br />
Bien entendu, cet exemple se transpose à chaque potentiel utilisé.<br />
4.3 La structure et les calculs effectués sur les protéines<br />
Maintenant que nous savons comment obtenir un représentant <strong>de</strong> domaine<br />
ainsi qu’un potentiel énergétique, nous pouvons nous attaquer à la structure <strong>de</strong><br />
la protéine proprement dite.
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 55<br />
4.3.1 La structure protéique tridimensionnelle<br />
Avant toute chose, il est important <strong>de</strong> faire une petite précision en ce qui<br />
concerne les angles <strong>de</strong> torsion φ, ψ et ω. Comme nous le savons, ce sont eux qui<br />
détermineront la conformation d’un résidu. Plus précisément, la conformation<br />
du résidu sera calculée sur base <strong>de</strong> ces trois angles ! En effet, au repos, ces angles<br />
<strong>de</strong> torsion ne sont pas nuls. C’est pourquoi nous avons besoin <strong>de</strong>s données<br />
primaires sur ces angles afin d’en calculer la valeur réelle.<br />
Par exemple, considérons l’angle φ. La valeur prise <strong>par</strong> cet angle influe<br />
directement sur la position <strong>de</strong>s atomes C, Cβ et Cµ. Mais concrètement, l’angle φ<br />
proposé <strong>par</strong> les représentants nous donne la valeur <strong>de</strong> l’angle <strong>de</strong> rotation pour<br />
l’atome C. Il nous faudra donc ensuite mettre à jour les donnée <strong>de</strong>s atomes Cβ et<br />
Cµ. Cela se fait assez facilement grâce aux formules suivantes où T 0<br />
X représente<br />
l’angle <strong>de</strong> torsion initial <strong>de</strong> l’atome X du résidu et TX représente son angle réel :<br />
et donc :<br />
TC − T 0<br />
C = TCβ − T0<br />
Cβ<br />
(TC − T 0<br />
C ) + T0 = TCβ Cβ<br />
A <strong>par</strong>tir <strong>de</strong> l’angle φ, qui n’est autre que l’angle <strong>de</strong> torsion réel <strong>de</strong> C, nous<br />
obtenons donc un écart qu’il nous suffira d’ajouter à l’angle <strong>de</strong> torsion initial <strong>de</strong><br />
Cβ afin d’obtenir son angle <strong>de</strong> torsion réel .<br />
En ce qui concerne l’atome Cµ, le calcul est com<strong>par</strong>able à cette différence<br />
près que <strong>de</strong> <strong>par</strong> son statut <strong>par</strong>ticulier, le Cµ possè<strong>de</strong> un angle <strong>de</strong> torsion différent<br />
pour chaque résidu. C’est d’ailleurs le moment <strong>de</strong> rappeler l’exception du résidu<br />
glycine qui n’a pas <strong>de</strong> chaîne latérale conséquente et pour lequel l’angle <strong>de</strong><br />
rotation du Cµ vaut forcément 0 !<br />
En conclusion, certaines données extérieures seront nécessaires au calcul <strong>de</strong><br />
la structure tridimensionnelle <strong>de</strong> la protéine :<br />
– les angles <strong>de</strong> valence et <strong>de</strong> torsion <strong>de</strong> tous les atomes <strong>de</strong> la chaîne principale<br />
;<br />
– les distances inter-atomiques <strong>de</strong> chaque atome <strong>de</strong> la caîne principale ;<br />
– les données <strong>par</strong>ticulières concernant l’atome Cµ <strong>de</strong> chaque résidu.<br />
Nous aurons également besoin du fameux rayon <strong>de</strong> van <strong>de</strong>r Waals <strong>de</strong>s atomes<br />
Cµ afin <strong>de</strong> détecter la présence <strong>de</strong> collisions dans nos prédictions. Ces données<br />
se trouvent dans les fichiers levitt.in pour le Cµ et dans donneeAtome.h pour les<br />
autres atomes.
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 56<br />
Maintenant que ces subtilités sont acquises, nous pouvons examiner la représentation<br />
<strong>de</strong> la structure d’une protéine utilisée <strong>par</strong> notre programme. Notre<br />
idée générale était <strong>de</strong> permettre un accès direct et rapi<strong>de</strong> aux divers éléments nécessaires<br />
à l’obtention d’une structure protéique <strong>par</strong>ticulière. Nous avons donc<br />
stocké toutes ces informations dans <strong>de</strong>s vecteurs similaires, basés sur le nombre<br />
<strong>de</strong> résidus composant la protéine. Ainsi, avec un numéro d’in<strong>de</strong>x unique <strong>par</strong><br />
résidu, nous avons la possiblité d’accè<strong>de</strong>r directement à l’information nous intéressant<br />
dans chaque structure <strong>de</strong> données concernant ce résidu.<br />
Ces vecteurs nous permettent donc <strong>de</strong> retrouver instantanément et pour<br />
chaque résidu, la nature du résidu, le domaine <strong>de</strong> conformation dans lequel il se<br />
trouve, le représentant choisis dans ce domaine et les angles φ, ψ et ω proposé<br />
<strong>par</strong> ce représentant. De plus, lorsque les calculs énergétiques et tridimensionnels<br />
auront eu lieu, nous pourrons accé<strong>de</strong>r à la valeur énergétique <strong>de</strong> la protéine<br />
prédite ainsi qu’à sa structure tridimensionelle en coordonnées x, y et z. La<br />
section suivante donnes quelques explications à propos <strong>de</strong> ces calculs.<br />
4.3.2 Les métho<strong>de</strong>s <strong>de</strong> calcul<br />
Afin <strong>de</strong> pouvoir procé<strong>de</strong>r à la com<strong>par</strong>aison <strong>de</strong>s diverses prédictions réalisées<br />
<strong>par</strong> nos <strong>fourmis</strong> artificielles, il sera nécessaire <strong>de</strong> connaître la structure tridimensionnelle<br />
prédite pour la protéine et l’énergie libre qui lui est associée. Il y aura<br />
donc principalement <strong>de</strong>ux calculs à effectuer :<br />
1. la construction <strong>de</strong> la structure tridimensionnelle prédite pour la protéine ;<br />
2. le calcul <strong>de</strong> l’énergie libre <strong>de</strong> cette conformation.<br />
D’autres calculs tels que la distance spatiale sé<strong>par</strong>ant <strong>de</strong>ux points ou la présence<br />
<strong>de</strong> collisions inter-atomiques dans la séquence seront à effectuer mais <strong>de</strong> <strong>par</strong><br />
leur simplicité, nous ne nous y étendrons pas.<br />
La construction <strong>de</strong> la structure tridimensionnelle<br />
Le but du calcul est très simple : construire la structure tridimensionnelle <strong>de</strong><br />
la protéine à <strong>par</strong>tir <strong>de</strong>s angles φ, ψ et ω <strong>de</strong> chacun <strong>de</strong> ses résidus. Ce calcul s’effectue<br />
au moyen <strong>de</strong> matrices <strong>de</strong> rotation permettant <strong>de</strong> calculer les coordonnées<br />
spatiales d’un point en fonction :<br />
– <strong>de</strong>s coordonnées du point le précédant ;<br />
– <strong>de</strong> la distance sé<strong>par</strong>ant ces <strong>de</strong>ux points ;
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 57<br />
– <strong>de</strong> <strong>de</strong>ux angles caractérisant les mouvements à effectuer (dans notre cas,<br />
il s’agit <strong>de</strong>s angles <strong>de</strong> torsion et <strong>de</strong> valence <strong>de</strong> l’atome considéré que nous<br />
avons défini respectivement aux pages 11 et 44).<br />
Dans notre cas, nous fixerons toujours les coordonnées spatiales du premier<br />
atome du premier résidu à (0,0,0). De plus, nous supposerons que la structure<br />
évolue sur l’axe <strong>de</strong>s x pour le calcul du second point. Cette situation initiale<br />
étant définie, la suite <strong>de</strong>s calculs pourra se passer itérativement.<br />
Il est intéressant <strong>de</strong> remarquer qu’une fois les calculs effectués pour un<br />
atome, il est possible <strong>de</strong> dégager une matrice contenant toutes les informations<br />
géométriques nécessaires concernant cet atome. En sauvegardant cette matrice,<br />
il sera donc possible <strong>de</strong> recommencer le calcul à <strong>par</strong>tir d’un certain point <strong>de</strong> la<br />
structure, ce qui évitera <strong>de</strong> <strong>de</strong>voir recalculer toutes les coordonnées <strong>de</strong> tous les<br />
atomes dans le cas où un résidu viendrait à changer <strong>de</strong> conformation.<br />
Nous effectuerons donc une sauvegar<strong>de</strong> <strong>de</strong> cette matrice exclusivement pour<br />
les atomes C <strong>de</strong> chaque résidu. En effet, lorsqu’un résidu change <strong>de</strong> conformation,<br />
c’est chacun <strong>de</strong> ses angles <strong>de</strong> torsion qui prend une nouvelle valeur. Il est<br />
donc inutile <strong>de</strong> conserver les matrices internes d’un résidu.<br />
Nous avons donc ajouté un vecteur supplémentaire dans la représentation<br />
<strong>de</strong> nos protéines, permettant <strong>de</strong> recommencer une construction <strong>de</strong> structure<br />
tridimentionnelle au dé<strong>par</strong>t d’un point <strong>par</strong>ticulier.<br />
Cela sera <strong>par</strong>ticulièrement intéressant dans le cas où une collision interatomique<br />
sera découverte. En effet, lorsqu’une nouvelle conformation réaliste<br />
sera trouvée pour ce résidu, la reconstruction tridimentionnelle pourra recommencer<br />
non pas au début mais bien sur le résidu précédant directement celui<br />
nouvellement modifié ! Le gain <strong>de</strong> temps sera donc significatif, d’autant plus<br />
que l’espace mémoire supplémentaire requis <strong>par</strong> cette opération est minime !<br />
Le calcul <strong>de</strong> l’énergie libre d’une conformation prédite<br />
Ce calcul s’effectue sur base <strong>de</strong>s valeurs retournées <strong>par</strong> les potentiels énergétiques.<br />
Il nous faudra donc faire appel aux bonnes fonctions avec les bons<br />
<strong>par</strong>amètres, ce qui est aisé vu la structure <strong>de</strong> stockage <strong>de</strong>s données utilisée. Par<br />
contre, un calcul mons évi<strong>de</strong>nt est celui <strong>de</strong> la ré<strong>par</strong>tition <strong>de</strong>s énergies. En effet,<br />
lors du chapitre précé<strong>de</strong>nt, nous avons soulevé le point <strong>de</strong> la ré<strong>par</strong>tition <strong>de</strong>s<br />
énergies potentielles calculées lorsqu’un potentiel présente <strong>de</strong>s redondances.<br />
Pour reprendre l’exemple <strong>de</strong> la page 49 dans le cas du potentiel tt0 (mais cela est<br />
transposable pour le potentiel ttt1), qu’on aie les domaines P et B respectivement
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 58<br />
en position 2 et 4 ou l’inverse revient exactement au même calcul !<br />
Dés lors, il suffira en fait <strong>de</strong> reporter ce potentiel sur chaque résidus concerné,<br />
dans notre exemple les résius 2 et 4. Ce type <strong>de</strong> redondance se présente concrètement<br />
pour les potentiels tt0, ttt1 et ds1. Toutefois, un autre type <strong>de</strong> ré<strong>par</strong>tition,<br />
quelque peu plus subtil, doit également être effectué ! Pour bien comprendre ce<br />
nouveau problème, quelques précisions sont nécessaires.<br />
Lors <strong>de</strong> la prédiction <strong>de</strong> structure native <strong>de</strong> protéine, la séquence source est<br />
bien évi<strong>de</strong>mment une donnée immuable. Par contre, la prédiction <strong>de</strong> la conformation<br />
adoptée <strong>par</strong> chaque résidu changera tout au long <strong>de</strong> la recherche. De<br />
plus, pour définir si une conformation est intéressante ou non, nous procédons<br />
à l’évaluation <strong>de</strong> celle-ci au travers <strong>de</strong>s potentiels <strong>de</strong> torsion, entre-autres. Ces<br />
potentiels expriment dans quelle mesure il est intéressant d’avoir une prédiction<br />
<strong>de</strong> domaine <strong>par</strong>ticulière pour un résidu <strong>par</strong>ticulier.<br />
Ainsi, lorsque nous procédons <strong>par</strong> exemple au calcul du potentiel st0 qui<br />
mesure l’adéquation entre le résidu positionné en i et le domaine prédit pour<br />
un résidu en position j, une question se pose : à quel résidu attribuer l’énergie<br />
calculée ? C’est <strong>de</strong> cette question que provient le nouveau type <strong>de</strong> ré<strong>par</strong>tition<br />
que nous venons <strong>de</strong> soulever. Toujours dans le cas du potentiel st0, l’énergie<br />
sera attribuée au résidu <strong>de</strong> position j car c’est bien le domaine prédit qui doit<br />
être évalué et non la nature du résidu en position i <strong>de</strong> la séquence, qui <strong>de</strong> toute<br />
façon ne changera jamais. Le même raisonnement est applicable dans le cas <strong>de</strong>s<br />
potentiels stt1 et tss1.<br />
Pour rappel, le potentiel stt1 mesure l’adéquation entre le résidu positionné<br />
en i, le domaine prédit en position j et le domaine prédit en position k. L’énergie<br />
calculée sera ré<strong>par</strong>tie sur les <strong>de</strong>ux résidus j et k qui présente une prédiction<br />
<strong>par</strong>ticulière. En ce qui concerne le potentiel tss1, qui mesure l’adéquation entre<br />
le domaine prédit en position i, le résidu positionné en j et le résidu positionné<br />
en k, l’entièreté <strong>de</strong> l’énergie calculée sera reportée sur le résidu positionné en i<br />
dans la séquence.<br />
Une <strong>de</strong>rnière remarque concerne la valeur <strong>de</strong>s énergies retournées <strong>par</strong> les<br />
différents potentiels. En effet, certains retourneront facilement <strong>de</strong>s valeurs fortement<br />
négative lors même que d’autres seront plus difficiles à minimiser. Nous<br />
avons donc décidé <strong>de</strong> sous pondérer les valeurs retournées <strong>par</strong> les potentiels<br />
tt0 et ttt1. En effet, ces <strong>de</strong>rniers sont facilement minimisables et la valeur énergétique<br />
qu’ils calculent pourrait être telle que l’impact <strong>de</strong>s autres calculs <strong>de</strong><br />
potentiels pourrait être négligeable. Nous nous retrouverions donc dans le cas<br />
d’une prédiction où seules les interactions locales seraient prise en compte, ce
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 59<br />
que nous souhaitons éviter.<br />
4.4 La <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong><br />
Nous voici arrivé à la classe maîtresse <strong>de</strong> notre algorithme : la <strong>colonie</strong> <strong>de</strong><br />
<strong>fourmis</strong>. C’est en effet ici que les différentes pièces du puzzle s’assemblent afin<br />
<strong>de</strong> permettre la prédiction <strong>de</strong> la structure native <strong>de</strong> la protéine étudiée. Pour<br />
commencer, examinons les <strong>par</strong>amètres requis <strong>par</strong> la <strong>colonie</strong> :<br />
– le nombre d’itération maximale, critère <strong>de</strong> terminaison principal ;<br />
– le nombre <strong>de</strong> <strong>fourmis</strong> qui <strong>par</strong>ticiperont à la recherche ;<br />
– le nombre <strong>de</strong> <strong>fourmis</strong> d’élite et le facteur d’élitisme indiquant le <strong>de</strong>gré<br />
d’élitisme souhaité ;<br />
– les <strong>par</strong>amètres <strong>de</strong> calcul probabilistes fondamentaux α, β et ρ ;<br />
– enfin, le nombre maximum d’itérations acceptées sans modification substancielle<br />
<strong>de</strong> la meilleure solution et une valeur quantitative représentant<br />
cette amélioration minimale. Ces <strong>de</strong>ux <strong>par</strong>amètres constituent un critère<br />
<strong>de</strong> terminaison anticipée.<br />
Le lecteur s’en sera certainement rendu compte, le nombre <strong>de</strong> <strong>par</strong>amètres attendu<br />
est assez important. Par ailleurs, la question se pose <strong>de</strong> savoir quelle valeur<br />
donner à chacun <strong>de</strong> ces <strong>par</strong>amètres. Nous voici donc confronté au problème <strong>de</strong> la<br />
<strong>par</strong>amétrisation dont nous <strong>par</strong>lions au chapitre <strong>de</strong>ux. Concrètement, il n’existe<br />
aucune configuration prédéfine générale, il faut donc procé<strong>de</strong>r à une multitu<strong>de</strong>s<br />
<strong>de</strong> tests pour espérer dégager un comportement <strong>par</strong>ticulier <strong>de</strong> l’algorithme en<br />
fonction du problème à solutionner. Nous reviendrons sur ces tests au chapitre<br />
suivant.<br />
Examinons maintenant les structures <strong>de</strong> données internes. La mémoire <strong>de</strong><br />
la <strong>colonie</strong>, c’est à dire l’ensemble <strong>de</strong>s phéromones déposées <strong>par</strong> toutes les <strong>fourmis</strong><br />
<strong>de</strong> la <strong>colonie</strong>, se trouve stockée sous forme <strong>de</strong> matrice tridimensionnelle que<br />
nous appellerons matrice phéromonale globale. Ainsi, la mise à jour et l’évaporation<br />
phéromonale peuvent s’effectuer assez simplement. Par ailleurs, l’intégralité <strong>de</strong><br />
l’espace matriciel est potentiellement utilisé : chaque résidu peut adopter une<br />
conformation propre à un <strong>de</strong>s 7 domaines et chaque domaine aura le même<br />
nombre fixe <strong>de</strong> représentant. Nous obtenons donc une matrice <strong>de</strong> r ∗ 7 ∗ R où r<br />
représente le nombre <strong>de</strong> résidus <strong>de</strong> la séquence et R donne le nombre <strong>de</strong> représentant<br />
<strong>par</strong> domaine. Parallèlement à cette matrice, nous avons stocké les valeurs<br />
heuristiques dans un vecteur. Pour rappel, ces valeurs heuristiques permettront
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 60<br />
aux <strong>fourmis</strong> <strong>de</strong> s’orienter préférablement vers un domaine en <strong>par</strong>ticulier.<br />
Dès lors, au dé<strong>par</strong>t <strong>de</strong> ces <strong>de</strong>ux sources <strong>de</strong> données, il nous est possible<br />
<strong>de</strong> calculer la matrice <strong>de</strong> probabilité générale qui sera utilisée <strong>par</strong> les fourmi.<br />
En effet, nous effectuerons ce calcul à chaque début <strong>de</strong> cycle (pour rappel, un<br />
cycle est constitué <strong>de</strong> m itérations où m représente le nombre total <strong>de</strong> fourmi<br />
<strong>de</strong> la <strong>colonie</strong> et où une itération consiste en la prédiction et l’évaluation d’une<br />
conformation complète <strong>par</strong> une fourmi).<br />
De plus, comme nous le disions précédament, nous avons décidé <strong>de</strong> procé<strong>de</strong>r<br />
à une mise à jour phéromonale offline. Nous auront donc besoin d’une matrice<br />
<strong>de</strong> stockage temporaire afin <strong>de</strong> simuler la simultanéité <strong>de</strong> recherche <strong>de</strong>s <strong>fourmis</strong>.<br />
Ainsi, à la fin d’un cycle, nous disposerons d’une matrice contenant la totalité<br />
<strong>de</strong>s phéromones déposées pas nos <strong>fourmis</strong>.<br />
Par ailleurs, afin <strong>de</strong> procé<strong>de</strong>r à la mise à jour phéromonale élitiste, les<br />
meilleurs solutions seront conservées jusqu’à la fin d’un cycle. Il sera ensuite<br />
temps d’effectuer un dépôt phéromonal additionnel dans la matrice phéromonale<br />
globale. Par la suite, seule la meilleure conformation prédite <strong>de</strong>puis la<br />
genèse <strong>de</strong> la <strong>colonie</strong> sera conservée. Il y aura donc <strong>de</strong> nouvelles conformations<br />
d’élite différentes à chaque fin <strong>de</strong> cycle.<br />
A la fin <strong>de</strong> l’algorithme, la <strong>colonie</strong> renverra tout simplement la meilleure<br />
conformation protéique prédite. Généralement, cette conformation sera aussi<br />
écrite sur fichier PDB [8] afin <strong>de</strong> pouvoir procé<strong>de</strong>r ensuite à une visualisation<br />
<strong>de</strong> la protéine prédite. On pourra également, dans le cas où la structure native<br />
<strong>de</strong> la protéine est connue, procé<strong>de</strong>r à un calcul RMSD <strong>de</strong> la prédiction avec la<br />
structure native réelle.<br />
Les différentes étapes <strong>de</strong> notre algorithme sont schématisées à la figure 4.1.<br />
4.5 Récapitulatif<br />
Ce chapitre nous a permis <strong>de</strong> passer en revue les diverses spécificités <strong>de</strong><br />
notre algorithme. Ainsi, au fil <strong>de</strong>s différents chapitres <strong>de</strong> cet ouvrage, nous<br />
avons découvert toujours plus en profon<strong>de</strong>ur l’application et le développement<br />
<strong>de</strong> la métaheuristique <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong> au problème <strong>de</strong> la prédiction ab<br />
initio <strong>de</strong> la structure native d’une protéine.<br />
Le chapitre suivant propose donc <strong>de</strong> découvrir quelques réultats obtenus<br />
<strong>par</strong> AC-ProPre. Nous pourons ensuite tirer les conclusions <strong>de</strong> notre travail et<br />
développer quelques perspectives <strong>de</strong> développement futur.
CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 61<br />
Fig. 4.1 – AC-ProPre : déroulement schématique.
Chapitre 5<br />
Tests et résultats<br />
Afin d’évaluer les performances <strong>de</strong> notre algorithme, nous avons effectué<br />
une batterie <strong>de</strong> tests sur les fragment 1 à 35 <strong>de</strong> la protéine 1UBQ, l’ubiquitine. La<br />
structure native <strong>de</strong> cette protéine étant connue, il nous est possible <strong>de</strong> calculer<br />
le RMSD entre notre prédiction et la conformation réelle <strong>de</strong>s fragments 1 à 35<br />
<strong>de</strong> l’ubiquitine.<br />
Afin d’obtenir un maximum d’informations intéressantes, nous avons évi<strong>de</strong>mment<br />
exécuté notre algorithme dans <strong>de</strong> multiples configurations <strong>par</strong>amétriques.<br />
Nous allons donc dans un premier temps découvrir ces configurations<br />
pour ensuite en étudier les résultats.<br />
5.1 Les configurations d’exécution <strong>de</strong> notre algorithme<br />
Nous avons découvert au chapitre précé<strong>de</strong>nt que notre algorithme possè<strong>de</strong><br />
beaucoup <strong>de</strong> <strong>par</strong>amètres pouvant chacun prendre <strong>de</strong> nombreuses valeurs différentes.<br />
Il a donc été nécessaire <strong>de</strong> faire quelques choix afin <strong>de</strong> procé<strong>de</strong>r à nos<br />
tests. Ainsi, nous avons décidé <strong>de</strong> dégager une douzaine <strong>de</strong> configurations <strong>par</strong>amétriques<br />
statiques permettant <strong>de</strong> tester dynamiquement d’autres <strong>par</strong>amètres.<br />
Le premier <strong>par</strong>amètre statique est α, indicateur <strong>de</strong> l’importance relative accordée<br />
aux phéromones locales lors <strong>de</strong> la prise <strong>de</strong> décision d’une fourmi. A<br />
l’instar <strong>de</strong> quelques étu<strong>de</strong>s <strong>par</strong>amétriques réalisées dans le cadre <strong>de</strong> l’application<br />
<strong>de</strong> la métaheuristique <strong>de</strong> type <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong> (comme <strong>par</strong> exemple dans<br />
[28]), ce <strong>par</strong>amètre sera toujours fixé à 1. Par contre, β, qui donne l’importance<br />
relative <strong>de</strong> la valeur heuristique, variera entre 1, 2 et 5. D’un autre côté, nous<br />
avons le facteur <strong>de</strong> persistance phéromonal, ρ, dont la valeur sera <strong>de</strong> 0,6 ou 0,8.<br />
62
CHAPITRE 5. TESTS ET RÉSULTATS 63<br />
Enfin, dans le but <strong>de</strong> tester l’impact <strong>de</strong>s potentiels <strong>de</strong> distances sur la prédiction,<br />
nous avons décidé <strong>de</strong> tantôt utiliser les potentiels ds0 et ds1, tantôt <strong>de</strong> ne pas le<br />
faire.<br />
Pratiquement, nous avons donc créé 12 fichiers exécutables différents proposant<br />
une première configuration <strong>par</strong>amétrique statique définie. En effet, les<br />
<strong>par</strong>amètres α, β et ρ seront invariable tout au long <strong>de</strong> l’exécution d’un <strong>de</strong>s fichiers<br />
exécutables, <strong>de</strong> même que les potentiels ds0 et ds1 seront ou non pris en<br />
compte.<br />
En ce qui concerne les autres <strong>par</strong>amètres, nous les avons fait varier dynamiquement<br />
et <strong>de</strong> la même manière dans chaque exécutable. Ainsi :<br />
– le nombre <strong>de</strong> <strong>fourmis</strong> varie <strong>de</strong> 50 à 500 <strong>par</strong> intervalle <strong>de</strong> 50 ;<br />
– le nombre <strong>de</strong> <strong>fourmis</strong> d’élite prends les valeurs <strong>de</strong> 0.00%, 0.01%, 0.10% et<br />
0.50% du nombre <strong>de</strong> <strong>fourmis</strong> <strong>de</strong> la <strong>colonie</strong> ;<br />
– le facteur d’élitisme prends les valeurs <strong>de</strong> 2, 5 et 10 ;<br />
– et le nombre d’itération est <strong>de</strong> 100, 200 ou 500.<br />
De plus, nous avons fixé le nombre autorisé d’itérations sans modifications à<br />
10% du nombre d’itérations total et à 0.10 l’amélioration énergétique minimale.<br />
Au final, nous obtenons donc 360 configurations dynamiques différentes.<br />
Dès lors, comme il y a 12 configurations statiques d’exécution, nous effectuerons<br />
4320 prédictions. De plus, afin d’avoir un minimum d’aspect statistique pour<br />
nos résultats, nous avons exécuté chaque configuration 5 fois. En résumé, nous<br />
avons effectués 21600 exécutions <strong>de</strong> notre algorithme. Cela dit, découvrons-en<br />
les résultats.<br />
5.2 Résultats obtenus<br />
5.2.1 Evaluation énergétique <strong>de</strong> notre algorithme<br />
Le but à atteindre <strong>par</strong> notre algorithme est, rappelons le, la minimisation <strong>de</strong><br />
la fonction énergétique utlisée. Cela signifie donc que si la configuration prédite<br />
présente une énergie libre minimale, l’objectif primaire sera atteint.<br />
Nous avons donc établi <strong>de</strong>s graphiques reprennant l’énergie libre moyenne<br />
calculée dans une configurations algorithmique bien définie. En ne considérant<br />
dans un premier temps que les configurations ne prenant pas en compte les potentiels<br />
<strong>de</strong> distance, les graphiques <strong>de</strong> la figure 5.1 nous montrent très clairement<br />
que l’énergie minimale est généralement trouvée avec un nombre important <strong>de</strong>
CHAPITRE 5. TESTS ET RÉSULTATS 64<br />
<strong>fourmis</strong>. Malheureusement, aucun <strong>de</strong> ces graphiques ne fait ressortir <strong>de</strong> configuration<br />
préférentielle. Notons toutefois que le nombre d’itérations influe <strong>de</strong><br />
manière générale sur la qualité <strong>de</strong>s conformations prédites. En effet, il ap<strong>par</strong>aît<br />
visiblement que pour tout autre <strong>par</strong>amètre équivalent, la moyenne d’énergie est<br />
plus basse quand le nombre d’itération est à 500.<br />
Ces observations sont valables pour toutes les configurations algorithmiques<br />
ne prenant pas en compte les potentiel <strong>de</strong> distance à l’exception toutefois <strong>de</strong> la<br />
configuration (α = 1, β = 1, ρ = 0.6) (cfr. figure 5.2). En effet, dans ce cas-ci,<br />
les courbes sont plutôt anarchiques et ne présentent aucune pente <strong>par</strong>ticulière.<br />
Cela pourrait s’expliquer <strong>par</strong> un comportement exploratoire trop poussé. En<br />
effet, dans cette configuration-ci, la valeur heuristique n’est pas mise en avant<br />
(β = 1) et la persistence phéromonale est faible.<br />
En ce qui concerne les prédictions effectuées avec la prise en compte <strong>de</strong>s<br />
potentiels <strong>de</strong> distance, un comportement similaire se dégage avec néanmoins<br />
quelques nuances (cfr. figur 5.3). Premièrement, il est flagrant que l’énergie libre<br />
globale moyenne <strong>de</strong>s prédictions effectuées dans ce cas-ci sont toutes suppérieures<br />
à celle calculée sans la prise en compte <strong>de</strong>s potentiels <strong>de</strong> distance. Cela<br />
s’explique simplement <strong>par</strong> le fait que les potentiels <strong>de</strong> distance prennent en<br />
compte les distances spatiales et sont donc difficiles à minimiser.<br />
A nouveau, certaines configurations (celles avec β = 1) présentent <strong>de</strong>s<br />
courbes plutôt anarchique (cfr. figure 5.4). A nouveau, cela s’explique <strong>par</strong> un<br />
comportement probablement trop exploratoire.<br />
5.2.2 Calcul du RMSD<br />
En ce qui concerne l’évaluation <strong>par</strong> RMSD <strong>de</strong> nos prédictions, les résultats<br />
ont fort probablement souffert suite au calcul <strong>de</strong> la moyenne <strong>de</strong>s résultats d’une<br />
configuration équivalente. En effet, lors <strong>de</strong>s cinq exécutions à configuration<br />
i<strong>de</strong>ntique, l’écart entre le RMSD le plus petit et le RMSD le plus élevé était<br />
généralement élevé. Ainsi, aucune moyenne intéressante ne ressort <strong>de</strong> notre<br />
analyse. Par exemple, nous constatons que la figure 5.5 offre <strong>de</strong>s RMSD moyen<br />
compris entre 8Å et 16Å, ce qui est assez élevé.<br />
Par ailleurs, on aurait pu s’attendre à ce que la prise en compte <strong>de</strong>s potentiels<br />
<strong>de</strong> distance améliore sensiblement le résultat du calcul RMSD. En effet, il serait<br />
logique que <strong>de</strong> <strong>par</strong> la prise en compte <strong>de</strong>s interactions spatiales, une structure<br />
prédite présente plus <strong>de</strong> similitu<strong>de</strong>s avec la structure réelle <strong>de</strong> la protéine étudiée.<br />
Malheureusement ce n’est pas du tout le cas, les courbes RMSD <strong>de</strong> toutes
CHAPITRE 5. TESTS ET RÉSULTATS 65<br />
Fig. 5.1 – Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec une<br />
configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.8, ds0 et ds1 ne sont pas pris en compte).<br />
Les graphique allignés se passent à un nombre d’itérations équivalent et les<br />
graphiques en colonne ont le même facteur d’élitisme. Les quatres courbes<br />
représentent chacune un nombre <strong>de</strong> <strong>fourmis</strong> d’élite différent.
CHAPITRE 5. TESTS ET RÉSULTATS 66<br />
Fig. 5.2 – Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec une<br />
configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.6, ds0 et ds1 ne sont pas pris en compte). Dans<br />
ce cas-ci, les diverses courbe montrent un comportement tout à fait dis<strong>par</strong>ate.
CHAPITRE 5. TESTS ET RÉSULTATS 67<br />
Fig. 5.3 – Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />
une configuration <strong>de</strong> (α = 1, β = 2, ρ = 0.8, ds0 et ds1 sont pris en compte).<br />
Les graphique allignés se passent à un nombre d’itérations équivalent et les<br />
graphiques en colonne ont le même facteur d’élitisme. Les quatres courbes<br />
représentent chacune un nombre <strong>de</strong> <strong>fourmis</strong> d’élite différent.
CHAPITRE 5. TESTS ET RÉSULTATS 68<br />
Fig. 5.4 – Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec une<br />
configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.6, ds0 et ds1 sont pris en compte). Dans ce<br />
cas-ci, les diverses courbe montrent un comportement tout à fait dis<strong>par</strong>ate.
CHAPITRE 5. TESTS ET RÉSULTATS 69<br />
les configurations utilisées présentent la même allure que celle montrée en figure<br />
5.5.<br />
Par contre, l’observation <strong>de</strong>s résultats obtenus individuellement montre que<br />
59% <strong>de</strong>s RMSD inférieurs à 6Å sont obtenus lors <strong>de</strong> la prise en considération <strong>de</strong>s<br />
potentiels <strong>de</strong> distance. Dès lors, au vu <strong>de</strong>s résultats <strong>de</strong> cette section et <strong>de</strong> la section<br />
précé<strong>de</strong>nte, il est légitime <strong>de</strong> se <strong>de</strong>man<strong>de</strong>r dans quelle mesure il ne faudrait pas<br />
accor<strong>de</strong>r un poids prépondérant aux potentiels <strong>de</strong> distance. En effet, il se pourrait<br />
que dans notre algorithme, les valeurs énergétiques calculées <strong>par</strong> les potentiels<br />
<strong>de</strong> distance n’aient qu’une toute petite influence sur l’énergie libre globale <strong>de</strong> la<br />
protéine. Rappelons nous d’ailleurs que l’impact <strong>de</strong>s potentiels <strong>de</strong> tortions tt0<br />
et ttt1 est volontairement déiminué dans notre algorithme, afin justement <strong>de</strong> ne<br />
pas favoriser les interactions locales au détriment <strong>de</strong>s interactions spatiales !<br />
Pour conclure cette section, il est tout <strong>de</strong> même important <strong>de</strong> relever le<br />
meilleur RMSD calculé sur une <strong>de</strong> nos prédiction. En effet, nous avons obtenus<br />
une conformation protéique présentant un RMSD <strong>de</strong> 3,52Å avec la structure<br />
native correspondante, ce qui est assez encourageant ! A titre com<strong>par</strong>atif, [18]<br />
obtient, pour le même fragment <strong>de</strong> protéine, un RMSD minimal <strong>de</strong> 3,1Å. Bien<br />
entendus, les outlis et métho<strong>de</strong>s utilisés sont différents mais le résultat est là.<br />
5.2.3 RMSD Vs énergie libre<br />
Une question intéressante serait <strong>de</strong> se <strong>de</strong>man<strong>de</strong>r quelle est la correspondance<br />
entre les meilleurs RMSD et les meilleurs énergies libre. Cette question permet<br />
en fait d’évaluer la qualité <strong>de</strong>s fonctions énergétiques utilisées. En effet, dans<br />
le cas ou ces fonctions sont <strong>par</strong>faites, obtenir une structure d’énergie minimale<br />
garantirait un RMSD faible.<br />
Les schémas ci-<strong>de</strong>ssous (cfr. figure 5.6) nous montrent ce que donne une<br />
telle com<strong>par</strong>aison. Le premier reprend l’intégralité <strong>de</strong>s résultats obtenus pour<br />
les 10800 exécutions ne prenant pas en compte les potentiels <strong>de</strong> distance. Néanmoins,<br />
le schéma correspondant dans le cas où ces potentiels serait actifs et tout<br />
à fait semblable.<br />
Afin d’y voir plus clair, nous avons isolé les RMSD inférieurs à 7Å ce qui<br />
donne le schéma <strong>de</strong> la figure 5.6(b). Nous constatons donc que pour une même<br />
énergie libre, les RMSD peuvent être différent ! Cela montre clairement l’imperfection<br />
<strong>de</strong>s fonctions énergétiques utilisées ainsi que l’impact <strong>de</strong> la limitation <strong>de</strong><br />
notre algorithme à 8 potentiels <strong>de</strong> <strong>de</strong>ux types différents. En effet, d’autres types<br />
<strong>de</strong> potentiels existent et pourraient peut-être améliorer ces résultats.
CHAPITRE 5. TESTS ET RÉSULTATS 70<br />
Fig. 5.5 – Graphiques du RMSD moyen <strong>de</strong>s prédictions effectuées avec une<br />
configuration <strong>de</strong> (α = 1, β = 5, ρ = 0.8, ds0 et ds1 sont pris en compte). L’allure<br />
<strong>de</strong> ces courbes n’évoque rien <strong>de</strong> <strong>par</strong>ticulier.
CHAPITRE 5. TESTS ET RÉSULTATS 71<br />
Les observations effectuées ci-<strong>de</strong>ssus nous permettent <strong>par</strong> contre <strong>de</strong> mieux<br />
comprendre la diversité <strong>de</strong>s résultats RMSD et donc les valeurs moyennes élevées<br />
obtenue pour ces résultats. A nouveau, la question d’une pondération<br />
<strong>par</strong>ticulière accordée à certains potentiel peut être soulevée.<br />
Fig. 5.6 – Graphiques <strong>de</strong> com<strong>par</strong>aison entre le RMSD et l’énergie libre d’une<br />
conformation prédite : (a) prise en compte <strong>de</strong> toute les prédictions effectuées<br />
sans considération <strong>de</strong>s potentiels <strong>de</strong> distance, (b) limitation aux prédictions<br />
présentant un RMSD inférieur à 7Å.<br />
A titre quantitatif, voici les cinq meilleurs scores énergétiques et leurs RMSD<br />
associé dans le cas où les potentiels <strong>de</strong> torsions ne sont pas pris en compte :<br />
Energie libre RMSD<br />
-34,8138 11,5475<br />
-34,5582 15,9341<br />
-34,3296 15,2262<br />
-33,8029 10,0224<br />
-33,6585 15,58<br />
et le meilleur RMSD (3,9989Å) possè<strong>de</strong> un score énergétique <strong>de</strong> -20,5775 !<br />
En considérant les potentiels <strong>de</strong> distances nous obtenons le tableau suivant :
CHAPITRE 5. TESTS ET RÉSULTATS 72<br />
Energie libre RMSD<br />
-26,0189 9,9723<br />
-25,5462 9,6658<br />
-24,7493 14,4044<br />
-24,0495 14,8154<br />
-23,8619 13,8676<br />
et le meilleur RMSD (3,5222Å) possè<strong>de</strong> un score énergétique <strong>de</strong> -10,6868 !<br />
5.3 Notre meilleure prédiction : une RMSD <strong>de</strong> 3,5222Å<br />
Pour terminer en beauté, découvrons les étapes intermédiaires <strong>de</strong> notre<br />
meilleure prédiction. Le tableaux ci-<strong>de</strong>ssous reprends l’évolution <strong>de</strong> notre prédiction<br />
en ce qui concerne les RMSD et le score énergétique. Notons que nous<br />
avons pu procé<strong>de</strong>r à la réexécution <strong>de</strong> cette simulation grâce à la sauvegar<strong>de</strong> du<br />
numéro aléatoire généré <strong>par</strong> une fonction interne au angage C++. La prédiction<br />
a donc fourni les résultats suivants :<br />
Cycle Energie libre RMSD<br />
1 29,182 9,51864<br />
11 7,71167 10,5208<br />
21 3,49845 9,18431<br />
31 3,49845 9,18431<br />
41 -9,41256 10,4728<br />
51 -9,41256 10,4728<br />
61 -9,41256 10,4728<br />
71 -9,41256 10,4728<br />
81 -9,41256 10,4728<br />
91 -10,6507 5,55853<br />
101 -10,6507 5,55853<br />
111 -10,6507 5,55853<br />
121 -10,6507 5,55853<br />
131 -10,6868 3,52219<br />
140 -10,6868 3,52219<br />
Pour remettre cette prédiction dans son contexte, signalons qu’elle a été obtenue<br />
<strong>par</strong> une <strong>colonie</strong> <strong>de</strong> 100 <strong>fourmis</strong> dont la moité étaient <strong>de</strong>s <strong>fourmis</strong> d’élite. Le<br />
facteur d’élitisme était <strong>de</strong> 5, ce qui implique une sérieuse prise en compte <strong>de</strong>s
CHAPITRE 5. TESTS ET RÉSULTATS 73<br />
meilleurs résultat <strong>de</strong> chaque cycle ! En ce qui concerne les autres <strong>par</strong>amètre, α<br />
et β étaient à 1, ρ à 0,6. Enfin, le nombre d’itération maximal était fixé à 500.<br />
En image, la figure 5.7 nous montre la prédiction effectuée <strong>par</strong> AC-ProPre<br />
et la figure 5.8 la structure native réelle <strong>de</strong> l’ubiquitine (résidu 1-35). Enfin, la<br />
figure 5.9 nous montre ce que donne la meilleure superposition <strong>de</strong> ces <strong>de</strong>ux<br />
conformations tridimentionnelles.<br />
Fig. 5.7 – Représentation <strong>de</strong> la structure tertiaire <strong>de</strong> la prédiction effectuée <strong>par</strong><br />
AC-ProPre.
CHAPITRE 5. TESTS ET RÉSULTATS 74<br />
Fig. 5.8 – Représentation <strong>de</strong> la structure tertiaire <strong>de</strong> l’ubiquitine (résidu 1-35).
CHAPITRE 5. TESTS ET RÉSULTATS 75<br />
Fig. 5.9 – Supperposition <strong>de</strong> la conformation simulée <strong>par</strong> AC-ProPre avec la<br />
conformation native connue.
Conclusion<br />
De nombreuses métho<strong>de</strong>s <strong>de</strong> prédiction <strong>de</strong> la structure native d’une protéine<br />
existent à ce jour. Parmi elles, la métaheuristique d’optimisation <strong>par</strong> <strong>colonie</strong> <strong>de</strong><br />
<strong>fourmis</strong> propose un moyen <strong>par</strong>ticulier pour résoudre ce problème. Basé sur la<br />
communication indirecte entre les agents <strong>de</strong> recheche (les <strong>fourmis</strong> artificielles),<br />
cette métho<strong>de</strong> a déjà connu diverses implémentations, les plus fréquentes ayant<br />
été réalisées sur un modèle réseau utilisant comme représentation <strong>de</strong> la protéine<br />
le modèle HP [16, 36].<br />
Cet ouvrage a présenté une nouvelle implémentation <strong>de</strong> cette métaheuristique<br />
faisant usage d’un modèle hors réseaux et d’une représentation détaillée<br />
<strong>de</strong> la protéines et <strong>de</strong>s aci<strong>de</strong>s aminés la composant. Le but recherché était d’appliquer<br />
une métho<strong>de</strong> <strong>de</strong> recherche performante sur une modélisation fine du<br />
problème.<br />
Malgrés ses nombreux avantages, la métaheuristique d’optimisation <strong>par</strong> <strong>colonie</strong><br />
<strong>de</strong> fourmi nécessite un temps considérable en tests afin d’en déterminer la<br />
configuration <strong>par</strong>amétrique. Nous avons donc effectué quelques choix afin <strong>de</strong><br />
procé<strong>de</strong>r à <strong>de</strong>s test qui nous semblaient intéressants. Les résultats <strong>de</strong> ces tests<br />
sont extrèmement encourageant pour un premier essai. En effet, <strong>de</strong>s prédictions<br />
tout à fait valables ont eu lieu.<br />
Malheureusement, nous n’imaginions pas l’étendue <strong>de</strong>s tests faisables ainsi<br />
que l’influence <strong>de</strong>s métho<strong>de</strong>s statistiques sur les résultats obtenus. Ainsi, <strong>de</strong><br />
nomreux essais et expériences sont encore à faire. Une perspective intéressante<br />
serait <strong>de</strong> permettre l’autoadaptativité <strong>de</strong> nos <strong>par</strong>amètres. Cette métho<strong>de</strong> propose<br />
<strong>de</strong> faire <strong>de</strong> la configuration <strong>par</strong>amétrique une série <strong>de</strong> variable directement<br />
modifiable <strong>par</strong> l’algorithme en cours, en fonction <strong>de</strong>s résultats obtenus.<br />
Une autre idée serait <strong>de</strong> procé<strong>de</strong>r à la <strong>par</strong>amétrisation <strong>de</strong> l’algorithme sur<br />
base <strong>de</strong>s résultats fournis <strong>par</strong> le calcul RMSD. Bien entendu, cela ne sera faisable<br />
que dans le cas d’une protéine dont la structure native est connue. Une fois<br />
que <strong>de</strong>s <strong>par</strong>amètres satisfaisants auront été dégagé, les performances atteintes<br />
76
Conclusion 77<br />
pour une protéine du même ordre <strong>de</strong> gran<strong>de</strong>ur que celle ayant servi à la <strong>par</strong>amétrisation<br />
seraient probablement élevées. Il sera ainsi intéressant d’étudier<br />
le comportement <strong>de</strong> AC-ProPre dans le cas <strong>de</strong> protéines plus importantes ou<br />
présentant <strong>de</strong>s caractéristiques <strong>par</strong>ticulières.<br />
Il serait également possible <strong>de</strong> modifier le fonctionement <strong>de</strong> notre algorithme<br />
en faisant <strong>de</strong>s choix stratégiques différents. En effet, il est certain que le comportement<br />
<strong>de</strong>s <strong>fourmis</strong> sera modifié en fonction <strong>de</strong> la stratégie <strong>de</strong> dépôt phéromonal<br />
utilisée. De plus, le calcul <strong>de</strong> la valeur heuristique pourrait se baser sur d’autres<br />
données permettant ainsi une exploration différente <strong>de</strong> l’espace conformationnel.<br />
Un <strong>de</strong>rnier point intéressant serait d’utiliser ce genre <strong>de</strong> métho<strong>de</strong> pour déterminer<br />
la robustesse <strong>de</strong>s fonctions énergétiques. En effet, comme nous le découvrions<br />
dans le chapitre précé<strong>de</strong>nt, une fonction énergétique idéale <strong>de</strong>vrait<br />
permettre d’obtenir, en fonction <strong>de</strong> sa minimisation, un RMSD également minimal.<br />
Notre travail constite donc une première étape fortement intéressante dans<br />
l’implémentation <strong>de</strong> métaheuristiques <strong>de</strong> recherche utilisant une représentation<br />
détaille <strong>de</strong> la protéine ainsi que <strong>de</strong> l’espace conformationnel dans lequel elle<br />
évolue.
Bibliographie<br />
[1] T.E. Creighton. Proteins : structure and molecular properties. W.H. Freeman<br />
and Company, New York, 1993.<br />
[2] J-PA. Kocher, MJ. Rooman, and SJ. Wodack. Factors influencing the ability of<br />
knowledge-based potentials to i<strong>de</strong>ntify native sequence-structure matches.<br />
J. Mol. Biol., 234 :1598–1613, 1994.<br />
[3] C. Levinthal. Mossbauer spectroscopy in biological systems. In How to fold<br />
graciously, pages 22–24. Debrunner, P. and Tsibris J. and Munk, E. editors,<br />
1969.<br />
[4] Nora Benhabilès, Annick Thomas, and Robert Brasseur. Les méchanismes<br />
<strong>de</strong> repliements <strong>de</strong>s protéines solubles. Biotechnol. Agron. Soc. Environ.,<br />
4(2) :71–81, March 2000.<br />
[5] J.N. Onuchic, H. Nymeyer, A.E. Garcia, J. Chahine, and N.D. Socci. The<br />
energy landscape theory of protein folding : insights into folding mechanisms<br />
and scenarios. Advances in protein Chemistry, 53 :87–152, 2000.<br />
[6] HS. Chan and KA. Dill. Protein folding in the landscape perspective :<br />
chevron plots and non-arrhenius kinetics. Proteins : Struct. Funct. Genet.,<br />
30 :2–33, 1998.<br />
[7] HS. Chan and KA. Dill. From levinthal to pathways to tunnels. Nat. Stru.<br />
Biol., 4 :1O–19, 1997.<br />
[8] H.M. Berman, J. Westbrook, Z. Freng, G Gililand, H. Bhat, T.N. ans Weissig,<br />
I.N. Shindyalov, and P.E. Bourne. The protein data bank. Nucleic Acids<br />
Research, 28 :235–242, 2000.<br />
[9] G. Wagner, S.G. Hyberts, and T.F. Havel. Nmr structure <strong>de</strong>termination in<br />
solution :a critique and com<strong>par</strong>ison with x-ray crystallography. Annual<br />
Review of Biophysics and Biomolecular Structure, 21 :167–198, 1992.<br />
78
BIBLIOGRAPHIE 79<br />
[10] G. Wi<strong>de</strong>r. Structure <strong>de</strong>termination of biological macromolecules in solution<br />
using nuclear magnetic resonance spectroscopy. Biotechniques, 29 :1278–<br />
1290, 2000.<br />
[11] J. Kubelka, J. Hofrichter, and WA. Easton. The protein folding speed limit.<br />
Current Opinion in Structural Biology, 14 :76–88, 2004.<br />
[12] AC. May and TL. Blun<strong>de</strong>ll. Automated com<strong>par</strong>ative mo<strong>de</strong>lling of protein<br />
structures. Current Opinion in Biotechnology, 5 :355–360, 1994.<br />
[13] A. Godzik. Fold recognition methods. Methods in Biochemical Analysis,<br />
44 :525–546, 2003.<br />
[14] MJ. Rooman, J-PA. Kocher, and SJ. Wodak. Prediction of protein backbone<br />
conformation based on 7 structure assignments : influence of local<br />
interaction. J. Mol. Biol., 221 :961–979, 1991.<br />
[15] L. Holm and C. San<strong>de</strong>r. Dali/fssp classification of three-dimensional protein<br />
folds. Nucleic Acids Res., 25(1) :231–234, 1997.<br />
[16] KA. Dill, S. Bornberg, K. Yue, Y. Fiebig, D. Yee, P. Thomas, and H. Chan.<br />
Principles of protein folding - a perspective from simple exact mo<strong>de</strong>ls.<br />
Protein Science, 4 :561–602, 1995.<br />
[17] M. Levitt. A simplified representation of protein conformation for rapid<br />
simulation of protein folding. J MOL Biol, 104 :59–107, 1976.<br />
[18] D. Gilis and M. Rooman. I<strong>de</strong>ntification and ab initio simlations of early<br />
folding units in protins. Proteins : Struct. Funct. Genet., 42 :164–176, 2001.<br />
[19] N. Metropolis, AW. Rosenbluth, MN. Rosenbluth, and AH. Teller. Equation<br />
of state calculation by fast computing machines. J. Chem. Phys., 21 :21087–<br />
1092, 1953.<br />
[20] S. Kirkpatrick, CD. Jr Gelatt, and MP. Vecchi. Optimization by simulated<br />
annealing. Science, 220 :671–680, 1983.<br />
[21] V. Granville, M. Krivanek, and J.P. Rasson. Simlated annealing : A proof of<br />
convergence. IEEE Transactions on Pattern Analysis and Machine Intelligence,<br />
16(6) :652–656, 1994.<br />
[22] A. Colorni, M. Dorigo, F. Maffioli, V. Maniezzo, G. Righini, and M. Trubian.<br />
Heuristics from nature for hard combinatorial optimization problems. International<br />
Transaction in Operational Research, 3(2) :1–21, 1996.<br />
[23] Glover F. Tabu search : a tutorial. Special Issue on the practice of Mathematical<br />
Programming - Interfaces, 20(1) :74–94, 1990.
BIBLIOGRAPHIE 80<br />
[24] DE. Goldberg. Genetic Algorithms in Search, Optimization, and Machine Learning.<br />
Addison Wesley, 1989.<br />
[25] S. Ben Hamida. <strong>Algorithme</strong>s évolutionnaires : prise en compte <strong>de</strong>s contraintes et<br />
applications réelles. Paris-Sud XI, 2001.<br />
[26] JL. Deneubourg, JM. Pasteels, and Verhaeghe JC. Probabilistic behaviour in<br />
ants : a strategy of errors ? Journal of Theoretical Biology, 105 :259–271, 1983.<br />
[27] A. Colorni, M. Dorigo, and V. Maniezzo. Distributed optimization by ant<br />
<strong>colonie</strong>s. In Proceedings of European Conference on Artificial Life, pages 134–<br />
142, 1991.<br />
[28] A. Colorni, M. Dorigo, and V. Maniezzo. An investigation of some properties<br />
of an ant algorithm. In Proceedings of the Parallel Problem Solving from<br />
Nature Conference, pages 509–520, 1992.<br />
[29] M. Dorigo, G. Di Caro, and LM. Gambar<strong>de</strong>lla. Ant algorithms for discrete<br />
optimization. Artificial Life, 5(3) :137–172, 1999.<br />
[30] M. Dorigo. Parallel ant system : An experimental study. Unpublished manuscript,<br />
1993.<br />
[31] MG. Norman and P. Moscato. A competitive-cooperative approach to complex<br />
combinatorial search. In Proceedings of the 20th Joint Conference on<br />
Information and O.R., pages 315–329, 1991.<br />
[32] D. Beyer and R. Ogier. Tabu learning : a neural network search method for<br />
solving nonconvex optimization problem. In Proceedings of the International<br />
Joint Conference on Neural Network, 1991.<br />
[33] G. Ramachandran and V. Sasilekharan. Conformation of pepti<strong>de</strong>s and<br />
proteins. Adv. Protein Chem., 23 :283–438, 1968.<br />
[34] MJ. Rooman, J-PA. Kocher, and SJ. Wodak. Extracting information on folding<br />
from the amino acid sequence : accurate prediction for protein regions<br />
with preferred conformation in the abscence of tertiary interactions. Biochemistry,<br />
31 :10226–10238, 1992.<br />
[35] Y. Dehouck, D. Gilis, and M. Rooman. A new generation of statistical<br />
potentials for proteins. Biophys J., 90(11) :4010–4017, June 2006.<br />
[36] A. Shmygelska and HH. Hoos. An ant colony optimisation algorithme for<br />
the 2d and 3d hydrophobic polar protein folding problem. BMC Bioinformatics,<br />
6 :30–51, 2005.<br />
[37] K. Bra<strong>de</strong>n. A simple approach to protein structure prediction using genetic<br />
algorithms. Stanford University, CS 426 :36–44, 2002.